このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。
公開日が20210422となっている論文です。
Title | Authors | Abstract | 論文公表日・翻訳日 |
---|---|---|---|
# 非エルミート局在の非ユニタリスケーリング理論 Nonunitary Scaling Theory of Non-Hermitian Localization ( http://arxiv.org/abs/2005.00604v2 ) ライセンス: Link先を確認 | Kohei Kawabata, Shinsei Ryu | (参考訳) 非遺伝性はアンダーソン局在を破壊でき、1次元においても非局在化を引き起こす。
しかし、非エルミート非局在化の統一的な理解はまだ確立されていない。
本稿では,非エルミート系における局所化のスケーリング理論を開発する。
我々は,非ハーミティシティが新しいスケールを導入し,従来の局所化のスケーリング理論の中心的前提である1パラメータスケーリングを分解することを明らかにした。
その代わり、非エルミート非局所化の起源を2パラメータスケーリングとして同定する。
さらに, 相互関係に基づく非エルミート局在の3次元普遍性を確立し, 相互関係は内部自由度を伴わない非局在化を禁じる一方, シンプレクティック相互性は新たなタイプの対称性保護非局在化をもたらす。 Non-Hermiticity can destroy Anderson localization and lead to delocalization even in one dimension. However, the unified understanding of the non-Hermitian delocalization has yet to be established. Here, we develop a scaling theory of localization in non-Hermitian systems. We reveal that non-Hermiticity introduces a new scale and breaks down the one-parameter scaling, which is the central assumption of the conventional scaling theory of localization. Instead, we identify the origin of the unconventional non-Hermitian delocalization as the two-parameter scaling. Furthermore, we establish the threefold universality of non-Hermitian localization based on reciprocity; reciprocity forbids the delocalization without internal degrees of freedom, whereas symplectic reciprocity results in a new type of symmetry-protected delocalization. | 翻訳日:2023-05-21 14:50:48 公開日:2021-04-22 |
# 量子制限ジョセフソン接合周波数コムシンセサイザー Nearly quantum-limited Josephson-junction Frequency Comb synthesizer ( http://arxiv.org/abs/2005.10193v2 ) ライセンス: Link先を確認 | Pinlei Lu, Saeed Khan, Tzu-Chiao Chien, Xi Cao, Olivia T. Lanes, Chao Zhou, Hakan E. T\"ureci, and Michael J. Hatridge | (参考訳) コヒーレント駆動のKerrマイクロキャビティは、周波数コム形成の基盤として急速に成熟しているが、そのようなマイクロ共振器は一般的に弱いKerr係数を持つため、数百万光子がキャビティ内で循環する必要がある。
これにより、コームの動力学における量子揺らぎの役割が抑制される。
本稿では、量子真空のゆらぎがコームコヒーレンスの主要な制限となる回路qedアーキテクチャにおいて、コヒーレント駆動のkerrによるマイクロ波周波数コムの最小バージョンを実現する。
我々は、最大35〜$\mu$sのコム位相コヒーレンスを達成し、理論装置の量子限界55〜$\mu$sに近づき、モード固有の寿命13〜nsよりもはるかに長い。
cqedにおける光マイクロ共振器よりも強い非線形性の設計能力、極低温での演算、量子理論とのコンボダイナミクスの優れた一致は、量子非線形系の複素ダイナミクスの研究に有望な基盤を示している。 While coherently-driven Kerr microcavities have rapidly matured as a platform for frequency comb formation, such microresonators generally possess weak Kerr coefficients; consequently, triggering comb generation requires millions of photons to be circulating inside the cavity. This suppresses the role of quantum fluctuations in the comb's dynamics. In this paper, we realize a minimal version of coherently-driven Kerr-mediated microwave frequency combs in the circuit QED architecture, where the quantum vacuum's fluctuations are the primary limitation on comb coherence. We achieve a comb phase coherence of up to 35~$\mu$s, approaching the theoretical device quantum limit of 55~$\mu$s, and vastly longer than the modes' inherent lifetimes of 13~ns. The ability within cQED to engineer stronger nonlinearities than optical microresonators, together with operation at cryogenic temperatures, and excellent agreement of comb dynamics with quantum theory indicates a promising platform for the study of complex dynamics of quantum nonlinear systems | 翻訳日:2023-05-19 05:51:41 公開日:2021-04-22 |
# 量子ナノフォトニクスによる表面結合原子の探索 Probing Surface-Bound Atoms with Quantum Nanophotonics ( http://arxiv.org/abs/2006.12855v2 ) ライセンス: Link先を確認 | Daniel H\"ummer, Oriol Romero-Isart, Arno Rauschenbeutel, and Philipp Schneeweiss | (参考訳) 表面から超短距離の原子の量子制御は、量子光学の新しいパラダイムを開き、表面近傍物理学の研究のための新しいツールを提供する。
ここでは、熱い光ナノファイバーの表面と弱結合している原子の運動状態について検討する。
理論的には、これらの状態はフォノン誘起デコヒーレンスにもかかわらず量子化される。
さらに, ナノファイバー誘導光場の追加によりそれらの特性に影響を与え, 量子化原子運動のスペクトルを調べるためにヘテロダイン蛍光分光法を提案できることを示した。
原子の光学制御をより小さな原子表面分離に拡張することは、量子通信の機会を生み出し、表面物理学、量子光学、冷原子物理学の収束を阻害する可能性がある。 Quantum control of atoms at ultrashort distances from surfaces would open a new paradigm in quantum optics and offer a novel tool for the investigation of near-surface physics. Here, we investigate the motional states of atoms that are bound weakly to the surface of a hot optical nanofiber. We theoretically demonstrate that with optimized mechanical properties of the nanofiber these states are quantized despite phonon-induced decoherence. We further show that it is possible to influence their properties with additional nanofiber-guided light fields and suggest heterodyne fluorescence spectroscopy to probe the spectrum of the quantized atomic motion. Extending the optical control of atoms to smaller atom-surface separations could create opportunities for quantum communication and instigate the convergence of surface physics, quantum optics, and the physics of cold atoms. | 翻訳日:2023-05-13 01:02:27 公開日:2021-04-22 |
# スピン鎖と層を結合したタイプIIフラクトン Type-II fractons from coupled spin chains and layers ( http://arxiv.org/abs/2007.07894v2 ) ライセンス: Link先を確認 | Dominic J. Williamson, Trithep Devakul | (参考訳) 本稿では、下位対称性の観測と密接な関係にある、結合した下位次元対称性保護位相秩序からの位相秩序の構成について述べる。
提案手法は,従来のトポロジカル秩序と,タイプIおよびタイプIIのエキゾチックフラクトントポロジカル秩序の両方をもたらす。
特に、ハアの立方体符号の結合スピン鎖構造と吉田のフラクタルスピン液体の結合層構造を見出した。 We describe a construction of topological orders from coupled lower dimensional symmetry-protected topological orders, which is closely related to gauging a subsystem symmetry. Our construction yields both conventional topological orders and exotic fracton topological orders of type-I and type-II. In particular, we find a coupled spin chain construction of Haah's cubic code, and a coupled layer construction of Yoshida's fractal spin liquids. | 翻訳日:2023-05-09 09:02:58 公開日:2021-04-22 |
# 開量子系における同期と非マルコフ性 Synchronization and Non-Markovianity in open quantum systems ( http://arxiv.org/abs/2008.03310v2 ) ライセンス: Link先を確認 | G\"oktu\u{g} Karpat, \.Iskender Yal\c{c}{\i}nkaya, Bar{\i}\c{s} \c{C}akmak, Gian Luca Giorgi, Roberta Zambrini | (参考訳) 整列系は同期ダイナミクスを自発的に達成し、異なる局所的および大域的散逸状態においてロバストな量子相関を示すことができる。
マルコフの限界を超えて、環境からの情報逆流は自然同期との相互作用が不明な重要なメカニズムとなる。
2つの結合量子ビットのモデルを考えると、そのうちの1つは消散的環境と相互作用し、非マルコビアン性は同期の出現に非常に有害であり、後者は情報逆流の存在により遅延し妨げられる。
その結果, 主方程式のアプローチと繰り返し相互作用に基づく衝突モデルの両方を考慮し, 所望の環境を調整できる非常に汎用的なツールであることを示す。 Detuned systems can spontaneously achieve a synchronous dynamics and display robust quantum correlations in different local and global dissipation regimes. Beyond the Markovian limit, information backflow from the environment becomes a crucial mechanism whose interplay with spontaneous synchronization is unknown. Considering a model of two coupled qubits, one of which interacts with a dissipative environment, we show that non-Markovianity is highly detrimental for the emergence of synchronization, for the latter can be delayed and hindered because of the presence of information backflow. The results are obtained considering both a master equation approach and a collision model based on repeated interactions, which represents a very versatile tool to tailor the desired kind of environment. | 翻訳日:2023-05-06 21:45:28 公開日:2021-04-22 |
# 分配規則による3つの量子状態の部分的絡み合いの基準 Criteria for partial entanglement of three qubit states arising from distributive rules ( http://arxiv.org/abs/2010.01599v3 ) ライセンス: Link先を確認 | Kyung Hoon Han, Seung-Hyeok Kye | (参考訳) 部分的絡み合い/分離性は凸船体と交叉の操作に関して分配規則に違反していることが知られている。
本稿では,分配規則から生じる3つのクビット部分絡み状態の基準と,対応する証人について述べる。
基準は対角線と反対角線で与えられる。
これらは実際には、対角成分と対対角成分を除いて全てのエントリがゼロであるときに、それらの部分的絡み合いを完全に特徴付ける。
greenberger-horne-zeilinger対角状態のような重要な状態はこのクラスに落ちる。 It is known that the partial entanglement/separability violates distributive rules with respect to the operations of taking convex hull and intersection. In this note, we give criteria for three qubit partially entangled states arising from distributive rules, together with the corresponding witnesses. The criteria will be given in terms of diagonal and anti-diagonal entries. They actually characterize those partial entanglement completely when all the entries are zero except for diagonal and anti-diagonal entries. Important states like Greenberger-Horne-Zeilinger diagonal states fall down in this class. | 翻訳日:2023-04-30 00:28:34 公開日:2021-04-22 |
# 異方性ハイゼンベルク量子鎖における磁気ソリトンの半古典量子化 Semi-classical quantisation of magnetic solitons in the anisotropic Heisenberg quantum chain ( http://arxiv.org/abs/2010.07232v6 ) ライセンス: Link先を確認 | Yuan Miao, Enej Ilievski, Oleksandr Gamayun | (参考訳) algebro-geometricアプローチを用いて,弱異方性量子ハイゼンベルクスピン鎖における半古典的固有状態の構造の研究を行った。
異方性ランダウ・リフシッツ方程式が支配する古典的非線形スピン波が強磁性基底状態のコヒーレントなマクロ低エネルギーゆらぎとしてどのように発生するかを概説する。
特別に強調されるのは、必要運動と楕円磁化波を記述する最も単純なタイプの解である。
古典スピン波の内部マグノン構造はリーマン・ヒルベルト問題を用いて半古典量子化を行うことで解決される。
本稿では、2つの半古典的固有状態の重なりを表す式を示し、半古典的レベルの相関関数が古典的位相空間平均化からどのように生じるかについて議論する。 Using the algebro-geometric approach, we study the structure of semi-classical eigenstates in a weakly-anisotropic quantum Heisenberg spin chain. We outline how classical nonlinear spin waves governed by the anisotropic Landau-Lifshitz equation arise as coherent macroscopic low-energy fluctuations of the ferromagnetic ground state. Special emphasis is devoted to the simplest types of solutions, describing precessional motion and elliptic magnetisation waves. The internal magnon structure of classical spin waves is resolved by performing the semi-classical quantisation using the Riemann-Hilbert problem approach. We present an expression for the overlap of two semi-classical eigenstates and discuss how correlation functions at the semi-classical level arise from classical phase-space averaging. | 翻訳日:2023-04-29 02:47:08 公開日:2021-04-22 |
# ランダム化測定による境界エンタングルメント Bound entanglement from randomized measurements ( http://arxiv.org/abs/2010.08372v2 ) ライセンス: Link先を確認 | Satoya Imai, Nikolai Wyderka, Andreas Ketterer, Otfried G\"uhne | (参考訳) 多粒子量子システムに対する限られた制御しか利用できない場合、相関を特徴づける実行可能な方法はランダムな測定を行い、結果の確率分布のモーメントを考えることである。
本稿では,これらのモーメントと異なる形態の絡み合いを最適化して解析する手法を提案する。
まず、ランダム化測定の第2モーメントを用いて、3量子系における異なる形の多粒子絡み合いの最適基準を求める。
第二に、多ビット系の二分割における絡み合いがこれらのモーメントの観点から解析される場合、最適不等式を示す。
最後に、高次元の2粒子系と高次元のモーメントに対して、有界絡み状態の様々な例を特徴付けることができる基準を提供し、この枠組みではそのような状態の検出が可能であることを示す。 If only limited control over a multiparticle quantum system is available, a viable method to characterize correlations is to perform random measurements and consider the moments of the resulting probability distribution. We present systematic methods to analyze the different forms of entanglement with these moments in an optimized manner. First, we find the optimal criteria for different forms of multiparticle entanglement in three-qubit systems using the second moments of randomized measurements. Second, we present the optimal inequalities if entanglement in a bipartition of a multi-qubit system shall be analyzed in terms of these moments. Finally, for higher-dimensional two-particle systems and higher moments, we provide criteria that are able to characterize various examples of bound entangled states, showing that detection of such states is possible in this framework. | 翻訳日:2023-04-28 22:13:57 公開日:2021-04-22 |
# ボース・アインシュタイン凝縮系における離散時間結晶の多体効果と量子揺らぎ Many-Body Effects and Quantum Fluctuations for Discrete Time Crystals in Bose-Einstein Condensates ( http://arxiv.org/abs/2011.14783v2 ) ライセンス: Link先を確認 | Jia Wang, Peter Hannaford and Bryan J Dalton | (参考訳) We present a fully comprehensive multi-mode quantum treatment based on the truncated Wigner approximation (TWA) to study many-body effects and quantum fluctuations on the formation of a discrete time crystal (DTC) in a Bose-Einstein condensate (BEC) bouncing resonantly on an atom mirror, driven at period T. Our theoretical approach avoids the restrictions both of mean-field theory, where all bosons are assumed to remain in a single mode, and of time-dependent Bogoliubov theory, which assumes boson depletion from the condensate mode is small.
高調波トラップ凝縮モード関数に対応する現実的な初期条件については、位置確率密度が平均場理論から決定された値と大きく異なるDTC生成のしきい値に非常に近い相互作用強度を除いて、周期倍のTWA計算は少なくとも2000Tまでの時間平均場計算と広く一致している。
DTC生成のしきい値以上の典型的な魅力的な相互作用強度と選択されたトラップと駆動パラメータについて、TWA計算は時間依存のボゴリューボフ理論計算と一致する2000 Tに対応する時間に600個の原子のうち2個未満の原子の量子多体変動による量子的枯渇を示す。
一方、DTC生成のしきい値に非常に近い相互作用強度では、TWA計算は600の約260個の原子のうち、大きな量子枯渇を予測する。
また、DTCの平均エネルギーは少なくとも2000個のミラー発振で大きくは増加しないので、TWA理論は熱化が欠如していることを予測している。
最後に, 動的挙動は, 魅力的あるいは反発的なボソン・ボソン相互作用に類似し, 反発的相互作用に基づく安定なdtcが生成可能であることを見出した。 We present a fully comprehensive multi-mode quantum treatment based on the truncated Wigner approximation (TWA) to study many-body effects and quantum fluctuations on the formation of a discrete time crystal (DTC) in a Bose-Einstein condensate (BEC) bouncing resonantly on an atom mirror, driven at period T. Our theoretical approach avoids the restrictions both of mean-field theory, where all bosons are assumed to remain in a single mode, and of time-dependent Bogoliubov theory, which assumes boson depletion from the condensate mode is small. For realistic initial conditions corresponding to a harmonic trap condensate mode function, our TWA calculations performed for period-doubling agree broadly with recent mean-field calculations for times out to at least 2000 T, except at interaction strengths very close to the threshold value for DTC formation where the position probability density differs significantly from that determined from mean-field theory. For typical attractive interaction strengths above the threshold value for DTC formation and for the chosen trap and driving parameters, the TWA calculations indicate a quantum depletion due to quantum many-body fluctuations of less than about two atoms out of 600 atoms at times corresponding to 2000 T, in agreement with time-dependent Bogoliubov theory calculations. On the other hand, for interaction strengths very close to the threshold value for DTC formation, the TWA calculations predict a large quantum depletion - as high as about 260 atoms out of 600. We also show that the mean energy of the DTC does not increase significantly for times out to at least 2000 mirror oscillations, so TWA theory predicts that thermalisation is absent. Finally, we find that the dynamical behaviour is similar for attractive or repulsive boson-boson interactions, and that a stable DTC based on repulsive interactions can be created. | 翻訳日:2023-04-22 14:41:04 公開日:2021-04-22 |
# 多フラクタル共鳴状態の普遍強度統計 Universal intensity statistics of multifractal resonance states ( http://arxiv.org/abs/2012.02541v2 ) ライセンス: Link先を確認 | Konstantin Clau{\ss}, Felix Kunzmann, Arnd B\"acker, and Roland Ketzmerick | (参考訳) 共振状態の強度統計をエスケープしたカオス量子系では、指数分布が普遍的に従うと仮定する。
これは、系と共鳴状態の減衰率に依存する多重フラクタル平均強度によるスケーリングを必要とする。
本稿では, カオス標準写像, ベーカーマップ, ランダム行列モデルの相空間フシミ関数と共振状態の位置表現を, それぞれ部分避難で調べることで, 予測を数値的に支援する。 We conjecture that in chaotic quantum systems with escape the intensity statistics for resonance states universally follows an exponential distribution. This requires a scaling by the multifractal mean intensity which depends on the system and the decay rate of the resonance state. We numerically support the conjecture by studying the phase-space Husimi function and the position representation of resonance states of the chaotic standard map, the baker map, and a random matrix model, each with partial escape. | 翻訳日:2023-04-22 03:04:07 公開日:2021-04-22 |
# パンデミック情報学:準備、堅牢性、レジリエンス、ワクチンの流通、ロジスティクス、優先順位付け、および懸念の変種 Pandemic Informatics: Preparation, Robustness, and Resilience; Vaccine Distribution, Logistics, and Prioritization; and Variants of Concern ( http://arxiv.org/abs/2012.09300v3 ) ライセンス: Link先を確認 | Elizabeth Bradley, Madhav Marathe, Melanie Moses, William D Gropp, and Daniel Lopresti | (参考訳) 感染症は世界中で年間1300万人以上の死者を生んでいる。
グローバル化、都市化、気候変動、環境プレッシャーは世界的なパンデミックのリスクを大きく高めている。
新型コロナウイルスのパンデミックは10年以上前にH1N1が流行して以来初めてで、1918年のインフルエンザのパンデミック以来最悪の状況だった。
2020年11月4日時点で4700万人以上の感染者と100万人の死亡が確認されており、世界の市場は数兆ドルを失った。
パンデミックは米国と世界に対して長年にわたって大きなディスラプティブな影響を与え続け、その第2次および第3次影響は10年以上にわたって感じられる可能性がある。
パンデミックの国家的・世界的負担を減らすための効果的な戦略
1) 多くの相互依存運転要因を考慮して発生時期及び発生位置を検出する。
2 流行に対する公衆の反応を予見し、対応者を妨害し、伝染を拡大するパニック行為を予想する。
3) ターゲティングかつ効果的な対応を可能にする行動可能な政策を策定すること。 Infectious diseases cause more than 13 million deaths a year, worldwide. Globalization, urbanization, climate change, and ecological pressures have significantly increased the risk of a global pandemic. The ongoing COVID-19 pandemic-the first since the H1N1 outbreak more than a decade ago and the worst since the 1918 influenza pandemic-illustrates these matters vividly. More than 47M confirmed infections and 1M deaths have been reported worldwide as of November 4, 2020 and the global markets have lost trillions of dollars. The pandemic will continue to have significant disruptive impacts upon the United States and the world for years; its secondary and tertiary impacts might be felt for more than a decade. An effective strategy to reduce the national and global burden of pandemics must: 1) detect timing and location of occurrence, taking into account the many interdependent driving factors; 2) anticipate public reaction to an outbreak, including panic behaviors that obstruct responders and spread contagion; 3) and develop actionable policies that enable targeted and effective responses. | 翻訳日:2023-04-20 10:54:49 公開日:2021-04-22 |
# トポロジカル半金属中の異常および非線形ホール効果の量子力学 Quantum kinetics of anomalous and nonlinear Hall effects in topological semimetals ( http://arxiv.org/abs/2102.05675v2 ) ライセンス: Link先を確認 | Elio J. K\"onig, Alex Levchenko | (参考訳) 非平衡系のケルディシュ法に基づく有限ベリー曲率を持つバンド構造に対する半古典的ボルツマン方程式の系統的微視的導出を示す。
解析では、交流駆動場を2次順に維持し、帯域内遷移とバンド間遷移に対応する小周波数と大周波数のいずれのケースも考慮する。
特に、この定式化は非線形ホール効果とフォトガルバニー現象の研究に適している。
不純物散乱の役割は慎重に取り扱われる。
具体的には、以前に研究したサイドジャンプおよびスキュー散乱プロセスに加えて、量子干渉回折の貢献が開発フレームワークに明示的に組み込まれている。
この理論は、トポロジカル半金属の多次元フェルミオンに適用され、パンチャラトナム相からのスキュー散乱率の一般式は、対応する異常ホール導電率とともに得られる。 We present a systematic microscopic derivation of the semiclassical Boltzmann equation for band structures with the finite Berry curvature based on Keldysh technique of nonequilibrium systems. In the analysis, an ac electrical driving field is kept up to quadratic order, and both cases of small and large frequencies corresponding to intra- and interband transitions are considered. In particular, this formulation is suitable for the study of nonlinear Hall effect and photogalvanic phenomena. The role of impurity scattering is carefully addressed. Specifically, in addition to previously studied side-jump and skew-scattering processes, quantum interference diffractive contributions are now explicitly incorporated within the developed framework. This theory is applied to multifold fermions in topological semimetals, for which the generic formula for the skew scattering rate from the Pancharatnam phase is obtained along with the corresponding anomalous Hall conductivity. | 翻訳日:2023-04-12 00:40:42 公開日:2021-04-22 |
# 量子揺らぎをもつ2元パーセプトロンの教師・学生学習 Teacher-student learning for a binary perceptron with quantum fluctuations ( http://arxiv.org/abs/2102.08609v2 ) ライセンス: Link先を確認 | Shunta Arai, Masayuki Ohzeki, Kazuyuki Tanaka | (参考訳) 複製法を用いて量子ゆらぎを持つ二元パーセプトロンの一般化性能を解析した。
局所極小の指数関数数は二元パーセプトロンのエネルギー環境を支配する。
局所探索アルゴリズムは、しばしばバイナリパーセプトロンの基底状態を特定するのに失敗する。
本研究では,教師・学生の学習法を検討し,量子揺らぎを伴う二進パーセプトロンの一般化誤差を計算した。
量子ゆらぎにより、古典モデルよりも優れた一般化性能を持つ堅牢な解を効率的に見つけることができる。
量子モンテカルロシミュレーションを用いて理論結果を検証した。
レプリカ対称性(RS)の仮定と静的近似を採用した。
RS解は, 横磁場の強度が比較的低く, パターン比が高いことを除いて, シミュレーション結果と一致している。
これらの偏差はエルゴード性の違反と静的近似によって引き起こされる。
RS解と数値結果のずれを考慮に入れた後に、量子ゆらぎによる一般化性能の向上が期待できる。 We analysed the generalisation performance of a binary perceptron with quantum fluctuations using the replica method. An exponential number of local minima dominate the energy landscape of the binary perceptron. Local search algorithms often fail to identify the ground state of a binary perceptron. In this study, we considered the teacher-student learning method and computed the generalisation error of a binary perceptron with quantum fluctuations. Due to the quantum fluctuations, we can efficiently find robust solutions that have better generalisation performance than the classical model. We validated our theoretical results through quantum Monte Carlo simulations. We adopted the replica symmetry (RS) ansatz assumption and static approximation. The RS solutions are consistent with our simulation results, except for the relatively low strength of the transverse field and high pattern ratio. These deviations are caused by the violation of ergodicity and static approximation. After accounting for the deviation between the RS solutions and numerical results, the enhancement of generalisation performance with quantum fluctuations holds. | 翻訳日:2023-04-11 00:04:34 公開日:2021-04-22 |
# マルチモーダル・フィトネス景観における静止検出 Stagnation Detection in Highly Multimodal Fitness Landscapes ( http://arxiv.org/abs/2104.04395v3 ) ライセンス: Link先を確認 | Amirhossein Rajabi and Carsten Witt | (参考訳) ランダム化された探索ヒューリスティックが局所最適から逃れるメカニズムとして,局所的な距離を自動的に拡大して,いわゆるギャップサイズ,すなわち次の改善までの距離を求める機構として,定常検出が提案されている。
その有用性は、局所最適性がほとんどない単純なマルチモーダルな風景において、次々に渡ることができると考えられてきた。
類似のギャップサイズがより複雑な場所にあるマルチモーダルな風景では、停滞検出は、過去に約束されていたギャップサイズを使わずに、近隣のサイズが頻繁に1ドルにリセットされるという事実に悩まされる。
本稿では,過去に成功した値に優先することで探索半径をより注意深く制御するために,スタギネーション検出に付加可能な半径記憶と呼ばれる新しい機構について検討する。
SD-RLS$^{\text{m}}$ というアルゴリズムでこれを実装し,一様制約の下での線形関数の高速化と最小スパンニングツリー問題に対して,従来のスタトネーション検出法と比較した。
さらに、その実行時間は、単調関数とJumpベンチマークの一般化に大きくは影響しない。
最後に,SD-RLS$^{\text{m}}$について実験を行い,他のアルゴリズムと比較した。 Stagnation detection has been proposed as a mechanism for randomized search heuristics to escape from local optima by automatically increasing the size of the neighborhood to find the so-called gap size, i.e., the distance to the next improvement. Its usefulness has mostly been considered in simple multimodal landscapes with few local optima that could be crossed one after another. In multimodal landscapes with a more complex location of optima of similar gap size, stagnation detection suffers from the fact that the neighborhood size is frequently reset to $1$ without using gap sizes that were promising in the past. In this paper, we investigate a new mechanism called radius memory which can be added to stagnation detection to control the search radius more carefully by giving preference to values that were successful in the past. We implement this idea in an algorithm called SD-RLS$^{\text{m}}$ and show compared to previous variants of stagnation detection that it yields speed-ups for linear functions under uniform constraints and the minimum spanning tree problem. Moreover, its running time does not significantly deteriorate on unimodal functions and a generalization of the Jump benchmark. Finally, we present experimental results carried out to study SD-RLS$^{\text{m}}$ and compare it with other algorithms. | 翻訳日:2023-04-04 07:43:01 公開日:2021-04-22 |
# NISQデバイス上の量子畳み込みニューラルネットワーク A Quantum Convolutional Neural Network on NISQ Devices ( http://arxiv.org/abs/2104.06918v3 ) ライセンス: Link先を確認 | ShiJie Wei, YanHu Chen, ZengRong Zhou, GuiLu Long | (参考訳) 量子機械学習は、ノイズ中間スケール量子(NISQ)時代の量子コンピューティングの最も有望な応用の1つである。
本稿では、畳み込みニューラルネットワーク(CNN)にインスパイアされた量子畳み込みニューラルネットワーク(QCNN)を提案する。これは従来のニューラルネットワークに比べて計算の複雑さを大幅に減らし、$O((log_{2}M)^6) $ basic gates and $O(m^2+e)$ variational parameters, where $M$ is the input data size, $m$ is the filter mask size, $e$ is the number of parameters in a Hamiltonian。
我々のモデルは画像認識タスクのノイズに対して頑健であり、パラメータは入力サイズに依存しており、短期的な量子デバイスと親和性がある。
QCNNには2つの明確な例がある。
まず, 3種類の空間フィルタリング, 画像平滑化, シャープニング, エッジ検出の画像処理と数値シミュレーションにQCNNを適用した。
第2に,画像認識におけるQCNN,すなわち手書き文字の認識について示す。
従来の研究と比較して、この機械学習モデルは、特定の古典的畳み込みカーネルに正確に対応する実装可能な量子回路を提供することができる。
CNNをQCNNに直接変換する効率的な方法を提供し、ビッグデータ時代の情報処理に量子パワーを活用する可能性を開く。 Quantum machine learning is one of the most promising applications of quantum computing in the Noisy Intermediate-Scale Quantum(NISQ) era. Here we propose a quantum convolutional neural network(QCNN) inspired by convolutional neural networks(CNN), which greatly reduces the computing complexity compared with its classical counterparts, with $O((log_{2}M)^6) $ basic gates and $O(m^2+e)$ variational parameters, where $M$ is the input data size, $m$ is the filter mask size and $e$ is the number of parameters in a Hamiltonian. Our model is robust to certain noise for image recognition tasks and the parameters are independent on the input sizes, making it friendly to near-term quantum devices. We demonstrate QCNN with two explicit examples. First, QCNN is applied to image processing and numerical simulation of three types of spatial filtering, image smoothing, sharpening, and edge detection are performed. Secondly, we demonstrate QCNN in recognizing image, namely, the recognition of handwritten numbers. Compared with previous work, this machine learning model can provide implementable quantum circuits that accurately corresponds to a specific classical convolutional kernel. It provides an efficient avenue to transform CNN to QCNN directly and opens up the prospect of exploiting quantum power to process information in the era of big data. | 翻訳日:2023-04-03 21:14:29 公開日:2021-04-22 |
# 絡み合う分岐チャネルとランダムユニタリチャネルとさらなる一般化による補間 Interpolation by Entanglement Breaking Channels, Random Unitary Channels and Further Generalization ( http://arxiv.org/abs/2104.07254v2 ) ライセンス: Link先を確認 | Arnab Roy and Saikat Patra | (参考訳) 補間問題の出力として絡み合うチャネルを得るためのコーンプログラムを見出した。
その後、補間問題の出力として凸集合に属するチャネルを得るための結果を一般化する。 We find out a cone program for getting entanglement breaking channels as outputs of interpolation problem. Afterward, we generalize our results for getting channels that belong to a convex set as outputs of the interpolation problem. | 翻訳日:2023-04-03 18:34:11 公開日:2021-04-22 |
# マルチキュービットシステムにおける雑音の分類のためのハードウェア効率のよいランダム回路 Hardware-efficient random circuits to classify noise in a multi-qubit system ( http://arxiv.org/abs/2104.10221v2 ) ライセンス: Link先を確認 | Jin-Sung Kim, Lev S. Bishop, Antonio D. Corcoles, Seth Merkel, John A. Smolin, Sarah Sheldon | (参考訳) 本研究では,マルチキュービット方式におけるコヒーレントノイズ源と非コヒーレントノイズ源を識別するために,Binned Output Generation (BOG) と呼ばれるマルチキュービットベンチマーク手法を拡張した。
単一および少数量子レベルにおけるコヒーレントを非コヒーレントノイズから識別する手法は存在するが、これらの手法は数量子ビットを超え、あるいはノイズの形式について仮定しなければならない。
スペクトルの反対側では、システムレベルのベンチマーク技術が存在するが、コヒーレント音源と非コヒーレント音源の区別に失敗している。
2量子ビット領域におけるランダム化ベンチマーク(rb)(業界標準ベンチマーク手法)に対するボッグを実験的に検証し、この手法を6量子ビットの線形チェーンに適用した。
本実験では,各キュービットに瞬時コヒーレントz型雑音を注入し,測定したコヒーレントノイズが注入雑音の大きさと一致してスケールすることを示す。
これは、様々なハードウェアでコヒーレントエラーを測定するロバストなテクニックを示している。 In this work we extend a multi-qubit benchmarking technique known as the Binned Output Generation (BOG) in order to discriminate between coherent and incoherent noise sources in the multi-qubit regime. While methods exist to discriminate coherent from incoherent noise at the single and few-qubit level, these methods scale poorly beyond a few qubits or must make assumptions about the form of the noise. On the other end of the spectrum, system-level benchmarking techniques exist, but fail to discriminate between coherent and incoherent noise sources. We experimentally verify the BOG against Randomized Benchmarking (RB) (the industry standard benchmarking technique) in the two-qubit regime, then apply this technique to a six qubit linear chain, a regime currently inaccessible to RB. In this experiment we inject an instantaneous coherent Z-type noise on each qubit and demonstrate that the measured coherent noise scales correctly with the magnitude of the injected noise, while the measured incoherent noise remains unchanged as expected. This demonstrates a robust technique to measure coherent errors in a variety of hardware. | 翻訳日:2023-04-03 02:19:35 公開日:2021-04-22 |
# 相互及び非相互非エルミート量子センシングの基礎的限界 Fundamental limits for reciprocal and non-reciprocal non-Hermitian quantum sensing ( http://arxiv.org/abs/2104.10822v1 ) ライセンス: Link先を確認 | Liying Bao, Bo Qi, Daoyi Dong and Franco Nori | (参考訳) 非エルミート力学は量子センシングの精度を高めるために広く研究されており、非エルミート量子センシングは非エルミート量子センシングの強力な資源となり得る。
ここでは、相互および非相互の非エルミート量子センシングにおける信号対雑音比の基本的な限界を確立する。
特に、2つのコヒーレントな駆動を持つ2モード線形系では、光子当たりの最良の測定速度に縛られるほぼ可能な均一性は、相互センサと非相互センサの両方に対して導出される。
この境界は結合係数にのみ関係しており、原理的には任意に大きくすることができる。
その結果、従来の2つのドライブを持つ相互センサは、任意の非相互センサをシミュレートできることが示される。
この研究はまた、励起信号が非エルミート量子センシングの信号-雑音比にどのように影響するかを明確に示している。 Non-Hermitian dynamics has been widely studied to enhance the precision of quantum sensing; and non-reciprocity can be a powerful resource for non-Hermitian quantum sensing, as non-reciprocity allows to arbitrarily exceed the fundamental bound on the measurement rate of any reciprocal sensors. Here we establish fundamental limits on signal-to-noise ratio for reciprocal and non-reciprocal non-Hermitian quantum sensing. In particular, for two-mode linear systems with two coherent drives, an approximately attainable uniform bound on the best possible measurement rate per photon is derived for both reciprocal and non-reciprocal sensors. This bound is only related to the coupling coefficients and, in principle, can be made arbitrarily large. Our results thus demonstrate that a conventional reciprocal sensor with two drives can simulate any non-reciprocal sensor. This work also demonstrates a clear signature on how the excitation signals affect the signal-to-noise ratio in non-Hermitian quantum sensing. | 翻訳日:2023-04-02 22:27:37 公開日:2021-04-22 |
# 量子テレポーテーション技術による偏光と軌道角運動量を持つ2つの光子間の量子状態移動 Quantum state transfer between two photons with polarization and orbital angular momentum via quantum teleportation technology ( http://arxiv.org/abs/2104.10820v1 ) ライセンス: Link先を確認 | Shihao Ru, Min An, Yu Yang, Rui Qu, Feiran Wang, Yunlong Wang, Pei Zhang and Fuli Li | (参考訳) 量子テレポーテーションは、異なる自由度間で量子状態を送信するのに有用な量子情報技術である。
本稿では、線形光学系における量子状態移動実験を報告し、双光子 oam の絡み合ったチャネルを介して、自由度偏光子 (dof) の単一光子状態を軌道角運動量 (oam) の別の光子に転送する。
我々の実験方法は量子テレポーテーション技術に基づいている。
我々の方法と元のテレポーテーション法の違いは、移動状態が我々の方法で知られていることであり、この方法は異なるdofを持つ異なる粒子に対して、元のものは同じdofを持つ異なる粒子に対するものである。
また,本実験では,4つのハイブリッド絡み合ったベル状態のそれぞれを判別できるため,ベル効率が向上した。
我々はブロッホ球の6つの極状態を用いて実験を行い、量子状態移動の忠実度は91.8\pm1.3\%$である。 Quantum teleportation is a useful quantum information technology to transmit quantum states between different degrees of freedom. We here report a quantum state transfer experiment in the linear optical system, transferring a single photon state in the polarization degree of freedom (DoF) to another photon in the orbital angular momentum (OAM) quantum state via a biphoton OAM entangled channel. Our experimental method is based on quantum teleportation technology. The differences between ours and the original teleportation scheme is that the transfer state is known in ours, and our method is for different particles with different DoFs while the original one is for different particles with same DoF. Besides, our present experiment is implemented with a high Bell-efficiency since each of the four hybrid-entangled Bell states can be discriminated. We use six states of poles of the Bloch sphere to test our experiment, and the fidelity of the quantum state transfer is $91.8\pm1.3\%$. | 翻訳日:2023-04-02 22:27:18 公開日:2021-04-22 |
# 線形法によるニューラルネットワーク量子状態の学習 Learning Neural Network Quantum States with the Linear Method ( http://arxiv.org/abs/2104.11011v1 ) ライセンス: Link先を確認 | J. Thorben Frank, Michael J. Kastoryano | (参考訳) 量子システムには強い相関関係があるため、確率勾配降下のような古典的な機械学習アルゴリズムはニューラルネットワーク量子状態(NQS)のトレーニングに不十分であることが多い。
これらの困難は、物理的にインスパイアされた学習アルゴリズムを用いて克服することができ、その中で最も顕著なのが、想像上の時間発展を模倣した確率的再構成(sr)である。
本稿では、線形法(LM)に基づく複素値NQSの最適化のための代替アルゴリズムについて検討し、複素値パラメータの観点から明示的な定式化を提案する。
理論的な定式化の他に、複雑な値を持つNQSの最適化にLMが有効であることを示す数値的な証拠を、私たちの知識に初めて提示する。
我々は、lmを最先端srアルゴリズムと比較し、lmは1エポック当たりのコストは高いが、コンバージェンスのために最大で1桁少ないイテレーションを必要とすることを発見した。
さらに,サンプリングコストが高い場合には,lmがより効率的な学習アルゴリズムとなることを示す。
しかし、この利点はより大きなばらつきの値段にある。 Due to the strong correlations present in quantum systems, classical machine learning algorithms like stochastic gradient descent are often insufficient for the training of neural network quantum states (NQSs). These difficulties can be overcome by using physically inspired learning algorithm, the most prominent of which is the stochastic reconfiguration (SR) which mimics imaginary time evolution. Here we explore an alternative algorithms for the optimization of complex valued NQSs based on the linear method (LM), and present the explicit formulation in terms of complex valued parameters. Beyond the theoretical formulation, we present numerical evidence that the LM can be used successfully for the optimization of complex valued NQSs, to our knowledge for the first time. We compare the LM to the state-of-the-art SR algorithm and find that the LM requires up to an order of magnitude fewer iterations for convergence, albeit at a higher cost per epoch. We further demonstrate that the LM becomes the more efficient training algorithm whenever the cost of sampling is high. This advantage, however, comes at the price of a larger variance. | 翻訳日:2023-04-02 20:30:45 公開日:2021-04-22 |
# ブラックボックス最適化問題に対する性能回帰モデルのパーソナライズ Personalizing Performance Regression Models to Black-Box Optimization Problems ( http://arxiv.org/abs/2104.10999v1 ) ライセンス: Link先を確認 | Tome Eftimov, Anja Jankovic, Gorjan Popovski, Carola Doerr, Peter Koro\v{s}ec | (参考訳) アルゴリズムの選択と設定の高度化には,これまで見つからなかった問題インスタンスに対する最適化アルゴリズムの性能の正確な予測が不可欠である。
数値最適化の文脈では,探索的ランドスケープ解析の上に構築した教師付き回帰手法が広く普及している。
しかし、機械学習(ML)の観点から見れば、MLツールの適合性を適切に調査することなく、デフォルトの回帰や分類技術を用いて、アプローチは比較的単純であることが多い。
この作業により、特定のタイプの最適化問題に対して回帰モデルをパーソナライズする可能性がコミュニティの注目を集めます。
私たちのパーソナライズされた回帰アプローチは、多種多様な問題全体にわたってうまく機能する単一のモデルを目指すのではなく、異なるモデルが異なる種類の問題に適合する可能性があることを認めています。
さらに,問題毎に1つの回帰モデルを選択するのではなく,個人化されたアンサンブルを選択することの影響についても検討する。
本稿では,BBOBベンチマークコレクション上での数値最適化ヒューリスティックスの性能予測手法を提案する。 Accurately predicting the performance of different optimization algorithms for previously unseen problem instances is crucial for high-performing algorithm selection and configuration techniques. In the context of numerical optimization, supervised regression approaches built on top of exploratory landscape analysis are becoming very popular. From the point of view of Machine Learning (ML), however, the approaches are often rather naive, using default regression or classification techniques without proper investigation of the suitability of the ML tools. With this work, we bring to the attention of our community the possibility to personalize regression models to specific types of optimization problems. Instead of aiming for a single model that works well across a whole set of possibly diverse problems, our personalized regression approach acknowledges that different models may suite different types of problems. Going one step further, we also investigate the impact of selecting not a single regression model per problem, but personalized ensembles. We test our approach on predicting the performance of numerical optimization heuristics on the BBOB benchmark collection. | 翻訳日:2023-04-02 20:30:08 公開日:2021-04-22 |
# 40か国での誤情報、信頼性、ワクチンの受容:COVID-19インフォデミックの初期段階から Misinformation, Believability, and Vaccine Acceptance Over 40 Countries: Takeaways From the Initial Phase of The COVID-19 Infodemic ( http://arxiv.org/abs/2104.10864v1 ) ライセンス: Link先を確認 | Karandeep Singh, Gabriel Lima, Meeyoung Cha, Chiyoung Cha, Juhi Kulshrestha, Yong-Yeol Ahn, Onur Varol | (参考訳) 新型コロナウイルスのパンデミックは世界中の人々の生活に打撃を与えている。
パンデミックはインフォデミックであり、潜在的に有害な誤情報の豊富で制御不能な拡散である。
インフォデミックは、マスク、ソーシャルディスタンシング、ワクチン接種などの公衆衛生介入に干渉することで、パンデミックの進行を著しく変える可能性がある。
特に、インフォデミックがワクチン接種に与える影響は、パンデミック前正常化への転換の鍵を持っているため重要である。
本報告では,世界規模の新型コロナウイルス感染状況に関する調査の結果を報告し,異なる集団の誤認に対する感受性を評価し,そのワクチン受容との関連性を分析した。
40カ国18,400人以上から集められた回答から,誤情報に対する信頼感と予防接種不安との関連が強く示唆された。
さらに、噂に暴露されたオンラインユーザーの半数が事実確認情報を見た可能性があることも調査で明らかになった。
さらに、国によっては6%から37%の人がこの噂を信じると回答している。
われわれの調査は、貧しい地域の方が、新型コロナウイルスの誤報に遭遇し、信じやすいことも示している。
我々は、情報デミックの影響を受けやすい国に正確な情報を積極的に広める公共キャンペーンに関する調査結果の意義について論じる。
また,信頼でき,広く露出していると考えられる主張の識別と優先順位付けにおいて,事実確認プラットフォームの役割を強調した。
今後のパンデミックの初期段階におけるリスクコミュニケーションの取扱いに関する知見が得られた。 The COVID-19 pandemic has been damaging to the lives of people all around the world. Accompanied by the pandemic is an infodemic, an abundant and uncontrolled spreading of potentially harmful misinformation. The infodemic may severely change the pandemic's course by interfering with public health interventions such as wearing masks, social distancing, and vaccination. In particular, the impact of the infodemic on vaccination is critical because it holds the key to reverting to pre-pandemic normalcy. This paper presents findings from a global survey on the extent of worldwide exposure to the COVID-19 infodemic, assesses different populations' susceptibility to false claims, and analyzes its association with vaccine acceptance. Based on responses gathered from over 18,400 individuals from 40 countries, we find a strong association between perceived believability of misinformation and vaccination hesitancy. Additionally, our study shows that only half of the online users exposed to rumors might have seen the fact-checked information. Moreover, depending on the country, between 6% and 37% of individuals considered these rumors believable. Our survey also shows that poorer regions are more susceptible to encountering and believing COVID-19 misinformation. We discuss implications of our findings on public campaigns that proactively spread accurate information to countries that are more susceptible to the infodemic. We also highlight fact-checking platforms' role in better identifying and prioritizing claims that are perceived to be believable and have wide exposure. Our findings give insights into better handling of risk communication during the initial phase of a future pandemic. | 翻訳日:2023-04-02 20:27:41 公開日:2021-04-22 |
# 双極子ボース・アインシュタイン凝縮体の高エネルギー修飾分散による低エネルギーローレンツ違反の検出 Probing low-energy Lorentz violation from high-energy modified dispersion in dipolar Bose-Einstein condensates ( http://arxiv.org/abs/2104.11084v1 ) ライセンス: Link先を確認 | Zehua Tian and Jiangfeng Du | (参考訳) 理論上,双極子ボース・アインシュタイン凝縮体(bec)中の不純物原子を用いて,高エネルギーの修正分散による低エネルギーローレンツ散乱の類似性を調べる実験的な手法を提案する。
双極子becにおける密度ゆらぎは、ロレンツ違反のボゴリボフスペクトル $\omega_\mathbf{k}=c_0|\mathbf{k}|f(c_0|\mathbf{k}|/m_\star)$ を持ち、エネルギーでの近似ローレンツ不変(li)の回復は $m_\star$ 以下である。
f$ がユニティを下回るように調整されると、密度ゆらぎに類似した不純物が、任意に低いエネルギーでドラスティックローレンツ違反を経験し、unruh-dewitt検出器とローレンツ違反量子場との応答を再現する。
我々の量子流体プラットフォームは、基本的な量子力学デバイスであり、量子場理論において、有効な低エネルギー理論が理論の高エネルギー構造の予期せぬインプリントを明らかにすることができるかどうかを検証するために、実験的に実現可能な試験場を提供する。 We theoretically propose an experimentally viable scheme to use an impurity atom in a dipolar Bose-Einstein condensate (BEC), in order to probe analogue low-energy Lorentz violation from the modified dispersion at high energies as suggested by quantum theories of gravity. We show that the density fluctuations in the dipolar BEC possess a Lorentz-violating Bogoliubov spectrum $\omega_\mathbf{k}=c_0|\mathbf{k}|f(c_0|\mathbf{k}|/M_\star)$, with recovery of approximate Lorentz invariance (LI) at energy scales much below $M_\star$. When $f$ is adjusted to dip below unity somewhere, the impurity, analogously dipole coupled to the density fluctuations, experiences analogue drastic Lorentz violation at arbitrarily low energies, reproducing the same responds of Unruh-DeWitt detector to Lorentz-violating quantum fields. Being a fundamentally quantum mechanical device, our quantum fluid platform provides an experimentally realizable test field to verify whether the effective low energy theory can reveal unexpected imprints of the theory's high energy structure, in quantum field theory. | 翻訳日:2023-04-02 20:21:37 公開日:2021-04-22 |
# cMLSGA:多目的最適化のための共進化型マルチレベル選択遺伝的アルゴリズム cMLSGA: A Co-Evolutionary Multi-Level Selection Genetic Algorithm for Multi-Objective Optimization ( http://arxiv.org/abs/2104.11072v1 ) ライセンス: Link先を確認 | P.A. Grudniewski (1), A.J. Sobey (1 and 2) ((1) Fluid Structure Interactions Group, University of Southampton, Southampton, England, UK, (2) Marine and Maritime Group, Data-centric Engineering, The Alan Turing Institute, The British Library, London, England, UK) | (参考訳) 実用的な最適化では、問題の主な特徴はしばしば事前には分かっていない。
したがって、各アプリケーションに対して特別なアプローチを調整できるとは限らないため、一般的な解法を開発する必要がある。
MLSGA(Multi-Level Selection Genetic Algorithm)のハイブリッド形式は、進化的アルゴリズムでは稀な多様性優先のアプローチにより、すでに様々な問題に対して優れた性能を示している。
本論文は, 集団間の協調進化を個人ではなく集団間の競争として定義する, 個別の共進化機構を提案する。
この独特な進化的アプローチは、サブポピュレーションと個人と集団間の異なるフィットネス定義の間の定期的なコミュニケーションを減らせる。
これにより、集団は独立して独自のサブリージョン検索を作成でき、共同進化型MLSGA(cMLSGA)の開発につながる。
この方法論をテストするために、9つの遺伝的アルゴリズムが選択され、cMLSGAのいくつかの変種が生成される。
新しいメカニズムは100以上の異なる関数でテストされ、最高の一般解法を見つけるために9つの最先端の競合に対してベンチマークされる。
その結果,共進化的アプローチの多様性は個々のパフォーマンスよりも重要であることが示された。
これにより、特定の問題に対して大きな性能を失うことなく、cMLSGAの一般性を改善する2つの競合アルゴリズムを選択することができる。
最先端技術と比較すると、提案手法は最も普遍的で堅牢であり、探索空間に関する知識が限られている複雑な問題を解きやすいアルゴリズムとなる。 In practical optimisation the dominant characteristics of the problem are often not known prior. Therefore, there is a need to develop general solvers as it is not always possible to tailor a specialised approach to each application. The hybrid form of Multi-Level Selection Genetic Algorithm (MLSGA) already shows good performance on range of problems due to its diversity-first approach, which is rare among Evolutionary Algorithms. To increase the generality of its performance this paper proposes a distinct set of co-evolutionary mechanisms, which defines co-evolution as competition between collectives rather than individuals. This distinctive approach to co-evolutionary provides less regular communication between sub-populations and different fitness definitions between individuals and collectives. This encourages the collectives to act more independently creating a unique sub-regional search, leading to the development of co-evolutionary MLSGA (cMLSGA). To test this methodology nine genetic algorithms are selected to generate several variants of cMLSGA, which incorporates these approaches at the individual level. The new mechanisms are tested on over 100 different functions and benchmarked against the 9 state-of-the-art competitors in order to find the best general solver. The results show that the diversity of co-evolutionary approaches is more important than their individual performances. This allows the selection of two competing algorithms that improve the generality of cMLSGA, without large loss of performance on any specific problem type. When compared to the state-of-the-art, the proposed methodology is the most universal and robust, leading to an algorithm more likely to solve complex problems with limited knowledge about the search space. | 翻訳日:2023-04-02 20:21:05 公開日:2021-04-22 |
# ヒルベルト・シュミット分離確率比を推定した有理値、小素数量子量、再ビットレトリットランク-4/rank-6 Rational-Valued, Small-Prime-Based Qubit-Qutrit and Rebit-Retrit Rank-4/Rank-6 Conjectured Hilbert-Schmidt Separability Probability Ratios ( http://arxiv.org/abs/2104.11071v1 ) ライセンス: Link先を確認 | Paul B. Slater | (参考訳) 我々は,wishart-laguerre分布に基づく手順を実装した。
Z}yczkowski and Khvedelidze, Rogojin and Abgaryan, for the generation of random (complex or real) $N \times N$ density matrices of rank $k \leq N$ to respect to Hilbert-Schmidt (HS) measure。
複素の場合、ジニブル行列 $a$ of dimension $k \times k+ 2 (n-k)$ で始まるが、実際のシナリオでは、ジニブル行列 $b$ of dimension $k \times k+1+ 2 (n-k)$ を用いる。
すると、$k \times k$ product $A A^{\dagger}$または$B B^T$は、0で対角化され、N \times N$-および回転し、ランダム密度行列を得る。
ランク4リビット・リトライ状態の手順を実装し、800万のジニブレ・マトリクス実現、6,192,047の分離性が確認され、正確な値$\frac{387}{5000} =\frac{3^2 \cdot 43}{2^3 \cdot 5^4}=.0774$のサンプル確率は 00774006-suggestive である。
フルランクのリビット・リトライシステムのHS分離確率の予想は$\frac{860}{6561} =\frac{2^2 \cdot 5 \cdot 43}{3^8} \approx 0.1310775$である(この二つのリトライは$\frac{29}{64}=\frac{29}{2^6}$と証明されている)。
これらの予想に従うと、 rank-4 と rank-6 の確率の比率は $\frac{59049}{1000000}=\frac{3^{10}}{2^6 \cdot 5^6} \approx 0.059049$ であり、共通因子 43 がキャンセルされる。
中間ランク5の確率について、2006年のSzarek, Bengtsson, and {\displaystyle {\mathrm {d} }} の定理がある。
z}ycskowskiは、$\frac{27}{1000} =\frac{3^3}{2^3 \cdot 5^3}$と推測された rank-6 の確率-it の半減であり、ランク 3 以下の場合は ruskai と werner の結果によって関連する確率は 0 となる。
これらの点において、我々は2005年のクォービット量子分析を再検討し、現在、ランク6の確率比に $\frac{70}{2673}=\frac{2 \cdot 5 \cdot 7}{3^5 \cdot 11} \approx 0.0261878$ rank-4 の証拠を見つける。 We implement a procedure-based on the Wishart-Laguerre distribution-recently outlined by {\.Z}yczkowski and Khvedelidze, Rogojin and Abgaryan, for the generation of random (complex or real) $N \times N$ density matrices of rank $k \leq N$ with respect to Hilbert-Schmidt (HS) measure. In the complex case, one commences with a Ginibre matrix $A$ of dimensions $k \times k+ 2 (N-k)$, while for a real scenario, one employs a Ginibre matrix $B$ of dimensions $k \times k+1+ 2 (N-k)$. Then, the $k \times k$ product $A A^{\dagger}$ or $B B^T$ is diagonalized-padded with zeros to size $N \times N$-and rotated, obtaining a random density matrix. Implementing the procedure for rank-4 rebit-retrit states, for 800 million Ginibre-matrix realizations, 6,192,047 were found separable, for a sample probability of .00774006-suggestive of an exact value $\frac{387}{5000} =\frac{3^2 \cdot 43}{2^3 \cdot 5^4}=.0774$. A conjecture for the HS separability probability of rebit-retrit systems of full rank is $\frac{860}{6561} =\frac{2^2 \cdot 5 \cdot 43}{3^8} \approx 0.1310775$ (the two-rebit counterpart has been proven to be $\frac{29}{64}=\frac{29}{2^6}$). Subject to these conjectures, the ratio of the rank-4 to rank-6 probabilities would be $\frac{59049}{1000000}=\frac{3^{10}}{2^6 \cdot 5^6} \approx 0.059049$, with the common factor 43 cancelling. As to the intermediate rank-5 probability, a 2006 theorem of Szarek, Bengtsson and {\.Z}ycskowski informs us that it must be one-half the rank-6 probability-itself conjectured to be $\frac{27}{1000} =\frac{3^3}{2^3 \cdot 5^3}$, while for rank 3 or less, the associated probabilities must be 0 by a 2009 result of Ruskai and Werner. We are led to re-examine a 2005 qubit-qutrit analysis of ours, in these regards, and now find evidence for a $\frac{70}{2673}=\frac{2 \cdot 5 \cdot 7}{ 3^5 \cdot 11} \approx 0.0261878$ rank-4 to rank-6 probability ratio. | 翻訳日:2023-04-02 20:20:38 公開日:2021-04-22 |
# 固体および分子炭素の電子的性質に対する量子振動効果 Quantum vibronic effects on the electronic properties of solid and molecular carbon ( http://arxiv.org/abs/2104.11065v1 ) ライセンス: Link先を確認 | Arpan Kundu, Marco Govoni, Han Yang, Michele Ceriotti, Francois Gygi, and Giulia Galli | (参考訳) 経路積分第一原理分子動力学(FPMD)と色付きノイズサーモスタットを組み合わせることにより、分子や固体を含む炭素異方体の電子的性質に及ぼす量子ビブロニックカップリングの効果を調べた。
電子-フォノンカップリングの計算に一般的に用いられるいくつかの近似を避けることに加えて、このアプローチはfpmdシミュレーションに適度な計算コストを追加するだけであり、そのためアモルファス固体を記述するのに必要なような大きなスーパーセルに適用できる。
電子-フォノンカップリングがアモルファス炭素の基本ギャップに与える影響を予測し、ダイヤモンドではバンドギャップのゼロフォノン再正規化が以前報告したよりも大きいことを示す。 We study the effect of quantum vibronic coupling on the electronic properties of carbon allotropes, including molecules and solids, by combining path integral first principles molecular dynamics (FPMD) with a colored noise thermostat. In addition to avoiding several approximations commonly adopted in calculations of electron-phonon coupling, our approach only adds a moderate computational cost to FPMD simulations and hence it is applicable to large supercells, such as those required to describe amorphous solids. We predict the effect of electron-phonon coupling on the fundamental gap of amorphous carbon, and we show that in diamond the zero-phonon renormalization of the band gap is larger than previously reported. | 翻訳日:2023-04-02 20:19:24 公開日:2021-04-22 |
# 原子媒体中の暗状態偏光子に対する合成ゲージポテンシャル Synthetic gauge potentials for the dark state polaritons in atomic media ( http://arxiv.org/abs/2104.11031v1 ) ライセンス: Link先を確認 | Yu-Hung Kuan, Siang-Wei Shao, I-Kang Liu, Julius Ruseckas, Gediminas Juzeli\=unas, Yu-Ju Lin, and Wen-TeLiao | (参考訳) 磁場中における荷電粒子の挙動をシミュレートするために中性粒子を利用するという試みは、人工磁場の発生に大きな関心を寄せている。
電磁誘導透過における暗黒状態偏光子のための合成磁場の生成に関する前と唯一の提案は、試料の機械的回転を誘発する。
本稿では,定常偏光子に対する効果的なゲージポテンシャルを生成するための光学的手法を提案する。
5) 本手法の能力を実証するために, 縮退したランダウ準位と駆動型量子調和振動子に暗黒状態ポラリトンを配置するレシピを提案する。
提案手法は,電磁誘導透過による分数量子ホール効果のボソニックアナログの研究に向けた新しい手法である。 The quest of utilizing neutral particles to simulate the behaviour of charged particles in a magnetic field makes the generation of artificial magnetic field of great interest. The previous and the only proposal for the production of synthetic magnetic field for the dark state polaritons in electromagnetically induced transparency invokes the mechanical rotation of a sample. Here, we put forward an optical scheme to generate effective gauge potentials for stationary-light polaritons. 5To demonstrate the capabilities of our approach, we present recipes for having dark state polaritons in degenerate Landau levels and in driven quantum harmonic oscillator. Our scheme paves a novel way towards the investigation of the bosonic analogue of the fractional quantum Hall effect by electromagnetically induced transparency. | 翻訳日:2023-04-02 20:19:11 公開日:2021-04-22 |
# カシミール力に対する2つの$\delta$-like potential間の代数的アプローチ (K。
ジエミアン、アン。
henri poincar\'e, online first, 2021) を参照。 A note on "Algebraic approach to Casimir force between two $\delta$-like potentials" (K. Ziemian, Ann. Henri Poincar\'e, Online First, 2021) ( http://arxiv.org/abs/2104.11029v1 ) ライセンス: Link先を確認 | Davide Fermi, Livio Pizzocchero (Universita' di Milano) | (参考訳) 我々は,最近の研究[1]と論文[2,3]との関係についてコメントする。
特に、[1] で述べたことと対照的に、単一のデルタ様特異点の場合で決定されるカシミールエネルギー密度は、別のアプローチで [2] で以前に得られたエネルギー密度と一致することが示されている。 We comment on the recent work [1], and on its relations with our papers [2,3] cited therein. In particular we show that, contrarily to what stated in [1], the Casimir energy density determined therein in the case of a single delta-like singularity coincides with the energy density obtained previously in our paper [2] using a different approach. | 翻訳日:2023-04-02 20:18:59 公開日:2021-04-22 |
# 強非エルミート実行列ハミルトニアンの類に対する例外点とユニタリティーの領域 Exceptional points and domains of unitarity for a class of strongly non-Hermitian real-matrix Hamiltonians ( http://arxiv.org/abs/2104.11016v1 ) ライセンス: Link先を確認 | Miloslav Znojil | (参考訳) 閉(すなわちユニタリ)量子系の表現論的ハミルトニアンは、非摂動対角行列部分 $h^{(n)}_0$ と三角行列摂動 $\lambda\,w^{(n)}(\lambda)$ からなる n$ by $n$ の実行列形式を持つと仮定される。
系の進化のユニタリティ(すなわち対角化可能性とスペクトルの現実)の要件は、当然、行列要素の「物理的」領域 ${\cal D}^{[N]} \subset \mathbb{R}^d$ への変数を制限する。
我々は、非摂動行列(非等角な正方形非摂動スペクトルをシミュレートする)を固定し、最大非エルミート反対称行列摂動しか認めない。
これにより、摂動の測度である$\lambda$ と、${\cal d}^{[n]}$ 内で自由変数である $d=n$ 行列要素を持つ隠れエルミートモデルが得られる。
我々の目的は、系のユニタリシティが失われる量子位相遷移境界 $\partial {\cal d}^{[n]}$ (alias exceptional-point boundary) を記述することである。
私たちの主な関心は、安定性の強結合の極端、すなわち、カトーの並外れた位数である$n$ (epn) と、その近傍の$\partial {\cal d}^{[n]}$ の境界の(鋭くスパイクされた)形状に置かれている。
提案手法の有効性は,計算機支援のシンボル操作(特にGr\"{o}bner basis elimination techniqueを含む)と組み合わせた高精度算術の利用に基づいている。 A phenomenological Hamiltonian of a closed (i.e., unitary) quantum system is assumed to have an $N$ by $N$ real-matrix form composed of a unperturbed diagonal-matrix part $H^{(N)}_0$ and of a tridiagonal-matrix perturbation $\lambda\,W^{(N)}(\lambda)$. The requirement of the unitarity of the evolution of the system (i.e., of the diagonalizability and of the reality of the spectrum) restricts, naturally, the variability of the matrix elements to a "physical" domain ${\cal D}^{[N]} \subset \mathbb{R}^d$. We fix the unperturbed matrix (simulating a non-equidistant, square-well-type unperturbed spectrum) and we only admit the maximally non-Hermitian antisymmetric-matrix perturbations. This yields the hiddenly Hermitian model with the measure of perturbation $\lambda$ and with the $d=N$ matrix elements which are, inside ${\cal D}^{[N]}$, freely variable. Our aim is to describe the quantum phase-transition boundary $\partial {\cal D}^{[N]}$ (alias exceptional-point boundary) at which the unitarity of the system is lost. Our main attention is paid to the strong-coupling extremes of stability, i.e., to the Kato's exceptional points of order $N$ (EPN) and to the (sharply spiked) shape of the boundary $\partial {\cal D}^{[N]}$ in their vicinity. The feasibility of our constructions is based on the use of the high-precision arithmetics in combination with the computer-assisted symbolic manipulations (including, in particular, the Gr\"{o}bner basis elimination technique). | 翻訳日:2023-04-02 20:18:50 公開日:2021-04-22 |
# Closing Bell: コンテキスト性に関する資源理論におけるボックスブラックボックスシミュレーション Closing Bell: Boxing black box simulations in the resource theory of contextuality ( http://arxiv.org/abs/2104.11241v1 ) ライセンス: Link先を確認 | Rui Soares Barbosa, Martti Karvonen, Shane Mansfield | (参考訳) この章は、リソース理論的な側面を強調する文脈性のための層理論フレームワークの紹介と、このトピックに関する最初の結果を含んでいる。
特に、シナリオ s 上の経験モデルから別のシナリオ t 上の経験モデルへ変換する関数を検討し、文脈性(非適応的)な資源理論において、s と t の間の古典的手続きによって引き起こされるものを特徴付ける。
我々は、S と T から構築された新しいシナリオに基づいて、経験的モデル自体のような関数を表現する。
また,この測定シナリオの構成は,測定シナリオのカテゴリにおいて閉じた構造を与えることを示した。 This chapter contains an exposition of the sheaf-theoretic framework for contextuality emphasising resource-theoretic aspects, as well as some original results on this topic. In particular, we consider functions that transform empirical models on a scenario S to empirical models on another scenario T, and characterise those that are induced by classical procedures between S and T corresponding to 'free' operations in the (non-adaptive) resource theory of contextuality. We proceed by expressing such functions as empirical models themselves, on a new scenario built from S and T. Our characterisation then boils down to the non-contextuality of these models. We also show that this construction on scenarios provides a closed structure in the category of measurement scenarios. | 翻訳日:2023-04-02 20:10:27 公開日:2021-04-22 |
# InAsP量子ドットナノワイヤと勾配インデックスレンズを用いた光ファイバー(プラグアンドプレイ)単一光子源 Optical fibre-based (plug-and-play) single photon source using InAsP quantum dot nanowires and gradient-index lens collection ( http://arxiv.org/abs/2104.11197v1 ) ライセンス: Link先を確認 | David B. Northeast, John F. Weber, Dan Dalacu, Jason Phoenix, Philip J. Poole, Geof Aers, Jean Lapointe, and Robin L. Williams | (参考訳) InPフォトニックナノワイヤ導波路内に、勾配インデックス(GRIN)レンズとInAsP半導体量子ドットを用いた、コンパクトなファイバーカップリング単一光子源を提案する。
GRINレンズアセンブリはナノワイヤの先端に近い光子を集め、即座に光を単一モードの光ファイバーに結合する。
このシステムは、ファイバー結合された単一光子の安定で高輝度な光源を提供する。
パルス励起を用いて, ソースファイバー収集効率35%, 総光子収集効率10%のデバイスにおいて, 飽和時の光子純度98.5%のオンデマンド動作を実演した。
InPナノワイヤの室温発光を室内温度アライメントに用いる「プラグ・アンド・プレイ」操作の実証実験を行った。 We present a compact, fibre-coupled single photon source using gradient-index (GRIN) lenses and an InAsP semiconductor quantum dot embedded within an InP photonic nanowire waveguide. A GRIN lens assembly is used to collect photons close to the tip of the nanowire, coupling the light immediately into a single mode optical fibre. The system provides a stable, high brightness source of fibre-coupled single photons. Using pulsed excitation, we demonstrate on-demand operation with a single photon purity of 98.5% when exciting at saturation in a device with a source-fibre collection efficiency of 35% and an overall single photon collection efficiency of 10%. We also demonstrate "plug and play" operation using room temperature photoluminescence from the InP nanowire for room temperature alignment. | 翻訳日:2023-04-02 20:09:03 公開日:2021-04-22 |
# 量子プロセッサで動くロボットには自由があるのか? Do Robots powered by a Quantum Processor have the Freedom to swerve? ( http://arxiv.org/abs/2104.11591v1 ) ライセンス: Link先を確認 | Hartmut Neven, Peter Read, Tobias Rees | (参考訳) 意識を説明する科学的試みは、科学の第三人称的視点と、世界の最初の主観的経験とを調和させることに委ねられている。
出発のよい点は、これら2つの視点が相関する状況を考えることである。
我々の幸福な行動、すなわちホメオスタシスの維持に寄与する行動は快楽の感情に結びつく傾向にあり、一方、ホメオスタシスを脅かす行動は不快な感情と一致する傾向にある。
物質主義/物理主義のアプローチを選択し、この相関関係の最も単純な説明は、我々がエージェンシーを持っているという仮定から生じる。
もしシステムが結果を選択するエージェンシーを持っているなら、おそらく不快なものよりも楽しいものを選ぶでしょう。
選好を行う機関は、自身を第三者理論の力として表している。
選好が強い場合、決定論的な進化を引き起こす力を引き起こすが、弱い選好は非決定論的な進化を引き起こす。
量子物理学は、観測結果に確率を割り当てることができないナイトの不確実性である大きな量子ビット系に高い非決定論を割り当てる。
これにより、エンジニアリングされたシステムには、外部のオブザーバが常に予測できない方法で、彼らの好みに対処する自由が与えられる。
我々の考察は、意識的であり、エージェンシーや感情を持っていると挑発的に主張することのできる、エンジニアリングされたアニマトのための3部設計の提案につながる。 Any scientific attempt to explain consciousness is tasked with reconciling the third person objective perspective of science with our first person subjective experience of the world. A good point of departure is to consider situations in which these two perspectives are correlated. We note that behaviors conducive to our well-being, i.e. conducive to maintaining homeostasis, tend to be associated with feelings of pleasure while actions that threaten our homeostasis tend to coincide with unpleasant feelings. We choose a materialist/physicalist approach and find the simplest explanation for this correlation arises from the assumption that we possess agency. If a system has the agency to choose an outcome then presumably it would choose a pleasant over an unpleasant one. Agency implementing preferences manifests itself as a force in a third person theory. If a preference is strong it gives rise to a force causing a deterministic evolution, while weak preferences give rise to non-deterministic evolutions. Quantum physics assigns a high degree of non-determinism to large systems of qubits, a Knightian uncertainty, in which one can not even assign probabilities to observed outcomes. This can give engineered systems the freedom to act on their preferences in ways not always predictable by an outside observer. Our considerations lead us to propose a three part design for an engineered animat for which one may provocatively argue that it is conscious and possesses agency and feelings. | 翻訳日:2023-04-02 20:00:27 公開日:2021-04-22 |
# 波動関数決定による圧縮コヒーレントなコンクリートの創製 Making squeezed-coherent states concrete by determining their wavefunction ( http://arxiv.org/abs/2104.11350v1 ) ライセンス: Link先を確認 | Eduardo Munguia-Gonzalez, Sheldon Rego, and J. K. Freericks | (参考訳) レーザー干渉計重力波観測装置の成功により、我々は、学部および大学院量子力学教室で厳しい状態を扱うことへの関心が高まると予想される。
圧縮コヒーレント状態は最小の不確かさ状態であるため、位置と運動量空間における波動関数はガウス的である必要がある。
しかし、この結果は量子教科書や量子光学教科書の圧縮状態の治療ではほとんど議論されない。
本研究では,圧縮コヒーレント状態に対する波動関数を構成する3つの異なる方法を示す。
(i)微分方程式に基づくアプローチ
(ii)単純高調波発振器波動関数の項での展開を用いたアプローチ、及び
(iii)完全な演算子ベースのアプローチ。
このことは、インストラクターがどのような方法論を使っても、波動関数の概念を導入することができることを示す。
波動関数を扱うことで、圧縮コヒーレントな状態の概念を解き放つことを願っている。 With the successes of the Laser Interferometer Gravitational-wave Observatory, we anticipate increased interest in working with squeezed states in the undergraduate and graduate quantum-mechanics classroom. Because squeezed-coherent states are minimum uncertainty states, their wavefunctions in position and momentum space must be Gaussians. But this result is rarely discussed in treatments of squeezed states in quantum textbooks or quantum optics textbooks. In this work, we show three different ways to construct the wavefunction for squeezed-coherent states: (i) a differential equation-based approach; (ii) an approach that uses an expansion in terms of the simple-harmonic oscillator wavefunctions; and (iii) a fully operator-based approach. We do this to illustrate that the concept of the wavefunction can be introduced no matter what methodology an instructor wishes to use. We hope that working with the wavefunction will help demystify the concept of a squeezed-coherent state. | 翻訳日:2023-04-02 20:00:01 公開日:2021-04-22 |
# ボヘミア力学における準備 Preparation in Bohmian Mechanics ( http://arxiv.org/abs/2104.11339v1 ) ライセンス: Link先を確認 | Carlo Rovelli | (参考訳) ボーム力学によれば、粒子はパイロット波ではなく粒子である。
しかし、予測するには波を知る必要がある。
粒子しか見えなかったら、どのようにして波を予測できるのか?
そのパズルは解くことができるが、デコヒーレンスのおかげである。 According to Bohmian mechanics, we see the particle, not the pilot wave. But to make predictions we need to know the wave. How do we learn about the wave to make predictions, if we only see the particle? I show that the puzzle can be solved, but only thanks to decoherence. | 翻訳日:2023-04-02 19:59:48 公開日:2021-04-22 |
# 現実の局所要素を用いた量子二重スリット実験 The Quantum Double Slit Experiment With Local Elements of Reality ( http://arxiv.org/abs/2104.11333v1 ) ライセンス: Link先を確認 | Vlatko Vedral | (参考訳) 量子場理論の定式化における二重スリット実験の完全局所的処理について述べる。
我々の公示は本質的には教育的であり、波動粒子の双対性に関連するパラドックスに悩まされない量子二重スリット干渉が完全に局所的に記述されているという事実を実証している。
波動粒子の双対性は、実際には、粒子が現実の主要素と見なされるべきではなく、特定のフィールド構成の励起のみを表す場像に有利である。
我々の処理は一般に行われ、任意のボソニック場やフェルミイオン場の量子干渉を含む他の現象にも、空間的および時間的に適用することができる。
完全性については,同じ精神における単一量子ビット干渉の完全な治療について述べる。 We present a fully local treatment of the double slit experiment in the formalism of quantum field theory. Our exposition is predominantly pedagogical in nature and exemplifies the fact that there is an entirely local description of the quantum double slit interference that does not suffer from any supposed paradoxes usually related to the wave-particle duality. The wave-particle duality indeed vanishes in favour of the field picture in which particles should not be regarded as the primary elements of reality and only represent excitations of some specific field configurations. Our treatment is general and can be applied to any other phenomenon involving quantum interference of any bosonic or fermionic field, both spatially and temporally. For completeness, we present the full treatment of single qubit interference in the same spirit. | 翻訳日:2023-04-02 19:59:45 公開日:2021-04-22 |
# 対称行列の固有ベクトル計算のためのQUBOアルゴリズム A QUBO Algorithm to Compute Eigenvectors of Symmetric Matrices ( http://arxiv.org/abs/2104.11311v1 ) ライセンス: Link先を確認 | Benjamin Krakoff, Susan M. Mniszewski, Christian F. A. Negre | (参考訳) 擬似二項最適化問題の列を解くことにより,対称行列の極値と対応する固有ベクトルを計算するアルゴリズムについて述べる。
このアルゴリズムは対称行列の多くのクラスで堅牢であり、固有ベクトル/固有値対を本質的に任意の精度で計算することができ、小さな修正で一般化された固有値問題を解くこともできる。
小型無作為行列を用いて性能を解析し,実用的応用からより大きな行列を選択した。 We describe an algorithm to compute the extremal eigenvalues and corresponding eigenvectors of a symmetric matrix by solving a sequence of Quadratic Binary Optimization problems. This algorithm is robust across many different classes of symmetric matrices, can compute the eigenvector/eigenvalue pair to essentially arbitrary precision, and with minor modifications can also solve the generalized eigenvalue problem. Performance is analyzed on small random matrices and selected larger matrices from practical applications. | 翻訳日:2023-04-02 19:59:32 公開日:2021-04-22 |
# 非エルミート系における保存量、例外点、反線型対称性 Conserved quantities, exceptional points, and antilinear symmetries in non-Hermitian systems ( http://arxiv.org/abs/2104.11265v1 ) ライセンス: Link先を確認 | Frantisek Ruzicka, Kaustubh S. Agarwal, and Yogesh N. Joglekar | (参考訳) 過去20年間で、非エルミート・ハミルトニアンによって記述されたオープンシステムは、激しい研究の対象となっている。
これらのシステムは、利得と損失のバランスの取れた古典的波動系、モード選択的な損失を持つ半古典的モデル、最小の量子系を含み、それらに関する気象学的研究は主にそれらが示す幅広い新機能に焦点を当てている。
ここでは、以下の疑問に対処する。 このようなオープンシステムのダイナミクスに、何か定数はあるのでしょうか?
このような保存量の結果はどうなりますか。
スペクトル分解法と明示的再帰的手順により、一般の$\mathcal{PT}$-対称系に対するすべての保存可観測値を得る。
次に,他の反線形対称性を持つハミルトン系に対して解析を一般化し,開放系に対する保存則の帰結について論じる。
身体的モチベーションのある例をいくつか紹介する。 Over the past two decades, open systems that are described by a non-Hermitian Hamiltonian have become a subject of intense research. These systems encompass classical wave systems with balanced gain and loss, semiclassical models with mode selective losses, and minimal quantum systems, and the meteoric research on them has mainly focused on the wide range of novel functionalities they demonstrate. Here, we address the following questions: Does anything remain constant in the dynamics of such open systems? What are the consequences of such conserved quantities? Through spectral-decomposition method and explicit, recursive procedure, we obtain all conserved observables for general $\mathcal{PT}$-symmetric systems. We then generalize the analysis to Hamiltonians with other antilinear symmetries, and discuss the consequences of conservation laws for open systems. We illustrate our findings with several physically motivated examples. | 翻訳日:2023-04-02 19:58:38 公開日:2021-04-22 |
# コルーディングサーバを用いた量子プライベート情報検索の能力 Capacity of Quantum Private Information Retrieval with Colluding Servers ( http://arxiv.org/abs/2001.04436v3 ) ライセンス: Link先を確認 | Seunghoan Song and Masahito Hayashi | (参考訳) 量子プライベート情報検索 (quantum private information retrieval, qpir) は、ユーザが複数のファイルのうちの1つを$\mathsf{n}$非共用サーバから取得し、どのファイルが検索されたかを明らかにすることなく量子システムをダウンロードするプロトコルである。
セキュリティ要件が強いqpirの変種として、対称qpirは、ターゲットファイル以外のファイルをユーザにリークしないプロトコルであり、$\mathsf{t}$-private qpirは、少なくとも$\mathsf{t}$サーバがidを明かすかもしれないとしても、ターゲットファイルのidを秘密にしておくプロトコルである。
QPIRキャパシティは、ダウンロードされた量子システムのサイズに対するファイルサイズと最大比であり、対称的な$\mathsf{t}$-private QPIRキャパシティは、任意の$\leq \mathsf{t}< \mathsf{n}$に対して$\min\{1,2(\mathsf{n}-\mathsf{t})/\mathsf{n}$であることを示す。
我々は、安定化形式によって容量向上qpirプロトコルを構築し、プロトコルの最適性を証明する。
提案された能力は古典的な能力よりも大きい。 Quantum private information retrieval (QPIR) is a protocol in which a user retrieves one of multiple files from $\mathsf{n}$ non-communicating servers by downloading quantum systems without revealing which file is retrieved. As variants of QPIR with stronger security requirements, symmetric QPIR is a protocol in which no other files than the target file are leaked to the user, and $\mathsf{t}$-private QPIR is a protocol in which the identity of the target file is kept secret even if at most $\mathsf{t}$ servers may collude to reveal the identity. The QPIR capacity is the maximum ratio of the file size to the size of downloaded quantum systems, and we prove that the symmetric $\mathsf{t}$-private QPIR capacity is $\min\{1,2(\mathsf{n}-\mathsf{t})/\mathsf{n}\}$ for any $1\leq \mathsf{t}< \mathsf{n}$. We construct a capacity-achieving QPIR protocol by the stabilizer formalism and prove the optimality of our protocol. The proposed capacity is greater than the classical counterpart. | 翻訳日:2023-01-12 00:16:14 公開日:2021-04-22 |
# フラクトン位相秩序の量子相転移 Quantum phase transition of fracton topological orders ( http://arxiv.org/abs/2001.05937v2 ) ライセンス: Link先を確認 | Ting Fung Jeffrey Poon, Xiong-Jun Liu | (参考訳) フラクトントポロジカルオーダー (FTO) は3次元の相関位相の新たな分類であり、トポロジカルグラウンド・デジェネリズム (GSD) はシステムサイズにスケールアップし、分数的な励起は非移動的または制限されたモビリティを持つ。
GSDのトポロジカルな起源から、FTOは局所摂動に免疫を持ち、一方、地球外摂動は秩序を破ると予想されている。
しかし、位相遷移の臨界点を特定することは非常に困難である。
本研究では,外部用語によって引き起こされるタイプi ftosの量子相転移を特徴付け,遷移の臨界点を解析的に研究する理論を考案する。
特に、リネオン型励起を生成する外部摂動項に対して、gsdの分解によって特徴づけられる量子相転移の臨界点の一般式を予測する。
この理論は、X-キューブモデルを含むFTOのボードクラスに適用され、2次元(2次元)または3次元励起を生成する摂動下でのより一般的なFTOモデルに対して、臨界点の上限と下限を予測する。
我々の研究は、ジェネリックフラクトン秩序の量子相転移を解析的に特徴づける一歩を踏み出した。 Fracton topological order (FTO) is a new classification of correlated phases in three spatial dimensions with topological ground state degeneracy (GSD) scaling up with system size, and fractional excitations which are immobile or have restricted mobility. With the topological origin of GSD, FTO is immune to local perturbations, whereas a strong enough global external perturbation is expected to break the order. The critical point of the topological transition is however very challenging to identify. In this work, we propose to characterize quantum phase transition of the type-I FTOs induced by external terms and develop a theory to study analytically the critical point of the transition. In particular, for the external perturbation term creating lineon-type excitations, we predict a generic formula for the critical point of the quantum phase transition, characterized by the breaking-down of GSD. This theory applies to a board class of FTOs, including X-cube model, and for more generic FTO models under perturbations creating two-dimensional (2D) or 3D excitations, we predict the upper and lower limits of the critical point. Our work makes a step in characterizing analytically the quantum phase transition of generic fracton orders. | 翻訳日:2023-01-11 01:07:13 公開日:2021-04-22 |
# ヒートマップに基づく教師なし学習によるDNNの安全分析とリトレーニング支援 Supporting DNN Safety Analysis and Retraining through Heatmap-based Unsupervised Learning ( http://arxiv.org/abs/2002.00863v4 ) ライセンス: Link先を確認 | Hazem Fahmy, Fabrizio Pastore, Mojtaba Bagherzadeh, Lionel Briand | (参考訳) ディープニューラルネットワーク(DNN)は、例えばイメージを解析する認識層において、安全クリティカルなシステムにおいてますます重要になっている。
残念ながら、DNNベースのコンポーネントの機能的安全性を保証する方法がない。
安全クリティカルシステムにおけるdnnに関する既存の実践における3つの大きな課題を観察する。(1) テストセットで過小評価されたシナリオは重大な安全侵害リスクを生じさせる可能性があるが、それでも気づかないかもしれない。2) このようなリスクの高いシナリオを特徴付けることは安全性分析に不可欠である。
画像解析におけるこれらの問題に対処するため,DNNエラーの根本原因の同定を自動支援するHUDDを提案する。
HUDDは、DNN結果に対する全てのDNNニューロンの関連性を捉えたヒートマップにクラスタリングアルゴリズムを適用することにより、根本原因を特定する。
また、HUDDは識別された画像クラスタと関連性に基づいて自動的に選択される画像でDNNを再訓練する。
自動車分野のDNNを用いてHUDDを評価した。
HUDDはDNNエラーの根本原因の特定が可能であり、安全性解析がサポートされた。
また,本手法は既存手法よりもDNN精度の向上に有効であることが示された。 Deep neural networks (DNNs) are increasingly important in safety-critical systems, for example in their perception layer to analyze images. Unfortunately, there is a lack of methods to ensure the functional safety of DNN-based components. We observe three major challenges with existing practices regarding DNNs in safety-critical systems: (1) scenarios that are underrepresented in the test set may lead to serious safety violation risks, but may, however, remain unnoticed; (2) characterizing such high-risk scenarios is critical for safety analysis; (3) retraining DNNs to address these risks is poorly supported when causes of violations are difficult to determine. To address these problems in the context of DNNs analyzing images, we propose HUDD, an approach that automatically supports the identification of root causes for DNN errors. HUDD identifies root causes by applying a clustering algorithm to heatmaps capturing the relevance of every DNN neuron on the DNN outcome. Also, HUDD retrains DNNs with images that are automatically selected based on their relatedness to the identified image clusters. We evaluated HUDD with DNNs from the automotive domain. HUDD was able to identify all the distinct root causes of DNN errors, thus supporting safety analysis. Also, our retraining approach has shown to be more effective at improving DNN accuracy than existing approaches. | 翻訳日:2023-01-04 09:23:01 公開日:2021-04-22 |
# 計量測度埋め込みと最適輸送のブリッジングに関する理論的保証 Theoretical Guarantees for Bridging Metric Measure Embedding and Optimal Transport ( http://arxiv.org/abs/2002.08314v5 ) ライセンス: Link先を確認 | Mokhtar Z. Alaya, Maxime B\'erar, Gilles Gasso, Alain Rakotomamonjy | (参考訳) 我々は,必ずしも同じ距離空間上に存在するとは限らない分布を比較するための新しい手法を提案する。
各分布から各成分の対距離を比較するGromov-Wasserstein (GW) 距離とは異なり、測度空間を共通ユークリッド空間に埋め込み、埋め込み分布に最適な輸送(OT)を計算する方法を考える。
これは、サブエンベディングロバストなwasserstein(serw)距離と呼ばれるものにつながります。
ある条件下では、SERW は(低歪の)埋め込み分布の OT 距離を共通の計量を用いて考える距離である。
いくつかの最近のOT研究を一般化するこの新しい提案に加えて、我々の貢献はいくつかの理論的分析に依拠している。
(i)分布アライメントのためのサーウ距離を定義するために埋め込み空間を特徴づける。
(II)SERWがGW距離のほぼ同じ性質を模倣していることが証明され、GWとSERWのコスト関係が提供される。
また、SERWがマッチング問題に対してどのように振る舞うかを数値図示する。 We propose a novel approach for comparing distributions whose supports do not necessarily lie on the same metric space. Unlike Gromov-Wasserstein (GW) distance which compares pairwise distances of elements from each distribution, we consider a method allowing to embed the metric measure spaces in a common Euclidean space and compute an optimal transport (OT) on the embedded distributions. This leads to what we call a sub-embedding robust Wasserstein (SERW) distance. Under some conditions, SERW is a distance that considers an OT distance of the (low-distorted) embedded distributions using a common metric. In addition to this novel proposal that generalizes several recent OT works, our contributions stand on several theoretical analyses: (i) we characterize the embedding spaces to define SERW distance for distribution alignment; (ii) we prove that SERW mimics almost the same properties of GW distance, and we give a cost relation between GW and SERW. The paper also provides some numerical illustrations of how SERW behaves on matching problems. | 翻訳日:2022-12-30 13:19:55 公開日:2021-04-22 |
# interbert:マルチモーダルプリトレーニングのための視覚と言語インタラクション InterBERT: Vision-and-Language Interaction for Multi-modal Pretraining ( http://arxiv.org/abs/2003.13198v4 ) ライセンス: Link先を確認 | Junyang Lin, An Yang, Yichang Zhang, Jie Liu, Jingren Zhou, Hongxia Yang | (参考訳) 高レベルのマルチモーダル表現を学習するためのマルチモーダル事前訓練は、ディープラーニングと人工知能へのさらなるステップである。
本研究では,マルチモーダルプリトレーニング法m6 (multimodality-to-multimodality multitask mega-transformer) の最初のモデルであるinterbert (bert for interaction)を提案する。
モデルは、異なるモダリティの情報フロー間の相互作用をモデル化する強力な能力を持っている。
シングルストリームインタラクションモジュールは、複数のモジュールの情報を効果的に処理することができ、上位の2ストリームモジュールは、各モードの独立性を保ち、単一モードタスクのパフォーマンス低下を回避する。
我々は、マスク付きセグメントモデリング(MSM)、マスク付き領域モデリング(MRM)、画像テキストマッチング(ITM)の3つの事前訓練タスクでモデルを事前訓練し、一連の視覚/言語下流タスクでモデルを微調整する。
実験の結果、InterBERTは、最新のマルチモーダル事前学習手法を含む、一連の強力なベースラインより優れており、MSMとMRMは事前訓練に有効であり、本手法は単一モーダルタスクにおいてBERTに匹敵する性能を達成可能であることが示された。
また,中国語のマルチモーダルプリトレーニングのための大規模データセットを提案し,中国初のマルチモーダルプリトレーニングモデルである中国語インターバートを開発した。
我々は、中国最大のeコマースプラットフォームであるTaobaoから、提案した310万の画像テキストペアのデータセットに基づいて、中国インターバートを事前訓練する。
テキストベース画像検索のモデルを微調整し,最近,トピックベースの推薦のためにモデルをオンラインに展開した。 Multi-modal pretraining for learning high-level multi-modal representation is a further step towards deep learning and artificial intelligence. In this work, we propose a novel model, namely InterBERT (BERT for Interaction), which is the first model of our series of multimodal pretraining methods M6 (MultiModality-to-MultiModality Multitask Mega-transformer). The model owns strong capability of modeling interaction between the information flows of different modalities. The single-stream interaction module is capable of effectively processing information of multiple modalilties, and the two-stream module on top preserves the independence of each modality to avoid performance downgrade in single-modal tasks. We pretrain the model with three pretraining tasks, including masked segment modeling (MSM), masked region modeling (MRM) and image-text matching (ITM); and finetune the model on a series of vision-and-language downstream tasks. Experimental results demonstrate that InterBERT outperforms a series of strong baselines, including the most recent multi-modal pretraining methods, and the analysis shows that MSM and MRM are effective for pretraining and our method can achieve performances comparable to BERT in single-modal tasks. Besides, we propose a large-scale dataset for multi-modal pretraining in Chinese, and we develop the Chinese InterBERT which is the first Chinese multi-modal pretrained model. We pretrain the Chinese InterBERT on our proposed dataset of 3.1M image-text pairs from the mobile Taobao, the largest Chinese e-commerce platform. We finetune the model for text-based image retrieval, and recently we deployed the model online for topic-based recommendation. | 翻訳日:2022-12-18 06:32:22 公開日:2021-04-22 |
# クロスモーダル話者の検証と認識:多言語的視点 Cross-modal Speaker Verification and Recognition: A Multilingual Perspective ( http://arxiv.org/abs/2004.13780v2 ) ライセンス: Link先を確認 | Muhammad Saad Saeed, Shah Nawaz, Pietro Morerio, Arif Mahmood, Ignazio Gallo, Muhammad Haroon Yousaf, and Alessio Del Bue | (参考訳) 近年では、話者認識とクロスモーダルバイオメトリックアプリケーションにおいて、顔と声の関連が急増している。
これから着想を得て,同一人物によって話される複数の言語にまたがる顔と声の関連を確立するという課題を導入する。
本研究の目的は,「対人関係言語は独立か?」,「話者は話し言葉によらず認識できるか」という,密接に関連する2つの質問に答えることである。
これらの2つの質問は、有効性を理解し、多言語バイオメトリックシステムの開発を促進するために非常に重要である。
これに答えるために、私たちは、オンラインでアップロードされたさまざまなビデオから抽出された3ドルの言語アノテーションを含む154ドルの人間の音声クリップを含む多言語音声ビジュアルデータセットを収集しました。
提案されたデータセットの3つの分割に関する広範囲な実験が行われ、これらの新しい研究課題の調査と答えが、多言語問題との関連性を明確に示している。 Recent years have seen a surge in finding association between faces and voices within a cross-modal biometric application along with speaker recognition. Inspired from this, we introduce a challenging task in establishing association between faces and voices across multiple languages spoken by the same set of persons. The aim of this paper is to answer two closely related questions: "Is face-voice association language independent?" and "Can a speaker be recognised irrespective of the spoken language?". These two questions are very important to understand effectiveness and to boost development of multilingual biometric systems. To answer them, we collected a Multilingual Audio-Visual dataset, containing human speech clips of $154$ identities with $3$ language annotations extracted from various videos uploaded online. Extensive experiments on the three splits of the proposed dataset have been performed to investigate and answer these novel research questions that clearly point out the relevance of the multilingual problem. | 翻訳日:2022-12-08 22:35:17 公開日:2021-04-22 |
# オンラインメンタルヘルス会話におけるモデレーションの効果 The Effect of Moderation on Online Mental Health Conversations ( http://arxiv.org/abs/2005.09225v7 ) ライセンス: Link先を確認 | David Wadden, Tal August, Qisheng Li, Tim Althoff | (参考訳) メンタルヘルスの問題に苦しむ多くの人々は、高いコストとメンタルヘルス専門家の不足のために適切なケアにアクセスできず、世界的なメンタルヘルス危機に繋がる。
オンラインメンタルヘルスコミュニティは、セラピストやサポートグループとの対面セッションに代わる、スケーラブルで簡単にアクセス可能な代替手段を提供することで、この危機を軽減するのに役立ちます。
しかし、オンライン上での感情的・心理的支援を求める人々は、オンライン議論で時々起こる反社会的行動に特に弱い。
モデレーションはオンラインの談話の品質を向上させることができるが、オンラインのメンタルヘルスの会話に対するその影響についての理解が欠けている。
本研究では,7千件のオンラインメンタルヘルス会話から20万件のメッセージを自然実験に利用し,モデレーションがオンラインメンタルヘルス議論に与える影響を評価する。
その結果,集団的メンタルヘルス議論への参加は,心理的視点の改善につながり,中等度会話ではこれらの改善が大きかった。
モデレーターの存在はユーザーエンゲージメントを高め、ユーザーはネガティブな感情をより率直に話し合うように促し、チャット参加者の間で悪い振る舞いを劇的に減らした。
モデレーションはまた、信頼構築を示す強力な言語調整を奨励した。
また、会話に活発なモデレーターは、特に話題の会話を維持することに成功していた。
以上より,モデレーションはオンラインメンタルヘルス会話の有効性と安全性を向上させる上で有用なツールであることが示唆された。
これらの結果に基づき,メンタルヘルス支援のための効果的なオンライン空間の設計にかかわる影響とトレードオフについて考察する。 Many people struggling with mental health issues are unable to access adequate care due to high costs and a shortage of mental health professionals, leading to a global mental health crisis. Online mental health communities can help mitigate this crisis by offering a scalable, easily accessible alternative to in-person sessions with therapists or support groups. However, people seeking emotional or psychological support online may be especially vulnerable to the kinds of antisocial behavior that sometimes occur in online discussions. Moderation can improve online discourse quality, but we lack an understanding of its effects on online mental health conversations. In this work, we leveraged a natural experiment, occurring across 200,000 messages from 7,000 online mental health conversations, to evaluate the effects of moderation on online mental health discussions. We found that participation in group mental health discussions led to improvements in psychological perspective, and that these improvements were larger in moderated conversations. The presence of a moderator increased user engagement, encouraged users to discuss negative emotions more candidly, and dramatically reduced bad behavior among chat participants. Moderation also encouraged stronger linguistic coordination, which is indicative of trust building. In addition, moderators who remained active in conversations were especially successful in keeping conversations on topic. Our findings suggest that moderation can serve as a valuable tool to improve the efficacy and safety of online mental health conversations. Based on these findings, we discuss implications and trade-offs involved in designing effective online spaces for mental health support. | 翻訳日:2022-12-01 14:25:49 公開日:2021-04-22 |
# 制限等長性を証明する平均ケース時間複雑性 The Average-Case Time Complexity of Certifying the Restricted Isometry Property ( http://arxiv.org/abs/2005.11270v3 ) ライセンス: Link先を確認 | Yunzi Ding, Dmitriy Kunisky, Alexander S. Wein, Afonso S. Bandeira | (参考訳) 圧縮センシングにおいて、$M \times N$ Sening matrices (ここで$M < N$)上の制限等尺性(RIP)はスパースベクトルの効率的な再構成を保証する。
行列は$(s,\delta)$-$\mathsf{rip}$プロパティを持ち、$s$-スパースベクトル上の$\delta$-approximate 等長法として振る舞う。
M\times N$ matrix with $\mathcal{N}(0,1/M)$ entry is $(s,\delta)$-$\mathsf{RIP}$ with high probability as $s\lesssim \delta^2 M/\log N$が知られている。
一方、決定論的に$(s,\delta)$-$\mathsf{RIP}$行列を構築しようとする以前のほとんどの作業は、$s \gg \sqrt{M}$で失敗した。
RIP行列を見つける別の方法は、ランダムガウス行列を描き、それが実際に RIP であることを示すことである。
しかし、s \gg \sqrt{m}$ の場合、最悪の場合と平均の場合の両方において、この認証タスクは計算的に難しいという証拠がある。
本稿では,$m\times n$行列のrip特性を i.i.d. $\mathcal{n}(0,1/m)$エントリで証明する,sqrt{m} \ll s\lesssim m/\log n$ の正確な平均ケース時間複雑性について検討する。
低度自由度比の解析に基づいて、超指数ランタイム $n^{\tilde\omega(s^2/m)}$ が要求される厳密な証拠を与え、許容される最大スパーシティと必要な計算能力とのスムーズなトレードオフを示す。
この下限は本質的に厳密であり、Koiran と Zouzias による既存のアルゴリズムのランタイムと一致する。
我々の硬さの結果、$\delta$ は任意の一定の値を $(0,1)$ で取ることができる。
これにより、wang、berthet、planの既存の平均ケースハードネス結果が改善され、これは$\delta = o(1)$に制限される。 In compressed sensing, the restricted isometry property (RIP) on $M \times N$ sensing matrices (where $M < N$) guarantees efficient reconstruction of sparse vectors. A matrix has the $(s,\delta)$-$\mathsf{RIP}$ property if behaves as a $\delta$-approximate isometry on $s$-sparse vectors. It is well known that an $M\times N$ matrix with i.i.d. $\mathcal{N}(0,1/M)$ entries is $(s,\delta)$-$\mathsf{RIP}$ with high probability as long as $s\lesssim \delta^2 M/\log N$. On the other hand, most prior works aiming to deterministically construct $(s,\delta)$-$\mathsf{RIP}$ matrices have failed when $s \gg \sqrt{M}$. An alternative way to find an RIP matrix could be to draw a random gaussian matrix and certify that it is indeed RIP. However, there is evidence that this certification task is computationally hard when $s \gg \sqrt{M}$, both in the worst case and the average case. In this paper, we investigate the exact average-case time complexity of certifying the RIP property for $M\times N$ matrices with i.i.d. $\mathcal{N}(0,1/M)$ entries, in the "possible but hard" regime $\sqrt{M} \ll s\lesssim M/\log N$. Based on analysis of the low-degree likelihood ratio, we give rigorous evidence that subexponential runtime $N^{\tilde\Omega(s^2/M)}$ is required, demonstrating a smooth tradeoff between the maximum tolerated sparsity and the required computational power. This lower bound is essentially tight, matching the runtime of an existing algorithm due to Koiran and Zouzias. Our hardness result allows $\delta$ to take any constant value in $(0,1)$, which captures the relevant regime for compressed sensing. This improves upon the existing average-case hardness result of Wang, Berthet, and Plan, which is limited to $\delta = o(1)$. | 翻訳日:2022-11-30 09:08:35 公開日:2021-04-22 |
# MRI脳画像合成のためのベイズ条件GAN Bayesian Conditional GAN for MRI Brain Image Synthesis ( http://arxiv.org/abs/2005.11875v2 ) ライセンス: Link先を確認 | Gengyan Zhao, Mary E. Meyerand and Rasmus M. Birn | (参考訳) 医用画像の強力な技術として、画像合成は認知、超分解能、モダリティ変換などの応用で広く利用されている。
近年,深層ニューラルネットワークの復活は医用画像の分野において大きな進歩を遂げている。
画像合成精度を向上させるために, 深い傾きに基づくモデルが多数提案されているが, 医学的応用において重要となる不確かさの評価が欠落している。
本研究では,具体的ドロップアウトにより画像合成精度を向上させるため,ベイズ条件付き生成逆数ネットワーク(GAN)を提案する。
一方、ベイズネットワークが生成する不確実性を解釈できるように、パイプライン全体の不確実性校正手法が関与している。
この方法は102名の被験者の脳腫瘍データセットを用いてT1wからT2wのMR画像変換によって検証される。
モンテカルロドロップアウトを用いた従来のベイズ型ニューラルネットワークと比較すると,提案手法は,p値0.0186のかなり低いrmseに到達した。
また, 不確実性の校正法により発生した不確実性の校正も改善した。 As a powerful technique in medical imaging, image synthesis is widely used in applications such as denoising, super resolution and modality transformation etc. Recently, the revival of deep neural networks made immense progress in the field of medical imaging. Although many deep leaning based models have been proposed to improve the image synthesis accuracy, the evaluation of the model uncertainty, which is highly important for medical applications, has been a missing part. In this work, we propose to use Bayesian conditional generative adversarial network (GAN) with concrete dropout to improve image synthesis accuracy. Meanwhile, an uncertainty calibration approach is involved in the whole pipeline to make the uncertainty generated by Bayesian network interpretable. The method is validated with the T1w to T2w MR image translation with a brain tumor dataset of 102 subjects. Compared with the conventional Bayesian neural network with Monte Carlo dropout, results of the proposed method reach a significant lower RMSE with a p-value of 0.0186. Improvement of the calibration of the generated uncertainty by the uncertainty recalibration method is also illustrated. | 翻訳日:2022-11-29 06:23:17 公開日:2021-04-22 |
# 世界のひらめき:オンラインコンテクスト化されたFew-Shot学習 Wandering Within a World: Online Contextualized Few-Shot Learning ( http://arxiv.org/abs/2007.04546v3 ) ライセンス: Link先を確認 | Mengye Ren, Michael L. Iuzzolino, Michael C. Mozer, Richard S. Zemel | (参考訳) 我々は,人間と機械学習環境のギャップを,オンラインの連続的な環境に限定学習の標準フレームワークを拡張することで橋渡しすることを目指している。
この設定では、エピソードは個別のトレーニングとテストフェーズを持たず、代わりに新しいクラスを学習しながらオンラインで評価される。
時空間の存在が過去の学習スキルの獲得に役立っている現実の世界のように、オンラインのいくつかのショット学習環境は、時間とともに変化する基盤となるコンテキストも備えています。
オブジェクトクラスはコンテキスト内で相関しており、正しいコンテキストを推測するとパフォーマンスが向上します。
そこで本研究では,大規模な屋内画像に基づく数発の学習データセットを提案し,世界中をさまようエージェントの視覚的体験を模倣する。
さらに,人気のあるマイナショット学習手法をオンライン版に変換するとともに,過去からの時空間的文脈情報を活用した新しい文脈型記憶モデルを提案する。 We aim to bridge the gap between typical human and machine-learning environments by extending the standard framework of few-shot learning to an online, continual setting. In this setting, episodes do not have separate training and testing phases, and instead models are evaluated online while learning novel classes. As in the real world, where the presence of spatiotemporal context helps us retrieve learned skills in the past, our online few-shot learning setting also features an underlying context that changes throughout time. Object classes are correlated within a context and inferring the correct context can lead to better performance. Building upon this setting, we propose a new few-shot learning dataset based on large scale indoor imagery that mimics the visual experience of an agent wandering within a world. Furthermore, we convert popular few-shot learning approaches into online versions and we also propose a new contextual prototypical memory model that can make use of spatiotemporal contextual information from the recent past. | 翻訳日:2022-11-12 03:03:52 公開日:2021-04-22 |
# 組合せ最適化のためのグラフ学習:現状調査 Graph Learning for Combinatorial Optimization: A Survey of State-of-the-Art ( http://arxiv.org/abs/2008.12646v3 ) ライセンス: Link先を確認 | Yun Peng, Byron Choi, Jianliang Xu | (参考訳) グラフは多くのアプリケーションで複雑なデータを表現するために広く使われている。
グラフベースのアプリケーションでは、効率的かつ効率的なグラフ分析が重要である。
しかし、ほとんどのグラフ解析タスクは、NPハードである組合せ最適化(CO)問題である。
最近の研究は、グラフベースのCO問題を解決するために機械学習(ML)を使用する可能性に重点を置いている。
最近の手法は2段階のフレームワークに従っている。
第1段階はグラフ表現学習であり、グラフを低次元ベクトルに埋め込む。
第2段階では、MLを使用して、第1段で学習したグラフの埋め込みを使用してCO問題を解決する。
第1段階の作業は、グラフ埋め込み(ge)メソッドとエンドツーエンド(e2e)学習メソッドの2つのカテゴリに分類できる。
GE法では、グラフ埋め込みの学習には独自の目的があるが、これは解決すべきCO問題に依存しない可能性がある。
CO問題は独立した下流タスクによって解決される。
E2E学習法では,グラフ埋め込みの学習には独自の目的はなく,CO問題を解くための学習過程の中間段階である。
第2段階の作品は、非自己回帰的方法と自己回帰的方法の2つのカテゴリに分類することもできる。
非自己回帰法は1ショットでCO問題の解を予測する。
非自己回帰法は、CO問題の解の一部である各ノード/エッジの確率を表す行列を予測する。
解は行列から計算できる。
自己回帰的手法は反復的に部分解を段階的に拡張する。
各ステップにおいて、自己回帰法は、その拡張に用いられる現在の部分解に条件付けられたノード/エッジを予測する。
本稿では,グラフ学習に基づくCO法に関する最近の研究の概要について概説する。
調査は、今後の研究方向性に関するいくつかの発言で終わる。 Graphs have been widely used to represent complex data in many applications. Efficient and effective analysis of graphs is important for graph-based applications. However, most graph analysis tasks are combinatorial optimization (CO) problems, which are NP-hard. Recent studies have focused a lot on the potential of using machine learning (ML) to solve graph-based CO problems. Most recent methods follow the two-stage framework. The first stage is graph representation learning, which embeds the graphs into low-dimension vectors. The second stage uses ML to solve the CO problems using the embeddings of the graphs learned in the first stage. The works for the first stage can be classified into two categories, graph embedding (GE) methods and end-to-end (E2E) learning methods. For GE methods, learning graph embedding has its own objective, which may not rely on the CO problems to be solved. The CO problems are solved by independent downstream tasks. For E2E learning methods, the learning of graph embeddings does not have its own objective and is an intermediate step of the learning procedure of solving the CO problems. The works for the second stage can also be classified into two categories, non-autoregressive methods and autoregressive methods. Non-autoregressive methods predict a solution for a CO problem in one shot. A non-autoregressive method predicts a matrix that denotes the probability of each node/edge being a part of a solution of the CO problem. The solution can be computed from the matrix. Autoregressive methods iteratively extend a partial solution step by step. At each step, an autoregressive method predicts a node/edge conditioned to current partial solution, which is used to its extension. In this survey, we provide a thorough overview of recent studies of the graph learning-based CO methods. The survey ends with several remarks on future research directions. | 翻訳日:2022-10-24 21:12:47 公開日:2021-04-22 |
# 背景付加による背景除去:背景ロバストな自己教師付き映像表現学習に向けて Removing the Background by Adding the Background: Towards Background Robust Self-supervised Video Representation Learning ( http://arxiv.org/abs/2009.05769v4 ) ライセンス: Link先を確認 | Jinpeng Wang, Yuting Gao, Ke Li, Yiqi Lin, Andy J. Ma, Hao Cheng, Pai Peng, Feiyue Huang, Rongrong Ji, Xing Sun | (参考訳) 自己教師付き学習は、データ自体から監視を得ることで、ディープニューラルネットワークの映像表現能力を向上させる大きな可能性を示している。
しかし、現在の手法のいくつかは背景から騙される傾向がある。つまり、予測は動きではなくビデオの背景に依存しており、モデルが背景変化に弱い。
背景へのモデル依存を軽減するため,背景を追加することで背景の影響を取り除くことを提案する。
つまり、ビデオの場合、静的なフレームをランダムに選択し、他のフレームに追加して、邪魔なビデオサンプルを構築します。
そして、モデルに注意をそらすビデオの特徴とオリジナルのビデオの特徴をもっと近づけるように強制し、モデルが背景の影響に抵抗するために明示的に制限され、動きの変化にもっと焦点を合わせるようにします。
我々はこの手法を \emph{Background Erasing} (BE) と呼ぶ。
我々のメソッドの実装は非常にシンプルで簡潔であり、多くの努力を伴わずにほとんどのSOTAメソッドに追加できることは注目に値する。
具体的には、BEは、重度のバイアス付きデータセットUCF101とHMDB51でMoCoを16.4%、19.1%改善し、バイアスの少ないデータセットDiving48では14.5%改善した。 Self-supervised learning has shown great potentials in improving the video representation ability of deep neural networks by getting supervision from the data itself. However, some of the current methods tend to cheat from the background, i.e., the prediction is highly dependent on the video background instead of the motion, making the model vulnerable to background changes. To mitigate the model reliance towards the background, we propose to remove the background impact by adding the background. That is, given a video, we randomly select a static frame and add it to every other frames to construct a distracting video sample. Then we force the model to pull the feature of the distracting video and the feature of the original video closer, so that the model is explicitly restricted to resist the background influence, focusing more on the motion changes. We term our method as \emph{Background Erasing} (BE). It is worth noting that the implementation of our method is so simple and neat and can be added to most of the SOTA methods without much efforts. Specifically, BE brings 16.4% and 19.1% improvements with MoCo on the severely biased datasets UCF101 and HMDB51, and 14.5% improvement on the less biased dataset Diving48. | 翻訳日:2022-10-19 08:06:28 公開日:2021-04-22 |
# Ridgeレグレッションが再考:デバイアス、Thresholding、Bootstrap Ridge Regression Revisited: Debiasing, Thresholding and Bootstrap ( http://arxiv.org/abs/2009.08071v2 ) ライセンス: Link先を確認 | Yunyi Zhang and Dimitris N. Politis | (参考訳) 高次元データの時代におけるラッソの成功は、暗黙のモデル選択、すなわち重要でない回帰係数のゼロ化によって引き起こされる。
対照的に、古典的な隆起回帰はパラメータの潜在的間隔を明らかにすることができず、また高次元の設定の下で大きなバイアスをもたらすこともある。
しかしながら、ラッソに関する最近の研究は、モデル選択をさらに強化するために、デバイアスと閾値付けを含む。
その結果、リッジレグレッションは、デバイアスと閾値付けの後、例えば閉形式式を使って容易に計算できるようなラッソに対していくつかの利点をもたらすので、見直す価値があるかもしれない。
%であり, 閾値ラッソと同様の性能を示した。
本稿では,デバイアス付き及びしきい値付きリッジ回帰法を定義し,一貫性とガウス近似の定理を証明した。
さらに,信頼領域を構築し,パラメータの線形結合に対する仮説検証を行うワイルドブートストラップアルゴリズムを提案する。
推定に加えて予測の問題も考慮し,予測間隔を考慮した新しいハイブリッドブートストラップアルゴリズムを提案する。
広範囲な数値シミュレーションにより、デバイアスおよびしきい値付きリッジ回帰は有限サンプル性能が良好であり、いくつかの設定で好ましいことが示される。 The success of the Lasso in the era of high-dimensional data can be attributed to its conducting an implicit model selection, i.e., zeroing out regression coefficients that are not significant. By contrast, classical ridge regression can not reveal a potential sparsity of parameters, and may also introduce a large bias under the high-dimensional setting. Nevertheless, recent work on the Lasso involves debiasing and thresholding, the latter in order to further enhance the model selection. As a consequence, ridge regression may be worth another look since -- after debiasing and thresholding -- it may offer some advantages over the Lasso, e.g., it can be easily computed using a closed-form expression. % and it has similar performance to threshold Lasso. In this paper, we define a debiased and thresholded ridge regression method, and prove a consistency result and a Gaussian approximation theorem. We further introduce a wild bootstrap algorithm to construct confidence regions and perform hypothesis testing for a linear combination of parameters. In addition to estimation, we consider the problem of prediction, and present a novel, hybrid bootstrap algorithm tailored for prediction intervals. Extensive numerical simulations further show that the debiased and thresholded ridge regression has favorable finite sample performance and may be preferable in some settings. | 翻訳日:2022-10-17 12:04:28 公開日:2021-04-22 |
# ソーシャルメディアに関するハウツー・ニュース: ユーザーエンゲージメント向上のためのニュース見出し編集の因果分析 How-to Present News on Social Media: A Causal Analysis of Editing News Headlines for Boosting User Engagement ( http://arxiv.org/abs/2009.08100v2 ) ライセンス: Link先を確認 | Kunwoo Park, Haewoon Kwak, Jisun An, and Sanjay Chawla | (参考訳) より広いオーディエンスにリーチし、ニュース記事へのトラフィックを最適化するために、メディアはソーシャルメディアアカウントを運用し、コンテンツを短いテキスト要約で共有する。
記事共有において魅力的なメッセージを書くことの重要性にもかかわらず、研究コミュニティは、どのような編集戦略が観客のエンゲージメントを効果的に促進するかを十分に理解していない。
本研究では,メディアの現在の実践をデータ駆動アプローチを用いて分析することで,ギャップを埋めることを目的とする。
まず8つのメディアが共有するオリジナルニュース記事とその関連ツイートの並列コーパスを構築した。
そして、これらのメディアがオリジナルの見出しに対してツイートを編集し、そうした変化の影響について検討する。
ソーシャルメディア共有におけるニュース見出しの編集効果を推定するために,提案手法を深層学習に取り入れた体系的分析を行い,類似のニュース記事が異なるスタイルで共有される場合と比較して,編集スタイルの潜在的な(非)アドバンテージを推定する。
様々な編集スタイルの分析結果から,各メディアで共通かつ異なるスタイルの効果が報告されている。
様々な編集スタイルの効果を理解するために、メディアは我々の使いやすいツールを自分で利用することができる。 To reach a broader audience and optimize traffic toward news articles, media outlets commonly run social media accounts and share their content with a short text summary. Despite its importance of writing a compelling message in sharing articles, the research community does not own a sufficient understanding of what kinds of editing strategies effectively promote audience engagement. In this study, we aim to fill the gap by analyzing media outlets' current practices using a data-driven approach. We first build a parallel corpus of original news articles and their corresponding tweets that eight media outlets shared. Then, we explore how those media edited tweets against original headlines and the effects of such changes. To estimate the effects of editing news headlines for social media sharing in audience engagement, we present a systematic analysis that incorporates a causal inference technique with deep learning; using propensity score matching, it allows for estimating potential (dis-)advantages of an editing style compared to counterfactual cases where a similar news article is shared with a different style. According to the analyses of various editing styles, we report common and differing effects of the styles across the outlets. To understand the effects of various editing styles, media outlets could apply our easy-to-use tool by themselves. | 翻訳日:2022-10-17 11:45:53 公開日:2021-04-22 |
# 超熟練者による遅延フィードバックによる異常検出 Anomaly detection with superexperts under delayed feedback ( http://arxiv.org/abs/2010.03857v2 ) ライセンス: Link先を確認 | Raisa Dzhamtyrova, Carsten Maple | (参考訳) データとサイバー物理システムの接続性が増大し、サイバー攻撃が増加している。
このような攻撃のリアルタイム検出は、異常な活動の特定を通じて必要であり、緩和および緊急行動の効果的かつ迅速な展開を可能にする。
本研究では,教師なし異常検出アルゴリズムを集約し,利用可能になったときにフィードバックを組み込む新しい手法を提案する。
このアプローチをオープンソースの実データセットに適用し、専門家と呼ばれるモデルの集約とフィードバックの導入によってパフォーマンスが大幅に向上することを示す。
提案手法の重要な特性は、それらの理論的な保証により、彼らが最高のスーパーエキスパートに近づき、累積平均損失の観点から、最高の専門家を切り替えることができることである。 The increasing connectivity of data and cyber-physical systems has resulted in a growing number of cyber-attacks. Real-time detection of such attacks, through the identification of anomalous activity, is required so that mitigation and contingent actions can be effectively and rapidly deployed. We propose a new approach for aggregating unsupervised anomaly detection algorithms and incorporating feedback when it becomes available. We apply this approach to open-source real datasets and show that both aggregating models, which we call experts, and incorporating feedback significantly improve the performance. An important property of the proposed approaches is their theoretical guarantees that they perform close to the best superexpert, which can switch between the best performing experts, in terms of the cumulative average losses. | 翻訳日:2022-10-09 11:31:35 公開日:2021-04-22 |
# 垂直フェデレーション学習におけるモデル予測に対する特徴推論攻撃 Feature Inference Attack on Model Predictions in Vertical Federated Learning ( http://arxiv.org/abs/2010.10152v3 ) ライセンス: Link先を確認 | Xinjian Luo, Yuncheng Wu, Xiaokui Xiao, Beng Chin Ooi | (参考訳) フェデレーション学習(federated learning, fl)は、複数の組織のデータコラボレーションを促進する上で、互いにプライベートデータを明かすことなく新たなパラダイムである。
近年では,参加団体が同一のサンプル群を所持するが,非協力的な特徴を持ち,ラベルを所有する組織は1社のみであるvertical flが注目されている。
本稿では,縦型FLのモデル予測段階における潜在的なプライバシー漏洩について,いくつかの特徴推論攻撃手法を提案する。
攻撃方法は、訓練された垂直FLモデルとモデル予測のみを敵が制御し、背景情報に依存しない最も厳密な設定を考える。
まず,ロジスティック回帰 (lr) モデルと決定木モデル (dt) モデルに対する2つの特定の攻撃を予測結果に応じて提案する。
さらに、ニューラルネットワーク(NN)やランダムフォレスト(RF)モデルなどの複雑なモデルを扱うために、敵が蓄積した複数の予測出力に基づいて、汎用攻撃法を設計する。
実験評価は,提案手法の有効性を実証し,垂直flの予測出力を保護するためのプライベート機構の設計の必要性を強調する。 Federated learning (FL) is an emerging paradigm for facilitating multiple organizations' data collaboration without revealing their private data to each other. Recently, vertical FL, where the participating organizations hold the same set of samples but with disjoint features and only one organization owns the labels, has received increased attention. This paper presents several feature inference attack methods to investigate the potential privacy leakages in the model prediction stage of vertical FL. The attack methods consider the most stringent setting that the adversary controls only the trained vertical FL model and the model predictions, relying on no background information. We first propose two specific attacks on the logistic regression (LR) and decision tree (DT) models, according to individual prediction output. We further design a general attack method based on multiple prediction outputs accumulated by the adversary to handle complex models, such as neural networks (NN) and random forest (RF) models. Experimental evaluations demonstrate the effectiveness of the proposed attacks and highlight the need for designing private mechanisms to protect the prediction outputs in vertical FL. | 翻訳日:2022-10-05 07:47:56 公開日:2021-04-22 |
# 四元値変分オートエンコーダ A Quaternion-Valued Variational Autoencoder ( http://arxiv.org/abs/2010.11647v2 ) ライセンス: Link先を確認 | Eleonora Grassucci, Danilo Comminiello, Aurelio Uncini | (参考訳) 深い確率的生成モデルは、多くの応用分野で驚くべき成功を収めています。
そのようなモデルのうち、変分オートエンコーダ(vaes)は、入力の潜在表現を学習することによって生成過程をモデル化する能力を示している。
本稿では,四元数領域で定義される新しいvaeを提案し,四元数代数の特性を利用して,ネットワークに必要なパラメータ数を大幅に削減しながら性能を向上させる。
従来のVAEに対して提案された四元数VAEの成功は、四元数値の入力特徴間の内部関係を利用する能力と、拡張四元数領域における潜伏変数の定義を可能にする二階統計特性に依存する。
このような特性による利点を示すため、四元数領域における平らな畳み込みVAEを定義し、CelebAの顔データセット上での実値に対してその性能を評価する。 Deep probabilistic generative models have achieved incredible success in many fields of application. Among such models, variational autoencoders (VAEs) have proved their ability in modeling a generative process by learning a latent representation of the input. In this paper, we propose a novel VAE defined in the quaternion domain, which exploits the properties of quaternion algebra to improve performance while significantly reducing the number of parameters required by the network. The success of the proposed quaternion VAE with respect to traditional VAEs relies on the ability to leverage the internal relations between quaternion-valued input features and on the properties of second-order statistics which allow to define the latent variables in the augmented quaternion domain. In order to show the advantages due to such properties, we define a plain convolutional VAE in the quaternion domain and we evaluate its performance with respect to its real-valued counterpart on the CelebA face dataset. | 翻訳日:2022-10-04 08:10:07 公開日:2021-04-22 |
# LightSeq: トランスフォーマーのための高性能な推論ライブラリ LightSeq: A High Performance Inference Library for Transformers ( http://arxiv.org/abs/2010.13887v4 ) ライセンス: Link先を確認 | Xiaohui Wang, Ying Xiong, Yang Wei, Mingxuan Wang, Lei Li | (参考訳) トランスフォーマー、バートとその変種は自然言語処理で大きな成功を収めている。
Transformerモデルは巨大であるため、これらのモデルを提供することは、実際の産業アプリケーションにとって課題である。
本稿では,Transformerファミリーのモデルに対する高効率な推論ライブラリであるLightSeqを提案する。
LightSeqには、ニューラルネットワーク層の計算を合理化し、メモリフットプリントを削減するための一連のGPU最適化技術が含まれている。
LightSeqは、PyTorchとTensorflowを使ってトレーニングされたモデルを簡単にインポートできる。
マシン翻訳ベンチマークの実験の結果、lightseqはtensorflowと1.4xと比較して最大14倍のスピードアップを達成している。
コードはhttps://github.com/bytedance/lightseqで入手できる。 Transformer, BERT and their variants have achieved great success in natural language processing. Since Transformer models are huge in size, serving these models is a challenge for real industrial applications. In this paper, we propose LightSeq, a highly efficient inference library for models in the Transformer family. LightSeq includes a series of GPU optimization techniques to to streamline the computation of neural layers and to reduce memory footprint. LightSeq can easily import models trained using PyTorch and Tensorflow. Experimental results on machine translation benchmarks show that LightSeq achieves up to 14x speedup compared with TensorFlow and 1.4x compared with FasterTransformer, a concurrent CUDA implementation. The code is available at https://github.com/bytedance/lightseq. | 翻訳日:2022-10-04 00:11:06 公開日:2021-04-22 |
# 時間的注意喚起グラフ畳み込みネットワークによるスケルトンに基づく人間行動認識 Temporal Attention-Augmented Graph Convolutional Network for Efficient Skeleton-Based Human Action Recognition ( http://arxiv.org/abs/2010.12221v3 ) ライセンス: Link先を確認 | Negar Heidari, Alexandros Iosifidis | (参考訳) グラフ畳み込みネットワーク(gcns)は、時空間グラフとしてモデル化された身体骨格のシーケンスのような非ユークリッドデータ構造のモデル化に非常に成功している。
ほとんどのGCNベースのアクション認識手法は、計算量の多いディープフィードフォワードネットワークを使用して、全てのスケルトンをアクションで処理する。
これにより、単一のサンプルを処理するための浮動小数点演算(16Gから100GのFLOP)が多くなり、制限された計算アプリケーションシナリオに採用される。
本稿では,ネットワークの初期層における行動の最も情報性の高い骨格を選択することで,骨格に基づく行動認識の効率を高めるための時間的注意モジュール(TAM)を提案する。
我々は、tamを軽量gcnトポロジーに組み込むことにより、計算全体の数をさらに削減する。
2つのベンチマークデータセットによる実験結果から,提案手法はGCN法よりも2.9倍少ない計算量で性能に優れていた。
さらに、最先端の計算と同等に動作し、最大9.6倍の計算量を持つ。 Graph convolutional networks (GCNs) have been very successful in modeling non-Euclidean data structures, like sequences of body skeletons forming actions modeled as spatio-temporal graphs. Most GCN-based action recognition methods use deep feed-forward networks with high computational complexity to process all skeletons in an action. This leads to a high number of floating point operations (ranging from 16G to 100G FLOPs) to process a single sample, making their adoption in restricted computation application scenarios infeasible. In this paper, we propose a temporal attention module (TAM) for increasing the efficiency in skeleton-based action recognition by selecting the most informative skeletons of an action at the early layers of the network. We incorporate the TAM in a light-weight GCN topology to further reduce the overall number of computations. Experimental results on two benchmark datasets show that the proposed method outperforms with a large margin the baseline GCN-based method while having 2.9 times less number of computations. Moreover, it performs on par with the state-of-the-art with up to 9.6 times less number of computations. | 翻訳日:2022-10-03 23:10:08 公開日:2021-04-22 |
# スケール劣化法による低ランク行列回復:条件数のない高速・ロバスト収束 Low-Rank Matrix Recovery with Scaled Subgradient Methods: Fast and Robust Convergence Without the Condition Number ( http://arxiv.org/abs/2010.13364v2 ) ライセンス: Link先を確認 | Tian Tong, Cong Ma, Yuejie Chi | (参考訳) データサイエンスにおける多くの問題は、高度に不完全で時には腐敗した観測から低ランク行列を推定することとして扱うことができる。
1つの一般的なアプローチは行列分解に頼り、低ランク行列因子は正方形の残余和のような滑らかな損失関数上の一階法によって最適化される。
近年は大きな進展が見られたが、自然に滑らかな定式化は2つの不調の原因に苦しんでおり、勾配降下の反復複雑性は次元と低ランク行列の条件数の両方で小さくスケールしている。
さらに、スムーズな定式化は腐敗に対して堅牢ではない。
本稿では,非滑らかで非凸な定式化の族(特に絶対誤差の残余和)を,条件数にほぼ依存せず,条件数に依存しない高速で収束させることが保証される,スケール段階的な方法を提案する。
本稿では,観測演算子がある種の混合ノルム制限等長性を満たす場合と,ロバストな低ランク行列センシングや二次サンプリングといった様々な問題に対する最先端の性能保証を行う場合の有効性を示す。 Many problems in data science can be treated as estimating a low-rank matrix from highly incomplete, sometimes even corrupted, observations. One popular approach is to resort to matrix factorization, where the low-rank matrix factors are optimized via first-order methods over a smooth loss function, such as the residual sum of squares. While tremendous progresses have been made in recent years, the natural smooth formulation suffers from two sources of ill-conditioning, where the iteration complexity of gradient descent scales poorly both with the dimension as well as the condition number of the low-rank matrix. Moreover, the smooth formulation is not robust to corruptions. In this paper, we propose scaled subgradient methods to minimize a family of nonsmooth and nonconvex formulations -- in particular, the residual sum of absolute errors -- which is guaranteed to converge at a fast rate that is almost dimension-free and independent of the condition number, even in the presence of corruptions. We illustrate the effectiveness of our approach when the observation operator satisfies certain mixed-norm restricted isometry properties, and derive state-of-the-art performance guarantees for a variety of problems such as robust low-rank matrix sensing and quadratic sampling. | 翻訳日:2022-10-02 18:58:45 公開日:2021-04-22 |
# 骨格に基づく人行動認識のための時空間グラフ畳み込みネットワークにおける空間的注意について On the spatial attention in Spatio-Temporal Graph Convolutional Networks for skeleton-based human action recognition ( http://arxiv.org/abs/2011.03833v2 ) ライセンス: Link先を確認 | Negar Heidari, Alexandros Iosifidis | (参考訳) グラフ畳み込みネットワーク(GCN)は、スケルトンを時空間グラフとしてモデル化することで、骨格に基づく人間の行動認識において有望な性能を達成した。
最近提案されたGCNベースの手法のほとんどは、モデルパラメータとエンドツーエンドに協調的に最適化されたグラフ隣接行列に適用された空間的注意を用いて、ネットワークの各層でグラフ構造を学習することで、性能を向上させる。
本稿では,時空間GCN層における空間的注意度を解析し,動作時の人体関節の相対的位置の対称特性をよりよく反映するための対称的空間的注意度を提案する。
また、双線形層への付加的空間的注意を生かした時空間GCN層の接続を強調し、事前定義された隣接行列の使用を必要としない時空間双線形ネットワーク(ST-BLN)を提案する。
実験の結果、3つのモデルが効果的に同じ性能をもたらすことがわかった。
さらに、提案したST-BLNの柔軟性を利用して、モデルの効率を向上させることができる。 Graph convolutional networks (GCNs) achieved promising performance in skeleton-based human action recognition by modeling a sequence of skeletons as a spatio-temporal graph. Most of the recently proposed GCN-based methods improve the performance by learning the graph structure at each layer of the network using a spatial attention applied on a predefined graph Adjacency matrix that is optimized jointly with model's parameters in an end-to-end manner. In this paper, we analyze the spatial attention used in spatio-temporal GCN layers and propose a symmetric spatial attention for better reflecting the symmetric property of the relative positions of the human body joints when executing actions. We also highlight the connection of spatio-temporal GCN layers employing additive spatial attention to bilinear layers, and we propose the spatio-temporal bilinear network (ST-BLN) which does not require the use of predefined Adjacency matrices and allows for more flexible design of the model. Experimental results show that the three models lead to effectively the same performance. Moreover, by exploiting the flexibility provided by the proposed ST-BLN, one can increase the efficiency of the model. | 翻訳日:2022-09-28 22:43:35 公開日:2021-04-22 |
# 癌におけるコピー数変化のトポロジカルデータ解析 Topological Data Analysis of copy number alterations in cancer ( http://arxiv.org/abs/2011.11070v2 ) ライセンス: Link先を確認 | Stefan Groha, Caroline Weis, Alexander Gusev, Bastian Rieck | (参考訳) がん生検サンプルのサブグループと特性の同定は、正確な診断を得るための重要なステップであり、がん患者のパーソナライズされた治療を可能にする。
最近のデータ収集は、コピー番号変更(CNA)に関する遺伝データを含む、がん細胞データの包括的特徴を提供する。
本研究では,各がんサンプルをトポロジカルな特徴,すなわちデータに表される高次元ヴォイドの永続化図としてエンコードする新しいトポロジに基づくアプローチを用いて,がんゲノム情報に含まれる情報を取得する可能性を探る。
本手法は, 癌体性遺伝データ中の有意義な低次元表現を抽出し, がんデータのサブ構造を見つけるためのいくつかの応用の可能性を実証し, 癌型の類似性を比較した。 Identifying subgroups and properties of cancer biopsy samples is a crucial step towards obtaining precise diagnoses and being able to perform personalized treatment of cancer patients. Recent data collections provide a comprehensive characterization of cancer cell data, including genetic data on copy number alterations (CNAs). We explore the potential to capture information contained in cancer genomic information using a novel topology-based approach that encodes each cancer sample as a persistence diagram of topological features, i.e., high-dimensional voids represented in the data. We find that this technique has the potential to extract meaningful low-dimensional representations in cancer somatic genetic data and demonstrate the viability of some applications on finding substructures in cancer data as well as comparing similarity of cancer types. | 翻訳日:2022-09-22 12:17:26 公開日:2021-04-22 |
# 効率的なビデオ分類のための時間差凝集と時間差分分解 Diverse Temporal Aggregation and Depthwise Spatiotemporal Factorization for Efficient Video Classification ( http://arxiv.org/abs/2012.00317v3 ) ライセンス: Link先を確認 | Youngwan Lee, Hyung-Il Kim, Kimin Yun, Jinyoung Moon | (参考訳) 近年注目されているビデオ分類研究は、時間モデリングと3次元効率的なアーキテクチャの分野である。
しかし、時間的モデリング手法は効率的ではなく、3次元効率的なアーキテクチャは時間的モデリングにはあまり関心がない。
それらのギャップを橋渡しするために,時間的ワンショットアグリゲーション(t-osa)モジュールと深さ分解成分(d(2+1)d)からなる,vov3dと呼ばれる効率的な時間的モデリング3dアーキテクチャを提案する。
このT-OSAを積み重ねることで、ネットワーク自体がショートレンジとロングレンジの時間的関係を外部モジュールなしでモデル化することができる。
カーネル因子分解とチャネル因子分解に触発されて,d(2+1)dと呼ばれる深さ方向の時空間因子分解モジュールも設計し,三次元の深さ方向の畳み込みを2つの空間的および時間的深さ方向の畳み込みに分解し,ネットワークをより軽量かつ効率的にする。
提案手法と効率的な分解成分(D(2+1)D)を用いて,VoV3D-MとVoV3D-Lの2種類のVoV3Dネットワークを構築する。
時間モデリングの効率性と有効性により、VoV3D-Lは6倍のモデルパラメータと16倍の計算能力を有し、Somes-SomethingとKineetics-400の双方で最先端の時間モデリング手法を上回っている。
さらに、VoV3Dは最先端の効率的な3Dアーキテクチャよりも時間的モデリング能力が優れている。
vov3dが効率的なビデオ分類のベースラインになることを願っている。 Video classification researches that have recently attracted attention are the fields of temporal modeling and 3D efficient architecture. However, the temporal modeling methods are not efficient or the 3D efficient architecture is less interested in temporal modeling. For bridging the gap between them, we propose an efficient temporal modeling 3D architecture, called VoV3D, that consists of a temporal one-shot aggregation (T-OSA) module and depthwise factorized component, D(2+1)D. The T-OSA is devised to build a feature hierarchy by aggregating temporal features with different temporal receptive fields. Stacking this T-OSA enables the network itself to model short-range as well as long-range temporal relationships across frames without any external modules. Inspired by kernel factorization and channel factorization, we also design a depthwise spatiotemporal factorization module, named, D(2+1)D that decomposes a 3D depthwise convolution into two spatial and temporal depthwise convolutions for making our network more lightweight and efficient. By using the proposed temporal modeling method (T-OSA), and the efficient factorized component (D(2+1)D), we construct two types of VoV3D networks, VoV3D-M and VoV3D-L. Thanks to its efficiency and effectiveness of temporal modeling, VoV3D-L has 6x fewer model parameters and 16x less computation, surpassing a state-of-the-art temporal modeling method on both Something-Something and Kinetics-400. Furthermore, VoV3D shows better temporal modeling ability than a state-of-the-art efficient 3D architecture, X3D having comparable model capacity. We hope that VoV3D can serve as a baseline for efficient video classification. | 翻訳日:2021-05-30 19:50:23 公開日:2021-04-22 |
# (参考訳) 信頼できる材料発見ワークフローのためのディープラーニングによる不確かさの活用 Leveraging Uncertainty from Deep Learning for Trustworthy Materials Discovery Workflows ( http://arxiv.org/abs/2012.01478v2 ) ライセンス: CC BY 4.0 | Jize Zhang, Bhavya Kailkhura, T. Yong-Jin Han | (参考訳) 本稿では、深層ニューラルネットワークの予測不確実性を利用して、機械学習ベースの材料アプリケーションワークフローで科学者が通常遭遇する課題に答える。
まず,予測的不確実性を利用することで,特定の分類精度を達成するために必要なトレーニングデータセットのサイズをユーザが決定できることを示す。
次に,紛らわしいサンプルの判断を検知・拒否するために,不確実性誘導決定基準を提案する。
最後に, 分布外サンプルの検出にも予測の不確かさが有効であることを示す。
この手法は、画像取得条件の変化や合成条件の変化など、データにおける幅広い実世界のシフトを検出するのに十分な精度を持つことが分かっています。
走査型電子顕微鏡 (sem) 画像からの微視的情報を用いて, 不確実性を考慮した深層学習を応用することで, 分類モデルの性能と信頼性が著しく向上することを示す。 In this paper, we leverage predictive uncertainty of deep neural networks to answer challenging questions material scientists usually encounter in machine learning based materials applications workflows. First, we show that by leveraging predictive uncertainty, a user can determine the required training data set size necessary to achieve a certain classification accuracy. Next, we propose uncertainty guided decision referral to detect and refrain from making decisions on confusing samples. Finally, we show that predictive uncertainty can also be used to detect out-of-distribution test samples. We find that this scheme is accurate enough to detect a wide range of real-world shifts in data, e.g., changes in the image acquisition conditions or changes in the synthesis conditions. Using microstructure information from scanning electron microscope (SEM) images as an example use case, we show that leveraging uncertainty-aware deep learning can significantly improve the performance and dependability of classification models. | 翻訳日:2021-05-30 02:35:29 公開日:2021-04-22 |
# (参考訳) 合成一般化可能な3次元構造予測 Compositionally Generalizable 3D Structure Prediction ( http://arxiv.org/abs/2012.02493v3 ) ライセンス: CC BY 4.0 | Songfang Han, Jiayuan Gu, Kaichun Mo, Li Yi, Siyu Hu, Xuejin Chen, Hao Su | (参考訳) シングルイメージの3次元形状復元はコンピュータビジョンにおいて重要かつ長年の課題である。
多くの既存の作品が、ディープラーニング時代の最先端のパフォーマンスを常に押し付けている。
しかしながら、形状幾何分布が全く異なる未発見のオブジェクトカテゴリに対して、学習スキルを一般化する方法に関して、より困難で未検討の課題が残されている。
本稿では,合成汎化可能性の概念を取り入れ,これらの未知のカテゴリをよりよく一般化できる新しい枠組みを提案する。
本研究では,3次元形状復元問題を適切な部分問題に分解し,それらの問題を一般化可能性に配慮した神経サブモジュールで解決する。
私たちの定式化の背景にある直観は、対象部分(スレートと円筒部分)、それらの関係(隣接性と変換対称性)、および形状部分構造(t-接合と対称部分のグループ)は、オブジェクトのジオメトリが全く異なるように見えるにもかかわらず、ほとんどが対象のカテゴリ間で共有されていることである。
椅子とキャビネット)。
PartNetの実験では、最先端技術よりも優れたパフォーマンスを実現しています。
これは、問題要因化とネットワーク設計を検証する。 Single-image 3D shape reconstruction is an important and long-standing problem in computer vision. A plethora of existing works is constantly pushing the state-of-the-art performance in the deep learning era. However, there remains a much more difficult and under-explored issue on how to generalize the learned skills over unseen object categories that have very different shape geometry distributions. In this paper, we bring in the concept of compositional generalizability and propose a novel framework that could better generalize to these unseen categories. We factorize the 3D shape reconstruction problem into proper sub-problems, each of which is tackled by a carefully designed neural sub-module with generalizability concerns. The intuition behind our formulation is that object parts (slates and cylindrical parts), their relationships (adjacency and translation symmetry), and shape substructures (T-junctions and a symmetric group of parts) are mostly shared across object categories, even though object geometries may look very different (e.g. chairs and cabinets). Experiments on PartNet show that we achieve superior performance than state-of-the-art. This validates our problem factorization and network designs. | 翻訳日:2021-05-23 08:00:05 公開日:2021-04-22 |
# (参考訳) レーザーによる毛虫, ホッパー, アブラムシおよびそれらを中和するシミュレーションプログラム Detect caterpillar, grasshopper, aphid and simulation program for neutralizing them by laser ( http://arxiv.org/abs/2105.02955v1 ) ライセンス: CC BY 4.0 | Rakhmatulin Ildar | (参考訳) 作物の害虫からの保護は栽培作物に関係している。
しかし、現代の殺虫剤による害虫対策は、人間に多くの危険をもたらす。
したがって、安全で効果的な害虫防除法の開発に関する研究は有望である。
本本は害虫防除の新しい方法を提案する。
我々は害虫検出にニューラルネットワークを用い,その中和に強力なレーザー装置(5W)を開発した。
最も有用な特徴を抽出するため、害虫による画像の処理方法について詳述する。
aphids, grasshopper, cabbage caterpillar を例に, 各種ニューラルネットワークモデルを分析し, 昆虫ごとの最適なモデルと特性を選択した。
本稿では,現像レーザ装置の動作原理を詳述する。
我々は,それらの座標の映像ストリーム計算で害虫を検索し,レーザーでデバイスに座標を伝達するプログラムを開発した。 The protection of crops from pests is relevant for any cultivated crop. But modern methods of pest control by pesticides carry many dangers for humans. Therefore, research into the development of safe and effective pest control methods is promising. This manuscript presents a new method of pest control. We used neural networks for pest detection and developed a powerful laser device (5 W) for their neutralization. In the manuscript methods of processing images with pests to extract the most useful feature are described in detail. Using the following pets as an example: aphids, grasshopper, cabbage caterpillar, we analyzed various neural network models and selected the optimal models and characteristics for each insect. In the paper the principle of operation of the developed laser device is described in detail. We created the program to search a pest in the video stream calculation of their coordinates and transmission data with coordinates to the device with the laser. | 翻訳日:2021-05-11 11:25:15 公開日:2021-04-22 |
# 頑健な画像分類のためのミニバッチグラフ Mini-batch graphs for robust image classification ( http://arxiv.org/abs/2105.03237v1 ) ライセンス: Link先を確認 | Arnab Kumar Mondal, Vineet Jain and Kaleem Siddiqi | (参考訳) コンピュータビジョンにおける分類タスクのための現在のディープラーニングモデルは、ミニバッチを使用して訓練される。
本稿では,ミニバッチにおけるサンプル間の関係を利用して,グラフニューラルネットワークを用いて類似画像から情報を集約する。
これにより、入力画像の変更が分類性能に与える影響を軽減することができる。
画像に基づく物体とシーンの分類に関する様々な実験は、このアプローチが分類器のパフォーマンスを向上するだけでなく、画像摂動や敵攻撃に対する頑健性を高めることを示している。
さらに,ミニバッチグラフニューラルネットワークは,生成型逆ネットワークにおけるモード崩壊の問題を軽減できることを示す。 Current deep learning models for classification tasks in computer vision are trained using mini-batches. In the present article, we take advantage of the relationships between samples in a mini-batch, using graph neural networks to aggregate information from similar images. This helps mitigate the adverse effects of alterations to the input images on classification performance. Diverse experiments on image-based object and scene classification show that this approach not only improves a classifier's performance but also increases its robustness to image perturbations and adversarial attacks. Further, we also show that mini-batch graph neural networks can help to alleviate the problem of mode collapse in Generative Adversarial Networks. | 翻訳日:2021-05-11 08:34:01 公開日:2021-04-22 |
# (参考訳) データ駆動型還元次数モデリングのためのニューラル常微分方程式 Neural Ordinary Differential Equations for Data-Driven Reduced Order Modeling of Environmental Hydrodynamics ( http://arxiv.org/abs/2104.13962v1 ) ライセンス: CC BY 4.0 | Sourav Dutta, Peter Rivera-Casillas, Matthew W. Farthing | (参考訳) 流体シミュレーションのモデル還元は、多くの科学および工学分野において大きな関心を寄せ続けている。
本稿では、最近導入された連続深度微分可能ネットワークのファミリーであるNeural Ordinary Differential Equations(Chen et al 2018)を用いて、遅延空間のダイナミクスを縮小順序モデルで伝播させる方法について検討する。
直交分解と放射基底関数補間および動的モード分解に基づく2つの古典的非侵入的手法との比較を行った。
実験課題は,シリンダーまわりの非圧縮性流れと,河川・河口系における浅層水力力学の実世界の応用である。
この結果から,ニューラルODEは潜在空間力学の安定かつ正確な進化のためのエレガントなフレームワークであり,外挿予測の可能性も期待できることがわかった。
しかしながら、大規模システムへの普及を促進するためには、トレーニング時間を短縮するための努力が必要である。
これにより、幅広いシステムダイナミクスに対して一般化可能なニューラルODE近似を構築するために、より包括的なハイパーパラメータ空間の探索が可能になる。 Model reduction for fluid flow simulation continues to be of great interest across a number of scientific and engineering fields. Here, we explore the use of Neural Ordinary Differential Equations, a recently introduced family of continuous-depth, differentiable networks (Chen et al 2018), as a way to propagate latent-space dynamics in reduced order models. We compare their behavior with two classical non-intrusive methods based on proper orthogonal decomposition and radial basis function interpolation as well as dynamic mode decomposition. The test problems we consider include incompressible flow around a cylinder as well as real-world applications of shallow water hydrodynamics in riverine and estuarine systems. Our findings indicate that Neural ODEs provide an elegant framework for stable and accurate evolution of latent-space dynamics with a promising potential of extrapolatory predictions. However, in order to facilitate their widespread adoption for large-scale systems, significant effort needs to be directed at accelerating their training times. This will enable a more comprehensive exploration of the hyperparameter space for building generalizable Neural ODE approximations over a wide range of system dynamics. | 翻訳日:2021-05-04 04:55:23 公開日:2021-04-22 |
# ファジィエキスパートシステムによるcovid-19患者のicu入所予測 Fuzzy Expert Systems for Prediction of ICU Admission in Patients with COVID-19 ( http://arxiv.org/abs/2104.12868v1 ) ライセンス: Link先を確認 | Ali Akbar Sadat Asl, Mohammad Mahdi Ershadi, Shahabeddin Sotudian | (参考訳) 新型コロナウイルス(COVID-19)のパンデミックは世界中のほぼすべての国に劇的な影響を与えており、多くの病院がコビッドの感染者に圧倒されている。
医療資源が限られているため、これらの資源の適切な配分を決定することは極めて重要な問題である。
さらに、不確実性は、特に医学分野において決定に影響を及ぼす主要な要因である。
この問題に対処するために,不確実性と複雑性の高いシステムモデリングにおいて,ファジィ論理(FL)を最も適した手法の1つである。
icuで治療する必要がある場合の決定において、flの利点を利用するつもりです。
本研究では, インターバルタイプ2ファジィエキスパートシステムを用いて, ICU入院の予測を行った。
この予測タスクのために,適応型ニューロファジー推論システム (anfis) も開発した。
最後に、これらのファジィシステムの結果を、NB(Naive Bayes)、CBR(Case-Based Reasoning)、DT(Decision Tree)、K Nearest Neighbor(KNN)といった有名な分類手法と比較する。
その結果,2型ファジィエキスパートシステムとANFISモデルは,他のシステムモデリング手法と比較して,精度とF測定の両面で競合することを示した。 The pandemic COVID-19 disease has had a dramatic impact on almost all countries around the world so that many hospitals have been overwhelmed with Covid-19 cases. As medical resources are limited, deciding on the proper allocation of these resources is a very crucial issue. Besides, uncertainty is a major factor that can affect decisions, especially in medical fields. To cope with this issue, we use fuzzy logic (FL) as one of the most suitable methods in modeling systems with high uncertainty and complexity. We intend to make use of the advantages of FL in decisions on cases that need to treat in ICU. In this study, an interval type-2 fuzzy expert system is proposed for prediction of ICU admission in COVID-19 patients. For this prediction task, we also developed an adaptive neuro-fuzzy inference system (ANFIS). Finally, the results of these fuzzy systems are compared to some well-known classification methods such as Naive Bayes (NB), Case-Based Reasoning (CBR), Decision Tree (DT), and K Nearest Neighbor (KNN). The results show that the type-2 fuzzy expert system and ANFIS models perform competitively in terms of accuracy and F-measure compared to the other system modeling techniques. | 翻訳日:2021-05-03 19:50:08 公開日:2021-04-22 |
# (参考訳) ai障害の理解と回避 - 実践的ガイド Understanding and Avoiding AI Failures: A Practical Guide ( http://arxiv.org/abs/2104.12582v1 ) ライセンス: CC BY 4.0 | Robert Williams | (参考訳) AI技術の能力とユビキティが向上するにつれ、AI事故はますます一般的になりつつある。
通常の事故理論、高信頼性理論、オープンシステム理論に基づいて、aiアプリケーションに関連するリスクを理解するためのフレームワークを構築します。
さらに、AIの安全性原則を使用して、AIのインテリジェンスと人間のような品質のユニークなリスクを定量化しています。
これら2つのフィールドは、現代のAIのリスクをより完全に表現している。
事故の根本原因を求めるのではなく,事故近傍のシステム特性に注目することで,現行のaiシステムの安全性に注意を払うべき場所を特定する。 As AI technologies increase in capability and ubiquity, AI accidents are becoming more common. Based on normal accident theory, high reliability theory, and open systems theory, we create a framework for understanding the risks associated with AI applications. In addition, we also use AI safety principles to quantify the unique risks of increased intelligence and human-like qualities in AI. Together, these two fields give a more complete picture of the risks of contemporary AI. By focusing on system properties near accidents instead of seeking a root cause of accidents, we identify where attention should be paid to safety for current generation AI systems. | 翻訳日:2021-04-29 07:04:25 公開日:2021-04-22 |
# 知識グラフにおけるエンティティマッチングのための推移制約の活用 Exploiting Transitivity Constraints for Entity Matching in Knowledge Graphs ( http://arxiv.org/abs/2104.12589v1 ) ライセンス: Link先を確認 | Jurian Baas, Mehdi Dastani, Ad Feelders | (参考訳) 知識グラフにおけるエンティティマッチングの目標は、類似度メトリックを使用して同じ現実世界のオブジェクトを参照するエンティティを特定することである。
エンティティマッチングの結果は、同じ関係として解釈されるエンティティペアの集合と見なすことができる。
しかし、同定されたペアの集合は、同じ関係から期待されるいくつかの構造的性質、特に推移性を満たすことができないかもしれない。
本研究では,移動性のアドホックな実施,すなわち移動性を示す。
トランジショナル・クロージャを取れば 特定されたエンティティ・ペアのセットで 精度が劇的に低下する
そこで我々は,与えられた類似度尺度から開始し,同一実世界のオブジェクトを参照していると認識されたエンティティ対を生成し,クラスタ編集アルゴリズムを適用し,スプリアスリンクを多数追加することなく推移性を実現する手法を提案する。 The goal of entity matching in knowledge graphs is to identify entities that refer to the same real-world objects using some similarity metric. The result of entity matching can be seen as a set of entity pairs interpreted as the same-as relation. However, the identified set of pairs may fail to satisfy some structural properties, in particular transitivity, that are expected from the same-as relation. In this work, we show that an ad-hoc enforcement of transitivity, i.e. taking the transitive closure, on the identified set of entity pairs may decrease precision dramatically. We therefore propose a methodology that starts with a given similarity measure, generates a set of entity pairs that are identified as referring to the same real-world objects, and applies the cluster editing algorithm to enforce transitivity without adding many spurious links, leading to overall improved performance. | 翻訳日:2021-04-27 14:26:43 公開日:2021-04-22 |
# 非線形偏微分方程式のベイズ数値解法 Bayesian Numerical Methods for Nonlinear Partial Differential Equations ( http://arxiv.org/abs/2104.12587v1 ) ライセンス: Link先を確認 | Junyang Wang, Jon Cockayne, Oksana Chkrebtii, T. J. Sullivan, Chris. J. Oates | (参考訳) 微分方程式の数値解は、形式的統計的アプローチを適用できる推論問題として定式化することができる。
しかし、非線形偏微分方程式(英語版) (PDE) は、特に明示的な条件式が欠如していることから、推論の観点からかなりの問題を引き起こす。
本稿では、線形PDEに関する初期の研究を、非線形PDEによって定義された初期値問題の一般的なクラスに拡張し、PDEの右辺、初期条件、境界条件の評価が計算コストが高い問題によって動機付けられた。
提案手法は, 非線形微分作用素の離散化に基づく近似的近似により, 正確なベイズ推定とみなすことができる。
概念実証実験の結果, pdeの未知解に対する有意義な確率的不確実性定量化が可能となり, 右辺, 初期条件, 境界条件の倍数を制御できた。
PDE の解の適切な事前モデルは、Mate\'{e}rn 過程のサンプルパス特性の新たな理論的解析を用いて同定される。 The numerical solution of differential equations can be formulated as an inference problem to which formal statistical approaches can be applied. However, nonlinear partial differential equations (PDEs) pose substantial challenges from an inferential perspective, most notably the absence of explicit conditioning formula. This paper extends earlier work on linear PDEs to a general class of initial value problems specified by nonlinear PDEs, motivated by problems for which evaluations of the right-hand-side, initial conditions, or boundary conditions of the PDE have a high computational cost. The proposed method can be viewed as exact Bayesian inference under an approximate likelihood, which is based on discretisation of the nonlinear differential operator. Proof-of-concept experimental results demonstrate that meaningful probabilistic uncertainty quantification for the unknown solution of the PDE can be performed, while controlling the number of times the right-hand-side, initial and boundary conditions are evaluated. A suitable prior model for the solution of the PDE is identified using novel theoretical analysis of the sample path properties of Mat\'{e}rn processes, which may be of independent interest. | 翻訳日:2021-04-27 14:20:19 公開日:2021-04-22 |
# MAQ-CaF: 感作性汚染物質に対するモジュール型空気品質校正・予測法 MAQ-CaF: A Modular Air Quality Calibration and Forecasting method for cross-sensitive pollutants ( http://arxiv.org/abs/2104.12594v1 ) ライセンス: Link先を確認 | Yousuf Hashmy, ZillUllah Khan, Rehan Hafiz, Usman Younis, and Tausif Tauqeer | (参考訳) 気候変動の課題は世界中に広まり、特に未発展の国では最悪の打撃を受けている。
低コストな展開で汚染物質を正確に測定し、予測する必要性は、かつてないほど重要になっている。
低コストの空気品質モニタリングセンサーは、誤った測定、頻繁なダウンタイム、不確実な運用条件の傾向にある。
このような状況は、効果的で柔軟な校正法を確保するために慎重なアプローチを必要とする。
モジュール型空気品質校正および予測手法であるMAQ-CaFを提案し、IoTフレームワークの可能性を活用するモジュール型機械学習ベースの設計を通じて、信頼性の低い課題をサイドステップする。
キャリブレーションされたデータはローカルとリモートの両方に格納され、将来の予測機能が追加される。
我々の特別に設計された検証プロセスは、精度を損なうことなく提案されたソリューションの適用性と柔軟性を確立するのに役立つ。
CO, SO2, NO2, O3, PM1.0, PM2.5, PM10を適度に測定した。
このような試みは、適切な監視と、安価なモニタリングを通じてより広い地理的地域を横断する大気質の追跡を通じて、気候変動の世界的な課題に対処するためのステップである。 The climatic challenges are rising across the globe in general and in worst hit under-developed countries in particular. The need for accurate measurements and forecasting of pollutants with low-cost deployment is more pertinent today than ever before. Low-cost air quality monitoring sensors are prone to erroneous measurements, frequent downtimes, and uncertain operational conditions. Such a situation demands a prudent approach to ensure an effective and flexible calibration scheme. We propose MAQ-CaF, a modular air quality calibration, and forecasting methodology, that side-steps the challenges of unreliability through its modular machine learning-based design which leverages the potential of IoT framework. It stores the calibrated data both locally and remotely with an added feature of future predictions. Our specially designed validation process helps to establish the proposed solution's applicability and flexibility without compromising accuracy. CO, SO2, NO2, O3, PM1.0, PM2.5 and PM10 were calibrated and monitored with reasonable accuracy. Such an attempt is a step toward addressing climate change's global challenge through appropriate monitoring and air quality tracking across a wider geographical region via affordable monitoring. | 翻訳日:2021-04-27 14:18:19 公開日:2021-04-22 |
# (参考訳) Articulated Animationのための動き表現 Motion Representations for Articulated Animation ( http://arxiv.org/abs/2104.11280v1 ) ライセンス: CC BY 4.0 | Aliaksandr Siarohin, Oliver J. Woodford, Jian Ren, Menglei Chai and Sergey Tulyakov | (参考訳) 異なる部分からなる調音物体をアニメーション化する新しい動き表現法を提案する。
完全に教師なしの方法で、本手法は対象部品を識別し、駆動ビデオで追跡し、主軸を考慮して動きを推定する。
従来のキーポイントに基づく研究とは対照的に,提案手法は位置,形状,ポーズを記述し,有意義かつ一貫した領域を抽出する。
領域は、駆動ビデオのフレームでより容易に検出される意味的に関連し、異なる対象部分に対応する。
背景からフォアグラウンドのデカップリングを強制するために,アフィン変換を付加した非対象のグローバルな動きをモデル化する。
アニメーションを容易にし,運転物体の形状の漏れを防止するため,領域空間における物体の形状とポーズを乱す。
我々のモデルは様々なオブジェクトをアニメートすることができ、既存のベンチマークでは従来のメソッドを大きく上回っています。
本稿では,高精細度ビデオを用いた挑戦的な新しいベンチマークを提案し,その改善が特に顕著であることを示し,96.6%のユーザ嗜好を得た。 We propose novel motion representations for animating articulated objects consisting of distinct parts. In a completely unsupervised manner, our method identifies object parts, tracks them in a driving video, and infers their motions by considering their principal axes. In contrast to the previous keypoint-based works, our method extracts meaningful and consistent regions, describing locations, shape, and pose. The regions correspond to semantically relevant and distinct object parts, that are more easily detected in frames of the driving video. To force decoupling of foreground from background, we model non-object related global motion with an additional affine transformation. To facilitate animation and prevent the leakage of the shape of the driving object, we disentangle shape and pose of objects in the region space. Our model can animate a variety of objects, surpassing previous methods by a large margin on existing benchmarks. We present a challenging new benchmark with high-resolution videos and show that the improvement is particularly pronounced when articulated objects are considered, reaching 96.6% user preference vs. the state of the art. | 翻訳日:2021-04-26 21:56:12 公開日:2021-04-22 |
# (参考訳) ハミルトン-ヤコビ偏微分方程式と非凸前駆に対する最大後値と後平均推定値との連結 Connecting Hamilton--Jacobi partial differential equations with maximum a posteriori and posterior mean estimators for some non-convex priors ( http://arxiv.org/abs/2104.11285v1 ) ライセンス: CC BY 4.0 | J\'er\^ome Darbon and Gabriel P. Langlois and Tingwei Meng | (参考訳) 多くの画像問題は、有限次元最適化問題として表される逆問題として定式化することができる。
これらの最適化問題は一般に、データ忠実度と正規化項の和を最小化する。
23,26]では、これらの最適化問題と(多重時間)ハミルトン-ヤコビ偏微分方程式の接続は、データの忠実度と正規化項の両方の凸性仮定の下で提案されている。
特に、これらの凸性仮定の下では、最小値の表現公式がいくつか得られる。
ベイズの観点からは、そのような最小化器は最大後部推定器と見なすことができる。
本章では、ある種の非凸正則化を考えるとともに、その最小化に対する類似表現公式も得られることを示す。
これは、もともと最適制御で生じるハミルトン-ヤコビ偏微分方程式を解くために開発されたミンプラス代数技術を活用することで達成される。
25] では, 粘性ハミルトン-ヤコビ偏微分方程式とガウスデータ忠実性項と対数凸優先項を持つベイズ後平均推定子との関係が強調された。
また、ガウス的データ忠実度を持つベイズ的後進平均推定器や、min-plus代数手法の類似を用いた非log-concave先行値についても同様の結果を示す。 Many imaging problems can be formulated as inverse problems expressed as finite-dimensional optimization problems. These optimization problems generally consist of minimizing the sum of a data fidelity and regularization terms. In [23,26], connections between these optimization problems and (multi-time) Hamilton--Jacobi partial differential equations have been proposed under the convexity assumptions of both the data fidelity and regularization terms. In particular, under these convexity assumptions, some representation formulas for a minimizer can be obtained. From a Bayesian perspective, such a minimizer can be seen as a maximum a posteriori estimator. In this chapter, we consider a certain class of non-convex regularizations and show that similar representation formulas for the minimizer can also be obtained. This is achieved by leveraging min-plus algebra techniques that have been originally developed for solving certain Hamilton--Jacobi partial differential equations arising in optimal control. Note that connections between viscous Hamilton--Jacobi partial differential equations and Bayesian posterior mean estimators with Gaussian data fidelity terms and log-concave priors have been highlighted in [25]. We also present similar results for certain Bayesian posterior mean estimators with Gaussian data fidelity and certain non-log-concave priors using an analogue of min-plus algebra techniques. | 翻訳日:2021-04-26 21:40:29 公開日:2021-04-22 |
# (参考訳) H-Net:非教師付きアテンションベースステレオ深さ推定法 H-Net: Unsupervised Attention-based Stereo Depth Estimation Leveraging Epipolar Geometry ( http://arxiv.org/abs/2104.11288v1 ) ライセンス: CC BY 4.0 | Baoru Huang, Jian-Qing Zheng, Stamatia Giannarou, Daniel S. Elson | (参考訳) ステレオ画像対からの深度推定はコンピュータビジョンにおいて最も検討された応用の1つとなり、従来の手法のほとんどは完全に教師付き学習設定に依存していた。
しかし、正確でスケーラブルな地上真実データを取得することの難しさから、完全教師付き手法の訓練は困難である。
代わりとして、この課題を緩和するために、自己監督型メソッドがより普及しています。
本稿では,ステレオマッチングを洗練するためにエピポーラ幾何を利用した,教師なしステレオ深度推定のためのディープラーニングフレームワークであるh-netを提案する。
最初に、修正ステレオ画像間の相互情報を抽出する深度推定にシームズオートエンコーダアーキテクチャを用いる。
エピポーラ制約を強制するために、入力ステレオペア間の相互情報を学習しながら同じエピポーラライン上にある特徴の対応をより強調する相互エピポーラ注意機構が設計されている。
提案した注意機構に意味情報を組み込むことによりステレオ対応をさらに強化する。
より具体的には、最適な輸送アルゴリズムは、両方のカメラで見えない領域の注意を抑え、異常をなくすために使用される。
kitti2015とcityscapesでの広範囲な実験により、この手法は、全教師付きアプローチでギャップを閉じながら、最先端の未教師付きステレオ深度推定手法よりも優れていることが示された。 Depth estimation from a stereo image pair has become one of the most explored applications in computer vision, with most of the previous methods relying on fully supervised learning settings. However, due to the difficulty in acquiring accurate and scalable ground truth data, the training of fully supervised methods is challenging. As an alternative, self-supervised methods are becoming more popular to mitigate this challenge. In this paper, we introduce the H-Net, a deep-learning framework for unsupervised stereo depth estimation that leverages epipolar geometry to refine stereo matching. For the first time, a Siamese autoencoder architecture is used for depth estimation which allows mutual information between the rectified stereo images to be extracted. To enforce the epipolar constraint, the mutual epipolar attention mechanism has been designed which gives more emphasis to correspondences of features which lie on the same epipolar line while learning mutual information between the input stereo pair. Stereo correspondences are further enhanced by incorporating semantic information to the proposed attention mechanism. More specifically, the optimal transport algorithm is used to suppress attention and eliminate outliers in areas not visible in both cameras. Extensive experiments on KITTI2015 and Cityscapes show that our method outperforms the state-ofthe-art unsupervised stereo depth estimation methods while closing the gap with the fully supervised approaches. | 翻訳日:2021-04-26 21:14:41 公開日:2021-04-22 |
# (参考訳) テキスト分類における測地距離と文脈埋め込み圧縮について On Geodesic Distances and Contextual Embedding Compression for Text Classification ( http://arxiv.org/abs/2104.11295v1 ) ライセンス: CC BY 4.0 | Rishi Jha and Kai Mihata | (参考訳) IoTデバイスやオーバーザネットワークデータパイプラインのようなメモリ制約のある設定では、コンテキスト埋め込みが小さくなるという利点がある。
本研究では, コンテキスト埋め込みデータ(BERT)を多様体に投影することの有効性について検討し, 非線形次元還元法を用いてそれらの埋め込みを圧縮する。
特に,isomapとpcaの組み合わせを適用した新しい後処理手法を提案する。
リーマン多様体上の最短経路の推定である測地距離の推定は、アイソマップのk-ネアレスト近傍グラフから得られることが、圧縮埋め込みの性能をオリジナルのbert埋め込みに匹敵することを示した。
1つのデータセットでは、12倍の次元減少にもかかわらず、圧縮された埋め込みは、下流の分類タスクにおいて元のBERT埋め込みの0.1%以内に実行される。
さらに, この手法は, 線形次元削減と比較して, 構文データに依存するタスクに特に有効であることがわかった。
これらの結果は、既存のトランスフォーマーから低次元のテキスト埋め込みを実現し、データ固有およびアプリケーション固有の埋め込み圧縮への道を開く新しい幾何学的アプローチに有望である。 In some memory-constrained settings like IoT devices and over-the-network data pipelines, it can be advantageous to have smaller contextual embeddings. We investigate the efficacy of projecting contextual embedding data (BERT) onto a manifold, and using nonlinear dimensionality reduction techniques to compress these embeddings. In particular, we propose a novel post-processing approach, applying a combination of Isomap and PCA. We find that the geodesic distance estimations, estimates of the shortest path on a Riemannian manifold, from Isomap's k-Nearest Neighbors graph bolstered the performance of the compressed embeddings to be comparable to the original BERT embeddings. On one dataset, we find that despite a 12-fold dimensionality reduction, the compressed embeddings performed within 0.1% of the original BERT embeddings on a downstream classification task. In addition, we find that this approach works particularly well on tasks reliant on syntactic data, when compared with linear dimensionality reduction. These results show promise for a novel geometric approach to achieve lower dimensional text embeddings from existing transformers and pave the way for data-specific and application-specific embedding compressions. | 翻訳日:2021-04-26 21:00:07 公開日:2021-04-22 |
# (参考訳) Earnings-21: 野生におけるASRの実践的ベンチマーク Earnings-21: A Practical Benchmark for ASR in the Wild ( http://arxiv.org/abs/2104.11348v1 ) ライセンス: CC BY-SA 4.0 | Miguel Del Rio, Natalie Delworth, Ryan Westerman, Michelle Huang, Nishchal Bhandari, Joseph Palakapilly, Quinten McNamara, Joshua Dong, Piotr Zelasko, Miguel Jette | (参考訳) 一般的な音声コーパスは、学術的および商業的なASRシステムに不適当に挑戦する。
特に、音声コーパスには詳細な分析やWER測定に必要なメタデータがない。
これに応えて、9つの金融セクターのエンティティ・ディエンス・スピーチを含む39時間の収支表であるEarnings-21を提示する。
このコーパスは、名前付きエンティティ認識に特に注意を払って、野生のasrシステムをベンチマークすることを目的としている。
我々は、4つの商用ASRモデル、オープンソースツールで構築された2つの内部モデル、オープンソースのLibriSpeechモデルをベンチマークし、Earnings-21の性能差について議論する。
最近リリースしたfstalignツールを使用して、各モデルの認識能力を異なるパーティション下で率直に分析する。
解析の結果,特定のnerカテゴリのasr精度は低く,理解と使用の書き起こしに重大な障害が生じた。
Earnings-21は学術的および商業的なASRシステム評価を橋渡しし、実世界のオーディオにおけるエンティティモデリングとWERのさらなる研究を可能にする。 Commonly used speech corpora inadequately challenge academic and commercial ASR systems. In particular, speech corpora lack metadata needed for detailed analysis and WER measurement. In response, we present Earnings-21, a 39-hour corpus of earnings calls containing entity-dense speech from nine different financial sectors. This corpus is intended to benchmark ASR systems in the wild with special attention towards named entity recognition. We benchmark four commercial ASR models, two internal models built with open-source tools, and an open-source LibriSpeech model and discuss their differences in performance on Earnings-21. Using our recently released fstalign tool, we provide a candid analysis of each model's recognition capabilities under different partitions. Our analysis finds that ASR accuracy for certain NER categories is poor, presenting a significant impediment to transcript comprehension and usage. Earnings-21 bridges academic and commercial ASR system evaluation and enables further research on entity modeling and WER on real world audio. | 翻訳日:2021-04-26 20:53:30 公開日:2021-04-22 |
# (参考訳) 新型コロナウイルスの時系列解析 : 症例と死亡例 Scalable Predictive Time-Series Analysis of COVID-19: Cases and Fatalities ( http://arxiv.org/abs/2104.11349v1 ) ライセンス: CC BY 4.0 | Shradha Shinde, Jay Joshi, Sowmya Mareedu, Yeon Pyo Kim, Jongwook Woo | (参考訳) 新型コロナウイルス19は、2019年12月から世界中で流行し始めた急性疾患である。
世界中に広がり、700万人以上が感染し、2020年10月現在で2万人が死亡している。
本稿では,Times Series: ARIMA と ETS をベースとした従来型およびビッグデータプラットフォームを用いて,死者数と米国ロサンゼルスおよびニューヨークで確認された症例数を予測した。
また,Facebook Prophet APIを用いた時系列予測モデルも実装した。
さらに,ロジスティック回帰(ロジスティック回帰)とランダムフォレスト回帰(ランダムフォレスト回帰)という分類モデルを開発した。
モデルはレガシーシステム(Azure ML Studio)とビッグデータシステム(Oracle CloudとDatabricks)で構築および実行される。
さらに,モデルの精度について述べる。 COVID 19 is an acute disease that started spreading throughout the world, beginning in December 2019. It has spread worldwide and has affected more than 7 million people, and 200 thousand people have died due to this infection as of Oct 2020. In this paper, we have forecasted the number of deaths and the confirmed cases in Los Angeles and New York of the United States using the traditional and Big Data platforms based on the Times Series: ARIMA and ETS. We also implemented a more sophisticated time-series forecast model using Facebook Prophet API. Furthermore, we developed the classification models: Logistic Regression and Random Forest regression to show that the Weather does not affect the number of the confirmed cases. The models are built and run in legacy systems (Azure ML Studio) and Big Data systems (Oracle Cloud and Databricks). Besides, we present the accuracy of the models. | 翻訳日:2021-04-26 20:44:48 公開日:2021-04-22 |
# SPECTRE:ロバスト統計を用いたバックドア攻撃対策 SPECTRE: Defending Against Backdoor Attacks Using Robust Statistics ( http://arxiv.org/abs/2104.11315v1 ) ライセンス: Link先を確認 | Jonathan Hayase, Weihao Kong, Raghav Somani, Sewoong Oh | (参考訳) 現代の機械学習では、複数のソースから収集した大量のデータのトレーニングがますます必要になる。
特に関連するシナリオは、攻撃者が特定した透かしによって引き起こされた場合、少量の有毒データが訓練されたモデルの振る舞いを変更する場合である。
このような妥協されたモデルは、モデルが正しくない場合、気づかないままデプロイされる。
このようなモデルの中間表現を使って、破損した例をクリーンなものから分離しようとする有望な試みがあった。
しかし、これらの防御は、有毒な例の特定のスペクトルシグネチャが検出に十分な大きさである場合にのみ機能する。
既存の防御では防げない広範囲な攻撃がある。
本研究では,ロバスト共分散推定を用いた新しい防御アルゴリズムを提案し,破損データのスペクトルシグネチャを増幅する。
この防御はクリーンなモデルを提供し、以前の方法が有毒な例を検知する見込みのない体制でも、バックドアを完全に取り除きます。
コードと事前訓練されたモデルはhttps://github.com/sewoonglab/spectre-defense.comで入手できる。 Modern machine learning increasingly requires training on a large collection of data from multiple sources, not all of which can be trusted. A particularly concerning scenario is when a small fraction of poisoned data changes the behavior of the trained model when triggered by an attacker-specified watermark. Such a compromised model will be deployed unnoticed as the model is accurate otherwise. There have been promising attempts to use the intermediate representations of such a model to separate corrupted examples from clean ones. However, these defenses work only when a certain spectral signature of the poisoned examples is large enough for detection. There is a wide range of attacks that cannot be protected against by the existing defenses. We propose a novel defense algorithm using robust covariance estimation to amplify the spectral signature of corrupted data. This defense provides a clean model, completely removing the backdoor, even in regimes where previous methods have no hope of detecting the poisoned examples. Code and pre-trained models are available at https://github.com/SewoongLab/spectre-defense . | 翻訳日:2021-04-26 13:16:45 公開日:2021-04-22 |
# sbnet:自然言語に基づく車両探索のためのセグメンテーションベースネットワーク SBNet: Segmentation-based Network for Natural Language-based Vehicle Search ( http://arxiv.org/abs/2104.11589v1 ) ライセンス: Link先を確認 | Sangrok Lee, Taekang Woo, Sang Hun Lee | (参考訳) 自然言語に基づく車両検索は、自然言語をクエリとして記述し、所定の画像内で対象車両を見つけるタスクである。
この技術は、容疑者車両を探す警察など、様々な分野に適用することができる。
しかし、言語記述の曖昧さとマルチモーダルデータの処理が困難であることから、困難である。
そこで本研究では,自然言語に基づく車両検索のセグメンテーションを行う深層ニューラルネットワークsbnetを提案する。
また,性能を向上させるためのタスク固有モジュールを2つ提案する。異なるドメインの機能を同じ空間に組み込むための置換モジュールと,時間情報を学ぶ将来の予測モジュールである。
SBnetはCityFlow-NLデータセットを使用してトレーニングされており、それぞれ3つのユニークな自然言語記述を持つ2,498のトラックと、530のユニークなトラックとその対応するクエリセットをテストしている。
sbnetは、ai city challenge 2021において、自然言語ベースの車両追跡トラックのベースラインを大きく改善した。 Natural language-based vehicle retrieval is a task to find a target vehicle within a given image based on a natural language description as a query. This technology can be applied to various areas including police searching for a suspect vehicle. However, it is challenging due to the ambiguity of language descriptions and the difficulty of processing multi-modal data. To tackle this problem, we propose a deep neural network called SBNet that performs natural language-based segmentation for vehicle retrieval. We also propose two task-specific modules to improve performance: a substitution module that helps features from different domains to be embedded in the same space and a future prediction module that learns temporal information. SBnet has been trained using the CityFlow-NL dataset that contains 2,498 tracks of vehicles with three unique natural language descriptions each and tested 530 unique vehicle tracks and their corresponding query sets. SBNet achieved a significant improvement over the baseline in the natural language-based vehicle tracking track in the AI City Challenge 2021. | 翻訳日:2021-04-26 13:16:29 公開日:2021-04-22 |
# VeriMedi: Proxy-based Deep Metric Learning and Exact Solution を用いたピア同定 VeriMedi: Pill Identification using Proxy-based Deep Metric Learning and Exact Solution ( http://arxiv.org/abs/2104.11231v1 ) ライセンス: Link先を確認 | Tekin Evrim Ozmermer, Viktors Roze, Stanislavs Hilcuks, Alina Nescerecka | (参考訳) 本稿では,VeriMedi デバイスで撮影された画像を用いて薬剤の同定と検証を行うシステムを提案する。
verimedi deviceはiot(internet of things, モノのインターネット)デバイスで、バイアルの底から充填された錠剤の写真を撮り、この研究で提示されたソリューションを使って、バイアル内の錠剤を識別する。
このソリューションには、セグメンテーションと識別を行う2つの連続接続型ディープラーニングソリューションがある。
セグメンテーションソリューションは、Mask R-CNNモデルを使用して、バイセル画像の各ピルのマスクを生成し、その後、セグメンテーションして薬を収穫し、背景をぼかす。
その後、セグメント化されたピル画像が識別ソリューションに送られ、プロキシアンカーロス(PAL)関数でトレーニングされたディープメトリックラーニングモデルが各ピル画像の埋め込みベクトルを生成する。
生成された埋め込みベクトルは、1層に完全に接続されたネットワークに入力され、個々のピル画像を予測する正確な解で訓練される。
そして、アグリゲーション/検証関数は、複数の単一のピル画像から来る複数の予測を集約し、予め定義されたルールに関する最終予測の正しさを検証する。
さらに、より優れたプロキシ初期化によって、モデルのパフォーマンスが向上し、モデルがデータセット全体を再トレーニングすることなく、新たなクラスのイメージを継続的に学習できるようにしました。
初期クラスでトレーニングされたモデルが新しいクラスでのみ再トレーニングされると、古いクラスと新しいクラスの両方でモデルの精度が向上する。
この研究で提示した識別ソリューションは、継続学習や細粒度視覚分類を必要とする他の問題領域にも再利用できる。 We present the system that we have developed for the identification and verification of pills using images that are taken by the VeriMedi device. The VeriMedi device is an Internet of Things device that takes pictures of a filled pill vial from the bottom of the vial and uses the solution that is presented in this research to identify the pills in the vials. The solution has two serially connected deep learning solutions which do segmentation and identification. The segmentation solution creates the masks for each pill in the vial image by using the Mask R-CNN model, then segments and crops the pills and blurs the background. After that, the segmented pill images are sent to the identification solution where a Deep Metric Learning model that is trained with Proxy Anchor Loss (PAL) function generates embedding vectors for each pill image. The generated embedding vectors are fed into a one-layer fully connected network that is trained with the exact solution to predict each single pill image. Then, the aggregation/verification function aggregates the multiple predictions coming from multiple single pill images and verifies the correctness of the final prediction with respect to predefined rules. Besides, we enhanced the PAL with a better proxy initialization that increased the performance of the models and let the model learn the new classes of images continually without retraining the model with the whole dataset. When the model that is trained with initial classes is retrained only with new classes, the accuracy of the model increases for both old and new classes. The identification solution that we have presented in this research can also be reused for other problem domains which require continual learning and/or Fine-Grained Visual Categorization. | 翻訳日:2021-04-26 13:16:02 公開日:2021-04-22 |
# 静的画像からの表情認識のためのランドマーク認識とパートベースアンサンブル転送学習ネットワーク Landmark-Aware and Part-based Ensemble Transfer Learning Network for Facial Expression Recognition from Static images ( http://arxiv.org/abs/2104.11274v1 ) ライセンス: Link先を確認 | Rohan Wadhawan and Tapan K. Gandhi | (参考訳) 静的画像からの表情認識はコンピュータビジョンアプリケーションでは難しい問題である。
コンピュータビジョンタスクの最先端手法である畳み込みニューラルネットワーク(convolutional neural network, cnn)は、極端なポーズ、照明、咬合条件を持つ顔からの表情の予測に成功している。
この問題を軽減するため、CNNには転送、マルチタスク、アンサンブル学習などのテクニックが伴い、高い計算複雑性を犠牲にして高い精度を提供することが多い。
本研究では,顔の特徴の空間的方向パターンを特定の表情に関連付けて,人間の表情認識をモデル化する,部分的なアンサンブル・トランスファー学習ネットワークを提案する。
それは5つのサブネットワークで構成されており、各サブネットワークは、顔のランドマークの5つのサブセットのうちの1つ(まぶた、目、鼻、口、顎)から表情分類への転送学習を行う。
提案したネットワークをCK+, JAFFE, SFEWデータセット上でテストし, CK+, JAFFEデータセットのベンチマークをそれぞれ0.51\%, 5.34\%で上回った。
さらに、合計1.65Mモデルパラメータで構成され、リアルタイムデプロイメントの計算効率を保証するために、わずか3.28$\times$10^{6}$ FLOPSしか必要としない。
提案したアンサンブルのGrad-CAM視覚化では,有効アンサンブルネットワークの設計パラメータであるサブネットワークの相補性を強調した。
最後に,クロスデータセット評価の結果から,提案するアンサンブルは高い一般化能力を持つことが明らかとなった。
sfew trainデータセットでトレーニングされたモデルは、ck+データセット上で47.53\%の精度を実現しています。 Facial Expression Recognition from static images is a challenging problem in computer vision applications. Convolutional Neural Network (CNN), the state-of-the-art method for various computer vision tasks, has had limited success in predicting expressions from faces having extreme poses, illumination, and occlusion conditions. To mitigate this issue, CNNs are often accompanied by techniques like transfer, multi-task, or ensemble learning that often provide high accuracy at the cost of high computational complexity. In this work, we propose a Part-based Ensemble Transfer Learning network, which models how humans recognize facial expressions by correlating the spatial orientation pattern of the facial features with a specific expression. It consists of 5 sub-networks, in which each sub-network performs transfer learning from one of the five subsets of facial landmarks: eyebrows, eyes, nose, mouth, or jaw to expression classification. We test the proposed network on the CK+, JAFFE, and SFEW datasets, and it outperforms the benchmark for CK+ and JAFFE datasets by 0.51\% and 5.34\%, respectively. Additionally, it consists of a total of 1.65M model parameters and requires only 3.28 $\times$ $10^{6}$ FLOPS, which ensures computational efficiency for real-time deployment. Grad-CAM visualizations of our proposed ensemble highlight the complementary nature of its sub-networks, a key design parameter of an effective ensemble network. Lastly, cross-dataset evaluation results reveal that our proposed ensemble has a high generalization capacity. Our model trained on the SFEW Train dataset achieves an accuracy of 47.53\% on the CK+ dataset, which is higher than what it achieves on the SFEW Valid dataset. | 翻訳日:2021-04-26 13:11:45 公開日:2021-04-22 |
# パッチショートカット:ブラックボックスの脆弱性を効果的に発見する解釈可能なプロキシモデル Patch Shortcuts: Interpretable Proxy Models Efficiently Find Black-Box Vulnerabilities ( http://arxiv.org/abs/2104.11691v1 ) ライセンス: Link先を確認 | Julia Rosenzweig, Joachim Sicking, Sebastian Houben, Michael Mock, Maram Akila | (参考訳) 安全な機械学習(ML)のための重要な柱は、ニューラルネットワークの弱点を体系的に緩和し、重要なアプリケーションにデプロイすることである。
安全リスクのユビキタスクラスは、ショートカット、すなわち学習される。
ネットワークは実際のタスクと意味的な関係を持たない決定のために悪用します。
このようなショートカットに依存するネットワークは、見当たらない入力にうまく一般化しないリスクを負う。
説明可能性メソッドはそのようなネットワーク脆弱性を明らかにするのに役立つ。
しかし、これらの技術の多くは、ネットワークへのアクセスが制限されている場合、いわゆるブラックボックス設定では直接適用されない。
これらのセットアップは、サードパーティのMLコンポーネントを使用する場合には一般的である。
この制約に対処するため,関心のブラックボックスモデルのプロキシとして,解釈可能なネットワークを用いて学習したショートカットを検出する手法を提案する。
イントロスペクションのプロキシの保証を活用することで、学習したショートカットの候補を自動的に抽出します。
ブラックボックスへの転送性は体系的に検証される。
具体的には、プロキシモデルとしてbagnetを選択します。
パッチショートカットを抽出した自律走行データセットA2D2がブラックボックスモデルに大きな影響を及ぼすことを示す。
このようなパッチベースの脆弱性を効率的に識別することにより、より安全なMLモデルに寄与する。 An important pillar for safe machine learning (ML) is the systematic mitigation of weaknesses in neural networks to afford their deployment in critical applications. An ubiquitous class of safety risks are learned shortcuts, i.e. spurious correlations a network exploits for its decisions that have no semantic connection to the actual task. Networks relying on such shortcuts bear the risk of not generalizing well to unseen inputs. Explainability methods help to uncover such network vulnerabilities. However, many of these techniques are not directly applicable if access to the network is constrained, in so-called black-box setups. These setups are prevalent when using third-party ML components. To address this constraint, we present an approach to detect learned shortcuts using an interpretable-by-design network as a proxy to the black-box model of interest. Leveraging the proxy's guarantees on introspection we automatically extract candidates for learned shortcuts. Their transferability to the black box is validated in a systematic fashion. Concretely, as proxy model we choose a BagNet, which bases its decisions purely on local image patches. We demonstrate on the autonomous driving dataset A2D2 that extracted patch shortcuts significantly influence the black box model. By efficiently identifying such patch-based vulnerabilities, we contribute to safer ML models. | 翻訳日:2021-04-26 13:10:06 公開日:2021-04-22 |
# マルチモーダル画像アライメントのためのDeep Lucas-Kanade Homography Deep Lucas-Kanade Homography for Multimodal Image Alignment ( http://arxiv.org/abs/2104.11693v1 ) ライセンス: Link先を確認 | Yiming Zhao, Xinming Huang and Ziming Zhang | (参考訳) 多くのコンピュータビジョンアプリケーションにおいて、画像対を異なるセンサーや画像対に大きく変化させるようにホモグラフィーを推定することが重要かつ一般的な課題である。
他とは対照的に,従来のルーカスカナーデアルゴリズムをネットワークで拡張することにより,画素ワイドなマルチモーダル画像対の一般的な解を提案する。
提案手法における重要な貢献は,Deep Lucas-Kanade Feature Map (DLKFM) と呼ばれる特徴マップの構築方法である。
学習したDLKFMは、様々な外観変化条件下で自然に不変の特徴を認識することができる。
ルーカス・カナードアルゴリズムには2つの優れた特性がある:(1)テンプレート特徴マップは入力特徴マップと輝度一貫性を保ちます。
2) DLKFM上に構築されたルーカス・カナーデ目的関数は、基底真理ホモグラフィーパラメータの周りのスムーズな景観を持つので、ルーカス・カナーデの反復解は基底真理に容易に収束できる。
これらの特性により、特徴マップ上でLucas-Kanadeアルゴリズムを直接更新することで、画像ペアを大きな外観変化と正確に整合させることができる。
データセット、コード、デモビデオをオンラインで共有しています。 Estimating homography to align image pairs captured by different sensors or image pairs with large appearance changes is an important and general challenge for many computer vision applications. In contrast to others, we propose a generic solution to pixel-wise align multimodal image pairs by extending the traditional Lucas-Kanade algorithm with networks. The key contribution in our method is how we construct feature maps, named as deep Lucas-Kanade feature map (DLKFM). The learned DLKFM can spontaneously recognize invariant features under various appearance-changing conditions. It also has two nice properties for the Lucas-Kanade algorithm: (1) The template feature map keeps brightness consistency with the input feature map, thus the color difference is very small while they are well-aligned. (2) The Lucas-Kanade objective function built on DLKFM has a smooth landscape around ground truth homography parameters, so the iterative solution of the Lucas-Kanade can easily converge to the ground truth. With those properties, directly updating the Lucas-Kanade algorithm on our feature maps will precisely align image pairs with large appearance changes. We share the datasets, code, and demo video online. | 翻訳日:2021-04-26 13:03:56 公開日:2021-04-22 |
# 実時間逆モデリングのための機械学習フレームワークとアクティブ製造制御のための複合材料多目的プロセス最適化 A Machine Learning Framework for Real-time Inverse Modeling and Multi-objective Process Optimization of Composites for Active Manufacturing Control ( http://arxiv.org/abs/2104.11342v1 ) ライセンス: Link先を確認 | Keith D. Humfeld, Dawei Gu, Geoffrey A. Butler, Karl Nelson, Navid Zobeiry | (参考訳) 航空宇宙複合材料の製造には、オートクレーブ内の対流加熱を用いて複数の部品を同時に処理することができる。
工具配置などの不確実性から、対流境界条件(bcs)は各実行で異なる。
その結果、一部の部品の温度履歴は、過熱または過熱のためプロセス仕様に適合しない可能性がある。
有限要素(fe)シミュレーションを用いた熱化学的解析は、通常、bcsの想定範囲に基づいて行われる。
しかし、これは設計に不必要な制約をもたらす。
プロセスを監視するために、熱電対(tcs)は重要な場所の近くのツールの下に置かれる。
TCデータは、トライアル・アンド・エラーFE分析を用いてBCのバック計算に使用することができる。
しかし, 逆熱伝達問題は不良であるため, 与えられたTCデータに対して多くの解が得られる。
本研究では,複数部品のTCデータに基づいて,リアルタイムに空気温度サイクルを最適化し,製造の能動的制御が可能な機械学習(ML)フレームワークを提案する。
このフレームワークは、300シミュレーション/秒の速度で不適切なキュリング問題を逆モデリングするための2つのリカレントニューラルネットワーク(nn)と、35,000シミュレーション/秒の速度での気温の多目的最適化のための分類nnで構成されている。
3つのTCのデータを含む3つの複合部品のプロセス最適化のためのフレームワークの仮想的なデモを示す。 For manufacturing of aerospace composites, several parts may be processed simultaneously using convective heating in an autoclave. Due to uncertainties including tool placement, convective Boundary Conditions (BCs) vary in each run. As a result, temperature histories in some of the parts may not conform to process specifications due to under-curing or over-heating. Thermochemical analysis using Finite Element (FE) simulations are typically conducted prior to fabrication based on assumed range of BCs. This, however, introduces unnecessary constraints on the design. To monitor the process, thermocouples (TCs) are placed under tools near critical locations. The TC data may be used to back-calculate BCs using trial-and-error FE analysis. However, since the inverse heat transfer problem is ill-posed, many solutions are obtained for given TC data. In this study, a novel machine learning (ML) framework is presented capable of optimizing air temperature cycle in real-time based on TC data from multiple parts, for active control of manufacturing. The framework consists of two recurrent Neural Networks (NN) for inverse modeling of the ill-posed curing problem at the speed of 300 simulations/second, and a classification NN for multi-objective optimization of the air temperature at the speed of 35,000 simulations/second. A virtual demonstration of the framework for process optimization of three composite parts with data from three TCs is presented. | 翻訳日:2021-04-26 13:02:39 公開日:2021-04-22 |
# 遺伝的アルゴリズムを用いたパーソナライズ学習経路の構築 Constructing a personalized learning path using genetic algorithms approach ( http://arxiv.org/abs/2104.11276v1 ) ライセンス: Link先を確認 | Lumbardh Elshani, Krenare Pireva Nu\c{c}i | (参考訳) 従来の学習の実質的な欠点は、すべての生徒が同じ学習シーケンスに従うことであるが、すべての生徒が同じ知識の背景、同じ好み、同じ学習目標、同じニーズを持っているわけではない。
教科書のような伝統的な教育資源は、多くの場合、学習プロセス中に一定の順序に従うよう学生を追求し、パフォーマンスを損なう。
学習シークエンシングは学習プロセスの一部として重要な研究課題である。
そのため、多くの研究論文は学習者のニーズ、興味、行動、能力を考慮して学習経路にパーソナライズを提供するメカニズムの開発に焦点を当てている。
ほとんどの場合、これらの研究者は学生の好みに完全に焦点を合わせ、コース内の様々な概念の間に存在する難易度と関係度を無視している。
本研究では,遺伝的アルゴリズムを用いた学習経路構築の可能性について検討し,学習コースの構成概念の難易度と関係度に遭遇する。
遺伝的アルゴリズムは,学習経路のシーケンスの基本部分として,学習対象の難易度,継続時間,評価,関係度に基づいて最適な学習経路を生成するのに適していることを示す。
これらの結果から,従来の学習パスの質と比較すると,GAアプローチによる学習パスの弱さが従来の学習パスの質に比して好意的であり,学習パスの質は3.59倍,学習パスの最高解は8.34倍であった。 A substantial disadvantage of traditional learning is that all students follow the same learning sequence, but not all of them have the same background of knowledge, the same preferences, the same learning goals, and the same needs. Traditional teaching resources, such as textbooks, in most cases pursue students to follow fixed sequences during the learning process, thus impairing their performance. Learning sequencing is an important research issue as part of the learning process because no fixed learning paths will be appropriate for all learners. For this reason, many research papers are focused on the development of mechanisms to offer personalization on learning paths, considering the learner needs, interests, behaviors, and abilities. In most cases, these researchers are totally focused on the student's preferences, ignoring the level of difficulty and the relation degree that exists between various concepts in a course. This research paper presents the possibility of constructing personalized learning paths using genetic algorithm-based model, encountering the level of difficulty and relation degree of the constituent concepts of a course. The experimental results shows that the genetic algorithm is suitable to generate optimal learning paths based on learning object difficulty level, duration, rating, and relation degree between each learning object as elementary parts of the sequence of the learning path. From these results compared to the quality of the traditional learning path, we observed that even the quality of the weakest learning path generated by our GA approach is in a favor compared to quality of the traditional learning path, with a difference of 3.59\%, while the highest solution generated in the end resulted 8.34\% in favor of our proposal compared to the traditional learning paths. | 翻訳日:2021-04-26 12:59:43 公開日:2021-04-22 |
# 等変ウェーブレット:高速回転と変換不変ウェーブレット散乱変換 Equivariant Wavelets: Fast Rotation and Translation Invariant Wavelet Scattering Transforms ( http://arxiv.org/abs/2104.11244v1 ) ライセンス: Link先を確認 | Andrew K. Saydjari, Douglas P. Finkbeiner | (参考訳) フィルタと重みが固定された畳み込みニューラルネットワーク(CNN)であるウェーブレット散乱ネットワークは、画像解析に有望なツールである。
画像統計に対称性を加えることで、人間の解釈性が向上し、一般化を助け、次元を減らすことができる。
本研究では,高速かつ翻訳不変かつ回転不変なウェーブレット散乱ネットワーク(EqWS)とウェーブレットのフィルタバンク(トリグレット)を導入する。
本稿では, 係数の非分散/同分散を定量化し, スケール等分散化の難しさを簡潔に解説する。
MNISTでは、係数の回転不変化に関するトレーニングは、テストデータに一般化された場合の回転不変性を維持し、残留対称性の破れ項を可視化する。
回転同分散を利用して桁の回転角を推定し、各係数の回転依存性を1つの角度から再構築する。
我々はEMNISTとCIFAR-10/100の線形分類器でEqWSをベンチマークし、カラー画像に新しい2階のクロスカラーチャネル結合を導入する。
本研究では, 散乱係数とRWSTの等方的低減性能を, 天体物理学的関係を考慮した磁気流体力学シミュレーションの等方的分類で比較した。 Wavelet scattering networks, which are convolutional neural networks (CNNs) with fixed filters and weights, are promising tools for image analysis. Imposing symmetry on image statistics can improve human interpretability, aid in generalization, and provide dimension reduction. In this work, we introduce a fast-to-compute, translationally invariant and rotationally equivariant wavelet scattering network (EqWS) and filter bank of wavelets (triglets). We demonstrate the interpretability and quantify the invariance/equivariance of the coefficients, briefly commenting on difficulties with implementing scale equivariance. On MNIST, we show that training on a rotationally invariant reduction of the coefficients maintains rotational invariance when generalized to test data and visualize residual symmetry breaking terms. Rotation equivariance is leveraged to estimate the rotation angle of digits and reconstruct the full rotation dependence of each coefficient from a single angle. We benchmark EqWS with linear classifiers on EMNIST and CIFAR-10/100, introducing a new second-order, cross-color channel coupling for the color images. We conclude by comparing the performance of an isotropic reduction of the scattering coefficients and RWST, a previous coefficient reduction, on an isotropic classification of magnetohydrodynamic simulations with astrophysical relevance. | 翻訳日:2021-04-26 12:59:16 公開日:2021-04-22 |
# 確率零次最適化のための次元非感性アルゴリズム A Dimension-Insensitive Algorithm for Stochastic Zeroth-Order Optimization ( http://arxiv.org/abs/2104.11283v1 ) ライセンス: Link先を確認 | Hongcheng Liu and Yu Yang | (参考訳) 本稿では,コスト関数の期待を最小化し,その勾配が直接アクセスできないような,凸確率的ゼロ次最適化(s-zoo)問題について述べる。
この問題を解決するために、従来の最適化手法は、主に次元で多項式的に成長するクエリ複雑度、すなわち関数評価の数は、決定変数の数の多項式関数である。
したがって、これらの手法は、多くの近代的な応用で生じる大量次元問題の解決にうまく機能しない可能性がある。
より最近の手法は、証明可能な次元非感受性を持つことができるが、ほとんど全ての手法は、至る所のスパースや圧縮可能な勾配のようなより厳密な条件で機能する。
したがって, 本研究に先立ち, 次元非感応性S-ZOOがそのような条件なしに可能かどうかは不明である。
本稿では,スペーサ性誘導確率勾配自由(SI-SGF)アルゴリズムを提案することにより,この問題に対する肯定的な回答を与える。
勾配間隔や勾配圧縮性を満足しない場合, 凸面および強凸面の双方において, 次元不感なクエリ複雑性を実現することが証明された。
提案したSI-SGFは,既存の代替品と比較して強い可能性を示した。 This paper concerns a convex, stochastic zeroth-order optimization (S-ZOO) problem, where the objective is to minimize the expectation of a cost function and its gradient is not accessible directly. To solve this problem, traditional optimization techniques mostly yield query complexities that grow polynomially with dimensionality, i.e., the number of function evaluations is a polynomial function of the number of decision variables. Consequently, these methods may not perform well in solving massive-dimensional problems arising in many modern applications. Although more recent methods can be provably dimension-insensitive, almost all of them work with arguably more stringent conditions such as everywhere sparse or compressible gradient. Thus, prior to this research, it was unknown whether dimension-insensitive S-ZOO is possible without such conditions. In this paper, we give an affirmative answer to this question by proposing a sparsity-inducing stochastic gradient-free (SI-SGF) algorithm. It is proved to achieve dimension-insensitive query complexity in both convex and strongly convex cases when neither gradient sparsity nor gradient compressibility is satisfied. Our numerical results demonstrate the strong potential of the proposed SI-SGF compared with existing alternatives. | 翻訳日:2021-04-26 12:57:21 公開日:2021-04-22 |
# ソフトウェア定義エッジコンピューティング - IoTデータ分析をサポートする新しいアーキテクチャパラダイム Software-Defined Edge Computing: A New Architecture Paradigm to Support IoT Data Analysis ( http://arxiv.org/abs/2104.11645v1 ) ライセンス: Link先を確認 | Di Wu, Xiaofeng Xie, Xiang Ni, Bin Fu, Hanhui Deng Haibo Zeng, and Zhijin Qin | (参考訳) IoT(Internet of Things)アプリケーションの迅速なデプロイは、処理が必要な大量のデータを生み出します。
これらのIoTアプリケーションは、レイテンシと帯域幅に関する特定の通信要件を持ち、時間依存性などの生成されたデータに新機能を提供する。
したがって、スマートなIoTデータプロセスと分析をサポートするために、通信とコンピューティングの本質的な性質を探求することで、現在のIoTアーキテクチャを再構築することが望ましい。
この論文では、IoTデータの特徴、IoTネットワークアーキテクチャのトレンド、IoTデータ分析におけるいくつかの問題とそのソリューションを紹介します。
具体的には、ソフトウェア定義エッジコンピューティングは、IoTデータ分析のユニークなニーズをサポートするための有望なアーキテクチャであると考えています。
さらに,本アーキテクチャにおけるデータ異常検出実験を行い,ecg診断のための2つのアーキテクチャの比較を行った。
その結果,本手法は有効かつ有効であることがわかった。 The rapid deployment of Internet of Things (IoT) applications leads to massive data that need to be processed. These IoT applications have specific communication requirements on latency and bandwidth, and present new features on their generated data such as time-dependency. Therefore, it is desirable to reshape the current IoT architectures by exploring their inherent nature of communication and computing to support smart IoT data process and analysis. We introduce in this paper features of IoT data, trends of IoT network architectures, some problems in IoT data analysis, and their solutions. Specifically, we view that software-defined edge computing is a promising architecture to support the unique needs of IoT data analysis. We further present an experiment on data anomaly detection in this architecture, and the comparison between two architectures for ECG diagnosis. Results show that our method is effective and feasible. | 翻訳日:2021-04-26 12:55:26 公開日:2021-04-22 |
# 修正拡散モデルによる劣化音声の復元 Restoring degraded speech via a modified diffusion model ( http://arxiv.org/abs/2104.11347v1 ) ライセンス: Link先を確認 | Jianwei Zhang, Suren Jayasuriya, Visar Berisha | (参考訳) 多くの決定論的数学的操作(例)がある。
圧縮、クリップ、ダウンサンプリング) 音声品質を著しく低下させる。
本稿では,元々の音声信号を復元することを目的とした,差分モデルの修正に基づくニューラルネットワークアーキテクチャを提案する。
最近発表された拡散ベースのボコーダであるDiffWaveは、短いパラメータセットで、最先端の合成音声品質と比較的短い波形生成時間を示した。
diffwave の mel-spectrum upsampler を deep cnn upsampler に置き換える。
モデルは、元の音声波形を用いて訓練されるが、劣化した音声メルスペクトルに基づく。
訓練後、劣化したメルスペクトラムのみを入力とし、モデルが原音声の推定を生成する。
提案モデルにより,複数の実験において音声品質(元はベースラインとしてのDiffWaveモデル)が改善された。
これには、lpc-10圧縮による音声品質の向上、amr-nb圧縮、信号クリッピングが含まれる。
本手法は元々のdiffwaveアーキテクチャと比較して,複数の客観的な知覚指標と主観的比較において優れた性能を実現する。
アウト・オブ・コーパス評価設定では、ベースラインの改善がさらに増幅される。 There are many deterministic mathematical operations (e.g. compression, clipping, downsampling) that degrade speech quality considerably. In this paper we introduce a neural network architecture, based on a modification of the DiffWave model, that aims to restore the original speech signal. DiffWave, a recently published diffusion-based vocoder, has shown state-of-the-art synthesized speech quality and relatively shorter waveform generation times, with only a small set of parameters. We replace the mel-spectrum upsampler in DiffWave with a deep CNN upsampler, which is trained to alter the degraded speech mel-spectrum to match that of the original speech. The model is trained using the original speech waveform, but conditioned on the degraded speech mel-spectrum. Post-training, only the degraded mel-spectrum is used as input and the model generates an estimate of the original speech. Our model results in improved speech quality (original DiffWave model as baseline) on several different experiments. These include improving the quality of speech degraded by LPC-10 compression, AMR-NB compression, and signal clipping. Compared to the original DiffWave architecture, our scheme achieves better performance on several objective perceptual metrics and in subjective comparisons. Improvements over baseline are further amplified in a out-of-corpus evaluation setting. | 翻訳日:2021-04-26 12:54:07 公開日:2021-04-22 |
# ホモトピー継続手法を用いたステップワイズ特徴選択のためのより強力で一般的な選択的推論 More Powerful and General Selective Inference for Stepwise Feature Selection using the Homotopy Continuation Approach ( http://arxiv.org/abs/2012.13545v2 ) ライセンス: Link先を確認 | Kazuya Sugiyama, Vo Nguyen Le Duy, Ichiro Takeuchi | (参考訳) データ駆動仮説のための新しい統計的推論フレームワークとして,条件選択推論(SI)が活発に研究されている。
条件付きSIの基本的な考え方は、線形および/または二次不等式の集合によって特徴づけられる選択事象に推論を条件付けることである。
条件付きSIは主に、段階的特徴選択(SFS)のような特徴選択の文脈で研究されている。
既存の条件付きSI法の主な制限は、オーバーコンディショニングによる電力損失であり、計算的トラクタビリティに必要である。
本研究では,この制限を克服するホモトピー法を用いて,SFSのより強力で汎用的な条件付きSI法を開発した。
ホモトピーベースのSIは特に複雑な特徴選択アルゴリズムに有効である。
一例として、AICに基づく停止基準付き前向きSFSのための条件付きSI法を開発し、アルゴリズムの複雑さの増加に悪影響を及ぼさないことを示す。
提案手法の有効性と有効性を示すため,いくつかの実験を行った。 Conditional selective inference (SI) has been actively studied as a new statistical inference framework for data-driven hypotheses. The basic idea of conditional SI is to make inferences conditional on the selection event characterized by a set of linear and/or quadratic inequalities. Conditional SI has been mainly studied in the context of feature selection such as stepwise feature selection (SFS). The main limitation of the existing conditional SI methods is the loss of power due to over-conditioning, which is required for computational tractability. In this study, we develop a more powerful and general conditional SI method for SFS using the homotopy method which enables us to overcome this limitation. The homotopy-based SI is especially effective for more complicated feature selection algorithms. As an example, we develop a conditional SI method for forward-backward SFS with AIC-based stopping criteria and show that it is not adversely affected by the increased complexity of the algorithm. We conduct several experiments to demonstrate the effectiveness and efficiency of the proposed method. | 翻訳日:2021-04-25 04:38:01 公開日:2021-04-22 |
# (参考訳) 新型コロナウイルスとビッグデータ:ソーシャルメディアによるパンデミックの時空間的理解のための多面的分析 COVID-19 and Big Data: Multi-faceted Analysis for Spatio-temporal Understanding of the Pandemic with Social Media Conversations ( http://arxiv.org/abs/2104.10807v1 ) ライセンス: CC BY 4.0 | Shayan Fazeli, Davina Zamanzadeh, Anaelia Ovalle, Thu Nguyen, Gilbert Gee, Majid Sarrafzadeh | (参考訳) 新型コロナウイルス(covid-19)は2019年末から世界大打撃を受けており、主要イベントや世界規模のイベントにおいて重要な役割を担い続けている。
その後、無害な生命は残っていない。
世界の注目を集めたソーシャルメディアプラットフォームは、新型コロナウイルス(COVID-19)に関する世界的な会話の手段として利用されている。
特に、パンデミックに関する感情、経験、観察を表現するために、多くの人がこれらのサイトを使っている。
新型コロナウイルスのパンデミックに関するソーシャルメディア上でこれらの会話が示す重要な特性を多面的に分析する。
本稿では,パンデミックを取り巻くソーシャルメディア会話の重要コンテンツと特徴の分析,マイニング,追跡のための枠組みを提案する。
TwitterとRedditを中心に、新型コロナウイルス(COVID-19)のソーシャルメディア会話に関する大規模なデータセットを集めました。
分析は、米国中の時間と地域を通じて、ウイルスの獲得、症状、会話の話題、言語複雑性の測定に関する潜在的な報告を追跡する。
また、新型コロナウイルスの会話におけるヘイトフルツイートのインスタンスを認識するためのBERTベースのモデルを提案し、最先端のパフォーマンスよりもエラー率を低くする。
本研究は,提案フレームワークの有効性を実証的に検証し,ソーシャルメディアデータを効果的に活用し,感染症の発生過程に関する安価かつ詳細な知見を公衆衛生専門家に提供することをさらに実証する。 COVID-19 has been devastating the world since the end of 2019 and has continued to play a significant role in major national and worldwide events, and consequently, the news. In its wake, it has left no life unaffected. Having earned the world's attention, social media platforms have served as a vehicle for the global conversation about COVID-19. In particular, many people have used these sites in order to express their feelings, experiences, and observations about the pandemic. We provide a multi-faceted analysis of critical properties exhibited by these conversations on social media regarding the novel coronavirus pandemic. We present a framework for analysis, mining, and tracking the critical content and characteristics of social media conversations around the pandemic. Focusing on Twitter and Reddit, we have gathered a large-scale dataset on COVID-19 social media conversations. Our analyses cover tracking potential reports on virus acquisition, symptoms, conversation topics, and language complexity measures through time and by region across the United States. We also present a BERT-based model for recognizing instances of hateful tweets in COVID-19 conversations, which achieves a lower error-rate than the state-of-the-art performance. Our results provide empirical validation for the effectiveness of our proposed framework and further demonstrate that social media data can be efficiently leveraged to provide public health experts with inexpensive but thorough insight over the course of an outbreak. | 翻訳日:2021-04-23 23:51:56 公開日:2021-04-22 |
# (参考訳) 言語処理のニューラルネットワークモデルにおけるファジィ発見 Finding Fuzziness in Neural Network Models of Language Processing ( http://arxiv.org/abs/2104.10813v1 ) ライセンス: CC BY 4.0 | Kanishka Misra and Julia Taylor Rayz | (参考訳) 人間はしばしば不正確言語を用いてコミュニケーションし、曖昧な境界を持つファジィ概念が言語の使用において一般的であることを示す。
本稿では,ファジィメンバーシップパターンに対応する言語分布統計を収集するために訓練されたモデルについて検証する。
自然言語推論のタスクを用いて,温度データの"クール"や"ホット"といったファジィ知覚へのマッピングを調べることにより,従来の温度の場合のアートモデルの最近の状態を検証した。
言語ヘッジの古典的ファジィ集合理論の定式化に類似したパターンを示すモデルが, かなりのノイズを伴い, ファジィにのみ訓練されたモデルは, ファジィの符号化において有望であることを示す。 Humans often communicate by using imprecise language, suggesting that fuzzy concepts with unclear boundaries are prevalent in language use. In this paper, we test the extent to which models trained to capture the distributional statistics of language show correspondence to fuzzy-membership patterns. Using the task of natural language inference, we test a recent state of the art model on the classical case of temperature, by examining its mapping of temperature data to fuzzy-perceptions such as "cool", "hot", etc. We find the model to show patterns that are similar to classical fuzzy-set theoretic formulations of linguistic hedges, albeit with a substantial amount of noise, suggesting that models trained solely on language show promise in encoding fuzziness. | 翻訳日:2021-04-23 23:14:35 公開日:2021-04-22 |
# (参考訳) 親友クラスタリングによる高精度かつ効率的な大規模回帰手法 An Accurate and Efficient Large-scale Regression Method through Best Friend Clustering ( http://arxiv.org/abs/2104.10819v1 ) ライセンス: CC BY 4.0 | Kun Li, Liang Yuan, Yunquan Zhang, Gongwei Chen | (参考訳) 機械学習分野のデータサイズが指数関数的に増加するにつれ、高性能コンピューティングハードウェアが提供する膨大なコアを利用することで、計算を加速することは避けられない。
しかし、クラスタリングや回帰のための既存の並列手法は、しばしば低い精度、遅い収束、複雑なハイパーパラメータチューニングといった問題に悩まされる。
さらに、並列効率は通常、モデルプロパティの保存と分散システム上のコンピューティングワークロードの分割のバランスを保ちながら、改善が難しい。
本稿では,データサンプルの中から最も重要な情報をキャプチャする,新しくシンプルなデータ構造を提案する。
ハードウェア並列性とは無関係な階層的クラスタリング戦略をサポートするいくつかの有利な特性、最適なクラスタリングを決定するための明確なメトリクス、コンパクト性を維持するためのバランスの取れたパーティション、計算フェーズを高速化するための効率的な並列化がある。
次に,クラスタリングと回帰手法を並列ライブラリとして組み合わせ,データのハイブリッド構造とモデル並列性を用いて予測を行う。
実験により,本ライブラリは収束性,正確性,拡張性において顕著な性能を得た。 As the data size in Machine Learning fields grows exponentially, it is inevitable to accelerate the computation by utilizing the ever-growing large number of available cores provided by high-performance computing hardware. However, existing parallel methods for clustering or regression often suffer from problems of low accuracy, slow convergence, and complex hyperparameter-tuning. Furthermore, the parallel efficiency is usually difficult to improve while striking a balance between preserving model properties and partitioning computing workloads on distributed systems. In this paper, we propose a novel and simple data structure capturing the most important information among data samples. It has several advantageous properties supporting a hierarchical clustering strategy that is irrelevant to the hardware parallelism, well-defined metrics for determining optimal clustering, balanced partition for maintaining the compactness property, and efficient parallelization for accelerating computation phases. Then we combine the clustering with regression techniques as a parallel library and utilize a hybrid structure of data and model parallelism to make predictions. Experiments illustrate that our library obtains remarkable performance on convergence, accuracy, and scalability. | 翻訳日:2021-04-23 23:03:06 公開日:2021-04-22 |
# (参考訳) 幾何学グラフを用いたラプラス学習のためのロバスト証明 Robust Certification for Laplace Learning on Geometric Graphs ( http://arxiv.org/abs/2104.10837v1 ) ライセンス: CC0 1.0 | Matthew Thorpe and Bao Wang | (参考訳) グラフラプラシアン(GL)に基づく半教師付き学習は、グラフ内のノードを分類する最もよく使われる手法の1つである。
機械学習(ML)アルゴリズムの敵対的堅牢性の理解と証明は、多くのセキュリティクリティカルな適用領域において重要な意味を持つため、さまざまな研究コミュニティから大きな注目を集めている。
一般的なMLアルゴリズムに対する対向ロバスト性の理論的証明には大きな関心がある。
本稿では,GL分類器に対する最初の対逆ロバスト認証を提案する。
より正確には、敵の攻撃前後のgl分類器の分類精度の差を定量的に限定する。
数値的な検証結果から,$k$-nearest 近傍分類器に既存の対角防御を活用すれば,GL分類器の堅牢性を大幅に向上できることを示す。 Graph Laplacian (GL)-based semi-supervised learning is one of the most used approaches for classifying nodes in a graph. Understanding and certifying the adversarial robustness of machine learning (ML) algorithms has attracted large amounts of attention from different research communities due to its crucial importance in many security-critical applied domains. There is great interest in the theoretical certification of adversarial robustness for popular ML algorithms. In this paper, we provide the first adversarial robust certification for the GL classifier. More precisely we quantitatively bound the difference in the classification accuracy of the GL classifier before and after an adversarial attack. Numerically, we validate our theoretical certification results and show that leveraging existing adversarial defenses for the $k$-nearest neighbor classifier can remarkably improve the robustness of the GL classifier. | 翻訳日:2021-04-23 22:44:34 公開日:2021-04-22 |
# (参考訳) レグレット最小化思考におけるニューラルフィクションセルフプレイの最適化 Optimize Neural Fictitious Self-Play in Regret Minimization Thinking ( http://arxiv.org/abs/2104.10845v1 ) ライセンス: CC BY 4.0 | Yuxuan Chen, Li Zhang, Shijian Li, Gang Pan | (参考訳) Nash Equilibriumにアプローチするためのディープラーニングアルゴリズムの最適化は、不完全な情報ゲームにおいて重要な問題である。
スタークラフトとポーカー。
neural fictitious self-play (nfsp) は、不完全な情報ゲームにおいて、事前のドメイン知識なしでナッシュ均衡の近似を学ぶ効果的な方法を提供している。
しかし,NFSPの最適化問題として最適性ギャップが残され,その解決によりNFSPの性能が向上した。
本研究では,NFSPの最適性ギャップに着目し,NFSPの最適応答計算を後悔マッチングに置き換える手法を提案する。
新しいアルゴリズムは、最適性ギャップを反復するとゼロに収束させ、元のNFSPよりも早く収束させることができる。
我々はOpenSpielで完全情報ゲームと不完全情報ゲームの3つの典型的な環境で実験を行い、新しいアルゴリズムの性能が元のNFSPよりも優れていることを示した。 Optimization of deep learning algorithms to approach Nash Equilibrium remains a significant problem in imperfect information games, e.g. StarCraft and poker. Neural Fictitious Self-Play (NFSP) has provided an effective way to learn approximate Nash Equilibrium without prior domain knowledge in imperfect information games. However, optimality gap was left as an optimization problem of NFSP and by solving the problem, the performance of NFSP could be improved. In this study, focusing on the optimality gap of NFSP, we have proposed a new method replacing NFSP's best response computation with regret matching method. The new algorithm can make the optimality gap converge to zero as it iterates, thus converge faster than original NFSP. We have conduct experiments on three typical environments of perfect-information games and imperfect information games in OpenSpiel and all showed that our new algorithm performances better than original NFSP. | 翻訳日:2021-04-23 22:18:17 公開日:2021-04-22 |
# (参考訳) Token Labeling: ImageNet上で56Mパラメータを持つ85.5%のTop-1精度ビジョントランスのトレーニング Token Labeling: Training a 85.5% Top-1 Accuracy Vision Transformer with 56M Parameters on ImageNet ( http://arxiv.org/abs/2104.10858v1 ) ライセンス: CC BY 4.0 | Zihang Jiang, Qibin Hou, Li Yuan, Daquan Zhou, Xiaojie Jin, Anran Wang, Jiashi Feng | (参考訳) 本稿では,imagenet分類タスクにおける視覚トランスフォーマの強力なベースラインを提供する。
最近のビジョントランスフォーマーは、ImageNet分類において有望な結果を示しているが、そのパフォーマンスは、ほぼ同じモデルサイズで強力な畳み込みニューラルネットワーク(CNN)よりも遅れている。
本研究では,新しいトランスフォーマーアーキテクチャを記述する代わりに,イメージネット分類におけるビジョントランスフォーマーの可能性を探究する。
視覚トランスフォーマーの構造を微調整し、トークンラベリングを導入することで、新たなトレーニング目標として、同様のトレーニングパラメータと計算量を持つcnnや他のトランスフォーマーベースの分類モデルよりも優れた結果が得られることを示した。
例えば、26Mの学習可能なパラメータを持つ視覚変換器を用いて、ImageNet上で84.4%のTop-1精度を達成できる。
モデルサイズが56m/150mまでスケールすると、追加のデータなしでさらに85.4%/86.2%に拡大できる。
この研究は、強力な視覚トランスフォーマーを訓練するための有用な技術を提供することを願っている。
私たちのコードとトレーニングの詳細はhttps://github.com/zihangJiang/TokenLabeling.comで公開されます。 This paper provides a strong baseline for vision transformers on the ImageNet classification task. While recent vision transformers have demonstrated promising results in ImageNet classification, their performance still lags behind powerful convolutional neural networks (CNNs) with approximately the same model size. In this work, instead of describing a novel transformer architecture, we explore the potential of vision transformers in ImageNet classification by developing a bag of training techniques. We show that by slightly tuning the structure of vision transformers and introducing token labeling -- a new training objective, our models are able to achieve better results than the CNN counterparts and other transformer-based classification models with similar amount of training parameters and computations. Taking a vision transformer with 26M learnable parameters as an example, we can achieve a 84.4% Top-1 accuracy on ImageNet. When the model size is scaled up to 56M/150M, the result can be further increased to 85.4%/86.2% without extra data. We hope this study could provide researchers with useful techniques to train powerful vision transformers. Our code and all the training details will be made publicly available at https://github.com/zihangJiang/TokenLabeling. | 翻訳日:2021-04-23 22:02:39 公開日:2021-04-22 |
# (参考訳) 学習時間と使用時間:事前学習深層学習モデルを用いた未確認領域の境界値問題の解法 Train Once and Use Forever: Solving Boundary Value Problems in Unseen Domains with Pre-trained Deep Learning Models ( http://arxiv.org/abs/2104.10873v1 ) ライセンス: CC BY 4.0 | Hengjie Wang, Robert Planas, Aparna Chandramowlishwaran, Ramin Bostanabad | (参考訳) 物理学的不定形ニューラルネットワーク(pinns)は、偏微分方程式(pdes)の解法における従来の数値解法を置き換えるためにますます使われている。
多くの魅力的な特徴があるが、最先端のPINNはPDEシステムの特定の実現を代理しており、そのため問題固有のものである。
つまり、境界条件とドメイン形状が変わるたびに、モデルを再トレーニングする必要があります。
この制限は、特にトレーニングに関連するコストと労力がかなり大きいため、現実的または大規模エンジニアリング問題へのPINNの適用を禁止している。
本稿では、深層ニューラルネットワークを用いて境界値問題(BVP)を解決するための伝達可能なフレームワークを提案する。
まず,小さな正方形領域上の任意の境界条件に対して,bvpの解を推定できるニューラルネットワークである \emph{genomic flow network} (gfnet) を導入する。
そこで我々は、GFNetの推論を組み立てたり縫ったりして、空間的正則性を保ちながら、見えない大きな領域でBVPの解を得る新しい反復アルゴリズムである「emph{mosaic flow} (MF)」予測器を提案する。
筆者らのフレームワークは, 未確認形状と境界条件の領域におけるLaplace方程式とNavier-Stokes方程式の解を, トレーニングを行う領域よりも1,200ドル, 12ドル大きく見積もることができることを示した。
我々のフレームワークはトレーニングを不要にするため、最先端と比較して最大3桁のスピードアップを示す。 Physics-informed neural networks (PINNs) are increasingly employed to replace/augment traditional numerical methods in solving partial differential equations (PDEs). While having many attractive features, state-of-the-art PINNs surrogate a specific realization of a PDE system and hence are problem-specific. That is, each time the boundary conditions and domain shape change, the model needs to be re-trained. This limitation prohibits the application of PINNs in realistic or large-scale engineering problems especially since the costs and efforts associated with their training are considerable. This paper introduces a transferable framework for solving boundary value problems (BVPs) via deep neural networks which can be trained once and used forever for various domains of unseen sizes, shapes, and boundary conditions. First, we introduce \emph{genomic flow network} (GFNet), a neural network that can infer the solution of a BVP across arbitrary boundary conditions on a small square domain called \emph{genome}. Then, we propose \emph{mosaic flow} (MF) predictor, a novel iterative algorithm that assembles or stitches the GFNet's inferences to obtain the solution of BVPs on unseen, large domains while preserving the spatial regularity of the solution. We demonstrate that our framework can estimate the solution of Laplace and Navier-Stokes equations in domains of unseen shapes and boundary conditions that are, respectively, $1200$ and $12$ times larger than the domains where training is performed. Since our framework eliminates the need to re-train, it demonstrates up to 3 orders of magnitude speedups compared to the state-of-the-art. | 翻訳日:2021-04-23 21:46:55 公開日:2021-04-22 |
# (参考訳) ロバスト360-8PA:360FoV画像の正規化8点アルゴリズムを再設計 Robust 360-8PA: Redesigning The Normalized 8-point Algorithm for 360-FoV Images ( http://arxiv.org/abs/2104.10900v1 ) ライセンス: CC BY 4.0 | Bolivar Solarte, Chin-Hsuan Wu, Kuan-Wei Lu, Min Sun, Wei-Chen Chiu, Yi-Hsuan Tsai | (参考訳) 球面投影における360-FoV画像(等方形画像)から必須行列を推定するための,古典的8点アルゴリズム(8-PA)の新たなプレコンディショニング手法を提案する。
必要行列の精度を低下させる可能性のある不均一な鍵特徴分布と異常対応の効果を緩和するために,球面カメラを新たな空間領域に変形させる非剛性変換を最適化し,新たな制約と本質行列に対するよりロバストで正確な解を定義する。
ランダム合成点, 360fov, 魚眼画像を用いた実験により, 計算時間を大幅にオーバーヘッドすることなく, カメラのポーズ精度を約20%向上できることを示した。
さらに、本手法のさらなる利点として、よく知られたゴールドスタンダード・メソッド(GSM)をさらに改善する定数重み付き最小二乗最適化(すなわち、エピポーラ誤差を用いた非線形最適化)と、RANSACイテレーションの数を緩和することにより、正規化結果がより信頼性が高く、堅牢で、正確な解であることを示す。 This paper presents a novel preconditioning strategy for the classic 8-point algorithm (8-PA) for estimating an essential matrix from 360-FoV images (i.e., equirectangular images) in spherical projection. To alleviate the effect of uneven key-feature distributions and outlier correspondences, which can potentially decrease the accuracy of an essential matrix, our method optimizes a non-rigid transformation to deform a spherical camera into a new spatial domain, defining a new constraint and a more robust and accurate solution for an essential matrix. Through several experiments using random synthetic points, 360-FoV, and fish-eye images, we demonstrate that our normalization can increase the camera pose accuracy by about 20% without significantly overhead the computation time. In addition, we present further benefits of our method through both a constant weighted least-square optimization that improves further the well known Gold Standard Method (GSM) (i.e., the non-linear optimization by using epipolar errors); and a relaxation of the number of RANSAC iterations, both showing that our normalization outcomes a more reliable, robust, and accurate solution. | 翻訳日:2021-04-23 21:25:45 公開日:2021-04-22 |
# (参考訳) xcrossnet:クリックスルー率予測のための構造指向学習 XCrossNet: Feature Structure-Oriented Learning for Click-Through Rate Prediction ( http://arxiv.org/abs/2104.10907v1 ) ライセンス: CC BY 4.0 | Runlong Yu, Yuyang Ye, Qi Liu, Zihan Wang, Chunfeng Yang, Yucheng Hu, Enhong Chen | (参考訳) CTR(Click-Through Rate)予測は、近年の商業リコメンデータシステムにおける中核的なタスクである。
CTR予測研究のメインラインである機能横断は、予測性能を高めるための有望な方法を示している。
様々なモデルが手動のフィーチャエンジニアリングなしで機能の相互作用を学習できるが、異なる特徴構造の表現を個別に学習することはめったにない。
特に、クロススパースの特徴のモデリングに重点を置いているが、クロス密集した特徴を具体的に表現することを無視している。
そこで我々は,高密度かつスパースな特徴相互作用を明示的に学習することを目的とした,新しいExtreme Cross Network(XCrossNet)を提案する。
機能構造指向モデルとしてのXCrossNetは、より表現力のある表現とより正確なCTR予測をもたらす。
Criteo Kaggleデータセットに関する実験的研究は、XCrossNetの有効性と効率の両面で、最先端モデルよりも大幅に改善されたことを示している。 Click-Through Rate (CTR) prediction is a core task in nowadays commercial recommender systems. Feature crossing, as the mainline of research on CTR prediction, has shown a promising way to enhance predictive performance. Even though various models are able to learn feature interactions without manual feature engineering, they rarely attempt to individually learn representations for different feature structures. In particular, they mainly focus on the modeling of cross sparse features but neglect to specifically represent cross dense features. Motivated by this, we propose a novel Extreme Cross Network, abbreviated XCrossNet, which aims at learning dense and sparse feature interactions in an explicit manner. XCrossNet as a feature structure-oriented model leads to a more expressive representation and a more precise CTR prediction, which is not only explicit and interpretable, but also time-efficient and easy to implement. Experimental studies on Criteo Kaggle dataset show significant improvement of XCrossNet over state-of-the-art models on both effectiveness and efficiency. | 翻訳日:2021-04-23 21:13:51 公開日:2021-04-22 |
# (参考訳) 弱い協調型マルチエージェント交通制御問題に対する独立強化学習 Independent Reinforcement Learning for Weakly Cooperative Multiagent Traffic Control Problem ( http://arxiv.org/abs/2104.10917v1 ) ライセンス: CC BY 4.0 | Chengwei Zhang and Shan Jin and Wanli Xue and Xiaofei Xie and Shengyong Chen and Rong Chen | (参考訳) 適応交通信号制御(atsc)問題は、交差点が共通の目標を最適化するために協調する都市交差点間のマルチエージェント協調ゲームとしてモデル化することができる。
近年、強化学習(RL)は逐次意思決定問題を管理する上で大きな成功を収めており、ASTC問題にRLを適用する動機となっている。
ここでは、複雑な交通協調制御問題を解決するために、独立強化学習(IRL)を用いる。
この問題の最大の課題の1つは、交叉の観測情報が部分的に観測可能であり、IRLアルゴリズムの学習性能を制限することである。
そこで我々は,交通制御問題を部分的に観測可能な弱い協調交通モデル (PO-WCTM) としてモデル化し,交差点群全体の交通状況を最適化する。
完全協調ゲームにおける全てのエージェントのリターンを平均化する従来のIRLタスクとは異なり、PO-WCTMにおける各交差点の学習目標は、交通環境仮説とも一致する学習の協調的困難を軽減することである。
また,この2つのメカニズムを用いて,2重dqn (ddqn) アルゴリズムを拡張した協調重要レエントダブルdqn (cil-ddqn) と呼ばれるirlアルゴリズムを提案する。
前者のメカニズムは、他のエージェントの戦略変更によって引き起こされる経験失敗の問題に対処するexperience reply bufferに格納された経験の重要性を減少させる。
後者のメカニズムは、高い推定でウェイトエクスペリエンスを高め、DDQNニューラルネットワークを「高い」トレーニングすることで、協調的な共同戦略の選択の確率を向上させる。
実験の結果,CIL-DDQNはトラヒック制御問題のほぼすべての性能指標において,他の手法よりも優れていた。 The adaptive traffic signal control (ATSC) problem can be modeled as a multiagent cooperative game among urban intersections, where intersections cooperate to optimize their common goal. Recently, reinforcement learning (RL) has achieved marked successes in managing sequential decision making problems, which motivates us to apply RL in the ASTC problem. Here we use independent reinforcement learning (IRL) to solve a complex traffic cooperative control problem in this study. One of the largest challenges of this problem is that the observation information of intersection is typically partially observable, which limits the learning performance of IRL algorithms. To this, we model the traffic control problem as a partially observable weak cooperative traffic model (PO-WCTM) to optimize the overall traffic situation of a group of intersections. Different from a traditional IRL task that averages the returns of all agents in fully cooperative games, the learning goal of each intersection in PO-WCTM is to reduce the cooperative difficulty of learning, which is also consistent with the traffic environment hypothesis. We also propose an IRL algorithm called Cooperative Important Lenient Double DQN (CIL-DDQN), which extends Double DQN (DDQN) algorithm using two mechanisms: the forgetful experience mechanism and the lenient weight training mechanism. The former mechanism decreases the importance of experiences stored in the experience reply buffer, which deals with the problem of experience failure caused by the strategy change of other agents. The latter mechanism increases the weight experiences with high estimation and `leniently' trains the DDQN neural network, which improves the probability of the selection of cooperative joint strategies. Experimental results show that CIL-DDQN outperforms other methods in almost all performance indicators of the traffic control problem. | 翻訳日:2021-04-23 21:04:30 公開日:2021-04-22 |
# (参考訳) ハイブリッドエンコーダ:ハイブリッドトランスフォーマーエンコーダネットワークによる効率的かつ高精度なネイティブアドスメンテーション Hybrid Encoder: Towards Efficient and Precise Native AdsRecommendation via Hybrid Transformer Encoding Networks ( http://arxiv.org/abs/2104.10925v1 ) ライセンス: CC BY 4.0 | Junhan Yang, Zheng Liu, Bowen Jin, Jianxun Lian, Defu Lian, Akshay Soni, Eun Yong Kang, Yajun Wang, Guangzhong Sun, Xing Xie | (参考訳) トランスフォーマー符号化ネットワークは自然言語を理解する強力なツールであることが証明されている。
彼らは、ユーザのWeb閲覧履歴に基づいて適切な広告を推奨するネイティブ広告サービスにおいて、重要な役割を演じている。
効率的な推奨のために、従来の手法では、シームトランスエンコーダと独立してユーザーおよび広告埋め込みを生成し、近似近辺探索(ann)を活用できる。
ユーザと広告に関する基本的な意味が複雑であることを考えると、このような独立して生成された埋め込みは情報損失を招きやすいため、推奨品質は低下する。
もうひとつのエンコーディング戦略であるクロスエンコーダは、はるかに正確だが、実行コストが大きくなり、ネイティブ広告レコメンデーションのようなリアルタイムサービスでは実現不可能になる。
本研究では,検索とランキングという2つのステップを通じて,効率よく正確なネイティブ広告推薦を行うハイブリッドエンコーダを提案する。
検索ステップでは、ユーザと広告をシアム成分で符号化し、関連する候補をANN検索を介して検索する。
ランキングステップでは、各広告に不整合埋め込みを施し、各ユーザーが広告関連埋め込みを施し、候補セットからの高品質広告のきめ細かい選択に寄与する。
どちらのステップも、事前に計算され、キャッシュされた中間結果のおかげで軽量化されている。
この2段階のワークフローでハイブリッドエンコーダの性能を最適化するため、プログレッシブトレーニングパイプラインが開発され、検索およびランキングタスクのステップバイステップにおけるモデル機能を構築する。
ハイブリッドエンコーダの有効性は実験的に検証され、追加コストが非常に少ないため、シアムエンコーダを著しく上回り、クロスエンコーダと同等の推奨品質を達成する。 Transformer encoding networks have been proved to be a powerful tool of understanding natural languages. They are playing a critical role in native ads service, which facilitates the recommendation of appropriate ads based on user's web browsing history. For the sake of efficient recommendation, conventional methods would generate user and advertisement embeddings independently with a siamese transformer encoder, such that approximate nearest neighbour search (ANN) can be leveraged. Given that the underlying semantic about user and ad can be complicated, such independently generated embeddings are prone to information loss, which leads to inferior recommendation quality. Although another encoding strategy, the cross encoder, can be much more accurate, it will lead to huge running cost and become infeasible for realtime services, like native ads recommendation. In this work, we propose hybrid encoder, which makes efficient and precise native ads recommendation through two consecutive steps: retrieval and ranking. In the retrieval step, user and ad are encoded with a siamese component, which enables relevant candidates to be retrieved via ANN search. In the ranking step, it further represents each ad with disentangled embeddings and each user with ad-related embeddings, which contributes to the fine-grained selection of high-quality ads from the candidate set. Both steps are light-weighted, thanks to the pre-computed and cached intermedia results. To optimize the hybrid encoder's performance in this two-stage workflow, a progressive training pipeline is developed, which builds up the model's capability in the retrieval and ranking task step-by-step. The hybrid encoder's effectiveness is experimentally verified: with very little additional cost, it outperforms the siamese encoder significantly and achieves comparable recommendation quality as the cross encoder. | 翻訳日:2021-04-23 20:43:45 公開日:2021-04-22 |
# (参考訳) 深層学習におけるセミオティック・アグリゲーション Semiotic Aggregation in Deep Learning ( http://arxiv.org/abs/2104.10931v1 ) ライセンス: CC BY 4.0 | Bogdan Musat, Razvan Andonie | (参考訳) 畳み込みニューラルネットワークはニューラルネットワーク層の階層構造を利用する。
連続するレイヤにおける情報集中の統計的側面は、特徴抽象化プロセスに関する洞察をもたらすことができる。
我々は、これらの層の塩分濃度マップを、記号やサイン利用行動の研究としても知られるセミオティックスの観点から分析する。
計算記号論において、この集合演算(スーパー化)は空間エントロピーの減少を伴う:記号はスーパーサインに集約される。
空間エントロピーを用いて, サリエンシーマップの情報内容の計算を行い, ネットワークの連続層間におけるスーパー化過程の研究を行う。
実験では、スーパー化過程を可視化し、得られた知識を用いて神経決定モデルを説明する方法を示す。
さらに,セミオティックグリード技術を用いて,ニューラルモデルのアーキテクチャを最適化する試みを行った。
我々の知る限りでは、これはディープニューラルネットワークの分析と解釈における計算セミオティックスの最初の応用である。 Convolutional neural networks utilize a hierarchy of neural network layers. The statistical aspects of information concentration in successive layers can bring an insight into the feature abstraction process. We analyze the saliency maps of these layers from the perspective of semiotics, also known as the study of signs and sign-using behavior. In computational semiotics, this aggregation operation (known as superization) is accompanied by a decrease of spatial entropy: signs are aggregated into supersign. Using spatial entropy, we compute the information content of the saliency maps and study the superization processes which take place between successive layers of the network. In our experiments, we visualize the superization process and show how the obtained knowledge can be used to explain the neural decision model. In addition, we attempt to optimize the architecture of the neural model employing a semiotic greedy technique. To the extent of our knowledge, this is the first application of computational semiotics in the analysis and interpretation of deep neural networks. | 翻訳日:2021-04-23 20:24:54 公開日:2021-04-22 |
# (参考訳) 動的法則探索による時系列解析 Time series analysis with dynamic law exploration ( http://arxiv.org/abs/2104.10970v1 ) ライセンス: CC BY-SA 4.0 | A. Jakovac | (参考訳) 本稿では,時系列の時間進化を規定する動的法則の同定方法について検討する。
有限差分方程式とそれに対する微分方程式表現を与える。
我々はまた、時間反転のような必要な対称性が法に課せられるかについても研究している。
音響データに対する線形法則の圧縮性能について検討する。 In this paper we examine, how the dynamic laws governing the time evolution of a time series can be identified. We give a finite difference equation as well as a differential equation representation for that. We also study, how the required symmetries, like time reversal can be imposed on the laws. We study the compression performance of linear laws on sound data. | 翻訳日:2021-04-23 20:04:43 公開日:2021-04-22 |
# (参考訳) ImageNet-21K Pretraining for the Masses ImageNet-21K Pretraining for the Masses ( http://arxiv.org/abs/2104.10972v1 ) ライセンス: CC BY 4.0 | Tal Ridnik, Emanuel Ben-Baruch, Asaf Noy, Lihi Zelnik-Manor | (参考訳) ImageNet-1Kは、コンピュータビジョンタスクのためのディープラーニングモデルを事前訓練するための主要なデータセットである。
ImageNet-21Kデータセットは、より多くの画像やクラスを含むが、その複雑さと、標準のImageNet-1Kプリトレーニングと比較して付加価値の過小評価のため、事前トレーニングにはあまり使われない。
本稿では,このギャップを解消し,ImageNet-21Kの高品質な事前トレーニングを実現することを目的とする。
% Va は WordNet 階層と,セマンティック・ソフトマックス(セマンティック・ソフトマックス) と呼ばれる新しいトレーニング手法を利用して,ImageNet-21K による多数のデータセットやタスクの事前学習のメリットを顕著に示す。
また、vitのような著名な新モデルのimagenet-21kプリトレーニング方式よりも優れています。
% 提案した事前学習パイプラインは効率が高く,アクセス可能であり,一般に公開されているデータセットからSoTA再現可能な結果につながる。
トレーニングコードと事前トレーニングされたモデルは、https://github.com/Alibaba-MIIL/ImageNet21Kで公開されている。 ImageNet-1K serves as the primary dataset for pretraining deep learning models for computer vision tasks. ImageNet-21K dataset, which contains more pictures and classes, is used less frequently for pretraining, mainly due to its complexity, and underestimation of its added value compared to standard ImageNet-1K pretraining. This paper aims to close this gap, and make high-quality efficient pretraining on ImageNet-21K available for everyone. % Via a dedicated preprocessing stage, utilizing WordNet hierarchies, and a novel training scheme called semantic softmax, we show that various models, including small mobile-oriented models, significantly benefit from ImageNet-21K pretraining on numerous datasets and tasks. We also show that we outperform previous ImageNet-21K pretraining schemes for prominent new models like ViT. % Our proposed pretraining pipeline is efficient, accessible, and leads to SoTA reproducible results, from a publicly available dataset. The training code and pretrained models are available at: https://github.com/Alibaba-MIIL/ImageNet21K | 翻訳日:2021-04-23 19:55:31 公開日:2021-04-22 |
# (参考訳) 神経科学と強化学習の学習ギャップ A learning gap between neuroscience and reinforcement learning ( http://arxiv.org/abs/2104.10995v1 ) ライセンス: CC BY 4.0 | Samuel T. Wauthier, Pietro Mazzaglia, Ozan \c{C}atal, Cedric De Boom, Tim Verbelen, Bart Dhoedt | (参考訳) 歴史的に、人工知能は分野の進歩に神経科学から多くのインスピレーションを得ている。
しかし、強化学習の現在の進歩は、今日の神経科学における関心の多くを捉えることができないベンチマーク問題に主に焦点が当てられている。
本稿では,強化学習アルゴリズムを用いてt-mazeタスクを神経科学から拡張し,最先端のアルゴリズムではこの問題を解決できないことを示す。
最後に、神経科学からの洞察が遭遇した問題のいくつかを説明するのに役立つことを指摘します。 Historically, artificial intelligence has drawn much inspiration from neuroscience to fuel advances in the field. However, current progress in reinforcement learning is largely focused on benchmark problems that fail to capture many of the aspects that are of interest in neuroscience today. We illustrate this point by extending a T-maze task from neuroscience for use with reinforcement learning algorithms, and show that state-of-the-art algorithms are not capable of solving this problem. Finally, we point out where insights from neuroscience could help explain some of the issues encountered. | 翻訳日:2021-04-23 19:37:31 公開日:2021-04-22 |
# (参考訳) hazy re-id: 天候条件下でのドメイン適応者再同定のための干渉抑制モデル Hazy Re-ID: An Interference Suppression Model For Domain Adaptation Person Re-identification Under Inclement Weather Condition ( http://arxiv.org/abs/2104.11004v1 ) ライセンス: CC BY 4.0 | Jian Pang, Dacheng Zhang, Huafeng Li, Weifeng Liu, Zhengtao Yu | (参考訳) 従来のドメイン適応者再識別(Re-ID)タスクでは、晴れた天候下でターゲットドメイン内のトレーニング画像とテスト画像の両方を収集する。
しかし、実際には、迷路、ほこり、雪などの厳しい気象条件下では、回収すべき歩行者が得られる。
本稿では,ドメイン適応型Re-IDにおける悪天候による干渉に対処する新しい干渉抑制モデル(ISM)を提案する。
ISMでは、クリアな内在的類似性行列とヘイジーな内在的類似性行列との相違を低減し、特徴レベルで干渉情報を蒸留するために教師留学生モデルを用いる。
さらに、分布レベルでは、学生モデルを支援するために余分な判別器を導入し、干渉特徴分布をより明確にする。
実験の結果,提案手法は2つの合成データセットにおいて最先端の手法よりも優れた性能を示すことがわかった。
関連コードはhttps://github.com/pangjian123/ISM-ReID.comで公開される。 In a conventional domain adaptation person Re-identification (Re-ID) task, both the training and test images in target domain are collected under the sunny weather. However, in reality, the pedestrians to be retrieved may be obtained under severe weather conditions such as hazy, dusty and snowing, etc. This paper proposes a novel Interference Suppression Model (ISM) to deal with the interference caused by the hazy weather in domain adaptation person Re-ID. A teacherstudent model is used in the ISM to distill the interference information at the feature level by reducing the discrepancy between the clear and the hazy intrinsic similarity matrix. Furthermore, in the distribution level, the extra discriminator is introduced to assist the student model make the interference feature distribution more clear. The experimental results show that the proposed method achieves the superior performance on two synthetic datasets than the stateof-the-art methods. The related code will be released online https://github.com/pangjian123/ISM-ReID. | 翻訳日:2021-04-23 19:25:30 公開日:2021-04-22 |
# (参考訳) 深い残差オートエンコーダを用いたsara(smart autonomous robot assistant surgeon)の教師なし異常検出 Unsupervised anomaly detection for a Smart Autonomous Robotic Assistant Surgeon (SARAS)using a deep residual autoencoder ( http://arxiv.org/abs/2104.11008v1 ) ライセンス: CC BY-SA 4.0 | Dinesh Jackson Samuel and Fabio Cuzzolin | (参考訳) Minimally-Invasive Surgery (MIS) における異常検出には、従来、コンソールから手順を監視する人間専門家が必要である。
一方、データの不足は、自律的なロボット支援手術システムへの移行を妨げている。
この領域における自動異常検出システムは、典型的には古典的教師付き学習に依存している。
しかし, 手術環境における異常事象は稀であり, データを捕捉し, 教師付きで検出モデルを訓練することは困難である。
そこで本研究では,ロボット支援手術における残差オートエンコーダに基づく異常検出手法を提案する。
オートエンコーダがデータの「正常」分布を学習させ、この分布から逸脱した異常事象を再構成誤差を測定することで検出する。
このモデルは、公開されているcholec80データセットと、smart autonomous robot assistant surgeon(saras)プロジェクトの一部として作成された人工解剖学('phantoms')を使った一連のビデオの両方で訓練され、検証される。
このシステムは、それぞれColec80で78.4%、91.5%、SARASファントムデータセットで95.6%、88.1%のリコールと精度を達成する。
エンド・ツー・エンドのシステムは、フレーム当たり約25msの処理時間でリアルタイム異常検出のためのサラスデモンストレーションプラットフォームの一部として開発・展開された。 Anomaly detection in Minimally-Invasive Surgery (MIS) traditionally requires a human expert monitoring the procedure from a console. Data scarcity, on the other hand, hinders what would be a desirable migration towards autonomous robotic-assisted surgical systems. Automated anomaly detection systems in this area typically rely on classical supervised learning. Anomalous events in a surgical setting, however, are rare, making it difficult to capture data to train a detection model in a supervised fashion. In this work we thus propose an unsupervised approach to anomaly detection for robotic-assisted surgery based on deep residual autoencoders. The idea is to make the autoencoder learn the 'normal' distribution of the data and detect abnormal events deviating from this distribution by measuring the reconstruction error. The model is trained and validated upon both the publicly available Cholec80 dataset, provided with extra annotation, and on a set of videos captured on procedures using artificial anatomies ('phantoms') produced as part of the Smart Autonomous Robotic Assistant Surgeon (SARAS) project. The system achieves recall and precision equal to 78.4%, 91.5%, respectively, on Cholec80 and of 95.6%, 88.1% on the SARAS phantom dataset. The end-to-end system was developed and deployed as part of the SARAS demonstration platform for real-time anomaly detection with a processing time of about 25 ms per frame. | 翻訳日:2021-04-23 19:18:06 公開日:2021-04-22 |
# (参考訳) 物理的に一貫性のある予測スキルの強化--物理インフォームド・機械学習による水文プロセス Enhancing predictive skills in physically-consistent way: Physics Informed Machine Learning for Hydrological Processes ( http://arxiv.org/abs/2104.11009v1 ) ライセンス: CC BY 4.0 | Pravin Bhasme, Jenil Vagadiya, Udit Bhatia | (参考訳) 現在の水文モデリングのモデリング手法は、機械学習(ml)アルゴリズムを含む物理ベースまたはデータサイエンスの手法に依存することが多い。
物理に基づくモデルは、あるインスタンスにおいて非現実的なパラメータ値をもたらす構造を固くする傾向があるが、MLアルゴリズムは、よく知られた物理プロセスによって課される制約を無視しながら、入出力関係を確立する。
物理モデルはより良いプロセス理解を可能にし、MLアルゴリズムはより良い予測能力を示すという概念があるが、予測能力に加わらない科学的知識は騙される可能性がある。
したがって、MLアルゴリズムと物理ベースのモデルを相乗的に組み合わせるためのハイブリッドモデリングアプローチが必要である。
本稿では,概念水文モデルのプロセス理解と最先端mlモデルの予測能力を組み合わせた物理インフォームド機械学習(piml)モデルを開発した。
本研究では,インドのナルマダ川流域におけるターゲット(流れ)と中間変数(実際の蒸発散)の月次時系列予測に提案モデルを適用した。
以上の結果から,PIMLモデルが純粋概念モデル(abcd$モデル)とMLアルゴリズムを上回り,水収支解析によって検証された出力の物理的整合性を確保した。
MLアルゴリズムと概念モデル構造を組み合わせるための体系的なアプローチは,洪水リスク評価において重要な水文プロセスの予測精度の向上に有効である。 Current modeling approaches for hydrological modeling often rely on either physics-based or data-science methods, including Machine Learning (ML) algorithms. While physics-based models tend to rigid structure resulting in unrealistic parameter values in certain instances, ML algorithms establish the input-output relationship while ignoring the constraints imposed by well-known physical processes. While there is a notion that the physics model enables better process understanding and ML algorithms exhibit better predictive skills, scientific knowledge that does not add to predictive ability may be deceptive. Hence, there is a need for a hybrid modeling approach to couple ML algorithms and physics-based models in a synergistic manner. Here we develop a Physics Informed Machine Learning (PIML) model that combines the process understanding of conceptual hydrological model with predictive abilities of state-of-the-art ML models. We apply the proposed model to predict the monthly time series of the target (streamflow) and intermediate variables (actual evapotranspiration) in the Narmada river basin in India. Our results show the capability of the PIML model to outperform a purely conceptual model ($abcd$ model) and ML algorithms while ensuring the physical consistency in outputs validated through water balance analysis. The systematic approach for combining conceptual model structure with ML algorithms could be used to improve the predictive accuracy of crucial hydrological processes important for flood risk assessment. | 翻訳日:2021-04-23 19:05:49 公開日:2021-04-22 |
# (参考訳) 意味画像分割における不完全データとインクリメンタル学習のためのデータ適応損失関数 A Data-Adaptive Loss Function for Incomplete Data and Incremental Learning in Semantic Image Segmentation ( http://arxiv.org/abs/2104.11020v1 ) ライセンス: CC BY 4.0 | Minh H. Vu and Gabriella Norman and Tufve Nyholm and Tommy L\"ofstedt | (参考訳) 近年,深層学習は様々な医用画像解析アプリケーションの性能を劇的に向上させてきた。
様々なタイプのディープラーニングモデルの中で、畳み込みニューラルネットワークが最も成功しており、医療画像の多くの応用に使われている。
深層畳み込みニューラルネットワークのトレーニングには、しばしば大量の画像データが必要となる。
高価なイメージングシステムや、専門家が手動で真実の注釈を作成する必要があるため、医療画像領域で大量のデータを集めるのに時間と費用がかかることが多い。
決定支援システムがすでにデプロイされ、使用されている場合に、新しい構造を追加すると潜在的な問題が発生する。
放射線治療の分野は絶えず発展しており、新しい構造も意思決定支援システムによってカバーされる必要がある。
本研究では,アノテーションが欠落している場合でも,利用可能なデータに適応して利用可能なすべてのデータを利用する新しい損失関数を提案する。
提案する損失関数はインクリメンタルな学習環境でもうまく機能し,新しい構造が現れると自動的に組み込まれることを実証する。
大規模な社内データセット実験により,提案手法はベースラインモデルと同等に動作し,トレーニング時間を大幅に短縮することを示した。 In the last years, deep learning has dramatically improved the performances in a variety of medical image analysis applications. Among different types of deep learning models, convolutional neural networks have been among the most successful and they have been used in many applications in medical imaging. Training deep convolutional neural networks often requires large amounts of image data to generalize well to new unseen images. It is often time-consuming and expensive to collect large amounts of data in the medical image domain due to expensive imaging systems, and the need for experts to manually make ground truth annotations. A potential problem arises if new structures are added when a decision support system is already deployed and in use. Since the field of radiation therapy is constantly developing, the new structures would also have to be covered by the decision support system. In the present work, we propose a novel loss function, that adapts to the available data in order to utilize all available data, even when some have missing annotations. We demonstrate that the proposed loss function also works well in an incremental learning setting, where it can automatically incorporate new structures as they appear. Experiments on a large in-house data set show that the proposed method performs on par with baseline models, while greatly reducing the training time. | 翻訳日:2021-04-23 18:48:37 公開日:2021-04-22 |
# (参考訳) Framing Unpacked:メディアフレームの半スーパービジョンで解釈可能なマルチビューモデル Framing Unpacked: A Semi-Supervised Interpretable Multi-View Model of Media Frames ( http://arxiv.org/abs/2104.11030v1 ) ライセンス: CC BY 4.0 | Shima Khanehzar, Trevor Cohn, Gosia Mikolajczak, Andrew Turpin, Lea Frermann | (参考訳) ニュースメディアが政治問題をどう扱うかを理解することは、公共の態度に影響を及ぼすため重要であるが、自動化は困難である。
計算のアプローチは、ニュース記事全体のフレームを分類することに集中し、信号のフレーミングは、しばしば微妙で局所的である。
さらに、自動ニュース分析はセンシティブなドメインであり、既存の分類器は予測に透明性を欠いている。
本稿では,ニュース記事中のイベントと関連するアクタに関するローカル情報を,自動エンコーディングフレームワークを通じて埋め込み,このシグナルを文書レベルのフレーム分類に活用する,新しい半教師モデルに関する2つの問題に対処する。
我々のモデルは従来のフレーム予測モデルよりも優れており、モデルの半教師付き特性を利用したラベル付きトレーニングデータによりさらに性能を向上させることができ、学習したイベントとアクターの埋め込みは文書レベルの予測を直感的に相関させ、微妙で解釈可能な記事フレーム表現を提供する。 Understanding how news media frame political issues is important due to its impact on public attitudes, yet hard to automate. Computational approaches have largely focused on classifying the frame of a full news article while framing signals are often subtle and local. Furthermore, automatic news analysis is a sensitive domain, and existing classifiers lack transparency in their predictions. This paper addresses both issues with a novel semi-supervised model, which jointly learns to embed local information about the events and related actors in a news article through an auto-encoding framework, and to leverage this signal for document-level frame classification. Our experiments show that: our model outperforms previous models of frame prediction; we can further improve performance with unlabeled training data leveraging the semi-supervised nature of our model; and the learnt event and actor embeddings intuitively corroborate the document-level predictions, providing a nuanced and interpretable article frame representation. | 翻訳日:2021-04-23 18:33:26 公開日:2021-04-22 |
# (参考訳) 不整合表現によるジェンダーとアイデンティティの保護 Protecting gender and identity with disentangled speech representations ( http://arxiv.org/abs/2104.11051v1 ) ライセンス: CC BY 4.0 | Dimitrios Stoidis and Andrea Cavallaro | (参考訳) 言語内容に加えて、我々のスピーチは分類器によって推測できる生体情報に富んでいる。
音声信号のプライバシー保護表現の学習は、個人に関する不要なプライベート情報を共有することなく、下流タスクを可能にする。
本稿では, 音声の非感性表現を生成する場合にのみ, 音声における性別情報の保護が話者識別情報のモデル化よりも効果的であることを示す。
本手法は,変分オートエンコーダを用いた言語コンテンツとジェンダー情報との復号化による音声再構成に依拠する。
具体的には,異なる属性に関する情報を独立に分解可能な部分空間に符号化するために,不整合表現学習を利用する。
本稿では、性別情報をエンコードし、2つの敏感な生体認証識別子(性別とアイデンティティ)をプライバシー保護設定でアンタングルする方法を提案する。
LibriSpeechデータセットの実験では、性別認識と話者検証はランダムな推測に還元され、分類に基づく攻撃から保護され、音声認識のための信号の有用性を維持している。 Besides its linguistic content, our speech is rich in biometric information that can be inferred by classifiers. Learning privacy-preserving representations for speech signals enables downstream tasks without sharing unnecessary, private information about an individual. In this paper, we show that protecting gender information in speech is more effective than modelling speaker-identity information only when generating a non-sensitive representation of speech. Our method relies on reconstructing speech by decoding linguistic content along with gender information using a variational autoencoder. Specifically, we exploit disentangled representation learning to encode information about different attributes into separate subspaces that can be factorised independently. We present a novel way to encode gender information and disentangle two sensitive biometric identifiers, namely gender and identity, in a privacy-protecting setting. Experiments on the LibriSpeech dataset show that gender recognition and speaker verification can be reduced to a random guess, protecting against classification-based attacks, while maintaining the utility of the signal for speech recognition. | 翻訳日:2021-04-23 18:00:47 公開日:2021-04-22 |
# (参考訳) MRRT: 動的環境における高速オンラインリプランニングのための複数の高速探索ランダムツリー MRRT: Multiple Rapidly-Exploring Random Trees for Fast Online Replanning in Dynamic Environments ( http://arxiv.org/abs/2104.11059v1 ) ライセンス: CC BY 4.0 | Zongyuan Shen, James P. Wilson, Ryan Harvey and Shalabh Gupta | (参考訳) 本稿では,移動障害物のある動的環境下での自律走行車両の高速なオンライン再計画に,複数の高速探索木を用いたMRRTアルゴリズムを提案する。
提案アルゴリズムはマルチツリー構造を持つRTRアルゴリズムに基づいている。
はじめに、rrtアルゴリズムを適用し、環境の部分的な知識に基づいて初期解を求める。
そして、ロボットはこの経路を実行し始める。
各イテレーションで、新しい障害物構成はロボットのセンサーによって収集され、経路の再計画に使用される。
この新しい情報は、未知の静的な障害物(海底のレイアウトなど)と動く障害物から得られる。
次に, 環境変化に対応するため, 1) 端伐採, 2) 木の再生育の2つの手順が採用された。
具体的には、エッジプルーニング手順は木を通して衝突状態をチェックし、既に探索された領域のツリー構造を維持しながら、無効なエッジだけを削除する。
無効な縁を取り除いたため、木は複数の隣接した木に分割された。
そのため、RRTアルゴリズムを木の再成長に適用する。
具体的には、サンプルがランダムに作成され、最寄りのノードに接続することで、その近傍のすべての隣接木に結合される。
最後に、ロボットに新しい解決策が見つかる。
提案するmrrtアルゴリズムの利点は次のとおりである: i) 障害物に衝突する辺のみを刈り取ることで最大木構造を保持し、ii) 確率的完全性を保証する、iii) すべての非連結木は将来の接続のために維持され、同時に拡張されるため、高速再計画に効率的である。 This paper presents a novel algorithm, called MRRT, which uses multiple rapidly-exploring random trees for fast online replanning of autonomous vehicles in dynamic environments with moving obstacles. The proposed algorithm is built upon the RRT algorithm with a multi-tree structure. At the beginning, the RRT algorithm is applied to find the initial solution based on partial knowledge of the environment. Then, the robot starts to execute this path. At each iteration, the new obstacle configurations are collected by the robot's sensor and used to replan the path. This new information can come from unknown static obstacles (e.g., seafloor layout) as well as moving obstacles. Then, to accommodate the environmental changes, two procedures are adopted: 1) edge pruning, and 2) tree regrowing. Specifically, the edge pruning procedure checks the collision status through the tree and only removes the invalid edges while maintaining the tree structure of already-explored regions. Due to removal of invalid edges, the tree could be broken into multiple disjoint trees. As such, the RRT algorithm is applied to regrow the trees. Specifically, a sample is created randomly and joined to all the disjoint trees in its local neighborhood by connecting to the nearest nodes. Finally, a new solution is found for the robot. The advantages of the proposed MRRT algorithm are as follows: i) retains the maximal tree structure by only pruning the edges which collide with the obstacles, ii) guarantees probabilistic completeness, and iii) is computational efficient for fast replanning since all disjoint trees are maintained for future connections and expanded simultaneously. | 翻訳日:2021-04-23 17:46:36 公開日:2021-04-22 |
# (参考訳) ニューラルモデルを用いたホークスプロセスのモデリング強度関数の検討 Survey on Modeling Intensity Function of Hawkes Process Using Neural Models ( http://arxiv.org/abs/2104.11092v1 ) ライセンス: CC BY-SA 4.0 | Jayesh Malaviya | (参考訳) 多くの多様なシステムの事象列は連続空間における離散事象の列として表される。
このようなイベントシーケンスの例としては、地震後のイベント、金融取引、eコマース取引、ユーザのソーシャルネットワーク活動、ユーザのweb検索パターンなどがある。
このような複雑なパターンを見つけることは、将来どのイベントが起こるのか、いつ起こるのかを発見するのに役立つ。
ホークス過程(英: Hawkes process)は、時系列離散イベントをモデル化するための数学的ツールである。
伝統的に、ホークスプロセスはパラメータ化されたカーネル関数を持つ強度関数としてデータをモデリングするために重要なコンポーネントを使用する。
ホークス過程の強度関数は、背景強度と事象の履歴の影響の2つの要素を含む。
しかし、そのようなパラメータ化された仮定は、モデリングカーネル関数のバイアスにより、過去のイベントデータを使って将来のイベント特性を正確に捉えることはできない。
本稿では,カーネル関数をモデル化してパラメータ化されたカーネル関数を除去する,新しい深層学習手法を用いた最近の進歩について述べる。
最後に、ホークスプロセスを用いたモデリングを改善するために、将来の研究の方向性を示す。 The event sequence of many diverse systems is represented as a sequence of discrete events in a continuous space. Examples of such an event sequence are earthquake aftershock events, financial transactions, e-commerce transactions, social network activity of a user, and the user's web search pattern. Finding such an intricate pattern helps discover which event will occur in the future and when it will occur. A Hawkes process is a mathematical tool used for modeling such time series discrete events. Traditionally, the Hawkes process uses a critical component for modeling data as an intensity function with a parameterized kernel function. The Hawkes process's intensity function involves two components: the background intensity and the effect of events' history. However, such parameterized assumption can not capture future event characteristics using past events data precisely due to bias in modeling kernel function. This paper explores the recent advancement using novel deep learning-based methods to model kernel function to remove such parametrized kernel function. In the end, we will give potential future research directions to improve modeling using the Hawkes process. | 翻訳日:2021-04-23 17:41:59 公開日:2021-04-22 |
# (参考訳) 非バイナリ入力ベクトルを用いた樹木親機同期 Synchronization of Tree Parity Machines using non-binary input vectors ( http://arxiv.org/abs/2104.11105v1 ) ライセンス: CC BY 4.0 | Mi{\l}osz Stypi\'nski, Marcin Niemiec | (参考訳) ニューラルネットワークは、暗号の分野におけるニューラルネットワークの応用である。
このソリューションの機能はツリーパリティマシンに基づいている。
ニューラルネットワークを使って、ネットワークエンティティ間のセキュアな鍵交換を行う。
本稿では2つのツリーパリティマシンの同期改善を提案する。
この改善は、バイナリよりも幅広い値を持つ入力ベクトルを用いた人工ニューラルネットワークの学習に基づいている。
これにより、同期処理の期間が短縮される。
そのため、必要なビット交換の削減により、ツリーパリティマシンはより短時間で共通重量を達成する。
このアプローチは神経暗号のセキュリティを改善する Neural cryptography is the application of artificial neural networks in the subject of cryptography. The functionality of this solution is based on a tree parity machine. It uses artificial neural networks to perform secure key exchange between network entities. This article proposes improvements to the synchronization of two tree parity machines. The improvement is based on learning artificial neural network using input vectors which have a wider range of values than binary ones. As a result, the duration of the synchronization process is reduced. Therefore, tree parity machines achieve common weights in a shorter time due to the reduction of necessary bit exchanges. This approach improves the security of neural cryptography | 翻訳日:2021-04-23 17:32:44 公開日:2021-04-22 |
# (参考訳) フォーミュラRL:テレメトリデータを用いた自律レースの深部強化学習 Formula RL: Deep Reinforcement Learning for Autonomous Racing using Telemetry Data ( http://arxiv.org/abs/2104.11106v1 ) ライセンス: CC BY 4.0 | Adrian Remonda, Sarah Krebs, Eduardo Veas, Granit Luzhnica, Roman Kern | (参考訳) 本稿では,自動運転における強化学習(rl)モデルの利用について検討する。
安全が最優先の乗用車とは対照的に、レーシングカーはラップタイムを最小化することを目指している。
この問題を,車両のテレメトリと連続的な動作空間からなる多次元入力を用いて強化学習タスクとして構成する。
いずれのrl手法がこの問題をより解決し、得られたモデルが未知のトラック上での運転に一般化するかを明らかにするため、我々は2つの実験で10種類の深い決定論的ポリシー勾配 (ddpg) をレースに投入した: i) rl手法がレーシングカーの運転をいかに学ぶかの研究 ii) 学習シナリオがモデルが一般化する能力にどのように影響するかを考察する。
研究によると、rlでトレーニングされたモデルは、オープンソースの手作りロボットよりも高速に運転できるだけでなく、未知のトラックに一般化できる。 This paper explores the use of reinforcement learning (RL) models for autonomous racing. In contrast to passenger cars, where safety is the top priority, a racing car aims to minimize the lap-time. We frame the problem as a reinforcement learning task with a multidimensional input consisting of the vehicle telemetry, and a continuous action space. To find out which RL methods better solve the problem and whether the obtained models generalize to driving on unknown tracks, we put 10 variants of deep deterministic policy gradient (DDPG) to race in two experiments: i)~studying how RL methods learn to drive a racing car and ii)~studying how the learning scenario influences the capability of the models to generalize. Our studies show that models trained with RL are not only able to drive faster than the baseline open source handcrafted bots but also generalize to unknown tracks. | 翻訳日:2021-04-23 17:24:36 公開日:2021-04-22 |
# (参考訳) 多次元時系列データの特徴選択法 A Feature Selection Method for Multi-Dimension Time-Series Data ( http://arxiv.org/abs/2104.11110v1 ) ライセンス: CC BY 4.0 | Bahavathy Kathirgamanathan and Padraig Cunningham | (参考訳) モーションキャプチャやアクティビティ認識などのアプリケーション領域における時系列データは、多次元であることが多い。
これらのアプリケーション領域では、データは一般的にウェアラブルセンサーから、あるいはビデオから抽出される。
これらのデータストリームには多くの冗長性があり、適切な分類精度は少数の機能(ディメンション)で達成可能であることが多い。
本稿では,相互情報に基づく多次元時系列データを用いた特徴集合選択手法を提案する。
単一の特徴に基づいて訓練された分類器の出力の相関パターンに基づいて評価スコア(MSTS)を算出し、それに応じて「ベスト」サブセットを選択する。
MSTSは計算コストの面ではるかに効率的であると同時に、機械学習の他の場所で人気がある機能選択戦略であるWrapperベースの機能選択と比較して、全体的な正確性を維持するために管理されている。
本稿では,この特徴選択戦略の背景にあるモチベーションを説明し,その効果を6つの時系列データセットで評価する。 Time-series data in application areas such as motion capture and activity recognition is often multi-dimension. In these application areas data typically comes from wearable sensors or is extracted from video. There is a lot of redundancy in these data streams and good classification accuracy will often be achievable with a small number of features (dimensions). In this paper we present a method for feature subset selection on multidimensional time-series data based on mutual information. This method calculates a merit score (MSTS) based on correlation patterns of the outputs of classifiers trained on single features and the `best' subset is selected accordingly. MSTS was found to be significantly more efficient in terms of computational cost while also managing to maintain a good overall accuracy when compared to Wrapper-based feature selection, a feature selection strategy that is popular elsewhere in Machine Learning. We describe the motivations behind this feature selection strategy and evaluate its effectiveness on six time series datasets. | 翻訳日:2021-04-23 17:10:10 公開日:2021-04-22 |
# (参考訳) ビデオカプセル内視鏡と大腸内視鏡におけるリアルタイムポリープセグメンテーション NanoNet: Real-Time Polyp Segmentation in Video Capsule Endoscopy and Colonoscopy ( http://arxiv.org/abs/2104.11138v1 ) ライセンス: CC BY 4.0 | Debesh Jha, Nikhil Kumar Tomar, Sharib Ali, Michael A. Riegler, H{\aa}vard D. Johansen, Dag Johansen, Thomas de Lange, P{\aa}l Halvorsen | (参考訳) 消化器内視鏡の深層学習は臨床成績の向上に役立ち、病変をより正確に評価するのに役立つ。
この範囲では、がんや先天性病変の境界の特定など、興味のある領域のリアルタイムデライン化を自動化できるセマンティックセグメンテーション手法が、診断と介入の両方に有用である。
しかし,高演算子依存性と高精細画像品質のため,高精度かつリアルタイムな内視鏡像分割は極めて困難である。
臨床環境での自動化手法を活用するためには,低レイテンシの軽量モデルの設計が重要であり,ローエンドの内視鏡ハードウェアデバイスと統合可能である。
本稿では,ビデオカプセル内視鏡と大腸内視鏡画像のセグメンテーションのための新しいアーキテクチャであるnanonetを提案する。
提案アーキテクチャはリアルタイム性能を実現し,他の複雑なアーキテクチャに比べて高いセグメンテーション精度を有する。
我々は,ポリープを用いたビデオカプセル内視鏡および標準大腸内視鏡データセットと内視鏡生検および手術器具からなるデータセットを用いて,本手法の有効性を評価した。
実験では,モデル複雑性,速度,モデルパラメータ,メトリックパフォーマンスのトレードオフの観点から,アーキテクチャの性能向上を実証した。
さらに、モデルのサイズは比較的小さく、数百万のパラメータを持つ従来のディープラーニングアプローチと比較して、36,000近いパラメータしかありません。 Deep learning in gastrointestinal endoscopy can assist to improve clinical performance and be helpful to assess lesions more accurately. To this extent, semantic segmentation methods that can perform automated real-time delineation of a region-of-interest, e.g., boundary identification of cancer or precancerous lesions, can benefit both diagnosis and interventions. However, accurate and real-time segmentation of endoscopic images is extremely challenging due to its high operator dependence and high-definition image quality. To utilize automated methods in clinical settings, it is crucial to design lightweight models with low latency such that they can be integrated with low-end endoscope hardware devices. In this work, we propose NanoNet, a novel architecture for the segmentation of video capsule endoscopy and colonoscopy images. Our proposed architecture allows real-time performance and has higher segmentation accuracy compared to other more complex ones. We use video capsule endoscopy and standard colonoscopy datasets with polyps, and a dataset consisting of endoscopy biopsies and surgical instruments, to evaluate the effectiveness of our approach. Our experiments demonstrate the increased performance of our architecture in terms of a trade-off between model complexity, speed, model parameters, and metric performances. Moreover, the resulting model size is relatively tiny, with only nearly 36,000 parameters compared to traditional deep learning approaches having millions of parameters. | 翻訳日:2021-04-23 17:02:55 公開日:2021-04-22 |
# (参考訳) 入札リギング検出のための深層学習:畳み込みニューラルネットワークに基づくカルテル参加者のフラッグング Deep learning for detecting bid rigging: Flagging cartel participants based on convolutional neural networks ( http://arxiv.org/abs/2104.11142v1 ) ライセンス: CC BY 4.0 | Martin Huber, David Imhof | (参考訳) 本稿では,入札型カルテルのデータ駆動検出に関する文献に加え,他の企業との対決入札インタラクションに基づいてカーテル参加者をフラグアップする深層学習(人工知能のサブフィールド)に基づく新しいアプローチを提案する。
より簡潔に言うと、画像認識のためのいわゆる畳み込みニューラルネットワークと、ある参照会社の正規入札値を、参照会社と同一のテンダーに参加している他の企業の正規入札に対してペアでプロットするグラフを組み合わせる。
日本語とスイスの調達データに基づいて,コンレーシブなエピソードと競争的なエピソード(すなわち,入札カルテルが活動していない場合)のグラフを構築し,ニューラルネットワークをトレーニングするためにグラフのサブセットを用いて,競合入札パターンとコンレーシブを区別することを学ぶ。
残りのグラフを使用して、ニューラルネットワークのサンプル外性能をテストすることで、コルーシブかつ競合的な入札インタラクションを正しく分類する。
本手法を日本語,スイス語,あるいは混合データ(スイス語,日本語のグラフがプールされている)に適用する場合,精度の高い平均精度は約90%以上となる。
ある国からのデータを用いて、訓練されたモデルの他国(すなわち)のパフォーマンスをテストする場合。
全国的に)予測性能が低下する(おそらく、各国の調達手続きが制度的に異なるため)が、しばしば満足できるほど高いままである。
総じて、わずか100グラフの比較的小さなサンプルで訓練されているにもかかわらず、畳み込みニューラルネットワークの概して非常に高精度な精度は、投函と競い合うカルテルに対するディープラーニングアプローチの大きな可能性を示している。 Adding to the literature on the data-driven detection of bid-rigging cartels, we propose a novel approach based on deep learning (a subfield of artificial intelligence) that flags cartel participants based on their pairwise bidding interactions with other firms. More concisely, we combine a so-called convolutional neural network for image recognition with graphs that in a pairwise manner plot the normalized bid values of some reference firm against the normalized bids of any other firms participating in the same tenders as the reference firm. Based on Japanese and Swiss procurement data, we construct such graphs for both collusive and competitive episodes (i.e when a bid-rigging cartel is or is not active) and use a subset of graphs to train the neural network such that it learns distinguishing collusive from competitive bidding patterns. We use the remaining graphs to test the neural network's out-of-sample performance in correctly classifying collusive and competitive bidding interactions. We obtain a very decent average accuracy of around 90% or slightly higher when either applying the method within Japanese, Swiss, or mixed data (in which Swiss and Japanese graphs are pooled). When using data from one country for training to test the trained model's performance in the other country (i.e. transnationally), predictive performance decreases (likely due to institutional differences in procurement procedures across countries), but often remains satisfactorily high. All in all, the generally quite high accuracy of the convolutional neural network despite being trained in a rather small sample of a few 100 graphs points to a large potential of deep learning approaches for flagging and fighting bid-rigging cartels. | 翻訳日:2021-04-23 16:50:21 公開日:2021-04-22 |
# (参考訳) 拡張制御としての信頼:人間-ロボット協調時のアクティブ推論とユーザフィードバック Trust as Extended Control: Active Inference and User Feedback During Human-Robot Collaboration ( http://arxiv.org/abs/2104.11153v1 ) ライセンス: CC BY 4.0 | Felix Schoeller, Mark Miller, Roy Salomon, Karl J. Friston | (参考訳) ロボットとシームレスに対話するには、ユーザーはロボットの行動の原因を推測し、その推論に自信を持たなければならない。
したがって、信頼は人間ロボット協力(HRC)に必要な条件である。
その重要な役割にもかかわらず、信頼がどのように生まれ、発展し、非ヒトの人工物との人間の相互作用をサポートするかはほとんど分かっていない。
本稿では,信頼,人間とロボットのインタラクション,人間とロボットのコラボレーション,人間のインタラクションに関する文献を概観する。
信頼の初期のモデルでは、信頼は善意と能力のトレードオフを伴い、人間と人間の相互作用の研究は、信頼の段階的な構築における共有行動と相互知識の役割を強調している。
次に、拡張モータープラントまたはパートナーとの信頼できる感覚交換のためのエージェントの最良の説明として信頼のモデルを紹介する。
このモデルは、アクティブ推論の認知神経科学に基づいており、hrcの文脈では、人工エージェントに対する仮想制御の観点で信頼をキャストできることを示唆している。
この設定では、インタラクティブなフィードバックは、トラクタの知覚行動サイクルに必要なコンポーネントとなる。
人間の信頼の伝統的な決定要因は、アクティブな推論、情報交換、エンパワーメントの観点で定義できるため、人間とロボットの相互作用とコラボレーションを理解する上で重要な意味を持つ。
さらに,このモデルでは,ボアドムやサプライズをシステムへの過度な依存の指標として用いることができることが示唆された。
最後に,信頼形成における共有行動の役割,特にdyadicコラボレーションの文脈について検討し,人間-ロボット協調システムの受容性と設計に重要な影響を示唆する。 To interact seamlessly with robots, users must infer the causes of a robot's behavior and be confident about that inference. Hence, trust is a necessary condition for human-robot collaboration (HRC). Despite its crucial role, it is largely unknown how trust emerges, develops, and supports human interactions with nonhuman artefacts. Here, we review the literature on trust, human-robot interaction, human-robot collaboration, and human interaction at large. Early models of trust suggest that trust entails a trade-off between benevolence and competence, while studies of human-to-human interaction emphasize the role of shared behavior and mutual knowledge in the gradual building of trust. We then introduce a model of trust as an agent's best explanation for reliable sensory exchange with an extended motor plant or partner. This model is based on the cognitive neuroscience of active inference and suggests that, in the context of HRC, trust can be cast in terms of virtual control over an artificial agent. In this setting, interactive feedback becomes a necessary component of the trustor's perception-action cycle. The resulting model has important implications for understanding human-robot interaction and collaboration, as it allows the traditional determinants of human trust to be defined in terms of active inference, information exchange and empowerment. Furthermore, this model suggests that boredom and surprise may be used as markers for under and over-reliance on the system. Finally, we examine the role of shared behavior in the genesis of trust, especially in the context of dyadic collaboration, suggesting important consequences for the acceptability and design of human-robot collaborative systems. | 翻訳日:2021-04-23 16:31:23 公開日:2021-04-22 |
# (参考訳) 定量メタログラフィーのためのエンド・ツー・エンドコンピュータビジョン手法 An End-to-End Computer Vision Methodology for Quantitative Metallography ( http://arxiv.org/abs/2104.11159v1 ) ライセンス: CC BY 4.0 | Matan Rusanovsky, Ofer Beeri, Sigalit Ifergane and Gal Oren | (参考訳) メタログラフィーは材料の特性を適切に評価するのに重要である。
主に穀物の空間分布と包有物や沈殿物の発生と特性を調査する。
本研究は, 合金の不純物の異常度を自動的に定量化する異常検出のための総合的人工知能モデルを提案する。
1) 包含物(適切な合金メタログラフデータベースと対応する包含物のタグ)上で深い意味分節化を行い, 分離したデータベースに保存された包含物マスクを生成する。
2) 除去された包有物部分を埋めるために深部画像インパインティングを行い、粒の背景を含む「クリーン」金属写真を生成する。
3) 粒界は(別の合金メタログラフデータベースに基づく)深部意味分節法を用いてマークされ、粒度の大きさの分布をさらに検査する準備ができている境界を生成する。
(4)包含マスクに深い異常検出及びパターン認識を行い、包含物の空間的、形状的、領域的異常検出を決定する。
最後に、システムは、さらなる調査のために興味のある分野の専門家に推奨する。
モデルの性能を提示し,いくつかの代表事例に基づいて解析する。
ここで示したモデルはメタログラフィー解析のために開発されたが、そのほとんどは幾何学的対象の異常検出が望まれるより広い問題に一般化することができる。
この作業のために作成されたすべてのモデルとデータセットはhttps://github.com/Scientific-Computing-Lab-NRCN/MLographyで公開されている。 Metallography is crucial for a proper assessment of material's properties. It involves mainly the investigation of spatial distribution of grains and the occurrence and characteristics of inclusions or precipitates. This work presents an holistic artificial intelligence model for Anomaly Detection that automatically quantifies the degree of anomaly of impurities in alloys. We suggest the following examination process: (1) Deep semantic segmentation is performed on the inclusions (based on a suitable metallographic database of alloys and corresponding tags of inclusions), producing inclusions masks that are saved into a separated database. (2) Deep image inpainting is performed to fill the removed inclusions parts, resulting in 'clean' metallographic images, which contain the background of grains. (3) Grains' boundaries are marked using deep semantic segmentation (based on another metallographic database of alloys), producing boundaries that are ready for further inspection on the distribution of grains' size. (4) Deep anomaly detection and pattern recognition is performed on the inclusions masks to determine spatial, shape and area anomaly detection of the inclusions. Finally, the system recommends to an expert on areas of interests for further examination. The performance of the model is presented and analyzed based on few representative cases. Although the models presented here were developed for metallography analysis, most of them can be generalized to a wider set of problems in which anomaly detection of geometrical objects is desired. All models as well as the data-sets that were created for this work, are publicly available at https://github.com/Scientific-Computing-Lab-NRCN/MLography. | 翻訳日:2021-04-23 16:12:51 公開日:2021-04-22 |
# (参考訳) 時間情報を用いたノイズロバストディープスパイクニューラルネットワーク Noise-Robust Deep Spiking Neural Networks with Temporal Information ( http://arxiv.org/abs/2104.11169v1 ) ライセンス: CC BY 4.0 | Seongsik Park, Dongjin Lee, Sungroh Yoon | (参考訳) スパイキングニューラルネットワーク(SNN)は、時間的情報を持つエネルギー効率の高いニューラルネットワークとして登場した。
snnはニューロモルフィックなデバイスで優れた効率を示したが、デバイスはノイズに影響を受けやすく、現実世界のアプリケーションに適用できない。
いくつかの研究はノイズの堅牢性を高めているが、そのほとんどは深いSNNでも時間情報でもないとみなしている。
本稿では,様々なニューラルコーディング手法を用いた深部snsに対する雑音の影響を調査し,時間的情報を含む雑音ロバスト深部snsを提案する。
提案手法により,スパイク削除とジッタを効率よく,かつ堅牢な深層SNNを実現した。 Spiking neural networks (SNNs) have emerged as energy-efficient neural networks with temporal information. SNNs have shown a superior efficiency on neuromorphic devices, but the devices are susceptible to noise, which hinders them from being applied in real-world applications. Several studies have increased noise robustness, but most of them considered neither deep SNNs nor temporal information. In this paper, we investigate the effect of noise on deep SNNs with various neural coding methods and present a noise-robust deep SNN with temporal information. With the proposed methods, we have achieved a deep SNN that is efficient and robust to spike deletion and jitter. | 翻訳日:2021-04-23 15:49:08 公開日:2021-04-22 |
# (参考訳) 人間とロボットの対話による知識の収集・抽出・保存 Knowledge Triggering, Extraction and Storage via Human-Robot Verbal Interaction ( http://arxiv.org/abs/2104.11170v1 ) ライセンス: CC BY 4.0 | Lucrezia Grassi, Carmine Tommaso Recchiuto, Antonio Sgorbissa | (参考訳) 本稿では,人工会話エージェントの知識ベースをランタイムに拡張する新しいアプローチについて述べる。
ソーシャルヒューマノイドロボットと介護施設の住民との知識に基づく会話のために,ユーザの文章から自動的な知識抽出技術と,獲得した概念を知識ベースに挿入する4つの手法が開発され,すでにテスト済みのシステムに統合されている。
新しい知識をリアルタイムで追加することで、ほとんどのロボットやチャットボットに影響を与えるいくつかの制限を克服することができる。
ユーザの文で認識された新しい概念の知識ベースへの挿入は、対話中にカバーできる幅広いトピックを生み出すことが期待され、会話の反復性が低下する。
オントロジーにいくつかの概念を加える際に, 知識抽出手法の性能と, 提案した挿入手法の効率を評価するために, 2つの実験を行った。 This article describes a novel approach to expand in run-time the knowledge base of an Artificial Conversational Agent. A technique for automatic knowledge extraction from the user's sentence and four methods to insert the new acquired concepts in the knowledge base have been developed and integrated into a system that has already been tested for knowledge-based conversation between a social humanoid robot and residents of care homes. The run-time addition of new knowledge allows overcoming some limitations that affect most robots and chatbots: the incapability of engaging the user for a long time due to the restricted number of conversation topics. The insertion in the knowledge base of new concepts recognized in the user's sentence is expected to result in a wider range of topics that can be covered during an interaction, making the conversation less repetitive. Two experiments are presented to assess the performance of the knowledge extraction technique, and the efficiency of the developed insertion methods when adding several concepts in the Ontology. | 翻訳日:2021-04-23 15:36:17 公開日:2021-04-22 |
# (参考訳) 完全畳み込み線解析 Fully Convolutional Line Parsing ( http://arxiv.org/abs/2104.11207v1 ) ライセンス: CC0 1.0 | Xili Dai, Xiaojun Yuan, Haigang Gong, Yi Ma | (参考訳) 画像から線分を検出する一段階のF-Clip(Fully Convolutional Line Parsing Network)を提案する。
提案するネットワークは非常にシンプルで柔軟性があり、異なるアプリケーションの速度と精度を優雅にトレードオフするバリエーションがある。
F-Clipは、各行の中央位置、長さ、角度で予測することで、ラインセグメントをエンドツーエンドで検出する。
実画像データセットにおける線分角分布の実証的観察に基づき, 畳み込みネットワークの畳み込みカーネルの設計をさらにカスタマイズし, このような統計的事前化を効果的に活用する。
提案手法は,1つのGPU上で最大73FPSのリアルタイムライン検出器を実現することにより,効率と精度のトレードオフを著しく向上することを示す。
このような推論速度は,従来の手法の精度を損なうことなく,リアルタイムタスクに容易に適用できる。
さらに、性能改善バックボーンネットワークを備えた場合、F-Clipは、同じまたはそれ以上のフレームレートで精度で全ての最先端ライン検出器を著しく上回ることができる。
ソースコード https://github.com/Delay-Xili/F-Clip.com We present a one-stage Fully Convolutional Line Parsing network (F-Clip) that detects line segments from images. The proposed network is very simple and flexible with variations that gracefully trade off between speed and accuracy for different applications. F-Clip detects line segments in an end-to-end fashion by predicting them with each line's center position, length, and angle. Based on empirical observation of the distribution of line angles in real image datasets, we further customize the design of convolution kernels of our fully convolutional network to effectively exploit such statistical priors. We conduct extensive experiments and show that our method achieves a significantly better trade-off between efficiency and accuracy, resulting in a real-time line detector at up to 73 FPS on a single GPU. Such inference speed makes our method readily applicable to real-time tasks without compromising any accuracy of previous methods. Moreover, when equipped with a performance-improving backbone network, F-Clip is able to significantly outperform all state-of-the-art line detectors on accuracy at a similar or even higher frame rate. Source code https://github.com/Delay-Xili/F-Clip. | 翻訳日:2021-04-23 15:04:28 公開日:2021-04-22 |
# (参考訳) KeypointDeformer: 形状制御のための教師なし3次元キーポイント発見 KeypointDeformer: Unsupervised 3D Keypoint Discovery for Shape Control ( http://arxiv.org/abs/2104.11224v1 ) ライセンス: CC BY 4.0 | Tomas Jakab, Richard Tucker, Ameesh Makadia, Jiajun Wu, Noah Snavely, Angjoo Kanazawa | (参考訳) 自動検出された3次元キーポイントによる形状制御のための新しい教師なし手法であるKeypointDeformerを紹介する。
我々はこれを、同じオブジェクトカテゴリからターゲット3Dオブジェクトにソース3Dオブジェクトをアライメントする問題として捉えた。
本手法は2つの物体の形状の違いを潜在表現の比較により解析する。
この潜在表現は教師なしの方法で学習される3dキーポイントの形式である。
ソースとターゲットオブジェクトの3Dキーポイントの違いは、ソースオブジェクトをターゲットオブジェクトに変形させる形状変形アルゴリズムに通知する。
モデル全体がエンドツーエンドで学習され、3dキーポイントを同時に発見し、オブジェクトの形状を変形するためにそれらを使用するように学習する。
本手法は, 直観的かつ意味論的に形状変形の制御を行う。
さらに,3次元キーポイントは形状変化が大きいにもかかわらず,オブジェクトカテゴリインスタンス間で一致している。
我々の手法は教師なしであるため、3Dキーポイントや変形のアノテーションを必要とせずに、新しいオブジェクトカテゴリに簡単にデプロイできる。 We introduce KeypointDeformer, a novel unsupervised method for shape control through automatically discovered 3D keypoints. We cast this as the problem of aligning a source 3D object to a target 3D object from the same object category. Our method analyzes the difference between the shapes of the two objects by comparing their latent representations. This latent representation is in the form of 3D keypoints that are learned in an unsupervised way. The difference between the 3D keypoints of the source and the target objects then informs the shape deformation algorithm that deforms the source object into the target object. The whole model is learned end-to-end and simultaneously discovers 3D keypoints while learning to use them for deforming object shapes. Our approach produces intuitive and semantically consistent control of shape deformations. Moreover, our discovered 3D keypoints are consistent across object category instances despite large shape variations. As our method is unsupervised, it can be readily deployed to new object categories without requiring annotations for 3D keypoints and deformations. | 翻訳日:2021-04-23 14:51:29 公開日:2021-04-22 |
# (参考訳) 道路を想像する: 微分可能シミュレーションによるマルチエージェント軌道予測 Imagining The Road Ahead: Multi-Agent Trajectory Prediction via Differentiable Simulation ( http://arxiv.org/abs/2104.11212v1 ) ライセンス: CC BY-SA 4.0 | Adam Scibior, Vasileios Lioutas, Daniele Reda, Peyman Bateni, Frank Wood | (参考訳) 本研究では,マルチエージェント軌道予測のための完全微分可能なシミュレータを用いた深層生成モデルを開発した。
エージェントは条件付きリカレント変動ニューラルネットワーク(CVRNN)でモデル化され、世界の現在の状態を表すエゴ中心のバードビューイメージを入力として、ステアリングとアクセラレーションからなるアクションを出力し、キネマティック自転車モデルを用いてその後のエージェント状態を導出する。
そして、各エージェントに対して全シミュレーション状態を微分可能レンダリングし、次のステップを開始する。
本研究では,標準ニューラルアーキテクチャと標準変分学習目標を用いて,対話データセットの最先端の結果を得るとともに,随時多様性を誘発する損失を伴わずに現実的なマルチモーダル予測を実現する。
シミュレーションの個々の構成要素を調べるためにアブレーション実験を行い,このレベルを達成するためには,自転車モデルとバードビュー画像からの連続フィードバックの両方が不可欠であることを見出した。
Imagining the Road Ahead" の略で、当社のモデル ITRA と名付けています。 We develop a deep generative model built on a fully differentiable simulator for multi-agent trajectory prediction. Agents are modeled with conditional recurrent variational neural networks (CVRNNs), which take as input an ego-centric birdview image representing the current state of the world and output an action, consisting of steering and acceleration, which is used to derive the subsequent agent state using a kinematic bicycle model. The full simulation state is then differentiably rendered for each agent, initiating the next time step. We achieve state-of-the-art results on the INTERACTION dataset, using standard neural architectures and a standard variational training objective, producing realistic multi-modal predictions without any ad-hoc diversity-inducing losses. We conduct ablation studies to examine individual components of the simulator, finding that both the kinematic bicycle model and the continuous feedback from the birdview image are crucial for achieving this level of performance. We name our model ITRA, for "Imagining the Road Ahead". | 翻訳日:2021-04-23 14:32:07 公開日:2021-04-22 |
# 運動プログラムによる階層的動作理解 Hierarchical Motion Understanding via Motion Programs ( http://arxiv.org/abs/2104.11216v1 ) ライセンス: Link先を確認 | Sumith Kulal, Jiayuan Mao, Alex Aiken, Jiajun Wu | (参考訳) 人間の動きの映像解析に対する最近のアプローチは、推論の基本単位として生のピクセルやキーポイントに焦点を当てている。
バックスウィングやフォロースルーなどの動きの自然な粗い単位をキャプチャできる高レベルなモーションプリミティブを付加することで、下流分析タスクを改善することができると仮定する。
この高いレベルの抽象化は、繰り返しプリミティブのループのような、現在低レベルの表現ではアクセスできない重要な機能も捉えることができる。
そこで我々は,運動を高レベルプリミティブの構成として表現する,ニューロシンボリックなプログラムライクな表現であるモーションプログラムを紹介する。
また,人間の動画から自動的に動作プログラムを誘導し,映像合成における動作プログラムを活用するシステムを提案する。
実験により、運動プログラムは人間の様々な動きを正確に記述できることが示され、推定されたプログラムにはアームスイングやジャンピングジャックのような意味的に意味のある動作プリミティブが含まれている。
我々の表現は、ビデオ補間やビデオ予測といった下流タスクにも役立ち、市販モデルよりも優れています。
さらに,これらのプログラムが多種多様な反復動作を検知し,インタラクティブなビデオ編集を容易にする方法を示す。 Current approaches to video analysis of human motion focus on raw pixels or keypoints as the basic units of reasoning. We posit that adding higher-level motion primitives, which can capture natural coarser units of motion such as backswing or follow-through, can be used to improve downstream analysis tasks. This higher level of abstraction can also capture key features, such as loops of repeated primitives, that are currently inaccessible at lower levels of representation. We therefore introduce Motion Programs, a neuro-symbolic, program-like representation that expresses motions as a composition of high-level primitives. We also present a system for automatically inducing motion programs from videos of human motion and for leveraging motion programs in video synthesis. Experiments show that motion programs can accurately describe a diverse set of human motions and the inferred programs contain semantically meaningful motion primitives, such as arm swings and jumping jacks. Our representation also benefits downstream tasks such as video interpolation and video prediction and outperforms off-the-shelf models. We further demonstrate how these programs can detect diverse kinds of repetitive motion and facilitate interactive video editing. | 翻訳日:2021-04-23 14:10:44 公開日:2021-04-22 |
# ニューラルネットワークロスランドスケープにおける単調線形補間の解析 Analyzing Monotonic Linear Interpolation in Neural Network Loss Landscapes ( http://arxiv.org/abs/2104.11044v1 ) ライセンス: Link先を確認 | James Lucas, Juhan Bae, Michael R. Zhang, Stanislav Fort, Richard Zemel, Roger Grosse | (参考訳) 確率勾配降下(SGD)によるトレーニング後の初期ニューラルネットワークパラメータと収束パラメータの線形補間は、訓練目標の単調な減少につながる。
この単調線形補間(MLI)特性はGoodfellowらによって初めて観察された。
2014年) ニューラルネットワークの非凸目的と高度に非線形なトレーニングダイナミクスにもかかわらず継続する。
この研究を拡張し、この性質について、我々の知る限り、まだ研究されていないいくつかの仮説を評価する。
微分幾何学のツールを用いて、関数空間における補間経路と平均二乗誤差の下でのMLI特性に対する十分な条件を満たすネットワークの単調性との間の接続を描く。
MLIプロパティはさまざまな設定(例)で保持される。
ネットワークアーキテクチャと学習問題) MLIプロパティに違反するネットワークは,初期化から遠ざかる重みを奨励することにより,体系的に生成可能であることを示す。
MLIプロパティは、ニューラルネットワークの損失ランドスケープ幾何学に関する重要な疑問を提起し、そのグローバルな特性をさらに研究する必要性を強調している。 Linear interpolation between initial neural network parameters and converged parameters after training with stochastic gradient descent (SGD) typically leads to a monotonic decrease in the training objective. This Monotonic Linear Interpolation (MLI) property, first observed by Goodfellow et al. (2014) persists in spite of the non-convex objectives and highly non-linear training dynamics of neural networks. Extending this work, we evaluate several hypotheses for this property that, to our knowledge, have not yet been explored. Using tools from differential geometry, we draw connections between the interpolated paths in function space and the monotonicity of the network - providing sufficient conditions for the MLI property under mean squared error. While the MLI property holds under various settings (e.g. network architectures and learning problems), we show in practice that networks violating the MLI property can be produced systematically, by encouraging the weights to move far from initialization. The MLI property raises important questions about the loss landscape geometry of neural networks and highlights the need to further study their global properties. | 翻訳日:2021-04-23 14:10:24 公開日:2021-04-22 |
# So-ViT:視覚変換のためのマインドビジュアルトークン So-ViT: Mind Visual Tokens for Vision Transformer ( http://arxiv.org/abs/2104.10935v1 ) ライセンス: Link先を確認 | Jiangtao Xie, Ruiren Zeng, Qilong Wang, Ziqi Zhou, Peihua Li | (参考訳) 近年の視覚変換器(ViT)アーキテクチャは、バックボーンが純粋に自己認識機構から構成されており、視覚分類において非常に有望な性能を実現している。
しかし、オリジナルのvitの高性能は、超大規模データセットを使った事前トレーニングに大きく依存しており、スクラッチからトレーニングするとimagenet-1kにかなり劣る。
本稿では,視覚的トークンの役割を慎重に検討し,この問題への取り組みを行う。
まず、分類ヘッドの場合、既存のViTはクラストークンのみを使用し、ハイレベルなビジュアルトークンに固有のリッチなセマンティック情報を完全に無視する。
そこで本研究では,視覚トークンの2次相互分散をクラストークンと組み合わせ,最終分類を行う新しい分類パラダイムを提案する。
一方, 2次プール化を改善するために, 高速特異値パワー正規化を提案する。
第2に、オリジナルのViTは、固定サイズのイメージパッチの単純埋め込みを採用し、翻訳の等価性と局所性をモデル化する能力に欠ける。
この問題を軽減するために,視覚トークン埋め込みのためのオフ・ザ・棚畳み込みに基づく軽量階層モジュールを開発した。
提案アーキテクチャはSo-ViTと呼ばれ,ImageNet-1K上で徹底的に評価されている。
その結果、我々のモデルは、スクラッチからトレーニングされた場合、競合するViTモデルよりも優れ、最先端のCNNモデルと同等かそれ以上であることがわかった。
コードはhttps://github.com/jiangtaoxie/So-ViTで入手できる。 Recently the vision transformer (ViT) architecture, where the backbone purely consists of self-attention mechanism, has achieved very promising performance in visual classification. However, the high performance of the original ViT heavily depends on pretraining using ultra large-scale datasets, and it significantly underperforms on ImageNet-1K if trained from scratch. This paper makes the efforts toward addressing this problem, by carefully considering the role of visual tokens. First, for classification head, existing ViT only exploits class token while entirely neglecting rich semantic information inherent in high-level visual tokens. Therefore, we propose a new classification paradigm, where the second-order, cross-covariance pooling of visual tokens is combined with class token for final classification. Meanwhile, a fast singular value power normalization is proposed for improving the second-order pooling. Second, the original ViT employs the naive embedding of fixed-size image patches, lacking the ability to model translation equivariance and locality. To alleviate this problem, we develop a light-weight, hierarchical module based on off-the-shelf convolutions for visual token embedding. The proposed architecture, which we call So-ViT, is thoroughly evaluated on ImageNet-1K. The results show our models, when trained from scratch, outperform the competing ViT variants, while being on par with or better than state-of-the-art CNN models. Code is available at https://github.com/jiangtaoxie/So-ViT | 翻訳日:2021-04-23 14:10:06 公開日:2021-04-22 |
# 合成コントラスト学習による音声視覚知識の蒸留 Distilling Audio-Visual Knowledge by Compositional Contrastive Learning ( http://arxiv.org/abs/2104.10955v1 ) ライセンス: Link先を確認 | Yanbei Chen, Yongqin Xian, A. Sophia Koepke, Ying Shan, Zeynep Akata | (参考訳) マルチモーダルな手掛かり(例えば、)にアクセスできること
視覚とオーディオ) 認知的なタスクを、単一のモダリティから学ぶよりも速く行うことができる。
本研究では,これらのデータモダリティが意味的に関連付けられなくても,異質なモダリティにまたがる知識の伝達を提案する。
異なるモーダルの表現を直接整列するのではなく、よりリッチなマルチモーダル知識を明らかにするために、モーダル間のオーディオ、画像、ビデオ表現を構成する。
本研究の主な目的は,モーダル間のセマンティックギャップを埋めてタスク関連セマンティクスを捉え,コンストラクショナルコントラスト学習によってモーダル間の表現をまとめることを容易にするコンストラクショナル埋め込みを学習することである。
我々は,UCF101,ActivityNet,VGGSoundの3つのビデオデータセットに対して,新しい総合的マルチモーダル蒸留ベンチマークを構築した。
さらに,本モデルは,映像表現学習を改善するために視聴覚知識の伝達において,既存の様々な知識蒸留法を著しく上回っていることを示す。
https://github.com/yanbeic/ccl.com/。 Having access to multi-modal cues (e.g. vision and audio) empowers some cognitive tasks to be done faster compared to learning from a single modality. In this work, we propose to transfer knowledge across heterogeneous modalities, even though these data modalities may not be semantically correlated. Rather than directly aligning the representations of different modalities, we compose audio, image, and video representations across modalities to uncover richer multi-modal knowledge. Our main idea is to learn a compositional embedding that closes the cross-modal semantic gap and captures the task-relevant semantics, which facilitates pulling together representations across modalities by compositional contrastive learning. We establish a new, comprehensive multi-modal distillation benchmark on three video datasets: UCF101, ActivityNet, and VGGSound. Moreover, we demonstrate that our model significantly outperforms a variety of existing knowledge distillation methods in transferring audio-visual knowledge to improve video representation learning. Code is released here: https://github.com/yanbeic/CCL. | 翻訳日:2021-04-23 14:09:43 公開日:2021-04-22 |
# Choquet積分を用いた神経誘発エッジ機能融合 Neuro-inspired edge feature fusion using Choquet integrals ( http://arxiv.org/abs/2104.10984v1 ) ライセンス: Link先を確認 | Cedric Marco-Detchart, Giancarlo Lucca, Carlos Lopez-Molina, Laura De Miguel, Gra\c{c}aliz Pereira Dimuro, Humberto Bustince | (参考訳) ヒトの視覚系は、視覚野で初期視覚手がかり(またはプリミティブ)が融合して複雑な形状や記述子を構成する階層的情報処理を行うことが知られている。
レンズの適応や特徴検出など、プロセスに関するさまざまな側面が広く研究されているが、他の部分(機能融合など)は、ほとんど無視されている。
本研究では,コッケ積分の一般化を用いた初期視覚プリミティブの融合と,近年広く研究されている新しいアグリゲーション演算子について詳述する。
そこで我々は,初期視覚野のニューロンの挙動をモデル化するために,チョケ積分の一般化を用いて初等エッジキューを巧みに融合させる手法を提案する。
提案手法は,最先端境界検出データセットの試験に性能を付加する,フルフレームエッジ検出アルゴリズムを実現する。 It is known that the human visual system performs a hierarchical information process in which early vision cues (or primitives) are fused in the visual cortex to compose complex shapes and descriptors. While different aspects of the process have been extensively studied, as the lens adaptation or the feature detection, some other,as the feature fusion, have been mostly left aside. In this work we elaborate on the fusion of early vision primitives using generalizations of the Choquet integral, and novel aggregation operators that have been extensively studied in recent years. We propose to use generalizations of the Choquet integral to sensibly fuse elementary edge cues, in an attempt to model the behaviour of neurons in the early visual cortex. Our proposal leads to a full-framed edge detection algorithm, whose performance is put to the test in state-of-the-art boundary detection datasets. | 翻訳日:2021-04-23 14:09:23 公開日:2021-04-22 |
# Pareto-Efficient Spacesのためのネットワーク空間探索 Network Space Search for Pareto-Efficient Spaces ( http://arxiv.org/abs/2104.11014v1 ) ライセンス: Link先を確認 | Min-Fong Hong, Hao-Yun Chen, Min-Hung Chen, Yu-Syuan Xu, Hsien-Kai Kuo, Yi-Min Tsai, Hung-Jen Chen, Kevin Jou | (参考訳) ネットワーク空間は、手作りのネットワーク設計やニューラルアーキテクチャサーチ(NAS)の検索空間の定義において重要な要素として知られている。
しかし、効果的な空間には膨大な事前知識や手作業が必要であり、効率を意識したアーキテクチャを発見するには追加の制約が必要である。
本稿では,ネットワーク空間探索(NSS)という新たな課題を,単一のアーキテクチャではなく,好ましいネットワーク空間の探索として定義する。
そこで本研究では,効率の良いネットワーク空間を自動的に探索するnss手法を提案する。
Elite Spacesという名前のネットワーク空間は、人間の専門知識が最小限に抑えられたExpanded Search Spaceから発見された。
パレート効率の良いエリート空間は、様々な複雑さの制約の下でパレートフロントと整列しており、さらにNAS探索空間として機能し、微分可能なNASアプローチ(例)の恩恵を受けることができる。
CIFAR-100では、平均2.3%のエラー率と3.7%がベースラインよりも目標に近く、十分なネットワークを見つけるのに必要なサンプルが約90%少ない)。
さらに,今後の未探索空間において優れた空間を探索することが可能であり,ネットワーク空間の自動探索において大きな可能性を秘めている。 Network spaces have been known as a critical factor in both handcrafted network designs or defining search spaces for Neural Architecture Search (NAS). However, an effective space involves tremendous prior knowledge and/or manual effort, and additional constraints are required to discover efficiency-aware architectures. In this paper, we define a new problem, Network Space Search (NSS), as searching for favorable network spaces instead of a single architecture. We propose an NSS method to directly search for efficient-aware network spaces automatically, reducing the manual effort and immense cost in discovering satisfactory ones. The resultant network spaces, named Elite Spaces, are discovered from Expanded Search Space with minimal human expertise imposed. The Pareto-efficient Elite Spaces are aligned with the Pareto front under various complexity constraints and can be further served as NAS search spaces, benefiting differentiable NAS approaches (e.g. In CIFAR-100, an averagely 2.3% lower error rate and 3.7% closer to target constraint than the baseline with around 90% fewer samples required to find satisfactory networks). Moreover, our NSS approach is capable of searching for superior spaces in future unexplored spaces, revealing great potential in searching for network spaces automatically. | 翻訳日:2021-04-23 14:09:08 公開日:2021-04-22 |
# スケルトンに基づく行動認識のための階層的成長グリッドネットワーク Hierarchical growing grid networks for skeleton based action recognition ( http://arxiv.org/abs/2104.11165v1 ) ライセンス: Link先を確認 | Zahra Gharaee | (参考訳) 本稿では,格子型ニューラルネットワークの層を応用して,行動認識のための新しい認知アーキテクチャを開発し,それらの層を用いて,その表現構造を自動配置する。
成長段階における神経地図の拡張に加えて、システムは入力空間の事前知識を提供し、学習相の処理速度を増加させる。
成長するグリッドネットワークの2つの層とは別に、アーキテクチャは前処理層、順序付けられたベクトル表現層、および1層の教師付きニューラルネットワークで構成されている。
これらのレイヤーは、アクション認識問題を解決するために設計されている。
第1層成長格子は、人間の行動の入力データを受信し、ニューラルネットワークは、訓練された地図の誘発活性化を接続することにより、各アクションシーケンスを表すアクションパターンベクトルを生成する。
次に、パターンベクトルを順序付きベクトル表現層に送信し、第2層成長格子のキーアクティベーションの時間不変な入力ベクトルを構築する。
第2層成長グリッドは、入力ベクトルを対応するアクションクラスタ/サブクラスタに分類し、最後に1層教師付きニューラルネットワークは、型付きクラスタにアクションラベルを付ける。
異なるアクションデータセットを用いた3つの実験は、システムが素早く効率的にアクションを分類できることを示す。
成長するグリッドアーキテクチャの性能は、自己組織マップに基づくシステムの結果と組み合わせられ、成長するグリッドアーキテクチャは、アクション認識タスクにおいて著しく優れていることを示す。 In this paper, a novel cognitive architecture for action recognition is developed by applying layers of growing grid neural networks.Using these layers makes the system capable of automatically arranging its representational structure. In addition to the expansion of the neural map during the growth phase, the system is provided with a prior knowledge of the input space, which increases the processing speed of the learning phase. Apart from two layers of growing grid networks the architecture is composed of a preprocessing layer, an ordered vector representation layer and a one-layer supervised neural network. These layers are designed to solve the action recognition problem. The first-layer growing grid receives the input data of human actions and the neural map generates an action pattern vector representing each action sequence by connecting the elicited activation of the trained map. The pattern vectors are then sent to the ordered vector representation layer to build the time-invariant input vectors of key activations for the second-layer growing grid. The second-layer growing grid categorizes the input vectors to the corresponding action clusters/sub-clusters and finally the one-layer supervised neural network labels the shaped clusters with action labels. Three experiments using different datasets of actions show that the system is capable of learning to categorize the actions quickly and efficiently. The performance of the growing grid architecture is com-pared with the results from a system based on Self-Organizing Maps, showing that the growing grid architecture performs significantly superior on the action recognition tasks. | 翻訳日:2021-04-23 14:08:47 公開日:2021-04-22 |
# manipulathor: ビジュアルオブジェクト操作のためのフレームワーク ManipulaTHOR: A Framework for Visual Object Manipulation ( http://arxiv.org/abs/2104.11213v1 ) ライセンス: Link先を確認 | Kiana Ehsani, Winson Han, Alvaro Herrasti, Eli VanderBilt, Luca Weihs, Eric Kolve, Aniruddha Kembhavi, Roozbeh Mottaghi | (参考訳) Embodied AIのドメインは、特に環境内のエージェントのナビゲートにおいて、非常に進歩している。
これらの初期の成功は、エージェントが環境内のオブジェクトと活発に対話する必要があるタスクに取り組むための、コミュニティのためのビルディングブロックを形成しました。
オブジェクト操作はロボットコミュニティ内で確立された研究領域であり、特に視覚的に豊かで複雑なシーンを含む見過ごされた現実的なセットアップを扱う際には、マニピュレータの動き、把握、長期水平計画、(テーブルトップ操作とは対照的に)移動エージェントを使った操作、そして見えない環境やオブジェクトへの一般化など、いくつかの課題を提起している。
我々は、物理対応で視覚的にリッチなAI2-THORフレームワーク上に構築されたオブジェクト操作のためのフレームワークを提案し、ArmPointNavとして知られるEmbodied AIコミュニティに新しい課題を提示する。
このタスクは、一般的なポイントナビゲーションタスクをオブジェクト操作に拡張し、3次元障害物回避、オクルージョンの存在下でオブジェクトを操作すること、長期計画を必要とする複数オブジェクト操作を含む新しい課題を提供する。
PointNavの課題で成功した一般的な学習パラダイムは、有望だが、改善の余地は大きい。 The domain of Embodied AI has recently witnessed substantial progress, particularly in navigating agents within their environments. These early successes have laid the building blocks for the community to tackle tasks that require agents to actively interact with objects in their environment. Object manipulation is an established research domain within the robotics community and poses several challenges including manipulator motion, grasping and long-horizon planning, particularly when dealing with oft-overlooked practical setups involving visually rich and complex scenes, manipulation using mobile agents (as opposed to tabletop manipulation), and generalization to unseen environments and objects. We propose a framework for object manipulation built upon the physics-enabled, visually rich AI2-THOR framework and present a new challenge to the Embodied AI community known as ArmPointNav. This task extends the popular point navigation task to object manipulation and offers new challenges including 3D obstacle avoidance, manipulating objects in the presence of occlusion, and multi-object manipulation that necessitates long term planning. Popular learning paradigms that are successful on PointNav challenges show promise, but leave a large room for improvement. | 翻訳日:2021-04-23 14:08:23 公開日:2021-04-22 |
# マルチスケール視覚トランスフォーマー Multiscale Vision Transformers ( http://arxiv.org/abs/2104.11227v1 ) ライセンス: Link先を確認 | Haoqi Fan, Bo Xiong, Karttikeya Mangalam, Yanghao Li, Zhicheng Yan, Jitendra Malik, Christoph Feichtenhofer | (参考訳) 本稿では,マルチスケール特徴階層をトランスフォーマモデルに結びつけることで,映像・画像認識のためのマルチスケールビジョントランス (MViT) を提案する。
マルチスケールトランスフォーマはいくつかのチャンネルレゾリューションスケールステージを持つ。
入力解像度と小さなチャネル次元から始まり、ステージは空間分解能を低下させながらチャネル容量を階層的に拡大する。
これにより、初期層が空間解像度で動作し、単純な低レベルな視覚情報をモデル化し、より深い層が空間的に粗いが、複雑で高次元的な特徴を持つマルチスケールな特徴ピラミッドが作られる。
本稿では,映像認識タスクにおける視覚信号の高密度な性質をモデル化するための基本的なアーキテクチャ的前提として,大規模外的事前学習に依存し,計算やパラメータにおいて5~10倍のコストがかかる並列視覚変換器を性能的に評価する。
さらに、時間次元を除去し、視覚変換器の先行作業に優れる画像分類に我々のモデルを適用する。
https://github.com/facebookresearch/slowfast We present Multiscale Vision Transformers (MViT) for video and image recognition, by connecting the seminal idea of multiscale feature hierarchies with transformer models. Multiscale Transformers have several channel-resolution scale stages. Starting from the input resolution and a small channel dimension, the stages hierarchically expand the channel capacity while reducing the spatial resolution. This creates a multiscale pyramid of features with early layers operating at high spatial resolution to model simple low-level visual information, and deeper layers at spatially coarse, but complex, high-dimensional features. We evaluate this fundamental architectural prior for modeling the dense nature of visual signals for a variety of video recognition tasks where it outperforms concurrent vision transformers that rely on large scale external pre-training and are 5-10x more costly in computation and parameters. We further remove the temporal dimension and apply our model for image classification where it outperforms prior work on vision transformers. Code is available at: https://github.com/facebookresearch/SlowFast | 翻訳日:2021-04-23 14:08:01 公開日:2021-04-22 |
# VATT: 生ビデオ, 音声, テキストからのマルチモーダル自己監督学習用トランスフォーマ VATT: Transformers for Multimodal Self-Supervised Learning from Raw Video, Audio and Text ( http://arxiv.org/abs/2104.11178v1 ) ライセンス: Link先を確認 | Hassan Akbari, Linagzhe Yuan, Rui Qian, Wei-Hong Chuang, Shih-Fu Chang, Yin Cui, Boqing Gong | (参考訳) 本稿では,畳み込みフリートランスフォーマーを用いてラベルなしデータからマルチモーダル表現を学ぶためのフレームワークを提案する。
具体的には、VATT(Video-Audio-Text Transformer)は生の信号を入力として取り出し、様々な下流タスクに十分なリッチなマルチモーダル表現を抽出する。
マルチモーダルなコントラスト損失を用いて,vattのエンドツーエンドをスクラッチからトレーニングし,映像動作認識,音声イベント分類,画像分類,テキストからビデオへの検索といった下流タスクによってその性能を評価する。
さらに,3つのモード間の重みの共有により,モダリティ非依存なシングルバックボーントランスについて検討した。
畳み込みのないVATTは、下流タスクにおいて最先端のConvNetベースのアーキテクチャよりも優れていることを示す。
特にVATTのビジョントランスフォーマーは、Kineetics-400で82.1%、Kineetics-600で83.6%、Moments in Timeで41.1%というトップ1の精度を達成した。
画像分類への転送はImageNetの78.7%の精度で、同じトランスフォーマーをスクラッチからトレーニングすることで64.7%の精度を実現した。
vattのオーディオトランスフォーマーはまた、事前トレーニングなしでオーディオセットの39.4%のマップを達成することで、波形ベースのオーディオイベント認識の新しい記録を設定する。 We present a framework for learning multimodal representations from unlabeled data using convolution-free Transformer architectures. Specifically, our Video-Audio-Text Transformer (VATT) takes raw signals as inputs and extracts multimodal representations that are rich enough to benefit a variety of downstream tasks. We train VATT end-to-end from scratch using multimodal contrastive losses and evaluate its performance by the downstream tasks of video action recognition, audio event classification, image classification, and text-to-video retrieval. Furthermore, we study a modality-agnostic single-backbone Transformer by sharing weights among the three modalities. We show that the convolution-free VATT outperforms state-of-the-art ConvNet-based architectures in the downstream tasks. Especially, VATT's vision Transformer achieves the top-1 accuracy of 82.1% on Kinetics-400, 83.6% on Kinetics-600,and 41.1% on Moments in Time, new records while avoiding supervised pre-training. Transferring to image classification leads to 78.7% top-1 accuracy on ImageNet compared to 64.7% by training the same Transformer from scratch, showing the generalizability of our model despite the domain gap between videos and images. VATT's audio Transformer also sets a new record on waveform-based audio event recognition by achieving the mAP of 39.4% on AudioSet without any supervised pre-training. | 翻訳日:2021-04-23 14:07:26 公開日:2021-04-22 |
# 大腸内視鏡ポリープ検出と分類:データセット作成と比較評価 Colonoscopy Polyp Detection and Classification: Dataset Creation and Comparative Evaluations ( http://arxiv.org/abs/2104.10824v1 ) ライセンス: Link先を確認 | Kaidong Li, Mohammad I. Fathan, Krushi Patel, Tianxiao Zhang, Cuncong Zhong, Ajay Bansal, Amit Rastogi, Jean S. Wang, Guanghui Wang | (参考訳) 大腸癌 (crc) は高い死亡率を持つ最も一般的ながんの1つである。
大腸内視鏡はCRCスクリーニングの望ましい方法であり、CRC死亡率の低下に有効であることが証明されている。
これにより、信頼性の高いコンピュータ支援ポリープ検出・分類システムにより、大腸内視鏡の有用性が著しく向上する。
本稿では,さまざまなソースから収集した内視鏡的データセットを作成し,経験豊富な消化器科医の助けを借りて,ポリプの位置と分類結果の基礎的真実を注釈する。
このデータセットは、polyp分類のための機械学習モデルをトレーニングし、評価するためのベンチマークプラットフォームとして機能する。
また、8つの最先端のディープラーニングに基づくオブジェクト検出モデルの性能を比較した。
結果は,CRCスクリーニングにおいて深部CNNモデルが有望であることを示す。
この研究は、将来のポリプの検出と分類の研究のベースラインとなる。 Colorectal cancer (CRC) is one of the most common types of cancer with a high mortality rate. Colonoscopy is the preferred procedure for CRC screening and has proven to be effective in reducing CRC mortality. Thus, a reliable computer-aided polyp detection and classification system can significantly increase the effectiveness of colonoscopy. In this paper, we create an endoscopic dataset collected from various sources and annotate the ground truth of polyp location and classification results with the help of experienced gastroenterologists. The dataset can serve as a benchmark platform to train and evaluate the machine learning models for polyp classification. We have also compared the performance of eight state-of-the-art deep learning-based object detection models. The results demonstrate that deep CNN models are promising in CRC screening. This work can serve as a baseline for future research in polyp detection and classification. | 翻訳日:2021-04-23 14:06:58 公開日:2021-04-22 |
# 深層学習型検出器のための学習伝達可能な3次元逆クローク Learning Transferable 3D Adversarial Cloaks for Deep Trained Detectors ( http://arxiv.org/abs/2104.11101v1 ) ライセンス: Link先を確認 | Arman Maesumi and Mingkang Zhu and Yi Wang and Tianlong Chen and Zhangyang Wang and Chandrajit Bajaj | (参考訳) 本稿では,人間の3dメッシュ上の攻撃パッチを訓練するパッチベースの攻撃パイプラインを提案する。
私たちは、参照する人間のメッシュで三角形の顔をサンプリングし、それらの顔に逆向きのテクスチャアトラスを作成します。
敵のテクスチャは、さまざまなポーズで人間のメッシュに転送され、現実世界の背景イメージのコレクションにレンダリングされます。
従来のパッチベースの敵攻撃とは対照的に、この新たな攻撃は3Dオブジェクトの世界にマッピングされ、異なるレンダリングによってテクスチャアトラスにバックプロパゲーションされる。
このように、対向パッチは実世界の材料と整合した変形の下で訓練される。
さらに、既存の敵パッチと異なり、我々の新しい3D対向パッチは、さまざまなビューの下で、最先端のディープオブジェクト検出器をしっかりと騙すことで、物理的な世界で永続的に強い攻撃スキームにつながる可能性がある。 This paper presents a novel patch-based adversarial attack pipeline that trains adversarial patches on 3D human meshes. We sample triangular faces on a reference human mesh, and create an adversarial texture atlas over those faces. The adversarial texture is transferred to human meshes in various poses, which are rendered onto a collection of real-world background images. Contrary to the traditional patch-based adversarial attacks, where prior work attempts to fool trained object detectors using appended adversarial patches, this new form of attack is mapped into the 3D object world and back-propagated to the texture atlas through differentiable rendering. As such, the adversarial patch is trained under deformation consistent with real-world materials. In addition, and unlike existing adversarial patches, our new 3D adversarial patch is shown to fool state-of-the-art deep object detectors robustly under varying views, potentially leading to an attacking scheme that is persistently strong in the physical world. | 翻訳日:2021-04-23 14:06:46 公開日:2021-04-22 |
# 対話型AIのための事前学習言語モデルに関する短い調査-NLPの新しい展開 A Short Survey of Pre-trained Language Models for Conversational AI-A NewAge in NLP ( http://arxiv.org/abs/2104.10810v1 ) ライセンス: Link先を確認 | Munazza Zaib and Quan Z. Sheng and Wei Emma Zhang | (参考訳) 人間と自然にコミュニケーションできる対話システムを構築することは、エージェントベースのコンピューティングでは難しいが興味深い問題である。
この領域の急速な成長は、これらのシステムが、不十分なタスク固有のデータセットから構文、文法、意思決定、推論を学ぶことを期待されているため、データ不足の長期的問題によって妨げられる。
最近導入された事前学習言語モデルは、データ不足の問題に対処する可能性があり、文脈化された単語の埋め込みを生成することで大きな利点をもたらす。
これらのモデルは、NLPにおけるImageNetに匹敵すると考えられており、階層関係、長期依存、感情など、さまざまな言語の側面を捉えている。
本稿では,事前学習された言語モデルの分野における最近の進歩について述べる。
また、これらの言語モデルの強みが、より魅力的で雄弁な会話エージェントの設計にどのように活用できるかを慎重に検討する。
そこで本研究では,これらの事前学習モデルが対話システムに関係する課題を克服できるかどうか,それらの課題を克服するためにアーキテクチャをどのように活用できるかを確かめる。
対話システムの分野でのオープンチャレンジも検討されている。 Building a dialogue system that can communicate naturally with humans is a challenging yet interesting problem of agent-based computing. The rapid growth in this area is usually hindered by the long-standing problem of data scarcity as these systems are expected to learn syntax, grammar, decision making, and reasoning from insufficient amounts of task-specific dataset. The recently introduced pre-trained language models have the potential to address the issue of data scarcity and bring considerable advantages by generating contextualized word embeddings. These models are considered counterpart of ImageNet in NLP and have demonstrated to capture different facets of language such as hierarchical relations, long-term dependency, and sentiment. In this short survey paper, we discuss the recent progress made in the field of pre-trained language models. We also deliberate that how the strengths of these language models can be leveraged in designing more engaging and more eloquent conversational agents. This paper, therefore, intends to establish whether these pre-trained models can overcome the challenges pertinent to dialogue systems, and how their architecture could be exploited in order to overcome these challenges. Open challenges in the field of dialogue systems have also been deliberated. | 翻訳日:2021-04-23 14:06:02 公開日:2021-04-22 |
# 分割線形ホモトピー継続を用いたロバスト回帰・異常検出のための条件付き選択的推論 Conditional Selective Inference for Robust Regression and Outlier Detection using Piecewise-Linear Homotopy Continuation ( http://arxiv.org/abs/2104.10840v1 ) ライセンス: Link先を確認 | Toshiaki Tsukurimichi, Yu Inatsu, Vo Nguyen Le Duy, Ichiro Takeuchi | (参考訳) 雑音環境下の実データ解析では,まずロバストな手法を用いて異常値を特定し,その後異常値除去後のさらなる解析を行うことが一般的である。
本稿では,外乱が除去された後に推定されるモデルの統計的推測を,選択推論(SI)問題と解釈できると考えている。
条件付きSIフレームワークを使用するには、ロバストなメソッドがアウトリーチを識別する方法のイベントを特徴付ける必要がある。
残念ながら、選択イベントが線形/二次制約によって表現できる場合に適用できるため、既存のメソッドはここで直接使用することができない。
本稿では,ホモトピー手法を用いて,一般的なロバスト回帰に対する条件付きSI法を提案する。
提案した条件付きSI法は, 広範囲の頑健な回帰法と外れ値検出法に適用可能であり, 合成データと実データの両方において良好な実験性能を有することを示す。 In practical data analysis under noisy environment, it is common to first use robust methods to identify outliers, and then to conduct further analysis after removing the outliers. In this paper, we consider statistical inference of the model estimated after outliers are removed, which can be interpreted as a selective inference (SI) problem. To use conditional SI framework, it is necessary to characterize the events of how the robust method identifies outliers. Unfortunately, the existing methods cannot be directly used here because they are applicable to the case where the selection events can be represented by linear/quadratic constraints. In this paper, we propose a conditional SI method for popular robust regressions by using homotopy method. We show that the proposed conditional SI method is applicable to a wide class of robust regression and outlier detection methods and has good empirical performance on both synthetic data and real data experiments. | 翻訳日:2021-04-23 14:05:29 公開日:2021-04-22 |
# 深層学習を用いたリモートセンシングrgb画像からのハイプマップ予測のためのシャドウに着目して Focusing on Shadows for Predicting Heightmaps from Single Remotely Sensed RGB Images with Deep Learning ( http://arxiv.org/abs/2104.10874v1 ) ライセンス: Link先を確認 | Savvas Karatsiolis and Andreas Kamilaris | (参考訳) 単一のリモートセンシング画像における建物と植生の高さマップの推定は難しい課題である。
この問題に対する効果的な解決策は、遠隔センシング分野における空中画像の3次元情報を必要とする複雑で要求の多い問題を解くためのステップストーンを構成することができる。
本稿では,リモートセンシング画像のシャドーマップを利用したタスク中心のDeep Learning(DL)モデルを提案する。
シャドウは効率的に計算され、計算の複雑さをあまり増やさない。
モデルは、空中画像とライダーの測定で訓練され、タスクにおいて優れたパフォーマンスを達成する。
我々は、英国マンチェスターの広範囲をカバーするデータセットと、2018年のIEEE GRSS Data Fusion Contest Lidarデータセットでモデルを検証した。
本研究は,提案するDLアーキテクチャと影情報をモデルに注入する手法が,単一リモートセンシング画像の高度マップ推定タスクの改善に有用であることを示唆している。 Estimating the heightmaps of buildings and vegetation in single remotely sensed images is a challenging problem. Effective solutions to this problem can comprise the stepping stone for solving complex and demanding problems that require 3D information of aerial imagery in the remote sensing discipline, which might be expensive or not feasible to require. We propose a task-focused Deep Learning (DL) model that takes advantage of the shadow map of a remotely sensed image to calculate its heightmap. The shadow is computed efficiently and does not add significant computation complexity. The model is trained with aerial images and their Lidar measurements, achieving superior performance on the task. We validate the model with a dataset covering a large area of Manchester, UK, as well as the 2018 IEEE GRSS Data Fusion Contest Lidar dataset. Our work suggests that the proposed DL architecture and the technique of injecting shadows information into the model are valuable for improving the heightmap estimation task for single remotely sensed imagery. | 翻訳日:2021-04-23 14:05:12 公開日:2021-04-22 |
# ヨーロッパ上空10mの大陸規模の土地被覆マッピング(ELC10) Continental-scale land cover mapping at 10 m resolution over Europe (ELC10) ( http://arxiv.org/abs/2104.10922v1 ) ライセンス: Link先を確認 | Zander S. Venter, Markus A.K. Sydenham | (参考訳) CORINEのような広く使われているヨーロッパの土地被覆地図は、中程度の空間解像度 (100 m) で作成され、複雑なワークフローを持つ多様なデータに依存している。
衛星駆動機械学習のワークフローに基づいて,欧州の高解像度 (10 m) ランドカバーマップ (ELC10) を提案する。
LUCAS(Land Use/Cover Area frame Survey)データセットから,ランダムフォレスト分類モデルを70K地点で訓練した。
Google Earth Engineのクラウドコンピューティング環境において、ECC10マップは近似から生成される。
700tbのセンチネル画像が得られた。
調査ユーザー1名から4日。
この地図は8つの土地被覆クラスで90%の精度を達成し、実際の値の3.9% (r2 = 0.83) 以内の統計単位土地被覆率を計算できた。
CORINE (100 m) や S2GLC や From-GLC10 など 10 m の陸地カバーマップよりも高い。
その結果,センチネル-2の大気補正とセンチネル-1画像のスペックルフィルタリングは,分類精度の向上にほとんど影響を与えなかった(<1%)。
しかし、光学画像とレーダー画像の組み合わせにより、センチネル2単独で3%、センチネル1単独で10%の精度が向上した。
LUCAS点のコペルニクス加群による均質多角形への変換は精度を1%向上させ、ランダムフォレストは汚染された訓練データに対して堅牢であることを示した。
さらに、5Kと50KのLUCASポイントの違いはわずか3%(86対89%)である。
10mの解像度で、ECC10マップは、生け垣や庭園のような詳細な景観の特徴を区別することができ、都市部レベルでの航空統計と資産レベルの環境介入(例)の監視の可能性を秘めている。
植樹)。 Widely used European land cover maps such as CORINE are produced at medium spatial resolutions (100 m) and rely on diverse data with complex workflows requiring significant institutional capacity. We present a high resolution (10 m) land cover map (ELC10) of Europe based on a satellite-driven machine learning workflow that is annually updatable. A Random Forest classification model was trained on 70K ground-truth points from the LUCAS (Land Use/Cover Area frame Survey) dataset. Within the Google Earth Engine cloud computing environment, the ELC10 map can be generated from approx. 700 TB of Sentinel imagery within approx. 4 days from a single research user account. The map achieved an overall accuracy of 90% across 8 land cover classes and could account for statistical unit land cover proportions within 3.9% (R2 = 0.83) of the actual value. These accuracies are higher than that of CORINE (100 m) and other 10-m land cover maps including S2GLC and FROM-GLC10. We found that atmospheric correction of Sentinel-2 and speckle filtering of Sentinel-1 imagery had minimal effect on enhancing classification accuracy (< 1%). However, combining optical and radar imagery increased accuracy by 3% compared to Sentinel-2 alone and by 10% compared to Sentinel-1 alone. The conversion of LUCAS points into homogenous polygons under the Copernicus module increased accuracy by <1%, revealing that Random Forests are robust against contaminated training data. Furthermore, the model requires very little training data to achieve moderate accuracies - the difference between 5K and 50K LUCAS points is only 3% (86 vs 89%). At 10-m resolution, the ELC10 map can distinguish detailed landscape features like hedgerows and gardens, and therefore holds potential for aerial statistics at the city borough level and monitoring property-level environmental interventions (e.g. tree planting). | 翻訳日:2021-04-23 14:04:53 公開日:2021-04-22 |
# fcos3d:完全畳み込み型単眼3次元物体検出 FCOS3D: Fully Convolutional One-Stage Monocular 3D Object Detection ( http://arxiv.org/abs/2104.10956v1 ) ライセンス: Link先を確認 | Tai Wang, Xinge Zhu, Jiangmiao Pang, Dahua Lin | (参考訳) 単眼3次元物体検出は、低コストの利点を考慮した自動運転において重要な課題である。
深度情報の欠如を主な要因として, 従来の2Dケースと比較して, より困難である。
2D検出の最近の進歩は、この問題をよりよく解決する機会を提供する。
しかし、この3Dタスクで一般的な2D検出器を動作させることは自明ではない。
本稿では, この問題を, 完全畳み込み型単段検出器を用いた手法を用いて検討し, 汎用フレームワークFCOS3Dを提案する。
具体的には、一般的に定義された7-DoF 3Dターゲットを画像領域に変換し、2Dおよび3D属性として分離する。
対象物は2次元のスケールを考慮して異なる特徴レベルに分散され、トレーニング手順として投影された3D中心にのみ割り当てられる。
さらに、中心性は3D中心に基づく2次元グアシアン分布で再定義され、3D目標の定式化に適合する。
これらすべてが、このフレームワークをシンプルで効果的にし、2D検出や2D-3D対応を排除します。
われわれのソリューションは、NeurIPS 2020のnuScenes 3D検出チャレンジにおける視覚のみの手法のうち、第1位を達成している。
コードとモデルはhttps://github.com/open-mmlab/mmdetection3dでリリースされている。 Monocular 3D object detection is an important task for autonomous driving considering its advantage of low cost. It is much more challenging compared to conventional 2D case due to its inherent ill-posed property, which is mainly reflected on the lack of depth information. Recent progress on 2D detection offers opportunities to better solving this problem. However, it is non-trivial to make a general adapted 2D detector work in this 3D task. In this technical report, we study this problem with a practice built on fully convolutional single-stage detector and propose a general framework FCOS3D. Specifically, we first transform the commonly defined 7-DoF 3D targets to image domain and decouple it as 2D and 3D attributes. Then the objects are distributed to different feature levels with the consideration of their 2D scales and assigned only according to the projected 3D-center for training procedure. Furthermore, the center-ness is redefined with a 2D Guassian distribution based on the 3D-center to fit the 3D target formulation. All of these make this framework simple yet effective, getting rid of any 2D detection or 2D-3D correspondence priors. Our solution achieves 1st place out of all the vision-only methods in the nuScenes 3D detection challenge of NeurIPS 2020. Code and models are released at https://github.com/open-mmlab/mmdetection3d. | 翻訳日:2021-04-23 14:04:04 公開日:2021-04-22 |
# 知識グラフ埋め込みのための効率的な関係認識スコーリング関数探索 Efficient Relation-aware Scoring Function Search for Knowledge Graph Embedding ( http://arxiv.org/abs/2104.10880v1 ) ライセンス: Link先を確認 | Shimin Di, Quanming Yao, Yongqi Zhang, Lei Chen | (参考訳) 知識グラフ(kgs)における三重項の可算性を測定するスコアリング関数は、kg埋め込みの優れた性能を保証するための鍵であり、その設計は文献における重要な問題でもある。
機械学習(AutoML)技術は、最近KGに導入され、タスク認識スコアリング関数を設計し、KG埋め込みにおける最先端のパフォーマンスを実現する。
しかし、探索されたスコアリング関数の有効性は依然として望ましくない。
本稿では,既存のスコアリング関数が異なる意味パターンで異なるパフォーマンスを示すことを観察し,関係認識スコアリング関数を探索することで,それらの意味を探索する動機付けを行う。
しかし、リレーション・アウェア検索は、前よりはるかに大きな検索空間を必要とする。
そこで我々は,空間をスーパーネットとして符号化し,スーパーネットをワンショットで探索する効率的な代替最小化アルゴリズムを提案する。
最後に, 提案手法は, 評価関数を効率よく探索し, 組込み性能が最先端の手法よりも優れていることを示す。 The scoring function, which measures the plausibility of triplets in knowledge graphs (KGs), is the key to ensure the excellent performance of KG embedding, and its design is also an important problem in the literature. Automated machine learning (AutoML) techniques have recently been introduced into KG to design task-aware scoring functions, which achieve state-of-the-art performance in KG embedding. However, the effectiveness of searched scoring functions is still not as good as desired. In this paper, observing that existing scoring functions can exhibit distinct performance on different semantic patterns, we are motivated to explore such semantics by searching relation-aware scoring functions. But the relation-aware search requires a much larger search space than the previous one. Hence, we propose to encode the space as a supernet and propose an efficient alternative minimization algorithm to search through the supernet in a one-shot manner. Finally, experimental results on benchmark datasets demonstrate that the proposed method can efficiently search relation-aware scoring functions, and achieve better embedding performance than state-of-the-art methods. | 翻訳日:2021-04-23 14:03:43 公開日:2021-04-22 |
# XAI-N:エキスパートポリシーと決定木を用いたセンサ型ロボットナビゲーション XAI-N: Sensor-based Robot Navigation using Expert Policies and Decision Trees ( http://arxiv.org/abs/2104.10818v1 ) ライセンス: Link先を確認 | Aaron M. Roth, Jing Liang, and Dinesh Manocha | (参考訳) 本稿では,ロボットの障害物や目標の移動を伴う密集した動的環境での衝突のない軌道を計算するためのセンサベース学習ナビゲーションアルゴリズムを提案する。
我々のアプローチは、sim2realパラダイムを用いて訓練された深層強化学習に基づくエキスパートポリシーを使用する。
信頼性を高め,専門家政策の失敗事例を処理するため,政策抽出手法と組み合わせて,結果の方針を決定木形式に変換する。
得られた決定木は、ポリシーの分析と修正に使用し、滑らかさ、振動の頻度、固定化の頻度、目標の妨害など、ナビゲーションメトリクスのパフォーマンスを向上させる特性を有する。
我々は、深層学習の学習力とドメイン固有のアルゴリズムの制御を組み合わせることで、これらの不完全性に対応するためにポリシーを変更することができる。
シミュレーション環境でのアルゴリズムの利点を強調し、移動中の歩行者の間でClearpath Jackalロボットをナビゲートする。 We present a novel sensor-based learning navigation algorithm to compute a collision-free trajectory for a robot in dense and dynamic environments with moving obstacles or targets. Our approach uses deep reinforcement learning-based expert policy that is trained using a sim2real paradigm. In order to increase the reliability and handle the failure cases of the expert policy, we combine with a policy extraction technique to transform the resulting policy into a decision tree format. The resulting decision tree has properties which we use to analyze and modify the policy and improve performance on navigation metrics including smoothness, frequency of oscillation, frequency of immobilization, and obstruction of target. We are able to modify the policy to address these imperfections without retraining, combining the learning power of deep learning with the control of domain-specific algorithms. We highlight the benefits of our algorithm in simulated environments and navigating a Clearpath Jackal robot among moving pedestrians. | 翻訳日:2021-04-23 14:03:24 公開日:2021-04-22 |
# MeSIN:医療勧告のためのマルチレベル選択対話型ネットワーク MeSIN: Multilevel Selective and Interactive Network for Medication Recommendation ( http://arxiv.org/abs/2104.11026v1 ) ライセンス: Link先を確認 | Yang An and Liang Zhang and Mao You and Xueqing Tian and Bo Jin and Xiaopeng Wei | (参考訳) 電子健康記録(EHR)を用いた患者の治療薬の推奨は、インテリジェント医療システムにとって重要なデータマイニング課題である。
医師がより効率的に臨床決定を行うのを助けることができる。
However, the inherent complexity of the EHR data renders it as a challenging task: (1) Multilevel structures: the EHR data typically contains multilevel structures which are closely related with the decision-making pathways, e.g., laboratory results lead to disease diagnoses, and then contribute to the prescribed medications; (2) Multiple sequences interactions: multiple sequences in EHR data are usually closely correlated with each other; (3) Abundant noise: lots of task-unrelated features or noise information within EHR data generally result in suboptimal performance.
以上の課題に対処するため,医薬品推奨のための多レベル選択的対話型ネットワーク(MeSIN)を提案する。
具体的には、MeSINは3つのコンポーネントで設計されている。
まず注意選択モジュール(ASM)を用いて、各入院中の推奨薬剤との関連性により、異なる医療コードにフレキシブルな注意スコアを付与する。
第二に、我々は新しい対話型長期記憶ネットワーク(InLSTM)を導入し、校正メモリ拡張セルと拡張入力ゲートの助けを借りて、EHRデータにおけるマルチレベル医療シーケンスの相互作用を強化する。
最後にglobal selective fusion module (gsfm) を用いて,複数ソース情報を埋め込んだ情報を最終患者表現に注入し,医薬品の推奨を行う。
本手法を検証するために,実世界の臨床データセットを用いて広範な実験を行った。
その結果,複数のベースラインに対して一貫性のあるフレームワークの優位性を示し,提案手法の有効性を検証した。 Recommending medications for patients using electronic health records (EHRs) is a crucial data mining task for an intelligent healthcare system. It can assist doctors in making clinical decisions more efficiently. However, the inherent complexity of the EHR data renders it as a challenging task: (1) Multilevel structures: the EHR data typically contains multilevel structures which are closely related with the decision-making pathways, e.g., laboratory results lead to disease diagnoses, and then contribute to the prescribed medications; (2) Multiple sequences interactions: multiple sequences in EHR data are usually closely correlated with each other; (3) Abundant noise: lots of task-unrelated features or noise information within EHR data generally result in suboptimal performance. To tackle the above challenges, we propose a multilevel selective and interactive network (MeSIN) for medication recommendation. Specifically, MeSIN is designed with three components. First, an attentional selective module (ASM) is applied to assign flexible attention scores to different medical codes embeddings by their relevance to the recommended medications in every admission. Second, we incorporate a novel interactive long-short term memory network (InLSTM) to reinforce the interactions of multilevel medical sequences in EHR data with the help of the calibrated memory-augmented cell and an enhanced input gate. Finally, we employ a global selective fusion module (GSFM) to infuse the multi-sourced information embeddings into final patient representations for medications recommendation. To validate our method, extensive experiments have been conducted on a real-world clinical dataset. The results demonstrate a consistent superiority of our framework over several baselines and testify the effectiveness of our proposed approach. | 翻訳日:2021-04-23 14:03:10 公開日:2021-04-22 |
# オートエンコーダとバイアスドトラジェクタを用いた集団変数の追跡 Chasing Collective Variables using Autoencoders and biased trajectories ( http://arxiv.org/abs/2104.11061v1 ) ライセンス: Link先を確認 | Zineb Belkacemi, Paraskevi Gkeka, Tony Leli\`evre and Gabriel Stoltz | (参考訳) 過去数十年間、自由エネルギーバイアス法は、サンプリング尺度を変更することで分子の重要な構造変化のシミュレーションを加速する強力なツールであることが証明されてきた。
しかし、これらの手法のほとんどが、低次元の緩やかな自由度の事前の知識に依存している。
集合変数 (cv)。
あるいは、機械学習(ML)と次元削減アルゴリズムを使って、そのようなCVを識別することができる。
この文脈では、CVを適応バイアスを用いて反復的に学習するアプローチが提案されている。各繰り返しにおいて、学習されたCVを使用して自由エネルギー適応バイアスを行い、新しいデータを生成し、新しいCVを学ぶ。
これは、各イテレーションで異なる測定値がサンプリングされ、新しいトレーニングデータが異なる分布に従って分散されることを意味する。
機械学習モデルは常に考慮された分布に依存するため、反復的手法は特定のcvに収束することが保証されない。
これは、適応サンプリングに使用される偏りのある測度に関係なく、同じ偏りのないボルツマン・ギブス測度に関して常に学習に戻るための再重み付け手順によって修正することができる。
本稿では,自動エンコーダを用いたcv学習と自動エンコーダによる自由エネルギーバイアスと反復学習を含む新しい反復学習手法を提案する。
本手法は,学習モデルが同一損失を最適化し,CV収束を実現するための重み付け方式を含む。
本研究では,2次元玩具システムとアラニンジペプチドシステムを例に,自由エネルギー適応バイアス法として拡張された適応バイアス力を用いたアルゴリズムの結果を示す。 In the last decades, free energy biasing methods have proven to be powerful tools to accelerate the simulation of important conformational changes of molecules by modifying the sampling measure. However, most of these methods rely on the prior knowledge of low-dimensional slow degrees of freedom, i.e. Collective Variables (CV). Alternatively, such CVs can be identified using machine learning (ML) and dimensionality reduction algorithms. In this context, approaches where the CVs are learned in an iterative way using adaptive biasing have been proposed: at each iteration, the learned CV is used to perform free energy adaptive biasing to generate new data and learn a new CV. This implies that at each iteration, a different measure is sampled, thus the new training data is distributed according to a different distribution. Given that a machine learning model is always dependent on the considered distribution, iterative methods are not guaranteed to converge to a certain CV. This can be remedied by a reweighting procedure to always fall back to learning with respect to the same unbiased Boltzmann-Gibbs measure, regardless of the biased measure used in the adaptive sampling. In this paper, we introduce a new iterative method involving CV learning with autoencoders: Free Energy Biasing and Iterative Learning with AutoEncoders (FEBILAE). Our method includes the reweighting scheme to ensure that the learning model optimizes the same loss, and achieves CV convergence. Using a small 2-dimensional toy system and the alanine dipeptide system as examples, we present results of our algorithm using the extended adaptive biasing force as the free energy adaptive biasing method. | 翻訳日:2021-04-23 14:01:33 公開日:2021-04-22 |
# 肺葉分節に対するマルチタスク半教師あり学習 Multi-task Semi-supervised Learning for Pulmonary Lobe Segmentation ( http://arxiv.org/abs/2104.11017v1 ) ライセンス: Link先を確認 | Jingnan Jia, Zhiwei Zhai, M. Els Bakker, I. Hernandez Giron, Marius Staring, Berend C. Stoel | (参考訳) 肺葉分節は肺疾患の解析における重要な前処理課題である。
肺血管や気道の分布など、裂け目検出や解剖学的特徴に依存する伝統的な手法は、適度に正確な葉の分節を与える可能性がある。
ディープラーニングベースのメソッドは、従来のアプローチよりも優れていますが、大きなデータセットが必要です。
深層マルチタスク学習は複数の異なる構造のラベルを活用することが期待される。
しかし、一般的にこのようなラベルは複数のデータセットに分散される。
本稿では,無注釈のデータセットと異なる構造を持つデータセットから複数の構造の情報を活用できるマルチタスク半教師付きモデルを提案する。
異なるタスクのバランスをとるために、集中した交互トレーニング戦略が提示されます。
外部独立したCTデータセットを用いてトレーニングモデルの評価を行った。
その結果、本モデルはシングルタスクの代替品を著しく上回り、平均表面距離を7.174mmから4.196mmに改善した。
また、我々のアプローチがバックボーンとして異なるネットワークアーキテクチャで成功していることも示しました。 Pulmonary lobe segmentation is an important preprocessing task for the analysis of lung diseases. Traditional methods relying on fissure detection or other anatomical features, such as the distribution of pulmonary vessels and airways, could provide reasonably accurate lobe segmentations. Deep learning based methods can outperform these traditional approaches, but require large datasets. Deep multi-task learning is expected to utilize labels of multiple different structures. However, commonly such labels are distributed over multiple datasets. In this paper, we proposed a multi-task semi-supervised model that can leverage information of multiple structures from unannotated datasets and datasets annotated with different structures. A focused alternating training strategy is presented to balance the different tasks. We evaluated the trained model on an external independent CT dataset. The results show that our model significantly outperforms single-task alternatives, improving the mean surface distance from 7.174 mm to 4.196 mm. We also demonstrated that our approach is successful for different network architectures as backbones. | 翻訳日:2021-04-23 14:01:02 公開日:2021-04-22 |
# FID計算におけるBuggy Resizing LibrariesとSprising Subtletiesについて On Buggy Resizing Libraries and Surprising Subtleties in FID Calculation ( http://arxiv.org/abs/2104.11222v1 ) ライセンス: Link先を確認 | Gaurav Parmar, Richard Zhang, Jun-Yan Zhu | (参考訳) 本稿では,Fr'echet Inception Distance(FID)スコアの非一貫性と,異なる画像処理ライブラリ間の不整合な実装に対する感度について検討する。
FIDスコアは生成モデルを評価するために広く使用されるが、各FID実装は異なる低レベル画像処理プロセスを使用する。
一般的なディープラーニングライブラリにおける画像リサイズ機能は、しばしばエイリアスアーティファクトを導入する。
FIDの計算には微妙な選択が必要であり、これらの選択に相補性が欠如しているため、FIDのスコアは大きく異なる可能性がある。
具体的には,(1)どのイメージリサイズライブラリを使うかの選択,(2)どのインタープリケーションカーネルを使うかの選択,(3)画像を表すときに使用するエンコーディングの方法が重要であることを示す。
さらに,fidスコアを正確に計算するための推奨事項として,避けるべき多くの一般的な落とし穴を概説する。
関連コードで提案した推奨事項を簡単に最適化した実装を提供する。 We investigate the sensitivity of the Fr\'echet Inception Distance (FID) score to inconsistent and often incorrect implementations across different image processing libraries. FID score is widely used to evaluate generative models, but each FID implementation uses a different low-level image processing process. Image resizing functions in commonly-used deep learning libraries often introduce aliasing artifacts. We observe that numerous subtle choices need to be made for FID calculation and a lack of consistencies in these choices can lead to vastly different FID scores. In particular, we show that the following choices are significant: (1) selecting what image resizing library to use, (2) choosing what interpolation kernel to use, (3) what encoding to use when representing images. We additionally outline numerous common pitfalls that should be avoided and provide recommendations for computing the FID score accurately. We provide an easy-to-use optimized implementation of our proposed recommendations in the accompanying code. | 翻訳日:2021-04-23 14:00:47 公開日:2021-04-22 |
# 暗黙的モジュール化音声・視覚表現によるポーズ制御型発話顔生成 Pose-Controllable Talking Face Generation by Implicitly Modularized Audio-Visual Representation ( http://arxiv.org/abs/2104.11116v1 ) ライセンス: Link先を確認 | Hang Zhou, Yasheng Sun, Wayne Wu, Chen Change Loy, Xiaogang Wang, Ziwei Liu | (参考訳) 任意の音声駆動の話し顔生成では正確な唇の同期が実現されているが、頭部のポーズを効率的に駆動する方法の問題は残る。
以前の手法では、ランドマークや3dパラメータなどの事前に見積もられた構造情報に依存しており、パーソナライズされたリズミカルな動きを生成する。
しかし、そのような推定情報の極端な条件下での不正確さは、劣化問題を引き起こす。
本稿では,ポーズ制御可能な発話顔を生成するためのクリーンで効果的なフレームワークを提案する。
我々は1枚の写真のみを識別基準として生の顔画像を操作する。
鍵となるのは、暗黙の低次元ポーズコードを考案することで、オーディオ視覚表現をモジュール化することである。
音声内容と頭部ポーズ情報の両方が、結合した非同一性埋め込み空間に配置される。
音声-視覚モダリティ間の内在的同期を学習することで音声コンテンツ情報を定義することができるが、変調畳み込みに基づく再構成フレームワークにおいてポーズコードが相補的に学習されることを示す。
広汎な実験により,他のビデオでポーズを制御可能な唇同期音声を生成する。
さらに,本モデルでは,視野の強靭性や面の正面化など,複数の高度な機能を備えている。
コード、モデル、デモビデオはhttps://hangz-nju-cuhk.github.io/projects/PC-AVSで公開されている。 While accurate lip synchronization has been achieved for arbitrary-subject audio-driven talking face generation, the problem of how to efficiently drive the head pose remains. Previous methods rely on pre-estimated structural information such as landmarks and 3D parameters, aiming to generate personalized rhythmic movements. However, the inaccuracy of such estimated information under extreme conditions would lead to degradation problems. In this paper, we propose a clean yet effective framework to generate pose-controllable talking faces. We operate on raw face images, using only a single photo as an identity reference. The key is to modularize audio-visual representations by devising an implicit low-dimension pose code. Substantially, both speech content and head pose information lie in a joint non-identity embedding space. While speech content information can be defined by learning the intrinsic synchronization between audio-visual modalities, we identify that a pose code will be complementarily learned in a modulated convolution-based reconstruction framework. Extensive experiments show that our method generates accurately lip-synced talking faces whose poses are controllable by other videos. Moreover, our model has multiple advanced capabilities including extreme view robustness and talking face frontalization. Code, models, and demo videos are available at https://hangz-nju-cuhk.github.io/projects/PC-AVS. | 翻訳日:2021-04-23 14:00:33 公開日:2021-04-22 |
# 非基底形式からの意味獲得の確率的限界:将来の言語モデルが理解されるか? Provable Limitations of Acquiring Meaning from Ungrounded Form: What will Future Language Models Understand? ( http://arxiv.org/abs/2104.10809v1 ) ライセンス: Link先を確認 | William Merrill, Yoav Goldberg, Roy Schwartz, Noah A. Smith | (参考訳) 何十億ものトークンで訓練された言語モデルは、最近多くのNLPタスクにおいて前例のない結果をもたらした。
この成功は、原則として、システムが何らかの基盤にアクセスすることなく、生テキストを"理解"できるかどうかという問題を提起する。
我々は、意味を習得する無地システムの能力について、正式に調査する。
分析では,基礎となる意味論に関する間接的な手がかりを提供する原文中の文脈である「集合」の役割に注目した。
アサーションによってシステムが等価性のような意味関係を保存する表現をエミュレートできるかどうか検討する。
言語内のすべての表現が参照的に透明であれば,アサーションによってセマンティックエミュレーションが可能になる。
しかし、変数バインディングのような透明でないパターンを使用する場合、エミュレーションは計算不能な問題となる。
最後に、形式モデルと自然言語の違いを議論し、結果がどのように様相設定や他の意味関係に一般化するかを考察する。
その結果、コードや言語のアサーションは意味表現を完全にエミュレートする十分な信号を提供していないことが示唆された。
我々は、根拠のない言語モデルが基本的に「理解」能力に制限されているように見える方法を定式化する。 Language models trained on billions of tokens have recently led to unprecedented results on many NLP tasks. This success raises the question of whether, in principle, a system can ever "understand" raw text without access to some form of grounding. We formally investigate the abilities of ungrounded systems to acquire meaning. Our analysis focuses on the role of "assertions": contexts within raw text that provide indirect clues about underlying semantics. We study whether assertions enable a system to emulate representations preserving semantic relations like equivalence. We find that assertions enable semantic emulation if all expressions in the language are referentially transparent. However, if the language uses non-transparent patterns like variable binding, we show that emulation can become an uncomputable problem. Finally, we discuss differences between our formal model and natural language, exploring how our results generalize to a modal setting and other semantic relations. Together, our results suggest that assertions in code or language do not provide sufficient signal to fully emulate semantic representations. We formalize ways in which ungrounded language models appear to be fundamentally limited in their ability to "understand". | 翻訳日:2021-04-23 13:59:58 公開日:2021-04-22 |
# マルチインテント発話のファジィ分類 Fuzzy Classification of Multi-intent Utterances ( http://arxiv.org/abs/2104.10830v1 ) ライセンス: Link先を確認 | Geetanjali Bihani and Julia Taylor Rayz | (参考訳) 現在の意図分類手法は、言語固有の曖昧さとそれに対応する曖昧さを無視しながら、自然言語の発話にバイナリーインテントクラスメンバーシップを割り当てている。
本研究では、ファジィ化意図クラス上での次数メンバシップを作成することにより、単一意図と多意図自然言語のあいまいさに対処する手法を提案する。
私たちの知る限りでは、インテントカテゴリのメンバシップに対する自然言語発話のファジィな性質の影響に対処し、定量化するのはこれが初めてです。
さらに,単発発話の小さなデータベースを用いて複数発発話におけるクラスメンバシップを生成することにより,分類モデルの学習における多目的発話データのスパース性を克服する。
異なるファジィメンバシップ生成手法と近似文字列類似度尺度を用いて,タスク指向の2つのダイアログデータセットに対するアプローチを評価した。
その結果、異なる意図の発話と基礎となるデータ分布との語彙的重なりが、意図のメンバーシップの曖昧さに与える影響が明らかになった。
さらに, メンバシップ関数と文字列類似度尺度の組み合わせにより, 難読化メンバシップとバイナリメンバシップを比較することにより, アプローチの正確性を評価する。 Current intent classification approaches assign binary intent class memberships to natural language utterances while disregarding the inherent vagueness in language and the corresponding vagueness in intent class boundaries. In this work, we propose a scheme to address the ambiguity in single-intent as well as multi-intent natural language utterances by creating degree memberships over fuzzified intent classes. To our knowledge, this is the first work to address and quantify the impact of the fuzzy nature of natural language utterances over intent category memberships. Additionally, our approach overcomes the sparsity of multi-intent utterance data to train classification models by using a small database of single intent utterances to generate class memberships over multi-intent utterances. We evaluate our approach over two task-oriented dialog datasets, across different fuzzy membership generation techniques and approximate string similarity measures. Our results reveal the impact of lexical overlap between utterances of different intents, and the underlying data distributions, on the fuzzification of intent memberships. Moreover, we evaluate the accuracy of our approach by comparing the defuzzified memberships to their binary counterparts, across different combinations of membership functions and string similarity measures. | 翻訳日:2021-04-23 13:59:41 公開日:2021-04-22 |
# 低異方性センスリトロフィッティング(LASeR) : 等方性と高密度表現に向けて Low Anisotropy Sense Retrofitting (LASeR) : Towards Isotropic and Sense Enriched Representations ( http://arxiv.org/abs/2104.10833v1 ) ライセンス: Link先を確認 | Geetanjali Bihani and Julia Taylor Rayz | (参考訳) 文脈表現モデルは多数のnlpタスクで大幅に改善されているが、word senseの曖昧さ回避機能は説明されていない。
このギャップに対処するために,事前学習された言語モデルから抽出された文脈表現が,ある単語の異なる感覚に対して識別可能な表現を生成するかどうかを評価する。
我々は表現幾何学を解析し、文脈表現における表現退化問題の存在を指して、深層事前学習言語モデルのほとんどの層が高度に異方性のある表現を生成することを発見した。
異方性を考慮した結果,様々な言語モデルにまたがる感覚学習能力の変動が明らかになった。
最後に,Low Anisotropy Sense RetrofittingのアプローチであるLASeRを提案する。このアプローチは,既製の表現を等方的かつ意味的に有意義に表現し,表現退化問題を後処理のステップとして解決し,深層ニューラルネットワークモデルから抽出した文脈的表現の感覚豊か化を行う。 Contextual word representation models have shown massive improvements on a multitude of NLP tasks, yet their word sense disambiguation capabilities remain poorly explained. To address this gap, we assess whether contextual word representations extracted from deep pretrained language models create distinguishable representations for different senses of a given word. We analyze the representation geometry and find that most layers of deep pretrained language models create highly anisotropic representations, pointing towards the existence of representation degeneration problem in contextual word representations. After accounting for anisotropy, our study further reveals that there is variability in sense learning capabilities across different language models. Finally, we propose LASeR, a 'Low Anisotropy Sense Retrofitting' approach that renders off-the-shelf representations isotropic and semantically more meaningful, resolving the representation degeneration problem as a post-processing step, and conducting sense-enrichment of contextualized representations extracted from deep neural language models. | 翻訳日:2021-04-23 13:59:21 公開日:2021-04-22 |
# ロバスト関係抽出のための強化された注意 Enriched Attention for Robust Relation Extraction ( http://arxiv.org/abs/2104.10899v1 ) ライセンス: Link先を確認 | Heike Adel, Jannik Str\"otgen | (参考訳) ニューラルネットワークの普及に伴い,関係抽出モデルの性能は大幅に向上した。
しかし、神経関係抽出の重要な問題は堅牢性であり、モデルは複数の実体と関係を持つ長い文にうまくスケールしない。
本研究では,この問題を集中型注意機構を用いて解決する。
注意することで、モデルは関係抽出に関連する入力文の一部に集中することができる。
本稿では,関係論とそれらの間の最も短い依存関係経路に関する特徴モデリング知識を用いて,注目機能を強化することを提案する。
したがって、異なる関係論において、モデルは文の異なる部分に注意を払うことができる。
我々のモデルは、2つの人気のあるベンチマークで同等のセットアップを使用して以前の作業よりも優れており、分析によって多くのエンティティを持つ長い文にスケールできることが確認されている。 The performance of relation extraction models has increased considerably with the rise of neural networks. However, a key issue of neural relation extraction is robustness: the models do not scale well to long sentences with multiple entities and relations. In this work, we address this problem with an enriched attention mechanism. Attention allows the model to focus on parts of the input sentence that are relevant to relation extraction. We propose to enrich the attention function with features modeling knowledge about the relation arguments and the shortest dependency path between them. Thus, for different relation arguments, the model can pay attention to different parts of the sentence. Our model outperforms prior work using comparable setups on two popular benchmarks, and our analysis confirms that it indeed scales to long sentences with many entities. | 翻訳日:2021-04-23 13:59:00 公開日:2021-04-22 |
# ゼロショット分類のための属性修飾生成メタ学習 Attribute-Modulated Generative Meta Learning for Zero-Shot Classification ( http://arxiv.org/abs/2104.10857v1 ) ライセンス: Link先を確認 | Yun Li, Zhe Liu, Lina Yao, Xianzhi Wang, Can Wang | (参考訳) ゼロショット学習(ZSL)は、学習中に欠落している、見知らぬクラスから意味不明なクラスに知識を伝達することを目的としている。
zslの有望な戦略は、セマンティクスサイド情報に基づく未認識のクラスの視覚的特徴を合成し、参照されるクラスに対するモデルの固有のバイアスを取り除くためにメタラーニングを組み込むことである。
既存のメタジェネレーティブアプローチはタスク分散間で共有される共通モデルを追い求める;対照的に、タスク特性に適応した生成ネットワークの構築を目指している。
そこで本研究では,ゼロショット学習のためのAttribute-Modulated GenerAtive Meta-modelを提案する。
本モデルは属性対応変調ネットワークと属性対応生成ネットワークから構成される。
未知のクラスが与えられると、変調ネットワークはタスク固有の変換を適用してジェネレータを適応的に変調し、生成ネットワークが高度に多様なタスクに適応できるようにする。
広範に使用されている4つのベンチマークによる実験結果から,AMAZはZSLで3.8%,ZSLでは5.1%,ZSLでは5.1%向上し,本手法の優位性を示した。 Zero-shot learning (ZSL) aims to transfer knowledge from seen classes to semantically related unseen classes, which are absent during training. The promising strategies for ZSL are to synthesize visual features of unseen classes conditioned on semantic side information and to incorporate meta-learning to eliminate the model's inherent bias towards seen classes. Existing meta generative approaches pursue a common model shared across task distributions; in contrast, we aim to construct a generative network adaptive to task characteristics. To this end, we propose the Attribute-Modulated generAtive meta-model for Zero-shot learning (AMAZ). Our model consists of an attribute-aware modulation network and an attribute-augmented generative network. Given unseen classes, the modulation network adaptively modulates the generator by applying task-specific transformations so that the generative network can adapt to highly diverse tasks. Our empirical evaluations on four widely-used benchmarks show that AMAZ improves state-of-the-art methods by 3.8% and 5.1% in ZSL and generalized ZSL settings, respectively, demonstrating the superiority of our method. | 翻訳日:2021-04-23 13:58:01 公開日:2021-04-22 |
# 3次元再構築のための自己最適化ループシフティングとメジャー化 Self-optimizing loop sifting and majorization for 3D reconstruction ( http://arxiv.org/abs/2104.10826v1 ) ライセンス: Link先を確認 | Guoxiang Zhang and YangQuan Chen | (参考訳) visual concurrent localization and mapping (vslam)と3d reconstruction methodは印象的な進歩を遂げている。
これらの方法は、人間の努力なしに、都市や屋内環境などの大規模環境をマッピングできるため、自動運転車や消費者向けロボットアプリケーションにとって非常に有望である。
しかし、ループの検出と最適化に関しては、改善の余地はまだある。
vSLAMシステムは、偽ループの深刻な影響を減らすためにループを非常に保守的に追加する傾向がある。
これらの保守的なチェックは、通常正しいループを拒否し、パフォーマンスを低下させる。
本稿では,ループ検出をふるいにかけ,主要化できるアルゴリズムを提案する。
提案手法は,異なるループの有用性と有効性を,dmp(dung map posterior)メトリックと比較できる。
アルゴリズムは、単一のユーザ定義しきい値なしで各ループの受け入れをテストし、決定する。
したがって、異なるデータ条件に適応する。
提案手法は,センサタイプ(深度やLiDARの読み出し現在まで),ループ検出,最適化など,汎用的で非依存な手法である。
特定のタイプのslamシステムも必要ありません。
したがって、様々なアプリケーションシナリオに適用できる可能性がある。
公開データセットで実験を行う。
その結果,提案手法は最先端手法よりも優れていた。 Visual simultaneous localization and mapping (vSLAM) and 3D reconstruction methods have gone through impressive progress. These methods are very promising for autonomous vehicle and consumer robot applications because they can map large-scale environments such as cities and indoor environments without the need for much human effort. However, when it comes to loop detection and optimization, there is still room for improvement. vSLAM systems tend to add the loops very conservatively to reduce the severe influence of the false loops. These conservative checks usually lead to correct loops rejected, thus decrease performance. In this paper, an algorithm that can sift and majorize loop detections is proposed. Our proposed algorithm can compare the usefulness and effectiveness of different loops with the dense map posterior (DMP) metric. The algorithm tests and decides the acceptance of each loop without a single user-defined threshold. Thus it is adaptive to different data conditions. The proposed method is general and agnostic to sensor type (as long as depth or LiDAR reading presents), loop detection, and optimization methods. Neither does it require a specific type of SLAM system. Thus it has great potential to be applied to various application scenarios. Experiments are conducted on public datasets. Results show that the proposed method outperforms state-of-the-art methods. | 翻訳日:2021-04-23 13:56:52 公開日:2021-04-22 |
# dannet:非教師なし夜間意味セグメンテーションのためのワンステージドメイン適応ネットワーク DANNet: A One-Stage Domain Adaptation Network for Unsupervised Nighttime Semantic Segmentation ( http://arxiv.org/abs/2104.10834v1 ) ライセンス: Link先を確認 | Xinyi Wu, Zhenyao Wu, Hao Guo, Lili Ju, Song Wang | (参考訳) 夜間画像のセマンティクスセグメンテーションは、自動運転における昼間画像と同等に重要な役割を果たすが、前者は、照度が悪いことや激しい人間のアノテーションのため、はるかに困難である。
本稿では,ラベル付き夜間画像データを用いずに,夜間意味セグメンテーションのための新しいドメイン適応ネットワーク(dannet)を提案する。
ラベル付き昼行データセットと、大まかに整列された昼行イメージペアを含むラベルなしデータセットとの敵対的なトレーニングを採用している。
特に、ラベルのない昼夜画像ペアの場合、日中画像の静的オブジェクトカテゴリのピクセルレベルの予測を擬似監督として使用し、対応する夜間画像にセグメント化します。
さらに,昼夜画像ペア間の不一致と日中画像の誤った予測を処理し,小型物体の予測精度を高めるための重み付け戦略を考案した。
提案したDANNetは、夜間セマンティックセグメンテーションのための最初の1段階適応フレームワークであり、別の前処理段階として追加の夜間画像転送モデルを訓練しない。
ダークチューリッヒとナイトタイム駆動データセットに関する広範囲な実験により,夜間意味セグメンテーションにおける最先端の性能が得られた。 Semantic segmentation of nighttime images plays an equally important role as that of daytime images in autonomous driving, but the former is much more challenging due to poor illuminations and arduous human annotations. In this paper, we propose a novel domain adaptation network (DANNet) for nighttime semantic segmentation without using labeled nighttime image data. It employs an adversarial training with a labeled daytime dataset and an unlabeled dataset that contains coarsely aligned day-night image pairs. Specifically, for the unlabeled day-night image pairs, we use the pixel-level predictions of static object categories on a daytime image as a pseudo supervision to segment its counterpart nighttime image. We further design a re-weighting strategy to handle the inaccuracy caused by misalignment between day-night image pairs and wrong predictions of daytime images, as well as boost the prediction accuracy of small objects. The proposed DANNet is the first one stage adaptation framework for nighttime semantic segmentation, which does not train additional day-night image transfer models as a separate pre-processing stage. Extensive experiments on Dark Zurich and Nighttime Driving datasets show that our method achieves state-of-the-art performance for nighttime semantic segmentation. | 翻訳日:2021-04-23 13:56:37 公開日:2021-04-22 |
# ホッケー映像におけるアイスリンクの局在 Localization of Ice-Rink for Broadcast Hockey Videos ( http://arxiv.org/abs/2104.10847v1 ) ライセンス: Link先を確認 | Mehrnaz Fani, Pascale Berunelle Walters, David A. Clausi, John Zelek and Alexander Wong | (参考訳) 本研究では,放送ビデオからホッケーアイスリンクのローカライズを自動で簡易に行うフレームワークを提案する。
まず、ビデオフレームの階層的な分割と、ヒストグラムに基づくしきい値によってビデオショットに分解される。
アイスリンクモデル上でフレームをローカライズするために、ResNet18ベースの回帰器を実装して訓練し、フレーム単位でモデル上の4つの制御ポイントに回帰する。
このことがビデオの投影ジッタリング問題に繋がる。
これを克服するために、推定フェーズでは、所定のビデオショットの全ての連続フレームに対して、アイスリンクモデル上の制御点の軌跡を、達成された座標でハンウィンドウを畳み込むことにより平滑化させる。
最後に、対応する4つの点の対の直線型変換を用いて、滑らかなホモグラフィ行列を算出する。
回帰選手のトレーニングとテストのためのホッケーデータセットが収集されます。
その結果, ホッケーアイスリンクを局所化し, ジッタリング問題に対処するための簡易かつ包括的な手法が, ホモグラフィ推定の精度に影響を与えずに成功できた。 In this work, an automatic and simple framework for hockey ice-rink localization from broadcast videos is introduced. First, video is broken into video-shots by a hierarchical partitioning of the video frames, and thresholding based on their histograms. To localize the frames on the ice-rink model, a ResNet18-based regressor is implemented and trained, which regresses to four control points on the model in a frame-by-frame fashion. This leads to the projection jittering problem in the video. To overcome this, in the inference phase, the trajectory of the control points on the ice-rink model are smoothed, for all the consecutive frames of a given video-shot, by convolving a Hann window with the achieved coordinates. Finally, the smoothed homography matrix is computed by using the direct linear transform on the four pairs of corresponding points. A hockey dataset for training and testing the regressor is gathered. The results show success of this simple and comprehensive procedure for localizing the hockey ice-rink and addressing the problem of jittering without affecting the accuracy of homography estimation. | 翻訳日:2021-04-23 13:56:12 公開日:2021-04-22 |
# 車両再識別のための強固なベースライン A Strong Baseline for Vehicle Re-Identification ( http://arxiv.org/abs/2104.10850v1 ) ライセンス: Link先を確認 | Su V. Huynh, Nam H. Nguyen, Ngoc T. Nguyen, Vinh TQ. Nguyen, Chau Huynh, Chuong Nguyen | (参考訳) 車両再識別(Re-ID)は、異なるカメラで同じ車両を識別することを目的としており、現代の交通管理システムにおいて重要な役割を果たす。
技術的課題は、異なる視点、解像度、閉塞、照明条件において、アルゴリズムが堅牢でなければならないことである。
本稿では、まず、車両のRe-ID性能を妨げる主な要因を解析する。
次に,第5回AIシティチャレンジのデータセットトラック2を対象とし,(1)実データと合成データのドメインギャップを減らし,(2)注目機構付きマルチヘッドを積み重ねることによるネットワーク修正,(3)適応的損失量調整を含むソリューションを提案する。
提案手法は,外部データセットや擬似ラベリングを用いずに,プライベートcityflowテストセット上で61.34%のマップを達成し,veriベンチマークでは87.1%のマップで先行する。
コードはhttps://github.com/cybercore-co-ltd/track2_aicity_2021で入手できる。 Vehicle Re-Identification (Re-ID) aims to identify the same vehicle across different cameras, hence plays an important role in modern traffic management systems. The technical challenges require the algorithms must be robust in different views, resolution, occlusion and illumination conditions. In this paper, we first analyze the main factors hindering the Vehicle Re-ID performance. We then present our solutions, specifically targeting the dataset Track 2 of the 5th AI City Challenge, including (1) reducing the domain gap between real and synthetic data, (2) network modification by stacking multi heads with attention mechanism, (3) adaptive loss weight adjustment. Our method achieves 61.34% mAP on the private CityFlow testset without using external dataset or pseudo labeling, and outperforms all previous works at 87.1% mAP on the Veri benchmark. The code is available at https://github.com/cybercore-co-ltd/track2_aicity_2021. | 翻訳日:2021-04-23 13:55:52 公開日:2021-04-22 |
# 対人パッチ分析と群衆カウントに対する認定防御に向けて Towards Adversarial Patch Analysis and Certified Defense against Crowd Counting ( http://arxiv.org/abs/2104.10868v1 ) ライセンス: Link先を確認 | Qiming Wu, Zhikang Zou, Pan Zhou, Xiaoqing Ye, Binghui Wang, Ang Li | (参考訳) 群衆カウントは、安全クリティカルな監視システムの重要性から、多くの注目を集めている。
特に、ディープニューラルネットワーク(DNN)手法は、群衆カウントミッションにおける推定誤差を著しく削減している。
近年の研究では、DNNは敵対的攻撃に弱いことが示されている。
そこで本研究では,群集計数モデルのロバスト性を体系的に評価するために,apam(adversarial patch attack with momentum)と呼ばれるロバストな攻撃戦略を提案する。
特に,入力画像の極端に高密度な背景情報を利用して,一連の変換(補間,回転など)を通じて頑健な敵パッチを生成する。
我々は,画像画素の6\%未満を摂動させることで,デジタルおよび物理的に群衆カウントシステムの性能を著しく低下させることを観察した。
群集数モデルの対向ロバスト性を高めるために, 適応的トレーニング(ADT)よりも十分な回帰モデルに基づくRandomized Ablation (RA)を提案する(RAの平均絶対誤差は, クリーンサンプルではADTより5低く, 逆例ではADTより30低い)。
5つの群集カウントモデルに対する実験により,提案手法の有効性と一般性を示した。
コードは \url{https://github.com/harrywuhust2022/adv-crowd- analysis} で入手できる。 Crowd counting has drawn much attention due to its importance in safety-critical surveillance systems. Especially, deep neural network (DNN) methods have significantly reduced estimation errors for crowd counting missions. Recent studies have demonstrated that DNNs are vulnerable to adversarial attacks, i.e., normal images with human-imperceptible perturbations could mislead DNNs to make false predictions. In this work, we propose a robust attack strategy called Adversarial Patch Attack with Momentum (APAM) to systematically evaluate the robustness of crowd counting models, where the attacker's goal is to create an adversarial perturbation that severely degrades their performances, thus leading to public safety accidents (e.g., stampede accidents). Especially, the proposed attack leverages the extreme-density background information of input images to generate robust adversarial patches via a series of transformations (e.g., interpolation, rotation, etc.). We observe that by perturbing less than 6\% of image pixels, our attacks severely degrade the performance of crowd counting systems, both digitally and physically. To better enhance the adversarial robustness of crowd counting models, we propose the first regression model-based Randomized Ablation (RA), which is more sufficient than Adversarial Training (ADT) (Mean Absolute Error of RA is 5 lower than ADT on clean samples and 30 lower than ADT on adversarial examples). Extensive experiments on five crowd counting models demonstrate the effectiveness and generality of the proposed method. Code is available at \url{https://github.com/harrywuhust2022/Adv-Crowd-analysis}. | 翻訳日:2021-04-23 13:55:35 公開日:2021-04-22 |
# 自動カメラキャリブレーションによる大規模展開のためのコンピュータビジョンに基づくソーシャルディスタンス監視ソリューション Computer Vision-based Social Distancing Surveillance Solution with Optional Automated Camera Calibration for Large Scale Deployment ( http://arxiv.org/abs/2104.10891v1 ) ライセンス: Link先を確認 | Sreetama Das (1), Anirban Nag (1), Dhruba Adhikary (1), Ramswaroop Jeevan Ram (1), Aravind BR (1), Sujit Kumar Ojha (1), Guruprasad M Hegde (2) ((1) Engineering Data Sciences, (2) Research and Technology Centre, Robert Bosch Engineering and Business Solutions Private Limited, Koramangala, Bangalore, India) | (参考訳) 新型コロナウイルスの感染拡大でウイルス感染の連鎖を断ち切る最も効果的な手段の一つとして、社会的距離が示唆されている。
本稿では,ソーシャルディスタンシングの規範に準拠するための,コンピュータビジョンに基づくAI支援ソリューションについて述べる。
ソリューションは、人を検出し、追跡し、距離違反を特定するモジュールで構成される。
ツールベースのモードか自動カメラキャリブレーションモードかを選択できる柔軟性を提供し、後者は大規模なデプロイメントに適している。
本稿では,ソーシャルディスタンシング違反に関連するリスクを評価するための異なる指標と,過渡的違反と持続的違反の区別方法について議論する。
提案するソリューションは,異なるテストシナリオで十分に動作し,リアルタイム速度でビデオフィードを処理し,検出された人の顔をぼやけ,配置に最適なデータプライバシ規制に対処します。 Social distancing has been suggested as one of the most effective measures to break the chain of viral transmission in the current COVID-19 pandemic. We herein describe a computer vision-based AI-assisted solution to aid compliance with social distancing norms. The solution consists of modules to detect and track people and to identify distance violations. It provides the flexibility to choose between a tool-based mode or an automated mode of camera calibration, making the latter suitable for large-scale deployments. In this paper, we discuss different metrics to assess the risk associated with social distancing violations and how we can differentiate between transient or persistent violations. Our proposed solution performs satisfactorily under different test scenarios, processes video feed at real-time speed as well as addresses data privacy regulations by blurring faces of detected people, making it ideal for deployments. | 翻訳日:2021-04-23 13:54:41 公開日:2021-04-22 |
# 意味的不正確なデータからの自己指導型学習 Self-Supervised Learning from Semantically Imprecise Data ( http://arxiv.org/abs/2104.10901v1 ) ライセンス: Link先を確認 | Clemens-Alexander Brust, Bj\"orn Barz, Joachim Denzler | (参考訳) アニマル"や"バード"といった不正確なラベルから学習するが、テスト時に"スノーバンティング"のような正確な予測を行うことは、専門的にラベル付けされたトレーニングデータが少ない場合に重要な能力である。
ボランティアによる貢献やウェブクローリングの結果には精度がないが、それでも価値がある。
そして重要なことは、これらの弱いラベル付けされた例は、高品質のbspokeトレーニングデータよりも低コストで利用できる。
この課題に対処する手法であるCHILLAXは階層型分類器を利用して不正確なラベルから学習する。
しかし、2つの大きな制限がある。
第一に、階層の根元でラベルのない実例、例えば、効果的に学習することはできない。
「オブジェクト」。
第二に、正確なラベルへのアノテーションの補間はテスト時にのみ行われ、自信のある補間がすでにトレーニングデータとして使用できる。
本研究では,制約付き外挿を用いた自己教師型スキームでCHILLAXを拡張し,擬似ラベルを生成する。
これは第2の懸念に対処し、第1の問題を解決し、CHILLAXよりもより弱い監督要件を可能にします。
提案手法を実証的に評価した結果,CHILLAXよりも0.84~1.19パーセントの精度向上が可能であり,長期トレーニングなどの負の結果を伴わないドロップイン代替品として適していることがわかった。 Learning from imprecise labels such as "animal" or "bird", but making precise predictions like "snow bunting" at test time is an important capability when expertly labeled training data is scarce. Contributions by volunteers or results of web crawling lack precision in this manner, but are still valuable. And crucially, these weakly labeled examples are available in larger quantities for lower cost than high-quality bespoke training data. CHILLAX, a recently proposed method to tackle this task, leverages a hierarchical classifier to learn from imprecise labels. However, it has two major limitations. First, it is not capable of learning from effectively unlabeled examples at the root of the hierarchy, e.g. "object". Second, an extrapolation of annotations to precise labels is only performed at test time, where confident extrapolations could be already used as training data. In this work, we extend CHILLAX with a self-supervised scheme using constrained extrapolation to generate pseudo-labels. This addresses the second concern, which in turn solves the first problem, enabling an even weaker supervision requirement than CHILLAX. We evaluate our approach empirically and show that our method allows for a consistent accuracy improvement of 0.84 to 1.19 percent points over CHILLAX and is suitable as a drop-in replacement without any negative consequences such as longer training times. | 翻訳日:2021-04-23 13:54:22 公開日:2021-04-22 |
# 接触型スポーツにおけるタックル障害リスク自動評価 -ラグビーユニオンの例- Automated Tackle Injury Risk Assessment in Contact-Based Sports -- A Rugby Union Example ( http://arxiv.org/abs/2104.10916v1 ) ライセンス: Link先を確認 | Zubair Martin, Amir Patel and Sharief Hendricks | (参考訳) タックル・コリシオン・ベースのスポーツにおけるビデオ分析は非常に主観的であり、特に時間的制約下で人間の観察に固有のバイアスにさらされている。
タックル・コリジョンに基づくスポーツにおけるマッチング分析の制限は、コンピュータビジョン応用の機会と見なすことができる。
試合中の選手の動きや動作を映像を用いて客観的に追跡し, 検出し, 認識すると同時に, 負傷経験やスキル実行の理解を深めることで, 怪我の発生状況の把握, デイケガ管理の補助, 審判主観性の向上が期待できる。
本稿では,ラグビーユニオンの試合におけるゲーム内タックルリスクを客観的に評価するシステムを提案する。
まず、ボール検出モデルはYou Only Look Once (YOLO)フレームワークを使用してトレーニングされ、これらの検出はKalman Filter (KF)によって追跡される。
その後、別のYOLOモデルを用いてタックルセグメント内の人/プレイヤーを検出し、ボールキャリアとタックルを識別する。
その後,openposeを用いてボールキャリアとタックルの姿勢を判定し,タックルのリスク評価に相対的な姿勢を用いる。
ラグビータックルを多種多様なコレクションでテストし,62.50%の精度で評価を行った。
これらの結果は、タックルコンタクトベースのスポーツの審判がより主観的な決定を下し、最終的にこれらのスポーツをより安全にすることを可能にする。 Video analysis in tackle-collision based sports is highly subjective and exposed to bias, which is inherent in human observation, especially under time constraints. This limitation of match analysis in tackle-collision based sports can be seen as an opportunity for computer vision applications. Objectively tracking, detecting and recognising an athlete's movements and actions during match play from a distance using video, along with our improved understanding of injury aetiology and skill execution will enhance our understanding how injury occurs, assist match day injury management, reduce referee subjectivity. In this paper, we present a system of objectively evaluating in-game tackle risk in rugby union matches. First, a ball detection model is trained using the You Only Look Once (YOLO) framework, these detections are then tracked by a Kalman Filter (KF). Following this, a separate YOLO model is used to detect persons/players within a tackle segment and then the ball-carrier and tackler are identified. Subsequently, we utilize OpenPose to determine the pose of ball-carrier and tackle, the relative pose of these is then used to evaluate the risk of the tackle. We tested the system on a diverse collection of rugby tackles and achieved an evaluation accuracy of 62.50%. These results will enable referees in tackle-contact based sports to make more subjective decisions, ultimately making these sports safer. | 翻訳日:2021-04-23 13:53:58 公開日:2021-04-22 |
# vm-modnet:自律走行のための移動物体検出 VM-MODNet: Vehicle Motion aware Moving Object Detection for Autonomous Driving ( http://arxiv.org/abs/2104.10985v1 ) ライセンス: Link先を確認 | Hazem Rashed, Ahmad El Sallab and Senthil Yogamani | (参考訳) 移動物体検出(MOD)は、自走車周辺の移動エージェントを安全な軌道計画のために正確に検出する必要があるため、自律走行において重要な課題である。
また、動きの手がかりに基づく物体の外観非依存検出を可能にする。
運動パララックスの曖昧さのような幾何学的な課題があり、難しい問題となっている。
本研究では,車両の運動情報を活用し,それをモデルに供給し,エゴモーションに基づく適応機構を実現することを目的とする。
モチベーションは、モデルが暗黙的にエゴモーション補償を実行し、パフォーマンスを改善することである。
我々は、6自由度車両の動きをCNNモデルへの入力として供給できる画素ワイドテンソルに変換する。
車両運動テンソル(VMT)を用いたモデルでは,ベースラインアーキテクチャよりもmIoUが5.6%向上した。
また,一般のKITTI_MoSeg_Extendedデータセットにおいても,LiDARや追加入力フレームを用いた手法と比較して,最先端の処理結果が得られる。
我々のモデルは軽量で、TitanX GPU上で85fpsで動作する。
質的な結果はhttps://youtu.be/ezbfjti-ktkで提供される。 Moving object Detection (MOD) is a critical task in autonomous driving as moving agents around the ego-vehicle need to be accurately detected for safe trajectory planning. It also enables appearance agnostic detection of objects based on motion cues. There are geometric challenges like motion-parallax ambiguity which makes it a difficult problem. In this work, we aim to leverage the vehicle motion information and feed it into the model to have an adaptation mechanism based on ego-motion. The motivation is to enable the model to implicitly perform ego-motion compensation to improve performance. We convert the six degrees of freedom vehicle motion into a pixel-wise tensor which can be fed as input to the CNN model. The proposed model using Vehicle Motion Tensor (VMT) achieves an absolute improvement of 5.6% in mIoU over the baseline architecture. We also achieve state-of-the-art results on the public KITTI_MoSeg_Extended dataset even compared to methods which make use of LiDAR and additional input frames. Our model is also lightweight and runs at 85 fps on a TitanX GPU. Qualitative results are provided in https://youtu.be/ezbfjti-kTk. | 翻訳日:2021-04-23 13:53:31 公開日:2021-04-22 |
# LiDAR Bird's Eye Viewにおけるシミュレーション・トゥ・リアル領域シフト低減のためのサイクル・セマンティック整合性ドメイン適応 Cycle and Semantic Consistent Adversarial Domain Adaptation for Reducing Simulation-to-Real Domain Shift in LiDAR Bird's Eye View ( http://arxiv.org/abs/2104.11021v1 ) ライセンス: Link先を確認 | Alejandro Barrera, Jorge Beltr\'an, Carlos Guindel, Jose Antonio Iglesias, Fernando Garc\'ia | (参考訳) LiDAR情報に基づく物体検出手法の性能は、通常特定のレーザー装置に限られるトレーニングデータの可用性に大きく影響を受ける。
結果として、センサー仕様と駆動シナリオの両方をアドホックに生成できるため、ニューラルネットワークモデルをトレーニングするときに合成データの使用が普及している。
しかし、現在のシミュレータは実際のLiDAR操作を完全に模倣できないため、仮想環境と実環境のギャップを埋めることは依然としてオープンな課題である。
この問題に対処するために、通常、ドメイン適応戦略を適用し、より小さな道路エージェントに失敗しながら、レンジビュー(RV)およびバードアイビュー(BEV)プロジェクションに適用した場合、車両検出に顕著な結果が得られる。
本稿では,ドメイン適応プロセス中に関心のある小物体の情報を保存するために,事前意味分類を用いたサイクガンに基づくbevドメイン適応手法を提案する。
生成したBEVの品質は,KITTI 3D Object Detection Benchmarkの最先端3Dオブジェクト検出フレームワークを用いて評価されている。
その結果,提案手法は既存手法よりも優れていることがわかった。 The performance of object detection methods based on LiDAR information is heavily impacted by the availability of training data, usually limited to certain laser devices. As a result, the use of synthetic data is becoming popular when training neural network models, as both sensor specifications and driving scenarios can be generated ad-hoc. However, bridging the gap between virtual and real environments is still an open challenge, as current simulators cannot completely mimic real LiDAR operation. To tackle this issue, domain adaptation strategies are usually applied, obtaining remarkable results on vehicle detection when applied to range view (RV) and bird's eye view (BEV) projections while failing for smaller road agents. In this paper, we present a BEV domain adaptation method based on CycleGAN that uses prior semantic classification in order to preserve the information of small objects of interest during the domain adaptation process. The quality of the generated BEVs has been evaluated using a state-of-the-art 3D object detection framework at KITTI 3D Object Detection Benchmark. The obtained results show the advantages of the proposed method over the existing alternatives. | 翻訳日:2021-04-23 13:53:17 公開日:2021-04-22 |
# コンセンサス規則化と事前誘導によるコンクリート骨材の半監督セグメンテーション Semi-Supervised Segmentation of Concrete Aggregate Using Consensus Regularisation and Prior Guidance ( http://arxiv.org/abs/2104.11028v1 ) ライセンス: Link先を確認 | Max Coenen, Tobias Schack, Dries Beyer, Christian Heipke, Michael Haist | (参考訳) 一貫性トレーニングに基づくセグメンテーションのための半教師付きフレームワークは,非ラベルデータから利益を得るために,純粋に教師付きセグメンテーション学習の性能を著しく向上させる強力なツールであることが証明されている。
しかし、一貫性トレーニングの背景にあるコンセンサス原理には、少なくとも1つの欠点がある。
標準一貫性トレーニングの限界を克服するために,先行知識に基づく追加の損失を導入する,意味セグメンテーションのための新しい半教師付きフレームワークを提案する。
具体的には,共有エンコーダと主デコーダからなる軽量アーキテクチャを提案する。
コンセンサストレーニングに基づく非ラベルデータを活用するために,補助デコーダを追加ブランチとして追加し,クラス分布やオートエンコーダの正規化に関する事前情報から得られた制約を追加する。
本稿では,提案手法の有効性を実証し,純粋に教師付きセグメンテーションと標準整合性トレーニングにより得られたセグメンテーション結果より優れていることを示す。 In order to leverage and profit from unlabelled data, semi-supervised frameworks for semantic segmentation based on consistency training have been proven to be powerful tools to significantly improve the performance of purely supervised segmentation learning. However, the consensus principle behind consistency training has at least one drawback, which we identify in this paper: imbalanced label distributions within the data. To overcome the limitations of standard consistency training, we propose a novel semi-supervised framework for semantic segmentation, introducing additional losses based on prior knowledge. Specifically, we propose a light-weight architecture consisting of a shared encoder and a main decoder, which is trained in a supervised manner. An auxiliary decoder is added as additional branch in order to make use of unlabelled data based on consensus training, and we add additional constraints derived from prior information on the class distribution and on auto-encoder regularisation. Experiments performed on our "concrete aggregate dataset" presented in this paper demonstrate the effectiveness of the proposed approach, outperforming the segmentation results achieved by purely supervised segmentation and standard consistency training. | 翻訳日:2021-04-23 13:52:59 公開日:2021-04-22 |
# Patch-Wise Contrastive Learningによるセマンティックセグメンテーションのためのドメイン適応 Domain Adaptation for Semantic Segmentation via Patch-Wise Contrastive Learning ( http://arxiv.org/abs/2104.11056v1 ) ライセンス: Link先を確認 | Weizhe Liu, David Ferstl, Samuel Schulter, Lukas Zebedin, Pascal Fua, Christian Leistner | (参考訳) セマンティクスセグメンテーションのための非教師なしおよび半教師なし領域適応に対する新しいアプローチを提案する。
機能アライメントのために敵意学習に依存する多くの以前の方法とは異なり、我々はコントラスト学習を利用してドメイン間の構造的に類似したラベルパッチの機能を調整することによってドメインギャップを埋める。
その結果、ネットワークはトレーニングが容易になり、より良いパフォーマンスを提供できる。
提案手法は,2つの難解な領域適応セグメンテーションタスク,特に少数の対象ドメインアノテーションにおいて,最先端の教師なしおよび半教師なしメソッドを一貫して上回っている。
ドメイン適応性の弱いものに自然に拡張することも可能で、わずかな精度低下で最大75%のアノテーションコストを節約できる。 We introduce a novel approach to unsupervised and semi-supervised domain adaptation for semantic segmentation. Unlike many earlier methods that rely on adversarial learning for feature alignment, we leverage contrastive learning to bridge the domain gap by aligning the features of structurally similar label patches across domains. As a result, the networks are easier to train and deliver better performance. Our approach consistently outperforms state-of-the-art unsupervised and semi-supervised methods on two challenging domain adaptive segmentation tasks, particularly with a small number of target domain annotations. It can also be naturally extended to weakly-supervised domain adaptation, where only a minor drop in accuracy can save up to 75% of annotation cost. | 翻訳日:2021-04-23 13:52:38 公開日:2021-04-22 |
# 長期網膜疾患認識のためのリレーショナルサブセット知識蒸留 Relational Subsets Knowledge Distillation for Long-tailed Retinal Diseases Recognition ( http://arxiv.org/abs/2104.11057v1 ) ライセンス: Link先を確認 | Lie Ju, Xin Wang, Lin Wang, Tongliang Liu, Xin Zhao, Tom Drummond, Dwarikanath Mahapatra, Zongyuan Ge | (参考訳) 現実の世界では、医学データセットは長い尾を持つデータ分布を示すことが多く(一部のクラスはデータの大半を占めるが、ほとんどのクラスはサンプルをほとんど持たない)、これは挑戦的な不均衡学習シナリオをもたらす。
例えば、40種類以上の網膜疾患が様々な病原性を持つと推定されているが、30以上の条件を持つ患者は、世界的な患者コホートから非常に稀であり、ディープラーニングベースのスクリーニングモデルに典型的な長い尾の学習問題をもたらす。
本研究では,長期化データを,領域や表現型情報といった事前知識に基づいて複数のクラスサブセットに分割することで,クラスサブセット学習を提案する。
サブセット固有の知識を学ぶことに集中するようにモデルを強制する。
より具体的には、固定された網膜領域に存在する関係クラスがあるが、多数派と少数派の両方で共通の病理学的特徴が観察されている。
これらのサブセットが教師モデルを学ぶことにより、複数の教師モデルを重み付き知識蒸留損失を伴う統一モデルに蒸留することができる。
提案手法は長期網膜疾患認識タスクに有効であることが判明した。
2つの異なるデータセットにおける実験結果から,本手法は柔軟であり,多くの最先端技術に容易に接続でき,大幅な改善が得られている。 In the real world, medical datasets often exhibit a long-tailed data distribution (i.e., a few classes occupy most of the data, while most classes have rarely few samples), which results in a challenging imbalance learning scenario. For example, there are estimated more than 40 different kinds of retinal diseases with variable morbidity, however with more than 30+ conditions are very rare from the global patient cohorts, which results in a typical long-tailed learning problem for deep learning-based screening models. In this study, we propose class subset learning by dividing the long-tailed data into multiple class subsets according to prior knowledge, such as regions and phenotype information. It enforces the model to focus on learning the subset-specific knowledge. More specifically, there are some relational classes that reside in the fixed retinal regions, or some common pathological features are observed in both the majority and minority conditions. With those subsets learnt teacher models, then we are able to distill the multiple teacher models into a unified model with weighted knowledge distillation loss. The proposed framework proved to be effective for the long-tailed retinal diseases recognition task. The experimental results on two different datasets demonstrate that our method is flexible and can be easily plugged into many other state-of-the-art techniques with significant improvements. | 翻訳日:2021-04-23 13:52:22 公開日:2021-04-22 |
# Sketch-QNet:カラースケッチに基づく画像検索のための四重項ConvNet Sketch-QNet: A Quadruplet ConvNet for Color Sketch-based Image Retrieval ( http://arxiv.org/abs/2104.11130v1 ) ライセンス: Link先を確認 | Anibal Fuentes and Jose M. Saavedra | (参考訳) 三重項損失のあるシアムネットワークに基づくアーキテクチャは、画像ベース類似性探索問題において優れた性能を示した。
このアプローチは、正(関連)項目と負(関連)項目の区別を試みる。
しかし、致命的な弱点がある。
クエリが与えられた場合、特定のクエリと異なる色やテクスチャを持つ同じタイプのアイテムなど、弱い関連項目を判別することはできず、多くの現実世界の検索アプリケーションにとって深刻な制限となる可能性がある。
そこで本研究では,上記の弱点を克服する四重極系アーキテクチャを提案する。
さらに、カラースケッチに基づく画像検索(CSBIR)問題に対処するため、Sketch-QNetと呼ぶこの四重極ネットワークのインスタンスを新たに実現した。 Architectures based on siamese networks with triplet loss have shown outstanding performance on the image-based similarity search problem. This approach attempts to discriminate between positive (relevant) and negative (irrelevant) items. However, it undergoes a critical weakness. Given a query, it cannot discriminate weakly relevant items, for instance, items of the same type but different color or texture as the given query, which could be a serious limitation for many real-world search applications. Therefore, in this work, we present a quadruplet-based architecture that overcomes the aforementioned weakness. Moreover, we present an instance of this quadruplet network, which we call Sketch-QNet, to deal with the color sketch-based image retrieval (CSBIR) problem, achieving new state-of-the-art results. | 翻訳日:2021-04-23 13:52:02 公開日:2021-04-22 |
# 適応的・効率的・制御可能な計算のための不均一グリッド畳み込み Heterogeneous Grid Convolution for Adaptive, Efficient, and Controllable Computation ( http://arxiv.org/abs/2104.11176v1 ) ライセンス: Link先を確認 | Ryuhei Hamaguchi, Yasutaka Furukawa, Masaki Onishi, Ken Sakurada | (参考訳) 本稿では,画像コンテンツの多様性を利用して,畳み込みアーキテクチャにおける適応的,効率的,制御可能な計算を可能にする,グラフベースの画像表現を構築する新しい不均質なグリッド畳み込みを提案する。
より具体的には、このアプローチは、微分可能なクラスタリングによって畳み込み層からデータ適応グラフ構造を構築し、特徴をグラフにプールし、新しい方向対応グラフ畳み込みを実行し、畳み込み層に戻す。
開発したモジュールを用いて,既存アーキテクチャの高効率かつ強力な拡張である異種グリッド畳み込みネットワークを提案する。
提案手法は, 4つの画像理解タスク, セマンティックセグメンテーション, オブジェクトの局所化, 道路抽出, 健全な物体検出において評価された。
提案手法は4つの課題のうち3つに有効である。
特に、セマンティクスセグメンテーションのための浮動小数点演算を90%以上削減した強力なベースラインを上回り、道路抽出のための最先端の結果を得る。
コード、モデル、データを共有します。 This paper proposes a novel heterogeneous grid convolution that builds a graph-based image representation by exploiting heterogeneity in the image content, enabling adaptive, efficient, and controllable computations in a convolutional architecture. More concretely, the approach builds a data-adaptive graph structure from a convolutional layer by a differentiable clustering method, pools features to the graph, performs a novel direction-aware graph convolution, and unpool features back to the convolutional layer. By using the developed module, the paper proposes heterogeneous grid convolutional networks, highly efficient yet strong extension of existing architectures. We have evaluated the proposed approach on four image understanding tasks, semantic segmentation, object localization, road extraction, and salient object detection. The proposed method is effective on three of the four tasks. Especially, the method outperforms a strong baseline with more than 90% reduction in floating-point operations for semantic segmentation, and achieves the state-of-the-art result for road extraction. We will share our code, model, and data. | 翻訳日:2021-04-23 13:51:50 公開日:2021-04-22 |
# H2O:初対人対話認識のための2つの手操作物体 H2O: Two Hands Manipulating Objects for First Person Interaction Recognition ( http://arxiv.org/abs/2104.11181v1 ) ライセンス: Link先を確認 | Taein Kwon, Bugra Tekin, Jan Stuhmer, Federica Bogo, Marc Pollefeys | (参考訳) 我々は,両手操作対象のマーカーレス3Dアノテーションを用いた,エゴセントリックな対話認識のための包括的フレームワークを初めて提示する。
そこで本研究では,エゴセントリックな3Dインタラクション認識のための統合データセットを作成する手法を提案する。
本手法は,2つの手の3次元ポーズと操作対象の6次元ポーズのアノテーションと,それぞれのフレームのインタラクションラベルを生成する。
我々のデータセットは、H2O (2 Hands and Objects)と呼ばれ、同期されたマルチビューRGB-D画像、対話ラベル、オブジェクトクラス、左右の手でのグラウンドトルース3Dポーズ、6Dオブジェクトポーズ、グラウンドトルースカメラポーズ、オブジェクトメッシュ、シーンポイントクラウドを提供する。
我々の知る限り、このベンチマークは、左右両手の両方の操作対象のポーズを用いて、一人称行動の研究を可能にし、エゴセントリックな3Dインタラクション認識のための前例のないレベルの詳細を提示する最初のベンチマークである。
さらに,RGB画像から両手の3Dポーズと操作対象の6Dポーズを推定し,対話クラスを予測する手法を提案する。
本手法は,対話を予測するグラフ畳み込みネットワークのトポロジーを学習することにより,手と物体の相互依存性をモデル化する。
本手法は,手動ポーズ推定のための強力なベースラインを確立し,一対一のインタラクション認識のための最先端の精度を実現する。 We present, for the first time, a comprehensive framework for egocentric interaction recognition using markerless 3D annotations of two hands manipulating objects. To this end, we propose a method to create a unified dataset for egocentric 3D interaction recognition. Our method produces annotations of the 3D pose of two hands and the 6D pose of the manipulated objects, along with their interaction labels for each frame. Our dataset, called H2O (2 Hands and Objects), provides synchronized multi-view RGB-D images, interaction labels, object classes, ground-truth 3D poses for left & right hands, 6D object poses, ground-truth camera poses, object meshes and scene point clouds. To the best of our knowledge, this is the first benchmark that enables the study of first-person actions with the use of the pose of both left and right hands manipulating objects and presents an unprecedented level of detail for egocentric 3D interaction recognition. We further propose the first method to predict interaction classes by estimating the 3D pose of two hands and the 6D pose of the manipulated objects, jointly from RGB images. Our method models both inter- and intra-dependencies between both hands and objects by learning the topology of a graph convolutional network that predicts interactions. We show that our method facilitated by this dataset establishes a strong baseline for joint hand-object pose estimation and achieves state-of-the-art accuracy for first person interaction recognition. | 翻訳日:2021-04-23 13:51:30 公開日:2021-04-22 |
# 野生における空中シーン理解:プロトタイプベースのメモリネットワークによるマルチシーン認識 Aerial Scene Understanding in The Wild: Multi-Scene Recognition via Prototype-based Memory Networks ( http://arxiv.org/abs/2104.11200v1 ) ライセンス: Link先を確認 | Yuansheng Hua, Lichao Moua, Jianzhe Lin, Konrad Heidler, Xiao Xiang Zhu | (参考訳) 航空シーン認識は基本的な視覚的課題であり、ここ数年で研究の関心が高まりつつある。
現在の研究のほとんどは、空中画像を1つのシーンレベルラベルに分類する取り組みを主に展開しているが、現実のシナリオでは、1つの画像に複数のシーンが存在することが多い。
そこで本稿では,より実用的で困難な課題である単一画像におけるマルチシーン認識への一歩を踏み出すことを提案する。
また,このようなタスクに対して手動でアノテーションを付与することは,非常に時間と労力がかかることに留意する。
そこで本研究では,複数シーンを一つの画像で認識するためのプロトタイプベースのメモリネットワークを提案する。
提案するネットワークは,1) プロトタイプ学習モジュール,2) プロトタイプ搭載外部メモリ,3) マルチヘッド注意型メモリ検索モジュールの3つの主要コンポーネントから構成される。
より具体的には、まず1シーンの空中画像データセットから各空中シーンのプロトタイプ表現を学習し、それを外部メモリに格納する。
その後、複数シーン画像の検索に関連するシーンプロトタイプを検索して最終予測を行うマルチヘッドアテンションベースのメモリ検索モジュールが考案される。
特に、トレーニング段階では、注釈付きマルチシーン画像の限られた数しか必要としない。
航空シーン認識の進展を促進するため,我々は新しいマルチシーン空中画像(MAI)データセットを作成する。
変種データセット構成の実験結果は,ネットワークの有効性を示す。
データセットとコードは公開されています。 Aerial scene recognition is a fundamental visual task and has attracted an increasing research interest in the last few years. Most of current researches mainly deploy efforts to categorize an aerial image into one scene-level label, while in real-world scenarios, there often exist multiple scenes in a single image. Therefore, in this paper, we propose to take a step forward to a more practical and challenging task, namely multi-scene recognition in single images. Moreover, we note that manually yielding annotations for such a task is extraordinarily time- and labor-consuming. To address this, we propose a prototype-based memory network to recognize multiple scenes in a single image by leveraging massive well-annotated single-scene images. The proposed network consists of three key components: 1) a prototype learning module, 2) a prototype-inhabiting external memory, and 3) a multi-head attention-based memory retrieval module. To be more specific, we first learn the prototype representation of each aerial scene from single-scene aerial image datasets and store it in an external memory. Afterwards, a multi-head attention-based memory retrieval module is devised to retrieve scene prototypes relevant to query multi-scene images for final predictions. Notably, only a limited number of annotated multi-scene images are needed in the training phase. To facilitate the progress of aerial scene recognition, we produce a new multi-scene aerial image (MAI) dataset. Experimental results on variant dataset configurations demonstrate the effectiveness of our network. Our dataset and codes are publicly available. | 翻訳日:2021-04-23 13:51:04 公開日:2021-04-22 |
# 時空間アライメントとアグリゲーションによるDeep Video Matting Deep Video Matting via Spatio-Temporal Alignment and Aggregation ( http://arxiv.org/abs/2104.11208v1 ) ライセンス: Link先を確認 | Yanan Sun, Guanzhi Wang, Qiao Gu, Chi-Keung Tang, Yu-Wing Tai | (参考訳) 自然な画像マッチングの深層学習による顕著な進歩にもかかわらず、時間領域の推論や大規模ビデオマッチングデータセットの欠如による技術的課題から、ビデオマッチングの深層学習に関する代表的な研究はこれまでにない。
本稿では,新しい時空間特徴集約モジュール(st-fam)を用いた深層学習型ビデオマットリングフレームワークを提案する。
光フロー推定はマットング領域では極めて信頼できないため、st-famはネットワークデコーダ内の異なる空間スケールと時間枠にまたがる情報を効果的に調整し集約するように設計されている。
フレーム毎のトリマップアノテーションを排除するため、軽量なインタラクティブなトリマップ伝搬ネットワークも導入されている。
その他のコントリビューションは、定量評価のための基底αマット付き大規模ビデオマッチングデータセットと、質的評価のためのトリマップ付き実世界の高解像度ビデオからなる。
定量的および定性的な実験結果から,本フレームワークは多フレーム時間情報の存在下で,従来のビデオマッチング法や深部画像マッチング法よりも優れていることが示された。 Despite the significant progress made by deep learning in natural image matting, there has been so far no representative work on deep learning for video matting due to the inherent technical challenges in reasoning temporal domain and lack of large-scale video matting datasets. In this paper, we propose a deep learning-based video matting framework which employs a novel and effective spatio-temporal feature aggregation module (ST-FAM). As optical flow estimation can be very unreliable within matting regions, ST-FAM is designed to effectively align and aggregate information across different spatial scales and temporal frames within the network decoder. To eliminate frame-by-frame trimap annotations, a lightweight interactive trimap propagation network is also introduced. The other contribution consists of a large-scale video matting dataset with groundtruth alpha mattes for quantitative evaluation and real-world high-resolution videos with trimaps for qualitative evaluation. Quantitative and qualitative experimental results show that our framework significantly outperforms conventional video matting and deep image matting methods applied to video in presence of multi-frame temporal information. | 翻訳日:2021-04-23 13:50:39 公開日:2021-04-22 |
# Open World Tracking のオープニング Opening up Open-World Tracking ( http://arxiv.org/abs/2104.11221v1 ) ライセンス: Link先を確認 | Yang Liu and Idil Esen Zulfikar and Jonathon Luiten and Achal Dave and Aljo\v{s}a O\v{s}ep and Deva Ramanan and Bastian Leibe and Laura Leal-Taix\'e | (参考訳) 本稿では,Open-World Tracking (OWT)を提案する。
オープンワールドトラッキングは、頻繁に観察されるオブジェクトクラスの事前定義されたクローズドセットに属するオブジェクトクラスを追跡することに焦点を当てた、現在のマルチオブジェクトトラッキングベンチマークやメソッドを超えている。
OWTでは、トレーニング用にラベル付けされていない推論時にオブジェクトに遭遇する、という仮定を緩和しています。
本稿の主な貢献は,OWTタスクの形式化と評価プロトコルとメトリック(Open-World Tracking Accuracy, OWTA)の併用である。
これにより、マルチオブジェクトトラッキングコミュニティで提案されたデザインパターンに従う、いくつかの異なるベースラインを厳密に評価することができます。
さらに,我々のOpen-World Tracking Baselineは,OWT環境では良好に機能する一方で,従来のクローズドワールドベンチマークにおいて,調整やチューニングを伴わずに,ほぼ最先端の結果が得られることを示す。
本論文は,オープンワールドにおける多目的追跡の研究に向けた最初のステップであると考えている。これは,オープンワールドに現れる無限の多様なオブジェクトを理解し,反応し,そこから学ぶ必要がある,未来の知的エージェントにとって重要な課題である。 In this paper, we propose and study Open-World Tracking (OWT). Open-world tracking goes beyond current multi-object tracking benchmarks and methods which focus on tracking object classes that belong to a predefined closed-set of frequently observed object classes. In OWT, we relax this assumption: we may encounter objects at inference time that were not labeled for training. The main contribution of this paper is the formalization of the OWT task, along with an evaluation protocol and metric (Open-World Tracking Accuracy, OWTA), which decomposes into two intuitive terms, one for measuring recall, and another for measuring track association accuracy. This allows us to perform a rigorous evaluation of several different baselines that follow design patterns proposed in the multi-object tracking community. Further we show that our Open-World Tracking Baseline, while performing well in the OWT setting, also achieves near state-of-the-art results on traditional closed-world benchmarks, without any adjustments or tuning. We believe that this paper is an initial step towards studying multi-object tracking in the open world, a task of crucial importance for future intelligent agents that will need to understand, react to, and learn from, an infinite variety of objects that can appear in an open world. | 翻訳日:2021-04-23 13:50:21 公開日:2021-04-22 |
# Pri3D: 3Dは2D表現学習に役立つか? Pri3D: Can 3D Priors Help 2D Representation Learning? ( http://arxiv.org/abs/2104.11225v1 ) ライセンス: Link先を確認 | Ji Hou, Saining Xie, Benjamin Graham, Angela Dai, Matthias Nie{\ss}ner | (参考訳) 3d知覚の最近の進歩は、3d形状やシーンの幾何学的構造を理解することの素晴らしい進歩を示している。
このような幾何学的理解の進歩に触発されて,画像に基づく知覚を幾何学的制約の下で学習した表現で表現することを目指す。
本稿では,マルチビューRGB-Dデータに基づいて,ネットワーク事前学習のためのビュー不変な幾何学的表現を学習する手法を提案する。
本稿では,マルチビュー・インエイジ制約と画像幾何制約を併用したコントラスト学習手法を提案する。
この結果は、セマンティックセグメンテーション、インスタンスセグメンテーション、実世界の屋内データセットにおけるオブジェクト検出といったイメージベースタスクにおける2次元のみの表現学習よりも改善されるだけでなく、低データ構造において大幅な改善をもたらす。
我々は,全データに対するセマンティックセグメンテーションの6.0%,ScanNet上のベースラインに対する20%データに対する11.9%を大幅に改善したことを示す。 Recent advances in 3D perception have shown impressive progress in understanding geometric structures of 3Dshapes and even scenes. Inspired by these advances in geometric understanding, we aim to imbue image-based perception with representations learned under geometric constraints. We introduce an approach to learn view-invariant,geometry-aware representations for network pre-training, based on multi-view RGB-D data, that can then be effectively transferred to downstream 2D tasks. We propose to employ contrastive learning under both multi-view im-age constraints and image-geometry constraints to encode3D priors into learned 2D representations. This results not only in improvement over 2D-only representation learning on the image-based tasks of semantic segmentation, instance segmentation, and object detection on real-world in-door datasets, but moreover, provides significant improvement in the low data regime. We show a significant improvement of 6.0% on semantic segmentation on full data as well as 11.9% on 20% data against baselines on ScanNet. | 翻訳日:2021-04-23 13:49:57 公開日:2021-04-22 |
# InstantNet: 瞬時に切り替え可能なネットワークの自動生成とデプロイ InstantNet: Automated Generation and Deployment of Instantaneously Switchable-Precision Networks ( http://arxiv.org/abs/2104.10853v1 ) ライセンス: Link先を確認 | Yonggan Fu, Zhongzhi Yu, Yongan Zhang, Yifan Jiang, Chaojian Li, Yongyuan Liang, Mingchao Jiang, Zhangyang Wang, Yingyan Lin | (参考訳) ディープニューラルネットワーク(DNN)を搭載したIoT(Internet of Thing)デバイスは,(1)IoTデバイスにおける時間変化リソースに対応する即時精度効率トレードオフ機能を備えたDNNと,(2)異なるデバイス上でのDNNの実行効率を最適化するためのデータフローを備えた,効率的な開発とデプロイを実現するための,自動化ソリューションに対する大きな需要を動機付けている。
そこで本研究では,可変ビット幅で動作する切換え可能精度ネットワークの自動生成と展開を行うInstantNetを提案する。
広範な実験により、提案されたInstantNetは最先端の設計を一貫して上回っていることが示された。 The promise of Deep Neural Network (DNN) powered Internet of Thing (IoT) devices has motivated a tremendous demand for automated solutions to enable fast development and deployment of efficient (1) DNNs equipped with instantaneous accuracy-efficiency trade-off capability to accommodate the time-varying resources at IoT devices and (2) dataflows to optimize DNNs' execution efficiency on different devices. Therefore, we propose InstantNet to automatically generate and deploy instantaneously switchable-precision networks which operate at variable bit-widths. Extensive experiments show that the proposed InstantNet consistently outperforms state-of-the-art designs. | 翻訳日:2021-04-23 13:49:38 公開日:2021-04-22 |
# ガイドオブザーバビリティを用いた強化学習 Reinforcement Learning using Guided Observability ( http://arxiv.org/abs/2104.10986v1 ) ライセンス: Link先を確認 | Stephan Weigand, Pascal Klink, Jan Peters, Joni Pajarinen | (参考訳) 近年のブレークスルーにより、強化学習(RL)は、逐次決定問題に挑戦する際、顕著な性能を示した。
しかし、開放的な疑問は、RLが実世界の多くの問題でよく見られる部分可観測性にどう対処するかである。
改良されたメモリ表現や部分可観測性に関する強い仮定に主眼を置いている現代のRLアプローチとは対照的に,多種多様なRL手法とともに適用可能な単純かつ効率的なアプローチを提案する。
トレーニングプロセス中の完全な可観測性から部分可観測性へのスムーズな移行は、高いパフォーマンスポリシをもたらします。
半可観測型強化学習(po-grl)と呼ばれるこのアプローチは、最終的なポリシーの最適性を損なうことなく、ポリシー最適化中に完全な状態情報を利用することができる。
離散部分観測可能マルコフ決定プロセス (POMDP) のベンチマーク問題と連続部分観測可能 MuJoCo と OpenAI のジムタスクにおける総合的な評価は、PO-GRL が性能を向上させることを示している。
最後に,実バレットWAMロボットのボール・イン・ザ・カップ作業におけるPO-GRLを部分的に観察可能であることを示す。 Due to recent breakthroughs, reinforcement learning (RL) has demonstrated impressive performance in challenging sequential decision-making problems. However, an open question is how to make RL cope with partial observability which is prevalent in many real-world problems. Contrary to contemporary RL approaches, which focus mostly on improved memory representations or strong assumptions about the type of partial observability, we propose a simple but efficient approach that can be applied together with a wide variety of RL methods. Our main insight is that smoothly transitioning from full observability to partial observability during the training process yields a high performance policy. The approach, called partially observable guided reinforcement learning (PO-GRL), allows to utilize full state information during policy optimization without compromising the optimality of the final policy. A comprehensive evaluation in discrete partially observableMarkov decision process (POMDP) benchmark problems and continuous partially observable MuJoCo and OpenAI gym tasks shows that PO-GRL improves performance. Finally, we demonstrate PO-GRL in the ball-in-the-cup task on a real Barrett WAM robot under partial observability. | 翻訳日:2021-04-23 13:49:21 公開日:2021-04-22 |
# 確率的最短経路:ミニマックス,パラメータフリーおよび水平自由回帰に向けて Stochastic Shortest Path: Minimax, Parameter-Free and Towards Horizon-Free Regret ( http://arxiv.org/abs/2104.11186v1 ) ライセンス: Link先を確認 | Jean Tarbouriech, Runlong Zhou, Simon S. Du, Matteo Pirotta, Michal Valko, Alessandro Lazaric | (参考訳) エージェントが目標状態に到達する前に蓄積される期待コストを最小化しようとする確率的短経路(ssp)設定における学習の問題について検討する。
我々は,経験的遷移を慎重に歪め,探索ボーナスで経験的コストを摂動させ,関連する値反復スキームの最適化と収束を両立させる新しいモデルベースアルゴリズムEB-SSPを設計する。
EB-SSP が minimax regret rate $\widetilde{O}(B_{\star} \sqrt{S A K})$, where $K$ is the number of episodes, $S$ is the number of state, $A$ is the number of action and $B_{\star}$ bounds the expected cumulative cost of the optimal policy from any state。
興味深いことに、EB-SSPはパラメータフリーでありながらこの結果を得る、すなわち、任意の状態からの最適ポリシーの期待時間とゴールを束縛する$B_{\star}$や$T_{\star}$の事前知識を必要としない。
さらに、様々なケース(例えば、$T_{\star}$のオーダー精度の推定値が利用可能である場合の正のコストや一般的なコストなど)について、後悔は$T_{\star}$に対する対数依存のみを含むので、有限ホリゾン MDP 設定を超えて、最初の地平面自由な後悔をもたらす。 We study the problem of learning in the stochastic shortest path (SSP) setting, where an agent seeks to minimize the expected cost accumulated before reaching a goal state. We design a novel model-based algorithm EB-SSP that carefully skews the empirical transitions and perturbs the empirical costs with an exploration bonus to guarantee both optimism and convergence of the associated value iteration scheme. We prove that EB-SSP achieves the minimax regret rate $\widetilde{O}(B_{\star} \sqrt{S A K})$, where $K$ is the number of episodes, $S$ is the number of states, $A$ is the number of actions and $B_{\star}$ bounds the expected cumulative cost of the optimal policy from any state, thus closing the gap with the lower bound. Interestingly, EB-SSP obtains this result while being parameter-free, i.e., it does not require any prior knowledge of $B_{\star}$, nor of $T_{\star}$ which bounds the expected time-to-goal of the optimal policy from any state. Furthermore, we illustrate various cases (e.g., positive costs, or general costs when an order-accurate estimate of $T_{\star}$ is available) where the regret only contains a logarithmic dependence on $T_{\star}$, thus yielding the first horizon-free regret bound beyond the finite-horizon MDP setting. | 翻訳日:2021-04-23 13:48:59 公開日:2021-04-22 |
# RNN-Transducer予測ネットワークのテキストオンリー領域適応 Fast Text-Only Domain Adaptation of RNN-Transducer Prediction Network ( http://arxiv.org/abs/2104.11127v1 ) ライセンス: Link先を確認 | Janne Pylkk\"onen (1), Antti Ukkonen (1 and 2), Juho Kilpikoski (1), Samu Tamminen (1), Hannes Heikinheimo (1) ((1) Speechly, (2) Department of Computer Science, University of Helsinki, Finland) | (参考訳) エンドツーエンド音声認識システムの新しいタスクへの適応は困難であることが知られている。
様々な融合法で外部言語モデルを適用するソリューションがいくつか提案されており、おそらくは2パスデコードの組み合わせで提案されている。
また、TSシステムはエンドツーエンドモデルの適応データを生成するために使用されている。
本稿では,少量のテキストデータのみを用いて,RNNトランスデューサモデルを新しいドメインに効果的に適用できることを示す。
予測ネットワークを言語モデルとして解釈するモデル固有の構造を利用することにより、モデルに高速適応を適用することができる。
モデルへの適応は、複雑な復号時間融合と外部言語モデルの必要性を避ける。
適切な正規化を用いることで、予測ネットワークは優れた一般化能力を保ちながら、新しいドメインに適応することができる。
本稿では,複数のasr評価タスクを用いて,対象タスクwerにおいて,この手法が10~45%の相対的な利益をもたらすことを示す。
また,rnn-transducer prediction networkが言語モデルとしてどのように機能するかについても考察した。 Adaption of end-to-end speech recognition systems to new tasks is known to be challenging. A number of solutions have been proposed which apply external language models with various fusion methods, possibly with a combination of two-pass decoding. Also TTS systems have been used to generate adaptation data for the end-to-end models. In this paper we show that RNN-transducer models can be effectively adapted to new domains using only small amounts of textual data. By taking advantage of model's inherent structure, where the prediction network is interpreted as a language model, we can apply fast adaptation to the model. Adapting the model avoids the need for complicated decoding time fusions and external language models. Using appropriate regularization, the prediction network can be adapted to new domains while still retaining good generalization capabilities. We show with multiple ASR evaluation tasks how this method can provide relative gains of 10-45% in target task WER. We also share insights how RNN-transducer prediction network performs as a language model. | 翻訳日:2021-04-23 13:47:55 公開日:2021-04-22 |
# 凸最適化問題の近似勾配へのADMM変換 Converting ADMM to a Proximal Gradient for Convex Optimization Problems ( http://arxiv.org/abs/2104.10911v1 ) ライセンス: Link先を確認 | Ryosuke Shimmura and Joe Suzuki | (参考訳) 機械学習とデータサイエンスでは、問題解決の効率性を考えることが多い。
混合ラッソや凸クラスタリングなどのスパース推定では、近似勾配法あるいは乗算器の交互方向法(ADMM)を適用し、この問題を解決する。
前者では行列分割を含めるのに時間がかかるが、後者ではfista(fast iterative shrinkage-thresholding algorithm)のような効率的な手法が開発されている。
本稿では,admm溶液を近位勾配法に変換する一般的な方法を提案する。
次に, スパース凸クラスタリングやトレンドフィルタリングといったスパース推定問題に適用し, 数値実験により, 効率の面で大きな改善が得られることを示す。 In machine learning and data science, we often consider efficiency for solving problems. In sparse estimation, such as fused lasso and convex clustering, we apply either the proximal gradient method or the alternating direction method of multipliers (ADMM) to solve the problem. It takes time to include matrix division in the former case, while an efficient method such as FISTA (fast iterative shrinkage-thresholding algorithm) has been developed in the latter case. This paper proposes a general method for converting the ADMM solution to the proximal gradient method, assuming that the constraints and objectives are strongly convex. Then, we apply it to sparse estimation problems, such as sparse convex clustering and trend filtering, and we show by numerical experiments that we can obtain a significant improvement in terms of efficiency. | 翻訳日:2021-04-23 13:47:40 公開日:2021-04-22 |
# 変分ベイズ超木 Variational Bayesian Supertrees ( http://arxiv.org/abs/2104.11191v1 ) ライセンス: Link先を確認 | Michael Karcher, Cheng Zhang, and Frederick A Matsen IV | (参考訳) ある分類群の重複部分集合(例)を与えられた。
いずれの分類群についても, 系統樹のトポロジーの後方分布を推定するには, 系統樹のトポロジー全体の後部分布をどう推測すればよいか?
非ベイジアンの場合と同等の問題はかなりの研究を惹きつけたが、ベイジアンの場合はそのに値する注意を引き付けていない。
本稿では,この問題に対する変分ベイズアプローチを開発し,その効果を示す。 Given overlapping subsets of a set of taxa (e.g. species), and posterior distributions on phylogenetic tree topologies for each of these taxon sets, how can we infer a posterior distribution on phylogenetic tree topologies for the entire taxon set? Although the equivalent problem for in the non-Bayesian case has attracted substantial research, the Bayesian case has not attracted the attention it deserves. In this paper we develop a variational Bayes approach to this problem and demonstrate its effectiveness. | 翻訳日:2021-04-23 13:47:26 公開日:2021-04-22 |
# 膜電位と活性化閾値ホメオスタシスによる連続学習と適応 Continuous Learning and Adaptation with Membrane Potential and Activation Threshold Homeostasis ( http://arxiv.org/abs/2104.10851v1 ) ライセンス: Link先を確認 | Alexander Hadjiivanov | (参考訳) ほとんどの古典的な(非スパイク)ニューラルネットワークモデルは、内部ニューロンのダイナミクスを無視し、ニューロンを単純な入力インテグレータとして扱う。
しかし、生体ニューロンは複雑なダイナミクスによって制御される内部状態を持ち、学習や適応、ネットワーク全体の活動や行動において重要な役割を果たす。
本稿では, 生体ニューロンの膜時間定数に類似した単一パラメータを用いて, 細胞内ニューロンの動態を効率的にシミュレートする, 生物学的に誘発されるいくつかのメカニズムを組み合わせた膜電位と活性化閾値ホメオスタシス(MPATH)ニューロンモデルを提案する。
このモデルにより、ニューロンは変動する入力が提示されたときに自動的に活動を調整することで、動的平衡の形式を維持することができる。
MPATHモデルの結果の1つは、神経活動の時間的側面に依存する過程をモデル化するために、繰り返し接続を伴わない時間感覚でニューロンを注入するということである。
実験はモデルが入力に適応し、継続的に学習する能力を示す。 Most classical (non-spiking) neural network models disregard internal neuron dynamics and treat neurons as simple input integrators. However, biological neurons have an internal state governed by complex dynamics that plays a crucial role in learning, adaptation and the overall network activity and behaviour. This paper presents the Membrane Potential and Activation Threshold Homeostasis (MPATH) neuron model, which combines several biologically inspired mechanisms to efficiently simulate internal neuron dynamics with a single parameter analogous to the membrane time constant in biological neurons. The model allows neurons to maintain a form of dynamic equilibrium by automatically regulating their activity when presented with fluctuating input. One consequence of the MPATH model is that it imbues neurons with a sense of time without recurrent connections, paving the way for modelling processes that depend on temporal aspects of neuron activity. Experiments demonstrate the model's ability to adapt to and continually learn from its input. | 翻訳日:2021-04-23 13:45:53 公開日:2021-04-22 |
# 暗画像の深部露光補正のための周波数領域損失関数 Frequency Domain Loss Function for Deep Exposure Correction of Dark Images ( http://arxiv.org/abs/2104.10856v1 ) ライセンス: Link先を確認 | Ojasvi Yadav, Koustav Ghosal, Sebastian Lutz, Aljosa Smolic | (参考訳) 野生の低照度環境において撮影された暗くぼやけた画像の露光補正の問題に対処する。
古典的なイメージデオライジングフィルタは周波数空間でうまく機能するが、閾値の正しい選択、周波数推定などいくつかの要因によって制約される。
一方、従来のディープネットワークは、画像翻訳問題としてこのタスクを定式化することにより、RGB空間のエンドツーエンドで訓練されている。
しかし、これは暗黒画像固有のノイズに明示的な制約を伴わずに行われ、ノイズやぼやけた出力を生成する。
そこで本研究では,DCT/FFTに基づくマルチスケール損失関数を提案する。
私たちの損失関数は、エンドツーエンドの微分可能、スケール非依存、ジェネリックです。つまり、ほとんどの既存のフレームワークでRAWとJPEGの両方のイメージに、追加のオーバーヘッドなしで適用できます。
この損失関数を用いて, 定量的指標と主観的テストを用いて, 最新技術に対する大幅な改善を報告した。 We address the problem of exposure correction of dark, blurry and noisy images captured in low-light conditions in the wild. Classical image-denoising filters work well in the frequency space but are constrained by several factors such as the correct choice of thresholds, frequency estimates etc. On the other hand, traditional deep networks are trained end-to-end in the RGB space by formulating this task as an image-translation problem. However, that is done without any explicit constraints on the inherent noise of the dark images and thus produce noisy and blurry outputs. To this end we propose a DCT/FFT based multi-scale loss function, which when combined with traditional losses, trains a network to translate the important features for visually pleasing output. Our loss function is end-to-end differentiable, scale-agnostic, and generic; i.e., it can be applied to both RAW and JPEG images in most existing frameworks without additional overhead. Using this loss function, we report significant improvements over the state-of-the-art using quantitative metrics and subjective tests. | 翻訳日:2021-04-23 13:45:36 公開日:2021-04-22 |
# 自律走行のための効率的なLiDARオドメトリー Efficient LiDAR Odometry for Autonomous Driving ( http://arxiv.org/abs/2104.10879v1 ) ライセンス: Link先を確認 | Xin Zheng, Jianke Zhu | (参考訳) LiDARオドメトリーは、通常、スキャン登録問題として扱われる自律ナビゲーションの自己局在化とマッピングにおいて重要な役割を担っている。
KITTI odometryベンチマークで有望な性能を達成したが、従来の探索木に基づくアプローチでは、大規模なクラウドを効率的に扱うことが困難である。
近年の球面範囲画像ベース手法は,球面マッピングによる高速近接探索の利点を享受している。
しかし、LiDARビームとほぼ平行な接地点を扱うのはあまり効果的ではない。
これらの問題に対処するために,非球面領域画像と鳥眼視図の両面を活かして,新しい効率的なLiDARオドメトリー手法を提案する。
さらに,局所表面の正規性を頑健に推定する範囲適応法を導入する。
さらに,高速かつメモリ効率のよいモデル更新スキームを提案し,各点と対応する正規値を異なるタイムスタンプで融合する。
我々は,KITTI odometry ベンチマークで広範囲に実験を行い,提案手法が有効であることを示す有望な結果を得た。 LiDAR odometry plays an important role in self-localization and mapping for autonomous navigation, which is usually treated as a scan registration problem. Although having achieved promising performance on KITTI odometry benchmark, the conventional searching tree-based approach still has the difficulty in dealing with the large scale point cloud efficiently. The recent spherical range image-based method enjoys the merits of fast nearest neighbor search by spherical mapping. However, it is not very effective to deal with the ground points nearly parallel to LiDAR beams. To address these issues, we propose a novel efficient LiDAR odometry approach by taking advantage of both non-ground spherical range image and bird's-eye-view map for ground points. Moreover, a range adaptive method is introduced to robustly estimate the local surface normal. Additionally, a very fast and memory-efficient model update scheme is proposed to fuse the points and their corresponding normals at different time-stamps. We have conducted extensive experiments on KITTI odometry benchmark, whose promising results demonstrate that our proposed approach is effective. | 翻訳日:2021-04-23 13:45:17 公開日:2021-04-22 |
# METGAN:光シート顕微鏡におけるTumour InpaintingとModality Synthesis METGAN: Generative Tumour Inpainting and Modality Synthesis in Light Sheet Microscopy ( http://arxiv.org/abs/2104.10993v1 ) ライセンス: Link先を確認 | Izabela Horvath, Johannes C. Paetzold, Oliver Schoppe, Rami Al-Maskari, Ivan Ezhov, Suprosanna Shit, Hongwei Li, Ali Ertuerk, Bjoern H. Menze | (参考訳) 新たなマルチモーダルイメージング手法は、先臨床研究のための超高解像度データセットを生成することができる。
しかし、アノテーションの欠如により、このようなデータ分析にディープラーニングが広く使われるのを防いでいる。
これまでのところ、頻繁なラベルエラーのため、既存の生成モデルではこの問題を緩和できていない。
本稿では,実際の解剖情報を活用し,腫瘍の現実的な画像ラベル対を生成する新しい生成法を提案する。
解剖学的画像とラベルのためのデュアルパス生成器を構築し, 独立して事前学習されたセグメンタによって制約された, サイクル一貫性のある設定で学習する。
生成した画像は,既存の手法に比べて定量的に顕著に改善された。
合成の質を検証するため,合成データを付加したデータセット上でセグメンテーションネットワークを訓練し,ベースライン上のセグメンテーションを大幅に改善した。 Novel multimodal imaging methods are capable of generating extensive, super high resolution datasets for preclinical research. Yet, a massive lack of annotations prevents the broad use of deep learning to analyze such data. So far, existing generative models fail to mitigate this problem because of frequent labeling errors. In this paper, we introduce a novel generative method which leverages real anatomical information to generate realistic image-label pairs of tumours. We construct a dual-pathway generator, for the anatomical image and label, trained in a cycle-consistent setup, constrained by an independent, pretrained segmentor. The generated images yield significant quantitative improvement compared to existing methods. To validate the quality of synthesis, we train segmentation networks on a dataset augmented with the synthetic data, substantially improving the segmentation over baseline. | 翻訳日:2021-04-23 13:45:00 公開日:2021-04-22 |
# ラウンドアラウンドアラウンドアラウンドにおける操作に基づくアンカー軌道仮説 Maneuver-based Anchor Trajectory Hypotheses at Roundabouts ( http://arxiv.org/abs/2104.11180v1 ) ライセンス: Link先を確認 | Mohamed Hasan, Evangelos Paschalidis, Albert Solernou, He Wang, Gustav Markkula and Richard Romano | (参考訳) 周辺車両の将来行動を予測することは、自動運転プラットフォームが他の交通を安全に移動するためには不可欠である。
これは、符号のない交差点を横切るような決定をするときに重要である。
人間の運転データから学習することで、挑戦的なラウンドアバウト環境における車両の動き予測の問題に対処する。
既存の再帰エンコーダデコーダモデルを拡張し、アンカー軌道と組み合わせてラウンドアバウンド上での車両挙動を予測する。
ドライバーの意図は、セマンティック駆動の概念に対応する一連の操作によって符号化される。
したがって,本モデルはラウンドアラウンドアラウンドアラウンドアラウンドにおける可能な結果の空間をカバーする操作特異的アンカートラジェクタ群を用いる。
提案モデルでは,操作固有アンカーに基づいて,予測される将来の軌道上のマルチモーダル分布を出力することができる。
本研究では,公開ラウンドデータセットを用いてモデルを評価し,提案手法を用いたアンカー回帰による予測精度の向上効果を示し,平均rmseを最良ベースラインより28%低減した。
私たちのコードはhttps://github.com/m-hasan-n/roundaboutで利用可能です。 Predicting future behavior of the surrounding vehicles is crucial for self-driving platforms to safely navigate through other traffic. This is critical when making decisions like crossing an unsignalized intersection. We address the problem of vehicle motion prediction in a challenging roundabout environment by learning from human driver data. We extend existing recurrent encoder-decoder models to be advantageously combined with anchor trajectories to predict vehicle behaviors on a roundabout. Drivers' intentions are encoded by a set of maneuvers that correspond to semantic driving concepts. Accordingly, our model employs a set of maneuver-specific anchor trajectories that cover the space of possible outcomes at the roundabout. The proposed model can output a multi-modal distribution over the predicted future trajectories based on the maneuver-specific anchors. We evaluate our model using the public RounD dataset and the experiment results show the effectiveness of the proposed maneuver-based anchor regression in improving prediction accuracy, reducing the average RMSE to 28% less than the best baseline. Our code is available at https://github.com/m-hasan-n/roundabout. | 翻訳日:2021-04-23 13:44:45 公開日:2021-04-22 |
# 3次元誘導によるクロスドメイン・ディスタングル顔操作 Cross-Domain and Disentangled Face Manipulation with 3D Guidance ( http://arxiv.org/abs/2104.11228v1 ) ライセンス: Link先を確認 | Can Wang and Menglei Chai and Mingming He and Dongdong Chen and Jing Liao | (参考訳) 3次元誘導による顔画像操作は,その意味論的理解とユーザフレンドリーな制御可能性から,様々な対話的シナリオに広く適用されている。
しかし、既存の3dモデルに基づく操作方法は、非写実的な絵画や漫画の肖像画、さらには動物など、ドメイン外の顔に直接は適用できない。
この課題を克服するために,人間の3DMMを用いて任意の領域の顔を操作する最初の方法を提案する。
1) 3DMMパラメータから、各意味属性に対する不整合かつ正確な制御を保証する事前訓練されたStyleGAN2の潜伏空間埋め込みへの不整合マッピング、2)ドメインの相違をブリッジし、一貫した潜伏空間埋め込みを強制することによって、人間の3DMMをドメイン外面に適用するクロスドメイン適応、である。
実験と比較により、ポーズ、表情、形状、アルベド、照明といった主要な3次元顔属性を制御可能な様々な顔領域における高品質な意味操作法が優れていることが示された。
さらに,ユーザフレンドリーな制御と即時フィードバックをサポートする直感的な編集インタフェースを開発した。
私たちのプロジェクトページはhttps://cassiepython.github.io/sigasia/cddfm3d.htmlです。 Face image manipulation via three-dimensional guidance has been widely applied in various interactive scenarios due to its semantically-meaningful understanding and user-friendly controllability. However, existing 3D-morphable-model-based manipulation methods are not directly applicable to out-of-domain faces, such as non-photorealistic paintings, cartoon portraits, or even animals, mainly due to the formidable difficulties in building the model for each specific face domain. To overcome this challenge, we propose, as far as we know, the first method to manipulate faces in arbitrary domains using human 3DMM. This is achieved through two major steps: 1) disentangled mapping from 3DMM parameters to the latent space embedding of a pre-trained StyleGAN2 that guarantees disentangled and precise controls for each semantic attribute; and 2) cross-domain adaptation that bridges domain discrepancies and makes human 3DMM applicable to out-of-domain faces by enforcing a consistent latent space embedding. Experiments and comparisons demonstrate the superiority of our high-quality semantic manipulation method on a variety of face domains with all major 3D facial attributes controllable: pose, expression, shape, albedo, and illumination. Moreover, we develop an intuitive editing interface to support user-friendly control and instant feedback. Our project page is https://cassiepython.github.io/sigasia/cddfm3d.html. | 翻訳日:2021-04-23 13:44:28 公開日:2021-04-22 |
# MLを用いたコンパクトモデルによるクロス層信頼性と機能安全評価 Enabling Cross-Layer Reliability and Functional Safety Assessment Through ML-Based Compact Models ( http://arxiv.org/abs/2104.10941v1 ) ライセンス: Link先を確認 | Dan Alexandrescu, Aneesh Balakrishnan, Thomas Lange and Maximilien Glorieux | (参考訳) 典型的な設計フローは階層的であり、標準セルから完全なボードまで、多くの個々の技術要素を組み立てることに依存している。
プロバイダはコンパクトモデルを使用して、製品の簡易なビューをユーザに提供している。
設計者は、より複雑な構造においてより単純な要素をグループ化し、IP機密性やリバースエンジニアリングの可能性といった明らかな問題を伴って、システムの階層構造を通じて、信頼性と機能的安全情報の伝達を管理する必要がある。
本稿では,サブシステム要素の多数の個別モデルを単一のコンパクトモデルに統合し,階層構造に再利用可能な機械学習に基づくアプローチを提案する。
コンパクトモデルは一貫性、正確性、機密性を提供し、技術、ip、コンポーネント、サブシステムまたはシステムプロバイダは、ユーザが安全かつ正確に消費できる高品質の信頼性および機能安全コンパクトモデルを提供することができる。 Typical design flows are hierarchical and rely on assembling many individual technology elements from standard cells to complete boards. Providers use compact models to provide simplified views of their products to their users. Designers group simpler elements in more complex structures and have to manage the corresponding propagation of reliability and functional safety information through the hierarchy of the system, accompanied by the obvious problems of IP confidentiality, possibility of reverse engineering and so on. This paper proposes a machine-learning-based approach to integrate the many individual models of a subsystem's elements in a single compact model that can be re-used and assembled further up in the hierarchy. The compact models provide consistency, accuracy and confidentiality, allowing technology, IP, component, sub-system or system providers to accompany their offering with high-quality reliability and functional safety compact models that can be safely and accurately consumed by their users. | 翻訳日:2021-04-23 13:42:59 公開日:2021-04-22 |
# CryptGPU:GPU上での高速なプライバシ保護機械学習 CryptGPU: Fast Privacy-Preserving Machine Learning on the GPU ( http://arxiv.org/abs/2104.10949v1 ) ライセンス: Link先を確認 | Sijun Tan, Brian Knott, Yuan Tian, and David J. Wu | (参考訳) 我々は、GPU(グラフィック処理ユニット)上のすべての操作を実装するプライバシー保護機械学習システムであるCryptGPUを紹介する。
現代的なディープラーニングの成功においてGPUが重要な役割を果たすのと同じように、スケーラブルなプライバシ保護ディープラーニングを実現する上でも不可欠だ。
本稿では,線形代数のための高最適化cudaカーネルで処理可能な浮動小数点演算に,秘密共有値(離散領域)上の暗号操作をロスレスに埋め込む新しいインタフェースを導入することから始める。
次に,gpu上での線形および非線形操作のプライバシ保護評価を可能にするために,一連の"gpuフレンドリー"暗号プロトコルを識別する。
マイクロベンチマークは、私たちのプライベートGPUベースの畳み込みプロトコルが、類似のCPUベースのプロトコルよりも150倍以上高速であることを示している; ReLUアクティベーション関数のような非線形操作では、GPUベースのプロトコルは、CPUアナログの約10倍高速である。
cryptgpuでは、6000万以上のパラメータを持つ畳み込みニューラルネットワークのプライベート推論とプライベートトレーニングをサポートし、imagenetのような大規模なデータセットも処理します。
従来の最新技術と比較して,大規模モデルやデータセットを考える場合,プロトコルはプライベート推論の2倍から8倍,プライベートトレーニングの6倍から36倍改善されている。
私たちの研究は、高速なプライバシ保存機械学習を実現するために、GPU上でセキュアなマルチパーティ計算(MPC)を実行する可能性を示すだけでなく、GPUのコンピューティング能力を最大限に活用できる新しいMPCプリミティブを設計することの重要性も強調しています。 We introduce CryptGPU, a system for privacy-preserving machine learning that implements all operations on the GPU (graphics processing unit). Just as GPUs played a pivotal role in the success of modern deep learning, they are also essential for realizing scalable privacy-preserving deep learning. In this work, we start by introducing a new interface to losslessly embed cryptographic operations over secret-shared values (in a discrete domain) into floating-point operations that can be processed by highly-optimized CUDA kernels for linear algebra. We then identify a sequence of "GPU-friendly" cryptographic protocols to enable privacy-preserving evaluation of both linear and non-linear operations on the GPU. Our microbenchmarks indicate that our private GPU-based convolution protocol is over 150x faster than the analogous CPU-based protocol; for non-linear operations like the ReLU activation function, our GPU-based protocol is around 10x faster than its CPU analog. With CryptGPU, we support private inference and private training on convolutional neural networks with over 60 million parameters as well as handle large datasets like ImageNet. Compared to the previous state-of-the-art, when considering large models and datasets, our protocols achieve a 2x to 8x improvement in private inference and a 6x to 36x improvement for private training. Our work not only showcases the viability of performing secure multiparty computation (MPC) entirely on the GPU to enable fast privacy-preserving machine learning, but also highlights the importance of designing new MPC primitives that can take full advantage of the GPU's computing capabilities. | 翻訳日:2021-04-23 13:42:43 公開日:2021-04-22 |
# 対向攻撃の性能評価:不一致と解決法 Performance Evaluation of Adversarial Attacks: Discrepancies and Solutions ( http://arxiv.org/abs/2104.11103v1 ) ライセンス: Link先を確認 | Jing Wu, Mingyi Zhou, Ce Zhu, Yipeng Liu, Mehrtash Harandi, Li Li | (参考訳) 近年,機械学習モデルのロバスト性に挑戦する攻撃手法が開発されている。
しかし、主要な評価基準は制限を経験し、異なる設定で結果に相違をもたらすことさえある。
グラデーションベースやクエリベースの攻撃を含む様々な攻撃アルゴリズムを調べることで、偏りのないパフォーマンス評価のための統一標準に関するコンセンサスが欠如していることに気付く。
そこで,本稿では,上記の不一致を効果的に解消するためのPSC(Piece-wise Smpling Curving)ツールキットを提案する。
さらに、PSCツールキットは計算コストと評価効率のバランスをとるオプションを提供する。
実験結果から,pscツールキットは攻撃アルゴリズムの包括的比較を行い,実際の差異を著しく低減した。 Recently, adversarial attack methods have been developed to challenge the robustness of machine learning models. However, mainstream evaluation criteria experience limitations, even yielding discrepancies among results under different settings. By examining various attack algorithms, including gradient-based and query-based attacks, we notice the lack of a consensus on a uniform standard for unbiased performance evaluation. Accordingly, we propose a Piece-wise Sampling Curving (PSC) toolkit to effectively address the aforementioned discrepancy, by generating a comprehensive comparison among adversaries in a given range. In addition, the PSC toolkit offers options for balancing the computational cost and evaluation effectiveness. Experimental results demonstrate our PSC toolkit presents comprehensive comparisons of attack algorithms, significantly reducing discrepancies in practice. | 翻訳日:2021-04-23 13:42:14 公開日:2021-04-22 |
# モノのインターネットにおける異常検出のための効率的なワンクラスSVM An Efficient One-Class SVM for Anomaly Detection in the Internet of Things ( http://arxiv.org/abs/2104.11146v1 ) ライセンス: Link先を確認 | Kun Yang, Samory Kpotufe, Nick Feamster | (参考訳) 安全でないiot(internet of things, モノのインターネット)デバイスは、重要なインフラストラクチャとインターネットに大きな脅威をもたらす。これらのデバイスからの異常な動作の検出は、依然として重要な重要性を持つが、これらのタイプのデバイスに対する高速で効率的で正確な異常検出("ノベルティ検出"とも呼ばれる)は、いまだに解明されていない。
1クラスサポートベクターマシン(ocsvm)は、{normal}データと{novel}データの間の複雑な非線形境界を適合させる柔軟性があるため、機械学習におけるノベルティ検出(または異常検出)のための最先端のアプローチの1つである。
スマートホームや都市、コネクテッドビルディングインフラストラクチャのIoTデバイスは、このような環境で現れるさまざまなデバイス、トラフィックパターン、タイプの異常のために、OCSVMで新規検出を行うための魅力的なユースケースを提供する。
これまでの多くの研究で、OCSVMをIoTの新規検出に適用している。
残念なことに、従来のOCSVMは大きなメモリ要件を導入しており、列車のサイズが大きくなるにつれて予測時に計算コストがかかるため、トレーニングポイントの数に応じてスケールする時間と時間を必要とする。
これらのメモリと計算の制約は、複雑な決定境界に適合する際の正確なモデルを開発するために、大規模なトレーニングセットが通常必要となる実世界のデプロイでは禁止される。
本研究では,これらの手法をクラスタリングとガウス混合モデルと組み合わせることで,検出精度を犠牲にすることなく,様々なIoT環境での予測時間と空間の大幅な高速化を実現することにより,いわゆるNystr\omと(ガウス)SketchingアプローチをOCSVMに拡張する。 Insecure Internet of things (IoT) devices pose significant threats to critical infrastructure and the Internet at large; detecting anomalous behavior from these devices remains of critical importance, but fast, efficient, accurate anomaly detection (also called "novelty detection") for these classes of devices remains elusive. One-Class Support Vector Machines (OCSVM) are one of the state-of-the-art approaches for novelty detection (or anomaly detection) in machine learning, due to their flexibility in fitting complex nonlinear boundaries between {normal} and {novel} data. IoT devices in smart homes and cities and connected building infrastructure present a compelling use case for novelty detection with OCSVM due to the variety of devices, traffic patterns, and types of anomalies that can manifest in such environments. Much previous research has thus applied OCSVM to novelty detection for IoT. Unfortunately, conventional OCSVMs introduce significant memory requirements and are computationally expensive at prediction time as the size of the train set grows, requiring space and time that scales with the number of training points. These memory and computational constraints can be prohibitive in practical, real-world deployments, where large training sets are typically needed to develop accurate models when fitting complex decision boundaries. In this work, we extend so-called Nystr\"om and (Gaussian) Sketching approaches to OCSVM, by combining these methods with clustering and Gaussian mixture models to achieve significant speedups in prediction time and space in various IoT settings, without sacrificing detection accuracy. | 翻訳日:2021-04-23 13:42:02 公開日:2021-04-22 |
# マルチタスク学習によるリセットレス強化学習:人間の介入を伴わないデクサラスマニピュレーション行動の学習 Reset-Free Reinforcement Learning via Multi-Task Learning: Learning Dexterous Manipulation Behaviors without Human Intervention ( http://arxiv.org/abs/2104.11203v1 ) ライセンス: Link先を確認 | Abhishek Gupta, Justin Yu, Tony Z. Zhao, Vikash Kumar, Aaron Rovinsky, Kelvin Xu, Thomas Devlin, Sergey Levine | (参考訳) 強化学習(RL)アルゴリズムは、原則として、試行錯誤によって収集された実世界の大量のデータから学習することで、複雑なロボットスキルを習得することができる。
しかしながら、ほとんどのRLアルゴリズムは、データを収集するために慎重に設計されたセットアップを使用しており、エピソディックなリセットを提供するには人間の監督と介入が必要である。
これは特に、デクスタース操作のようなロボット工学の問題において顕著である。
データ収集をスケーラブルにするためには、明示的な計測や人間の介入なしに自律的に学習できるリセットフリーなアルゴリズムが必要である。
この領域での以前の作業のほとんどは、シングルタスクの学習を扱う。
しかし、私たちはまた、大きなレパートリーのスキルを発揮できるロボットを欲しがるかもしれない。
最初は、この問題を難しくするだけのように思える。
しかし、この研究で重要なことは、適切に選択されたマルチタスクRL設定が、必要最小限の機械で、実際にリセットなし学習の課題を軽減することである。
結果として、マルチタスク問題を解決することは、タスクの異なる組み合わせが他のタスクのリセットを実行するのに役立つため、リセットフリーな問題を解決することができる。
複数のタスクを一緒に学習し、それらを適切にシーケンスすることで、すべてのタスクをリセットフリーで効果的に学習できます。
このようなマルチタスク学習は,より複雑な問題に対して,リセットフリーな学習スキームを効果的にスケールすることができる。
本稿では,リセット不要な学習問題に対処するマルチタスク学習の簡単なスキームを提案し,ハードウェアとシミュレーションの両方において,明示的なリセットを伴わずに複雑な操作タスクを解く学習の有効性を示す。
この研究は、人間の介入なしにRLを用いて現実世界での巧妙な操作行動を学ぶ能力を示す。 Reinforcement Learning (RL) algorithms can in principle acquire complex robotic skills by learning from large amounts of data in the real world, collected via trial and error. However, most RL algorithms use a carefully engineered setup in order to collect data, requiring human supervision and intervention to provide episodic resets. This is particularly evident in challenging robotics problems, such as dexterous manipulation. To make data collection scalable, such applications require reset-free algorithms that are able to learn autonomously, without explicit instrumentation or human intervention. Most prior work in this area handles single-task learning. However, we might also want robots that can perform large repertoires of skills. At first, this would appear to only make the problem harder. However, the key observation we make in this work is that an appropriately chosen multi-task RL setting actually alleviates the reset-free learning challenge, with minimal additional machinery required. In effect, solving a multi-task problem can directly solve the reset-free problem since different combinations of tasks can serve to perform resets for other tasks. By learning multiple tasks together and appropriately sequencing them, we can effectively learn all of the tasks together reset-free. This type of multi-task learning can effectively scale reset-free learning schemes to much more complex problems, as we demonstrate in our experiments. We propose a simple scheme for multi-task learning that tackles the reset-free learning problem, and show its effectiveness at learning to solve complex dexterous manipulation tasks in both hardware and simulation without any explicit resets. This work shows the ability to learn dexterous manipulation behaviors in the real world with RL without any human intervention. | 翻訳日:2021-04-23 13:41:32 公開日:2021-04-22 |
# 部分スペックル走査による圧縮型レンズレス内視鏡 Compressive lensless endoscopy with partial speckle scanning ( http://arxiv.org/abs/2104.10959v1 ) ライセンス: Link先を確認 | St\'ephanie Gu\'erit, Siddharth Sivankutty, John Aldo Lee, Herv\'e Rigneault, Laurent Jacques | (参考訳) レンズレス内視鏡(le)は、細胞規模でin vivo画像を取得する有望な装置である。
プローブの大きさは小さいため、組織を深く探査することができる。
マルチコアファイバ (MCF) を用いたレンズレス内視鏡は、一般に空間光変調器 (SLM) を用いて、MCFの出力において数百個のビームレットを集中点にコヒーレントに結合する。
このスポットはその後、試料を走査して蛍光像を生成する。
本稿では,圧縮センシング理論に触発された新しいスキャン手法である部分スペックルスキャン(PSS)を提案する。
このような戦略は、高い復元品質を維持しながら、写真白化を避ける。
我々は, LEの2つの重要な特性, (i) 容易にスペックルを生成する能力, (ii) 高速走査ミラーを用いて光パターンをシフトできるMCFにおけるメモリ効果について検討した。
まず、スペックルがサブ指数ランダムフィールドであることを示す。
その粒状構造にもかかわらず、再構成パラメータの適切な選択は、効率的なセンシング行列を構築する良い候補となる。
そして,本手法を数値的に検証し,実験データに適用する。
提案したセンシング技術は従来のラスタスキャンより優れており, はるかに少ない観察で高い再現性が得られる。
固定された再構成品質では,各観測のスペックルパターンの変更を必要とする圧縮センシング方式よりも高速である。 The lensless endoscope (LE) is a promising device to acquire in vivo images at a cellular scale. The tiny size of the probe enables a deep exploration of the tissues. Lensless endoscopy with a multicore fiber (MCF) commonly uses a spatial light modulator (SLM) to coherently combine, at the output of the MCF, few hundreds of beamlets into a focus spot. This spot is subsequently scanned across the sample to generate a fluorescent image. We propose here a novel scanning scheme, partial speckle scanning (PSS), inspired by compressive sensing theory, that avoids the use of an SLM to perform fluorescent imaging in LE with reduced acquisition time. Such a strategy avoids photo-bleaching while keeping high reconstruction quality. We develop our approach on two key properties of the LE: (i) the ability to easily generate speckles, and (ii) the memory effect in MCF that allows to use fast scan mirrors to shift light patterns. First, we show that speckles are sub-exponential random fields. Despite their granular structure, an appropriate choice of the reconstruction parameters makes them good candidates to build efficient sensing matrices. Then, we numerically validate our approach and apply it on experimental data. The proposed sensing technique outperforms conventional raster scanning: higher reconstruction quality is achieved with far fewer observations. For a fixed reconstruction quality, our speckle scanning approach is faster than compressive sensing schemes which require to change the speckle pattern for each observation. | 翻訳日:2021-04-23 13:41:01 公開日:2021-04-22 |
# プライバシ保護型ブロックチェーンフェデレーションラーニングによる医療画像分析 Privacy-Preserved Blockchain-Federated-Learning for Medical Image Analysis Towards Multiple Parties ( http://arxiv.org/abs/2104.10903v1 ) ライセンス: Link先を確認 | Rajesh Kumar, WenYong Wang, Cheng Yuan, Jay Kumar, Zakria, He Qing, Ting Yang, Abdullah Aman Khan | (参考訳) ブロックチェーンネットワークで患者の-textquoteright sデータを共有することは、covid-19患者のより良い予測のために、正確なディープラーニングモデルを学ぶのに役立つ。
しかし、プライバシ(データ漏洩など)とセキュリティ(データの信頼性や信頼性など)の懸念は、医療センターにとって大きな課題である。
この課題を解決するため、この記事では、連合学習とブロックチェーンに基づくプライバシー保護フレームワークをデザインします。
第1段階では,covid-19画像のセグメンテーションと分類にカプセルネットワークを用いてローカルモデルを訓練する。
セグメンテーションは、モデルをトレーニングするためのノジュールと分類を抽出することを目的としている。
第2のステップでは、同型暗号方式により局所モデルを確保します。
設計されたスキームは、フェデレーション学習の勾配を暗号化し、復号する。
さらに,モデルの分散化のために,勾配を集約し,局所モデルを更新するブロックチェーンベースのフェデレーション学習アルゴリズムを設計する。
このようにして、提案した暗号化スキームはデータプロバイダのプライバシを実現し、ブロックチェーンは共有データの信頼性を保証する。
実験の結果,提案手法の性能を実証した。 To share the patient\textquoteright s data in the blockchain network can help to learn the accurate deep learning model for the better prediction of COVID-19 patients. However, privacy (e.g., data leakage) and security (e.g., reliability or trust of data) concerns are the main challenging task for the health care centers. To solve this challenging task, this article designs a privacy-preserving framework based on federated learning and blockchain. In the first step, we train the local model by using the capsule network for the segmentation and classification of the COVID-19 images. The segmentation aims to extract nodules and classification to train the model. In the second step, we secure the local model through the homomorphic encryption scheme. The designed scheme encrypts and decrypts the gradients for federated learning. Moreover, for the decentralization of the model, we design a blockchain-based federated learning algorithm that can aggregate the gradients and update the local model. In this way, the proposed encryption scheme achieves the data provider privacy, and blockchain guarantees the reliability of the shared data. The experiment results demonstrate the performance of the proposed scheme. | 翻訳日:2021-04-23 13:40:31 公開日:2021-04-22 |
# (参考訳) GLiDE:Centroidal Modelを用いた異種環境における一般化可能な四足歩行 GLiDE: Generalizable Quadrupedal Locomotion in Diverse Environments with a Centroidal Model ( http://arxiv.org/abs/2104.09771v2 ) ライセンス: CC BY 4.0 | Zhaoming Xie, Xingye Da, Buck Babich, Animesh Garg, Michiel van de Panne | (参考訳) 足歩行のためのモデルフリー強化学習(RL)は、通常、ロボットのあらゆる自由度の振る舞いを正確に予測できる物理シミュレータに依存している。
対照的に、近似還元次モデルは、多くのモデルベースの制御戦略に十分であることが多い。
本研究では,RLを中心運動モデルで効果的に利用して,四足歩行に対するロバストな制御ポリシを生成する方法について検討する。
フルオーダーモデルによるRLよりも優れているのは、単純な報酬構造、計算コストの削減、堅牢なsim-to-real転送である。
さらに,ステップストーン移動,2本足内バランス,バランスビーム移動,シム・トゥ・リアル移動を,さらに適応することなく示すことにより,その可能性を示す。
追加結果: https://www.pair.toronto.edu/glide-quadruped/。 Model-free reinforcement learning (RL) for legged locomotion commonly relies on a physics simulator that can accurately predict the behaviors of every degree of freedom of the robot. In contrast, approximate reduced-order models are often sufficient for many model-based control strategies. In this work we explore how RL can be effectively used with a centroidal model to generate robust control policies for quadrupedal locomotion. Advantages over RL with a full-order model include a simple reward structure, reduced computational costs, and robust sim-to-real transfer. We further show the potential of the method by demonstrating stepping-stone locomotion, two-legged in-place balance, balance beam locomotion, and sim-to-real transfer without further adaptations. Additional Results: https://www.pair.toronto.edu/glide-quadruped/. | 翻訳日:2021-04-23 11:54:45 公開日:2021-04-22 |
# (参考訳) SSLM:MRビデオによる診断のための自己監督型学習 SSLM: Self-Supervised Learning for Medical Diagnosis from MR Video ( http://arxiv.org/abs/2104.10481v2 ) ライセンス: CC BY 4.0 | Siladittya Manna, Saumik Bhattacharya, Umapada Pal | (参考訳) 医用画像解析において、高品質なデータを取得するコストと専門家によるアノテーションは、多くの医療応用において障壁となる。
ほとんどのテクニックは教師付き学習フレームワークに基づいており、十分なパフォーマンスを達成するには大量の注釈付きデータが必要である。
そこで本研究では,mri(mr)ビデオクリップのフレームから,膝関節疾患の診断のための空間解剖学的表現を学ぶための自己教師あり学習手法を提案する。
テキストモデルは意味のある空間的文脈不変表現を学習する。
本論文の下流タスクは,クラス不均衡なマルチラベル分類である。
異なる実験により、pretextモデルによって学習された機能は、下流タスクで説明可能なパフォーマンスを提供することが示された。
さらに,データセット内の不均衡に対する戦略を適用せず,マイノリティクラスの表現を学習することにおける,提案プリテキストモデルの効率と信頼性を考察した。
我々の知る限り、この研究はMRビデオ上のクラス不均衡多ラベル分類タスクにおける自己教師付き学習アルゴリズムの有効性と信頼性を示す最初の研究である。
提案する作業の評価コードはhttps://github.com/sadimanna/sslmで入手できる。 In medical image analysis, the cost of acquiring high-quality data and their annotation by experts is a barrier in many medical applications. Most of the techniques used are based on supervised learning framework and need a large amount of annotated data to achieve satisfactory performance. As an alternative, in this paper, we propose a self-supervised learning approach to learn the spatial anatomical representations from the frames of magnetic resonance (MR) video clips for the diagnosis of knee medical conditions. The pretext model learns meaningful spatial context-invariant representations. The downstream task in our paper is a class imbalanced multi-label classification. Different experiments show that the features learnt by the pretext model provide explainable performance in the downstream task. Moreover, the efficiency and reliability of the proposed pretext model in learning representations of minority classes without applying any strategy towards imbalance in the dataset can be seen from the results. To the best of our knowledge, this work is the first work of its kind in showing the effectiveness and reliability of self-supervised learning algorithms in class imbalanced multi-label classification tasks on MR video. The code for evaluation of the proposed work is available at https://github.com/sadimanna/sslm | 翻訳日:2021-04-23 11:34:07 公開日:2021-04-22 |
# (参考訳) 潜在変数モデルによるロスレス圧縮 Lossless Compression with Latent Variable Models ( http://arxiv.org/abs/2104.10544v2 ) ライセンス: CC0 1.0 | James Townsend | (参考訳) 非対称数値系を用いたビットバック (bb-ans) と呼ばれる潜在変数モデルを用いて, 簡易かつエレガントなロスレス圧縮法を開発した。
この方法は、エンコードおよびデコードステップをインターリーブし、データのバッチ圧縮時に最適なレートを達成する。
我々はまずMNISTテストセット上で,小変動オートエンコーダ(VAE)モデルを用いて,最先端のロスレス圧縮が可能であることを示す。
次に,完全畳み込み生成モデルを用いて任意のサイズの画像に一般化し,階層的潜在変数モデルにbb-anを拡張し,imagenetデータセットからのフルサイズのカラー画像の最先端のロスレス圧縮を可能にする,新たな経験的洞察を利用する。
我々は、深層生成モデルを用いた圧縮の高速プロトタイピングのために開発したモジュラーソフトウェアフレームワークであるCraystackについて述べる。 We develop a simple and elegant method for lossless compression using latent variable models, which we call 'bits back with asymmetric numeral systems' (BB-ANS). The method involves interleaving encode and decode steps, and achieves an optimal rate when compressing batches of data. We demonstrate it firstly on the MNIST test set, showing that state-of-the-art lossless compression is possible using a small variational autoencoder (VAE) model. We then make use of a novel empirical insight, that fully convolutional generative models, trained on small images, are able to generalize to images of arbitrary size, and extend BB-ANS to hierarchical latent variable models, enabling state-of-the-art lossless compression of full-size colour images from the ImageNet dataset. We describe 'Craystack', a modular software framework which we have developed for rapid prototyping of compression using deep generative models. | 翻訳日:2021-04-23 11:19:36 公開日:2021-04-22 |
# da-dgcex: 分散認識型オートエンコーダ損失による深い説明の妥当性の確保 DA-DGCEx: Ensuring Validity of Deep Guided Counterfactual Explanations With Distribution-Aware Autoencoder Loss ( http://arxiv.org/abs/2104.09062v3 ) ライセンス: Link先を確認 | Jokin Labaien, Ekhi Zugasti, Xabier De Carlos | (参考訳) ディープラーニングはさまざまな分野で非常に価値のあるツールになっていますが、これらのモデルの学習能力に疑問を持つ人はいません。
それでも、ディープラーニングモデルは解釈可能性の欠如からブラックボックスと見なされることが多いため、意思決定プロセスに一般的な不信がある。
近年、有効性と解釈可能性のバランスを見つけるために、説明可能な人工知能(XAI)が人気を集めており、この分野の手法のいくつかは、反現実的な説明を生み出すために使われている。
これらの説明を生成するプロセスは、一般的に、説明すべき各入力の最適化問題を解決することで成り立っている。
この処理を高速化するために、いくつかの手法は自動エンコーダを使用して、即時対実的な説明を生成する。
近年,分類モデルに付随するオートエンコーダを訓練し,簡単な反事実説明を生成するdgcex(deep guided counterfactual explanations)という手法が提案されている。
しかし、この方法は生成した反実例がデータ多様体に近いことを保証しないので、非現実的な反実例を生成することができる。
そこで本論文では,DGCExのコスト関数を付加したDA-DGCEx(Dis Distribution Aware Deep Guided Counterfactual Explanations)を提案する。 Deep Learning has become a very valuable tool in different fields, and no one doubts the learning capacity of these models. Nevertheless, since Deep Learning models are often seen as black boxes due to their lack of interpretability, there is a general mistrust in their decision-making process. To find a balance between effectiveness and interpretability, Explainable Artificial Intelligence (XAI) is gaining popularity in recent years, and some of the methods within this area are used to generate counterfactual explanations. The process of generating these explanations generally consists of solving an optimization problem for each input to be explained, which is unfeasible when real-time feedback is needed. To speed up this process, some methods have made use of autoencoders to generate instant counterfactual explanations. Recently, a method called Deep Guided Counterfactual Explanations (DGCEx) has been proposed, which trains an autoencoder attached to a classification model, in order to generate straightforward counterfactual explanations. However, this method does not ensure that the generated counterfactual instances are close to the data manifold, so unrealistic counterfactual instances may be generated. To overcome this issue, this paper presents Distribution Aware Deep Guided Counterfactual Explanations (DA-DGCEx), which adds a term to the DGCEx cost function that penalizes out of distribution counterfactual instances. | 翻訳日:2021-04-23 11:18:27 公開日:2021-04-22 |
# 超ピクセルとグラフ畳み込みニューラルネットワークによる空中画像からの栄養不足ストレスの効率的な検出 Superpixels and Graph Convolutional Neural Networks for Efficient Detection of Nutrient Deficiency Stress from Aerial Imagery ( http://arxiv.org/abs/2104.10249v2 ) ライセンス: Link先を確認 | Saba Dadsetan, David Pichler, David Wilson, Naira Hovakimyan, Jennifer Hobbs | (参考訳) リモートセンシング技術の進歩は、膨大な量のデータの収集につながった。
画像解像度の向上、再訪回数の頻繁化、スペクトルチャネルの追加により、農業を含む各領域にまたがる分析と知性を提供するデータ量が爆発的に増加した。
しかし、このデータの処理には計算時間と費用の面でコストが伴うため、アルゴリズムの目的が効率を改善するためにリアルタイムインテリジェンスを提供することである場合、どちらも考慮する必要がある。
具体的には、養分不足地域をリモートで検知したデータから特定し、農夫に注意を要する地域へ警告する。
過去の手法はピクセルレベルの分類(すなわちピクセルレベルの分類)に重点を置いてきた。
セマンティックセグメンテーション(セマンティックセグメンテーション)は、これらのタスクを達成するためのフィールドであり、しばしば数万のパラメータを持つディープラーニングモデルを使用する。
対照的に,ノードベースの分類を行うためのより軽量なグラフベース手法を提案する。
まず、フィールド全体にわたってスーパーピクセルを生成するためにSimple Linear Iterative Cluster(SLIC)を使用します。
次に,超画素の非ユークリッド領域のセグメンテーションを行うために,グラフ畳み込みニューラルネットワーク(GCN)を利用する。
このモデルは、cnnモデルよりも4桁少ないパラメータを持ち、数分で列車が走る。 Advances in remote sensing technology have led to the capture of massive amounts of data. Increased image resolution, more frequent revisit times, and additional spectral channels have created an explosion in the amount of data that is available to provide analyses and intelligence across domains, including agriculture. However, the processing of this data comes with a cost in terms of computation time and money, both of which must be considered when the goal of an algorithm is to provide real-time intelligence to improve efficiencies. Specifically, we seek to identify nutrient deficient areas from remotely sensed data to alert farmers to regions that require attention; detection of nutrient deficient areas is a key task in precision agriculture as farmers must quickly respond to struggling areas to protect their harvests. Past methods have focused on pixel-level classification (i.e. semantic segmentation) of the field to achieve these tasks, often using deep learning models with tens-of-millions of parameters. In contrast, we propose a much lighter graph-based method to perform node-based classification. We first use Simple Linear Iterative Cluster (SLIC) to produce superpixels across the field. Then, to perform segmentation across the non-Euclidean domain of superpixels, we leverage a Graph Convolutional Neural Network (GCN). This model has 4-orders-of-magnitude fewer parameters than a CNN model and trains in a matter of minutes. | 翻訳日:2021-04-23 11:18:02 公開日:2021-04-22 |
# カリキュラム学習による多目的建築における初期出力の精度向上 Improving the Accuracy of Early Exits in Multi-Exit Architectures via Curriculum Learning ( http://arxiv.org/abs/2104.10461v2 ) ライセンス: Link先を確認 | Arian Bakhtiarnia, Qi Zhang and Alexandros Iosifidis | (参考訳) エッジコンピューティングシステムを使用したIoTのような時間に敏感でリソースに制約のある設定のためのディープラーニングサービスをデプロイすることは、推論時間の動的調整を必要とする難しいタスクである。
マルチエクイットアーキテクチャにより、ディープニューラルネットワークは、正確なコストで厳密な期限に従うために、実行を早期に終了することができる。
このコストを軽減するために,ニューラルネットワークのカリキュラム学習を利用するマルチエクイットカリキュラム学習という,学習の難しさに基づいてトレーニングサンプルをソートし,徐々にネットワークに導入することで,人間の学習を模倣するトレーニング戦略を提案する。
CIFAR-10 と CIFAR-100 データセットの実験とマルチエグジットアーキテクチャの様々な構成により,本手法は標準トレーニング手法と比較して早期出口の精度を一貫して向上することが示された。 Deploying deep learning services for time-sensitive and resource-constrained settings such as IoT using edge computing systems is a challenging task that requires dynamic adjustment of inference time. Multi-exit architectures allow deep neural networks to terminate their execution early in order to adhere to tight deadlines at the cost of accuracy. To mitigate this cost, in this paper we introduce a novel method called Multi-Exit Curriculum Learning that utilizes curriculum learning, a training strategy for neural networks that imitates human learning by sorting the training samples based on their difficulty and gradually introducing them to the network. Experiments on CIFAR-10 and CIFAR-100 datasets and various configurations of multi-exit architectures show that our method consistently improves the accuracy of early exits compared to the standard training approach. | 翻訳日:2021-04-23 11:17:39 公開日:2021-04-22 |
# Dual Head Adversarial Training Dual Head Adversarial Training ( http://arxiv.org/abs/2104.10377v2 ) ライセンス: Link先を確認 | Yujing Jiang, Xingjun Ma, Sarah Monazam Erfani and James Bailey | (参考訳) ディープニューラルネットワーク(DNN)は、敵の例や攻撃に対して脆弱であることが知られており、安全クリティカルなアプリケーションにおける信頼性への懸念が高まっている。
敵の攻撃に抵抗する堅牢なDNNを訓練するための防衛方法がいくつか提案されているが、その中では敵の訓練が最も有望な結果を示している。
しかし、近年の研究では、adversarially-trained dnnの正確性と堅牢性の間に固有のトレードオフがあることが示されている。
本稿では,既存の対向訓練法のロバスト性をさらに高めるための新しい手法であるdh-atを提案する。
既存の改良された対向訓練とは異なり、dh-atはネットワークのアーキテクチャとより堅牢性を求めるトレーニング戦略の両方を修正している。
具体的には、DH-ATはまず第2のネットワークヘッド(または分岐)をネットワークの中間層にアタッチし、2つのヘッドの出力を集約するために軽量畳み込みニューラルネットワーク(CNN)を使用する。
訓練戦略は2つの頭部の相対的な重要性を反映している。
複数のベンチマークデータセットにおいて、DH-ATが既存の対戦訓練手法に顕著な堅牢性向上をもたらすことを実証的に示す。
TRADESと比較すると,DH-ATはPGD40に対する3.4%,AutoAttackに対する2.3%の堅牢性を向上し,クリーンな精度を1.8%向上させることができる。 Deep neural networks (DNNs) are known to be vulnerable to adversarial examples/attacks, raising concerns about their reliability in safety-critical applications. A number of defense methods have been proposed to train robust DNNs resistant to adversarial attacks, among which adversarial training has so far demonstrated the most promising results. However, recent studies have shown that there exists an inherent tradeoff between accuracy and robustness in adversarially-trained DNNs. In this paper, we propose a novel technique Dual Head Adversarial Training (DH-AT) to further improve the robustness of existing adversarial training methods. Different from existing improved variants of adversarial training, DH-AT modifies both the architecture of the network and the training strategy to seek more robustness. Specifically, DH-AT first attaches a second network head (or branch) to one intermediate layer of the network, then uses a lightweight convolutional neural network (CNN) to aggregate the outputs of the two heads. The training strategy is also adapted to reflect the relative importance of the two heads. We empirically show, on multiple benchmark datasets, that DH-AT can bring notable robustness improvements to existing adversarial training methods. Compared with TRADES, one state-of-the-art adversarial training method, our DH-AT can improve the robustness by 3.4% against PGD40 and 2.3% against AutoAttack, and also improve the clean accuracy by 1.8%. | 翻訳日:2021-04-23 11:17:22 公開日:2021-04-22 |
# 任意形テキスト検出のためのフーリエ輪郭埋め込み Fourier Contour Embedding for Arbitrary-Shaped Text Detection ( http://arxiv.org/abs/2104.10442v2 ) ライセンス: Link先を確認 | Yiqin Zhu, Jianyong Chen, Lingyu Liang, Zhanghui Kuang, Lianwen Jin and Wayne Zhang | (参考訳) 任意の形のテキスト検出の主な課題の1つは、ネットワークが多様なテキスト幾何分散を学習できる優れたテキストインスタンス表現を設計することである。
既存の手法のほとんどは、デカルト座標系や極座標系におけるマスクや輪郭点列を通して、画像空間領域内のテキストインスタンスをモデル化する。
しかし、マスク表現は高価な後処理につながるかもしれないが、ポイントシーケンスは高度に湾曲した形状のテキストをモデル化する能力に制限がある。
これらの問題に対処するために、フーリエ領域のテキストインスタンスをモデル化し、任意の形状のテキスト輪郭をコンパクトなシグネチャとして表現するための新しいFCE法を提案する。
さらに、FCENetをバックボーン、機能ピラミッドネットワーク(FPN)、逆フーリエ変換(IFT)および非最大抑圧(NMS)で単純な後処理で構築する。
以前の方法とは異なり、FCENetはまずテキストインスタンスのコンパクトなフーリエシグネチャを予測し、テスト中にIFTとNMSを介してテキストの輪郭を再構築する。
広範な実験により、fceは高曲率な形状であってもシーンテキストの輪郭に適合する精度と頑健さを示し、任意の形状のテキスト検出におけるfcenetの有効性と優れた一般化を検証する。
さらに,実験結果から,FCENetはCTW1500やTotal-Textの最先端(SOTA)手法よりも優れていることがわかった。 One of the main challenges for arbitrary-shaped text detection is to design a good text instance representation that allows networks to learn diverse text geometry variances. Most of existing methods model text instances in image spatial domain via masks or contour point sequences in the Cartesian or the polar coordinate system. However, the mask representation might lead to expensive post-processing, while the point sequence one may have limited capability to model texts with highly-curved shapes. To tackle these problems, we model text instances in the Fourier domain and propose one novel Fourier Contour Embedding (FCE) method to represent arbitrary shaped text contours as compact signatures. We further construct FCENet with a backbone, feature pyramid networks (FPN) and a simple post-processing with the Inverse Fourier Transformation (IFT) and Non-Maximum Suppression (NMS). Different from previous methods, FCENet first predicts compact Fourier signatures of text instances, and then reconstructs text contours via IFT and NMS during test. Extensive experiments demonstrate that FCE is accurate and robust to fit contours of scene texts even with highly-curved shapes, and also validate the effectiveness and the good generalization of FCENet for arbitrary-shaped text detection. Furthermore, experimental results show that our FCENet is superior to the state-of-the-art (SOTA) methods on CTW1500 and Total-Text, especially on challenging highly-curved text subset. | 翻訳日:2021-04-23 11:16:53 公開日:2021-04-22 |
# 3次元点雲からのボクセル構造に基づくメッシュ再構成 Voxel Structure-based Mesh Reconstruction from a 3D Point Cloud ( http://arxiv.org/abs/2104.10622v2 ) ライセンス: Link先を確認 | Chenlei Lv, Weisi Lin, Baoquan Zhao | (参考訳) 3Dポイントクラウドからのメッシュ再構築は、コンピュータグラフィック、コンピュータビジョン、マルチメディア分析の分野で重要なトピックである。
本稿では,ボクセル構造に基づくメッシュ再構築フレームワークを提案する。
局所領域検出の精度を向上させるための本質的な指標を提供する。
検出された局所領域に基づいて、初期再構成メッシュを得ることができる。
我々のフレームワークにおけるメッシュ最適化では、初期再構成メッシュは、外部エッジや内部エッジといった重要な幾何学的特徴を持つ等方的メッシュに最適化される。
実験の結果,メッシュ品質,幾何的特徴保持,処理速度の点で,我々のフレームワークはピアに比べて大きな優位性を示した。 Mesh reconstruction from a 3D point cloud is an important topic in the fields of computer graphic, computer vision, and multimedia analysis. In this paper, we propose a voxel structure-based mesh reconstruction framework. It provides the intrinsic metric to improve the accuracy of local region detection. Based on the detected local regions, an initial reconstructed mesh can be obtained. With the mesh optimization in our framework, the initial reconstructed mesh is optimized into an isotropic one with the important geometric features such as external and internal edges. The experimental results indicate that our framework shows great advantages over peer ones in terms of mesh quality, geometric feature keeping, and processing speed. | 翻訳日:2021-04-23 11:16:21 公開日:2021-04-22 |
# 変動性ターゲティングのためのモデルベースおよびモデルフリーrl混合金融市場の適応学習 Adaptive learning for financial markets mixing model-based and model-free RL for volatility targeting ( http://arxiv.org/abs/2104.10483v2 ) ライセンス: Link先を確認 | Eric Benhamou and David Saltiel and Serge Tabachnik and Sui Kai Wong and Fran\c{c}ois Chareyron | (参考訳) モデルフリー強化学習は安定した環境において有意義な成果を上げてきたが、今日でも金融市場のような環境の変化に問題がある。
対照的に、モデルベースのrlは環境の基本的な動的概念を捉えることができるが、認知バイアスに苦しむ。
本研究では,モデルフリーの深層強化学習により,モデルベースアプローチを選択することによって,この2つの手法の最良の組み合わせを提案する。
過去のパフォーマンスやボラティリティだけでなく、暗黙のレジームの変化を考慮したマクロやリスクに対する欲求といった追加のコンテキスト情報も使用しています。
また,トレーニングセットの過去のデータのみを考慮することで,従来のRL手法を現実の状況に適用する。
したがって、K-foldクロスバリデーションで示されるトレーニングデータセットでは、将来の情報は利用できない。
従来の統計手法を基盤として,拡張期間に基づく連続的なトレーニングとテストによって定義される従来の「ウォークフォワード分析」を用いて,エージェントの頑健さを断定する。
最後に、2尾のT-テストに基づく統計的差分の重要性の概念を示し、我々のモデルが従来のモデルと異なる方法を強調する。
実験結果から,本手法は,ネットパフォーマンス,シャープ,ソーティノ比,最大ドローダウン,ボラティリティに対する最大ドローダウンなど,金融数学で一般的に用いられる評価指標のほとんどすべてにおいて,markowitzモデルのような従来の金融ベースラインモデルよりも優れていることが示された。 Model-Free Reinforcement Learning has achieved meaningful results in stable environments but, to this day, it remains problematic in regime changing environments like financial markets. In contrast, model-based RL is able to capture some fundamental and dynamical concepts of the environment but suffer from cognitive bias. In this work, we propose to combine the best of the two techniques by selecting various model-based approaches thanks to Model-Free Deep Reinforcement Learning. Using not only past performance and volatility, we include additional contextual information such as macro and risk appetite signals to account for implicit regime changes. We also adapt traditional RL methods to real-life situations by considering only past data for the training sets. Hence, we cannot use future information in our training data set as implied by K-fold cross validation. Building on traditional statistical methods, we use the traditional "walk-forward analysis", which is defined by successive training and testing based on expanding periods, to assert the robustness of the resulting agent. Finally, we present the concept of statistical difference's significance based on a two-tailed T-test, to highlight the ways in which our models differ from more traditional ones. Our experimental results show that our approach outperforms traditional financial baseline portfolio models such as the Markowitz model in almost all evaluation metrics commonly used in financial mathematics, namely net performance, Sharpe and Sortino ratios, maximum drawdown, maximum drawdown over volatility. | 翻訳日:2021-04-23 11:16:13 公開日:2021-04-22 |
# 量子離散事象システムの監視制御 Supervisory Control of Quantum Discrete Event Systems ( http://arxiv.org/abs/2104.09753v2 ) ライセンス: Link先を確認 | Daowen Qiu | (参考訳) 離散イベントシステム(DES)は、ファジィおよび確率論的システムにおける実用的な応用の必要性から、確率的およびファジィコンピューティングモデルの枠組みとして確立され、深く発展してきた。
量子コンピューティングと量子制御の発展により、自然問題は量子コンピューティングモデルを用いてDESをシミュレートし、量子DES(QDES)を確立することである。
その動機は2つある:一方、qdesは量子コンピュータによってdesがシミュレーションされ処理される場合、量子システムは離散的な事象によって駆動される状態の進化をシミュレートするために使用される。
本稿では,量子有限オートマトン(qfa)をモデル形式としてqdesの基本枠組みを確立することを目的として,qdesの監督制御定理を定式化・証明する。
次に,制御性条件が成立するか否かを決定する多項式時間アルゴリズムを提案する。
特に,qdesの監視制御を記述し,状態複雑度に対するqdesの本質的利点を検証するために,qfaの新たな例をいくつか構築する。 Discrete event systems (DES) have been established and deeply developed in the framework of probabilistic and fuzzy computing models due to the necessity of practical applications in fuzzy and probabilistic systems. With the development of quantum computing and quantum control, a natural problem is to simulate DES by means of quantum computing models and to establish {\it quantum DES} (QDES). The motivation is twofold: on the one hand, QDES have potential applications when DES are simulated and processed by quantum computers, where quantum systems are employed to simulate the evolution of states driven by discrete events, and on the other hand, QDES may have essential advantages over DES concerning state complexity for imitating some practical problems. The goal of this paper is to establish a basic framework of QDES by using {\it quantum finite automata} (QFA) as the modelling formalisms, and the supervisory control theorems of QDES are established and proved. Then we present a polynomial-time algorithm to decide whether or not the controllability condition holds. In particular, we construct a number of new examples of QFA to illustrate the supervisory control of QDES and to verify the essential advantages of QDES over DES in state complexity. | 翻訳日:2021-04-23 11:15:47 公開日:2021-04-22 |
# 二酸化炭素排出量と大規模ニューラルネットワークトレーニング Carbon Emissions and Large Neural Network Training ( http://arxiv.org/abs/2104.10350v2 ) ライセンス: Link先を確認 | David Patterson, Joseph Gonzalez, Quoc Le, Chen Liang, Lluis-Miquel Munguia, Daniel Rothchild, David So, Maud Texier, Jeff Dean | (参考訳) 機械学習(ML)の計算需要は最近急速に増加しており、多くのコストが伴っている。
エネルギーコストの推定は環境への影響を測定し、よりグリーンな戦略を見つけるのに役立つが、詳細な情報なしでは困難である。
我々は,最近の大規模モデルであるt5, meena, gshard, switch transformer, gpt-3のエネルギー使用量とカーボンフットプリントを計算し,進化したトランスフォーマーを発見したニューラルネットワーク探索の初期の推定を洗練する。
エネルギー効率とCO2排出量(CO2e)を改善するための次の機会を強調する: 大きいが疎に活性化されたDNNは、多くのパラメータを使用しながら精度を犠牲にすることなく、大きくて密度の高いDNNの1/10のエネルギーを消費することができる。
MLワークロードスケジューリングの地理的な場所は、カーボンフリーエネルギーのごく一部と結果のCO2eは、同じ国と同じ組織内であっても、約5X-10Xが異なるためである。
現在、大規模モデルのトレーニングの場所と時期を最適化しています。
データセンターのインフラは、典型的なデータセンターよりも1.4~2倍エネルギー効率が良く、内部のML指向アクセラレータは、既製のシステムよりも2~5倍効率が良い。
注目すべきは、DNN、データセンター、プロセッサの選択により、カーボンフットプリントを最大100-1000Xまで削減できることだ。
これらの大きな要因は、エネルギーコストの遡及的な見積もりを困難にする。
計算ミスを回避するため,大規模な計算資源を必要とするML論文はエネルギー消費とCO2eを明確にする必要がある。
我々は、将来の研究でエネルギー利用とCO2eをより透明にするために取り組んでいます。
MLの炭素フットプリントを減らすために、私たちは、エネルギー使用量とCO2eがモデルを評価する上で重要な指標であるべきだと考えています。 The computation demand for machine learning (ML) has grown rapidly recently, which comes with a number of costs. Estimating the energy cost helps measure its environmental impact and finding greener strategies, yet it is challenging without detailed information. We calculate the energy use and carbon footprint of several recent large models-T5, Meena, GShard, Switch Transformer, and GPT-3-and refine earlier estimates for the neural architecture search that found Evolved Transformer. We highlight the following opportunities to improve energy efficiency and CO2 equivalent emissions (CO2e): Large but sparsely activated DNNs can consume <1/10th the energy of large, dense DNNs without sacrificing accuracy despite using as many or even more parameters. Geographic location matters for ML workload scheduling since the fraction of carbon-free energy and resulting CO2e vary ~5X-10X, even within the same country and the same organization. We are now optimizing where and when large models are trained. Specific datacenter infrastructure matters, as Cloud datacenters can be ~1.4-2X more energy efficient than typical datacenters, and the ML-oriented accelerators inside them can be ~2-5X more effective than off-the-shelf systems. Remarkably, the choice of DNN, datacenter, and processor can reduce the carbon footprint up to ~100-1000X. These large factors also make retroactive estimates of energy cost difficult. To avoid miscalculations, we believe ML papers requiring large computational resources should make energy consumption and CO2e explicit when practical. We are working to be more transparent about energy use and CO2e in our future research. To help reduce the carbon footprint of ML, we believe energy usage and CO2e should be a key metric in evaluating models, and we are collaborating with MLPerf developers to include energy usage during training and inference in this industry standard benchmark. | 翻訳日:2021-04-23 11:15:26 公開日:2021-04-22 |