このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。
公開日が20220107となっている論文です。
Title | Authors | Abstract | 論文公表日・翻訳日 |
---|---|---|---|
# 孤立量子系の熱化における絡み合い伝播 Entanglement propagation in thermalization of an isolated quantum system ( http://arxiv.org/abs/2003.10106v2 ) ライセンス: Link先を確認 | Ryosuke Yoshii, Shion Yamashika, and Shunji Tsuchiya | (参考訳) 孤立量子多体系の熱化過程における絡み合いのダイナミクスについて検討する。
本稿では, 数値シミュレーションにおける絡み合いエントロピー(EE)の伝播速度を簡易に測定し, 1次元における積分・非可積分スピンモデル, 逆イジング(TI)モデル, カオスイジング(CI)モデル, 拡張カオスイジング(ECI)モデルに適用する。
2つの異なる時間スケール $t^\ast$ と $t_{\rm {diff}}$ は、熱化過程におけるeeのダイナミクスにおいて生じる: 前者はeeの飽和の時間スケールを表し、後者はシステム全体にわたるeeの拡散を特徴付ける。
エンタングルメントの伝播速度を$t_{\rm diff}$から評価すると、エンタングルメントはモデルの可積分性に関係なく一定の速度で弾道的に伝播する。
エンタングルメントの伝播速度はtiモデルにおける準粒子励起の最大群速度と一致することがわかった。
また,相互情報による絡み合いの伝播速度を評価し,特性的な時間スケール$t_{\mathrm{mi}}$を求める。
我々は,$t_{\mathrm{MI}}$と$t_{\rm {diff}}$で評価された絡み合いの伝播速度がよく一致することを示す。
数値的な結果に基づいて熱化の条件について議論し、熱化のためのEEの飽和前にシステム全体のスクランブルを行う必要があることを提案する。 We study dynamics of entanglement in the thermalization process of an isolated quantum many-body system. We propose a simple setup for measuring the propagation speed of entanglement entropy (EE) in numerical simulations and apply it to the integrable/non-integrable spin models in 1D - the transverse Ising (TI) model, the chaotic Ising (CI) model, and the extended chaotic Ising (ECI) model. We find that two distinct time-scales $t^\ast$ and $t_{\rm {diff}}$ arise in the dynamics of EE in the thermalization process: the former represents the time-scale for the saturation of EE and the latter characterizes spreading of EE over the entire system. Evaluating the propagation speed of entanglement from $t_{\rm diff}$, we find that entanglement propagates ballistically with a constant velocity irrespective of the integrability of the model. The propagation speed of entanglement is found to coincide with the maximum group velocity of quasi-particle excitations in the TI model. We also evaluate the propagation speed of entanglement by mutual information and find the characteristic time-scale $t_{\mathrm{MI}}$. We show that the propagation speeds of entanglement evaluated by $t_{\mathrm{MI}}$ and $t_{\rm {diff}}$ agree well. We discuss the condition for thermalization based on the numerical results and propose that scrambling of the entire system has to take place before saturation of EE for thermalization. | 翻訳日:2023-05-28 07:46:35 公開日:2022-01-07 |
# 非アクセス性質量とgrwのオントロジー Non-Accessible Mass and the Ontology of GRW ( http://arxiv.org/abs/2010.13706v3 ) ライセンス: Link先を確認 | Cristian Mariani | (参考訳) grw(grwm、略してgrwm)への質量密度アプローチは量子基礎文献で広く議論されている。
GRWmの重要な特徴は、質量のアクセシビリティーの関係の導入であり、これは実験結果の確定性を説明できるため、GRWの尾の問題にも対処できる。
しかし、アクセシビリティの関係は、完全に説明不能な質量の非アクセシビリティ部分の存在論的意味を残している。
本稿では,非到達可能なマスに対する2つのアプローチについて論じる。これを反現実主義と現実主義と呼び,後者を擁護する。
まず、反現実主義的アプローチが様々な反対に苦しむことを示す。
第2に、客観的に不確定な状況として、アクセス不能な質量密度状態の説明を開発する。 The Mass Density approach to GRW (GRWm for short) has been widely discussed in the quantum foundations literature. A crucial feature of GRWm is the introduction of a relation of accessibility for mass, which allows to explain the determinacy of experimental outcomes thus also addressing the tails problem of GRW. However, the relation of accessibility leaves the ontological meaning of the non-accessible portion of mass utterly unexplained. In this paper I discuss two viable approaches to non-accessible mass, which I call anti-realist and realist, and will defend the latter. First, I show that the anti-realist approach suffers from various objections. Second, I develop an account of non-accessible mass density states as objectively indeterminate states of affairs. | 翻訳日:2023-04-27 11:19:43 公開日:2022-01-07 |
# 量子コンピュータ上での有効qedのシミュレーション Simulating Effective QED on Quantum Computers ( http://arxiv.org/abs/2101.00111v3 ) ライセンス: Link先を確認 | Torin F. Stetina, Anthony Ciavarella, Xiaosong Li, Nathan Wiebe | (参考訳) 近年、化学と凝縮物質のシミュレーションが量子コンピューティングの卓越した応用の1つとして現れ、特定の強い相関を持つ電子系に対する電子構造の解の指数的高速化を提供する。
これまで、ほとんどの治療法は、量子電磁力学(QED)によって最も一般的に説明される相対論的効果が多項式時間で量子コンピュータ上でもシミュレートできるかどうかという問題を無視してきた。
ここでは、フェルミオン場の波動関数の4成分全てを適切に扱いながら、実効QEDが摂動理論においてQEDと二階に等しい実効QEDを、合理的な仮定の下で多項式時間でシミュレートできることを示す。
特に, トロッタースズキの公式を用いて, 位置と運動量に基づくシミュレーションの詳細な解析を行う。
このようなシミュレーションを行うのに必要な$t$ゲートの数は、3d$の$n_s$サイトにおいて最低で$o(n_s^3/\epsilon)^{1+o(1)} の位置基底シミュレーションでは熱力学的限界が$、運動量ベースでは$o(n_s^{4+2/3}/\epsilon)^{1+o(1)}$である。
また, 格子 eqed に対する$\widetilde{o}(n_s^{2+2/3}/\epsilon)$ の最悪の場合のスケーリングにより, 量子化はやや良くなり, 準備回路の合併症は$\widetilde{o}(n_s^{5+2/3}/\epsilon)$ のモーメントベースがやや悪化することがわかった。
さらに、一様電子ガスの相対論的バージョンをシミュレートするための具体的なゲートカウントを提供し、非クリフォード演算を10^{13}$未満でシミュレートでき、また、実効的なqedにおいてマルチリファレンス構成の相互作用状態をどのように準備するかに関する詳細な議論を行い、地上状態の合理的な初期推定を提供する。
最後に,金などの重元素を正確にシミュレートするために必要な平面波のカットオフを推定する。 In recent years simulations of chemistry and condensed materials has emerged as one of the preeminent applications of quantum computing, offering an exponential speedup for the solution of the electronic structure for certain strongly correlated electronic systems. To date, most treatments have ignored the question of whether relativistic effects, which are described most generally by quantum electrodynamics (QED), can also be simulated on a quantum computer in polynomial time. Here we show that effective QED, which is equivalent to QED to second order in perturbation theory, can be simulated in polynomial time under reasonable assumptions while properly treating all four components of the wavefunction of the fermionic field. In particular, we provide a detailed analysis of such simulations in position and momentum basis using Trotter-Suzuki formulas. We find that the number of $T$-gates needed to perform such simulations on a $3D$ lattice of $n_s$ sites scales at worst as $O(n_s^3/\epsilon)^{1+o(1)}$ in the thermodynamic limit for position basis simulations and $O(n_s^{4+2/3}/\epsilon)^{1+o(1)}$ in momentum basis. We also find that qubitization scales slightly better with a worst case scaling of $\widetilde{O}(n_s^{2+2/3}/\epsilon)$ for lattice eQED and complications in the prepare circuit leads to a slightly worse scaling in momentum basis of $\widetilde{O}(n_s^{5+2/3}/\epsilon)$. We further provide concrete gate counts for simulating a relativistic version of the uniform electron gas that show challenging problems can be simulated using fewer than $10^{13}$ non-Clifford operations and also provide a detailed discussion of how to prepare multi-reference configuration interaction states in effective QED which can provide a reasonable initial guess for the ground state. Finally, we estimate the planewave cutoffs needed to accurately simulate heavy elements such as gold. | 翻訳日:2023-04-18 05:33:31 公開日:2022-01-07 |
# 量子軌道の干渉 Interference of Quantum Trajectories ( http://arxiv.org/abs/2102.10355v2 ) ライセンス: Link先を確認 | Brecht Donvil, and Paolo Muratore-Ginanneschi | (参考訳) 我々は, 量子軌道理論を拡張して, 開量子系の大きなクラスと環境との相互作用を包含する。
具体的には、一般の時間局所量子マスター方程式が通常のジャンプ-確率微分方程式によって記述された非レーブ性を持つことを証明できる。
十分条件は、状態ベクトルモンテカルロ平均を、我々が「インフルエンス・マーティンゲール」と呼ぶ確率疑似測定値で重くすることである。
マルティンゲーレの影響は、量子軌道を支配下に置いた1dの確率微分方程式を満たす。
我々の解釈では、マルチンゲールの影響は強い系環境結合における量子軌道の異なる実現間の干渉効果をモデル化する。
この結果は、完全に有界な可分な力学写像に対するシステムのヒルベルト空間におけるマルコフ量子軌道図の存在を証明している。
さらに, 既存の理論を自然に拡張することにより, 多数の自由度を持つシステムを数値的に統合する新たな方法を提案する。 We extend quantum trajectory theory to encompass the evolution of a large class of open quantum systems interacting with an environment at {arbitrary coupling strength}. Specifically, we prove that general time-local quantum master equations admit an unraveling described by ordinary jump-stochastic differential equations. The sufficient condition is to weigh the state vector Monte Carlo averages by a probability pseudo-measure which we call the "influence martingale". The influence martingale satisfies a $ 1d $ stochastic differential equation enslaved to the ones governing the quantum trajectories. Our interpretation is that the influence martingale models interference effects between distinct realizations of quantum trajectories at strong system-environment coupling. Our result proves the existence of a Markovian quantum trajectory picture in the Hilbert space of the system for completely bounded divisible dynamical maps. Furthermore, our result provides a new avenue to numerically integrate systems with large numbers of degrees of freedom by naturally extending the existing theory. | 翻訳日:2023-04-10 15:58:02 公開日:2022-01-07 |
# シーングラフの総合的調査:生成と応用 A Comprehensive Survey of Scene Graphs: Generation and Application ( http://arxiv.org/abs/2104.01111v5 ) ライセンス: Link先を確認 | Xiaojun Chang, Pengzhen Ren, Pengfei Xu, Zhihui Li, Xiaojiang Chen, and Alex Hauptmann | (参考訳) シーングラフ(Scene graph)は、シーン内のオブジェクト間のオブジェクト、属性、関係を明確に表現できるシーンの構造表現である。
コンピュータビジョン技術が発展を続けるにつれ、人々は単に画像中の物体を検出して認識することに満足せず、より高度な理解と視覚シーンの推論を楽しみにしています。
例えば、画像が与えられたら、画像内のオブジェクトを検出し認識するだけでなく、オブジェクト間の関係(視覚的な関係検出)を知って、画像の内容に基づいてテキスト記述(画像キャプション)を生成したいのです。
あるいは、画像の中の小さな女の子が何をしているか(ビジュアル質問回答(VQA))や、犬を画像から取り除き、似たような画像(画像の編集と検索)を見つけることなど、マシンに教えてほしいかもしれません。
これらのタスクは、画像ビジョンタスクのより高度な理解と推論を必要とする。
シーングラフは、シーンを理解するための強力なツールです。
そのため、シーングラフは多くの研究者の注目を集めており、関連する研究はしばしばクロスモーダルで複雑で、急速に発展している。
しかし、現在、シーングラフの比較的体系的な調査は行われていない。
この目的のために,本調査は現在のシーングラフ研究を包括的に調査する。
より具体的には、まずシーングラフの一般的な定義を要約し、その後、事前知識の助けを借りてシーングラフ(sgg)とsggの生成方法に関する包括的かつ体系的な議論を行った。
次に、シーングラフの主な応用を調査し、最もよく使われるデータセットを要約した。
最後に,シーングラフの今後の展開について考察する。
これは将来のシーングラフ研究に非常に役立つ基盤になるだろうと考えています。 Scene graph is a structured representation of a scene that can clearly express the objects, attributes, and relationships between objects in the scene. As computer vision technology continues to develop, people are no longer satisfied with simply detecting and recognizing objects in images; instead, people look forward to a higher level of understanding and reasoning about visual scenes. For example, given an image, we want to not only detect and recognize objects in the image, but also know the relationship between objects (visual relationship detection), and generate a text description (image captioning) based on the image content. Alternatively, we might want the machine to tell us what the little girl in the image is doing (Visual Question Answering (VQA)), or even remove the dog from the image and find similar images (image editing and retrieval), etc. These tasks require a higher level of understanding and reasoning for image vision tasks. The scene graph is just such a powerful tool for scene understanding. Therefore, scene graphs have attracted the attention of a large number of researchers, and related research is often cross-modal, complex, and rapidly developing. However, no relatively systematic survey of scene graphs exists at present. To this end, this survey conducts a comprehensive investigation of the current scene graph research. More specifically, we first summarized the general definition of the scene graph, then conducted a comprehensive and systematic discussion on the generation method of the scene graph (SGG) and the SGG with the aid of prior knowledge. We then investigated the main applications of scene graphs and summarized the most commonly used datasets. Finally, we provide some insights into the future development of scene graphs. We believe this will be a very helpful foundation for future research on scene graphs. | 翻訳日:2023-04-07 20:51:30 公開日:2022-01-07 |
# 非エルミート系の久保公式とタキオン光伝導率 Kubo formula for non-Hermitian systems and tachyon optical conductivity ( http://arxiv.org/abs/2104.02428v3 ) ライセンス: Link先を確認 | Doru Sticlet and Bal\'azs D\'ora and C\u{a}t\u{a}lin Pa\c{s}cu Moca | (参考訳) 線形応答理論は物理学の様々な分野において顕著な役割を果たし、量子力学と古典系の力学に関する広範な情報を提供する。
ここでは,非ユニタリダイナミクスを持つ非エルミート系における線形応答の一般理論を開発し,任意の(エルミート系と非エルミート系)系の一般感受性と摂動に対する修正kubo公式を導出する。
応用として、時間依存電場によって摂動される虚数および実質量を持つ非エルミート次元1次元ディラックモデルの動的応答を評価する。
モデルには豊富な位相図があり、特に、励起が効果的な光速よりも速く移動するタキオン相が特徴である。
驚いたことに、タキオンのdc伝導度は有限であり、光学和則はすべての質量に対して完全に満足している。
本結果は,非エルミート系に対する久保公式の特異性を強調し,多種多様な設定に適用可能である。 Linear response theory plays a prominent role in various fields of physics and provides us with extensive information about the thermodynamics and dynamics of quantum and classical systems. Here we develop a general theory for the linear response in non-Hermitian systems with non-unitary dynamics and derive a modified Kubo formula for the generalized susceptibility for arbitrary (Hermitian and non-Hermitian) system and perturbation. As an application, we evaluate the dynamical response of a non-Hermitian, one-dimensional Dirac model with imaginary and real masses, perturbed by a time-dependent electric field. The model has a rich phase diagram, and in particular, features a tachyon phase, where excitations travel faster than an effective speed of light. Surprisingly, we find that the dc conductivity of tachyons is finite, and the optical sum rule is exactly satisfied for all masses. Our results highlight the peculiar properties of the Kubo formula for non-Hermitian systems and are applicable for a large variety of settings. | 翻訳日:2023-04-05 06:19:09 公開日:2022-01-07 |
# 位相空間におけるエントロピー絡み合い基準 Entropic entanglement criteria in phase space ( http://arxiv.org/abs/2106.08788v2 ) ライセンス: Link先を確認 | Stefan Floerchinger and Martin G\"arttner and Tobias Haas and Oliver R. Stockdale | (参考訳) 量子状態の位相空間表現に対するエントロピー的不分離性基準を導出する。
境界位相空間分布の微分エントロピーを含む基準とは対照的に、我々の基準はフシミQ分布として知られる合同分布に基づいている。
この分布は、低温原子、回路QEDアーキテクチャ、フォトニックシステムで実験的にアクセス可能であり、限界の検出と比較して実用的な利点がある。
二階の基準が失敗する非ガウス状態のいくつかのクラスを考慮して、エントロピーアプローチの強みを例示します。
従来は検出不能であった領域の絡み合いを認証し,Husimi Q-distributionを用いて絡み合い検出を行う。 We derive entropic inseparability criteria for the phase space representation of quantum states. In contrast to criteria involving differential entropies of marginal phase space distributions, our criteria are based on a joint distribution known as the Husimi Q-distribution. This distribution is experimentally accessible in cold atoms, circuit QED architectures and photonic systems and bears practical advantages compared to the detection of marginals. We exemplify the strengths of our entropic approach by considering several classes of non-Gaussian states where second-order criteria fail. We show that our criteria certify entanglement in previously undetectable regions highlighting the strength of using the Husimi Q-distribution for entanglement detection. | 翻訳日:2023-03-26 13:08:22 公開日:2022-01-07 |
# 劣悪な環境への盗聴:量子ダーウィン主義、増幅、および客観的古典的現実の起源 Eavesdropping on the Decohering Environment: Quantum Darwinism, Amplification, and the Origin of Objective Classical Reality ( http://arxiv.org/abs/2107.00035v2 ) ライセンス: Link先を確認 | Akram Touil, Bin Yan, Davide Girolami, Sebastian Deffner, Wojciech H. Zurek | (参考訳) 「ある系の$\mathcal{S}$に関する情報は、その環境のフラグメント$\mathcal{F}$から抽出できるのか?」は量子ダーウィン主義の中心的な問題である。
これまでほとんどの回答は、$\mathcal{sf}$の量子相互情報や$\mathcal{s}$で符号化された古典的な情報を伝えるために$\mathcal{f}$のチャネル容量に束縛されたホールボに依存していた。
これらは、本当に必要なものに対する合理的な上限であるが、計算がずっと難しい -- フラグメントである$\mathcal{f}$ about $\mathcal{s}$のアクセス可能な情報である。
本稿では,これらすべてを計算可能な不完全なc-notゲートに基づくモデルについて考察し,目的とする古典現実の出現にその意味を論じる。
量子相互情報(quantum mutual information)やアクセス可能な情報(accessable information)の様々な境界など、関連する全ての量も同様の振る舞いを示す。
客観的古典的現実の出現に関連する制度では、これは不完全な c-not ゲートの品質や $\mathcal{e}$ のサイズに依存しないスケーリングを含み、$\mathcal{s}$ の初期状態からはほとんど独立している。 "How much information about a system $\mathcal{S}$ can one extract from a fragment $\mathcal{F}$ of the environment $\mathcal{E}$ that decohered it?" is the central question of Quantum Darwinism. To date, most answers relied on the quantum mutual information of $\mathcal{SF}$, or on the Holevo bound on the channel capacity of $\mathcal{F}$ to communicate the classical information encoded in $\mathcal{S}$. These are reasonable upper bounds on what is really needed but much harder to calculate -- the accessible information in the fragment $\mathcal{F}$ about $\mathcal{S}$. We consider a model based on imperfect c-not gates where all the above can be computed, and discuss its implications for the emergence of objective classical reality. We find that all relevant quantities, such as the quantum mutual information as well as various bounds on the accessible information exhibit similar behavior. In the regime relevant for the emergence of objective classical reality this includes scaling independent of the quality of the imperfect c-not gates or the size of $\mathcal{E}$, and even nearly independent of the initial state of $\mathcal{S}$. | 翻訳日:2023-03-24 07:54:51 公開日:2022-01-07 |
# Jaynes-Cummingsモデルと反Jaynes-Cummingsモデルに対する量子変形の影響 Effects of quantum deformation on the Jaynes-Cummings and anti-Jaynes-Cummings models ( http://arxiv.org/abs/2106.16244v2 ) ライセンス: Link先を確認 | Gustavo M. Uhdre and Danilo Cius and Fabiano M. Andrade | (参考訳) 非エルミート系の理論と量子変形の理論は、過去数十年で多くの注目を集めてきた。
一般に、非エルミートハミルトニアンはアドホックな方法で構成される。
ここでは、 (2+1) ディラック振動子を研究し、$\kappa$-deformed Poincar\'e-Hopf 代数の文脈において、ハミルトニアンはその非エルミートであるが真の固有値を持つことを示す。
非単純性は$\kappa$-deformed algebra に由来する。
Bermudez et al., Phys.の地図から。
rev. a 76, 041801(r) (2007) では、$\kappa$-jaynes-cummings と $\kappa$-anti-jaynes-cummings モデルを提案し、これは$\kappa$-deformed コンテキストにおいて、光学キャビティの量子化モードを持つ2レベルシステム間の相互作用を記述する。
この$\kappa$-deformationは、Zitterbewegungの周波数と、量子振動の崩壊と復活を修飾する。
特に、$z$方向の角運動量は、変形の直接の結果としてもはや保存されない。 The theory of non-Hermitian systems and the theory of quantum deformations have attracted a great deal of attention in the past decades. In general, non-Hermitian Hamiltonians are constructed by an ad hoc manner. Here, we study the (2+1) Dirac oscillator and show that in the context of the $\kappa$-deformed Poincar\'e-Hopf algebra its Hamiltonian is non-Hermitian but has real eigenvalues. The non-Hermiticity stems from the $\kappa$-deformed algebra. From the mapping in Bermudez et al., Phys. Rev. A 76, 041801(R) (2007), we propose the $\kappa$-Jaynes-Cummings and $\kappa$-anti-Jaynes-Cummings models, which describe an interaction between a two-level system with a quantized mode of an optical cavity in the $\kappa$-deformed context. We find that the $\kappa$-deformation modifies the Zitterbewegung frequencies and the collapses and revivals of quantum oscillations. In particular, the total angular momentum in the $z$ direction is not conserved anymore, as a direct consequence of the deformation. | 翻訳日:2023-03-24 07:52:54 公開日:2022-01-07 |
# 軽量プラットフォームにおける協調量子現象 Cooperative quantum phenomena in light-matter platforms ( http://arxiv.org/abs/2107.02674v3 ) ライセンス: Link先を確認 | Michael Reitz, Christian Sommer, Claudiu Genes | (参考訳) 量子協力性は、量子エミッタアンサンブルが制限された光モードと相互作用し、ユビキタスな電磁量子真空を介して結合される光マッタープラットフォームにおいて明らかである。
協調効果は、他の分野、トポロジカル量子光学、量子論、量子情報における応用を見出すことができる。
このチュートリアルは、マスター方程式や量子ランゲヴィン方程式のようなオープン量子系力学の手法を強い結合と相関の量子エミッターアンサンブルにおける電子-光子相互作用に拡張することにより、協調性の開始に責任を負う行動に取り組むための理論的ツールセットを提供する。
これらの手法は、ナノスケールコヒーレント光源の設計、高反射性量子準曲面、低キャビティパワー超放射光レーザーなど、様々な研究トピックで説明されている。
解析的アプローチは同一の2レベル量子エミッタのアンサンブルのために開発され、周波数障害や振動結合を考慮したより複雑なシステムに拡張される。
アプローチの関連性は、光学格子の原子から固体環境の量子ドットや分子システムまで様々である。 Quantum cooperativity is evident in light-matter platforms where quantum emitter ensembles are interfaced with confined optical modes and are coupled via the ubiquitous electromagnetic quantum vacuum. Cooperative effects can find applications, among other areas, in topological quantum optics, in quantum metrology or in quantum information. This tutorial provides a set of theoretical tools to tackle the behavior responsible for the onset of cooperativity by extending open quantum system dynamics methods, such as the master equation and quantum Langevin equations, to electron-photon interactions in strongly coupled and correlated quantum emitter ensembles. The methods are illustrated on a wide range of current research topics such as the design of nanoscale coherent light sources, highly-reflective quantum metasurfaces or low intracavity power superradiant lasers. The analytical approaches are developed for ensembles of identical two-level quantum emitters and then extended to more complex systems where frequency disorder or vibronic couplings are taken into account. The relevance of the approach ranges from atoms in optical lattices to quantum dots or molecular systems in solid-state environments. | 翻訳日:2023-03-23 06:41:03 公開日:2022-01-07 |
# 無ノイズ減衰後の量子状態のコヒーレンス Coherence of Quantum States after Noiseless Attenuation ( http://arxiv.org/abs/2107.04582v3 ) ライセンス: Link先を確認 | S.U. Shringarpure, C.M. Nunn, T.B. Pittman and J.D. Franson | (参考訳) ビームスプリッタを用いた量子状態の減衰はノイズとデコヒーレンスをもたらす。
ここでは, 遮蔽技術を用いて, 雑音やデコヒーレンスを伴わずに, schr\"odinger cat state やスクイズド真空状態の減衰 [mi\v{c}uda et al., phys] を行うことができることを示す。
Rev. Lett.
109, 180503 (2012)].
ノイズのない減衰は、圧縮真空状態のような非古典状態の量子干渉効果も保存する。 Attenuating a quantum state using a beam splitter will introduce noise and decoherence. Here we show that heralding techniques can be used to attenuate Schr\"odinger cat states and squeezed vacuum states without any noise or decoherence [Mi\v{c}uda et al., Phys. Rev. Lett. 109, 180503 (2012)]. Noiseless attenuation also preserves quantum interference effects in nonclassical states such as squeezed vacuum states. | 翻訳日:2023-03-22 23:41:28 公開日:2022-01-07 |
# qtraj 1.0:重クォーコニウムダイナミクスのためのlindblad方程式解法 QTRAJ 1.0: A Lindblad equation solver for heavy-quarkonium dynamics ( http://arxiv.org/abs/2107.06147v2 ) ライセンス: Link先を確認 | Hisham Ba Omar, Miguel \'Angel Escobedo, Ajaharul Islam, Michael Strickland, Sabin Thapa, Peter Vander Griend, and Johannes Heinrich Weber | (参考訳) 我々は,量子軌道アルゴリズムを用いて重クォーコニウムダイナミクスのリンドブラッド方程式を解く,qtrajと呼ばれるオープンソースパッケージを導入する。
このパッケージは、3+1次元流体力学シミュレーションから外部に供給された入力を使って重クォークニウム状態の抑制をシミュレートすることができる。
このコードは、複数スレッドのオープンソースFFTW3パッケージを用いて実装された、ジャンプ間の波動関数を更新するための分割ステップ擬似スペクトル法を用いている。
これにより、実数値ポテンシャルを使用するとき、明らかなユニタリ進化が可能である。
本稿では,QTraj 1.0の詳細なドキュメンテーション,インストール手順,コードのさまざまなテストとベンチマークについて述べる。 We introduce an open-source package called QTraj that solves the Lindblad equation for heavy-quarkonium dynamics using the quantum trajectories algorithm. The package allows users to simulate the suppression of heavy-quarkonium states using externally-supplied input from 3+1D hydrodynamics simulations. The code uses a split-step pseudo-spectral method for updating the wave-function between jumps, which is implemented using the open-source multi-threaded FFTW3 package. This allows one to have manifestly unitary evolution when using real-valued potentials. In this paper, we provide detailed documentation of QTraj 1.0, installation instructions, and present various tests and benchmarks of the code. | 翻訳日:2023-03-22 11:35:58 公開日:2022-01-07 |
# ボソニック誤り訂正とテレポーテーションに基づく連続可変量子リピータ:アーキテクチャと応用 Continuous-variable quantum repeaters based on bosonic error-correction and teleportation: architecture and applications ( http://arxiv.org/abs/2109.07086v2 ) ライセンス: Link先を確認 | Bo-Han Wu, Zheshen Zhang and Quntao Zhuang | (参考訳) 量子リピータは、量子コンピュータやセンサーなどの遠方の量子モジュールをリンクする量子ネットワークの重要な構成要素である。
分散量子コンピューティングと通信により、離散可変量子情報を中継する量子リピータが広く研究され、連続可変(CV)量子情報は様々な量子センシングおよび通信アプリケーションを支える一方で、真のCV量子情報のための量子リピータアーキテクチャはほとんど探索されていない。
本稿では,gottesman-kitaev-preskill (gkp)符号を用いたcv量子テレポーテーションに基づくcv量子レピータアーキテクチャについて述べる。
設計されたCV量子リピータアーキテクチャは、量子通信およびセンシングの代表的な3つのユースケースとして、CV量子鍵分布、絡み合い支援通信、および量子照明に基づくターゲット検出の性能を著しく向上させる。 Quantum repeaters are essential ingredients for quantum networks that link distant quantum modules such as quantum computers and sensors. Motivated by distributed quantum computing and communication, quantum repeaters that relay discrete-variable quantum information have been extensively studied; while continuous-variable (CV) quantum information underpins a variety of quantum sensing and communication application, a quantum-repeater architecture for genuine CV quantum information remains largely unexplored. This paper reports a CV quantum-repeater architecture based on CV quantum teleportation assisted by the Gottesman-Kitaev-Preskill (GKP) code to significantly suppress the physical noise. The designed CV quantum-repeater architecture is shown to significantly improve the performance of CV quantum key distribution, entanglement-assisted communication, and target detection based on quantum illumination, as three representative use cases for quantum communication and sensing. | 翻訳日:2023-03-15 00:57:08 公開日:2022-01-07 |
# 非射影量子ビット計測へのホロデッキー基準の一般化 Generalising the Horodecki criterion to nonprojective qubit measurements ( http://arxiv.org/abs/2109.09890v3 ) ライセンス: Link先を確認 | Michael J. W. Hall and Shuming Cheng | (参考訳) ホロデキの基準は、クレーター=ホルン=シモニー=ホルト(CHSH)の不等式に違反してベル非局所性を示す2ビット状態に必要な条件を提供する。
しかし、各キュービット上で適切な射影測定が可能であるという仮定が必要であり、ノイズや弱い測定が望ましいか避けられないシナリオには不十分である。
強度, バイアス, 方向パラメータの2値キュービット観測変数を特徴付けることにより, 各観測者に対して一定の強度と相対角度を有する任意のキュービット測定に必要な条件を提供することで, このようなシナリオに対処する。
特に,任意の状態における偏りのない測定に対するchshパラメータの到達可能な最大値と,最大混合辺数を持つ状態の任意の測定値を見いだし,場合によっては最適角度を決定する。
また, 一定の測定強度において, 偏差測定によりCHSHの不等式を破ることは不可能であることを示した。
最後に、CHSH不等式を用いて、2つのキュービット可観測体の整合性に必要な簡単な条件を得る。 The Horodecki criterion provides a necessary and sufficient condition for a two-qubit state to be able to manifest Bell nonlocality via violation of the Clauser-Horne-Shimony-Holt (CHSH) inequality. It requires, however, the assumption that suitable projective measurements can be made on each qubit, and is not sufficient for scenarios in which noisy or weak measurements are either desirable or unavoidable. By characterising two-valued qubit observables in terms of strength, bias, and directional parameters, we address such scenarios by providing necessary and sufficient conditions for arbitrary qubit measurements having fixed strengths and relative angles for each observer. In particular, we find the achievable maximal values of the CHSH parameter for unbiased measurements on arbitrary states, and, alternatively, for arbitrary measurements on states with maximally-mixed marginals, and determine the optimal angles in some cases. We also show that for certain ranges of measurement strengths it is only possible to violate the CHSH inequality via biased measurements. Finally, we use the CHSH inequality to obtain a simple necessary condition for the compatibility of two qubit observables. | 翻訳日:2023-03-14 03:37:29 公開日:2022-01-07 |
# ノイズ推定を伴わない雑音量子振幅推定 Noisy quantum amplitude estimation without noise estimation ( http://arxiv.org/abs/2110.04258v3 ) ライセンス: Link先を確認 | Tomoki Tanaka, Shumpei Uno, Tamiya Onodera, Naoki Yamamoto, Yohichi Suzuki | (参考訳) 多くの量子アルゴリズムは重要なサブルーチン、量子振幅推定を含む。
名前が示すように、これは本質的にパラメータ推定問題であり、確立された統計推定理論によって処理できる。
しかし、この問題は、システム、すなわち実際の量子コンピューティング装置が必然的に未知のノイズをもたらすという本質的な困難を抱えており、確率分布モデルは、多くの無意味なノイズパラメータを組み込む必要があり、最適な推定器の構築は非効率的で困難になる。
そこで本研究では, ニュアサンスパラメータ(特にパラメータ直交法)の理論を適用し, 他のニュアザンスノイズパラメータを除去し, 目標振幅パラメータのみの最大確率推定器を高精度に計算する。
すなわち,雑音パラメータを推定することなく振幅パラメータを推定できる。
数値シミュレーションにおいてパラメータ直交法を検証し,実超伝導量子デバイスを用いた実験における推定器の性能について検討した。 Many quantum algorithms contain an important subroutine, the quantum amplitude estimation. As the name implies, this is essentially the parameter estimation problem and thus can be handled via the established statistical estimation theory. However, this problem has an intrinsic difficulty that the system, i.e., the real quantum computing device, inevitably introduces unknown noise; the probability distribution model then has to incorporate many nuisance noise parameters, resulting that the construction of an optimal estimator becomes inefficient and difficult. For this problem, we apply the theory of nuisance parameters (more specifically, the parameter orthogonalization method) to precisely compute the maximum likelihood estimator for only the target amplitude parameter, by removing the other nuisance noise parameters. That is, we can estimate the amplitude parameter without estimating the noise parameters. We validate the parameter orthogonalization method in a numerical simulation and study the performance of the estimator in the experiment using a real superconducting quantum device. | 翻訳日:2023-03-12 00:54:49 公開日:2022-01-07 |
# 運動誘起スピン移動 Motion-induced spin transfer ( http://arxiv.org/abs/2110.05871v2 ) ライセンス: Link先を確認 | Daigo Oue, Mamoru Matsuo | (参考訳) 慣性運動によって誘導されるスピン輸送を提案する。
我々のシステムは2つのホスト媒体と、その間に狭い真空ギャップからなる。
ホストの1つは、他のホストと比較して一定の速度で滑ります。
この機械的運動はドップラー効果を引き起こし、移動媒体内の状態密度と非平衡分布関数が変化する。
これらのシフトは2つの媒体間の分布関数の差を誘導し、トンネルスピン電流を生じさせる。
スピン電流は、ハミルトニアンをスピントンネルするシュウィンガー・ケルディシュ形式から計算される。
この方式では温度差、電圧、化学ポテンシャルは必要としない。 We propose a spin transport induced by inertial motion. Our system is composed of two host media and a narrow vacuum gap in between. One of the hosts is sliding at a constant speed relative to the other. This mechanical motion causes the Doppler effect that shifts the density of states and the nonequilibrium distribution function in the moving medium. Those shifts induce the difference in the distribution function between the two media and result in tunnelling spin current. The spin current is calculated from the Schwinger-Keldysh formalism with a spin tunnelling Hamiltonian. This scheme does not require either temperature difference, voltage or chemical potential. | 翻訳日:2023-03-11 17:00:36 公開日:2022-01-07 |
# Magnon Bose-Einstein Condensateに基づく量子ビット論理の古典的アナログ Classical analog of qubit logic based on a magnon Bose-Einstein condensate ( http://arxiv.org/abs/2111.06798v2 ) ライセンス: Link先を確認 | Morteza Mohseni, Vitaliy I. Vasyuchka, Victor S. L'vov, Alexander A. Serga, and Burkard Hillebrands | (参考訳) 室温イットリウム-鉄-ガーネット磁性薄膜において, 対向波ベクトルに生成する2成分マグノンボース-アインシュタイン凝縮体を用いて, 量子ビット(量子ビット)の古典的機能を示す。
これら2つの凝縮体のマクロ波動関数は、単一の量子ビットの古典的対となる系を形成する正則基底状態として機能する。
Gross-Pitaevskii方程式の解法とマイクロ磁気シミュレーションを用いて、まず、波動ベクトル選択パラメトリックポンプの適用により、マグノンガスの2つの最低エネルギー状態の1つに1つの凝縮物しか形成できないという基礎状態の1つでシステムを初期化する方法を示す。
次に、ラビ振動の概念をウェーブベクター領域に変換することにより、ブロッホ球表現の極軸に沿ってマグノン-BEC系を操作する方法を示す。
また, 方位角の操作についても考察する。 We present a classical version of several quantum bit (qubit) functionalities using a two-component magnon Bose-Einstein condensate formed at opposite wavevectors in a room-temperature yttrium-iron-garnet ferrimagnetic film. The macroscopic wavefunctions of these two condensates serve as orthonormal basis states that form a system being a classical counterpart of a single qubit. Solving the Gross-Pitaevskii equation and employing micromagnetic numerical simulations, we first show how to initialize the system in one of the basis states: the application of wavevector-selective parallel parametric pumping allows us to form only a single condensate in one of the two lowest energy states of the magnon gas. Next, by translating the concept of Rabi-oscillations into the wavevector domain, we demonstrate how to manipulate the magnon-BEC system along the polar axis in the Bloch sphere representation. We also discuss the manipulation regarding the azimuthal angle. | 翻訳日:2023-03-08 07:42:55 公開日:2022-01-07 |
# 量子ニューラルネットワークにおけるスクランブルの定量化 Quantifying scrambling in quantum neural networks ( http://arxiv.org/abs/2112.01440v2 ) ライセンス: Link先を確認 | Roy J. Garcia, Kaifeng Bu, Arthur Jaffe | (参考訳) 我々は,ネットワークのスクランブル特性の観点から量子ニューラルネットワークの誤りを,時間外のコリレータを用いて特徴付ける。
損失関数またはコスト関数を最適化することにより、ネットワークを訓練することができる。
確率的に、両方の関数は時間外のコリケータによって境界づけられることを示す。
これらの関数の勾配は、時間外のコリレータの勾配によって境界づけられ、ネットワークのスクランブル能力がそのトレーサビリティを制御することを示している。
我々の結果は、量子ニューラルネットワークにおける量子カオスの探索の道を開いた。 We characterize a quantum neural network's error in terms of the network's scrambling properties via the out-of-time-ordered correlator. A network can be trained by optimizing either a loss function or a cost function. We show that, with some probability, both functions can be bounded by out-of-time-ordered correlators. The gradients of these functions can be bounded by the gradient of the out-of-time-ordered correlator, demonstrating that the network's scrambling ability governs its trainability. Our results pave the way for the exploration of quantum chaos in quantum neural networks. | 翻訳日:2023-03-06 02:10:43 公開日:2022-01-07 |
# ブラックホール測地における相関の相転移 Phase Transitions of Correlations in Black Hole Geometries ( http://arxiv.org/abs/2112.09704v2 ) ライセンス: Link先を確認 | Sristy Agrawal, Oliver DeWolfe, Joshua Levin, Graeme Smith | (参考訳) 本研究では, 基本エントロピー式を一般化する量子相関式を, ブラックホール地平線を持つ時空に双対する2次元熱状態において, 最適化された相関測度のホログラム的実現について検討する。
対称二部相関法は, 純度, Q-相関, R-相関, Squashed 絡み合いの絡み合い, 相互情報, 非最適化相関測度, および境界領域サイズとブラックホール半径のパラメータ空間上でそれらの幾何学的双対を実現するバルク面配置を同定する。
このパラメータ空間は、これらのバルク面構成の所定の位相に関連する位相に分けられ、バルク面の新しい位相が好まれるにつれて一階の位相遷移が起こる。
異なる位相は、境界領域と熱環境の間の異なる相関度に関連付けることができる。
Q-相関は最もリッチな振舞いを持ち、ネスト最適化の構造は、2つの位相的に異なるバルク面の構成を位相図の一般点における幾何学的双対として等しく有効に導く。 We study the holographic realization of optimized correlation measures -- measures of quantum correlation that generalize elementary entropic formulas -- in two-dimensional thermal states dual to spacetimes with a black hole horizon. We consider the symmetric bipartite optimized correlation measures: the entanglement of purification, Q-correlation, R-correlation, and squashed entanglement, as well as the mutual information, a non-optimized correlation measure, and identify the bulk surface configurations realizing their geometric duals over the parameter space of boundary region sizes and the black hole radius. This parameter space is divided into phases associated with given topologies for these bulk surface configurations, and first-order phase transitions occur as a new topology of bulk surfaces becomes preferred. The distinct phases can be associated with different degrees of correlation between the boundary regions and the thermal environment. The Q-correlation has the richest behavior, with a structure of nested optimizations leading to two topologically distinct bulk surface configurations being equally valid as geometric duals at generic points in the phase diagram. | 翻訳日:2023-03-04 07:01:19 公開日:2022-01-07 |
# ネスティング二重量子ビットのアルゴリズムと回路 Algorithm and Circuit of Nesting Doubled Qubits ( http://arxiv.org/abs/2201.00256v2 ) ライセンス: Link先を確認 | Artyom M. Grigoryan and Sos S. Agaian | (参考訳) 量子状態のコピーは古典情報処理と矛盾するが、古典情報と量子情報の基本的な違いは、古典情報を完璧にコピーできるが、量子情報は複製できないことである。
しかし、このステートメントは量子状態のセットを再現できるデバイスを構築するリスクを無視するものではない。
本稿では、状態の任意の量子重ね合わせをどれだけうまくコピーし測定できるかという自然に生じる問題について考察する。
CNOTおよびXOR演算に基づく量子回路は状態の絡み合いを示し、二重量子ビットの測定を可能にする。 Copying the quantum states is contradictory to classical information processing since the fundamental difference between classical and quantum information is that while classical information can be copied perfectly, quantum information cannot. However, this statement does not rule out the risk of building a device that can reproduce a set of quantum states. This paper investigates the naturally arising question of how well or under what conditions one can copy and measure an arbitrary quantum superposition of states. The CNOT and XOR operation-based quantum circuit is presented that exhibits entanglement of states and allows for measuring the doubled qubits. | 翻訳日:2023-03-02 17:14:58 公開日:2022-01-07 |
# 強く相互作用する1次元量子ガス:厳密な解 Strongly interacting trapped one-dimensional quantum gases: an exact solution ( http://arxiv.org/abs/2201.02362v1 ) ライセンス: Link先を確認 | Anna Minguzzi and Patrizia Vignolo | (参考訳) 量子相関は、量子コンピューティングのリソース、例えば量子状態操作、量子センシングのリソース、例えば量子優位性を実現するための古典的でない状態を生成するリソースとして利用することができる。
このレビューでは、強い相関の強い量子流体の多体波動関数を、タイトな導波管に閉じ込められ、任意の形の長手閉じ込めを受けることができる、正確な解の族からの予測を収集する。
これは1次元の強い相関関係が達成された超低温原子の実験を直接記述している。
正確な解はボソン、フェルミオン、混合物に適用される。
密度分布や運動量分布など、あらゆる運動量スケールで、ルッティンガー液体のアプローチを超越した実験的な観測が可能となる。
また、システムの集合モードを生成する小さな振動規則や、システムパラメータがかなり変化する大きなクエンチ規則など、常に正確な量子力学を予測する。
溶液は有限温度条件、スピンおよび磁化効果を記述するために拡張することができる。
このレビューでは、この解のアイデアを詳述し、重要な理論的成果と強い相関のある1次元量子気体の主実験を提示する。 Quantum correlations can be used as a resource for quantum computing, eg for quantum state manipulation, and for quantum sensing, eg for creating non-classical states which allow to achieve the quantum advantage regime. This review collects the predictions coming from a family of exact solutions which allows to describe the many-body wavefunction of strongly correlated quantum fluids confined by a tight waveguide and subjected to any form of longitudinal confinement. It directly describes the experiments with trapped ultracold atoms where the strongly correlated regime in one dimension has been achieved. The exact solution applies to bosons, fermions and mixtures. It allows to obtain experimental observables such as the density profiles and momentum distribution at all momentum scales, beyond the Luttinger liquid approach. It also predicts the exact quantum dynamics at all the times, including the small oscillations regime yielding the collective modes of the system and the large quench regime where the system parameters are changed considerably. The solution can be extended to describe finite-temperature conditions, spin and magnetization effects. The review illustrates the idea of the solution, presents the key theoretical achievements and the main experiments on strongly correlated one-dimensional quantum gases. | 翻訳日:2023-03-02 01:37:16 公開日:2022-01-07 |
# 力学系の射影埋め込み:一様平均場方程式 Projective Embedding of Dynamical Systems: uniform mean field equations ( http://arxiv.org/abs/2201.02355v1 ) ライセンス: Link先を確認 | Francesco Caravelli, Fabio L. Traversa, Michele Bonnin, Fabrizio Bonani | (参考訳) 連続力学系のより広い次元への埋め込みを射影作用素を通して研究する。
我々は, この手法を, 高次元空間からの射影により, 動的系の安定な固定点が回収されるため, 動的系の射影埋め込みであるPEDSと呼ぶ。
本稿では,一様平均場プロジェクタであるランク1の特定の種類のプロジェクタ作用素に対して,運動方程式が力学系の平均場近似となることを証明する。
一般に、埋め込みは指定された変数順序に依存するが、一様平均体プロジェクタではそうではない。
さらに、元の安定不動点が力学の安定不動点であり、サドル点がサドルでありながら不安定不動点がサドルとなることを証明した。 We study embeddings of continuous dynamical systems in larger dimensions via projector operators. We call this technique PEDS, projective embedding of dynamical systems, as the stable fixed point of the dynamics are recovered via projection from the higher dimensional space. In this paper we provide a general definition and prove that for a particular type of projector operator of rank-1, the uniform mean field projector, the equations of motion become a mean field approximation of the dynamical system. While in general the embedding depends on a specified variable ordering, the same is not true for the uniform mean field projector. In addition, we prove that the original stable fixed points remain stable fixed points of the dynamics, saddle points remain saddle, but unstable fixed points become saddles. | 翻訳日:2023-03-02 01:36:55 公開日:2022-01-07 |
# ピーアセスメントがグループ学習活動に及ぼす影響に関する研究 The Study of Peer Assessment Impact on Group Learning Activities ( http://arxiv.org/abs/2201.02344v1 ) ライセンス: Link先を確認 | Zhiyuan Chen, Soon Boon Lee, Shazia Paras Shaikh and Mirza Rayana Sanzana | (参考訳) 講演者による評価と比較すると,ピアアセスメントはより包括的な学習プロセスであり,関連する問題が多く発生している。
本研究では,グループ学習活動におけるピアアセスメントの効果について検討し,ピアアセスメントプロセスの実践と質を高めるために,完全かつ体系的なレビューを行う。
パイロット調査を行い,調査,フォーカスグループインタビュー,アンケートの形式を採った。
予備調査では582名の学生と276名の回答を得て47.4%の回答を得た。
その結果、37%の学生がグループワークよりも個別の仕事を選ぶことがわかった。
ケーススタディでは、28人の学生の82.1%が、コミュニケーションツールとしてFacebookを使ってグループで仕事をしている。
89.3%の学生はグループワークを通じてスキルを発揮でき、82.1%の学生は、ピアアセスメントはfacebookの助けを借りて自己帰結の証明として公平な評価方法であると同意している。
グループワークを快適な体験にするための提案は,フリーローダの識別と対処,留学生への功績の付与,建設的なフィードバックの与え方に関する学生の教育,アセスメントをすべての人に透過させることである。 Comparing with lecturer marked assessments, peer assessment is a more comprehensive learning process and many of the associated problems have occurred. In this research work, we study the peer-assessment impact on group learning activities in order to provide a complete and systematic review, increase the practice and quality of the peer assessment process. Pilot studies were conducted and took the form of surveys, focus group interviews, and questionnaires. Prelimi-nary surveys were conducted with 582 students and 276 responses were received, giving a response rate of 47.4%. The results show 37% student will choose individual work over group work if given the choice. In the case study, 82.1% of the total of 28 students have en-joyed working in a group using Facebook as communication tools. 89.3% of the students can demonstrate their skills through group-working and most importantly, 82.1% of them agree that peer assess-ment is an impartial method of assessment with the help of Facebook as proof of self-contribution. Our suggestions to make group work a pleasant experience are by identifying and taking action against the freeloader, giving credit to the deserving students, educating students on how to give constructive feedback and making the assessment pro-cess transparent to all. | 翻訳日:2023-03-02 01:36:43 公開日:2022-01-07 |
# 例外的クラウチョーク多項式に付随する経路の古典的および量子的ウォーク Classical and quantum walks on paths associated with exceptional Krawtchouk polynomials ( http://arxiv.org/abs/2201.02337v1 ) ライセンス: Link先を確認 | Hiroshi Miki, Satoshi Tsujimoto, Luc Vinet | (参考訳) いくつかの有限経路上の古典的および量子的ウォークが導入された。
これらのウォークは例外的クラスチョーク多項式の項で明示的な解を持ち、それらの性質を探求する。
特に、分数再生は対応する量子ウォークで起こることが示されている。 Classical and quantum walks on some finite paths are introduced. It is shown that these walks have explicit solutions given in terms of exceptional Krawtchouk polynomials and their properties are explored. In particular, fractional revival is shown to take place in the corresponding quantum walks. | 翻訳日:2023-03-02 01:36:21 公開日:2022-01-07 |
# 曲線時空における三部構造非局所性と絡み合い Genuine tripartite nonlocality and entanglement in curved spacetime ( http://arxiv.org/abs/2201.02333v1 ) ライセンス: Link先を確認 | Shu-Min Wu, Hao-Sheng Zeng | (参考訳) 我々は、シュワルツシルトブラックホールの背景にあるディラック場の真の三部体非局所性(GTN)と真の三部体絡み(GTE)を研究する。
ホーキング放射は物理的にアクセス可能なGTNと物理的にアクセス可能なGTEの両方を劣化させる。
前者はいくつかの臨界ホーキング温度で「沈死」に悩まされ、後者は無限のホーキング温度の極限における非ゼロ漸近値に近づいた。
また、ホーキング効果は物理的に到達不能なGTNを生成することはできないが、曲線時空におけるフェルミオン場に対する物理的に到達不能なGTEを生成することができる。
これらの結果から、gtn はブラックホールの事象の地平線を通過できないが、gte は可能であり、一方、曲がった時空のフェルミオンに対する物理的にアクセスできない gte や物理的にアクセスできない gte は全て局所的ではないことが示されている。
物理的にアクセス不能なGTEと物理的にアクセス不能なGTEとの間のいくつかのモノガミー関係が発見されている。 We study the genuine tripartite nonlocality (GTN) and the genuine tripartite entanglement (GTE) of Dirac fields in the background of a Schwarzschild black hole. We find that the Hawking radiation degrades both the physically accessible GTN and the physically accessible GTE. The former suffers from "sudden death" at some critical Hawking temperature, and the latter approaches to the nonzero asymptotic value in the limit of infinite Hawking temperature. We also find that the Hawking effect cannot generate the physically inaccessible GTN, but can generate the physically inaccessible GTE for fermion fields in curved spacetime. These results show that on the one hand the GTN cannot pass through the event horizon of black hole, but the GTE do can, and on the other hand the surviving physically accessible GTE and the generated physically inaccessible GTE for fermions in curved spacetime are all not nonlocal. Some monogamy relations between the physically accessible GTE and the physically inaccessible GTE are found. | 翻訳日:2023-03-02 01:36:16 公開日:2022-01-07 |
# テキスト実験から実験テキストへ:「人工知能文学」における表現的反復 From Textual Experiments to Experimental Texts: Expressive Repetition in "Artificial Intelligence Literature" ( http://arxiv.org/abs/2201.02303v1 ) ライセンス: Link先を確認 | Tianhua Zhu | (参考訳) 70年前の人工知能の誕生以来、コンピュータによる文学的「創造」の試みが技術発展の過程で行われており、ai文学(artificial intelligence literature)と呼ばれるものを生み出している。
技術者による「テキスト実験」から文学の概念の可能性を探る「実験的なテキスト」まで、AI文学は機械思考、テキスト生成、機械創造といった原始的な問題を統合し、社会思想と技術の間の双方向の相互作用を示す。
初期の段階では、技術パスと芸術的アイデアの相互サポートは失敗に終わったが、現代の技術的文脈ではAI駆動による表現的反復が実現可能となり、AI文学の技術的可能性の証明から文学的価値の自己検証への転換の道が開かれた。 Since the birth of artificial intelligence 70 years ago, attempts at literary "creation" with computers are present in the course of technological development, creating what one might call "artificial intelligence literature" (AI literature). Evolving from "textual experiments" conducted by technologists to "experimental texts" that explore the possibilities of conceptions of literature, AI literature integrates primitive problems including machine thinking, text generation, and machine creativity, which exhibits the two-way interaction between social ideas and technology. In the early stage, the mutual support between technological path and artistic ideas turned out to be a failure, while AI-driven expressive repetitions are made probable in the contemporary technological context, paving the way for the transformation of AI literature from proof for technical possibilities to self-verification of literary value. | 翻訳日:2023-03-02 01:35:39 公開日:2022-01-07 |
# 単一エミッタからマクロデバイスへの熱的, 量子的アンチバンチおよび溶出しきい値」に対するコメントへの回答 Reply to the Comment on "Thermal, quantum antibunching and lasing thresholds from single emitters to macroscopic devices" ( http://arxiv.org/abs/2201.02468v1 ) ライセンス: Link先を確認 | Mark Anthony Carroll, Giampaolo D'Alessandro, Gian Luca Lippi, Gian-Luca Oppo and Francesco Papoff | (参考訳) Carroll氏らへのコメントを分解し、対処します。
[arXiv:2106.15242v1]と [arXiv:2106.15242v2]の2つのバージョンとして、arXivに掲載されている[Phys Rev Lett 126, 063902 (2021)] (PRL)]
このコメントは、PRLで提示されたモデルの項が誤って省略されたため、PRLのモデルによって予測されるレーザー閾値は達成不可能であると主張した。
PRLでモデル化されたデバイスでは観測不可能な集団効果を示すため,問題の用語は正しく無視された。
さらに、たとえこの用語を含めるとしても、コメントの主張とは対照的に、レーザー閾値は依然として存在するだろう。
PRLで提示されたモデルは正確であり、その結果は革新的であり、レーザー物理学や量子光学において広く応用されている。 We deconstruct and address a comment to Carroll et al. [Phys Rev Lett 126, 063902 (2021)] (PRL) that has been posted on arXiv appearing as two versions [arXiv:2106.15242v1] and [arXiv:2106.15242v2]. This comment claimed that a term in the model presented in the PRL had been incorrectly omitted and that, hence, the laser threshold predicted by the model in the PRL is unattainable. We show that the term in question was correctly neglected because it represents collective effects that are not observable in the devices modelled in the PRL. Moreover, even if this term were to be included, the laser threshold would still be present, contrary to what was claimed in the comment. We conclude that the model presented in PRL is correct and that its results are innovative and of wide application in laser physics and quantum optics. | 翻訳日:2023-03-02 01:29:12 公開日:2022-01-07 |
# 通信波長における純かつ識別不能な単一光子源 A Pure and indistinguishable single-photon source at telecommunication wavelength ( http://arxiv.org/abs/2201.02465v1 ) ライセンス: Link先を確認 | Beatrice Da Lio, Carlos Faurby, Xiaoyan Zhou, Ming Lai Chan, Ravitej Uppu, Henri Thyrrestrup, Sven Scholz, Andreas D. Wieck, Arne Ludwig, Peter Lodahl, Leonardo Midolo | (参考訳) 電気通信波長で純粋で識別不可能な光子を放出するオンデマンド単一光子源は、ファイバーベースの量子ネットワークの展開にとって重要な資産である。
実際、単一光子は飛行量子ビットとして機能し、長距離の量子情報の通信を可能にする。
GaAsに埋め込まれたInAs量子ドットは、高品質な単一光子の優れた決定論的源であるが、ほとんどの光源は900-950nmの範囲で動作し、量子ネットワークで採用される。
ここでは,量子ドットから通信Cバンドに単一光子を変換する量子周波数変換方式について述べる。これは約1550nmで,それぞれ$g^{(2)}(0)=2.4\%$,$V^{\text{corr}}=94.8\%$の値で変換中の高純度と高不連続性を両立させながら,40.8%のエンドツーエンド効率を実現している。 On-demand single-photon sources emitting pure and indistinguishable photons at the telecommunication wavelength are a critical asset towards the deployment of fiber-based quantum networks. Indeed, single photons may serve as flying qubits, allowing communication of quantum information over long distances. Self-assembled InAs quantum dots embedded in GaAs constitute an excellent nearly deterministic source of high quality single photons, but the vast majority of sources operate in the 900-950 nm wavelength range, precluding their adoption in a quantum network. Here, we present a quantum frequency conversion scheme for converting single photons from quantum dots to the telecommunication C band, around 1550 nm, achieving 40.8% end-to-end efficiency, while maintaining both high purity and a high degree of indistinguishability during conversion with measured values of $g^{(2)}(0)=2.4\%$ and $V^{\text{corr}}=94.8\%$, respectively. | 翻訳日:2023-03-02 01:28:51 公開日:2022-01-07 |
# U(1) ビットからの場:D-理論代数によるアプローチ U(1) Fields from Qubits: an Approach via D-theory Algebra ( http://arxiv.org/abs/2201.02412v1 ) ライセンス: Link先を確認 | David Berenstein, Richard Brower, Hiroki Kawai | (参考訳) 格子QCDハミルトニアンに対して新しい量子リンク構造が提案され、ウィルソンゲージリンクをフェルミオン量子ビットの双線型に置き換え、後にD-理論へと一般化した。
この形式主義は、量子コンピューティングのための格子場理論アルゴリズムを構築するための一般的なフレームワークを提供する。
主に、1つのコンパクトな U(1) 場に対する量子ローターの最も単純な場合に焦点を当てる。
u(1)のケースで開発されたアイデアが他のグループにも拡張されることを明確にします。
これらは 1+0 行列モデル、 1+1 シグマモデル、および 2+1 次元および 3+1 次元の非アベルゲージ理論の構成要素である。
U(1) 場の複数のフレーバーを導入することで、フレーバー対称性を測ることができ、フレーバーを増す量子 O(2) ローターの無限次元ヒルベルト空間に効率的に近づくことができる。
この方法の重点は、シグマ行列(またはハードボソン)によってフェルミオン量子ビットを交換するシンプレクティック代数を保存し、格子QCDや他の非アベリア1+1シグマモデルや1+3ゲージ理論のSU(3)場に一般化可能な形式戦略を開発することである。
U(1) に対して、離散 1+1 Sine-Gordon 方程式の研究のためのキュービットアルゴリズムを簡潔に議論する。 A new quantum link microstructure was proposed for the lattice QCD Hamiltonian, replacing the Wilson gauge links by a bilinear of fermionic qubits, later generalized to D-theory. This formalism provides a general framework for building lattice field theory algorithms for quantum computing. We focus mostly on the simplest case of a quantum rotor for a single compact U(1) field. We also make some progress for non-abelian setups, making it clear that the ideas developed in the U(1) case extend to other groups. These in turn are building blocks for 1+0 matrix models, 1+1 sigma models and non-Abelian gauge theories in 2+1 and 3+1 dimensions. By introducing multiple flavors for the U(1) field, where the flavor symmetry is gauged, we can efficiently approach the infinite-dimensional Hilbert space of the quantum O(2) rotor with increasing flavors. The emphasis of the method is on preserving the symplectic algebra exchanging fermionic qubits by sigma matrices (or hard bosons) and developing a formal strategy capable of generalization to SU(3) field for lattice QCD and other non-Abelian 1+1 sigma models or 1+3 gauge theories. For U(1) we discuss briefly the qubit algorithms for the study of the discrete 1+1 Sine-Gordon equation. | 翻訳日:2023-03-02 01:27:53 公開日:2022-01-07 |
# ハイブリッド量子古典的単位コミットメント Hybrid Quantum-Classical Unit Commitment ( http://arxiv.org/abs/2201.03701v1 ) ライセンス: Link先を確認 | Reza Mahroo, Amin Kargarian | (参考訳) 本稿では,単位コミットメント(UC)と呼ばれる基本電力系統問題を解決するためのハイブリッド量子古典アルゴリズムを提案する。
UC問題は、二次部分プロブレム、二次非制約バイナリ最適化(QUBO)サブプロブレム、および非制約二次部分プロブレムに分解される。
古典最適化解法は第1および第3サブプロブレムを解き、QUBOサブプロブレムは量子近似最適化アルゴリズム(QAOA)と呼ばれる量子アルゴリズムによって解かれる。
3つの部分問題は、3-block alternating direction method of multipliers algorithmを用いて反復的に調整される。
シミュレーション環境としてIBM Qシステム上でのQiskitを用いて,提案アルゴリズムの有効性を示す。 This paper proposes a hybrid quantum-classical algorithm to solve a fundamental power system problem called unit commitment (UC). The UC problem is decomposed into a quadratic subproblem, a quadratic unconstrained binary optimization (QUBO) subproblem, and an unconstrained quadratic subproblem. A classical optimization solver solves the first and third subproblems, while the QUBO subproblem is solved by a quantum algorithm called quantum approximate optimization algorithm (QAOA). The three subproblems are then coordinated iteratively using a three-block alternating direction method of multipliers algorithm. Using Qiskit on the IBM Q system as the simulation environment, simulation results demonstrate the validity of the proposed algorithm to solve the UC problem. | 翻訳日:2023-03-02 01:21:38 公開日:2022-01-07 |
# ゲルマテンおよび2次元グループIIIホスフィデスヘテロ二層膜の可変電子特性 Tunable electronic properties of germanene and two-dimensional group-III phosphides heterobilayers ( http://arxiv.org/abs/2201.02676v1 ) ライセンス: Link先を確認 | Md. Rayid Hasan Mojumder | (参考訳) 本研究では,ゲルマテン層の2次元構造を2次元基III型ホスフィド(AlP,GaP)で合成する。
AlPと低気泡GaPの平面構造を両層パターンとして用いた。
いずれの場合も3つの積み重ねパターンが考慮され,緩和された層間距離と結合エネルギーが報告されている。
約150から210 meVの範囲内に存在する結合エネルギーは、層間の弱いファンデルワールス相互作用の存在を示している。
ゲルマレンとこれらの2つのホスフィドを含むヘテロ構造は、層間距離を変化させたり、二軸圧縮および引張ひずみを組み込んだりすることで調整できる、200MeVから600MeV程度の大きな間接バンドギャップの開口を示す。
socで著しく変化する通常のバンドギャップは間接的なものであるが、層間距離バンドギャップを調整している間に、非対称点から対称ディラック錐へジャンプし、k点上で直接となる。
電荷担体は主に導電領域のゲルマニウムのp軌道に集中するため、ゲルマレンの電気的性質は維持され、キャリアはより高速なデバイス応答特性を提供する。
リン化物の影響がなければ、ゲルマゼン層を成長させるための基質となる。
また、ディラックコーンのバンドギャップが開き、ディラックコーン間のジャンプとsocトロポロジー絶縁体によるバンドギャップ変化が形成されるので、量子スピンホール効果が存在する可能性がある。 In this research work, the 2D structure of the germanene layer is compounded with 2D group-III phosphides: AlP and GaP. The planar structure of AlP and low-buckled GaP have been taken to form the bilayer patterns. In each case, three stacking patterns are considered, and their relaxed interlayer distance and binding energy have been reported. The binding energy being around in the range between ~150 to 210 meV shows the existence of weak van der Waals interactions between the layers. The heterostructures containing germanene and these two phosphides show an opening of a large indirect bandgap of magnitude range of ~200 meV to 600 meV, which can be tuned by changing interlayer distance and by incorporating bi-axial compressive and tensile strain. Although their normal bandgap, which significantly changes with SOC, is an indirect one, whilst tunning the interlayer distance band gap jumps from unsymmetrical point to symmetrical Dirac cones and becomes direct on K points. The charge carrier mostly concentrates on the p-orbitals of the germanene in the conduction regions; thus, the electrical properties of germanene will be retained, and the carrier will provide a much faster device response property. The absence of the phosphides influence makes them the intended substrate for growing the germanene layer on top of that. Again, due to the bandgap at Dirac cones being opened and jumps between the Dirac cones and band gap changes with SOC tropological insulator can be formed, and Quantum Spin Hall effect may exist. | 翻訳日:2023-03-02 01:21:24 公開日:2022-01-07 |
# 実験における少数コピーエンタングルメント検出の展望 A perspective on few-copy entanglement detection in experiments ( http://arxiv.org/abs/2201.02641v1 ) ライセンス: Link先を確認 | Valeria Saggio and Philip Walther | (参考訳) 有用な量子コンピュータの実現には大きな課題があるが、新興量子技術の急速な進歩は、この目標を現実的にアプローチ可能にする。
この文脈では、重要なリソースの1つは量子絡み合いであり、量子計算は従来の計算よりも優れている。
しかしながら、絡み合い検出のタスクは、いくつかの理由から必ずしも単純ではない。
主な課題の1つは、数量子ビット以上を含む量子状態を扱う場合、標準的な方法が急速に実現不可能になることである。
典型的には、これは状態の多くのコピーに膨大な量の測定が必要であるという事実によるものである。
一般に、実験的な設定で非常に限られた数の状態コピーを扱うことは珍しいことではない。
本稿では, 極めて少ない状態コピーを用いた高信頼真正多部絡み検出を実現するための確率論的アプローチの概要について述べる。
さらに、このプロトコルがノイズの存在下でも効率的であり続けることを示し、近距離量子デバイスのための方法の実用性と複雑な実験環境への適合性を確認した。 Although the realization of useful quantum computers poses significant challenges, swift progress in emerging quantum technologies is making this goal realistically approachable. In this context, one of the essential resources is quantum entanglement, which allows for quantum computations outperforming their classical counterparts. However, the task of entanglement detection is not always straightforward for several reasons. One of the main challenges is that standardly-used methods rapidly become unfeasible when dealing with quantum states containing more than a few qubits. Typically, this is due to the fact that a vast amount of measurements is needed on many copies of the state. Generally, it is not unusual to deal with a very limited number of state copies in experimental settings - in fact, this may be the case for many large quantum systems. In this article, an overview is provided of a probabilistic approach that enables high-confidence genuine multipartite entanglement detection using an exceptionally low number of state copies. Additionally, a study is presented that shows that this protocol remains efficient also in the presence of noise, thus confirming the practicality of the method for near-term quantum devices and its suitability for complex experimental settings. | 翻訳日:2023-03-02 01:20:21 公開日:2022-01-07 |
# Loschmidt echo と Poincar\e の絡み合いの再発 Loschmidt echo and Poincar\'e recurrences of entanglement ( http://arxiv.org/abs/2201.02600v1 ) ライセンス: Link先を確認 | Leonardo Ermann, Klaus M. Frahm and Dima L Shepelyansky | (参考訳) 量子チリコフ標準写像の量子カオス状態下で進化する2つの相互作用または非相互作用粒子の絡み合いの性質を数値的に研究する。
そのようなペアは、相互作用しないアインシュタイン-ポドルスキー-ローゼン対を量子カオス状態の相互作用と見なすことができる。
この分析は、Loschmidt echo of entanglementやPoincar\'e repeatences of entanglement in presence of absorptionなどのツールを用いて行われる。
その結果, 絡み合いのエントロピーとシュミット分解のスペクトルは, 異なる量子カオス状態における相互作用に依存することが明らかとなった。 We study numerically the properties of entanglement of two interacting, or noninteracting, particles evolving in a regime of quantum chaos in the quantum Chirikov standard map. Such pairs can be viewed as interacting, on noninteracting, Einstein-Podolsky-Rosen pairs in a regime of quantum chaos. The analysis is done with such tools as the Loschmidt echo of entanglement and the Poincar\'e recurrences of entanglement in presence of absorption. The obtained results show unusual features of the entropy of entanglement and the spectrum of Schmidt decomposition with their dependence on interactions at different quantum chaos regimes. | 翻訳日:2023-03-02 01:20:03 公開日:2022-01-07 |
# 任意個の逐次・独立な観測者によるリサイクル絡み検出 Recycled entanglement detection by arbitrarily many sequential and independent pairs of observers ( http://arxiv.org/abs/2201.02594v1 ) ライセンス: Link先を確認 | Mahasweta Pandit, Chirag Srivastava, Ujjwal Sen | (参考訳) 本研究では,各ペアの観測者が空間的に分離された実験室から共有状態のそれぞれの部分に独立に作用し,次に次のペアに量子ビットを渡すことによって,2ビットの絡み合った状態の連続的および独立的な観測者による観測を検証した。
以前は、1組以上のオブザーバーが同様の設定でクロージャ・ホーン・シモニー・ホルト「ベル・非ローカル」相関を検出できると推測されていた。
これは、一方の観測者が他方で複数の観測者と二部状態を共有することを許された場合に、任意に長いベル-非局所相関列を持つことができるため興味深い。
したがって、複数の観測者のシナリオにおいて、絡み合った相関が考慮されるときにそのような制限が存在するかどうかを問うことは興味深い。
2ビットの絡み合った状態は、連続的に独立して振る舞う2組の観測者によって、任意に絡み合う状態を何回も観察することができる。
我々は、列の最初のペアの観測者が純粋な絡み合った状態を共有したり、混合絡み合った状態のクラスから状態を共有するときに、その主張が正しいことを証明している。
また, この現象は, 絡み合いを目撃する観測ペアの任意に長い列が, 消滅する傾向にある初期絡み合い内容の限界に到達した, ある種類の絡み合い状態に対しても観測可能であることを示す。 We investigate the witnessing of two-qubit entangled states by sequential and independent pairs of observers, with both observers of each pair acting independently on their part of the shared state from spatially separated laboratories, and subsequently passing their qubits to the next pair in the sequence. It has previously been conjectured that not more than one pair of observers can detect Clauser-Horne-Shimony-Holt "Bell-nonlocal" correlations in a similar set-up. This is intriguing since it is possible to have an arbitrarily long sequence of Bell-nonlocal correlations when only a single observer is allowed to share a bipartite state with multiple observers at the other end. It is therefore interesting to ask whether such restrictions are also present when entangled correlations are considered in the scenario of multiple pairs of observers. We find that a two-qubit entangled state can be used to witness entanglement arbitrarily many times, by pairs of observers, acting sequentially and independently. We prove the statement to be true when the initial pair of observers in the sequence share any pure entangled state or when they share a state from a class of mixed entangled states. We demonstrate that the phenomenon can also be observed for a certain class of entangled states in which an arbitrarily long sequence of observer pairs witnessing entanglement is reached in the limit of the initial entanglement content tending to a vanishing amount. | 翻訳日:2023-03-02 01:19:52 公開日:2022-01-07 |
# 関係性比較のための学習--マイトショット学習のための意味的アライメント Learning to Compare Relation: Semantic Alignment for Few-Shot Learning ( http://arxiv.org/abs/2003.00210v2 ) ライセンス: Link先を確認 | Congqi Cao and Yanning Zhang | (参考訳) 数少ない学習は、いくつかの例から新しいカテゴリを認識する必要があるため、基本的かつ困難な問題である。
認識対象は複数の変種を持ち、画像のどこにでも配置できる。
クエリイメージとサンプルイメージを直接比較しても、コンテンツの誤用は処理できない。
比較のための表現とメトリクスは重要だが、少数の学習でサンプルが不足し、幅広いバリエーションがあるため、学ぶのが難しい。
本稿では,コンテンツアライメントに頑健な関係を比較するために,新しいセマンティックアライメントモデルを提案する。
機能向上とメートル法学習能力向上のために,既存の数ショット学習フレームワークに2つの重要な要素を加えることを提案する。
まず,同一カテゴリに属するサンプルからの特徴の関連統計を整理するために,意味的アライメントの損失を導入する。
次に、ローカルおよびグローバル相互情報最大化が導入され、画像内の構造的位置間での局所的一貫性とクラス内共有情報を含む表現が可能になる。
第3に,各ストリームのホモシデスティック不確かさを考慮し,複数の損失関数を重み付けるための原理的手法を提案する。
数回の学習データセットを広範囲に実験する。
実験の結果,提案手法は意味的アライメント戦略との関係を比較でき,最先端の性能が得られることがわかった。 Few-shot learning is a fundamental and challenging problem since it requires recognizing novel categories from only a few examples. The objects for recognition have multiple variants and can locate anywhere in images. Directly comparing query images with example images can not handle content misalignment. The representation and metric for comparison are critical but challenging to learn due to the scarcity and wide variation of the samples in few-shot learning. In this paper, we present a novel semantic alignment model to compare relations, which is robust to content misalignment. We propose to add two key ingredients to existing few-shot learning frameworks for better feature and metric learning ability. First, we introduce a semantic alignment loss to align the relation statistics of the features from samples that belong to the same category. And second, local and global mutual information maximization is introduced, allowing for representations that contain locally-consistent and intra-class shared information across structural locations in an image. Thirdly, we introduce a principled approach to weigh multiple loss functions by considering the homoscedastic uncertainty of each stream. We conduct extensive experiments on several few-shot learning datasets. Experimental results show that the proposed method is capable of comparing relations with semantic alignment strategies, and achieves state-of-the-art performance. | 翻訳日:2022-12-27 20:54:22 公開日:2022-01-07 |
# データ駆動型知識発見アルゴリズムの性能予測 : 臨床経路の進化的モデリングへの応用 Surrogate-assisted performance prediction for data-driven knowledge discovery algorithms: application to evolutionary modeling of clinical pathways ( http://arxiv.org/abs/2004.01123v2 ) ライセンス: Link先を確認 | Anastasia A. Funkner, Aleksey N. Yakovlev, Sergey V. Kovalchuk | (参考訳) 本稿では,データ駆動型知識発見アルゴリズムの性能予測手法の提案と検討を行う。
このアプローチは、対象アルゴリズムの品質と性能を予測するためのサロゲートモデルの同定に基づいている。
急性冠症候群患者の電子的健康記録に解釈可能な臨床経路のクラスターを発見するための進化的アルゴリズムとして提案手法を適用し,検討した。
いくつかのクラスタリングメトリクスと実行時間はそれぞれ、ターゲット品質とパフォーマンス指標として使用された。
提案手法によるアルゴリズム特性の予測と特徴解析に基づく解析ソフトウェアプロトタイプを開発し,パラメータチューニングにさらに活用可能な,対象アルゴリズムの性能と品質のより解釈可能な予測方法を提供する。 The paper proposes and investigates an approach for surrogate-assisted performance prediction of data-driven knowledge discovery algorithms. The approach is based on the identification of surrogate models for prediction of the target algorithm's quality and performance. The proposed approach was implemented and investigated as applied to an evolutionary algorithm for discovering clusters of interpretable clinical pathways in electronic health records of patients with acute coronary syndrome. Several clustering metrics and execution time were used as the target quality and performance metrics respectively. An analytical software prototype based on the proposed approach for the prediction of algorithm characteristics and feature analysis was developed to provide a more interpretable prediction of the target algorithm's performance and quality that can be further used for parameter tuning. | 翻訳日:2022-12-17 09:36:26 公開日:2022-01-07 |
# SpinalNet: グラジアル入力を備えたディープニューラルネットワーク SpinalNet: Deep Neural Network with Gradual Input ( http://arxiv.org/abs/2007.03347v3 ) ライセンス: Link先を確認 | H M Dipu Kabir, Moloud Abdar, Seyed Mohammad Jafar Jalali, Abbas Khosravi, Amir F Atiya, Saeid Nahavandi, Dipti Srinivasan | (参考訳) ディープニューラルネットワーク(DNN)は多くの分野におけるアートパフォーマンスの状態を達成している。
しかし、DNNは高い計算時間を必要とし、人々は常に低い計算でより良いパフォーマンスを期待する。
そこで,人間の体感システムについて検討し,より少ない計算で高精度なニューラルネットワーク(SpinalNet)を設計する。
従来のnnの隠れたレイヤは、前のレイヤで入力を受け取り、アクティベーション関数を適用し、その結果を次のレイヤに転送する。
提案されたスピネルネットでは、各層は3つの分割に分けられる。
1) 入力分割。
2)中間分割,及び
3)出力分割。
各レイヤの入力分割は、入力の一部を受信する。
各層の中間分割は、前の層の中間分割の出力と、現在の層の入力分割の出力を受信する。
入ってくる重量は従来のDNNよりも大幅に減少する。
spinalnetはdnnの完全接続層や分類層としても使用でき、従来の学習と転送学習の両方をサポートする。
我々は,dnnのほとんどにおいて,計算コストの低減による大きな誤差低減を観測する。
SpinalNet分類レイヤによるVGG-5ネットワーク上の従来の学習は、QMNIST、Kuzushiji-MNIST、EMNIST(Letters, Digits, Balanced)データセットの最先端(SOTA)パフォーマンスを提供する。
ImageNetの事前トレーニングされた初期重みとSpinalNetの分類レイヤによる従来の学習は、STL-10、Fruits 360、Bird225、Caltech-101データセットでのSOTAのパフォーマンスを提供した。
提案されているSpinalNetのスクリプトは以下のリンクで入手できる。 Deep neural networks (DNNs) have achieved the state of the art performance in numerous fields. However, DNNs need high computation times, and people always expect better performance in a lower computation. Therefore, we study the human somatosensory system and design a neural network (SpinalNet) to achieve higher accuracy with fewer computations. Hidden layers in traditional NNs receive inputs in the previous layer, apply activation function, and then transfer the outcomes to the next layer. In the proposed SpinalNet, each layer is split into three splits: 1) input split, 2) intermediate split, and 3) output split. Input split of each layer receives a part of the inputs. The intermediate split of each layer receives outputs of the intermediate split of the previous layer and outputs of the input split of the current layer. The number of incoming weights becomes significantly lower than traditional DNNs. The SpinalNet can also be used as the fully connected or classification layer of DNN and supports both traditional learning and transfer learning. We observe significant error reductions with lower computational costs in most of the DNNs. Traditional learning on the VGG-5 network with SpinalNet classification layers provided the state-of-the-art (SOTA) performance on QMNIST, Kuzushiji-MNIST, EMNIST (Letters, Digits, and Balanced) datasets. Traditional learning with ImageNet pre-trained initial weights and SpinalNet classification layers provided the SOTA performance on STL-10, Fruits 360, Bird225, and Caltech-101 datasets. The scripts of the proposed SpinalNet are available at the following link: https://github.com/dipuk0506/SpinalNet | 翻訳日:2022-11-12 18:12:57 公開日:2022-01-07 |
# kaptureを用いたロバスト画像検索に基づく視覚定位 Robust Image Retrieval-based Visual Localization using Kapture ( http://arxiv.org/abs/2007.13867v3 ) ライセンス: Link先を確認 | Martin Humenberger and Yohann Cabon and Nicolas Guerin and Julien Morat and Vincent Leroy and J\'er\^ome Revaud and Philippe Rerole and No\'e Pion and Cesar de Souza and Gabriela Csurka | (参考訳) 視覚的ローカライゼーションは、クエリ画像とマップの対応解析を用いて、画像からカメラのポーズを推定する課題に取り組む。
このタスクは計算とデータ集約であり、様々なデータセット上のメソッドの徹底的な評価に挑戦する。
しかし,この分野をさらに前進させるためには,広い範囲をカバーする複数のデータセット上で頑健なビジュアルローカライズアルゴリズムを評価すべきである。
これを容易にするために、新しいフレキシブルで統一されたデータフォーマットであるKaptureと、視覚的ローカライゼーションと構造移動(SFM)のためのツールボックスを導入する。
異なるデータセットの使いやすさと、効率的で再利用可能なデータ処理を可能にします。
これを示すために、様々な局所的特徴やグローバルな特徴、三次元データ(深度マップなど)、非視覚センサデータ(IMU、GPS、WiFiなど)、様々な処理アルゴリズムの使用を容易にする視覚的ローカライゼーションのための汎用パイプラインを提案する。
パイプラインの複数の構成を用いて、我々は実験でカプチャの大きな汎用性を示します。
さらに、これらの手法を8つの公開データセット上で評価し、それらのうちの1位と2位にランク付けする。
今後の研究を促進するため、我々は、BSDライセンス下でオープンソースであるKaptureフォーマットで、コード、モデル、およびすべてのデータセットをリリースする。
github.com/naver/kapture, github.com/naver/kapture-localization Visual localization tackles the challenge of estimating the camera pose from images by using correspondence analysis between query images and a map. This task is computation and data intensive which poses challenges on thorough evaluation of methods on various datasets. However, in order to further advance in the field, we claim that robust visual localization algorithms should be evaluated on multiple datasets covering a broad domain variety. To facilitate this, we introduce kapture, a new, flexible, unified data format and toolbox for visual localization and structure-from-motion (SFM). It enables easy usage of different datasets as well as efficient and reusable data processing. To demonstrate this, we present a versatile pipeline for visual localization that facilitates the use of different local and global features, 3D data (e.g. depth maps), non-vision sensor data (e.g. IMU, GPS, WiFi), and various processing algorithms. Using multiple configurations of the pipeline, we show the great versatility of kapture in our experiments. Furthermore, we evaluate our methods on eight public datasets where they rank top on all and first on many of them. To foster future research, we release code, models, and all datasets used in this paper in the kapture format open source under a permissive BSD license. github.com/naver/kapture, github.com/naver/kapture-localization | 翻訳日:2022-11-06 08:03:01 公開日:2022-01-07 |
# 複数の問題に対するバイラテラルエージェントネゴシエーションの学習戦略 Learnable Strategies for Bilateral Agent Negotiation over Multiple Issues ( http://arxiv.org/abs/2009.08302v2 ) ライセンス: Link先を確認 | Pallavi Bagga, Nicola Paoletti and Kostas Stathis | (参考訳) 本稿では,ユーザ嗜好の不確実性の存在下で,利害関係者が複数の課題について交渉する方法を学ぶための,新たな二国間交渉モデルを提案する。
このモデルは、交渉中にエージェントが使用する戦術を表す解釈可能な戦略テンプレートに依存し、テンプレートパラメータを学び、複数の交渉で受け取った平均的なユーティリティを最大化する。
また,本モデルでは深層強化学習を用いてしきい値の実用性評価を行い,環境条件ごとに最適な実用性を導出する。
ユーザの嗜好の不確実性に対処するため、そのモデルは確率的な探索に頼って、与えられた部分的嗜好プロファイルに最もよく一致するユーザモデルを見つける。
交渉時にマルチ目的最適化とマルチクリトリア意思決定法を適用し、パレートオプティカル結果を生成し、成功(勝利)交渉の数を増加させる。
厳密な実験評価により, 本モデルを用いたエージェントは, 第10回自動交渉エージェントコンペティション(anac'19)の優勝エージェントよりも, 社会福祉ユーティリティの面で優れていることが示された。 We present a novel bilateral negotiation model that allows a self-interested agent to learn how to negotiate over multiple issues in the presence of user preference uncertainty. The model relies upon interpretable strategy templates representing the tactics the agent should employ during the negotiation and learns template parameters to maximize the average utility received over multiple negotiations, thus resulting in optimal bid acceptance and generation. Our model also uses deep reinforcement learning to evaluate threshold utility values, for those tactics that require them, thereby deriving optimal utilities for every environment state. To handle user preference uncertainty, the model relies on a stochastic search to find user model that best agrees with a given partial preference profile. Multi-objective optimization and multi-criteria decision-making methods are applied at negotiation time to generate Pareto-optimal outcomes thereby increasing the number of successful (win-win) negotiations. Rigorous experimental evaluations show that the agent employing our model outperforms the winning agents of the 10th Automated Negotiating Agents Competition (ANAC'19) in terms of individual as well as social-welfare utilities. | 翻訳日:2022-10-17 11:55:15 公開日:2022-01-07 |
# 非凸ペナルティを用いたスパース統計学習のための加速勾配法 Accelerated Gradient Methods for Sparse Statistical Learning with Nonconvex Penalties ( http://arxiv.org/abs/2009.10629v3 ) ライセンス: Link先を確認 | Kai Yang, Masoud Asgharian, Sahir Bhatnagar | (参考訳) Nesterovの加速勾配(AG)は、凸損失とペナルティ関数という2つのコンポーネントからなる目的関数を最適化する一般的な手法である。
AG法は、LASSOのような凸罰に対してうまく機能するが、SCADのような凸罰に適用されると収束問題が発生する。
最近の提案では、NesterovのAG法を非凸設定に一般化しているが、統計学習の問題には適用されていない。
提案アルゴリズムを実行する前に、いくつかのハイパーパラメータを設定する必要がある。
しかし、ハイパーパラメータの選択方法に関して明確なルールはない。
本稿では,この非凸AGアルゴリズムを高次元線形・ロジスティックなスパース学習問題に適用し,収束を加速するための複雑性上限に基づくハイパーパラメータ設定を提案する。
さらに,収束率をさらに確立し,減衰列に対して単純で有用な境界を与える。
シミュレーション研究により、収束は従来のISTAアルゴリズムよりも平均的にかなり速くできることが示された。
また,提案手法は,信号回復の観点から,現在最先端の手法よりも高い性能を示した。 Nesterov's accelerated gradient (AG) is a popular technique to optimize objective functions comprising two components: a convex loss and a penalty function. While AG methods perform well for convex penalties, such as the LASSO, convergence issues may arise when it is applied to nonconvex penalties, such as SCAD. A recent proposal generalizes Nesterov's AG method to the nonconvex setting but has never been applied to sparse statistical learning problems. There are several hyperparameters to be set before running the proposed algorithm. However, there is no explicit rule as to how the hyperparameters should be selected. In this article, we consider the application of this nonconvex AG algorithm to high-dimensional linear and logistic sparse learning problems, and propose a hyperparameter setting based on the complexity upper bound to accelerate convergence. We further establish the rate of convergence and present a simple and useful bound for the damping sequence. Simulation studies show that convergence can be made, on average, considerably faster than that of the conventional ISTA algorithm. Our experiments also show that the proposed method generally outperforms the current state-of-the-art method in terms of signal recovery. | 翻訳日:2022-10-15 23:19:06 公開日:2022-01-07 |
# 臨床トライアルレポートの理解:医療機関の抽出とその関連性 Understanding Clinical Trial Reports: Extracting Medical Entities and Their Relations ( http://arxiv.org/abs/2010.03550v3 ) ライセンス: Link先を確認 | Benjamin E. Nye, Jay DeYoung, Eric Lehman, Ani Nenkova, Iain J. Marshall, Byron C. Wallace | (参考訳) 比較治療の有効性に関する最良の証拠は臨床試験から得られ、その結果は未構造化の記事で報告されている。
医療専門家は手動で意思決定に関する情報を抽出しなければならない。
ここでは、両方のエンドツーエンドタスクについて考察する。
(a)臨床試験(個人識別)を記載した全文記事から治療と成果を抽出すること、及び
(b)後者について前者について報告された結果を推測する(関係抽出)。
そこで本研究では,自然言語処理における類似課題について最新の結果を得たモデルを評価する。
次に,実験結果が純粋にデータ駆動ベースラインより優れていることを示す方法を提案する。
最後に,本モデルの評価を,がんに対して再目的を果たす可能性のある既存薬剤の特定を目指す非営利団体と共同で実施し,エンド・ツー・エンドのエビデンス抽出システムの有用性を示す。 The best evidence concerning comparative treatment effectiveness comes from clinical trials, the results of which are reported in unstructured articles. Medical experts must manually extract information from articles to inform decision-making, which is time-consuming and expensive. Here we consider the end-to-end task of both (a) extracting treatments and outcomes from full-text articles describing clinical trials (entity identification) and, (b) inferring the reported results for the former with respect to the latter (relation extraction). We introduce new data for this task, and evaluate models that have recently achieved state-of-the-art results on similar tasks in Natural Language Processing. We then propose a new method motivated by how trial results are typically presented that outperforms these purely data-driven baselines. Finally, we run a fielded evaluation of the model with a non-profit seeking to identify existing drugs that might be re-purposed for cancer, showing the potential utility of end-to-end evidence extraction systems. | 翻訳日:2022-10-09 23:30:18 公開日:2022-01-07 |
# 特殊目的ハードウェア上の二元行列分解 Binary matrix factorization on special purpose hardware ( http://arxiv.org/abs/2010.08693v2 ) ライセンス: Link先を確認 | Osman Asif Malik, Hayato Ushijima-Mwesigwa, Arnab Roy, Avradip Mandal, Indradeep Ghosh | (参考訳) データマイニングにおける多くの基本的な問題は1つ以上のnp-hard combinatorial optimization問題に還元できる。
量子や量子にインスパイアされたハードウェアのような新しい技術の進歩は、汎用コンピュータを使用する場合と比較して、これらの問題を解決するためにかなりのスピードアップを約束するが、これらのデバイスを活用するためには、Isingや2次非制約バイナリ最適化(QUBO)モデルのような特別な形式でモデル化する必要があることが多い。
本研究では、データマイニングに多くの応用がある重要なバイナリ行列分解(BMF)問題に焦点を当てる。
BMFのための2つのQUBO式を提案する。
これらの定式化にクラスタリングの制約を簡単に組み込む方法を示す。
私たちが考える特別な目的のハードウェアは、扱える変数の数に限られており、これは大きな行列を分解する際の課題である。
我々はこの課題を克服するためのサンプリングベースアプローチを提案し、大きな長方形行列を分解する。
また,これらの手法に加えて,いくつかの状況において,より洗練された手法を上回る単純なベースラインアルゴリズムを提案する。
遺伝子表現データを含む合成データと実データの両方において、量子インスパイアされた相補的金属-酸化物-半導体(CMOS)アニールである富士通デジタルアニールの実験を行った。
これらの実験により,本手法は競合手法よりも精度の高いBMFを生成可能であることが示された。 Many fundamental problems in data mining can be reduced to one or more NP-hard combinatorial optimization problems. Recent advances in novel technologies such as quantum and quantum-inspired hardware promise a substantial speedup for solving these problems compared to when using general purpose computers but often require the problem to be modeled in a special form, such as an Ising or quadratic unconstrained binary optimization (QUBO) model, in order to take advantage of these devices. In this work, we focus on the important binary matrix factorization (BMF) problem which has many applications in data mining. We propose two QUBO formulations for BMF. We show how clustering constraints can easily be incorporated into these formulations. The special purpose hardware we consider is limited in the number of variables it can handle which presents a challenge when factorizing large matrices. We propose a sampling based approach to overcome this challenge, allowing us to factorize large rectangular matrices. In addition to these methods, we also propose a simple baseline algorithm which outperforms our more sophisticated methods in a few situations. We run experiments on the Fujitsu Digital Annealer, a quantum-inspired complementary metal-oxide-semiconductor (CMOS) annealer, on both synthetic and real data, including gene expression data. These experiments show that our approach is able to produce more accurate BMFs than competing methods. | 翻訳日:2022-10-06 12:23:31 公開日:2022-01-07 |
# インテントマッチングに基づく自然言語理解型カスタマーサービスチャットボット Intent Matching based Customer Services Chatbot with Natural Language Understanding ( http://arxiv.org/abs/2202.00480v1 ) ライセンス: Link先を確認 | Alvin Chaidrata, Mariyam Imtha Shafeeu, Sze Ker Chew, Zhiyuan Chen, Jin Sheng Cham, Zi Li Yong, Uen Hsieh Yap, Dania Imanina Binti Kamarul Bahrin | (参考訳) カスタマーサービスはあらゆるビジネスの生命線である。
優れたカスタマーサービスはリターンビジネスを生み出すだけでなく、新しい顧客も生み出す。
顧客への24/7サービス提供の需要市場を見ると、多くの組織が、現在の需要市場における顧客への24/7サービスの提供において、WhatsAppやFacebook Messengerといったポピュラーなソーシャルメディアやテキストメッセージプラットフォームにますます関与している。
本稿では、自然言語理解(nlu)の雇用を通じて、より自然で人間のような方法で対話しながら、営業員のカスタマーサービス業務を置き換えることができるインテントマッチングベースのカスタマーサービスチャットボット(imcsc)を提案する。
このボットは、最もよく聞かれる質問に答えることができ、また、顧客の注文の処理とエクスポートのための機能をgoogleシートに統合しています。 Customer service is the lifeblood of any business. Excellent customer service not only generates return business but also creates new customers. Looking at the demanding market to provide a 24/7 service to customers, many organisations are increasingly engaged in popular social media and text messaging platforms such as WhatsApp and Facebook Messenger in providing a 24/7 service to customers in the current demanding market. In this paper, we present an intent matching based customer services chatbot (IMCSC), which is capable of replacing the customer service work of sales personnel, whilst interacting in a more natural and human-like manner through the employment of Natural Language Understanding (NLU). The bot is able to answer the most common frequently asked questions and we have also integrated features for the processing and exporting of customer orders to a Google Sheet. | 翻訳日:2022-02-06 08:56:51 公開日:2022-01-07 |
# (参考訳) 自動ロボットアーム:機械学習アプローチ An Automated Robotic Arm: A Machine Learning Approach ( http://arxiv.org/abs/2201.07882v1 ) ライセンス: CC BY 4.0 | Krishnaraj Rao N S, Avinash N J, Rama Moorthy H, Karthik K, Sudesh Rao, Santosh S | (参考訳) ロボットという用語は一般に、人間と似た見た目で機能する機械を指す。
現代の産業は、生産性を高め、品質の高い製品を提供するために、システムの手動制御から自動化へと急速にシフトしています。
コンピュータベースのシステムは、品質と生産性を向上させることができるが、作業には柔軟性がなく、そのようなシステムのコストは著しく高い。
これにより、産業タスクを実行するための自動化システムの迅速な採用につながった。
工業的重要性の1つは、ある場所から別の場所へ物を選んで配置することである。
タスクの選択と配置における自動化の実装は、システムの効率とパフォーマンスの向上に役立つ。
本稿では,機械学習手法を用いた自動ロボットアームの設計と動作を実証する。
この研究は、オブジェクトの識別とトラバーサルに機械学習アプローチを使用し、より良い正確な結果を得るためにTensor Flowパッケージで採用されている。 The term robot generally refers to a machine that looks and works in a way similar to a human. The modern industry is rapidly shifting from manual control of systems to automation, in order to increase productivity and to deliver quality products. Computer-based systems, though feasible for improving quality and productivity, are inflexible to work with, and the cost of such systems is significantly high. This led to the swift adoption of automated systems to perform industrial tasks. One such task of industrial significance is of picking and placing objects from one place to another. The implementation of automation in pick and place tasks helps to improve efficiency of system and also the performance. In this paper, we propose to demonstrate the designing and working of an automated robotic arm with the Machine Learning approach. The work uses Machine Learning approach for object identification detection and traversal, which is adopted with Tensor flow package for better and accurate results. | 翻訳日:2022-01-23 21:12:13 公開日:2022-01-07 |
# (参考訳) AIと自己感覚 AI and the Sense of Self ( http://arxiv.org/abs/2201.05576v1 ) ライセンス: CC BY 4.0 | Srinath Srinivasa and Jayati Deshmukh | (参考訳) 数回の冬の後、AIは再び中心的なステージとなり、現在の進歩により、幅広いAIアプリケーションが可能になる。
この新たなAIの波は、AI意思決定の倫理的懸念によって主に動機づけられた、知性と常識の哲学的基盤に関する、過去のいくつかの質問に再び持ち帰った。
本稿では,知的なエージェントに対する研究の関心に繋がる議論のいくつかを取り上げ,今日の文脈においてもその関連性について論じる。
具体的には,「自己」の認知的感覚とその自律的意思決定における役割に着目し,責任行動へと導く。
著者らは、AIエージェントのよりリッチな計算モデルを構築することに、より研究的な関心を抱くことを期待している。 After several winters, AI is center-stage once again, with current advances enabling a vast array of AI applications. This renewed wave of AI has brought back to the fore several questions from the past, about philosophical foundations of intelligence and common sense -- predominantly motivated by ethical concerns of AI decision-making. In this paper, we address some of the arguments that led to research interest in intelligent agents, and argue for their relevance even in today's context. Specifically we focus on the cognitive sense of "self" and its role in autonomous decision-making leading to responsible behaviour. The authors hope to make a case for greater research interest in building richer computational models of AI agents with a sense of self. | 翻訳日:2022-01-23 21:03:55 公開日:2022-01-07 |
# 新しい意図発見のためのコントラスト学習による半教師付きクラスタリング Semi-Supervised Clustering with Contrastive Learning for Discovering New Intents ( http://arxiv.org/abs/2201.07604v1 ) ライセンス: Link先を確認 | Feng Wei, Zhenbo Chen, Zhenghong Hao, Fengxin Yang, Hua Wei, Bing Han, Sheng Guo | (参考訳) 実世界のほとんどの対話システムは、事前定義された意図とQAサービスの回答に依存しているため、これまで大きなコーパスから潜在的意図を発見することは、そのような対話サービスを構築する上で非常に重要である。
ほとんどのシナリオには既知のインテントがほとんどなく、発見待ちのインテントもほとんどないので、私たちは半教師ありのテキストクラスタリングに注目して、全体的なクラスタリング性能を改善するためにラベル付きサンプルの利点を生かそうとしています。
本稿では,テキストサンプルを半教師付きでクラスタリングし,スタッフにグループ化された意図を提供することを目的とした,Deep Contrastive Semi-supervised Clustering (DCSC)を提案する。
そこで本研究では,DCSCをラベル付きサンプルとラベルなしサンプルの両方でトレーニングし,より優れたテキスト表現とクラスタリング性能を実現するための,DCSCの2段階トレーニング手順を提案する。
2つのパブリックデータセットで実験を行い,モデルといくつかの一般的な手法を比較した結果,dcscがすべてのデータセットと状況で最高の性能を達成し,改善の効果が示された。 Most dialogue systems in real world rely on predefined intents and answers for QA service, so discovering potential intents from large corpus previously is really important for building such dialogue services. Considering that most scenarios have few intents known already and most intents waiting to be discovered, we focus on semi-supervised text clustering and try to make the proposed method benefit from labeled samples for better overall clustering performance. In this paper, we propose Deep Contrastive Semi-supervised Clustering (DCSC), which aims to cluster text samples in a semi-supervised way and provide grouped intents to operation staff. To make DCSC fully utilize the limited known intents, we propose a two-stage training procedure for DCSC, in which DCSC will be trained on both labeled samples and unlabeled samples, and achieve better text representation and clustering performance. We conduct experiments on two public datasets to compare our model with several popular methods, and the results show DCSC achieve best performance across all datasets and circumstances, indicating the effect of the improvements in our work. | 翻訳日:2022-01-23 18:15:42 公開日:2022-01-07 |
# 複数の学校からの知識の漸進的追跡 Incremental Knowledge Tracing from Multiple Schools ( http://arxiv.org/abs/2201.06941v1 ) ライセンス: Link先を確認 | Sujanya Suresh, Savitha Ramasamy, P.N. Suganthan, Cheryl Sze Yin Wong | (参考訳) 知識追跡とは,学習者のパフォーマンス履歴に基づいて,学習者の将来のパフォーマンスを予測するタスクである。
現在の知識追跡モデルは、複数の学校から収集された広範なデータに基づいて構築されている。
しかし、データプライバシーとpdpaポリシーのため、すべての学校で学習者のデータをプールすることは不可能である。
そこで本稿では,各学校における学習者のデータのプライバシーを保ちつつ,知識追跡モデルの構築可能性について検討する。
本研究は、ASSISTment 2009データセットの一部を用いて実施され、複数の学校からのデータを連続学習フレームワークで個別のタスクとして扱う。
その結果,SAKT(Self Attentive Knowledge Tracing)アルゴリズムを用いて逐次学習することで,すべてのデータをまとめる手法とかなり類似した性能が得られることがわかった。 Knowledge tracing is the task of predicting a learner's future performance based on the history of the learner's performance. Current knowledge tracing models are built based on an extensive set of data that are collected from multiple schools. However, it is impossible to pool learner's data from all schools, due to data privacy and PDPA policies. Hence, this paper explores the feasibility of building knowledge tracing models while preserving the privacy of learners' data within their respective schools. This study is conducted using part of the ASSISTment 2009 dataset, with data from multiple schools being treated as separate tasks in a continual learning framework. The results show that learning sequentially with the Self Attentive Knowledge Tracing (SAKT) algorithm is able to achieve considerably similar performance to that of pooling all the data together. | 翻訳日:2022-01-23 18:14:41 公開日:2022-01-07 |
# 混合を伴うエピデミックモデルの統合 Unifying Epidemic Models with Mixtures ( http://arxiv.org/abs/2201.04960v1 ) ライセンス: Link先を確認 | Arnab Sarker, Ali Jadbabaie, Devavrat Shah | (参考訳) 新型コロナウイルスのパンデミックは、感染モデルに対する強固な理解の必要性を強調している。
現在の流行モデルは、メカニックか非メカニックかのどちらかに分類される: メカニックモデルは病気のダイナミクスを明示的に仮定するが、非メカニックモデルは観察された時系列の形で仮定する。
本稿では,両者の利点を保ちつつ,両者のアプローチを橋渡しする単純な混合モデルを提案する。
このモデルはガウス曲線の混合として一連のケースと死亡率を表し、従来の力学モデルと比較してデータから学ぶ柔軟な関数クラスを提供する。
モデルは非機械的だが、ネットワーク化されたSIRフレームワークに基づく確率過程の自然な結果として現れることを示す。
これにより、学習パラメータは、類似の非機械的モデルと比較してより意味のある解釈が可能となり、新型コロナウイルスパンデミックで収集された補助モビリティデータを用いて解釈を検証する。
モデルパラメータを同定し、モデルがデータから効率的に学習できることを示すための簡単な学習アルゴリズムを提供する。
経験的に、予測誤差が低いモデルが見つかる。
モデルはcovidpredictions.mit.eduで公開されている。
これにより、covid-19に対する介入が与える影響を体系的に理解することが可能になります。 The COVID-19 pandemic has emphasized the need for a robust understanding of epidemic models. Current models of epidemics are classified as either mechanistic or non-mechanistic: mechanistic models make explicit assumptions on the dynamics of disease, whereas non-mechanistic models make assumptions on the form of observed time series. Here, we introduce a simple mixture-based model which bridges the two approaches while retaining benefits of both. The model represents time series of cases and fatalities as a mixture of Gaussian curves, providing a flexible function class to learn from data compared to traditional mechanistic models. Although the model is non-mechanistic, we show that it arises as the natural outcome of a stochastic process based on a networked SIR framework. This allows learned parameters to take on a more meaningful interpretation compared to similar non-mechanistic models, and we validate the interpretations using auxiliary mobility data collected during the COVID-19 pandemic. We provide a simple learning algorithm to identify model parameters and establish theoretical results which show the model can be efficiently learned from data. Empirically, we find the model to have low prediction error. The model is available live at covidpredictions.mit.edu. Ultimately, this allows us to systematically understand the impacts of interventions on COVID-19, which is critical in developing data-driven solutions to controlling epidemics. | 翻訳日:2022-01-16 16:04:36 公開日:2022-01-07 |
# ワクチンHesitancyを分析するための機械学習とAI説明の適用 Applying Machine Learning and AI Explanations to Analyze Vaccine Hesitancy ( http://arxiv.org/abs/2201.05070v1 ) ライセンス: Link先を確認 | Carsten Lange, Jian Lange | (参考訳) この論文は、米国大陸の郡におけるcovid-19ワクチン接種率に対する人種、貧困、政治、年齢の影響を定量化するものだ。
OLSレグレッション解析とランダムフォレスト機械学習アルゴリズムの両方を用いて、郡レベルのワクチン流行の要因を定量化する。
機械学習モデルは、これらの要因がワクチン接種率に特有の組み合わせを捉えるために、変数(人種/民族、党派、年齢など)の結合効果を同時に考慮している。
最先端のAIX(Artificial Intelligence Explanations)アルゴリズムを実装することで、機械学習モデルでブラックボックスの問題を解き、各郡で測定された影響要因について「どの程度」疑問に答えることができる。
ほとんどの郡では、共和党の投票率が高く、アフリカ系アメリカ人人口の比率が高く、貧困率はワクチン接種率が低い。
アジアの人口密度が高いほどワクチン接種率は上昇する。
ヒスパニック系人口の割合によるワクチン接種率への影響はolsモデルでは正であるが、ランダム森林モデルではヒスパニック系人口が高い郡(>65%)でのみ正である。
高齢者の割合と郡の若者の比率は、それぞれ正と負のOLSモデルに大きな影響を及ぼす。
対照的に、ランダムフォレストモデルでは影響は曖昧である。
結果は地形によって異なり、aixアルゴリズムは各郡で個別にワクチンの影響を定量化することができるので、この研究は地域社会に合わせることができる。
アメリカ各郡の影響要因を特定するインタラクティブなオンラインマッピングダッシュボードは、https://www.cpp.edu/~clange/vacmap.htmlで入手できる。
影響要因の影響は、異なる地形間で普遍的に同じではないことが明らかである。 The paper quantifies the impact of race, poverty, politics, and age on COVID-19 vaccination rates in counties in the continental US. Both, OLS regression analysis and Random Forest machine learning algorithms are applied to quantify factors for county-level vaccination hesitancy. The machine learning model considers joint effects of variables (race/ethnicity, partisanship, age, etc.) simultaneously to capture the unique combination of these factors on the vaccination rate. By implementing a state-of-the-art Artificial Intelligence Explanations (AIX) algorithm, it is possible to solve the black box problem with machine learning models and provide answers to the "how much" question for each measured impact factor in every county. For most counties, a higher percentage vote for Republicans, a greater African American population share, and a higher poverty rate lower the vaccination rate. While a higher Asian population share increases the predicted vaccination rate. The impact on the vaccination rate from the Hispanic population proportion is positive in the OLS model, but only positive for counties with a high Hispanic population (>65%) in the Random Forest model. Both the proportion of seniors and the one for young people in a county have a significant impact in the OLS model - positive and negative, respectively. In contrast, the impacts are ambiguous in the Random Forest model. Because results vary between geographies and since the AIX algorithm is able to quantify vaccine impacts individually for each county, this research can be tailored to local communities. An interactive online mapping dashboard that identifies impact factors for individual U.S. counties is available at https://www.cpp.edu/~clange/vacmap.html. It is apparent that the influence of impact factors is not universally the same across different geographies. | 翻訳日:2022-01-16 16:03:54 公開日:2022-01-07 |
# (参考訳) 詐欺師グループ検出のための時空間グラフ表現学習 Spatio-Temporal Graph Representation Learning for Fraudster Group Detection ( http://arxiv.org/abs/2201.02621v1 ) ライセンス: CC BY 4.0 | Saeedreza Shehnepoor, Roberto Togneri, Wei Liu, Mohammed Bennamoun | (参考訳) 経済的利益の可能性に動機づけられた企業は、偽レビューを書くために詐欺師グループを雇うかもしれない。
このようなグループは、大きなグループの意見に影響を受けやすいため、顧客を誤解させる上でかなり成功しています。
このようなグループを検出するために、一般的なモデルは、不正なグループの静的ネットワークを表現し、その結果、レビュアーの長手な振る舞いを見落とし、グループ内のレビュアー間のコリビュー関係のダイナミクスを見渡すことである。
したがって、これらのアプローチは、故意にグループ内をカモフラージュし、本物のレビュアーが詐欺師グループで共同レビューする詐欺師である、外れたレビュアーを除外することができない。
この問題に対処するために,本稿では,まず,レビュアー間のコラボレーションを捉えつつ,両レビュアーの表現学習におけるHIN-RNNの有効性を活かし,28日間の固定時間ウィンドウでレビュー担当者のコリビュー関係をモデル化するHIN-RNNを提案する。
我々はこれを空間的関係学習表現と呼び、この研究の汎用性を他のネットワーク化されたシナリオに示す。
次に,空間関係に関するrnnを用いて,グループ内のレビュアーの時空間関係を予測する。
第3のステップでは、グラフ畳み込みネットワーク(gcn)が、これらの予測関係を用いてレビュアーのベクトル表現を洗練する。
これらの洗練された表現は、外れ値レビュアーを削除するために使用される。
残りのレビュアーの表現の平均は、グループが詐欺師グループであるかどうかを予測するために、単純な完全連結層に供給される。
提案手法の実証実験では,Yelp(Amazon)データセットに対する最新の3つのアプローチの精度,リコール,F1値に対して,それぞれ5%(4%),12%(5%),12%(5%),12%(5%)の改善があった。 Motivated by potential financial gain, companies may hire fraudster groups to write fake reviews to either demote competitors or promote their own businesses. Such groups are considerably more successful in misleading customers, as people are more likely to be influenced by the opinion of a large group. To detect such groups, a common model is to represent fraudster groups' static networks, consequently overlooking the longitudinal behavior of a reviewer thus the dynamics of co-review relations among reviewers in a group. Hence, these approaches are incapable of excluding outlier reviewers, which are fraudsters intentionally camouflaging themselves in a group and genuine reviewers happen to co-review in fraudster groups. To address this issue, in this work, we propose to first capitalize on the effectiveness of the HIN-RNN in both reviewers' representation learning while capturing the collaboration between reviewers, we first utilize the HIN-RNN to model the co-review relations of reviewers in a group in a fixed time window of 28 days. We refer to this as spatial relation learning representation to signify the generalisability of this work to other networked scenarios. Then we use an RNN on the spatial relations to predict the spatio-temporal relations of reviewers in the group. In the third step, a Graph Convolution Network (GCN) refines the reviewers' vector representations using these predicted relations. These refined representations are then used to remove outlier reviewers. The average of the remaining reviewers' representation is then fed to a simple fully connected layer to predict if the group is a fraudster group or not. Exhaustive experiments of the proposed approach showed a 5% (4%), 12% (5%), 12% (5%) improvement over three of the most recent approaches on precision, recall, and F1-value over the Yelp (Amazon) dataset, respectively. | 翻訳日:2022-01-13 00:58:29 公開日:2022-01-07 |
# (参考訳) 自律学習の自己規律学習(SDL)モデルに基づく確率論的空間クラスタリング Probabilistic spatial clustering based on the Self Discipline Learning (SDL) model of autonomous learning ( http://arxiv.org/abs/2201.03449v1 ) ライセンス: CC BY 4.0 | Zecang Cu, Xiaoqi Sun, Yuan Sun, Fuquan Zhang | (参考訳) 教師なしクラスタリングアルゴリズムは、高次元のラベルなしデータの次元を効果的に削減し、データ処理の時間と空間の複雑さを低減できる。
しかし、従来のクラスタリングアルゴリズムでは、事前にカテゴリの上限を設定する必要があり、ディープラーニングクラスタリングアルゴリズムは局所的な最適化の問題に陥る。
これらの問題を解決するために,自己規律学習(sdl)モデルに基づく確率的空間クラスタリングアルゴリズムを提案する。
このアルゴリズムは、ベクトル間の確率空間距離のガウス確率分布に基づいて、確率空間距離の確率スケールと最大確率値を用いて距離測定判定を行い、データセット自体の分布特性に応じて各サンプルのカテゴリを決定する。
このアルゴリズムは、インテリジェントで安全な自動車(lisa)交通光データセットの実験室でテストされ、精度は99.03%、リコール率は91%、効果が得られた。 Unsupervised clustering algorithm can effectively reduce the dimension of high-dimensional unlabeled data, thus reducing the time and space complexity of data processing. However, the traditional clustering algorithm needs to set the upper bound of the number of categories in advance, and the deep learning clustering algorithm will fall into the problem of local optimum. In order to solve these problems, a probabilistic spatial clustering algorithm based on the Self Discipline Learning(SDL) model is proposed. The algorithm is based on the Gaussian probability distribution of the probability space distance between vectors, and uses the probability scale and maximum probability value of the probability space distance as the distance measurement judgment, and then determines the category of each sample according to the distribution characteristics of the data set itself. The algorithm is tested in Laboratory for Intelligent and Safe Automobiles(LISA) traffic light data set, the accuracy rate is 99.03%, the recall rate is 91%, and the effect is achieved. | 翻訳日:2022-01-12 23:42:41 公開日:2022-01-07 |
# ファジィラフ理論における規則誘導加速器 An Accelerator for Rule Induction in Fuzzy Rough Theory ( http://arxiv.org/abs/2201.03649v1 ) ライセンス: Link先を確認 | Suyun Zhao, Zhigang Dai, Xizhao Wang, Peng Ni, Hengheng Luo, Hong Chen, Cuiping Li | (参考訳) 識別性情報を保持しながら効率よく学習/マイニングするための誘導ルールのサブセットを抽出するルールベースの分類器は、人間の説明可能な人工知能において重要な役割を果たす。
しかし、このビッグデータの時代では、データセット全体のルール誘導は計算量が多い。
これまでのところ、ルール誘導の加速に焦点を当てた既知の手法は報告されていない。
本研究は,ルール帰納法における計算量の削減を目的とした加速法について考察する。
ファジィ粗さ理論に基づく規則誘導用加速器を提案する。この加速器は冗長な計算を回避でき,ルール分類器の構築を加速できる。
まず, 構成度に基づく規則帰納法として, 構成度ベース値低減法 (cvr) を提案し, 高速化のための基礎として用いた。
第二に、帰納規則の更新に必要なキーインスタンスのみを含むキーセットと呼ばれるコンパクトな検索空間を導入し、値の削減を行う。
鍵集合の単調性は加速器の実現性を保証する。
第3に、キーセットに基づいてルール推論アクセラレータを設計し、非加速版と同じ結果を理論的に保証する。
具体的には、キーセットのランク保存特性は、アクセルによって達成された規則と非加速法との整合性を保証する。
最後に、広範な実験により、提案する加速器は、特に多数のインスタンスを持つデータセットにおいて、非加速ルールベースの分類器メソッドよりも著しく高速に動作できることが示されている。 Rule-based classifier, that extract a subset of induced rules to efficiently learn/mine while preserving the discernibility information, plays a crucial role in human-explainable artificial intelligence. However, in this era of big data, rule induction on the whole datasets is computationally intensive. So far, to the best of our knowledge, no known method focusing on accelerating rule induction has been reported. This is first study to consider the acceleration technique to reduce the scale of computation in rule induction. We propose an accelerator for rule induction based on fuzzy rough theory; the accelerator can avoid redundant computation and accelerate the building of a rule classifier. First, a rule induction method based on consistence degree, called Consistence-based Value Reduction (CVR), is proposed and used as basis to accelerate. Second, we introduce a compacted search space termed Key Set, which only contains the key instances required to update the induced rule, to conduct value reduction. The monotonicity of Key Set ensures the feasibility of our accelerator. Third, a rule-induction accelerator is designed based on Key Set, and it is theoretically guaranteed to display the same results as the unaccelerated version. Specifically, the rank preservation property of Key Set ensures consistency between the rule induction achieved by the accelerator and the unaccelerated method. Finally, extensive experiments demonstrate that the proposed accelerator can perform remarkably faster than the unaccelerated rule-based classifier methods, especially on datasets with numerous instances. | 翻訳日:2022-01-12 13:56:20 公開日:2022-01-07 |
# (参考訳) 肝腫瘍の分節化とマルチモダリティ非コントラストmriの同時学習 United adversarial learning for liver tumor segmentation and detection of multi-modality non-contrast MRI ( http://arxiv.org/abs/2201.02629v1 ) ライセンス: CC BY 4.0 | Jianfeng Zhao, Dengwang Li, and Shuo Li | (参考訳) multi-modality non-contrast magnetic resonance imaging (ncmri) による肝腫瘍(肝細胞腫,肝細胞癌)の同時分画と検出が臨床診断に重要である。
しかし,(1)肝腫瘍のhcc情報は見えないか不十分か,(2)多変質性ncmriの多様な画像特徴が特徴的融合と選択を惹起する,(3)肝腫瘍の検出を困難にする,などの課題が残されている。
本研究では,マルチモーダルNCMRIを用いた肝腫瘍の同時切除・検出のための統合対位学習フレームワーク (UAL) を提案する。
UALはまず、マルチビュー認識エンコーダを使用して、肝腫瘍のセグメンテーションと検出のための多モードNCMRI情報を抽出する。
このエンコーダでは、相補的な多モード特徴抽出を容易にするために、新しいエッジ異方性特徴ピラミッドモジュールが設計されている。
第二に、新しく設計された融合選択チャネルは、マルチモーダル特徴を融合させ、特徴選択を決定するために使用される。
そして,パディングによる座標共有機構は,分割と検出のマルチタスクを統合し,複数のタスクを一つの識別器で組み合わせた対角学習を実現する。
最後に、革新的多相放射能誘導判別器は、明瞭かつ特定な腫瘍情報を利用して、逆学習戦略によるマルチタスク性能を向上させる。
NCMRI(T1FS pre-contrast MRI, T2FS MRI, DWI)と3段階の造影MRIにおいて, 255症例の造影MRIが有効であった。
実験の結果, ualは肝腫瘍の診断において有意な有用性を示した。 Simultaneous segmentation and detection of liver tumors (hemangioma and hepatocellular carcinoma (HCC)) by using multi-modality non-contrast magnetic resonance imaging (NCMRI) are crucial for the clinical diagnosis. However, it is still a challenging task due to: (1) the HCC information on NCMRI is invisible or insufficient makes extraction of liver tumors feature difficult; (2) diverse imaging characteristics in multi-modality NCMRI causes feature fusion and selection difficult; (3) no specific information between hemangioma and HCC on NCMRI cause liver tumors detection difficult. In this study, we propose a united adversarial learning framework (UAL) for simultaneous liver tumors segmentation and detection using multi-modality NCMRI. The UAL first utilizes a multi-view aware encoder to extract multi-modality NCMRI information for liver tumor segmentation and detection. In this encoder, a novel edge dissimilarity feature pyramid module is designed to facilitate the complementary multi-modality feature extraction. Second, the newly designed fusion and selection channel is used to fuse the multi-modality feature and make the decision of the feature selection. Then, the proposed mechanism of coordinate sharing with padding integrates the multi-task of segmentation and detection so that it enables multi-task to perform united adversarial learning in one discriminator. Lastly, an innovative multi-phase radiomics guided discriminator exploits the clear and specific tumor information to improve the multi-task performance via the adversarial learning strategy. The UAL is validated in corresponding multi-modality NCMRI (i.e. T1FS pre-contrast MRI, T2FS MRI, and DWI) and three phases contrast-enhanced MRI of 255 clinical subjects. The experiments show that UAL has great potential in the clinical diagnosis of liver tumors. | 翻訳日:2022-01-12 13:49:52 公開日:2022-01-07 |
# (参考訳) MERLOT Reserve:視覚と言語と音によるニューラルスクリプトの知識 MERLOT Reserve: Neural Script Knowledge through Vision and Language and Sound ( http://arxiv.org/abs/2201.02639v1 ) ライセンス: CC BY 4.0 | Rowan Zellers and Jiasen Lu and Ximing Lu and Youngjae Yu and Yanpeng Zhao and Mohammadreza Salehi and Aditya Kusupati and Jack Hessel and Ali Farhadi and Yejin Choi | (参考訳) 人間として、私たちは世界のあらゆる感覚をナビゲートし、それぞれから知覚的な入力を使って他のものを修正します。
MERLOT Reserveは、音声、字幕、ビデオフレームから学習する新たなトレーニング目標を通じて、時間の経過とともに動画を共同で表現するモデルである。
ビデオの場合、テキストとオーディオのスニペットをMASKトークンに置き換え、正しいマスクアウトスニペットを選択することで学習する。
私たちの目標は、代替手段よりも速く学習し、スケール性も高く、2000万本のYouTubeビデオを事前トレーニングしています。
実験結果から,MERLOT Reserveはすべての構成モダリティを通じて,ビデオに関する強力な表現を学習していることがわかった。
微調整すると、VCRとTVQAの両方に新しい最先端技術が設定され、それぞれ5%と7%の先行作業を上回っている。
アブレーションは、両方のタスクが、(音のない)画像を中心としたQAタスクであるVCRであっても、オーディオ事前トレーニングの恩恵を受けていることを示している。
さらに,本研究の目的は,マルチモーダル・コモンセンスの強い理解を明らかにすることで,既定予測を可能にすることである。
完全ゼロショット設定では、4つのビデオ理解タスクの競合結果が得られ、最近提案されたSituated Reasoning(STAR)ベンチマークでは教師付きアプローチよりも優れている。
音声を取り入れることで視覚言語表現が向上する理由を分析し,今後の研究の機会を示唆する。
我々は、マルチモーダル事前訓練の倫理的および社会的意味を議論することで結論付ける。 As humans, we navigate the world through all our senses, using perceptual input from each one to correct the others. We introduce MERLOT Reserve, a model that represents videos jointly over time -- through a new training objective that learns from audio, subtitles, and video frames. Given a video, we replace snippets of text and audio with a MASK token; the model learns by choosing the correct masked-out snippet. Our objective learns faster than alternatives, and performs well at scale: we pretrain on 20 million YouTube videos. Empirical results show that MERLOT Reserve learns strong representations about videos through all constituent modalities. When finetuned, it sets a new state-of-the-art on both VCR and TVQA, outperforming prior work by 5% and 7% respectively. Ablations show that both tasks benefit from audio pretraining -- even VCR, a QA task centered around images (without sound). Moreover, our objective enables out-of-the-box prediction, revealing strong multimodal commonsense understanding. In a fully zero-shot setting, our model obtains competitive results on four video understanding tasks, even outperforming supervised approaches on the recently proposed Situated Reasoning (STAR) benchmark. We analyze why incorporating audio leads to better vision-language representations, suggesting significant opportunities for future research. We conclude by discussing ethical and societal implications of multimodal pretraining. | 翻訳日:2022-01-12 12:07:50 公開日:2022-01-07 |
# (参考訳) 形式的文書からのデータ効率の良い情報抽出 Data-Efficient Information Extraction from Form-Like Documents ( http://arxiv.org/abs/2201.02647v1 ) ライセンス: CC BY 4.0 | Beliz Gunel and Navneet Potti and Sandeep Tata and James B. Wendt and Marc Najork and Jing Xie | (参考訳) フォームライクなドキュメントから情報抽出を大規模に自動化することは、金融サービス、保険、医療など、多くの産業におけるビジネスワークフローの自動化に潜在的に影響を与える可能性があるため、差し迫ったニーズである。
鍵となる課題は、これらのビジネスワークフローにおけるフォームライクなドキュメントは、事実上無限に多くの方法でレイアウトできることです。
この問題の解法は、文書内のテキストセグメントと視覚的手がかりの両方を包括的に理解する必要があるが、これは非自明である。
自然言語処理とコンピュータビジョンのコミュニティはこの問題に取り組み始めているが、(1)データ効率、(2)文書の種類や言語をまたいで一般化する能力にはあまり焦点が当てられていない。
本稿では,少数のラベル付き文書(〜50)しか持たない場合,比較的構造的に異なる大きなラベル付きコーパスからの簡単な転送学習アプローチにより,対象ドメインの小さなコーパス上でのトレーニングよりも27F1ポイント向上することを示す。
現在実運用で使用されている、シンプルなマルチドメイン転送学習アプローチでこれを改善することで、さらに8 F1ポイントの改善が達成できることを示す。
我々は、データ効率が重要であり、情報抽出システムが数百の異なる文書タイプを扱うために拡張可能であり、優れた表現を学習することがこれを実現する上で重要であることを主張する。 Automating information extraction from form-like documents at scale is a pressing need due to its potential impact on automating business workflows across many industries like financial services, insurance, and healthcare. The key challenge is that form-like documents in these business workflows can be laid out in virtually infinitely many ways; hence, a good solution to this problem should generalize to documents with unseen layouts and languages. A solution to this problem requires a holistic understanding of both the textual segments and the visual cues within a document, which is non-trivial. While the natural language processing and computer vision communities are starting to tackle this problem, there has not been much focus on (1) data-efficiency, and (2) ability to generalize across different document types and languages. In this paper, we show that when we have only a small number of labeled documents for training (~50), a straightforward transfer learning approach from a considerably structurally-different larger labeled corpus yields up to a 27 F1 point improvement over simply training on the small corpus in the target domain. We improve on this with a simple multi-domain transfer learning approach, that is currently in production use, and show that this yields up to a further 8 F1 point improvement. We make the case that data efficiency is critical to enable information extraction systems to scale to handle hundreds of different document-types, and learning good representations is critical to accomplishing this. | 翻訳日:2022-01-12 11:20:03 公開日:2022-01-07 |
# (参考訳) 信号デノナイズのためのクロスバリデーションフレームワークとそのトレンドフィルタリング, Dyadic CARTなどへの応用 A Cross Validation framework for Signal Denoising with Applications to Trend Filtering, Dyadic CART and Beyond ( http://arxiv.org/abs/2201.02654v1 ) ライセンス: CC BY 4.0 | Anamitra Chaudhuri and Sabyasachi Chatterjee | (参考訳) 本稿では,信号復調のための一般的なクロス検証フレームワークを定式化する。
一般的なフレームワークは、トレンドフィルタリングやdyadic cartのような非パラメトリック回帰法に適用される。
得られたクロス検証されたバージョンは、最適に調整されたアナログで知られているように、ほぼ同じ収束率に達することが示される。
トレンドフィルタリングやDyadic CARTのクロスバリデーションバージョンに関する以前の理論的分析は存在しなかった。
フレームワークの汎用性を説明するために, 2つの基本推定器の相互検証版, 高次元線形回帰のためのラッソ, 行列推定のための特異値閾値付けを提案する。
我々の一般的なフレームワークはChatterjee と Jafarov (2015) のアイデアにインスパイアされており、チューニングパラメータを使用する幅広い推定手法に適用できる可能性がある。 This paper formulates a general cross validation framework for signal denoising. The general framework is then applied to nonparametric regression methods such as Trend Filtering and Dyadic CART. The resulting cross validated versions are then shown to attain nearly the same rates of convergence as are known for the optimally tuned analogues. There did not exist any previous theoretical analyses of cross validated versions of Trend Filtering or Dyadic CART. To illustrate the generality of the framework we also propose and study cross validated versions of two fundamental estimators; lasso for high dimensional linear regression and singular value thresholding for matrix estimation. Our general framework is inspired by the ideas in Chatterjee and Jafarov (2015) and is potentially applicable to a wide range of estimation methods which use tuning parameters. | 翻訳日:2022-01-12 11:11:31 公開日:2022-01-07 |
# (参考訳) GPU-Net:より多様な機能を備えた軽量U-Net GPU-Net: Lightweight U-Net with more diverse features ( http://arxiv.org/abs/2201.02656v1 ) ライセンス: CC BY 4.0 | Heng Yu, Di Fan, Weihu Song | (参考訳) 画像分割は医療画像分野において重要な課題であり,多くの畳み込みニューラルネットワーク(CNN)に基づく手法が提案されている。
本稿では,ghost module と atrous spatial pyramid pooling (aspp) を導入することで,より多様な特徴を学習できる u-net に基づくgp-module と gpu-net を提案する。
提案手法は4倍以上のパラメータと2倍のフロップでより良い性能を実現し,今後の研究に新たな可能性をもたらす。
プラグイン・アンド・プレイモジュールは既存のセグメンテーションメソッドにも適用でき、パフォーマンスがさらに向上します。 Image segmentation is an important task in the medical image field and many convolutional neural networks (CNNs) based methods have been proposed, among which U-Net and its variants show promising performance. In this paper, we propose GP-module and GPU-Net based on U-Net, which can learn more diverse features by introducing Ghost module and atrous spatial pyramid pooling (ASPP). Our method achieves better performance with more than 4 times fewer parameters and 2 times fewer FLOPs, which provides a new potential direction for future research. Our plug-and-play module can also be applied to existing segmentation methods to further improve their performance. | 翻訳日:2022-01-12 11:09:36 公開日:2022-01-07 |
# (参考訳) 垂直連合学習における公平かつ効率的な貢献評価 Fair and efficient contribution valuation for vertical federated learning ( http://arxiv.org/abs/2201.02658v1 ) ライセンス: CC BY 4.0 | Zhenan Fan, Huang Fang, Zirui Zhou, Jian Pei, Michael P. Friedlander, Yong Zhang | (参考訳) フェデレーション学習は、データを共有せずに分散データソース上で機械学習モデルをトレーニングするための一般的な技術である。
垂直的フェデレーション学習または特徴に基づくフェデレーション学習は、異なるデータソースが同じサンプルID空間を共有するが、特徴空間が異なる場合に適用される。
データ所有者の長期的な関与を確保するためには、各データソースからの貢献を客観的に評価し、それに応じて補償することが不可欠である。
シャプリー値 (shapley value, sv) は、協調ゲーム理論に由来する正当な寄与評価指標である。
しかし、SVの計算には、データソースの各サブセットでモデルを広範囲に再トレーニングする必要があるため、連合学習における通信コストは極めて高い。
本稿では,SVに基づく垂直結合シェープ値(VerFedSV)と呼ばれるコントリビューション評価指標を提案する。
その結果,verfedsvはフェアネスの望ましい性質の多くを満たすだけでなく,計算効率も高く,同期型および非同期型の垂直フェデレーション学習アルゴリズムにも適用できることがわかった。
理論解析と広範な実験結果の両方がverfedsvの公正性、効率性、適応性を検証する。 Federated learning is a popular technology for training machine learning models on distributed data sources without sharing data. Vertical federated learning or feature-based federated learning applies to the cases that different data sources share the same sample ID space but differ in feature space. To ensure the data owners' long-term engagement, it is critical to objectively assess the contribution from each data source and recompense them accordingly. The Shapley value (SV) is a provably fair contribution valuation metric originated from cooperative game theory. However, computing the SV requires extensively retraining the model on each subset of data sources, which causes prohibitively high communication costs in federated learning. We propose a contribution valuation metric called vertical federated Shapley value (VerFedSV) based on SV. We show that VerFedSV not only satisfies many desirable properties for fairness but is also efficient to compute, and can be adapted to both synchronous and asynchronous vertical federated learning algorithms. Both theoretical analysis and extensive experimental results verify the fairness, efficiency, and adaptability of VerFedSV. | 翻訳日:2022-01-12 11:01:08 公開日:2022-01-07 |
# (参考訳) 認知に関する計算レンズ:大規模言語モデルを用いた自伝的Versus想像物語の研究 Computational Lens on Cognition: Study Of Autobiographical Versus Imagined Stories With Large-Scale Language Models ( http://arxiv.org/abs/2201.02662v1 ) ライセンス: CC BY 4.0 | Maarten Sap, Anna Jafarpour, Yejin Choi, Noah A. Smith, James W. Pennebaker, and Eric Horvitz | (参考訳) 生涯の経験と学習された知識は、共通の状況がどのように広がるかという期待を共有します。
このような知識によって、人々は物語を解釈し、敬遠した出来事を無力に特定できる。
GPT-3を用いた自伝的物語と想像的物語における出来事の物語の流れの相違について検討した。
日記のような物語は、最近経験した出来事や同じ話題で想像された出来事について、群衆によって書かれた。
これらの物語の出来事の物語の流れを分析するために,文章の確率と先行するストーリーコンテキストを伴わない文*シーケンス性*を測定した。
自伝的ストーリーよりも逐次性が高く,また自伝的ストーリーの逐次性は,再試行時に再記憶されたストーリーよりも高いことがわかった。
物語文における出来事の注釈を通して,物語のタイプは,主要なサルエント出来事の類似の比率を含むが,自伝的物語は実際のマイナーな出来事においてより密集していることがわかった。
さらに、想像された物語と比較すると、自伝的物語は、第一人物、認知過程、時間、空間、数、社会語、コアドライブとニーズに関するより具体的な言葉と単語を含んでいる。
本研究は,大規模統計言語モデルを用いて記憶と認知を調査する機会を明らかにする。 Lifelong experiences and learned knowledge lead to shared expectations about how common situations tend to unfold. Such knowledge enables people to interpret story narratives and identify salient events effortlessly. We study differences in the narrative flow of events in autobiographical versus imagined stories using GPT-3, one of the largest neural language models created to date. The diary-like stories were written by crowdworkers about either a recently experienced event or an imagined event on the same topic. To analyze the narrative flow of events of these stories, we measured sentence *sequentiality*, which compares the probability of a sentence with and without its preceding story context. We found that imagined stories have higher sequentiality than autobiographical stories, and that the sequentiality of autobiographical stories is higher when they are retold than when freshly recalled. Through an annotation of events in story sentences, we found that the story types contain similar proportions of major salient events, but that the autobiographical stories are denser in factual minor events. Furthermore, in comparison to imagined stories, autobiographical stories contain more concrete words and words related to the first person, cognitive processes, time, space, numbers, social words, and core drives and needs. Our findings highlight the opportunity to investigate memory and cognition with large-scale statistical language models. | 翻訳日:2022-01-12 10:40:31 公開日:2022-01-07 |
# (参考訳) 信号クラスタリング類似性を用いたCANマスクレード攻撃の検出 Detecting CAN Masquerade Attacks with Signal Clustering Similarity ( http://arxiv.org/abs/2201.02665v1 ) ライセンス: CC BY 4.0 | Pablo Moriano, Robert A. Bridges, Michael D. Iannacone | (参考訳) vehicular Controller Area Networks (CAN) は、様々なレベルの高度なサイバー攻撃を受けやすい。
製造攻撃は管理するのが最も簡単で、敵は単に(エクストラ)フレームを缶に送るだけでなく、フレームの周波数を乱すため検出しやすい。
時間に基づく検出手法を克服するためには、敵は悪質なフレームの代わりに悪意のあるペイロードでフレームを送信することでマスクレード攻撃を管理する必要がある。
研究の努力により、CAN攻撃、特に仮面攻撃が車両機能に影響を与えることが証明されている。
例えば、意図しない加速、車両のブレーキの非活性化、車両の操縦などである。
我々は、仮装攻撃がcan信号時系列のニュアンス相関を変化させ、それらをどのようにクラスタ化するかを仮定する。
したがって、クラスタ割り当ての変更は異常な振る舞いを示すべきである。
我々は,CAN信号のリバースエンジニアリング機能(CAN-D(Controller Area Network Decoder))を活用し,生のCANフレームから抽出した時系列を分析してマスクレード攻撃を検出する手法の進歩に着目し,この仮説を裏付ける。
具体的には、車両のCAN信号(時系列)上の階層的クラスタリングを用いて時系列クラスタリング類似性を計算し、CANキャプチャ間のクラスタリング類似性を攻撃の有無で比較することにより、マスクレード攻撃を検出することを実証する。
我々は,これまでに収集したマスクレード攻撃(ROADデータセット)を用いたCANデータセットを用いてアプローチを検証し,提案手法がCANマスクレード攻撃を検出する可能性を実証するための概念実証として法医学ツールを開発した。 Vehicular Controller Area Networks (CANs) are susceptible to cyber attacks of different levels of sophistication. Fabrication attacks are the easiest to administer -- an adversary simply sends (extra) frames on a CAN -- but also the easiest to detect because they disrupt frame frequency. To overcome time-based detection methods, adversaries must administer masquerade attacks by sending frames in lieu of (and therefore at the expected time of) benign frames but with malicious payloads. Research efforts have proven that CAN attacks, and masquerade attacks in particular, can affect vehicle functionality. Examples include causing unintended acceleration, deactivation of vehicle's brakes, as well as steering the vehicle. We hypothesize that masquerade attacks modify the nuanced correlations of CAN signal time series and how they cluster together. Therefore, changes in cluster assignments should indicate anomalous behavior. We confirm this hypothesis by leveraging our previously developed capability for reverse engineering CAN signals (i.e., CAN-D [Controller Area Network Decoder]) and focus on advancing the state of the art for detecting masquerade attacks by analyzing time series extracted from raw CAN frames. Specifically, we demonstrate that masquerade attacks can be detected by computing time series clustering similarity using hierarchical clustering on the vehicle's CAN signals (time series) and comparing the clustering similarity across CAN captures with and without attacks. We test our approach in a previously collected CAN dataset with masquerade attacks (i.e., the ROAD dataset) and develop a forensic tool as a proof of concept to demonstrate the potential of the proposed approach for detecting CAN masquerade attacks. | 翻訳日:2022-01-12 10:23:43 公開日:2022-01-07 |
# (参考訳) ディープニューラルネットワークにおけるブロックウォルシュ・アダマール変換に基づくバイナリ層 Block Walsh-Hadamard Transform Based Binary Layers in Deep Neural Networks ( http://arxiv.org/abs/2201.02711v1 ) ライセンス: CC BY 4.0 | Hongyi Pan, Diaa Badawi, Ahmet Enis Cetin | (参考訳) 畳み込みは、現代のディープニューラルネットワークのコアオペレーションである。
畳み込みがフーリエ変換領域に実装できることはよく知られている。
本稿では,フーリエ変換の代わりに二元ブロックウォルシュ・ハダマード変換(wht)を用いることを提案する。
WHTベースのバイナリレイヤを使用して、ディープニューラルネットワークの通常の畳み込みレイヤを置き換える。
本稿では, 1次元 (1-D) と 2次元 (2-D) の2次元 WHT を併用する。
1-d層と2-d層の両方において、入力特徴写像の2値whtを計算し、ソフトスレッショルドとtanh関数を組み合わせた非線形性を用いてwht領域係数を除算する。
消音後、逆whtを計算します。
1d-wht は 1\times 1$ 畳み込み層を置き換え、2d-wht 層は 3$\times$3 畳み込み層と押し出し層を置き換えることができる。
トレーニング可能な重量を持つ2D-WHT層は、Global Average Pooling (GAP)層の前に挿入して、密度の高い層を支援することもできる。
これにより、トレーニング可能なパラメータをわずかに減らして、トレーニング可能なパラメータの数を大幅に削減することができる。
本稿では,WHT層をMobileNet-V2,MobileNet-V3-Large,ResNetに実装し,パラメータ数を大幅に削減する。
さらに、我々の速度テストによると、2D-FWHT層は、NVIDIA Jetson Nano実験において、通常の3ドルの3$畳み込みと19.51\%のRAM使用率で約24倍の速度で動作している。 Convolution has been the core operation of modern deep neural networks. It is well-known that convolutions can be implemented in the Fourier Transform domain. In this paper, we propose to use binary block Walsh-Hadamard transform (WHT) instead of the Fourier transform. We use WHT-based binary layers to replace some of the regular convolution layers in deep neural networks. We utilize both one-dimensional (1-D) and two-dimensional (2-D) binary WHTs in this paper. In both 1-D and 2-D layers, we compute the binary WHT of the input feature map and denoise the WHT domain coefficients using a nonlinearity which is obtained by combining soft-thresholding with the tanh function. After denoising, we compute the inverse WHT. We use 1D-WHT to replace the $1\times 1$ convolutional layers, and 2D-WHT layers can replace the 3$\times$3 convolution layers and Squeeze-and-Excite layers. 2D-WHT layers with trainable weights can be also inserted before the Global Average Pooling (GAP) layers to assist the dense layers. In this way, we can reduce the number of trainable parameters significantly with a slight decrease in trainable parameters. In this paper, we implement the WHT layers into MobileNet-V2, MobileNet-V3-Large, and ResNet to reduce the number of parameters significantly with negligible accuracy loss. Moreover, according to our speed test, the 2D-FWHT layer runs about 24 times as fast as the regular $3\times 3$ convolution with 19.51\% less RAM usage in an NVIDIA Jetson Nano experiment. | 翻訳日:2022-01-12 10:08:52 公開日:2022-01-07 |
# Tisane: 概念とデータ関係からの形式的推論による統計モデルのオーサリング Tisane: Authoring Statistical Models via Formal Reasoning from Conceptual and Data Relationships ( http://arxiv.org/abs/2201.02705v1 ) ライセンス: Link先を確認 | Eunice Jun, Audrey Seo, Jeffrey Heer, Ren\'e Just | (参考訳) 適切な統計モデリングは、概念がどのように関連しているかとデータの計測方法の詳細についてドメイン理論を取り入れている。
しかし、現在データアナリストは、ドメインの仮定、データ収集、モデリングの選択を統合的に記録および推論するためのツールサポートを欠いているため、科学的妥当性を損なう可能性がある。
例えば、一般化線形混合影響モデル(GLMM)は複雑な研究の質問に答えるのに役立つが、ランダム効果を省略することは結果の一般化を損なう。
そこで,本研究では一般化線形モデルを作成するための混合イニシアティブシステム tisane を提案する。
tisane氏は変数間の関係を表現し、質問するための研究設計仕様言語を紹介している。
Tisaneは、グラフ内の関係を表すインタラクティブなコンパイルプロセスを提供し、候補となる統計モデルを推論し、ユーザクエリを曖昧にするためにフォローアップ質問を行い、有効なモデルを構築する。
3人の研究者によるケーススタディでは、Tisaneが過去のミスを避けながら目標や仮定に集中するのに役立ちます。 Proper statistical modeling incorporates domain theory about how concepts relate and details of how data were measured. However, data analysts currently lack tool support for recording and reasoning about domain assumptions, data collection, and modeling choices in an integrated manner, leading to mistakes that can compromise scientific validity. For instance, generalized linear mixed-effects models (GLMMs) help answer complex research questions, but omitting random effects impairs the generalizability of results. To address this need, we present Tisane, a mixed-initiative system for authoring generalized linear models with and without mixed-effects. Tisane introduces a study design specification language for expressing and asking questions about relationships between variables. Tisane contributes an interactive compilation process that represents relationships in a graph, infers candidate statistical models, and asks follow-up questions to disambiguate user queries to construct a valid model. In case studies with three researchers, we find that Tisane helps them focus on their goals and assumptions while avoiding past mistakes. | 翻訳日:2022-01-11 17:34:49 公開日:2022-01-07 |
# Neighbor2vec:グラフ埋め込みの効率的かつ効果的な方法 Neighbor2vec: an efficient and effective method for Graph Embedding ( http://arxiv.org/abs/2201.02626v1 ) ライセンス: Link先を確認 | Zhiming Lin | (参考訳) グラフ埋め込み技術は近年大きな進歩を遂げている。
しかし、現在の技術はネットワークのパターンを捉えるのに十分ではない。
本稿では,ノードと隣接ノード間の特徴伝達によって構造情報を収集する枠組みであるノードの近傍表現を学習するために,近傍に基づくサンプリング戦略であるnearne2vecを提案する。
neighbor2vecは、グラフ埋め込みの平等だけでなく、スケーラビリティを向上させるためのシンプルで効果的なアプローチであり、既存の最先端の教師なしテクニックの限界を破ります。
ogbn-arxiv,ogbn-products,ogbn-proteins,ogbl-ppa,ogbl-collab,ogbl-citation2などのネットワークのノード分類およびリンク予測タスクについて実験を行った。
その結果、nearne2vecの表現は、ノード分類タスクの競合メソッドよりも最大6.8%、リンク予測タスクでは3.0%高い平均精度を示している。
隣接する2vecの表現は、6つの実験で全てのベースラインメソッドと2つの古典的なgnnモデルを上回ることができる。 Graph embedding techniques have led to significant progress in recent years. However, present techniques are not effective enough to capture the patterns of networks. This paper propose neighbor2vec, a neighbor-based sampling strategy used algorithm to learn the neighborhood representations of node, a framework to gather the structure information by feature propagation between the node and its neighbors. We claim that neighbor2vec is a simple and effective approach to enhancing the scalability as well as equality of graph embedding, and it breaks the limits of the existing state-of-the-art unsupervised techniques. We conduct experiments on several node classification and link prediction tasks for networks such as ogbn-arxiv, ogbn-products, ogbn-proteins, ogbl-ppa,ogbl-collab and ogbl-citation2. The result shows that Neighbor2vec's representations provide an average accuracy scores up to 6.8 percent higher than competing methods in node classification tasks and 3.0 percent higher in link prediction tasks. The neighbor2vec's representations are able to outperform all baseline methods and two classical GNN models in all six experiments. | 翻訳日:2022-01-11 17:34:30 公開日:2022-01-07 |
# 機械用ビデオ符号化:SIFT特徴の部分伝送 Video Coding for Machines: Partial transmission of SIFT features ( http://arxiv.org/abs/2201.02689v1 ) ライセンス: Link先を確認 | S{\l}awomir Ma\'ckowiak, Marek Doma\'nski, S{\l}awomir R\'o\.zek, Dominik Cywi\'nski, Jakub Szkie{\l}da | (参考訳) この論文は、人間や機械によるデコードビデオの消費に関連するビデオコーディングの新しいパラダイムである、ビデオ符号化 for Machinesを扱う。
このようなタスクでは,圧縮映像と特徴の同時伝送が検討されている。
本稿では,siftキーポイントの特徴について考察する。
復号されたビデオから、元のビデオから抽出したSIFTキーポイントと比較して、キーポイント数とそのパラメータが失われる。
このような損失は、量子化パラメータとビットレートの関数としてHEVCとVVCに対して研究される。
本稿では,圧縮映像と共に残差特徴データを送信することを提案する。
したがって、強く圧縮されたビデオであっても全SIFTキーポイント情報の送信は避けられる。 The paper deals with Video Coding for Machines that is a new paradigm in video coding related to consumption of decoded video by humans and machines. For such tasks, joint transmission of compressed video and features is considered. In this paper, we focus our considerations of features on SIFT keypoints. They can be extracted from the decoded video with losses in number of keypoints and their parameters as compared to the SIFT keypoints extracted from the original video. Such losses are studied for HEVC and VVC as functions of the quantization parameter and the bitrate. In the paper, we propose to transmit the residual feature data together with the compressed video. Therefore, even for strongly compressed video, the transmission of whole all SIFT keypoint information is avoided. | 翻訳日:2022-01-11 17:30:49 公開日:2022-01-07 |
# 太陽系外惑星透過スペクトルの探索データ解析のための教師なし機械学習 Unsupervised Machine Learning for Exploratory Data Analysis of Exoplanet Transmission Spectra ( http://arxiv.org/abs/2201.02696v1 ) ライセンス: Link先を確認 | Konstantin T. Matchev, Katia Matcheva, Alexander Roman | (参考訳) トランジット分光法は、太陽系外惑星の大気の化学組成を解読する強力なツールである。
本稿では,通過系外惑星からのスペクトルデータを解析するための教師なし手法に着目した。
私たちは方法を示します
一 データの清掃及び検証
二 概要統計(位置及び変動率の推定値)に基づく初期の探索データ分析
三 データの既存の相関関係の探索及び定量化
四 データの主成分への前処理及び線形変換
五 次元性低減及び多様体学習
六 クラスタリング及び異常検出
七 データの可視化及び解釈
提案手法を説明するために, 合成トランジットスペクトルの公開ベンチマークデータセットを用いた。
スペクトルデータには適切な低次元表現を要求する高い相関関係が存在することを示す。
このような次元削減のための様々な手法を探索し、要約統計や主成分などの観点からいくつかの適切な選択肢を同定する。
基礎となる大気の異なる化学構造に対応する、よく定義された枝を主成分として興味深い構造を明らかにする。
これらの分岐をk平均クラスタリングアルゴリズムで完全に教師なしの方法で回収できることを実証する。
我々は、データの既存の構造を明らかにし、惑星の化学クラスを迅速に特徴付けるために、最初の3つの主成分を用いて、分光データの3次元表現を提唱する。 Transit spectroscopy is a powerful tool to decode the chemical composition of the atmospheres of extrasolar planets. In this paper we focus on unsupervised techniques for analyzing spectral data from transiting exoplanets. We demonstrate methods for i) cleaning and validating the data, ii) initial exploratory data analysis based on summary statistics (estimates of location and variability), iii) exploring and quantifying the existing correlations in the data, iv) pre-processing and linearly transforming the data to its principal components, v) dimensionality reduction and manifold learning, vi) clustering and anomaly detection, vii) visualization and interpretation of the data. To illustrate the proposed unsupervised methodology, we use a well-known public benchmark data set of synthetic transit spectra. We show that there is a high degree of correlation in the spectral data, which calls for appropriate low-dimensional representations. We explore a number of different techniques for such dimensionality reduction and identify several suitable options in terms of summary statistics, principal components, etc. We uncover interesting structures in the principal component basis, namely, well-defined branches corresponding to different chemical regimes of the underlying atmospheres. We demonstrate that those branches can be successfully recovered with a K-means clustering algorithm in fully unsupervised fashion. We advocate for a three-dimensional representation of the spectroscopic data in terms of the first three principal components, in order to reveal the existing structure in the data and quickly characterize the chemical class of a planet. | 翻訳日:2022-01-11 17:28:25 公開日:2022-01-07 |
# 敗血症の数学モデルの改良 : 複雑な非線形感染症システムのモデリング、分岐解析、最適制御研究 An Improved Mathematical Model of Sepsis: Modeling, Bifurcation Analysis, and Optimal Control Study for Complex Nonlinear Infectious Disease System ( http://arxiv.org/abs/2201.02702v1 ) ライセンス: Link先を確認 | Yuyang Chen, Kaiming Bi, Chih-Hang J. Wu, David Ben-Arieh, Ashesh Sinha | (参考訳) 敗血症(sepsis)は、世界で2番目に多い死因であり、世界でも2番目に大きな死亡事故である。
包括的セシスシステムにおける最適制御治療や介入戦略の研究は、死亡率の低下に鍵を握る。
この目的のために,本稿ではまず,従来の研究で提案した複雑な非線形セシスモデルを改善する。
次に、各セプシスサブシステムに対して分岐解析を行い、いくつかのシステムパラメータの下でモデル挙動を研究する。
また, 分岐解析の結果は, 制御療法と介入療法の必要性も示唆している。
敗血症システムがパラメータと初期システム値の設定で制御を一切追加しない場合、システムは時間が経つにつれて持続的な炎症の結果を生じる。
そこで本研究では, 複雑に改良された非線形セプシモデルをセプシ最適制御モデルとして開発し, 既存の臨床実践で推奨される有効なバイオマーカーを用いてセプシの発達を定量的に評価する。
さらに,リカレントニューラルネットワーク(rnn-boアルゴリズム)を組み合わせたベイズ最適化アルゴリズムを導入し,検討したセプシス最適制御系の最適制御戦略を予測した。
RNN-BOアルゴリズムと他の最適化アルゴリズムとの違いは、新しい初期システム値設定が与えられたら(初期値は患者の初期状態と関連付けられている)、新しい敗血症患者の歴史的最適制御データに基づいて、対応する時系列最適制御を迅速に予測できることである。
複素非線形セシスシステムにおける最適制御解の解法におけるRNN-BOアルゴリズムの有効性と効率を実証するため,他の最適化アルゴリズムとの比較により数値シミュレーションを行った。 Sepsis is a life-threatening medical emergency, which is a major cause of death worldwide and the second highest cause of mortality in the United States. Researching the optimal control treatment or intervention strategy on the comprehensive sepsis system is key in reducing mortality. For this purpose, first, this paper improves a complex nonlinear sepsis model proposed in our previous work. Then, bifurcation analyses are conducted for each sepsis subsystem to study the model behaviors under some system parameters. The bifurcation analysis results also further indicate the necessity of control treatment and intervention therapy. If the sepsis system is without adding any control under some parameter and initial system value settings, the system will perform persistent inflammation outcomes as time goes by. Therefore, we develop our complex improved nonlinear sepsis model into a sepsis optimal control model, and then use some effective biomarkers recommended in existing clinic practices as optimization objective function to measure the development of sepsis. Besides that, a Bayesian optimization algorithm by combining Recurrent neural network (RNN-BO algorithm) is introduced to predict the optimal control strategy for the studied sepsis optimal control system. The difference between the RNN-BO algorithm from other optimization algorithms is that once given any new initial system value setting (initial value is associated with the initial conditions of patients), the RNN-BO algorithm is capable of quickly predicting a corresponding time-series optimal control based on the historical optimal control data for any new sepsis patient. To demonstrate the effectiveness and efficiency of the RNN-BO algorithm on solving the optimal control solution on the complex nonlinear sepsis system, some numerical simulations are implemented by comparing with other optimization algorithms in this paper. | 翻訳日:2022-01-11 17:26:30 公開日:2022-01-07 |
# 新しいアムハーリック音声感情データセットと分類ベンチマーク A New Amharic Speech Emotion Dataset and Classification Benchmark ( http://arxiv.org/abs/2201.02710v1 ) ライセンス: Link先を確認 | Ephrem A. Retta, Eiad Almekhlafi, Richard Sutcliffe, Mustafa Mhamed, Haider Ali, Jun Feng | (参考訳) 本稿では, 4つの方言(Gojjam, Wollo, Shewa, Gonder)と5つの感情(中性, 恐怖, 幸福, 悲しみ, 怒り)をカバーするアムハラ語音声感情データセット(ASED)を提案する。
我々は、Amharic言語のための最初の音声感情認識(SER)データセットであると信じている。
65人のボランティア参加者、すべてのネイティブスピーカーは、2,474音のサンプルを2秒から4秒の長さで記録した。
8人の裁判官が同意度の高いサンプルに感情を割り当てた(Fleiss kappa = 0.8)。
得られたデータセットは無料でダウンロードできる。
次に、VGGbと呼ばれるよく知られたVGGモデルの4層版を開発した。
その後、ASEDを用いてVGGb for SERを用いて3つの実験を行った。
まず,Mel-spectrogram の特徴とMel- frequency Cepstral coefficient (MFCC) の特徴について検討した。
これは、ASEDで2つのVGGb SERモデルを訓練し、1つはMel-spectrogramを使用し、もう1つはMFCCを用いて訓練した。
4種類の訓練、標準のクロスバリデーション、文、方言、話者グループに基づく3つの変種が試みられた。
したがって、訓練に使用する文はテストに使用されず、方言と話者のグループでも同様である。
結論として、MFCCの機能は4つのトレーニングスキームよりも優れている。
MFCCは実験2で採用され、VGGbと既存の3つのモデル(RESNet50、Alex-Net、LSTM)がASEDで比較された。
VGGbは非常に高い精度(90.73%)と最速の訓練時間があることが判明した。
実験3では、既存の2つのSERデータセットであるRAVDESS(英語)とEMO-DB(ドイツ語)とASED(アンハラ語)のトレーニングでVGGbの性能を比較した。
結果はこれらの言語で比較され、asedが最も高い。
これは、VGGbは他の言語にもうまく適用できることを示している。
ASEDが研究者にAmharic SERの他のモデルの実験を奨励することを願っている。 In this paper we present the Amharic Speech Emotion Dataset (ASED), which covers four dialects (Gojjam, Wollo, Shewa and Gonder) and five different emotions (neutral, fearful, happy, sad and angry). We believe it is the first Speech Emotion Recognition (SER) dataset for the Amharic language. 65 volunteer participants, all native speakers, recorded 2,474 sound samples, two to four seconds in length. Eight judges assigned emotions to the samples with high agreement level (Fleiss kappa = 0.8). The resulting dataset is freely available for download. Next, we developed a four-layer variant of the well-known VGG model which we call VGGb. Three experiments were then carried out using VGGb for SER, using ASED. First, we investigated whether Mel-spectrogram features or Mel-frequency Cepstral coefficient (MFCC) features work best for Amharic. This was done by training two VGGb SER models on ASED, one using Mel-spectrograms and the other using MFCC. Four forms of training were tried, standard cross-validation, and three variants based on sentences, dialects and speaker groups. Thus, a sentence used for training would not be used for testing, and the same for a dialect and speaker group. The conclusion was that MFCC features are superior under all four training schemes. MFCC was therefore adopted for Experiment 2, where VGGb and three other existing models were compared on ASED: RESNet50, Alex-Net and LSTM. VGGb was found to have very good accuracy (90.73%) as well as the fastest training time. In Experiment 3, the performance of VGGb was compared when trained on two existing SER datasets, RAVDESS (English) and EMO-DB (German) as well as on ASED (Amharic). Results are comparable across these languages, with ASED being the highest. This suggests that VGGb can be successfully applied to other languages. We hope that ASED will encourage researchers to experiment with other models for Amharic SER. | 翻訳日:2022-01-11 16:46:17 公開日:2022-01-07 |
# マイクロドーシング:GANによる圧縮のための知識蒸留 Microdosing: Knowledge Distillation for GAN based Compression ( http://arxiv.org/abs/2201.02624v1 ) ライセンス: Link先を確認 | Leonhard Helminger, Roberto Azevedo, Abdelaziz Djelouah, Markus Gross, Christopher Schroers | (参考訳) 近年,学習画像や映像圧縮において大きな進歩を遂げている。
特にGenerative Adversarial Networksの使用は、低ビットレートのレギュレーションにおいて印象的な結果をもたらしている。
しかし、現在の最先端の提案ではモデルサイズは依然として重要な問題であり、既存のソリューションはデコード側でかなりの計算労力を必要とする。
これにより、現実的なシナリオやビデオ圧縮の拡張での使用が制限される。
本稿では,知識蒸留を利用した画像デコーダの有効化について,元のパラメータ数のごく一部で示す。
画像符号化のためのサイド情報を用いたシーケンス特殊化を含む,ソリューションのいくつかの側面について検討する。
最後に、得られた利点をビデオ圧縮の設定に転送する方法を示す。
全体としては、モデルサイズを20倍に削減し、デコード時間の50%削減を可能にします。 Recently, significant progress has been made in learned image and video compression. In particular the usage of Generative Adversarial Networks has lead to impressive results in the low bit rate regime. However, the model size remains an important issue in current state-of-the-art proposals and existing solutions require significant computation effort on the decoding side. This limits their usage in realistic scenarios and the extension to video compression. In this paper, we demonstrate how to leverage knowledge distillation to obtain equally capable image decoders at a fraction of the original number of parameters. We investigate several aspects of our solution including sequence specialization with side information for image coding. Finally, we also show how to transfer the obtained benefits into the setting of video compression. Overall, this allows us to reduce the model size by a factor of 20 and to achieve 50% reduction in decoding time. | 翻訳日:2022-01-11 16:44:38 公開日:2022-01-07 |
# FlexHDR:フレキシブルHDRイメージングのためのアライメントと露出の不確かさのモデル化 FlexHDR: Modelling Alignment and Exposure Uncertainties for Flexible HDR Imaging ( http://arxiv.org/abs/2201.02625v1 ) ライセンス: Link先を確認 | Sibi Catley-Chandar, Thomas Tanay, Lucas Vandroux, Ale\v{s} Leonardis, Gregory Slabaugh, Eduardo P\'erez-Pellitero | (参考訳) 高ダイナミックレンジ(hdr)イメージングは、現代のデジタル写真パイプラインにおいて極めて重要であり、画像の照度が異なるにもかかわらず、良好な露出領域を持つ高品質な写真を生成するために使用される。
これは典型的には、異なる露光で撮影された複数の低ダイナミックレンジ(LDR)画像をマージすることで達成される。
しかし, 過度に露出した領域と, 補償が不十分な動作による誤認識により, ゴーストなどの人工物が生じる。
本稿では,高品質なHDR結果を生成するためにアライメントと露出の不確実性をモデル化する新しいHDRイメージング手法を提案する。
我々は,フレームを高品質なHDR画像に頑健にマージする,HDR対応不確実性駆動型アテンションマップを用いて,アライメントと露出の信頼性を協調的に調整し,評価する戦略を導入する。
さらに,複数のLDR画像を順列不変な方法でフレキシブルにマージ可能な,プログレッシブな多段階画像融合手法を提案する。
実験結果から,提案手法は高画質のHDR画像を最大0.8dBPSNRで作成し,高精細度,色,少ない工芸品の主観的改善を図った。 High dynamic range (HDR) imaging is of fundamental importance in modern digital photography pipelines and used to produce a high-quality photograph with well exposed regions despite varying illumination across the image. This is typically achieved by merging multiple low dynamic range (LDR) images taken at different exposures. However, over-exposed regions and misalignment errors due to poorly compensated motion result in artefacts such as ghosting. In this paper, we present a new HDR imaging technique that specifically models alignment and exposure uncertainties to produce high quality HDR results. We introduce a strategy that learns to jointly align and assess the alignment and exposure reliability using an HDR-aware, uncertainty-driven attention map that robustly merges the frames into a single high quality HDR image. Further, we introduce a progressive, multi-stage image fusion approach that can flexibly merge any number of LDR images in a permutation-invariant manner. Experimental results show our method can produce better quality HDR images with up to 0.8dB PSNR improvement to the state-of-the-art, and subjective improvements in terms of better detail, colours, and fewer artefacts. | 翻訳日:2022-01-11 16:44:26 公開日:2022-01-07 |
# 速度歪み理論を用いたフェデレーション学習における通信精度トレードオフの最適化 Optimizing the Communication-Accuracy Trade-off in Federated Learning with Rate-Distortion Theory ( http://arxiv.org/abs/2201.02664v1 ) ライセンス: Link先を確認 | Nicole Mitchell, Johannes Ball\'e, Zachary Charles, Jakub Kone\v{c}n\'y | (参考訳) 連合学習における重要なボトルネックは、クライアントデバイスから中央サーバにモデル更新を送信する際のネットワーク通信コストである。
我々はこのコストを削減する方法を提案する。
本手法は,その経験的分布を考慮し,量子化された更新を適切な普遍コードで符号化する。
量子化は誤りをもたらすため、平均ビットレートと勾配歪みで所望のトレードオフを最適化して量子化レベルを選択する。
フェデレート学習の非自由な性質にもかかわらず、速度歪みフロンティアはデータセット、オプティマイザ、クライアント、トレーニングラウンド間で一貫性があり、各設定内で歪みがモデル性能を確実に予測できることを示す。
これにより、多くのユースケースでほぼ最適であり、Stack Overflowの次のワード予測ベンチマークでTop-K、DRIVE、3LC、QSGDを上回る、驚くほど単純な圧縮スキームが実現される。 A significant bottleneck in federated learning is the network communication cost of sending model updates from client devices to the central server. We propose a method to reduce this cost. Our method encodes quantized updates with an appropriate universal code, taking into account their empirical distribution. Because quantization introduces error, we select quantization levels by optimizing for the desired trade-off in average total bitrate and gradient distortion. We demonstrate empirically that in spite of the non-i.i.d. nature of federated learning, the rate-distortion frontier is consistent across datasets, optimizers, clients and training rounds, and within each setting, distortion reliably predicts model performance. This allows for a remarkably simple compression scheme that is near-optimal in many use cases, and outperforms Top-K, DRIVE, 3LC and QSGD on the Stack Overflow next-word prediction benchmark. | 翻訳日:2022-01-11 16:11:43 公開日:2022-01-07 |
# 機械学習を用いたuavベース空中画像からの樹木自動計測ソフトウェアの開発 Development of Automatic Tree Counting Software from UAV Based Aerial Images With Machine Learning ( http://arxiv.org/abs/2201.02698v1 ) ライセンス: Link先を確認 | Musa Ata\c{s}, Ayhan Talay | (参考訳) 無人航空機(UAV)は、軍事、警備、監視、緊急支援、観光、農業、林業など、多くの応用分野において成功している。
本研究の目的は,UAVによる高解像度画像から,シルト大学キャンパスの指定領域の樹木を自動カウントすることである。
Adobe Photoshopのフォトマージツールを使って、高さ30mで20%オーバーラップした画像を地上局でオフラインで縫い付けました。
その結果,3x3中央値フィルタと平均値フィルタをそれぞれ適用し,画像のノイズ化と平滑化を行った。
ある地域でUAVが捉えた空中画像の正光マップを生成した後、これらの地図上の異なる物体の境界ボックスは、HSV(Hue Saturation Value)、RGB(Red Green Blue)、グレー(Gray)のモダリティにラベル付けされた。
トレーニング,検証,テストデータセットが生成され,さまざまな機械学習アルゴリズムを用いて木検出に関する分類成功率の評価を行った。
最終段階では,実木数を求めることにより基底真理モデルが確立され,参照基底真理データと提案モデルとの比較により予測性能が算出された。
MLP分類器で得られた木数の平均精度は87%と推定された。 Unmanned aerial vehicles (UAV) are used successfully in many application areas such as military, security, monitoring, emergency aid, tourism, agriculture, and forestry. This study aims to automatically count trees in designated areas on the Siirt University campus from high-resolution images obtained by UAV. Images obtained at 30 meters height with 20% overlap were stitched offline at the ground station using Adobe Photoshop's photo merge tool. The resulting image was denoised and smoothed by applying the 3x3 median and mean filter, respectively. After generating the orthophoto map of the aerial images captured by the UAV in certain regions, the bounding boxes of different objects on these maps were labeled in the modalities of HSV (Hue Saturation Value), RGB (Red Green Blue) and Gray. Training, validation, and test datasets were generated and then have been evaluated for classification success rates related to tree detection using various machine learning algorithms. In the last step, a ground truth model was established by obtaining the actual tree numbers, and then the prediction performance was calculated by comparing the reference ground truth data with the proposed model. It is considered that significant success has been achieved for tree count with an average accuracy rate of 87% obtained using the MLP classifier in predetermined regions. | 翻訳日:2022-01-11 16:08:10 公開日:2022-01-07 |
# 自然画像からのScribble SupervisionによるDigital Pathologyにおけるラベルの少ない学習 Learning with less labels in Digital Pathology via Scribble Supervision from natural images ( http://arxiv.org/abs/2201.02627v1 ) ライセンス: Link先を確認 | Eu Wern Teh, Graham W. Taylor | (参考訳) デジタル病理学(DP)領域でディープラーニングモデルをトレーニングする上で重要な課題は、医療専門家による高いアノテーションコストである。
この問題を解決する方法の1つは、アノテーションコストがかなり安い自然画像領域(NI)からの移行学習である。
NIからDPへのクロスドメイン移行学習はクラスラベル~\cite{teh2020learning}を介して成功する。
クラスラベルに依存する潜在的な弱点は、完全なピクセル単位のセグメンテーションラベルやスクリブルラベルといった空間ラベルから得られる空間情報の欠如である。
NIドメインのスクリブルラベルは,2つの癌分類データセット(Patch Camelyon Breast Cancer とColorectal Cancer データセット)におけるDPモデルの性能を向上させることができることを示した。
さらに,スクリブルラベルでトレーニングしたモデルでは,収集が極めて容易かつ高速であるにもかかわらず,フルピクセルワイドセグメンテーションラベルと同じ性能向上が得られることを示す。 A critical challenge of training deep learning models in the Digital Pathology (DP) domain is the high annotation cost by medical experts. One way to tackle this issue is via transfer learning from the natural image domain (NI), where the annotation cost is considerably cheaper. Cross-domain transfer learning from NI to DP is shown to be successful via class labels~\cite{teh2020learning}. One potential weakness of relying on class labels is the lack of spatial information, which can be obtained from spatial labels such as full pixel-wise segmentation labels and scribble labels. We demonstrate that scribble labels from NI domain can boost the performance of DP models on two cancer classification datasets (Patch Camelyon Breast Cancer and Colorectal Cancer dataset). Furthermore, we show that models trained with scribble labels yield the same performance boost as full pixel-wise segmentation labels despite being significantly easier and faster to collect. | 翻訳日:2022-01-11 15:34:04 公開日:2022-01-07 |
# BottleFit: 効率的なスプリットコンピューティングのためのディープニューラルネットワークにおける圧縮表現の学習 BottleFit: Learning Compressed Representations in Deep Neural Networks for Effective and Efficient Split Computing ( http://arxiv.org/abs/2201.02693v1 ) ライセンス: Link先を確認 | Yoshitomo Matsubara, Davide Callegaro, Sameer Singh, Marco Levorato, Francesco Restuccia | (参考訳) ミッションクリティカルなアプリケーションはディープニューラルネットワーク(DNN)を必要とするが、モバイルデバイスでの連続実行はエネルギー消費を大幅に増加させる。
エッジオフロードはエネルギー消費を減少させるが、チャネル品質、ネットワークおよびエッジサーバ負荷の不安定なパターンは、システムのキー操作を著しく破壊する可能性がある。
スプリットコンピューティングと呼ばれる別のアプローチでは、帯域幅の使用量とエネルギー消費を減らすためにモデル内の圧縮表現(ボトルネックと呼ばれる)を生成する。
以前の作業では、エネルギー消費とレイテンシを損なうため、追加のレイヤを導入するアプローチが提案されている。
そこで本研究では,目標とするDNNアーキテクチャの変更に加えて,高い圧縮率で高い精度を実現するための新たなトレーニング戦略を含む,BottleFitというフレームワークを提案する。
画像分類における最先端DNNモデルにBottleFitを適用し、画像Netデータセット上で最大0.6%の精度で77.1%のデータ圧縮を達成する一方、SPINNのような技術の状態は6%の精度で失われることを示す。
NVIDIA Jetson Nanoボード(GPUベース)とRaspberry PIボード(GPUなし)で動作する画像分類アプリケーションの消費電力と遅延を実験的に測定した。
この結果,BottleFitは(w.r.t.)ローカルコンピューティングに対して最大49%,89%,エッジオフロードでは37%,55%の電力消費を減少させることがわかった。
bottlefitを最先端のオートエンコーダベースのアプローチと比較し、それを示す。
(i) bottlefitは、jetsonでは最大54%、44%、raspberry piでは40%、62%の消費電力と実行時間をそれぞれ削減します。
(ii)モバイルデバイス上で実行されるヘッドモデルのサイズは83倍である。
コードリポジトリは結果の完全な再現性のために公開される。 Although mission-critical applications require the use of deep neural networks (DNNs), their continuous execution at mobile devices results in a significant increase in energy consumption. While edge offloading can decrease energy consumption, erratic patterns in channel quality, network and edge server load can lead to severe disruption of the system's key operations. An alternative approach, called split computing, generates compressed representations within the model (called "bottlenecks"), to reduce bandwidth usage and energy consumption. Prior work has proposed approaches that introduce additional layers, to the detriment of energy consumption and latency. For this reason, we propose a new framework called BottleFit, which, in addition to targeted DNN architecture modifications, includes a novel training strategy to achieve high accuracy even with strong compression rates. We apply BottleFit on cutting-edge DNN models in image classification, and show that BottleFit achieves 77.1% data compression with up to 0.6% accuracy loss on ImageNet dataset, while state of the art such as SPINN loses up to 6% in accuracy. We experimentally measure the power consumption and latency of an image classification application running on an NVIDIA Jetson Nano board (GPU-based) and a Raspberry PI board (GPU-less). We show that BottleFit decreases power consumption and latency respectively by up to 49% and 89% with respect to (w.r.t.) local computing and by 37% and 55% w.r.t. edge offloading. We also compare BottleFit with state-of-the-art autoencoders-based approaches, and show that (i) BottleFit reduces power consumption and execution time respectively by up to 54% and 44% on the Jetson and 40% and 62% on Raspberry PI; (ii) the size of the head model executed on the mobile device is 83 times smaller. The code repository will be published for full reproducibility of the results. | 翻訳日:2022-01-11 15:33:49 公開日:2022-01-07 |
# わずかなサンプルでモデルを圧縮する: 模倣し、置き換える Compressing Models with Few Samples: Mimicking then Replacing ( http://arxiv.org/abs/2201.02620v1 ) ライセンス: Link先を確認 | Huanyu Wang, Junjie Liu, Xin Ma, Yang Yong, Zhenhua Chai, Jianxin Wu | (参考訳) サンプルの少ない小さなコンパクトなモデルに、大きな冗長なモデルを圧縮することを目的としている。
これらの限られたサンプルを直接修正すれば、モデルは過度に適合し、ほとんど何も学ばない。
したがって、従来の方法では、圧縮モデル層を層単位で最適化し、すべての層が教師モデルの対応する層と同じ出力を持つようにしようとする。
そこで本論文では,まず,教師のペナルティメート層における特徴量と同じ特徴量を出力することをprunedモデルに促し,次に教師の層をよく調整されたコンパクトな圧縮に置き換える手法として,mir(museking then)という新しいフレームワークを提案する。
従来の階層的な再構築手法とは異なり、我々のMiRはネットワーク全体を一様に最適化し、シンプルで効果的であるだけでなく、教師なしで汎用性も備えている。
MiRは従来の手法よりも大きなマージンを持つ。
コードはもうすぐ入手できる。 Few-sample compression aims to compress a big redundant model into a small compact one with only few samples. If we fine-tune models with these limited few samples directly, models will be vulnerable to overfit and learn almost nothing. Hence, previous methods optimize the compressed model layer-by-layer and try to make every layer have the same outputs as the corresponding layer in the teacher model, which is cumbersome. In this paper, we propose a new framework named Mimicking then Replacing (MiR) for few-sample compression, which firstly urges the pruned model to output the same features as the teacher's in the penultimate layer, and then replaces teacher's layers before penultimate with a well-tuned compact one. Unlike previous layer-wise reconstruction methods, our MiR optimizes the entire network holistically, which is not only simple and effective, but also unsupervised and general. MiR outperforms previous methods with large margins. Codes will be available soon. | 翻訳日:2022-01-11 15:03:37 公開日:2022-01-07 |
# 注意オプション批判 Attention Option-Critic ( http://arxiv.org/abs/2201.02628v1 ) ライセンス: Link先を確認 | Raviteja Chunduru, Doina Precup | (参考訳) 強化学習における時間的抽象化は、エージェントが選択肢と呼ばれる高度な行動を学び、使用する能力である。
option-criticアーキテクチャは、オプションを構築するための勾配ベースのエンドツーエンド学習方法を提供する。
本稿では,観察空間の異なる側面に異なる選択肢を集中させることを学習できる,注目に基づくこのフレームワークの拡張を提案する。
同様に状態抽象化が可能で,オプション支配や頻繁なオプション切替といったデリケートな問題を防止すると同時に,類似のサンプル複雑性を実現している。
また,異なるトランスファー学習タスクを通じて,学習オプションの効率性,解釈性,再利用可能な性質を示す。
比較的単純な4室環境とより複雑なale(arcade learning environment)における実験結果から,本手法の有効性が示された。 Temporal abstraction in reinforcement learning is the ability of an agent to learn and use high-level behaviors, called options. The option-critic architecture provides a gradient-based end-to-end learning method to construct options. We propose an attention-based extension to this framework, which enables the agent to learn to focus different options on different aspects of the observation space. We show that this leads to behaviorally diverse options which are also capable of state abstraction, and prevents the degeneracy problems of option domination and frequent option switching that occur in option-critic, while achieving a similar sample complexity. We also demonstrate the more efficient, interpretable, and reusable nature of the learned options in comparison with option-critic, through different transfer learning tasks. Experimental results in a relatively simple four-rooms environment and the more complex ALE (Arcade Learning Environment) showcase the efficacy of our approach. | 翻訳日:2022-01-11 14:41:18 公開日:2022-01-07 |
# Stay Positive: 否定的なサンプリングのない知識グラフの埋め込み Stay Positive: Knowledge Graph Embedding Without Negative Sampling ( http://arxiv.org/abs/2201.02661v1 ) ライセンス: Link先を確認 | Ainaz Hajimoradlou and Mehran Kazemi | (参考訳) 知識グラフ(KG)は一般的に不完全であり、既存のものから新しい事実を推論したいと願うことが多い。
これは二項分類問題であり、新しい事実が真か偽かを予測することを目的としている。
残念ながら、一般的にはポジティブな例(既知の事実)しかありませんが、分類器のトレーニングにはネガティブな例も必要です。
これを解決するために、通常、負のサンプリング戦略を用いて負の例を生成する。
しかし、これはパフォーマンスを低下させ、計算コストが高く、分類確率を校正しない偽陰性を引き起こす可能性がある。
本稿では,新しい正規化項を損失関数に追加することにより,負サンプリングの必要性を緩和するトレーニング手順を提案する。
我々の2つの関係埋め込みモデル(DistMultとSimplE)の結果は、性能と速度の両面で提案の利点を示している。 Knowledge graphs (KGs) are typically incomplete and we often wish to infer new facts given the existing ones. This can be thought of as a binary classification problem; we aim to predict if new facts are true or false. Unfortunately, we generally only have positive examples (the known facts) but we also need negative ones to train a classifier. To resolve this, it is usual to generate negative examples using a negative sampling strategy. However, this can produce false negatives which may reduce performance, is computationally expensive, and does not produce calibrated classification probabilities. In this paper, we propose a training procedure that obviates the need for negative sampling by adding a novel regularization term to the loss function. Our results for two relational embedding models (DistMult and SimplE) show the merit of our proposal both in terms of performance and speed. | 翻訳日:2022-01-11 14:41:04 公開日:2022-01-07 |
# ganコンディショニングの入力再プログラミングの改善 Improved Input Reprogramming for GAN Conditioning ( http://arxiv.org/abs/2201.02692v1 ) ライセンス: Link先を確認 | Tuan Dinh, Daewon Seo, Zhixu Du, Liang Shang, and Kangwook Lee | (参考訳) 本研究では,事前学習した未条件GANをラベル付きデータを用いて条件付きGANに変換することを目標とするGAN条件付け問題について検討する。
まず,この問題に対する条件付きGANトレーニング,微調整,入力再プログラミングの3つのアプローチを同定し,解析する。
分析の結果,ラベル付きデータの量が小さい場合,入力再プログラミングが最適であることが判明した。
ラベル付きデータが少ない実世界のシナリオに触発され、入力再プログラミングアプローチに注目し、既存のアルゴリズムを慎重に分析する。
従来の入力再プログラミング手法の重要な問題をいくつか特定した後,inrep+と呼ばれる新しいアルゴリズムを提案する。
inrep+アルゴリズムは、インバータブルニューラルネットワークと正ラベル(pu)学習の新たな用途において、既存の問題に対処する。
InRep+は,ラベル情報が少なく,ノイズが少なく,不均衡な場合に,既存の手法よりも優れていることを示す。
例えば、1%のラベル付きデータでCIFAR10 GANを条件付けするタスクに対して、InRep+は平均FID82.13を達成し、第2のベストメソッドは114.51を達成している。 We study the GAN conditioning problem, whose goal is to convert a pretrained unconditional GAN into a conditional GAN using labeled data. We first identify and analyze three approaches to this problem -- conditional GAN training from scratch, fine-tuning, and input reprogramming. Our analysis reveals that when the amount of labeled data is small, input reprogramming performs the best. Motivated by real-world scenarios with scarce labeled data, we focus on the input reprogramming approach and carefully analyze the existing algorithm. After identifying a few critical issues of the previous input reprogramming approach, we propose a new algorithm called InRep+. Our algorithm InRep+ addresses the existing issues with the novel uses of invertible neural networks and Positive-Unlabeled (PU) learning. Via extensive experiments, we show that InRep+ outperforms all existing methods, particularly when label information is scarce, noisy, and/or imbalanced. For instance, for the task of conditioning a CIFAR10 GAN with 1% labeled data, InRep+ achieves an average Intra-FID of 82.13, whereas the second-best method achieves 114.51. | 翻訳日:2022-01-11 14:40:48 公開日:2022-01-07 |
# (参考訳) GCWSNet: ニューラルネットワークのスケーラブルで正確なトレーニングのための一般化された一貫性重み付きサンプリング GCWSNet: Generalized Consistent Weighted Sampling for Scalable and Accurate Training of Neural Networks ( http://arxiv.org/abs/2201.02283v1 ) ライセンス: CC BY 4.0 | Ping Li and Weijie Zhao | (参考訳) 我々は,「パワーGMM」(pGMM)カーネルをハッシュ化するためのGCWS(Generalized consistent weighted sample)を開発した(チューニングパラメータは$p$)。
GCWSは、$p$とデータの大きさに関わらず、元のデータに電力変換を適用するための数値的に安定したスキームを提供する。
電力変換は、多くの場合、性能を高めるのに効果的である。
ハッシュデータをさまざまな公開分類データセットのニューラルネットワークにフィードし、そのメソッドを ``GCWSNet'' と名付ける。
我々はGCWSNetがしばしば分類精度を向上することを示した。
さらに、GCWSNetがかなり高速に収束していることは、実験から明らかである。
実際、GCWSはトレーニングプロセスの1つの時代遅れで、妥当な精度に達することが多い。
この特性は、広告クリックスルー率(CTR)予測モデルやデータストリーム(つまり、一度だけ見られるデータ)など多くのアプリケーションが、1つのエポックをトレーニングするので、非常に望ましい。
もうひとつの有益な副作用は、入力データがバイナリ(かつ非常にスパース)になるため、ニューラルネットワークの第1層の計算が乗算ではなく加算となることである。
正規化)ランダムフーリエ特徴(NRFF)と経験的比較を行う。
また、カウントスケッチによるGCWSNetのモデルサイズ削減を提案し、カウントスケッチを用いたGCWSの精度への影響を解析する理論を開発した。
分析の結果,GCWSハッシュの出力に8ビットのカウントスケッチハッシュを常に適用できるため,精度を損なうことなく, '`8-bit'' 戦略がうまく機能することが示唆された。
ディープニューラルネットワークをトレーニングする際、GCWSを利用する方法は他にもたくさんあります。
例えば、トレーニングされたディープニューラルネットワークの精度を高めるために、最後のレイヤの出力にGCWSを適用することができる。 We develop the "generalized consistent weighted sampling" (GCWS) for hashing the "powered-GMM" (pGMM) kernel (with a tuning parameter $p$). It turns out that GCWS provides a numerically stable scheme for applying power transformation on the original data, regardless of the magnitude of $p$ and the data. The power transformation is often effective for boosting the performance, in many cases considerably so. We feed the hashed data to neural networks on a variety of public classification datasets and name our method ``GCWSNet''. Our extensive experiments show that GCWSNet often improves the classification accuracy. Furthermore, it is evident from the experiments that GCWSNet converges substantially faster. In fact, GCWS often reaches a reasonable accuracy with merely (less than) one epoch of the training process. This property is much desired because many applications, such as advertisement click-through rate (CTR) prediction models, or data streams (i.e., data seen only once), often train just one epoch. Another beneficial side effect is that the computations of the first layer of the neural networks become additions instead of multiplications because the input data become binary (and highly sparse). Empirical comparisons with (normalized) random Fourier features (NRFF) are provided. We also propose to reduce the model size of GCWSNet by count-sketch and develop the theory for analyzing the impact of using count-sketch on the accuracy of GCWS. Our analysis shows that an ``8-bit'' strategy should work well in that we can always apply an 8-bit count-sketch hashing on the output of GCWS hashing without hurting the accuracy much. There are many other ways to take advantage of GCWS when training deep neural networks. For example, one can apply GCWS on the outputs of the last layer to boost the accuracy of trained deep neural networks. | 翻訳日:2022-01-10 21:12:00 公開日:2022-01-07 |
# (参考訳) 乳腺腫瘍分類におけるマンモグラムを用いた持続的ホモロジー Persistent Homology for Breast Tumor Classification using Mammogram Scans ( http://arxiv.org/abs/2201.02295v1 ) ライセンス: CC BY 4.0 | Aras Asaad, Dashti Ali, Taban Majeed, Rasber Rashid | (参考訳) フィールドトポロジカルデータ解析における重要なツールは永続ホモロジー (ph) と呼ばれ、永続性ダイアグラム (pd) という形で異なる解像度でデータのホモロジーの抽象表現を符号化するために用いられる。
本研究では,局所2値パターンとして知られるランドマーク選択法に基づいて,画像から異なる種類の局所テクスチャを符号化する単一の画像のpd表現を複数構築する。
我々は、パーシステンスランドスケープ、パーシステンスイメージ、パーシステンスバイナリ(ベティ曲線)、統計を用いて異なるpdベクトル化を採用した。
マンモグラフィースキャンによる乳房異常検出データセットを2つ公開し, 本法の有効性を検証した。
ランドマークベースphの感度は, 乳房異常スキャン検出のための両データセットの90%以上である。
最後に、実験の結果、異なるタイプのpdベクトル化の使用に関する新たな知見が得られ、機械学習の分類器と連携してphを活用するのに役立つ。 An Important tool in the field topological data analysis is known as persistent Homology (PH) which is used to encode abstract representation of the homology of data at different resolutions in the form of persistence diagram (PD). In this work we build more than one PD representation of a single image based on a landmark selection method, known as local binary patterns, that encode different types of local textures from images. We employed different PD vectorizations using persistence landscapes, persistence images, persistence binning (Betti Curve) and statistics. We tested the effectiveness of proposed landmark based PH on two publicly available breast abnormality detection datasets using mammogram scans. Sensitivity of landmark based PH obtained is over 90% in both datasets for the detection of abnormal breast scans. Finally, experimental results give new insights on using different types of PD vectorizations which help in utilising PH in conjunction with machine learning classifiers. | 翻訳日:2022-01-10 20:46:36 公開日:2022-01-07 |
# (参考訳) オープンワールド提案によるワンステップ検出の拡張 Extending One-Stage Detection with Open-World Proposals ( http://arxiv.org/abs/2201.02302v1 ) ライセンス: CC BY 4.0 | Sachin Konan and Kevin J Liang and Li Yin | (参考訳) 自律運転、ハンドマニピュレーション、ロボットナビゲーションといった多くのアプリケーションでは、オブジェクト検出メソッドはトレーニングセットで認識されていないオブジェクトを検出できなければならない。
Open World Detection(OWD)は、検出性能を目に見えるクラスや目に見えないクラスカテゴリに一般化することで、この問題に対処しようとしている。
最近の研究では、open-world proposals(owp)と呼ばれるクラスに依存しない提案の生成に成功しています。
本研究は,2段階領域提案ネットワーク(rpn)を客観性スコアリングの手がかりとして検討してきたが,その単純性,実行時間,局所化と分類の分離のために,fcosのような完全畳み込み型1段階検出ネットワークのレンズを通してowpを調査した。
提案手法は,新しいクラスをリコールする際のOWP性能を最大6%向上させ,RPNベースの2段階ネットワークに匹敵する性能を達成した最初のプロポーザルフリー1段階検出ネットワークであることを示す。
さらに, FCOSの非結合アーキテクチャは, 分類性能の維持に有効であることを示す。
2段階のメソッドは,新しいクラスでリコール時に6%悪化するが,owpと分類を共同で最適化すると,fcosは2%減少する。 In many applications, such as autonomous driving, hand manipulation, or robot navigation, object detection methods must be able to detect objects unseen in the training set. Open World Detection(OWD) seeks to tackle this problem by generalizing detection performance to seen and unseen class categories. Recent works have seen success in the generation of class-agnostic proposals, which we call Open-World Proposals(OWP), but this comes at the cost of a big drop on the classification task when both tasks are considered in the detection model. These works have investigated two-stage Region Proposal Networks (RPN) by taking advantage of objectness scoring cues; however, for its simplicity, run-time, and decoupling of localization and classification, we investigate OWP through the lens of fully convolutional one-stage detection network, such as FCOS. We show that our architectural and sampling optimizations on FCOS can increase OWP performance by as much as 6% in recall on novel classes, marking the first proposal-free one-stage detection network to achieve comparable performance to RPN-based two-stage networks. Furthermore, we show that the inherent, decoupled architecture of FCOS has benefits to retaining classification performance. While two-stage methods worsen by 6% in recall on novel classes, we show that FCOS only drops 2% when jointly optimizing for OWP and classification. | 翻訳日:2022-01-10 20:38:41 公開日:2022-01-07 |
# (参考訳) グラフ畳み込みネットワークを用いた予算対応Few-shot Learning Budget-aware Few-shot Learning via Graph Convolutional Network ( http://arxiv.org/abs/2201.02304v1 ) ライセンス: CC BY 4.0 | Shipeng Yan, Songyang Zhang, Xuming He | (参考訳) 本稿では,いくつかの例から新しい視覚概念を学習することを目的とした,ミニショット学習の問題に取り組む。
数ショット分類における一般的な問題は、データラベルの取得においてランダムサンプリング戦略を仮定する。
そこで本研究では,新しい対象のカテゴリを学習するだけでなく,データ効率を達成するために注釈を付与する有益な例を選択することを目的とした,予算を意識したマイショット学習問題を提案する。
我々は,グラフ畳み込みネットワーク (GCN) とサンプルベースの少ショット分類器を併用して,新しいデータ選択ポリシーを共同で学習する,予算を考慮した少ショット学習タスクのためのメタラーニング戦略を開発する。
選択ポリシーでは、グラフメッセージパッシングによってラベルのない各データに対する文脈依存表現を計算し、逐次選択のための情報度スコアを予測する。
提案手法を,ミニイメージネット,タイレッドイメージネット,オムニグロデータセット上で広範囲な実験により検証した。
その結果,本手法の有効性を示す指標として,本手法がベースラインよりも大きなマージンを示した。 This paper tackles the problem of few-shot learning, which aims to learn new visual concepts from a few examples. A common problem setting in few-shot classification assumes random sampling strategy in acquiring data labels, which is inefficient in practical applications. In this work, we introduce a new budget-aware few-shot learning problem that not only aims to learn novel object categories, but also needs to select informative examples to annotate in order to achieve data efficiency. We develop a meta-learning strategy for our budget-aware few-shot learning task, which jointly learns a novel data selection policy based on a Graph Convolutional Network (GCN) and an example-based few-shot classifier. Our selection policy computes a context-sensitive representation for each unlabeled data by graph message passing, which is then used to predict an informativeness score for sequential selection. We validate our method by extensive experiments on the mini-ImageNet, tiered-ImageNet and Omniglot datasets. The results show our few-shot learning strategy outperforms baselines by a sizable margin, which demonstrates the efficacy of our method. | 翻訳日:2022-01-10 20:20:51 公開日:2022-01-07 |
# (参考訳) 一般化量子類似性学習 Generalized quantum similarity learning ( http://arxiv.org/abs/2201.02310v1 ) ライセンス: CC0 1.0 | Santosh Kumar Radha and Casey Jao | (参考訳) オブジェクト間の類似性は、幅広い領域において重要である。
類似度はオフザシェルフ距離関数を用いて測定できるが、その類似性の本質的な意味を捉えることができず、基礎となるデータやタスクに依存する傾向がある。
さらに、従来の距離関数は類似度測度の空間を対称に制限し、異なる空間の物体を直接比較することはできない。
我々は、同じ次元を持たないデータ間のタスク依存(a)対称類似性を学習するための量子ネットワーク(GQSim)を提案する。
このような類似度関数の特性を解析的に(簡単な場合)、数値的に(複雑な場合)分析し、これらの類似度尺度がデータの健全な特徴を抽出できることを示す。
また、この手法で導かれる類似度測度は$(\epsilon,\gamma,\tau)$-goodであり、理論的に性能が保証されることを示した。
最後に、この手法を分類、グラフ補完、生成モデリングの3つの応用に適用することで結論付ける。 The similarity between objects is significant in a broad range of areas. While similarity can be measured using off-the-shelf distance functions, they may fail to capture the inherent meaning of similarity, which tends to depend on the underlying data and task. Moreover, conventional distance functions limit the space of similarity measures to be symmetric and do not directly allow comparing objects from different spaces. We propose using quantum networks (GQSim) for learning task-dependent (a)symmetric similarity between data that need not have the same dimensionality. We analyze the properties of such similarity function analytically (for a simple case) and numerically (for a complex case) and showthat these similarity measures can extract salient features of the data. We also demonstrate that the similarity measure derived using this technique is $(\epsilon,\gamma,\tau)$-good, resulting in theoretically guaranteed performance. Finally, we conclude by applying this technique for three relevant applications - Classification, Graph Completion, Generative modeling. | 翻訳日:2022-01-10 20:07:12 公開日:2022-01-07 |
# (参考訳) RestoreDet:低解像度画像における物体検出のための劣化等価表現 RestoreDet: Degradation Equivariant Representation for Object Detection in Low Resolution Images ( http://arxiv.org/abs/2201.02314v1 ) ライセンス: CC BY 4.0 | Ziteng Cui, Yingying Zhu, Lin Gu, Guo-Jun Qi, Xiaoxiao Li, Peng Gao, Zenghui Zhang, Tatsuya Harada | (参考訳) super resolution (sr) のような画像復元アルゴリズムは、劣化した画像のオブジェクト検出に必須の事前処理モジュールである。
しかし、これらのアルゴリズムのほとんどは、劣化が固定され、先行性があることを仮定している。
実際の劣化が未知あるいは仮定と異なる場合、事前処理モジュールとオブジェクト検出のような関連するハイレベルタスクの両方が失敗する。
本稿では,劣化した低解像度画像中のオブジェクトを検出するための新しいフレームワークrestoreedetを提案する。
restoredetはダウンサンプリング劣化を、自己教師信号の変換の一種として利用し、様々な解像度や他の劣化条件に対する同変表現を探索する。
具体的には、元の画像とランダムに劣化した画像から劣化変換を符号化して復号することにより、この本質的な視覚構造を学習する。
このフレームワークは、劣化した入力画像から元の対応を再構築するために、任意の解像度復元デコーダを持つ高度なSRアーキテクチャの利点をさらに活用することができる。
表現学習とオブジェクト検出の両方を、エンドツーエンドのトレーニング方法で共同で最適化する。
restoredetは、あらゆるメインストリームのオブジェクト検出アーキテクチャに実装可能な汎用フレームワークである。
大規模な実験により,CenterNetをベースとしたフレームワークは,異種劣化に直面した既存手法に比べて優れた性能を示した。
私たちのコードはまもなくリリースされるでしょう。 Image restoration algorithms such as super resolution (SR) are indispensable pre-processing modules for object detection in degraded images. However, most of these algorithms assume the degradation is fixed and known a priori. When the real degradation is unknown or differs from assumption, both the pre-processing module and the consequent high-level task such as object detection would fail. Here, we propose a novel framework, RestoreDet, to detect objects in degraded low resolution images. RestoreDet utilizes the downsampling degradation as a kind of transformation for self-supervised signals to explore the equivariant representation against various resolutions and other degradation conditions. Specifically, we learn this intrinsic visual structure by encoding and decoding the degradation transformation from a pair of original and randomly degraded images. The framework could further take the advantage of advanced SR architectures with an arbitrary resolution restoring decoder to reconstruct the original correspondence from the degraded input image. Both the representation learning and object detection are optimized jointly in an end-to-end training fashion. RestoreDet is a generic framework that could be implemented on any mainstream object detection architectures. The extensive experiment shows that our framework based on CenterNet has achieved superior performance compared with existing methods when facing variant degradation situations. Our code would be released soon. | 翻訳日:2022-01-10 19:45:20 公開日:2022-01-07 |
# (参考訳) 要約多文書ニュース要約のための教師なしマスキング目的 An Unsupervised Masking Objective for Abstractive Multi-Document News Summarization ( http://arxiv.org/abs/2201.02321v1 ) ライセンス: CC BY 4.0 | Nikolai Vogler, Songlin Li, Yujie Xu, Yujian Mi, Taylor Berg-Kirkpatrick | (参考訳) 単純な教師なしマスキングの目的が,抽象的複数文書ニュース要約における教師付き性能に近づいたアプローチが可能であることを示す。
本手法は,最先端のニューラルネットワーク要約モデルを学習し,複数の文書群に対して語彙中心性が高いマスキングアウトソース文書を予測する。
マルチニューズデータセットを用いた実験では,従来の教師なし手法よりも優れており,人間による評価では,基幹要約へのアクセスを必要とせず,最高の教師付き手法を超越している。
さらに,過去の抽出要約研究に触発された語彙中心度の違いが最終性能に与える影響を評価する。 We show that a simple unsupervised masking objective can approach near supervised performance on abstractive multi-document news summarization. Our method trains a state-of-the-art neural summarization model to predict the masked out source document with highest lexical centrality relative to the multi-document group. In experiments on the Multi-News dataset, our masked training objective yields a system that outperforms past unsupervised methods and, in human evaluation, surpasses the best supervised method without requiring access to any ground-truth summaries. Further, we evaluate how different measures of lexical centrality, inspired by past work on extractive summarization, affect final performance. | 翻訳日:2022-01-10 19:43:48 公開日:2022-01-07 |
# (参考訳) ベースラインシフトに対するベイズオンライン変化点検出 Bayesian Online Change Point Detection for Baseline Shifts ( http://arxiv.org/abs/2201.02325v1 ) ライセンス: CC BY 4.0 | Ginga Yoshizawa | (参考訳) 時系列データ分析において、リアルタイムな変化点(オンライン)の検出は、金融、環境モニタリング、医療など、多くの分野で大きな関心を集めている。
これを実現するための有望な手段の1つは、ベイズオンライン変更点検出(BOCPD)アルゴリズムである。
しかし,ベースラインが初期状態から不可逆的に移行した場合,アルゴリズムが問題となることがわかった。
これは、元のBOCPDアルゴリズムにより、データポイントが元のベースラインから比較的離れた場所で変動している場合、変化点を検出する感度が低下するためである。
本稿では,BOCPDアルゴリズムをベースラインが常に未知の値にシフトしている時系列に適用できるように拡張するだけでなく,提案手法の動作理由を可視化する。
提案アルゴリズムの有効性を示すために,提案アルゴリズムを実世界の2つのデータセットと6つの合成データセットで検証した。 In time series data analysis, detecting change points on a real-time basis (online) is of great interest in many areas, such as finance, environmental monitoring, and medicine. One promising means to achieve this is the Bayesian online change point detection (BOCPD) algorithm, which has been successfully adopted in particular cases in which the time series of interest has a fixed baseline. However, we have found that the algorithm struggles when the baseline irreversibly shifts from its initial state. This is because with the original BOCPD algorithm, the sensitivity with which a change point can be detected is degraded if the data points are fluctuating at locations relatively far from the original baseline. In this paper, we not only extend the original BOCPD algorithm to be applicable to a time series whose baseline is constantly shifting toward unknown values but also visualize why the proposed extension works. To demonstrate the efficacy of the proposed algorithm compared to the original one, we examine these algorithms on two real-world data sets and six synthetic data sets. | 翻訳日:2022-01-10 19:35:43 公開日:2022-01-07 |
# (参考訳) idecode: コンフォーマントアウトオブディストリビューション検出のためのインディストリビューション等分散 iDECODe: In-distribution Equivariance for Conformal Out-of-distribution Detection ( http://arxiv.org/abs/2201.02331v1 ) ライセンス: CC BY 4.0 | Ramneet Kaur, Susmit Jha, Anirban Roy, Sangdon Park, Edgar Dobriban, Oleg Sokolsky, Insup Lee | (参考訳) ディープニューラルネットワーク(DNN)のような機械学習手法は、異なるドメインで成功したにもかかわらず、トレーニングディストリビューション外の入力に高い信頼性で誤った予測を生成することがよく知られている。
安全クリティカルなドメインにDNNを配置するには、DNNがそれらの予測を控えるように、OOD(out-of-distriion)データを検出する必要がある。
OOD検出のためのいくつかの方法が最近開発されたが、まだ改善の余地がある。
そこで我々は,共形OOD検出に分配同値を用いたiDECODeを提案する。
帰納的共形異常検出フレームワークで使用される新規な非整合性尺度と新しい集約法に依存し、従って有界偽検出率を保証する。
画像と音声のデータセットを用いた実験により,iDECODeの有効性を実証し,その結果を得た。
また,iDECODeは敵のサンプルを検出できることを示した。 Machine learning methods such as deep neural networks (DNNs), despite their success across different domains, are known to often generate incorrect predictions with high confidence on inputs outside their training distribution. The deployment of DNNs in safety-critical domains requires detection of out-of-distribution (OOD) data so that DNNs can abstain from making predictions on those. A number of methods have been recently developed for OOD detection, but there is still room for improvement. We propose the new method iDECODe, leveraging in-distribution equivariance for conformal OOD detection. It relies on a novel base non-conformity measure and a new aggregation method, used in the inductive conformal anomaly detection framework, thereby guaranteeing a bounded false detection rate. We demonstrate the efficacy of iDECODe by experiments on image and audio datasets, obtaining state-of-the-art results. We also show that iDECODe can detect adversarial examples. | 翻訳日:2022-01-10 19:12:08 公開日:2022-01-07 |
# (参考訳) 脳腫瘍セグメンテーションのためのクロスモダリティ深層機能学習 Cross-Modality Deep Feature Learning for Brain Tumor Segmentation ( http://arxiv.org/abs/2201.02356v1 ) ライセンス: CC BY 4.0 | Dingwen Zhang, Guohai Huang, Qiang Zhang, Jungong Han, Junwei Han, Yizhou Yu | (参考訳) 近年の機械学習の進歩とデジタル医療画像の普及により、深層畳み込みニューラルネットワークを用いて、挑戦的な脳腫瘍セグメンテーション(BTS)課題に取り組む機会が開かれた。
しかし、非常に広く使われているRGB画像データとは異なり、脳腫瘍セグメンテーションで使用される医療画像データは、データスケールでは比較的少ないが、モダリティ特性ではよりリッチな情報を含んでいる。
そこで本稿では,脳腫瘍をマルチモーダリティmriデータから切り離すための,新しいクロスモーダリティ深層特徴学習フレームワークを提案する。
中心となる考え方は、不十分なデータスケールを補うために、マルチモダリティデータにわたる豊富なパターンをマイニングすることだ。
提案するクロスモダリティ深層特徴学習フレームワークは,異なるモダリティデータ間で知識を伝達し,異なるモダリティデータから知識を融合させることによって,リッチな特徴表現を学習することを目的とした,クロスモダリティ特徴遷移(CMFT)プロセスと,クロスモダリティ特徴融合(CMFF)プロセスの2つの学習プロセスからなる。
bratsベンチマークを用いて包括的実験を行い,提案するクロスモダリティ・ディープ・フィーチャー・ラーニング・フレームワークは,ベースライン法や最先端法と比較して,脳腫瘍のセグメンテーション性能を効果的に改善できることを示した。 Recent advances in machine learning and prevalence of digital medical images have opened up an opportunity to address the challenging brain tumor segmentation (BTS) task by using deep convolutional neural networks. However, different from the RGB image data that are very widespread, the medical image data used in brain tumor segmentation are relatively scarce in terms of the data scale but contain the richer information in terms of the modality property. To this end, this paper proposes a novel cross-modality deep feature learning framework to segment brain tumors from the multi-modality MRI data. The core idea is to mine rich patterns across the multi-modality data to make up for the insufficient data scale. The proposed cross-modality deep feature learning framework consists of two learning processes: the cross-modality feature transition (CMFT) process and the cross-modality feature fusion (CMFF) process, which aims at learning rich feature representations by transiting knowledge across different modality data and fusing knowledge from different modality data, respectively. Comprehensive experiments are conducted on the BraTS benchmarks, which show that the proposed cross-modality deep feature learning framework can effectively improve the brain tumor segmentation performance when compared with the baseline methods and state-of-the-art methods. | 翻訳日:2022-01-10 18:46:48 公開日:2022-01-07 |
# (参考訳) ミラーラーニング:政策最適化の統一的枠組み Mirror Learning: A Unifying Framework of Policy Optimisation ( http://arxiv.org/abs/2201.02373v1 ) ライセンス: CC BY 4.0 | Jakub Grudzien Kuba, Christian Schroeder de Witt, Jakob Foerster | (参考訳) 総合政策改善(GPI)と信頼領域学習(TRL)は、マルコフ決定プロセス(MDP)のコアモデルとして機能する、現代強化学習(RL)における主要なフレームワークである。
残念なことに、それらの数学的形式は修正に敏感であるため、それらを実装する実用的なインスタンス化は自動的に改善保証を継承しない。
その結果、利用可能な厳密なMDP溶媒のスペクトルは狭い。
実際、TRPOやPPOのような多くの最先端(SOTA)アルゴリズムは収束することが証明されていない。
本稿では,RL問題に対する一般解である「textsl{mirror learning}」を提案する。
我々は,GPI と TRL は,モノトニック改善特性を誇示し,最適ポリシーに収束する,このはるかに大きなアルゴリズム空間内の小さな点であることを明らかにした。
RLのための事実上全てのSOTAアルゴリズムがミラー学習の例であり、その経験的性能は近似的な類似ではなく理論的性質の結果であることを示す。
興味深いことに、ミラー学習は、収束保証を伴う政策学習手法の全く新しい空間を開くことを示す。 General policy improvement (GPI) and trust-region learning (TRL) are the predominant frameworks within contemporary reinforcement learning (RL), which serve as the core models for solving Markov decision processes (MDPs). Unfortunately, in their mathematical form, they are sensitive to modifications, and thus, the practical instantiations that implement them do not automatically inherit their improvement guarantees. As a result, the spectrum of available rigorous MDP-solvers is narrow. Indeed, many state-of-the-art (SOTA) algorithms, such as TRPO and PPO, are not proven to converge. In this paper, we propose \textsl{mirror learning} -- a general solution to the RL problem. We reveal GPI and TRL to be but small points within this far greater space of algorithms which boasts the monotonic improvement property and converges to the optimal policy. We show that virtually all SOTA algorithms for RL are instances of mirror learning, and thus suggest that their empirical performance is a consequence of their theoretical properties, rather than of approximate analogies. Excitingly, we show that mirror learning opens up a whole new space of policy learning methods with convergence guarantees. | 翻訳日:2022-01-10 18:44:24 公開日:2022-01-07 |
# (参考訳) カントン語における自動音声認識データセット:調査と新しいデータセット Automatic Speech Recognition Datasets in Cantonese Language: A Survey and a New Dataset ( http://arxiv.org/abs/2201.02419v1 ) ライセンス: CC BY 4.0 | Tiezheng Yu, Rita Frieske, Peng Xu, Samuel Cahyawijaya, Cheuk Tung Shadow Yiu, Holy Lovenia, Wenliang Dai, Elham J. Barezi, Qifeng Chen, Xiaojuan Ma, Bertram E. Shi, Pascale Fung | (参考訳) 低資源言語上での自動音声認識(ASR)は、人工知能(AI)が提供する技術的利点により、言語マイノリティへのアクセスを改善する。
本稿では,新しいカントン語データセットを作成することで,香港カントン語のデータ不足の問題に対処する。
我々のデータセットであるMulti-Domain Cantonese Corpus (MDCC)は、香港のカントン語オーディオブックから収集された、73.6時間のクリーンな読み上げ音声と書き起こしを組み合わせて作成する。
哲学、政治、教育、文化、ライフスタイル、家族ドメインを組み合わせることで、幅広いトピックをカバーしている。
また、既存のカントンデータセットをレビューし、2つの大きなデータセット(MDCCとCommon Voice zh-HK)で実験を行う。
既存のデータセットを音声タイプ、データソース、総サイズ、可用性に応じて分析する。
最先端asrモデルであるfairseq s2t transformerを用いた実験の結果,データセットの有効性が示された。
さらに,MDCC と Common Voice zh-HK にマルチデータセット学習を適用することで,強力で堅牢な Cantonese ASR モデルを作成する。 Automatic speech recognition (ASR) on low resource languages improves access of linguistic minorities to technological advantages provided by Artificial Intelligence (AI). In this paper, we address a problem of data scarcity of Hong Kong Cantonese language by creating a new Cantonese dataset. Our dataset, Multi-Domain Cantonese Corpus (MDCC), consists of 73.6 hours of clean read speech paired with transcripts, collected from Cantonese audiobooks from Hong Kong. It combines philosophy, politics, education, culture, lifestyle and family domains, covering a wide range of topics. We also review all existing Cantonese datasets and perform experiments on the two biggest datasets (MDCC and Common Voice zh-HK). We analyze the existing datasets according to their speech type, data source, total size and availability. The results of experiments conducted with Fairseq S2T Transformer, a state-of-the-art ASR model, show the effectiveness of our dataset. In addition, we create a powerful and robust Cantonese ASR model by applying multi-dataset learning on MDCC and Common Voice zh-HK. | 翻訳日:2022-01-10 17:59:30 公開日:2022-01-07 |
# (参考訳) セグメンテーション性能に対する事前ベース損失の影響:ベンチマーク Effect of Prior-based Losses on Segmentation Performance: A Benchmark ( http://arxiv.org/abs/2201.02428v1 ) ライセンス: CC BY 4.0 | Rosana {EL JURDI}, Caroline Petitjean, Veronika Cheplygina, Paul Honeine, Fahed Abdallah | (参考訳) 今日、深層畳み込みニューラルネットワーク(cnns)は、様々な画像モードやタスクに基づいて、医用画像セグメンテーションの最先端のパフォーマンスを実証している。
初期の成功にもかかわらず、セグメンテーションネットワークは依然として解剖学的に異常なセグメンテーションを生成し、オブジェクト境界付近に穴や不正確さがある。
解剖学的可能性を強化するために、近年の研究は、損失関数の制約として、物体形状や境界などの事前知識を取り入れることに焦点を当てている。
以前の統合は、基幹領域から抽出された再構成された表現を低レベル、または臓器の形状や大きさなどの外部医療情報を高レベルに表すことができる。
過去数年間、事前の損失は、アーキテクチャに依存しながら専門家の知識の統合を可能にしているため、研究分野への関心が高まった。
しかしながら、さまざまな医療画像の課題やタスクにおける事前ベース損失の多様性を考えると、どのデータセットに最適な損失を識別することが困難になっている。
本稿では,医療画像分割における最近の先行的損失のベンチマークについて述べる。
主な目的は、特定のタスクやデータセットに与えられた損失を選択するための直感を提供することである。
この目的のために、4つの低レベルおよび高レベルの事前ベース損失が選択される。
評価された損失は、Deathlon、ISLES、WMHチャレンジなど、さまざまな医療画像セグメンテーション課題から8つの異なるデータセットで検証される。
その結果、低レベルの事前ベース損失はデータセット特性に関わらずサイコロ損失ベースラインよりも性能が向上することを保証できるが、高レベルの事前ベース損失はデータ特性に応じて解剖学的信頼性が向上することが示された。 Today, deep convolutional neural networks (CNNs) have demonstrated state-of-the-art performance for medical image segmentation, on various imaging modalities and tasks. Despite early success, segmentation networks may still generate anatomically aberrant segmentations, with holes or inaccuracies near the object boundaries. To enforce anatomical plausibility, recent research studies have focused on incorporating prior knowledge such as object shape or boundary, as constraints in the loss function. Prior integrated could be low-level referring to reformulated representations extracted from the ground-truth segmentations, or high-level representing external medical information such as the organ's shape or size. Over the past few years, prior-based losses exhibited a rising interest in the research field since they allow integration of expert knowledge while still being architecture-agnostic. However, given the diversity of prior-based losses on different medical imaging challenges and tasks, it has become hard to identify what loss works best for which dataset. In this paper, we establish a benchmark of recent prior-based losses for medical image segmentation. The main objective is to provide intuition onto which losses to choose given a particular task or dataset. To this end, four low-level and high-level prior-based losses are selected. The considered losses are validated on 8 different datasets from a variety of medical image segmentation challenges including the Decathlon, the ISLES and the WMH challenge. Results show that whereas low-level prior-based losses can guarantee an increase in performance over the Dice loss baseline regardless of the dataset characteristics, high-level prior-based losses can increase anatomical plausibility as per data characteristics. | 翻訳日:2022-01-10 17:46:10 公開日:2022-01-07 |
# (参考訳) 市場異常検出への署名手法の適用 Applications of Signature Methods to Market Anomaly Detection ( http://arxiv.org/abs/2201.02441v1 ) ライセンス: CC BY 4.0 | Erdinc Akyildirim, Matteo Gambara, Josef Teichmann, Syang Zhou | (参考訳) 異常検出(英: anomaly detection)とは、データセット内の異常なインスタンスやイベントを識別するプロセスである。
本研究では,時系列型のデータセットにおいて,まれあるいは予期せぬ項目を検出するためのシグネチャに基づく機械学習アルゴリズムを提案する。
異常検出アルゴリズムにおける特徴抽出器としてシグネチャやランダム化シグネチャを応用し, ランダム化シグネチャ構築のための簡易な表現論的正当性を提供する。
最初のアプリケーションは合成データに基づいており、視覚検査では区別できない実物と偽物の株価の軌跡を区別することを目的としている。
また,暗号通貨市場からの取引データを用いて実生活のアプリケーションを示す。
この場合、教師なし学習アルゴリズムにより、F1スコアが最大88%のソーシャルネットワーク上で構成されたポンプとダンプの試行を特定でき、教師なし学習に基づく分野の最先端に近い結果が得られる。 Anomaly detection is the process of identifying abnormal instances or events in data sets which deviate from the norm significantly. In this study, we propose a signatures based machine learning algorithm to detect rare or unexpected items in a given data set of time series type. We present applications of signature or randomized signature as feature extractors for anomaly detection algorithms; additionally we provide an easy, representation theoretic justification for the construction of randomized signatures. Our first application is based on synthetic data and aims at distinguishing between real and fake trajectories of stock prices, which are indistinguishable by visual inspection. We also show a real life application by using transaction data from the cryptocurrency market. In this case, we are able to identify pump and dump attempts organized on social networks with F1 scores up to 88% by means of our unsupervised learning algorithm, thus achieving results that are close to the state-of-the-art in the field based on supervised learning. | 翻訳日:2022-01-10 17:23:33 公開日:2022-01-07 |
# (参考訳) Windows のスライディングにおけるoutlier による k-Center クラスタリング k-Center Clustering with Outliers in Sliding Windows ( http://arxiv.org/abs/2201.02448v1 ) ライセンス: CC BY 4.0 | Paolo Pellizzoni, Andrea Pietracaprina, Geppino Pucci | (参考訳) メトリック $k$-center クラスタリングは基本的な教師なし学習プリミティブである。
広く使われているが、このプリミティブはデータのノイズに大きく影響を受けるため、より合理的な変種は、与えられたデータセットの点数$z$を無視する最良の解を求め、outliersと呼ばれる。
我々は、スライディングウィンドウ設定の下で、このストリーミングモデルにおいて、この重要な変種に対する効率的なアルゴリズムを提供し、各ステップでクラスタ化すべきデータセットは、最新のデータ項目のウィンドウ$W$である。
我々のアルゴリズムは$O(1)$近似を達成し、驚くほど、$k+z$の動作メモリと$|W|$の対数しか必要としない。
副生成物として、窓の有効径を$W$と見積もる方法を示す。
また,理論結果の実用性を示す実験的な証拠も提供する。 Metric $k$-center clustering is a fundamental unsupervised learning primitive. Although widely used, this primitive is heavily affected by noise in the data, so that a more sensible variant seeks for the best solution that disregards a given number $z$ of points of the dataset, called outliers. We provide efficient algorithms for this important variant in the streaming model under the sliding window setting, where, at each time step, the dataset to be clustered is the window $W$ of the most recent data items. Our algorithms achieve $O(1)$ approximation and, remarkably, require a working memory linear in $k+z$ and only logarithmic in $|W|$. As a by-product, we show how to estimate the effective diameter of the window $W$, which is a measure of the spread of the window points, disregarding a given fraction of noisy distances. We also provide experimental evidence of the practical viability of our theoretical results. | 翻訳日:2022-01-10 17:22:31 公開日:2022-01-07 |
# (参考訳) オンラインギャンブルにおけるチャーン予測 Churn prediction in online gambling ( http://arxiv.org/abs/2201.02463v1 ) ライセンス: CC BY 4.0 | Florian Merchie and Damien Ernst | (参考訳) ビジネスの維持においては、常に混乱防止が大きな関心事となっている。
この研究は、オンラインギャンブルの文脈におけるチャーン予測の問題をバイナリ分類タスクとして定式化することで、この領域に寄与する。
また、この問題に対する繰り返しニューラルネットワークに基づくアルゴリズム的解法を提案する。
このアルゴリズムは、時系列の形式を持つオンラインギャンブルデータを用いてテストされ、リカレントニューラルネットワークによって効率的に処理される。
トレーニングされたモデルの性能を評価するために、精度、精度、リコールなどの標準的な機械学習メトリクスが使用された。
特にこの問題に対して、実施した実験では、特定のアーキテクチャの選択が最も重要となるメトリクスに依存することを評価することができた。
nBRCを使用するアーキテクチャは精度がよいが、LSTMを使用するアーキテクチャはリコールを良くし、GRUベースのアーキテクチャはより高い精度と2つのメトリクスのバランスをとることができる。
さらに,最近の時系列履歴のみを用いてネットワークをトレーニングすることで,結果の品質が低下することを示した。
また、特定のインスタント$t$で学習したモデルのパフォーマンスを、別の時間に$t^{\prime} > t$で調べました。
その結果、t$で学習したモデルのパフォーマンスは、以下の瞬間に引き続き良好であることが示され、高いレートでモデルのリフレッシュは不要であることが示唆された。
しかし、モデルの性能は、データに影響を与える1回のイベントによって顕著なばらつきにさらされた。 In business retention, churn prevention has always been a major concern. This work contributes to this domain by formalizing the problem of churn prediction in the context of online gambling as a binary classification task. We also propose an algorithmic answer to this problem based on recurrent neural network. This algorithm is tested with online gambling data that have the form of time series, which can be efficiently processed by recurrent neural networks. To evaluate the performances of the trained models, standard machine learning metrics were used, such as accuracy, precision and recall. For this problem in particular, the conducted experiments allowed to assess that the choice of a specific architecture depends on the metric which is given the greatest importance. Architectures using nBRC favour precision, those using LSTM give better recall, while GRU-based architectures allow a higher accuracy and balance two other metrics. Moreover, further experiments showed that using only the more recent time-series histories to train the networks decreases the quality of the results. We also study the performances of models learned at a specific instant $t$, at other times $t^{\prime} > t$. The results show that the performances of the models learned at time $t$ remain good at the following instants $t^{\prime} > t$, suggesting that there is no need to refresh the models at a high rate. However, the performances of the models were subject to noticeable variance due to one-off events impacting the data. | 翻訳日:2022-01-10 16:46:31 公開日:2022-01-07 |
# (参考訳) 医療分析における機械学習と従来の高度な統計モデルとの類似性と相違 Similarities and Differences between Machine Learning and Traditional Advanced Statistical Modeling in Healthcare Analytics ( http://arxiv.org/abs/2201.02469v1 ) ライセンス: CC BY 4.0 | Michele Bennett, Karin Hayes, Ewa J. Kleczyk, and Rajesh Mehta | (参考訳) データサイエンティストと統計学者は、分析の課題を解決するための最良のアプローチ、機械学習または統計モデリングを決定するときにしばしば対立する。
しかし、機械学習と統計モデリングは、分析戦場の異なる側面の敵よりもいとこである。
2つのアプローチのどちらを選択するか、あるいは両方を使うかは、解決すべき問題と結果と、分析に利用可能なデータと状況に基づいて決定される。
機械学習と統計モデリングは、類似の数学的原則に基づいて相補的だが、分析の知識ベース全体において、単に異なるツールを使用するだけだ。
主なアプローチを決定するには、データのサイズや完全性、変数の数、仮定や不足、予測や因果関係といった期待された結果といった経験的な証拠だけでなく、解決すべき問題にも基づく必要がある。
優れたアナリストとデータサイエンティストは、技術と適切なアプリケーションの両方に精通して、適切なプロジェクトに適したツールを使用して、望ましい結果を達成するべきです。 Data scientists and statisticians are often at odds when determining the best approach, machine learning or statistical modeling, to solve an analytics challenge. However, machine learning and statistical modeling are more cousins than adversaries on different sides of an analysis battleground. Choosing between the two approaches or in some cases using both is based on the problem to be solved and outcomes required as well as the data available for use and circumstances of the analysis. Machine learning and statistical modeling are complementary, based on similar mathematical principles, but simply using different tools in an overall analytics knowledge base. Determining the predominant approach should be based on the problem to be solved as well as empirical evidence, such as size and completeness of the data, number of variables, assumptions or lack thereof, and expected outcomes such as predictions or causality. Good analysts and data scientists should be well versed in both techniques and their proper application, thereby using the right tool for the right project to achieve the desired results. | 翻訳日:2022-01-10 16:35:42 公開日:2022-01-07 |
# (参考訳) 可逆ステレオグラフィのためのベイズニューラルネットワーク Bayesian Neural Networks for Reversible Steganography ( http://arxiv.org/abs/2201.02478v1 ) ライセンス: CC BY 4.0 | Ching-Chun Chang | (参考訳) ディープラーニングの最近の進歩は、可逆性ステガノグラフィーのパラダイムシフトをもたらした。
可逆的ステガノグラフィーの基本的な柱は、深いニューラルネットワークを通じて実現可能な予測モデリングである。
しかし、非自明な誤りは、いくつかの分散外データとノイズデータに関する推論に存在している。
本稿では,ベイズ深層学習の理論的枠組みに基づく予測モデルの不確実性を検討することを提案する。
ベイズニューラルネットワークは、自意識の機械、すなわち、自身の限界を知っている機械とみなすことができる。
不確実性を定量化するため,モンテカルロサンプリングによる後方予測分布を確率的前方通過で近似した。
さらに,予測的不確かさをアレテータ的不確実性と認識的不確実性に分離し,これらの量を教師なしの方法で学習できることを示した。
実験の結果, ベイズの不確かさ解析により, ステガノグラフィーの容量分散性能が向上した。 Recent advances in deep learning have led to a paradigm shift in reversible steganography. A fundamental pillar of reversible steganography is predictive modelling which can be realised via deep neural networks. However, non-trivial errors exist in inferences about some out-of-distribution and noisy data. In view of this issue, we propose to consider uncertainty in predictive models based upon a theoretical framework of Bayesian deep learning. Bayesian neural networks can be regarded as self-aware machinery; that is, a machine that knows its own limitations. To quantify uncertainty, we approximate the posterior predictive distribution through Monte Carlo sampling with stochastic forward passes. We further show that predictive uncertainty can be disentangled into aleatoric and epistemic uncertainties and these quantities can be learnt in an unsupervised manner. Experimental results demonstrate an improvement delivered by Bayesian uncertainty analysis upon steganographic capacity-distortion performance. | 翻訳日:2022-01-10 16:30:17 公開日:2022-01-07 |
# (参考訳) シェルモデルによる乱流シミュレーションのための自動散逸制御 Automated Dissipation Control for Turbulence Simulation with Shell Models ( http://arxiv.org/abs/2201.02485v1 ) ライセンス: CC BY 4.0 | Ann-Kathrin Dombrowski, Klaus-Robert M\"uller, Wolf Christian M\"uller | (参考訳) 機械学習(ML)技術の応用、特にニューラルネットワークは、画像や言語を処理する上で大きな成功を収めています。
これは、視覚と音声の入力を理解するための正式なモデルがないことが多いため、ニューラルネットワークはデータからのみモデル化できるため、その能力を広げることができる。
物理学の分野では通常、形式レベルで自然過程を合理的に記述するモデルがある。
しかしながら、近年では数値シミュレーションの高速化や精度の向上など、これらの領域でもMLは有用であることが証明されている。
古典物理学における重要な未解決の問題は、乱流の運動を理解することである。
本研究は,Gledzer-Ohkitani-yamada (GOY)シェルモデルを用いて,乱流の簡易表現を構築する。
本システムでは,ML支援および物理制約付き小型乱流モデルの可能性について検討する。
標準教師付き学習の代わりに,自己相似慣性範囲スケーリングのような乱流の統計的特性を再構築し,実験結果を促進できるアプローチを提案する。
さらに,機械学習と微分方程式を組み合わせた場合の落とし穴について述べる。 The application of machine learning (ML) techniques, especially neural networks, has seen tremendous success at processing images and language. This is because we often lack formal models to understand visual and audio input, so here neural networks can unfold their abilities as they can model solely from data. In the field of physics we typically have models that describe natural processes reasonably well on a formal level. Nonetheless, in recent years, ML has also proven useful in these realms, be it by speeding up numerical simulations or by improving accuracy. One important and so far unsolved problem in classical physics is understanding turbulent fluid motion. In this work we construct a strongly simplified representation of turbulence by using the Gledzer-Ohkitani-Yamada (GOY) shell model. With this system we intend to investigate the potential of ML-supported and physics-constrained small-scale turbulence modelling. Instead of standard supervised learning we propose an approach that aims to reconstruct statistical properties of turbulence such as the self-similar inertial-range scaling, where we could achieve encouraging experimental results. Furthermore we discuss pitfalls when combining machine learning with differential equations. | 翻訳日:2022-01-10 16:21:22 公開日:2022-01-07 |
# (参考訳) 列生成における制約付き最短経路問題に対する機械学習に基づくアーク選択 Machine-learning-based arc selection for constrained shortest path problems in column generation ( http://arxiv.org/abs/2201.02535v1 ) ライセンス: CC BY 4.0 | Mouad Morabit, Guy Desaulniers, Andrea Lodi | (参考訳) カラム生成は、様々な最適化問題の解決に使用される反復的手法である。
これは問題をマスター問題と1つ以上の価格問題(pp)という2つの部分に分割する。
提案手法の計算時間は, これら2つの部分に分けられる。
ルーティングやスケジューリングのアプリケーションでは、問題は主にネットワーク上で定義され、PPは通常、リソース制約のあるNPハードな最短経路問題である。
本研究では,機械学習に基づく新しいヒューリスティックな価格設定アルゴリズムを提案する。
従来の実行中に収集したデータを活用することで、ネットワークのサイズを小さくし、PPを加速し、線形緩和ソリューションの一部となる確率の高い弧のみを保持することが目的である。
この方法は、公共交通機関における車両と乗務員のスケジューリング問題とタイムウインドウによる車両の経路問題という2つの問題に適用されている。
最大40%の計算時間を短縮することができる。 Column generation is an iterative method used to solve a variety of optimization problems. It decomposes the problem into two parts: a master problem, and one or more pricing problems (PP). The total computing time taken by the method is divided between these two parts. In routing or scheduling applications, the problems are mostly defined on a network, and the PP is usually an NP-hard shortest path problem with resource constraints. In this work, we propose a new heuristic pricing algorithm based on machine learning. By taking advantage of the data collected during previous executions, the objective is to reduce the size of the network and accelerate the PP, keeping only the arcs that have a high chance to be part of the linear relaxation solution. The method has been applied to two specific problems: the vehicle and crew scheduling problem in public transit and the vehicle routing problem with time windows. Reductions in computational time of up to 40% can be obtained. | 翻訳日:2022-01-10 16:19:50 公開日:2022-01-07 |
# (参考訳) ランキングとスコアの統一統計的学習モデルとグラントパネルレビューへの応用 A Unified Statistical Learning Model for Rankings and Scores with Application to Grant Panel Review ( http://arxiv.org/abs/2201.02539v1 ) ライセンス: CC BY 4.0 | Michael Pearce and Elena A. Erosheva | (参考訳) ランク付けとスコアは、審査員がオブジェクトのコレクションにおける好みや品質の知覚を表現するために使用する2つの一般的なデータタイプである。
各型のデータを個別に研究するためのモデルが多数存在するが、データ変換を行うことなく両方のデータ型を同時にキャプチャする統一統計モデルは存在しない。
このギャップを埋めるために,Mallows-Binomialモデルを提案する。これは,オブジェクトの品質,コンセンサスランキング,および審査員間のコンセンサスレベルを定量化する共有パラメータを通じて,Mallowsの$\phi$ランキングモデルとBiomialスコアモデルを組み合わせる。
本研究では,モデルパラメータの正確なMLEを計算し,解析とシミュレーションの両方を通してモデルの統計特性を解析し,スコアと部分ランクの両方を収集した付与パネルレビューの事例から実データに適用する効率的な木探索アルゴリズムを提案する。
さらに、モデル出力を用いてオブジェクトを信頼性でランク付けする方法を実証する。
提案モデルは,スコアとランキングの情報をセンシティブに組み合わせ,対象の質を定量化し,統計的不確実性の適切なレベルとコンセンサスを測定する。 Rankings and scores are two common data types used by judges to express preferences and/or perceptions of quality in a collection of objects. Numerous models exist to study data of each type separately, but no unified statistical model captures both data types simultaneously without first performing data conversion. We propose the Mallows-Binomial model to close this gap, which combines a Mallows' $\phi$ ranking model with Binomial score models through shared parameters that quantify object quality, a consensus ranking, and the level of consensus between judges. We propose an efficient tree-search algorithm to calculate the exact MLE of model parameters, study statistical properties of the model both analytically and through simulation, and apply our model to real data from an instance of grant panel review that collected both scores and partial rankings. Furthermore, we demonstrate how model outputs can be used to rank objects with confidence. The proposed model is shown to sensibly combine information from both scores and rankings to quantify object quality and measure consensus with appropriate levels of statistical uncertainty. | 翻訳日:2022-01-10 16:18:59 公開日:2022-01-07 |
# (参考訳) 胸部X線写真からの肺疾患自動認識のための増分学習アプローチ An Incremental Learning Approach to Automatically Recognize Pulmonary Diseases from the Multi-vendor Chest Radiographs ( http://arxiv.org/abs/2201.02574v1 ) ライセンス: CC BY 4.0 | Mehreen Sirshar and Taimur Hassan and Muhammad Usman Akram and Shoab Ahmed Khan | (参考訳) 肺疾患は重篤な呼吸障害を引き起こし、時間的に治療されないと突然死亡する。
多くの研究者は、胸部X線(CXR)を用いた肺疾患の診断にディープラーニングシステムを利用している。
しかし,このようなシステムでは胸部異常を効果的に診断するために,大規模データに対する徹底的な訓練が必要である。
さらに、このような大規模データの調達は、特にまれな疾患において、しばしば実現不可能で実用的ではない。
最近のインクリメンタル学習の進歩により、研究者はトレーニング例の少ない異なる分類タスクを学ぶために、ディープニューラルネットワークを定期的に調整している。
このようなシステムは破滅的な記憶に抵抗するが、知識表現を相互に独立して扱うため、分類性能が制限される。
また、私たちの知る限りでは、CXRから肺疾患をスクリーニングするために特別に設計された、漸進的な学習駆動画像診断フレームワークはありません。
そこで本研究では,異なる胸部異常を段階的にスクリーニングできる新しい枠組みを提案する。
これに加えて,提案手法は,バージェス理論を推定するインクリメンタル学習損失関数によってペナルティを課し,インクリメンタル学習知識表現間の構造的および意味的相互依存性を認識し,スキャナの仕様によらず,肺疾患を効果的に診断する。
胸部異常を含む5つの公開CXRデータセットを用いて提案手法を検証し,様々な指標を用いて各種最先端システムの性能を向上した。 Pulmonary diseases can cause severe respiratory problems, leading to sudden death if not treated timely. Many researchers have utilized deep learning systems to diagnose pulmonary disorders using chest X-rays (CXRs). However, such systems require exhaustive training efforts on large-scale data to effectively diagnose chest abnormalities. Furthermore, procuring such large-scale data is often infeasible and impractical, especially for rare diseases. With the recent advances in incremental learning, researchers have periodically tuned deep neural networks to learn different classification tasks with few training examples. Although, such systems can resist catastrophic forgetting, they treat the knowledge representations independently of each other, and this limits their classification performance. Also, to the best of our knowledge, there is no incremental learning-driven image diagnostic framework that is specifically designed to screen pulmonary disorders from the CXRs. To address this, we present a novel framework that can learn to screen different chest abnormalities incrementally. In addition to this, the proposed framework is penalized through an incremental learning loss function that infers Bayesian theory to recognize structural and semantic inter-dependencies between incrementally learned knowledge representations to diagnose the pulmonary diseases effectively, regardless of the scanner specifications. We tested the proposed framework on five public CXR datasets containing different chest abnormalities, where it outperformed various state-of-the-art system through various metrics. | 翻訳日:2022-01-10 16:17:55 公開日:2022-01-07 |
# (参考訳) マルチモデルフェデレーション学習 Multi-Model Federated Learning ( http://arxiv.org/abs/2201.02582v1 ) ライセンス: CC BY 4.0 | Neelkamal Bhuyan and Sharayu Moharir | (参考訳) 連合学習は分散学習の一形態であり、鍵となる課題は、参加者のクライアントにおけるデータの非識別的分散性である。
本稿では,複数の無関係モデルを同時に訓練する環境にフェデレーション学習を拡張した。
具体的には、各クライアントは一度にmモデルのどれかをトレーニングでき、サーバはクライアントが計算したモデルの適切な平均バージョンであるmモデルごとにモデルを保持する。
時間とともに学習タスクをクライアントに割り当てるための複数のポリシーを提案する。
最初の方針では、広く研究されているFedAvgをマルチモデル学習に拡張し、モデルを確率的な方法でクライアントに割り当てる。
さらに,クライアントモデルペア毎の局所的損失に基づいて決定を行うマルチモデルフェデレーション・セッティングにおいて,クライアント選択のための2つの新しいポリシーを提案する。
総合的および実世界のデータを含むタスクにおけるポリシーの性能を比較し,提案するポリシーの性能を特徴付ける。
提案するマルチモデルポリシは,fedavgを使用した単一モデルトレーニングよりも,あるいは少なくとも優れたパフォーマンスを実現しています。 Federated learning is a form of distributed learning with the key challenge being the non-identically distributed nature of the data in the participating clients. In this paper, we extend federated learning to the setting where multiple unrelated models are trained simultaneously. Specifically, every client is able to train any one of M models at a time and the server maintains a model for each of the M models which is typically a suitably averaged version of the model computed by the clients. We propose multiple policies for assigning learning tasks to clients over time. In the first policy, we extend the widely studied FedAvg to multi-model learning by allotting models to clients in an i.i.d. stochastic manner. In addition, we propose two new policies for client selection in a multi-model federated setting which make decisions based on current local losses for each client-model pair. We compare the performance of the policies on tasks involving synthetic and real-world data and characterize the performance of the proposed policies. The key take-away from our work is that the proposed multi-model policies perform better or at least as good as single model training using FedAvg. | 翻訳日:2022-01-10 15:53:27 公開日:2022-01-07 |
# 相互相互作用協調関係モデリングによる多行動強化レコメンデーション Multi-Behavior Enhanced Recommendation with Cross-Interaction Collaborative Relation Modeling ( http://arxiv.org/abs/2201.02307v1 ) ライセンス: Link先を確認 | Lianghao Xia, Chao Huang, Yong Xu, Peng Dai, Mengyin Lu, Liefeng Bo | (参考訳) これまでの多くの研究は、より優れた推奨性能を達成するために、ディープニューラルネットワーク技術による協調フィルタリングを強化することを目的としている。
しかし,既存のディープラーニングベースのレコメンデータシステムは,ユーザと項目の異種関係を抽出し難い,単一タイプのユーザ・イテム相互作用挙動をモデル化するために設計されている。
実用的なレコメンデーションシナリオでは、ブラウズや購入といったマルチタイプなユーザ動作が存在する。
異なる項目に対するユーザの多行動パターンの見落としにより、既存の推奨手法では、ユーザの多行動データから異種協調信号を捉えるには不十分である。
構造化データモデリングのためのグラフニューラルネットワークの強みに着想を得たこの研究は、グラフベースのメッセージパッシングアーキテクチャの下で、異なるタイプのユーザ-テムインタラクション間の依存関係を明示的にモデル化するグラフニューラルマルチビヘイビア拡張レコメンデーション(GNMR)フレームワークを提案する。
GNMRは、相互作用の不均一性をモデル化するための関係集約ネットワークを考案し、ユーザ-テム相互作用グラフ上で隣ノード間の埋め込み伝搬を再帰的に実行する。
実世界のレコメンデーションデータセットの実験は、GNMRが最先端の手法を一貫して上回っていることを示している。
ソースコードはhttps://github.com/akaxlh/GNMRで入手できる。 Many previous studies aim to augment collaborative filtering with deep neural network techniques, so as to achieve better recommendation performance. However, most existing deep learning-based recommender systems are designed for modeling singular type of user-item interaction behavior, which can hardly distill the heterogeneous relations between user and item. In practical recommendation scenarios, there exist multityped user behaviors, such as browse and purchase. Due to the overlook of user's multi-behavioral patterns over different items, existing recommendation methods are insufficient to capture heterogeneous collaborative signals from user multi-behavior data. Inspired by the strength of graph neural networks for structured data modeling, this work proposes a Graph Neural Multi-Behavior Enhanced Recommendation (GNMR) framework which explicitly models the dependencies between different types of user-item interactions under a graph-based message passing architecture. GNMR devises a relation aggregation network to model interaction heterogeneity, and recursively performs embedding propagation between neighboring nodes over the user-item interaction graph. Experiments on real-world recommendation datasets show that our GNMR consistently outperforms state-of-the-art methods. The source code is available at https://github.com/akaxlh/GNMR. | 翻訳日:2022-01-10 15:42:27 公開日:2022-01-07 |
# 多言語音声処理のためのコードスイッチングテキスト拡張 Code-Switching Text Augmentation for Multilingual Speech Processing ( http://arxiv.org/abs/2201.02550v1 ) ライセンス: Link先を確認 | Amir Hussein, Shammur Absar Chowdhury, Ahmed Abdelali, Najim Dehak, Ahmed Ali | (参考訳) 音声コンテンツにおける発話内コードスイッチング(CS)の広範性は、混合入力を処理するためにASRシステムに強制されている。
しかし、CS-ASRの設計には多くの課題があり、主にデータ不足、文法構造の複雑さ、不均衡な言語使用量分布とミスマッチがある。
近年のASR研究は,多言語データを用いてCS現象を少ないCSデータで処理するE2E-ASRの優位性を示した。
しかし、CSデータへの依存は依然として残っている。
本研究では,音声CSテキストを人工的に生成し,音声モジュールを改良するための単言語データの拡張手法を提案する。
我々は,同値制約理論に基づく一組の翻訳ペアを利用して,文法的に有効なCSコンテンツを生成する。
実験の結果,2つの生態学的および雑音性CS試験セットでは,29~34 %,WERは約2%の上昇を示した。
最後に、人間の評価は、生成したデータの83.8%が人間に受け入れられていることを示唆している。 The pervasiveness of intra-utterance Code-switching (CS) in spoken content has enforced ASR systems to handle mixed input. Yet, designing a CS-ASR has many challenges, mainly due to the data scarcity, grammatical structure complexity, and mismatch along with unbalanced language usage distribution. Recent ASR studies showed the predominance of E2E-ASR using multilingual data to handle CS phenomena with little CS data. However, the dependency on the CS data still remains. In this work, we propose a methodology to augment the monolingual data for artificially generating spoken CS text to improve different speech modules. We based our approach on Equivalence Constraint theory while exploiting aligned translation pairs, to generate grammatically valid CS content. Our empirical results show a relative gain of 29-34 % in perplexity and around 2% in WER for two ecological and noisy CS test sets. Finally, the human evaluation suggests that 83.8% of the generated data is acceptable to humans. | 翻訳日:2022-01-10 15:42:01 公開日:2022-01-07 |
# ハイピッチおよびスパースヘリカルct再構成のための3次元デュアルドメイン深層ネットワーク A three-dimensional dual-domain deep network for high-pitch and sparse helical CT reconstruction ( http://arxiv.org/abs/2201.02309v1 ) ライセンス: Link先を確認 | Wei Wang, Xiang-Gen Xia, Chuanjiang He, Zemin Ren and Jian Lu | (参考訳) 本稿では,ヘリカルct再構成のためのkatsevichアルゴリズムのgpu実装を提案する。
本実装では, シングラムを分割し, CT画像のピッチをピッチで再構成する。
Katsevichアルゴリズムのパラメータの周期的特性を利用することで、これらのパラメータを全てのピッチに対して一度だけ計算する必要があり、GPUメモリの負荷が低く、ディープラーニングに非常に適している。
本実装をネットワークに埋め込むことにより,スパース検出器を用いた高ピッチヘリカルCT再構成のためのエンドツーエンドのディープネットワークを提案する。
本ネットワークは, シングラム画像とCT画像の両方から抽出した特徴を利用するため, シングラムの空隙によるストリークアーティファクトを同時に低減し, CT画像の細部を保存できる。
実験の結果,ネットワークは主観的評価と客観的評価の両方において,関連手法よりも優れていた。 In this paper, we propose a new GPU implementation of the Katsevich algorithm for helical CT reconstruction. Our implementation divides the sinograms and reconstructs the CT images pitch by pitch. By utilizing the periodic properties of the parameters of the Katsevich algorithm, our method only needs to calculate these parameters once for all the pitches and so has lower GPU-memory burdens and is very suitable for deep learning. By embedding our implementation into the network, we propose an end-to-end deep network for the high pitch helical CT reconstruction with sparse detectors. Since our network utilizes the features extracted from both sinograms and CT images, it can simultaneously reduce the streak artifacts caused by the sparsity of sinograms and preserve fine details in the CT images. Experiments show that our network outperforms the related methods both in subjective and objective evaluations. | 翻訳日:2022-01-10 15:41:08 公開日:2022-01-07 |
# 不確実性を考慮した拡張フィルタの高効率化 Uncertainty-Aware Cascaded Dilation Filtering for High-Efficiency Deraining ( http://arxiv.org/abs/2201.02366v1 ) ライセンス: Link先を確認 | Qing Guo and Jingyang Sun and Felix Juefei-Xu and Lei Ma and Di Lin and Wei Feng and Song Wang | (参考訳) レージニングは重要なコンピュータビジョンタスクであり、雨の日に撮影された画像やビデオから雨のストレークや蓄積を取り除くことを目的としている。
既存のレーディング手法は通常、雨モデルのヒューリスティックな仮定を定めており、高い回復品質のために複雑な最適化や反復的な改良を強制される。
しかし、これは時間がかかり、仮定から逸脱した雨のパターンに対処する効果に影響を与える。
本稿では,複雑な降雨モデル仮定を伴わない予測フィルタ問題として,デレーニングを定式化して簡易かつ効率的なデレーニング法を提案する。
具体的には、ディープネットワークを介して適切なカーネルを適応的に予測し、異なるピクセルをフィルタリングする空間変化予測フィルタリング(spfilt)を特定する。
フィルタは高速な畳み込みによって実装できるので,本手法は極めて効率的である。
さらに, 残留雨跡, マルチスケール, 多様な降雨パターンに対処する上で, 効率を損なうことなく3つの主要な寄与を含むEfDeRain+を提案する。
まず,不確実性を考慮した予測フィルタ (UC-PFilt) を提案する。
第2に,重み付け型マルチスケール拡張フィルタ (WS-MS-DFilt) を設計し,効率を損なうことなくマルチスケールレインストリークを処理する。
第3に, 多様な降雨パターン間のギャップを解消するために, 深層モデルのトレーニングを行う新しいデータ拡張手法(RainMix)を提案する。
全ての貢献と異なる変種に関する高度な分析を組み合わせることで、最終手法は4つの単一画像デレーニングデータセットと1つのビデオデレーシングデータセットのベースラインメソッドよりも、回復品質と速度の両面で優れています。 Deraining is a significant and fundamental computer vision task, aiming to remove the rain streaks and accumulations in an image or video captured under a rainy day. Existing deraining methods usually make heuristic assumptions of the rain model, which compels them to employ complex optimization or iterative refinement for high recovery quality. This, however, leads to time-consuming methods and affects the effectiveness for addressing rain patterns deviated from from the assumptions. In this paper, we propose a simple yet efficient deraining method by formulating deraining as a predictive filtering problem without complex rain model assumptions. Specifically, we identify spatially-variant predictive filtering (SPFilt) that adaptively predicts proper kernels via a deep network to filter different individual pixels. Since the filtering can be implemented via well-accelerated convolution, our method can be significantly efficient. We further propose the EfDeRain+ that contains three main contributions to address residual rain traces, multi-scale, and diverse rain patterns without harming the efficiency. First, we propose the uncertainty-aware cascaded predictive filtering (UC-PFilt) that can identify the difficulties of reconstructing clean pixels via predicted kernels and remove the residual rain traces effectively. Second, we design the weight-sharing multi-scale dilated filtering (WS-MS-DFilt) to handle multi-scale rain streaks without harming the efficiency. Third, to eliminate the gap across diverse rain patterns, we propose a novel data augmentation method (i.e., RainMix) to train our deep models. By combining all contributions with sophisticated analysis on different variants, our final method outperforms baseline methods on four single-image deraining datasets and one video deraining dataset in terms of both recovery quality and speed. | 翻訳日:2022-01-10 15:39:18 公開日:2022-01-07 |
# 自動重み付け層表現に基づく3次元映像符号化のためのビュー合成歪み推定 Auto-Weighted Layer Representation Based View Synthesis Distortion Estimation for 3-D Video Coding ( http://arxiv.org/abs/2201.02420v1 ) ライセンス: Link先を確認 | Jian Jin, Xingxing Zhang, Lili Meng, Weisi Lin, Jie Liang, Huaxiang Zhang, Yao Zhao | (参考訳) 近年,3次元映像符号化のための様々なビュー合成歪み推定モデルが研究されている。
しかし、これらは、速度歪みの最適化とレートアロケーションに不可欠である、深さ変化、テクスチャ変性、ビュー合成歪み(VSD)の異なるレベルの関係を定量的にモデル化することは困難である。
本稿では,自己重み付け層表現に基づくビュー合成歪推定モデルを開発した。
第一に、サブVSD(S-VSD)は、深さ変化のレベルと関連するテクスチャ変性に基づいて定義される。
その後、理論上の導出により、VSDはS-VSDにほぼ分解され、関連する重みによって乗算されることを示した。
S−VSDを得るために、S−VSDの層ベース表現を開発し、この層レベルでの効率的なS−VSD計算を実現するために、同じ深さ変化のすべての画素を層で表現する。
一方、非線形写像関数はVSDとS-VSDの関係を正確に表現し、VSD推定中に自動的にS-VSDの重みを与える。
そのような機能を学ぶために、VSDとその関連S-VSDのデータセットを構築する。
実験の結果,S-VSDが利用可能になると,VSDは非線形マッピング関数によって学習された重みで正確に推定できることがわかった。
提案手法は, 精度と効率の両方において, 関連する最先端手法を上回っている。
提案手法のデータセットとソースコードはhttps://github.com/jianjin008/で入手できる。 Recently, various view synthesis distortion estimation models have been studied to better serve for 3-D video coding. However, they can hardly model the relationship quantitatively among different levels of depth changes, texture degeneration, and the view synthesis distortion (VSD), which is crucial for rate-distortion optimization and rate allocation. In this paper, an auto-weighted layer representation based view synthesis distortion estimation model is developed. Firstly, the sub-VSD (S-VSD) is defined according to the level of depth changes and their associated texture degeneration. After that, a set of theoretical derivations demonstrate that the VSD can be approximately decomposed into the S-VSDs multiplied by their associated weights. To obtain the S-VSDs, a layer-based representation of S-VSD is developed, where all the pixels with the same level of depth changes are represented with a layer to enable efficient S-VSD calculation at the layer level. Meanwhile, a nonlinear mapping function is learnt to accurately represent the relationship between the VSD and S-VSDs, automatically providing weights for S-VSDs during the VSD estimation. To learn such function, a dataset of VSD and its associated S-VSDs are built. Experimental results show that the VSD can be accurately estimated with the weights learnt by the nonlinear mapping function once its associated S-VSDs are available. The proposed method outperforms the relevant state-of-the-art methods in both accuracy and efficiency. The dataset and source code of the proposed method will be available at https://github.com/jianjin008/. | 翻訳日:2022-01-10 15:38:44 公開日:2022-01-07 |
# 時空間インセプションネットワークに基づく光子効率イメージングのための深部領域逆適応 Deep Domain Adversarial Adaptation for Photon-efficient Imaging Based on Spatiotemporal Inception Network ( http://arxiv.org/abs/2201.02475v1 ) ライセンス: Link先を確認 | Yiwei Chen, Gongxin Yao, Yong Liu and Yu Pan | (参考訳) 単一光子LiDARでは、光子効率の撮像がシーンの3D構造を1ピクセルあたりの信号光子数個でキャプチャする。
このタスクのための既存のディープラーニングモデルは、シミュレーションデータセット上でトレーニングされ、現実的なシナリオに適用すると、ドメインシフトの課題となる。
本稿では,空間的および時間的情報を十分に活用することで,狭く高雑音な光子計数ヒストグラムから深度を正確に予測することのできる,光子効率画像のための時空間インセプションネットワーク(stin)を提案する。
そこで, 現実的なアプリケーションにおいて, ドメインシフト問題を緩和するために, ドメイン対逆ニューラルネットワークやドメイン対逆的ドメイン適応を含むドメイン対逆適応フレームワークをSTINに効果的に適用する。
nyu~v2とミドルベリーデータセットから生成されたシミュレーションデータに関する包括的な実験は、stinが2:10から2:100までの低信号対バックグランド比で最先端モデルを上回ることを示している。
さらに, 単光子イメージングプロトタイプによって得られた実世界のデータセット実験の結果, STINとドメイン対角トレーニングは, 最先端技術やシミュレーションデータによるベースラインSTINと比較して, より優れた一般化性能が得られることが示された。 In single-photon LiDAR, photon-efficient imaging captures the 3D structure of a scene by only several detected signal photons per pixel. The existing deep learning models for this task are trained on simulated datasets, which poses the domain shift challenge when applied to realistic scenarios. In this paper, we propose a spatiotemporal inception network (STIN) for photon-efficient imaging, which is able to precisely predict the depth from a sparse and high-noise photon counting histogram by fully exploiting spatial and temporal information. Then the domain adversarial adaptation frameworks, including domain-adversarial neural network and adversarial discriminative domain adaptation, are effectively applied to STIN to alleviate the domain shift problem for realistic applications. Comprehensive experiments on the simulated data generated from the NYU~v2 and the Middlebury datasets demonstrate that STIN outperforms the state-of-the-art models at low signal-to-background ratios from 2:10 to 2:100. Moreover, experimental results on the real-world dataset captured by the single-photon imaging prototype show that the STIN with domain adversarial training achieves better generalization performance compared with the state-of-the-arts as well as the baseline STIN trained by simulated data. | 翻訳日:2022-01-10 15:38:20 公開日:2022-01-07 |
# 体操手:手と体をモデリングし、捕獲する Embodied Hands: Modeling and Capturing Hands and Bodies Together ( http://arxiv.org/abs/2201.02610v1 ) ライセンス: Link先を確認 | Javier Romero, Dimitrios Tzionas, Michael J. Black | (参考訳) 人間は手と体を合わせてコミュニケーションし、タスクを解決します。
このような協調アクティビティのキャプチャと複製は、現実的に振舞う仮想キャラクタにとって重要である。
驚いたことに、ほとんどの方法は身体と手の3dモデリングと追跡を別々に扱う。
ここでは、相互作用する手と体のモデルを作成し、それをフルボディの4Dシーケンスに適合させる。
3dで全身をスキャンしたり捉えたりする場合、手は小さく、部分的に閉塞され、形やポーズが回復しにくい。
低分解能・オクルージョン・ノイズに対処するため,MANO(Articulated and Non-rigid DefOrmations)と呼ばれる新しいモデルを開発した。
manoは、31人の被験者の1000個の高解像度3dスキャンから、さまざまなポーズで学べる。
モデルはリアルで低次元で、ポーズで非剛体形状の変化を捉え、標準のグラフィックパッケージと互換性があり、どんな手にもフィットする。
MANOは手動のポーズからコンパクトなマッピングを提供し、ブレンド形状の補正とポーズのシナジーの線形多様体を提供する。
標準パラメタライズド3Dボディー形状モデル (SMPL) にMANOを付加し, 完全関節体モデル (SMPL+H) を実現する。
SMPL+Hを4Dスキャナーで捕捉した被験者の複雑で自然な活動に適合させて説明する。
このフィッティングは完全自動で、フルボディのモデルが、フルボディのパフォーマンスキャプチャーで見たことのない詳細な手の動きとリアリズムで自然に動く。
モデルとデータは、私たちのWebサイト(http://mano.is.tue.mpg.de.)で研究目的で自由に利用可能です。 Humans move their hands and bodies together to communicate and solve tasks. Capturing and replicating such coordinated activity is critical for virtual characters that behave realistically. Surprisingly, most methods treat the 3D modeling and tracking of bodies and hands separately. Here we formulate a model of hands and bodies interacting together and fit it to full-body 4D sequences. When scanning or capturing the full body in 3D, hands are small and often partially occluded, making their shape and pose hard to recover. To cope with low-resolution, occlusion, and noise, we develop a new model called MANO (hand Model with Articulated and Non-rigid defOrmations). MANO is learned from around 1000 high-resolution 3D scans of hands of 31 subjects in a wide variety of hand poses. The model is realistic, low-dimensional, captures non-rigid shape changes with pose, is compatible with standard graphics packages, and can fit any human hand. MANO provides a compact mapping from hand poses to pose blend shape corrections and a linear manifold of pose synergies. We attach MANO to a standard parameterized 3D body shape model (SMPL), resulting in a fully articulated body and hand model (SMPL+H). We illustrate SMPL+H by fitting complex, natural, activities of subjects captured with a 4D scanner. The fitting is fully automatic and results in full body models that move naturally with detailed hand motions and a realism not seen before in full body performance capture. The models and data are freely available for research purposes in our website (http://mano.is.tue.mpg.de). | 翻訳日:2022-01-10 15:38:01 公開日:2022-01-07 |
# 隠蔽不均一マルコフ鎖のニューラルキャリブレーション --生命保険における情報抑制 Neural calibration of hidden inhomogeneous Markov chains -- Information decompression in life insurance ( http://arxiv.org/abs/2201.02397v1 ) ライセンス: Link先を確認 | Mark Kiermayer, Christian Wei{\ss} | (参考訳) マルコフ連鎖は生命保険数学を含む多くの分野において重要な役割を担っている。
プレミアム値としての標準アクチュエータ量は、基礎となるマルコフ過程に関する圧縮された損失情報と解釈できる。
契約ポートフォリオの集合情報を与えられたマルコフ連鎖を再構築する手法を提案する。
我々のニューラルアーキテクチャは、一段階の遷移確率を明示的に提供することによって、プロセスの特徴を説明できる。
さらに,情報圧縮の品質を検査するために,本質的,経済モデル検証を行う。
最後に,ドイツの生命保険契約の現実的なデータセットの検証に成功している。 Markov chains play a key role in a vast number of areas, including life insurance mathematics. Standard actuarial quantities as the premium value can be interpreted as compressed, lossy information about the underlying Markov process. We introduce a method to reconstruct the underlying Markov chain given collective information of a portfolio of contracts. Our neural architecture explainably characterizes the process by explicitly providing one-step transition probabilities. Further, we provide an intrinsic, economic model validation to inspect the quality of the information decompression. Lastly, our methodology is successfully tested for a realistic data set of German term life insurance contracts. | 翻訳日:2022-01-10 15:37:31 公開日:2022-01-07 |
# スパース計算を用いた強化学習課題に対するニューラルネットワーク最適化 Neural Network Optimization for Reinforcement Learning Tasks Using Sparse Computations ( http://arxiv.org/abs/2201.02571v1 ) ライセンス: Link先を確認 | Dmitry Ivanov, Mikhail Kiselev, and Denis Larionov | (参考訳) 本稿では、強化学習(RL)タスクにニューラルネットワークを最適化するスパース計算に基づく手法を提案する。
この方法は、ニューラルネットワークのプルーニングと入力データ相関を考慮した2つのアイデアを組み合わせる。
ニューラルネットワークの実行時の乗算数を大幅に削減する。
異なるrlタスクをテストし,乗算回数を20~150倍削減した。
大幅な性能低下はなく、時には性能が向上した。 This article proposes a sparse computation-based method for optimizing neural networks for reinforcement learning (RL) tasks. This method combines two ideas: neural network pruning and taking into account input data correlations; it makes it possible to update neuron states only when changes in them exceed a certain threshold. It significantly reduces the number of multiplications when running neural networks. We tested different RL tasks and achieved 20-150x reduction in the number of multiplications. There were no substantial performance losses; sometimes the performance even improved. | 翻訳日:2022-01-10 15:35:39 公開日:2022-01-07 |
# エルニーニョと川流の洞察のための説明可能な深層学習 Explainable deep learning for insights in El Nino and river flows ( http://arxiv.org/abs/2201.02596v1 ) ライセンス: Link先を確認 | Yumin Liu, Kate Duffy, Jennifer G. Dy, and Auroop R. Ganguly | (参考訳) エルニーノ・サザン振動(el nino southern oscillation、enso)は、太平洋の熱帯中部および東部における海面温度(sst)の半周期的な変動であり、長距離依存やテレコネクションを通じて世界中の地域水文学の経年変化に影響を与える。
近年の研究では、ENO予測を改善するためのディープラーニング(DL)手法と、遠隔通信を理解するための複雑なネットワーク(CN)の価値が実証されている。
しかし, 河川流動の予測的理解のギャップには, DLのブラックボックスの性質, 複雑な現象を記述するための単純なENSO指標の使用, DLに基づくENSO予測を河川流量予測に翻訳することなどがある。
本稿では,サリエンシマップに基づく説明可能なdl (xdl) 手法により,グローバルsstに含まれる解釈可能な予測情報を抽出し,新たなsst情報領域と河川流れに関連する依存構造を探索し,気候ネットワーク構築と連動することにより,予測理解を改善することができることを示す。
以上の結果から,SSTが河川流れにどのように影響するかを新たに把握し,不確実性を伴う河川流れ予測の改善を図った。
観測, 再解析データおよび地球系モデルシミュレーションを用いて, XDL-CN法に基づく将来の年次・日次スケール気候予測の意義を実証する。 The El Nino Southern Oscillation (ENSO) is a semi-periodic fluctuation in sea surface temperature (SST) over the tropical central and eastern Pacific Ocean that influences interannual variability in regional hydrology across the world through long-range dependence or teleconnections. Recent research has demonstrated the value of Deep Learning (DL) methods for improving ENSO prediction as well as Complex Networks (CN) for understanding teleconnections. However, gaps in predictive understanding of ENSO-driven river flows include the black box nature of DL, the use of simple ENSO indices to describe a complex phenomenon and translating DL-based ENSO predictions to river flow predictions. Here we show that eXplainable DL (XDL) methods, based on saliency maps, can extract interpretable predictive information contained in global SST and discover novel SST information regions and dependence structures relevant for river flows which, in tandem with climate network constructions, enable improved predictive understanding. Our results reveal additional information content in global SST beyond ENSO indices, develop new understanding of how SSTs influence river flows, and generate improved river flow predictions with uncertainties. Observations, reanalysis data, and earth system model simulations are used to demonstrate the value of the XDL-CN based methods for future interannual and decadal scale climate projections. | 翻訳日:2022-01-10 15:35:33 公開日:2022-01-07 |
# 光衛星画像による雲・雪検出のためのマルチレゾリューション完全畳み込みネットワーク Multiresolution Fully Convolutional Networks to detect Clouds and Snow through Optical Satellite Images ( http://arxiv.org/abs/2201.02350v1 ) ライセンス: Link先を確認 | Debvrat Varshney, Claudio Persello, Prasun Kumar Gupta, and Bhaskar Ramachandra Nikam | (参考訳) 雲と雪は可視・近赤外線(VNIR)範囲に類似したスペクトル特性を持ち、高解像度のVNIR画像では区別が難しい。
雲は反射性が高く、雪は吸収性であるショートウェーブ赤外線(SWIR)バンドを導入することでこの問題に対処する。
SWIRは通常、VNIRに比べて低分解能であるので、VNIR画像の雲や雪を効果的に検出できる多分解能完全畳み込みニューラルネットワーク(FCN)を提案する。
深部FCN内に多分解能帯域を融合し,高次VNIR解像度でセマンティックセグメンテーションを行う。
このような統合ベースの分類器はエンドツーエンドで訓練され、全体的な精度は94.31%に達し、インド・ウッタラカンド州で撮影されたResourcesat-2のデータ上の雲のF1スコアは97.67%に達した。
これらのスコアはランダムフォレスト分類器よりも30%高く,スタンドアロンのfcnよりも10%高い値を示した。
この研究は、クラウド検出の目的だけでなく、マルチセンサー融合問題に対する畳み込みニューラルネットワークの可能性も強調している。 Clouds and snow have similar spectral features in the visible and near-infrared (VNIR) range and are thus difficult to distinguish from each other in high resolution VNIR images. We address this issue by introducing a shortwave-infrared (SWIR) band where clouds are highly reflective, and snow is absorptive. As SWIR is typically of a lower resolution compared to VNIR, this study proposes a multiresolution fully convolutional neural network (FCN) that can effectively detect clouds and snow in VNIR images. We fuse the multiresolution bands within a deep FCN and perform semantic segmentation at the higher, VNIR resolution. Such a fusion-based classifier, trained in an end-to-end manner, achieved 94.31% overall accuracy and an F1 score of 97.67% for clouds on Resourcesat-2 data captured over the state of Uttarakhand, India. These scores were found to be 30% higher than a Random Forest classifier, and 10% higher than a standalone single-resolution FCN. Apart from being useful for cloud detection purposes, the study also highlights the potential of convolutional neural networks for multi-sensor fusion problems. | 翻訳日:2022-01-10 15:35:03 公開日:2022-01-07 |
# インタラクティブな3次元地形オーサリングと操作のためのDeep Generative Framework Deep Generative Framework for Interactive 3D Terrain Authoring and Manipulation ( http://arxiv.org/abs/2201.02369v1 ) ライセンス: Link先を確認 | Shanthika Naik, Aryamaan Jain, Avinash Sharma and KS Rajan | (参考訳) リアルな仮想地形の自動生成と(ユーザー)オーサリングは、vrモデルやゲームのようなマルチメディアアプリケーションによって最も求められている。
最も一般的な地形表現はDEM(Digital Elevation Model)である。
既存の地形のオーサリングとモデリング技術はこれらのいくつかに対処しており、プロシージャモデリング、シミュレーション手法、サンプルベース手法など、広く分類できる。
本稿では,VAEと生成条件GANモデルを組み合わせた新しい現実的な地形オーサリングフレームワークを提案する。
本フレームワークは,実世界の地形データセットから潜在空間を学習することにより,既存手法の限界を克服しようとするサンプルベース手法である。
この潜在空間は、一つの入力から複数の地形を生成できるだけでなく、実際のデータ分布に近づきながら地形間を補間することができる。
我々はまた、ユーザが最小限の入力で多様な地形を生成できるインタラクティブツールを開発した。
定性的,定量的な分析を行い,他のSOTA法との比較を行った。
私たちは、コード/ツールを学術コミュニティにリリースするつもりです。 Automated generation and (user) authoring of the realistic virtual terrain is most sought for by the multimedia applications like VR models and gaming. The most common representation adopted for terrain is Digital Elevation Model (DEM). Existing terrain authoring and modeling techniques have addressed some of these and can be broadly categorized as: procedural modeling, simulation method, and example-based methods. In this paper, we propose a novel realistic terrain authoring framework powered by a combination of VAE and generative conditional GAN model. Our framework is an example-based method that attempts to overcome the limitations of existing methods by learning a latent space from a real-world terrain dataset. This latent space allows us to generate multiple variants of terrain from a single input as well as interpolate between terrains while keeping the generated terrains close to real-world data distribution. We also developed an interactive tool, that lets the user generate diverse terrains with minimalist inputs. We perform thorough qualitative and quantitative analysis and provide comparisons with other SOTA methods. We intend to release our code/tool to the academic community. | 翻訳日:2022-01-10 15:34:41 公開日:2022-01-07 |
# 振幅SAR画像の局所化 Amplitude SAR Imagery Splicing Localization ( http://arxiv.org/abs/2201.02409v1 ) ライセンス: Link先を確認 | Edoardo Daniele Cannas, Nicol\`o Bonettini, Sara Mandelli, Paolo Bestagini, Stefano Tubaro | (参考訳) SAR(Synthetic Aperture Radar)画像は、様々なタスクに有用な資産である。
ここ数年、多くのwebサイトが製品を管理しやすい形で無料で提供し、sar分野で広く普及し研究活動を行っている。
これらの機会の欠点は、こうした画像が悪意のあるユーザーによる偽造や操作にさらされる可能性があることである。
これまで、マルチメディア鑑識文献は自然写真の操作を局所化する様々な手法を提案してきたが、sar画像の完全性評価は調査されなかった。
この課題は、SAR画像が自然な写真とは全く異なる処理チェーンで生成されるため、新しい課題をもたらす。
これは、自然画像のために開発された多くの法医学的手法が成功を保証されていないことを意味する。
本稿では,振幅sar画像スプライシングの局所化問題について検討する。
我々のゴールは、別の画像からコピー・ペーストされた振幅SAR画像の領域をローカライズすることであり、その過程で何らかの編集を行う可能性がある。
そこで,畳み込みニューラルネットワーク(cnn)を用いて,解析された入力の処理トレースにおける不整合を強調する指紋を抽出する。
次に,この指紋を調べ,スプライシング攻撃時の画素領域を示す2値の改ざんマスクを作成する。
提案手法は,SAR信号の性質に合わせて,自然画像のための最先端の法医学ツールよりも優れた性能を提供する。 Synthetic Aperture Radar (SAR) images are a valuable asset for a wide variety of tasks. In the last few years, many websites have been offering them for free in the form of easy to manage products, favoring their widespread diffusion and research work in the SAR field. The drawback of these opportunities is that such images might be exposed to forgeries and manipulations by malicious users, raising new concerns about their integrity and trustworthiness. Up to now, the multimedia forensics literature has proposed various techniques to localize manipulations in natural photographs, but the integrity assessment of SAR images was never investigated. This task poses new challenges, since SAR images are generated with a processing chain completely different from that of natural photographs. This implies that many forensics methods developed for natural images are not guaranteed to succeed. In this paper, we investigate the problem of amplitude SAR imagery splicing localization. Our goal is to localize regions of an amplitude SAR image that have been copied and pasted from another image, possibly undergoing some kind of editing in the process. To do so, we leverage a Convolutional Neural Network (CNN) to extract a fingerprint highlighting inconsistencies in the processing traces of the analyzed input. Then, we examine this fingerprint to produce a binary tampering mask indicating the pixel region under splicing attack. Results show that our proposed method, tailored to the nature of SAR signals, provides better performances than state-of-the-art forensic tools developed for natural images. | 翻訳日:2022-01-10 15:34:26 公開日:2022-01-07 |
# 決定依存分布をもつ確率的鞍点問題 Stochastic Saddle Point Problems with Decision-Dependent Distributions ( http://arxiv.org/abs/2201.02313v1 ) ライセンス: Link先を確認 | Killian Wood and Emiliano Dall'Anese | (参考訳) 本稿では,静的および時間変化の両条件における決定依存分布の確率的サドル点問題に焦点をあてる。
これらの問題は、確率的給与関数の期待値が目的であり、確率変数は分布写像によって引き起こされる分布から引き出される。
一般分布写像において、鞍点を見つける問題は、分布が分かっていても一般に計算的に負担がかかる。
移動可能な解法を実現するために, 定常確率的ミニマックス問題に対するサドルポイントである平衡点の概念を導入し, それらの存在と一意性について条件を与える。
解の2つのクラス間の距離が有界であることを示し、目的が強凸強凸ペイオフとリプシッツ連続分布写像を持つことを示した。
我々は決定論的かつ確率的原始双対アルゴリズムを開発し,それらの平衡点への収束を実証する。
特に,確率勾配推定器から生じる誤差を準weibull確率変数としてモデル化することにより,期待値と高い確率で各イテレーションに有する誤差境界を提供するとともに,期待値およびほぼ確実に近傍に収束することを示す。
最後に, 対向混合支配と呼ばれる分布写像上の条件について検討し, 目的が強凸強対流であることを確かめる。
この仮定の下で、原始双対アルゴリズムは同様の方法で鞍点に収束することを示す。 This paper focuses on stochastic saddle point problems with decision-dependent distributions in both the static and time-varying settings. These are problems whose objective is the expected value of a stochastic payoff function, where random variables are drawn from a distribution induced by a distributional map. For general distributional maps, the problem of finding saddle points is in general computationally burdensome, even if the distribution is known. To enable a tractable solution approach, we introduce the notion of equilibrium points -- which are saddle points for the stationary stochastic minimax problem that they induce -- and provide conditions for their existence and uniqueness. We demonstrate that the distance between the two classes of solutions is bounded provided that the objective has a strongly-convex-strongly-concave payoff and Lipschitz continuous distributional map. We develop deterministic and stochastic primal-dual algorithms and demonstrate their convergence to the equilibrium point. In particular, by modeling errors emerging from a stochastic gradient estimator as sub-Weibull random variables, we provide error bounds in expectation and in high probability that hold for each iteration; moreover, we show convergence to a neighborhood in expectation and almost surely. Finally, we investigate a condition on the distributional map -- which we call opposing mixture dominance -- that ensures the objective is strongly-convex-strongly-concave. Under this assumption, we show that primal-dual algorithms converge to the saddle points in a similar fashion. | 翻訳日:2022-01-10 15:34:01 公開日:2022-01-07 |
# 固定階行列上のスパースPCA Sparse PCA on fixed-rank matrices ( http://arxiv.org/abs/2201.02487v1 ) ライセンス: Link先を確認 | Alberto Del Pia | (参考訳) スパースPCAは、主成分にスパース制約を加えることでPCAから得られる最適化問題である。
スパースPCAはNPハードであり、単一成分の場合においても近似が難しい。
本稿では,共分散行列のランクに関して,スパースPCAの計算複雑性を考察する。
共分散行列のランクが固定値である場合、その実行時間が特徴数の多項式である大域的最適性に対してスパースPCAを解くアルゴリズムが存在することを示す。
また,主成分の非結合性を必要とするスパースPCAについても同様の結果が得られた。 Sparse PCA is the optimization problem obtained from PCA by adding a sparsity constraint on the principal components. Sparse PCA is NP-hard and hard to approximate even in the single-component case. In this paper we settle the computational complexity of sparse PCA with respect to the rank of the covariance matrix. We show that, if the rank of the covariance matrix is a fixed value, then there is an algorithm that solves sparse PCA to global optimality, whose running time is polynomial in the number of features. We also prove a similar result for the version of sparse PCA which requires the principal components to have disjoint supports. | 翻訳日:2022-01-10 15:33:38 公開日:2022-01-07 |
# 音声合成における深層学習のための音声表現 : レビュー Audio representations for deep learning in sound synthesis: A review ( http://arxiv.org/abs/2201.02490v1 ) ライセンス: Link先を確認 | Anastasia Natsiou and Sean O'Leary | (参考訳) ディープラーニングアルゴリズムの台頭により、多くの研究者が音生成に古典的な信号処理法を使わないようになった。
深層学習モデルは、表現力のある音声合成、現実的な音のテクスチャ、仮想楽器からの音符を達成している。
しかし、最も適切なディープラーニングアーキテクチャはまだ調査中である。
アーキテクチャの選択は、オーディオ表現と密接に結びついている。
音の原波形は、深層学習モデルが効率的に扱うには密度が高すぎ、リッチになり、複雑さは訓練時間と計算コストを増大させる。
また、知覚される方法では音を表現しない。
したがって、多くの場合、生音声はアップサンプリング、特徴抽出、あるいは波形の高レベルなイラストレーションを採用することで圧縮され、より意味のある形式に変換されている。
さらに, 選択した形態, 追加条件表現, 異なるモデルアーキテクチャ, 再構成音の評価のための多数の指標について検討した。
本稿では,ディープラーニングを用いた音声合成に適用する音声表現について概説する。
さらに、ディープラーニングモデルを用いた音声合成アーキテクチャの開発と評価において、常に音声表現に依存する最も重要な手法を示す。 The rise of deep learning algorithms has led many researchers to withdraw from using classic signal processing methods for sound generation. Deep learning models have achieved expressive voice synthesis, realistic sound textures, and musical notes from virtual instruments. However, the most suitable deep learning architecture is still under investigation. The choice of architecture is tightly coupled to the audio representations. A sound's original waveform can be too dense and rich for deep learning models to deal with efficiently - and complexity increases training time and computational cost. Also, it does not represent sound in the manner in which it is perceived. Therefore, in many cases, the raw audio has been transformed into a compressed and more meaningful form using upsampling, feature-extraction, or even by adopting a higher level illustration of the waveform. Furthermore, conditional on the form chosen, additional conditioning representations, different model architectures, and numerous metrics for evaluating the reconstructed sound have been investigated. This paper provides an overview of audio representations applied to sound synthesis using deep learning. Additionally, it presents the most significant methods for developing and evaluating a sound synthesis architecture using deep learning models, always depending on the audio representation. | 翻訳日:2022-01-10 15:32:24 公開日:2022-01-07 |
# MGAE: グラフによる自己教師付き学習のためのマスクオートエンコーダ MGAE: Masked Autoencoders for Self-Supervised Learning on Graphs ( http://arxiv.org/abs/2201.02534v1 ) ライセンス: Link先を確認 | Qiaoyu Tan, Ninghao Liu, Xiao Huang, Rui Chen, Soo-Hyun Choi, Xia Hu | (参考訳) 本稿では,グラフ構造データに対する効果的な学習を行うための新しいマスク付きグラフオートエンコーダ(MGAE)フレームワークを提案する。
自己教師付き学習からの洞察を得て、多くのエッジをランダムにマスクし、トレーニング中に失われたエッジを再構築します。
MGAEには2つのコア設計がある。
まず、入力グラフ構造の高い比率(例えば$70\%$)をマスキングすると、ダウンストリームアプリケーションに恩恵をもたらす非自明で有意義なセルフスーパーバイザのタスクが得られます。
第2に、部分的にマス化されたグラフ上でメッセージの伝搬を行うエンコーダとしてグラフニューラルネットワーク(GNN)を用いる。
多数のマスク付きエッジを再構築するために, 整列型クロスコリレーションデコーダを提案する。
複数の粒度でアンカーエッジの頭と尾ノードの相互相関を捉えることができる。
これら2つの設計を組み合わせることで、MGAEを効率的に効果的に訓練することができる。
複数のオープンデータセット(Planetoid と OGB ベンチマーク)に対する大規模な実験は、MGAE がリンク予測とノード分類において最先端の教師なし学習競合より一般的に優れていることを示した。 We introduce a novel masked graph autoencoder (MGAE) framework to perform effective learning on graph structure data. Taking insights from self-supervised learning, we randomly mask a large proportion of edges and try to reconstruct these missing edges during training. MGAE has two core designs. First, we find that masking a high ratio of the input graph structure, e.g., $70\%$, yields a nontrivial and meaningful self-supervisory task that benefits downstream applications. Second, we employ a graph neural network (GNN) as an encoder to perform message propagation on the partially-masked graph. To reconstruct the large number of masked edges, a tailored cross-correlation decoder is proposed. It could capture the cross-correlation between the head and tail nodes of anchor edge in multi-granularity. Coupling these two designs enables MGAE to be trained efficiently and effectively. Extensive experiments on multiple open datasets (Planetoid and OGB benchmarks) demonstrate that MGAE generally performs better than state-of-the-art unsupervised learning competitors on link prediction and node classification. | 翻訳日:2022-01-10 15:32:04 公開日:2022-01-07 |
# 視覚注意予測による自律型ドローンレースエージェントの性能向上 Visual Attention Prediction Improves Performance of Autonomous Drone Racing Agents ( http://arxiv.org/abs/2201.02569v1 ) ライセンス: Link先を確認 | Christian Pfeiffer, Simon Wengeler, Antonio Loquercio, Davide Scaramuzza | (参考訳) 人間はエンドツーエンドの自律飛行のために訓練されたニューラルネットワークよりも速くドローンをレースする。
これは、人間のパイロットがタスク関連視覚情報を効果的に選択できることに関連しているかもしれない。
本研究は、人間の目視行動や注意を模倣できるニューラルネットワークが、視覚ベースの自律型ドローンレースの課題に対して、ニューラルネットワークの性能を向上させるかどうかを検討するものである。
我々は、視線に基づく注意予測が、シミュレーターベースのドローンレースタスクにおける視覚情報選択と意思決定の効率的なメカニズムであると仮定する。
この仮説は、18人の無人機パイロットによる視線と飛行軌跡データを用いて、視覚的注意予測モデルを訓練する。
次に、この視覚的注意予測モデルを用いて、模倣学習を用いた視覚に基づく自律ドローンレースのためのエンドツーエンドコントローラを訓練する。
我々は,アテンション予測コントローラのドローンレース性能を生画像入力と画像に基づく抽象化(特徴トラック)を用いて比較する。
その結果,アテンション予測ベースのコントローラはベースラインを上回り,最大88%の成功率で挑戦的なレーストラックを完走できることがわかった。
さらに,視覚注意予測および特徴トラックに基づくモデルでは,ホールドアウト参照軌跡の評価において,画像モデルよりも一般化性能が向上した。
我々の結果は、人間の視覚的注意予測が自律的な視覚に基づくドローンレースエージェントの性能を向上させることを示し、視覚に基づく高速かつアジャイルな自律飛行に向けて重要なステップを提供する。 Humans race drones faster than neural networks trained for end-to-end autonomous flight. This may be related to the ability of human pilots to select task-relevant visual information effectively. This work investigates whether neural networks capable of imitating human eye gaze behavior and attention can improve neural network performance for the challenging task of vision-based autonomous drone racing. We hypothesize that gaze-based attention prediction can be an efficient mechanism for visual information selection and decision making in a simulator-based drone racing task. We test this hypothesis using eye gaze and flight trajectory data from 18 human drone pilots to train a visual attention prediction model. We then use this visual attention prediction model to train an end-to-end controller for vision-based autonomous drone racing using imitation learning. We compare the drone racing performance of the attention-prediction controller to those using raw image inputs and image-based abstractions (i.e., feature tracks). Our results show that attention-prediction based controllers outperform the baselines and are able to complete a challenging race track consistently with up to 88% success rate. Furthermore, visual attention-prediction and feature-track based models showed better generalization performance than image-based models when evaluated on hold-out reference trajectories. Our results demonstrate that human visual attention prediction improves the performance of autonomous vision-based drone racing agents and provides an essential step towards vision-based, fast, and agile autonomous flight that eventually can reach and even exceed human performances. | 翻訳日:2022-01-10 15:31:47 公開日:2022-01-07 |
# (参考訳) インクリメンタル学習駆動型インスタンスセグメンテーションフレームワークによるコントラバンドアイテムの高度に乱雑なインスタンス認識 A Novel Incremental Learning Driven Instance Segmentation Framework to Recognize Highly Cluttered Instances of the Contraband Items ( http://arxiv.org/abs/2201.02560v1 ) ライセンス: CC BY 4.0 | Taimur Hassan and Samet Akcay and Mohammed Bennamoun and Salman Khan and Naoufel Werghi | (参考訳) 荷物のX線スキャンから散らばったコントラバンドアイテムをスキャンするのは、専門家のセキュリティスタッフにとっても面倒な作業だ。
本稿では,従来のエンコーダ・デコーダアーキテクチャを拡張してインスタンス認識セグメンテーションを行い,追加のサブネットワークやオブジェクト検出器を使わずにコントラバンドアイテムの統合インスタンスを抽出する手法を提案する。
エンコーダ−デコーダネットワークは、まず従来のセマンティクスセグメンテーションを行い、クラッタ化された荷物を検索する。
モデルはトレーニング中に段階的に進化し、トレーニングバッチを大幅に削減した個々のインスタンスを認識する。
新しい目的関数は、新しいクラス表現を学習し、ベイズ推論によって複雑な構造的相互依存を解消しながら、予め獲得した知識を保持しながら、各イテレーションにおけるネットワーク損失を最小限に抑える。
2つの公開X線データセットに対する我々のフレームワークの徹底的な評価は、検出精度と効率のトレードオフを最適に達成しつつ、特に難解な散在シナリオにおいて最先端の手法よりも優れていることを示している。 Screening cluttered and occluded contraband items from baggage X-ray scans is a cumbersome task even for the expert security staff. This paper presents a novel strategy that extends a conventional encoder-decoder architecture to perform instance-aware segmentation and extract merged instances of contraband items without using any additional sub-network or an object detector. The encoder-decoder network first performs conventional semantic segmentation and retrieves cluttered baggage items. The model then incrementally evolves during training to recognize individual instances using significantly reduced training batches. To avoid catastrophic forgetting, a novel objective function minimizes the network loss in each iteration by retaining the previously acquired knowledge while learning new class representations and resolving their complex structural inter-dependencies through Bayesian inference. A thorough evaluation of our framework on two publicly available X-ray datasets shows that it outperforms state-of-the-art methods, especially within the challenging cluttered scenarios, while achieving an optimal trade-off between detection accuracy and efficiency. | 翻訳日:2022-01-10 15:30:52 公開日:2022-01-07 |
# ファジィ認知地図を用いた時系列予測:調査 Time Series Forecasting Using Fuzzy Cognitive Maps: A Survey ( http://arxiv.org/abs/2201.02297v1 ) ライセンス: Link先を確認 | Omid Orang, Petr\^onio C\^andido de Lima e Silva, and Frederico Guimar\~aes Gadelha | (参考訳) 時系列予測のための様々なソフトコンピューティング手法の中で、ファジィ認知マップ(FCM)は複雑なシステムの力学をモデル化し解析するためのツールとして顕著な結果を示している。
FCMはリカレントニューラルネットワークと類似しており、神経ファジィ法に分類される。
言い換えれば、FCMはファジィ論理、ニューラルネットワーク、エキスパートシステムの側面の混合であり、複雑なシステムの動的挙動をシミュレーションし研究するための強力なツールとして機能する。
最も興味深い特徴は、知識の解釈性、動的特性、学習能力である。
本研究の目的は,本論文で提案されている最も関連性が高く,近年のFCMに基づく時系列予測モデルの概要を概説することである。
さらに,本論文では,FCMモデルの基礎と学習方法論について考察する。
また、本調査は、非定常データ処理やスケーラビリティ問題といった実世界の実験における課題をカバーするために、FCMの能力を高めるための将来の研究のアイデアを提供する。
さらに,FCMに高速学習アルゴリズムを組み込むことが,この分野の主要な関心事の一つである。 Among various soft computing approaches for time series forecasting, Fuzzy Cognitive Maps (FCM) have shown remarkable results as a tool to model and analyze the dynamics of complex systems. FCM have similarities to recurrent neural networks and can be classified as a neuro-fuzzy method. In other words, FCMs are a mixture of fuzzy logic, neural network, and expert system aspects, which act as a powerful tool for simulating and studying the dynamic behavior of complex systems. The most interesting features are knowledge interpretability, dynamic characteristics and learning capability. The goal of this survey paper is mainly to present an overview on the most relevant and recent FCM-based time series forecasting models proposed in the literature. In addition, this article considers an introduction on the fundamentals of FCM model and learning methodologies. Also, this survey provides some ideas for future research to enhance the capabilities of FCM in order to cover some challenges in the real-world experiments such as handling non-stationary data and scalability issues. Moreover, equipping FCMs with fast learning algorithms is one of the major concerns in this area. | 翻訳日:2022-01-10 14:52:10 公開日:2022-01-07 |
# 評価と貢献度測定を併用した水平連関学習のためのオークション型前払いインセンティブ機構設計 Auction-Based Ex-Post-Payment Incentive Mechanism Design for Horizontal Federated Learning with Reputation and Contribution Measurement ( http://arxiv.org/abs/2201.02410v1 ) ライセンス: Link先を確認 | Jingwen Zhang, Yuezhou Wu, Rong Pan | (参考訳) フェデレーション学習は、分散データを持つデバイス間でモデルをトレーニングし、プライバシを保護し、集中型MLに似たモデルを取得する。
データと計算能力を持つ多くの労働者が連邦学習の基礎となっている。
しかし、避けられないコストは、自給自足労働者が無償で奉仕することを妨げる。
さらに、データ分離のため、タスクパブリッシャは、高品質なデータで信頼できる労働者を選択し、評価し、報酬を支払う効果的な方法が欠けている。
そこで我々は,評価とコントリビューション測定による水平連合学習のためのオークションベースのインセンティブメカニズムを設計する。
貢献度を測定する合理的な方法を設計することにより,作業者の評価を確立し,その評価は低下し易く,改善が困難である。
逆オークションにより、労働者はタスクを入札し、タスクパブリッシャは評判と入札価格を組み合わせた労働者を選択する。
予算制約により、入賞労働者はパフォーマンスに基づいて支払われる。
我々のメカニズムは、正直な労働者の個々の合理性、予算実現可能性、真理性、計算効率を満たすことを証明した。 Federated learning trains models across devices with distributed data, while protecting the privacy and obtaining a model similar to that of centralized ML. A large number of workers with data and computing power are the foundation of federal learning. However, the inevitable costs prevent self-interested workers from serving for free. Moreover, due to data isolation, task publishers lack effective methods to select, evaluate and pay reliable workers with high-quality data. Therefore, we design an auction-based incentive mechanism for horizontal federated learning with reputation and contribution measurement. By designing a reasonable method of measuring contribution, we establish the reputation of workers, which is easy to decline and difficult to improve. Through reverse auctions, workers bid for tasks, and the task publisher selects workers combining reputation and bid price. With the budget constraint, winning workers are paid based on performance. We proved that our mechanism satisfies the individual rationality of the honest worker, budget feasibility, truthfulness, and computational efficiency. | 翻訳日:2022-01-10 14:51:56 公開日:2022-01-07 |
# ノイズインテンシティサンプリングの最適性 Optimality in Noisy Importance Sampling ( http://arxiv.org/abs/2201.02432v1 ) ライセンス: Link先を確認 | Fernando Llorente, Luca Martino, Jesse Read, David Delgado-G\'omez | (参考訳) 本研究では, ターゲット密度のノイズ評価を行うため, 雑音重大サンプリング (is) について検討する。
雑音の多いIS推定器の一般的な枠組みと最適提案密度を導出する。
最適提案では,ノイズパワーが高い領域にポイントを提示し,雑音実現のばらつきに関する情報を取り入れている。
また,isフレームワークで検討した従来の最適性アプローチと最適提案の利用を比較検討した。 In this work, we analyze the noisy importance sampling (IS), i.e., IS working with noisy evaluations of the target density. We present the general framework and derive optimal proposal densities for noisy IS estimators. The optimal proposals incorporate the information of the variance of the noisy realizations, proposing points in regions where the noise power is higher. We also compare the use of the optimal proposals with previous optimality approaches considered in a noisy IS framework. | 翻訳日:2022-01-10 14:51:37 公開日:2022-01-07 |
# AugmentedPCA: 教師付きおよび逆線形因子モデルのPythonパッケージ AugmentedPCA: A Python Package of Supervised and Adversarial Linear Factor Models ( http://arxiv.org/abs/2201.02547v1 ) ライセンス: Link先を確認 | William E. Carson IV, Austin Talbot, David Carlson | (参考訳) ディープ・オートエンコーダは、ラベルの予測率や結果、感度変数に対する公正さなどの望ましい特性を持つ潜在表現を学習するために、教師付きまたは敵対的な損失で拡張されることが多い。
教師付きおよび敵対的深層潜在因子モデルの普遍性にもかかわらず、これらの手法は実際に好ましい単純な線形アプローチよりも改善を示すべきである。
これは、拡張された教師付きまたは敵対的な目的に固執する再現可能な線形アナログを必要とする。
主成分分析(pca)の目的を教師付きまたは敵の目的で強化する手法を提示し,解析的かつ再現可能な解を提供することにより,この方法論的ギャップに対処する。
我々は、これらのメソッドをオープンソースのPythonパッケージであるAugmentedPCAに実装し、優れた現実世界のベースラインを作成できる。
これらの因子モデルの有用性を,rna-seq癌遺伝子発現データセット上で実証し,教師付き目標を付加することにより,下流分類性能が向上し,クラス忠実度の高い主成分を産生し,特定の種類のがんの発生に寄与するデータ変異の主軸と一致した遺伝子の同定が容易になることを示した。 Deep autoencoders are often extended with a supervised or adversarial loss to learn latent representations with desirable properties, such as greater predictivity of labels and outcomes or fairness with respects to a sensitive variable. Despite the ubiquity of supervised and adversarial deep latent factor models, these methods should demonstrate improvement over simpler linear approaches to be preferred in practice. This necessitates a reproducible linear analog that still adheres to an augmenting supervised or adversarial objective. We address this methodological gap by presenting methods that augment the principal component analysis (PCA) objective with either a supervised or an adversarial objective and provide analytic and reproducible solutions. We implement these methods in an open-source Python package, AugmentedPCA, that can produce excellent real-world baselines. We demonstrate the utility of these factor models on an open-source, RNA-seq cancer gene expression dataset, showing that augmenting with a supervised objective results in improved downstream classification performance, produces principal components with greater class fidelity, and facilitates identification of genes aligned with the principal axes of data variance with implications to development of specific types of cancer. | 翻訳日:2022-01-10 14:51:31 公開日:2022-01-07 |
# 解釈可能な組織像分類における否定的証拠 Negative Evidence Matters in Interpretable Histology Image Classification ( http://arxiv.org/abs/2201.02445v1 ) ライセンス: Link先を確認 | Soufiane Belharbi, Marco Pedersoli, Ismail Ben Ayed, Luke McCaffrey, Eric Granger | (参考訳) 画像クラスラベルのようなグローバルアノテーションのみを用いることで、cnn分類器が共同で画像を分類し、予測されたクラスに関連する関心領域を与えることができる。
しかし、画素レベルでのガイダンスがなければ、そのような方法は不正確な領域を生み出す可能性がある。
この問題は、対象物が塩分が少なく、構造がバリエーションが多く、前景と背景領域がより類似性が高いため、自然画像よりもヒストロジー画像では難しいことが知られている。
したがって、コンピュータビジョン文学におけるCNNの視覚的解釈の手法は直接適用できない。
本研究では,完全負のサンプルからの情報を活用する複合損失関数に基づく簡易かつ効率的な手法を提案する。
1つ目はcnn分類器から収集した肯定的な証拠を活用、2つ目はトレーニングデータセットから得られた完全な否定的なサンプルを活用する。
特に、事前訓練された分類器に、関心のある領域を精錬できるデコーダを装備する。
同じ分類器を用いてピクセルレベルで正と負の両方の証拠を収集し、デコーダを訓練する。
これにより、データに自然に発生する完全な負のサンプルを、追加の監視信号や、イメージクラスのみを監視として使用せずに活用することができる。
近年のいくつかの関連手法と比較して,大腸癌に対するGlaSと3つの異なるバックボーンを用いた乳癌に対するCamelyon16パッチベースのベンチマークに比較して,本手法が導入した実質的な改善点を示す。
以上の結果から, 正と負のエビデンスと, 分類器から得られたエビデンスと, データセットで自然に利用できるエビデンスを使用することのメリットが示された。
両用語のアブレーション研究を行う。
私たちのコードは公開されています。 Using only global annotations such as the image class labels, weakly-supervised learning methods allow CNN classifiers to jointly classify an image, and yield the regions of interest associated with the predicted class. However, without any guidance at the pixel level, such methods may yield inaccurate regions. This problem is known to be more challenging with histology images than with natural ones, since objects are less salient, structures have more variations, and foreground and background regions have stronger similarities. Therefore, methods in computer vision literature for visual interpretation of CNNs may not directly apply. In this work, we propose a simple yet efficient method based on a composite loss function that leverages information from the fully negative samples. Our new loss function contains two complementary terms: the first exploits positive evidence collected from the CNN classifier, while the second leverages the fully negative samples from the training dataset. In particular, we equip a pre-trained classifier with a decoder that allows refining the regions of interest. The same classifier is exploited to collect both the positive and negative evidence at the pixel level to train the decoder. This enables to take advantages of the fully negative samples that occurs naturally in the data, without any additional supervision signals and using only the image class as supervision. Compared to several recent related methods, over the public benchmark GlaS for colon cancer and a Camelyon16 patch-based benchmark for breast cancer using three different backbones, we show the substantial improvements introduced by our method. Our results shows the benefits of using both negative and positive evidence, ie, the one obtained from a classifier and the one naturally available in datasets. We provide an ablation study of both terms. Our code is publicly available. | 翻訳日:2022-01-10 14:50:47 公開日:2022-01-07 |
# winograd schema challengeの敗北 The Defeat of the Winograd Schema Challenge ( http://arxiv.org/abs/2201.02387v1 ) ライセンス: Link先を確認 | Vid Kocijan, Ernest Davis, Thomas Lukasiewicz, Gary Marcus and Leora Morgenstern | (参考訳) 2011年にヘクター・レヴェスク(Hector Levesque)が提唱した「ウィノグラード・スキーマ・チャレンジ(Winograd Schema Challenge)」。
2019年までに、多くのAIシステムは、大きなトレーニング済みのトランスフォーマーベースの言語モデルに基づいて、この種の問題に微調整され、90%以上の精度で達成された。
本稿では,ウィノグラード・スキーマ・チャレンジの歴史を概観し,その意義を評価する。 The Winograd Schema Challenge -- a set of twin sentences involving pronoun reference disambiguation that seem to require the use of commonsense knowledge -- was proposed by Hector Levesque in 2011. By 2019, a number of AI systems, based on large pre-trained transformer-based language models and fine-tuned on these kinds of problems, achieved better than 90% accuracy. In this paper, we review the history of the Winograd Schema Challenge and assess its significance. | 翻訳日:2022-01-10 14:49:13 公開日:2022-01-07 |
# 算数語問題に対する意味論的データ拡張 Semantic-based Data Augmentation for Math Word Problems ( http://arxiv.org/abs/2201.02489v1 ) ライセンス: Link先を確認 | Ailisi Li, Jiaqing Liang and Yanghua Xiao | (参考訳) ニューラルMWPソルバが小さな局所的な分散に対処するのは困難です。
MWPタスクでは、いくつかのローカルな変更は元のセマンティックを保存し、他の変更は基盤となるロジックを完全に変更する。
現在、MWPタスクの既存のデータセットには、ニューラルネットワークが様々なローカルな分散を曖昧にし、質問を正しく解くための鍵となる限られたサンプルが含まれている。
本稿では,既存のデータセットを異なる局所分散で拡張したデータで補完する新しいデータ拡張手法を提案し,現在のニューラルモデルの一般化能力の向上に寄与する。
新しいサンプルは知識誘導エンティティ置換とロジック誘導問題再編成によって生成される。
拡張アプローチは、新しいデータとラベル間の一貫性を維持するために確保される。
実験の結果,本手法の必要性と有効性が示された。 It's hard for neural MWP solvers to deal with tiny local variances. In MWP task, some local changes conserve the original semantic while the others may totally change the underlying logic. Currently, existing datasets for MWP task contain limited samples which are key for neural models to learn to disambiguate different kinds of local variances in questions and solve the questions correctly. In this paper, we propose a set of novel data augmentation approaches to supplement existing datasets with such data that are augmented with different kinds of local variances, and help to improve the generalization ability of current neural models. New samples are generated by knowledge guided entity replacement, and logic guided problem reorganization. The augmentation approaches are ensured to keep the consistency between the new data and their labels. Experimental results have shown the necessity and the effectiveness of our methods. | 翻訳日:2022-01-10 14:49:05 公開日:2022-01-07 |
# RxWhyQA : 複数質問への挑戦を伴う臨床質問応答データセット RxWhyQA: a clinical question-answering dataset with the challenge of multi-answer questions ( http://arxiv.org/abs/2201.02517v1 ) ライセンス: Link先を確認 | Sungrim Moon, Huan He, Hongfang Liu, Jungwei W. Fan | (参考訳) 目的 複数質問を処理できる臨床質問応答(QA)システムの開発と評価のためのデータセットを作成する。
資料と方法 2018年全国NLP臨床チャレンジ(n2c2)コーパスの注釈付き関係を利用してQAデータセットを生成した。
1-to-0と1-to-Nの薬物関係は、既存のQAデータセットに欠けている難解なシナリオを表わす、解決不可能かつ複数問合せのエントリを形成した。
結果 RxWhyQAデータセットには91,440のQAエントリが含まれており、半数は解決不可能であり、21%(n=19,269)は複数の回答を必要とする。
データセットは、squad(community-vetted stanford question answering dataset)形式に準拠している。
議論 RxWhyQAは、ゼロとマルチの答えの問題に対処するために必要な異なるシステムを比較するのに役立ち、偽陽性と偽陰性の両方の回答の二重緩和を要求する。
結論 実世界のシナリオを表現するために,複数の質問に焦点をあてて臨床QAデータセットを作成し,共有した。 Objectives Create a dataset for the development and evaluation of clinical question-answering (QA) systems that can handle multi-answer questions. Materials and Methods We leveraged the annotated relations from the 2018 National NLP Clinical Challenges (n2c2) corpus to generate a QA dataset. The 1-to-0 and 1-to-N drug-reason relations formed the unanswerable and multi-answer entries, which represent challenging scenarios lacking in the existing clinical QA datasets. Results The result RxWhyQA dataset contains 91,440 QA entries, of which half are unanswerable, and 21% (n=19,269) of the answerable ones require multiple answers. The dataset conforms to the community-vetted Stanford Question Answering Dataset (SQuAD) format. Discussion The RxWhyQA is useful for comparing different systems that need to handle the zero- and multi-answer challenges, demanding dual mitigation of both false positive and false negative answers. Conclusion We created and shared a clinical QA dataset with a focus on multi-answer questions to represent real-world scenarios. | 翻訳日:2022-01-10 14:48:53 公開日:2022-01-07 |
# 位相空間における関節依存モデルによる動き予測 Motion Prediction via Joint Dependency Modeling in Phase Space ( http://arxiv.org/abs/2201.02365v1 ) ライセンス: Link先を確認 | Pengxiang Su, Zhenguang Liu, Shuang Wu, Lei Zhu, Yifang Yin, Xuanjing Shen | (参考訳) 動き予測はコンピュータビジョンにおける古典的な問題であり、観測されたポーズシーケンスから将来の動きを予測することを目的としている。
様々なディープラーニングモデルが提案され、動作予測における最先端のパフォーマンスを実現している。
しかし、既存の手法は通常、ポーズ空間における時間力学のモデリングに焦点を当てている。
残念なことに、人間の動きの複雑で高次元な性質は、動的コンテキストキャプチャに固有の課題をもたらす。
そこで我々は,従来のポーズベース表現から脱却し,各関節の位相空間軌道表現を用いた新しいアプローチを提案する。
さらに、現在の手法では、物理的に接続されたジョイント間の依存性のみを考慮する傾向がある。
本稿では,運動解剖学の明示的な事前知識を効果的に活用する新しい畳み込み神経モデルを提案する。
次に,個々の関節機能間の暗黙的関係を学習するグローバル最適化モジュールを提案する。
実験では,大規模3次元モーションベンチマークデータセット (human3.6m, cmu mocap) を用いて評価を行った。
これらの結果から,本手法はベンチマークデータセットに新しい最先端の手法を設定できることが示唆された。
私たちのコードはhttps://github.com/Pose-Group/TEIDで公開されます。 Motion prediction is a classic problem in computer vision, which aims at forecasting future motion given the observed pose sequence. Various deep learning models have been proposed, achieving state-of-the-art performance on motion prediction. However, existing methods typically focus on modeling temporal dynamics in the pose space. Unfortunately, the complicated and high dimensionality nature of human motion brings inherent challenges for dynamic context capturing. Therefore, we move away from the conventional pose based representation and present a novel approach employing a phase space trajectory representation of individual joints. Moreover, current methods tend to only consider the dependencies between physically connected joints. In this paper, we introduce a novel convolutional neural model to effectively leverage explicit prior knowledge of motion anatomy, and simultaneously capture both spatial and temporal information of joint trajectory dynamics. We then propose a global optimization module that learns the implicit relationships between individual joint features. Empirically, our method is evaluated on large-scale 3D human motion benchmark datasets (i.e., Human3.6M, CMU MoCap). These results demonstrate that our method sets the new state-of-the-art on the benchmark datasets. Our code will be available at https://github.com/Pose-Group/TEID. | 翻訳日:2022-01-10 14:47:56 公開日:2022-01-07 |
# DIABOLOによるH2O(Human-to-Human-or-Object)相互作用の検出 Detecting Human-to-Human-or-Object (H2O) Interactions with DIABOLO ( http://arxiv.org/abs/2201.02396v1 ) ライセンス: Link先を確認 | Astrid Orcesi, Romaric Audigier, Fritz Poka Toukam and Bertrand Luvison | (参考訳) ヒューマンインタラクションの検出は、人間の行動分析に不可欠である。
ヒューマン・ツー・オブジェクト・インタラクション(HOI: Human-to-Object Interaction)の検出、すなわち、人とオブジェクトが相互作用する画像を検知し、インタラクションのタイプを分類する多くの方法が提案されている。
しかしながら、社会と暴力の相互作用のような人間と人間の相互作用は、一般にHOIトレーニングデータセットでは考慮されていない。
我々は、人間の行動を分析する際に、これらの相互作用はHOIとは無視できないと考えており、Human-to-Human-or-Object(H2O)という2種類の相互作用を扱うための新しい相互作用データセットを提案する。
さらに, 動詞の新たな分類法を導入し, 人間の身体の態度を, 周囲の相互作用の標的に近づき, 環境から独立することを目的としている。
既存のデータセットと異なり、それらの使用がターゲットタイプに依存する場合や、高いレベルの意味的解釈を必要とする場合、同義語動詞の定義を避けることに努める。
H2Oデータセットには、この新しい分類に注釈付けされたV-COCOイメージが含まれているため、画像には明らかにより多くの相互作用が含まれている。
これは、人、ターゲット、あるいはインタラクションの数に依存する複雑さを持つhoi検出方法の問題だ。
そこで本研究では,画像コンテンツに依存しない推定時間を一定に保ちながら,全インタラクションを1回のフォワードパスで検出する効率的な主観中心シングルショット法であるdiaboloを提案する。
さらに、このマルチタスクネットワークは、すべての人とオブジェクトを同時に検出する。
これらのタスクのネットワーク共有は,計算資源の節約だけでなく,協調的な性能向上にも寄与することを示す。
最後に、DIABOLOは、HOIデータセットV-COCOのトレーニングおよび評価において、すべての最先端メソッドよりも優れているため、新しいH2Oインタラクション検出の課題の強力なベースラインである。 Detecting human interactions is crucial for human behavior analysis. Many methods have been proposed to deal with Human-to-Object Interaction (HOI) detection, i.e., detecting in an image which person and object interact together and classifying the type of interaction. However, Human-to-Human Interactions, such as social and violent interactions, are generally not considered in available HOI training datasets. As we think these types of interactions cannot be ignored and decorrelated from HOI when analyzing human behavior, we propose a new interaction dataset to deal with both types of human interactions: Human-to-Human-or-Object (H2O). In addition, we introduce a novel taxonomy of verbs, intended to be closer to a description of human body attitude in relation to the surrounding targets of interaction, and more independent of the environment. Unlike some existing datasets, we strive to avoid defining synonymous verbs when their use highly depends on the target type or requires a high level of semantic interpretation. As H2O dataset includes V-COCO images annotated with this new taxonomy, images obviously contain more interactions. This can be an issue for HOI detection methods whose complexity depends on the number of people, targets or interactions. Thus, we propose DIABOLO (Detecting InterActions By Only Looking Once), an efficient subject-centric single-shot method to detect all interactions in one forward pass, with constant inference time independent of image content. In addition, this multi-task network simultaneously detects all people and objects. We show how sharing a network for these tasks does not only save computation resource but also improves performance collaboratively. Finally, DIABOLO is a strong baseline for the new proposed challenge of H2O Interaction detection, as it outperforms all state-of-the-art methods when trained and evaluated on HOI dataset V-COCO. | 翻訳日:2022-01-10 14:47:40 公開日:2022-01-07 |
# 合成データセットを用いたマーカレスヒューマンモーションのための深層学習手法の検討 A Review of Deep Learning Techniques for Markerless Human Motion on Synthetic Datasets ( http://arxiv.org/abs/2201.02503v1 ) ライセンス: Link先を確認 | Doan Duy Vo, Russell Butler | (参考訳) 近年,マーカーレスモーションキャプチャはコンピュータビジョン研究の活発な分野となっている。
その広範な応用は、コンピュータアニメーション、人間の動き分析、生物医学研究、仮想現実、スポーツ科学など、様々な分野で知られている。
コンピュータビジョンのコミュニティでは,人間の姿勢推定が近年注目されているが,不確実性の深さと合成データセットの欠如により,これは困難な課題である。
この問題を解決するための様々なアプローチが最近提案されているが、その多くはディープラーニングに基づいている。
それらは主に、既存のベンチマーク、特に2dイメージのパフォーマンス向上に重点を置いている。
強力なディープラーニング技術と最近収集された実世界のデータセットに基づいて、2次元画像のみに基づくアニメーションの骨格を予測できるモデルを探索した。
合成されたポーズを持つさまざまな現実世界のデータセットから生成されたフレームは、単純なものから複雑なものまで、さまざまなボディ形状を使用する。
実装プロセスは、独自のデータセットにDeepLabCutを使用して、多くの必要なステップを実行し、入力フレームを使用してモデルをトレーニングする。
出力は人間の動きをアニメーション化した骨格です。
複合データセットとその他の結果は、深層モデルの"根拠真実"である。 Markerless motion capture has become an active field of research in computer vision in recent years. Its extensive applications are known in a great variety of fields, including computer animation, human motion analysis, biomedical research, virtual reality, and sports science. Estimating human posture has recently gained increasing attention in the computer vision community, but due to the depth of uncertainty and the lack of the synthetic datasets, it is a challenging task. Various approaches have recently been proposed to solve this problem, many of which are based on deep learning. They are primarily focused on improving the performance of existing benchmarks with significant advances, especially 2D images. Based on powerful deep learning techniques and recently collected real-world datasets, we explored a model that can predict the skeleton of an animation based solely on 2D images. Frames generated from different real-world datasets with synthesized poses using different body shapes from simple to complex. The implementation process uses DeepLabCut on its own dataset to perform many necessary steps, then use the input frames to train the model. The output is an animated skeleton for human movement. The composite dataset and other results are the "ground truth" of the deep model. | 翻訳日:2022-01-10 14:47:06 公開日:2022-01-07 |
# 情報インタラクションによる視覚追跡のための目標認識表現の学習 Learning Target-aware Representation for Visual Tracking via Informative Interactions ( http://arxiv.org/abs/2201.02526v1 ) ライセンス: Link先を確認 | Mingzhe Guo, Zhipeng Zhang, Heng Fan, Liping Jing, Yilin Lyu, Bing Li, Weiming Hu | (参考訳) トラッキングのための特徴表現のターゲット認識能力を向上する新しいバックボーンアーキテクチャを提案する。
具体的には、デファクトフレームワークがbackboneからの出力を単にターゲットローカライズに使用するだけで機能マッチングを行うのを観察したため、マッチングモジュールからbackboneネットワーク、特に浅い層への直接的なフィードバックは存在しません。
より具体的には、マッチングモジュールのみが(参照フレーム内で)ターゲット情報に直接アクセスでき、一方、候補フレームの表現学習は参照ターゲットに対して盲目である。
その結果、浅い段階における目標非関連干渉の蓄積効果は、深い層の特徴品質を低下させる可能性がある。
本稿では,シームズ様バックボーンネットワーク(InBN)内で複数の分岐ワイド相互作用を行うことにより,異なる角度から問題にアプローチする。
InBNのコアとなる汎用相互作用モデリング(GIM)は、バックボーンネットワークの異なる段階に参照画像の事前の知識を注入し、予測された特徴表現を無視可能な計算コストでより優れた目標認識と堅牢なトラクタ抵抗をもたらす。
提案するgimモジュールとinbn機構は,cnnやtransformerなど,さまざまなバックボーンタイプに対して汎用的かつ適用可能な改良手法である。
特にcnnバージョン(siamcarベース)は、lasot/tnl2kでのsucの絶対値の3.2/6.9でベースラインを改善している。
Transformer版は、LaSOT/TNL2Kで65.7/52.0のSUCスコアを取得する。
コードとモデルはリリースされる。 We introduce a novel backbone architecture to improve target-perception ability of feature representation for tracking. Specifically, having observed that de facto frameworks perform feature matching simply using the outputs from backbone for target localization, there is no direct feedback from the matching module to the backbone network, especially the shallow layers. More concretely, only the matching module can directly access the target information (in the reference frame), while the representation learning of candidate frame is blind to the reference target. As a consequence, the accumulation effect of target-irrelevant interference in the shallow stages may degrade the feature quality of deeper layers. In this paper, we approach the problem from a different angle by conducting multiple branch-wise interactions inside the Siamese-like backbone networks (InBN). At the core of InBN is a general interaction modeler (GIM) that injects the prior knowledge of reference image to different stages of the backbone network, leading to better target-perception and robust distractor-resistance of candidate feature representation with negligible computation cost. The proposed GIM module and InBN mechanism are general and applicable to different backbone types including CNN and Transformer for improvements, as evidenced by our extensive experiments on multiple benchmarks. In particular, the CNN version (based on SiamCAR) improves the baseline with 3.2/6.9 absolute gains of SUC on LaSOT/TNL2K, respectively. The Transformer version obtains SUC scores of 65.7/52.0 on LaSOT/TNL2K, which are on par with recent state of the arts. Code and models will be released. | 翻訳日:2022-01-10 14:46:12 公開日:2022-01-07 |
# NeROIC: オンラインイメージコレクションからのオブジェクトのニューラルレンダリング NeROIC: Neural Rendering of Objects from Online Image Collections ( http://arxiv.org/abs/2201.02533v1 ) ライセンス: Link先を確認 | Zhengfei Kuang, Kyle Olszewski, Menglei Chai, Zeng Huang, Panos Achlioptas, Sergey Tulyakov | (参考訳) 本稿では,オンライン画像コレクションからオブジェクト表現を取得し,様々なカメラ,照明,背景を持つ写真から任意のオブジェクトの高品質な形状と材料特性を抽出する手法を提案する。
これにより、新規ビュー合成、リライト、ハーモナイズド背景合成といった様々なオブジェクト中心のレンダリングアプリケーションを、Wildの入力に挑戦することから実現できる。
ニューラル・ラミアンス・フィールドを拡張する多段階的アプローチを用いて,まず表面形状を推定し,粗いフォアグラウンド・オブジェクト・マスクを活用し,粗い初期カメラパラメータを洗練し,トレーニング効率と形状品質を向上させる。
また,幾何学的ノイズの影響を除去しつつ,重要な詳細を保ちながらロバストな正規推定手法を提案する。
最後に,過渡的元素(シャープシャドウなど)を扱う拡張を持つ球面高調波で表される表面材料特性と周囲照明を抽出した。
これらのコンポーネントの結合は、高度にモジュール化され、効率的なオブジェクト取得フレームワークをもたらす。
広範な評価と比較は,レンダリングに有用な高品質な幾何学的特徴と外観的特性をキャプチャする手法の利点を示す。 We present a novel method to acquire object representations from online image collections, capturing high-quality geometry and material properties of arbitrary objects from photographs with varying cameras, illumination, and backgrounds. This enables various object-centric rendering applications such as novel-view synthesis, relighting, and harmonized background composition from challenging in-the-wild input. Using a multi-stage approach extending neural radiance fields, we first infer the surface geometry and refine the coarsely estimated initial camera parameters, while leveraging coarse foreground object masks to improve the training efficiency and geometry quality. We also introduce a robust normal estimation technique which eliminates the effect of geometric noise while retaining crucial details. Lastly, we extract surface material properties and ambient illumination, represented in spherical harmonics with extensions that handle transient elements, e.g. sharp shadows. The union of these components results in a highly modular and efficient object acquisition framework. Extensive evaluations and comparisons demonstrate the advantages of our approach in capturing high-quality geometry and appearance properties useful for rendering applications. | 翻訳日:2022-01-10 14:45:43 公開日:2022-01-07 |
# 高密度長尾物体検出のための等化焦点損失 Equalized Focal Loss for Dense Long-Tailed Object Detection ( http://arxiv.org/abs/2201.02593v1 ) ライセンス: Link先を確認 | Bo Li, Yongqiang Yao, Jingru Tan, Gang Zhang, Fengwei Yu, Jianwei Lu, Ye Luo | (参考訳) 近年のロングテール物体検出の成功にもかかわらず、ほぼ全てのロングテール物体検出器は2段階のパラダイムに基づいて開発されている。
実際には、ワンステージ検出器はデプロイが容易なシンプルで高速なパイプラインを持っているため、業界でより普及しています。
しかし、ロングテールのシナリオでは、この一連の作業はまだ検討されていない。
本稿では,この場合,一段検出器が良好に機能するかどうかを考察する。
一段検出器が優れた性能を発揮するのを防ぐ主な障害は、長い尾のデータ分布の下で、カテゴリーが様々な正負の不均衡問題に悩まされることである。
従来の焦点損失は、すべてのカテゴリーで同じ変調係数でトレーニングプロセスのバランスを保ち、長い尾の問題を処理できない。
この問題に対処するために,不均衡度に応じて異なるカテゴリの正および負のサンプルの損失寄与を再均衡させる等化焦点損失(EFL)を提案する。
具体的には、eflは、異なるカテゴリのトレーニングステータスによって動的に調整できるカテゴリ関連変調因子を採用する。
LVIS v1ベンチマークで行った大規模な実験により,提案手法の有効性が示された。
エンドツーエンドのトレーニングパイプラインにより、eflは全体のapで29.2%を達成し、既存のすべての最先端メソッドを上回って、まれなカテゴリで大幅なパフォーマンス向上を達成している。
コードはhttps://github.com/ModelTC/EOD.comで公開されている。 Despite the recent success of long-tailed object detection, almost all long-tailed object detectors are developed based on the two-stage paradigm. In practice, one-stage detectors are more prevalent in the industry because they have a simple and fast pipeline that is easy to deploy. However, in the long-tailed scenario, this line of work has not been explored so far. In this paper, we investigate whether one-stage detectors can perform well in this case. We discover the primary obstacle that prevents one-stage detectors from achieving excellent performance is: categories suffer from different degrees of positive-negative imbalance problems under the long-tailed data distribution. The conventional focal loss balances the training process with the same modulating factor for all categories, thus failing to handle the long-tailed problem. To address this issue, we propose the Equalized Focal Loss (EFL) that rebalances the loss contribution of positive and negative samples of different categories independently according to their imbalance degrees. Specifically, EFL adopts a category-relevant modulating factor which can be adjusted dynamically by the training status of different categories. Extensive experiments conducted on the challenging LVIS v1 benchmark demonstrate the effectiveness of our proposed method. With an end-to-end training pipeline, EFL achieves 29.2% in terms of overall AP and obtains significant performance improvements on rare categories, surpassing all existing state-of-the-art methods. The code is available at https://github.com/ModelTC/EOD. | 翻訳日:2022-01-10 14:45:24 公開日:2022-01-07 |
# イメージレベルの監督によるクラス検出 Detecting Twenty-thousand Classes using Image-level Supervision ( http://arxiv.org/abs/2201.02605v1 ) ライセンス: Link先を確認 | Xingyi Zhou, Rohit Girdha, Armand Joulin, Phillip Kr\"ahenb\"uhl, Ishan Misra | (参考訳) 現在のオブジェクト検出器は、小さな検出データセットのため、語彙サイズが限られている。
一方、画像分類器は、データセットがより大きく、より収集しやすいので、はるかに大きな語彙を推論します。
本稿では、画像分類データに基づいて検出器の分類器を訓練し、検出器の語彙を数万の概念に拡張するDeticを提案する。
以前の作業とは異なり、Deticはモデル予測に基づいてイメージラベルをボックスに割り当てておらず、さまざまな検出アーキテクチャやバックボーンの実装と互換性をより容易にする。
ボックスアノテーションのないクラスでも,Deticは優れた検出値が得られることを示す。
これは、open-vocabularyとlong-tail検出ベンチマークの両方の以前の作業よりも優れている。
Deticは、すべてのクラスで2.4mAP、オープン語彙のLVISベンチマークで新しいクラスで8.3mAPを提供する。
標準のLVISベンチマークでは、Deticはすべてのクラスで41.7 mAP、レアクラスでは41.7 mAPに達する。
初めて、imagenetデータセットの21番目のクラスすべてで検出器をトレーニングし、微調整なしで新しいデータセットに一般化できることを示します。
コードはhttps://github.com/facebookresearch/Detic.comで入手できる。 Current object detectors are limited in vocabulary size due to the small scale of detection datasets. Image classifiers, on the other hand, reason about much larger vocabularies, as their datasets are larger and easier to collect. We propose Detic, which simply trains the classifiers of a detector on image classification data and thus expands the vocabulary of detectors to tens of thousands of concepts. Unlike prior work, Detic does not assign image labels to boxes based on model predictions, making it much easier to implement and compatible with a range of detection architectures and backbones. Our results show that Detic yields excellent detectors even for classes without box annotations. It outperforms prior work on both open-vocabulary and long-tail detection benchmarks. Detic provides a gain of 2.4 mAP for all classes and 8.3 mAP for novel classes on the open-vocabulary LVIS benchmark. On the standard LVIS benchmark, Detic reaches 41.7 mAP for all classes and 41.7 mAP for rare classes. For the first time, we train a detector with all the twenty-one-thousand classes of the ImageNet dataset and show that it generalizes to new datasets without fine-tuning. Code is available at https://github.com/facebookresearch/Detic. | 翻訳日:2022-01-10 14:44:57 公開日:2022-01-07 |
# GenLabel: 生成モデルを使用したミックスアップリラベル GenLabel: Mixup Relabeling using Generative Models ( http://arxiv.org/abs/2201.02354v1 ) ライセンス: Link先を確認 | Jy-yong Sohn, Liang Shang, Hongxu Chen, Jaekyun Moon, Dimitris Papailiopoulos, Kangwook Lee | (参考訳) mixupは、入力データ対を混合して新しいデータポイントを生成するデータ拡張手法である。
mixupは一般的に予測性能が向上するが、時には性能が低下する。
本稿では, 混合アルゴリズムを理論的に経験的に解析することにより, この現象の主な原因を明らかにする。
そこで我々は,mixup用に設計された単純かつ効果的なrelabelingアルゴリズムであるgenlabelを提案する。
特に、GenLabelは、生成モデルを用いてクラス条件のデータ分散を学習することで、ミックスアップアルゴリズムがミックスアップサンプルを正しくラベル付けするのに役立つ。
広範な理論的・経験的分析により,genlabelと併用した場合,mixupは上記の現象を効果的に解決し,一般化性能と対向ロバスト性が向上することを示した。 Mixup is a data augmentation method that generates new data points by mixing a pair of input data. While mixup generally improves the prediction performance, it sometimes degrades the performance. In this paper, we first identify the main causes of this phenomenon by theoretically and empirically analyzing the mixup algorithm. To resolve this, we propose GenLabel, a simple yet effective relabeling algorithm designed for mixup. In particular, GenLabel helps the mixup algorithm correctly label mixup samples by learning the class-conditional data distribution using generative models. Via extensive theoretical and empirical analysis, we show that mixup, when used together with GenLabel, can effectively resolve the aforementioned phenomenon, improving the generalization performance and the adversarial robustness. | 翻訳日:2022-01-10 14:44:40 公開日:2022-01-07 |
# ニューラル正規微分方程式を用いたカヤ同定による予測放出 Forecasting emissions through Kaya identity using Neural Ordinary Differential Equations ( http://arxiv.org/abs/2201.02433v1 ) ライセンス: Link先を確認 | Pierre Browne, Aranildo Lima, Rossella Arcucci, C\'esar Quilodr\'an-Casas | (参考訳) カヤのアイデンティティーから、我々は、人口、一人当たりGDP、GDPのエネルギー強度、エネルギーの炭素強度といった国レベルで、炭素排出量に関連するいくつかの指標の進化を予測するために、Neural ODEモデルを使用した。
モデルとベースライン統計モデルの比較を行い,優れた性能を得た。
我々は、この機械学習アプローチが幅広い結果を生み出し、政策立案者に関連する洞察を与えることができると結論付けた。 Starting from the Kaya identity, we used a Neural ODE model to predict the evolution of several indicators related to carbon emissions, on a country-level: population, GDP per capita, energy intensity of GDP, carbon intensity of energy. We compared the model with a baseline statistical model - VAR - and obtained good performances. We conclude that this machine-learning approach can be used to produce a wide range of results and give relevant insight to policymakers | 翻訳日:2022-01-10 14:44:28 公開日:2022-01-07 |
# (参考訳) 一般カテゴリー発見 Generalized Category Discovery ( http://arxiv.org/abs/2201.02609v1 ) ライセンス: CC BY 4.0 | Sagar Vaze, Kai Han, Andrea Vedaldi, Andrew Zisserman | (参考訳) 本稿では,ラベル付きかつラベル付きでない画像集合が与えられた場合,ラベルなし集合内のすべての画像の分類が課題となる,非常に一般的な画像認識設定を考える。
ここで、ラベルのない画像はラベル付きクラスか、新しいものから来ます。
既存の認識方法は、既知の-または未知の-クラスからのみ来る、未知のクラスがa-prioriとして知られているなど、いくつかの制約のある仮定を行うため、この設定に対処できない。
制約のない設定に対処し、"Generalized Category Discovery"と命名し、これらすべての前提に挑戦します。
まず,新たなカテゴリ発見から最先端のアルゴリズムを取り出して,そのタスクに適応させることで,強力なベースラインを確立する。
次に,このオープンワールド設定に対して,コントラスト表現学習を用いた視覚変換器を提案する。
次に、単純だが効果的な半教師付き$k$-meansメソッドを導入し、不正なデータを自動的に見知らぬクラスにクラスタリングし、ベースラインを大幅に上回る。
最後に,非競合データにおけるクラス数を推定する新しい手法を提案する。
我々は、CIFAR10、CIFAR100、ImageNet-100を含む汎用オブジェクト分類のためのパブリックデータセットと、CUB、Stanford Cars、Herbarium19を含むきめ細かい視覚認識のためのアプローチを徹底的に評価し、今後の研究を促進するためにこの設定をベンチマークした。 In this paper, we consider a highly general image recognition setting wherein, given a labelled and unlabelled set of images, the task is to categorize all images in the unlabelled set. Here, the unlabelled images may come from labelled classes or from novel ones. Existing recognition methods are not able to deal with this setting, because they make several restrictive assumptions, such as the unlabelled instances only coming from known - or unknown - classes and the number of unknown classes being known a-priori. We address the more unconstrained setting, naming it 'Generalized Category Discovery', and challenge all these assumptions. We first establish strong baselines by taking state-of-the-art algorithms from novel category discovery and adapting them for this task. Next, we propose the use of vision transformers with contrastive representation learning for this open world setting. We then introduce a simple yet effective semi-supervised $k$-means method to cluster the unlabelled data into seen and unseen classes automatically, substantially outperforming the baselines. Finally, we also propose a new approach to estimate the number of classes in the unlabelled data. We thoroughly evaluate our approach on public datasets for generic object classification including CIFAR10, CIFAR100 and ImageNet-100, and for fine-grained visual recognition including CUB, Stanford Cars and Herbarium19, benchmarking on this new setting to foster future research. | 翻訳日:2022-01-10 14:42:58 公開日:2022-01-07 |
# オフライン政策評価のための準ハイパーパラメータフリーハイパーパラメータ選択法の理論的枠組み A Theoretical Framework of Almost Hyperparameter-free Hyperparameter Selection Methods for Offline Policy Evaluation ( http://arxiv.org/abs/2201.02300v1 ) ライセンス: Link先を確認 | Kohei Miyaguchi | (参考訳) 我々は,オフライン政策評価(OPE)のハイパーパラメータ選択の問題に関心がある。
OPEはオフライン強化学習の鍵となる要素であり、環境シミュレータを使わずにデータ駆動型決定最適化のコア技術である。
しかし、現在の最先端のOPE法はハイパーパラメータフリーではないため、現実のアプリケーションでは実用性が損なわれている。
この問題に対処するために, OPE のための新しい近似ハイパーパラメータ選択(AHS)フレームワークを導入し, 最適性(選択基準と呼ばれる)の概念をハイパーパラメータなしで定量的かつ解釈可能な方法で定義する。
次に、収束率や時間複雑性などの異なる特徴を持つ4つのAHS法を導出する。
最後に,本手法の有効性と限界を予備実験により検証する。 We are concerned with the problem of hyperparameter selection of offline policy evaluation (OPE). OPE is a key component of offline reinforcement learning, which is a core technology for data-driven decision optimization without environment simulators. However, the current state-of-the-art OPE methods are not hyperparameter-free, which undermines their utility in real-life applications. We address this issue by introducing a new approximate hyperparameter selection (AHS) framework for OPE, which defines a notion of optimality (called selection criteria) in a quantitative and interpretable manner without hyperparameters. We then derive four AHS methods each of which has different characteristics such as convergence rate and time complexity. Finally, we verify effectiveness and limitation of these methods with a preliminary experiment. | 翻訳日:2022-01-10 14:25:09 公開日:2022-01-07 |
# 堅牢なリスクベース能動学習アルゴリズムによる意思決定支援に関する研究 On robust risk-based active-learning algorithms for enhanced decision support ( http://arxiv.org/abs/2201.02555v1 ) ライセンス: Link先を確認 | Aidan J. Hughes, Lawrence A. Bull, Paul Gardner, Nikolaos Dervilis, Keith Worden | (参考訳) 分類モデルは、構造的健康モニタリング(SHM)システムやデジタルツインなどの物理資産管理技術の基本的な構成要素である。
以前の研究では、統計的分類器の開発のためのオンラインアプローチである \textit{risk-based active learning}を導入した。
意思決定は、データラベルを \textit{expected value of perfect information} (evpi) に従って優先的にクエリすることで考慮される。
意思決定パフォーマンスの向上など,リスクベースのアクティブラーニングアプローチを採用することで,いくつかのメリットが得られているが,ガイドクエリプロセスの結果,バイアスのサンプリングに関する問題が発生している。
このサンプリングバイアスは最終的に、アクティブラーニングの後半段階における意思決定パフォーマンスの低下として現れ、結果として失われたリソース/有効性に対応する。
本論文は,サンプリングバイアスの効果を否定する2つの新しいアプローチを提案する: \textit{semi-supervised learning} と \textit{discriminative classification models} である。
これらのアプローチはまず合成データセットを使用して視覚化され、その後実験ケーススタディ、特にZ24 Bridgeデータセットに適用される。
半教師付き学習アプローチは,各データセットに対するモデルに選択された生成分布の適合性に依存するバイアスのサンプリングに対する頑健性を示す。
対照的に、判別分類器はサンプリングバイアスの影響に対して優れた頑健性を有することが示される。
さらに, 意思決定支援監視システムで使用される統計分類器を慎重に選択することで, 監視キャンペーン中の検査数, リソース支出を削減できることが判明した。 Classification models are a fundamental component of physical-asset management technologies such as structural health monitoring (SHM) systems and digital twins. Previous work introduced \textit{risk-based active learning}, an online approach for the development of statistical classifiers that takes into account the decision-support context in which they are applied. Decision-making is considered by preferentially querying data labels according to \textit{expected value of perfect information} (EVPI). Although several benefits are gained by adopting a risk-based active learning approach, including improved decision-making performance, the algorithms suffer from issues relating to sampling bias as a result of the guided querying process. This sampling bias ultimately manifests as a decline in decision-making performance during the later stages of active learning, which in turn corresponds to lost resource/utility. The current paper proposes two novel approaches to counteract the effects of sampling bias: \textit{semi-supervised learning}, and \textit{discriminative classification models}. These approaches are first visualised using a synthetic dataset, then subsequently applied to an experimental case study, specifically, the Z24 Bridge dataset. The semi-supervised learning approach is shown to have variable performance; with robustness to sampling bias dependent on the suitability of the generative distributions selected for the model with respect to each dataset. In contrast, the discriminative classifiers are shown to have excellent robustness to the effects of sampling bias. Moreover, it was found that the number of inspections made during a monitoring campaign, and therefore resource expenditure, could be reduced with the careful selection of the statistical classifiers used within a decision-supporting monitoring system. | 翻訳日:2022-01-10 14:24:56 公開日:2022-01-07 |
# 群集シーンのセマンティックセグメンテーションのための自己スーパービジョンドメイン適応によるスケール不変性と不確かさの活用 Leveraging Scale-Invariance and Uncertainity with Self-Supervised Domain Adaptation for Semantic Segmentation of Foggy Scenes ( http://arxiv.org/abs/2201.02588v1 ) ライセンス: Link先を確認 | Javed Iqbal, Rehan Hafiz, Mohsen Ali | (参考訳) 本稿では,密集した霧のシーンに対するセマンティックセグメンテーションのドメイン適応手法であるFogAdaptを提案する。
セマンティックセグメンテーションの領域シフトを減らすために重要な研究がなされているが、悪天候の場面への適応は未解決の課題である。
霧、スモッグ、ヘイズなどの気象条件によるシーンの視認性の大きな変化は、領域シフトを悪化させ、そのようなシナリオにおける教師なし適応を困難にしている。
フォギーシーンのセグメンテーションにおける領域シフトを最小限に抑えるために,自己エントロピーとマルチスケール情報拡張自己教師付きドメイン適応法(fogadapt)を提案する。
霧密度の増加がセグメンテーション確率に対して高い自己エントロピーをもたらすという実証的証拠を裏付ける形で,適応法を導くために自己エントロピーに基づく損失関数を導入する。
さらに、異なる画像スケールで得られる推測を不確実性によって合成重み付けし、対象領域に対してスケール不変な擬似ラベルを生成する。
これらのスケール不変な擬似ラベルは可視性とスケールのバリエーションにロバストである。
提案手法は,実際の霧のシーン適応と,実際の霧のシーン適応シナリオに対する合成非霧のシーン適応に対して評価される。
実験の結果,フォグアダプタは霧画像のセマンティックセグメンテーションにおいて,現在の最先端技術よりも優れていた。
具体的には、最先端のsota(state-of-the-art)法と比較して、fogadaptはfoggy zurichでは3.8%、foggy driving-denseでは6.0%、miouではfoggy drivingで3.6%、cityscapesからfoggy zurichに適応した。 This paper presents FogAdapt, a novel approach for domain adaptation of semantic segmentation for dense foggy scenes. Although significant research has been directed to reduce the domain shift in semantic segmentation, adaptation to scenes with adverse weather conditions remains an open question. Large variations in the visibility of the scene due to weather conditions, such as fog, smog, and haze, exacerbate the domain shift, thus making unsupervised adaptation in such scenarios challenging. We propose a self-entropy and multi-scale information augmented self-supervised domain adaptation method (FogAdapt) to minimize the domain shift in foggy scenes segmentation. Supported by the empirical evidence that an increase in fog density results in high self-entropy for segmentation probabilities, we introduce a self-entropy based loss function to guide the adaptation method. Furthermore, inferences obtained at different image scales are combined and weighted by the uncertainty to generate scale-invariant pseudo-labels for the target domain. These scale-invariant pseudo-labels are robust to visibility and scale variations. We evaluate the proposed model on real clear-weather scenes to real foggy scenes adaptation and synthetic non-foggy images to real foggy scenes adaptation scenarios. Our experiments demonstrate that FogAdapt significantly outperforms the current state-of-the-art in semantic segmentation of foggy images. Specifically, by considering the standard settings compared to state-of-the-art (SOTA) methods, FogAdapt gains 3.8% on Foggy Zurich, 6.0% on Foggy Driving-dense, and 3.6% on Foggy Driving in mIoU when adapted from Cityscapes to Foggy Zurich. | 翻訳日:2022-01-10 14:24:28 公開日:2022-01-07 |
# (参考訳) 教育資源発見のための伝達学習パイプラインと先行パラグラフ生成への応用 A Transfer Learning Pipeline for Educational Resource Discovery with Application in Leading Paragraph Generation ( http://arxiv.org/abs/2201.02312v1 ) ライセンス: CC0 1.0 | Irene Li, Thomas George, Alexander Fabbri, Tammy Liao, Benjamin Chen, Rina Kawamura, Richard Zhou, Vanessa Yan, Swapnil Hingmire, Dragomir Radev | (参考訳) 効果的なヒューマンラーニングは、学習者の現在のトピックに対する理解と一致した幅広い教材の選定に依存する。
インターネットは人間の学習や教育に革命をもたらしたが、資源のアクセシビリティの障壁は依然として残っている。
すなわち、オンライン情報の過剰は、高品質な学習教材の探索と発見を困難にしている。
本稿では,新しいドメインに対する Web リソース発見を自動化する教育資源探索 (ERD) パイプラインを提案する。
パイプラインは、データ収集、特徴抽出、リソース分類の3つの主要なステップで構成される。
既知のソースドメインから始めて、トランスファーラーニングを通じて、2つの未認識のターゲットドメインでリソース発見を行います。
まず,シード文書のセットから頻繁なクエリを収集し,web上で検索することで,講義スライドや紹介ブログ投稿などの候補リソースを得る。
次に,新しい事前学習情報検索深層ニューラルネットワークモデルであるクエリ文書マスク言語モデリング(qd-mlm)を導入し,これらの候補リソースの深い特徴を抽出する。
木に基づく分類器を用いて、候補が正の学習資源であるかどうかを判定する。
パイプラインは2つの類似しているが新規なターゲットドメインで評価すると、F1スコアは0.94と0.82となる。
最後に、このパイプラインがどのようにアプリケーションに利益をもたらすかを実証する。
調査生成のための様々なwebリソースについて、私たちの知識を最大限に活用する最初の研究です。
また、NLP、Computer Vision(CV)、Statistics(STATS)から、39,728のWebリソースと659のクエリを手動でラベル付けしたコーパスもリリースしました。 Effective human learning depends on a wide selection of educational materials that align with the learner's current understanding of the topic. While the Internet has revolutionized human learning or education, a substantial resource accessibility barrier still exists. Namely, the excess of online information can make it challenging to navigate and discover high-quality learning materials. In this paper, we propose the educational resource discovery (ERD) pipeline that automates web resource discovery for novel domains. The pipeline consists of three main steps: data collection, feature extraction, and resource classification. We start with a known source domain and conduct resource discovery on two unseen target domains via transfer learning. We first collect frequent queries from a set of seed documents and search on the web to obtain candidate resources, such as lecture slides and introductory blog posts. Then we introduce a novel pretrained information retrieval deep neural network model, query-document masked language modeling (QD-MLM), to extract deep features of these candidate resources. We apply a tree-based classifier to decide whether the candidate is a positive learning resource. The pipeline achieves F1 scores of 0.94 and 0.82 when evaluated on two similar but novel target domains. Finally, we demonstrate how this pipeline can benefit an application: leading paragraph generation for surveys. This is the first study that considers various web resources for survey generation, to the best of our knowledge. We also release a corpus of 39,728 manually labeled web resources and 659 queries from NLP, Computer Vision (CV), and Statistics (STATS). | 翻訳日:2022-01-10 14:21:05 公開日:2022-01-07 |
# 自由形式のテキストクエリによる手話ビデオ検索 Sign Language Video Retrieval with Free-Form Textual Queries ( http://arxiv.org/abs/2201.02495v1 ) ライセンス: Link先を確認 | Amanda Duarte, Samuel Albanie, Xavier Gir\'o-i-Nieto, G\"ul Varol | (参考訳) 手話ビデオのコレクションを効率的に検索できるシステムは手話技術の有用な応用として注目されている。
しかし,個々のキーワードを超えて動画を検索する問題は文献上では限定的な注目を集めている。
このギャップに対処するため、本研究では、自由形式のテキストクエリによる手話検索のタスクを紹介する。 書かれたクエリ(例えば、文)と多くの手話ビデオのコレクションが与えられた場合、このクエリに最もマッチするコレクション内の署名ビデオを見つけることが目的である。
本稿では,最近導入されたASL(American Sign Language)の大規模データセットであるHow2Signのクロスモーダル埋め込みを学習することで,この課題に対処することを提案する。
本研究は,ラベル付きトレーニングデータの不足に苦しむ手話映像埋め込みの品質がシステム性能の重要なボトルネックであることを示す。
そこで我々は,利用可能なトレーニングデータの範囲と規模を拡大するために,反復的なサインスポッティングラウンドと特徴アライメントをインターリーブするフレームワークであるspot-alignを提案する。
我々は,手話認識と提案したビデオ検索タスクの改善を通じて,堅牢な手話ビデオ埋め込みを学習するためのSPOT-ALIGNの有効性を検証する。 Systems that can efficiently search collections of sign language videos have been highlighted as a useful application of sign language technology. However, the problem of searching videos beyond individual keywords has received limited attention in the literature. To address this gap, in this work we introduce the task of sign language retrieval with free-form textual queries: given a written query (e.g., a sentence) and a large collection of sign language videos, the objective is to find the signing video in the collection that best matches the written query. We propose to tackle this task by learning cross-modal embeddings on the recently introduced large-scale How2Sign dataset of American Sign Language (ASL). We identify that a key bottleneck in the performance of the system is the quality of the sign video embedding which suffers from a scarcity of labeled training data. We, therefore, propose SPOT-ALIGN, a framework for interleaving iterative rounds of sign spotting and feature alignment to expand the scope and scale of available training data. We validate the effectiveness of SPOT-ALIGN for learning a robust sign video embedding through improvements in both sign recognition and the proposed video retrieval task. | 翻訳日:2022-01-10 14:04:51 公開日:2022-01-07 |
# キャプションと美的ガイド付き画像クロッピングのための既存ディープネットワークの再構成 Repurposing Existing Deep Networks for Caption and Aesthetic-Guided Image Cropping ( http://arxiv.org/abs/2201.02280v1 ) ライセンス: Link先を確認 | Nora Horanyi, Kedi Xia, Kwang Moo Yi, Abhishake Kumar Bojja, Ales Leonardis, Hyung Jin Chang | (参考訳) 本稿では,ユーザ記述と美学に基づく画像の抽出を行う新しい最適化フレームワークを提案する。
収穫パラメータや収穫行動に回帰するためにディープ・ネットワークを訓練する既存の画像収穫法とは違って,画像キャプションや美容タスクの事前学習ネットワークを微調整せずに再利用することで,個別のネットワークのトレーニングを避けることで,収穫パラメータを直接最適化することを提案する。
具体的には、これらのネットワークの初期目的の損失を最小化する最高の作物パラメータを探索する。
最適化テーブルを作成するために、3つの戦略を提案します。
(i)マルチスケールバイリニアサンプリング。
(ii)作物の面積をアニールすることにより、パラメータ空間を効果的に減少させる。
(iii)複数の最適化結果の集約。
様々な量的・質的評価を通して,我々は,意図したユーザ記述によく適合した作物を生産し,美学的に満足できることを実証する。 We propose a novel optimization framework that crops a given image based on user description and aesthetics. Unlike existing image cropping methods, where one typically trains a deep network to regress to crop parameters or cropping actions, we propose to directly optimize for the cropping parameters by repurposing pre-trained networks on image captioning and aesthetic tasks, without any fine-tuning, thereby avoiding training a separate network. Specifically, we search for the best crop parameters that minimize a combined loss of the initial objectives of these networks. To make the optimization table, we propose three strategies: (i) multi-scale bilinear sampling, (ii) annealing the scale of the crop region, therefore effectively reducing the parameter space, (iii) aggregation of multiple optimization results. Through various quantitative and qualitative evaluations, we show that our framework can produce crops that are well-aligned to intended user descriptions and aesthetically pleasing. | 翻訳日:2022-01-10 14:04:33 公開日:2022-01-07 |
# ビデオテキスト表現に基づくビデオ要約 Video Summarization Based on Video-text Representation ( http://arxiv.org/abs/2201.02494v1 ) ライセンス: Link先を確認 | Li Haopeng, Ke Qiuhong, Gong Mingming, Zhang Rui | (参考訳) 現代のビデオ要約法は、トレーニングのために大量の注釈付きデータを必要とするディープニューラルネットワークに基づいている。
しかし、ビデオ要約のための既存のデータセットは小規模であり、深層モデルの過剰フィッティングに繋がる。
大規模データセットのアノテーションが時間を要することを考慮し,ビデオのセマンティック表現を得るためのマルチモーダルな自己教師型学習フレームワークを提案する。
具体的には,映像の視覚情報とテキスト情報のセマンティック一貫性について検討し,新たに収集したビデオテキストペアのデータセット上で,マルチモーダルエンコーダの自己教師付き事前学習を行う。
さらに,映像中の重要なコンテンツを段階的にピンポイントし,より優れた要約を生成するプログレッシブビデオ要約手法を提案する。
最後に,ビデオ分類に基づく映像要約の品質評価のための客観的評価フレームワークを提案する。
ランク相関係数,f-スコア,提案する客観的評価において,本手法の有効性と優れていることが実証された。 Modern video summarization methods are based on deep neural networks which require a large amount of annotated data for training. However, existing datasets for video summarization are small-scale, easily leading to over-fitting of the deep models. Considering that the annotation of large-scale datasets is time-consuming, we propose a multimodal self-supervised learning framework to obtain semantic representations of videos, which benefits the video summarization task. Specifically, we explore the semantic consistency between the visual information and text information of videos, for the self-supervised pretraining of a multimodal encoder on a newly-collected dataset of video-text pairs. Additionally, we introduce a progressive video summarization method, where the important content in a video is pinpointed progressively to generate better summaries. Finally, an objective evaluation framework is proposed to measure the quality of video summaries based on video classification. Extensive experiments have proved the effectiveness and superiority of our method in rank correlation coefficients, F-score, and the proposed objective evaluation compared to the state of the art. | 翻訳日:2022-01-10 14:04:15 公開日:2022-01-07 |
# Auxiliary Big Task を用いた不整合ラベルを用いたマルチタスク学習 Learning Multi-Tasks with Inconsistent Labels by using Auxiliary Big Task ( http://arxiv.org/abs/2201.02305v1 ) ライセンス: Link先を確認 | Quan Feng, Songcan Chen | (参考訳) マルチタスク学習は,タスク間の共通知識の伝達と活用により,モデルの性能を向上させる。
既存のMTLは主に、複数のタスク(MT)間のラベルセットが通常同じであるシナリオに焦点を当てており、タスク間の学習に利用することができる。
ほとんどまれな作業は、各タスクが少量のトレーニングサンプルしか持たず、ラベルセットが部分的に重複する、あるいは重複しない、というシナリオを探求する。
このようなMTの学習は、これらのタスク間の相関情報が少ないため、より難しい。
そこで本稿では,これらの課題のすべてをカバーするために,学習補助大タスクから豊富な情報と十分な数のクラスを共同で活用することにより,これらの課題を学習する枠組みを提案する。
学習した補助タスクの同じニューラルネットワークアーキテクチャを用いて個々のタスクを学習する上で、キーとなるアイデアは、利用可能なラベル情報を用いて、補助ネットワークの隠れた層ニューロンを適応的に訓練し、各タスクに対して対応するネットワークを構築することである。
実験結果は,最先端の手法と比較し,その効果を示す。 Multi-task learning is to improve the performance of the model by transferring and exploiting common knowledge among tasks. Existing MTL works mainly focus on the scenario where label sets among multiple tasks (MTs) are usually the same, thus they can be utilized for learning across the tasks. While almost rare works explore the scenario where each task only has a small amount of training samples, and their label sets are just partially overlapped or even not. Learning such MTs is more challenging because of less correlation information available among these tasks. For this, we propose a framework to learn these tasks by jointly leveraging both abundant information from a learnt auxiliary big task with sufficiently many classes to cover those of all these tasks and the information shared among those partially-overlapped tasks. In our implementation of using the same neural network architecture of the learnt auxiliary task to learn individual tasks, the key idea is to utilize available label information to adaptively prune the hidden layer neurons of the auxiliary network to construct corresponding network for each task, while accompanying a joint learning across individual tasks. Our experimental results demonstrate its effectiveness in comparison with the state-of-the-art approaches. | 翻訳日:2022-01-10 14:03:56 公開日:2022-01-07 |
# 道路交通制御のためのオフライン強化学習 Offline Reinforcement Learning for Road Traffic Control ( http://arxiv.org/abs/2201.02381v1 ) ライセンス: Link先を確認 | Mayuresh Kunjir and Sanjay Chawla | (参考訳) 交通信号制御は都市移動において重要な問題であり、経済的および環境的な影響の可能性を秘めている。
交通制御のための強化学習(rl)への関心は高まっているが、これまでの研究は、実際にコストがかかるインタラクションを通じた学習にフォーカスしている。
代わりに、トラフィックに関する実体験データは利用可能であり、最小限のコストで活用できる。
オフラインまたはバッチRLの最近の進歩は、まさにそれを可能にした。
モデルベースのオフラインRL法は、特に、経験データを他の方法よりもはるかに良く一般化することが示されている。
モデルベースの学習フレームワークであるA-DACを構築し、データ不確実性に対処するために、悲観的なコストでデータセットからマルコフ決定プロセス(MDP)を推論する。
コストは、MDPのアダプティブな報酬形成によってモデル化され、以前の関連する作業と比較して、データの規則化が向上する。
A-DACは、サイズやバッチ収集ポリシーによって異なる複数のデータセットを用いて、複雑な信号化ラウンドアバウトで評価される。
評価結果から, 簡便なバッチ収集ポリシを用いて, 高性能な制御ポリシをデータ効率よく構築できることが示唆された。 Traffic signal control is an important problem in urban mobility with a significant potential of economic and environmental impact. While there is a growing interest in Reinforcement Learning (RL) for traffic control, the work so far has focussed on learning through interactions which, in practice, is costly. Instead, real experience data on traffic is available and could be exploited at minimal costs. Recent progress in offline or batch RL has enabled just that. Model-based offline RL methods, in particular, have been shown to generalize to the experience data much better than others. We build a model-based learning framework, A-DAC, which infers a Markov Decision Process (MDP) from dataset with pessimistic costs built in to deal with data uncertainties. The costs are modeled through an adaptive shaping of rewards in the MDP which provides better regularization of data compared to the prior related work. A-DAC is evaluated on a complex signalized roundabout using multiple datasets varying in size and in batch collection policy. The evaluation results show that it is possible to build high performance control policies in a data efficient manner using simplistic batch collection policies. | 翻訳日:2022-01-10 14:03:35 公開日:2022-01-07 |
# 犯罪予測のための時空間時系列ハイパーグラフネットワーク Spatial-Temporal Sequential Hypergraph Network for Crime Prediction ( http://arxiv.org/abs/2201.02435v1 ) ライセンス: Link先を確認 | Lianghao Xia, Chao Huang, Yong Xu, Peng Dai, Liefeng Bo, Xiyue Zhang, Tianyi Chen | (参考訳) 犯罪予測は公共の安全と資源最適化に不可欠だが、2つの側面から非常に難しい。
一 時空間にまたがる犯罪パターンのダイナミクス、犯罪事件は、空間的及び時間的領域の双方において不均等に分布する。
二 犯罪の微妙な意味を明らかにした異なる種類の犯罪(盗難、強盗、暴行、損害等)の間の時間的発展的依存関係
これらの課題に対処するために、複雑な犯罪の時空間パターンを包括的に符号化する空間時間系列ハイパーグラフネットワーク(ST-SHN)を提案する。
具体的には、長距離及びグローバルな文脈下での時空間力学を扱うために、ハイパーグラフ学習パラダイムを統合したグラフ構造化メッセージパッシングアーキテクチャを設計する。
動的環境における犯罪のカテゴリー別不均一関係を捉えるために,犯罪タイプ間の時間発展構造依存性を学習するマルチチャネルルーティング機構を導入する。
提案するST-SHNフレームワークは,様々な最先端ベースラインと比較して,予測性能を著しく向上させることができることを示す。
ソースコードはhttps://github.com/akaxlh/st-shn。 Crime prediction is crucial for public safety and resource optimization, yet is very challenging due to two aspects: i) the dynamics of criminal patterns across time and space, crime events are distributed unevenly on both spatial and temporal domains; ii) time-evolving dependencies between different types of crimes (e.g., Theft, Robbery, Assault, Damage) which reveal fine-grained semantics of crimes. To tackle these challenges, we propose Spatial-Temporal Sequential Hypergraph Network (ST-SHN) to collectively encode complex crime spatial-temporal patterns as well as the underlying category-wise crime semantic relationships. In specific, to handle spatial-temporal dynamics under the long-range and global context, we design a graph-structured message passing architecture with the integration of the hypergraph learning paradigm. To capture category-wise crime heterogeneous relations in a dynamic environment, we introduce a multi-channel routing mechanism to learn the time-evolving structural dependency across crime types. We conduct extensive experiments on two real-world datasets, showing that our proposed ST-SHN framework can significantly improve the prediction performance as compared to various state-of-the-art baselines. The source code is available at: https://github.com/akaxlh/ST-SHN. | 翻訳日:2022-01-10 14:03:15 公開日:2022-01-07 |
# (参考訳) 説明可能なAI技術を用いた銀河外超コンパクトドワーフと球状クラスターの検出 Detection of extragalactic Ultra-Compact Dwarfs and Globular Clusters using Explainable AI techniques ( http://arxiv.org/abs/2201.01604v3 ) ライセンス: CC BY 4.0 | Mohammad Mohammadi, Jarvin Mutatiina, Teymoor Saifollahi, Kerstin Bunte | (参考訳) 銀河を取り巻く超コンパクト小星(UCD)や球状星団(GC)のような小さな恒星系は、これらの銀河を形成する融合現象のトレーサーとして知られている。
したがって、そのような系を特定することで銀河の集団形成、形成、進化を研究することができる。
しかし、画像データを用いたutds/gcsを検出する分光情報の欠如は極めて不確かである。
ここでは,これらの天体を前景の星や背景銀河から切り離すための機械学習モデルを,U,g,r,i,J,Ksという6つのフィルタでFornax銀河団のマルチ波長イメージングデータを用いて訓練することを目的とする。
オブジェクトのクラスは非常に不均衡であり、多くの自動分類技術に問題がある。
したがって、トレーニングデータの不均衡を処理するために、Synthetic Minority Over-Samplingを採用している。
次に,局所一般化行列学習ベクトル量子化(LGMLVQ)とランダムフォレスト(RF)の2つの分類器を比較した。
どちらの方法も精度と93パーセント以上のリコールでucds/gcsを識別でき、分類における各特徴次元%(色と角の大きさ)の重要性を反映した関連性を提供する。
どちらの方法も、この分類問題の重要なマーカーとして角の大きさを検出する。
u-i と i-Ks の色指数が最も重要な色であることは天文学的に予測されているが、我々は g-r などの色がより有益であることを示す。
優れた性能に加えて、lgmlvq法は、各クラス、クラス毎の代表サンプル、およびこのコントリビューションで示されているようにデータの非線形可視化を可能にすることで、さらなる解釈を可能にしている。
我々は、ucds/gcsを識別するために機械学習技術を使うことは、有望な結果につながると結論づける。 Compact stellar systems such as Ultra-compact dwarfs (UCDs) and Globular Clusters (GCs) around galaxies are known to be the tracers of the merger events that have been forming these galaxies. Therefore, identifying such systems allows to study galaxies mass assembly, formation and evolution. However, in the lack of spectroscopic information detecting UCDs/GCs using imaging data is very uncertain. Here, we aim to train a machine learning model to separate these objects from the foreground stars and background galaxies using the multi-wavelength imaging data of the Fornax galaxy cluster in 6 filters, namely u, g, r, i, J and Ks. The classes of objects are highly imbalanced which is problematic for many automatic classification techniques. Hence, we employ Synthetic Minority Over-sampling to handle the imbalance of the training data. Then, we compare two classifiers, namely Localized Generalized Matrix Learning Vector Quantization (LGMLVQ) and Random Forest (RF). Both methods are able to identify UCDs/GCs with a precision and a recall of >93 percent and provide relevances that reflect the importance of each feature dimension %(colors and angular sizes) for the classification. Both methods detect angular sizes as important markers for this classification problem. While it is astronomical expectation that color indices of u-i and i-Ks are the most important colors, our analysis shows that colors such as g-r are more informative, potentially because of higher signal-to-noise ratio. Besides the excellent performance the LGMLVQ method allows further interpretability by providing the feature importance for each individual class, class-wise representative samples and the possibility for non-linear visualization of the data as demonstrated in this contribution. We conclude that employing machine learning techniques to identify UCDs/GCs can lead to promising results. | 翻訳日:2022-01-10 13:19:08 公開日:2022-01-07 |
# (参考訳) 指紋画像の「イントラクラス」分離性のための「ベンフォードの法則」の発散と機械学習技術の検討 An Investigation of "Benford's" Law Divergence and Machine Learning Techniques for "Intra-Class" Separability of Fingerprint Images ( http://arxiv.org/abs/2201.01699v2 ) ライセンス: CC BY 4.0 | Aamo Iorliam, Orgem Emmanuel, and Yahaya I. Shehu | (参考訳) 指紋データベースを攻撃者から守ることは、偽の受け入れ率や偽の拒絶率から保護するために非常に重要である。
指紋画像の識別における重要な特徴は、これらの異なる種類の指紋画像の特徴を利用することである。
本研究の目的は,ベンフォード法則の発散値と機械学習技術を用いて,指紋画像の分類を行うことである。
これらのベン・フォードの法則の発散値を機械学習技術に応用することは、指紋画像の分類において非常に効果的かつ効率的であることが証明されている。
提案手法の有効性を5つのデータセットで実証し,決定木とcnnに対して100%高い分類"精度"を達成した。
しかし、「ナイーブ」ベイズとロジスティック回帰はそれぞれ95.95%と90.54%の「精度」を達成した。
これらの結果から,ベンフォード法則の特徴,特に決定木とCNNを指紋画像の分類に効果的に適用できることが示唆された。 Protecting a fingerprint database against attackers is very vital in order to protect against false acceptance rate or false rejection rate. A key property in distinguishing fingerprint images is by exploiting the characteristics of these different types of fingerprint images. The aim of this paper is to perform the classification of fingerprint images using the Ben-ford's law divergence values and machine learning techniques. The usage of these Ben-ford's law divergence values as features fed into the machine learning techniques has proved to be very effective and efficient in the classification of fingerprint images. The effectiveness of our proposed methodology was demonstrated on five datasets, achieving very high classification "accuracies" of 100% for the Decision Tree and CNN. However, the "Naive" Bayes, and Logistic Regression achieved "accuracies" of 95.95%, and 90.54%, respectively. These results showed that Ben-ford's law features and machine learning techniques especially Decision Tree and CNN can be effectively applied for the classification of fingerprint images. | 翻訳日:2022-01-10 12:53:29 公開日:2022-01-07 |
# (参考訳) DReyeVR:行動・インタラクション研究のための仮想現実駆動シミュレーションの民主化 DReyeVR: Democratizing Virtual Reality Driving Simulation for Behavioural & Interaction Research ( http://arxiv.org/abs/2201.01931v2 ) ライセンス: CC BY 4.0 | Gustavo Silvera and Abhijat Biswas and Henny Admoni | (参考訳) シミュレータは、運転実験の安全性、コスト、実験的な制御問題のために、運転に関する行動と相互作用の研究に不可欠なツールである。
最も先進的なシミュレーターは、高価格の360度プロジェクションシステムを使用して、視力、視野、没入性を確保する。
しかし、同様の視覚的忠実度は、バーチャルリアリティー(VR)ベースのビジュアルインターフェースで十分達成できる。
DReyeVRは、行動および相互作用研究の優先順位を念頭において設計された、オープンソースのVRベースの運転シミュレータプラットフォームである。
dreyevr("driver"と読む)はunreal engineとcarlaのautonomous vehicle simulatorをベースにしており、アイトラッキング、機能駆動ヘッドアップディスプレイ(hud)と車両オーディオ、カスタム定義可能なルートと交通シナリオ、実験的ロギング、リプレイ機能、rosとの互換性などを備えている。
このシミュレータを5000ドル以下で展開するために必要なハードウェアについて説明する。
最後に,DReyeVRを用いてインタラクション研究の質問に答える方法について,実例で述べる。 Simulators are an essential tool for behavioural and interaction research on driving, due to the safety, cost, and experimental control issues of on-road driving experiments. The most advanced simulators use expensive 360 degree projections systems to ensure visual fidelity, full field of view, and immersion. However, similar visual fidelity can be achieved affordably using a virtual reality (VR) based visual interface. We present DReyeVR, an open-source VR based driving simulator platform designed with behavioural and interaction research priorities in mind. DReyeVR (read "driver") is based on Unreal Engine and the CARLA autonomous vehicle simulator and has features such as eye tracking, a functional driving heads-up display (HUD) and vehicle audio, custom definable routes and traffic scenarios, experimental logging, replay capabilities, and compatibility with ROS. We describe the hardware required to deploy this simulator for under $5000$ USD, much cheaper than commercially available simulators. Finally, we describe how DReyeVR may be leveraged to answer an interaction research question in an example scenario. | 翻訳日:2022-01-10 12:48:00 公開日:2022-01-07 |
# (参考訳) 第三者視点による自己中心的3次元ポーズ推定の促進 Enhancing Egocentric 3D Pose Estimation with Third Person Views ( http://arxiv.org/abs/2201.02017v2 ) ライセンス: CC BY 4.0 | Ameya Dhamanaskar, Mariella Dimiccoli, Enric Corona, Albert Pumarola, Francesc Moreno-Noguer | (参考訳) 本稿では,1台のウェアラブルカメラから撮影した映像から計算した人物の3次元身振り推定を強化する新しい手法を提案する。
鍵となるアイデアは、ジョイント埋め込みスペースで第1と第3のビューをリンクする高レベル機能を活用することだ。
このような埋め込み空間を学ぶために、私たちはfirst2third-poseという、ファーストビューとサードビューの両方からキャプチャされた人間の活動を描いた2000近いビデオのペア同期データセットを紹介します。
自己教師ありの方法で訓練された半シャム語アーキテクチャを用いて,空間的および動作領域的特徴を明示的に検討する。
実験の結果,本データセットで学習した統合多視点埋め込み空間は,カメラパラメータの知識やドメイン適応を必要とせず,任意の単視点エゴセントリックビデオから識別的特徴を抽出するのに有用であることがわかった。
本研究では,2つの非拘束データセットにおける自己中心型3次元身体ポーズ推定性能を,3つの教師付き最先端アプローチで大幅に改善する。
私たちのデータセットとコードは研究目的で利用できます。 In this paper, we propose a novel approach to enhance the 3D body pose estimation of a person computed from videos captured from a single wearable camera. The key idea is to leverage high-level features linking first- and third-views in a joint embedding space. To learn such embedding space we introduce First2Third-Pose, a new paired synchronized dataset of nearly 2,000 videos depicting human activities captured from both first- and third-view perspectives. We explicitly consider spatial- and motion-domain features, combined using a semi-Siamese architecture trained in a self-supervised fashion. Experimental results demonstrate that the joint multi-view embedded space learned with our dataset is useful to extract discriminatory features from arbitrary single-view egocentric videos, without needing domain adaptation nor knowledge of camera parameters. We achieve significant improvement of egocentric 3D body pose estimation performance on two unconstrained datasets, over three supervised state-of-the-art approaches. Our dataset and code will be available for research purposes. | 翻訳日:2022-01-10 12:35:21 公開日:2022-01-07 |
# 貯留層モデルとしてのランダム化高次ファジィ認知マップの導入:太陽エネルギーと負荷予測を事例として Introducing Randomized High Order Fuzzy Cognitive Maps as Reservoir Computing Models: A Case Study in Solar Energy and Load Forecasting ( http://arxiv.org/abs/2201.02158v2 ) ライセンス: Link先を確認 | Omid Orang, Petr\^onio C\^andido de Lima Silva, Frederico Gadelha Guimar\~aes | (参考訳) ファジィ認知マップ(FCM)は、概念間の依存関係を表すノード(概念)と重みからなる解釈可能な符号付き重み付きグラフ法として登場した。
FCMは様々な時系列予測アプリケーションでかなりの成果を上げてきたが、時間効率のトレーニング手法でFCMモデルを設計することは依然としてオープンな課題である。
そこで本研究では,R-HFCMをラベル付けしたランダム化高次FCMモデル群からなる,新しい一変量時系列予測手法を提案する。
提案するr-hfcmモデルの新規性は,fcm と echo state network (esn) の概念を,モデル学習に最小二乗法を適用した,リザーバコンピューティング (rc) モデルの効率的かつ特定ファミリーとして統合することに関連している。
別の観点からは、R-HFCMの構造は、入力層、貯留層、出力層のみをトレーニング可能とし、各サブ貯留層コンポーネントの重みはランダムに選択され、トレーニングプロセス中に一定に維持される。
ケーススタディとして、このモデルは、マレーシアのジョホール市の電力供給会社の時給電力負荷と温度データを含むマレーシアのデータセットと同様に、ブラジルのソーラーステーションの公共データによる太陽エネルギー予測について検討している。
また, 地図サイズ, 活性化関数, バイアスの有無, 貯水池の大きさがR-HFCM法の精度に及ぼす影響についても検討した。
その結果, 提案したR-HFCMモデルの性能が他の手法と比較された。
本研究は,FCMが時系列モデリングにおける力学の貯蓄を実現する新しい方法であることを示す。 Fuzzy Cognitive Maps (FCMs) have emerged as an interpretable signed weighted digraph method consisting of nodes (concepts) and weights which represent the dependencies among the concepts. Although FCMs have attained considerable achievements in various time series prediction applications, designing an FCM model with time-efficient training method is still an open challenge. Thus, this paper introduces a novel univariate time series forecasting technique, which is composed of a group of randomized high order FCM models labeled R-HFCM. The novelty of the proposed R-HFCM model is relevant to merging the concepts of FCM and Echo State Network (ESN) as an efficient and particular family of Reservoir Computing (RC) models, where the least squares algorithm is applied to train the model. From another perspective, the structure of R-HFCM consists of the input layer, reservoir layer, and output layer in which only the output layer is trainable while the weights of each sub-reservoir components are selected randomly and keep constant during the training process. As case studies, this model considers solar energy forecasting with public data for Brazilian solar stations as well as Malaysia dataset, which includes hourly electric load and temperature data of the power supply company of the city of Johor in Malaysia. The experiment also includes the effect of the map size, activation function, the presence of bias and the size of the reservoir on the accuracy of R-HFCM method. The obtained results confirm the outperformance of the proposed R-HFCM model in comparison to the other methods. This study provides evidence that FCM can be a new way to implement a reservoir of dynamics in time series modelling. | 翻訳日:2022-01-10 12:23:51 公開日:2022-01-07 |
# RDFデータのためのスキップベクトル:特徴パターンの複雑さに基づく抽出 Skip Vectors for RDF Data: Extraction Based on the Complexity of Feature Patterns ( http://arxiv.org/abs/2201.01996v2 ) ライセンス: Link先を確認 | Yota Minami, Ken Kaneiwa | (参考訳) Resource Description Framework(RDF)は、Web上のリソースの属性や関連性などのメタデータを記述するためのフレームワークである。
RDFグラフの機械学習タスクには3つの方法がある。
(i)RDFグラフカーネルによるベクトルマシン(SVM)のサポート。
(ii)rdfグラフ埋め込み、及び
(iii)関係グラフ畳み込みネットワーク。
本稿では,隣接エッジとノードの様々な組み合わせを抽出することにより,rdfグラフ内の各リソースの特徴を表現できる新しい特徴ベクトル(スキップベクトルと呼ばれる)を提案する。
スキップベクトルを低次元化するために,各特徴の情報ゲイン比に基づいて分類タスクの重要な特徴を選択する。
分類タスクは、SVM、k-nearest neighbors法、ニューラルネットワーク、ランダムフォレスト、AdaBoostなどの従来の機械学習アルゴリズムに、各リソースの低次元スキップベクトルを適用することで行うことができる。
Wikidata,DBpedia,YAGOなどのRDFデータを用いた評価実験において,本手法をSVM内のRDFグラフカーネルと比較した。
AIFB, MUTAG, BGS, AMベンチマーク上のRDF2vecやリレーショナルグラフ畳み込みネットワークなどのRDFグラフの埋め込み手法との比較を行った。 The Resource Description Framework (RDF) is a framework for describing metadata, such as attributes and relationships of resources on the Web. Machine learning tasks for RDF graphs adopt three methods: (i) support vector machines (SVMs) with RDF graph kernels, (ii) RDF graph embeddings, and (iii) relational graph convolutional networks. In this paper, we propose a novel feature vector (called a Skip vector) that represents some features of each resource in an RDF graph by extracting various combinations of neighboring edges and nodes. In order to make the Skip vector low-dimensional, we select important features for classification tasks based on the information gain ratio of each feature. The classification tasks can be performed by applying the low-dimensional Skip vector of each resource to conventional machine learning algorithms, such as SVMs, the k-nearest neighbors method, neural networks, random forests, and AdaBoost. In our evaluation experiments with RDF data, such as Wikidata, DBpedia, and YAGO, we compare our method with RDF graph kernels in an SVM. We also compare our method with the two approaches: RDF graph embeddings such as RDF2vec and relational graph convolutional networks on the AIFB, MUTAG, BGS, and AM benchmarks. | 翻訳日:2022-01-10 12:23:20 公開日:2022-01-07 |
# Cross-SRN: クロスコンボリューションによる構造保存型スーパーリゾリューションネットワーク Cross-SRN: Structure-Preserving Super-Resolution Network with Cross Convolution ( http://arxiv.org/abs/2201.01458v2 ) ライセンス: Link先を確認 | Yuqing Liu, Qi Jia, Xin Fan, Shanshe Wang, Siwei Ma, Wen Gao | (参考訳) 低解像度 (LR) 画像から高解像度 (SR) 画像への復元は, 正確かつ明確である。
既存のディープラーニングは、SR結果の視覚的知覚において重要な役割を果たす画像の構造情報をほとんど無視している。
本稿では,マルチスケールな特徴融合方式で構造情報の探索と保存を行う階層的特徴利用ネットワークを設計する。
まず,従来のエッジ検出器を用いたクロス畳み込みを提案し,エッジ特徴の局所化と表現を行う。
次に,クロス畳み込みブロック (CCB) を特徴正規化とチャネルアテンションを用いて設計し,特徴の固有相関を考察する。
最後に,MFFG(Multi-scale feature fusion group)を利用して,クロス畳み込みブロックを埋め込み,階層的に異なるスケールの構造的特徴の関係を発達させ,クロス-SRNと呼ばれる軽量な構造保存ネットワークを呼び起こす。
実験の結果, クロスsrnは, 構造的詳細が明確で, 最先端の手法に対して, 競争力や優れた修復性能を発揮できることが示されている。
さらに,構造テクスチャの豊富な画像を選択するための基準を設定する。
提案したCross-SRNは、選択したベンチマークで最先端の手法よりも優れており、ネットワークがエッジを保存する上で大きな優位性を持っていることを示す。 It is challenging to restore low-resolution (LR) images to super-resolution (SR) images with correct and clear details. Existing deep learning works almost neglect the inherent structural information of images, which acts as an important role for visual perception of SR results. In this paper, we design a hierarchical feature exploitation network to probe and preserve structural information in a multi-scale feature fusion manner. First, we propose a cross convolution upon traditional edge detectors to localize and represent edge features. Then, cross convolution blocks (CCBs) are designed with feature normalization and channel attention to consider the inherent correlations of features. Finally, we leverage multi-scale feature fusion group (MFFG) to embed the cross convolution blocks and develop the relations of structural features in different scales hierarchically, invoking a lightweight structure-preserving network named as Cross-SRN. Experimental results demonstrate the Cross-SRN achieves competitive or superior restoration performances against the state-of-the-art methods with accurate and clear structural details. Moreover, we set a criterion to select images with rich structural textures. The proposed Cross-SRN outperforms the state-of-the-art methods on the selected benchmark, which demonstrates that our network has a significant advantage in preserving edges. | 翻訳日:2022-01-10 12:22:56 公開日:2022-01-07 |
# 深層学習に基づくモデル還元(DeePMR)法による化学動力学の簡易化 A deep learning-based model reduction (DeePMR) method for simplifying chemical kinetics ( http://arxiv.org/abs/2201.02025v2 ) ライセンス: Link先を確認 | Zhiwei Wang, Yaoyu Zhang, Yiguang Ju, Weinan E, Zhi-Qin John Xu, Tianhan Zhang | (参考訳) 化学動力学を簡易化する深層学習型モデル還元法 (DeePMR) を提案し, 高温自己着火, 完全旋回反応器 (PSR) およびn-ヘプタン/空気混合物の1次元自由拡散火炎を用いて検証した。
機構還元はブール空間上の最適化問題としてモデル化され、種に対応する各エントリであるブールベクトルが還元機構を表す。
最適化の目的は、事前選択されたベンチマーク量のエラー許容性を考慮すると、メカニズムサイズを最小化することである。
DeePMRの鍵となる考え方は、最適化問題の目的関数を定式化するためにディープニューラルネットワーク(DNN)を使用することである。
高次元ブール空間を効率的に探索するために、反復的DNN支援データサンプリングとDNN訓練手順を実装した。
以上の結果より, DNN はサンプリング効率を向上し, 10^5$ のサンプルのみを10^34} のサンプルとして選択し, 十分な精度を実現することができた。
その結果、DNNは鍵種を認識し、機構性能の低下を合理的に予測できることを示した。
良く訓練されたDNNは、逆最適化問題を解くことにより、最適還元機構を保証する。
着火遅延時間, 層火炎速度, PSRの温度を比較することにより, 結果として生じる骨格機構は少ない(45種)が, Path Flux Analysis (PFA) 法で得られた骨格機構(56種)と同等の精度が得られた。
さらに、大気・近距離条件(0.6から1.2の等価比)のみを考慮すれば、骨格機構はさらに28種に縮小できる。
DeePMRは、モデル還元を行う革新的な方法を提供し、燃焼領域におけるデータ駆動方式の大きな可能性を示している。 A deep learning-based model reduction (DeePMR) method for simplifying chemical kinetics is proposed and validated using high-temperature auto-ignitions, perfectly stirred reactors (PSR), and one-dimensional freely propagating flames of n-heptane/air mixtures. The mechanism reduction is modeled as an optimization problem on Boolean space, where a Boolean vector, each entry corresponding to a species, represents a reduced mechanism. The optimization goal is to minimize the reduced mechanism size given the error tolerance of a group of pre-selected benchmark quantities. The key idea of the DeePMR is to employ a deep neural network (DNN) to formulate the objective function in the optimization problem. In order to explore high dimensional Boolean space efficiently, an iterative DNN-assisted data sampling and DNN training procedure are implemented. The results show that DNN-assistance improves sampling efficiency significantly, selecting only $10^5$ samples out of $10^{34}$ possible samples for DNN to achieve sufficient accuracy. The results demonstrate the capability of the DNN to recognize key species and reasonably predict reduced mechanism performance. The well-trained DNN guarantees the optimal reduced mechanism by solving an inverse optimization problem. By comparing ignition delay times, laminar flame speeds, temperatures in PSRs, the resulting skeletal mechanism has fewer species (45 species) but the same level of accuracy as the skeletal mechanism (56 species) obtained by the Path Flux Analysis (PFA) method. In addition, the skeletal mechanism can be further reduced to 28 species if only considering atmospheric, near-stoichiometric conditions (equivalence ratio between 0.6 and 1.2). The DeePMR provides an innovative way to perform model reduction and demonstrates the great potential of data-driven methods in the combustion area. | 翻訳日:2022-01-10 12:22:35 公開日:2022-01-07 |