このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。
公開日が20220803となっている論文です。
Title | Authors | Abstract | 論文公表日・翻訳日 |
---|---|---|---|
# 一般化量子アシストシミュレータ Generalized Quantum Assisted Simulator ( http://arxiv.org/abs/2011.14737v2 ) ライセンス: Link先を確認 | Tobias Haug, Kishor Bharti | (参考訳) 我々は、開放量子系の力学、一般化時間進化、非線形微分方程式、ギブス状態の準備をシミュレートするためのノイズの多い中間スケール量子フレームワークを提供する。
このアルゴリズムは古典量子フィードバックループを必要とせず、不毛高原問題を回避し、アダマール検定のような複雑な測定を必要としない。
アルゴリズムの異なるステップを解き、古典的に要求されるタスクを量子コンピュータに委譲することを可能にするハイブリッド密度行列の概念を導入する。
我々のアルゴリズムは3つの解離ステップで進行する。
まず、アンサッツを選択し、次に量子コンピュータ上で重なり行列を測定する。
最後のステップは、第2ステップからの古典的な後処理データです。
このアルゴリズムは、navier-stokes方程式、プラズマ流体力学、量子ボルツマントレーニング、量子信号処理、線形系の解法に潜在的に応用できる。
フレームワーク全体が現在の実験と互換性があり、すぐに実装できます。 We provide a noisy intermediate-scale quantum framework for simulating the dynamics of open quantum systems, generalized time evolution, non-linear differential equations and Gibbs state preparation. Our algorithm does not require any classical-quantum feedback loop, bypass the barren plateau problem and does not necessitate any complicated measurements such as the Hadamard test. We introduce the notion of the hybrid density matrix, which allows us to disentangle the different steps of our algorithm and delegate classically demanding tasks to the quantum computer. Our algorithm proceeds in three disjoint steps. First, we select the ansatz, followed by measuring overlap matrices on a quantum computer. The final step involves classical post-processing data from the second step. Our algorithm has potential applications in solving the Navier-Stokes equation, plasma hydrodynamics, quantum Boltzmann training, quantum signal processing and linear systems. Our entire framework is compatible with current experiments and can be implemented immediately. | 翻訳日:2023-04-22 14:40:22 公開日:2022-08-03 |
# 量子チャネルまたはその補体のコヒーレント情報は総称正である Coherent information of a quantum channel or its complement is generically positive ( http://arxiv.org/abs/2107.00392v2 ) ライセンス: Link先を確認 | Satvik Singh, Nilanjana Datta | (参考訳) 与えられた量子チャネルが量子情報を送信する正の能力を持つかどうかを決定するタスクは、量子情報理論における基本的なオープン問題である。
一般に、コヒーレント情報は、その量子容量の正の値を検出するために、チャネルの非有界な数のコピーに対して計算される必要がある。
しかし、このレターでは、チャネルの出力空間が環境よりも大きい場合、ランダムに選択されたチャネルの1つのコピーのコヒーレント情報がほぼ確実に正であることを示す。
したがって、この場合、チャネルの1つのコピーは、量子容量の肯定性を決定するのに十分である。
異なる言い方をすれば、ゼロのコヒーレント情報を持つチャネルは、出力空間が環境よりも大きいチャネルのサブセットにおいてゼロとなる。
一方、環境がチャネルの出力空間よりも大きい場合、同じ結果がチャネルの補完となる。 The task of determining whether a given quantum channel has positive capacity to transmit quantum information is a fundamental open problem in quantum information theory. In general, the coherent information needs to be computed for an unbounded number of copies of a channel in order to detect a positive value of its quantum capacity. However, in this Letter, we show that the coherent information of a single copy of a randomly selected channel is positive almost surely if the channel's output space is larger than its environment. Hence, in this case, a single copy of the channel typically suffices to determine positivity of its quantum capacity. Put differently, channels with zero coherent information have measure zero in the subset of channels for which the output space is larger than the environment. On the other hand, if the environment is larger than the channel's output space, identical results hold for the channel's complement. | 翻訳日:2023-03-23 20:53:30 公開日:2022-08-03 |
# テキストマイニングの大学院工学教育への応用--ジェンダー, 国籍, 社会経済的地位の役割 Text Mining Undergraduate Engineering Programs' Applications: the Role of Gender, Nationality, and Socio-economic Status ( http://arxiv.org/abs/2107.14034v4 ) ライセンス: Link先を確認 | Bo Lin, Bissan Ghaddar, Ada Hurst | (参考訳) 女性、目に見える少数民族、その他の社会的に不利な集団は、STEM教育において過小評価され続けている。
stemを追求する学生のモチベーション、ジェンダー、国籍、親教育の達成、社会経済的背景の遊びを理解することは、これらのグループに対するより効果的な採用活動の設計を支援することができる。
本稿では,潜在ディリクレ割当と単語埋め込みを組み込んだ新しいテキストマイニング手法を提案し,提案する。
提案手法を43,645個のデータセットに適用し,カナダ大の工学部に適用した。
次に, 応募者の性別, 国籍, 家族所得, 教育的達成度との関係と, 工学的選択プログラムに適用するためのモチベーションについて検討した。
テクノロジーへの関心と社会的影響を期待することは、応募者にとって最も強力な動機付けだ。
また, 応募者の国籍や家族社会経済的地位と有意なモチベーション差がみられたが, 工学研究のモチベーションには男女差が最も強く, 強い影響がある。 Women, visible minorities, and other socially disadvantaged groups continue to be underrepresented in STEM education. Understanding students' motivations for pursuing a STEM major, and the roles gender, nationality, parental education attainment, and socio-economic background play in shaping students' motivations can support the design of more effective recruitment efforts towards these groups. In this paper, we propose and develop a novel text mining approach incorporating the Latent Dirichlet Allocation and word embeddings to analyze applicants' motivational factors for choosing an engineering program. We apply the proposed method to a dataset of 43,645 applications to the engineering school of a large Canadian university. We then investigate the relationship between applicants' gender, nationality, and family income and educational attainment, and their stated motivations for applying to their engineering program of choice. We find that interest in technology and the desire to make social impact are the two most powerful motivators for applicants. Additionally, while we find significant motivational differences related to applicants' nationality and family socio-economic status, gender has the strongest and the most robust impact on students' motivations for studying engineering. | 翻訳日:2023-03-21 11:39:19 公開日:2022-08-03 |
# 量子ノイズの偏差境界と濃度不等式 Deviation bounds and concentration inequalities for quantum noises ( http://arxiv.org/abs/2109.13152v4 ) ライセンス: Link先を確認 | Tristan Benoist, Lisa H\"anggli, Cambyse Rouz\'e | (参考訳) 量子フィルタリングの文脈における非可換ディリクレ形式の確率的解釈を提供する。
量子光学実験によって動機付けられた確率過程に対して、非可換ディリクレ形式で表される最適有限時間偏差を導出する。
新規な非可換機能不等式の導入と開発により, これらのプロセスの濃度不等式を導出する。
私たちの境界を満たす例としては、量子マルコフ半群のテンソル積や、しきい値温度以上のギブスサンプルラーがある。 We provide a stochastic interpretation of non-commutative Dirichlet forms in the context of quantum filtering. For stochastic processes motivated by quantum optics experiments, we derive an optimal finite time deviation bound expressed in terms of the non-commutative Dirichlet form. Introducing and developing new non-commutative functional inequalities, we deduce concentration inequalities for these processes. Examples satisfying our bounds include tensor products of quantum Markov semigroups as well as Gibbs samplers above a threshold temperature. | 翻訳日:2023-03-13 11:53:09 公開日:2022-08-03 |
# 一般暗モード制御によるマルチモード光機械冷却 Multimode optomechanical cooling via general dark-mode control ( http://arxiv.org/abs/2110.14885v3 ) ライセンス: Link先を確認 | Jian Huang, Deng-Gao Lai, Cheng Liu, Jin-Feng Huang, Franco Nori, Jie-Qiao Liao | (参考訳) ダークモード効果は、複数の縮退したメカニカルモードを共通のキャビティフィールドモードと光学的に結合した地上冷却のための頑固な障害物である。
本稿では,2つの縮退・縮退メカニカルモードを同時に冷却する補助キャビティモード法を提案する。
補助キャビティモードの導入はダークモード効果を損なうだけでなく、ダークモードに格納された熱励起を抽出するための新しい冷却チャネルも提供する。
さらに,2つのキャビティモードと2つのメカニカルモードからなるネットワーク結合型4モード光機械システムにおいて,ダークモードを破る一般的な物理結合構成について検討した。
本システムでは,解析的なダークモード破壊条件を見いだす。
本手法は汎用的で,マルチメカニカルモード光機械システムにおいて,ダークモード効果を壊し,同時に地中冷却を実現するように一般化することができる。
また、N型4レベル原子系におけるダークステート効果の破れを研究することにより、ダークモード破壊の背後にある物理的メカニズムを実証する。
この結果は、物理における様々な暗モードおよび暗モード効果を制御する一般的な方法を提供するだけでなく、マクロ量子現象の研究や、マルチメカニカル共振器システムにおける応用の機会を与える。 The dark-mode effect is a stubborn obstacle for ground-state cooling of multiple degenerate mechanical modes optomechanically coupled to a common cavity-field mode. Here we propose an auxiliary-cavity-mode method for simultaneous ground-state cooling of two degenerate or near-degenerate mechanical modes by breaking the dark mode. We find that the introduction of the auxiliary cavity mode not only breaks the dark-mode effect, but also provides a new cooling channel to extract the thermal excitations stored in the dark mode. Moreover, we study the general physical-coupling configurations for breaking the dark mode in a generalized networkcoupled four-mode optomechanical system consisting of two cavity modes and two mechanical modes. We find the analytical dark-mode-breaking condition in this system. This method is general and it can be generalized to break the dark-mode effect and to realize the simultaneous ground-state cooling in a multiple-mechanicalmode optomechanical system. We also demonstrate the physical mechanism behind the dark-mode breaking by studying the breaking of dark-state effect in the N-type four-level atomic system. Our results not only provide a general method to control various dark-mode and dark-state effects in physics, but also present an opportunity to the study of macroscopic quantum phenomena and applications in multiple-mechanical-resonator systems. | 翻訳日:2023-03-10 01:15:52 公開日:2022-08-03 |
# 連続測定によるAdiabatic Quantum Thermal Machines Continuous Measurement Boosted Adiabatic Quantum Thermal Machines ( http://arxiv.org/abs/2112.03971v2 ) ライセンス: Link先を確認 | Bibek Bhandari and Andrew N. Jordan | (参考訳) 本稿では,連続測定に基づく量子熱機械の静的および非調和駆動系における統一的な研究手法を提案する。
時間非依存の場合の定常状態と過渡ダイナミクスについて検討する。
断熱駆動の場合,計測に基づく熱力学量がどのように幾何学的特性に寄与するかを示す。
また,断熱駆動の有無における連続測定による伝熱・散逸の適切な定義を提供する。
上述の考え方を概説し、連続的な測定と遅い運転の両方を行う2つの異なるパラダイム的例(結合量子ドットと結合量子ビット系)で冷蔵現象を考察する。
時間非依存の場合、量子コヒーレンスが測定に基づく量子冷蔵庫の冷却能力を向上できることが示される。
特に結合量子ビットの場合、線形かつ非線形なシステム-バス結合を考える。
非線形カップリングは加熱が期待できる特定の状態において冷却効果を生じる。
断熱駆動の場合、量子測定は断熱的な量子冷蔵庫のパワーを著しく向上させることを観測する。
また, 得られたブーストが, 個々の影響によるパワーの総和よりも大きいことも観察した。
測定ベースの冷凍機は、熱抽出が最大となる状態の静的な冷却機と比較して駆動ケースにおいて類似またはより良い性能係数(COP)を有することができる。
本研究は,量子熱機械の計測から量子処理ネットワークの冷凍まで,デバイスにおける今後の応用において潜在的に有意である。 We present a unified approach to study continuous measurement based quantum thermal machines in static as well as adiabatically driven systems. We investigate both steady state and transient dynamics for the time-independent case. In the adiabatically driven case, we show how measurement based thermodynamic quantities can be attributed geometric characteristics. We also provide the appropriate definition for heat transfer and dissipation owing to continous measurement in the presence and absence of adiabatic driving. We illustrate the aforementioned ideas and study the phenomena of refrigeration in two different paradigmatic examples: a coupled quantum dot and a coupled qubit system, both undergoing continuous measurement and slow driving. In the time-independent case, we show that quantum coherence can improve the cooling power of measurement based quantum refrigerators. Exclusively for the case of coupled qubits, we consider linear as well as non-linear system-bath couplings. We observe that non-linear coupling produces cooling effects in certain regime where otherwise heating is expected. In the adiabatically driven case, we observe that quantum measurement can provide significant boost to the power of adiabatic quantum refrigerators. We also observe that the obtained boost can be larger than the sum of power due to individual effects. The measurement based refrigerators can have similar or better coefficient of performance (COP) in the driven case compared to the static one in the regime where heat extraction is maximum. Our results have potential significance for future application in devices ranging from measurement based quantum thermal machines to refrigeration in quantum processing networks. | 翻訳日:2023-03-05 07:30:24 公開日:2022-08-03 |
# Sr-88の熱または誘導ビームに基づく超放射光レーザーの展望 Prospects of a superradiant laser based on a thermal or guided beam of Sr-88 ( http://arxiv.org/abs/2112.15420v2 ) ライセンス: Link先を確認 | Mikkel Tang (1), Stefan A. Sch\"affer (2), J\"org H. M\"uller (1), ((1) Niels Bohr Institute, Copenhagen, Denmark, (2) Van der Waals-Zeeman Institute, Amsterdam, The Netherlands) | (参考訳) 7.5kHz幅の$^1$S$_0$-$^3$P$_1$ transition in $^{88}$Srの超ラジアントラッシングの展望は、現実的な実験数に基づく2つのシステムの数値シミュレーションを用いて検討される。
1つの系は、高フラックスの単純な熱い原子ビームで連続的な超輝度を示すというアイデアを使い、もう1つの系は双極子ガイドで超低温原子を使用する。
ホットビームシステムは、2.5 \times 10^{12}$ atoms/sのフラックスを超えることを達成している。
数百のnWを出力し、20-30の係数でキャビティノイズを抑制することができる。
2階ドップラーシフトは500Hzの順序で遅延周波数をシフトさせる。
寒冷原子ビームの場合、双極子ガイドに閉じ込められた原子のリポンピングスキームを用いた場合、デコヒーレンスと熱効果が考慮される。
出力電力は数百 pW の順であるが、2次ドップラーシフトを無視することができ、50-100 の順でキャビティノイズを抑制することができる。
さらに,両系とも原子フラックスのゆらぎに対する局所的不感度を示すことを示した。 The prospects of superradiant lasing on the 7.5 kHz wide $^1$S$_0$-$^3$P$_1$ transition in $^{88}$Sr is explored by using numerical simulations of two systems based on realistic experimental numbers. One system uses the idea of demonstrating continuous superradiance in a simple, hot atom beam with high flux, and the other system is based on using ultra-cold atoms in a dipole guide. We find that the hot beam system achieves lasing above a flux of $2.5 \times 10^{12}$ atoms/s. It is capable of outputting hundreds of nW and suppressing cavity noise by a factor of 20-30. The second order Doppler shift causes a shift in the lasing frequency on the order of 500 Hz. For the cold atom beam we account for decoherence and thermal effects when using a repumping scheme for atoms confined in a dipole guide. We find that the output power is on the order of hundreds of pW, however the second order Doppler shift can be neglected, and cavity noise can be suppressed on the order of a factor 50-100. Additionally we show that both systems exhibit local insensitivity to fluctuations in atomic flux. | 翻訳日:2023-03-02 19:14:30 公開日:2022-08-03 |
# 意識と量子力学:哲学的アプローチ Consciousness and quantum mechanics: a philosophical approach ( http://arxiv.org/abs/2201.09663v5 ) ライセンス: Link先を確認 | Raoni Wohnrath Arroyo | (参考訳) 本書は、標準的な非相対論的量子力学のオントロジー的含意と、測定問題の解決に「意識」の概念を用いることを扱っている。 This book deals with some ontological implications of standard non-relativistic quantum mechanics, and the use of the notion of `consciousness' to solve the measurement problem. | 翻訳日:2023-02-28 05:56:27 公開日:2022-08-03 |
# 厳密な局所条件下における純三成分非局所性の実験的実証 Experimental demonstration of genuine tripartite nonlocality under strict locality conditions ( http://arxiv.org/abs/2203.00889v2 ) ライセンス: Link先を確認 | Liang Huang, Xue-Mei Gu, Yang-Fan Jiang, Dian Wu, Bing Bai, Ming-Cheng Chen, Qi-Chao Sun, Jun Zhang, Sixia Yu, Qiang Zhang, Chao-Yang Lu, Jian-Wei Pan | (参考訳) 非局所性は古典的な直観に反する自然の直観的特徴の1つを捉えている。
近年の研究では、我々の物理的世界の非局所性は少なくとも三分性であることが明らかになっている。つまり、自然界における真の三分性非局所相関は、二分性非古典的資源と無限の共有ランダム性を含む因果理論では再現できない。
ここでは、公平なサンプリング仮定とポストセレクションを許すことにより、全ての関連する事象を空間的に分離し、高速な量子乱数生成器と高速偏光測定を用いて、厳密な局所性制約の下で、そのような真の三部構造非局所性を実験的に示す。
特に、フォトニック量子三角ネットワークにおいて、選択された三分詞グリーンベルガー=ホルン=ゼリンガー状態の忠実度$(93.13 \pm 0.24)\%$に対して7.57の標準偏差でベル型不等式が局所性-ループホールフリー違反しているのを観測する。 Nonlocality captures one of the counterintuitive features of nature that defies classical intuition. Recent investigations reveal that our physical world's nonlocality is at least tripartite; i.e., genuinely tripartite nonlocal correlations in nature cannot be reproduced by any causal theory involving bipartite nonclassical resources and unlimited shared randomness. Here, by allowing the fair sampling assumption and postselection, we experimentally demonstrate such genuine tripartite nonlocality in a network under strict locality constraints that are ensured by spacelike separating all relevant events and employing fast quantum random number generators and high-speed polarization measurements. In particular, for a photonic quantum triangular network we observe a locality-loophole-free violation of the Bell-type inequality by 7.57 standard deviations for a postselected tripartite Greenberger-Horne-Zeilinger state of fidelity $(93.13 \pm 0.24)\%$, which convincingly disproves the possibility of simulating genuine tripartite nonlocality by bipartite nonlocal resources with globally shared randomness. | 翻訳日:2023-02-23 08:11:13 公開日:2022-08-03 |
# 任意の測定装置を使ってほぼ完璧な測定をする方法 How to use arbitrary measuring devices to perform almost perfect measurements ( http://arxiv.org/abs/2203.02593v2 ) ライセンス: Link先を確認 | Noah Linden and Paul Skrzypczyk | (参考訳) 我々は、別の量子測定を行う能力を考えると、1つの量子測定を再現する問題を考える。
この問題に対する一般的なフレームワークと具体的なプロトコルを提供します。
例えば、利用可能な"不完全"デバイスを、使用中の不完全測定数で指数関数的に減少する平均誤差でターゲット測定を実装するために、少量で使用する方法を示す。
これは、測定装置の軽量なエラー軽減の一種として、短期的な応用に有用であると期待する。
実用的応用の観点からは、利用可能な測定値と対象値の両方が任意の一般化された量子測定値であるような最も一般的な設定において、一般的な理論的観点から問題を考える。
この一般的な問題は、フォン・ノイマン測度(完全)の統計を再現する能力に還元され、利用可能な測定値の無限個の使用の漸近極限において、「古典的クローニング」に基づく単純なプロトコルがこの課題を完全に達成できることが示される。
漸近的に全ての(非自明な)量子測定が等価であることを示す。
また、利用可能な測定値の固定回数に対する最適プロトコルについても検討する。
これには、ノイズと損失量子の測定の両方の改善を含むが、制限されない。
さらに,複数の計測を並列に行う環境では,古典的情報理論のブロック符号化手法を用いて,有限レートの計測再現を実現することができることを示す。
最後に,確率的プロトコルを利用することで,メリットも享受できることを示す。 We consider the problem of reproducing one quantum measurement given the ability to perform another. We give a general framework and specific protocols for this problem. For example, we show how to use available "imperfect" devices a small number of times to implement a target measurement with average error that drops off exponentially with the number of imperfect measurements used. We hope that could be useful in near-term applications as a type of lightweight error mitigation of the measuring devices. As well as the view to practical applications, we consider the question from a general theoretical perspective in the most general setting where both the available and target measurements are arbitrary generalised quantum measurements. We show that this general problem in fact reduces to the ability to reproduce the statistics of (complete) von Neumann measurements, and that in the asymptotic limit of infinitely many uses of the available measurement, a simple protocol based upon 'classical cloning' can perfectly achieve this task. We show that asymptotically all (non-trivial) quantum measurements are equivalent. We also study optimal protocols for a fixed number of uses of the available measurement. This includes, but is not limited to, improving both noisy and lossy quantum measurements. Furthermore, we show that, in a setting where we perform multiple measurements in parallel, we can achieve finite-rate measurement reproduction, by using block-coding techniques from classical information theory. Finally, we show that advantages can also be gained by making use of probabilistic protocols. | 翻訳日:2023-02-23 03:30:15 公開日:2022-08-03 |
# 相互作用可積分モデルにおけるR'enyiエントロピーの成長と準粒子像の破壊 Growth of R\'enyi Entropies in Interacting Integrable Models and the Breakdown of the Quasiparticle Picture ( http://arxiv.org/abs/2203.17264v3 ) ライセンス: Link先を確認 | Bruno Bertini, Katja Klobas, Vincenzo Alba, Gianluca Lagnese, and Pasquale Calabrese | (参考訳) R'enyi エントロピーは概念的に価値があり、実験的に関連するフォン・ノイマン絡みエントロピーの一般化である。
クリーンな量子多体系における量子クエンチの後、時間内に普遍的な線形成長を示し、飽和する。
有限サブシステムは、エンタングルメントが飽和するときに本質的に局所平衡であるが、成長相において真に非平衡である。
特に、成長の傾斜はシステムの力学の性質に関する重要な情報を持ち、その特徴付けは現在の研究の重要な目的である。
ここでは、R'enyiエントロピーの傾きは時空双対変換によって決定できることを示す。
本質的には、勾配は空間と時間の役割を交換することによって得られるモデルのエントロピーの定常密度と一致すると論じる。
したがって、非常に驚くべきことに、絡み合いの傾斜は平衡量として表される。
この観測を用いて、熱力学ベテ・アンザッツにより処理され、可積分初期状態から進化する全ての可積分モデルにおいて、R\'enyiエントロピーの傾きの明確な公式を求める。
興味深いことに、この公式はフォン・ノイマン極限においてのみ準粒子像として理解することができる。 R\'enyi entropies are conceptually valuable and experimentally relevant generalisations of the celebrated von Neumann entanglement entropy. After a quantum quench in a clean quantum many-body system they generically display a universal linear growth in time followed by saturation. While a finite subsystem is essentially at local equilibrium when the entanglement saturates, it is genuinely out-of-equilibrium in the growth phase. In particular, the slope of the growth carries vital information on the nature of the system's dynamics, and its characterisation is a key objective of current research. Here we show that the slope of R\'enyi entropies can be determined by means of a spacetime duality transformation. In essence, we argue that the slope coincides with the stationary density of entropy of the model obtained by exchanging the roles of space and time. Therefore, very surprisingly, the slope of the entanglement is expressed as an equilibrium quantity. We use this observation to find an explicit exact formula for the slope of R\'enyi entropies in all integrable models treatable by thermodynamic Bethe ansatz and evolving from integrable initial states. Interestingly, this formula can be understood in terms of a quasiparticle picture only in the von Neumann limit. | 翻訳日:2023-02-20 04:42:46 公開日:2022-08-03 |
# TCM-SD:自然言語処理によるプロビッシングシンドローム判別のためのベンチマーク TCM-SD: A Benchmark for Probing Syndrome Differentiation via Natural Language Processing ( http://arxiv.org/abs/2203.10839v2 ) ライセンス: Link先を確認 | Mucheng Ren, Heyan Huang, Yuxiang Zhou, Qianwen Cao, Yuan Bu, Yang Gao | (参考訳) 伝統的な中国医学(TCM)は自然で安全で効果的な治療法であり、世界中で普及し応用されている。
ユニークなTCM診断・治療システムは、患者の症状を、無料のテキストで書かれた臨床記録に隠した包括的分析を必要とする。
従来の研究では、自然言語処理(NLP)のような人工知能(AI)技術を用いて、このシステムが情報化およびインテリジェント化可能であることが示されている。
しかし、既存のデータセットは、TCMにおけるデータ駆動AI技術のさらなる開発を支援するのに十分な品質や量ではない。
そこで本研究では,TCM診断・治療システム(SD)の中核となる課題に焦点をあて,TCM-SDと呼ばれるSDのための最初の大規模データセットを紹介する。
本データセットは,148症例を対象とした実世界の臨床記録54,152例を含む。
さらに,TCMの分野において,大規模未ラベルテキストコーパスを収集し,ZY-BERTと呼ばれるドメイン固有の事前学習言語モデルを提案する。
我々は、ディープニューラルネットワークを用いて、強力なパフォーマンスベースラインを確立する実験を行い、SDにおける様々な課題を明らかにし、ドメイン固有の事前訓練言語モデルの可能性を証明した。
計算機科学と言語学の知識を組み込んでtcm理論の実証的妥当性を探求する機会を明らかにする。 Traditional Chinese Medicine (TCM) is a natural, safe, and effective therapy that has spread and been applied worldwide. The unique TCM diagnosis and treatment system requires a comprehensive analysis of a patient's symptoms hidden in the clinical record written in free text. Prior studies have shown that this system can be informationized and intelligentized with the aid of artificial intelligence (AI) technology, such as natural language processing (NLP). However, existing datasets are not of sufficient quality nor quantity to support the further development of data-driven AI technology in TCM. Therefore, in this paper, we focus on the core task of the TCM diagnosis and treatment system -- syndrome differentiation (SD) -- and we introduce the first public large-scale dataset for SD, called TCM-SD. Our dataset contains 54,152 real-world clinical records covering 148 syndromes. Furthermore, we collect a large-scale unlabelled textual corpus in the field of TCM and propose a domain-specific pre-trained language model, called ZY-BERT. We conducted experiments using deep neural networks to establish a strong performance baseline, reveal various challenges in SD, and prove the potential of domain-specific pre-trained language model. Our study and analysis reveal opportunities for incorporating computer science and linguistics knowledge to explore the empirical validity of TCM theories. | 翻訳日:2023-02-19 15:45:57 公開日:2022-08-03 |
# 水はどこへ?
多目的意思決定に基づく水資源配分手法 Water Goes Where? A Water Resource Allocation Method Based on Multi-Objective Decision-Making ( http://arxiv.org/abs/2208.04138v1 ) ライセンス: Link先を確認 | Tongyue Shi, Siyu Tao and Haining Wang | (参考訳) 長い間、水力発電と水力発電は比較的重要な資源である。
その合理分布は地域農業、産業、住民などと密接に関連している。
本稿では,コロラド川流域におけるグレンキャニオンダムとフーバーダムの配分計画の問題点について考察する。
様々な要因を考慮した最適スケジューリングを実現するモデルを構築した。
まず,異なる水位に対して異なる分布法を得ることができる水戦略決定モデルを提案する。
また,2つのダムを直列に連結し,それらの結合効果を考察し,この部分をメインモデルに統合する。
第2に,水と発電の割り当ての3つの基準,すなわち経済的,社会的,環境的利益を提案する。
社会的な利益は主に農業、工業、住民のための水と電気の不足である。
この多目的計画では,全水量に一定の制約を課し,多目的アリコロニー遺伝的アルゴリズムを用いてモデル解き,最後に,2つの湖の現在の貯水容量を入力し,年間5つの州への水供給を導出する。
第3に,5つの状態の位置と開発特性に基づいて,地理的産業特性の優先順位に基づく水スケジューリングモデルを得る。
第4に、このモデルを産業、農業、住宅および発電水需要の4次元空間と見なすことができる。
多次元空間の部分微分計算式を用いて結果を得ることができる。
最後に,モデルの感度を分析し,モデルの適応性が強く,普及しやすいことを示す。
さらに,モデルの利点と欠点についても論じる。 For a long time, water and hydroelectric power are relatively important resources. Their rational distribution is closely related to regional agriculture, industry, residents, etc. In this paper, we mainly study the problem of allocation scheme for Glen Canyon Dam and Hoover Dam in the Colorado River Basin. Taking into consideration of various factors, we build models to achieve optimal scheduling. Firstly, we propose the Water Strategy Decision Model, which can obtain different distribution methods for the different water levels. Also, we connect the two dams in series to consider the coupling effect between them and integrate this part into the main model. Secondly, we propose three criteria of allocation for water and power generation, namely, economic, social, and environmental benefits. Social benefits mainly include the minimum shortage of water and electricity for agriculture, industry, and residents. For this multi-objective plan, the model is solved using a multi-objective ant colony genetic algorithm under the constraint of constant total water volume, and finally, the current reservoir capacities of the two lakes are input to derive the annual water supply to the five states. Thirdly, based on the location and development characteristics of the five states, we obtain a water scheduling model based on the priority of geographic-industry characteristics. Fourthly, we can regard the model as a four-dimensional space of industrial, agricultural, residential and power generation water demand. The partial derivative calculation formula of multi-dimensional space can be used to obtain the results. Finally, we analyze the sensitivity of the model, and it shows that the model has strong adaptability and is easier to popularize. Moreover, we discuss the advantages and disadvantages of the models. | 翻訳日:2023-02-19 10:23:58 公開日:2022-08-03 |
# 性別分類は仮想人間の知覚に影響を及ぼすか? Can gender categorization influence the perception of animated virtual humans? ( http://arxiv.org/abs/2208.02386v1 ) ライセンス: Link先を確認 | V. Araujo, D. Schaffer, A. B. Costa, S. R. Musse | (参考訳) アニメーションはコンピュータグラフィックス(cg)の進化とともにますます現実的になりつつある。
特に、人間のモデルや行動は、しばしば高レベルのリアリズムを持つアニメーション仮想人間によって表現された。
特に、性別は人間の識別に関連する特徴であり、特定の性別に割り当てられた仮想人間は、一般に、デザイナーが望むようにユーザーによって理解するために、運動、衣服、髪、色を通してステレオタイプされた表現を持つ。
重要な研究分野は、仮想人間の視覚提示方法によって参加者の知覚が変化するかどうかを見極めることである。
この領域の発見は、仮想人間のモデリングとアニメーションをガイドして、期待される影響を聴衆に届けるのに役立つ。
本稿では,シミュレーションされた赤ちゃんに対する性差を評価するための知覚的研究であるCGを通して再現する。
元の研究では、2人のグループは同じ刺激に反応する赤ちゃんの同じビデオを見たが、一方のグループは赤ちゃんが女性であることを伝え、もう一方のグループは同じ赤ちゃんが男性であることを伝え、異なる知覚を生み出した。
仮想赤ちゃんに対する研究の結果は、実際の赤ちゃんの調査結果と似ていた。
まず、人格の性別属性によって人の感情的反応が変化していることを示し、この場合の唯一の違いは赤ちゃんの名前である。
我々の研究は、仮想人間の名前を伝えるだけで、感情的な答えに影響を及ぼす性別の知覚を生み出すことができることを示唆している。 Animations have become increasingly realistic with the evolution of Computer Graphics (CG). In particular, human models and behaviors were represented through animated virtual humans, sometimes with a high level of realism. In particular, gender is a characteristic that is related to human identification, so that virtual humans assigned to a specific gender have, in general, stereotyped representations through movements, clothes, hair and colors, in order to be understood by users as desired by designers. An important area of study is finding out whether participants' perceptions change depending on how a virtual human is visually presented. Findings in this area can help the industry to guide the modeling and animation of virtual humans to deliver the expected impact to the audience. In this paper, we reproduce, through CG, a perceptual study that aims to assess gender bias in relation to a simulated baby. In the original study, two groups of people watched the same video of a baby reacting to the same stimuli, but one group was told the baby was female and the other group was told the same baby was male, producing different perceptions. The results of our study with virtual babies were similar to the findings with real babies. First, it shows that people's emotional response change depending on the character gender attribute, in this case the only difference was the baby's name. Our research indicates that by just informing the name of a virtual human can be enough to create a gender perception that impact the participant emotional answer. | 翻訳日:2023-02-19 10:19:04 公開日:2022-08-03 |
# 安価医療法リスク移転支払いの実証的特徴 Empirical Characteristics of Affordable Care Act Risk Transfer Payments ( http://arxiv.org/abs/2208.02372v1 ) ライセンス: Link先を確認 | Grace Guan, Mark Braverman | (参考訳) 安価医療法(aca)では、保険業者は医療引受に携わることができないため、リスク選択に従事し、低価値の患者が計画に参加することを妨げようとする逆のインセンティブに直面する。
リスク選択の効果を減らすことを目的としたACAプログラムは、リスク調整である。
リスク調整プログラムでは、健康な加入者が少ない保険会社は、健康な加入者を持つ保険会社からリスク移行支払いを受ける。
私たちのゴールは、リスク伝達を駆動する要素を理解することです。
まず、リスク伝達の分布は、健康状態に悪影響を及ぼす予測不可能な事象であるランダムな健康ショックに基づいているべきである。
第二に、リスク転送は、特定の患者を惹きつける計画、キャリアがリスク選択に関与する程度、そしてコードアップの度合いなど、保険会社固有の要因に影響される可能性がある。
私たちはCenters for Medicare and Medicaid Servicesデータを使用して、2014-2017年給付の保険会社のリスク転送支払い、コスト、プレミアムを含む、公開データセットを作成します。
このデータセットを用いて,ACAリスク転送式で測定されたリスク選択の欠如と,リスク転送支払いの実証的な分布は一致しないことがわかった。
我々のデータセットに含まれる全ての状態において、転送量の60%以上は純粋に通常のモデルでは説明できない。
リスクトランスファー支払いは、人口の健康現象を反映したランダムなショックによってのみ引き起こされる可能性が極めて低いため、我々の研究は、リスクトランスファーにおける不均一性の原因に関する重要な疑問を提起する。 Under the Affordable Care Act (ACA), insurers cannot engage in medical underwriting and thus face perverse incentives to engage in risk selection and discourage low-value patients from enrolling in their plans. One ACA program intended to reduce the effects of risk selection is risk adjustment. Under a risk adjustment program, insurers with less healthy enrollees receive risk transfer payments from insurers with healthier enrollees. Our goal is to understand the elements driving risk transfers. First, the distribution of risk transfers should be based on random health shocks, which are unpredictable events that negatively affect health status. Second, risk transfers could be influenced by factors unique to each insurer, such as certain plans attracting certain patients, the extent to which carriers engage in risk selection, and the degree of upcoding. We create a publicly available dataset using Centers for Medicare and Medicaid Services data that includes insurer risk transfer payments, costs, and premiums for the 2014-2017 benefit years. Using this dataset, we find that the empirical distribution of risk transfer payments is not consistent with the lack of risk selection as measured by the ACA risk transfer formula. Over all states included in our dataset, at least 60% of the volume of transfers cannot be accounted for by a purely normal model. Because we find that it is very unlikely that risk transfer payments are caused solely by random shocks that reflect health events of the population, our work raises important questions about the causes of heterogeneity in risk transfers. | 翻訳日:2023-02-19 10:18:40 公開日:2022-08-03 |
# サプライチェーンにおけるサイバーセキュリティリスクの特定と管理のためのグローバルアプローチの対比 Contrasting global approaches for identifying and managing cybersecurity risks in supply chains ( http://arxiv.org/abs/2208.02244v1 ) ライセンス: Link先を確認 | Colin Topping, Ola Michalec, Awais Rashid | (参考訳) サプライチェーンはますます脅威アクターの標的になっている。
最近の分類法を用いて、我々は各国当局が与えた様々な詳細レベルを対比する。
脅威は一般に認識されるが、ガイダンスは一致しない。
NIST SP 800-161は分類と密接に一致し、共通の原則のセットへの潜在的経路を提供する。 Supply chains are increasingly targeted by threat actors. Using a recent taxonomy, we contrast the diverse levels of detail given by national authorities. The threat is commonly acknowledged, but guidance is disjointed. NIST SP 800-161 aligns closely with the taxonomy and offers a potential pathway towards a common set of principles. | 翻訳日:2023-02-19 10:18:13 公開日:2022-08-03 |
# 速さか正確か?
自動運転車の衝突目標を乗り越える Fast or Accurate? Governing Conflicting Goals in Highly Autonomous Vehicles ( http://arxiv.org/abs/2208.02056v1 ) ライセンス: Link先を確認 | A. Feder Cooper and Karen Levy | (参考訳) 自動運転車(avs)の展開をめぐる大きな興奮は、その約束から来ている。
事故の減少に加えて、avは障害者、高齢者、低所得者に対して、手頃で、アクセス可能で、広範囲な移動手段を提供することで、人間の自律性の新たな時代を導くことを計画されている。
しかし、この約束を実現するためには、avがデプロイメントに安全であることを保証することと、そのメリットを脅かすav技術が生み出すリスクに対抗する必要がある。
本条では,現在法文学において未検討のAV工学の側面に着目し,安全性,説明責任,責任,権力に重要な意味を持つ。
具体的には,avシステム固有の不確実性とリスクを規制するためには,avの精度と速度の基本的なエンジニアリングトレードオフを理解することが重要であることを述べる。
トレードオフの理解が、政策立案者によるトレードオフの実施方法の評価を可能にするツールの開発にどのように役立つかについて議論する。
このようなツールは、事故発生後の説明責任決定を後押しする、具体的なAV安全基準や決定的なメカニズムの開発を促進する。
これにより、効率的な規制の促進、トルト回復の障壁の低減、安全や説明責任といった公共の価値観の適切なバランスを確保することで、製造業者から公共へのパワーバランスをシフトする。 The tremendous excitement around the deployment of autonomous vehicles (AVs) comes from their purported promise. In addition to decreasing accidents, AVs are projected to usher in a new era of equity in human autonomy by providing affordable, accessible, and widespread mobility for disabled, elderly, and low-income populations. However, to realize this promise, it is necessary to ensure that AVs are safe for deployment, and to contend with the risks AV technology poses, which threaten to eclipse its benefits. In this Article, we focus on an aspect of AV engineering currently unexamined in the legal literature, but with critical implications for safety, accountability, liability, and power. Specifically, we explain how understanding the fundamental engineering trade-off between accuracy and speed in AVs is critical for policymakers to regulate the uncertainty and risk inherent in AV systems. We discuss how understanding the trade-off will help create tools that will enable policymakers to assess how the trade-off is being implemented. Such tools will facilitate opportunities for developing concrete, ex ante AV safety standards and conclusive mechanisms for ex post determination of accountability after accidents occur. This will shift the balance of power from manufacturers to the public by facilitating effective regulation, reducing barriers to tort recovery, and ensuring that public values like safety and accountability are appropriately balanced. | 翻訳日:2023-02-19 10:18:08 公開日:2022-08-03 |
# 相互情報スコアリング:カテゴリークラスタリング課題における解釈可能性の向上と児童福祉データへの応用 Mutual Information Scoring: Increasing Interpretability in Categorical Clustering Tasks with Applications to Child Welfare Data ( http://arxiv.org/abs/2208.01802v1 ) ライセンス: Link先を確認 | Pranav Sankhe, Seventy F. Hall, Melanie Sage, Maria Y. Rodriquez, Varun Chandola, Kenneth Joseph | (参考訳) アメリカの養育制度の若者は、ホームレスから投獄まで、多くの否定的な人生の結果に直面している仲間よりもはるかに高い確率で存在している。
これらの若者の行政データには、より良い生活への道のりを改善する方法を見つけるのに役立つ洞察を提供する可能性がある。
しかし、そのようなデータは、欠落データから体系的不平等の反映まで、様々なバイアスに悩まされる。
本研究では、これらのデータを用いて、データバイアスと、追跡するシステムと若者の両方に関する洞察を提供する新しい規範的アプローチを提案する。
具体的には,青少年の養育に関する既存のデータの微妙なバイアスに対する洞察を得ることを可能にする新たなカテゴリクラスタリングとクラスタ要約手法を開発し,青少年を支援する潜在的な方法を特定するために,さらなる(しばしば質的)研究が必要となる場所に関する洞察を提供する。 Youth in the American foster care system are significantly more likely than their peers to face a number of negative life outcomes, from homelessness to incarceration. Administrative data on these youth have the potential to provide insights that can help identify ways to improve their path towards a better life. However, such data also suffer from a variety of biases, from missing data to reflections of systemic inequality. The present work proposes a novel, prescriptive approach to using these data to provide insights about both data biases and the systems and youth they track. Specifically, we develop a novel categorical clustering and cluster summarization methodology that allows us to gain insights into subtle biases in existing data on foster youth, and to provide insight into where further (often qualitative) research is needed to identify potential ways of assisting youth. | 翻訳日:2023-02-19 10:17:27 公開日:2022-08-03 |
# ガウス過程による雑音VQE最適化の高速化 Accelerating Noisy VQE Optimization with Gaussian Processes ( http://arxiv.org/abs/2204.07331v3 ) ライセンス: Link先を確認 | Juliane Mueller, Wim Lavrijsen, Costin Iancu, Wibe de Jong | (参考訳) 古典的なオプティマイザと量子チップの評価を組み合わせたハイブリッド変分量子アルゴリズムは、現在のノイズの多い中間スケール量子(NISQ)デバイスで量子優位を示す最も有望な候補である。
従来のオプティマイザは、目的関数評価においてノイズが存在する場合、あるいはアルゴリズムの最も弱いリンクとなる場合、適切に動作する必要がある。
本稿では,ガウス過程(GP)をサロゲートモデルとして用い,騒音の影響を低減し,局所最小値から逃れるために高品質な種子を提供する。
我々はこれを局所最適化を基盤としたフレームワークとして構築し,本研究では暗黙的フィルタリング(imfil)を選択する。
ImFilは最先端で勾配のない手法であり、比較研究ではノイズの多いVQE問題よりも優れていることが示されている。
結果は新しい方法であるgp+imfilである。
ノイズが存在する場合、GP+ImFilアプローチはスタンドアローンImFilよりもより少ない評価で真の大域最小値に近づき、特に大きな次元問題に対して有効であることを示す。
gpを使ってマルチモーダルなランドスケープにローカル検索をシードすることは、様々な結果を示している:imfilでは改善できるが、一貫性がなく、リソースが制限されている場合、他のより徹底的なマルチスタートメソッドよりも好まれるだけである。 Hybrid variational quantum algorithms, which combine a classical optimizer with evaluations on a quantum chip, are the most promising candidates to show quantum advantage on current noisy, intermediate-scale quantum (NISQ) devices. The classical optimizer is required to perform well in the presence of noise in the objective function evaluations, or else it becomes the weakest link in the algorithm. We introduce the use of Gaussian Processes (GP) as surrogate models to reduce the impact of noise and to provide high quality seeds to escape local minima, whether real or noise-induced. We build this as a framework on top of local optimizations, for which we choose Implicit Filtering (ImFil) in this study. ImFil is a state-of-the-art, gradient-free method, which in comparative studies has been shown to outperform on noisy VQE problems. The result is a new method: "GP+ImFil". We show that when noise is present, the GP+ImFil approach finds results closer to the true global minimum in fewer evaluations than standalone ImFil, and that it works particularly well for larger dimensional problems. Using GP to seed local searches in a multi-modal landscape shows mixed results: although it is capable of improving on ImFil standalone, it does not do so consistently and would only be preferred over other, more exhaustive, multistart methods if resources are constrained. | 翻訳日:2023-02-16 21:46:38 公開日:2022-08-03 |
# 固体ネオン表面上の電子スピンコヒーレンス Electron spin coherence on a solid neon surface ( http://arxiv.org/abs/2205.00589v3 ) ライセンス: Link先を確認 | Qianfan Chen, Ivar Martin, Liang Jiang, Dafei Jin | (参考訳) 凝縮した希ガス液体や固体の表面に浮かぶ単一の電子は、そのような系の異常な純度のおかげで、超長いコヒーレンス時間でスピンクビットとして振る舞うことができる。
これまでの研究では、超流動ヘリウム表面の電子スピンコヒーレンス時間が100秒を超えることが示唆された。
本稿では, 固体ネオン表面における電子スピンコヒーレンスの理論的研究について述べる。
本研究のスピンデコヒーレンス機構は, 熱フォノンによるネロンの磁化率の変動, 通常の金属電極における熱電流の変動, および$^{21}$Neアンサンブルの準静電的核スピンの変動などである。
完全超伝導装置の典型的な実験温度では、電子スピンデコヒーレンスは電子-スピン相互作用による第3のメカニズムによって支配される。
2700 ppm の $^{21}$Ne を持つ自然ネの場合、推定不均一な退化時間 $T_{2}^{*}$ は約 0.16 ms であり、多くの半導体量子ドットスピン量子ビットよりも既に良い。
商業的に利用可能なneは、1ppmの$^{21}$ne、$t_{2}^{*}$が0.43$ sである。
ハーンエコーの適用により、コヒーレンス時間$T_{2}$は天然のNeに対して$30$ms、精製されたNeに対しては$81$sに改善できる。
したがって、固体Ne上の単一電子スピン量子ビットは、期待できる新しいスピン量子ビットとして機能する。 A single electron floating on the surface of a condensed noble-gas liquid or solid can act as a spin qubit with ultralong coherence time, thanks to the extraordinary purity of such systems. Previous studies suggest that the electron spin coherence time on a superfluid helium (He) surface can exceed 100 s. In this paper, we present theoretical studies of the electron spin coherence on a solid neon (Ne) surface, motivated by our recent experimental realization of single-electron charge qubit on solid Ne. The major spin decoherence mechanisms investigated include the fluctuating Ne diamagnetic susceptibility due to thermal phonons, the fluctuating thermal current in normal metal electrodes, and the quasi-statically fluctuating nuclear spins of the $^{21}$Ne ensemble. We find that at a typical experimental temperature about 10 mK in a fully superconducting device, the electron spin decoherence is dominated by the third mechanism via electron-nuclear spin-spin interaction. For natural Ne with 2700 ppm abundance of $^{21}$Ne, the estimated inhomogeneous dephasing time $T_{2}^{*}$ is around 0.16 ms, already better than most semiconductor quantum-dot spin qubits. For commercially available, isotopically purified Ne with 1 ppm of $^{21}$Ne, $T_{2}^{*}$ can be $0.43$ s. Under the application of Hahn echoes, the coherence time $T_{2}$ can be improved to $30$ ms for natural Ne and $81$ s for purified Ne. Therefore, the single-electron spin qubits on solid Ne can serve as promising new spin qubits. | 翻訳日:2023-02-14 20:54:58 公開日:2022-08-03 |
# 量子ジャンプ軌道からの非断熱遷移経路 Nonadiabatic transition paths from quantum jump trajectories ( http://arxiv.org/abs/2206.04018v2 ) ライセンス: Link先を確認 | Michelle C. Anderson, Addison J. Schile, David T. Limmer | (参考訳) 本稿では、遷移経路理論と量子ジャンプ軌道のアンサンブルを用いたオープン量子系の希少反応経路の研究を行う。
このアプローチは、システムがマルコフ環境に埋め込まれているとき、散逸的、非断熱的ダイナミクスのための反応性経路の解明を可能にする。
円錐交叉の最小モデルにおいて,熱活性化過程の支配的経路と速度,および垂直励起後の緩和経路と光yieldについて詳述する。
熱障壁交差イベントに対するコミッタ関数の一般化によって定義されるように、円錐交叉の幾何学が遷移状態の電子的特性に影響を与えることが分かる。
同様に、幾何学は垂直励起の後に緩和のメカニズムを変える。
小さなダイアバティックカップリングから生じるモデルの緩和は純粋なデファスによって支配される経路を進み、大きなダイアバティックカップリングを持つものは散逸によって制限された経路を進む。
ここで導入された開量子系の非断熱力学の観点は、古典的な反応経路の概念を量子力学的プロセスへ一般化する。 We present a means of studying rare reactive pathways in open quantum systems using Transition Path Theory and ensembles of quantum jump trajectories. This approach allows for elucidation of reactive paths for dissipative, nonadiabatic dynamics when the system is embedded in a Markovian environment. We detail the dominant pathways and rates of thermally activated processes, as well as the relaxation pathways and photoyields following vertical excitation in a minimal model of a conical intersection. We find that the geometry of the conical intersection affects the electronic character of the transition state, as defined through a generalization of a committor function for a thermal barrier crossing event. Similarly, the geometry changes the mechanism of relaxation following a vertical excitation. Relaxation in models resulting from small diabatic coupling proceed through pathways dominated by pure dephasing, while those with large diabatic coupling proceed through pathways limited by dissipation. The perspective introduced here for the nonadiabatic dynamics of open quantum systems generalizes classical notions of reactive paths to fundamentally quantum mechanical processes. | 翻訳日:2023-02-10 04:10:13 公開日:2022-08-03 |
# 中性子の重力束縛量子状態における質量エネルギー同値 Mass-energy equivalence in gravitationally bound quantum states of the neutron ( http://arxiv.org/abs/2206.08769v3 ) ライセンス: Link先を確認 | Germain Tobar, Simon Haine, Fabio Costa and Magdalena Zych | (参考訳) 重力に束縛された中性子は、ニュートンの力の修正やダークマター粒子の候補など、新しい物理学の実験的な探索において重要な道具となっている。
ここでは、質量エネルギー同値の相対論的効果を重力結合中性子のモデルに含める。
具体的には、外部磁場の存在による重力結合中性子のハミルトニアンの補正について検討する。
我々は、中性子の質量-エネルギー等価性による余剰重量が中性子の固有エネルギーと固有状態のわずかな変化を引き起こすことを示し、この相対論的補正が中性子を捕捉した実験にどのように影響するかを検証した。
さらに, 先行周波数に対する相対論的補正を推定する際の究極の精度を考察し, スピンと運動の両自由度を短時間で共同で測定することで, スピンのみの測定と比較して, メトロロジー的な拡張が得られることを見出した。 Gravitationally bound neutrons have become an important tool in the experimental searches for new physics, such as modifications to Newton's force or candidates for dark matter particles. Here we include the relativistic effects of mass-energy equivalence into the model of gravitationally bound neutrons. Specifically, we investigate a correction in a gravitationally bound neutron's Hamiltonian due to the presence of an external magnetic field. We show that the neutron's additional weight due to mass-energy equivalence will cause a small shift in the neutron's eigenenergies and eigenstates, and examine how this relativistic correction would affect experiments with trapped neutrons. We further consider the ultimate precision in estimating the relativistic correction to the precession frequency and find that, at short times, a joint measurement of both the spin and motional degrees of freedom provides a metrological enhancement as compared to a measurement of the spin alone. | 翻訳日:2023-02-09 01:59:26 公開日:2022-08-03 |
# The many-Worlds Calculus The Many-Worlds Calculus ( http://arxiv.org/abs/2206.10234v2 ) ライセンス: Link先を確認 | Kostia Chardonnet, Marc de Visme, Beno\^it Valiron, Renaud Vilmart | (参考訳) 双積を持つコンパクトなカテゴリに基づく量子計算のための新しい型付きグラフィカル言語を提案する。
我々の言語は、ZX計算や量子回路といった既存のアプローチを一般化し、量子制御をサポートする自然なフレームワークを提供する。
この言語には、線形応用に基づく表記意味論と方程式理論が備わっている。
図形の正規形式を用いることで、言語が普遍的であること、および方程式理論が意味論に関して完備であることを証明する。 We propose a new typed graphical language for quantum computation, based on compact categories with biproducts. Our language generalizes existing approaches such as ZX-calculus and quantum circuits, while offering a natural framework to support quantum control: it natively supports "quantum tests". The language comes equipped with a denotational semantics based on linear applications, and an equational theory. Through the use of normal forms for the diagrams, we prove the language to be universal, and the equational theory to be complete with respect to the semantics. | 翻訳日:2023-02-08 12:51:05 公開日:2022-08-03 |
# ZX-ダイアグラムの相互作用の幾何学 Geometry of Interaction for ZX-Diagrams ( http://arxiv.org/abs/2206.10916v2 ) ライセンス: Link先を確認 | Kostia Chardonnet, Beno\^it Valiron, Renaud Vilmart | (参考訳) zx-calculusは、方程式理論を備えた量子計算のための多彩なグラフィカル言語である。
本稿では、相互作用幾何学からインスピレーションを得て、純粋なZX-Calculusのトークンマシンに基づく非同期モデルと混合プロセスの拡張を提案する。
また、この新たな意味論をZX-ダイアグラムの通常の標準解釈に結びつける方法についても示す。
このモデルにより、ZX-ダイアグラムの計算対象を新たに把握し、ZX-ダイアグラムのセマンティクスをより局所的かつ運用的に把握することができる。 ZX-Calculus is a versatile graphical language for quantum computation equipped with an equational theory. Getting inspiration from Geometry of Interaction, in this paper we propose a token-machine-based asynchronous model of both pure ZX-Calculus and its extension to mixed processes. We also show how to connect this new semantics to the usual standard interpretation of ZX-diagrams. This model allows us to have a new look at what ZX-diagrams compute, and give a more local, operational view of the semantics of ZX-diagrams. | 翻訳日:2023-02-08 09:54:42 公開日:2022-08-03 |
# 非ユニタリボソンサンプリングダイナミクスにおける複雑度遷移 Complexity Transitions in Non-Unitary Boson Sampling Dynamics ( http://arxiv.org/abs/2207.12624v3 ) ライセンス: Link先を確認 | Ken Mochizuki, Ryusuke Hamazaki | (参考訳) 我々は、パリティ時間 (\mathcal{pt}$) 対称性を持つボソンの非ユニタリダイナミクスにおける計算複雑性によって特徴づけられる新しい遷移を見つける。
非エルミート開システムにおける一意な遷移であるパリティ時間(\mathcal{pt}$)対称性の破れは、ボソンの確率分布をサンプリングする複雑さに大きな影響を及ぼす。
対称位相の$\mathcal{pt}$-symmetric では、ボソンの分布が識別可能な粒子に対して計算可能なものによって近似されなくなるような1つの動的遷移のみを見つける。
システムが$\mathcal{PT}$-breakken フェーズに入ると、遷移のしきい値時間が突然長くなる。
さらにこの相は、ボソン分布が再び計算可能となるより長い時間スケールで注目すべき動的遷移を示す。
この遷移、そして従って長い間ボソンサンプリング問題の容易性は、一般選択された非単項量子力学に当てはまる。 We discover novel transitions characterized by computational complexity in non-unitary dynamics of bosons with parity-time ($\mathcal{PT}$) symmetry. We show that parity-time ($\mathcal{PT}$) symmetry breaking, a unique transition in non-Hermitian open systems, profoundly affects the complexity of sampling the probability distribution of bosons. In a $\mathcal{PT}$-symmetric phase, we find only one dynamical transition, upon which the distribution of bosons ceases to be approximated by a computable one for distinguishable particles. If the system enters a $\mathcal{PT}$-broken phase, the threshold time for the transition is suddenly prolonged. Furthermore, this phase also exhibits a notable dynamical transition on a longer time scale, at which the boson distribution again becomes computable. This transition, and hence the easiness of the boson sampling problem in long times, are true for generic postselected non-unitary quantum dynamics. | 翻訳日:2023-02-03 17:15:58 公開日:2022-08-03 |
# 電界に結合したディラック・ハミルトニアンと等価なエネルギー分離型ハミルトニアンユニタリへの流れ方程式のアプローチ A Flow Equation Approach Striving Towards an Energy-Separating Hamiltonian Unitary Equivalent to the Dirac Hamiltonian with Coupling to Electromagnetic Fields ( http://arxiv.org/abs/2207.12825v2 ) ライセンス: Link先を確認 | N. Schopohl and N. S. Cetin | (参考訳) 相対論的荷電フェルミオンに対するディラック・ハミルトンの$H^{\left(D\right)}$は、(おそらく時間依存の)電磁場に最小結合された(おそらくは)目的のフロー方程式法で変換されるので、その変換の結果は$H^{\left(D\right)}$と同値となり、制限値$H^{\left(NW\right)}$Drac $\beta$-matrixで可換化される。
H^{\left(NW\right)}$を次数$\frac{v^2}{c^2}$に拡張すると、非相対論的ハミルトニアン $H^{\left(SP\right)}$ of Schr\"odinger-Pauli 量子力学は、残りのエネルギー $mc^2$ を加算する主次項として現れる。
h^{\left(sp\right)}$ に対する相対論的補正は、マグヌス級数展開の図式において明示的に考慮され、反復交換子の部分和のみからなる$n\geq2$ に対して$\left(\frac{v^{2}}{c^{2}}\right)^{n}$ の順に生成される級数係数が考慮される。
静的場の特別な場合において、エリクセンのよく知られたエネルギー分離ユニタリ変換を伴うフロー方程式法の等価性は、$\beta$-matrixを$H^{\left(D\right)}$に付随するエネルギー符号作用素に変換する逆流方程式の正確な解に基づいて確立される。
したがって、$H^{\left(NW\right)}=\beta\sqrt{H^{\left(NW\right)} H^{\left(NW\right)}}$は曖昧に決定される$H^{\left(NW\right)$を意味する。 The Dirac Hamiltonian $H^{\left(D\right)}$ for relativistic charged fermions minimally coupled to (possibly time-dependent) electromagnetic fields is transformed with a purpose-built flow equation method, so that the result of that transformation is unitary equivalent to $H^{\left(D\right)}$ and granted to strive towards a limiting value $H^{\left(NW\right)}$ commuting with the Dirac $\beta$-matrix. Upon expansion of $H^{\left(NW\right)}$ to order $\frac{v^2}{c^2}$ the nonrelativistic Hamiltonian $H^{\left(SP\right)}$ of Schr\"odinger-Pauli quantum mechanics emerges as the leading order term adding to the rest energy $mc^2$. All the relativistic corrections to $H^{\left(SP\right)}$ are explicitly taken into account in the guise of a Magnus type series expansion, the series coefficients generated to order $\left(\frac{v^{2}}{c^{2}}\right)^{n}$ for $n\geq2$ comprising partial sums of iterated commutators only. In the special case of static fields the equivalence of the flow equation method with the well known energy-separating unitary transformation of Eriksen is established on the basis of an exact solution of a reverse flow equation transforming the $\beta$-matrix into the energy-sign operator associated with $H^{\left(D\right)}$. That way the identity $H^{\left(NW\right)}=\beta\sqrt{H^{\left(NW\right)}H^{\left(NW\right)}}$ is established implying $H^{\left(NW\right)}$ being determined unambiguously. | 翻訳日:2023-02-03 17:02:17 公開日:2022-08-03 |
# 移動波パラメトリック増幅器における非エルミート位相 Non-Hermitian topological phases in traveling-wave parametric amplifiers ( http://arxiv.org/abs/2207.13715v2 ) ライセンス: Link先を確認 | \'Alvaro G\'omez-Le\'on and Tom\'as Ramos and Alejandro Gonz\'alez-Tudela and Diego Porras | (参考訳) 1次元進行波パラメトリック増幅器における位相増幅現象について検討した。
位相増幅の2つのフェーズがあり、方向輸送と指数関数ゲインはサイト数で、そのうちの1つはスクイーズを特徴としている。
また,0エネルギーモードの位相的自明な位相も見出され,増幅はできるが位相的保護に欠ける。
異なる位相の無秩序に対する弾力性,安定性,利得,雑音対信号比を特徴付ける。
最後に,最新技術による実験実装について述べる。 We study the phenomena of topological amplification in one-dimensional traveling-wave parametric amplifiers. We find two phases of topological amplification, both with directional transport and exponential gain with the number of sites, and one of them featuring squeezing. We also find a topologically trivial phase with zero-energy modes which produces amplification but lacks topological protection. We characterize the resilience to disorder of the different phases, their stability, gain and noise-to-signal ratio. Finally, we discuss their experimental implementation with state-of-the-art techniques. | 翻訳日:2023-02-03 07:40:51 公開日:2022-08-03 |
# 量子エネルギー分配と散逸性反磁性--新しいアプローチ Quantum energy partition and dissipative diamagnetism: A novel approach ( http://arxiv.org/abs/2208.00161v2 ) ライセンス: Link先を確認 | Jasleen Kaur, Aritra Ghosh, Malay Bandyopadhyay | (参考訳) 本稿では、最近提案された量子エネルギー平衡定理と、一様外部磁場の存在下で2次元調和ポテンシャルで移動する荷電粒子によって表される散逸双磁性との間の顕著な関係を実証する。
システムは座標変数によって量子熱浴に結合され、後者は独立した量子発振器の集合としてモデル化される。
完全周波数領域: $\omega \in (-\infty,\infty)$では、平衡磁気モーメント $m_z$ は緩和関数 $\phi(\omega)$ を含む浴スペクトル上の積分として表現することができ、その後、エネルギー同分定理の量子対と振動子の磁気モーメントとの間の実りある関係を提案できる。
我々は、統合ドメインを$\omega \in [0,\infty)$に制限すると現れる別の図について議論する。
これらの極限において、磁気モーメントは、正と負のセグメントに対応する2つの翼を持つ分布関数 $P_M (\omega)$ 上の積分として記述することができる。
高温では、これら2つのコントリビューションは互いに同一にキャンセルされる。
しかし、低温では、キャンセルは不完全であり、非ゼロ磁気モーメントとなる。
より伝統的なギブズアプローチで得られたものとの比較研究を行い、完全な合意を得る。 In this paper, we demonstrate a remarkable connection between the recently proposed quantum energy equipartition theorem and dissipative diamagnetism exhibited by a charged particle moving in a two dimensional harmonic potential in the presence of a uniform external magnetic field. The system is coupled to a quantum heat bath through coordinate variables with the latter being modelled as a collection of independent quantum oscillators. In the full frequency domain: $\omega \in (-\infty,\infty)$, the equilibrium magnetic moment $M_z$ can be expressed as an integral over the bath spectrum involving the relaxation function $\Phi(\omega)$, and subsequently, it is possible to propose a fruitful connection between the quantum counterpart of energy equipartition theorem and magnetic moment of the oscillator. We discuss an alternate picture, which emerges upon restricting the integration domain to $\omega \in [0,\infty)$. In these limits, the magnetic moment can be written as an integral over a distribution function $P_M (\omega)$ which has two wings corresponding to positive and negative segments. At high temperatures, these two contributions identically cancel each other. However, at low temperatures, the cancellation is incomplete resulting in a non-zero diamagnetic moment. A comparative study of the present results with those obtained from the more traditional Gibbs approach is performed and a perfect agreement is obtained. | 翻訳日:2023-02-02 23:54:11 公開日:2022-08-03 |
# イオントラップ量子コンピュータを用いたモード工学による2量子ゲートの実現 Realizing two-qubit gates through mode engineering on a trapped-ion quantum computer ( http://arxiv.org/abs/2208.01584v2 ) ライセンス: Link先を確認 | Ming Li, Nhung H. Nguyen, Alaina M. Green, Jason Amini, Norbert M. Linke, Yunseong Nam | (参考訳) 2量子ビットゲートは量子コンピュータの基本構成要素であり、典型的には最も難しい演算である。
閉じ込められたイオン量子コンピュータでは、通常はレーザービームで実装され、振幅、周波数、位相、あるいはこれらの組み合わせで変調される。
量子コンピュータが大きくなるにつれて、必要な変調はますます複雑になり、制御ハードウェアの設計は複雑になる。
そこで本研究では,イオン鎖の正規モードを設計することにより,パルス変調の複雑さを本質的に除去する簡単な方法を提案する。
3つのイオン鎖で必要なモード工学を実験的に実証する。
これにより、トラップフィールドの設計と、イオントラップ量子コンピューティングプラットフォームをスケールするための光制御システムとの間の複雑さをトレードオフすることが可能になる。 Two-qubit gates are a fundamental constituent of a quantum computer and typically its most challenging operation. In a trapped-ion quantum computer, this is typically implemented with laser beams which are modulated in amplitude, frequency, phase, or a combination of these. The required modulation becomes increasingly more complex as the quantum computer becomes larger, complicating the control hardware design. Here, we develop a simple method to essentially remove the pulse-modulation complexity by engineering the normal modes of the ion chain. We experimentally demonstrate the required mode engineering in a three ion chain. This opens up the possibility to trade off complexity between the design of the trapping fields and the optical control system, which will help scale the ion trap quantum computing platform. | 翻訳日:2023-02-02 14:18:42 公開日:2022-08-03 |
# 5量子ビットコードとカラーコードにフォールトトレラントな絡み合いゲートを実装する Implementing Fault-tolerant Entangling Gates on the Five-qubit Code and the Color Code ( http://arxiv.org/abs/2208.01863v1 ) ライセンス: Link先を確認 | C. Ryan-Anderson, N. C. Brown, M. S. Allman, B. Arkin, G. Asa-Attuah, C. Baldwin, J. Berg, J. G. Bohnet, S. Braxton, N. Burdick, J. P. Campora, A. Chernoguzov, J. Esposito, B. Evans, D. Francois, J. P. Gaebler, T. M. Gatterman, J. Gerber, K. Gilmore, D. Gresh, A. Hall, A. Hankin, J. Hostetter, D. Lucchetti, K. Mayer, J. Myers, B. Neyenhuis, J. Santiago, J. Sedlacek, T. Skripka, A. Slattery, R. P. Stutz, J. Tait, R. Tobey, G. Vittorini, J. Walker, and D. Hayes | (参考訳) 論理量子ビット上のフォールトトレラントエンタングゲートの2つの実装を比較した。
例えば、12量子ビットのトラップイオン量子コンピュータは、2つの5量子ビット符号間の非変換論理cnotゲートを実装するために使用される。
この動作は、フラグ付けや分割可能なフォールトトレランスとして知られる量子誤差補正回路プリミティブを含む、さまざまなフォールトトレランスの度合いで評価される。
第2の例では、2つの[[7,1,3]]カラーコード上の横断的論理cnotゲートを実装するために、20量子ビットのトラップイオン量子コンピュータが使用される。
2つの符号は異なるが類似したデバイスで実装され、どちらの場合も、復号による訂正決定を含む全ての量子エラー補正プリミティブは、量子プロセッサと密に統合された古典的な計算環境を使用して実行中に実装される。
プリミティブの異なる組み合わせでは、ゲートを異なる入力状態に適用した後、論理状態忠実度の測定が行われ、プロセス忠実度の境界が与えられる。
論理XとZ演算子の固有状態を作成するとき, 耐故障SPAM演算は 0.99939(15) と 0.99959(13) であり, 物理X と Z のそれぞれ平均物理量子ビットSPAM 忠実度 0.9968(2) と 0.9970(1) より高い値である。
論理横断型cnotゲートと組み合わせると、色コードは[0.9957,0.9963]でバインドされた平均忠実度で、シーケンス状態準備(cnot, measure out-out-)を実行する。
論理フィデリティ境界は、[0.9850,0.9903]の類似の物理レベルフィデリティ境界よりも高く、2キュービットのSPAM誤差、複数の単一キュービットゲート、2キュービットゲート、ある程度のメモリエラーなどの物理ノイズ源を反映している。 We compare two different implementations of fault-tolerant entangling gates on logical qubits. In one instance, a twelve-qubit trapped-ion quantum computer is used to implement a non-transversal logical CNOT gate between two five qubit codes. The operation is evaluated with varying degrees of fault tolerance, which are provided by including quantum error correction circuit primitives known as flagging and pieceable fault tolerance. In the second instance, a twenty-qubit trapped-ion quantum computer is used to implement a transversal logical CNOT gate on two [[7,1,3]] color codes. The two codes were implemented on different but similar devices, and in both instances, all of the quantum error correction primitives, including the determination of corrections via decoding, are implemented during runtime using a classical compute environment that is tightly integrated with the quantum processor. For different combinations of the primitives, logical state fidelity measurements are made after applying the gate to different input states, providing bounds on the process fidelity. We find the highest fidelity operations with the color code, with the fault-tolerant SPAM operation achieving fidelities of 0.99939(15) and 0.99959(13) when preparing eigenstates of the logical X and Z operators, which is higher than the average physical qubit SPAM fidelities of 0.9968(2) and 0.9970(1) for the physical X and Z bases, respectively. When combined with a logical transversal CNOT gate, we find the color code to perform the sequence--state preparation, CNOT, measure out--with an average fidelity bounded by [0.9957,0.9963]. The logical fidelity bounds are higher than the analogous physical-level fidelity bounds, which we find to be [0.9850,0.9903], reflecting multiple physical noise sources such as SPAM errors for two qubits, several single-qubit gates, a two-qubit gate and some amount of memory error. | 翻訳日:2023-02-02 14:11:39 公開日:2022-08-03 |
# ブロッホベクトル増幅のための非線形および非CPゲート Nonlinear and non-CP gates for Bloch vector amplification ( http://arxiv.org/abs/2208.01804v1 ) ライセンス: Link先を確認 | Michael R. Geller | (参考訳) パウリ基底で書かれ、純粋な状態 r = (0,0,1) で初期化される量子ビットの任意の状態 r = (x,y,z) は、3つの量子演算(ブロッホ球面上の純状態に到達するための2つのユニタリ回転ゲート、次に |r| を減少させる非分極ゲート)を合成することによって作成できる。
本稿では,ブロッホ球の中心で初期化された量子ビットに対する相補的状態準備プロトコル r=0 について, |r| を所望の値に増加または増幅し,次に回転させる。
ブロッホベクトル増幅はクォービットエネルギーを増大させるが、必ずしも純度を高めエントロピーを減少させる。
増幅は、チャネルの固定点を r=0 から遠ざけることで線形マルコフCPTPチャネルで達成できるが、その結果のゲートは固定点に近づくと臨界減速に悩まされる。
ここでは、線形cptpチャネル、すなわち減速のない高速ブロッホベクトル増幅に対する利点を提供する線形および非線形マルコフ型ptpチャネルに基づく代替設計を検討する。
これらのゲートは、キュービットの熱力学的矢印の反転をシミュレートする。 Any state r = (x,y,z) of a qubit, written in the Pauli basis and initialized in the pure state r = (0,0,1), can be prepared by composing three quantum operations: two unitary rotation gates to reach a pure state on the Bloch sphere, followed by a depolarization gate to decrease |r|. Here we discuss the complementary state-preparation protocol for qubits initialized at the center of the Bloch ball, r=0, based on increasing or amplifying |r| to its desired value, then rotating. Bloch vector amplification may or may not increase qubit energy, but it necessarily increases purity and decreases entropy. Amplification can be achieved with a linear Markovian CPTP channel by placing the channel's fixed point away from r=0, making it nonunital, but the resulting gate suffers from a critical slowing down as that fixed point is approached. Here we consider alternative designs based on linear and nonlinear Markovian PTP channels, which offer benefits relative to linear CPTP channels, namely fast Bloch vector amplification without deceleration. These gates simulate a reversal of the thermodynamic arrow of time for the qubit. | 翻訳日:2023-02-02 14:10:54 公開日:2022-08-03 |
# フェルミラブとアルゴンヌ国立研究所の繊維リンクによる光子対のピコ秒同期 Picosecond Synchronization of Photon Pairs through a Fiber Link between Fermilab and Argonne National Laboratories ( http://arxiv.org/abs/2208.01789v1 ) ライセンス: Link先を確認 | Keshav Kapoor, Si Xie, Joaquin Chung, Raju Valivarthi, Cristi\'an Pe\~na, Lautaro Narv\'aez, Neil Sinclair, Jason P. Allmaras, Andrew D. Beyer, Samantha I. Davis, Gabriel Fabre, George Iskander, Gregory S. Kanter, Rajkumar Kettimuthu, Boris Korzh, Prem Kumar, Nikolai Lauk, Andrew Mueller, Matthew Shaw, Panagiotis Spentzouris, Maria Spiropulu, Jordan M. Thomas, and Emma E. Wollman | (参考訳) 我々は,FermiとArgonne National Laboratoriesの2組59kmの展開繊維を用いたCバンド光子対の3ノード量子ネットワークを実証した。
Cバンド対は、標準の通信スイッチを用いてノードに向けられ、共存するOバンドまたはLバンド光クロック分布系を用いてピコ秒スケールのタイミング分解に同期される。
oバンドクロックパルスのラマン散乱により、cバンド対の一致比(car)を51$\pm$2から5.3$\pm$ 0.4に減少させる。
この削減にもかかわらず、この車は量子ネットワークに適している。 We demonstrate a three-node quantum network for C-band photon pairs using 2 pairs of 59 km of deployed fiber between Fermi and Argonne National Laboratories. The C-band pairs are directed to nodes using a standard telecommunication switch and synchronized to picosecond-scale timing resolution using a coexisting O- or L-band optical clock distribution system. We measure a reduction of coincidence-to-accidental ratio (CAR) of the C-band pairs from 51 $\pm$ 2 to 5.3 $\pm$ 0.4 due to Raman scattering of the O-band clock pulses. Despite this reduction, the CAR is nevertheless suitable for quantum networks. | 翻訳日:2023-02-02 14:10:30 公開日:2022-08-03 |
# 量子支援グリーディアルゴリズム Quantum-Assisted Greedy Algorithms ( http://arxiv.org/abs/2208.02042v1 ) ライセンス: Link先を確認 | Ramin Ayanzadeh, John E Dorband, Milton Halem, Tim Finin | (参考訳) 我々は、量子アニール(QA)を利用して、欲求アルゴリズムの候補をよりよく選択する方法を示す。
各段階で局所的に最適な選択を行うために問題固有のヒューリスティックスを用いる従来のグリーディアルゴリズムとは異なり、低温における問題依存ハミルトニアンの基底状態から得られたQAを用いて、問題の変数の確率分布を推定する。
具体的には、Isingモデルの各スピンをランダム変数とみなし、対応する不確実性が無視できる全ての問題変数を収縮する。
d-wave 2000q量子プロセッサを用いた実験結果から,提案する量子支援グリーディアルゴリズム(qaga)は,量子アニーリングの最先端技術と比較して,著しく優れた解を見出すことができることが示された。 We show how to leverage quantum annealers (QAs) to better select candidates in greedy algorithms. Unlike conventional greedy algorithms that employ problem-specific heuristics for making locally optimal choices at each stage, we use QAs that sample from the ground state of problem-dependent Hamiltonians at cryogenic temperatures and use retrieved samples to estimate the probability distribution of problem variables. More specifically, we look at each spin of the Ising model as a random variable and contract all problem variables whose corresponding uncertainties are negligible. Our empirical results on a D-Wave 2000Q quantum processor demonstrate that the proposed quantum-assisted greedy algorithm (QAGA) scheme can find notably better solutions compared to the state-of-the-art techniques in the realm of quantum annealing | 翻訳日:2023-02-02 10:15:35 公開日:2022-08-03 |
# 閾値イオン化ピークの消失と再出現 Disappearance and reappearance of above-threshold-ionization peaks ( http://arxiv.org/abs/2208.02039v1 ) ライセンス: Link先を確認 | Lars Bojer Madsen | (参考訳) レーザー伝搬方向における非双極子放射圧誘起光電子運動量に関連する運動エネルギーが光子エネルギーに匹敵し、光電子運動量の長さと方向の知識が手元にあり、発光指向依存性の運動量シフトが考慮される場合に、上向きのイオン化ピークが消失することを示した。
報告された所見は、強い中赤外レーザーパルスで観察できるはずである。 It is shown that above-threshold ionization peaks disappear when the kinetic energy associated with the nondipole radiation-pressure-induced photoelectron momentum in the laser propagation direction becomes comparable to the photon energy, and how peaks can be made reappear if knowledge of the length and direction of the photoelectron momentum is at hand and an emission-direction-dependent momentum shift is accounted for. The reported findings should be observable with intense mid-infrared laser pulses. | 翻訳日:2023-02-02 10:15:22 公開日:2022-08-03 |
# 量子状態の有限コピーによる高い妥当性の絡み合い検証 High validity entanglement verification with finite copies of a quantum state ( http://arxiv.org/abs/2208.01983v1 ) ライセンス: Link先を確認 | Pawel Cieslinski, Jan Dziewior, Lukas Knips, Waldemar Klobus, Jasmin Meinecke, Tomasz Paterek, Harald Weinfurter, Wieslaw Laskowski | (参考訳) 多成分量子状態の絡み合いの検出は、有限個の測定試料による本質的に確率的過程である。
エンタングルメント検出の信頼性のレベルは、測定された信号が分離可能な状態から来る確率を定量化するために使用され、ビッグデータ集合にとって有意義なメリットの図を提供する。
しかし、サンプルサイズが限られている場合には、実験結果の重大な誤解を避けるために、分離可能な状態が測定された信号を引き起こす確率を考えるだけでなく、信号が絡み合った状態から生じた確率に関する情報を含めるべきである。
本報告では, 極めて限られたデータしか利用できない場合に, 絡み合い検出の包括的手法を提案する。
本手法は相関関数の非線形結合に基づいており,システムサイズに依存しない。
例として、状態の20コピーしか持たない絡み合いを明らかにする設定あたりの最適な測定設定数とクリック数を導出する。 Detecting entanglement of multipartite quantum states is an inherently probabilistic process due to a finite number of measured samples. The level of confidence of entanglement detection can be used to quantify the probability that the measured signal is coming from a separable state and provides a meaningful figure of merit for big data sets. Yet, for limited sample sizes, to avoid serious misinterpretations of the experimental results, one should not only consider the probability that a separable state gave rise to the measured signal, but should also include information about the probability that the signal came from an entangled state. We demonstrate this explicitly and propose a comprehensive method of entanglement detection when only a very limited amount of data is available. The method is based on a non-linear combination of correlation functions and is independent of system size. As an example, we derive the optimal number of measurement settings and clicks per setting revealing entanglement with only 20 copies of a state. | 翻訳日:2023-02-02 10:15:12 公開日:2022-08-03 |
# 量子スイッチとそのシミュレーションとエネルギー的に制約された演算の比較 Comparing the quantum switch and its simulations with energetically-constrained operations ( http://arxiv.org/abs/2208.01952v1 ) ライセンス: Link先を確認 | Marco Fellous-Asiani, Rapha\"el Mothe, L\'ea Bresque, Hippolyte Dourdent, Patrice A. Camati, Alastair A. Abbott, Alexia Auff\`eves and Cyril Branciard | (参考訳) 量子力学はプロセスの重畳を可能にし、真に量子的な因果構造の欠如につながる。
例えば、量子スイッチ (quantum switch) と呼ばれるプロセスは、2つの演算 ${\cal a}$ と ${\cal b}$ を2つの可能な順序の重ね合わせとして適用し、${\cal a}$ と ${\cal b}$ の前に${\cal a}$ を割り当てる。
量子スイッチの実験的な実装は、${\cal a}$ と ${\cal b}$ の操作が1回以上実装されたという理由で、実際に実装するよりも不定因果順序をシミュレートする。
この議論により、量子演算が光-物質相互作用モデルによって物理的に記述される状況を考える。
実装に利用可能なエネルギーを制限すると、「ターゲット」システムと環境との相関関係を作る不完全な操作が代わりに実装され、異なる操作数でプロセスを区別することができる。
このようなエネルギー的に制約されたシナリオを考慮し、量子スイッチを自然シミュレーションの1つと比較し、各操作を2回実施する。
可換vs-反可換ユニタリ識別タスクを考えると、我々のモデルでは、量子スイッチはそのシミュレーションよりも一定のエネルギー量で優れた性能を示すことが分かる。
因果重畳の既知の計算や通信の利点に加えて、我々の研究はそれらの潜在的なエネルギー的優位性に関する新しい疑問を提起する。 Quantum mechanics allows processes to be superposed, leading to a genuinely quantum lack of causal structure. For example, the process known as the quantum switch applies two operations ${\cal A}$ and ${\cal B}$ in a superposition of the two possible orders, ${\cal A}$ before ${\cal B}$ and ${\cal B}$ before ${\cal A}$. Experimental implementations of the quantum switch have been challenged by some on the grounds that the operations ${\cal A}$ and ${\cal B}$ were implemented more than once, thereby simulating indefinite causal order rather than actually implementing it. Motivated by this debate, we consider a situation in which the quantum operations are physically described by a light-matter interaction model. When one restricts the energy available for the implementations, an imperfect operation creating correlations between a "target" system and its environment is implemented instead, allowing one to distinguish processes using different numbers of operations. We consider such an energetically-constrained scenario and compare the quantum switch to one of its natural simulations, where each operation is implemented twice. Considering a commuting-vs-anticommuting unitary discrimination task, we find that within our model the quantum switch performs better, for some fixed amount of energy, than its simulation. In addition to the known computational or communication advantages of causal superpositions, our work raises new questions about their potential energetic advantages. | 翻訳日:2023-02-02 10:14:23 公開日:2022-08-03 |
# 合成はしごにおける光子による相関ホッピング Photon-mediated correlated hopping in a synthetic ladder ( http://arxiv.org/abs/2208.01896v1 ) ライセンス: Link先を確認 | Anjun Chu, Asier Pi\~neiro Orioli, Diego Barberena, James K. Thompson, Ana Maria Rey | (参考訳) 我々は,光学キャビティ内の多レベル原子をツールボックスとして用いて,原子基底状態に分散した合成ラグ内の相関ホッピング過程を特徴とする新しいタイプのボソニックモデルを設計する量子シミュレーションの新しい方向を提案する。
相関ホッピングの原因となるメカニズムは、極端にゆがんだ限界における励起レベルの多様体に着目する集合共役相互作用である。
基底状態レベルを2つのレーザードライブと適切なデチューニングでこれらの状態に弱い結合させることにより、不要な単一粒子と基底状態レベルの集団シフトを抑えながら相関したホッピングプロセスを構築することができる。
ペア生成過程,キラル輸送,光円錐相関拡散など,合成ラダーで実現可能な豊富な多体力学について考察する。
後者は、局所性(locality)の効果的な概念が、完全に集団的な相互作用を持つシステムで設計できることを示す。 We propose a new direction in quantum simulation that uses multilevel atoms in an optical cavity as a toolbox to engineer new types of bosonic models featuring correlated hopping processes in a synthetic ladder spanned by atomic ground states. The underlying mechanisms responsible for correlated hopping are collective cavity-mediated interactions that dress a manifold of excited levels in the far detuned limit. By weakly coupling the ground state levels to these dressed states using two laser drives with appropriate detunings, one can engineer correlated hopping processes while suppressing undesired single-particle and collective shifts of the ground state levels. We discuss the rich many-body dynamics that can be realized in the synthetic ladder including pair production processes, chiral transport and light-cone correlation spreading. The latter illustrates that an effective notion of locality can be engineered in a system with fully collective interactions. | 翻訳日:2023-02-02 10:13:24 公開日:2022-08-03 |
# ソフトコア相互作用によるスピンスクイーズ強化 Enhancing spin squeezing using soft-core interactions ( http://arxiv.org/abs/2208.01869v1 ) ライセンス: Link先を確認 | Jeremy T. Young, Sean R. Muleady, Michael A. Perlin, Adam M. Kaufman, Ana Maria Rey | (参考訳) 制御可能な原子、分子、および光学系においてスピンスクイーズ状態を作成するための新しいプロトコルを提案し、特にライドバーグ相互作用と互換性のある新しい光時計プラットフォームとの関連性について述べる。
短距離ソフトコアポテンシャルを外部駆動と組み合わせることで、自然発生するIsing相互作用を多体ギャップを開きながらXXスピンモデルに変換することができる。
このギャップは、真に全ての相互作用を持つ系で生成されるスピンスクイーズに匹敵するレベルでメトロロジー的に有用なスピンスクイーズを生成できる状態の集団多様体内でのシステムを維持するのに役立つ。
本稿では,本プロトコルの頑健性について検討し,ギャップ保護を欠く典型的なプロトコルに対して良好な性能を示す。 We propose a new protocol for preparing spin squeezed states in controllable atomic, molecular, and optical systems, with particular relevance to emerging optical clock platforms compatible with Rydberg interactions. By combining a short-ranged, soft-core potential with an external drive, we can transform naturally emerging Ising interactions into an XX spin model while opening a many-body gap. The gap helps maintain the system within a collective manifold of states where metrologically useful spin squeezing can be generated at a level comparable to the spin squeezing generated in systems with genuine all-to-all interactions. We examine the robustness of our protocol to experimentally-relevant decoherence and show favorable performance over typical protocols lacking gap protection. | 翻訳日:2023-02-02 10:13:08 公開日:2022-08-03 |
# エントロピックダイナミクスと量子「測定」 Entropic Dynamics and Quantum "Measurement" ( http://arxiv.org/abs/2208.02156v1 ) ライセンス: Link先を確認 | Ariel Caticha | (参考訳) 量子力学に対するエントロピー力学(ED)アプローチは、情報やデータを処理するように設計されたエントロピー的およびベイズ的推論法に基づくため、測定の問題に対処するのに理想的である。
このアプローチは、EDがオンティック要素とエピステマティック要素の明確な分離を達成するために成功し、その位置はオンティックであり、確率と波動関数はエピステマティックである。
したがって、EDは現実的な実在論的な psi-epistemic model である。
このようなモデルは様々な no-go の定理によって否定されると広く考えられている。
EDはこれらの定理を、純粋にエピステミック力学を採用し、準量子レベルでのオンティック力学の存在を否定することによって回避することを示した。 The entropic dynamics (ED) approach to quantum mechanics is ideally suited to address the problem of measurement because it is based on entropic and Bayesian methods of inference that have been designed to process information and data. The approach succeeds because ED achieves a clear-cut separation between ontic and epistemic elements: positions are ontic while probabilities and wave functions are epistemic. Thus, ED is a viable realist psi-epistemic model. Such models are widely assumed to be ruled out by various no-go theorems. We show that ED evades those theorems by adopting a purely epistemic dynamics and denying the existence of an ontic dynamics at the subquantum level. | 翻訳日:2023-02-02 10:07:04 公開日:2022-08-03 |
# 量子チャネル上の古典的通信における実現可能性の単純かつ厳密な導出 A Simple and Tighter Derivation of Achievability for Classical Communication over Quantum Channels ( http://arxiv.org/abs/2208.02132v1 ) ライセンス: Link先を確認 | Hao-Chung Cheng | (参考訳) 情報理論における達成可能性(英語: Achievability in information theory)とは、基礎となるタスクに対する所定のパフォーマンスベンチマークを達成するコーディング戦略を示すこと。
量子情報理論において、巧みに作られた林長岡作用素不等式は、様々な問題に束縛された結合に効果的に類似するため、一発の達成可能性境界の富を証明する上で必須の技術である。
本研究では,良好な測定値が自然に結合結合の役割を担っていることを示す。
古典量子 (c-q) チャネル符号化におけるワンショット達成可能性の導出は、エレガントな3行証明によって大幅に単純化される。
提案する分析は以下の特徴を享受する。
(i)確立された単発境界は、祝いのホレヴォ・ヘルストロム理論のように閉形式の表現を認める。
すなわち、c-qチャネルを介してM$メッセージを送信する平均誤差確率は、チャネル入力と出力の結合状態を、その限界値の$(M-1)$-many製品と区別する誤差によって上限づけられる。
(ii)我々の束縛は,大偏差,小偏差,中程度の偏差レジームを統一的に生成する漸近的な結果をもたらす。
(iii)林長岡作用素の不等式を適用する際の係数はもはや不要である。
したがって、導出した単発バウンドは、林-長岡作用素の不等式に依存する既存の結果を鋭くする。
特に,c-qチャネルの最大容量である$\epsilon$-one-shot を得ることができ,漸近的シナリオにおける3次符号化速度が向上する。
(iv)この結果は無限次元ヒルベルト空間に対して成り立つ。
提案手法は,量子側情報を用いたデータ圧縮のワンショットバウンダリの導出,量子チャネル上の古典的通信の絡み合い,および様々な量子ネットワーク情報処理プロトコルに適用される。 Achievability in information theory refers to demonstrating a coding strategy that accomplishes a prescribed performance benchmark for the underlying task. In quantum information theory, the crafted Hayashi-Nagaoka operator inequality is an essential technique in proving a wealth of one-shot achievability bounds since it effectively resembles a union bound in various problems. In this work, we show that the pretty-good measurement naturally plays a role as the union bound as well. A judicious application of it considerably simplifies the derivation of one-shot achievability for classical-quantum (c-q) channel coding via an elegant three-line proof. The proposed analysis enjoys the following favorable features: (i) The established one-shot bound admits a closed-form expression as in the celebrated Holevo-Helstrom Theorem. Namely, the average error probability of sending $M$ messages through a c-q channel is upper bounded by the error of distinguishing the joint state between channel input and output against $(M-1)$-many products of its marginals. (ii) Our bound directly yields asymptotic results in the large deviation, small deviation, and moderate deviation regimes in a unified manner. (iii) The coefficients incurred in applying the Hayashi-Nagaoka operator inequality are no longer needed. Hence, the derived one-shot bound sharpens existing results that rely on the Hayashi-Nagaoka operator inequality. In particular, we obtain the tightest achievable $\epsilon$-one-shot capacity for c-q channel heretofore, and it improves the third-order coding rate in the asymptotic scenario. (iv) Our result holds for infinite-dimensional Hilbert space. (v) The proposed method applies to deriving one-shot bounds for data compression with quantum side information, entanglement-assisted classical communication over quantum channels, and various quantum network information-processing protocols. | 翻訳日:2023-02-02 10:06:28 公開日:2022-08-03 |
# 光トラップによるナノ粒子の真空内装荷装置 An apparatus for in-vacuum loading of nanoparticles into an optical trap ( http://arxiv.org/abs/2208.02102v1 ) ライセンス: Link先を確認 | Evan Weisman, Chethn Krishna Galla, Cris Montoya, Eduardo Alejandro, Jason Lim, Melanie Beck, George P. Winstone, Alexey Grinin, William Eom, Andrew A. Geraci | (参考訳) 本稿では, ナノ粒子の真空中装荷用圧電トランスデューサを用いた装置の設計, 構築, 動作について述べる。
ナノ粒子を含むエアロゾル化液滴を発生させる一般的なネブリザーベースのトラップローディング法とは対照的に, 粒径の異なる球状粒子と高アスペクト比粒子の乾燥エアロゾルを約2桁のマングエントで製造する。
この装置は10^7$$g$という命令の加速を発生させることが示されており、これはガラスナノ粒子と直径170$ nmの粒子のガラス基板の間のスティクション力を克服するのに十分である。
サイズが170ドルから$\sim 10$$\mu$mまでの粒子は、1ドルバーから0.6ドルmbarまでの圧力で光学トラップにロードされることに成功した。
基板から打ち上げた粒子の速度分布を報告すると, レーザーフィードバック冷却が十分である超高真空への直接負荷が期待できることを示す。
このローディング技術は、光学浮揚ナノ粒子を用いた小型電界センサの開発や、複数の繰り返し自由落下測定に依存する超低温ナノ物体による物質干渉実験に有用であり、高い真空条件下での迅速なトラップ再ロードを必要とする。 We describe the design, construction, and operation of an apparatus utilizing a piezoelectric transducer for in-vacuum loading of nanoparticles into an optical trap for use in levitated optomechanics experiments. In contrast to commonly used nebulizer-based trap-loading methods which generate aerosolized liquid droplets containing nanoparticles, the method produces dry aerosols of both spherical and high-aspect ratio particles ranging in size by approximately two orders of mangitude. The device has been shown to generate accelerations of order $10^7$ $g$, which is sufficient to overcome stiction forces between glass nanoparticles and a glass substrate for particles as small as $170$ nm diameter. Particles with sizes ranging from $170$ nm to $\sim 10$ $\mu$m have been successfully loaded into optical traps at pressures ranging from $1$ bar to $0.6$ mbar. We report the velocity distribution of the particles launched from the substrate and our results indicate promise for direct loading into ultra-high-vacuum with sufficient laser feedback cooling. This loading technique could be useful for the development of compact fieldable sensors based on optically levitated nanoparticles as well as matter-wave interference experiments with ultra-cold nano-objects which rely on multiple repeated free-fall measurements and thus require rapid trap re-loading in high vacuum conditions. | 翻訳日:2023-02-02 10:05:35 公開日:2022-08-03 |
# 変分量子回路による逆ダイアバティの最適化 Optimizing Counterdiabaticity by Variational Quantum Circuits ( http://arxiv.org/abs/2208.02087v1 ) ライセンス: Link先を確認 | Dan Sun, Pranav Chandarana, Zi-Hua Xin, and Xi Chen | (参考訳) 逆ダイアバティック(cd)駆動 - ダイアバティック遷移の抑制を目指す - をデジタル化した断熱的進化で活用することで、量子プロトコルやアルゴリズムに大きな関心を集めている。
しかし、入れ子型整流器 ansatz による近似cd項の改善は難しい課題である。
本研究では,変分量子回路を用いてCD項の最適係数を求める手法を提案する。
古典的な最適化ルーチンにより、この回路のパラメータはCD項に対応する係数に最適化される。
次に、グリーンバーガー・ホーン・サイーリンガー状態準備において、近距離イジングモデルによる性能改善を例示する。
最後に、有界時間での忠実度の観点から、通常の量子近似最適化アルゴリズムよりも優位性を示す。 Utilizing counterdiabatic (CD) driving - aiming at suppression of diabatic transition - in digitized adiabatic evolution have garnered immense interest in quantum protocols and algorithms. However, improving the approximate CD terms with a nested commutator ansatz is a challenging task. In this work, we propose a technique of finding optimal coefficients of the CD terms using a variational quantum circuit. By classical optimizations routines, the parameters of this circuit are optimized to provide the coefficients corresponding to the CD terms. Then their improved performance is exemplified in Greenberger-Horne-Zeilinger state preparation on nearest-neighbor Ising model. Finally, we also show the advantage over the usual quantum approximation optimization algorithm, in terms of fidelity with bounded time. | 翻訳日:2023-02-02 10:04:44 公開日:2022-08-03 |
# 非マルコフ量子系における量子近似最適化アルゴリズム Quantum Approximate Optimization Algorithm in Non-Markovian Quantum Systems ( http://arxiv.org/abs/2208.02066v1 ) ライセンス: Link先を確認 | Bo Yue, Shibei Xue, Yu Pan, Min Jiang | (参考訳) 量子近似最適化アルゴリズム(quantum approximation optimization algorithm,qaoa)は、量子超越性を示す有望な量子アルゴリズムである。
ノイズの多い中間スケール量子(NISQ)デバイスにおけるQAOAの性能はデコヒーレンスにより低下する。
本稿では,拡張システムモデルで表される非マルコフ量子系上でQAOAを実行するためのフレームワークを提案する。
このモデルでは、非マルコフ環境は量子ホワイトノイズによって駆動される補助系としてモデル化され、対応する主システムはアルゴリズムの計算単位である。
このモデルにより、我々はQAOAを拡張システムの断片的な制御として数学的に定式化する。
非マルコフデコヒーレンスの効果を低減するために、近位勾配降下アルゴリズムにより効率の良い深さを得るために、上記の基本アルゴリズムを変更した。
最後に、Max-Cut問題の例として、非マルコビアン性は、探索率を特徴とするQAOAの優れた性能を達成するのに有効である。 Quantum Approximate Optimization Algorithm(QAOA) is a promising quantum algorithm that can demonstrate quantum supremacy. The performance of QAOA on noisy intermediate-scale quantum (NISQ) devices degrades due to decoherence. In this paper, we present a framework for running QAOA on non-Markovian quantum systems which are represented by an augmented system model. In this model, a non-Markovian environment is modelled as an ancillary system driven by quantum white noises and the corresponding principal system is the computational unit for the algorithm. With this model, we mathematically formulates QAOA as piecewise control of the augmented system. To reduce the effect of non-Markovian decoherence, the above basic algorithm is modified for obtaining an efficient depth by a proximal gradient descent algorithm. Finally, in an example of the Max-Cut problem, we find non-Markovianity can help to achieve a good performance of QAOA, which is characterized by an exploration rate. | 翻訳日:2023-02-02 10:04:20 公開日:2022-08-03 |
# 時間外相関器による量子システム学習 Learning quantum systems via out-of-time-order correlators ( http://arxiv.org/abs/2208.02254v1 ) ライセンス: Link先を確認 | Thomas Schuster and Murphy Niu and Jordan Cotler and Thomas O'Brien and Jarrod R. McClean and Masoud Mohseni | (参考訳) 動的量子システムの特性を学習することは、核磁気共鳴分光から量子デバイス特性まで幅広い応用の基盤となる。
この追求における中心的な課題は、従来の観測対象が時間と空間で急速に崩壊し、測定から学べる情報を制限する、強い相互作用を持つシステムの学習である。
本研究では,時間外相関器である量子学習の文脈に観測可能な新しいクラスを導入し,情報物理を大規模・遠隔で表示することにより,強相互作用系の学習性を大幅に向上させることができることを示す。
時間外相関が局所的相互作用システムにおける学習課題に重要な利点をもたらす2つの一般的なシナリオを同定する。
i) 実験的なシステムへのアクセスが空間的に制限されている場合、例えば、単一の「プローブ」自由度で、
(II) 強度が通常の相互作用強度よりもはるかに小さい弱い相互作用を特徴づけたい場合。
我々はこれらの利点を様々な学習問題で数値的に特徴づけ、読み出し誤りとデコヒーレンスの両方に頑健であることがわかった。
最後に,時間外測定で一定の時間内に達成可能なバイナリ分類タスクを導入する。
本稿では,時間順演算のみを含む適応学習プロトコルにおいて,この課題が指数関数的に難しいことを実証する。 Learning the properties of dynamical quantum systems underlies applications ranging from nuclear magnetic resonance spectroscopy to quantum device characterization. A central challenge in this pursuit is the learning of strongly-interacting systems, where conventional observables decay quickly in time and space, limiting the information that can be learned from their measurement. In this work, we introduce a new class of observables into the context of quantum learning -- the out-of-time-order correlator -- which we show can substantially improve the learnability of strongly-interacting systems by virtue of displaying informative physics at large times and distances. We identify two general scenarios in which out-of-time-order correlators provide a significant advantage for learning tasks in locally-interacting systems: (i) when experimental access to the system is spatially-restricted, for example via a single "probe" degree of freedom, and (ii) when one desires to characterize weak interactions whose strength is much less than the typical interaction strength. We numerically characterize these advantages across a variety of learning problems, and find that they are robust to both read-out error and decoherence. Finally, we introduce a binary classification task that can be accomplished in constant time with out-of-time-order measurements. In a companion paper, we prove that this task is exponentially hard with any adaptive learning protocol that only involves time-ordered operations. | 翻訳日:2023-02-02 09:57:34 公開日:2022-08-03 |
# プログラマブルフォトニック回路における重テールとプルーニング Heavy tails and pruning in programmable photonic circuits ( http://arxiv.org/abs/2208.02251v1 ) ライセンス: Link先を確認 | Sunkyu Yu, Namkyoo Park | (参考訳) 高次元ユニタリ演算子のためのハードウェアの開発は、量子計算とディープラーニング加速の実装において重要な役割を果たす。
プログラマブルフォトニック回路は、固有ユニタリ性、超高速波長性、およびフォトニックプラットフォームのエネルギー効率により、普遍ユニタリの候補として特異に有望である。
それでも、フォトニック回路のスケールが大きくなると、量子演算子の忠実度や深層学習重量行列に対するノイズの影響はより深刻になる。
本稿では,超流動回転のプルーニングを設計し,高忠実度ユニバーサルユニタリ化を可能にする,大規模プログラマブルフォトニック回路の非自明な確率的性質を示す。
プログラミング可能なフォトニック回路の従来のアーキテクチャにおける電力法則とパレート原理は、ハブ位相シフト器の存在によって明らかにされ、フォトニックハードウェアの設計にネットワークプルーニングを適用することができる。
ランダムユニタリ行列を刈り取るための普遍的なアーキテクチャを抽出し,高い忠実性とエネルギー効率を達成するために「悪は時々取り除く方がよい」ことを証明した。
この結果は、大規模量子コンピューティングとフォトニックディープラーニングアクセラレーターにおける高忠実性のハードルを下げる。 Developing hardware for high-dimensional unitary operators plays a vital role in implementing quantum computations and deep learning accelerations. Programmable photonic circuits are singularly promising candidates for universal unitaries owing to intrinsic unitarity, ultrafast tunability, and energy efficiency of photonic platforms. Nonetheless, when the scale of a photonic circuit increases, the effects of noise on the fidelity of quantum operators and deep learning weight matrices become more severe. Here we demonstrate a nontrivial stochastic nature of large-scale programmable photonic circuits-heavy-tailed distributions of rotation operators-that enables the development of high-fidelity universal unitaries through designed pruning of superfluous rotations. The power law and the Pareto principle for the conventional architecture of programmable photonic circuits are revealed with the presence of hub phase shifters, allowing for the application of network pruning to the design of photonic hardware. We extract a universal architecture for pruning random unitary matrices and prove that "the bad is sometimes better to be removed" to achieve high fidelity and energy efficiency. This result lowers the hurdle for high fidelity in large-scale quantum computing and photonic deep learning accelerators. | 翻訳日:2023-02-02 09:57:15 公開日:2022-08-03 |
# 近似古典的誤り訂正遷移が支配する量子回路における普遍的クロスオーバー A universal crossover in quantum circuits governed by a proximate classical error correction transition ( http://arxiv.org/abs/2208.02217v1 ) ライセンス: Link先を確認 | Anasuya Lyons, Soonwon Choi, Ehud Altman | (参考訳) 我々は,最近発見された量子回路の位相遷移における量子絡み合いの役割を明らかにするために,半古典回路モデルを定式化した。
出発点として、最寄りの古典ゲートが消去誤差によって中断されたランダム回路モデルを定義する。
量子設定と類似して、このシステムは、出力状態の古典的な情報エントロピーが消滅する上の臨界誤差率で浄化遷移を行う。
この位相遷移は有向パーコレーション普遍性クラスにあり、エントロピーがゼロであることは力学の吸収状態であるという事実と一致し、古典的な回路はエントロピーを生成できない。
誤差の存在下で量子ゲートの任意に小さい密度を加えると、吸収状態を破壊することによって遷移が排除される: 量子ゲートは内部絡み合いを生成し、エラーによって古典エントロピーに効果的に変換できる。
半古典回路の有効モデルにおける不安定性の普遍的性質について述べる。
本モデルでは,古典回路と量子回路における情報ダイナミクスの大きな違いを浮き彫りにする。 We formulate a semi-classical circuit model to clarify the role of quantum entanglement in the recently discovered encoding phase transitions in quantum circuits with measurements. As a starting point we define a random circuit model with nearest neighbor classical gates interrupted by erasure errors. In analogy with the quantum setting, this system undergoes a purification transition at a critical error rate above which the classical information entropy in the output state vanishes. We show that this phase transition is in the directed percolation universality class, consistent with the fact that having zero entropy is an absorbing state of the dynamics; this classical circuit cannot generate entropy. Adding an arbitrarily small density of quantum gates in the presence of errors eliminates the transition by destroying the absorbing state: the quantum gates generate internal entanglement, which can be effectively converted to classical entropy by the errors. We describe the universal properties of this instability in an effective model of the semi-classical circuit. Our model highlights the crucial differences between information dynamics in classical and quantum circuits. | 翻訳日:2023-02-02 09:56:42 公開日:2022-08-03 |
# トレースダイナミクスの量子前理論におけるtsirelson結合の破れ A violation of the Tsirelson bound in the pre-quantum theory of trace dynamics ( http://arxiv.org/abs/2208.02209v1 ) ライセンス: Link先を確認 | Rabsan G. Ahmed and Tejinder P. Singh | (参考訳) ベルの定理 (Bell's theorem) は、量子力学が局所的な隠れ変数理論と相容れないことを示す、密接に関連する結果の集合を指す。
ベルの不等式(英: bell's inequality)とは、エンタングル対の2つの空間的な分離された粒子に対して測定が独立に行われる場合、結果が隠れた変数に依存するという仮定は、結果の間の相関の上限を意味する。
量子力学はこの上界に違反する相関を予測する。
CHSH不等式 (CHSH inequality) はベルの不等式であり、古典的相関(例えば局所隠れ変数が存在する場合)は最大値 2 を取ることができる。
量子力学はこのバウンダリに反し、相関値のより高いバウンダリを許容し、Tsirelson bound として知られる最大値 $2\sqrt{2}$ を取ることができる。
Popescu と Rohrlich は、相対論的因果性の仮定により、CHSH 相関がさらに高く、この値は 4 であることを示した。
因果関係のバウンドがなぜtsirelsonバウンドよりも高いのか?
トシレルソン境界に違反する相対論的因果力学理論は存在するか?
本稿では,この質問に対する肯定的回答について述べる。
量子論が熱力学近似として現れるトレース力学の事前量子論は、CHSH相関が2.2\sqrt{2}$より高い値を取ることを許していることを示す。
我々は、量子論が近似的であり、トレースダイナミクスのより一般的な理論から生じることを示唆するために、この知見を解釈する。 The term Bell's theorem refers to a set of closely related results which imply that quantum mechanics is incompatible with local hidden variable theories. Bell's inequality is the statement that if measurements are performed independently on two space-like separated particles of an entangled pair, the assumption that outcomes depend on hidden variables implies an upper bound on the correlations between the outcomes. Quantum mechanics predicts correlations which violate this upper bound. The CHSH inequality is a specific Bell inequality in which classical correlation (i.e. if local hidden variables exist) can take the maximum value of 2. Quantum mechanics violates this bound, allowing for a higher bound on the correlation, which can take the maximum value $2\sqrt{2}$, known as the Tsirelson bound. Popescu and Rohrlich showed that the assumption of relativistic causality allows for an even higher bound on the CHSH correlation, this value being 4. Why is the bound coming from causality higher than the Tsirelson bound? Are there relativistic causal dynamical theories which violate the Tsirelson bound? In the present paper we answer this question in the affirmative. We show that the pre-quantum theory of trace dynamics, from which quantum theory is emergent as a thermodynamic approximation, permits the CHSH correlation to take values higher than $2\sqrt{2}$. We interpret our findings to suggest that quantum theory is approximate, and emergent from the more general theory of trace dynamics. | 翻訳日:2023-02-02 09:56:07 公開日:2022-08-03 |
# harrow-hassidim-lloydアルゴリズム Harrow-Hassidim-Lloyd algorithm without ancilla postselection ( http://arxiv.org/abs/2208.02200v1 ) ライセンス: Link先を確認 | D. V. Babukhin | (参考訳) harrow-hassidim-lloyd algorithm (hhl) は線形方程式系の指数関数的に高速な解法である。
しかし、このアルゴリズムでは解を得るにはアンシラキュービットのポストセレクションが必要となる。
このポストセレクションはアルゴリズム結果を確率的にする。
ここでは、hhlアルゴリズムがancilla qubitの事後選択なしで機能する条件を示す。
acilla qubit が 0 と 1 で測定されたとき、hhl の結果状態の観測可能な $m$ に対する期待値の式を導出する。
入力行列と可観測行列の可換行列がゼロのとき、HHLアルゴリズムは任意のアシラ測定の結果に対して正しい期待値を与えることができる。
この結果をトイ2と2のマトリクスの例で示す。
さらに、より一般的な行列の例である$a$とobservables $m$を提供し、このアルゴリズムのポスト選択フリーな実行を可能にします。
我々の研究は、HHLベースのアルゴリズムの性能を向上させることができる。 Harrow-Hassidim-Lloyd algorithm (HHL) allows for the exponentially faster solution of a system of linear equations. However, this algorithm requires the postselection of an ancilla qubit to obtain the solution. This postselection makes the algorithm result probabilistic. Here we show conditions when the HHL algorithm can work without postselection of ancilla qubit. We derive expressions for expectation values for an observable $M$ on the HHL outcome state when ancilla qubit is measured in 0 and 1. When a commutator of an input matrix and an observable matrix is zero, the HHL algorithm can give correct expectation values for any outcome of ancilla measurement. We demonstrate this result on a toy 2 by 2 matrix example. We further provide more general examples of matrices $A$ and observables $M$, which allow the postselection-free running of the algorithm. Our work can improve the performance of the HHL-based algorithms. | 翻訳日:2023-02-02 09:55:24 公開日:2022-08-03 |
# Schr\オーディンガー猫運動状態に対する非線形サイドバンド冷却 Nonlinear Sideband Cooling to a Schr\"odinger Cat State of Motion ( http://arxiv.org/abs/2208.02371v1 ) ライセンス: Link先を確認 | Bradley D Hauer, Joshua Combes, John D. Teufel | (参考訳) マクロメカニカル共振器を量子重ね合わせ状態に形成する能力は、キャビティ光学の優れた目標である。
本稿では,分散光学相互作用の固有非線形性を用いて,運動のシュリンガー猫状態を生成する手法を提案する。
バイクロマティックドライブを光機械的キャビティに適用することにより,本プロトコルはシステム固有の2次プロセスを強化し,必要な2フォノン散逸を誘導する。
この非線形サイドバンド冷却技術は、機械的共振器をSchr\odingerの猫状態に散逸的に組み込むことができることを示す。
単一光子・強結合系では猫状態の忠実性は最大化されるが,弱いカップリングにおいてもウィグナーネガティビティは持続する。
最後に, 猫の状態生成プロトコルは機械モードの著しい熱的非一貫性に頑健であることを示し, 短期実験システムではそのような手法が実現可能であることを示す。 The ability to prepare a macroscopic mechanical resonator into a quantum superposition state is an outstanding goal of cavity optomechanics. Here we propose a technique to generate Schr\"odinger cat states of motion using the intrinsic nonlinearity of a dispersive optomechanical interaction. By applying a bichromatic drive to an optomechanical cavity, our protocol enhances the inherent second-order processes of the system, inducing the requisite two-phonon dissipation. We show that this nonlinear sideband cooling technique can dissipatively engineer a mechanical resonator into a Schr\"odinger cat state, which we verify using the full Hamiltonian and an adiabatically reduced model. While the fidelity of the cat state is maximized in the single-photon, strong-coupling regime, we demonstrate that Wigner negativity persists even for weak coupling. Finally, we show that our cat state generation protocol is robust to significant thermal decoherence of the mechanical mode, indicating that such a procedure may be feasible for near-term experimental systems. | 翻訳日:2023-02-02 09:47:57 公開日:2022-08-03 |
# 量子コンピューティングにおける問題に対するアベリア広場の数え方 Counting Abelian Squares for a Problem in Quantum Computing ( http://arxiv.org/abs/2208.02360v1 ) ライセンス: Link先を確認 | Ryan S. Bennink | (参考訳) 最近の研究で、私は、長さ$t+t$のアーベル二乗の数を、サイズ$d$のアルファベット上で効率的に計算するための公式を開発しました。
ここでは,あるパラメータ化量子回路の表現性を,大文字上のアーベル正方形をカウントする問題に還元し,最近開発された公式を用いて効率よく計算する方法を示す。 In a recent work I developed a formula for efficiently calculating the number of abelian squares of length $t+t$ over an alphabet of size $d$, where $d$ may be very large. Here I show how the expressiveness of a certain class of parameterized quantum circuits can be reduced to the problem of counting abelian squares over a large alphabet, and use the recently developed formula to efficiently calculate this quantity. | 翻訳日:2023-02-02 09:47:21 公開日:2022-08-03 |
# 多成分量子系の排他的マルコフ進化:位相空間表現 Exact Markovian evolution of multicomponent quantum systems: phase space representations ( http://arxiv.org/abs/2208.02282v1 ) ライセンス: Link先を確認 | Aldo R. Fernandes Neto, Alfredo M. Ozorio de Almeida and Olivier Brodier | (参考訳) 二次ハミルトニアンおよび線型結合作用素を持つリンドブラッド方程式の正確な解は、弦表現、すなわちウィグナー函数のフーリエ変換の中で導かれた。
ここでは、任意の成分の減少密度作用素に対する明示的な表現と、この進化するコード関数の微分として表されるモーメントを、複数の成分に対して一般化する。
ウィグナー関数は、より広い多次元ガウス窓を持つ単純古典的進化の畳み込みであり、最終的にその肯定性を保証する。
さらに、成分の分離性を保証するグラウバー・スンダルシャンのP-函数も陽性である。
多成分文脈では、完全散逸行列が定義されるが、そのトレースは以前に導かれた散逸係数の2倍に等しいものであり、ウィグナー関数の引数の位相空間体積が収縮する速度を支配し、弦関数は拡大する。
三原子分子と調和振動子の配列のマルコフ進化の例について述べる。 The exact solution of the Lindblad equation with a quadratic Hamiltonian and linear coupling operators was derived within the chord representation, that is, for the Fourier transform of the Wigner function. It is here generalized for multiple components, so as to provide an explicit expression for the reduced density operator of any component, as well as moments expressed as derivatives of this evolving chord function. The Wigner function is then the convolution of its straightforward classical evolution with a widening multidimensional gaussian window, eventually ensuring its positivity. Futher on, positivity also holds for the Glauber-Sundarshan P-function, which guarantees separability of the components. In the multicomponent context, a full dissipation matrix is defined, whereas its trace, equal to twice the previously derived dissipation coefficient, governs the rate at which the phase space volume of the argument of the Wigner function contracts, while those of the chord function expands. Examples of markovian evolution of a triatomic molecule and of an array of harmonic oscillators are discussed. | 翻訳日:2023-02-02 09:46:57 公開日:2022-08-03 |
# 周期二重フロッケソリトン Period-doubled Floquet Solitons ( http://arxiv.org/abs/2208.02279v1 ) ライセンス: Link先を確認 | Sebabrata Mukherjee and Mikael C. Rechtsman | (参考訳) 我々は,ドライブの2倍の周期を持つフォトニックトポロジカル絶縁体のバルクにフロッケソリトンの族を示唆し,実験的に実証する。
我々の実験システムはフェムト秒レーザーによる光導波路の周期変調ハニカム格子からなる。
自己焦点付けによって空間格子ソリトンが発生するKerr非線形性を用いる。
我々のフォトニックシステムは、時間周期駆動、トポロジ、非線形性の相互作用を高度に調整可能な方法で探索できる強力なプラットフォームを構成する。 We propose and experimentally demonstrate a family of Floquet solitons in the bulk of a photonic topological insulator that have double the period of the drive. Our experimental system consists of a periodically-modulated honeycomb lattice of optical waveguides fabricated by femtosecond laser writing. We employ a Kerr nonlinearity in which self-focusing gives rise to spatial lattice solitons. Our photonic system constitutes a powerful platform where the interplay of time-periodic driving, topology and nonlinearity can be probed in a highly tunable way. | 翻訳日:2023-02-02 09:46:37 公開日:2022-08-03 |
# リニア光学によるベル状態測定の50%以上成功確率 Bell-state measurement exceeding 50% success probability with linear optics ( http://arxiv.org/abs/2208.02271v1 ) ライセンス: Link先を確認 | Matthias J. Bayerbach, Simone E. D'Aurelio, Peter van Loock, and Stefanie Barz | (参考訳) ベル状態予測は、今日のほとんどの量子通信および計算プロトコルの基礎となる。
しかし、線形光学に基づく現在のベル状態測定スキームでは、4つのベル状態のうち2つしか特定できないため、この重要なステップの最大成功確率は50\%を超えることはできない。
そこで,本研究では,より複雑な計測パターンとなり,最終的に62.5\%$という高い成功確率をもたらすような,付加的な光子形態で元の測定を補正する手法を実験的に実証する。
実験により、従来のスキームよりも大幅に改善された$(57.9 \pm 1.4)\%$の成功確率を達成した。
このプロトコルをより多くのアシラリー光子に拡張する可能性から、ベル状態測定に基づく量子技術のより効率的な実現に向けての道を開いた。 Bell-state projections serve as a fundamental basis for most quantum communication and computing protocols today. However, with current Bell-state measurement schemes based on linear optics, only two of four Bell states can be identified, which means that the maximum success probability of this vital step cannot exceed $50\%$. Here, we experimentally demonstrate a scheme that amends the original measurement with additional modes in the form of ancillary photons, which leads to a more complex measurement pattern, and ultimately a higher success probability of $62.5\%$. Experimentally, we achieve a success probability of $(57.9 \pm 1.4)\%$, a significant improvement over the conventional scheme. With the possibility of extending the protocol to a larger number of ancillary photons, our work paves the way towards more efficient realisations of quantum technologies based on Bell-state measurements. | 翻訳日:2023-02-02 09:46:30 公開日:2022-08-03 |
# 合成磁場による異常多臨界現象とフラストレーション Anomalous multicritical phenomena and frustration induced by synthetic magnetic fields ( http://arxiv.org/abs/2208.02268v1 ) ライセンス: Link先を確認 | Jinchen Zhao, Myung-Joong Hwang | (参考訳) 複素光子ホッピング振幅を持つ1次元ディック格子を考察し、合成磁場による時間反転対称性の破れの影響について検討する。
ループ全体のフラックススレッディングをチューニングすることにより、平均場完全連結系から異常臨界現象を特徴とする超放射相転移(SPT)の普遍性クラスが変化することを示す。
異常SPTは、遷移の両側に異なる臨界指数を持つエネルギーギャップの閉じ、連続的な相転移であるにもかかわらず相関と変動の不連続を示す。
異常正規位相では,閉エネルギーギャップに対する非平均場臨界指数と非分散揺らぎと相関が出現し,非対称分散関係を特徴づける。
さらに, 最近傍の複素ホッピングは, フラストレーションの程度が変化する超ラジアント相間の1次相転移を競合に導くキャビティ場の2次位置に対する有効長距離相互作用を誘導することを示した。
結果として生じる多重臨界点は、遷移の両側に2つの共存する臨界スケーリングのような異常な特徴を示す。
本研究は, 時間反転対称性の破れとボソニック格子系のフラストレーションとの相互作用が, フェルミオン系やスピン系や時間反転対称量子光学系に類似しない異常な臨界現象を引き起こすことを示唆する。 We consider a one-dimensional Dicke lattice with complex photon hopping amplitudes and investigate the influence of time-reversal symmetry breaking due to synthetic magnetic fields. We show that, by tuning the total flux threading the loop, the universality class of superradiant phase transition (SPT) changes from that of the mean-field fully-connected systems to one that features anomalous critical phenomena. The anomalous SPT exhibits a closing of the energy gap with different critical exponents on both sides of transition and a discontinuity of correlations and fluctuation despite it being a continuous phase transition. In the anomalous normal phase, we find that a non-mean-field critical exponent for the closing energy gap and non-divergent fluctuations and correlations appear, which we attribute to the asymmetric dispersion relation. Moreover, we show that the nearest neighborhood complex hopping induces effective long-range interactions for position quadratures of the cavity fields, whose competition leads to a series of first-order phase transitions among superradiant phases with varying degrees of frustration. The resulting multicritical points also show anomalous features such as two coexisting critical scalings on both sides of the transition. Our work shows that the interplay between the broken time-reversal symmetry and frustration on bosonic lattice systems can give rise to anomalous critical phenomena that have no counterpart in fermionic or spin systems or time-reversal symmetric quantum optical systems. | 翻訳日:2023-02-02 09:46:16 公開日:2022-08-03 |
# 時間外相関器の情報理論的硬さ Information-theoretic Hardness of Out-of-time-order Correlators ( http://arxiv.org/abs/2208.02256v1 ) ライセンス: Link先を確認 | Jordan Cotler, Thomas Schuster, Masoud Mohseni | (参考訳) 時間外相関器 (OTOCs) へのアクセスが与えられると効率よく学習できる量子多体ダイナミクスの特性は存在するが、時間順序相関器を測るだけではシステムサイズで指数関数的に多くの演算が必要になる。
これは、時間順の相関子からのみOTOCを再構成する実験的なプロトコルは、ある場合には指数関数的に非効率でなければならないことを意味する。
我々の証明は量子学習理論の最近の技術を活用して一般化する。
その過程で、適応量子学習アルゴリズムのクラスとみなすことができる、時間順序と時間外の実験的測定プロトコルの一般的な定義を解明する。
さらに、量子シミュレーションにおけるOTOCの新たな応用の理論的基礎を提供する。 We establish that there are properties of quantum many-body dynamics which are efficiently learnable if we are given access to out-of-time-order correlators (OTOCs), but which require exponentially many operations in the system size if we can only measure time-ordered correlators. This implies that any experimental protocol which reconstructs OTOCs solely from time-ordered correlators must be, in certain cases, exponentially inefficient. Our proofs leverage and generalize recent techniques in quantum learning theory. Along the way, we elucidate a general definition of time-ordered versus out-of-time-order experimental measurement protocols, which can be considered as classes of adaptive quantum learning algorithms. Moreover, our results provide a theoretical foundation for novel applications of OTOCs in quantum simulations. | 翻訳日:2023-02-02 09:45:51 公開日:2022-08-03 |
# 生成モデルに対するマルチモーダル制御 Multimodal Controller for Generative Models ( http://arxiv.org/abs/2002.02572v7 ) ライセンス: Link先を確認 | Enmao Diao, Jie Ding, Vahid Tarokh | (参考訳) クラス条件生成モデルは、ユーザが指定したクラスラベルからデータを生成するための重要なツールである。
クラス条件生成モデルに対する既存のアプローチは、モデルに供給される条件情報をモデル化するためにバックボーン生成アーキテクチャの非自明な修正を必要とする。
本稿では,「マルチモーダルコントローラ」というプラグイン・アンド・プレイモジュールを導入し,学習パラメータを付加することなくマルチモーダルデータを生成する。
コントローラがない場合、我々のモデルは非条件生成モデルに還元される。
CIFAR10, COIL100, Omniglotベンチマークデータセット上で, マルチモーダルコントローラの有効性を検証した。
マルチモーダル制御による生成モデル(vae, pixelcnn, glow, ganを含む)は,条件付き生成モデルと比較して,かなり高品質なクラス条件画像を生成することができる。
さらに,マルチモーダル制御モデルが画像の新たなモダリティを生成できることも示す。 Class-conditional generative models are crucial tools for data generation from user-specified class labels. Existing approaches for class-conditional generative models require nontrivial modifications of backbone generative architectures to model conditional information fed into the model. This paper introduces a plug-and-play module named `multimodal controller' to generate multimodal data without introducing additional learning parameters. In the absence of the controllers, our model reduces to non-conditional generative models. We test the efficacy of multimodal controllers on CIFAR10, COIL100, and Omniglot benchmark datasets. We demonstrate that multimodal controlled generative models (including VAE, PixelCNN, Glow, and GAN) can generate class-conditional images of significantly better quality when compared with conditional generative models. Moreover, we show that multimodal controlled models can also create novel modalities of images. | 翻訳日:2023-01-03 03:41:49 公開日:2022-08-03 |
# あなたは$\textit{now}$を聞こえるか?
人間と機械の知覚の敏感な比較 Can you hear me $\textit{now}$? Sensitive comparisons of human and machine perception ( http://arxiv.org/abs/2003.12362v2 ) ライセンス: Link先を確認 | Michael A Lepori and Chaz Firestone | (参考訳) 感覚入力を処理する機械学習システムの台頭により、人間と機械の知覚の比較が増加してきた。
機械による刺激の認識は直接的かつ明示的な測定によって調査されることが多いが、人間の知覚的知識の多くは潜伏しているか不完全か、明示的な報告で利用できない。
本稿では,この非対称性が人間と機械の知覚の重なりを過小評価する原因となる可能性について考察する。
事例研究として,音声自動認識システムによって有効なメッセージとして認識される合成音声コマンドである \textit{adversarial speech} の人間の知覚について検討した。
In five experiments, we adapt task designs from the human psychophysics literature to show that even when subjects cannot freely transcribe such speech commands (the previous benchmark for human understanding), they often can demonstrate other forms of understanding, including discriminating adversarial speech from closely matched non-speech (Experiments 1--2), finishing common phrases begun in adversarial speech (Experiments 3--4), and solving simple math problems posed in adversarial speech (Experiment 5) -- even for stimuli previously described as unintelligible to human listeners.
我々は、人間と機械の知覚を比較する際に、このような「敏感なテスト」を採用することを推奨し、システム間の重複を評価するために、そのようなアプローチの広範な結果について議論する。 The rise of machine-learning systems that process sensory input has brought with it a rise in comparisons between human and machine perception. But such comparisons face a challenge: Whereas machine perception of some stimulus can often be probed through direct and explicit measures, much of human perceptual knowledge is latent, incomplete, or unavailable for explicit report. Here, we explore how this asymmetry can cause such comparisons to misestimate the overlap in human and machine perception. As a case study, we consider human perception of \textit{adversarial speech} -- synthetic audio commands that are recognized as valid messages by automated speech-recognition systems but that human listeners reportedly hear as meaningless noise. In five experiments, we adapt task designs from the human psychophysics literature to show that even when subjects cannot freely transcribe such speech commands (the previous benchmark for human understanding), they often can demonstrate other forms of understanding, including discriminating adversarial speech from closely matched non-speech (Experiments 1--2), finishing common phrases begun in adversarial speech (Experiments 3--4), and solving simple math problems posed in adversarial speech (Experiment 5) -- even for stimuli previously described as unintelligible to human listeners. We recommend the adoption of such "sensitive tests" when comparing human and machine perception, and we discuss the broader consequences of such approaches for assessing the overlap between systems. | 翻訳日:2022-12-19 04:44:57 公開日:2022-08-03 |
# 発表は To Be Announced ( http://arxiv.org/abs/2004.05802v3 ) ライセンス: Link先を確認 | Hans van Ditmarsch | (参考訳) 本稿では,情報変化の定量化をめざした動的疫学論理を概観する。
このような論理のうち、知識と量化器の相互作用を含む公理に焦点をあて、それらの相対的表現性、決定可能性、モデル検査と満足度の複雑さ、および応用について報告する。
オープンな問題と研究の新たな方向性に注目します。 In this survey we review dynamic epistemic logics with modalities for quantification over information change. Of such logics we present complete axiomatizations, focussing on axioms involving the interaction between knowledge and such quantifiers, we report on their relative expressivity, on decidability and on the complexity of model checking and satisfiability, and on applications. We focus on open problems and new directions for research. | 翻訳日:2022-12-14 00:18:57 公開日:2022-08-03 |
# デジタル透かしの埋め込みによる画像逆例生成 Generating Image Adversarial Examples by Embedding Digital Watermarks ( http://arxiv.org/abs/2009.05107v2 ) ライセンス: Link先を確認 | Yuexin Xiang, Tiantian Li, Wei Ren, Tianqing Zhu and Kim-Kwang Raymond Choo | (参考訳) ディープニューラルネットワーク(DNN)モデルへの注目が高まり、このようなモデルに対する攻撃も近く行われる。
例えば、攻撃者は、DNNモデルに誤った分類結果を出力することを目的とした、特定の方法で画像を構築する(逆例とも呼ばれる)。
同様に、敵の例を検出し、軽減するための多くの取り組みが提案されている。
本稿では,dnnモデルに対する画像逆例を生成するための,新しい電子透かしに基づく手法を提案する。
具体的には、透かし画像の部分的な特徴をホスト画像にほとんど見えなく埋め込んで、DNNモデルの認識能力を阻害し、損傷することを目的としている。
我々は、ホスト画像とウォーターマーク画像を選択するための効率的なメカニズムを考案し、改良された離散ウェーブレット変換(DWT)ベースのパッチワーク透かしアルゴリズムを用いて、ウォーターマーク画像データセットからデジタル透かしを元の画像に埋め込んで、画像の敵画像を生成する。
実験結果によると、一般的なDNNモデルの攻撃成功率は、CIFAR-10データセットで平均95.47%、最高98.71%に達する。
さらに,本手法では,CIFAR-10データセット上の各画像に対する攻撃を完了する平均1.17秒で,多数の敵例を効率的に生成することができる。
また,本手法の有効性を示す透かし画像データセットとして,ガウス雑音によって生成された透かし画像を用いたベースライン実験を行う。
同様に、修正離散コサイン変換(DCT)に基づくパッチワークウォーターマーキングアルゴリズムも提案する。
再現性と再現性を確保するため、ソースコードはGitHubで入手できる。 With the increasing attention to deep neural network (DNN) models, attacks are also upcoming for such models. For example, an attacker may carefully construct images in specific ways (also referred to as adversarial examples) aiming to mislead the DNN models to output incorrect classification results. Similarly, many efforts are proposed to detect and mitigate adversarial examples, usually for certain dedicated attacks. In this paper, we propose a novel digital watermark-based method to generate image adversarial examples to fool DNN models. Specifically, partial main features of the watermark image are embedded into the host image almost invisibly, aiming to tamper with and damage the recognition capabilities of the DNN models. We devise an efficient mechanism to select host images and watermark images and utilize the improved discrete wavelet transform (DWT) based Patchwork watermarking algorithm with a set of valid hyperparameters to embed digital watermarks from the watermark image dataset into original images for generating image adversarial examples. The experimental results illustrate that the attack success rate on common DNN models can reach an average of 95.47% on the CIFAR-10 dataset and the highest at 98.71%. Besides, our scheme is able to generate a large number of adversarial examples efficiently, concretely, an average of 1.17 seconds for completing the attacks on each image on the CIFAR-10 dataset. In addition, we design a baseline experiment using the watermark images generated by Gaussian noise as the watermark image dataset that also displays the effectiveness of our scheme. Similarly, we also propose the modified discrete cosine transform (DCT) based Patchwork watermarking algorithm. To ensure repeatability and reproducibility, the source code is available on GitHub. | 翻訳日:2022-10-30 17:58:12 公開日:2022-08-03 |
# Sparse Mixture of Regressions を用いたフローサイトメトリーによる細胞集団のモデル化 Modeling Cell Populations Measured By Flow Cytometry With Covariates Using Sparse Mixture of Regressions ( http://arxiv.org/abs/2008.11251v2 ) ライセンス: Link先を確認 | Sangwon Hyun, Mattias Rolf Cape, Francois Ribalet, Jacob Bien | (参考訳) 海は植物プランクトンと呼ばれる微細藻で満たされており、陸地にあるすべての植物と同じ量の光合成を担っている。
我々の温暖化に対する反応を予測する能力は、植物プランクトン個体群の動態が環境の変化にどのように影響するかを理解することに依存している。
植物プランクトンの力学を研究するための強力な技術はフローサイトメトリーであり、毎秒数千の個々の細胞の光学特性を測定する。
今日では、海洋学者は移動船上でリアルタイムにフローサイトメトリーデータを収集することができ、数千kmにわたって植物プランクトンの分布を詳細に把握することができる。
現在の課題の1つは、これらの小規模で大規模な変化が、栄養状態、温度、光、海流などの環境条件にどのように関係しているかを理解することである。
本稿では,多変量回帰モデルを用いて,植物プランクトンサブポピュレーションを推定し,それらのサブポピュレーションの変化を予測できる特定の環境共変量を同時に同定する手法を提案する。
本研究は,2017年春の東北太平洋における海洋航海における合成データと実測データを用いて,このアプローチの有用性と解釈可能性を示す。 The ocean is filled with microscopic microalgae called phytoplankton, which together are responsible for as much photosynthesis as all plants on land combined. Our ability to predict their response to the warming ocean relies on understanding how the dynamics of phytoplankton populations is influenced by changes in environmental conditions. One powerful technique to study the dynamics of phytoplankton is flow cytometry, which measures the optical properties of thousands of individual cells per second. Today, oceanographers are able to collect flow cytometry data in real-time onboard a moving ship, providing them with fine-scale resolution of the distribution of phytoplankton across thousands of kilometers. One of the current challenges is to understand how these small and large scale variations relate to environmental conditions, such as nutrient availability, temperature, light and ocean currents. In this paper, we propose a novel sparse mixture of multivariate regressions model to estimate the time-varying phytoplankton subpopulations while simultaneously identifying the specific environmental covariates that are predictive of the observed changes to these subpopulations. We demonstrate the usefulness and interpretability of the approach using both synthetic data and real observations collected on an oceanographic cruise conducted in the north-east Pacific in the spring of 2017. | 翻訳日:2022-10-25 04:27:42 公開日:2022-08-03 |
# 行列 {\mathbf{a} + t \mathbf{b}$ の補間対数決定式と実数のトレース Interpolating Log-Determinant and Trace of the Powers of Matrix $\mathbf{A} + t \mathbf{B}$ ( http://arxiv.org/abs/2009.07385v3 ) ライセンス: Link先を確認 | Siavash Ameli, Shawn C. Shadden | (参考訳) 関数 $t \mapsto \log \det \left( \mathbf{a} + t \mathbf{b} \right)$ and $t \mapsto \operatorname{trace}\left( (\mathbf{a} + t \mathbf{b})^{p} \right)$ ここで行列 $\mathbf{a}$ と $\mathbf{b}$ はエルミートで正の (semi) で、$p$ と $t$ は実変数である。
これらの関数は統計学、機械学習、計算物理学の多くの応用で特徴付けられる。
上述の補間関数は、これらの関数に対する鋭い境界の修正に基づいている。
本稿では,提案手法の精度と性能を数値例で示す。すなわち,ガウス過程回帰の限界最大推定と,一般化されたクロスバリデーション法によるリッジ回帰の正規化パラメータの推定である。 We develop heuristic interpolation methods for the functions $t \mapsto \log \det \left( \mathbf{A} + t \mathbf{B} \right)$ and $t \mapsto \operatorname{trace}\left( (\mathbf{A} + t \mathbf{B})^{p} \right)$ where the matrices $\mathbf{A}$ and $\mathbf{B}$ are Hermitian and positive (semi) definite and $p$ and $t$ are real variables. These functions are featured in many applications in statistics, machine learning, and computational physics. The presented interpolation functions are based on the modification of sharp bounds for these functions. We demonstrate the accuracy and performance of the proposed method with numerical examples, namely, the marginal maximum likelihood estimation for Gaussian process regression and the estimation of the regularization parameter of ridge regression with the generalized cross-validation method. | 翻訳日:2022-10-18 06:52:25 公開日:2022-08-03 |
# gaussian と student-t 分布を用いた確率的近傍埋め込み:チュートリアルとサーベイ Stochastic Neighbor Embedding with Gaussian and Student-t Distributions: Tutorial and Survey ( http://arxiv.org/abs/2009.10301v2 ) ライセンス: Link先を確認 | Benyamin Ghojogh, Ali Ghodsi, Fakhri Karray, Mark Crowley | (参考訳) Stochastic Neighbor Embedding (SNE) は確率論的アプローチによる多様体学習および次元減少法である。
SNE では、すべての点はある確率で他のすべての点の隣り合うものと見なされ、この確率は埋め込み空間で保存される。
SNE は入力空間と埋め込み空間の両方の確率に対してガウス分布を考える。
しかし、t-SNE はこれらの空間においてそれぞれ学生分布とガウス分布を用いる。
本稿では,SNE,対称SNE,t-SNE(Cauchy-SNE),t-SNEを一般自由度で説明する。
また,これらの手法のサンプル外拡張と加速度についても述べる。 Stochastic Neighbor Embedding (SNE) is a manifold learning and dimensionality reduction method with a probabilistic approach. In SNE, every point is consider to be the neighbor of all other points with some probability and this probability is tried to be preserved in the embedding space. SNE considers Gaussian distribution for the probability in both the input and embedding spaces. However, t-SNE uses the Student-t and Gaussian distributions in these spaces, respectively. In this tutorial and survey paper, we explain SNE, symmetric SNE, t-SNE (or Cauchy-SNE), and t-SNE with general degrees of freedom. We also cover the out-of-sample extension and acceleration for these methods. | 翻訳日:2022-10-15 21:32:57 公開日:2022-08-03 |
# 相対属性埋め込みを用いた圧縮自己局在化 Compressive Self-localization Using Relative Attribute Embedding ( http://arxiv.org/abs/2208.08863v1 ) ライセンス: Link先を確認 | Ryogo Yamamoto, Kanji Tanaka | (参考訳) 本稿では,絶対属性(色,形状,テクスチャなど)に基づく画像埋め込みの典型的なアプローチと直交するドメイン適応コンパクト画像記述子として,視覚位置認識における相対属性(例えば,美,安全,便利)に基づく画像埋め込みの利用について検討する。 The use of relative attribute (e.g., beautiful, safe, convenient) -based image embeddings in visual place recognition, as a domain-adaptive compact image descriptor that is orthogonal to the typical approach of absolute attribute (e.g., color, shape, texture) -based image embeddings, is explored in this paper. | 翻訳日:2022-08-28 22:29:46 公開日:2022-08-03 |
# 若年者における心理的覚醒 : 解釈可能なAIアプローチ Psychophysiological Arousal in Young Children Who Stutter: An Interpretable AI Approach ( http://arxiv.org/abs/2208.08859v1 ) ライセンス: Link先を確認 | Harshit Sharma, Yi Xiao, Victoria Tumanova, Asif Salekin | (参考訳) 本研究は, ストレスのある状況とナレーションの2つの課題条件において, 幼児期(CWS)に起因し, CWNSに起因しない子どもの生理的覚醒における第2・第2パターンの差異を効果的に把握し, 可視化するものである。
第一の条件は、高覚醒による子供の発話に影響する可能性があるが、後者は話者に対する言語的、認知的、コミュニケーション的要求を導入する。
2つの対象条件において70名の小児の生理的パラメーターを収集した。
まず,CWS と CWNS を異なる条件で効果的に分類するために,MI-MIL (Modality-wise multiple-instance-learning) アプローチを採用する。
この分類器の評価は、最先端の音声科学研究の関心に沿った4つの重要な研究課題に対処する。
その後,shap分類器の解釈を活用し,個体群・集団・個人レベルでのcws特有の塩分,細粒度,時間的生理的パラメータを可視化した。
異なるパターンの集団レベルでの識別は、発声の根源と発達の理解を高めるが、パーソナライズドレベルの識別は、リモート、連続、リアルタイムに、発声の生理的覚醒の評価を可能にし、それがパーソナライズされたジャストインタイムの介入につながる可能性がある。
提案したMI-MILアプローチは斬新で、異なる領域に一般化可能であり、リアルタイム実行可能である。
最後に、複数のデータセット、提示されたフレームワーク、および音声生成中のCWSの生理的覚醒に関する注目すべき洞察を識別するいくつかのベースラインについて包括的な評価を行う。 The presented first-of-its-kind study effectively identifies and visualizes the second-by-second pattern differences in the physiological arousal of preschool-age children who do stutter (CWS) and who do not stutter (CWNS) while speaking perceptually fluently in two challenging conditions i.e speaking in stressful situations and narration. The first condition may affect children's speech due to high arousal; the latter introduces linguistic, cognitive, and communicative demands on speakers. We collected physiological parameters data from 70 children in the two target conditions. First, we adopt a novel modality-wise multiple-instance-learning (MI-MIL) approach to classify CWS vs. CWNS in different conditions effectively. The evaluation of this classifier addresses four critical research questions that align with state-of-the-art speech science studies' interests. Later, we leverage SHAP classifier interpretations to visualize the salient, fine-grain, and temporal physiological parameters unique to CWS at the population/group-level and personalized-level. While group-level identification of distinct patterns would enhance our understanding of stuttering etiology and development, the personalized-level identification would enable remote, continuous, and real-time assessment of stuttering children's physiological arousal, which may lead to personalized, just-in-time interventions, resulting in an improvement in speech fluency. The presented MI-MIL approach is novel, generalizable to different domains, and real-time executable. Finally, comprehensive evaluations are done on multiple datasets, presented framework, and several baselines that identified notable insights on CWSs' physiological arousal during speech production. | 翻訳日:2022-08-28 22:28:28 公開日:2022-08-03 |
# dalle-urban: 大きなテキストから画像トランスフォーマーまでの都市デザインの専門知識をとらえる DALLE-URBAN: Capturing the urban design expertise of large text to image transformers ( http://arxiv.org/abs/2208.04139v1 ) ライセンス: Link先を確認 | Sachith Seneviratne, Damith Senanayake, Sanka Rasnayaka, Rajith Vidanaarachchi and Jason Thompson | (参考訳) トランスフォーマーアーキテクチャを用いたテキスト記述の自動変換が注目されている。
このような進歩は、ファッション、芸術、建築、都市計画、ランドスケープデザイン、そしてそのような分野に利用できる将来のツールなど、多くの応用設計分野に影響を及ぼす。
しかし、これらのモデルの能力、特に構築された環境に焦点を当てた詳細な分析は、これまで行われていない。
本研究では,構築された環境に適用できるようなテキストから画像への手法の能力やバイアスについて詳細に検討する。
システム文法を用いて構築された環境に関するクエリを生成し,生成した画像を評価する。
我々は1020の異なる画像を生成し、テキストから画像への変換が、このユースケースのために異なる領域にわたる現実的な画像を生成するのに堅牢であることを示す。
生成した画像はgithub.com/sachith500/DALLEURBANで見ることができる。 Automatically converting text descriptions into images using transformer architectures has recently received considerable attention. Such advances have implications for many applied design disciplines across fashion, art, architecture, urban planning, landscape design and the future tools available to such disciplines. However, a detailed analysis capturing the capabilities of such models, specifically with a focus on the built environment, has not been performed to date. In this work, we investigate the capabilities and biases of such text-to-image methods as it applies to the built environment in detail. We use a systematic grammar to generate queries related to the built environment and evaluate resulting generated images. We generate 1020 different images and find that text to image transformers are robust at generating realistic images across different domains for this use-case. Generated imagery can be found at the github: https://github.com/sachith500/DALLEURBAN | 翻訳日:2022-08-14 18:13:52 公開日:2022-08-03 |
# CycleGANとランダムに生成されたデータセットを用いた白黒シルエット画像のスタイル転送 Style Transfer of Black and White Silhouette Images using CycleGAN and a Randomly Generated Dataset ( http://arxiv.org/abs/2208.04140v1 ) ライセンス: Link先を確認 | Worasait Suwannik | (参考訳) CycleGANは、芸術的なスタイルをイメージに転送するために使用することができる。
モデルのトレーニングには、ソースとスタイル化されたイメージのペアを必要としない。
この利点を生かして、白黒シルエット画像に伝統的なアートスタイルを転送できる機械学習モデルをランダムに生成したデータを用いて訓練する。
結果は従来のニューラルスタイルの転送方法よりも顕著に優れている。
しかし、変換された画像からアーティファクトやスパイクを取り除くなど、改善すべき領域がいくつかある。 CycleGAN can be used to transfer an artistic style to an image. It does not require pairs of source and stylized images to train a model. Taking this advantage, we propose using randomly generated data to train a machine learning model that can transfer traditional art style to a black and white silhouette image. The result is noticeably better than the previous neural style transfer methods. However, there are some areas for improvement, such as removing artifacts and spikes from the transformed image. | 翻訳日:2022-08-14 18:13:38 公開日:2022-08-03 |
# シームズニューラルネットワークを用いたグローバル特徴とローカル特徴を組み合わせたコンテンツベースランドマーク検索 Content-Based Landmark Retrieval Combining Global and Local Features using Siamese Neural Networks ( http://arxiv.org/abs/2208.04201v1 ) ライセンス: Link先を確認 | Tianyi Hu, Monika Kwiatkowski, Simon Matern, Olaf Hellwich | (参考訳) 本稿では,グローバルおよびローカル機能を活用したランドマーク検索手法を提案する。
siameseネットワークは、グローバル特徴抽出とメトリック学習に使われ、ランドマーク検索の最初のランキングを与える。
また,siamese アーキテクチャから抽出した特徴マップをローカル記述子として利用し,その結果をローカル記述子間のコサイン類似性を用いてさらに洗練する。
評価に使用されるGoogle Landmark Datasetのより深い分析を行い、さまざまなクラス内分散を処理するためにデータセットを拡張します。
さらに,移動学習とメートル法学習の効果を比較するためにいくつかの実験を行い,他の局所記述子を用いた実験を行った。
また,ローカル機能を用いた検索の順位変更により,検索結果が向上することを示す。
コサイン類似性を用いた局所的特徴抽出は,多くの検索タスクに拡張可能な単純な手法であると考えられる。 In this work, we present a method for landmark retrieval that utilizes global and local features. A Siamese network is used for global feature extraction and metric learning, which gives an initial ranking of the landmark search. We utilize the extracted feature maps from the Siamese architecture as local descriptors, the search results are then further refined using a cosine similarity between local descriptors. We conduct a deeper analysis of the Google Landmark Dataset, which is used for evaluation, and augment the dataset to handle various intra-class variances. Furthermore, we conduct several experiments to compare the effects of transfer learning and metric learning, as well as experiments using other local descriptors. We show that a re-ranking using local features can improve the search results. We believe that the proposed local feature extraction using cosine similarity is a simple approach that can be extended to many other retrieval tasks. | 翻訳日:2022-08-14 18:12:56 公開日:2022-08-03 |
# HKLIIに関する裁判所判決 Court Judgement Labeling on HKLII ( http://arxiv.org/abs/2208.04225v1 ) ライセンス: Link先を確認 | Yuchen Liu, Ben Kao, Michael MK Cheung, Tien-Hsuan Wu | (参考訳) HKLIIは香港で10年間、法的文書の保管所として機能してきた。
弊社のチームは、NLPの技術をWebサイトに取り入れて、よりインテリジェントにすることを目指している。
この目標を達成するために、この個々のタスクは、各裁判所の判断をいくつかのタグでラベル付けることである。
これらのタグは、判断を要約するために法的に重要であり、ユーザに同様の判断を導くことができる。
本稿では,アスペクト駆動のトピックモデリングから始まって,句生成に係り受け解析と構成構文解析を用いるヒューリスティックシステムを提案する。
また,香港の法律用語ツリーを構築し,そのシステムをサポートする文単純化モジュールを実装した。
最後に,生成タグに基づく類似文書推薦アルゴリズムを提案する。
パス全体ではなく、いくつかの選択された側面に基づいて、ユーザが類似したドキュメントを見つけることができる。
実験結果から,本システムは特定のタスクに最適であることがわかった。
文書の要約という観点からは,単純な用語抽出法よりも優れており,全文比較法よりも推奨アルゴリズムの方が有効である。
我々は、このシステムは法律だけでなく他の分野でも大きな可能性を秘めていると信じている。 HKLII has served as the repository of legal documents in Hong Kong for a decade. Our team aims to incorporate NLP techniques into the website to make it more intelligent. To achieve this goal, this individual task is to label each court judgement by some tags. These tags are legally important to summarize the judgement and can guide the user to similar judgements. We introduce a heuristic system to solve the problem, which starts from Aspect-driven Topic Modeling and uses Dependency Parsing and Constituency Parsing for phrase generation. We also construct a legal term tree for Hong Kong and implemented a sentence simplification module to support the system. Finally, we propose a similar document recommendation algorithm based on the generated tags. It enables users to find similar documents based on a few selected aspects rather than the whole passage. Experiment results show that this system is the best approach for this specific task. It is better than simple term extraction method in terms of summarizing the document, and the recommendation algorithm is more effective than full-text comparison approaches. We believe that the system has huge potential in law as well as in other areas. | 翻訳日:2022-08-14 18:12:13 公開日:2022-08-03 |
# 視線後虹彩認識のための人体容積駆動型パッチベースマッチング Human Saliency-Driven Patch-based Matching for Interpretable Post-mortem Iris Recognition ( http://arxiv.org/abs/2208.03138v1 ) ライセンス: Link先を確認 | Aidan Boyd, Daniel Moreira, Andrey Kuehlkamp, Kevin Bowyer, Adam Czajka | (参考訳) 法医学的な虹彩認識は、生の虹彩認識とは対照的に、虹彩生体認証の識別能力を利用して、被検者を特定する努力を支援する新たな研究分野である。
主に人間が制御するタスクにおける機械学習に基づく技術として、法医学的認識は、死後の識別タスクにおける人間の専門知識の「バックアップ」として機能する。
そのため、機械学習モデルは必要である。
(a)解釈可能で
b) 失明後の眼組織の変化を考慮に入れた。
本研究では,両要件を満たす手法を提案し,人間の知覚を取り入れた新しい方法として,死後特徴抽出器の開発にアプローチする。
われわれはまず,ヒトが強調した画像領域のアノテーションを用いて,死後虹彩画像の深層学習に基づく特徴検出器を訓練する。
この手法は、純粋にデータ駆動機能ではなく、人間から直接解釈可能な特徴を学習する。
第2に、検出されたアイリスパッチをペア化するために、地域アイリス符号(同様に人間によるフィルタリングカーネル)が使用され、パッチベースの比較スコアに変換される。
そこで本手法では,人間の視覚的手がかりを提示し,識別決定とそれに対応する信頼度を正当化する。
259人の死亡者から収集された死後の虹彩画像のデータセット上でテストすると、提案手法は3つの最も優れた虹彩照合器のうちの1つとなり、商業的(非人間解釈可能な)ヴェリアイアプローチよりも優れた結果を示す。
本研究では,法医学的検査の文脈で使用するために,ヒトの唾液度で訓練した独自の死後虹彩認識手法を提案する。 Forensic iris recognition, as opposed to live iris recognition, is an emerging research area that leverages the discriminative power of iris biometrics to aid human examiners in their efforts to identify deceased persons. As a machine learning-based technique in a predominantly human-controlled task, forensic recognition serves as "back-up" to human expertise in the task of post-mortem identification. As such, the machine learning model must be (a) interpretable, and (b) post-mortem-specific, to account for changes in decaying eye tissue. In this work, we propose a method that satisfies both requirements, and that approaches the creation of a post-mortem-specific feature extractor in a novel way employing human perception. We first train a deep learning-based feature detector on post-mortem iris images, using annotations of image regions highlighted by humans as salient for their decision making. In effect, the method learns interpretable features directly from humans, rather than purely data-driven features. Second, regional iris codes (again, with human-driven filtering kernels) are used to pair detected iris patches, which are translated into pairwise, patch-based comparison scores. In this way, our method presents human examiners with human-understandable visual cues in order to justify the identification decision and corresponding confidence score. When tested on a dataset of post-mortem iris images collected from 259 deceased subjects, the proposed method places among the three best iris matchers, demonstrating better results than the commercial (non-human-interpretable) VeriEye approach. We propose a unique post-mortem iris recognition method trained with human saliency to give fully-interpretable comparison outcomes for use in the context of forensic examination, achieving state-of-the-art recognition performance. | 翻訳日:2022-08-08 12:40:14 公開日:2022-08-03 |
# 多様体学習による音声からの視覚情報推定 Estimating Visual Information From Audio Through Manifold Learning ( http://arxiv.org/abs/2208.02337v1 ) ライセンス: Link先を確認 | Fabrizio Pedersoli, Dryden Wiebe, Amin Banitalebi, Yong Zhang and Kwang Moo Yi | (参考訳) 音声信号のみを用いてシーンの視覚情報を抽出する新しいフレームワークを提案する。
オーディオベースの手法は、視覚ベースの手法のいくつかの制限、すなわち「視線」を必要とせず、閉塞や照明の変化に対して堅牢であり、視覚/ライダーセンサーが故障した場合のバックアップとして機能する。
したがって,視覚情報のみを興味のあるアプリケーションにおいても,音声に基づく手法が有用であり,このフレームワークはマニフォールド学習をベースとしており,二つのステップから構成される。
まず、ベクトル量子化された変分オートエンコーダを訓練し、関心のある特定の視覚モダリティのデータ多様体を学ぶ。
第2に、マルチチャンネル音声信号を対応する視覚サンプルの潜在表現にマッピングするために、オーディオ変換ネットワークを訓練する。
提案手法は,音声/視覚データセットを用いて音声から有意義な画像を生成することができることを示す。
特に,音声の深度とセマンティックセグメンテーションによる次の視覚的モーダルの予測について考察する。
本研究の結果が,音声からの視覚情報抽出のさらなる研究に役立つことを期待する。
コードはhttps://github.com/ubc-vision/audio_manifold.com/で入手できる。 We propose a new framework for extracting visual information about a scene only using audio signals. Audio-based methods can overcome some of the limitations of vision-based methods i.e., they do not require "line-of-sight", are robust to occlusions and changes in illumination, and can function as a backup in case vision/lidar sensors fail. Therefore, audio-based methods can be useful even for applications in which only visual information is of interest Our framework is based on Manifold Learning and consists of two steps. First, we train a Vector-Quantized Variational Auto-Encoder to learn the data manifold of the particular visual modality we are interested in. Second, we train an Audio Transformation network to map multi-channel audio signals to the latent representation of the corresponding visual sample. We show that our method is able to produce meaningful images from audio using a publicly available audio/visual dataset. In particular, we consider the prediction of the following visual modalities from audio: depth and semantic segmentation. We hope the findings of our work can facilitate further research in visual information extraction from audio. Code is available at: https://github.com/ubc-vision/audio_manifold. | 翻訳日:2022-08-05 13:10:04 公開日:2022-08-03 |
# セキュアアグリゲーションによる連合学習のプライバシはどの程度か? How Much Privacy Does Federated Learning with Secure Aggregation Guarantee? ( http://arxiv.org/abs/2208.02304v1 ) ライセンス: Link先を確認 | Ahmed Roushdy Elkordy, Jiang Zhang, Yahya H. Ezzeldin, Konstantinos Psounis, Salman Avestimehr | (参考訳) フェデレーテッド・ラーニング(FL)は、複数のユーザに保存されたデータに対して、データをオフデバイスから移動することを避けながら、プライバシ保護機械学習を可能にすることへの関心が高まっている。
しかしながら、データはユーザのデバイスを離れることはないが、トレーニングデータのかなりの計算が訓練されたローカルモデル形式で共有されるため、プライバシは保証されない。
これらのローカルモデルは、モデル反転攻撃のような異なるプライバシ攻撃を通じて、重大なプライバシー脅威を引き起こすことが最近示されている。
修正として、セキュアアグリゲーション(sa)は、個々のモデルのアップデートではなく、サーバがグローバルなアグリゲーションモデルのアップデートのみを学習できることを保証することによって、flのプライバシを保護するフレームワークとして開発された。
SAは、集計されたモデル更新以外の個々のモデルアップデートに関する追加情報がリークされることを保証するが、SAとのプライバシFLが実際に提供できる量に関する正式な保証はない。
本研究では, FL と SA との正式なプライバシー保証に関する最初の分析を行う。
具体的には、MI(Mutual Information)を定量化指標として使用し、集約されたモデル更新を通じて、各ユーザのデータセットに関する情報がどの程度漏洩するかの上限を導出する。
FedSGDアグリゲーションアルゴリズムを使用すると、私たちの理論的境界は、プライバシー漏洩の量が、SAとFLに参加しているユーザ数とともに線形に減少することを示している。
理論的境界を検証するために、MI Neural Estimatorを使用して、MNISTおよびCIFAR10データセットの異なるFLセットアップ下でのプライバシー漏洩を経験的に評価する。
実験では,ユーザ数の増加とローカルバッチサイズの増加に伴ってプライバシー漏洩が減少し,トレーニングラウンド数の増加に伴い,プライバシリークが増大するFedSGDの理論的限界を検証した。 Federated learning (FL) has attracted growing interest for enabling privacy-preserving machine learning on data stored at multiple users while avoiding moving the data off-device. However, while data never leaves users' devices, privacy still cannot be guaranteed since significant computations on users' training data are shared in the form of trained local models. These local models have recently been shown to pose a substantial privacy threat through different privacy attacks such as model inversion attacks. As a remedy, Secure Aggregation (SA) has been developed as a framework to preserve privacy in FL, by guaranteeing the server can only learn the global aggregated model update but not the individual model updates. While SA ensures no additional information is leaked about the individual model update beyond the aggregated model update, there are no formal guarantees on how much privacy FL with SA can actually offer; as information about the individual dataset can still potentially leak through the aggregated model computed at the server. In this work, we perform a first analysis of the formal privacy guarantees for FL with SA. Specifically, we use Mutual Information (MI) as a quantification metric and derive upper bounds on how much information about each user's dataset can leak through the aggregated model update. When using the FedSGD aggregation algorithm, our theoretical bounds show that the amount of privacy leakage reduces linearly with the number of users participating in FL with SA. To validate our theoretical bounds, we use an MI Neural Estimator to empirically evaluate the privacy leakage under different FL setups on both the MNIST and CIFAR10 datasets. Our experiments verify our theoretical bounds for FedSGD, which show a reduction in privacy leakage as the number of users and local batch size grow, and an increase in privacy leakage with the number of training rounds. | 翻訳日:2022-08-05 13:08:50 公開日:2022-08-03 |
# 安全保証を考慮した微分可能予測制御:制御障壁関数アプローチ Differentiable Predictive Control with Safety Guarantees: A Control Barrier Function Approach ( http://arxiv.org/abs/2208.02319v1 ) ライセンス: Link先を確認 | Wenceslao Shaw Cortez, Jan Drgona, Aaron Tuor, Mahantesh Halappanavar, Draguna Vrabie | (参考訳) 我々は,制御障壁関数に基づく安全性と堅牢性を保証する新しい形態の微分可能予測制御(DPC)を開発した。
DPCは、明示的モデル予測制御(MPC)問題に対する近似解を得るための教師なし学習に基づく手法である。
DPCでは、ニューラルネットワークによってパラメータ化された予測制御ポリシを、MPC問題の自動微分によって得られる直接ポリシー勾配を介してオフラインに最適化する。
提案手法では、サンプルデータバリア関数の新たな形式を活用して、安全セットの境界付近でニューラルネットワークベースのコントローラを中断するのみながら、DPC設定のオフラインおよびオンラインの安全要件を強制する。
提案手法の有効性をシミュレーションにより実証した。 We develop a novel form of differentiable predictive control (DPC) with safety and robustness guarantees based on control barrier functions. DPC is an unsupervised learning-based method for obtaining approximate solutions to explicit model predictive control (MPC) problems. In DPC, the predictive control policy parametrized by a neural network is optimized offline via direct policy gradients obtained by automatic differentiation of the MPC problem. The proposed approach exploits a new form of sampled-data barrier function to enforce offline and online safety requirements in DPC settings while only interrupting the neural network-based controller near the boundary of the safe set. The effectiveness of the proposed approach is demonstrated in simulation. | 翻訳日:2022-08-05 13:08:16 公開日:2022-08-03 |
# GROWN+UP:事前学習を利用したWebページネットワークのグラフ表現 GROWN+UP: A Graph Representation Of a Webpage Network Utilizing Pre-training ( http://arxiv.org/abs/2208.02252v1 ) ライセンス: Link先を確認 | Benedict Yeoh and Huijuan Wang | (参考訳) トレーニング済みの大きなニューラルネットワークはユビキタスであり、自然言語処理やコンピュータビジョンにおける多くの下流タスクの成功に不可欠である。
しかし、Web情報検索の分野では、Webページを適切に解析できる、同じように柔軟で強力な事前学習モデルが欠如している。
その結果、コンテンツ抽出やWebページからの情報マイニングといった一般的な機械学習タスクは、まだ未解決のままの低い利得をもたらすと信じている。
我々は、Webページ構造を取り込み、大量のラベル付きデータに基づいて事前訓練を行い、Webページ上の任意のタスクに効果的に調整できる、非依存のディープグラフニューラルネットワーク特徴抽出器を導入することにより、ギャップを埋めることを目指している。
最後に,我々の事前学習モデルが,webページのボイラープレート除去とジャンル分類という,非常に異なる2つのベンチマークで,複数のデータセットを用いて最先端の結果が得られることを示す。 Large pre-trained neural networks are ubiquitous and critical to the success of many downstream tasks in natural language processing and computer vision. However, within the field of web information retrieval, there is a stark contrast in the lack of similarly flexible and powerful pre-trained models that can properly parse webpages. Consequently, we believe that common machine learning tasks like content extraction and information mining from webpages have low-hanging gains that yet remain untapped. We aim to close the gap by introducing an agnostic deep graph neural network feature extractor that can ingest webpage structures, pre-train self-supervised on massive unlabeled data, and fine-tune to arbitrary tasks on webpages effectually. Finally, we show that our pre-trained model achieves state-of-the-art results using multiple datasets on two very different benchmarks: webpage boilerplate removal and genre classification, thus lending support to its potential application in diverse downstream tasks. | 翻訳日:2022-08-05 13:04:20 公開日:2022-08-03 |
# マルウェア検出のための安全で堅牢な認知システムの設計 Design of secure and robust cognitive system for malware detection ( http://arxiv.org/abs/2208.02310v1 ) ライセンス: Link先を確認 | Sanket Shukla | (参考訳) 機械学習に基づくマルウェア検出技術は、マルウェアのグレースケール画像に依存しており、グレーカル画像のテクスチャの分布に基づいてマルウェアを分類する傾向がある。
機械学習の技術が示す進歩と有望な結果に加えて、攻撃者は敵のサンプルを生成することで脆弱性を悪用することができる。
インプットサンプルに摂動をインテリジェントに作り、付加することで、敵対するサンプルを生成する。
ソフトウェアベースの敵対的攻撃や防御の多くは存在する。
敵に対抗するため、機械学習とグレースケール画像に基づく既存のマルウェア検出には、敵データに対する前処理が必要である。
これによりオーバーヘッドが増大し、リアルタイムのマルウェア検出が長引く可能性がある。
そこで、これに代わるものとして、RRAM(Resistive Random Access Memory)ベースの敵に対する防御について検討する。
したがって、この論文の目的は、上記の重要なシステムセキュリティ問題に対処することである。
上記の課題は、安全で堅牢な認知システムを設計するための提案手法を示すことによって解決される。
まず,ステルスマルウェアを検出する新しい手法を提案する。
この技術はマルウェアのバイナリイメージを使用し、異なる特徴を抽出し、得られたデータセットに異なるML分類器を使用する。
その結果,この手法は,抽出した特徴に基づくマルウェアの分類に有効であることがわかった。
次に,学習アルゴリズムとデバイス特性の異なる再構成可能なrram-neuromorphicアーキテクチャに対する敵意攻撃の効果を実証する。
また、再構成可能なRRAMアーキテクチャを用いて、敵攻撃の効果を緩和する統合ソリューションを提案する。 Machine learning based malware detection techniques rely on grayscale images of malware and tends to classify malware based on the distribution of textures in graycale images. Albeit the advancement and promising results shown by machine learning techniques, attackers can exploit the vulnerabilities by generating adversarial samples. Adversarial samples are generated by intelligently crafting and adding perturbations to the input samples. There exists majority of the software based adversarial attacks and defenses. To defend against the adversaries, the existing malware detection based on machine learning and grayscale images needs a preprocessing for the adversarial data. This can cause an additional overhead and can prolong the real-time malware detection. So, as an alternative to this, we explore RRAM (Resistive Random Access Memory) based defense against adversaries. Therefore, the aim of this thesis is to address the above mentioned critical system security issues. The above mentioned challenges are addressed by demonstrating proposed techniques to design a secure and robust cognitive system. First, a novel technique to detect stealthy malware is proposed. The technique uses malware binary images and then extract different features from the same and then employ different ML-classifiers on the dataset thus obtained. Results demonstrate that this technique is successful in differentiating classes of malware based on the features extracted. Secondly, I demonstrate the effects of adversarial attacks on a reconfigurable RRAM-neuromorphic architecture with different learning algorithms and device characteristics. I also propose an integrated solution for mitigating the effects of the adversarial attack using the reconfigurable RRAM architecture. | 翻訳日:2022-08-05 13:04:04 公開日:2022-08-03 |
# 航空機エンジンシミュレーションにおけるコントラルの可視化と検出 Visual Analysis and Detection of Contrails in Aircraft Engine Simulations ( http://arxiv.org/abs/2208.02321v1 ) ライセンス: Link先を確認 | Nafiul Nipu, Carla Floricel, Negar Naghashzadeh, Roberto Paoli, G. Elisabeta Marai | (参考訳) コントライル(contrail)は、航空機のエンジンから放出された粒子から発生する凝縮軌道であり、地球の放射収支を揺るがす。
シミュレーションモデリングは、コントラルの形成と発達を解釈するために用いられる。
これらのシミュレーションは計算集約的で高性能な計算ソリューションに依存しており、反則構造は十分に定義されていない。
本稿では,コントラティルとその特性,ならびに計算機生成航空機エンジンシミュレーションのパラメータ解析を支援するビジュアルコンピューティングシステムを提案する。
本システムのバックエンドは, 反則形成基準とクラスタリング法を利用して, 反則の形状と進化を検知し, 類似したシミュレーション実行を同定する。
フロントエンドシステムは、複数のシミュレーションランでコントラルとそのパラメータを分析するのに役立つ。
ドメインの専門家による評価は、このアプローチが反則データ調査に有効であることを示している。 Contrails are condensation trails generated from emitted particles by aircraft engines, which perturb Earth's radiation budget. Simulation modeling is used to interpret the formation and development of contrails. These simulations are computationally intensive and rely on high-performance computing solutions, and the contrail structures are not well defined. We propose a visual computing system to assist in defining contrails and their characteristics, as well as in the analysis of parameters for computer-generated aircraft engine simulations. The back-end of our system leverages a contrail-formation criterion and clustering methods to detect contrails' shape and evolution and identify similar simulation runs. The front-end system helps analyze contrails and their parameters across multiple simulation runs. The evaluation with domain experts shows this approach successfully aids in contrail data investigation. | 翻訳日:2022-08-05 13:03:42 公開日:2022-08-03 |
# 生体モデル選択のための最適確率自由法 An Optimal Likelihood Free Method for Biological Model Selection ( http://arxiv.org/abs/2208.02344v1 ) ライセンス: Link先を確認 | Vincent D. Zaballa and Elliot E. Hui | (参考訳) システム生物学は、生物学的複雑性を低減し、治療開発のような応用のための予測を提供する生物学的システムの数学モデルの作成を目指している。
しかし、どの数学モデルが正しいか、どのように最適に解くかを決定することは依然として課題である。
本稿では,システム生物学の数学的モデルと確率自由推論手法を用いた自動生体モデル選択アルゴリズムを提案する。
提案アルゴリズムは, 実験生物学やランダム探索で用いられる従来のヒューリスティックスよりも, 事前情報のない正しいモデルに到達する際の性能向上を示す。
この方法は生物学的基礎科学と薬物発見を加速させる。 Systems biology seeks to create math models of biological systems to reduce inherent biological complexity and provide predictions for applications such as therapeutic development. However, it remains a challenge to determine which math model is correct and how to arrive optimally at the answer. We present an algorithm for automated biological model selection using mathematical models of systems biology and likelihood free inference methods. Our algorithm shows improved performance in arriving at correct models without a priori information over conventional heuristics used in experimental biology and random search. This method shows promise to accelerate biological basic science and drug discovery. | 翻訳日:2022-08-05 12:58:10 公開日:2022-08-03 |
# ハイパースペクトルアンミックスのためのマルチブランチ畳み込みニューラルネットワーク A Multibranch Convolutional Neural Network for Hyperspectral Unmixing ( http://arxiv.org/abs/2208.02361v1 ) ライセンス: Link先を確認 | Lukasz Tulczyjew, Michal Kawulok, Nicolas Long\'ep\'e, Bertrand Le Saux, Jakub Nalepa | (参考訳) ハイパースペクトルアンミックスは、そのようなデータ分析において最も難しいタスクの1つです。
深層学習はこの分野で開花しており、他の古典的な未混合技術よりも優れており、ハイパースペクトル画像装置を備えた地球観測衛星に効果的に展開することができる。
本稿では, この研究経路に従い, 未混合過程におけるスペクトル, 空間, スペクトル空間の特徴を融合する多分岐畳み込みニューラルネットワークを提案する。
アブレーション研究に裏付けられた実験の結果から,本手法は他の文献よりも優れており,高品質な分画量推定に繋がることが明らかとなった。
また,特に新興地球観測シナリオにおいて,大規模かつ代表的な地中集合の捕捉には時間がかかり,コストがかかるため,すべてのアルゴリズムの能力と雑音に対する頑健性にトレーニングセットの削減が与える影響について検討した。 Hyperspectral unmixing remains one of the most challenging tasks in the analysis of such data. Deep learning has been blooming in the field and proved to outperform other classic unmixing techniques, and can be effectively deployed onboard Earth observation satellites equipped with hyperspectral imagers. In this letter, we follow this research pathway and propose a multi-branch convolutional neural network that benefits from fusing spectral, spatial, and spectral-spatial features in the unmixing process. The results of our experiments, backed up with the ablation study, revealed that our techniques outperform others from the literature and lead to higher-quality fractional abundance estimation. Also, we investigated the influence of reducing the training sets on the capabilities of all algorithms and their robustness against noise, as capturing large and representative ground-truth sets is time-consuming and costly in practice, especially in emerging Earth observation scenarios. | 翻訳日:2022-08-05 12:57:58 公開日:2022-08-03 |
# 歌詞における性バイアスと性差別の大規模分析 Large scale analysis of gender bias and sexism in song lyrics ( http://arxiv.org/abs/2208.02052v1 ) ライセンス: Link先を確認 | Lorenzo Betti, Carlo Abrate, Andreas Kaltenbrunner | (参考訳) 我々は「200万曲データベース」コーパスから377808の英語歌詞を解析するために自然言語処理技術を用いて、性差別の表現(1960-2010年)と性バイアスの測定に焦点を当てた。
性差別分類器を用いて、手動で注釈付けされたポピュラーソングの小さなサンプルを用いて、過去の研究よりも大規模な性差別的歌詞を同定する。
さらに,歌詞から学習した単語埋め込みの関連を計測し,性別バイアスを明らかにする。
セクシーなコンテンツは、特に男性アーティストや、ビルボードのチャートに登場する人気曲から、時間とともに増えていくだろう。
歌は演奏者の性別によって異なる言語バイアスを含むことも示されており、男性ソロアーティストの歌はより強いバイアスを含む。
これはこのタイプの大規模な分析としては初めてであり、大衆文化の影響力のある部分における言語使用について洞察を与えている。 We employ Natural Language Processing techniques to analyse 377808 English song lyrics from the "Two Million Song Database" corpus, focusing on the expression of sexism across five decades (1960-2010) and the measurement of gender biases. Using a sexism classifier, we identify sexist lyrics at a larger scale than previous studies using small samples of manually annotated popular songs. Furthermore, we reveal gender biases by measuring associations in word embeddings learned on song lyrics. We find sexist content to increase across time, especially from male artists and for popular songs appearing in Billboard charts. Songs are also shown to contain different language biases depending on the gender of the performer, with male solo artist songs containing more and stronger biases. This is the first large scale analysis of this type, giving insights into language usage in such an influential part of popular culture. | 翻訳日:2022-08-05 12:53:21 公開日:2022-08-03 |
# v2iネットワーク選択と自律運転政策のための強化学習 Reinforcement Learning for Joint V2I Network Selection and Autonomous Driving Policies ( http://arxiv.org/abs/2208.02249v1 ) ライセンス: Link先を確認 | Zijiang Yan and Hina Tabassum | (参考訳) 自動運転車(AV)の信頼性を高めるために、V2I通信が重要になっている。
しかし、道路交通とAVの無線接続の不確実性は、時間的決定を著しく損なう可能性がある。
したがって、通信データレートを最大化しつつ道路衝突を最小限に抑えるために、avsのネットワーク選択と運転ポリシーを同時に最適化することが重要である。
本稿では,従来のサブ6GHz帯とテラヘルツ(THz)周波数で動作するマルチバンド車両ネットワーク(VNet)において,効率的なネットワーク選択と自律運転ポリシーを特徴付ける強化学習フレームワークを開発する。
提案するフレームワークは設計されている
(i)自律走行の観点から車両の運動力学(すなわち速度と加速)を制御し、交通の流れを最大化し衝突を最小限に抑えること。
(ii)テレコミュニケーションの観点から車両の動作ダイナミクスとネットワーク選択を共同で制御することにより、データレートを最大化し、ハンドオフを最小化する。
我々は,この問題をマルコフ決定プロセス(MDP)として実装し,与えられたAV状態に対する加速度,減速,車線変更,AVベースステーション割り当てなどの動作を最適化する深層Q-ラーニングベースのソリューションを開発した。
AVの状態は、AVの速度と通信チャネル状態に基づいて定義される。
数値実験の結果,車両の動特性,ハンドオフ,通信データ速度の相互依存性に関する興味深い知見が得られた。
提案されたポリシーにより、AVは接続性を改善した安全な運転行動を採用することができる。 Vehicle-to-Infrastructure (V2I) communication is becoming critical for the enhanced reliability of autonomous vehicles (AVs). However, the uncertainties in the road-traffic and AVs' wireless connections can severely impair timely decision-making. It is thus critical to simultaneously optimize the AVs' network selection and driving policies in order to minimize road collisions while maximizing the communication data rates. In this paper, we develop a reinforcement learning (RL) framework to characterize efficient network selection and autonomous driving policies in a multi-band vehicular network (VNet) operating on conventional sub-6GHz spectrum and Terahertz (THz) frequencies. The proposed framework is designed to (i) maximize the traffic flow and minimize collisions by controlling the vehicle's motion dynamics (i.e., speed and acceleration) from autonomous driving perspective, and (ii) maximize the data rates and minimize handoffs by jointly controlling the vehicle's motion dynamics and network selection from telecommunication perspective. We cast this problem as a Markov Decision Process (MDP) and develop a deep Q-learning based solution to optimize the actions such as acceleration, deceleration, lane-changes, and AV-base station assignments for a given AV's state. The AV's state is defined based on the velocities and communication channel states of AVs. Numerical results demonstrate interesting insights related to the inter-dependency of vehicle's motion dynamics, handoffs, and the communication data rate. The proposed policies enable AVs to adopt safe driving behaviors with improved connectivity. | 翻訳日:2022-08-05 12:53:03 公開日:2022-08-03 |
# HiCu: 自動ICD符号化におけるカリキュラム学習の階層化 HiCu: Leveraging Hierarchy for Curriculum Learning in Automated ICD Coding ( http://arxiv.org/abs/2208.02301v1 ) ライセンス: Link先を確認 | Weiming Ren, Ruijing Zeng, Tongzi Wu, Tianshu Zhu, Rahul G. Krishnan | (参考訳) 医療の自動化には、臨床医のスループットを向上させるいくつかの機会がある。
そのような例としては、臨床医がメモを書く際に診断コードを文書化する補助ツールがある。
本稿では,学習課題の難易度を徐々に向上させる機械学習モデルのトレーニング戦略であるカリキュラム学習を用いて,医療コード予測の自動化について検討する。
カリキュラム学習における課題の1つは、カリキュラムのデザイン、すなわち、徐々に困難が増すタスクの逐次設計である。
マルチラベル分類のためのカリキュラム設計において,出力空間におけるグラフ構造を用いた階層型カリキュラム学習(HiCu)を提案する。
我々は、患者の自然言語記述からICD診断および手順コードを予測するマルチラベル分類モデルのためのカリキュラムを作成する。
人体における様々な臓器系に基づく診断符号をグループ化するICD符号の階層構造を利用して,提案するカリキュラムは,反復的,畳み込み的,変圧器的アーキテクチャにわたるニューラルネットワークに基づく予測モデルの一般化を改善する。
私たちのコードはhttps://github.com/wren93/HiCu-ICDで公開されています。 There are several opportunities for automation in healthcare that can improve clinician throughput. One such example is assistive tools to document diagnosis codes when clinicians write notes. We study the automation of medical code prediction using curriculum learning, which is a training strategy for machine learning models that gradually increases the hardness of the learning tasks from easy to difficult. One of the challenges in curriculum learning is the design of curricula -- i.e., in the sequential design of tasks that gradually increase in difficulty. We propose Hierarchical Curriculum Learning (HiCu), an algorithm that uses graph structure in the space of outputs to design curricula for multi-label classification. We create curricula for multi-label classification models that predict ICD diagnosis and procedure codes from natural language descriptions of patients. By leveraging the hierarchy of ICD codes, which groups diagnosis codes based on various organ systems in the human body, we find that our proposed curricula improve the generalization of neural network-based predictive models across recurrent, convolutional, and transformer-based architectures. Our code is available at https://github.com/wren93/HiCu-ICD. | 翻訳日:2022-08-05 12:52:41 公開日:2022-08-03 |
# 動的制約を用いたニューラルODEにおける物理系の誘導バイアスの統一 Unifying physical systems' inductive biases in neural ODE using dynamics constraints ( http://arxiv.org/abs/2208.02632v1 ) ライセンス: Link先を確認 | Yi Heng Lim, Muhammad Firmansyah Kasim | (参考訳) エネルギーの保存は多くの物理現象と力学系の核心にある。
エネルギーの保存の法則に固執しつつ、ニューラルネットワークを用いて力学系の運動の軌跡を予測することを目的として、ここ数年でかなりの数の研究がなされている。
これらの作品の多くは、ハミルトン力学やラグランジュ力学やニューラル正規微分方程式のような古典力学に触発されている。
これらの研究は、それぞれ特定の領域でうまく機能することが示されているが、ニューラルネットワークアーキテクチャに大きな変更を加えることなく、より一般的に適用できる統一メソッドが欠如している。
本研究では, エネルギー保存システムだけでなく, 散逸システムにも適用可能な簡易な方法を提供し, 損失関数の正規化項という形で, 異なるケースにおける異なる帰納的バイアスを組み込むことによって, この問題に対処することを目的とする。
提案手法では、ニューラルネットワークアーキテクチャを変更する必要はなく、新しいアイデアを検証する基礎を形成することができるため、この方向の研究を加速する公約を示すことができる。 Conservation of energy is at the core of many physical phenomena and dynamical systems. There have been a significant number of works in the past few years aimed at predicting the trajectory of motion of dynamical systems using neural networks while adhering to the law of conservation of energy. Most of these works are inspired by classical mechanics such as Hamiltonian and Lagrangian mechanics as well as Neural Ordinary Differential Equations. While these works have been shown to work well in specific domains respectively, there is a lack of a unifying method that is more generally applicable without requiring significant changes to the neural network architectures. In this work, we aim to address this issue by providing a simple method that could be applied to not just energy-conserving systems, but also dissipative systems, by including a different inductive bias in different cases in the form of a regularisation term in the loss function. The proposed method does not require changing the neural network architecture and could form the basis to validate a novel idea, therefore showing promises to accelerate research in this direction. | 翻訳日:2022-08-05 12:51:45 公開日:2022-08-03 |
# 運動境界近傍の教師なし流動微細化 Unsupervised Flow Refinement near Motion Boundaries ( http://arxiv.org/abs/2208.02305v1 ) ライセンス: Link先を確認 | Shuzhi Yu, Hannah Halin Kim, Shuai Yuan, Carlo Tomasi | (参考訳) 深層学習に基づく教師なし光流推定器は, 地平への注記のコストと困難さから注目されている。
平均端点誤差(epe)によって測定された性能は長年にわたって改善されてきたが、一般的に想定されるように流れが滑らかではなく、ニューラルネットワークによって計算される特徴が複数の動きによって汚染される動き境界(mbs)に沿ったフロー推定は依然として貧弱である。
教師なし設定のフローを改善するために,境界候補に沿った視覚的変化を分析し,検出に近い動きを遠くの動きに置き換えることで,MBを検出するフレームワークを設計する。
提案アルゴリズムは,同じ入力を持つベースライン法よりも精度の高い境界検出を行い,任意のフロー予測器からの推定値を改善することができる。 Unsupervised optical flow estimators based on deep learning have attracted increasing attention due to the cost and difficulty of annotating for ground truth. Although performance measured by average End-Point Error (EPE) has improved over the years, flow estimates are still poorer along motion boundaries (MBs), where the flow is not smooth, as is typically assumed, and where features computed by neural networks are contaminated by multiple motions. To improve flow in the unsupervised settings, we design a framework that detects MBs by analyzing visual changes along boundary candidates and replaces motions close to detections with motions farther away. Our proposed algorithm detects boundaries more accurately than a baseline method with the same inputs and can improve estimates from any flow predictor without additional training. | 翻訳日:2022-08-05 12:35:56 公開日:2022-08-03 |
# 有害アルガルブルームの効率的なモニタリングのための大規模合成植物プランクトンデータセットの作成に向けて Towards Generating Large Synthetic Phytoplankton Datasets for Efficient Monitoring of Harmful Algal Blooms ( http://arxiv.org/abs/2208.02332v1 ) ライセンス: Link先を確認 | Nitpreet Bamra, Vikram Voleti, Alexander Wong, Jason Deglint | (参考訳) 気候変動は有害な藻類(HABs)の頻度と重症度を高めており、養殖農場で魚の死亡が著しい。
これは海洋汚染と温室効果ガス(ghg)の排出に寄与するが、これは死んだ魚が海に投棄されたり埋め立てられたりすることで、気候に悪影響を及ぼす。
現在、有害藻類やその他の植物プランクトンを列挙する標準的な方法は、顕微鏡で手動で観察し数えることである。
これは時間を要する、退屈で、エラーを起こしやすいプロセスであり、結果として農家による管理上の決定が損なわれる。
したがって、このプロセスを迅速かつ正確なHABモニタリングのために自動化することは極めて有用である。
しかし、これには大規模で多様な植物プランクトン画像のデータセットが必要であり、このようなデータセットを迅速に作成することは困難である。
本研究では,複数の種を同一画像に含む新しい高分解能光合成植物プランクトン画像の作成の可能性について検討する。
そこで我々は、GAN(Generative Adversarial Networks)を用いて合成画像を生成する。
我々は,標準画像品質指標を用いてprojectedgan,fastgan,styleganv2の3種類のganアーキテクチャを評価した。
実画像961のトレーニングデータセットを用いて,高忠実度合成植物プランクトン画像の生成実験を行った。
そこで本研究では,gansが小規模のトレーニングデータセットから植物プランクトンの大規模な合成データセットを作成できることを示し,有害藻類群集の持続的系統的監視に向けた重要なステップを明らかにした。 Climate change is increasing the frequency and severity of harmful algal blooms (HABs), which cause significant fish deaths in aquaculture farms. This contributes to ocean pollution and greenhouse gas (GHG) emissions since dead fish are either dumped into the ocean or taken to landfills, which in turn negatively impacts the climate. Currently, the standard method to enumerate harmful algae and other phytoplankton is to manually observe and count them under a microscope. This is a time-consuming, tedious and error-prone process, resulting in compromised management decisions by farmers. Hence, automating this process for quick and accurate HAB monitoring is extremely helpful. However, this requires large and diverse datasets of phytoplankton images, and such datasets are hard to produce quickly. In this work, we explore the feasibility of generating novel high-resolution photorealistic synthetic phytoplankton images, containing multiple species in the same image, given a small dataset of real images. To this end, we employ Generative Adversarial Networks (GANs) to generate synthetic images. We evaluate three different GAN architectures: ProjectedGAN, FastGAN, and StyleGANv2 using standard image quality metrics. We empirically show the generation of high-fidelity synthetic phytoplankton images using a training dataset of only 961 real images. Thus, this work demonstrates the ability of GANs to create large synthetic datasets of phytoplankton from small training datasets, accomplishing a key step towards sustainable systematic monitoring of harmful algal blooms. | 翻訳日:2022-08-05 12:29:08 公開日:2022-08-03 |
# グラフニューラルネットワークによるセンチネル2画像からの高分解能土地地図の抽出 Graph Neural Networks Extract High-Resolution Cultivated Land Maps from Sentinel-2 Image Series ( http://arxiv.org/abs/2208.02349v1 ) ライセンス: Link先を確認 | Lukasz Tulczyjew, Michal Kawulok, Nicolas Long\'ep\'e, Bertrand Le Saux, Jakub Nalepa | (参考訳) 農業経営を最適化することで農業の持続可能性を維持することは、より惑星に優しい環境を構築するのに役立つ。
新たな衛星ミッションは、走査された領域に関するより詳細なスペクトル情報をキャプチャするマルチスペクトル画像とハイパースペクトル画像を取得し、農業応用における分析過程における微妙なスペクトル特徴の恩恵を受けることができる。
本稿では,コンパクトグラフ畳み込みニューラルネットワークの恩恵を受ける10mセンチネル-2多重スペクトル画像系列から2.5mの土地地図を抽出する手法を提案する。
実験によると、我々のモデルは、高品質なセグメンテーションマップを提供することで古典的および深層機械学習技術よりも優れているだけでなく、U-Net(U-Netの最大3300万のパラメータを持つモデルのほぼ8kのトレーニング可能なパラメータ)と比較してメモリフットプリントを大幅に削減している。
このような記憶力の脆弱さは、時間的制約のために大きなネットを送ることは不可能であるため、軌道上においてai搭載衛星にモデルをアップリンクできるミッションにおいて重要な役割を担っている。 Maintaining farm sustainability through optimizing the agricultural management practices helps build more planet-friendly environment. The emerging satellite missions can acquire multi- and hyperspectral imagery which captures more detailed spectral information concerning the scanned area, hence allows us to benefit from subtle spectral features during the analysis process in agricultural applications. We introduce an approach for extracting 2.5 m cultivated land maps from 10 m Sentinel-2 multispectral image series which benefits from a compact graph convolutional neural network. The experiments indicate that our models not only outperform classical and deep machine learning techniques through delivering higher-quality segmentation maps, but also dramatically reduce the memory footprint when compared to U-Nets (almost 8k trainable parameters of our models, with up to 31M parameters of U-Nets). Such memory frugality is pivotal in the missions which allow us to uplink a model to the AI-powered satellite once it is in orbit, as sending large nets is impossible due to the time constraints. | 翻訳日:2022-08-05 12:28:42 公開日:2022-08-03 |
# 経験的MDPのベイズ正規化 Bayesian regularization of empirical MDPs ( http://arxiv.org/abs/2208.02362v1 ) ライセンス: Link先を確認 | Samarth Gupta, Daniel N. Hill, Lexing Ying, Inderjit Dhillon | (参考訳) モデルに基づくマルコフ決定過程のほとんどの応用において、未知のモデルのパラメータは経験的データから推定されることが多い。
ノイズのため、推定モデルから学んだポリシーは、基礎となるモデルの最適ポリシーから遠く離れていることが多い。
基礎となるモデルの環境に適用すると、学習されたポリシーは最適でないパフォーマンスをもたらすので、より一般化されたパフォーマンスのソリューションを求めます。
本研究では,ベイズ的視点を取り,より強固な方針を得るために,マルコフ決定プロセスの客観的な機能を事前情報で定式化する。
1つは$l^1$正規化、もう1つは相対エントロピー正規化である。
提案アルゴリズムは,大規模オンラインショッピングストアの合成シミュレーションと実世界の検索ログに基づいて評価する。
本研究は,モデルに存在する雑音に対する正規化mdpポリシーのロバスト性を示す。 In most applications of model-based Markov decision processes, the parameters for the unknown underlying model are often estimated from the empirical data. Due to noise, the policy learnedfrom the estimated model is often far from the optimal policy of the underlying model. When applied to the environment of the underlying model, the learned policy results in suboptimal performance, thus calling for solutions with better generalization performance. In this work we take a Bayesian perspective and regularize the objective function of the Markov decision process with prior information in order to obtain more robust policies. Two approaches are proposed, one based on $L^1$ regularization and the other on relative entropic regularization. We evaluate our proposed algorithms on synthetic simulations and on real-world search logs of a large scale online shopping store. Our results demonstrate the robustness of regularized MDP policies against the noise present in the models. | 翻訳日:2022-08-05 12:17:56 公開日:2022-08-03 |
# AACC:文脈強化学習における非対称アクター批判 AACC: Asymmetric Actor-Critic in Contextual Reinforcement Learning ( http://arxiv.org/abs/2208.02376v1 ) ライセンス: Link先を確認 | Wangyang Yue, Yuan Zhou, Xiaochuan Zhang, Yuchen Hua, Zhiyuan Wang, Guang Kou | (参考訳) 強化学習(rl)技術は多くの課題において大きな注目を集めているが、実際の問題に適用するとその性能は劇的に低下する。
ドメインランダム化のような様々な手法は、異なる環境条件下での訓練エージェントによってそのような状況に対処するために提案されているため、デプロイ中に異なる環境に一般化することができる。
しかしながら、彼らは通常、エージェントが適切に相互作用する基礎となる環境因子情報を組み込まないため、周囲の変化に直面した時に過度に保守的である。
本稿では,文脈マルコフ決定過程(cmdps)を用いた一般化問題として,rlにおける環境力学の変化に適応するタスクを最初に定式化する。
次に、このような一般化タスクに対処するエンドツーエンドアクター批判手法として、コンテキストRL(AACC)における非対称アクター批判を提案する。
シミュレーション環境において,既存のベースラインに対するAACCの性能改善を実験的に示す。 Reinforcement Learning (RL) techniques have drawn great attention in many challenging tasks, but their performance deteriorates dramatically when applied to real-world problems. Various methods, such as domain randomization, have been proposed to deal with such situations by training agents under different environmental setups, and therefore they can be generalized to different environments during deployment. However, they usually do not incorporate the underlying environmental factor information that the agents interact with properly and thus can be overly conservative when facing changes in the surroundings. In this paper, we first formalize the task of adapting to changing environmental dynamics in RL as a generalization problem using Contextual Markov Decision Processes (CMDPs). We then propose the Asymmetric Actor-Critic in Contextual RL (AACC) as an end-to-end actor-critic method to deal with such generalization tasks. We demonstrate the essential improvements in the performance of AACC over existing baselines experimentally in a range of simulated environments. | 翻訳日:2022-08-05 12:17:45 公開日:2022-08-03 |
# asrシステムに対する敵対的攻撃:概要 Adversarial Attacks on ASR Systems: An Overview ( http://arxiv.org/abs/2208.02250v1 ) ライセンス: Link先を確認 | Xiao Zhang, Hao Tan, Xuan Huang, Denghui Zhang, Keke Tang, Zhaoquan Gu | (参考訳) ハードウェアとアルゴリズムの開発により、ASR(Automatic Speech Recognition)システムは大いに進化した。
モデルがシンプルになると、開発とデプロイメントの難しさがより簡単になり、asrシステムは私たちの生活に近づいています。
一方、私たちはしばしば asr のアプリや api を使ってサブタイトルを生成し、ミーティングを記録します。
一方、スマートスピーカーと自動運転車は、AIoTデバイスを制御するためにASRシステムに依存している。
過去数年間、asrシステムに対する敵対的な例攻撃に多くの取り組みがなされている。
波形に小さな摂動を加えることで、認識結果は大きな違いをもたらす。
本稿では,asrシステムの開発,攻撃の異なる仮定,これらの攻撃の評価方法について述べる。
次に、白箱攻撃と黒箱攻撃という2つの攻撃仮定による敵例攻撃に関する現在の研究を紹介する。
他の調査と異なり、ASRシステム内のどの層が摂動波形を摂動しているか、これらの攻撃とそれらの実装方法との関係についてより注意を払う。
私たちは彼らの作品の効果に焦点を当てる。 With the development of hardware and algorithms, ASR(Automatic Speech Recognition) systems evolve a lot. As The models get simpler, the difficulty of development and deployment become easier, ASR systems are getting closer to our life. On the one hand, we often use APPs or APIs of ASR to generate subtitles and record meetings. On the other hand, smart speaker and self-driving car rely on ASR systems to control AIoT devices. In past few years, there are a lot of works on adversarial examples attacks against ASR systems. By adding a small perturbation to the waveforms, the recognition results make a big difference. In this paper, we describe the development of ASR system, different assumptions of attacks, and how to evaluate these attacks. Next, we introduce the current works on adversarial examples attacks from two attack assumptions: white-box attack and black-box attack. Different from other surveys, we pay more attention to which layer they perturb waveforms in ASR system, the relationship between these attacks, and their implementation methods. We focus on the effect of their works. | 翻訳日:2022-08-05 12:16:18 公開日:2022-08-03 |
# 個人化予測画像マーカの発見のための偽画像合成 Counterfactual Image Synthesis for Discovery of Personalized Predictive Image Markers ( http://arxiv.org/abs/2208.02311v1 ) ライセンス: Link先を確認 | Amar Kumar, Anjun Hu, Brennan Nichyporuk, Jean-Pierre R. Falet, Douglas L. Arnold, Sotirios Tsaftaris, and Tal Arbel | (参考訳) 将来的な疾患の結果を予測する患者固有の画像マーカーの発見は、疾患の進化の個人レベルでの多様性をより理解するのに役立ちます。
実際、データ駆動型パーソナライズされたマーカーを提供するディープラーニングモデルは、医療実践で採用される可能性が高い。
本研究では,データ駆動型バイオマーカーの発見が,反実合成プロセスによって達成できることを実証する。
本研究は, 被検者固有の疾患進展に関連する基本画像の局所的画像特徴の摂動に, 深部条件生成モデルをどのように利用するかを示し, 異なる結果が期待できる偽画像を生成する。
したがって、候補バイオマーカーは、このプロセスで摂動する特徴の集合を調べることによって得られる。
大規模なマルチスキャン・多心性多発性硬化症 (MS) 臨床MRI (MR) 画像データセット(MRMR) を用いたRRMS (relapsing-remitting) 患者に対するいくつかの実験により,本モデルでは,MRI の現況を反映した画像的特徴の変化を反映した反事実が得られた。
さらなる定性的な結果は、我々のモデルが将来の活動の新規かつ主観的な予測マーカーを発見する可能性を示唆している。 The discovery of patient-specific imaging markers that are predictive of future disease outcomes can help us better understand individual-level heterogeneity of disease evolution. In fact, deep learning models that can provide data-driven personalized markers are much more likely to be adopted in medical practice. In this work, we demonstrate that data-driven biomarker discovery can be achieved through a counterfactual synthesis process. We show how a deep conditional generative model can be used to perturb local imaging features in baseline images that are pertinent to subject-specific future disease evolution and result in a counterfactual image that is expected to have a different future outcome. Candidate biomarkers, therefore, result from examining the set of features that are perturbed in this process. Through several experiments on a large-scale, multi-scanner, multi-center multiple sclerosis (MS) clinical trial magnetic resonance imaging (MRI) dataset of relapsing-remitting (RRMS) patients, we demonstrate that our model produces counterfactuals with changes in imaging features that reflect established clinical markers predictive of future MRI lesional activity at the population level. Additional qualitative results illustrate that our model has the potential to discover novel and subject-specific predictive markers of future activity. | 翻訳日:2022-08-05 12:16:04 公開日:2022-08-03 |
# 施工中のコンクリート表面欠陥の画像に基づく検出 Image-based Detection of Surface Defects in Concrete during Construction ( http://arxiv.org/abs/2208.02313v1 ) ライセンス: Link先を確認 | Dominik Kuhnke, Monika Kwiatkowski, Olaf Hellwich | (参考訳) 欠陥は建設プロジェクトのコストと期間を増加させる。
欠陥検出の自動化は、建設プロジェクトを遅らせる欠陥のリスクを低減するために必要なドキュメントの労力を削減します。
コンクリートは広く使用されている建設材料であるため、この研究はハニカムの検出に焦点が当てられている。
まず、ウェブから取り除かれた画像と実際の実践から得られた画像を比較した。
その結果,web画像はハニカムの選び方を表し,完全なばらつきを捉えていないことがわかった。
第2に,ハニカム検出のためにマスクr-cnnとhivenet-b0を訓練し,それぞれ47.7%の精度と34.2%のリコール,68.5%の精度と55.7%のリコールを達成した。
これらのモデルの性能は完全自動欠陥検出には不十分だが、これらのモデルは欠陥文書システムに統合されたアクティブな学習に使用できる。
結論として、CNNはコンクリート中のハニカムの検出を支援することができる。 Defects increase the cost and duration of construction projects. Automating defect detection would reduce documentation efforts that are necessary to decrease the risk of defects delaying construction projects. Since concrete is a widely used construction material, this work focuses on detecting honeycombs, a substantial defect in concrete structures that may even affect structural integrity. First, images were compared that were either scraped from the web or obtained from actual practice. The results demonstrate that web images represent just a selection of honeycombs and do not capture the complete variance. Second, Mask R-CNN and EfficientNet-B0 were trained for honeycomb detection to evaluate instance segmentation and patch-based classification, respectively achieving 47.7% precision and 34.2% recall as well as 68.5% precision and 55.7% recall. Although the performance of those models is not sufficient for completely automated defect detection, the models could be used for active learning integrated into defect documentation systems. In conclusion, CNNs can assist detecting honeycombs in concrete. | 翻訳日:2022-08-05 12:15:40 公開日:2022-08-03 |
# deep vulman:深層強化学習可能なサイバー脆弱性管理フレームワーク Deep VULMAN: A Deep Reinforcement Learning-Enabled Cyber Vulnerability Management Framework ( http://arxiv.org/abs/2208.02369v1 ) ライセンス: Link先を確認 | Soumyadeep Hore, Ankit Shah, Nathaniel D. Bastian | (参考訳) サイバー脆弱性管理は、コンピュータやネットワークシステムにおけるサイバー攻撃から組織を保護するサイバーセキュリティ運用センター(CSOC)の重要な機能である。
CSOCに対して非対称的な優位性を持つのは、これらのシステムにおける欠陥の数は、リソース制約された環境でのセキュリティチームの拡張率よりも大幅に増加しているためである。
現在のアプローチは決定論的であり、緩和のための脆弱性の優先順位付けや選択を行う際の将来の不確実性を考慮していない。
これらのアプローチは、リソースのサブ最適分布にも制約されており、脆弱性到着時の変動に対する応答を調整する柔軟性がない。
本稿では,サイバー脆弱性管理プロセスにおいて,このギャップを埋めるために,深層強化学習エージェントと整数プログラミングによる新しいフレームワークであるDeep VULMANを提案する。
我々のシーケンシャルな意思決定フレームワークは、まず、与えられたシステム状態の不確実性の下で緩和するために割り当てられるリソースのほぼ最適量を決定し、次に、緩和のために優先順位付けされた脆弱性インスタンスの最適セットを決定する。
提案手法は,シミュレーションおよび実世界の脆弱性データに基づいて,組織固有の重要な脆弱性の選択を1年間にわたって優先する手法よりも優れている。 Cyber vulnerability management is a critical function of a cybersecurity operations center (CSOC) that helps protect organizations against cyber-attacks on their computer and network systems. Adversaries hold an asymmetric advantage over the CSOC, as the number of deficiencies in these systems is increasing at a significantly higher rate compared to the expansion rate of the security teams to mitigate them in a resource-constrained environment. The current approaches are deterministic and one-time decision-making methods, which do not consider future uncertainties when prioritizing and selecting vulnerabilities for mitigation. These approaches are also constrained by the sub-optimal distribution of resources, providing no flexibility to adjust their response to fluctuations in vulnerability arrivals. We propose a novel framework, Deep VULMAN, consisting of a deep reinforcement learning agent and an integer programming method to fill this gap in the cyber vulnerability management process. Our sequential decision-making framework, first, determines the near-optimal amount of resources to be allocated for mitigation under uncertainty for a given system state and then determines the optimal set of prioritized vulnerability instances for mitigation. Our proposed framework outperforms the current methods in prioritizing the selection of important organization-specific vulnerabilities, on both simulated and real-world vulnerability data, observed over a one-year period. | 翻訳日:2022-08-05 12:12:27 公開日:2022-08-03 |
# アクティベーションベースのアーリーストッピングによるメタラーニング一般化の改善 Improving Meta-Learning Generalization with Activation-Based Early-Stopping ( http://arxiv.org/abs/2208.02377v1 ) ライセンス: Link先を確認 | Simon Guiroy, Christopher Pal, Gon\c{c}alo Mordido, Sarath Chandar | (参考訳) 数ショットの学習のためのメタラーニングアルゴリズムは、少数の例だけで新しいタスクに一般化できるニューラルネットワークを訓練することを目的としている。
早期停止は、新しいタスク分布に最適な一般化に達すると、モデルトレーニングを停止させる。
メタ学習における早期停止メカニズムは、通常、トレーニング(ソース)データセットから引き出されたメタバリデーションセットからラベル付き例によるモデルパフォーマンスの測定に依存する。
これは、メタテストセットが異なるターゲットデータセット(OOD)から得られる、メタ検証セットによる大きな分散シフトの可能性がある、数ショットの転送学習設定で問題となる。
本稿では,バリデーションに基づく早期停止の代替として,アクティベーションベース早期停止(abe)を提案する。
具体的には,各隠蔽層におけるニューラルアクティベーションのメタトレーニングにおいて,ターゲットタスク分布の1つのタスクから,目標問題から最小限かつ十分アクセス可能な情報を構成する小さなサポート例を用いて,その進化を解析する。
実験の結果,活性化に関する単純なラベルに依存しない統計は,対象の一般化が時間とともにどのように進化するかを推定する有効な方法であることがわかった。
各隠蔽層において、1次および2次モーメントから活性化分布を特徴づけ、さらに特徴次元に沿って要約し、4次元空間におけるコンパクトで直感的な特徴づけを与える。
トレーニング時間中、およびどのレイヤにおいて、ターゲットのアクティベーション軌道がソースデータのアクティベーション軌道から逸脱しているかを検出することで、さまざまなアルゴリズム、ソース、ターゲットデータセットをまたいで、大量のマイナショット転送学習設定において、早期停止と一般化が可能になる。 Meta-Learning algorithms for few-shot learning aim to train neural networks capable of generalizing to novel tasks using only a few examples. Early-stopping is critical for performance, halting model training when it reaches optimal generalization to the new task distribution. Early-stopping mechanisms in Meta-Learning typically rely on measuring the model performance on labeled examples from a meta-validation set drawn from the training (source) dataset. This is problematic in few-shot transfer learning settings, where the meta-test set comes from a different target dataset (OOD) and can potentially have a large distributional shift with the meta-validation set. In this work, we propose Activation Based Early-stopping (ABE), an alternative to using validation-based early-stopping for meta-learning. Specifically, we analyze the evolution, during meta-training, of the neural activations at each hidden layer, on a small set of unlabelled support examples from a single task of the target tasks distribution, as this constitutes a minimal and justifiably accessible information from the target problem. Our experiments show that simple, label agnostic statistics on the activations offer an effective way to estimate how the target generalization evolves over time. At each hidden layer, we characterize the activation distributions, from their first and second order moments, then further summarized along the feature dimensions, resulting in a compact yet intuitive characterization in a four-dimensional space. Detecting when, throughout training time, and at which layer, the target activation trajectory diverges from the activation trajectory of the source data, allows us to perform early-stopping and improve generalization in a large array of few-shot transfer learning settings, across different algorithms, source and target datasets. | 翻訳日:2022-08-05 12:06:39 公開日:2022-08-03 |
# 単語レベルファイングラインドストーリーの可視化 Word-Level Fine-Grained Story Visualization ( http://arxiv.org/abs/2208.02341v1 ) ライセンス: Link先を確認 | Bowen Li, Thomas Lukasiewicz | (参考訳) ストーリービジュアライゼーションは、動的シーンやキャラクターをまたいだグローバルな一貫性を備えた多文ストーリーで各文をナレーションする一連の画像を生成することを目的としている。
現在の作業は画像の品質と一貫性に苦慮しており、追加のセマンティック情報や補助的なキャプションネットワークに依存している。
これらの課題に対処するために,まず,不整合問題を解決するために,全文からの単語情報を取り入れた新しい文表現を導入する。
そこで我々は,画像の質とストーリーの整合性を改善するために,融合特徴を持つ新たな識別器を提案する。
分割マスクや補助キャプションネットワークを用いず, 最先端の手法と比較して, 異なるデータセットと人体評価の広範な実験により, アプローチの優れた性能を示した。 Story visualization aims to generate a sequence of images to narrate each sentence in a multi-sentence story with a global consistency across dynamic scenes and characters. Current works still struggle with output images' quality and consistency, and rely on additional semantic information or auxiliary captioning networks. To address these challenges, we first introduce a new sentence representation, which incorporates word information from all story sentences to mitigate the inconsistency problem. Then, we propose a new discriminator with fusion features and further extend the spatial attention to improve image quality and story consistency. Extensive experiments on different datasets and human evaluation demonstrate the superior performance of our approach, compared to state-of-the-art methods, neither using segmentation masks nor auxiliary captioning networks. | 翻訳日:2022-08-05 12:05:46 公開日:2022-08-03 |
# LaneSNN:Loihiニューロモルフィックプロセッサ上でのレーン検出のためのスパイクニューラルネットワーク LaneSNNs: Spiking Neural Networks for Lane Detection on the Loihi Neuromorphic Processor ( http://arxiv.org/abs/2208.02253v1 ) ライセンス: Link先を確認 | Alberto Viale and Alberto Marchisio and Maurizio Martina and Guido Masera and Muhammad Shafique | (参考訳) 自律運転(AD)関連の機能は、ますますインテリジェントで自律的で相互接続されたシステムに焦点を当てた次世代の移動ロボットや自動運転車にとって重要な要素である。
これらの機能の使用に関わるアプリケーションは、定義上、リアルタイムな決定を提供する必要があり、この特性は破滅的な事故を避けるための鍵となる。
さらに、すべての意思決定プロセスは、バッテリー駆動システムの寿命と自律性を高めるために、低消費電力を必要とする。
これらの課題は、ニューロモルフィックチップへのスパイクニューラルネットワーク(snn)の効率的な実装と、従来のフレームベースのカメラではなくイベントベースのカメラの使用によって対処できる。
本稿では、イベントベースのカメラ入力を用いて、道路にマークされた車線を検出するための新しいSNNベースのアプローチであるLaneSNNを提案する。
低複雑性と高速応答を特徴とする4つの新しいsnモデルを開発し,オフライン教師付き学習ルールを用いて学習する。
その後、学習したSNNモデルをIntel Loihi Neuromorphic Research Chipに実装し、マッピングする。
損失関数に対して,重み付き二元交叉エントロピー(WCE)と平均二乗誤差(MSE)の線形合成に基づく新しい手法を開発した。
実験結果から,Louhiプロセッサ上の36個のニューロコアのみを占有するSNN実装により,画像の認識に8ミリ秒未満の低レイテンシを実現し,リアルタイム性能を実現した。
我々のネットワークが提供するIoU対策は最先端技術に匹敵するが、消費電力は1Wよりもはるかに少ない。 Autonomous Driving (AD) related features represent important elements for the next generation of mobile robots and autonomous vehicles focused on increasingly intelligent, autonomous, and interconnected systems. The applications involving the use of these features must provide, by definition, real-time decisions, and this property is key to avoid catastrophic accidents. Moreover, all the decision processes must require low power consumption, to increase the lifetime and autonomy of battery-driven systems. These challenges can be addressed through efficient implementations of Spiking Neural Networks (SNNs) on Neuromorphic Chips and the use of event-based cameras instead of traditional frame-based cameras. In this paper, we present a new SNN-based approach, called LaneSNN, for detecting the lanes marked on the streets using the event-based camera input. We develop four novel SNN models characterized by low complexity and fast response, and train them using an offline supervised learning rule. Afterward, we implement and map the learned SNNs models onto the Intel Loihi Neuromorphic Research Chip. For the loss function, we develop a novel method based on the linear composition of Weighted binary Cross Entropy (WCE) and Mean Squared Error (MSE) measures. Our experimental results show a maximum Intersection over Union (IoU) measure of about 0.62 and very low power consumption of about 1 W. The best IoU is achieved with an SNN implementation that occupies only 36 neurocores on the Loihi processor while providing a low latency of less than 8 ms to recognize an image, thereby enabling real-time performance. The IoU measures provided by our networks are comparable with the state-of-the-art, but at a much low power consumption of 1 W. | 翻訳日:2022-08-05 12:04:30 公開日:2022-08-03 |
# COCOA:センサデータのためのクロスモーダルコントラスト学習 COCOA: Cross Modality Contrastive Learning for Sensor Data ( http://arxiv.org/abs/2208.00467v2 ) ライセンス: Link先を確認 | Shohreh Deldari, Hao Xue, Aaqib Saeed, Daniel V. Smith, Flora D. Salim | (参考訳) SSL(Self-Supervised Learning)はラベル付きデータなしで差別表現を学習するための新しいパラダイムであり、教師付きデータと比較して、同等あるいは最先端の結果に達した。
Contrastive Learning (CL)は、SSLにおいて一般的な情報表現を学習しようとする最もよく知られたアプローチの1つである。
CL法は主にコンピュータビジョンや自然言語処理の応用のために開発されており、単一のセンサモードしか使われていない。
しかし、普及型コンピューティングアプリケーションの大部分は、さまざまなセンサーモダリティのデータを活用している。
既存のCL手法は1つか2つのデータソースからの学習に限られるが、COCOA(Cross mOdality Contrastive leArning)は、異なるデータモダリティ間の相互相関を計算し、無関係なインスタンス間の類似性を最小化することにより、マルチセンサデータから品質表現を学習する、新しい客観的関数を利用する自己教師型モデルである。
我々は、最近導入された8つの最先端セルフ教師付きモデルと、5つの公開データセットにまたがる2つの教師付きベースラインに対するCOCOAの有効性を評価する。
我々はCOCOAが他のすべてのアプローチよりも優れた分類性能を発揮することを示す。
また、COCOAは、利用可能なラベル付きデータの10分の1しか使用しない完全教師付きモデルを含む、他のベースラインよりもはるかにラベル効率が高い。 Self-Supervised Learning (SSL) is a new paradigm for learning discriminative representations without labelled data and has reached comparable or even state-of-the-art results in comparison to supervised counterparts. Contrastive Learning (CL) is one of the most well-known approaches in SSL that attempts to learn general, informative representations of data. CL methods have been mostly developed for applications in computer vision and natural language processing where only a single sensor modality is used. A majority of pervasive computing applications, however, exploit data from a range of different sensor modalities. While existing CL methods are limited to learning from one or two data sources, we propose COCOA (Cross mOdality COntrastive leArning), a self-supervised model that employs a novel objective function to learn quality representations from multisensor data by computing the cross-correlation between different data modalities and minimizing the similarity between irrelevant instances. We evaluate the effectiveness of COCOA against eight recently introduced state-of-the-art self-supervised models, and two supervised baselines across five public datasets. We show that COCOA achieves superior classification performance to all other approaches. Also, COCOA is far more label-efficient than the other baselines including the fully supervised model using only one-tenth of available labelled data. | 翻訳日:2022-08-05 10:27:28 公開日:2022-08-03 |
# Eco2AI:持続可能なAIに向けた第一歩として機械学習モデルの二酸化炭素排出量追跡 Eco2AI: carbon emissions tracking of machine learning models as the first step towards sustainable AI ( http://arxiv.org/abs/2208.00406v2 ) ライセンス: Link先を確認 | Semen Budennyy, Vladimir Lazarev, Nikita Zakharenko, Alexey Korovin, Olga Plosskaya, Denis Dimitrov, Vladimir Arkhipkin, Ivan Oseledets, Ivan Barsola, Ilya Egorov, Aleksandra Kosterina, Leonid Zhukov | (参考訳) ディープニューラルネットワークのサイズと複雑さは指数関数的に増加し続けており、これらのモデルによるトレーニングと推論のエネルギー消費は著しく増加した。
我々は、データサイエンティストや研究者が彼らのモデルのエネルギー消費と同等のCO2排出量を簡単に追跡するのに役立つオープンソースのパッケージeco2AIを紹介します。
eco2AIでは、エネルギー消費の追跡と地域CO2排出量の正当性に注目した。
我々は研究コミュニティに対して、計算コストの低い新しい最適人工知能(AI)アーキテクチャの探索を奨励する。
モチベーションは、サステナブルAIとグリーンAI経路の両方で、AIベースの温室効果ガスの隔離サイクルの概念からもたらされる。 The size and complexity of deep neural networks continue to grow exponentially, significantly increasing energy consumption for training and inference by these models. We introduce an open-source package eco2AI to help data scientists and researchers to track energy consumption and equivalent CO2 emissions of their models in a straightforward way. In eco2AI we put emphasis on accuracy of energy consumption tracking and correct regional CO2 emissions accounting. We encourage research community to search for new optimal Artificial Intelligence (AI) architectures with a lower computational cost. The motivation also comes from the concept of AI-based green house gases sequestrating cycle with both Sustainable AI and Green AI pathways. | 翻訳日:2022-08-05 10:26:59 公開日:2022-08-03 |
# マルチモーダル符号化の逆アングルを用いたテキストと音声によるジェスチャアニメーションのためのゼロショットスタイル転送 Zero-Shot Style Transfer for Gesture Animation driven by Text and Speech using Adversarial Disentanglement of Multimodal Style Encoding ( http://arxiv.org/abs/2208.01917v1 ) ライセンス: Link先を確認 | Mireille Fares, Michele Grimaldi, Catherine Pelachaud, Nicolas Obin | (参考訳) 行動スタイルによる仮想エージェントのモデリングは、ヒューマンエージェントのインタラクションをパーソナライズするための1つの要素である。
本稿では,学習中に見つからないものを含む,異なる話者のスタイルで韻律的特徴やテキストによって駆動されるジェスチャーを合成する,効率的かつ効果的な機械学習手法を提案する。
本モデルは,様々な話者のビデオを含むPATSデータベースからのマルチモーダルデータによって駆動されるゼロショットマルチモーダル方式の転送を行う。
発話内容はマルチモーダル信号とテキストで伝達される一方で,コミュニケーション行動の表現性は,スタイルが広く浸透していると見なす。
この内容とスタイルの不一致は、さらなるトレーニングや微調整を必要とせずに、トレーニングフェーズにデータを持たない話者であっても、直接スタイル埋め込みを推測することができる。
本モデルの最初の目標は,2つのオーディオ・テキスト・モダリティの内容に基づいて,音源話者のジェスチャーを生成することである。
2つめの目標は、ターゲットスピーカーのマルチモーダルな動作スタイルに、ソーススピーカーが予測するジェスチャーを条件付けることである。
3つ目の目標は、モデルを再トレーニングすることなく、トレーニング中の話者のゼロショット方式の移動を許可することである。
本システムでは,(1)ターゲット話者マルチモーダルデータから固定次元話者埋め込みスタイル生成を学習する話者スタイルエンコーダネットワークと,(2)音源話者の入力モダリティの内容に基づいてジェスチャを合成し,話者スタイル埋め込みを条件とするシーケンスツーシーケンス合成ネットワークとからなる。
我々は,音源話者のジェスチャーを合成し,目標話者スタイルの変動に関する知識をゼロショット設定でジェスチャ生成タスクに伝達できることを評価する。
2Dジェスチャーを3Dポーズに変換し、3Dアニメーションを生成する。
アプローチを検証し,ベースラインと比較するために,客観的かつ主観的な評価を行う。 Modeling virtual agents with behavior style is one factor for personalizing human agent interaction. We propose an efficient yet effective machine learning approach to synthesize gestures driven by prosodic features and text in the style of different speakers including those unseen during training. Our model performs zero shot multimodal style transfer driven by multimodal data from the PATS database containing videos of various speakers. We view style as being pervasive while speaking, it colors the communicative behaviors expressivity while speech content is carried by multimodal signals and text. This disentanglement scheme of content and style allows us to directly infer the style embedding even of speaker whose data are not part of the training phase, without requiring any further training or fine tuning. The first goal of our model is to generate the gestures of a source speaker based on the content of two audio and text modalities. The second goal is to condition the source speaker predicted gestures on the multimodal behavior style embedding of a target speaker. The third goal is to allow zero shot style transfer of speakers unseen during training without retraining the model. Our system consists of: (1) a speaker style encoder network that learns to generate a fixed dimensional speaker embedding style from a target speaker multimodal data and (2) a sequence to sequence synthesis network that synthesizes gestures based on the content of the input modalities of a source speaker and conditioned on the speaker style embedding. We evaluate that our model can synthesize gestures of a source speaker and transfer the knowledge of target speaker style variability to the gesture generation task in a zero shot setup. We convert the 2D gestures to 3D poses and produce 3D animations. We conduct objective and subjective evaluations to validate our approach and compare it with a baseline. | 翻訳日:2022-08-04 14:27:43 公開日:2022-08-03 |
# DeepProphet2 - ディープラーニング遺伝子レコメンデーションエンジン DeepProphet2 -- A Deep Learning Gene Recommendation Engine ( http://arxiv.org/abs/2208.01918v1 ) ライセンス: Link先を確認 | Daniele Brambilla (1), Davide Maria Giacomini (1), Luca Muscarnera, Andrea Mazzoleni (1) ((1) TheProphetAI) | (参考訳) 生命科学の問題に取り組むための新しい強力なツールは、機械学習の最近の進歩によって生み出された。
本研究の目的は,人工知能(AI)による遺伝子レコメンデーションの潜在的利点について議論することである。
実際に、遺伝子レコメンデーションエンジンがこの問題を解決しようとしている。ユーザーが一連の遺伝子に興味がある場合、どの遺伝子が開始セットと関連し、調査されるべきか?
このタスクは、www.generecommender.comを介して世界中の研究者が自由に利用できるカスタムのディープラーニングレコメンデーションエンジンであるdeepprophet2(dp2)によって解決された。
以下にアルゴリズムの背景にある知見とその実践的応用について説明する。
遺伝子レコメンデーション問題は、遺伝子を距離がそれらの間の実際の意味距離を表すために定義される距離空間にマッピングすることで解決することができる。
この目的を達成するために、トランスフォーマーベースのモデルは、自由に利用可能な紙コーパスで訓練されている。
本稿では,埋め込みサイズとネットワーク深さに着目し,最適なバイアス分散トレードオフを得るための複数の最適化手順について述べる。
この文脈では、モデルが疾患や経路に関与する遺伝子群を発見する能力は相互評価によって評価された。
ネットワークは経路や疾患について直接知識を持たず、遺伝子の類似性とそれらの相互作用を学んだ。
さらに、ニューラルネットワークが遺伝子を表わす空間をさらに調査するために、埋め込みの次元が減少し、その結果を人間の理解可能な空間に投影した。
結論として、一連のユースケースは、アルゴリズムの潜在的な応用を実際の単語設定で示す。 New powerful tools for tackling life science problems have been created by recent advances in machine learning. The purpose of the paper is to discuss the potential advantages of gene recommendation performed by artificial intelligence (AI). Indeed, gene recommendation engines try to solve this problem: if the user is interested in a set of genes, which other genes are likely to be related to the starting set and should be investigated? This task was solved with a custom deep learning recommendation engine, DeepProphet2 (DP2), which is freely available to researchers worldwide via www.generecommender.com. Hereafter, insights behind the algorithm and its practical applications are illustrated. The gene recommendation problem can be addressed by mapping the genes to a metric space where a distance can be defined to represent the real semantic distance between them. To achieve this objective a transformer-based model has been trained on a well-curated freely available paper corpus, PubMed. The paper describes multiple optimization procedures that were employed to obtain the best bias-variance trade-off, focusing on embedding size and network depth. In this context, the model's ability to discover sets of genes implicated in diseases and pathways was assessed through cross-validation. A simple assumption guided the procedure: the network had no direct knowledge of pathways and diseases but learned genes' similarities and the interactions among them. Moreover, to further investigate the space where the neural network represents genes, the dimensionality of the embedding was reduced, and the results were projected onto a human-comprehensible space. In conclusion, a set of use cases illustrates the algorithm's potential applications in a real word setting. | 翻訳日:2022-08-04 14:27:13 公開日:2022-08-03 |
# 複数のGPU上のニュートン共役勾配法によるニューラルネット Neural Nets with a Newton Conjugate Gradient Method on Multiple GPUs ( http://arxiv.org/abs/2208.02017v1 ) ライセンス: Link先を確認 | Severin Reiz, Tobias Neckel, Hans-Joachim Bungartz | (参考訳) ディープニューラルネットワークのトレーニングは多くの計算センターで計算リソースの共有を消費する。
しばしば、ハイパーパラメータ値を得るためのブルートフォースアプローチが用いられる。
本研究の目的は,(1)大規模ニューラルネットワークに対するハイパーパラメータの少ない2次最適化手法の実現と,(2)特定のタスクに対するパフォーマンスオプティマイザの調査を行い,ユーザを問題に最適なものにすることにある。
本稿では,ベクトルに対するHessianの影響を考慮し,大規模ネットワークに対してHessianを明示的に設定するコストを回避する2次最適化手法を提案する。
提案手法は,コンピュータビジョンや変分オートエンコーダからのレグレッションや深層ネットワークなど,5つの代表的なニューラルネットワーク問題に対する2つの最先端オプティマイザと比較した。
最大のセットアップでは、最適化をHorovodで効率的に並列化し、8つのGPU NVIDIA P100 (DGX-1) マシンに適用しました。 Training deep neural networks consumes increasing computational resource shares in many compute centers. Often, a brute force approach to obtain hyperparameter values is employed. Our goal is (1) to enhance this by enabling second-order optimization methods with fewer hyperparameters for large-scale neural networks and (2) to perform a survey of the performance optimizers for specific tasks to suggest users the best one for their problem. We introduce a novel second-order optimization method that requires the effect of the Hessian on a vector only and avoids the huge cost of explicitly setting up the Hessian for large-scale networks. We compare the proposed second-order method with two state-of-the-art optimizers on five representative neural network problems, including regression and very deep networks from computer vision or variational autoencoders. For the largest setup, we efficiently parallelized the optimizers with Horovod and applied it to a 8 GPU NVIDIA P100 (DGX-1) machine. | 翻訳日:2022-08-04 14:26:47 公開日:2022-08-03 |
# 浅いReLUネットワークのトレーニングにおける勾配降下によるサドル点の回避 Gradient descent provably escapes saddle points in the training of shallow ReLU networks ( http://arxiv.org/abs/2208.02083v1 ) ライセンス: Link先を確認 | Patrick Cheridito, Arnulf Jentzen, Florian Rossmannek | (参考訳) 力学系理論は近年、勾配降下アルゴリズムが損失関数の厳密な鞍点を避けることを証明するために最適化に応用されている。
しかし、現代の機械学習アプリケーションの多くは、要求される規則性条件を満たさない。
特に、これはrerectified linear unit (ReLU) ネットワークのケースである。
本稿では, 関連する力学系の結果, 中心安定多様体定理の変形を証明し, 正則性要件のいくつかを緩和する。
そして、浅いReLUネットワークが新しいフレームワークに適合していることを検証する。
アフィン目標関数に対して測定された浅reluネットワークの正方形積分損失の臨界点の分類に基づき、勾配降下がほとんどの鞍点を避けることを推定する。
初期化が十分良好であれば、大域最小化への収束を証明し、限界損失に対する明示的なしきい値で表される。 Dynamical systems theory has recently been applied in optimization to prove that gradient descent algorithms avoid so-called strict saddle points of the loss function. However, in many modern machine learning applications, the required regularity conditions are not satisfied. In particular, this is the case for rectified linear unit (ReLU) networks. In this paper, we prove a variant of the relevant dynamical systems result, a center-stable manifold theorem, in which we relax some of the regularity requirements. Then, we verify that shallow ReLU networks fit into the new framework. Building on a classification of critical points of the square integral loss of shallow ReLU networks measured against an affine target function, we deduce that gradient descent avoids most saddle points. We proceed to prove convergence to global minima if the initialization is sufficiently good, which is expressed by an explicit threshold on the limiting loss. | 翻訳日:2022-08-04 14:26:30 公開日:2022-08-03 |
# 一度に1つのノード:ノードレベルネットワーク分類 One Node at a Time: Node-Level Network Classification ( http://arxiv.org/abs/2208.02162v1 ) ライセンス: Link先を確認 | Saray Shai, Isaac Jacobs, Peter J. Mucha | (参考訳) ネットワーク分類は、ネットワーク(またはグラフ)をその構造に基づいて異なるカテゴリに分類することを目的としている。
ネットワークの分類と構成ノードの関連性について検討し,集中度やクラスタリング係数などの構造ノード特性に基づいて,異なるグループのネットワークからのノードが識別可能であるかを検討した。
様々なネットワークデータセットとランダムネットワークモデルを用いて、特定のノードのネットワークカテゴリ(ネットワーク全体を見ることなく)を正確に予測するために分類器を訓練できることを示し、複雑なネットワークがノードレベルでも異なる構造パターンを表示することを示す。
最後にノードレベルのネットワーク分類の2つの応用について論じる。
(i)少数のノードからの全ネットワーク分類、及び
(ii)ネットワークブートストラップ。 Network classification aims to group networks (or graphs) into distinct categories based on their structure. We study the connection between classification of a network and of its constituent nodes, and whether nodes from networks in different groups are distinguishable based on structural node characteristics such as centrality and clustering coefficient. We demonstrate, using various network datasets and random network models, that a classifier can be trained to accurately predict the network category of a given node (without seeing the whole network), implying that complex networks display distinct structural patterns even at the node level. Finally, we discuss two applications of node-level network classification: (i) whole-network classification from small samples of nodes, and (ii) network bootstrapping. | 翻訳日:2022-08-04 14:26:16 公開日:2022-08-03 |
# 対戦チームマルコフゲームにおけるナッシュ平衡の効率的な計算 Efficiently Computing Nash Equilibria in Adversarial Team Markov Games ( http://arxiv.org/abs/2208.02204v1 ) ライセンス: Link先を確認 | Fivos Kalogiannis, Ioannis Anagnostides, Ioannis Panageas, Emmanouil-Vasileios Vlatakis-Gkaragkounis, Vaggos Chatziafratis, Stelios Stavroulakis | (参考訳) ナッシュ均衡政策の計算はマルチエージェント強化学習の中心的な問題であり、理論と実践の両方において大きな注目を集めている。
しかしながら、証明可能な保証は、これまで完全に競争的なシナリオや協力的なシナリオに限られるか、ほとんどの実用的なアプリケーションでは満たせない強い仮定を課すかのいずれかであった。
本研究は,無作為な協調やコミュニケーションがなければ,同じ興味を持った選手のチームが敵プレイヤーと競い合う,自然で動機のよいゲームである,無限ホライゾン \emph{adversarial team Markov Games} を探索することによって,これらの先行結果から逸脱する。
この設定はゼロサムマルコフゲームとマルコフポテンシャルゲームの統一的な処理を可能にし、競争と協力の両方を特徴とするより現実的な戦略的相互作用をモデル化するステップとして機能する。
我々の主な貢献は、対戦チームマルコフゲームにおける静止式$\epsilon$-approximate Nash平衡を計算するための最初のアルゴリズムであり、ゲームの全自然パラメータの多項式である計算複雑性と1/\epsilon$である。
提案アルゴリズムは,特に自然かつ実践的であり,チーム内の各プレーヤに対して,敵側からの最良の応答を伴って,独立的な方針勾配ステップを実行することに基づいており,その後,慎重に構築された線形プログラムを解くことにより,敵側の方針を求めることができる。
本解析では,非凸制約のある非線形プログラムのkkt最適条件を定式化するために,非標準手法を活用し,誘導ラグランジュ乗算器を自然に解釈する。
その過程で、Von Stengel と Koller (GEB `97) による対戦型(正規形)チームゲームにおける最適ポリシーの重要な特徴を著しく拡張する。 Computing Nash equilibrium policies is a central problem in multi-agent reinforcement learning that has received extensive attention both in theory and in practice. However, provable guarantees have been thus far either limited to fully competitive or cooperative scenarios or impose strong assumptions that are difficult to meet in most practical applications. In this work, we depart from those prior results by investigating infinite-horizon \emph{adversarial team Markov games}, a natural and well-motivated class of games in which a team of identically-interested players -- in the absence of any explicit coordination or communication -- is competing against an adversarial player. This setting allows for a unifying treatment of zero-sum Markov games and Markov potential games, and serves as a step to model more realistic strategic interactions that feature both competing and cooperative interests. Our main contribution is the first algorithm for computing stationary $\epsilon$-approximate Nash equilibria in adversarial team Markov games with computational complexity that is polynomial in all the natural parameters of the game, as well as $1/\epsilon$. The proposed algorithm is particularly natural and practical, and it is based on performing independent policy gradient steps for each player in the team, in tandem with best responses from the side of the adversary; in turn, the policy for the adversary is then obtained by solving a carefully constructed linear program. Our analysis leverages non-standard techniques to establish the KKT optimality conditions for a nonlinear program with nonconvex constraints, thereby leading to a natural interpretation of the induced Lagrange multipliers. Along the way, we significantly extend an important characterization of optimal policies in adversarial (normal-form) team games due to Von Stengel and Koller (GEB `97). | 翻訳日:2022-08-04 14:26:05 公開日:2022-08-03 |
# エネルギー源分離のための因果・多機能モデルConv-NILM-Net Conv-NILM-Net, a causal and multi-appliance model for energy source separation ( http://arxiv.org/abs/2208.02173v1 ) ライセンス: Link先を確認 | Mohamed Alami C. and J\'er\'emie Decock and Rim Kaddah and Jesse Read | (参考訳) 非侵入負荷モニタリング(Non-Intrusive Load Monitoring, NILM)は、個々のアプライアンス電力使用量を単一の集計値から推定することで省エネを図る。
NILM問題を解決するために、ディープニューラルネットワークがますます人気になっている。
しかし、ほとんどのモデルは、オンラインソース分離よりも負荷識別に使われている。
ソース分離モデルでは、ほとんどの場合、各アプライアンスに対してニューラルネットワークを専用にトレーニングするシングルタスク学習アプローチを使用する。
この戦略は計算コストが高く、複数のアプライアンスを同時に動作させ、それら間の依存関係を無視する。
他のモデルは因果関係ではなく、リアルタイムアプリケーションにとって重要である。
音声分離モデルであるConvtas-Netに触発されて,エンドツーエンドNILMのための完全な畳み込みフレームワークであるConv-NILM-netを提案する。
Conv-NILM-netはマルチアプライアンスソース分離のための因果モデルである。
我々のモデルは、REDDとUK-DALEの2つの実際のデータセットでテストされ、競合モデルよりもはるかに小さいサイズを維持しながら、明らかに芸術の状態を上回ります。 Non-Intrusive Load Monitoring (NILM) seeks to save energy by estimating individual appliance power usage from a single aggregate measurement. Deep neural networks have become increasingly popular in attempting to solve NILM problems. However most used models are used for Load Identification rather than online Source Separation. Among source separation models, most use a single-task learning approach in which a neural network is trained exclusively for each appliance. This strategy is computationally expensive and ignores the fact that multiple appliances can be active simultaneously and dependencies between them. The rest of models are not causal, which is important for real-time application. Inspired by Convtas-Net, a model for speech separation, we propose Conv-NILM-net, a fully convolutional framework for end-to-end NILM. Conv-NILM-net is a causal model for multi appliance source separation. Our model is tested on two real datasets REDD and UK-DALE and clearly outperforms the state of the art while keeping a significantly smaller size than the competing models. | 翻訳日:2022-08-04 14:25:00 公開日:2022-08-03 |
# ドメイン適応型解釈可能な双方向注意ネットワークによる薬物標的予測の改善 Interpretable bilinear attention network with domain adaptation improves drug-target prediction ( http://arxiv.org/abs/2208.02194v1 ) ライセンス: Link先を確認 | Peizhen Bai, Filip Miljkovi\'c, Bino John, Haiping Lu | (参考訳) 薬物と標的の相互作用を予測することは薬物発見の鍵である。
最近のディープラーニングベースの手法は有望なパフォーマンスを示しているが、2つの課題が残っている。
一 薬物と標的との局所的な相互作用をモデル化し、より優れた予測と解釈をする方法
(II) 異なる分布から新規薬物標的対の予測性能を一般化する方法。
本研究では,ドラッグとターゲット間の対方向の局所的相互作用を明示的に学習し,分散データに適応する,ドメイン適応型ディープバイリニア・アテンション・ネットワーク(ban)フレームワークであるdronebanを提案する。
drugbanは薬物分子グラフと標的タンパク質配列に基づいて予測を行い、条件付きドメイン逆学習を用いて異なる分布にまたがって学習された相互作用表現を整合させ、新しい薬物標的対の一般化を促進する。
ドメイン内およびクロスドメイン両方の設定下での3つのベンチマークデータセットの実験は、dronebanが5つの最先端のベースラインに対して最高の全体的なパフォーマンスを達成していることを示している。
さらに、学習した双線形注意マップを可視化することで、予測結果からの解釈可能な洞察が得られる。 Predicting drug-target interaction is key for drug discovery. Recent deep learning-based methods show promising performance but two challenges remain: (i) how to explicitly model and learn local interactions between drugs and targets for better prediction and interpretation; (ii) how to generalize prediction performance on novel drug-target pairs from different distribution. In this work, we propose DrugBAN, a deep bilinear attention network (BAN) framework with domain adaptation to explicitly learn pair-wise local interactions between drugs and targets, and adapt on out-of-distribution data. DrugBAN works on drug molecular graphs and target protein sequences to perform prediction, with conditional domain adversarial learning to align learned interaction representations across different distributions for better generalization on novel drug-target pairs. Experiments on three benchmark datasets under both in-domain and cross-domain settings show that DrugBAN achieves the best overall performance against five state-of-the-art baselines. Moreover, visualizing the learned bilinear attention map provides interpretable insights from prediction results. | 翻訳日:2022-08-04 14:24:42 公開日:2022-08-03 |
# SGEM:エネルギーと運動量による確率勾配 SGEM: stochastic gradient with energy and momentum ( http://arxiv.org/abs/2208.02208v1 ) ライセンス: Link先を確認 | Hailiang Liu and Xuping Tian | (参考訳) 本稿では,AEGD法(Adaptive Gradient Descent with Energy, arXiv: 201005109]に基づく一般の非凸確率最適化問題の解法として,SGEM(Stochastic Gradient with Energy and Momentum)を提案する。
SGEMはエネルギーと運動量の両方を同時に含み、その2つの利点を継承する。
SGEMは, 一般の非凸確率環境において, エネルギー依存収束率を導出する非条件のエネルギー安定特性と, オンライン凸環境における後悔の束縛を特徴とすることを示す。
また、エネルギー変数の閾値を低くする。
実験の結果,SGEM は AEGD よりも早く収束し,SGDM と同様に深層ニューラルネットワークのトレーニングにも有効であることがわかった。 In this paper, we propose SGEM, Stochastic Gradient with Energy and Momentum, to solve a large class of general non-convex stochastic optimization problems, based on the AEGD method that originated in the work [AEGD: Adaptive Gradient Descent with Energy. arXiv: 2010.05109]. SGEM incorporates both energy and momentum at the same time so as to inherit their dual advantages. We show that SGEM features an unconditional energy stability property, and derive energy-dependent convergence rates in the general nonconvex stochastic setting, as well as a regret bound in the online convex setting. A lower threshold for the energy variable is also provided. Our experimental results show that SGEM converges faster than AEGD and generalizes better or at least as well as SGDM in training some deep neural networks. | 翻訳日:2022-08-04 14:24:22 公開日:2022-08-03 |
# 糖尿病網膜症スクリーニングにおけるコンピュータ支援診断システムに関する包括的調査 A comprehensive survey on computer-aided diagnostic systems in diabetic retinopathy screening ( http://arxiv.org/abs/2208.01810v1 ) ライセンス: Link先を確認 | Meysam Tavakoli, Patrick Kelley | (参考訳) 糖尿病(dm)は、糖尿病網膜症(dr)または糖尿病による眼の合併症を引き起こす重要な微小血管障害を引き起こすことがある。
未確認の場合、この疾患は時間とともに増加し、最終的に完全な視力喪失を引き起こす。
このような光学的発達を検出する一般的な方法は、網膜画像から血管、視神経頭、微小神経痛、出血、発声などを調べることである。
最終的にこれは、経験豊富な眼科医の数と、DM症例の増加によって制限される。
早期かつ効率的なDR診断を可能にするために、眼科領域は堅牢なコンピュータ支援診断システム(CAD)を必要とする。
私たちのレビューは、cadシステムとそのアルゴリズムからモデリング、そしてコンピュータビジョンとパターン認識における網膜画像処理の分野がどこへ向かっているのかを理解したい学生から確立された研究者まで、あらゆる人を対象としています。
始めようとしている人のために、私たちは、最近のアプローチにフォーカスしながら、さまざまなデータベースやアルゴリズムフレームワークのロジック、強み、欠点に特に重点を置いています。 Diabetes Mellitus (DM) can lead to significant microvasculature disruptions that eventually causes diabetic retinopathy (DR), or complications in the eye due to diabetes. If left unchecked, this disease can increase over time and eventually cause complete vision loss. The general method to detect such optical developments is through examining the vessels, optic nerve head, microaneurysms, haemorrhage, exudates, etc. from retinal images. Ultimately this is limited by the number of experienced ophthalmologists and the vastly growing number of DM cases. To enable earlier and efficient DR diagnosis, the field of ophthalmology requires robust computer aided diagnosis (CAD) systems. Our review is intended for anyone, from student to established researcher, who wants to understand what can be accomplished with CAD systems and their algorithms to modeling and where the field of retinal image processing in computer vision and pattern recognition is headed. For someone just getting started, we place a special emphasis on the logic, strengths and shortcomings of different databases and algorithms frameworks with a focus on very recent approaches. | 翻訳日:2022-08-04 14:23:49 公開日:2022-08-03 |
# AstroVision: ディープラーニングを用いた小体へのミッションの自律的特徴検出と記述に向けて AstroVision: Towards Autonomous Feature Detection and Description for Missions to Small Bodies Using Deep Learning ( http://arxiv.org/abs/2208.02053v1 ) ライセンス: Link先を確認 | Travis Driver, Katherine Skinner, Mehregan Dor, Panagiotis Tsiotras | (参考訳) 小さな天体へのミッションは、光学的特徴追跡に大きく依存し、対象天体の周囲の相対的な航法を特徴づける。
深層学習は、機能検出と記述の大幅な進歩をもたらしたが、大規模で注釈付きデータセットの可用性が限られているため、宇宙アプリケーションのためのデータ駆動モデルのトレーニングと検証は困難である。
本稿では,過去および現在進行中の16個の小天体の115,970個の濃密な注釈付き実画像からなる大規模データセットAstroVisionを紹介する。
我々はAstroVisionを活用し、標準化されたベンチマークのセットを開発し、手工芸品とデータ駆動型特徴検出および記述方法の徹底的な評価を行う。
次に、最先端の深い特徴検出・記述ネットワークのエンドツーエンドトレーニングにAstroVisionを使用し、複数のベンチマークの性能向上を示す。
完全なベンチマークパイプラインとデータセットが公開され、宇宙アプリケーションのためのコンピュータビジョンアルゴリズムの進歩が促進される。 Missions to small celestial bodies rely heavily on optical feature tracking for characterization of and relative navigation around the target body. While deep learning has led to great advancements in feature detection and description, training and validating data-driven models for space applications is challenging due to the limited availability of large-scale, annotated datasets. This paper introduces AstroVision, a large-scale dataset comprised of 115,970 densely annotated, real images of 16 different small bodies captured during past and ongoing missions. We leverage AstroVision to develop a set of standardized benchmarks and conduct an exhaustive evaluation of both handcrafted and data-driven feature detection and description methods. Next, we employ AstroVision for end-to-end training of a state-of-the-art, deep feature detection and description network and demonstrate improved performance on multiple benchmarks. The full benchmarking pipeline and the dataset will be made publicly available to facilitate the advancement of computer vision algorithms for space applications. | 翻訳日:2022-08-04 14:23:32 公開日:2022-08-03 |
# 自律的群集ナビゲーションにおける歩行者とロボットの相互作用:反応性制御法と評価指標 Pedestrian-Robot Interactions on Autonomous Crowd Navigation: Reactive Control Methods and Evaluation Metrics ( http://arxiv.org/abs/2208.02121v1 ) ライセンス: Link先を確認 | Diego Paez-Granados, Yujie He, David Gonon, Dan Jia, Bastian Leibe, Kenji Suzuki, Aude Billard | (参考訳) 人口の多い地域での自律ナビゲーションは、非構造的な状況下で歩行者と安全に対話することの難しさから、ロボットにとって難しい課題である。
本研究では,自律型個人移動車上での連続的障害物回避と後接触制御を実現する群集ナビゲーション制御フレームワークを提案する。
本研究では,自然群集における会計効率,コントローラ応答,群集間相互作用の評価指標を提案する。
本報告では, スパース, フロー, 混合交通, 低 (0.15 ppsm), 中 (0.65 ppsm), 高 (1 ppsm) 歩行者密度の110以上の実験結果について報告する。
2つの低レベル障害物回避法と共有制御のベースラインの比較結果を示す。
その結果,最大密度試験では目標までの相対時間が10%減少し,他の効率指標は低下しなかった。
さらに、自律ナビゲーションは、群集との互換性が高いことを示すコマンドにおいて、相対的ジャークの低い共有制御ナビゲーションに匹敵する傾向を示した。
反応制御器は,群集ナビゲーションに迅速かつ連続的に適応するために必要なタスクを満足させ,環境・状況認識のための高レベルプランナーと組み合わせるべきである。 Autonomous navigation in highly populated areas remains a challenging task for robots because of the difficulty in guaranteeing safe interactions with pedestrians in unstructured situations. In this work, we present a crowd navigation control framework that delivers continuous obstacle avoidance and post-contact control evaluated on an autonomous personal mobility vehicle. We propose evaluation metrics for accounting efficiency, controller response and crowd interactions in natural crowds. We report the results of over 110 trials in different crowd types: sparse, flows, and mixed traffic, with low- (< 0.15 ppsm), mid- (< 0.65 ppsm), and high- (< 1 ppsm) pedestrian densities. We present comparative results between two low-level obstacle avoidance methods and a baseline of shared control. Results show a 10% drop in relative time to goal on the highest density tests, and no other efficiency metric decrease. Moreover, autonomous navigation showed to be comparable to shared-control navigation with a lower relative jerk and significantly higher fluency in commands indicating high compatibility with the crowd. We conclude that the reactive controller fulfils a necessary task of fast and continuous adaptation to crowd navigation, and it should be coupled with high-level planners for environmental and situational awareness. | 翻訳日:2022-08-04 14:23:16 公開日:2022-08-03 |
# LoRaWANの強化学習を用いた軽量伝送パラメータ選択方式 A Lightweight Transmission Parameter Selection Scheme Using Reinforcement Learning for LoRaWAN ( http://arxiv.org/abs/2208.01824v1 ) ライセンス: Link先を確認 | Aohan Li, Ikumi Urabe, Minoru Fujisawa, So Hasegawa, Hiroyuki Yasuda, Song-Ju Kim, and Mikio Hasegawa | (参考訳) IoTデバイスの数は2023年までに125億に達すると予測されている。
iotデバイスの成長はデバイス間の衝突を激化させ、通信性能を低下させる。
チャネルや拡散係数(SF)などの適切な伝送パラメータを選択することで、長距離(LoRa)デバイス間の衝突を効果的に低減することができる。
しかし、現在の文献で提案されているほとんどのスキームは、計算複雑性とメモリの制限のあるIoTデバイスで簡単に実装できない。
そこで本稿では,低消費電力広域ネットワーク (lorawan) のための強化学習を用いた簡易な伝送パラメータ選択方式,すなわち統合チャネルとsf選択方式を提案する。
提案手法では,アック情報のみを用いて,単純な4つの演算で適切な伝送パラメータを選択できる。
さらに,提案手法の計算複雑性とメモリ要件を理論的に解析し,提案手法が計算複雑性とメモリ要求の極めて低い伝送パラメータを選択できることを検証した。
さらに,提案手法の有効性を評価するために,実世界のLoRaデバイス上で多数の実験を行った。
実験結果は以下の主な現象を示す。
1)他の軽量伝送パラメータ選択方式と比較して,利用可能なチャネルの変化にかかわらず,提案したLoRaWAN方式では,LoRaデバイス間の衝突を効率よく回避できる。
2) フレーム成功率(FSR)は,アクセスチャネルの選択と,アクセスチャネルの選択のみではなくSFの使用によって向上することができる。
3)隣接チャネル間に干渉が存在するため、隣接チャネル間の間隔を増加させることで、fsrとフェアネスを改善することができる。 The number of IoT devices is predicted to reach 125 billion by 2023. The growth of IoT devices will intensify the collisions between devices, degrading communication performance. Selecting appropriate transmission parameters, such as channel and spreading factor (SF), can effectively reduce the collisions between long-range (LoRa) devices. However, most of the schemes proposed in the current literature are not easy to implement on an IoT device with limited computational complexity and memory. To solve this issue, we propose a lightweight transmission-parameter selection scheme, i.e., a joint channel and SF selection scheme using reinforcement learning for low-power wide area networking (LoRaWAN). In the proposed scheme, appropriate transmission parameters can be selected by simple four arithmetic operations using only Acknowledge (ACK) information. Additionally, we theoretically analyze the computational complexity and memory requirement of our proposed scheme, which verified that our proposed scheme could select transmission parameters with extremely low computational complexity and memory requirement. Moreover, a large number of experiments were implemented on the LoRa devices in the real world to evaluate the effectiveness of our proposed scheme. The experimental results demonstrate the following main phenomena. (1) Compared to other lightweight transmission-parameter selection schemes, collisions between LoRa devices can be efficiently avoided by our proposed scheme in LoRaWAN irrespective of changes in the available channels. (2) The frame success rate (FSR) can be improved by selecting access channels and using SFs as opposed to only selecting access channels. (3) Since interference exists between adjacent channels, FSR and fairness can be improved by increasing the interval of adjacent available channels. | 翻訳日:2022-08-04 14:22:19 公開日:2022-08-03 |
# エッジ支援車体ネットワークのための非同期フェデレーション学習 Asynchronous Federated Learning for Edge-assisted Vehicular Networks ( http://arxiv.org/abs/2208.01901v1 ) ライセンス: Link先を確認 | Siyuan Wang, Qiong Wu, Qiang Fan, Cui Zhang and Zhengquan Li | (参考訳) 車両ネットワークは、訓練データを通じてリアルタイムの車両アプリケーションをサポートすることができる。
限られた計算能力のため、車両は通常、ネットワークエッジの路側ユニット(rsu)にデータを送信してデータを処理する。
しかし、車両は通常、プライバシーの問題のために互いにデータを共有するのに消極的だ。
従来の連合学習(fl)では、車両はデータをローカルにトレーニングしてローカルモデルを取得し、ローカルモデルをrsuにアップロードしてグローバルモデルを更新する。
従来のflはグローバルモデルを同期的に更新する。つまり、rsuは全車両がグローバルモデル更新のためにモデルをアップロードするのを待つ必要がある。
しかしながら、車両は通常、訓練を通じてローカルモデルを取得する前にRSUのカバレッジから逸脱し、グローバルモデルの精度を低下させる。
この問題を解決するために非同期連合学習(AFL)を提案する必要がある。そこでは、RSUが車両からローカルモデルを受け取ると、グローバルモデルを更新する。
しかし、データ量、計算能力、車両の移動性が世界モデルの精度に影響を与える可能性がある。
本稿では,データ量,計算能力,車両移動性を共同で検討し,グローバルモデルの精度を向上させるためにAFL方式を設計する。
大規模なシミュレーション実験により、我々のスキームはFLスキームよりも優れていることが示された。 Vehicular networks enable vehicles support real-time vehicular applications through training data. Due to the limited computing capability, vehicles usually transmit data to a road side unit (RSU) at the network edge to process data. However, vehicles are usually reluctant to share data with each other due to the privacy issue. For the traditional federated learning (FL), vehicles train the data locally to obtain a local model and then upload the local model to the RSU to update the global model, thus the data privacy can be protected through sharing model parameters instead of data. The traditional FL updates the global model synchronously, i.e., the RSU needs to wait for all vehicles to upload their models for the global model updating. However, vehicles may usually drive out of the coverage of the RSU before they obtain their local models through training, which reduces the accuracy of the global model. It is necessary to propose an asynchronous federated learning (AFL) to solve this problem, where the RSU updates the global model once it receives a local model from a vehicle. However, the amount of data, computing capability and vehicle mobility may affect the accuracy of the global model. In this paper, we jointly consider the amount of data, computing capability and vehicle mobility to design an AFL scheme to improve the accuracy of the global model. Extensive simulation experiments have demonstrated that our scheme outperforms the FL scheme | 翻訳日:2022-08-04 14:21:55 公開日:2022-08-03 |
# 不連続表現学習による親水性グラフのリンク予測 Link Prediction on Heterophilic Graphs via Disentangled Representation Learning ( http://arxiv.org/abs/2208.01820v1 ) ライセンス: Link先を確認 | Shijie Zhou, Zhimeng Guo, Charu Aggarwal, Xiang Zhang and Suhang Wang | (参考訳) リンク予測は、様々なドメインに幅広い応用がある重要なタスクである。
しかし、既存のリンク予測手法の大半は、与えられたグラフがホモフィリーな仮定に従うと仮定し、類似性に基づくヒューリスティックや表現学習アプローチを設計してリンクを予測する。
しかし、多くの実世界のグラフは、ホモフィリー仮定が持たないヘテロ親和グラフであり、既存のリンク予測法に挑戦する。
一般に、ヘテロ親和性グラフにはリンク形成を引き起こす潜在因子が多数存在し、2つの連結ノードは1つまたは2つの因子で類似する傾向にあるが、他の因子では異なっており、全体的な類似性が低い。
したがって、1つの方法は、各ベクターが1つの因子上のノードの潜在表現をキャプチャし、各ノードの絡み合った表現を学習し、親水性グラフにおけるリンク形成をモデル化し、よりよいノード表現学習とリンク予測性能をもたらす。
しかし、これに関する作業は限られている。
そこで本稿では,異種グラフ上のリンク予測のための非交叉表現学習の新たな課題について検討する。
本稿では,リンク形成をモデル化し,因子認識によるメッセージパッシングを行い,リンク予測を容易にする新しいフレームワークであるdisenlinkを提案する。
13の実世界のデータセットに対する大規模な実験は、異種グラフと血友病グラフのリンク予測におけるDisenLinkの有効性を示した。
私たちのコードはhttps://github.com/sjz5202/DisenLinkで利用可能です。 Link prediction is an important task that has wide applications in various domains. However, the majority of existing link prediction approaches assume the given graph follows homophily assumption, and designs similarity-based heuristics or representation learning approaches to predict links. However, many real-world graphs are heterophilic graphs, where the homophily assumption does not hold, which challenges existing link prediction methods. Generally, in heterophilic graphs, there are many latent factors causing the link formation, and two linked nodes tend to be similar in one or two factors but might be dissimilar in other factors, leading to low overall similarity. Thus, one way is to learn disentangled representation for each node with each vector capturing the latent representation of a node on one factor, which paves a way to model the link formation in heterophilic graphs, resulting in better node representation learning and link prediction performance. However, the work on this is rather limited. Therefore, in this paper, we study a novel problem of exploring disentangled representation learning for link prediction on heterophilic graphs. We propose a novel framework DisenLink which can learn disentangled representations by modeling the link formation and perform factor-aware message-passing to facilitate link prediction. Extensive experiments on 13 real-world datasets demonstrate the effectiveness of DisenLink for link prediction on both heterophilic and hemophiliac graphs. Our codes are available at https://github.com/sjz5202/DisenLink | 翻訳日:2022-08-04 14:18:32 公開日:2022-08-03 |
# プライバシーとセキュリティ強化のための連合学習の新たな実装 A New Implementation of Federated Learning for Privacy and Security Enhancement ( http://arxiv.org/abs/2208.01826v1 ) ライセンス: Link先を確認 | Xiang Ma, Haijian Sun, Rose Qingyang Hu and Yi Qian | (参考訳) 個人データプライバシに関する懸念の高まりと、ローカルクライアントにおける急速に増加するデータ量に動機づけられたfederated learning(fl)が、新たなマシンラーニング環境として登場した。
FLシステムは、中央パラメータサーバと複数のローカルクライアントから構成される。
ローカルクライアントにデータを保持し、ローカルに学習したモデルパラメータを共有することで、集中型モデルを学ぶ。
ローカルデータを共有する必要はなく、プライバシも十分に保護される。
それでも、共有される生データではなくモデルであるため、システムは悪意のあるクライアントによって起動される毒モデル攻撃に晒される可能性がある。
さらに、ローカルクライアントデータがサーバ上にないため、悪意のあるクライアントを特定するのは難しい。
さらに、メンバーシップ推論攻撃は、アップロードされたモデルを使用してクライアントのローカルデータを推定することで、プライバシの開示につながる。
本研究では,まずモデル更新に基づくフェデレーション平均化アルゴリズムを提案し,付加雑音攻撃やサインフリップ攻撃などのビザンチン攻撃を防御する。
個々のローカル機械学習モデルを隠すことにより、会員推論攻撃からさらなるプライバシー保護を提供するために、個々のクライアントモデル初期化方法を提案する。
これら2つのスキームを組み合わせることで、プライバシーとセキュリティを効果的に強化することができる。
提案手法は,攻撃がない場合に,非IIDデータ分布下で実験的に収束することが実証された。
ビザンティン攻撃下では、提案手法は従来のモデルベースのFedAvgアルゴリズムよりもはるかに優れている。 Motivated by the ever-increasing concerns on personal data privacy and the rapidly growing data volume at local clients, federated learning (FL) has emerged as a new machine learning setting. An FL system is comprised of a central parameter server and multiple local clients. It keeps data at local clients and learns a centralized model by sharing the model parameters learned locally. No local data needs to be shared, and privacy can be well protected. Nevertheless, since it is the model instead of the raw data that is shared, the system can be exposed to the poisoning model attacks launched by malicious clients. Furthermore, it is challenging to identify malicious clients since no local client data is available on the server. Besides, membership inference attacks can still be performed by using the uploaded model to estimate the client's local data, leading to privacy disclosure. In this work, we first propose a model update based federated averaging algorithm to defend against Byzantine attacks such as additive noise attacks and sign-flipping attacks. The individual client model initialization method is presented to provide further privacy protections from the membership inference attacks by hiding the individual local machine learning model. When combining these two schemes, privacy and security can be both effectively enhanced. The proposed schemes are proved to converge experimentally under non-IID data distribution when there are no attacks. Under Byzantine attacks, the proposed schemes perform much better than the classical model based FedAvg algorithm. | 翻訳日:2022-08-04 14:18:06 公開日:2022-08-03 |
# 暗号トランザクションネットワークにおける時間リンク予測のためのグラフ正規化非負遅延因子モデル Graph Regularized Nonnegative Latent Factor Analysis Model for Temporal Link Prediction in Cryptocurrency Transaction Networks ( http://arxiv.org/abs/2208.01923v1 ) ライセンス: Link先を確認 | Zhou Yue, Liu ZhiGang, Yuan Ye | (参考訳) ブロックチェーン技術の発展に伴い、ブロックチェーン技術に基づく暗号通貨はますます人気が高まっている。
これにより、巨大な暗号通貨取引ネットワークが誕生した。
ネットワークのリンク予測学習構造はネットワークのメカニズムを理解するのに役立ち、暗号通貨ネットワークでも広く研究されている。
しかし、暗号通貨取引ネットワークのダイナミクスは過去研究で無視されてきた。
我々は、グラフ正規化手法を用いて過去のトランザクションレコードと将来のトランザクションをリンクする。
そこで本研究では,1つの潜在因子依存,非負,乗算,グラフ正規化更新(slf-nmgru)アルゴリズムを提案し,さらにグラフ正規化非負的潜在因子分析(grnlfa)モデルを提案する。
最後に、実際の暗号通貨取引ネットワークの実験により、提案手法が精度と計算効率の両方を改善することを示す。 With the development of blockchain technology, the cryptocurrency based on blockchain technology is becoming more and more popular. This gave birth to a huge cryptocurrency transaction network has received widespread attention. Link prediction learning structure of network is helpful to understand the mechanism of network, so it is also widely studied in cryptocurrency network. However, the dynamics of cryptocurrency transaction networks have been neglected in the past researches. We use graph regularized method to link past transaction records with future transactions. Based on this, we propose a single latent factor-dependent, non-negative, multiplicative and graph regularized-incorporated update (SLF-NMGRU) algorithm and further propose graph regularized nonnegative latent factor analysis (GrNLFA) model. Finally, experiments on a real cryptocurrency transaction network show that the proposed method improves both the accuracy and the computational efficiency | 翻訳日:2022-08-04 14:17:45 公開日:2022-08-03 |
# リアルタイム入札におけるモデル不確かさの探索 Exploration with Model Uncertainty at Extreme Scale in Real-Time Bidding ( http://arxiv.org/abs/2208.01951v1 ) ライセンス: Link先を確認 | Jan Hartman, Davorin Kopi\v{c} | (参考訳) 本研究では,リアルタイム入札における供給環境を探索するスケーラブルで効率的なシステムを提案する。
このシステムは、クリックスルー率予測に使用されるモデルの予測の不確実性に基づいて探索を指示し、高スループット、低レイテンシ環境で動作する。
オンラインA/Bテストを通じて、モデル不確実性による探索がモデルパフォーマンスとビジネスKPIに肯定的な影響を与えることを示す。 In this work, we present a scalable and efficient system for exploring the supply landscape in real-time bidding. The system directs exploration based on the predictive uncertainty of models used for click-through rate prediction and works in a high-throughput, low-latency environment. Through online A/B testing, we demonstrate that exploration with model uncertainty has a positive impact on model performance and business KPIs. | 翻訳日:2022-08-04 14:17:32 公開日:2022-08-03 |
# 異なる身体を持つロボットが表現でき、物体操作における注意度に影響を与える Robots with Different Embodiments Can Express and Influence Carefulness in Object Manipulation ( http://arxiv.org/abs/2208.02058v1 ) ライセンス: Link先を確認 | Linda Lastrico, Luca Garello, Francesco Rea, Nicoletta Noceti, Fulvio Mastrogiovanni, Alessandra Sciutti, Alessandro Carf\`i | (参考訳) 人間は、他人によって運ばれているのを単に見ているだけで、オブジェクトの特性をコミュニケーションし、読み取る能力がある。
このレベルのコミュニケーション能力と解釈は、人間に提供され、自然かつ効果的に相互作用するならば、協調ロボットにとって不可欠である。
例えば、ロボットが壊れやすい物体を渡していると仮定する。
この場合、受信した人間は、ロボットの動作を直接変調することで、即時かつ暗黙のメッセージを通じて、その脆弱さを事前に知らせるべきである。
本研究では、異なる実施形態の2つのロボット(iCubヒューマノイドロボットとBaxterロボット)によるコミュニケーション意図による物体操作の知覚について検討する。
ロボットの動きは,物体の搬送時に注意を伝達するか否かを判断する。
我々は、この特徴が人間の観察者によって正しく認識されているだけでなく、その後のヒトの物体操作における運動適応の形式も引き起こすことを発見した。
さらに、動きの特徴が物体を多かれ少なかれ慎重に操作することを誘導する可能性についての洞察を得る。 Humans have an extraordinary ability to communicate and read the properties of objects by simply watching them being carried by someone else. This level of communicative skills and interpretation, available to humans, is essential for collaborative robots if they are to interact naturally and effectively. For example, suppose a robot is handing over a fragile object. In that case, the human who receives it should be informed of its fragility in advance, through an immediate and implicit message, i.e., by the direct modulation of the robot's action. This work investigates the perception of object manipulations performed with a communicative intent by two robots with different embodiments (an iCub humanoid robot and a Baxter robot). We designed the robots' movements to communicate carefulness or not during the transportation of objects. We found that not only this feature is correctly perceived by human observers, but it can elicit as well a form of motor adaptation in subsequent human object manipulations. In addition, we get an insight into which motion features may induce to manipulate an object more or less carefully. | 翻訳日:2022-08-04 14:16:39 公開日:2022-08-03 |
# 畳み込みパーシステンス変換 A Convolutional Persistence Transform ( http://arxiv.org/abs/2208.02107v1 ) ライセンス: Link先を確認 | Elchanan Solomon, Paul Bendich | (参考訳) 我々は,持続性を計算する前に,様々なフィルタで画像を変換して得られる$d$次元画像の新しいトポロジ的フォーチュアライズを考える。
畳み込みフィルタをイメージ内のモチーフと見なすと、結果として生じる畳み込みの永続図はそのイメージ全体にモチーフが分散される方法を記述する。
このパイプラインは畳み込み永続化(convolutional persistence)と呼ばれ、画像データのパターンを観測するトポロジーの能力を拡張します。
実際、任意の2つの画像に対して(実際は)異なる永続図を生成するフィルターを見つけることができ、ある画像に対するすべての可能な畳み込み持続図の集合が射影不変量であることを示す。
これは、別の位相不変量である永続ホモロジー変換の特別な場合として畳み込み持続性を示すことによって証明される。
畳み込み持続性のその他の利点は、安定性の向上とノイズに対する堅牢性、データ依存ベクトル化の柔軟性の向上、大きなストライドベクトルを持つ畳み込みの計算複雑性の低減である。
さらに, コンボリューションは, ランダムフィルタを使用し, 全体の持続性のみを記録することにより, 結果図をベクトル化する場合でも, 分類タスクのホスト上での持続性予測能力を大幅に向上させることを示した。 We consider a new topological feauturization of $d$-dimensional images, obtained by convolving images with various filters before computing persistence. Viewing a convolution filter as a motif within an image, the persistence diagram of the resulting convolution describes the way the motif is distributed throughout that image. This pipeline, which we call convolutional persistence, extends the capacity of topology to observe patterns in image data. Indeed, we prove that (generically speaking) for any two images one can find some filter for which they produce different persistence diagrams, so that the collection of all possible convolutional persistence diagrams for a given image is an injective invariant. This is proven by showing convolutional persistence to be a special case of another topological invariant, the Persistent Homology Transform. Other advantages of convolutional persistence are improved stability and robustness to noise, greater flexibility for data-dependent vectorizations, and reduced computational complexity for convolutions with large stride vectors. Additionally, we have a suite of experiments showing that convolutions greatly improve the predictive power of persistence on a host of classification tasks, even if one uses random filters and vectorizes the resulting diagrams by recording only their total persistences. | 翻訳日:2022-08-04 14:16:23 公開日:2022-08-03 |
# クラス条件ラベル雑音下での学習における耐雑音性 Noise tolerance of learning to rank under class-conditional label noise ( http://arxiv.org/abs/2208.02126v1 ) ライセンス: Link先を確認 | Dany Haddad | (参考訳) ランキングモデルのトレーニングに使用されるデータは、しばしばラベルノイズを受ける。
例えば、Web検索では、SERPの項目記述の不十分な情報、ユーザによるクエリの改定、不規則または予期せぬユーザ行動などの問題により、クリックストリームデータから生成されたラベルがうるさい。
実際にラベル生成プロセスについて強い仮定をすることなくラベルノイズを扱うことは困難である。
結果として、実践者は通常、ラベルノイズを考慮せずに、このノイズデータに直接学習・ランク(ltr)モデルをトレーニングする。
驚くべきことに、この方法でトレーニングされたLtRモデルの強力なパフォーマンスがよく見られます。
本稿では, クラス条件ラベルノイズの文脈においても, 経験的リスク最小化が一貫した手順である, 雑音耐性ltr損失のクラスについて述べる。
また,一般に使用される損失関数のノイズ耐性アナログを開発した。
本研究の実際的意義は,実験結果によってさらに裏付けられている。 Often, the data used to train ranking models is subject to label noise. For example, in web-search, labels created from clickstream data are noisy due to issues such as insufficient information in item descriptions on the SERP, query reformulation by the user, and erratic or unexpected user behavior. In practice, it is difficult to handle label noise without making strong assumptions about the label generation process. As a result, practitioners typically train their learning-to-rank (LtR) models directly on this noisy data without additional consideration of the label noise. Surprisingly, we often see strong performance from LtR models trained in this way. In this work, we describe a class of noise-tolerant LtR losses for which empirical risk minimization is a consistent procedure, even in the context of class-conditional label noise. We also develop noise-tolerant analogs of commonly used loss functions. The practical implications of our theoretical findings are further supported by experimental results. | 翻訳日:2022-08-04 14:16:00 公開日:2022-08-03 |
# 画像圧縮センシングのための高速階層型ディープ展開ネットワーク Fast Hierarchical Deep Unfolding Network for Image Compressed Sensing ( http://arxiv.org/abs/2208.01827v1 ) ライセンス: Link先を確認 | Wenxue Cui, Shaohui Liu, Debin Zhao | (参考訳) 特定の最適化解法をディープニューラルネットワークに統合することにより、近年、画像圧縮センシング(CS)において、ディープ・アンフォールディング・ネットワーク(DUN)が注目されている。
しかし、既存のDUNにはいくつかの問題がある。
1)各イテレーションで、単純な積み重ね畳み畳み込みネットワークが採用され、これらのモデルの表現性が制限される。
2)訓練が完了すると,既存のDUNのハイパーパラメータは入力内容に対して固定され,適応性が著しく低下する。
本稿では,fhdunと呼ばれる新しい高速階層ダンクを画像圧縮センシングに応用し,複数スケール空間におけるよりリッチな事前情報を協調的に探索するために,高度に設計された階層的展開アーキテクチャを開発した。
適応性をさらに高めるために、入力内容に応じて対応する最適ハイパーパラメータを動的に生成する一連のハイパーパラメトリック生成ネットワークを開発した。
さらに、FISTAの高速化政策により、新たに組み込まれた加速モジュールにより、提案されたFHDUNは最近のDUNに対する反復ループの50%以上を節約できる。
大規模なCS実験は、提案されたFHDUNが既存のCS手法より優れており、イテレーションは少ないことを示している。 By integrating certain optimization solvers with deep neural network, deep unfolding network (DUN) has attracted much attention in recent years for image compressed sensing (CS). However, there still exist several issues in existing DUNs: 1) For each iteration, a simple stacked convolutional network is usually adopted, which apparently limits the expressiveness of these models. 2) Once the training is completed, most hyperparameters of existing DUNs are fixed for any input content, which significantly weakens their adaptability. In this paper, by unfolding the Fast Iterative Shrinkage-Thresholding Algorithm (FISTA), a novel fast hierarchical DUN, dubbed FHDUN, is proposed for image compressed sensing, in which a well-designed hierarchical unfolding architecture is developed to cooperatively explore richer contextual prior information in multi-scale spaces. To further enhance the adaptability, series of hyperparametric generation networks are developed in our framework to dynamically produce the corresponding optimal hyperparameters according to the input content. Furthermore, due to the accelerated policy in FISTA, the newly embedded acceleration module makes the proposed FHDUN save more than 50% of the iterative loops against recent DUNs. Extensive CS experiments manifest that the proposed FHDUN outperforms existing state-of-the-art CS methods, while maintaining fewer iterations. | 翻訳日:2022-08-04 14:13:13 公開日:2022-08-03 |
# 不均一変化検出のためのグラフ信号処理 その1:頂点領域フィルタリング Graph Signal Processing for Heterogeneous Change Detection Part I: Vertex Domain Filtering ( http://arxiv.org/abs/2208.01881v1 ) ライセンス: Link先を確認 | Yuli Sun, Lin Lei, Dongdong Guan, Gangyao Kuang, Li Liu | (参考訳) 本稿では、グラフ信号処理(GSP)の観点からHCDを解くという、異種変化検出(HCD)問題に対する新たな戦略を提案する。
構造情報を取得するために,各画像のグラフを構築し,各画像をグラフ信号として扱う。
このようにして、HCDをGSP問題に変換する: 2つのグラフ上に定義された異なるシステム上での2つの信号の応答の比較により、不均一な画像の変化による構造的差(Part I)と信号的差(Part II)を見つけ出そうとする。
この第一部では、頂点領域から GSP を用いて HCD を解析する。
まず、変化しない画像に対して、それらの構造は一貫しており、2つのグラフ上で定義されたシステム上の同じ信号の出力は類似していることを示す。
しかし、ある領域が変更されると、画像の局所構造が変化し、すなわち、この領域を含む頂点の接続が変化する。
そして、2つのグラフに定義されたフィルタを通過する同じ入力グラフ信号の出力信号を比較して変化を検出する。
我々は、オリジナルのグラフに隠された高次近傍情報を柔軟に探索できる頂点領域から異なるフィルタを設計する。
また,信号伝搬の観点から変化領域の変化が変化検出結果に与える影響を解析した。
7つの実データ集合を用いて行った実験は、頂点領域フィルタリングに基づくHCD法の有効性を示した。 This paper provides a new strategy for the Heterogeneous Change Detection (HCD) problem: solving HCD from the perspective of Graph Signal Processing (GSP). We construct a graph for each image to capture the structure information, and treat each image as the graph signal. In this way, we convert the HCD into a GSP problem: a comparison of the responses of the two signals on different systems defined on the two graphs, which attempts to find structural differences (Part I) and signal differences (Part II) due to the changes between heterogeneous images. In this first part, we analyze the HCD with GSP from the vertex domain. We first show that for the unchanged images, their structures are consistent, and then the outputs of the same signal on systems defined on the two graphs are similar. However, once a region has changed, the local structure of the image changes, i.e., the connectivity of the vertex containing this region changes. Then, we can compare the output signals of the same input graph signal passing through filters defined on the two graphs to detect changes. We design different filters from the vertex domain, which can flexibly explore the high-order neighborhood information hidden in original graphs. We also analyze the detrimental effects of changing regions on the change detection results from the viewpoint of signal propagation. Experiments conducted on seven real data sets show the effectiveness of the vertex domain filtering based HCD method. | 翻訳日:2022-08-04 14:12:47 公開日:2022-08-03 |
# Decay2Distill: 自己教師型イメージデノイシンにおける空間摂動と正規化の活用 Decay2Distill: Leveraging spatial perturbation and regularization for self-supervised image denoisin ( http://arxiv.org/abs/2208.01948v1 ) ライセンス: Link先を確認 | Manisha Das Chaity, Masud An Nur Islam Fahim | (参考訳) 未確認画像のデノベーションは、ここ数年で有望な発展を遂げた。
性能に関わらず、メソッドは基礎となるノイズ特性や、必ずしも実用的ではない仮定に大きく依存する傾向にある。
あるいは、ノイズの統計ではなく、構造的な観点から問題を基礎づけることができれば、よりロバストなソリューションが実現できます。
そこで,このようなモチベーションを生かして,空間的劣化と定式化をともなう自己教師付き弁別スキームを提案する。
提案手法は,従来手法に比べて大幅に改善し,異なるデータ領域に対して一貫した性能を示した。 Unpaired image denoising has achieved promising development over the last few years. Regardless of the performance, methods tend to heavily rely on underlying noise properties or any assumption which is not always practical. Alternatively, if we can ground the problem from a structural perspective rather than noise statistics, we can achieve a more robust solution. with such motivation, we propose a self-supervised denoising scheme that is unpaired and relies on spatial degradation followed by a regularized refinement. Our method shows considerable improvement over previous methods and exhibited consistent performance over different data domains. | 翻訳日:2022-08-04 14:12:26 公開日:2022-08-03 |
# 8つの人気のあるLidarとVisual SLAMアルゴリズムの評価と比較 Evaluation and comparison of eight popular Lidar and Visual SLAM algorithms ( http://arxiv.org/abs/2208.02063v1 ) ライセンス: Link先を確認 | Bharath Garigipati, Nataliya Strokina, Reza Ghabcheloo | (参考訳) 本稿では, LOAM, Lego LOAM, LIO SAM, HDL Graph, ORB SLAM3, Basalt VIO, SVO2 の8つの人気かつオープンソースの3DライダーとビジュアルSLAM (Simultaneous Localization and Mapping) アルゴリズムを評価する。
屋内および屋外の両方で,以下の項目の効果を調べる実験を考案した。
一 センサの設置位置の影響
二 地形の種類及び振動の効果
三 運動の効果(直線速度及び角速度の変動)
相対的および絶対的なポーズ誤差の観点からそれらの性能を比較する。
また,必要な計算資源の比較も行う。
室内および屋外におけるマルチカメラおよびマルチライダーデータを用いて, 環境事例の総合的分析, 検討を行い, 最適性能のシステムを特定した。
我々は,センサとそれに対応するslamアルゴリズムの組み合わせを,対象とする環境に応じて選択できることを期待する。 In this paper, we evaluate eight popular and open-source 3D Lidar and visual SLAM (Simultaneous Localization and Mapping) algorithms, namely LOAM, Lego LOAM, LIO SAM, HDL Graph, ORB SLAM3, Basalt VIO, and SVO2. We have devised experiments both indoor and outdoor to investigate the effect of the following items: i) effect of mounting positions of the sensors, ii) effect of terrain type and vibration, iii) effect of motion (variation in linear and angular speed). We compare their performance in terms of relative and absolute pose error. We also provide comparison on their required computational resources. We thoroughly analyse and discuss the results and identify the best performing system for the environment cases with our multi-camera and multi-Lidar indoor and outdoor datasets. We hope our findings help one to choose a sensor and the corresponding SLAM algorithm combination suiting their needs, based on their target environment. | 翻訳日:2022-08-04 14:12:03 公開日:2022-08-03 |
# lssanet : 肺結節検出のための長短スライスアウェアネットワーク LSSANet: A Long Short Slice-Aware Network for Pulmonary Nodule Detection ( http://arxiv.org/abs/2208.02122v1 ) ライセンス: Link先を確認 | Rui Xu, Yong Luo, Bo Du, Kaiming Kuang, Jiancheng Yang | (参考訳) 畳み込みニューラルネットワーク(CNN)は肺結節検出の分野で非常に有効であることが示されている。
しかし、既存のCNNベースの肺結節検出法では、グローバルな情報抽出に不可欠な長距離依存関係を捕捉する能力が欠如している。
コンピュータビジョンタスクでは、非局所演算が広く利用されているが、3次元ct画像では計算コストが非常に高い可能性がある。
そこで本研究では,肺結節を検出するためのlong short slice-aware network (lssanet)を提案する。
特に,コンパクトな非局所埋め込みを短距離スライスグルーピング (long short slice grouping, lsg) と長距離スライスグルーピンググルーピング (long short slice grouping, lsg) に分けた新しい非局所機構を開発した。
これは計算の負担を軽減するだけでなく、スライスや機能マップ全体の要素間の長距離依存関係も維持します。
提案するlssgは容易に使用でき、多くの肺結節検出ネットワークに接続できる。
LSSANetの性能を検証するため,最近提案された2D/3D CNNに基づく競合検出手法と比較した。
大規模PN9データセットを用いた評価結果から,本手法の有効性を実証した。
コードはhttps://github.com/Ruixxxx/LSSANetにある。 Convolutional neural networks (CNNs) have been demonstrated to be highly effective in the field of pulmonary nodule detection. However, existing CNN based pulmonary nodule detection methods lack the ability to capture long-range dependencies, which is vital for global information extraction. In computer vision tasks, non-local operations have been widely utilized, but the computational cost could be very high for 3D computed tomography (CT) images. To address this issue, we propose a long short slice-aware network (LSSANet) for the detection of pulmonary nodules. In particular, we develop a new non-local mechanism termed long short slice grouping (LSSG), which splits the compact non-local embeddings into a short-distance slice grouped one and a long-distance slice grouped counterpart. This not only reduces the computational burden, but also keeps long-range dependencies among any elements across slices and in the whole feature map. The proposed LSSG is easy-to-use and can be plugged into many pulmonary nodule detection networks. To verify the performance of LSSANet, we compare with several recently proposed and competitive detection approaches based on 2D/3D CNN. Promising evaluation results on the large-scale PN9 dataset demonstrate the effectiveness of our method. Code is at https://github.com/Ruixxxx/LSSANet. | 翻訳日:2022-08-04 14:11:48 公開日:2022-08-03 |
# グラフ上のノード注入攻撃のための逆カモフラージュ Adversarial Camouflage for Node Injection Attack on Graphs ( http://arxiv.org/abs/2208.01819v1 ) ライセンス: Link先を確認 | Shuchang Tao, Qi Cao, Huawei Shen, Yunfan Wu, Liang Hou, Xueqi Cheng | (参考訳) グラフニューラルネットワーク(GNN)に対するノードインジェクション攻撃は、攻撃者がノード機能やエッジを変更してGNNのパフォーマンスを低下させる代わりに悪意のあるノードを注入するという、実用的な攻撃シナリオとして注目されている。
ノードインジェクション攻撃の初期成功にもかかわらず、既存の手法によるインジェクションノードは、防御手法によって元の通常のノードと区別しやすく、実際に攻撃性能を制限することができる。
上記の問題を解決するために、我々はカモフラージュノードインジェクション攻撃(すなわち、注入された悪意のあるノード(構造/属性)を、防御方法に正当かつ知覚できない正常な攻撃として用いた。
グラフデータの非ユークリッド的な性質と人間の事前の欠如は、グラフ上のカモフラージュの形式化、実装、評価に大きな課題をもたらす。
本稿では, 注入ノードを中心にしたegoネットワークの忠実性と多様性から, 注入ノードのカモフラージュを最初に提案, 定式化する。
次に,ノードインジェクション攻撃のための逆カモフラージュフレームワーク,すなわちcanaを設計し,攻撃性能を確保しつつカモフラージュを改善する。
グラフカモフラージュのための新しい指標が包括的評価のためにさらに設計されている。
提案したCANAフレームワークに既存のノードインジェクション攻撃手法を組み込むことで,防御手法とノードカモフラージュに対する攻撃性能が大幅に向上することを示した。 Node injection attacks against Graph Neural Networks (GNNs) have received emerging attention as a practical attack scenario, where the attacker injects malicious nodes instead of modifying node features or edges to degrade the performance of GNNs. Despite the initial success of node injection attacks, we find that the injected nodes by existing methods are easy to be distinguished from the original normal nodes by defense methods and limiting their attack performance in practice. To solve the above issues, we devote to camouflage node injection attack, i.e., camouflaging injected malicious nodes (structure/attributes) as the normal ones that appear legitimate/imperceptible to defense methods. The non-Euclidean nature of graph data and the lack of human prior brings great challenges to the formalization, implementation, and evaluation of camouflage on graphs. In this paper, we first propose and formulate the camouflage of injected nodes from both the fidelity and diversity of the ego networks centered around injected nodes. Then, we design an adversarial CAmouflage framework for Node injection Attack, namely CANA, to improve the camouflage while ensuring the attack performance. Several novel indicators for graph camouflage are further designed for a comprehensive evaluation. Experimental results demonstrate that when equipping existing node injection attack methods with our proposed CANA framework, the attack performance against defense methods as well as node camouflage is significantly improved. | 翻訳日:2022-08-04 14:10:04 公開日:2022-08-03 |
# 非観測文脈を用いた系列モデル模倣学習 Sequence Model Imitation Learning with Unobserved Contexts ( http://arxiv.org/abs/2208.02225v1 ) ライセンス: Link先を確認 | Gokul Swamy, Sanjiban Choudhury, J. Andrew Bagnell, Zhiwei Steven Wu | (参考訳) 実演とテスト時間の両方において、専門家が学習者から隠されたエピソードごとのコンテキストにアクセス可能な模倣学習問題を考察する。
学習者はエピソードの早い段階で専門家の行動を正確に再現できないかもしれないが、状態や行動の歴史全体を考慮すれば、最終的にはコンテキストを特定し、専門家が望むように振る舞うことができるかもしれない。
我々は、オンポリティクス模倣学習アルゴリズム(クエリ可能なエキスパートの有無に関わらず)が、オフポリティクス法よりもこのような漸近的に実現可能な問題を扱い、後者を悩ませるラッチ行動(過去の行動の反復)を回避できることを実証する。
本研究は,オモチャ・バンディット・ドメインで実験を行い,オフ・ポリティクス・アプローチが,オン・ポリティクス・アプローチの均一なパフォーマンスとは対照的に,専門家のパフォーマンスと漸近的に一致できるかどうかを示す。
いくつかの連続的な制御タスクにおいて、非政治的アプローチが履歴へのアクセスを与えられた場合、コンテキストを識別するために履歴を使用することができる。 We consider imitation learning problems where the expert has access to a per-episode context that is hidden from the learner, both in the demonstrations and at test-time. While the learner might not be able to accurately reproduce expert behavior early on in an episode, by considering the entire history of states and actions, they might be able to eventually identify the context and act as the expert would. We prove that on-policy imitation learning algorithms (with or without access to a queryable expert) are better equipped to handle these sorts of asymptotically realizable problems than off-policy methods and are able to avoid the latching behavior (naive repetition of past actions) that plagues the latter. We conduct experiments in a toy bandit domain that show that there exist sharp phase transitions of whether off-policy approaches are able to match expert performance asymptotically, in contrast to the uniformly good performance of on-policy approaches. We demonstrate that on several continuous control tasks, on-policy approaches are able to use history to identify the context while off-policy approaches actually perform worse when given access to history. | 翻訳日:2022-08-04 14:06:55 公開日:2022-08-03 |
# マルチビヘイビア・レコメンデーションのための多目的学習フレームワーク Coarse-to-Fine Knowledge-Enhanced Multi-Interest Learning Framework for Multi-Behavior Recommendation ( http://arxiv.org/abs/2208.01849v1 ) ライセンス: Link先を確認 | Chang Meng, Ziqi Zhao, Wei Guo, Yingxue Zhang, Haolun Wu, Chen Gao, Dong Li, Xiu Li and Ruiming Tang | (参考訳) マルチタイプの行動(例えば、クリック、カートの追加、購入など)は、多くの現実世界のレコメンデーションシナリオに広く存在し、ユーザの多面的な好みを学ぶのに有用である。
複数のタイプの振舞いによって依存関係が明示的に表現されるので、複雑な振舞いの依存性を効果的にモデリングすることは、マルチビヘイビア予測に不可欠である。
最先端のマルチ振る舞いモデルは、すべての歴史的相互作用を入力として区別しない振る舞い依存を学習する。
しかし、異なる振る舞いは、ユーザの好みの異なる側面を反映する可能性があるため、いくつかの無関係な相互作用が、予測されるターゲットの振る舞いに対するノイズとして機能する可能性がある。
上記の制約に対処するため,マルチ行動レコメンデーションに多目的学習を導入する。
より具体的には、異なる行動に対する共有および行動固有の関心を学習するための新しい粗雑な知識強化多利学習(ckml)フレームワークを提案する。
CKMLは、粗粒度関心抽出(CIE)と細粒度行動相関(FBC)という2つの高度なモジュールを導入している。
cieは知識認識情報を使用して、それぞれの関心の初期表現を抽出する。
FBCには動的ルーティングスキームが組み込まれており、関心事のそれぞれの振る舞いをさらに割り当てる。
さらに,関心レベルでの行動情報の相関には,自己認識機構を用いる。
実世界の3つのデータセットに対する実験結果から,マルチビヘイビアデータを利用したモデルの有効性と有効性が確認された。
さらに、各モジュールの有効性と、マルチビヘイビアデータに対する共有および特定モデリングパラダイムの堅牢性と優位性を示す。 Multi-types of behaviors (e.g., clicking, adding to cart, purchasing, etc.) widely exist in most real-world recommendation scenarios, which are beneficial to learn users' multi-faceted preferences. As dependencies are explicitly exhibited by the multiple types of behaviors, effectively modeling complex behavior dependencies is crucial for multi-behavior prediction. The state-of-the-art multi-behavior models learn behavior dependencies indistinguishably with all historical interactions as input. However, different behaviors may reflect different aspects of user preference, which means that some irrelevant interactions may play as noises to the target behavior to be predicted. To address the aforementioned limitations, we introduce multi-interest learning to the multi-behavior recommendation. More specifically, we propose a novel Coarse-to-fine Knowledge-enhanced Multi-interest Learning (CKML) framework to learn shared and behavior-specific interests for different behaviors. CKML introduces two advanced modules, namely Coarse-grained Interest Extracting (CIE) and Fine-grained Behavioral Correlation (FBC), which work jointly to capture fine-grained behavioral dependencies. CIE uses knowledge-aware information to extract initial representations of each interest. FBC incorporates a dynamic routing scheme to further assign each behavior among interests. Additionally, we use the self-attention mechanism to correlate different behavioral information at the interest level. Empirical results on three real-world datasets verify the effectiveness and efficiency of our model in exploiting multi-behavior data. Further experiments demonstrate the effectiveness of each module and the robustness and superiority of the shared and specific modelling paradigm for multi-behavior data. | 翻訳日:2022-08-04 14:06:11 公開日:2022-08-03 |
# ニューラル・ダイナミック・ムーブメント・プリミティブ -調査- Neural Dynamic Movement Primitives -- a survey ( http://arxiv.org/abs/2208.01903v1 ) ライセンス: Link先を確認 | Jo\v{z}e M Ro\v{z}anec, Bojan Nemec | (参考訳) ロボット工学における最も重要な課題の1つは、正確な軌道を作り、動的パラメータを制御して、ロボットが異なるタスクをこなせるようにすることである。
このような動作制御を提供する能力は、そのような動きのエンコード方法と密接に関連している。
深層学習の進歩は、動的運動プリミティブのための新しいアプローチの開発に強い影響を与えた。
本研究では,神経運動プリミティブに関する科学的文献を調査し,動的運動プリミティブに関する既存の調査を補完する。 One of the most important challenges in robotics is producing accurate trajectories and controlling their dynamic parameters so that the robots can perform different tasks. The ability to provide such motion control is closely related to how such movements are encoded. Advances on deep learning have had a strong repercussion in the development of novel approaches for Dynamic Movement Primitives. In this work, we survey scientific literature related to Neural Dynamic Movement Primitives, to complement existing surveys on Dynamic Movement Primitives. | 翻訳日:2022-08-04 14:05:46 公開日:2022-08-03 |
# プログラマブルフォトニック量子プロセッサによるアクティブラーニング Active Learning on a Programmable Photonic Quantum Processor ( http://arxiv.org/abs/2208.02104v1 ) ライセンス: Link先を確認 | Chen Ding, Xiao-Yue Xu, Yun-Fei Niu, Shuo Zhang, Wan-Su Bao, He-Liang Huang | (参考訳) 量子機械学習モデルのトレーニングには、一般的に大きなラベル付きデータセットが必要である。
このようなコストを削減するために、active learning(al)と呼ばれる選択的トレーニング戦略は、トレーニングされたモデルのパフォーマンスを維持しながら学習する元のデータセットのサブセットのみを選択する。
そこで本研究では,alを用いた2つの変分量子分類器の設計と実装を行い,alの量子機械学習への応用と有効性について検討する。
まず、プログラム可能なフリースペースフォトニック量子プロセッサを構築し、様々な量子古典型アルゴリズムのプログラム実装を可能にした。
次に、設計した変分量子分類器をALで量子プロセッサにコーディングし、AL戦略の有無にかかわらず、分類器の比較テストを実行する。
量子機械学習におけるalの利点は、データ分類タスクにおいてalなしでのトレーニングに比べて、最大で8,5\%$のラベル付け作業と9,1.6\%の計算労力を節約できる点にある。
この結果は、alの大規模量子機械学習におけるさらなる応用を刺激し、トレーニングデータを大幅に削減し、トレーニングをスピードアップさせ、量子物理学や実世界応用における実用的な量子優位性の探求を基礎としている。 Training a quantum machine learning model generally requires a large labeled dataset, which incurs high labeling and computational costs. To reduce such costs, a selective training strategy, called active learning (AL), chooses only a subset of the original dataset to learn while maintaining the trained model's performance. Here, we design and implement two AL-enpowered variational quantum classifiers, to investigate the potential applications and effectiveness of AL in quantum machine learning. Firstly, we build a programmable free-space photonic quantum processor, which enables the programmed implementation of various hybrid quantum-classical computing algorithms. Then, we code the designed variational quantum classifier with AL into the quantum processor, and execute comparative tests for the classifiers with and without the AL strategy. The results validate the great advantage of AL in quantum machine learning, as it saves at most $85\%$ labeling efforts and $91.6\%$ percent computational efforts compared to the training without AL on a data classification task. Our results inspire AL's further applications in large-scale quantum machine learning to drastically reduce training data and speed up training, underpinning the exploration of practical quantum advantages in quantum physics or real-world applications. | 翻訳日:2022-08-04 14:05:37 公開日:2022-08-03 |
# VQ-T:ベクトル量子予測ネットワーク状態を用いたRNNトランスデューサ VQ-T: RNN Transducers using Vector-Quantized Prediction Network States ( http://arxiv.org/abs/2208.01818v1 ) ライセンス: Link先を確認 | Jiatong Shi, George Saon, David Haws, Shinji Watanabe, Brian Kingsbury | (参考訳) エンド・ツー・エンドモデルのASR復号アルゴリズムであるビームサーチは木構造仮説を生成する。
しかし、近年の研究では、仮説のマージによる復号化が、同等またはより良い性能でより効率的な探索を実現することが示されている。
しかし、リカレントネットワークのフルコンテキストは、仮説マージと互換性がない。
RNNトランスデューサの予測ネットワークにおいて,ベクトル量子化長短期メモリユニット(VQ-LSTM)を提案する。
ASRネットワークと協調して離散表現を訓練することにより、格子生成のために仮説を積極的にマージすることができる。
提案したVQ RNNトランスデューサは,通常の予測ネットワークを持つトランスデューサよりもASR性能を向上し,また,非常に低いオラクルワード誤り率(WER)を持つ高密度格子を同じビームサイズで生成することを示す。
追加の言語モデルリコーリング実験は、提案された格子生成スキームの有効性を実証する。 Beam search, which is the dominant ASR decoding algorithm for end-to-end models, generates tree-structured hypotheses. However, recent studies have shown that decoding with hypothesis merging can achieve a more efficient search with comparable or better performance. But, the full context in recurrent networks is not compatible with hypothesis merging. We propose to use vector-quantized long short-term memory units (VQ-LSTM) in the prediction network of RNN transducers. By training the discrete representation jointly with the ASR network, hypotheses can be actively merged for lattice generation. Our experiments on the Switchboard corpus show that the proposed VQ RNN transducers improve ASR performance over transducers with regular prediction networks while also producing denser lattices with a very low oracle word error rate (WER) for the same beam size. Additional language model rescoring experiments also demonstrate the effectiveness of the proposed lattice generation scheme. | 翻訳日:2022-08-04 14:05:15 公開日:2022-08-03 |
# ネットニュースの意味ネットワーク分析によるエネルギーコミュニティの社会的意識評価と改善 Evaluating and improving social awareness of energy communities through semantic network analysis of online news ( http://arxiv.org/abs/2208.01892v1 ) ライセンス: Link先を確認 | C. Piselli, A. Fronzetti Colladon, L. Segneri, A. L. Pisello | (参考訳) エネルギー共同体の実施は、エネルギーシステム全体への市民の参加と再生可能エネルギーの利用を促進しながら、エネルギー移行を支援する可能性を持つ学際的な現象である。
オンライン情報ソースは、このプロセスに人々を巻き込み、関連する利益に対する認識を高める上で重要な役割を担っている。
本稿では,エネルギーコミュニティのオンラインニュースデータを分析して,人々の意識とメディアの重要性を理解する。
我々はセマンティックブランドスコア(SBS)指標を,ソーシャルネットワーク分析とテキストマイニングを組み合わせた,意味的重要性の革新的な尺度として用いている。
その結果,エネルギーコミュニティと他のエネルギー・社会関連トピックに対する重要度が異なっており,それらの関係の識別も可能となった。
提案手法は,低炭素エネルギー移行を促進するための情報ギャップと可能な行動の証拠を提供する。 The implementation of energy communities represents a cross-disciplinary phenomenon that has the potential to support the energy transition while fostering citizens' participation throughout the energy system and their exploitation of renewables. An important role is played by online information sources in engaging people in this process and increasing their awareness of associated benefits. In this view, this work analyses online news data on energy communities to understand people's awareness and the media importance of this topic. We use the Semantic Brand Score (SBS) indicator as an innovative measure of semantic importance, combining social network analysis and text mining methods. Results show different importance trends for energy communities and other energy and society-related topics, also allowing the identification of their connections. Our approach gives evidence to information gaps and possible actions that could be taken to promote a low-carbon energy transition. | 翻訳日:2022-08-04 14:05:00 公開日:2022-08-03 |
# 畳み込みニューラルネットワークによる顔検出における瞬時位相の重要性 The Importance of the Instantaneous Phase in Detecting Faces with Convolutional Neural Networks ( http://arxiv.org/abs/2208.01638v1 ) ライセンス: Link先を確認 | Luis Sanchez Tapia | (参考訳) 畳み込みニューラルネットワーク(cnn)は、デジタル画像やビデオを処理する新しい正確な方法を提供している。
しかし、CNNの訓練は計算資源の面で非常に要求されている。
また、特定のアプリケーションでは、転送学習の標準的な使用は、必要となるものよりもはるかに多くのリソースを必要とする傾向がある。
さらに、最終的なシステムは解釈が難しいブラックボックスとして動作する傾向がある。
現在の論文では、AOLMEビデオデータセットから顔を検出する問題について考察している。
AOLMEデータセットは、制約のない教室環境で記録されるグループインタラクションの大規模なビデオコレクションで構成されている。
論文では、静止画のフレームを18分間のビデオから毎分抽出した。
その後、各ビデオフレームは、それぞれ50x50ピクセルの9x5ブロックに分割された。
19440ブロックごとに、顔のピクセルの割合は基底真理として設定された。
顔検出は、各ブロックの顔画素パーセンテージを決定するための回帰問題として定義される。
異なる方法をテストするために、12の動画がトレーニングと検証に使われた。
残りの6本はテストに使用された。
本論文は,AOLMEブロックを用いた顔検出アプリケーションにおいて,瞬時位相を用いた影響を検討するものである。
比較のために、本論文は、瞬時位相に基づく周波数変調画像の使用、瞬時振幅の使用、および元のグレースケール画像の比較を行う。
fmおよびam入力を生成するために、論文は、解釈可能性を維持しながらトレーニングオーバーヘッドを削減することを目的とした主成分分析を用いる。 Convolutional Neural Networks (CNN) have provided new and accurate methods for processing digital images and videos. Yet, training CNNs is extremely demanding in terms of computational resources. Also, for specific applications, the standard use of transfer learning also tends to require far more resources than what may be needed. Furthermore, the final systems tend to operate as black boxes that are difficult to interpret. The current thesis considers the problem of detecting faces from the AOLME video dataset. The AOLME dataset consists of a large video collection of group interactions that are recorded in unconstrained classroom environments. For the thesis, still image frames were extracted at every minute from 18 24-minute videos. Then, each video frame was divided into 9x5 blocks with 50x50 pixels each. For each of the 19440 blocks, the percentage of face pixels was set as ground truth. Face detection was then defined as a regression problem for determining the face pixel percentage for each block. For testing different methods, 12 videos were used for training and validation. The remaining 6 videos were used for testing. The thesis examines the impact of using the instantaneous phase for the AOLME block-based face detection application. For comparison, the thesis compares the use of the Frequency Modulation image based on the instantaneous phase, the use of the instantaneous amplitude, and the original gray scale image. To generate the FM and AM inputs, the thesis uses dominant component analysis that aims to decrease the training overhead while maintaining interpretability. | 翻訳日:2022-08-04 14:04:43 公開日:2022-08-03 |
# 教師なし深層ニューラルネットワークを用いた医用画像登録:スコーピング文献レビュー Medical image registration using unsupervised deep neural network: A scoping literature review ( http://arxiv.org/abs/2208.01825v1 ) ライセンス: Link先を確認 | Samaneh Abbasi, Meysam Tavakoli, Hamid Reza Boveiri, Mohammad Amin Mosleh Shirazi, Raouf Khayami, Hedieh Khorasani, Reza Javidan, Alireza Mehdizadeh | (参考訳) 医学において、画像登録は画像誘導介入やその他の臨床応用において不可欠である。
しかし、機械学習の出現により、近年、この領域における医用画像登録においてアルゴリズムの性能が著しく進歩しているため、対処は困難である。
ディープニューラルネットワークの実装は、画像登録を精度良く行うことや、手術中の腫瘍に対抗する上で重要な役割を果たすことといった、いくつかの医療応用の機会を提供する。
本研究は,非教師付き深層ニューラルネットワークに基づく医用画像登録研究の最先端文献を包括的に概観し,この分野で発表されたすべての関連研究を包括的に概観する。
本稿では,医学分野における教師なし深層学習に基づく登録手法の最近の展開と応用についてまとめる。
基本的および主要な概念,技術,異なる視点からの統計的分析,新奇性,今後の方向性を精査し,現在の包括的スコーピングレビューで紹介する。
さらにこのレビューは、この分野に魅了されたアクティブな読者が、このエキサイティングな分野に関する深い洞察を得るのに役立つことを期待している。 In medicine, image registration is vital in image-guided interventions and other clinical applications. However, it is a difficult subject to be addressed which by the advent of machine learning, there have been considerable progress in algorithmic performance has recently been achieved for medical image registration in this area. The implementation of deep neural networks provides an opportunity for some medical applications such as conducting image registration in less time with high accuracy, playing a key role in countering tumors during the operation. The current study presents a comprehensive scoping review on the state-of-the-art literature of medical image registration studies based on unsupervised deep neural networks is conducted, encompassing all the related studies published in this field to this date. Here, we have tried to summarize the latest developments and applications of unsupervised deep learning-based registration methods in the medical field. Fundamental and main concepts, techniques, statistical analysis from different viewpoints, novelties, and future directions are elaborately discussed and conveyed in the current comprehensive scoping review. Besides, this review hopes to help those active readers, who are riveted by this field, achieve deep insight into this exciting field. | 翻訳日:2022-08-04 14:04:08 公開日:2022-08-03 |
# 汚染トレーニングデータを用いた深部時系列異常検出モデルのロバスト学習 Robust Learning of Deep Time Series Anomaly Detection Models with Contaminated Training Data ( http://arxiv.org/abs/2208.01841v1 ) ライセンス: Link先を確認 | Wenkai Li, Cheng Feng, Ting Chen, Jun Zhu | (参考訳) 時系列異常検出(TSAD)はIoT時代の多くのアプリケーションにおいて重要なデータマイニングタスクである。
近年、深層ニューラルネットワークに基づく手法が多数提案されており、様々な領域におけるtsad問題に対処する従来の手法よりもかなり優れた性能を示している。
それにもかかわらず、これらの深いtsadメソッドは通常、基礎となるダイナミクスの"通常のプロファイル"を学ぶために異常によって汚染されないクリーンなトレーニングデータセットに依存している。
クリーンなデータセットを実際に提供できないため、この要件は簡単ではない。
さらに、その頑健さを意識せずに、潜在的に汚染されたトレーニングデータを用いた深部TSAD法を盲目的に適用することで、検出フェーズにおいて大幅な性能劣化を引き起こす可能性がある。
そこで本研究では,本研究の課題である深層tsad法のロバスト性について,まず,提供されるトレーニングデータが異常のない場合に適用するためのガイドラインを提供する汚染トレーニングデータを用いて検討する。
さらに, 汚染される可能性のあるデータを用いて, 主流の深層tsadモデルのロバスト性を効果的に改善できるモデル非依存手法を提案する。
実験結果から,本手法は広く使用されているベンチマークデータセット上で,メインストリームの深部TSADモデルの性能劣化を継続的に防止・緩和できることが示された。 Time series anomaly detection (TSAD) is an important data mining task with numerous applications in the IoT era. In recent years, a large number of deep neural network-based methods have been proposed, demonstrating significantly better performance than conventional methods on addressing challenging TSAD problems in a variety of areas. Nevertheless, these deep TSAD methods typically rely on a clean training dataset that is not polluted by anomalies to learn the "normal profile" of the underlying dynamics. This requirement is nontrivial since a clean dataset can hardly be provided in practice. Moreover, without the awareness of their robustness, blindly applying deep TSAD methods with potentially contaminated training data can possibly incur significant performance degradation in the detection phase. In this work, to tackle this important challenge, we firstly investigate the robustness of commonly used deep TSAD methods with contaminated training data which provides a guideline for applying these methods when the provided training data are not guaranteed to be anomaly-free. Furthermore, we propose a model-agnostic method which can effectively improve the robustness of learning mainstream deep TSAD models with potentially contaminated data. Experiment results show that our method can consistently prevent or mitigate performance degradation of mainstream deep TSAD models on widely used benchmark datasets. | 翻訳日:2022-08-04 14:01:17 公開日:2022-08-03 |
# 重み付きグラフラプラシアンを用いたロバストグラフニューラルネットワーク Robust Graph Neural Networks using Weighted Graph Laplacian ( http://arxiv.org/abs/2208.01853v1 ) ライセンス: Link先を確認 | Bharat Runwal, Vivek, Sandeep Kumar | (参考訳) グラフニューラルネットワーク(GNN)は、さまざまなアプリケーションドメインで顕著なパフォーマンスを実現している。
しかし、GNNは入力データのノイズや敵攻撃に弱い。
GNNをノイズや敵攻撃に対して堅牢にすることは重要な問題である。
GNNの既存の防御手法は、計算的に要求され、拡張性がない。
本稿では、重み付きラプラシアンGNN(RWL-GNN)として知られるGNNを強固化するための汎用フレームワークを提案する。
本手法は重み付きグラフラプラシアン学習とgnn実装を組み合わせたものである。
提案手法は, ラプラシア行列の正半定性, 特徴の滑らか性, 潜時特徴を統一最適化フレームワークで定式化し, 逆/雑音エッジを破棄し, グラフ内の接続を適切に重み付けする。
実演では、グラフ畳み込みニューラルネットワーク(GCNN)アーキテクチャを用いて実験を行うが、提案フレームワークは既存のGNNアーキテクチャにも容易に適用可能である。
シミュレーションの結果,提案手法の有効性を,精度と計算効率の両面で確立した。
コードはhttps://github.com/Bharat-Runwal/RWL-GNNでアクセスできる。 Graph neural network (GNN) is achieving remarkable performances in a variety of application domains. However, GNN is vulnerable to noise and adversarial attacks in input data. Making GNN robust against noises and adversarial attacks is an important problem. The existing defense methods for GNNs are computationally demanding and are not scalable. In this paper, we propose a generic framework for robustifying GNN known as Weighted Laplacian GNN (RWL-GNN). The method combines Weighted Graph Laplacian learning with the GNN implementation. The proposed method benefits from the positive semi-definiteness property of Laplacian matrix, feature smoothness, and latent features via formulating a unified optimization framework, which ensures the adversarial/noisy edges are discarded and connections in the graph are appropriately weighted. For demonstration, the experiments are conducted with Graph convolutional neural network(GCNN) architecture, however, the proposed framework is easily amenable to any existing GNN architecture. The simulation results with benchmark dataset establish the efficacy of the proposed method, both in accuracy and computational efficiency. Code can be accessed at https://github.com/Bharat-Runwal/RWL-GNN. | 翻訳日:2022-08-04 14:00:55 公開日:2022-08-03 |
# 燃焼システムにおけるリーンブローアウト検出のための深層学習手法 A Deep Learning Approach to Detect Lean Blowout in Combustion Systems ( http://arxiv.org/abs/2208.01871v1 ) ライセンス: Link先を確認 | Tryambak Gangopadhyay, Somnath De, Qisai Liu, Achintya Mukhopadhyay, Swarnendu Sen, Soumik Sarkar | (参考訳) リーン燃焼はNOx排出の少ない環境に優しく、燃焼システムにおける燃費も向上する。
しかし、リーン燃焼に近づくと、エンジンはよりリーンブローアウトに敏感になる。
リーン・ブロウアウト(lbo)は、突然の炎が消滅し、突然の権力喪失を引き起こす、望ましくない現象である。
設計段階では、科学者が突然のLBOの発生を避けるために最適な運転限界を正確に決定することは極めて困難である。
そのため,低NOxエミッションエンジンにおけるオンラインLBO検出のための,正確かつ計算可能なフレームワークを開発することが重要である。
我々の知る限りでは、燃焼システムにおけるリーン吹出しを検出するためのディープラーニング手法を初めて提案する。
本研究では,実験室規模の燃焼器を用いて異なるプロトコルのデータ収集を行う。
我々は各プロトコルについてLBOから離れ、徐々にLBO体制へ移行し、各条件で準静的時系列データセットを取得する。
データセット内のプロトコルの1つを参照プロトコルとして使用し、ドメインの専門家によって注釈付けされた条件を用いて、トレーニングされたディープラーニングモデルの遷移状態メトリクスを見つけ、他のテストプロトコルでLBOを検出する。
lboへの移行を検出するため,提案手法は他のベースラインモデルよりも精度が高く,計算速度が速いことが判明した。
そこで本手法は, リーン燃焼機関のリアルタイム性能モニタリングに有効である。 Lean combustion is environment friendly with low NOx emissions and also provides better fuel efficiency in a combustion system. However, approaching towards lean combustion can make engines more susceptible to lean blowout. Lean blowout (LBO) is an undesirable phenomenon that can cause sudden flame extinction leading to sudden loss of power. During the design stage, it is quite challenging for the scientists to accurately determine the optimal operating limits to avoid sudden LBO occurrence. Therefore, it is crucial to develop accurate and computationally tractable frameworks for online LBO detection in low NOx emission engines. To the best of our knowledge, for the first time, we propose a deep learning approach to detect lean blowout in combustion systems. In this work, we utilize a laboratory-scale combustor to collect data for different protocols. We start far from LBO for each protocol and gradually move towards the LBO regime, capturing a quasi-static time series dataset at each condition. Using one of the protocols in our dataset as the reference protocol and with conditions annotated by domain experts, we find a transition state metric for our trained deep learning model to detect LBO in the other test protocols. We find that our proposed approach is more accurate and computationally faster than other baseline models to detect the transitions to LBO. Therefore, we recommend this method for real-time performance monitoring in lean combustion engines. | 翻訳日:2022-08-04 14:00:38 公開日:2022-08-03 |
# 生成的神経側頭点過程の探索 Exploring Generative Neural Temporal Point Process ( http://arxiv.org/abs/2208.01874v1 ) ライセンス: Link先を確認 | Haitao Lin, Lirong Wu, Guojiang Zhao, Pai Liu, Stan Z. Li | (参考訳) 時間的ポイントプロセス(tpp)は、発生時のタイムスタンプを特徴とする非同期イベントシーケンスのモデル化に一般的に用いられ、歴史的な影響を前提とした確率モデルによって明らかにされる。
確率を最大化することで、tppモデルの「適合性の良さ」に多くの先行研究が注力してきたが、予測性能は不十分であり、つまりモデルによって生成されたタイムスタンプは真の観察から遠く離れている。
近年,ノイズ拡散やスコアマッチングなどの深部生成モデルは,高品質なサンプル生成能力を示すことにより,画像生成タスクにおいて大きな進歩を遂げている。
しかし、TPPの事象発生モデリングの文脈における生成モデルの可能性を探究し研究する完全で統一的な研究は存在しない。
本研究では,その実現可能性と有効性を探究し,モデルの予測性能をさらに向上させるための統合型フレームワークである \textbf{n}eural \textbf{t}emporal \textbf{p}oint \textbf{p}rocess (\textsc{gntpp}) を設計し,そのギャップを埋めようとしている。
また、歴史的影響を計測する上で、事象の型関係と時間間隔を考慮した適応的再重み付け項による歴史的事象の影響を要約した注意モデルを再検討する。
生成確率デコーダのラインによる \textsc{GNTPP} の予測能力の向上と, 改良された注目による性能向上について, 広範囲にわたる実験を行った。
我々の知る限りでは、これは生成モデルを完全に統一したフレームワークに適応し、TPPの文脈でそれらの有効性を研究する最初の研究である。
セクション5.1.1で与えられるすべてのメソッドを含む私たちのコードベースは、 \url{https://github.com/BIRD-TAO/GNTPP}で開きます。
コードフレームワークがNeural TPPの今後の研究を促進することを願っています。 Temporal point process (TPP) is commonly used to model the asynchronous event sequence featuring occurrence timestamps and revealed by probabilistic models conditioned on historical impacts. While lots of previous works have focused on `goodness-of-fit' of TPP models by maximizing the likelihood, their predictive performance is unsatisfactory, which means the timestamps generated by models are far apart from true observations. Recently, deep generative models such as denoising diffusion and score matching models have achieved great progress in image generating tasks by demonstrating their capability of generating samples of high quality. However, there are no complete and unified works exploring and studying the potential of generative models in the context of event occurence modeling for TPP. In this work, we try to fill the gap by designing a unified \textbf{g}enerative framework for \textbf{n}eural \textbf{t}emporal \textbf{p}oint \textbf{p}rocess (\textsc{GNTPP}) model to explore their feasibility and effectiveness, and further improve models' predictive performance. Besides, in terms of measuring the historical impacts, we revise the attentive models which summarize influence from historical events with an adaptive reweighting term considering events' type relation and time intervals. Extensive experiments have been conducted to illustrate the improved predictive capability of \textsc{GNTPP} with a line of generative probabilistic decoders, and performance gain from the revised attention. To the best of our knowledge, this is the first work that adapts generative models in a complete unified framework and studies their effectiveness in the context of TPP. Our codebase including all the methods given in Section.5.1.1 is open in \url{https://github.com/BIRD-TAO/GNTPP}. We hope the code framework can facilitate future research in Neural TPPs. | 翻訳日:2022-08-04 14:00:18 公開日:2022-08-03 |
# 小標本法における相反的模倣学習の理解--ステージ結合分析 Understanding Adversarial Imitation Learning in Small Sample Regime: A Stage-coupled Analysis ( http://arxiv.org/abs/2208.01899v1 ) ライセンス: Link先を確認 | Tian Xu, Ziniu Li, Yang Yu, Zhi-Quan Luo | (参考訳) 模倣学習は専門家の軌跡から政策を学ぶ。
専門家のデータは模擬品質に欠かせないものと考えられているが, 擬似学習手法, 対人模倣学習 (AIL) は, 例外的な性能を有することが判明した。
専門家の軌道は1つしかなく、AILは、移動制御のようなタスクにおいて、長い地平線でも専門家のパフォーマンスと一致させることができる。
この現象には2つの謎点がある。
まず、なぜAILは少数の専門家の軌道でうまく機能するのか?
第二に、AILが計画の地平線の長さに関わらず、なぜ優れたパフォーマンスを維持するのか?
本稿では,この2つの疑問を理論的に探求する。
総変量距離に基づくAIL(TV-AIL)については,移動制御タスクから抽象化されたインスタンスのクラス上で,水平方向のない模倣ギャップ$\mathcal O(\{\min\{1, \sqrt{|\mathcal S|/N} \})を示す。
ここで、$|\mathcal s|$ は表式マルコフ決定プロセスの状態空間サイズであり、$n$ は専門家の軌跡の数である。
境界の2つの重要な特徴を強調します。
第一に、この境界は小さい試料と大きな試料の両方において有意義である。
第2に、この境界は、TV-AILの模倣ギャップが、計画の地平にかかわらず少なくとも1であることを示している。
したがって、この境界は経験的な観察を説明できる。
技術的には,多段階政策最適化の構造をtv-ailで活用し,動的プログラミングによる新しいステージ結合分析を提案する。 Imitation learning learns a policy from expert trajectories. While the expert data is believed to be crucial for imitation quality, it was found that a kind of imitation learning approach, adversarial imitation learning (AIL), can have exceptional performance. With as little as only one expert trajectory, AIL can match the expert performance even in a long horizon, on tasks such as locomotion control. There are two mysterious points in this phenomenon. First, why can AIL perform well with only a few expert trajectories? Second, why does AIL maintain good performance despite the length of the planning horizon? In this paper, we theoretically explore these two questions. For a total-variation-distance-based AIL (called TV-AIL), our analysis shows a horizon-free imitation gap $\mathcal O(\{\min\{1, \sqrt{|\mathcal S|/N} \})$ on a class of instances abstracted from locomotion control tasks. Here $|\mathcal S|$ is the state space size for a tabular Markov decision process, and $N$ is the number of expert trajectories. We emphasize two important features of our bound. First, this bound is meaningful in both small and large sample regimes. Second, this bound suggests that the imitation gap of TV-AIL is at most 1 regardless of the planning horizon. Therefore, this bound can explain the empirical observation. Technically, we leverage the structure of multi-stage policy optimization in TV-AIL and present a new stage-coupled analysis via dynamic programming | 翻訳日:2022-08-04 13:59:37 公開日:2022-08-03 |
# EgPDE-Net: 外部変数を用いた時系列予測のための連続ニューラルネットワークの構築 EgPDE-Net: Building Continuous Neural Networks for Time Series Prediction with Exogenous Variables ( http://arxiv.org/abs/2208.01913v1 ) ライセンス: Link先を確認 | Penglei Gao, Xi Yang, Kaizhu Huang, Rui Zhang, Ping Guo, and John Y. Goulermas | (参考訳) 外因性変数は時系列解析における性能改善に大きな影響を与えるが, 時系列間の相関や時間依存性は, 連続的手法ではほとんど考慮されない。
多変量時系列の力学系は複素未知偏微分方程式 (PDE) でモデル化され、科学や工学の多くの分野において顕著な役割を果たす。
本稿では,自己アテンションとゲートリカレントニューラルネットワークによって支配方程式がパラメータ化される多変量時系列において,未知のPDEシステムを学習するための任意のステップ予測のための連続時間モデルを提案する。
提案したモデルである \underline{E}xogenous-\underline{g}uided \underline{P}artial \underline{D}ifferential \underline{E}quation Network (EgPDE-Net) は、外生変数間の関係と対象系列への影響を考慮に入れている。
重要なことに、このモデルは特別設計の正規化誘導による正規化常微分方程式(ODE)問題に還元することができ、PDE問題は数値解を得ることができ、任意の時点において対象系列の複数の将来の値を予測することができる。
実験の結果,提案モデルが強いベースラインよりも高い精度を達成できることが示された。平均すると,RMSEでは9.85 %,MAEでは13.98 %である。 While exogenous variables have a major impact on performance improvement in time series analysis, inter-series correlation and time dependence among them are rarely considered in the present continuous methods. The dynamical systems of multivariate time series could be modelled with complex unknown partial differential equations (PDEs) which play a prominent role in many disciplines of science and engineering. In this paper, we propose a continuous-time model for arbitrary-step prediction to learn an unknown PDE system in multivariate time series whose governing equations are parameterised by self-attention and gated recurrent neural networks. The proposed model, \underline{E}xogenous-\underline{g}uided \underline{P}artial \underline{D}ifferential \underline{E}quation Network (EgPDE-Net), takes account of the relationships among the exogenous variables and their effects on the target series. Importantly, the model can be reduced into a regularised ordinary differential equation (ODE) problem with special designed regularisation guidance, which makes the PDE problem tractable to obtain numerical solutions and feasible to predict multiple future values of the target series at arbitrary time points. Extensive experiments demonstrate that our proposed model could achieve competitive accuracy over strong baselines: on average, it outperforms the best baseline by reducing $9.85\%$ on RMSE and $13.98\%$ on MAE for arbitrary-step prediction. | 翻訳日:2022-08-04 13:59:08 公開日:2022-08-03 |
# 結合シフト下での領域一般化のための同変不等角変換 Equivariant Disentangled Transformation for Domain Generalization under Combination Shift ( http://arxiv.org/abs/2208.02011v1 ) ライセンス: Link先を確認 | Yivan Zhang, Jindong Wang, Xing Xie, Masashi Sugiyama | (参考訳) 機械学習システムは、デプロイメント環境でデータ分散が変化すると予期せぬ問題に遭遇する可能性がある。
主な理由は、トレーニング中にドメインとラベルの組み合わせが観察されず、テスト環境に現れるためである。
様々な不変性に基づくアルゴリズムが適用できるが、性能向上はしばしば限界となる。
この問題を形式的に解析するために,準同型,等分散,不等角性の洗練された定義に基づく組合せシフト問題の一意な代数的定式化を提案する。
代数的要求は、ラベルの代数的構造に基づくデータを強化し、その変換が等分散および不等角化要求を満たすようにする同変不等角変換 (equivariant disentangled transformation, edt) と呼ばれる、単純かつ効果的な手法を自然に導出する。
実験の結果,不変性は不十分である可能性があり,組み合わせシフト問題において等分散構造を利用することが重要であることがわかった。 Machine learning systems may encounter unexpected problems when the data distribution changes in the deployment environment. A major reason is that certain combinations of domains and labels are not observed during training but appear in the test environment. Although various invariance-based algorithms can be applied, we find that the performance gain is often marginal. To formally analyze this issue, we provide a unique algebraic formulation of the combination shift problem based on the concepts of homomorphism, equivariance, and a refined definition of disentanglement. The algebraic requirements naturally derive a simple yet effective method, referred to as equivariant disentangled transformation (EDT), which augments the data based on the algebraic structures of labels and makes the transformation satisfy the equivariance and disentanglement requirements. Experimental results demonstrate that invariance may be insufficient, and it is important to exploit the equivariance structure in the combination shift problem. | 翻訳日:2022-08-04 13:58:38 公開日:2022-08-03 |
# HybridGNN:多重異種ネットワークにおけるハイブリッド表現学習 HybridGNN: Learning Hybrid Representation in Multiplex Heterogeneous Networks ( http://arxiv.org/abs/2208.02068v1 ) ライセンス: Link先を確認 | Tiankai Gu, Chaokun Wang, Cheng Wu, Jingcao Xu, Yunkai Lou, Changping Wang, Kai Xu, Can Ye and Yang Song | (参考訳) 近年、グラフニューラルネットワークは、異種ネットワークベースのレコメンデータシステムにおける複雑なトポロジカル構造をモデル化する優位性を示している。
ノード間の多様な相互作用と多様な種類のノードとエッジから生じる豊富な意味論により、多元多元ネットワークにおける表現的ノード表現の学習への関心が高まっている。
レコメンダシステムにおける最も重要なタスクの1つは、特定のエッジタイプ(すなわち関係)の下で2つのノード間の潜在的な接続を予測することである。
既存の研究では、明示的なメタパスを利用して隣人を集約するが、実際には、関係性内のメタパスのみを考慮し、関係性間の情報による潜在的な上昇を利用できない。
さらに、相互関係のメタパスを多種多様な関係、特にノードやエッジタイプの増加によって包括的に活用することは、必ずしも容易ではない。
さらに、2つのノード間の異なる関係の貢献は測定が難しい。
この課題に対処するため,ハイブリッドアグリゲーションフローと階層型アグリゲーションを持つエンドツーエンドGNNモデルであるHybridGNNを提案する。
具体的には、hybridgnnは異なる関係間の多重性を利用するためにランダム化された相互関係探索モジュールを適用する。
このモデルでは,リレーショナルメタパスとランダム探索によるハイブリッドアグリゲーションフローを活用し,リッチセマンティクスを学習する。
異なるアグリゲーションフローの重要性を探求し、多重性特性を活用するために、メタパスレベルの注意と関係レベルの注意の両方を活用する新しい階層型注意モジュールを提案する。
総合的な実験結果から,HybridGNNはいくつかの最先端ベースラインと比較して最高の性能を発揮することが示唆された。 Recently, graph neural networks have shown the superiority of modeling the complex topological structures in heterogeneous network-based recommender systems. Due to the diverse interactions among nodes and abundant semantics emerging from diverse types of nodes and edges, there is a bursting research interest in learning expressive node representations in multiplex heterogeneous networks. One of the most important tasks in recommender systems is to predict the potential connection between two nodes under a specific edge type (i.e., relationship). Although existing studies utilize explicit metapaths to aggregate neighbors, practically they only consider intra-relationship metapaths and thus fail to leverage the potential uplift by inter-relationship information. Moreover, it is not always straightforward to exploit inter-relationship metapaths comprehensively under diverse relationships, especially with the increasing number of node and edge types. In addition, contributions of different relationships between two nodes are difficult to measure. To address the challenges, we propose HybridGNN, an end-to-end GNN model with hybrid aggregation flows and hierarchical attentions to fully utilize the heterogeneity in the multiplex scenarios. Specifically, HybridGNN applies a randomized inter-relationship exploration module to exploit the multiplexity property among different relationships. Then, our model leverages hybrid aggregation flows under intra-relationship metapaths and randomized exploration to learn the rich semantics. To explore the importance of different aggregation flow and take advantage of the multiplexity property, we bring forward a novel hierarchical attention module which leverages both metapath-level attention and relationship-level attention. Extensive experimental results suggest that HybridGNN achieves the best performance compared to several state-of-the-art baselines. | 翻訳日:2022-08-04 13:58:22 公開日:2022-08-03 |
# 多重照明下でのホワイトバランス調整によるテンプレートマッチング Template matching with white balance adjustment under multiple illuminants ( http://arxiv.org/abs/2208.02035v1 ) ライセンス: Link先を確認 | Teruaki Akazawa, Yuma Kinoshita and Hitoshi Kiya | (参考訳) 本論文では,多照度シーンに対して提案した,ホワイトバランス調整を施した新しいテンプレートマッチング手法であるN-ホワイトバランシングを提案する。
照明効果の影響を低減するため、多色構成の画像にn-ホワイトバランスを適用し、調整された画像を用いてテンプレートマッチングを行う。
実験では, 様々な照明条件下での物体検出作業において, 提案手法の有効性を実証した。 In this paper, we propose a novel template matching method with a white balancing adjustment, called N-white balancing, which was proposed for multi-illuminant scenes. To reduce the influence of lighting effects, N-white balancing is applied to images for multi-illumination color constancy, and then a template matching method is carried out by using adjusted images. In experiments, the effectiveness of the proposed method is demonstrated to be effective in object detection tasks under various illumination conditions. | 翻訳日:2022-08-04 13:55:10 公開日:2022-08-03 |
# AutoLaparo:腹腔鏡下手術における画像ガイド下手術自動化のための統合マルチタスクの新しいデータセット AutoLaparo: A New Dataset of Integrated Multi-tasks for Image-guided Surgical Automation in Laparoscopic Hysterectomy ( http://arxiv.org/abs/2208.02049v1 ) ライセンス: Link先を確認 | Ziyi Wang, Bo Lu, Yonghao Long, Fangxun Zhong, Tak-Hong Cheung, Qi Dou, Yunhui Liu | (参考訳) コンピュータ支援による最小侵襲手術は、近代のオペラ劇場にとって大きな利益をもたらす。
内視鏡からストリームされるビデオデータは、次世代のインテリジェントな手術システムのコンテキスト認識をサポートするための豊富な情報を提供する。
手順中に正確な知覚と自動操作を実現するためには,近年,高度な画像解析とシーン理解を可能にする学習ベースの手法が有望である。
しかし、そのようなモデルの学習は、大規模で高品質でマルチタスクのラベル付きデータに依存する。
公開データセットは依然としてCAIの分野で極めて限定的であるため、現時点ではこのトピックのボトルネックとなっている。
本稿では,ヒステリクトミー手術における学習ベースの自動化を容易にするために,複数の画像に基づく知覚タスクを備えた最初の統合データセット(AutoLaparo)を提示し,リリースする。
当科のautolaparoデータセットは,全摘出術中の全期間の映像をもとに開発した。
具体的には、外科的ワークフロー認識、腹腔鏡運動予測、機器とキー解剖のセグメンテーションを含む、3つの異なる高相関なタスクがデータセットで定式化されている。
さらに,本データセットのさらなるモデル開発と評価のための基準ベンチマークとして,最先端モデルを用いた実験結果を提供する。
データセットはhttps://autolaparo.github.ioで入手できる。 Computer-assisted minimally invasive surgery has great potential in benefiting modern operating theatres. The video data streamed from the endoscope provides rich information to support context-awareness for next-generation intelligent surgical systems. To achieve accurate perception and automatic manipulation during the procedure, learning based technique is a promising way, which enables advanced image analysis and scene understanding in recent years. However, learning such models highly relies on large-scale, high-quality, and multi-task labelled data. This is currently a bottleneck for the topic, as available public dataset is still extremely limited in the field of CAI. In this paper, we present and release the first integrated dataset (named AutoLaparo) with multiple image-based perception tasks to facilitate learning-based automation in hysterectomy surgery. Our AutoLaparo dataset is developed based on full-length videos of entire hysterectomy procedures. Specifically, three different yet highly correlated tasks are formulated in the dataset, including surgical workflow recognition, laparoscope motion prediction, and instrument and key anatomy segmentation. In addition, we provide experimental results with state-of-the-art models as reference benchmarks for further model developments and evaluations on this dataset. The dataset is available at https://autolaparo.github.io. | 翻訳日:2022-08-04 13:55:02 公開日:2022-08-03 |
# テキスト検索のための特徴空間マルチモーダルデータ拡張手法 A Feature-space Multimodal Data Augmentation Technique for Text-video Retrieval ( http://arxiv.org/abs/2208.02080v1 ) ライセンス: Link先を確認 | Alex Falcon and Giuseppe Serra and Oswald Lanz | (参考訳) 毎時、膨大な量のビジュアルコンテンツがソーシャルメディアやユーザー生成コンテンツプラットフォームに投稿される。
自然言語による問合せにより関連映像を見つけるため,過去数年間,テキスト・ビデオ検索手法が注目されている。
色空間や画像上の幾何学的変換といった意味論的保存手法を応用し、新しいトレーニングサンプルを作成することにより、見えないテスト例のパフォーマンスを向上させるためにデータ拡張技術が導入された。
しかし、これらの技術は通常、生データに適用され、より多くのリソース要求のソリューションと生データの共有性が必要となり、映画やテレビシリーズのクリップの著作権問題など、必ずしも真実ではないかもしれない。
この欠点に対処するために,特徴空間で動作し,意味的に類似したサンプルを混合して新たなビデオやキャプションを作成するマルチモーダルデータ拡張手法を提案する。
我々は,大規模なパブリックデータセットEPIC-Kitchens-100で実験を行い,ベースライン法よりも大幅に改善され,最先端の性能が向上し,同時に複数のアブレーション研究を行った。
私たちはgithubでコードと事前トレーニング済みモデルをhttps://github.com/aranciokov/fsmmda_videoretrieval.comでリリースしています。 Every hour, huge amounts of visual contents are posted on social media and user-generated content platforms. To find relevant videos by means of a natural language query, text-video retrieval methods have received increased attention over the past few years. Data augmentation techniques were introduced to increase the performance on unseen test examples by creating new training samples with the application of semantics-preserving techniques, such as color space or geometric transformations on images. Yet, these techniques are usually applied on raw data, leading to more resource-demanding solutions and also requiring the shareability of the raw data, which may not always be true, e.g. copyright issues with clips from movies or TV series. To address this shortcoming, we propose a multimodal data augmentation technique which works in the feature space and creates new videos and captions by mixing semantically similar samples. We experiment our solution on a large scale public dataset, EPIC-Kitchens-100, and achieve considerable improvements over a baseline method, improved state-of-the-art performance, while at the same time performing multiple ablation studies. We release code and pretrained models on Github at https://github.com/aranciokov/FSMMDA_VideoRetrieval. | 翻訳日:2022-08-04 13:54:42 公開日:2022-08-03 |
# sc6d:対称性非依存かつ対応のない6次元物体ポーズ推定 SC6D: Symmetry-agnostic and Correspondence-free 6D Object Pose Estimation ( http://arxiv.org/abs/2208.02129v1 ) ライセンス: Link先を確認 | Dingding Cai, Janne Heikkil\"a, Esa Rahtu | (参考訳) 本稿では,単一の単眼rgb画像から6次元物体ポーズ推定を行うための,効率的な対称性非依存かつ対応のないフレームワークsc6dを提案する。
SC6Dは、オブジェクトの3DCADモデルも、対称性の事前の知識も必要としない。
ポーズ推定は3つのサブタスクに分解される。
a) 物体の3次元回転表現の学習及びマッチング
b) 対象センターの2次元位置の推定
c) 分類によるスケール不変距離推定(z軸に沿った翻訳)
SC6Dは、T-LESS、YCB-V、ITODDの3つのベンチマークデータセットで評価され、T-LESSデータセット上での最先端のパフォーマンスをもたらす。
さらに、SC6Dは従来の最先端のSurfEmbよりも計算効率が高い。
実装と事前訓練されたモデルはhttps://github.com/dingcai/SC6D-poseで公開されている。 This paper presents an efficient symmetry-agnostic and correspondence-free framework, referred to as SC6D, for 6D object pose estimation from a single monocular RGB image. SC6D requires neither the 3D CAD model of the object nor any prior knowledge of the symmetries. The pose estimation is decomposed into three sub-tasks: a) object 3D rotation representation learning and matching; b) estimation of the 2D location of the object center; and c) scale-invariant distance estimation (the translation along the z-axis) via classification. SC6D is evaluated on three benchmark datasets, T-LESS, YCB-V, and ITODD, and results in state-of-the-art performance on the T-LESS dataset. Moreover, SC6D is computationally much more efficient than the previous state-of-the-art method SurfEmb. The implementation and pre-trained models are publicly available at https://github.com/dingdingcai/SC6D-pose. | 翻訳日:2022-08-04 13:54:21 公開日:2022-08-03 |
# gppf:sparsely activated multi-task learningによる一般知覚事前学習フレームワーク GPPF: A General Perception Pre-training Framework via Sparsely Activated Multi-Task Learning ( http://arxiv.org/abs/2208.02148v1 ) ライセンス: Link先を確認 | Benyuan Sun, Jin Dai, Zihao Liang, Congying Liu, Yi Yang, Bo Bai | (参考訳) 混合マルチタスク、マルチドメイン、マルチモーダルデータに対する事前学習は、視知覚事前学習においてオープンな課題である。
本稿では,マルチタスクとマルチドメインのラベル付きデータセット上で,各レイヤの知識"レゴス"によって構成されるタスクレベルの動的ネットワークを事前学習する,一般的な知覚事前学習フレームワークgppfを提案する。
複雑な環境下での学習能力を調べることによって,1) 各バッチにおける多様なクロスタスクとクロスドメイン情報への同時露出という,3つの重要な要素を深層ネットワークに認識し,伝達する。
2)知識共有による個別のレゴ単位における知識記憶の分割。
3) 事前トレーニングとダウンストリームタスクの両方において,legoユニットのサブセットのスパースアクティベーション。
注目すべきは、異なる視覚タスクの合同トレーニングは、入力形状、損失関数、出力フォーマット、データ分布などの違いのため、非自明である。
そこで我々は,Single Iteration Multiple Tasks (SIMT) の同時学習を支援する,プラグアンドプレイマルチタスク学習アルゴリズムを革新的に開発する。
SIMTは、大規模マルチタスクマルチドメインデータセットによる事前トレーニングの基礎を築き、GPPF実験における安定したトレーニングに不可欠であることが証明された。
その結果, GPPF-R50モデルでは, GPPF-15Mにおける8つの事前学習タスクの強いベースラインに対して2.5-5.8の大幅な改善が達成され, 同様の計算予算を持つ22の下流タスクに対して, 様々なSOTAを抽出できることがわかった。
また,一貫した改良を施したSOTAビジョントランスへのGPPFの一般化能力についても検証した。
これらの確固たる実験結果は,gppfフレームワークによって提供される効果的な知識学習,記憶,共有,伝達を完全に証明した。 Pre-training over mixtured multi-task, multi-domain, and multi-modal data remains an open challenge in vision perception pre-training. In this paper, we propose GPPF, a General Perception Pre-training Framework, that pre-trains a task-level dynamic network, which is composed by knowledge "legos" in each layers, on labeled multi-task and multi-domain datasets. By inspecting humans' innate ability to learn in complex environment, we recognize and transfer three critical elements to deep networks: (1) simultaneous exposure to diverse cross-task and cross-domain information in each batch. (2) partitioned knowledge storage in separate lego units driven by knowledge sharing. (3) sparse activation of a subset of lego units for both pre-training and downstream tasks. Noteworthy, the joint training of disparate vision tasks is non-trivial due to their differences in input shapes, loss functions, output formats, data distributions, etc. Therefore, we innovatively develop a plug-and-play multi-task training algorithm, which supports Single Iteration Multiple Tasks (SIMT) concurrently training. SIMT lays the foundation of pre-training with large-scale multi-task multi-domain datasets and is proved essential for stable training in our GPPF experiments. Excitingly, the exhaustive experiments show that, our GPPF-R50 model achieves significant improvements of 2.5-5.8 over a strong baseline of the 8 pre-training tasks in GPPF-15M and harvests a range of SOTAs over the 22 downstream tasks with similar computation budgets. We also validate the generalization ability of GPPF to SOTA vision transformers with consistent improvements. These solid experimental results fully prove the effective knowledge learning, storing, sharing, and transfer provided by our novel GPPF framework. | 翻訳日:2022-08-04 13:54:05 公開日:2022-08-03 |
# KD-SCFNet:知識蒸留によるより高精度かつ効率的な有能物体検出を目指して KD-SCFNet: Towards More Accurate and Efficient Salient Object Detection via Knowledge Distillation ( http://arxiv.org/abs/2208.02178v1 ) ライセンス: Link先を確認 | Jin Zhang, Qiuwei Liang, and Yanjiao Shi | (参考訳) 既存のサルエントオブジェクト検出(SOD)モデルは、複雑で巨大なモデル構造のため、適用が困難である。
いくつかの軽量モデルが提案されているが、精度はほとんど満足できない。
本稿では,多レベル特徴の対話的融合に着目したscfnet(semantics-guided context fusion network)を提案する。
さらに, SODタスクに知識蒸留を適用し, スケール可能なデータセットKD-SOD80Kを提供する。
そこで本研究では,SCFNetが有意な対象をより正確に検出する強力な一般化能力を学習できるようにするため,経験豊富な教師から未学習のSCFNetへ,ラベル付き画像を通して豊富な知識を伝達する。
知識蒸留に基づくSCFNet(KDSCFNet)は、1M未満のパラメータと174FPSリアルタイム検出速度を持つ最先端の重み付け手法に匹敵する精度を達成する。
大規模実験により, 蒸留法およびSODフレームワークの堅牢性と有効性を示した。
コードとデータ:https://github.com/zhangjinCV/KD-SCFNet Most existing salient object detection (SOD) models are difficult to apply due to the complex and huge model structures. Although some lightweight models are proposed, the accuracy is barely satisfactory. In this paper, we design a novel semantics-guided contextual fusion network (SCFNet) that focuses on the interactive fusion of multi-level features for accurate and efficient salient object detection. Furthermore, we apply knowledge distillation to SOD task and provide a sizeable dataset KD-SOD80K. In detail, we transfer the rich knowledge from a seasoned teacher to the untrained SCFNet through unlabeled images, enabling SCFNet to learn a strong generalization ability to detect salient objects more accurately. The knowledge distillation based SCFNet (KDSCFNet) achieves comparable accuracy to the state-of-the-art heavyweight methods with less than 1M parameters and 174 FPS real-time detection speed. Extensive experiments demonstrate the robustness and effectiveness of the proposed distillation method and SOD framework. Code and data: https://github.com/zhangjinCV/KD-SCFNet. | 翻訳日:2022-08-04 13:53:32 公開日:2022-08-03 |
# RealPatch: 実例によるモデルパッチのための統計的マッチングフレームワーク RealPatch: A Statistical Matching Framework for Model Patching with Real Samples ( http://arxiv.org/abs/2208.02192v1 ) ライセンス: Link先を確認 | Sara Romiti, Christopher Inskip, Viktoriia Sharmanska, Novi Quadrianto | (参考訳) 機械学習の分類器は通常、データセットの平均エラーを最小化するために訓練される。
残念なことに、このプロセスはトレーニングデータ内のサブグループ不均衡によって引き起こされる急激な相関を利用しており、結果として、サブグループ全体の平均性能は高いが、高い変動性能が得られる。
この問題に対処する最近の研究は、CAMELによるモデルパッチを提案する。
この以前のアプローチでは、生成型adversarial networkを使用してクラス内サブグループ間データ拡張を実行する。
(a)多くの計算コストの高いモデルの訓練、及び
(b)与えられた領域に対するモデルの合成出力の十分な品質。
本研究では,統計的マッチングに基づくよりシンプルで高速でデータ効率の高いデータ拡張のためのフレームワークであるRealPatchを提案する。
我々のフレームワークは、実際のサンプルでデータセットを増強し、ターゲットタスクのための生成モデルをトレーニングする必要性を軽減し、モデルパッチを実行する。
本稿では,CelebA,Waterbirds,およびiWildCamのサブセットである3つのベンチマークデータセットに対するRealPatchの有効性を示す。
さらに,CAMELのような生成モデルベースのパッチが実用的でない環境で,ImSituデータセットを211クラスで実験する。
realpatchは,モデルのリークを低減し,高ユーティリティを維持しつつ,データセットのリークを効果的に除去できることを示す。
RealPatchのコードはhttps://github.com/wearepal/RealPatchにある。 Machine learning classifiers are typically trained to minimise the average error across a dataset. Unfortunately, in practice, this process often exploits spurious correlations caused by subgroup imbalance within the training data, resulting in high average performance but highly variable performance across subgroups. Recent work to address this problem proposes model patching with CAMEL. This previous approach uses generative adversarial networks to perform intra-class inter-subgroup data augmentations, requiring (a) the training of a number of computationally expensive models and (b) sufficient quality of model's synthetic outputs for the given domain. In this work, we propose RealPatch, a framework for simpler, faster, and more data-efficient data augmentation based on statistical matching. Our framework performs model patching by augmenting a dataset with real samples, mitigating the need to train generative models for the target task. We demonstrate the effectiveness of RealPatch on three benchmark datasets, CelebA, Waterbirds and a subset of iWildCam, showing improvements in worst-case subgroup performance and in subgroup performance gap in binary classification. Furthermore, we conduct experiments with the imSitu dataset with 211 classes, a setting where generative model-based patching such as CAMEL is impractical. We show that RealPatch can successfully eliminate dataset leakage while reducing model leakage and maintaining high utility. The code for RealPatch can be found at https://github.com/wearepal/RealPatch. | 翻訳日:2022-08-04 13:53:15 公開日:2022-08-03 |
# dahitra: 新しい階層型変圧器アーキテクチャによる損傷評価 DAHiTrA: Damage Assessment Using a Novel Hierarchical Transformer Architecture ( http://arxiv.org/abs/2208.02205v1 ) ライセンス: Link先を確認 | Navjot Kaur, Cheng-Chun Lee, Ali Mostafavi, Ali Mahdavi-Amiri | (参考訳) 本稿では,ハリケーン後の衛星画像に基づいて建物被害を分類する階層型トランスフォーマーを用いた新しいディープラーニングモデルDAHiTrAを提案する。
自動建物損傷評価は、迅速な緊急対応のために意思決定と資源割当に重要な情報を提供する。
衛星画像は、リアルタイムで高いカバレッジ情報を提供し、災害後の大規模建物被害評価を通知する機会を提供する。
さらに,建物損傷の分類において,ディープラーニング手法が有望であることが示されている。
本研究では,建物損傷評価のためのトランスフォーマーネットワークを提案する。
このネットワークは、複数の解像度の階層的空間特徴を活用し、空間特徴にトランスフォーマーエンコーダを適用した後、特徴領域の時間差をキャプチャする。
提案するネットワークは,大規模災害被害データセット (xbd) で建物位置推定と被害分類を行う場合や,変更検出タスクにrevir-cdデータセットを使用する場合の最先端性能を実現する。
また,新しい高解像度衛星画像データセットida-bd(ルイジアナ州で2021年に発生したハリケーンidaに関連している)を導入し,新たに被害が生じた地域で適用可能なモデルの性能をさらに評価した。
ドメイン適応結果は,提案モデルが微調整に制限のある新しいイベントに適応できることを示唆している。
したがって、提案モデルでは、パフォーマンスの向上とドメイン適応により、現在の技術状況が向上する。
また、Ida-BDはこの分野で将来の研究のために高解像度のアノテートデータセットを提供する。 This paper presents DAHiTrA, a novel deep-learning model with hierarchical transformers to classify building damages based on satellite images in the aftermath of hurricanes. An automated building damage assessment provides critical information for decision making and resource allocation for rapid emergency response. Satellite imagery provides real-time, high-coverage information and offers opportunities to inform large-scale post-disaster building damage assessment. In addition, deep-learning methods have shown to be promising in classifying building damage. In this work, a novel transformer-based network is proposed for assessing building damage. This network leverages hierarchical spatial features of multiple resolutions and captures temporal difference in the feature domain after applying a transformer encoder on the spatial features. The proposed network achieves state-of-the-art-performance when tested on a large-scale disaster damage dataset (xBD) for building localization and damage classification, as well as on LEVIR-CD dataset for change detection tasks. In addition, we introduce a new high-resolution satellite imagery dataset, Ida-BD (related to the 2021 Hurricane Ida in Louisiana in 2021, for domain adaptation to further evaluate the capability of the model to be applied to newly damaged areas with scarce data. The domain adaptation results indicate that the proposed model can be adapted to a new event with only limited fine-tuning. Hence, the proposed model advances the current state of the art through better performance and domain adaptation. Also, Ida-BD provides a higher-resolution annotated dataset for future studies in this field. | 翻訳日:2022-08-04 13:52:53 公開日:2022-08-03 |
# Free-HeadGAN:明示的な視線制御によるニューラルトーキングヘッド合成 Free-HeadGAN: Neural Talking Head Synthesis with Explicit Gaze Control ( http://arxiv.org/abs/2208.02210v1 ) ライセンス: Link先を確認 | Michail Christos Doukas, Evangelos Ververas, Viktoriia Sharmanska, Stefanos Zafeiriou | (参考訳) 本稿では,人型ニューラルトーキングヘッドシンセシスシステムfree-headganを提案する。
3d morphable モデルのような強力な統計前処理を頼らずに,3d 顔ランドマークの少ないモデリングが最先端の生成性能を実現するには十分であることを示す。
本手法は,3次元ポーズと表情の他に,運転者から発信者への視線を完全に伝達することができる。
完全パイプラインは,3次元ポーズと表現関連変形を回帰する標準3次元キーポイント推定器,視線推定ネットワーク,HeadGANアーキテクチャ上に構築されたジェネレータの3つのコンポーネントから構成される。
さらに,複数のソース画像が利用可能である場合,注意機構を用いて,少数ショット学習に対応するためのジェネレータの拡張についても実験を行った。
再現性や動きの伝達に関する最新のモデルと比較して,本システムはより優れたアイデンティティ保存と組み合わせた高次フォトリアリズムを実現するとともに,明確な視線制御を提供する。 We present Free-HeadGAN, a person-generic neural talking head synthesis system. We show that modeling faces with sparse 3D facial landmarks are sufficient for achieving state-of-the-art generative performance, without relying on strong statistical priors of the face, such as 3D Morphable Models. Apart from 3D pose and facial expressions, our method is capable of fully transferring the eye gaze, from a driving actor to a source identity. Our complete pipeline consists of three components: a canonical 3D key-point estimator that regresses 3D pose and expression-related deformations, a gaze estimation network and a generator that is built upon the architecture of HeadGAN. We further experiment with an extension of our generator to accommodate few-shot learning using an attention mechanism, in case more than one source images are available. Compared to the latest models for reenactment and motion transfer, our system achieves higher photo-realism combined with superior identity preservation, while offering explicit gaze control. | 翻訳日:2022-08-04 13:52:29 公開日:2022-08-03 |
# クリップ単位のビデオオブジェクトセグメンテーション Per-Clip Video Object Segmentation ( http://arxiv.org/abs/2208.01924v1 ) ライセンス: Link先を確認 | Kwanyong Park, Sanghyun Woo, Seoung Wug Oh, In So Kweon, Joon-Young Lee | (参考訳) 近年,半教師付きビデオオブジェクトセグメンテーションにおけるメモリベースのアプローチは有望な結果を示している。
これらの方法は、以前のマスクの頻繁な更新メモリの助けを借りて、オブジェクトマスクをフレーム単位で予測する。
このフレーム毎の推論とは異なり、ビデオオブジェクトのセグメンテーションをクリップワイズマスクの伝搬として扱うことにより、別の視点を検討する。
このクリップ毎の推論スキームでは、メモリをインターバルで更新し、メモリ更新の間に連続したフレーム(つまりクリップ)を同時に処理します。
このスキームは、クリップレベルの最適化による精度向上と、複数のフレームの並列計算による効率向上の2つの潜在的な利点を提供する。
そこで本研究では,クリップごとの推論に適した新しい手法を提案する。
具体的には,まず,クリップ内相関に基づいて特徴を洗練するためのクリップワイズ操作を導入する。
さらに,クリップ内の効率的な情報伝達にプログレッシブマッチング機構を採用する。
2つのモジュールのシナジーと、新たに提案されたクリップ単位のトレーニングにより、youtube-vos 2018/2019 val(84.6%と84.6%)とdavis 2016/2017 val(91.9%と86.1%)で最先端のパフォーマンスを実現している。
さらに,本モデルでは,メモリ更新間隔の異なる速度精度のトレードオフが示され,柔軟性が向上した。 Recently, memory-based approaches show promising results on semi-supervised video object segmentation. These methods predict object masks frame-by-frame with the help of frequently updated memory of the previous mask. Different from this per-frame inference, we investigate an alternative perspective by treating video object segmentation as clip-wise mask propagation. In this per-clip inference scheme, we update the memory with an interval and simultaneously process a set of consecutive frames (i.e. clip) between the memory updates. The scheme provides two potential benefits: accuracy gain by clip-level optimization and efficiency gain by parallel computation of multiple frames. To this end, we propose a new method tailored for the per-clip inference. Specifically, we first introduce a clip-wise operation to refine the features based on intra-clip correlation. In addition, we employ a progressive matching mechanism for efficient information-passing within a clip. With the synergy of two modules and a newly proposed per-clip based training, our network achieves state-of-the-art performance on Youtube-VOS 2018/2019 val (84.6% and 84.6%) and DAVIS 2016/2017 val (91.9% and 86.1%). Furthermore, our model shows a great speed-accuracy trade-off with varying memory update intervals, which leads to huge flexibility. | 翻訳日:2022-08-04 13:49:42 公開日:2022-08-03 |
# SuperLine3D: LiDAR Point Cloudのための自己教師付きラインセグメンテーションと記述 SuperLine3D: Self-supervised Line Segmentation and Description for LiDAR Point Cloud ( http://arxiv.org/abs/2208.01925v1 ) ライセンス: Link先を確認 | Xiangrui Zhao, Sheng Yang, Tianxin Huang, Jun Chen, Teng Ma, Mingyang Li and Yong Liu | (参考訳) ポーとビルディングエッジは、しばしば都市道路で観測可能なオブジェクトであり、様々なコンピュータビジョンタスクの信頼できるヒントを提供する。
特徴として繰り返し抽出し、個別のLiDARフレーム間の関連付けを行うために、LiDARポイントクラウドにおける3次元線に対する最初の学習に基づく特徴分割と記述モデルを提案する。
データのラベル付けに時間を費やすことなくモデルをトレーニングするために、まずターゲットラインの基本外観のための合成プリミティブを生成し、反復行の自動ラベル付けプロセスを構築し、実際のLiDARスキャンで線ラベルを徐々に洗練する。
セグメンテーションモデルは任意のスケールの摂動の下で線を抽出し、共有のEdgeConvエンコーダ層を用いて2つのセグメンテーションとディスクリプタヘッドを共同でトレーニングする。
モデルに基づいて、初期変換のヒントなしに、ポイントクラウド登録のための高可用性グローバル登録モジュールを構築することができる。
実験により,ラインベース登録手法は最先端のポイントベース手法と非常に競合することが示された。
私たちのコードはhttps://github.com/zxrzju/superline3d.gitで利用可能です。 Poles and building edges are frequently observable objects on urban roads, conveying reliable hints for various computer vision tasks. To repetitively extract them as features and perform association between discrete LiDAR frames for registration, we propose the first learning-based feature segmentation and description model for 3D lines in LiDAR point cloud. To train our model without the time consuming and tedious data labeling process, we first generate synthetic primitives for the basic appearance of target lines, and build an iterative line auto-labeling process to gradually refine line labels on real LiDAR scans. Our segmentation model can extract lines under arbitrary scale perturbations, and we use shared EdgeConv encoder layers to train the two segmentation and descriptor heads jointly. Base on the model, we can build a highly-available global registration module for point cloud registration, in conditions without initial transformation hints. Experiments have demonstrated that our line-based registration method is highly competitive to state-of-the-art point-based approaches. Our code is available at https://github.com/zxrzju/SuperLine3D.git. | 翻訳日:2022-08-04 13:49:20 公開日:2022-08-03 |
# PalQuant: 低精度加速器上での高精度ネットワークの高速化 PalQuant: Accelerating High-precision Networks on Low-precision Accelerators ( http://arxiv.org/abs/2208.01944v1 ) ライセンス: Link先を確認 | Qinghao Hu, Gang Li, Qiman Wu, Jian Cheng | (参考訳) 近年,チップ面積とエネルギー消費の優位性から,低精度深層学習アクセラレータ (DLAs) が普及しているが,これらのDLAの低精度量子化モデルでは精度が著しく低下している。
高精度かつ効率的な推論を実現する方法の1つは、高精度ニューラルネットワークを低精度のDLAに展開することである。
本稿では,並列低精度表現をスクラッチから学習することで高精度計算を近似する並列低精度量子化(palquant)法を提案する。
さらに,並列低精度群間のクロスグループ情報通信を促進するための新しい循環シャッフルモジュールを提案する。
大規模な実験により、PalQuantは、ResNet-18ネットワーク量子化の精度と推論速度の両方において、最先端の量子化法よりも優れた性能を示しており、例えば、PalQuantは、最先端の2ビット加速器上の4ビットカウンター部分に対して0.52\%の精度と1.78$\times$のスピードアップを得ることができる。
コードは \url{https://github.com/huqinghao/PalQuant} で入手できる。 Recently low-precision deep learning accelerators (DLAs) have become popular due to their advantages in chip area and energy consumption, yet the low-precision quantized models on these DLAs bring in severe accuracy degradation. One way to achieve both high accuracy and efficient inference is to deploy high-precision neural networks on low-precision DLAs, which is rarely studied. In this paper, we propose the PArallel Low-precision Quantization (PalQuant) method that approximates high-precision computations via learning parallel low-precision representations from scratch. In addition, we present a novel cyclic shuffle module to boost the cross-group information communication between parallel low-precision groups. Extensive experiments demonstrate that PalQuant has superior performance to state-of-the-art quantization methods in both accuracy and inference speed, e.g., for ResNet-18 network quantization, PalQuant can obtain 0.52\% higher accuracy and 1.78$\times$ speedup simultaneously over their 4-bit counter-part on a state-of-the-art 2-bit accelerator. Code is available at \url{https://github.com/huqinghao/PalQuant}. | 翻訳日:2022-08-04 13:49:00 公開日:2022-08-03 |
# egocentric visual query 2d localizationにおける負のフレーム Negative Frames Matter in Egocentric Visual Query 2D Localization ( http://arxiv.org/abs/2208.01949v1 ) ライセンス: Link先を確認 | Mengmeng Xu, Cheng-Yang Fu, Yanghao Li, Bernard Ghanem, Juan-Manuel Perez-Rua, Tao Xiang | (参考訳) 最近リリースされたego4dデータセットとベンチマークは、ファーストパーソンの視覚知覚データを大幅にスケールし、多様化する。
Ego4Dでは、Visual Queries 2D Localizationタスクは、記録から過去に存在するオブジェクトを1対1で検索することを目的としている。
このタスクは、与えられたオブジェクトクエリの最新の外観を空間的かつ時間的にローカライズするシステムを必要とする。
本研究はエピソディックメモリベンチマークで導入された3段階ベースラインに基づいている。
ベースラインは、すべてのフレームで類似したオブジェクトを検出し、最も確実な検出結果からトラッカーを実行する。
VQ2Dチャレンジでは、現在のベースラインの2つの制限を特定した。
1) トレーニング構成は冗長な計算量を有する。
トレーニングセットには数百万のインスタンスがあるが、そのほとんどは反復的であり、ユニークなオブジェクトの数は14.6k程度である。
同じ物体の繰り返し勾配計算は非効率な訓練につながる; (2) 偽陽性率は背景フレーム上で高い。
これは、トレーニングと評価の間の分布の差によるものである。
トレーニング中、モデルはクリーンで安定したラベル付きフレームしか見ることができないが、エゴセントリックなビデオはノイズ、ぼやけた、ラベルなしの背景フレームもある。
この目的のために、より効率的で効果的なソリューションを開発しました。
具体的には,トレーニングループを15日程度から24時間未満に短縮し,約0.17%の時空間APを達成でき,これはベースラインよりも31%高い。
私たちのソリューションは、公開リーダーボードで第1位を獲得しました。
私たちのコードはhttps://github.com/facebookresearch/vq2d_cvprで公開されています。 The recently released Ego4D dataset and benchmark significantly scales and diversifies the first-person visual perception data. In Ego4D, the Visual Queries 2D Localization task aims to retrieve objects appeared in the past from the recording in the first-person view. This task requires a system to spatially and temporally localize the most recent appearance of a given object query, where query is registered by a single tight visual crop of the object in a different scene. Our study is based on the three-stage baseline introduced in the Episodic Memory benchmark. The baseline solves the problem by detection and tracking: detect the similar objects in all the frames, then run a tracker from the most confident detection result. In the VQ2D challenge, we identified two limitations of the current baseline. (1) The training configuration has redundant computation. Although the training set has millions of instances, most of them are repetitive and the number of unique object is only around 14.6k. The repeated gradient computation of the same object lead to an inefficient training; (2) The false positive rate is high on background frames. This is due to the distribution gap between training and evaluation. During training, the model is only able to see the clean, stable, and labeled frames, but the egocentric videos also have noisy, blurry, or unlabeled background frames. To this end, we developed a more efficient and effective solution. Concretely, we bring the training loop from ~15 days to less than 24 hours, and we achieve 0.17% spatial-temporal AP, which is 31% higher than the baseline. Our solution got the first ranking on the public leaderboard. Our code is publicly available at https://github.com/facebookresearch/vq2d_cvpr. | 翻訳日:2022-08-04 13:48:33 公開日:2022-08-03 |
# ビデオにおける時間的感情定位のためのクロスモーダルコンセンサス付き拡張コンテキスト統合ネットワーク Dilated Context Integrated Network with Cross-Modal Consensus for Temporal Emotion Localization in Videos ( http://arxiv.org/abs/2208.01954v1 ) ライセンス: Link先を確認 | Juncheng Li, Junlin Xie, Linchao Zhu, Long Qian, Siliang Tang, Wenqiao Zhang, Haochen Shi, Shengyu Zhang, Longhui Wei, Qi Tian, Yueting Zhuang | (参考訳) 人間の感情を理解することは、知的なロボットがより良い人間とロボットの相互作用を提供する重要な能力である。
既存の作品はトリミングされたビデオレベルの感情分類に限られており、感情に対応する時間的ウィンドウの特定に失敗している。
本稿では,人間の感情を検知し,それに対応する時間的境界をアライメントされた字幕付きビデオに局在化することを目的とした,ビデオ中の時間的感情局在(tel)という新しいタスクを提案する。
TELは、時間的行動局在と比較して3つのユニークな課題を提示する。
1)感情は時間的ダイナミクスが極めて多様である。
2) 感情の手がかりは,外観及び複雑なプロットの両方に埋め込まれている。
3) きめ細かい時間的アノテーションは複雑かつ労働集約的である。
最初の2つの課題に対処するために、粗い2ストリームアーキテクチャを持つ新しい拡張コンテキスト統合ネットワークを提案する。
粗い流れは、多面的な時間的文脈をモデル化することで、様々な時間的ダイナミクスをキャプチャする。
微細ストリームは、粗いストリームから多粒度時間文脈間の依存性を推論して複雑なプロット理解を行い、それらを微粒なビデオセグメントに適応的に統合する。
第3の課題に対処するために,ビデオとサブタイトル間のセマンティックコンセンサスを利用して,弱教師付き学習を実現するクロスモーダルコンセンサス学習パラダイムを導入する。
我々は,TEL問題に関する今後の研究を定量的に評価できるように,3000個の手動アノテート時間境界を持つ新しいテストセットを寄贈する。
広範囲な実験により,時間的感情の定位に対するアプローチの有効性が示された。
この研究のリポジトリはhttps://github.com/YYJMJC/Temporal-Emotion-Localization-in-Videosにある。 Understanding human emotions is a crucial ability for intelligent robots to provide better human-robot interactions. The existing works are limited to trimmed video-level emotion classification, failing to locate the temporal window corresponding to the emotion. In this paper, we introduce a new task, named Temporal Emotion Localization in videos~(TEL), which aims to detect human emotions and localize their corresponding temporal boundaries in untrimmed videos with aligned subtitles. TEL presents three unique challenges compared to temporal action localization: 1) The emotions have extremely varied temporal dynamics; 2) The emotion cues are embedded in both appearances and complex plots; 3) The fine-grained temporal annotations are complicated and labor-intensive. To address the first two challenges, we propose a novel dilated context integrated network with a coarse-fine two-stream architecture. The coarse stream captures varied temporal dynamics by modeling multi-granularity temporal contexts. The fine stream achieves complex plots understanding by reasoning the dependency between the multi-granularity temporal contexts from the coarse stream and adaptively integrates them into fine-grained video segment features. To address the third challenge, we introduce a cross-modal consensus learning paradigm, which leverages the inherent semantic consensus between the aligned video and subtitle to achieve weakly-supervised learning. We contribute a new testing set with 3,000 manually-annotated temporal boundaries so that future research on the TEL problem can be quantitatively evaluated. Extensive experiments show the effectiveness of our approach on temporal emotion localization. The repository of this work is at https://github.com/YYJMJC/Temporal-Emotion-Localization-in-Videos. | 翻訳日:2022-08-04 13:48:07 公開日:2022-08-03 |
# 半教師付き分類のための強化学習 Augmentation Learning for Semi-Supervised Classification ( http://arxiv.org/abs/2208.01956v1 ) ライセンス: Link先を確認 | Tim Frommknecht, Pedro Alves Zipf, Quanfu Fan, Nina Shvetsova, and Hilde Kuehne | (参考訳) 近年,新しい半教師付き学習手法が数多く登場している。
ImageNetと類似データセットの精度が時間とともに向上するにつれて、自然画像の分類以上のタスクのパフォーマンスはまだ調査されていない。
セミスーパーバイザード・ラーニングの手法の多くは、手動で設計したデータ拡張パイプラインに依存しており、他のドメインの画像から学習するためには転送できない。
本研究では,特定のデータセットに対して最も効果的なデータ拡張ポリシーを自動選択する半教師付き学習手法を提案する。
我々はfixmatchメソッドをベースに構築し,拡張のメタラーニングによって拡張する。
この強化は分類訓練の前に追加の訓練で学習され、二段階最適化、強化ポリシーの最適化、精度の最大化に活用される。
衛星画像と手書きスケッチを含む2つのドメイン固有データセットに対するアプローチを評価し,最新の結果を得た。
さらに,強化ポリシーの学習に関連する異なるパラメータをアブレーションし,imagenet以外のデータセットへの拡張にポリシー学習をどのように適用できるかを示す。 Recently, a number of new Semi-Supervised Learning methods have emerged. As the accuracy for ImageNet and similar datasets increased over time, the performance on tasks beyond the classification of natural images is yet to be explored. Most Semi-Supervised Learning methods rely on a carefully manually designed data augmentation pipeline that is not transferable for learning on images of other domains. In this work, we propose a Semi-Supervised Learning method that automatically selects the most effective data augmentation policy for a particular dataset. We build upon the Fixmatch method and extend it with meta-learning of augmentations. The augmentation is learned in additional training before the classification training and makes use of bi-level optimization, to optimize the augmentation policy and maximize accuracy. We evaluate our approach on two domain-specific datasets, containing satellite images and hand-drawn sketches, and obtain state-of-the-art results. We further investigate in an ablation the different parameters relevant for learning augmentation policies and show how policy learning can be used to adapt augmentations to datasets beyond ImageNet. | 翻訳日:2022-08-04 13:47:40 公開日:2022-08-03 |
# 自己教師付き目標関係正規化による畳み込み細粒度分類 Convolutional Fine-Grained Classification with Self-Supervised Target Relation Regularization ( http://arxiv.org/abs/2208.01997v1 ) ライセンス: Link先を確認 | Kangjun Liu, Ke Chen, Kui Jia | (参考訳) きめ細かい視覚的分類は、手動で定義された目標(例えば、one-hot や the hadamard codes)の監督の下で、深い表現学習によって対処できる。
このようなターゲット符号化方式はクラス間相関のモデル化には柔軟性が低く、スパースや不均衡なデータ分布にも敏感である。
そこで本稿では,動的ターゲット関係グラフ (DTRG) を用いた新たなターゲット符号化方式を提案する。
具体的には、クラスレベルの特徴中心のオンライン計算は、表現空間におけるカテゴリ間距離を生成するように設計されており、非パラメトリックな方法で動的グラフで表現することができる。
クラスレベルのセンターに固定されたクラス内特徴の明示的な最小化は、差別的特徴の学習を促進する。
さらに,クラス間依存性の活用により,提案する対象グラフは,表現学習におけるデータのスパーシティと不均衡を軽減できる。
本稿では,最近のmixupスタイルデータ拡張の成功に触発されて,動的対象関係グラフのソフトな構成にランダム性を導入し,対象クラスの関係の多様性をさらに探究する。
実験により,複数の視覚分類タスクの多種多様なベンチマークにおいて,本手法の有効性を示すことができた。
ソースコードはhttps://github.com/AkonLau/DTRGで公開されている。 Fine-grained visual classification can be addressed by deep representation learning under supervision of manually pre-defined targets (e.g., one-hot or the Hadamard codes). Such target coding schemes are less flexible to model inter-class correlation and are sensitive to sparse and imbalanced data distribution as well. In light of this, this paper introduces a novel target coding scheme -- dynamic target relation graphs (DTRG), which, as an auxiliary feature regularization, is a self-generated structural output to be mapped from input images. Specifically, online computation of class-level feature centers is designed to generate cross-category distance in the representation space, which can thus be depicted by a dynamic graph in a non-parametric manner. Explicitly minimizing intra-class feature variations anchored on those class-level centers can encourage learning of discriminative features. Moreover, owing to exploiting inter-class dependency, the proposed target graphs can alleviate data sparsity and imbalanceness in representation learning. Inspired by recent success of the mixup style data augmentation, this paper introduces randomness into soft construction of dynamic target relation graphs to further explore relation diversity of target classes. Experimental results can demonstrate the effectiveness of our method on a number of diverse benchmarks of multiple visual classification tasks, especially achieving the state-of-the-art performance on popular fine-grained object benchmarks and superior robustness against sparse and imbalanced data. Source codes are made publicly available at https://github.com/AkonLau/DTRG. | 翻訳日:2022-08-04 13:47:24 公開日:2022-08-03 |
# 勾配に基づく単眼深度推定の不確かさ Gradient-based Uncertainty for Monocular Depth Estimation ( http://arxiv.org/abs/2208.02005v1 ) ライセンス: Link先を確認 | Julia Hornauer, Vasileios Belagiannis | (参考訳) 単眼深度推定では、動物体や反射材料などの画像コンテキストの乱れは、誤った予測につながる可能性がある。
そのため、特に自動運転のような安全クリティカルなアプリケーションでは、各ピクセルに対する不確実性推定が必要となる。
深層ニューラルネットワークに代表される,すでに訓練済みの固定深度推定モデルに対するポストホック不確実性推定手法を提案する。
不確かさは補助損失関数で抽出された勾配によって推定される。
画像の奥行き予測と水平反転対応の対応に基づいて、損失定義のための地中情報に頼ることを避けるため、補助損失関数を提案する。
提案手法は,ニューラルネットワークの再トレーニングを必要とせずに,KITTI と NYU Depth V2 ベンチマークにおける最先端の不確実性推定結果を実現する。
モデルとコードはhttps://github.com/jhornauer/grumodepthで公開されている。 In monocular depth estimation, disturbances in the image context, like moving objects or reflecting materials, can easily lead to erroneous predictions. For that reason, uncertainty estimates for each pixel are necessary, in particular for safety-critical applications such as automated driving. We propose a post hoc uncertainty estimation approach for an already trained and thus fixed depth estimation model, represented by a deep neural network. The uncertainty is estimated with the gradients which are extracted with an auxiliary loss function. To avoid relying on ground-truth information for the loss definition, we present an auxiliary loss function based on the correspondence of the depth prediction for an image and its horizontally flipped counterpart. Our approach achieves state-of-the-art uncertainty estimation results on the KITTI and NYU Depth V2 benchmarks without the need to retrain the neural network. Models and code are publicly available at https://github.com/jhornauer/GrUMoDepth. | 翻訳日:2022-08-04 13:46:58 公開日:2022-08-03 |
# YOLO-FaceV2: スケールとオクルージョンを意識した顔検出装置 YOLO-FaceV2: A Scale and Occlusion Aware Face Detector ( http://arxiv.org/abs/2208.02019v1 ) ライセンス: Link先を確認 | Ziping Yu, Hongbo Huang, Weijun Chen, Yongxin Su, Yahui Liu, Xiuying Wang | (参考訳) 近年,ディープラーニングに基づく顔検出アルゴリズムが大きな進歩を遂げている。
これらのアルゴリズムは一般的に、Faster R-CNNのような2段階検出器とYOLOのような1段階検出器という2つのカテゴリに分けられる。
精度と速度のバランスが良いため、1段検出器は多くの用途で広く使われている。
本稿では, YOLO-FaceV2 という一段検出器 YOLOv5 を用いたリアルタイム顔検出器を提案する。
我々は,小顔の受容野を強化するためにrfeと呼ばれる受容野強化モジュールを設計し,nwd損失を用いて小物体の位置偏差に対するiouの感度を補う。
顔閉塞にはSEAMというアテンションモジュールを導入し,それを解決するためにRepulsion Lossを導入する。
さらに, 重み関数スライドを用いて, 簡単な試料と難しい試料間の不均衡を解消し, 効果的な受容場の情報を用いてアンカーの設計を行う。
WiderFaceデータセットの実験結果によると、顔検出器はYOLOよりも優れており、その変異は、簡単で中堅なサブセットすべてで見つけることができる。
https://github.com/Krasjet-Yu/YOLO-FaceV2のソースコード。 In recent years, face detection algorithms based on deep learning have made great progress. These algorithms can be generally divided into two categories, i.e. two-stage detector like Faster R-CNN and one-stage detector like YOLO. Because of the better balance between accuracy and speed, one-stage detectors have been widely used in many applications. In this paper, we propose a real-time face detector based on the one-stage detector YOLOv5, named YOLO-FaceV2. We design a Receptive Field Enhancement module called RFE to enhance receptive field of small face, and use NWD Loss to make up for the sensitivity of IoU to the location deviation of tiny objects. For face occlusion, we present an attention module named SEAM and introduce Repulsion Loss to solve it. Moreover, we use a weight function Slide to solve the imbalance between easy and hard samples and use the information of the effective receptive field to design the anchor. The experimental results on WiderFace dataset show that our face detector outperforms YOLO and its variants can be find in all easy, medium and hard subsets. Source code in https://github.com/Krasjet-Yu/YOLO-FaceV2 | 翻訳日:2022-08-04 13:46:44 公開日:2022-08-03 |
# ssformer: セマンティックセグメンテーションのための軽量トランスフォーマ SSformer: A Lightweight Transformer for Semantic Segmentation ( http://arxiv.org/abs/2208.02034v1 ) ライセンス: Link先を確認 | Wentao Shi, Jing Xu, Pan Gao | (参考訳) Transformerは畳み込みニューラルネットワークよりもセマンティックセグメンテーションが優れているとよく信じられている。
それでも、オリジナルのビジョントランスフォーマーは地域住民の帰納バイアスを欠いている可能性があり、高い時間的複雑さを持っている。
近年、Swin Transformerは階層型アーキテクチャとシフトウインドウを用いることで、様々な視覚タスクにおける新しい記録を樹立している。
しかしながら、スウィントランスは画像分類用に特別に設計されているため、高密度予測に基づくセグメンテーションタスクにおいて準最適性能を達成することができる。
さらに、Swin Transformerを既存のメソッドにマージするだけで、最終的なセグメンテーションモデルのモデルサイズとパラメータが向上する。
本稿では,セマンティックセグメンテーションのためのSwin Transformerを再考し,SSformerと呼ばれる軽量で効果的なトランスモデルを設計する。
本モデルでは,スウィントランスの固有階層設計を考慮し,異なる層から情報を集約するデコーダを提案し,局所的および大域的な注意を喚起する。
実験により,提案したSSformerは,より小さいモデルサイズと低い計算量を維持しつつ,最先端モデルと同等のmIoU性能が得られることを示した。 It is well believed that Transformer performs better in semantic segmentation compared to convolutional neural networks. Nevertheless, the original Vision Transformer may lack of inductive biases of local neighborhoods and possess a high time complexity. Recently, Swin Transformer sets a new record in various vision tasks by using hierarchical architecture and shifted windows while being more efficient. However, as Swin Transformer is specifically designed for image classification, it may achieve suboptimal performance on dense prediction-based segmentation task. Further, simply combing Swin Transformer with existing methods would lead to the boost of model size and parameters for the final segmentation model. In this paper, we rethink the Swin Transformer for semantic segmentation, and design a lightweight yet effective transformer model, called SSformer. In this model, considering the inherent hierarchical design of Swin Transformer, we propose a decoder to aggregate information from different layers, thus obtaining both local and global attentions. Experimental results show the proposed SSformer yields comparable mIoU performance with state-of-the-art models, while maintaining a smaller model size and lower compute. | 翻訳日:2022-08-04 13:46:23 公開日:2022-08-03 |
# 事前特徴と注意力強化画像インペインティングの学習 Learning Prior Feature and Attention Enhanced Image Inpainting ( http://arxiv.org/abs/2208.01837v1 ) ライセンス: Link先を確認 | Chenjie Cao, Qiaole Dong, Yanwei Fu | (参考訳) 近年の多くの絵画作品は、ディープニューラルネットワーク(dnn)を利用して画像復元のための様々な事前情報をモデル化することで印象的な成果を上げている。
残念なことに、これらの手法の性能は、バニラ畳み込みニューラルネットワーク(CNN)バックボーンの表現能力によって大きく制限されており、一方、自己教師付き事前学習による視覚変換器(ViT)は、多くの視覚認識や物体検出タスクにおいて大きな可能性を示している。
自然な質問は、塗装タスクがvitバックボーンから大きな利益を得られるかどうかである。
しかし、塗装は認識タスクと根本的に異なる逆問題であるため、塗装ネットワークにおける新しいバックボーンを直接置き換えることは簡単ではない。
そこで本稿では,事前学習によるマスク付きオートエンコーダ(mae)をインペインティングモデルに組み込むことにより,インペインティングプロセスの向上を図る。
さらに,masked領域とunmasked領域の長距離依存性をより学習させるために,MAEの注意点を用いた手法を提案する。
本論文では, インペインティングと自己教師付き事前学習モデルについて十分なアブレーションが議論されている。
さらに,places2 と ffhq の両方で実験を行い,提案モデルの有効性を示した。
コードと事前訓練されたモデルはhttps://github.com/ewrfcas/MAE-FARで公開されている。 Many recent inpainting works have achieved impressive results by leveraging Deep Neural Networks (DNNs) to model various prior information for image restoration. Unfortunately, the performance of these methods is largely limited by the representation ability of vanilla Convolutional Neural Networks (CNNs) backbones.On the other hand, Vision Transformers (ViT) with self-supervised pre-training have shown great potential for many visual recognition and object detection tasks. A natural question is whether the inpainting task can be greatly benefited from the ViT backbone? However, it is nontrivial to directly replace the new backbones in inpainting networks, as the inpainting is an inverse problem fundamentally different from the recognition tasks. To this end, this paper incorporates the pre-training based Masked AutoEncoder (MAE) into the inpainting model, which enjoys richer informative priors to enhance the inpainting process. Moreover, we propose to use attention priors from MAE to make the inpainting model learn more long-distance dependencies between masked and unmasked regions. Sufficient ablations have been discussed about the inpainting and the self-supervised pre-training models in this paper. Besides, experiments on both Places2 and FFHQ demonstrate the effectiveness of our proposed model. Codes and pre-trained models are released in https://github.com/ewrfcas/MAE-FAR. | 翻訳日:2022-08-04 13:44:13 公開日:2022-08-03 |
# 弱監視対象位置定位のための再アテンション変換器 Re-Attention Transformer for Weakly Supervised Object Localization ( http://arxiv.org/abs/2208.01838v1 ) ライセンス: Link先を確認 | Hui Su, Yue Ye, Zhiwei Chen, Mingli Song, Lechao Cheng | (参考訳) 弱教師付きオブジェクトローカライゼーションは、画像カテゴリのような粗いアノテーションでオブジェクトをローカライズすることを目的とした課題である。
既存のディープネットワークアプローチは、主にクラスアクティベーションマップに基づいており、完全なオブジェクトを無視しながら、識別的局所領域の強調に焦点を当てている。
さらに、新しいトランスフォーマーベースの技術は、完全なオブジェクトを識別する能力を妨げている背景に常に重点を置いている。
これらの問題に対処するため,我々は,オブジェクトレベルのセマンティクスをキャプチャしてローカライゼーションをうまく導くための再アテンション機構であるtokenfineization transformer (trt)を提案する。
具体的には、TPSM(トークン優先スコアリングモジュール)と呼ばれる新しいモジュールを導入し、ターゲットオブジェクトにフォーカスしながらバックグラウンドノイズの影響を抑制する。
次に、クラスアクティベーションマップを意味的に認識した入力として取り入れ、対象オブジェクトに対するアテンションマップを抑制する。
2つのベンチマークに関する広範囲な実験は、画像カテゴリアノテーションを用いた既存のメソッドに対する提案手法の優位性を示している。
ソースコードは \url{https://github.com/su-hui-zz/reattentiontransformer} で入手できる。 Weakly supervised object localization is a challenging task which aims to localize objects with coarse annotations such as image categories. Existing deep network approaches are mainly based on class activation map, which focuses on highlighting discriminative local region while ignoring the full object. In addition, the emerging transformer-based techniques constantly put a lot of emphasis on the backdrop that impedes the ability to identify complete objects. To address these issues, we present a re-attention mechanism termed token refinement transformer (TRT) that captures the object-level semantics to guide the localization well. Specifically, TRT introduces a novel module named token priority scoring module (TPSM) to suppress the effects of background noise while focusing on the target object. Then, we incorporate the class activation map as the semantically aware input to restrain the attention map to the target object. Extensive experiments on two benchmarks showcase the superiority of our proposed method against existing methods with image category annotations. Source code is available in \url{https://github.com/su-hui-zz/ReAttentionTransformer}. | 翻訳日:2022-08-04 13:43:47 公開日:2022-08-03 |
# ギャップのラベル付け」:目視による視線自動推定 'Labelling the Gaps': A Weakly Supervised Automatic Eye Gaze Estimation ( http://arxiv.org/abs/2208.01840v1 ) ライセンス: Link先を確認 | Shreya Ghosh, Abhinav Dhall, Jarrod Knibbe, Munawar Hayat | (参考訳) 過去数年間、監督が限定された制約のない環境での視線方向の解釈への関心が高まっている。
データキュレーションやアノテーションの問題により、制約のない屋外やAR/VRのような他のプラットフォームへの視線推定手法の複製は、モデルトレーニングのための正確な注釈付きデータの入手が不十分なため、パフォーマンスが大幅に低下する可能性がある。
本稿では,限定されたラベル付きデータを用いて,視線推定手法の興味深い,かつ困難な課題について検討する。
提案手法は,視覚的特徴を持つラベル付きサブセットから知識を抽出し,識別特異な外観,視線軌跡の整合性,運動特徴などの特徴を抽出する。
この方法は、視線軌道が与えられた場合、視線シーケンスの開始フレームと終了フレームのみのラベル情報を利用する。
提案手法の拡張により、ラベル付きフレームの要求を、生成したラベルの品質がわずかに低下した開始フレームのみに低減する。
提案手法は,4つのベンチマークデータセット (CAVE, TabletGaze, MPII, Gaze360) と,ウェブクローリングしたYouTubeビデオを用いて評価する。
提案手法は,性能への影響を最小限に抑えつつ,アノテーションの労力を2.67%にまで削減する。 Over the past few years, there has been an increasing interest to interpret gaze direction in an unconstrained environment with limited supervision. Owing to data curation and annotation issues, replicating gaze estimation method to other platforms, such as unconstrained outdoor or AR/VR, might lead to significant drop in performance due to insufficient availability of accurately annotated data for model training. In this paper, we explore an interesting yet challenging problem of gaze estimation method with a limited amount of labelled data. The proposed method distills knowledge from the labelled subset with visual features; including identity-specific appearance, gaze trajectory consistency and motion features. Given a gaze trajectory, the method utilizes label information of only the start and the end frames of a gaze sequence. An extension of the proposed method further reduces the requirement of labelled frames to only the start frame with a minor drop in the generated label's quality. We evaluate the proposed method on four benchmark datasets (CAVE, TabletGaze, MPII and Gaze360) as well as web-crawled YouTube videos. Our proposed method reduces the annotation effort to as low as 2.67%, with minimal impact on performance; indicating the potential of our model enabling gaze estimation 'in-the-wild' setup. | 翻訳日:2022-08-04 13:43:17 公開日:2022-08-03 |
# 画像分割におけるマルチクラスASMA対PGD攻撃 Multiclass ASMA vs Targeted PGD Attack in Image Segmentation ( http://arxiv.org/abs/2208.01844v1 ) ライセンス: Link先を確認 | Johnson Vo (1), Jiabao Xie (1), and Sahil Patel (1) ((1) University of Toronto) | (参考訳) ディープラーニングネットワークは、画像分類、音声認識、自然言語処理など、さまざまなアプリケーションで高いパフォーマンスを示している。
しかし、敵の攻撃によって悪用される大きな脆弱性が存在する。
敵攻撃は入力画像をわずかに変化させることで画像を暗示し、肉眼ではほとんど検出できないが、ネットワークによって非常に異なる分類をもたらす。
本稿では,2種類のアーキテクチャであるmobilenetv3とresnet50を用いて,画像セグメンテーションにおける投影勾配降下(pgd)攻撃と適応マスクセグメンテーション攻撃(asma)について検討した。
しかし、このような攻撃の存在は、すべての画像分類ディープラーニングネットワークを搾取の危険にさらす。 Deep learning networks have demonstrated high performance in a large variety of applications, such as image classification, speech recognition, and natural language processing. However, there exists a major vulnerability exploited by the use of adversarial attacks. An adversarial attack imputes images by altering the input image very slightly, making it nearly undetectable to the naked eye, but results in a very different classification by the network. This paper explores the projected gradient descent (PGD) attack and the Adaptive Mask Segmentation Attack (ASMA) on the image segmentation DeepLabV3 model using two types of architectures: MobileNetV3 and ResNet50, It was found that PGD was very consistent in changing the segmentation to be its target while the generalization of ASMA to a multiclass target was not as effective. The existence of such attack however puts all of image classification deep learning networks in danger of exploitation. | 翻訳日:2022-08-04 13:42:46 公開日:2022-08-03 |
# 微粒化人間行動認識のための複合CNN変換器エンコーダ Combined CNN Transformer Encoder for Enhanced Fine-grained Human Action Recognition ( http://arxiv.org/abs/2208.01897v1 ) ライセンス: Link先を確認 | Mei Chee Leong, Haosong Zhang, Hui Li Tan, Liyuan Li, Joo Hwee Lim | (参考訳) きめ細かい動作認識はコンピュータビジョンにおいて難しい課題である。
細粒度データセットは、空間空間と時間空間のクラス間変動が小さいため、細粒度アクション認識モデルは、適切な時間的推論と属性アクションセマンティクスの識別を必要とする。
高レベルの時空間特徴表現をキャプチャするCNNの能力と、潜在意味論とグローバル依存関係をキャプチャするTransformerのモデリング効率を活用し、CNNビジョンバックボーンとTransformer Encoderを組み合わせた2つのフレームワークについて検討する。
1)潜在時間意味を学習する視覚に基づくエンコーダ,および
2) 付加的なテキスト入力を活用し,視覚意味論とテキスト意味論の相互関係を学ぶマルチモーダルビデオテキストクロスエンコーダ。
実験の結果, トランスフォーマーエンコーダフレームワークは, cnn視覚モデルよりも認識性能が向上し, 潜時意味論とクロスモダリティ関係を効果的に学習できることが判明した。
提案するアーキテクチャのファインガイムベンチマークデータセットにおいて,新たな最先端性能を実現する。 Fine-grained action recognition is a challenging task in computer vision. As fine-grained datasets have small inter-class variations in spatial and temporal space, fine-grained action recognition model requires good temporal reasoning and discrimination of attribute action semantics. Leveraging on CNN's ability in capturing high level spatial-temporal feature representations and Transformer's modeling efficiency in capturing latent semantics and global dependencies, we investigate two frameworks that combine CNN vision backbone and Transformer Encoder to enhance fine-grained action recognition: 1) a vision-based encoder to learn latent temporal semantics, and 2) a multi-modal video-text cross encoder to exploit additional text input and learn cross association between visual and text semantics. Our experimental results show that both our Transformer encoder frameworks effectively learn latent temporal semantics and cross-modality association, with improved recognition performance over CNN vision model. We achieve new state-of-the-art performance on the FineGym benchmark dataset for both proposed architectures. | 翻訳日:2022-08-04 13:42:29 公開日:2022-08-03 |
# XCon: きめ細かいカテゴリ発見のためのエキスパートによる学習 XCon: Learning with Experts for Fine-grained Category Discovery ( http://arxiv.org/abs/2208.01898v1 ) ライセンス: Link先を確認 | Yixin Fei, Zhongkai Zhao, Siwei Yang, Bingchen Zhao | (参考訳) 本稿では, 一般化されたカテゴリ発見(GCD)の問題, すなわち, 目に見えないクラスと見えないクラスの両方を含む未ラベル画像の集合からの情報を活用した, 未ラベル画像のクラスタリングに対処する。
見たクラスは暗黙のクラスの基準と見なすことができ、この設定はクラスタの基準が曖昧である可能性のある教師なしのクラスタリングとは異なる。
これはカテゴリ発見の最も直接的な応用の1つであり、参照されるクラスによって設定された暗黙の基準を用いて、ラベルのないデータセット内で専門家が新しい概念を発見するのを助けるためである。
一般化されたカテゴリ発見のための最先端の手法は、対比学習を利用して表現を学ぶが、負の例にはカテゴリを認識するための無関係な手がかりが含まれているため、アルゴリズムが局所極小に収束する可能性があるため、クラス間の大きな類似性とクラス内分散が課題となる。
まず,k-meansクラスタリングを用いてデータセットをサブデータセットに分割し,各サブデータセットでコントラスト学習を行い,詳細な識別特徴を学習することにより,画像から有用な情報をマイニングすることを支援する。
きめ細かいデータセットを実験した結果,これまでの最良の方法よりも明らかに性能が向上し,本手法の有効性が示された。 We address the problem of generalized category discovery (GCD) in this paper, i.e. clustering the unlabeled images leveraging the information from a set of seen classes, where the unlabeled images could contain both seen classes and unseen classes. The seen classes can be seen as an implicit criterion of classes, which makes this setting different from unsupervised clustering where the cluster criteria may be ambiguous. We mainly concern the problem of discovering categories within a fine-grained dataset since it is one of the most direct applications of category discovery, i.e. helping experts discover novel concepts within an unlabeled dataset using the implicit criterion set forth by the seen classes. State-of-the-art methods for generalized category discovery leverage contrastive learning to learn the representations, but the large inter-class similarity and intra-class variance pose a challenge for the methods because the negative examples may contain irrelevant cues for recognizing a category so the algorithms may converge to a local-minima. We present a novel method called Expert-Contrastive Learning (XCon) to help the model to mine useful information from the images by first partitioning the dataset into sub-datasets using k-means clustering and then performing contrastive learning on each of the sub-datasets to learn fine-grained discriminative features. Experiments on fine-grained datasets show a clear improved performance over the previous best methods, indicating the effectiveness of our method. | 翻訳日:2022-08-04 13:42:08 公開日:2022-08-03 |
# 不均一変化検出のためのグラフ信号処理 その2:スペクトル領域解析 Graph Signal Processing for Heterogeneous Change Detection Part II: Spectral Domain Analysis ( http://arxiv.org/abs/2208.01905v1 ) ライセンス: Link先を確認 | Yuli Sun, Lin Lei, Dongdong Guan, Gangyao Kuang, Li Liu | (参考訳) 本論文は,HCD問題,すなわちグラフ信号処理(GSP)の観点からHCDを解くための新たな戦略を提供する第2部である。
各画像の構造を表すグラフを構築し,各画像をグラフ上で定義されたグラフ信号として扱う。
このようにして、HCD問題をグラフ上で定義されたシステム上の信号の応答の比較に変換することができる。
第1部では、頂点領域からのグラフ間の構造差を比較して変化を測定する。
このパートiiでは、スペクトル領域からhcdのgspを分析する。
まず,同一グラフ上の異なる画像のスペクトル特性を解析し,そのスペクトルが共通性と類似性を示すことを示す。
特に、スペクトルの相違につながる変化である。
そこで,本研究では,HCDの回帰モデルを提案する。このモデルでは,ソース信号を回帰信号と変化信号に分解し,同じグラフ上のターゲット信号と同じスペクトル特性の回帰信号を必要とする。
グラフスペクトル解析の助けを借りて、提案する回帰モデルは柔軟でスケーラブルである。
7つの実データ集合を用いて実験を行い,提案手法の有効性を示した。 This is the second part of the paper that provides a new strategy for the heterogeneous change detection (HCD) problem, that is, solving HCD from the perspective of graph signal processing (GSP). We construct a graph to represent the structure of each image, and treat each image as a graph signal defined on the graph. In this way, we can convert the HCD problem into a comparison of responses of signals on systems defined on the graphs. In the part I, the changes are measured by comparing the structure difference between the graphs from the vertex domain. In this part II, we analyze the GSP for HCD from the spectral domain. We first analyze the spectral properties of the different images on the same graph, and show that their spectra exhibit commonalities and dissimilarities. Specially, it is the change that leads to the dissimilarities of their spectra. Then, we propose a regression model for the HCD, which decomposes the source signal into the regressed signal and changed signal, and requires the regressed signal have the same spectral property as the target signal on the same graph. With the help of graph spectral analysis, the proposed regression model is flexible and scalable. Experiments conducted on seven real data sets show the effectiveness of the proposed method. | 翻訳日:2022-08-04 13:41:43 公開日:2022-08-03 |
# 曖昧なシーングラフ生成の評価を再考する Rethinking the Evaluation of Unbiased Scene Graph Generation ( http://arxiv.org/abs/2208.01909v1 ) ライセンス: Link先を確認 | Xingchen Li, Long Chen, Jian Shao, Shaoning Xiao, Songyang Zhang and Jun Xiao | (参考訳) 共通対象関係における厳密な不均衡な述語分布のため、現在のSGG法は頻繁な述語カテゴリを予測し、稀な述語を認識できない傾向にある。
異なる述語カテゴリーにおけるSGGモデルのロバスト性を改善するため、最近の研究では、偏りのないSGGに着目し、平均Recall@K(mR@K)を主要な評価指標として採用している。
しかし、このデファクト標準計量mR@Kに関する2つの見過ごされた問題を発見し、現在の偏見のないSGG評価を脆弱で不公平にする。
1) mR@K は述語間の相関を無視し、述語カテゴリーに関わらず、すべての三重項予測をまとめてランク付けするとカテゴリー独立性を損なうため、一部の述語のパフォーマンスが過小評価される。
2) mR@K は異なる述語の組成の多様性を無視し、構成可能な関係三重項型に制限された超単純なカテゴリサンプルに過剰に高い重みを割り当てる。
これはSGGタスクの目標と完全に矛盾し、モデルがより多くの種類の視覚的関係三重項を検出することを奨励する。
さらに,未偏りsggの単純かつ強固なベースラインとして機能する,オブジェクトと述語の間の未検討の相関について検討する。
本稿では,mR@Kを改良し,非バイアスSGG(Independent Mean Recall(IMR)と重み付きIMR(wIMR)の2つの相補的評価指標を提案する。
これら2つの指標はそれぞれ、構成可能な関係三重項のカテゴリ独立性と多様性を考慮して設計されている。
提案メトリクスとデファクト標準メトリクスを比較し,より信頼性の高い方法で非バイアスのSGGを評価するためのソリューションについて議論する。 Since the severe imbalanced predicate distributions in common subject-object relations, current Scene Graph Generation (SGG) methods tend to predict frequent predicate categories and fail to recognize rare ones. To improve the robustness of SGG models on different predicate categories, recent research has focused on unbiased SGG and adopted mean Recall@K (mR@K) as the main evaluation metric. However, we discovered two overlooked issues about this de facto standard metric mR@K, which makes current unbiased SGG evaluation vulnerable and unfair: 1) mR@K neglects the correlations among predicates and unintentionally breaks category independence when ranking all the triplet predictions together regardless of the predicate categories, leading to the performance of some predicates being underestimated. 2) mR@K neglects the compositional diversity of different predicates and assigns excessively high weights to some oversimple category samples with limited composable relation triplet types. It totally conflicts with the goal of SGG task which encourages models to detect more types of visual relationship triplets. In addition, we investigate the under-explored correlation between objects and predicates, which can serve as a simple but strong baseline for unbiased SGG. In this paper, we refine mR@K and propose two complementary evaluation metrics for unbiased SGG: Independent Mean Recall (IMR) and weighted IMR (wIMR). These two metrics are designed by considering the category independence and diversity of composable relation triplets, respectively. We compare the proposed metrics with the de facto standard metrics through extensive experiments and discuss the solutions to evaluate unbiased SGG in a more trustworthy way. | 翻訳日:2022-08-04 13:41:26 公開日:2022-08-03 |
# 生活活動の総合的認識のための新しい行動表現のマルチモーダル生成 Multimodal Generation of Novel Action Appearances for Synthetic-to-Real Recognition of Activities of Daily Living ( http://arxiv.org/abs/2208.01910v1 ) ライセンス: Link先を確認 | Zdravko Marinov, David Schneider, Alina Roitberg, Rainer Stiefelhagen | (参考訳) 外観の変化などのドメインシフトは、アシストロボティクスやスマートホームからインテリジェントな車両でのドライバーの観察まで、アクティビティ認識モデルの現実的な応用における重要な課題である。
例えば、シミュレーションは経済的なデータ収集の優れた方法であるが、ADL(Daily Living)の活動を認識すると、Synthetic-to-Realドメインシフトは60%以上精度が低下する。
この課題に取り組み,ビデオトレーニングデータから推定される異なる既存のアクティビティモダリティ(ソースドメイン)から新たなadl出現(ノベルドメイン)を生成するアクティビティドメイン生成フレームワークを導入する。
我々のフレームワークは人間のポーズ、体節のヒートマップ、光学フローマップを計算し、元のRGBビデオと併用して、ソースドメインの本質を学習し、完全に新しいADLドメインを生成する。
このモデルは、既存のソース外観と生成された新しい外観との間の距離を最大化し、追加の分類損失によってアクティビティのセマンティクスが保持されるようにすることで最適化される。
この設計において、ソースデータのマルチモーダリティは重要な概念であるが、我々の設定はマルチセンサーのセットアップに依存していない(つまり、すべてのソースモーダリティは単一のビデオからのみ推測される)。
Synthetic-to-RealベンチマークSims4Actionの大規模な実験は、ドメイン間ADL認識におけるドメイン生成パラダイムの可能性を示し、新しい最先端の結果を設定している。
私たちのコードはhttps://github.com/Zrrr1997/syn2real_DGで公開されています。 Domain shifts, such as appearance changes, are a key challenge in real-world applications of activity recognition models, which range from assistive robotics and smart homes to driver observation in intelligent vehicles. For example, while simulations are an excellent way of economical data collection, a Synthetic-to-Real domain shift leads to a > 60% drop in accuracy when recognizing activities of Daily Living (ADLs). We tackle this challenge and introduce an activity domain generation framework which creates novel ADL appearances (novel domains) from different existing activity modalities (source domains) inferred from video training data. Our framework computes human poses, heatmaps of body joints, and optical flow maps and uses them alongside the original RGB videos to learn the essence of source domains in order to generate completely new ADL domains. The model is optimized by maximizing the distance between the existing source appearances and the generated novel appearances while ensuring that the semantics of an activity is preserved through an additional classification loss. While source data multimodality is an important concept in this design, our setup does not rely on multi-sensor setups, (i.e., all source modalities are inferred from a single video only.) The newly created activity domains are then integrated in the training of the ADL classification networks, resulting in models far less susceptible to changes in data distributions. Extensive experiments on the Synthetic-to-Real benchmark Sims4Action demonstrate the potential of the domain generation paradigm for cross-domain ADL recognition, setting new state-of-the-art results. Our code is publicly available at https://github.com/Zrrr1997/syn2real_DG | 翻訳日:2022-08-04 13:40:55 公開日:2022-08-03 |
# N-RPN: 地域提案ネットワークのためのハードケースラーニング N-RPN: Hard Example Learning for Region Proposal Networks ( http://arxiv.org/abs/2208.01916v1 ) ライセンス: Link先を確認 | MyeongAh Cho, Tae-young Chung, Hyeongmin Lee and Sangyoun Lee | (参考訳) 領域の提案タスクは、オブジェクトを含む一連の候補領域を生成することである。
このタスクでは、一定の数の提案において可能な限り多くの地頭候補を提案することが最も重要である。
しかし、典型的な画像では、非常に多くの容易な負の例に比べて、強烈な負の例が少ないため、地域提案ネットワークは強烈な負のトレーニングに苦労する。
この問題のために、ネットワークはハードネガティブを候補として提案する傾向があるが、基盤となる候補の提案に失敗し、パフォーマンスが低下する。
本稿では,地域提案ネットワーク(RPN)を改善するための負領域提案ネットワーク(nRPN)を提案する。
nRPNはRPNの偽陽性から学習し、RPNに強い負の例を提供する。
提案した nRPN は偽陽性の低減と RPN の性能向上につながる。
nRPNでトレーニングされたRPNは、PASCAL VOC 2007データセットのパフォーマンス改善を実現する。 The region proposal task is to generate a set of candidate regions that contain an object. In this task, it is most important to propose as many candidates of ground-truth as possible in a fixed number of proposals. In a typical image, however, there are too few hard negative examples compared to the vast number of easy negatives, so region proposal networks struggle to train on hard negatives. Because of this problem, networks tend to propose hard negatives as candidates, while failing to propose ground-truth candidates, which leads to poor performance. In this paper, we propose a Negative Region Proposal Network(nRPN) to improve Region Proposal Network(RPN). The nRPN learns from the RPN's false positives and provide hard negative examples to the RPN. Our proposed nRPN leads to a reduction in false positives and better RPN performance. An RPN trained with an nRPN achieves performance improvements on the PASCAL VOC 2007 dataset. | 翻訳日:2022-08-04 13:40:27 公開日:2022-08-03 |
# 臨床表現型化のための言語間知識伝達 Cross-Lingual Knowledge Transfer for Clinical Phenotyping ( http://arxiv.org/abs/2208.01912v1 ) ライセンス: Link先を確認 | Jens-Michalis Papaioannou, Paul Grundmann, Betty van Aken, Athanasios Samaras, Ilias Kyparissidis, George Giannakoulas, Felix Gers, Alexander L\"oser | (参考訳) 臨床表現型は患者の記録から自動的に臨床症状を抽出し、世界中の医師や診療所にとって有用である。
しかし、現在の最先端モデルは、主に英語で書かれた臨床ノートに適用できる。
そこで我々は,英語を使用せず,ドメイン内データが少ないクリニックに対して,このタスクを実行するための言語間知識伝達戦略を検討する。
これらの戦略を, 循環器科, 腫瘍学, icuなどの異なる臨床領域の臨床ノートを用いて, ギリシャ語とスペイン語のクリニックで評価した。
提案手法は,ドメイン固有エンコーダと言語間エンコーダとアダプタを併用することで,最先端の翻訳手法よりも優れた2つの戦略を示す。
これらの戦略は, 稀な表現型を分類する上で特に有効であり, どのような状況でどの方法を好むかを助言する。
以上の結果から,多言語データを用いることで臨床表現型モデルが改善され,データのばらばらさを補うことができる。 Clinical phenotyping enables the automatic extraction of clinical conditions from patient records, which can be beneficial to doctors and clinics worldwide. However, current state-of-the-art models are mostly applicable to clinical notes written in English. We therefore investigate cross-lingual knowledge transfer strategies to execute this task for clinics that do not use the English language and have a small amount of in-domain data available. We evaluate these strategies for a Greek and a Spanish clinic leveraging clinical notes from different clinical domains such as cardiology, oncology and the ICU. Our results reveal two strategies that outperform the state-of-the-art: Translation-based methods in combination with domain-specific encoders and cross-lingual encoders plus adapters. We find that these strategies perform especially well for classifying rare phenotypes and we advise on which method to prefer in which situation. Our results show that using multilingual data overall improves clinical phenotyping models and can compensate for data sparseness. | 翻訳日:2022-08-04 13:37:44 公開日:2022-08-03 |
# レコネッサンスブラインドチェスにおける観察からの指導と強化学習 Supervised and Reinforcement Learning from Observations in Reconnaissance Blind Chess ( http://arxiv.org/abs/2208.02029v1 ) ライセンス: Link先を確認 | Timo Bertram, Johannes F\"urnkranz, Martin M\"uller | (参考訳) 本研究では,オリジナルのalphagoシステムに触発されたトレーニングアプローチを適用し,リコネッサンスブラインドチェスにおける不完全な情報ゲームをプレイする。
ゲーム状態の完全な説明ではなく、観察のみを使用して、監視エージェントを一般公開されたゲームレコード上でトレーニングします。
次に、政治強化学習アルゴリズムであるPhysmal Policy Optimizationの自己プレイによりエージェントの性能を向上させる。
ゲーム状態の部分的な可観測性に起因する問題を回避するために検索は一切使用せず、プレイ時の動作生成にはポリシーネットワークのみを使用します。
このアプローチにより、RBCのリーダーボード上で1330のELOを実現し、この記事執筆時点でエージェントを27位に位置づける。
我々は,自己プレイがパフォーマンスを著しく向上させ,エージェントが検索や真のゲーム状態の仮定を行なわずに,良好に動作できることを見出した。 In this work, we adapt a training approach inspired by the original AlphaGo system to play the imperfect information game of Reconnaissance Blind Chess. Using only the observations instead of a full description of the game state, we first train a supervised agent on publicly available game records. Next, we increase the performance of the agent through self-play with the on-policy reinforcement learning algorithm Proximal Policy Optimization. We do not use any search to avoid problems caused by the partial observability of game states and only use the policy network to generate moves when playing. With this approach, we achieve an ELO of 1330 on the RBC leaderboard, which places our agent at position 27 at the time of this writing. We see that self-play significantly improves performance and that the agent plays acceptably well without search and without making assumptions about the true game state. | 翻訳日:2022-08-04 13:37:31 公開日:2022-08-03 |
# 現象意識と計算知能の独立性について On the independence between phenomenal consciousness and computational intelligence ( http://arxiv.org/abs/2208.02187v1 ) ライセンス: Link先を確認 | Eduardo C. Garrido Merch\'an, Sara Lumbreras | (参考訳) 意識と知性は、一般に民間心理学や社会全般に依存するものとして理解される性質である。
近年、人工知能という用語と、それが解決した問題の種類は、機械が何らかの意識を経験することを証明するための議論として示されてきた。
ラッセルの類似性に従うと、機械が意識のある人間が行うことができると、その機械が意識的になる可能性が高くなる。
しかし、この類推の社会的意味は破滅的である。
具体的には、もしニューロタイプな人ができるような問題を解決することができるエンティティに権利が与えられれば、マシンは障害を持つ人よりも、より多くの権利を持つだろうか?
例えば、自閉症症候群のスペクトラムは、マシンが解決する問題の種類を解決できないようにすることができる。
我々は、問題解決は意識を暗示しないので、明らかな答えはノーであると信じている。
したがって、この論文では、現象意識と少なくとも計算知能が独立しているのか、なぜ機械が現象意識を持っていないのかを論じる。
そのために、計算知能の客観的尺度を定式化し、それが人間、動物、機械にどのように存在するかを研究する。
同様に、現象意識をディコトナス変数として研究し、それが人間、動物、機械にどのように分布するかを研究する。
現象意識と計算知能は独立しているため、この事実は我々が本研究で分析した社会に重要な意味を持つ。 Consciousness and intelligence are properties commonly understood as dependent by folk psychology and society in general. The term artificial intelligence and the kind of problems that it managed to solve in the recent years has been shown as an argument to establish that machines experience some sort of consciousness. Following the analogy of Russell, if a machine is able to do what a conscious human being does, the likelihood that the machine is conscious increases. However, the social implications of this analogy are catastrophic. Concretely, if rights are given to entities that can solve the kind of problems that a neurotypical person can, does the machine have potentially more rights that a person that has a disability? For example, the autistic syndrome disorder spectrum can make a person unable to solve the kind of problems that a machine solves. We believe that the obvious answer is no, as problem solving does not imply consciousness. Consequently, we will argue in this paper how phenomenal consciousness and, at least, computational intelligence are independent and why machines do not possess phenomenal consciousness, although they can potentially develop a higher computational intelligence that human beings. In order to do so, we try to formulate an objective measure of computational intelligence and study how it presents in human beings, animals and machines. Analogously, we study phenomenal consciousness as a dichotomous variable and how it is distributed in humans, animals and machines. As phenomenal consciousness and computational intelligence are independent, this fact has critical implications for society that we also analyze in this work. | 翻訳日:2022-08-04 13:37:15 公開日:2022-08-03 |
# TAG: テキスト認識型ビジュアル質問応答生成によるテキストVQAの強化 TAG: Boosting Text-VQA via Text-aware Visual Question-answer Generation ( http://arxiv.org/abs/2208.01813v1 ) ライセンス: Link先を確認 | Jun Wang, Mingfei Gao, Yuqian Hu, Ramprasaath R. Selvaraju, Chetan Ramaiah, Ran Xu, Joseph F. JaJa, Larry S. Davis | (参考訳) Text-VQAは、画像中のテキストの手がかりを理解する必要がある質問に答えることを目的としている。
既存のText-VQA手法の進歩にもかかわらず、その性能は人間ラベルによる質問応答(QA)が不十分である。
しかし、一般的に、シーンテキストは既存のデータセットで完全に活用されておらず、各画像内のわずかなテキストだけが注釈付きQAアクティビティに参加します。
これにより有用な情報が大量に無駄になる。
この不足に対処するために,各画像のシーンコンテキストで利用可能な既存のリッチテキストを明示的に活用し,高品質で多様なqaペアを生成する新しい手法を開発した。
具体的には、マルチモーダル変換器を用いて有意義で正確なQAサンプルを生成することを学ぶテキスト認識型視覚質問応答生成アーキテクチャであるTAGを提案する。
このアーキテクチャは、未探索のシーンテキスト情報を活用し、生成されたQAペアと初期トレーニングデータを組み合わせることで、Text-VQAモデルのシーン理解を強化する。
2つのよく知られたText-VQAベンチマーク(TextVQAとST-VQA)の大規模な実験結果から、提案したTAGがトレーニングデータを効果的に拡張し、余分なラベル付けをせずにText-VQAのパフォーマンスを向上することを示した。
さらに,我々のモデルは,大規模データを事前学習した最先端の手法よりも優れている。
コードは公開される予定だ。 Text-VQA aims at answering questions that require understanding the textual cues in an image. Despite the great progress of existing Text-VQA methods, their performance suffers from insufficient human-labeled question-answer (QA) pairs. However, we observe that, in general, the scene text is not fully exploited in the existing datasets -- only a small portion of text in each image participates in the annotated QA activities. This results in a huge waste of useful information. To address this deficiency, we develop a new method to generate high-quality and diverse QA pairs by explicitly utilizing the existing rich text available in the scene context of each image. Specifically, we propose, TAG, a text-aware visual question-answer generation architecture that learns to produce meaningful, and accurate QA samples using a multimodal transformer. The architecture exploits underexplored scene text information and enhances scene understanding of Text-VQA models by combining the generated QA pairs with the initial training data. Extensive experimental results on two well-known Text-VQA benchmarks (TextVQA and ST-VQA) demonstrate that our proposed TAG effectively enlarges the training data that helps improve the Text-VQA performance without extra labeling effort. Moreover, our model outperforms state-of-the-art approaches that are pre-trained with extra large-scale data. Code will be made publicly available. | 翻訳日:2022-08-04 13:36:20 公開日:2022-08-03 |
# 単分子360度深度推定のためのニューラルネットワーク Neural Contourlet Network for Monocular 360 Depth Estimation ( http://arxiv.org/abs/2208.01817v1 ) ライセンス: Link先を確認 | Zhijie Shen, Chunyu Lin, Lang Nie, Kang Liao, and Yao Zhao | (参考訳) 単眼の360度画像では、緯度に沿って歪みが増加するため、深度推定は難しい。
歪みを認識するために、既存の手法は深く複雑なネットワークアーキテクチャを設計することに専念した。
本稿では,360度画像に対する解釈可能かつスパースな表現を構成する新しい視点を提供する。
深さ推定における幾何学的構造の重要性を考慮して,スペクトル領域における明示的な幾何学的手がかりを捉え,空間領域における暗黙的手がかりと統合する。
具体的には,畳み込みニューラルネットワークと畳み込み変換分岐からなるニューラルネットワークを提案する。
エンコーダ段階では、2種類のキューを効果的に融合する空間スペクトル融合モジュールを設計する。
エンコーダとは対照的に、学習した低域サブバンドと帯域通過方向サブバンドを持つ逆コントラル変換を用いてデコーダの深さを構成する。
3つの一般的なパノラマ画像データセットに関する実験は、提案手法がより高速な収束で最先端のスキームを上回ることを示している。
コードはhttps://github.com/zhijieshen-bjtu/Neural-Contourlet-Network-for-MODEで公開されている。 For a monocular 360 image, depth estimation is a challenging because the distortion increases along the latitude. To perceive the distortion, existing methods devote to designing a deep and complex network architecture. In this paper, we provide a new perspective that constructs an interpretable and sparse representation for a 360 image. Considering the importance of the geometric structure in depth estimation, we utilize the contourlet transform to capture an explicit geometric cue in the spectral domain and integrate it with an implicit cue in the spatial domain. Specifically, we propose a neural contourlet network consisting of a convolutional neural network and a contourlet transform branch. In the encoder stage, we design a spatial-spectral fusion module to effectively fuse two types of cues. Contrary to the encoder, we employ the inverse contourlet transform with learned low-pass subbands and band-pass directional subbands to compose the depth in the decoder. Experiments on the three popular panoramic image datasets demonstrate that the proposed approach outperforms the state-of-the-art schemes with faster convergence. Code is available at https://github.com/zhijieshen-bjtu/Neural-Contourlet-Network-for-MODE. | 翻訳日:2022-08-04 13:35:59 公開日:2022-08-03 |
# 統計的注意定位法(SAL)の方法論と対象分類への応用 Statistical Attention Localization (SAL): Methodology and Application to Object Classification ( http://arxiv.org/abs/2208.01823v1 ) ライセンス: Link先を確認 | Yijing Yang, Vasileios Magoulianitis, Xinyu Wang and C.-C. Jay Kuo | (参考訳) 本研究における対象物分類作業を容易にするために,統計的注意定位法(sal)を提案する。
SALは3つのステップから構成される。
1)決定統計による事前注意窓の選択
2)注意地図の精巧化、及び
3) 矩形注意領域最終化。
SALは局所四角い窓の柔らかい決定スコアを計算し、それらをステップ内の健全な領域を特定する
1.様々な大きさ・形状の物体に対応するため、SALは予備結果を洗練し、ステップ内のより柔軟な形状の注意マップを得る。
2最後にSALは、改良された注目マップとステップのバウンディングボックス正規化を用いて長方形の注意領域を得る
3.アプリケーションとして,逐次サブスペース学習(SSL)に基づくオブジェクト分類ソリューションであるE-PixelHopをベースラインとして採用する。
代替入力として,クロッピングアウトおよびリサイズアテンション領域を得るために,salを適用する。
画像全体および注意領域の分類結果を合理化し、最高分類精度を達成する。
CIFAR-10データセットの実験を行い、SAL支援対象分類法の利点を実証した。 A statistical attention localization (SAL) method is proposed to facilitate the object classification task in this work. SAL consists of three steps: 1) preliminary attention window selection via decision statistics, 2) attention map refinement, and 3) rectangular attention region finalization. SAL computes soft-decision scores of local squared windows and uses them to identify salient regions in Step 1. To accommodate object of various sizes and shapes, SAL refines the preliminary result and obtain an attention map of more flexible shape in Step 2. Finally, SAL yields a rectangular attention region using the refined attention map and bounding box regularization in Step 3. As an application, we adopt E-PixelHop, which is an object classification solution based on successive subspace learning (SSL), as the baseline. We apply SAL so as to obtain a cropped-out and resized attention region as an alternative input. Classification results of the whole image as well as the attention region are ensembled to achieve the highest classification accuracy. Experiments on the CIFAR-10 dataset are given to demonstrate the advantage of the SAL-assisted object classification method. | 翻訳日:2022-08-04 13:35:38 公開日:2022-08-03 |
# 弱教師付きシーングラフ生成のためのオブジェクト認識と対話認識の知識の統合 Integrating Object-aware and Interaction-aware Knowledge for Weakly Supervised Scene Graph Generation ( http://arxiv.org/abs/2208.01834v1 ) ライセンス: Link先を確認 | Xingchen Li, Long Chen, Wenbo Ma, Yi Yang and Jun Xiao | (参考訳) 近年,weakly supervised scene graph generation (wssgg) が注目されている。
WSSGGのメインストリームのソリューションは、通常同じパイプラインに従っている: まず、弱い画像レベルの監督(例えば、非ローカライズされた関係トリプレットやキャプション)でテキストエンティティをイメージ領域と整列させ、次に、整列されたインスタンスレベルの"擬似"ラベルで、完全に教師された方法でSGGモデルを訓練する。
しかし、既存のWSSGGの作業のほとんどはオブジェクト一貫性にのみ焦点をあてているので、基底領域はテキストエンティティと同じオブジェクトカテゴリラベルを持つべきです。
相互作用-一貫性(interaction-consistency)は、接地領域ペアがテキストエンティティペアと同じインタラクション(つまり視覚的な関係)を持つべきであることを意味する。
そこで本稿では,より信頼性の高い擬似ラベルを取得するために,オブジェクト認識とインタラクション認識の両方の知識を用いたシンプルな接地モジュールを提案する。
これら2つの知識をよりよく活用するために、我々はこれらを2つの教師とみなし、生成した目標を融合させ、グラウンドモジュールのトレーニングプロセスを導く。
具体的には、各トレーニングサンプルの信頼性を評価して、異なる教師に重みを適応的に割り当てる2つの異なる戦略を設計する。
広範囲な実験により,WSSGGの性能は,各種の弱い監督下で一貫して向上することが示された。 Recently, increasing efforts have been focused on Weakly Supervised Scene Graph Generation (WSSGG). The mainstream solution for WSSGG typically follows the same pipeline: they first align text entities in the weak image-level supervisions (e.g., unlocalized relation triplets or captions) with image regions, and then train SGG models in a fully-supervised manner with aligned instance-level "pseudo" labels. However, we argue that most existing WSSGG works only focus on object-consistency, which means the grounded regions should have the same object category label as text entities. While they neglect another basic requirement for an ideal alignment: interaction-consistency, which means the grounded region pairs should have the same interactions (i.e., visual relations) as text entity pairs. Hence, in this paper, we propose to enhance a simple grounding module with both object-aware and interaction-aware knowledge to acquire more reliable pseudo labels. To better leverage these two types of knowledge, we regard them as two teachers and fuse their generated targets to guide the training process of our grounding module. Specifically, we design two different strategies to adaptively assign weights to different teachers by assessing their reliability on each training sample. Extensive experiments have demonstrated that our method consistently improves WSSGG performance on various kinds of weak supervision. | 翻訳日:2022-08-04 13:35:21 公開日:2022-08-03 |
# EMC2A-Net: SARターゲット分類のための効率的なマルチブランチクロスチャネルアテンションネットワーク EMC2A-Net: An Efficient Multibranch Cross-channel Attention Network for SAR Target Classification ( http://arxiv.org/abs/2208.01836v1 ) ライセンス: Link先を確認 | Xiang Yu, Zhe Geng, Xiaohua Huang, Qinglu Wang and Daiyin Zhu | (参考訳) 近年、畳み込みニューラルネットワーク(cnns)は合成開口レーダ(sar)ターゲット認識において大きな可能性を示している。
SAR画像は、粒度の感覚が強く、スペックルノイズ、ターゲット優先散乱器、ターゲット輪郭など様々なテクスチャ特性を有しており、従来のCNNモデルではめったに考えられない。
本稿では,マルチブランチ構造に基づくマルチスケール受信フィールド(RF)を有するEMC2Aブロックを2つ提案し,効率的な異方性アーキテクチャであるDCNN,EMC2A-Netを設計した。
EMC2Aブロックは、異なる拡張レートの並列拡張畳み込みを利用して、計算負担を大幅に増大させることなく、マルチスケールのコンテキスト特徴を効果的にキャプチャすることができる。
マルチスケール機能融合の効率をさらに高めるため,本論文では,局所的マルチスケール機能インタラクション戦略を採用したマルチスケール機能横断型注目モジュール,emc2aモジュールを提案する。
この戦略は、効率的な1次元(1d)循環畳み込みとsgmoid関数によって各チャネルの重みを適応的に調整し、グローバルチャネルワイズレベルへの注意を導く。
MSTARデータセットの比較結果によると、EMC2A-Netは、同じタイプの既存のモデルよりも優れており、比較的軽量なネットワーク構造を持つ。
アブレーション実験の結果,EMC2Aモジュールは,少数のパラメータと適切なチャネル間相互作用を用いることで,モデルの性能を著しく向上することがわかった。 In recent years, convolutional neural networks (CNNs) have shown great potential in synthetic aperture radar (SAR) target recognition. SAR images have a strong sense of granularity and have different scales of texture features, such as speckle noise, target dominant scatterers and target contours, which are rarely considered in the traditional CNN model. This paper proposed two residual blocks, namely EMC2A blocks with multiscale receptive fields(RFs), based on a multibranch structure and then designed an efficient isotopic architecture deep CNN (DCNN), EMC2A-Net. EMC2A blocks utilize parallel dilated convolution with different dilation rates, which can effectively capture multiscale context features without significantly increasing the computational burden. To further improve the efficiency of multiscale feature fusion, this paper proposed a multiscale feature cross-channel attention module, namely the EMC2A module, adopting a local multiscale feature interaction strategy without dimensionality reduction. This strategy adaptively adjusts the weights of each channel through efficient one-dimensional (1D)-circular convolution and sigmoid function to guide attention at the global channel wise level. The comparative results on the MSTAR dataset show that EMC2A-Net outperforms the existing available models of the same type and has relatively lightweight network structure. The ablation experiment results show that the EMC2A module significantly improves the performance of the model by using only a few parameters and appropriate cross-channel interactions. | 翻訳日:2022-08-04 13:34:54 公開日:2022-08-03 |
# スマートウェアラブルモバイル技術における異常歩行検出のためのスマートフォンセンサの活用 Leveraging Smartphone Sensors for Detecting Abnormal Gait for Smart Wearable Mobile Technologies ( http://arxiv.org/abs/2208.01876v1 ) ライセンス: Link先を確認 | Md Shahriar Tasjid, Ahmed Al Marouf | (参考訳) 歩行は人間の地上移動の最も一般的な方法の1つである。
人間にとって歩くことは、ほとんどの日常的な活動を行うのに欠かせない。
人が歩くとき、その中にパターンがあり、歩行として知られている。
歩行分析はスポーツや医療で用いられる。
監視カメラが捉えたビデオや、実験室の奥行き画像カメラなど、さまざまな方法でこの歩行を分析します。
また、ウェアラブルセンサーで認識することもできる。
例えば加速度計、力センサー、ジャイロスコープ、フレキシブル・ゴニメーター、磁気抵抗センサー、電磁トラッキングシステム、力センサー、筋電図(EMG)などである。
センサーの分析にはラボの条件が必要だったり、ユーザーはセンサーを装着しなければならない。
ヒトの歩行動作の異常を検出するには、センサーを別々に組み込む必要がある。
健常者の健康状態は, 検出後, 異常な歩行によって把握できる。
通常の歩行と異常歩行の理解は、スマートウェアラブル技術を用いて被験者の健康状態に洞察を与える可能性がある。
そこで本研究では,スマートフォンセンサを用いた歩行異常の分析手法を提案する。
スマートフォンやスマートウォッチのようなスマートデバイスは、今ではほとんどの人が使っている。
そこで私たちは、インテリジェントなウェアラブルデバイスのセンサーを使って、彼らの歩行を追跡することができる。 Walking is one of the most common modes of terrestrial locomotion for humans. Walking is essential for humans to perform most kinds of daily activities. When a person walks, there is a pattern in it, and it is known as gait. Gait analysis is used in sports and healthcare. We can analyze this gait in different ways, like using video captured by the surveillance cameras or depth image cameras in the lab environment. It also can be recognized by wearable sensors. e.g., accelerometer, force sensors, gyroscope, flexible goniometer, magneto resistive sensors, electromagnetic tracking system, force sensors, and electromyography (EMG). Analysis through these sensors required a lab condition, or users must wear these sensors. For detecting abnormality in gait action of a human, we need to incorporate the sensors separately. We can know about one's health condition by abnormal human gait after detecting it. Understanding a regular gait vs. abnormal gait may give insights to the health condition of the subject using the smart wearable technologies. Therefore, in this paper, we proposed a way to analyze abnormal human gait through smartphone sensors. Though smart devices like smartphones and smartwatches are used by most of the person nowadays. So, we can track down their gait using sensors of these intelligent wearable devices. | 翻訳日:2022-08-04 13:28:34 公開日:2022-08-03 |
# 近似微分物理による映像からの物体操作スキルの学習 Learning Object Manipulation Skills from Video via Approximate Differentiable Physics ( http://arxiv.org/abs/2208.01960v1 ) ライセンス: Link先を確認 | Vladimir Petrik, Mohammad Nomaan Qureshi, Josef Sivic, Makarand Tapaswi | (参考訳) ロボットに単純なオブジェクト操作のタスクを1つのビデオデモで教えることを目的としている。
この目的に向けて,入力ビデオで示される動作を模倣するために,粗大かつ時間的に変化する3Dシーンを出力する最適化手法を提案する。
前の作品と同様、微分可能なレンダラは3dシーンと2dビデオの知覚的忠実性を保証する。
我々の重要な斬新さは、重力、摩擦、手対象またはオブジェクトの相互作用のような物理学のモデル法則を近似化できる、常微分方程式(ode)の集合を解くための微分可能なアプローチを含むことである。
これにより、推定手や物体の状態の質が劇的に向上するだけでなく、コストのかかる強化学習を必要とせずに直接ロボットに翻訳できる物理的に許容できる軌道も生成できる。
右から左へ引いたり,何かの前に何かを置くといった,9つのアクションから得られる54個のビデオデモからなる3次元再構成タスクに対するアプローチを評価した。
私たちのアプローチは,これまでの最先端技術よりも約30%向上し,何かを置くなど2つのオブジェクトの物理的相互作用を伴う特に困難なアクションにおいて,優れた品質を示している。
最後に、学習したスキルをFranka Emika Pandaロボットで披露する。 We aim to teach robots to perform simple object manipulation tasks by watching a single video demonstration. Towards this goal, we propose an optimization approach that outputs a coarse and temporally evolving 3D scene to mimic the action demonstrated in the input video. Similar to previous work, a differentiable renderer ensures perceptual fidelity between the 3D scene and the 2D video. Our key novelty lies in the inclusion of a differentiable approach to solve a set of Ordinary Differential Equations (ODEs) that allows us to approximately model laws of physics such as gravity, friction, and hand-object or object-object interactions. This not only enables us to dramatically improve the quality of estimated hand and object states, but also produces physically admissible trajectories that can be directly translated to a robot without the need for costly reinforcement learning. We evaluate our approach on a 3D reconstruction task that consists of 54 video demonstrations sourced from 9 actions such as pull something from right to left or put something in front of something. Our approach improves over previous state-of-the-art by almost 30%, demonstrating superior quality on especially challenging actions involving physical interactions of two objects such as put something onto something. Finally, we showcase the learned skills on a Franka Emika Panda robot. | 翻訳日:2022-08-04 13:28:19 公開日:2022-08-03 |
# ウェーブレット駆動生成モデルを用いた衛星画像における意味概念の教師なし発見 Unsupervised Discovery of Semantic Concepts in Satellite Imagery with Style-based Wavelet-driven Generative Models ( http://arxiv.org/abs/2208.02089v1 ) ライセンス: Link先を確認 | Nikos Kostagiolas, Mihalis A. Nicolaou, Yannis Panagakis | (参考訳) 近年、GAN(Generative Adversarial Networks)の分野では、モデリング能力とネットワーク解釈可能性の両方の観点から、特に多くの主要な欠点に対処するスタイルベースのアーキテクチャの出現によって、かなりの進歩が見られた。
これらの改良にもかかわらず、衛星画像の分野におけるそのようなアプローチの採用は単純ではない。
生成タスクで使用される典型的なビジョンデータセットは、アライン化され、注釈付けされ、限定的な可変性を示す。
対照的に、衛星画像は空間的、スペクトル的に大きな変動を示し、精細で高頻度な細部が存在する一方、衛星画像に注釈をつけるという面倒な性質は注釈不足につながる。
本報では,様々な設定や条件下で,多様な現実的な衛星画像を容易に合成し,高周波情報も保存できる,事前学習型およびウェーブレット型GANモデルを提案する。
さらに,ネットワークの中間的なアクティベーションを分析することで,衛星画像の高レベルな概念(都市化など)による合成を容易にする,解釈可能な多数の意味的方向を,何の監督も使わずに発見できることを示す。
定性的かつ定量的な実験のセットを用いて、下流タスク(例えば、データ拡張)の適性、合成画像の品質、および目に見えないデータセットへの一般化能力の観点から、我々のフレームワークの有効性を実証する。 In recent years, considerable advancements have been made in the area of Generative Adversarial Networks (GANs), particularly with the advent of style-based architectures that address many key shortcomings - both in terms of modeling capabilities and network interpretability. Despite these improvements, the adoption of such approaches in the domain of satellite imagery is not straightforward. Typical vision datasets used in generative tasks are well-aligned and annotated, and exhibit limited variability. In contrast, satellite imagery exhibits great spatial and spectral variability, wide presence of fine, high-frequency details, while the tedious nature of annotating satellite imagery leads to annotation scarcity - further motivating developments in unsupervised learning. In this light, we present the first pre-trained style- and wavelet-based GAN model that can readily synthesize a wide gamut of realistic satellite images in a variety of settings and conditions - while also preserving high-frequency information. Furthermore, we show that by analyzing the intermediate activations of our network, one can discover a multitude of interpretable semantic directions that facilitate the guided synthesis of satellite images in terms of high-level concepts (e.g., urbanization) without using any form of supervision. Via a set of qualitative and quantitative experiments we demonstrate the efficacy of our framework, in terms of suitability for downstream tasks (e.g., data augmentation), quality of synthetic imagery, as well as generalization capabilities to unseen datasets. | 翻訳日:2022-08-04 13:27:57 公開日:2022-08-03 |
# 多発性硬化症脳画像の主観的病変生成と擬似健康合成 Subject-Specific Lesion Generation and Pseudo-Healthy Synthesis for Multiple Sclerosis Brain Images ( http://arxiv.org/abs/2208.02135v1 ) ライセンス: Link先を確認 | Berke Doga Basaran, Mengyun Qiao, Paul M. Matthews, Wenjia Bai | (参考訳) 脳病変の強度特性を理解することは、神経研究における画像ベースのバイオマーカーを定義し、疾患の負担と結果を予測する鍵となる。
本研究では, 局所病変の特徴をモデル化し, 健全な画像に合成病変を発生させ, 病理像から対象特異的な擬似健康像を合成する手法を提案する。
さらに,提案手法は,脳画像セグメンテーションネットワークを訓練するための合成画像を生成するためのデータ拡張モジュールとして使用できる。
磁気共鳴画像(MRI)で得られた多発性硬化症(MS)脳画像の実験により,提案法は高現実的な擬似健康・擬似病理学的脳画像を生成することができることを示した。
合成画像を用いたデータ拡張は、従来のデータ拡張法や最近の病変認識データ拡張技術であるcarvemixに比べて脳画像分割性能が向上する。
コードはhttps://github.com/dogabasaran/lesion- synthesisでリリースされる。 Understanding the intensity characteristics of brain lesions is key for defining image-based biomarkers in neurological studies and for predicting disease burden and outcome. In this work, we present a novel foreground-based generative method for modelling the local lesion characteristics that can both generate synthetic lesions on healthy images and synthesize subject-specific pseudo-healthy images from pathological images. Furthermore, the proposed method can be used as a data augmentation module to generate synthetic images for training brain image segmentation networks. Experiments on multiple sclerosis (MS) brain images acquired on magnetic resonance imaging (MRI) demonstrate that the proposed method can generate highly realistic pseudo-healthy and pseudo-pathological brain images. Data augmentation using the synthetic images improves the brain image segmentation performance compared to traditional data augmentation methods as well as a recent lesion-aware data augmentation technique, CarveMix. The code will be released at https://github.com/dogabasaran/lesion-synthesis. | 翻訳日:2022-08-04 13:27:31 公開日:2022-08-03 |
# 部分微分方程式に対する量子誘起テンソルニューラルネットワーク Quantum-Inspired Tensor Neural Networks for Partial Differential Equations ( http://arxiv.org/abs/2208.02235v1 ) ライセンス: Link先を確認 | Raj Patel, Chia-Wei Hsing, Serkan Sahin, Saeed S. Jahromi, Samuel Palmer, Shivam Sharma, Christophe Michel, Vincent Porte, Mustafa Abid, Stephane Aubert, Pierre Castellani, Chi-Guhn Lee, Samuel Mugel, Roman Orus | (参考訳) 偏微分方程式 (pdes) は科学や工学において様々な力学系をモデル化するために用いられる。
近年のディープラーニングの進歩により,次元の呪いを新たな方法で解くことで,より高次元の解法が実現されている。
しかし,ディープラーニング手法は学習時間と記憶によって制約される。
これらの欠点に対処するために、深層学習アプローチを改善するためにTensor Networks(TNN)という量子インスパイアされたニューラルネットワークアーキテクチャを実装した。
従来型ニューラルネットワーク (dnn) と同等の精度を実現しつつ,tnnが重要なパラメータ節約をもたらすことを実証した。
さらに,同じ精度でTNNをDNNよりも高速に訓練できることを示す。
我々は、パラボリックPDE、特に金融価格理論で広く使われているブラック・スコルズ・バレンブラット方程式を解くためにTNNを適用してベンチマークを行い、DNNよりもTNNの利点を実証的に示す。
さらにハミルトン・ヤコビ・ベルマン方程式のような例も議論されている。 Partial Differential Equations (PDEs) are used to model a variety of dynamical systems in science and engineering. Recent advances in deep learning have enabled us to solve them in a higher dimension by addressing the curse of dimensionality in new ways. However, deep learning methods are constrained by training time and memory. To tackle these shortcomings, we implement Tensor Neural Networks (TNN), a quantum-inspired neural network architecture that leverages Tensor Network ideas to improve upon deep learning approaches. We demonstrate that TNN provide significant parameter savings while attaining the same accuracy as compared to the classical Dense Neural Network (DNN). In addition, we also show how TNN can be trained faster than DNN for the same accuracy. We benchmark TNN by applying them to solve parabolic PDEs, specifically the Black-Scholes-Barenblatt equation, widely used in financial pricing theory, empirically showing the advantages of TNN over DNN. Further examples, such as the Hamilton-Jacobi-Bellman equation, are also discussed. | 翻訳日:2022-08-04 13:26:52 公開日:2022-08-03 |
# バリアレスロボットコラボレーションのための視覚ベース安全システム Vision-Based Safety System for Barrierless Human-Robot Collaboration ( http://arxiv.org/abs/2208.02010v1 ) ライセンス: Link先を確認 | Lina Mar\'ia Amaya-Mej\'ia, Nicol\'as Duque-Su\'arez, Daniel Jaramillo-Ram\'irez, Carol Martinez | (参考訳) 産業用ロボットの近くで作業する場合、人間の安全が最優先事項だった。
人間-ロボット協調環境の台頭により、衝突を避ける物理的障壁は消失し、事故のリスクが増大し、安全な人間-ロボット協調を保証するソリューションの必要性が高まった。
本稿では,ssm(speed and separation monitoring)方式の運転を行う安全システムを提案する。
このため、安全ゾーンは、産業協力ロボットの現在の標準に従って、ロボットのワークスペース内で定義される。
ディープラーニングに基づくコンピュータビジョンシステムは、ロボットに近いオペレータの3D位置を検出し、追跡し、推定する。
ロボット制御システムは、オペレータの3D位置を受信し、シミュレーション環境でそれらの3D表現を生成する。
最寄りの操作者が検出されたゾーンに応じて、ロボットは動作速度を停止または変更する。
人間とロボットが相互作用する3つの異なる操作モードが提示される。
その結果,視覚ベースのシステムでは,オペレータが位置する安全領域を正しく検出し分類でき,異なる動作モードにより,ロボットの反応と停止時間が安全を保証するために必要な時間範囲内であることを保証できることがわかった。 Human safety has always been the main priority when working near an industrial robot. With the rise of Human-Robot Collaborative environments, physical barriers to avoiding collisions have been disappearing, increasing the risk of accidents and the need for solutions that ensure a safe Human-Robot Collaboration. This paper proposes a safety system that implements Speed and Separation Monitoring (SSM) type of operation. For this, safety zones are defined in the robot's workspace following current standards for industrial collaborative robots. A deep learning-based computer vision system detects, tracks, and estimates the 3D position of operators close to the robot. The robot control system receives the operator's 3D position and generates 3D representations of them in a simulation environment. Depending on the zone where the closest operator was detected, the robot stops or changes its operating speed. Three different operation modes in which the human and robot interact are presented. Results show that the vision-based system can correctly detect and classify in which safety zone an operator is located and that the different proposed operation modes ensure that the robot's reaction and stop time are within the required time limits to guarantee safety. | 翻訳日:2022-08-04 13:26:33 公開日:2022-08-03 |
# Tagalogテキストのトークン化、タグ付け、依存性解析のためのゼロショットおよび少数ショットアプローチのベンチマーク Benchmarking zero-shot and few-shot approaches for tokenization, tagging, and dependency parsing of Tagalog text ( http://arxiv.org/abs/2208.01814v1 ) ライセンス: Link先を確認 | Angelina Aquino and Franz de Leon | (参考訳) 人間の言語におけるテキストの文法解析には、トークン化、形態的タグ付け、依存解析など、多くの基本的な処理タスクが含まれる。
最先端のシステムは、大規模なデータセットを持つ言語において、これらのタスクにおいて高い精度を達成できるが、注釈付きデータを持たないtagalogのような言語では、結果が乏しい。
タガログ言語におけるこの問題に対処するために,注釈付きタガログデータがない場合のタスク固有モデル作成に補助的なデータソースを使用することを検討する。
また、少量の注釈付きtagalogデータしか利用できない場合のパフォーマンスを向上させるために、単語埋め込みとデータ拡張の利用についても検討する。
これらのゼロショットと少数ショットのアプローチは、最先端の教師付きベースラインと比較して、ドメイン内およびドメイン外タガログテキストの両方の文法解析において大幅に改善することを示している。 The grammatical analysis of texts in any human language typically involves a number of basic processing tasks, such as tokenization, morphological tagging, and dependency parsing. State-of-the-art systems can achieve high accuracy on these tasks for languages with large datasets, but yield poor results for languages such as Tagalog which have little to no annotated data. To address this issue for the Tagalog language, we investigate the use of auxiliary data sources for creating task-specific models in the absence of annotated Tagalog data. We also explore the use of word embeddings and data augmentation to improve performance when only a small amount of annotated Tagalog data is available. We show that these zero-shot and few-shot approaches yield substantial improvements on grammatical analysis of both in-domain and out-of-domain Tagalog text compared to state-of-the-art supervised baselines. | 翻訳日:2022-08-04 13:26:17 公開日:2022-08-03 |
# Effidit: あなたのAI記述アシスタント Effidit: Your AI Writing Assistant ( http://arxiv.org/abs/2208.01815v1 ) ライセンス: Link先を確認 | Shuming Shi, Enbo Zhao, Duyu Tang, Yan Wang, Piji Li, Wei Bi, Haiyun Jiang, Guoping Huang, Leyang Cui, Xinting Huang, Cong Zhou, Yong Dai, Dongyang Ma | (参考訳) 本稿では,人工知能(AI)技術を用いて,高品質なテキストをより効率的に書けるようにするためのデジタルライティングアシスタントであるEffidit (Efficient and Intelligent Editing)を紹介する。
従来の筆記アシスタントは、エラーチェック(綴りと文法上の誤りの検出と訂正)やテキスト書き換えの機能に制限がある。
大規模ニューラルネットワークモデルが出現すると、一部のシステムは文や段落を自動的に補完する。
Effiditでは,テキスト補完,エラーチェック,テキスト研磨,キーワード・トゥ・センテンス(K2S),クラウド・インプット・メソッド(クラウドIME)の5つのカテゴリで機能を提供することで,文章アシスタントの能力を大幅に拡張する。
テキスト補完カテゴリでは、Effiditは生成ベースの文補完、検索ベースの文補完、フレーズ補完をサポートする。
対照的に、他の多くの筆記アシスタントは、3つの関数のうち1つまたは2つしか提供していない。
テキストの研磨には3つの機能がある: (context-aware) phrase polishing, sentence paraphrasing, sentence expansion, その他多くの筆記アシスタントは、このカテゴリの1つまたは2つの機能をサポートしている。
本報告の主な内容は,effiditの主要モジュール,これらのモジュールの実装方法,いくつかの主要なメソッドの評価結果などである。 In this technical report, we introduce Effidit (Efficient and Intelligent Editing), a digital writing assistant that facilitates users to write higher-quality text more efficiently by using artificial intelligence (AI) technologies. Previous writing assistants typically provide the function of error checking (to detect and correct spelling and grammatical errors) and limited text-rewriting functionality. With the emergence of large-scale neural language models, some systems support automatically completing a sentence or a paragraph. In Effidit, we significantly expand the capacities of a writing assistant by providing functions in five categories: text completion, error checking, text polishing, keywords to sentences (K2S), and cloud input methods (cloud IME). In the text completion category, Effidit supports generation-based sentence completion, retrieval-based sentence completion, and phrase completion. In contrast, many other writing assistants so far only provide one or two of the three functions. For text polishing, we have three functions: (context-aware) phrase polishing, sentence paraphrasing, and sentence expansion, whereas many other writing assistants often support one or two functions in this category. The main contents of this report include major modules of Effidit, methods for implementing these modules, and evaluation results of some key methods. | 翻訳日:2022-08-04 13:25:59 公開日:2022-08-03 |
# BEREL: Rabbinic-Encoded言語のためのBERT埋め込み Introducing BEREL: BERT Embeddings for Rabbinic-Encoded Language ( http://arxiv.org/abs/2208.01875v1 ) ライセンス: Link先を確認 | Avi Shmidman, Joshua Guedalia, Shaltiel Shmidman, Cheyn Shmuel Shmidman, Eli Handel, Moshe Koppel | (参考訳) 本稿では,Belel(BERT Embeddings for Rabbinic-Encoded Language)と呼ばれる,Rabinic Hebrewのための事前学習型言語モデル(PLM)を提案する。
他の PLM はヘブライ語のテキスト(例えば HeBERT や AlephBert など)を処理するために存在するが、これらは全て現代のヘブライ語のテキストで訓練されている。
我々は、ヘブライ語ホモグラフの挑戦集合を通して、ラビ語文におけるベレルの優越性を実証する。
制約のない使用のために、新しいモデルとホモグラフチャレンジセットをリリースします。 We present a new pre-trained language model (PLM) for Rabbinic Hebrew, termed Berel (BERT Embeddings for Rabbinic-Encoded Language). Whilst other PLMs exist for processing Hebrew texts (e.g., HeBERT, AlephBert), they are all trained on modern Hebrew texts, which diverges substantially from Rabbinic Hebrew in terms of its lexicographical, morphological, syntactic and orthographic norms. We demonstrate the superiority of Berel on Rabbinic texts via a challenge set of Hebrew homographs. We release the new model and homograph challenge set for unrestricted use. | 翻訳日:2022-08-04 13:25:34 公開日:2022-08-03 |
# データ指向型原子炉事故診断システムのためのポストホック解釈性に基づくパラメータ選択 Post-hoc Interpretability based Parameter Selection for Data Oriented Nuclear Reactor Accident Diagnosis System ( http://arxiv.org/abs/2208.01805v1 ) ライセンス: Link先を確認 | Chengyuan Li. Meifu Li, Zhifang Qiu | (参考訳) データ指向診断システムを適用して原子力発電所初期事象の重大度を識別し評価する場合、システム入力として使用するパラメータを決定することが重要となる。
しかし,いくつかの診断システムは診断精度と速度において既に許容できる性能を達成しているが,研究者らは点選択の方法とそのレイアウトについてはほとんど議論していない。
このため、冗長な測定データが診断モデルのトレーニングに使用され、分類の不確実性が高く、トレーニング時間の増加、トレーニング中のオーバーフィットの確率が高くなる。
本研究では, 深層学習におけるポストホック解釈可能性理論を用いて, 原子力発電所の熱水理パラメータを選択する手法を提案する。
はじめに新しい時間系列残差畳み込みニューラルネットワーク(tres-cnn)診断モデルを導入し,hpr1000で手動で選択した38個のパラメータを用いてlocaのブレークの位置と流体力学的径を同定した。
その後、診断モデルの出力の属性を評価し、LOCAの詳細な診断において、どのパラメータがより決定的かを決定する。
その結果, TRES-CNN を用いた診断モデルでは, HPR1000 の選択した15 個のパラメータを用いて, LOCA の破断位置と大きさを予測し, 25% の時間消費を予測できることがわかった。
さらに、相対的診断精度誤差は、経験的に選択されたパラメータを用いたモデルと比較して1.5パーセント以内であり、診断信頼性の同じ値と見なすことができる。 During applying data-oriented diagnosis systems to distinguishing the type of and evaluating the severity of nuclear power plant initial events, it is of vital importance to decide which parameters to be used as the system input. However, although several diagnosis systems have already achieved acceptable performance in diagnosis precision and speed, hardly have the researchers discussed the method of monitoring point choosing and its layout. For this reason, redundant measuring data are used to train the diagnostic model, leading to high uncertainty of the classification, extra training time consumption, and higher probability of overfitting while training. In this study, a method of choosing thermal hydraulics parameters of a nuclear power plant is proposed, using the theory of post-hoc interpretability theory in deep learning. At the start, a novel Time-sequential Residual Convolutional Neural Network (TRES-CNN) diagnosis model is introduced to identify the position and hydrodynamic diameter of breaks in LOCA, using 38 parameters manually chosen on HPR1000 empirically. Afterwards, post-hoc interpretability methods are applied to evaluate the attributions of diagnosis model's outputs, deciding which 15 parameters to be more decisive in diagnosing LOCA details. The results show that the TRES-CNN based diagnostic model successfully predicts the position and size of breaks in LOCA via selected 15 parameters of HPR1000, with 25% of time consumption while training the model compared the process using total 38 parameters. In addition, the relative diagnostic accuracy error is within 1.5 percent compared with the model using parameters chosen empirically, which can be regarded as the same amount of diagnostic reliability. | 翻訳日:2022-08-04 13:22:16 公開日:2022-08-03 |
# sdnのための深層学習を用いたネットワーク侵入検知システムへの新しいアプローチ:未来的アプローチ A Novel Approach To Network Intrusion Detection System Using Deep Learning For Sdn: Futuristic Approach ( http://arxiv.org/abs/2208.02094v1 ) ライセンス: Link先を確認 | Mhmood Radhi Hadi, Adnan Saher Mohammed | (参考訳) Software-Defined Networking (SDN)は、従来のネットワークのアーキテクチャを変更する次世代である。
SDNは、インターネットネットワークのアーキテクチャを変えるための有望なソリューションの1つです。
SDNアーキテクチャの集中的な性質により、攻撃はより一般的になる。
sdnのセキュリティを提供するのが不可欠です。
本研究では,SDN の文脈におけるネットワーク侵入検出システム-深層学習モジュール (NIDS-DL) のアプローチを提案する。
提案手法は,ネットワーク侵入検知システム(NIDS)と多種多様なディープラーニングアルゴリズムを組み合わせる。
提案手法では,NSL-KDDデータセットの41の特徴から抽出した12の特徴を特徴選択法を用いて採用する。
我々は分類器(CNN, DNN, RNN, LSTM, GRU)を採用した。
分類器のスコアを比較すると, 精度は98.63%, 98.53%, 98.13%, 98.04%, 97.78%であった。
新たなアプローチ(nids-dl)の目新しさは、5つのディープラーニング分類器を使用して、最高の結果を得るためにデータセットを前処理することです。
提案手法はバイナリ分類と攻撃検出に成功し,将来的にはNIDS-DL(NIDS-DL)が有効である可能性が示唆された。 Software-Defined Networking (SDN) is the next generation to change the architecture of traditional networks. SDN is one of the promising solutions to change the architecture of internet networks. Attacks become more common due to the centralized nature of SDN architecture. It is vital to provide security for the SDN. In this study, we propose a Network Intrusion Detection System-Deep Learning module (NIDS-DL) approach in the context of SDN. Our suggested method combines Network Intrusion Detection Systems (NIDS) with many types of deep learning algorithms. Our approach employs 12 features extracted from 41 features in the NSL-KDD dataset using a feature selection method. We employed classifiers (CNN, DNN, RNN, LSTM, and GRU). When we compare classifier scores, our technique produced accuracy results of (98.63%, 98.53%, 98.13%, 98.04%, and 97.78%) respectively. The novelty of our new approach (NIDS-DL) uses 5 deep learning classifiers and made pre-processing dataset to harvests the best results. Our proposed approach was successful in binary classification and detecting attacks, implying that our approach (NIDS-DL) might be used with great efficiency in the future. | 翻訳日:2022-08-04 13:21:44 公開日:2022-08-03 |
# 潜在表現空間におけるマルチモーダルセンサ融合 Multimodal sensor fusion in the latent representation space ( http://arxiv.org/abs/2208.02183v1 ) ライセンス: Link先を確認 | Robert J. Piechocki, Xiaoyang Wang, Mohammud J. Bocus | (参考訳) マルチモーダルセンサ融合のための新しい手法を提案する。
この技術は2段階のプロセスに依存している。
第1段階では、未学習のトレーニングデータからマルチモーダル生成モデルを構築する。
第2段階では、生成モデルは、センサ融合タスクの事前再構成および探索多様体として機能する。
この方法は、サブサンプリング、すなわち圧縮センシングを通じてのみ観測がアクセスされる場合も扱う。
本研究は,マルチセンサ分類,デノナイジング,サブサンプリング観測からの回復などの多モード核融合実験における有効性と優れた性能を示す。 A new method for multimodal sensor fusion is introduced. The technique relies on a two-stage process. In the first stage, a multimodal generative model is constructed from unlabelled training data. In the second stage, the generative model serves as a reconstruction prior and the search manifold for the sensor fusion tasks. The method also handles cases where observations are accessed only via subsampling i.e. compressed sensing. We demonstrate the effectiveness and excellent performance on a range of multimodal fusion experiments such as multisensory classification, denoising, and recovery from subsampled observations. | 翻訳日:2022-08-04 13:21:27 公開日:2022-08-03 |
# 共変量シフト下における線形回帰の事前学習のパワーと限界 The Power and Limitation of Pretraining-Finetuning for Linear Regression under Covariate Shift ( http://arxiv.org/abs/2208.01857v1 ) ライセンス: Link先を確認 | Jingfeng Wu and Difan Zou and Vladimir Braverman and Quanquan Gu and Sham M. Kakade | (参考訳) 共変量シフト下での線形回帰について検討し,入力共変量に対する限界分布は源領域と対象領域で異なるが,入力共変量に対する出力の条件分布は2つの領域にまたがる。
そこで本稿では,本問題のターゲットデータ(オンラインSGD)に基づいて,ソースデータとファインタニングを事前学習したトランスファーラーニング手法について検討する。
このアプローチに対して、鋭いインスタンス依存過剰リスクを上および下限に設定する。
我々の限界は、大規模な線形回帰インスタンスの場合、$O(N^2)$ソースデータによる転送学習は、$N$ターゲットデータによる教師あり学習と同じくらい効果的であることを示している。
さらに,少量のターゲットデータであっても,事前トレーニングに必要なソースデータ量を大幅に削減できることを示す。
我々の理論は,事前学習の有効性と限界,および共変量シフト問題に取り組むための微調整の利点を浮き彫りにしている。 We study linear regression under covariate shift, where the marginal distribution over the input covariates differs in the source and the target domains, while the conditional distribution of the output given the input covariates is similar across the two domains. We investigate a transfer learning approach with pretraining on the source data and finetuning based on the target data (both conducted by online SGD) for this problem. We establish sharp instance-dependent excess risk upper and lower bounds for this approach. Our bounds suggest that for a large class of linear regression instances, transfer learning with $O(N^2)$ source data (and scarce or no target data) is as effective as supervised learning with $N$ target data. In addition, we show that finetuning, even with only a small amount of target data, could drastically reduce the amount of source data required by pretraining. Our theory sheds light on the effectiveness and limitation of pretraining as well as the benefits of finetuning for tackling covariate shift problems. | 翻訳日:2022-08-04 13:20:57 公開日:2022-08-03 |
# 自己監督型表現学習による多機能視覚変換器による新型コロナウイルス診断の改善 Multi-Feature Vision Transformer via Self-Supervised Representation Learning for Improvement of COVID-19 Diagnosis ( http://arxiv.org/abs/2208.01843v1 ) ライセンス: Link先を確認 | Xiao Qi, David J. Foran, John L. Nosher, Ilker Hacihaliloglu | (参考訳) 胸部X線画像(CXR)の役割は、コスト効率が高く、広く利用でき、CTと比較してより速い取得時間を持つため、COVID-19パンデミックの間に進化してきた。
CXR画像の診断性能を向上させるために,教師付き深層学習法がさらなる支援に役立つかどうかを検討した。
しかし、監督された方法は多数のラベル付き放射線画像に依存しており、専門的な臨床医の入力を必要とする時間的かつ複雑な手順である。
新型コロナウイルス患者データの相対的不足と、コストのかかるラベル付けプロセスにより、自己教師付き学習法が勢いを増し、完全に教師付き学習法に匹敵する結果が提案されている。
本研究では,cxr画像から新型コロナウイルスの診断における自己教師あり学習の有効性について検討した。
我々は、元のCXR画像とそれに対応する拡張ローカル位相CXR画像から情報を学ぶためのクロスアテンション機構をデプロイする多機能ビジョントランスフォーマー(ViT)ガイドアーキテクチャを提案する。
局所位相に基づく拡張CXR画像を活用することで,ベースライン自己教師学習モデルの性能をさらに向上できることを示す。
10\%のラベル付きCXRスキャンを用いて、健康(8,851)、レギュラー肺炎(6,045)、COVID-19(18,159)の合計35,483枚のCXR画像に対して、91.10\%と96.21\%の総合精度を達成し、最先端技術よりも大幅に改善した。
コードはhttps://github.com/endiqq/Multi-Feature-ViTで入手できる。 The role of chest X-ray (CXR) imaging, due to being more cost-effective, widely available, and having a faster acquisition time compared to CT, has evolved during the COVID-19 pandemic. To improve the diagnostic performance of CXR imaging a growing number of studies have investigated whether supervised deep learning methods can provide additional support. However, supervised methods rely on a large number of labeled radiology images, which is a time-consuming and complex procedure requiring expert clinician input. Due to the relative scarcity of COVID-19 patient data and the costly labeling process, self-supervised learning methods have gained momentum and has been proposed achieving comparable results to fully supervised learning approaches. In this work, we study the effectiveness of self-supervised learning in the context of diagnosing COVID-19 disease from CXR images. We propose a multi-feature Vision Transformer (ViT) guided architecture where we deploy a cross-attention mechanism to learn information from both original CXR images and corresponding enhanced local phase CXR images. We demonstrate the performance of the baseline self-supervised learning models can be further improved by leveraging the local phase-based enhanced CXR images. By using 10\% labeled CXR scans, the proposed model achieves 91.10\% and 96.21\% overall accuracy tested on total 35,483 CXR images of healthy (8,851), regular pneumonia (6,045), and COVID-19 (18,159) scans and shows significant improvement over state-of-the-art techniques. Code is available https://github.com/endiqq/Multi-Feature-ViT | 翻訳日:2022-08-04 13:20:10 公開日:2022-08-03 |
# polarmot: 幾何学的関係が3dマルチオブジェクト追跡にどの程度役立つか? PolarMOT: How Far Can Geometric Relations Take Us in 3D Multi-Object Tracking? ( http://arxiv.org/abs/2208.01957v1 ) ライセンス: Link先を確認 | Aleksandr Kim (1), Guillem Bras\'o (1), Aljo\v{s}a O\v{s}ep (1), Laura Leal-Taix\'e (1) ((1) Technical University of Munich) | (参考訳) ほとんどの(3d)マルチオブジェクト追跡手法は、データアソシエーションのための外観に基づくヒントに依存している。
対照的に, 3次元空間内の物体間の幾何学的関係をデータ駆動型データアソシエーションの手がかりとしてエンコードすることで, どこまで到達できるかを検討する。
グラフのノードとして3D検出を符号化し、グラフエッジ上の局所極座標を用いてオブジェクト間の空間的および時間的対関係を符号化する。
この表現は、我々の幾何学的関係を大域的な変換や滑らかな軌道変化、特に非ホロノミック運動に不変にする。
これにより、グラフニューラルネットワークは、時間的および空間的相互作用を効果的にエンコードし、文脈的および動き的手がかりを十分に活用し、エッジ分類としてデータアソシエーションをポーズすることで最終的なシーン解釈を得ることができる。
我々はnuScenesデータセット上に新たな最先端のデータセットを構築し、さらに重要なことは、私たちの手法であるPolarMOTが、Boston、シンガポール、カールスルーエ)とデータセット(nuScenes、KITTI)の異なる場所にわたって驚くほどよく一般化されていることを示している。 Most (3D) multi-object tracking methods rely on appearance-based cues for data association. By contrast, we investigate how far we can get by only encoding geometric relationships between objects in 3D space as cues for data-driven data association. We encode 3D detections as nodes in a graph, where spatial and temporal pairwise relations among objects are encoded via localized polar coordinates on graph edges. This representation makes our geometric relations invariant to global transformations and smooth trajectory changes, especially under non-holonomic motion. This allows our graph neural network to learn to effectively encode temporal and spatial interactions and fully leverage contextual and motion cues to obtain final scene interpretation by posing data association as edge classification. We establish a new state-of-the-art on nuScenes dataset and, more importantly, show that our method, PolarMOT, generalizes remarkably well across different locations (Boston, Singapore, Karlsruhe) and datasets (nuScenes and KITTI). | 翻訳日:2022-08-04 13:16:34 公開日:2022-08-03 |
# 効率的なdet検出器を用いた微視的画像中の寄生卵の局在と分類 Localization and Classification of Parasitic Eggs in Microscopic Images Using an EfficientDet Detector ( http://arxiv.org/abs/2208.01963v1 ) ライセンス: Link先を確認 | Nouar AlDahoul (1), Hezerul Abdul Karim (1), Shaira Limson Kee (2), Myles Joshua Toledo Tan (2 and 3) ((1) Faculty of Engineering, Multimedia University, Cyberjaya, Malaysia, (2) Department of Natural Sciences, University of St. La Salle, Bacolod City, Philippines, (3) Department of Chemical Engineering, University of St. La Salle, Bacolod City, Philippines) | (参考訳) 原生動物と寄生虫によるIPIは、LMICのヒトにおいて最も多い感染症である。
それらは多くの有害な健康状態を引き起こすため、深刻な公衆衛生上の懸念と見なされている。
研究者たちは、顕微鏡画像中の寄生虫卵の自動識別のためのパターン認識技術を開発している。
既存のソリューションは、診断エラーを減らし、高速で効率的で正確な結果を生成するために改善が必要である。
本稿では,寄生卵を局在化し,11のカテゴリに分類するマルチモーダル学習検出器を提案する。
実験は、EfficientNet-v2バックボーンとEfficientNet-B7+SVMでEfficientDetモデルをトレーニングするために使用された新しいChula-ParasiteEgg-11データセットで実施された。
データセットには11のカテゴリから11,000の微視的トレーニングイメージがある。
その結果,92%の精度で頑健な成績を示し,F1スコアは93%であった。
さらに、IOU分布は検出器の高位置化能力を示す。 IPIs caused by protozoan and helminth parasites are among the most common infections in humans in LMICs. They are regarded as a severe public health concern, as they cause a wide array of potentially detrimental health conditions. Researchers have been developing pattern recognition techniques for the automatic identification of parasite eggs in microscopic images. Existing solutions still need improvements to reduce diagnostic errors and generate fast, efficient, and accurate results. Our paper addresses this and proposes a multi-modal learning detector to localize parasitic eggs and categorize them into 11 categories. The experiments were conducted on the novel Chula-ParasiteEgg-11 dataset that was used to train both EfficientDet model with EfficientNet-v2 backbone and EfficientNet-B7+SVM. The dataset has 11,000 microscopic training images from 11 categories. Our results show robust performance with an accuracy of 92%, and an F1 score of 93%. Additionally, the IOU distribution illustrates the high localization capability of the detector. | 翻訳日:2022-08-04 13:16:13 公開日:2022-08-03 |
# オンライン診断最小化による適応的ドメイン一般化 Adaptive Domain Generalization via Online Disagreement Minimization ( http://arxiv.org/abs/2208.01996v1 ) ライセンス: Link先を確認 | Xin Zhang, Ying-Cong Chen | (参考訳) ディープニューラルネットワークは、デプロイメントとトレーニングの間に分散シフトがある場合、パフォーマンスが著しく低下する。
ドメインジェネリゼーション(dg)は、ソースドメインの集合のみに依存することによって、モデルをターゲットドメインに安全に転送することを目的としている。
様々なDGアプローチが提案されているが、DomainBedという最近の研究によると、そのほとんどは単純な経験的リスク最小化(ERM)に勝っていない。
そこで本研究では,既存のDGアルゴリズムに直交する汎用フレームワークを提案する。
従来のdgと異なり、静的なソースモデルに固執して普遍的であることを願っているが、提案するadaodmは、異なるターゲットドメインのテスト時にソースモデルを適応的に修正する。
具体的には、共有ドメインジェネリック特徴抽出器上に複数のドメイン固有の分類器を作成する。
特徴抽出器と分類器は、その特徴抽出器が入力サンプルをドメイン不変空間に埋め込み、複数の分類器がそれぞれが特定のソースドメインに関連する決定境界をキャプチャする逆方向で訓練される。
テスト中、ソース分類器間の予測不一致を利用して、ターゲットドメインとソースドメインの分布差を効果的に測定できる。
テスト時に不一致を最小限に抑えるためにソースモデルを微調整することで、ターゲットドメイン機能は不変機能空間とよく一致します。
AdaODMは、EMMとCORALという2つの一般的なDG手法と、VLCS、PACS、OfficeHome、TerraIncognitaという4つのDGベンチマークで検証する。
その結果, adaodm は未認識領域の一般化能力を安定的に改善し, 最先端の性能を実現する。 Deep neural networks suffer from significant performance deterioration when there exists distribution shift between deployment and training. Domain Generalization (DG) aims to safely transfer a model to unseen target domains by only relying on a set of source domains. Although various DG approaches have been proposed, a recent study named DomainBed, reveals that most of them do not beat the simple Empirical Risk Minimization (ERM). To this end, we propose a general framework that is orthogonal to existing DG algorithms and could improve their performance consistently. Unlike previous DG works that stake on a static source model to be hopefully a universal one, our proposed AdaODM adaptively modifies the source model at test time for different target domains. Specifically, we create multiple domain-specific classifiers upon a shared domain-generic feature extractor. The feature extractor and classifiers are trained in an adversarial way, where the feature extractor embeds the input samples into a domain-invariant space, and the multiple classifiers capture the distinct decision boundaries that each of them relates to a specific source domain. During testing, distribution differences between target and source domains could be effectively measured by leveraging prediction disagreement among source classifiers. By fine-tuning source models to minimize the disagreement at test time, target domain features are well aligned to the invariant feature space. We verify AdaODM on two popular DG methods, namely ERM and CORAL, and four DG benchmarks, namely VLCS, PACS, OfficeHome, and TerraIncognita. The results show AdaODM stably improves the generalization capacity on unseen domains and achieves state-of-the-art performance. | 翻訳日:2022-08-04 13:15:55 公開日:2022-08-03 |
# 少ないデータでパフォーマンスを維持する Maintaining Performance with Less Data ( http://arxiv.org/abs/2208.02007v1 ) ライセンス: Link先を確認 | Dominic Sanderson, Tatiana Kalgonova | (参考訳) 本稿では,ニューラルネットワークモデルの学習コストを削減するために,画像分類のためのニューラルネットワークのトレーニング手法を提案する。
ディープラーニングタスクが普及するにつれて、その計算複雑性が増大し、より複雑なアルゴリズムや、より長いランタイムを持ち、より多くの入力データを必要とするモデルが生まれる。
その結果、時間、ハードウェア、環境資源のコストが増大する。
データ削減技術を用いることで、作業量を削減し、AI技術の環境への影響を低減し、動的データ削減により、ランタイムを最大50%削減し、炭素排出量を比例的に削減しながら精度を維持することができることを示す。 We propose a novel method for training a neural network for image classification to reduce input data dynamically, in order to reduce the costs of training a neural network model. As Deep Learning tasks become more popular, their computational complexity increases, leading to more intricate algorithms and models which have longer runtimes and require more input data. The result is a greater cost on time, hardware, and environmental resources. By using data reduction techniques, we reduce the amount of work performed, and therefore the environmental impact of AI techniques, and with dynamic data reduction we show that accuracy may be maintained while reducing runtime by up to 50%, and reducing carbon emission proportionally. | 翻訳日:2022-08-04 13:15:27 公開日:2022-08-03 |
# 自己監督ベクトル化による文字生成 Character Generation through Self-Supervised Vectorization ( http://arxiv.org/abs/2208.02012v1 ) ライセンス: Link先を確認 | Gokcen Gokceoglu and Emre Akbas | (参考訳) 自己教師付き画像生成における一般的なアプローチは、ピクセルレベルの表現を操作することである。
このアプローチは高品質な画像を生成することができるが、ベクトル化の単純さと本質の恩恵を受けることはできない。
本稿では,画像のストロークレベル表現で動作する描画エージェントを提案する。
各時間ステップで、エージェントはまず現在のキャンバスを評価し、停止するか、描画を維持するかを決定する。
ドロー」が決定されると、エージェントは、描画するストロークを示すプログラムを出力する。
その結果、キャンバス上にストロークを描画し、最小数のストロークを用いて、いつ停止するかを動的に決定し、最終的なラスタ画像を生成する。
mnistとomniglotデータセットの強化学習を通じてエージェントを訓練し,無条件生成と解析(再構築)を行う。
我々は,Omniglot Challengeにおける模範生成と型条件付き概念生成に解析エージェントを利用する。
3世代すべてのタスクと解析タスクで成功した結果を示す。
重要なのは、ストロークレベルやベクトルの監督は必要ありません。トレーニングにはrasterイメージのみを使用します。 The prevalent approach in self-supervised image generation is to operate on pixel level representations. While this approach can produce high quality images, it cannot benefit from the simplicity and innate quality of vectorization. Here we present a drawing agent that operates on stroke-level representation of images. At each time step, the agent first assesses the current canvas and decides whether to stop or keep drawing. When a 'draw' decision is made, the agent outputs a program indicating the stroke to be drawn. As a result, it produces a final raster image by drawing the strokes on a canvas, using a minimal number of strokes and dynamically deciding when to stop. We train our agent through reinforcement learning on MNIST and Omniglot datasets for unconditional generation and parsing (reconstruction) tasks. We utilize our parsing agent for exemplar generation and type conditioned concept generation in Omniglot challenge without any further training. We present successful results on all three generation tasks and the parsing task. Crucially, we do not need any stroke-level or vector supervision; we only use raster images for training. | 翻訳日:2022-08-04 13:15:15 公開日:2022-08-03 |
# エッジ型半教師ド・マイズショット・イメージセルセグメンテーションのための自己スーパービジョン Edge-Based Self-Supervision for Semi-Supervised Few-Shot Microscopy Image Cell Segmentation ( http://arxiv.org/abs/2208.02105v1 ) ライセンス: Link先を確認 | Youssef Dawoud, Katharina Ernst, Gustavo Carneiro, Vasileios Belagiannis | (参考訳) ディープニューラルネットワークは現在、顕微鏡による画像セルのセグメンテーションに有望な結果を提供しているが、大規模にラベル付けされたデータベースが必要である。
本研究では,自己教師あり学習と半教師あり学習を組み合わせることでラベル付け要件を緩和する。
そこで本研究では,未ラベル画像の自己教師あり学習のためのエッジベースマップの予測と,少数のラベル画像の教師あり学習とを組み合わせることにより,セグメンテーションタスクを学習する。
実験では,数ショットの顕微鏡画像セルセグメンテーションベンチマークで評価し,最初のトレーニングセットの10%など,少数のアノテートされた画像だけが,1~10ショットの完全アノテートされたデータベースと同様のパフォーマンスに達するには十分であることを示す。
私たちのコードとトレーニングされたモデルは公開されています Deep neural networks currently deliver promising results for microscopy image cell segmentation, but they require large-scale labelled databases, which is a costly and time-consuming process. In this work, we relax the labelling requirement by combining self-supervised with semi-supervised learning. We propose the prediction of edge-based maps for self-supervising the training of the unlabelled images, which is combined with the supervised training of a small number of labelled images for learning the segmentation task. In our experiments, we evaluate on a few-shot microscopy image cell segmentation benchmark and show that only a small number of annotated images, e.g. 10% of the original training set, is enough for our approach to reach similar performance as with the fully annotated databases on 1- to 10-shots. Our code and trained models is made publicly available | 翻訳日:2022-08-04 13:14:59 公開日:2022-08-03 |
# カントンニューラル音声合成におけるイントネーションのモデル化に関する研究 A Study of Modeling Rising Intonation in Cantonese Neural Speech Synthesis ( http://arxiv.org/abs/2208.02189v1 ) ライセンス: Link先を確認 | Qibing Bai, Tom Ko, Yu Zhang | (参考訳) 人間の発話では、話者の態度はテキストの内容だけでは完全には表現できない。
それはイントネーションに従わなければならない。
宣言的な質問は毎日のカントン会話でよく使われ、通常はイントネーションの上昇と共に発声される。
バニラニューラル・テキスト・ツー・スパイチ(vanilla neural text-to-speech, tts)システムは、意味情報の喪失によりこれらの文の上昇イントネーションを合成できない。
余分な言語モデルでシステムを補完することが一般的になったが、そのモデリングにおける性能は十分に研究されていない。
本稿では, BERTに基づく文/問合せ分類器を用いて, カントンTSモデルを補完することを提案する。
私たちは異なるトレーニング戦略を設計し、パフォーマンスを比較します。
我々はカントン語コーパスcanttsを用いて実験を行った。
実験結果から,分離学習アプローチは最良の一般化性能と実現性が得られることが示された。 In human speech, the attitude of a speaker cannot be fully expressed only by the textual content. It has to come along with the intonation. Declarative questions are commonly used in daily Cantonese conversations, and they are usually uttered with rising intonation. Vanilla neural text-to-speech (TTS) systems are not capable of synthesizing rising intonation for these sentences due to the loss of semantic information. Though it has become more common to complement the systems with extra language models, their performance in modeling rising intonation is not well studied. In this paper, we propose to complement the Cantonese TTS model with a BERT-based statement/question classifier. We design different training strategies and compare their performance. We conduct our experiments on a Cantonese corpus named CanTTS. Empirical results show that the separate training approach obtains the best generalization performance and feasibility. | 翻訳日:2022-08-04 13:14:15 公開日:2022-08-03 |
# 患者から見たドイツ語の逆薬物反応検出のための言語横断的アプローチ Cross-lingual Approaches for the Detection of Adverse Drug Reactions in German from a Patient's Perspective ( http://arxiv.org/abs/2208.02031v1 ) ライセンス: Link先を確認 | Lisa Raithel, Philippe Thomas, Roland Roller, Oliver Sapina, Sebastian M\"oller, Pierre Zweigenbaum | (参考訳) 本研究では,患者生成コンテンツ中のドイツ逆薬物反応(ADR)検出のための最初のコーパスを提示する。
データはドイツの患者フォーラムから4,169件の注釈付き文書からなり、ユーザーは健康問題について話し、医師からアドバイスを受ける。
このドメインのソーシャルメディアデータでよく見られるように、コーパスのクラスラベルは非常に不均衡である。
これと高い話題の不均衡は、しばしば同じ症状がいくつかの原因を持ち、常に薬物摂取と関連しているとは限らないため、非常に難しいデータセットである。
我々は、ADR検出領域におけるさらなる多言語的取り組みを奨励し、多言語モデルに基づくゼロおよび少数ショット学習の異なる手法を用いてバイナリ分類のための予備実験を行う。
XLM-RoBERTaを英語の患者フォーラムデータとドイツ語のデータに基づいて微調整すると、正のクラスで37.52のF1スコアが得られる。
データセットとモデルをコミュニティ向けに公開しています。 In this work, we present the first corpus for German Adverse Drug Reaction (ADR) detection in patient-generated content. The data consists of 4,169 binary annotated documents from a German patient forum, where users talk about health issues and get advice from medical doctors. As is common in social media data in this domain, the class labels of the corpus are very imbalanced. This and a high topic imbalance make it a very challenging dataset, since often, the same symptom can have several causes and is not always related to a medication intake. We aim to encourage further multi-lingual efforts in the domain of ADR detection and provide preliminary experiments for binary classification using different methods of zero- and few-shot learning based on a multi-lingual model. When fine-tuning XLM-RoBERTa first on English patient forum data and then on the new German data, we achieve an F1-score of 37.52 for the positive class. We make the dataset and models publicly available for the community. | 翻訳日:2022-08-04 13:11:20 公開日:2022-08-03 |
# 学習者による圧縮言語モデルの効率的な微調整 Efficient Fine-Tuning of Compressed Language Models with Learners ( http://arxiv.org/abs/2208.02070v1 ) ライセンス: Link先を確認 | Danilo Vucetic, Mohammadreza Tayaranian, Maryam Ziaeefard, James J. Clark, Brett H. Meyer, Warren J. Gross | (参考訳) 細調整のBERTベースのモデルは、メモリ、計算、時間に資源が集中している。
多くの先行研究は、例えばpruningのような圧縮技術による推論効率の向上を目標としているが、これらの研究は、下流タスクへのトレーニングの計算上の課題を明示的に扱っていない。
本稿では,事前学習した言語モデルの過度パラメータ化を利用して,収束速度と資源利用のメリットを享受するファインチューニング手法であるLearnerモジュールとプライミングを紹介する。
学習モジュールは二重結合をナビゲートする
1)パラメータのサブセットを微調整して効率よく訓練し、
2)迅速な収束とハイメトリックスコアの確保による効果的なトレーニング。
DistilBERTの結果は,学習者がベースラインに匹敵する性能を示した。
学習者はGLUEの最先端メソッドよりも7倍少ないパラメータを訓練する。
CoLAでは、学習者は20%高速で、リソース使用率が大幅に低下する。 Fine-tuning BERT-based models is resource-intensive in memory, computation, and time. While many prior works aim to improve inference efficiency via compression techniques, e.g., pruning, these works do not explicitly address the computational challenges of training to downstream tasks. We introduce Learner modules and priming, novel methods for fine-tuning that exploit the overparameterization of pre-trained language models to gain benefits in convergence speed and resource utilization. Learner modules navigate the double bind of 1) training efficiently by fine-tuning a subset of parameters, and 2) training effectively by ensuring quick convergence and high metric scores. Our results on DistilBERT demonstrate that learners perform on par with or surpass the baselines. Learners train 7x fewer parameters than state-of-the-art methods on GLUE. On CoLA, learners fine-tune 20% faster, and have significantly lower resource utilization. | 翻訳日:2022-08-04 13:11:04 公開日:2022-08-03 |
# SpanDrop:ロングシーケンスのためのシンプルで効果的な対実学習 SpanDrop: Simple and Effective Counterfactual Learning for Long Sequences ( http://arxiv.org/abs/2208.02169v1 ) ライセンス: Link先を確認 | Peng Qi, Guangtao Wang, Jing Huang | (参考訳) 長いシーケンスから監視信号を蒸留して予測することは、特に入力シーケンスのすべての要素が所望の出力に等しく寄与しない場合、機械学習において難しいタスクである。
本稿では、モデルが長い列の中で真の監督信号を特定するのを非常に少ない例で支援する、シンプルで効果的なデータ拡張手法であるspandropを提案する。
入力シーケンスを直接操作することで、SpanDropはシーケンスの一部をランダムにアブラレートし、モデルに同じタスクを実行させ、反事実学習をエミュレートし、入力属性を達成する。
また,その特性の理論的解析に基づいて,β-Bernoulli分布に基づくSpanDropの変種を提案する。
本研究では,厳密に設計された玩具タスク群と自然言語処理タスク群に対するspandropの有効性を実証し,データ不足時と不足時の両方でモデルの性能向上に役立つことを示す。 Distilling supervision signal from a long sequence to make predictions is a challenging task in machine learning, especially when not all elements in the input sequence contribute equally to the desired output. In this paper, we propose SpanDrop, a simple and effective data augmentation technique that helps models identify the true supervision signal in a long sequence with very few examples. By directly manipulating the input sequence, SpanDrop randomly ablates parts of the sequence at a time and ask the model to perform the same task to emulate counterfactual learning and achieve input attribution. Based on theoretical analysis of its properties, we also propose a variant of SpanDrop based on the beta-Bernoulli distribution, which yields diverse augmented sequences while providing a learning objective that is more consistent with the original dataset. We demonstrate the effectiveness of SpanDrop on a set of carefully designed toy tasks, as well as various natural language processing tasks that require reasoning over long sequences to arrive at the correct answer, and show that it helps models improve performance both when data is scarce and abundant. | 翻訳日:2022-08-04 13:10:52 公開日:2022-08-03 |
# MTGFlow:動的グラフとエンティティ認識正規化フローによる教師なし多変量時系列異常検出 MTGFlow: Unsupervised Multivariate Time Series Anomaly Detection via Dynamic Graph and Entity-aware Normalizing Flow ( http://arxiv.org/abs/2208.02108v1 ) ライセンス: Link先を確認 | Qihang Zhou, Jiming Chen, Haoyu Liu, Shibo He, Wenchao Meng | (参考訳) 多変量時系列異常検出は、すべての通常のインスタンスを持つトレーニングデータセットを必要とする半教師付き設定の下で広範囲に研究されている。
しかし、それぞれのデータインスタンスが正常であることを完全に保証する必要があるため、このようなデータセットの作成は非常に手間がかかる。
したがって、ラベルの知識のないデータセットに基づいて、多変量時系列異常検出手法を探索することが望まれる。
本稿では,動的グラフとエンティティ認識正規化フローによる多変量時系列異常検出のための教師なし異常検出手法であるmtgflowを提案する。
しかし、エンティティ間の複雑な相互依存性と各エンティティ固有の特性は、推定可能な分布に基づいて異常を検出することはもちろん、密度推定に重大な課題をもたらす。
これらの問題に対処するために,多変量時系列の正確な分布をモデル化するグラフ構造学習モデルを用いて,エンティティ間の相互および動的関係を学ぶことを提案する。
さらに、個々のエンティティの異なる特性を考慮したエンティティ認識正規化フローを開発し、各エンティティをパラメータ化された正規分布に記述し、細粒度密度推定を行う。
これら2つの戦略を組み込んだMTGFlowachieveは、優れた異常検出性能を有する。
実世界のデータセットの実験を行い、MTGFlowはSWaTデータセットとWADIデータセットでそれぞれ5.0%、AUROCが1.6%向上していることを示した。
また、個々のエンティティが貢献する異常スコアを通じて、MTGFlowは検出結果の説明情報を提供することができる。 Multivariate time series anomaly detection has been extensively studied under the semi-supervised setting, where a training dataset with all normal instances is required. However, preparing such a dataset is very laborious since each single data instance should be fully guaranteed to be normal. It is, therefore, desired to explore multivariate time series anomaly detection methods based on the dataset without any label knowledge. In this paper, we propose MTGFlow, an unsupervised anomaly detection approach for Multivariate Time series anomaly detection via dynamic Graph and entity-aware normalizing Flow, leaning only on a widely accepted hypothesis that abnormal instances exhibit sparse densities than the normal. However, the complex interdependencies among entities and the diverse inherent characteristics of each entity pose significant challenges on the density estimation, let alone to detect anomalies based on the estimated possibility distribution. To tackle these problems, we propose to learn the mutual and dynamic relations among entities via a graph structure learning model, which helps to model accurate distribution of multivariate time series. Moreover, taking account of distinct characteristics of the individual entities, an entity-aware normalizing flow is developed to describe each entity into a parameterized normal distribution, thereby producing fine-grained density estimation. Incorporating these two strategies, MTGFlowachieves superior anomaly detection performance. Experiments on the real-world datasets are conducted, demonstrating that MTGFlow outperforms the state-of-the-art (SOTA) by 5.0% and 1.6% AUROC for SWaT and WADI datasets respectively. Also, through the anomaly scores contributed by individual entities, MTGFlow can provide explanation information for the detection results. | 翻訳日:2022-08-04 13:10:15 公開日:2022-08-03 |
# 乳癌転移の深部FNN予測モデルにおけるオーバーフィッティングの実証的研究 Empirical Study of Overfitting in Deep FNN Prediction Models for Breast Cancer Metastasis ( http://arxiv.org/abs/2208.02150v1 ) ライセンス: Link先を確認 | Chuhan Xu, Pablo Coen-Pirani, Xia Jiang | (参考訳) オーバーフィッティングは、現在のモデルが特定のデータセットに完全に適合し、結果として一般化が弱まり、最終的には将来のデータを予測する精度に影響を及ぼすという事実として定義される。
本研究では,乳がん転移に関するEHRデータセットを用いて,深層フィードフォワードニューラルネットワーク(FNN)予測モデルのオーバーフィットについて検討した。
我々は、深層fnnsモデルの11のハイパーパラメータを含み、これらのハイパーパラメータが予測性能とオーバーフィットの両方にどのように影響しているかを実証的に研究した。
また、興味深いハイパーパラメータのペアが相互作用して、モデルのパフォーマンスとオーバーフィットにどのように影響するかについても研究しました。
私たちが調べた11のハイパーパラメータは、アクティベーション機能、重量初期化機能、隠れレイヤ数、学習速度、運動量、崩壊、ドロップアウト率、バッチサイズ、エポック、l1、l2です。
以上の結果から,1つのハイパーパラメータのほとんどは,モデル予測性能と過度適合により負あるいは正の補正がなされていることがわかった。
特に, オーバーフィットは学習速度, 崩壊側, バッチ側, およびL2と負の相関がみられ, 運動量, エピック, およびL1と正の相関が認められた。
その結果, 学習速度, 崩壊速度, バッチサイズは, オーバーフィッティングを最小化するために設計されたL1, L2, ドロップアウト率などの他のハイパーパラメータよりも, オーバーフィッティングと予測性能に有意な影響を及ぼす可能性が示唆された。
また,学習速度と運動量,学習速度と減衰,バッチサイズとエポックといった,興味深い相互作用するハイパーパラメータペアも発見する。
キーワード:ディープラーニング、過剰適合、予測、グリッド検索、フィードフォワードニューラルネットワーク、乳癌転移。 Overfitting is defined as the fact that the current model fits a specific data set perfectly, resulting in weakened generalization, and ultimately may affect the accuracy in predicting future data. In this research we used an EHR dataset concerning breast cancer metastasis to study overfitting of deep feedforward Neural Networks (FNNs) prediction models. We included 11 hyperparameters of the deep FNNs models and took an empirical approach to study how each of these hyperparameters was affecting both the prediction performance and overfitting when given a large range of values. We also studied how some of the interesting pairs of hyperparameters were interacting to influence the model performance and overfitting. The 11 hyperparameters we studied include activate function; weight initializer, number of hidden layers, learning rate, momentum, decay, dropout rate, batch size, epochs, L1, and L2. Our results show that most of the single hyperparameters are either negatively or positively corrected with model prediction performance and overfitting. In particular, we found that overfitting overall tends to negatively correlate with learning rate, decay, batch sides, and L2, but tends to positively correlate with momentum, epochs, and L1. According to our results, learning rate, decay, and batch size may have a more significant impact on both overfitting and prediction performance than most of the other hyperparameters, including L1, L2, and dropout rate, which were designed for minimizing overfitting. We also find some interesting interacting pairs of hyperparameters such as learning rate and momentum, learning rate and decay, and batch size and epochs. Keywords: Deep learning, overfitting, prediction, grid search, feedforward neural networks, breast cancer metastasis. | 翻訳日:2022-08-04 13:09:47 公開日:2022-08-03 |
# Flow Annealed Importance Smpling Bootstrap Flow Annealed Importance Sampling Bootstrap ( http://arxiv.org/abs/2208.01893v1 ) ライセンス: Link先を確認 | Laurence Illing Midgley, Vincent Stimper, Gregor N. C. Simm, Bernhard Sch\"olkopf, Jos\'e Miguel Hern\'andez-Lobato | (参考訳) 正規化フローは、物理的システムのボルツマン分布など、複雑なターゲット分布を近似できるトラクタブル密度モデルである。
しかし、現在のトレーニングフローの方法は、モード探索行動に苦しむか、高価なMCMCシミュレーションによって事前に生成されたターゲットからのサンプルを使用するか、非常にばらつきの高い確率的損失を使用するかのいずれかである。
これらの問題を避けるため,アニール化重要度サンプリング(ais)により流れを増強し,\alpha$-divergence を$\alpha=2$ でカバーする質量を最小化し,重要度重みのばらつきを最小化する。
提案手法であるflow ais bootstrap(fab)では,フローがターゲットの近似値に乏しい領域でサンプルを生成することで,新しいモードの発見を容易にする。
我々は、重要サンプリングによる$\alpha$-divergenceの推定のための最小分散分布をaisでターゲットとする。
また、AISサンプルの保存と再利用に優先順位付けバッファを使用します。
これらの2つの機能はFABのパフォーマンスを大幅に改善した。
複雑なマルチモーダルターゲットにFABを適用して,従来の手法が失敗した場合に,それらを非常に正確に近似できることを示す。
私たちの知る限りでは、分子動力学(md)シミュレーションによって生成されたサンプルにアクセスせずに、非正規化されたターゲット密度のみを使用してアラニンジペプチド分子のボルツマン分布を初めて学習した。
重み付きサンプルの重み付けを行った後、基底真理とほぼ同じ二面体角度の偏りのないヒストグラムを得る。 Normalizing flows are tractable density models that can approximate complicated target distributions, e.g. Boltzmann distributions of physical systems. However, current methods for training flows either suffer from mode-seeking behavior, use samples from the target generated beforehand by expensive MCMC simulations, or use stochastic losses that have very high variance. To avoid these problems, we augment flows with annealed importance sampling (AIS) and minimize the mass covering $\alpha$-divergence with $\alpha=2$, which minimizes importance weight variance. Our method, Flow AIS Bootstrap (FAB), uses AIS to generate samples in regions where the flow is a poor approximation of the target, facilitating the discovery of new modes. We target with AIS the minimum variance distribution for the estimation of the $\alpha$-divergence via importance sampling. We also use a prioritized buffer to store and reuse AIS samples. These two features significantly improve FAB's performance. We apply FAB to complex multimodal targets and show that we can approximate them very accurately where previous methods fail. To the best of our knowledge, we are the first to learn the Boltzmann distribution of the alanine dipeptide molecule using only the unnormalized target density and without access to samples generated via Molecular Dynamics (MD) simulations: FAB produces better results than training via maximum likelihood on MD samples while using 100 times fewer target evaluations. After reweighting samples with importance weights, we obtain unbiased histograms of dihedral angles that are almost identical to the ground truth ones. | 翻訳日:2022-08-04 13:08:48 公開日:2022-08-03 |
# 季節時間における異常検出とデータインプットのためのロバストPCA Robust PCA for Anomaly Detection and Data Imputation in Seasonal Time Series ( http://arxiv.org/abs/2208.01998v1 ) ライセンス: Link先を確認 | Hong-Lan Botterman and Julien Roussel and Thomas Morzadec and Ali Jabbari and Nicolas Brunel | (参考訳) 時間的観測から低ランクおよびスパース行列を復元する,堅牢な主成分分析(RPCA)フレームワークを提案する。
我々は,大規模データセットやストリーミングデータを処理するために,バッチ時間アルゴリズムのオンライン版を開発した。
提案手法を異なるRPCAフレームワークと実証的に比較し,実運用環境での有効性を示す。 We propose a robust principal component analysis (RPCA) framework to recover low-rank and sparse matrices from temporal observations. We develop an online version of the batch temporal algorithm in order to process larger datasets or streaming data. We empirically compare the proposed approaches with different RPCA frameworks and show their effectiveness in practical situations. | 翻訳日:2022-08-04 13:08:19 公開日:2022-08-03 |
# Centroids Matching: 埋め込み空間で動作する効率的な連続学習手法 Centroids Matching: an efficient Continual Learning approach operating in the embedding space ( http://arxiv.org/abs/2208.02048v1 ) ライセンス: Link先を確認 | Jary Pomponi, Simone Scardapane, Aurelio Uncini | (参考訳) 破滅的な忘れ(CF)は、ニューラルネットワークが異なる分布、すなわち新しいタスクからのサンプルセットのトレーニング中に以前に学んだ情報を失うときに起こる。
既存のアプローチはcfの緩和、特にタスクインクリメンタル学習と呼ばれるシナリオで顕著な成果を上げている。
しかし、このシナリオは現実的ではなく、より現実的なシナリオで良い結果を得るための限られた作業が行われている。
本稿では,メタラーニングアプローチに触発されて,ニューラルネットワークが生成する特徴空間で動作し,メモリフットプリントを小さくして良好な結果が得られるようにした,centroids matchingと呼ばれる新しい正規化手法を提案する。
具体的には、ニューラルネットワークによって生成された特徴ベクトルを使ってサンプルを分類し、それらのベクトルを現在のタスクからクラスを表すセントロイド、あるいはその時点までのすべてのタスクとマッチングする。
Centroids Matchingは競合するベースラインよりも高速で、過去のタスクが終わったときにモデルによって生成された埋め込みスペースと現在のタスクの間の距離を保存することで、CFを効率的に緩和することができる。
広範な実験により、centroids matchingが複数のデータセットとシナリオで精度向上を実現することが示されている。 Catastrophic forgetting (CF) occurs when a neural network loses the information previously learned while training on a set of samples from a different distribution, i.e., a new task. Existing approaches have achieved remarkable results in mitigating CF, especially in a scenario called task incremental learning. However, this scenario is not realistic, and limited work has been done to achieve good results on more realistic scenarios. In this paper, we propose a novel regularization method called Centroids Matching, that, inspired by meta-learning approaches, fights CF by operating in the feature space produced by the neural network, achieving good results while requiring a small memory footprint. Specifically, the approach classifies the samples directly using the feature vectors produced by the neural network, by matching those vectors with the centroids representing the classes from the current task, or all the tasks up to that point. Centroids Matching is faster than competing baselines, and it can be exploited to efficiently mitigate CF, by preserving the distances between the embedding space produced by the model when past tasks were over, and the one currently produced, leading to a method that achieves high accuracy on all the tasks, without using an external memory when operating on easy scenarios, or using a small one for more realistic ones. Extensive experiments demonstrate that Centroids Matching achieves accuracy gains on multiple datasets and scenarios. | 翻訳日:2022-08-04 13:08:14 公開日:2022-08-03 |
# kpi-bert: 財務報告のためのエンティティ認識と関係抽出モデル KPI-BERT: A Joint Named Entity Recognition and Relation Extraction Model for Financial Reports ( http://arxiv.org/abs/2208.02140v1 ) ライセンス: Link先を確認 | Lars Hillebrand, Tobias Deu{\ss}er, Tim Dilmaghani, Bernd Kliem, R\"udiger Loitz, Christian Bauckhage, Rafet Sifa | (参考訳) 実世界のドイツ財務文書から企業のキーパフォーマンス指標(KPI)を抽出・リンクするために、名前付きエンティティ認識(NER)と関係抽出(RE)という新しい手法を用いたKPI-BERTを提案する。
具体的には、リカレントニューラルネットワーク(RNN)と条件付きラベルマスキングを組み合わせたBERT(Bidirectional Encoder Representations from Transformers)に基づくエンドツーエンドのトレーニング可能なアーキテクチャを導入し、それらの関係を分類する前にエンティティを逐次タグ付けする。
また、学習可能なRNNベースのプール機構を導入し、不可能な関係を明示的にフィルタリングすることでドメインエキスパートの知識を取り入れる。
我々は、ドイツの財務報告の新しい実践的データセットにおいて、非常に高い予測性能を達成し、競合する最先端のスパンベースのエンティティタギングアプローチを含む、いくつかの強力なベースラインを上回ります。 We present KPI-BERT, a system which employs novel methods of named entity recognition (NER) and relation extraction (RE) to extract and link key performance indicators (KPIs), e.g. "revenue" or "interest expenses", of companies from real-world German financial documents. Specifically, we introduce an end-to-end trainable architecture that is based on Bidirectional Encoder Representations from Transformers (BERT) combining a recurrent neural network (RNN) with conditional label masking to sequentially tag entities before it classifies their relations. Our model also introduces a learnable RNN-based pooling mechanism and incorporates domain expert knowledge by explicitly filtering impossible relations. We achieve a substantially higher prediction performance on a new practical dataset of German financial reports, outperforming several strong baselines including a competing state-of-the-art span-based entity tagging approach. | 翻訳日:2022-08-04 13:04:27 公開日:2022-08-03 |
# adacat:自己回帰モデルに対する適応的カテゴリー判別 AdaCat: Adaptive Categorical Discretization for Autoregressive Models ( http://arxiv.org/abs/2208.02246v1 ) ライセンス: Link先を確認 | Qiyang Li, Ajay Jain, Pieter Abbeel | (参考訳) 自己回帰生成モデルは、RL環境における軌跡ロールアウト、画像強度、オーディオなどの複雑な連続データ分布を推定することができる。
ほとんどの最先端モデルは、連続データを複数のビンに識別し、連続データ分布を近似するためにビン上のカテゴリ分布を使用する。
利点は、カテゴリ分布が容易に複数のモードを表現でき、簡単に最適化できることである。
しかし、このような近似は、非常に多くのビンを用いることなく、密度の鋭い変化を表現できないため、パラメータが非効率である。
本稿では,適応カテゴリー離散化(AdaCat)と呼ばれる,効率的で表現性の高いマルチモーダルパラメータ化を提案する。
AdaCatは自己回帰モデルの各次元を適応的に識別し、モデルが関心の細かい間隔に密度を割り当て、パラメータ効率を向上させる。
AdaCatはカテゴリと量子化に基づく回帰の両方を一般化する。
AdaCatは、任意の離散化ベースの分布推定器への単純なアドオンである。
実験では、AdaCatは実世界の表データ、画像、オーディオ、軌跡の密度推定を改善し、モデルベースオフラインRLの計画を改善する。 Autoregressive generative models can estimate complex continuous data distributions, like trajectory rollouts in an RL environment, image intensities, and audio. Most state-of-the-art models discretize continuous data into several bins and use categorical distributions over the bins to approximate the continuous data distribution. The advantage is that the categorical distribution can easily express multiple modes and are straightforward to optimize. However, such approximation cannot express sharp changes in density without using significantly more bins, making it parameter inefficient. We propose an efficient, expressive, multimodal parameterization called Adaptive Categorical Discretization (AdaCat). AdaCat discretizes each dimension of an autoregressive model adaptively, which allows the model to allocate density to fine intervals of interest, improving parameter efficiency. AdaCat generalizes both categoricals and quantile-based regression. AdaCat is a simple add-on to any discretization-based distribution estimator. In experiments, AdaCat improves density estimation for real-world tabular data, images, audio, and trajectories, and improves planning in model-based offline RL. | 翻訳日:2022-08-04 13:03:34 公開日:2022-08-03 |
# マルチモーダル表現学習のためのマスクドビジョンと言語モデリング Masked Vision and Language Modeling for Multi-modal Representation Learning ( http://arxiv.org/abs/2208.02131v1 ) ライセンス: Link先を確認 | Gukyeong Kwon, Zhaowei Cai, Avinash Ravichandran, Erhan Bas, Rahul Bhotika, Stefano Soatto | (参考訳) 本稿では,視覚と言語(V+L)表現学習におけるマスク信号モデリングの使い方について検討する。
マスク言語モデリング(mlm)とマスク画像モデリング(mim)を独立に開発する代わりに、あるモダリティのマスク信号が他のモダリティの助けを借りて再構成されるような統合マスク視覚と言語モデリングを構築することを提案する。
これは、画像とテキストの両方がほぼ同じ情報を異なるフォーマットで伝達する、画像とテキストのペアデータの性質によって動機付けられている。
他のモダリティを条件としたあるモダリティのマスキング信号再構成は、言語トークンとイメージパッチ間のクロスモダリティアライメントを暗黙的に学習することもできる。
種々のV+Lタスクに対する実験により,提案手法は大量のデータを用いて最先端の性能を達成するだけでなく,限られた訓練データ体制において,他の競争相手よりも優れていた。 In this paper, we study how to use masked signal modeling in vision and language (V+L) representation learning. Instead of developing masked language modeling (MLM) and masked image modeling (MIM) independently, we propose to build joint masked vision and language modeling, where the masked signal of one modality is reconstructed with the help from another modality. This is motivated by the nature of image-text paired data that both of the image and the text convey almost the same information but in different formats. The masked signal reconstruction of one modality conditioned on another modality can also implicitly learn cross-modal alignment between language tokens and image patches. Our experiments on various V+L tasks show that the proposed method not only achieves state-of-the-art performances by using a large amount of data, but also outperforms the other competitors by a significant margin in the regimes of limited training data. | 翻訳日:2022-08-04 13:03:16 公開日:2022-08-03 |
# ピラミッド型分母拡散確率モデル Pyramidal Denoising Diffusion Probabilistic Models ( http://arxiv.org/abs/2208.01864v1 ) ライセンス: Link先を確認 | Dohoon Ryu, Jong Chul Ye | (参考訳) 拡散モデルは印象的な画像生成性能を示し、様々なコンピュータビジョンタスクで使われている。
残念ながら、数千のサンプリングステップを必要とするため、拡散モデルを用いた画像生成は非常に時間がかかる。
本稿では,この問題を解決するために,位置埋め込みを訓練した単一スコア関数を用いて,より粗い解像度画像から高分解能画像を生成する新しいピラミッド拡散モデルを提案する。
これにより、画像生成のための時間効率の良いサンプリングが可能となり、限られたリソースでトレーニングする場合のバッチサイズの問題も解決できる。
さらに, 単一スコア関数を用いたマルチスケール超解像問題に対して, 提案手法の有効性を示す。 Diffusion models have demonstrated impressive image generation performance, and have been used in various computer vision tasks. Unfortunately, image generation using diffusion models is very time-consuming since it requires thousands of sampling steps. To address this problem, here we present a novel pyramidal diffusion model to generate high resolution images starting from much coarser resolution images using a single score function trained with a positional embedding. This enables a time-efficient sampling for image generation, and also solves the low batch size problem when training with limited resources. Furthermore, we show that the proposed approach can be efficiently used for multi-scale super-resolution problem using a single score function. | 翻訳日:2022-08-04 13:02:34 公開日:2022-08-03 |
# majoranaハイブリッドナノワイヤの機械学習最適化 Machine learning optimization of Majorana hybrid nanowires ( http://arxiv.org/abs/2208.02182v1 ) ライセンス: Link先を確認 | Matthias Thamm and Bernd Rosenow | (参考訳) 量子ビット配列のような量子システムの複雑さが増大するにつれて、高価なチューニングを自動化する努力はますます価値が増している。
CMA-ESアルゴリズムを用いた機械学習によるゲートアレイのチューニングについて,強い障害を有するマヨラナワイヤのケーススタディとして検討する。
このアルゴリズムは、トポロジカルなシグネチャを効率的に改善し、固有の障害プロファイルを学習し、障害効果を完全に排除できる。
例えば、ゲートが20個しかない場合、ゲート電圧を最適化することで、障害によって破壊されるマヨラナゼロモードを完全に回復することができる。 As the complexity of quantum systems such as quantum bit arrays increases, efforts to automate expensive tuning are increasingly worthwhile. We investigate machine learning based tuning of gate arrays using the CMA-ES algorithm for the case study of Majorana wires with strong disorder. We find that the algorithm is able to efficiently improve the topological signatures, learn intrinsic disorder profiles, and completely eliminate disorder effects. For example, with only 20 gates, it is possible to fully recover Majorana zero modes destroyed by disorder by optimizing gate voltages. | 翻訳日:2022-08-04 13:02:23 公開日:2022-08-03 |
# MinVIS:ビデオベースのトレーニングなしの最小ビデオインスタンスセグメンテーションフレームワーク MinVIS: A Minimal Video Instance Segmentation Framework without Video-based Training ( http://arxiv.org/abs/2208.02245v1 ) ライセンス: Link先を確認 | De-An Huang, Zhiding Yu, Anima Anandkumar | (参考訳) 我々は、ビデオベースのアーキテクチャでもトレーニング手順でも、最先端のVISパフォーマンスを実現する、最小限のビデオインスタンスセグメンテーション(VIS)フレームワークMinVISを提案する。
クエリベースのイメージインスタンスセグメンテーションモデルのみをトレーニングすることにより、MinVISは、挑戦的なOccluded VISデータセットにおいて、以前の最高の結果を10%以上のAPで上回ります。
MinVISは、動画のフレームを独立した画像として扱うので、動画のアノテートフレームを変更せずに大幅にサブサンプル化することができる。
ラベル付きフレームの1%しかなく、minvisはyoutube-vis 2019/2021の最先端のアプローチに匹敵する。
私たちのキーとなる観察は、フレーム内のオブジェクトインスタンス間で区別するように訓練されたクエリは、時間的に一貫性があり、手動で設計されたヒューリスティックスなしでインスタンスを追跡できるということです。
まず、トレーニングされたクエリベースのイメージインスタンスのセグメンテーションを、ビデオフレームに独立して適用します。
セグメント化されたインスタンスは、対応するクエリの2部マッチングによって追跡される。
この推論はオンライン形式で行われ、ビデオ全体を一度に処理する必要はない。
したがってMinVISは、VISの性能を犠牲にすることなく、ラベル付けコストとメモリ要求の両方を削減するという実用的な利点がある。
コードは、https://github.com/NVlabs/MinVISで入手できる。 We propose MinVIS, a minimal video instance segmentation (VIS) framework that achieves state-of-the-art VIS performance with neither video-based architectures nor training procedures. By only training a query-based image instance segmentation model, MinVIS outperforms the previous best result on the challenging Occluded VIS dataset by over 10% AP. Since MinVIS treats frames in training videos as independent images, we can drastically sub-sample the annotated frames in training videos without any modifications. With only 1% of labeled frames, MinVIS outperforms or is comparable to fully-supervised state-of-the-art approaches on YouTube-VIS 2019/2021. Our key observation is that queries trained to be discriminative between intra-frame object instances are temporally consistent and can be used to track instances without any manually designed heuristics. MinVIS thus has the following inference pipeline: we first apply the trained query-based image instance segmentation to video frames independently. The segmented instances are then tracked by bipartite matching of the corresponding queries. This inference is done in an online fashion and does not need to process the whole video at once. MinVIS thus has the practical advantages of reducing both the labeling costs and the memory requirements, while not sacrificing the VIS performance. Code is available at: https://github.com/NVlabs/MinVIS | 翻訳日:2022-08-04 13:02:12 公開日:2022-08-03 |
# AlexaTM 20B: 大規模多言語Seq2Seqモデルを用いたFew-Shot Learning AlexaTM 20B: Few-Shot Learning Using a Large-Scale Multilingual Seq2Seq Model ( http://arxiv.org/abs/2208.01448v2 ) ライセンス: Link先を確認 | Saleh Soltan, Shankar Ananthakrishnan, Jack FitzGerald, Rahul Gupta, Wael Hamza, Haidar Khan, Charith Peris, Stephen Rawls, Andy Rosenbaum, Anna Rumshisky, Chandana Satya Prakash, Mukund Sridhar, Fabian Triefenbach, Apurv Verma, Gokhan Tur, Prem Natarajan | (参考訳) 本研究では,多言語大規模シーケンス・ツー・シークエンス(seq2seq)モデルにおいて,様々なタスクにおけるデコーダのみのモデルよりも,より効率的な学習者であることを実証する。
特に,Alexa Teacher Model (AlexaTM 20B) と呼ばれる200億のパラメータのセク2セックモデルをトレーニングし,一括要約タスクにおける最先端(SOTA)のパフォーマンスを達成し,さらに大きな540B PaLMデコーダモデルを上回る性能を示す。
AlexaTM 20Bはまた、フローレス101データセット上のモデル(アラビア語、英語、フランス語、ドイツ語、ヒンディー語、イタリア語、日本語、マラシ語、ポルトガル語、スペイン語、タミル語、テルグ語)でサポートされているほぼすべての言語ペアに対して、1ショットの機械翻訳でSOTAを達成している。
また、ゼロショット設定では、AlexaTM 20BがSuperGLUEおよびSQuADv2データセット上でGPT3 (175B)を上回り、XNLI、XCOPA、Paws-X、XWinogradなどの多言語タスクでSOTAパフォーマンスを提供する。
全体として,大規模言語モデル(llm)トレーニングのためのデコーダのみのモデルに代わる強力な選択肢として,seq2seqモデルに説得力のある事例を示す。 In this work, we demonstrate that multilingual large-scale sequence-to-sequence (seq2seq) models, pre-trained on a mixture of denoising and Causal Language Modeling (CLM) tasks, are more efficient few-shot learners than decoder-only models on various tasks. In particular, we train a 20 billion parameter multilingual seq2seq model called Alexa Teacher Model (AlexaTM 20B) and show that it achieves state-of-the-art (SOTA) performance on 1-shot summarization tasks, outperforming a much larger 540B PaLM decoder model. AlexaTM 20B also achieves SOTA in 1-shot machine translation, especially for low-resource languages, across almost all language pairs supported by the model (Arabic, English, French, German, Hindi, Italian, Japanese, Marathi, Portuguese, Spanish, Tamil, and Telugu) on Flores-101 dataset. We also show in zero-shot setting, AlexaTM 20B outperforms GPT3 (175B) on SuperGLUE and SQuADv2 datasets and provides SOTA performance on multilingual tasks such as XNLI, XCOPA, Paws-X, and XWinograd. Overall, our results present a compelling case for seq2seq models as a powerful alternative to decoder-only models for Large-scale Language Model (LLM) training. | 翻訳日:2022-08-04 11:27:01 公開日:2022-08-03 |
# 正弦波アクティベーションネットワークを用いた多次元医用画像のロシー圧縮 : 評価研究 Lossy compression of multidimensional medical images using sinusoidal activation networks: an evaluation study ( http://arxiv.org/abs/2208.01602v2 ) ライセンス: Link先を確認 | Matteo Mancini, Derek K. Jones, Marco Palombo | (参考訳) 本研究では4次元拡散強調MRI(dMRI)に対する概念実証を用いて,周期的活性化機能を持つニューラルネットワークを用いて,大規模多次元医用画像データセットを確実に圧縮する方法を評価する。
医用画像のランドスケープでは、多次元MRIは基盤組織の微細構造に敏感かつ特異的なバイオマーカーを開発するための重要な研究領域である。
しかし、これらのデータの高次元性は、ストレージと共有能力と関連するコストの両方において問題となり、低次元空間で情報を表現できる適切なアルゴリズムが必要となる。
近年のディープラーニングの理論的発展は、周期的アクティベーション関数が画像の暗黙的なニューラル表現の強力なツールであり、2次元画像の圧縮に利用できることを示している。
本稿では,本手法を4次元画像に拡張し,正弦波アクティベーションネットワークのパラメータを用いて,任意の4次元dMRIデータセットを正確に表現できることを示し,標準のDEFLATEアルゴリズムの約10倍の速度でデータ圧縮を実現する。
その結果,提案手法は平均二乗誤差,ピーク信号-雑音比,構造類似度指数において,ReLUとTanhのアクティベーションパーセプトロンアーキテクチャよりも優れていた。
その後のテンソルと球面調和表現を用いた解析により、提案される損失圧縮は元のデータの特性を正確に再現し、ベンチマークjpeg2000の損失圧縮の約5倍から10倍の相対誤差を生じさせ、mp-pcaデノシングのような標準的な前処理ステップと類似していることが示されている。 In this work, we evaluate how neural networks with periodic activation functions can be leveraged to reliably compress large multidimensional medical image datasets, with proof-of-concept application to 4D diffusion-weighted MRI (dMRI). In the medical imaging landscape, multidimensional MRI is a key area of research for developing biomarkers that are both sensitive and specific to the underlying tissue microstructure. However, the high-dimensional nature of these data poses a challenge in terms of both storage and sharing capabilities and associated costs, requiring appropriate algorithms able to represent the information in a low-dimensional space. Recent theoretical developments in deep learning have shown how periodic activation functions are a powerful tool for implicit neural representation of images and can be used for compression of 2D images. Here we extend this approach to 4D images and show how any given 4D dMRI dataset can be accurately represented through the parameters of a sinusoidal activation network, achieving a data compression rate about 10 times higher than the standard DEFLATE algorithm. Our results show that the proposed approach outperforms benchmark ReLU and Tanh activation perceptron architectures in terms of mean squared error, peak signal-to-noise ratio and structural similarity index. Subsequent analyses using the tensor and spherical harmonics representations demonstrate that the proposed lossy compression reproduces accurately the characteristics of the original data, leading to relative errors about 5 to 10 times lower than the benchmark JPEG2000 lossy compression and similar to standard pre-processing steps such as MP-PCA denosing, suggesting a loss of information within the currently accepted levels for clinical application. | 翻訳日:2022-08-04 11:26:33 公開日:2022-08-03 |
# BATMAN:ビデオオブジェクトセグメンテーションのためのモーションディスプレイ近傍空間におけるバイラテラルアテンショントランス BATMAN: Bilateral Attention Transformer in Motion-Appearance Neighboring Space for Video Object Segmentation ( http://arxiv.org/abs/2208.01159v2 ) ライセンス: Link先を確認 | Ye Yu, Jialin Yuan, Gaurav Mittal, Li Fuxin, and Mei Chen | (参考訳) ビデオオブジェクトセグメンテーション(VOS)はビデオ理解の基本である。
半教師付きvosにおけるトランスフォーマティブ方式の性能改善効果を示す。
しかし、既存の作業は、視覚的に類似したオブジェクトを互いに近接して分割する課題に直面している。
本稿では,半教師付きVOSのためのバイラテラルアテンション変換器(BATMAN)を提案する。
このモジュールは、セグメンテーションマスクを光学フロー推定で融合させ、物体内部の光学フローの滑らかさを改善し、物体の境界におけるノイズを低減する。
このキャリブレーション・オプティカル・フローは,新しいバイラテラル・アテンションに応用され,動きと外観の両方を考慮した隣り合うバイラテラル空間におけるクエリと参照フレームの対応を計算する。
Youtube-VOS 2019 (85.0%)、Youtube-VOS 2018 (85.3%)、DAVIS 2017Val/Testdev (86.2%/82.2%)、DAVIS 2016 (92.5%)である。 Video Object Segmentation (VOS) is fundamental to video understanding. Transformer-based methods show significant performance improvement on semi-supervised VOS. However, existing work faces challenges segmenting visually similar objects in close proximity of each other. In this paper, we propose a novel Bilateral Attention Transformer in Motion-Appearance Neighboring space (BATMAN) for semi-supervised VOS. It captures object motion in the video via a novel optical flow calibration module that fuses the segmentation mask with optical flow estimation to improve within-object optical flow smoothness and reduce noise at object boundaries. This calibrated optical flow is then employed in our novel bilateral attention, which computes the correspondence between the query and reference frames in the neighboring bilateral space considering both motion and appearance. Extensive experiments validate the effectiveness of BATMAN architecture by outperforming all existing state-of-the-art on all four popular VOS benchmarks: Youtube-VOS 2019 (85.0%), Youtube-VOS 2018 (85.3%), DAVIS 2017Val/Testdev (86.2%/82.2%), and DAVIS 2016 (92.5%). | 翻訳日:2022-08-04 11:26:00 公開日:2022-08-03 |
# オンラインスパースストリーミング特徴選択アルゴリズム An Online Sparse Streaming Feature Selection Algorithm ( http://arxiv.org/abs/2208.01562v2 ) ライセンス: Link先を確認 | Feilong Chen, Di Wu, Jie Yang, Yi He | (参考訳) オンラインストリーミング機能選択(osfs: online streaming feature selection)は,高次元データを扱う上で重要な役割を担っている。
インテリジェントヘルスケアプラットフォームのような現実の多くのアプリケーションでは、ストリーミング機能は常に欠落したデータを持っているため、OSFSを実行する上で重要な課題、すなわちスパースストリーミング機能とラベルの間の不確実な関係を確立する方法が生じる。
残念ながら、既存のosfsアルゴリズムはそのような不確定な関係を決して考慮しない。
本稿では,このギャップを埋めるために,不確実性(OS2FSU)アルゴリズムを用いたオンラインスパースストリーミング機能選択を提案する。
OS2FSUは2つの主な部分から構成される。
1)特徴選択に先立って,希少なストリーミング特徴の欠落データを事前に見積もるために潜在因子分析を利用する。
2) ファジィ論理と周辺粗集合を用いて, 特徴選択を行う際の推定ストリーミング特徴とラベルの不確かさを軽減する。
実験では、OS2FSUは6つの実際のデータセット上の5つの最先端OSFSアルゴリズムと比較される。
その結果、OS2FSUはOSFSでデータ不足が発生した場合、競合より優れていることが示された。 Online streaming feature selection (OSFS), which conducts feature selection in an online manner, plays an important role in dealing with high-dimensional data. In many real applications such as intelligent healthcare platform, streaming feature always has some missing data, which raises a crucial challenge in conducting OSFS, i.e., how to establish the uncertain relationship between sparse streaming features and labels. Unfortunately, existing OSFS algorithms never consider such uncertain relationship. To fill this gap, we in this paper propose an online sparse streaming feature selection with uncertainty (OS2FSU) algorithm. OS2FSU consists of two main parts: 1) latent factor analysis is utilized to pre-estimate the missing data in sparse streaming features before con-ducting feature selection, and 2) fuzzy logic and neighborhood rough set are employed to alleviate the uncertainty between estimated streaming features and labels during conducting feature selection. In the experiments, OS2FSU is compared with five state-of-the-art OSFS algorithms on six real datasets. The results demonstrate that OS2FSU outperforms its competitors when missing data are encountered in OSFS. | 翻訳日:2022-08-04 11:25:35 公開日:2022-08-03 |
# 変分輸送と鏡面の輝きによる \textit{Constrained Domains} の分布最適化のための粒子アルゴリズム A Particle-Based Algorithm for Distributional Optimization on \textit{Constrained Domains} via Variational Transport and Mirror Descent ( http://arxiv.org/abs/2208.00587v3 ) ライセンス: Link先を確認 | Dai Hai Nguyen, Tetsuya Sakurai | (参考訳) 本稿では, 制約領域上の確率分布に対して定式化され, 理論的解析とアルゴリズム設計の両方に課題が生じる, 目的関数を最小化する最適化問題を考察する。
制約付き最適化のためのミラー降下アルゴリズムに着想を得て,制約付き領域を扱うための変動移動フレームワーク [7] から拡張されたミラー変動輸送(mirrorVT)と呼ばれる反復的粒子ベースアルゴリズムを提案する。
特に、各イテレーションにおいて、mirrorvtは粒子をミラーマップによって引き起こされる拘束されない双対領域に写像し、次に粒子を押して双対空間上で定義される分布の多様体上のワッサーシュタイン勾配降下を概ね行う。
イテレーションの終わりに、粒子は元の制約された領域にマッピングされる。
シミュレーション実験により, 単純およびユークリッド球制約領域上の確率分布上の関数を最小化するための mirrorVT の有効性を示す。
また,その理論特性を解析し,その収束を目的関数の極大最小値に特徴付ける。 We consider the optimization problem of minimizing an objective functional, which admits a variational form and is defined over probability distributions on the constrained domain, which poses challenges to both theoretical analysis and algorithmic design. Inspired by the mirror descent algorithm for constrained optimization, we propose an iterative particle-based algorithm, named Mirrored Variational Transport (mirrorVT), extended from the Variational Transport framework [7] for dealing with the constrained domain. In particular, for each iteration, mirrorVT maps particles to an unconstrained dual domain induced by a mirror map and then approximately perform Wasserstein gradient descent on the manifold of distributions defined over the dual space by pushing particles. At the end of iteration, particles are mapped back to the original constrained domain. Through simulated experiments, we demonstrate the effectiveness of mirrorVT for minimizing the functionals over probability distributions on the simplex- and Euclidean ball-constrained domains. We also analyze its theoretical properties and characterize its convergence to the global minimum of the objective functional. | 翻訳日:2022-08-04 11:25:18 公開日:2022-08-03 |
# Viskositas: 多成分化学系の粘度予測 Viskositas: Viscosity Prediction of Multicomponent Chemical Systems ( http://arxiv.org/abs/2208.01440v2 ) ライセンス: Link先を確認 | Patrick dos Anjos | (参考訳) 金属・ガラス産業における粘度は、その生産過程、また地球物理学の分野でも基本的な役割を担っている。
実験的な測定は経済的に高価であり、時間的にもいくつかの数学的モデルが構築され、線形モデルや非線形モデルにおいて、化学組成や温度といった様々な変数の関数として粘度が得られた。
ハイパーパラメータの変動によるニューラルネットワークによる非線形モデルの生成と,化学系や温度に対する粘性予測の信頼性の向上を目的としてデータベースを構築した。
viskositasと名づけられたモデルは、文献や1つの商用モデルと異なるモデルと比較して、テストデータベースに関する平均絶対誤差、標準偏差、決定係数の統計学的評価が向上し、エラーの少ない予測、ばらつきの少ない予測、異常の発生の少ない結果が得られた。 Viscosity in the metallurgical and glass industry plays a fundamental role in its production processes, also in the area of geophysics. As its experimental measurement is financially expensive, also in terms of time, several mathematical models were built to provide viscosity results as a function of several variables, such as chemical composition and temperature, in linear and nonlinear models. A database was built in order to produce a nonlinear model by artificial neural networks by variation of hyperparameters to provide reliable predictions of viscosity in relation to chemical systems and temperatures. The model produced named Viskositas demonstrated better statistical evaluations of mean absolute error, standard deviation and coefficient of determination in relation to the test database when compared to different models from literature and 1 commercial model, offering predictions with lower errors, less variability and less generation of outliers. | 翻訳日:2022-08-04 11:24:58 公開日:2022-08-03 |
# タイミングサイドチャネルを用いたディープニューラルネットワークにおけるユーザのプライバシ評価について On the Evaluation of User Privacy in Deep Neural Networks using Timing Side Channel ( http://arxiv.org/abs/2208.01113v2 ) ライセンス: Link先を確認 | Shubhi Shukla, Manaar Alam, Sarani Bhattacharya, Debdeep Mukhopadhyay, Pabitra Mitra | (参考訳) 複雑な現実世界のタスクを解くための最近のDeep Learning (DL)の進歩は、実践的応用において広く採用されている。
しかし、この機会には重大なリスクが伴う。これらのモデルの多くは、さまざまなアプリケーションのトレーニングにプライバシーに敏感なデータに依存しているため、プライバシー侵害に対する過度に暴露される脅威となる。
さらに、堅牢なインフラストラクチャサポートにクラウドベースのMachine-Learning-as-a-Service(MLaaS)が広く使用されていることにより、脅威表面が拡張され、さまざまなリモートサイドチャネル攻撃が含まれている。
本稿では,広く使用されているdlフレームワークpytorchにおける非定常時間分岐操作に由来するdl実装における,新たなデータ依存タイミングサイドチャネルリーク(いわゆるクラスリーク)を特定し,報告する。
さらに、MLaaSのユーザ特権とハードラベルのブラックボックスアクセスを持つ敵が、クラスリークを利用してMLaaSユーザのプライバシーを侵害する、実用的な推論時攻撃を実証する。
dlモデルはメンバーシップ推論攻撃(mia)に対して脆弱であり、敵の目標はモデルトレーニング中に特定のデータが使用されたかどうかを推測することである。
本稿では,異なるケーススタディとして,差分プライバシーが確保されたDLモデル(MIAに対する一般的な対策)が,いまだにクラスリークを悪用する敵に対するMIAに対して脆弱であることを示す。
我々は,クラスリークを緩和し,MIAを緩和する定時分岐操作を行うことにより,実装が容易な対策を開発する。
我々は、CIFAR-10とCIFAR-100という2つの標準ベンチマーク画像分類データセットを選択して、5つの最先端の訓練済みDLモデルをトレーニングしました。 Recent Deep Learning (DL) advancements in solving complex real-world tasks have led to its widespread adoption in practical applications. However, this opportunity comes with significant underlying risks, as many of these models rely on privacy-sensitive data for training in a variety of applications, making them an overly-exposed threat surface for privacy violations. Furthermore, the widespread use of cloud-based Machine-Learning-as-a-Service (MLaaS) for its robust infrastructure support has broadened the threat surface to include a variety of remote side-channel attacks. In this paper, we first identify and report a novel data-dependent timing side-channel leakage (termed Class Leakage) in DL implementations originating from non-constant time branching operation in a widely used DL framework PyTorch. We further demonstrate a practical inference-time attack where an adversary with user privilege and hard-label black-box access to an MLaaS can exploit Class Leakage to compromise the privacy of MLaaS users. DL models are vulnerable to Membership Inference Attack (MIA), where an adversary's objective is to deduce whether any particular data has been used while training the model. In this paper, as a separate case study, we demonstrate that a DL model secured with differential privacy (a popular countermeasure against MIA) is still vulnerable to MIA against an adversary exploiting Class Leakage. We develop an easy-to-implement countermeasure by making a constant-time branching operation that alleviates the Class Leakage and also aids in mitigating MIA. We have chosen two standard benchmarking image classification datasets, CIFAR-10 and CIFAR-100 to train five state-of-the-art pre-trained DL models, over two different computing environments having Intel Xeon and Intel i7 processors to validate our approach. | 翻訳日:2022-08-04 11:24:40 公開日:2022-08-03 |