このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220617となっている論文です。

PDF登録状況(公開日: 20220617)

TitleAuthorsAbstract論文公表日・翻訳日
# 識別可能性の独立とシステムの次元

The Independence of Distinguishability and the Dimension of the System ( http://arxiv.org/abs/2010.03120v7 )

ライセンス: Link先を確認
Hao Shu(参考訳) これらは量子状態の識別性、特に局所的識別性に関する実質的な研究である。 局所識別可能な状態集合の必要条件は、システム次元よりも大きくない全シュミットランクであることが示されている。 しかし、もし私たちがより大きなシステムで状態を見れば、制限は無効になります。 したがって、自然問題は、余分な資源を使わずにより大きなシステムでそれらを見ることで区別できない状態が識別可能になることである。 本稿では,この問題を (完全あるいは曖昧な) locc$_{1}$, ppt および sep の識別性について考察する。 我々は、もし一連の状態が$\otimes _{k=1}^{k} c^{d _{k}}$で区別できないなら、$\otimes _{k=1}^{k} c^{d _{k}+h _{k}}$、ただし$k, d _{k}\geqslant2, h _{k}\geqslant0$は整数であるとしても区別できないことを証明する。 これは、そのような識別性が状態自体の性質であり、量子系の次元とは無関係であることを示している。 この結果はLOCC$_{1}$の識別可能な状態の最大数を与え、一般システムにおいてLOCCの識別不可能な積基底を構築するために使用できる。 我々の結果は一般システムにおける一般状態に適している。 さらなる議論のために、局所的・言語的区別不能な性質を定義し、予想を示す。

The are substantial studies on distinguishabilities, especially local distinguishability, of quantum states. It is shown that a necessary condition of a local distinguishable state set is the total Schmidt rank not larger than the system dimension. However, if we view states in a larger system, the restriction will be invalid. Hence, a nature problem is that can indistinguishable states become distinguishable by viewing them in a larger system without employing extra resources. In this paper, we consider this problem for (perfect or unambiguous) LOCC$_{1}$, PPT and SEP distinguishabilities. We demonstrate that if a set of states is indistinguishable in $\otimes _{k=1}^{K} C^{d _{k}}$, then it is indistinguishable even being viewed in $\otimes _{k=1}^{K} C^{d _{k}+h _{k}}$, where $K, d _{k}\geqslant2, h _{k}\geqslant0$ are integers. This shows that such distinguishabilities are properties of states themselves and independent of the dimension of quantum system. Our result gives the maximal numbers of LOCC$_{1}$ distinguishable states and can be employed to construct a LOCC indistinguishable product basis in general systems. Our result is suitable for general states in general systems. For further discussions, we define the local-global indistinguishable property and present a conjecture.
翻訳日:2023-04-29 18:05:07 公開日:2022-06-17
# n計測設定による騒音環境からの高次元量子ステアリングの探索

Retrieving High-Dimensional Quantum Steering From a Noisy Environment with N Measurement Settings ( http://arxiv.org/abs/2101.04436v2 )

ライセンス: Link先を確認
Rui Qu, Yunlong Wang, Min An, Feiran Wang, Quan Quan, Hongrong Li, Hong Gao, Fuli Li and Pei Zhang(参考訳) 高次元(hd)量子システムの最もしばしば暗示される利点の1つは、より強い相関形式につながり、雑音に対する強靭性が増すことである。 ここでは,n$設定線形hd量子ステアリング基準を実験的に示す。 フルステートトモグラフィーを使わずにステアリング不等式に大きな違反を検証した。 違反の下位境界は11次元で2.24\pm0.01$であり、2セット基準の上限(V<2$)を超える。 そのため、ステアリングの強度が高いことが判明した。 さらに, 寸法を増加させることなく, 測定設定を増加させることにより, 騒音のロバスト性を向上させる方法を示す。 11次元のエンタングルメントを用いて, ステアリング非局所性を63.4\pm1.4\%$等方性雑音分画を用いて実験的に回収し, 2値設定基準の50\%$限界を超えた。 我々の研究は、ノイズの多い環境を許容し、損失検出を行い、現在の伝送距離制限を超越する実用的な片側デバイス非依存の量子情報処理の可能性を提供する。

One of the most often implied benefits of high-dimensional (HD) quantum systems is to lead to stronger forms of correlations, featuring increased robustness to noise. Here, we experimentally demonstrate the $n$-setting linear HD quantum steering criterion. We verify the large violation of the steering inequalities without full-state tomography. The lower bound of the violation is $2.24\pm0.01$ in 11 dimensions, exceeding the bound ($V<2$) of 2-setting criteria. Hence, a higher strength of steering has been revealed. Moreover, we demonstrate the method for enhancing the noise robustness without increasing dimension, alternatively, by increasing measurement settings. Using the entanglement in 11 dimensions, we experimentally retrieve steering nonlocality with $63.4\pm1.4\%$ isotropic noise fraction, surpassing the $50\%$ limitation of 2-setting criteria. Our work offers the potential for practical one-sided device-independent quantum information processing that tolerates the noisy environment, lossy detection, and transcends the present transmission distance limitation.
翻訳日:2023-04-17 00:43:39 公開日:2022-06-17
# 量子通信相関の普遍表現

A Universal Representation for Quantum Commuting Correlations ( http://arxiv.org/abs/2102.05827v2 )

ライセンス: Link先を確認
Roy Araiza, Travis Russell, Mark Tomforde(参考訳) 我々は、状態空間が量子交換相関の集合に親同型であるアルキメデス順序単位空間を明示的に構成する。 我々の構成は順序単位空間と作用素系の理論からの基本技術のみを必要とする。 我々の主な成果は、アルキメデス次数単位空間における有限の正の収縮がヒルベルト空間上の射影の集合として実現できるときの特徴付けによって達成される。

We explicitly construct an Archimedean order unit space whose state space is affinely isomorphic to the set of quantum commuting correlations. Our construction only requires fundamental techniques from the theory of order unit spaces and operator systems. Our main results are achieved by characterizing when a finite set of positive contractions in an Archimedean order unit space can be realized as a set of projections on a Hilbert space.
翻訳日:2023-04-11 12:17:04 公開日:2022-06-17
# CovidTracker: NLPタスクのための総合的なCovid関連ソーシャルメディアデータセット

CovidTracker: A comprehensive Covid-related social media dataset for NLP tasks ( http://arxiv.org/abs/2103.16446v2 )

ライセンス: Link先を確認
Richard Plant, Amir Hussain(参考訳) 新型コロナウイルス(COVID-19)のパンデミックは、前例のない世界的な公衆衛生上の緊急事態を招き、不適切な社会的状況に対する公衆の反応を調査する絶好の機会となった。 ソーシャルメディアプラットフォームにメッセージを投稿する能力は、社会的連帯の表現だけでなく、パンデミックの影響や潜在的なリスクに関する誤った情報や誤解の拡散を含む、そのような世論の拡散にとって貴重な出口となった。 したがって、このメッセージコンテンツのアーカイブは、健康危機に対する公衆の反応を理解する上で重要なリソースであり、その分析は、公共政策の介入を通知し、将来同様の出来事に対処するのに役立つ。 本稿では,Covid-19パンデミックに関連する英国からの公開ソーシャルメディア投稿のベンチマークデータベースと,キーワードによって整理されたキーテーマの分類を含む,いくつかの初期分析について紹介する。 このリリースは、パンデミック時に実施された公衆衛生対策に対する反応を理解するために、社会的感情を調査することを目的としたスコットランド政府のチーフサイエンティストズオフィスが資金提供した研究研究の結果を支持するものである。

The Covid-19 pandemic presented an unprecedented global public health emergency, and concomitantly an unparalleled opportunity to investigate public responses to adverse social conditions. The widespread ability to post messages to social media platforms provided an invaluable outlet for such an outpouring of public sentiment, including not only expressions of social solidarity, but also the spread of misinformation and misconceptions around the effect and potential risks of the pandemic. This archive of message content therefore represents a key resource in understanding public responses to health crises, analysis of which could help to inform public policy interventions to better respond to similar events in future. We present a benchmark database of public social media postings from the United Kingdom related to the Covid-19 pandemic for academic research purposes, along with some initial analysis, including a taxonomy of key themes organised by keyword. This release supports the findings of a research study funded by the Scottish Government Chief Scientists' Office that aims to investigate social sentiment in order to understand the response to public health measures implemented during the pandemic.
翻訳日:2023-04-06 03:42:21 公開日:2022-06-17
# $\cal PT$-symmetric 系の可解拡張モデル

Solvable dilation model of $\cal PT$-symmetric systems ( http://arxiv.org/abs/2104.05039v3 )

ライセンス: Link先を確認
Minyi Huang, Ray-Kuang Lee, Qing-hai Wang, Guo-Qiang Zhang, Junde Wu(参考訳) ダイレーション法は、非エルミタン、特に$\cal PT$-symmetric量子系を実験的にシミュレートする実用的な方法である。 しかし、時間に依存した拡張問題は一般には解決できない。 本稿では、2次元時間依存の$\cal PT$-symmetric Hamiltonian を持つ単純だが非自明な完全解法ダイレーション問題を提案する。 当システムは当初、非破壊の$\cal PT$-symmetric相に設定され、後にいわゆる例外点を越えて、壊れた$\cal PT$-symmetric相に入る。 この系では、拡張ハミルトニアンと$\cal pt$-symmetric 系の進化が解析的に研究されている。 以上の結果から, 例外点がtextit{time-dependent} システムにはあまり関連がないことが明らかとなった。

The dilation method is a practical way to experimentally simulate non-Hermitian, especially $\cal PT$-symmetric quantum systems. However, the time-dependent dilation problem cannot be explicitly solved in general. In this paper, we present a simple yet non-trivial exactly solvable dilation problem with two dimensional time-dependent $\cal PT$-symmetric Hamiltonian. Our system is initially set in the unbroken $\cal PT$-symmetric phase and later goes across the so-called exceptional point and enters the broken $\cal PT$-symmetric phase. For this system, the dilated Hamiltonian and the evolution of $\cal PT$-symmetric system are analytically worked out. Our result clearly showed that the exceptional points do not have much physical relevance in a \textit{time-dependent} system.
翻訳日:2023-04-04 03:49:01 公開日:2022-06-17
# 最適制御による空洞に結合したスピンの非古典状態発生限界の探索

Exploring the limits of the generation of non-classical states of spins coupled to a cavity by optimal control ( http://arxiv.org/abs/2107.07992v3 )

ライセンス: Link先を確認
Quentin Ansel, Dominique Sugny, Bruno Bellomo(参考訳) スピンの集団駆動によって共通の空洞に結合したスピンの非古典状態の生成について検討する。 本稿では,最先端技術で実験的に実装できるという重要な利点を有する,一連の短コヒーレントパルスとスクイーズパルスを用いた制御戦略を提案する。 制御シーケンスのパラメータは最適化アルゴリズムによって検出される。 2と4のスピンの場合を考えると、ゴールは、明確に定義された目標状態に達するか、非古典性の測度を最大化する状態に達するかのいずれかである。 キャビティ減衰とスピンオフセットが非古典状態の生成に与える影響について論じる。 また, スクイーズフィールドが制御プロセスの効率をどの程度向上させるかについても検討した。

We investigate the generation of non-classical states of spins coupled to a common cavity by means of a collective driving of the spins. We propose a control strategy using specifically designed series of short coherent and squeezing pulses, which have the key advantage of being experimentally implementable with the state-of-the art techniques. The parameters of the control sequence are found by means of optimization algorithms. We consider the cases of two and four spins, the goal being either to reach a well-defined target state or a state maximizing a measure of non-classicality. We discuss the influence of cavity damping and spin offset on the generation of non-classical states. We also explore to which extent squeezing fields help enhancing the efficiency of the control process.
翻訳日:2023-03-22 03:02:55 公開日:2022-06-17
# コヒーレントワンウェイ量子鍵分布の簡単なセキュリティ証明

Simple security proof of coherent-one-way quantum key distribution ( http://arxiv.org/abs/2107.09329v3 )

ライセンス: Link先を確認
Rui-Qi Gao, Yuan-Mei Xie, Jie Gu, Wen-Bo Liu, Chen-Xun Weng, Bing-Hong Li, Hua-Lei Yin, Zeng-Bing Chen(参考訳) コヒーレントワンウェイ量子鍵分布(COW-QKD)は、単純な実験装置を必要とし、光子数分割攻撃に耐える能力を有し、実験的に実装されているだけでなく、商業的にも応用されている。 しかし、最近の研究では、現在のCOW-QKDシステムは安全ではなく、光ファイバー長の20km以内で秘密鍵を安全に配布できることが示されている。 本研究では,2パルス真空状態を新しいデコイシーケンスとして付加することでCOW-QKDの実現を提案する。 この提案は、オリジナルの実験的な設定と実装の単純さを維持している。 監視線上の詳細な観測を利用して位相誤差率を解析的に上限とし,コヒーレント攻撃に対して漸近的に安全である高性能COW-QKDを提供する。 これにより、100km以内でCOW-QKDが利用可能となり、さらなる応用のための理論的基盤が確立される。

Coherent-one-way quantum key distribution (COW-QKD), which requires a simple experimental setup and has the ability to withstand photon-number-splitting attacks, has been not only experimentally implemented but also commercially applied. However, recent studies have shown that the current COW-QKD system is insecure and can only distribute secret keys safely within 20 km of the optical fiber length. In this study, we propose a practical implementation of COW-QKD by adding a two-pulse vacuum state as a new decoy sequence. This proposal maintains the original experimental setup as well as the simplicity of its implementation. Utilizing detailed observations on the monitoring line to provide an analytical upper bound on the phase error rate, we provide a high-performance COW-QKD asymptotically secure against coherent attacks. This ensures the availability of COW-QKD within 100 km and establishes theoretical foundations for further applications.
翻訳日:2023-03-21 12:18:32 公開日:2022-06-17
# 4レベルRydbergシステムによる電磁誘導透過と吸収クロスオーバー

Electromagnetically induced transparency and absorption cross-over with a four-level Rydberg system ( http://arxiv.org/abs/2109.12916v2 )

ライセンス: Link先を確認
Ya\u{g}{\i}z Oyun, \"Ozg\"ur \c{C}ak{\i}r, Sevilay Sevin\c{c}li(参考訳) 電磁誘導透過 (EIT) と吸収 (EIA) は、励起経路の干渉によって生じる量子コヒーレンス現象である。 1991年のEITと1998年のEIAの最初の実現以来、これらの顕著な効果のメカニズムは広く研究されており、制御された環境では比較的容易に達成できる。 EITとEIAとライドバーグ原子の組み合わせは、多くのボディシステム、量子光学、量子情報科学など、様々な研究分野において有用である。 本稿では, 冷間CsおよびRb原子アンサンブルにおけるRydberg-EITとRydberg-EIAの効果を, 自己整合平均場アプローチによる4レベルラグ型スキームで解析する。 実験結果と一致し,EIT-EIAクロスオーバーをシミュレートする多体法を提案する。

Electromagnetically induced transparency (EIT) and absorption (EIA) are quantum coherence phenomena which result due to interference of excitation pathways. Since the first realization of EIT in 1991 and EIA in 1998, mechanisms behind these remarkable effects have been studied extensively, therefore both are relatively easily achievable in controlled environments. Combining EIT and EIA with Rydberg atoms have provided utility in various research fields such as interacting many body systems, quantum optics and quantum information science. We propose an analysis of Rydberg-EIT and Rydberg-EIA effects in cold Cs and Rb atomic ensembles in a four-level ladder type scheme with self-consistent mean field approach. Our results are consistent with experimental realizations and provide a many-body method to simulate EIT-EIA cross-over.
翻訳日:2023-03-13 12:00:54 公開日:2022-06-17
# 鳥類コンパスにおける有用性コヒーレンスに関する観察

Observations about utilitarian coherence in the avian compass ( http://arxiv.org/abs/2111.04856v2 )

ライセンス: Link先を確認
Luke D. Smith, Jean Deviers, Daniel R. Kattnig(参考訳) 鳥のコンパスは再結合ラジカル対のスピンダイナミクスに依存していると仮定されている。 量子コヒーレンスはこの過程の資源として提案されており、自然はコンパス感度の向上に有効である。 これらの自然系におけるコヒーレンスの真の機能的役割は、十分に複雑なモデルからの洞察を欠いた投機的のままである。 本稿では,最大21個の核スピンを持つ現実的に大きなラジカル対モデルについて検討する。 相対的なラジカル配向の変化により、コンパス忠実度といくつかのコヒーレンス測度の相関関係を明らかにする。 電子コヒーレンスがコンパス感度の非効率的な予測因子であることが判明する一方で、コンパス感度とグローバルコヒーレンス測度のロバストな相関が確立される。 この結果は、鳥のコンパスの量子的性質を解明する上で、現実的なモデルの重要性とコヒーレンス測度の適切な選択を示している。

It is hypothesised that the avian compass relies on spin dynamics in a recombining radical pair. Quantum coherence has been suggested as a resource to this process that nature may utilise to achieve increased compass sensitivity. To date, the true functional role of coherence in these natural systems has remained speculative, lacking insights from sufficiently complex models. Here, we investigate realistically large radical pair models with up to 21 nuclear spins, inspired by the putative magnetosensory protein cryptochrome. By varying relative radical orientations, we reveal correlations of several coherence measures with compass fidelity. Whilst electronic coherence is found to be an ineffective predictor of compass sensitivity, a robust correlation of compass sensitivity and a global coherence measure is established. The results demonstrate the importance of realistic models, and appropriate choice of coherence measure, in elucidating the quantum nature of the avian compass.
翻訳日:2023-03-09 02:07:10 公開日:2022-06-17
# 量子ゲートの普遍性をチェックするには?

How to check universality of quantum gates? ( http://arxiv.org/abs/2111.03862v6 )

ライセンス: Link先を確認
Adam Sawicki, Lorenzo Mattioli and Zolt\'an Zimbor\'as(参考訳) 2つの単純な普遍性基準を提供する。 我々の最初の基準は、$\mathcal{S}\subset G_d:=U(d)$ が普遍であることと、$\mathcal{S}$ が a $\delta$-approximate $t(d)$-design となり、$t(2)=6$ と $t(d)=4$ for $d\geq3$ となることである。 第2の普遍性基準は、$\mathcal{s}\subset g_d$ が普遍であることと、$\mathcal{s}^{t(d,t(d)}=\{u^{\otimes t(d)}\otimes \bar{u}^{\otimes t(d)}|u\in \mathcal{s}\}$ が$g_d^{t(d),t(d)}=\{u^{\otimes t(d)}\otimes \bar{u}^{\otimes t(d)}|u\in g_d\}$、ただし$t(2)=3$、$t(d)=2$である場合に限りである。 中心化子の等式は、それらの次元を比較することによって検証できる。

We provide two simple universality criteria. Our first criterion states that $\mathcal{S}\subset G_d:=U(d)$ is universal if and only if $\mathcal{S}$ forms a $\delta$-approximate $t(d)$-design, where $t(2)=6$ and $t(d)=4$ for $d\geq3$. Our second universality criterion says that $\mathcal{S}\subset G_d$ is universal if and only if the centralizer of $\mathcal{S}^{t(d),t(d)}=\{U^{\otimes t(d)}\otimes \bar{U}^{\otimes t(d)}|U\in \mathcal{S}\}$ is equal to the centralizer of $G_d^{t(d),t(d)}=\{U^{\otimes t(d)}\otimes \bar{U}^{\otimes t(d)}|U\in G_d\}$, where $t(2)=3$, and $t(d)=2$ for $d\geq 3$. The equality of the centralizers can be verified by comparing their dimensions.
翻訳日:2023-03-09 00:20:09 公開日:2022-06-17
# 一般的に拡張されたhermiticityにおける内部非局在性

Internal nonlocality in generally dilated Hermiticity ( http://arxiv.org/abs/2111.05270v3 )

ライセンス: Link先を確認
Minyi Huang and Ray-Kuang Lee(参考訳) フォン・ノイマンによれば、全宇宙の大域的ハミルトニアンは固有値を現実に保ち、自己整合量子論を構成するためにエルミート的である必要がある。 小さな系に環境自由度を導入するオープンシステムアプローチに加えて、小さなヒルベルト空間から拡張することで、大域的エルミートハミルトニアンを生成することもできる。 例えば、局所非エルミート的な$\cal PT$-対称系は、ネイマルク拡張により大域エルミート系とシミュレートできる。 Alice と Bob によって共有されるとき、そのような拡張されたエルミート系の内部非局所性は、最近明らかにされるが、それは2重構造のみである。 本稿では, 2次元構造が破れた場合の一般化された場合まで議論を展開する。 内部非局所性は、異なる相関画像と対応する相関境界で議論される。 本結果は,グローバル・ハーミシティにおけるシミュレーションの信頼性に関するデバイスに依存しない試験である。

According to von Neumann, the global Hamiltonian of whole universe must be Hermitian in order to keep the eigenvalues real and to construct a self-consistent quantum theory. In addition to the open system approach by introducing environmental degrees of freedom to a small system, a global Hermitian Hamiltonian can also be generated through the dilation from a small Hilbert space. For example, a local non-Hermitian $\cal PT$-symmetric system can be simulated with a global Hermitian one by the Naimark dilation. When shared by Alice and Bob, the internal nonlocality in such dilated Hermitian systems is revealed recently, but only with a two-fold structure. In this paper, we extend such a discussion to the generalized case when the two-fold structure breaks. The internal nonlocality is discussed with different correlation pictures and the corresponding correlation bounds. Our results provide a device-independent test on the reliability of the simulation in the global Hermiticity.
翻訳日:2023-03-08 17:57:17 公開日:2022-06-17
# 初期パターンを持つ自由フェルミオン状態におけるエキゾチック相関

Exotic correlation spread in free-fermionic states with initial patterns ( http://arxiv.org/abs/2112.13382v4 )

ライセンス: Link先を確認
Sudipto Singha Roy, Giovanni Ram\'irez, Silvia N. Santalla, Germ\'an Sierra, Javier Rodr\'iguez-Laguna(参考訳) 本稿では,量子クエンチ後の光円錐速度と初期状態の内部構造との関係について述べる。 考慮された状態には、短距離価結合固体、すなわち二量化状態、虹のような長距離状態が含まれる。 考慮された全てのケースにおいて、相関は1つまたはいくつかのよく定義された光円錐に広がり、それぞれがフォームファクターから読み取れる効果的な速度を示す。 興味深いことに、観測された速度はゼロからフェルミ速度までであり、有効なモーメントの分散関係から得られるとは限らない。

We describe a relation between the light-cone velocities after a quantum quench and the internal structure of the initial state, in the particular case of free fermions on a chain at half filling. The considered states include short-range valence bond solids, i.e., dimerized states, and long-range states such as the rainbow. In all the considered cases the correlations spread into one or a few well-defined light cones, each of them presenting an effective velocity which can be read from the form factor. Interestingly, we find that the observed velocities range from zero to the Fermi velocity and may not always be obtained from the dispersion relation for valid momenta.
翻訳日:2023-03-03 05:43:57 公開日:2022-06-17
# 反動共鳴に基づく原子記憶

Atomic memory based on recoil-induced resonances ( http://arxiv.org/abs/2112.14800v2 )

ライセンス: Link先を確認
Juan Carlos Chaves Capella, Alvaro Mitchell Galvao de Melo, Jesus Pavon Lopez, Jose Wellington Rocha Tabosa and Daniel Felinto Pires Barbosa(参考訳) 本研究では,冷セシウム原子の反動誘起共鳴に基づく原子記憶の詳細な理論的および実験的研究を行う。 ほぼ変性したポンプとプローブビームと2レベル原子のアンサンブルとの相互作用を考察する。 内部及び外部原子自由度の拡張ヒルベルト空間における完全な理論密度行列計算は、第一原理から、プローブ伝達を決定する過渡的および定常的応答と前方の4波混合スペクトルを得ることができる。 これら2つの信号は、ポンプとプローブビームの強度に関して、同時に摂動の順番で生成される。 しかし、試料の連続的な励起の間、それらは全く異なる方法で検出され、プローブ伝達の信号は、この研究に先立って調査の主要な焦点であるように思われる。 さらに,従来報告されていた不揮発性特性に対する簡単な解釈として,原子外自由度における光学情報の保存について検討した。 保存後の検索された信号は、2つの信号が類似の振幅を持つため、プローブ伝送と4波混合の等価な役割を示す。 プローブ伝送とフォワード4波混合スペクトルを連続励起と保存の両方で実験的に測定した。 実験的な観測は発展理論とよく一致しており、原子システムとの可逆的な光情報の交換のための新しい経路を開く。

In this work we perform a detailed theoretical and experimental investigation of an atomic memory based on recoil-induced resonance in cold cesium atoms. We consider the interaction of a nearly degenerated pump and probe beams with an ensemble of two-level atoms. A full theoretical density matrix calculation in the extended Hilbert space of the internal and external atomic degrees of freedom allows us to obtain, from first principles, the transient and stationary responses determining the probe transmission and the forward four-wave mixing spectra. These two signals are generated together at the same order of perturbation with respect to the intensities of pump and probe beams. However, during continuous excitation of the sample, they are detected in very different ways and the signal at the probe transmission appears to be considerably larger, being the main focus of investigation prior to this work. Moreover, we have investigated the storage of optical information in the atomic external degrees of freedom, which provided a simple interpretation for the previously-reported non-volatile character of this memory. The retrieved signals after storage reveal the equivalent role of probe transmission and four-wave mixing, as the two signals have similar amplitudes. Probe transmission and forward four-wave-mixing spectra were then experimentally measured for both continuous excitation and after storage. The experimental observations are in good agreement with the developed theory and open a new pathway for the reversible exchange of optical information with atomic systems.
翻訳日:2023-03-02 23:08:02 公開日:2022-06-17
# 有限帯域駆動によるハイブリッド超伝導空洞-ミクロスピン系の凝縮

Condensation in hybrid superconducting cavity-microscopic spins systems with finite-bandwidth drive ( http://arxiv.org/abs/2201.00873v2 )

ライセンス: Link先を確認
R. Au-Yeung, M. H. Szymanska, E. Ginossar(参考訳) ケルディッシュ場理論を用いて, 直接有限バンド幅非コヒーレントキャビティ駆動下での開タビス-カンミングスモデルにおける非平衡凝縮条件を求める。 実験では、凝縮遷移は微視的なスピンに結合したハイブリッド超伝導系や、他の多くの非一貫性駆動型光マッター系にも容易にアクセス可能であると期待する。 理論的解析では,ドライブのスペクトル分布をサドルポイント記述に明示的に組み込む。 インジェクション非コヒーレント光子はスピン1/2粒子間のドライブ依存の効果的なカップリングを生じさせる。 凝縮遷移は、現在正確に予測できる運転の臨界状態において生じる。 また,ハイブリッドデバイスを用いた非平衡相の量子シミュレーション実験のための重要なガイドラインを提供する。

Using Keldysh field theory, we find conditions for non-equilibrium condensation in the open Tavis-Cummings model under a direct finite-bandwidth incoherent cavity drive. Experimentally, we expect the condensation transition to be easily accessible to hybrid superconducting systems coupled to microscopic spins, as well as to many other incoherently driven light-matter systems. In our theoretical analysis, we explicitly incorporate the drive's spectral distribution into the saddle-point description. We show that the injected incoherent photons create a drive-dependent effective coupling between spin-1/2 particles. The condensation transition arises at a critical regime of driving which we can now accurately predict. Our results also provide important guidelines for future quantum simulation experiments of non-equilibrium phases with hybrid devices.
翻訳日:2023-03-02 09:38:27 公開日:2022-06-17
# 2次元光学格子におけるスピン軌道結合超低温原子のゲイン/ロス効果

Gain/loss effects on spin-orbit coupled ultracold atoms in two-dimensional optical lattices ( http://arxiv.org/abs/2201.01216v3 )

ライセンス: Link先を確認
Zhi-Cong Xu, Ziyu Zhou, Enhong Cheng, Li-Jun Lang, Shi-Liang Zhu(参考訳) トポロジカル絶縁体のシミュレーションにおけるスピン軌道結合型超低温原子の基本的な位置から, これらのシステムに対するゲイン/ロス効果は, 測定や環境への結合を考慮して評価する必要がある。 そこで, 実験により得られたスピン軌道結合超低温原子に, 成熟したゲイン/ロス技術を適用し, 対応する非エルミタン強結合モデルについて検討し, システムの諸特性に対するゲイン/ロス効果を評価し, 非ハーミティシティとスピン軌道結合の相互作用を明らかにする。 周期境界条件下では,エルミート相が位相相転移に遭遇する点ではなく,非エルミートギャップのない区間となる位相相図を解析的に求める。 また、2レベルスピン軌道結合非エルミート系における位相位相位相に対するバンド反転は必要だが十分ではないことも明らかにした。 この非エルミートモデルでは、上面と下面の2つの装束のノードループを例外ループに分割できるため、多重縮退複素バンドのチャーン数を数値計算するゲージ非依存のWilson-loop法が開発された。 開境界条件下では, 従来のバルク境界対応は非エルミート皮膚効果の欠如のため, オンサイトゲイン/ロスのみでは崩壊しないが, キラルエッジ状態の散逸は境界選択に依存しており, エッジ状態ダイナミクスの制御に利用することができる。 状態依存型原子損失の技術的アクセシビリティを考えると、このモデルは現在のコールド原子実験で実現できる。

Due to the fundamental position of spin-orbit coupled ultracold atoms in the simulation of topological insulators, the gain/loss effects on these systems should be evaluated when considering the measurement or the coupling to the environment. Here, incorporating the mature gain/loss techniques into the experimentally realized spin-orbit coupled ultracold atoms in two-dimensional optical lattices, we investigate the corresponding non-Hermitian tight-binding model and evaluate the gain/loss effects on various properties of the system, revealing the interplay of the non-Hermiticity and the spin-orbit coupling. Under periodic boundary conditions, we analytically obtain the topological phase diagram, which undergoes a non-Hermitian gapless interval instead of a point that the Hermitian counterpart encounters for a topological phase transition. We also unveil that the band inversion is just a necessary but not sufficient condition for a topological phase in two-level spin-orbit coupled non-Hermitian systems. Because the nodal loops of the upper or lower two dressed bands of the Hermitian counterpart can be split into exceptional loops in this non-Hermitian model, a gauge-independent Wilson-loop method is developed for numerically calculating the Chern number of multiple degenerate complex bands. Under open boundary conditions, we find that the conventional bulk-boundary correspondence does not break down with only on-site gain/loss due to the lack of non-Hermitian skin effect, but the dissipation of chiral edge states depends on the boundary selection, which may be used in the control of edge-state dynamics. Given the technical accessibility of state-dependent atom loss, this model could be realized in current cold-atom experiments.
翻訳日:2023-03-02 07:42:57 公開日:2022-06-17
# 変分量子固有解法の評価:ハイゼンベルクモデルへの応用

Assessment of the variational quantum eigensolver: application to the Heisenberg model ( http://arxiv.org/abs/2201.05065v2 )

ライセンス: Link先を確認
Manpreet Singh Jattana, Fengping Jin, Hans De Raedt, Kristel Michielsen(参考訳) 反強磁性ハイゼンベルクモデルの基底状態エネルギーを計算するために, ハイブリッド量子古典変動法の大規模シミュレーション結果と解析を行った。 超並列な普遍量子コンピュータシミュレータを用いて、低深度回路のアンサッツが効率よく準備可能なN\'{e}el初期状態を有利に利用し、バレンプラトーを回避し、1次元格子と2次元格子の両方で機能することを観察する。 この分析は、Ans\"{a}tze, initial parameters, and gradient-based versus gradient-free optimizationr を比較してシミュレーションに必要な決定的な要素を反映している。 熱力学的極限への外挿は、bethe ansatzによって与えられる基底状態エネルギーの解析値を正確に得る。 100量子ビットの完全機能量子コンピュータは比較的小さな誤差で基底状態エネルギーを計算することができると予測する。

We present and analyze large-scale simulation results of a hybrid quantum-classical variational method to calculate the ground state energy of the anti-ferromagnetic Heisenberg model. Using a massively parallel universal quantum computer simulator, we observe that a low-depth-circuit ansatz advantageously exploits the efficiently preparable N\'{e}el initial state, avoids potential barren plateaus, and works for both one- and two-dimensional lattices. The analysis reflects the decisive ingredients required for a simulation by comparing different ans\"{a}tze, initial parameters, and gradient-based versus gradient-free optimizers. Extrapolation to the thermodynamic limit accurately yields the analytical value for the ground state energy, given by the Bethe ansatz. We predict that a fully functional quantum computer with 100 qubits can calculate the ground state energy with a relatively small error.
翻訳日:2023-03-01 06:35:19 公開日:2022-06-17
# 捕捉イオンの個別アドレスをもたない高速マルチキュービットグローバルエンタングゲート

Fast multi-qubit global-entangling gates without individual addressing of trapped ions ( http://arxiv.org/abs/2201.06959v2 )

ライセンス: Link先を確認
Kaizhao Wang, Jing-Fan Yu, Pengfei Wang, Chunyang Luan, Jing-Ning Zhang, and Kihwan Kim(参考訳) 閉じ込められたイオン系の絡み合い操作を高い忠実度で高速化する方法を提案し,検討する。 まず,トラップ周波数の制限を伴わずに2量子ゲートの速度を向上する手法を見出した。 次に,二つの量子ビットを同時に絡める高速ゲート方式について検討する。 ゲート動作のためのレーザビームに多重周波数成分を適用する方法を適用する。 特に、結合からキャリア遷移への無限項を避けるために、ここでは位相非感受性ゲートスキームに焦点を当てる。 本研究では,ラム・ディッケパラメータの2次項を含むことで,ラム・ディッケ近似の限界を超える運動モードの大きな励起効果を慎重に検討する。 個別のアドレス要求を伴わないマルチキュービットグローバルアンタリングゲートの速度制限について検討した。 さらに, 位相非感応ゲート方式の安定化が難しい初期運動位相の変動に対して, ゲートを不感にすることができる。

We propose and study ways speeding up of the entangling operations in the trapped ions system with high fidelity. First, we find a scheme to increase the speed of a two-qubit gate without the limitation of trap frequency, which was considered as the fundamental limit. Second, we study the fast gate scheme for entangling more than two qubits simultaneously. We apply the method of applying multiple frequency components on laser beams for the gate operations. In particular, in order to avoid infinite terms from the coupling to carrier transition, we focus on the phase-insensitive gate scheme here. We carefully study the effect of large excitation of motional mode beyond the limit of Lamb-Dicke approximation by including up to second order terms of the Lamb-Dicke parameter. We study the speed limit of multi-qubit global entangling gates without individual addressing requirements. Furthermore, our gates can be made insensitive to the fluctuation of initial motional phases which are difficult to stabilise in the phase-insensitive gate scheme.
翻訳日:2023-02-28 20:48:19 公開日:2022-06-17
# 二重ユニタリ量子回路の構成とエルゴディディディティ特性

Construction and the ergodicity properties of dual unitary quantum circuits ( http://arxiv.org/abs/2201.07768v3 )

ライセンス: Link先を確認
M\'arton Borsi and Bal\'azs Pozsgay(参考訳) 基本量子ゲートが二重ユニタリであるブロックワーク型の1次元量子回路を考える。 そのようなモデルは解くことができ、無限温度アンサンブルの動的相関関数は正確に計算できる。 我々は,双対ユニタリゲートの既存の構成を概観し,これらをいくつかのケースで新しいアイデアで補う。 本稿では、量子情報理論、AdS/CFT対応のためのテンソルネットワーク(ホログラフィックエラー訂正符号)、古典的組合せ設計(直交ラテン方形)、平面代数、ヤン・バクスター写像など、物理学や数学の様々なトピックとの関係について論じる。 その後、局所ゲートが置換行列であるような双対ユニタリモデルの特殊クラスのエルゴーディシティ特性を考える。 非エルゴード的行動は、一部位の相関関数が完全にカオス的である場合(完全に熱化)であっても、多部位の相関関係に現れうる。 また、完全テンソルからなる回路についても論じる。 それらは局所的に最もカオス的で最もスクランブルな回路として現れるが、しかしながら非エルゴード性の大域的な兆候を示すことができる: 完全テンソルが有限体上の線型写像から構成されているなら、結果として得られる回路は予期せぬ短時間で正確な量子復調を示すことができる。 このようなモデルにおける再発時間の簡単な数学的処理は、Roland Bacher と Denis Serre の Appendix で紹介されている。

We consider one dimensional quantum circuits of the brickwork type, where the fundamental quantum gate is dual unitary. Such models are solvable: the dynamical correlation functions of the infinite temperature ensemble can be computed exactly. We review various existing constructions for dual unitary gates and we supplement them with new ideas in a number of cases. We discuss connections with various topics in physics and mathematics, including quantum information theory, tensor networks for the AdS/CFT correspondence (holographic error correcting codes), classical combinatorial designs (orthogonal Latin squares), planar algebras, and Yang-Baxter maps. Afterwards we consider the ergodicity properties of a special class of dual unitary models, where the local gate is a permutation matrix. We find an unexpected phenomenon: non-ergodic behaviour can manifest itself in multi-site correlations, even in those cases when the one-site correlation functions are fully chaotic (completely thermalizing). We also discuss the circuits built out of perfect tensors. They appear locally as the most chaotic and most scrambling circuits, nevertheless they can show global signs of non-ergodicity: if the perfect tensor is constructed from a linear map over finite fields, then the resulting circuit can show exact quantum revivals at unexpectedly short times. A brief mathematical treatment of the recurrence time in such models is presented in the Appendix by Roland Bacher and Denis Serre.
翻訳日:2023-02-28 10:11:54 公開日:2022-06-17
# 同時確率性

Simultaneous Stoquasticity ( http://arxiv.org/abs/2202.08863v2 )

ライセンス: Link先を確認
Jacob Bringewatt, Lucas T. Brady(参考訳) 確率的ハミルトニアンは局所ハミルトニアン問題の計算複雑性と古典的シミュラビリティの研究に重要な役割を果たしている。 特に、確率ハミルトニアンはモンテカルロ法を用いて直接シミュレーションすることができる。 2つ以上のハミルトニアンがユニタリ変換によって同時に確率的になるかどうかという問題に対処する。 この問題は、量子アドバンテージがアニールに関与したハミルトニアンの確率性に関連している量子アニーリングをシミュレートする複雑さに重要な意味を持つ。 ほとんどすべての問題に対してそのようなユニタリは存在せず、そのようなユニタリの存在を決定する問題は、初期ハミルトニアンおよび変換ハミルトニアンの行列要素における多項式(in)等式系の解が存在するかどうかを識別することと同値であることを示した。 そのような方程式の系を解くことはNPハードである。 一般化ブロッホベクトルの集合という観点から,この問題の幾何学的理解を強調する。

Stoquastic Hamiltonians play a role in the computational complexity of the local Hamiltonian problem as well as the study of classical simulability. In particular, stoquastic Hamiltonians can be straightforwardly simulated using Monte Carlo techniques. We address the question of whether two or more Hamiltonians may be made simultaneously stoquastic via a unitary transformation. This question has important implications for the complexity of simulating quantum annealing where quantum advantage is related to the stoquasticity of the Hamiltonians involved in the anneal. We find that for almost all problems no such unitary exists and show that the problem of determining the existence of such a unitary is equivalent to identifying if there is a solution to a system of polynomial (in)equalities in the matrix elements of the initial and transformed Hamiltonians. Solving such a system of equations is NP-hard. We highlight a geometric understanding of this problem in terms of a collection of generalized Bloch vectors.
翻訳日:2023-02-25 12:39:54 公開日:2022-06-17
# CONGESTモデルにおける分散量子クエリのためのフレームワーク

A Framework for Distributed Quantum Queries in the CONGEST Model ( http://arxiv.org/abs/2202.10969v2 )

ライセンス: Link先を確認
Joran van Apeldoorn, Tijn de Vos(参考訳) 量子集束モデル(quantum congest model)は集束モデルの変種であり、メッセージは$o(\log(n))$ qubitsで構成される。 並列クエリの概念を用いて、量子CONGESTで量子クエリアルゴリズムを実装するための一般的なフレームワークを提供する。 ネットワーク上でデータが分散されている場合と、ネットワークが入力を定義する理論的問題をグラフ化する場合の2つの設定で、分散量子クエリのフレームワークを適用します。 第1回はやや異例だが、結果はほぼ直接的だ。 第2の方法は,より従来的なコンジェストモデルですが,結果を得るためには,いくつかの古典的なコンジェストステップが必要です。 分散データを用いた設定では、ネットワーク直径が$D$の$\tilde{O}(\sqrt{kD}+D)$ラウンドを使用して、ネットワークが$k$日付の1つでミーティングをスケジュールする方法を示す。 すべてのノードが$k$の数値のリストを持っていれば、$\tilde O(k^{2/3}D^{1/3}+D)$のラウンドで重複を見つけることができる。 また, [arxiv:quant-ph/9802040] で考慮される二者構成から一般ネットワークへの分散deutsch-jozsa問題のプロトコルを一般化し, 密集した古典的プロトコルと厳密な量子プロトコルを分離した。 入力がネットワーク構造自身である場合、Le Gall と Magniez [arXiv:1804.02917] の$O(\sqrt{nD})$ round diameter 計算アルゴリズムをほぼ直接復元する。 また、同じラウンド数の半径を計算し、$\tilde{O}(D+D^{3/2}/\epsilon)$ラウンドの平均偏心度を$\epsilon$-additive approximation(英語版)を与える。 最後に、サイクル検出とガース計算の問題を量子スピードアップする。 グラフが少なくとも$O(k+(kn)^{1/2-1/\Theta(k)})$ラウンドで長さのサイクルを持つかどうかを検出する。 桁計算では、桁$g$を持つグラフに対して$\tilde{o}(g+(gn)^{1/2-1/\theta(g)})$ roundアルゴリズムを与える。

The Quantum CONGEST model is a variant of the CONGEST model, where messages consist of $O(\log(n))$ qubits. We give a general framework for implementing quantum query algorithms in Quantum CONGEST, using the concept of parallel-queries. We apply our framework for distributed quantum queries in two settings: when data is distributed over the network, and graph theoretical problems where the network defines the input. The first is slightly unusual in CONGEST but our results follow almost directly. The second is more traditional for the CONGEST model but here we require some classical CONGEST steps to get our results. In the setting with distributed data, we show how a network can schedule a meeting in one of $k$ dates using $\tilde{O}(\sqrt{kD}+D)$ rounds, with $D$ the network diameter. We also give an algorithm for element distinctness: if all nodes together hold a list of $k$ numbers, they can find a duplicate in $\tilde O(k^{2/3}D^{1/3}+D)$ rounds. We also generalize the protocol for the distributed Deutsch-Jozsa problem from the two-party setting considered in [arXiv:quant-ph/9802040] to general networks, giving a novel separation between exact classical and exact quantum protocols in CONGEST. When the input is the network structure itself, we almost directly recover the $O(\sqrt{nD})$ round diameter computation algorithm of Le Gall and Magniez [arXiv:1804.02917]. We also compute the radius in the same number of rounds, and give an $\epsilon$-additive approximation of the average eccentricity in $\tilde{O}(D+D^{3/2}/\epsilon)$ rounds. Finally, we give quantum speedups for the problems of cycle detection and girth computation. We detect whether a graph has a cycle of length at most $k$ in $O(k+(kn)^{1/2-1/\Theta(k)})$ rounds. For girth computation we give an $\tilde{O}(g+(gn)^{1/2-1/\Theta(g)})$ round algorithm for graphs with girth $g$, beating the known classical lower bound.
翻訳日:2023-02-24 05:50:36 公開日:2022-06-17
# 量子場の超高速測定による時空曲率

Spacetime curvature from ultra rapid measurements of quantum fields ( http://arxiv.org/abs/2202.11108v2 )

ライセンス: Link先を確認
T. Rick Perche and Ahmed Shalabi(参考訳) 量子場に超高速に結合した粒子検出器の励起確率の観点から時空の曲率を記述する。 より正確には、曲面背景の実際のスカラー量子場に結合したスミア型UDW検出器の励起確率の拡張を提供する。 ワイトマン関数の短距離展開を用いて、ミンコフスキー時空の遷移確率として検出器の励起確率と、曲率テンソルの関数として記述された補正項と検出器サイズを表す。 曲線時空の励起確率をその平坦なアナログと比較すると、異なる形の検出器の物理的に測定可能な励起確率の関数としてリッチおよびリーマン曲率テンソルの成分を表現できる。

We write the curvature of spacetime in terms of the excitation probability of particle detectors ultra-rapidly coupled to a quantum field. More precisely, we provide an expansion for the excitation probability of a smeared UDW detector delta-coupled to a real scalar quantum field in a curved background. Using a short distance expansion for the Wightman function, we express the excitation probability of a detector as the transition probability in Minkowski spacetime plus correction terms written as a function of the curvature tensors and the detector size. Comparing the excitation probability in curved spacetimes with its flat analog, we are able to express the components of the Ricci and Riemann curvature tensors as a function of physically measurable excitation probabilities of different shaped detectors.
翻訳日:2023-02-24 05:41:07 公開日:2022-06-17
# 20モードユニバーサル量子フォトニックプロセッサ

20-Mode Universal Quantum Photonic Processor ( http://arxiv.org/abs/2203.01801v3 )

ライセンス: Link先を確認
Caterina Taballione, Malaquias Correa Anguita, Michiel de Goede, Pim Venderbosch, Ben Kassenberg, Henk Snijders, Narasimhan Kannan, Devin Smith, J\"orn P. Epping, Reinier van der Meer, Pepijn W. H. Pinkse, Hans van den Vlekkert, Jelmer J. Renema(参考訳) 集積フォトニクスは光量子コンピューティングに不可欠な技術である。 universal, phase-stable, reconfigurable multimode interferometers (quantum photonic processor) はフォトニック量子状態の操作を可能にし、様々なアーキテクチャにおけるフォトニック量子コンピュータの主要なコンポーネントの一つである。 本稿では,これまでで最大の量子フォトニックプロセッサの実現について報告する。 プロセッサは20個の入力モードにおいて任意のユニタリ変換を可能とし、(f_{haar} = 97.4 \%$, $f_{perm} = 99.5 \%$), 平均光損失2.9 db/mode, 高可視性量子干渉(v_{hom} = 98 \%$)の忠実度を持つ。 プロセッサはsi$_3$n$_4$導波路で実現される。

Integrated photonics is an essential technology for optical quantum computing. Universal, phase-stable, reconfigurable multimode interferometers (quantum photonic processors) enable manipulation of photonic quantum states and are one of the main components of photonic quantum computers in various architectures. In this paper, we report the realization of the largest quantum photonic processor to date. The processor enables arbitrary unitary transformations on its 20 input modes with a fidelity of ($F_{Haar} = 97.4 \%$, $F_{Perm} = 99.5 \%$), an average optical loss of 2.9 dB/mode, and high-visibility quantum interference ($V_{HOM} = 98 \%$). The processor is realized in Si$_3$N$_4$ waveguides.
翻訳日:2023-02-23 05:44:53 公開日:2022-06-17
# 組合せ最適化のためのガウスニュートン型量子アルゴリズム

A Gauss-Newton based Quantum Algorithm for Combinatorial Optimization ( http://arxiv.org/abs/2203.13939v4 )

ライセンス: Link先を確認
Mitsuharu Takeori, Takahiro Yamamoto, Ryutaro Ohira, Shungo Miyabe(参考訳) 本研究では,最適条件下で局所極小あるいは高原に閉じ込められることなく,最適解の1つに急速に収束する組合せ最適化問題に対するgauss-newton based quantum algorithm (gnqa)を提案する。 量子最適化アルゴリズムは何十年にもわたって研究されてきたが、近年では変分量子アルゴリズムが研究されている。 このアプローチは、最適解を正確に表現するテンソル積状態と、二変数のすべての組合せを含むハミルトニアンに対して適切な関数を用いることでそれらを軽減する。 本手法の有効性を数値実験により示し, gnqaが収束特性と精度の両方において他の最適化手法よりも優れていることを示した。 最後に、量子化学や高次二項最適化など、他の問題に対するアプローチの潜在的影響について簡単に議論する。

In this work, we present a Gauss-Newton based quantum algorithm (GNQA) for combinatorial optimization problems that, under optimal conditions, rapidly converges towards one of the optimal solutions without being trapped in local minima or plateaus. Quantum optimization algorithms have been explored for decades, but more recent investigations have been on variational quantum algorithms, which often suffer from the aforementioned problems. Our approach mitigates those by employing a tensor product state that accurately represents the optimal solution, and an appropriate function for the Hamiltonian, containing all the combinations of binary variables. Numerical experiments presented here demonstrate the effectiveness of our approach, and they show that GNQA outperforms other optimization methods in both convergence properties and accuracy for all problems considered here. Finally, we briefly discuss the potential impact of the approach to other problems, including those in quantum chemistry and higher order binary optimization.
翻訳日:2023-02-20 20:38:58 公開日:2022-06-17
# オープンデータによる交通アクセス性評価

Assessing transportation accessibility equity via open data ( http://arxiv.org/abs/2206.09037v1 )

ライセンス: Link先を確認
Amirhesam Badeanlou and Andrea Araldo and Marco Diana(参考訳) 首都圏における交通のアクセシビリティ不平等を評価する手法を提案する。 この手法は、ローレンツ曲線とジーニ指数の古典的な分析ツールに基づいているが、この斬新さは、カスタマイズされたデータ処理を必要とせず、世界中のいくつかの都市に簡単に自動で適用できるという事実に留まっている。 実際、当社のエクイティメトリクスは、標準化された形式で公開されているオープンデータのみに依存して計算することができます。 私たちはこの方法と研究用トランスップを紹介します

We propose a methodology to assess transportation accessibility inequity in metropolitan areas. The methodology is based on the classic analysis tools of Lorenz curves and Gini indices, but the novelty resides in the fact that it can be easily applied in an automated way to several cities around the World, with no need for customized data treatment. Indeed, our equity metrics can be computed solely relying on open data, publicly available in standardized form. We showcase our method and study transp
翻訳日:2023-02-19 17:50:32 公開日:2022-06-17
# サイバーセキュリティにおけるチーム構築のための旗

Capture the Flag for Team Construction in Cybersecurity ( http://arxiv.org/abs/2206.08971v1 )

ライセンス: Link先を確認
Sang-Yoon Chang and Kay Yoon and Simeon Wuthier and Kelei Zhang(参考訳) さまざまな専門知識とスキルを持った個人間のチームコラボレーションは、複雑な問題を解決する上で不可欠です。 学際的な取り組みの一環として,サイバーセキュリティとエンジニアリングにおける人気のある教育・トレーニングツールであるCapture the Flag(CTF)ゲームが,チーム構築とコラボレーションの強化に与える影響について検討した。 我々は,CTFを専門知識の認識と役割割り当てのためのコンピュータ・ヒューマン・プロセスの一部として組み込むためのフレームワークを開発し,仮想チームコースに入学したサイバーセキュリティ学生を対象に,その効果を評価し,検証した。 我々のコンピュータ・ヒューマン・プロセス・フレームワークでは、CTF結果を用いたポストCTFアルゴリズムがチームを組み立て(個人をチームに割り当てる)、最初の役割の割り当てを提供し、人間ベースのチームディスカッションによって更新されます。 本稿では、CTFを組み込んだコンピュータ・ヒューマン・プロセス・フレームワークの洞察、設計選択、および分析について述べる。 学生の評価から, コンピュータ・ヒューマン・プロセス・フレームワークは, チームメンバーのバックグラウンドや専門知識を学習し, 役割を割り当てることによって, チームコラボレーションスキルの学習成果に肯定的な影響を与えることがわかった。 この経験レポートは、チームにおける専門知識の認識と役割割り当てのためのツールとしてのctfの有用性を示し、エンジニアリング学生間の効果的なチームコラボレーションのためのctfベースの議論ベースのプロセスの補完的な役割を強調している。

Team collaboration among individuals with diverse sets of expertise and skills is essential for solving complex problems. As part of an interdisciplinary effort, we studied the effects of Capture the Flag (CTF) game, a popular and engaging education/training tool in cybersecurity and engineering, in enhancing team construction and collaboration. We developed a framework to incorporate CTF as part of a computer-human process for expertise recognition and role assignment and evaluated and tested its effectiveness through a study with cybersecurity students enrolled in a Virtual Teams course. In our computer-human process framework, the post-CTF algorithm using the CTF outcomes assembles the team (assigning individuals to teams) and provides the initial role assignments, which then gets updated by human-based team discussions. This paper shares our insights, design choices/rationales, and analyses of our CTF-incorporated computer-human process framework. The students' evaluations revealed that the computer-human process framework was helpful in learning about their team members' backgrounds and expertise and assigning roles accordingly made a positive impact on the learning outcomes for the team collaboration skills in the course. This experience report showcases the utility of CTF as a tool for expertise recognition and role assignments in teams and highlights the complementary roles of CTF-based and discussion-based processes for an effective team collaboration among engineering students.
翻訳日:2023-02-19 17:50:23 公開日:2022-06-17
# 影響を考慮したデータリライジングによる不便なフェアネスの達成

Achieving Fairness at No Utility Cost via Data Reweighing with Influence ( http://arxiv.org/abs/2202.00787v2 )

ライセンス: Link先を確認
Peizhao Li and Hongfu Liu(参考訳) アルゴリズムガバナンスの急速な発展に伴い、公正性は意図しない差別を抑制するために機械学習モデルに必須の性質となっている。 本稿では,公平性を達成するための前処理の側面に着目し,トレーニング段階におけるサンプルの重み付けのみを調整するデータ緩和手法を提案する。 各(サブ)グループに一様重みを割り当てる従来のリウィーディング手法とは異なり、フェアネス関連量と予測ユーティリティに関して、各トレーニングサンプルの影響をきめ細やかにモデル化し、公正度と実用性の両方の制約による影響に基づいて個々のウェイトを算出する。 実験結果から,従来手法は実用性に欠けるコストで公正性を達成できたが,有意義な利点として,トレードオフを実証的に解放し,平等な機会に無償で公正性を得ることができた。 バニラ分類器と標準訓練プロセスによるコストフリーフェアネスを実世界の複数の表型データセットのベースライン法と比較した。 コードはhttps://github.com/brandeis-machine-learning/influence-fairness。

With the fast development of algorithmic governance, fairness has become a compulsory property for machine learning models to suppress unintentional discrimination. In this paper, we focus on the pre-processing aspect for achieving fairness, and propose a data reweighing approach that only adjusts the weight for samples in the training phase. Different from most previous reweighing methods which usually assign a uniform weight for each (sub)group, we granularly model the influence of each training sample with regard to fairness-related quantity and predictive utility, and compute individual weights based on influence under the constraints from both fairness and utility. Experimental results reveal that previous methods achieve fairness at a non-negligible cost of utility, while as a significant advantage, our approach can empirically release the tradeoff and obtain cost-free fairness for equal opportunity. We demonstrate the cost-free fairness through vanilla classifiers and standard training processes, compared to baseline methods on multiple real-world tabular datasets. Code available at https://github.com/brandeis-machine-learning/influence-fairness.
翻訳日:2023-02-19 14:37:21 公開日:2022-06-17
# 構造のない検証可能な量子優位性

Verifiable Quantum Advantage without Structure ( http://arxiv.org/abs/2204.02063v2 )

ライセンス: Link先を確認
Takashi Yamakawa, Mark Zhandry(参考訳) 確率1: - BQPマシンでは解けるが、BPPマシンでは解けないNP探索問題が存在する。 -古典的敵に対して一方向的で、衝突耐性さえあるが、量子的に容易に反転する関数が存在する。 同様の分離は、デジタル署名とCPAセキュアな公開鍵暗号(後者は古典的にCPAセキュアな暗号スキームの仮定を必要とする)に当てはまる。 興味深いことに、分離はPRGのような他の暗号オブジェクトの場合に必ずしも拡張されない。 同一の敵に対して、証明は非相互作用的であり、一方、一様でない敵に対しては、証明は2つのメッセージ公開コインである。 -我々の結果はアーロンソン・アンバニス予想と矛盾しないように見える。 この予想を仮定すると、再び最小の相互作用のラウンドで、公に検証可能な証明可能なランダム性が存在する。 ランダムオラクルをSHA2のような具体的な暗号ハッシュ関数に置き換えることで、上記の結果の可算最小化が得られる。 以前の類似の結果はすべて、高度に構造化されたオラクルやクリプトマニア以降の代数的仮定の観点から、実質的な構造を必要とする。

We show the following hold, unconditionally unless otherwise stated, relative to a random oracle with probability 1: - There are NP search problems solvable by BQP machines but not BPP machines. - There exist functions that are one-way, and even collision resistant, against classical adversaries but are easily inverted quantumly. Similar separations hold for digital signatures and CPA-secure public key encryption (the latter requiring the assumption of a classically CPA-secure encryption scheme). Interestingly, the separation does not necessarily extend to the case of other cryptographic objects such as PRGs. - There are unconditional publicly verifiable proofs of quantumness with the minimal rounds of interaction: for uniform adversaries, the proofs are non-interactive, whereas for non-uniform adversaries the proofs are two message public coin. - Our results do not appear to contradict the Aaronson-Ambanis conjecture. Assuming this conjecture, there exist publicly verifiable certifiable randomness, again with the minimal rounds of interaction. By replacing the random oracle with a concrete cryptographic hash function such as SHA2, we obtain plausible Minicrypt instantiations of the above results. Previous analogous results all required substantial structure, either in terms of highly structured oracles and/or algebraic assumptions in Cryptomania and beyond.
翻訳日:2023-02-18 05:36:18 公開日:2022-06-17
# 2量子クリフォード+T作用素の生成と関係

Generators and relations for 2-qubit Clifford+T operators ( http://arxiv.org/abs/2204.02217v2 )

ライセンス: Link先を確認
Xiaoning Bian and Peter Selinger(参考訳) 2つの量子ビット上のクリフォード+T作用素群に対する生成子によるプレゼンテーションと関係を与える。 この証明は、グレイリンの初期の結果に対するライデマイスター=シュライアーの定理の応用に依存しており、証明助手agdaで正式に証明されている。

We give a presentation by generators and relations of the group of Clifford+T operators on two qubits. The proof relies on an application of the Reidemeister-Schreier theorem to an earlier result of Greylyn, and has been formally verified in the proof assistant Agda.
翻訳日:2023-02-18 05:27:05 公開日:2022-06-17
# ひずみmoir\'e格子の半古典量子化条件

Semiclassical quantization conditions in strained moir\'e lattices ( http://arxiv.org/abs/2206.03349v2 )

ライセンス: Link先を確認
Simon Becker and Jens Wittsten(参考訳) 本稿では、行列値のシンボルに対してスカラーシンボルに対してボーア・ソマーフェルト則を一般化するWKB構成を行う。 本研究では,mele と timmel が最近導入したモデルにおいて,ひずみ2次元ハニカム格子などのmoir\'eヘテロ構造におけるほぼ平坦なバンドの存在について検討する。

In this article we perform a WKB construction that generalizes the Bohr-Sommerfeld rule for scalar symbols at a potential well to matrix-valued symbols. As an application, we study the existence of approximately flat bands in moir\'e heterostructures such as strained two-dimensional honeycomb lattices in a model recently introduced by Mele and Timmel.
翻訳日:2023-02-10 06:45:31 公開日:2022-06-17
# グラフェンナノ構造の光学的特性による複数ラマンモードのサイレント化

Silent-enhancement of multiple Raman modes via tuning optical properties of graphene nanostructures ( http://arxiv.org/abs/2206.05405v2 )

ライセンス: Link先を確認
Asli Gencaslan, Taner Tarik Aytas, Hira Asif, Mehmet Emre Tasgin, Ramazan Sahin(参考訳) ラマン散乱信号は、プラズモニックナノ構造(表面強化ラマン散乱素子)を介してサブ波長ホットスポットへの入射フィールドの局在化によって強化することができる。 近年、量子オブジェクトによるSERS信号のさらなる増強は、この提案が振動モードの変更や分子の分解を防ぐホットスポット強度(\textit{silent-enhancement})を増大させることなく[1]によって提案されている。 ストークスシフトラマンモードの非線形応答における経路干渉を利用する。 そこで本研究では,複数の振動モードを信号対雑音比で同時に検出できる \textit{silent-enhancement} 因子のスペクトル位置をチューニングするために,この現象を拡張した。 これは2つの異なるスキームで実現することができる。 (i)量子エミッタを用いたグラフェン構造 (ii) \cite{postaci2018} では、量子エミッタをグラフェン球状ナノシェルに置換する。 加えて、後者の系は定常状態において完全に解ける。 これらの提案は、従来の非線形ラマン過程を保存できるだけでなく、グラフェンの波長可変光学的性質による複数のラマンモード(サイレント)を強化する柔軟性を提供する。

Raman scattering signal can be enhanced through localization of incident field into sub-wavelength hot-spots through plasmonic nano-structures (Surface-enhanced Raman scattering-SERS). Recently, further enhancement of SERS signal via quantum objects are proposed by [1] without increasing the hot-spot intensity (\textit{silent-enhancement}) where this suggestion prevents the modification of vibrational modes or the breakdown of molecules. The method utilizes path interference in the non-linear response of Stokes-shifted Raman modes. In this work, we extend this phenomenon to tune the spectral position of \textit{silent-enhancement} factor where the multiple vibrational modes can be detected with a better signal-to-noise ratio, simultaneously. This can be achieved in two different schemes by employing either (i) graphene structures with quantum emitters or (ii) replacing quantum emitters with graphene spherical nano-shell in \cite{Postaci2018}. In addition, the latter system is exactly solvable in the steady-state. These suggestions not only preserve conventional non-linear Raman processes but also provide flexibility to enhance (silently) multiple vibrational Raman modes due to the tunable optical properties of graphene.
翻訳日:2023-02-09 20:36:21 公開日:2022-06-17
# 高損失チャネルに対するコヒーレント一方向量子鍵分布の改善

Improved coherent one-way quantum key distribution for high-loss channels ( http://arxiv.org/abs/2206.08490v1 )

ライセンス: Link先を確認
Emilien Lavie and Charles C. -W. Lim(参考訳) Coherent One-way (COW) quantum key distribution (QKD) は、現在市販の製品にデプロイされている非常に実用的な量子通信プロトコルである。 しかし、COW-QKDのセキュリティは単純で広く使われているにもかかわらず、まだ未解決の問題である。 これは、サイン間位相分布に基づくユニークなセキュリティ機能のため、標準のセキュリティ証明技術を使用して分析するのが非常に困難である。 ここで,この問題を克服するために,cow-qkdの簡単な変種を示し,無限鍵極限における安全性を証明する。 提案した修正は、各符号化信号に続く追加の真空テール信号と、受動測定ベース選択のための平衡ビームスプリッタのみを含む。 注目すべきことに、このプロトコルの鍵レートは、既存のCOW-QKD鍵レートとコヒーレントステートBB84プロトコルの鍵レートに匹敵する。 その結果,COW-QKDシステムの高損失光ネットワークへの安全な展開は,ハードウェアやソフトウェアに最小限の適応で実現可能であることが示唆された。

The coherent one-way (COW) quantum key distribution (QKD) is a highly practical quantum communication protocol that is currently deployed in off-the-shelves products. However, despite its simplicity and widespread use, the security of COW-QKD is still an open problem. This is largely due to its unique security feature based on inter-signal phase distribution, which makes it very difficult to analyze using standard security proof techniques. Here, to overcome this problem, we present a simple variant of COW-QKD and prove its security in the infinite-key limit. The proposed modifications only involve an additional vacuum tail signal following every encoded signal and a balanced beam-splitter for passive measurement basis choice. Remarkably, the resulting key rate of our protocol is comparable with both the existing upper-bound on COW-QKD key rate and the secure key rate of the coherent-state BB84 protocol. Our findings therefore suggest that the secured deployment of COW-QKD systems in high loss optical networks is indeed feasible with minimal adaptations applied to its hardware and software.
翻訳日:2023-02-09 02:10:58 公開日:2022-06-17
# ダイヤモンド中のマグネシウム空孔光中心

Magnesium-vacancy optical centers in diamond ( http://arxiv.org/abs/2206.08670v1 )

ライセンス: Link先を確認
Emilio Corte, Greta Andrini, Elena Nieto Hern\'andez, Vanna Pugliese, \^Angelo Costa, Goele Magchiels, Janni Moens, Shandirai Malven Tunhuma, Renan Villarreal, Lino M.C. Pereira, Andr\'e Vantomme, Jo\~ao Guilherme Correia, Ettore Bernardi, Paolo Traina, Ivo Pietro Degiovanni, Ekaterina Moreva, Marco Genovese, Sviatoslav Ditalia Tchernij, Paolo Olivero, Ulrich Wahl, Jacopo Forneris(参考訳) 人工ダイヤモンドに30-100keV Mg+イオンを注入して作製した光学活性欠陥中心の構造と発光特性を, 初めて体系的に評価した。 MgV錯体の分裂空孔構造に適合する部位において,Mg原子の大きな分画(30~42%)を同定し,室温および800 {\deg}Cで実施した27Mg注入の放出チャネル技術を用いてMg関連欠陥の構造構造を調べた。 置換部位ではMg原子のごく一部 (~13-17%) が検出された。 光ルミネッセンス放射は, 5Kから300Kの温度範囲において, アンサンブルと個々の欠陥レベルの両方で研究され, MgV関連発光特性の詳細な画像を提供し, 未報告のスペクトル特性の出現を明らかにした。 また、mgv中心の光励起能は、光励起波長の機能として研究され、光安定および高輝度発光の最適条件を同定できるようになった。 この結果は、予備実験データと文献で利用可能な理論モデルという文脈で論じられ、量子情報処理への応用のためにMgV中心のチューナブルな性質の利用をアピールする。

We provide the first systematic characterization of the structural and photoluminescence properties of optically active defect centers fabricated upon implantation of 30-100 keV Mg+ ions in artificial diamond. The structural configurations of Mg-related defects were studied by the emission channeling technique for 27Mg implantations performed both at room-temperature and 800 {\deg}C, which allowed the identification of a major fraction of Mg atoms (~30-42%) in sites which are compatible with the split-vacancy structure of the MgV complex. A smaller fraction of Mg atoms (~13-17%) was found on substitutional sites. The photoluminescence emission was investigated both at the ensemble and individual defect level in a temperature range comprised between 5 K and 300 K, offering a detailed picture of the MgV-related emission properties and revealing the occurrence of previously unreported spectral features. The optical excitability of the MgV center was also studied as a function of the optical excitation wavelength enabling to identify the optimal conditions for photostable and intense emission. The results are discussed in the context of the preliminary experimental data and the theoretical models available in the literature, with appealing perspectives for the utilization of the tunable properties of the MgV center for quantum information processing applications.
翻訳日:2023-02-09 02:09:45 公開日:2022-06-17
# aharonov-bohm干渉における局所位相のゲージ不変性:量子電磁力学的アプローチ

Gauge invariance of the local phase in the Aharonov-Bohm interference: quantum electrodynamic approach ( http://arxiv.org/abs/2206.08620v1 )

ライセンス: Link先を確認
Kicheon Kang(参考訳) Aharonov-Bohm (AB) 効果では、外部電磁場との局所的な重なりがないときに荷電粒子に対して干渉線が観測される。 この相互作用の明らかな非局所性の概念や可能性の重要な役割は、最近議論され、議論されている。 量子電磁力学のアプローチは、電荷と外部磁場の間の相互作用の特性の顕微鏡画像を提供する。 磁気AB効果における局所位相シフトのゲージ不変性は, 通常の半古典ベクトルポテンシャルを用いた結果とは対照的である。 本研究は磁気AB効果の局所性の問題を解決することができる。 しかし、この問題は仮想スカラー光子が必須の役割を果たす電気的な光子の場合と同じ方法では解決されない。

In the Aharonov-Bohm (AB) effect, interference fringes are observed for a charged particle in the absence of the local overlap with the external electromagnetic field. This notion of the apparent nonlocality of the interaction or the significant role of the potential has recently been challenged and are under debate. The quantum electrodynamic approach provides a microscopic picture of the characteristics of the interaction between a charge and an external field. We explicitly show the gauge invariance of the local phase shift in the magnetic AB effect, which is in contrast to the results obtained using the usual semiclassical vector potential. Our study can resolve the issue of the locality in the magnetic AB effect. However, the problem is not solved in the same way in the electric counterpart wherein virtual scalar photons play an essential role.
翻訳日:2023-02-09 02:08:51 公開日:2022-06-17
# 質量変形SYKにおける遅れ熱化

Delayed Thermalization in Mass-Deformed SYK ( http://arxiv.org/abs/2206.08599v1 )

ライセンス: Link先を確認
Dillip Kumar Nandy, Tilen Cadez, Barbara Dietz, Alexei Andreanov, Dario Rosa(参考訳) 質量変形したsykモデルの加熱特性を,多体局在のオールツーオールトイモデルとして,全フォック空間のただ一部に固有状態がエルゴード的に拡張されたパラメータの配置で検討した。 我々の数値結果は、かなり遅れているものの、この領域にはまだ熱化が存在するという仮説を強く支持している。 以上より,多体局在を厳密なフォック空間局在と解釈すべきであることを示す最近の研究を付け加えた。

We study the thermalizing properties of the mass-deformed SYK model, in a regime of parameters where the eigenstates are ergodically extended over just portions of the full Fock space, as an all-to-all toy model of many-body localization. Our numerical results strongly support the hypothesis that, although considerably delayed, thermalization is still present in this regime. Our results add to recent studies indicating that many-body localization should be interpreted as a strict Fock-space localization.
翻訳日:2023-02-09 02:08:41 公開日:2022-06-17
# 恒星トポロジーレジスタの量子状態トモグラフィのための最適かつロバストな実験設計

Optimal and robust experiment design for quantum state tomography of star-topology register ( http://arxiv.org/abs/2206.08581v1 )

ライセンス: Link先を確認
Ran Liu, Yanjun Hou, Ze Wu, Hui Zhou, Jiahui Chen, Xi Chen, Zhaokai Li, Xinhua Peng(参考訳) 量子状態トモグラフィーは、量子システムの検証とベンチマークにおいて重要な役割を果たすが、量子レジスタの制御可能性と測定が制限されている場合、難解なタスクである。 本稿では、周囲スピンの個々のアドレス性が実現不可能な恒星トポロジーレジスタの量子状態トモグラフィーについて検討する。 恒星対称性に基づいてヒルベルト空間を分解し、トモグラフィの複雑さを緩和し、最小の測定回数でコンパクトな戦略を設計する。 パラメータ化量子回路を情報伝達に最適化することにより、測定誤差に対するロバスト性も向上する。 さらに、この手法を10スピン星トポロジーレジスタに適用し、大規模システムの特徴付け能力を示す。 この結果は、量子制御と測定の能力に制約のある量子システムの将来の研究に役立つ。

While quantum state tomography plays a vital role in the verification and benchmarking of quantum systems, it is an intractable task if the controllability and measurement of quantum registers are constrained. In this paper, we study the quantum state tomography of star-topology registers, in which the individual addressability of peripheral spins is infeasible. Based on the star-symmetry, we decompose the Hilbert space to alleviate the complexity of tomography and design a compact strategy with minimum number of measurements. By optimizing the parameterized quantum circuit for information transfer, the robustness against measurement errors is also improved. Furthermore, we apply this method to a 10-spin star-topology register and demonstrate its ability to characterize large-scale systems. Our results can help future investigations of quantum systems with constrained ability of quantum control and measurement.
翻訳日:2023-02-09 02:08:11 公開日:2022-06-17
# ユニタリ作用素の線形結合を伴う原子核観測量の量子計算

Quantum computation of nuclear observables involving linear combination of unitary operators ( http://arxiv.org/abs/2206.08510v1 )

ライセンス: Link先を確認
Pooja Siwach and P. Arumugam(参考訳) 本稿では、興味を持つ作用素が最初にユニタリの線形結合で分解される核観測器の量子計算について述べる。 次に、期待値を計算するために、アダマールテストとユニタリ法(LCU)に基づく線形結合を利用する。 これらの手法を重陽子四極子モーメントの計算に応用する。 結果は、jordan-wigner変換とグレーコードエンコーディングと比較される。 量子コンピュータ上で観測可能量の計算に一般的に利用できるアプローチの汎用性について論じる。

We present the quantum computation of nuclear observables where the operators of interest are first decomposed in terms of the linear combination of unitaries. Then we utilise the Hadamard test and the linear combination of unitaries (LCU) based methods to compute the expectation values. We apply these methods to calculate the electric quadrupole moment of deuteron. The results are compared for the Jordan-Wigner transformation and Gray code encoding. We discuss the versatility of our approach that can be utilized in general to calculate several observables on a quantum computer.
翻訳日:2023-02-09 02:07:19 公開日:2022-06-17
# 高温原子セルを用いた高性能キャビティ強化量子メモリ

High-performance cavity-enhanced quantum memory with warm atomic cell ( http://arxiv.org/abs/2206.08508v1 )

ライセンス: Link先を確認
Lixia Ma, Xing Lei, Jieli Yan, Ruiyang Li, Ting Chai, Zhihui Yan, Xiaojun Jia, Changde Xie and Kunchi Peng(参考訳) 光量子化状態のための高性能量子メモリは、量子情報技術の必須構築ブロックである。 光と原子の相互作用に基づく光量子記憶の進歩にもかかわらず、これらの記憶の物理的特徴は、メモリ効率と余分なノイズのトレードオフに苦しむため、実用的な量子情報システムにおける応用要件を満たすことができない。 本稿では,時間-逆法に基づく空間的モードと時間的モードの最適化手法を応用した,高温原子セルを用いた高性能キャビティ強化電磁透過メモリについて報告する。 最大67%のメモリ効率を直接測定し、量子ノイズ限界に近いノイズレベルを同時に達成する。 ガウス分布内の異なる位相と振幅を持つ一連の入力コヒーレント状態の平均忠実度が、古典的なベンチマーク忠実度を超えたことが実験的に証明されている。 したがって、実現された量子メモリプラットフォームは量子化された光学状態を保存することができ、分散量子論理ゲートや量子エンハンス原子磁気測定のような量子情報システムにも応用できる。

High-performance quantum memory for quantized states of light is a prerequisite building block of quantum information technology. Despite great progresses of optical quantum memories based on interactions of light and atoms, physical features of these memories still cannot satisfy requirements for applications in practical quantum information systems, since all of them suffer from trade-off between memory efficiency and excess noise. Here, we report a high-performance cavity-enhanced electromagnetically-induced-transparency memory with warm atomic cell in which a scheme of optimizing the spatial and temporal modes based on the time-reversal approach is applied. The memory efficiency up to 67% is directly measured and a noise level close to quantum noise limit is simultaneously reached. It has been experimentally demonstrated that the average fidelities for a set of input coherent states with different phases and amplitudes within a Gaussian distribution have exceeded the classical benchmark fidelities. Thus the realized quantum memory platform has been capable of preserving quantized optical states, and is ready to be applied in quantum information systems, such as distributed quantum logic gates and quantum-enhanced atomic magnetometry.
翻訳日:2023-02-09 02:07:11 公開日:2022-06-17
# 真の多部非局所性の最適試験

Optimal tests of genuine multipartite nonlocality ( http://arxiv.org/abs/2206.08848v1 )

ライセンス: Link先を確認
Mahasweta Pandit, Artur Barasinski, Istvan Marton, Tamas Vertesi, Wieslaw Laskowski(参考訳) 線形プログラミングに基づく真の多部非局所性に対する最適数値テストを提案する。 特に、局所隠れ変数の2つの非同値モデル、すなわちsvetlichny と no-signaling bilocal model を考える。 これらのモデルに関する我々の知識は、パーティー毎に2つの測定設定を含むベルシナリオに対して十分に確立されているが、任意の数の設定に基づく一般的なケースは、かなり困難なタスクであり、この分野ではほとんど作業が行われていない。 本稿では,3量子ビットとクトリットの様々な状態に対して,真のn$-way非局所相関を検出・特徴付けるために,このような一般テストを適用した。 非局所性の尺度として、無作為なサンプル観測対象下での局所現実性違反の確率と、ホワイトノイズ混和に対する抵抗によって記述された非局所性の強さを用いる。 特に、より一般的なモデルで生成された真の$n$-way非局所相関を決定するために、2つの測定設定を含むベルシナリオがどの程度使用できるか分析する。 さらに,100%の効率でランダムに選択された設定に対して,真の多成分非局所性を検出するための簡易な手法を提案する。

We propose an optimal numerical test for genuine multipartite nonlocality based on linear programming. In particular, we consider two non-equivalent models of local hidden variables, namely the Svetlichny and the no-signaling bilocal model. While our knowledge concerning these models is well established for Bell scenarios involving two measurement settings per party, the general case based on an arbitrary number of settings is a considerably more challenging task and very little work has been done in this field. In this paper, we applied such general tests to detect and characterize genuine $n$-way nonlocal correlations for various states of three qubits and qutrits. As a measure of nonlocality, we use the probability of violation of local realism under randomly sampled observables, and the strength of nonlocality, described by the resistance to white noise admixture. In particular, we analyze to what extent the Bell scenario involving two measurement settings can be used to determine genuine $n$-way non-local correlations generated for more general models. In addition, we propose a simple procedure to detect genuine multipartite nonlocality for randomly chosen settings with up to 100% efficiency.
翻訳日:2023-02-09 02:01:03 公開日:2022-06-17
# 形状自由電子を用いた光猫とGKP状態の創製

Creation of Optical Cat and GKP States Using Shaped Free Electrons ( http://arxiv.org/abs/2206.08828v1 )

ライセンス: Link先を確認
Raphael Dahan, Gefen Baranes, Alexey Gorlach, Ron Ruimy, Nicholas Rivera, and Ido Kaminer(参考訳) Cat状態とGottesman-Kitaev-Preskill(GKP)状態は、量子計算と連続変数との通信において重要な役割を果たす。 このような状態の生成は強い非線形光-物質相互作用に依存しており、回路量子力学プラットフォームのようにマイクロ波周波数で広く利用することができる。 しかし、強い非線形性は光周波数では得られず、光範囲における連続的な可変量子情報の使用を著しく制限している。 ここでは、自由電子と光との強い相互作用を光猫とGKP状態の源として用いることを提案する。 強い相互作用は、光導波路やフォトニック結晶のようなフォトニック構造を持つ自由電子の位相マッチングによって実現できる。 提案手法は,10dB以上の光GKP状態と90%以上の忠実度を選択後確率10%以上で生成し,初期圧縮真空状態を用いて30%以上に達することを可能にした。 さらに、自由電子相互作用はフォトニック状態の条件付き回転を可能にし、一対のGKP状態をGKPベル状態に絡めることができる。 電子は電磁スペクトルの光と共鳴的に相互作用するので、我々のアプローチは電波からX線まで、電磁スペクトル全体の猫とGKP状態の生成に利用できる。

Cat states and Gottesman-Kitaev-Preskill (GKP) states play a key role in quantum computation and communication with continuous variables. The creation of such states relies on strong nonlinear light-matter interactions, which are widely available in microwave frequencies as in circuit quantum electrodynamics platforms. However, strong nonlinearities are hard to come by in optical frequencies, severely limiting the use of continuous variable quantum information in the optical range. Here we propose using the strong interactions of free electrons with light as a source for optical cat and GKP states. The strong interactions can be realized by phase-matching of free electrons with photonic structures such as optical waveguides and photonic crystals. Our approach enables the generation of optical GKP states with above 10 dB squeezing and fidelities above 90% at post-selection probability of 10%, even reaching >30% using an initially squeezed vacuum state. Furthermore, the free-electron interaction allows for conditional rotations on the photonic state, enabling to entangle a pair of GKP states into a GKP Bell state. Since electrons can interact resonantly with light across the electromagnetic spectrum, our approach may be used for the generation of cat and GKP states over the entire electromagnetic spectrum, from radio-waves to X-rays.
翻訳日:2023-02-09 02:00:43 公開日:2022-06-17
# 量子ゼノリピータ

Quantum Zeno Repeaters ( http://arxiv.org/abs/2206.08785v1 )

ライセンス: Link先を確認
Veysel Bayrakci, Fatih Ozaydin(参考訳) 量子リピータは、長距離量子通信と量子インターネットへの道を開き、量子リピータのアイデアは、制御された量子ゲートの実装を必要とする絡み合い交換に基づいている。 量子系を頻繁に測定することは量子ゼノ効果(QZE)と呼ばれるその力学に影響を与える。 進化を遅くする以外に、QZEは測定間の操作を慎重に設計することで量子システムのダイナミクスを制御するために使用できる。 本稿では,QZEに基づく絡み合いスワッププロトコルを提案する。 このプロトコルの実装は、単純な頻繁なしきい値測定と単一粒子回転のみを必要とする。 提案するエンタングルメントスワッププロトコルを,リピータ数に関係なくほぼ単位忠実性が得られる量子Zenoリピータを構築するための一連のリピータ局に拡張する。 制御ゲートを必要とせず,量子リピータの量子回路複雑性を低減する。 我々の研究は、量子ゼノ効果による長距離量子通信と量子コンピューティングに寄与する可能性がある。

Quantum repeaters pave the way for long-distance quantum communications and quantum Internet, and the idea of quantum repeaters is based on entanglement swapping which requires the implementation of controlled quantum gates. Frequently measuring a quantum system affects its dynamics which is known as the quantum Zeno effect (QZE). Beyond slowing down its evolution, QZE can be used to control the dynamics of a quantum system by introducing a carefully designed set of operations between measurements. Here, we propose an entanglement swapping protocol based on QZE, which achieves almost unit fidelity. Implementation of our protocol requires only simple frequent threshold measurements and single particle rotations. We extend the proposed entanglement swapping protocol to a series of repeater stations for constructing quantum Zeno repeaters which also achieve almost unit fidelity regardless of the number of repeaters. Requiring no controlled gates, our proposal reduces the quantum circuit complexity of quantum repeaters. Our work has potential to contribute to long distance quantum communications and quantum computing via quantum Zeno effect.
翻訳日:2023-02-09 01:59:43 公開日:2022-06-17
# 強宇宙検閲予想の$c^{0}$-形式に関する新しい考察

A New Look at the $C^{0}$-formulation of the Strong Cosmic Censorship Conjecture ( http://arxiv.org/abs/2206.08716v1 )

ライセンス: Link先を確認
Aditya Iyer, Alexander Y. Yosifov and Vlatko Vedral(参考訳) 量子複雑性理論の観点から、強い宇宙検閲予想(SCC)の$C^{0}$-formulationを検証し、アインシュタイン方程式の初期条件として一般的なブラックホールパラメータについて、双曲型ブラックホールの期待される幾何学に対応して、計量はコーシー地平線を越えて大きなローレンツ多様体に対して$C^{0}$-extendableであると主張する。 C^{0}= SCC の仮説的妥当性に付随する病理を実証するために、温度の低い双曲型 AdS$_{d+1}$ ブラックホールを、(d-1$) 次元の双曲型 $H_{d-1}$ の CFT に双対する「複雑=体積」予想に反することを示す。

We examine the $C^{0}$-formulation of the strong cosmic censorship conjecture (SCC) from a quantum complexity-theoretic perspective and argue that for generic black hole parameters as initial conditions for the Einstein equations, corresponding to the expected geometry of a hyperbolic black hole, the metric is $C^{0}$-extendable to a larger Lorentzian manifold across the Cauchy horizon. To demonstrate the pathologies associated with a hypothetical validity of the $C^{0}$ SCC, we prove it violates the "complexity=volume" conjecture for a low-temperature hyperbolic AdS$_{d+1}$ black hole dual to a CFT living on a ($d-1$)-dimensional hyperboloid $H_{d-1}$, where in order to preserve the gauge/gravity duality we impose a lower bound on the interior metric extendability of order the classical recurrence time.
翻訳日:2023-02-09 01:59:10 公開日:2022-06-17
# 量子ビット/量子状態生成のための完全オンチップフォトニックターンキー量子源

Fully on-chip photonic turnkey quantum source for entangled qubit/qudit state generation ( http://arxiv.org/abs/2206.08715v1 )

ライセンス: Link先を確認
Hatam Mahmudlu, Robert Johanning, Anahita Khodadad Kashi, Albert van Rees, J\"orn P. Epping, Raktim Haldar, Klaus-J. Boller, and Michael Kues(参考訳) 集積フォトニクスは最近、長距離量子セキュリティ通信、量子加速情報処理、非古典的メトロロジーへの応用により、コンパクトでロバストでスケーラブルなチップフォーマットで光絡み合った量子状態の実現と処理のための主要なプラットフォームとなっている。 しかし、これまで開発された量子光源は、外部のバルク励起レーザーを頼りにしており、再現可能なプロトタイプデバイスではなく実用的であり、スケーラビリティを阻害し、研究室から現実世界の応用に移行している。 ここでは、レーザーキャビティと、バーニア効果を利用した高効率な波長可変ノイズ抑制フィルタ(>55$db)と、自発的4波混合による光子対生成のための非線形マイクロリングを組み合わせることで、これらの課題を克服する完全統合量子光源の実証を行う。 ハイブリッド量子源は、電気的に励起されたInPゲイン部とSi$_3$N$_4$低損失マイクロリングフィルタシステムを使用し、テレコムバンドの4つの共振モード(bandwidth $\sim 1$ THz)上の対の放出と、高い偶然と偶然の比で$\sim 620$ Hzの顕著なペア検出率($\sim 80$)を示す。 ソースは高次元の周波数-ビン 絡み合った量子状態(qubits/qudits)を直接生成し、最大9,6\%$(ベル品質違反)の量子干渉測定と、最大99\%$のフィダリティを示す状態トモグラフィーによる密度行列再構成によって検証される。 我々のアプローチはハイブリッドフォトニックプラットフォームを利用することで、量子プロセッサや量子衛星通信システムなどにおいて、実用的かつアウトオブラブな応用のために、商業利用可能な、低コストで、コンパクトで、軽量で、フィールド展開可能な量子源を実現する。

Integrated photonics has recently become a leading platform for the realization and processing of optical entangled quantum states in compact, robust and scalable chip formats with applications in long-distance quantum-secured communication, quantum-accelerated information processing and non-classical metrology. However, the quantum light sources developed so far have relied on external bulky excitation lasers making them impractical, not reproducible prototype devices, hindering scalability and the transfer out of the lab into real-world applications. Here we demonstrate a fully integrated quantum light source, which overcomes these challenges through the combined integration of a laser cavity, a highly efficient tunable noise suppression filter ($> 55$ dB) exploiting the Vernier effect and a nonlinear microring for entangled photon pair generation through spontaneous four-wave mixing. The hybrid quantum source employs an electrically-pumped InP gain section and a Si$_3$N$_4$ low-loss microring filter system, and demonstrates high performance parameters, i.e., a pair emission over four resonant modes in the telecom band (bandwidth $\sim 1$ THz), and a remarkable pair detection rate of $\sim 620$ Hz at a high coincidence-to-accidental ratio of $\sim 80$. The source directly creates high-dimensional frequency-bin entangled quantum states (qubits/qudits), verified by quantum interference measurements with visibilities up to $96\%$ (violating Bell-inequality) and by density matrix reconstruction through state tomography showing fidelities of up to $99\%$. Our approach, leveraging a hybrid photonic platform, enables commercial-viable, low-cost, compact, light-weight, and field-deployable entangled quantum sources, quintessential for practical, out-of-lab applications, e.g., in quantum processors and quantum satellite communications systems.
翻訳日:2023-02-09 01:58:49 公開日:2022-06-17
# 2レベルミキサーにおける多重光子散乱の時間ダイナミクス

Time dynamics of multi-photon scattering in a two-level mixer ( http://arxiv.org/abs/2206.08695v1 )

ライセンス: Link先を確認
A.V. Vasenin, A.Yu. Dmitriev, S.V. Kadyrmetov, A.N.Bolgar, O.V. Astafiev(参考訳) 導波路内の超伝導量子ビットは点状非線形要素として振る舞う。 ほぼ共振するマイクロ波パルスを照射すると、量子進化を起こし、弾性散乱によりサイドバンド周波数でコヒーレント場を生成する。 この効果は量子波混合(QWM)と呼ばれ、出現する側成分の数は相互作用する光子の数に依存する。 交流キャリア周波数の短い超伝導量子ビットを駆動することにより、印加パルスの数と持続時間を変化させることで、2レベルシステムと同時に相互作用する光子の最大数を制御する。 パルス数の増加は、スペクトル全体が非対称性を維持しながら散乱放射のスペクトルに現れる余分なコヒーレントな側ピークに現れる非線形性の順序の連続的な成長をもたらす。

A superconducting qubit in a waveguide behaves as a point-like nonlinear element. If irradiated with nearly resonant microwave pulses, the qubit undergoes quantum evolution and generates coherent fields at sideband frequencies due to elastic scattering. This effect is called Quantum Wave Mixing (QWM), and the number of emerged side components depends on the number of interacting photons. By driving a superconducting qubit with short pulses with alternating carrier frequencies, we control the maximal number of photons simultaneously interacting with a two-level system by varying the number and duration of applied pulses. Increasing the number of pulses results in consecutive growth of the order of non-linearity, which manifests in additional coherent side peaks appearing in the spectrum of scattered radiation while the whole spectrum maintains its asymmetry.
翻訳日:2023-02-09 01:57:59 公開日:2022-06-17
# 異なるゼロレンジポテンシャルで表されるターゲットによる低速電子弾性散乱

Slow electron elastic scattering by a target represented by different zero-range potentials ( http://arxiv.org/abs/2206.08693v1 )

ライセンス: Link先を確認
A. S. Baltenkov and I. Woiciechowski(参考訳) 非同一のゼロレンジポテンシャルの対によって形成されたターゲット上の粒子散乱の波動関数の位相シフトを計算する一般式を導出する。 粒子の連続波動関数は、目標から漸近的に大きな距離において、球面、正則関数以外の集合の膨張として表される。 これらの函数の一般式が得られる。 任意の非球面ポテンシャルの場合のS行列法の特長について論じる。

The general formulas to calculate the phase shifts of wave function of a particle scattering on a target formed by a pair of non-identical zero-range potentials are derived. It is shown that at asymptotically great distances from the target the continuum wave function of particle is presented as an expansion in a set of other than spherical, orthonormal functions. General formulas for these functions are obtained. The special features of the S-matrix method for the case of arbitrary non-spherical potentials are discussed.
翻訳日:2023-02-09 01:57:45 公開日:2022-06-17
# プライバシーに敏感な政府データの利用に関するロードマップ:ワークショップ報告

A Roadmap for Greater Public Use of Privacy-Sensitive Government Data: Workshop Report ( http://arxiv.org/abs/2208.01636v1 )

ライセンス: Link先を確認
Chris Clifton, Bradley Malin, Anna Oganian, Ramesh Raskar, Vivek Sharma(参考訳) 政府機関は、成長を続ける幅広いデータセットを収集し、管理する。 このようなデータは、調査や証拠に基づく政策作成を支援する可能性があるが、そのようなデータが収集された個人(または組織)のプライバシーを侵害する可能性があるという懸念がある。 データ共有の現状を評価し、より速いペースでこれらの共有を刺激する機会を学ぶために、国立科学財団と国立標準技術研究所が後援する2021年5月21日と26日に仮想ワークショップが開催され、多国籍の研究者と実践者が集まり、彼らの経験を議論し、データ共有しながらプライバシーを管理するために最近開発された技術について学ぶ。 ワークショップでは、さまざまなレベルでの政府データ共有の課題と成功に焦点を当てた。 初日は、公式なプライバシ技術、合成データ、暗号化アプローチなど、公開データの共有に適用される新しい技術の成功例に焦点を当てた。 2日目はブレインストーミングのセッションで、対処する課題と方向性を強調した。

Government agencies collect and manage a wide range of ever-growing datasets. While such data has the potential to support research and evidence-based policy making, there are concerns that the dissemination of such data could infringe upon the privacy of the individuals (or organizations) from whom such data was collected. To appraise the current state of data sharing, as well as learn about opportunities for stimulating such sharing at a faster pace, a virtual workshop was held on May 21st and 26th, 2021, sponsored by the National Science Foundation and National Institute of Standards and Technologies, where a multinational collection of researchers and practitioners were brought together to discuss their experiences and learn about recently developed technologies for managing privacy while sharing data. The workshop specifically focused on challenges and successes in government data sharing at various levels. The first day focused on successful examples of new technology applied to sharing of public data, including formal privacy techniques, synthetic data, and cryptographic approaches. Day two emphasized brainstorming sessions on some of the challenges and directions to address them.
翻訳日:2023-02-09 01:51:40 公開日:2022-06-17
# Einstein's Boxes Paradox の時相分解能

A Time-Symmetric Resolution of the Einstein's Boxes Paradox ( http://arxiv.org/abs/2206.10595v1 )

ライセンス: Link先を確認
Michael B. Heaney(参考訳) アインシュタインのボックスパラドックスは、アインシュタイン、ド・ブロイ、ハイゼンベルクらによって量子力学のコペンハーゲン定式化の不完全性を示すために開発された。 コペンハーゲン公式を用いてパラドックスを説明します。 次に、量子力学の時間対称な定式化がアインシュタインとド・ブロイによって構想されたパラドックスをいかに解決するかを示す。 最後に,これら2つの定式化を区別できる実験について述べる。

The Einstein's Boxes paradox was developed by Einstein, de Broglie, Heisenberg, and others to demonstrate the incompleteness of the Copenhagen Formulation of quantum mechanics. I explain the paradox using the Copenhagen Formulation.~I then show how a time-symmetric formulation of quantum mechanics resolves the paradox in the way envisioned by Einstein and de Broglie. Finally, I describe an experiment that can distinguish between these two formulations.
翻訳日:2023-02-09 01:51:22 公開日:2022-06-17
# CaF$_2$:Ho$^{3+}$における擬退化四重項のゼーマン超微細測定

Zeeman-Hyperfine Measurements of a Pseudo-Degenerate Quadruplet in CaF$_2$:Ho$^{3+}$ ( http://arxiv.org/abs/2206.09047v1 )

ライセンス: Link先を確認
Kieran M. Smith, Michael F. Reid, and Jon-Paul R. Wells(参考訳) 我々は、c$_{\rm 4v}$(f$^-$)中心におけるho$^{3+}$の電子核準位^5$i$_8 \rightarrow ^5$i$_7$遷移のゼーマン赤外分光法を、結晶の111\rangle$方向に沿って磁場とともに報告する。 最低の$^5$i$_7$状態への遷移、孤立電子二重項、および次の状態群、二重項と近傍一重項からなる擬四重項は、強い非線形ゼーマン分割と強度変化を示す。 結晶場解析に基づくシミュレートされたスペクトルは、パラメトリド結晶場アプローチの強い予測能力を示すデータに優れた近似を与える。 希土類ドープ絶縁誘電体における量子情報記憶の基礎である超微細分割の反交差も予測される。

We report Zeeman infra-red spectroscopy of electronic-nuclear levels of $^5$I$_8 \rightarrow ^5$I$_7$ transitions of Ho$^{3+}$ in the C$_{\rm 4v}$(F$^-$) centre in CaF$_2$ with the magnetic field along the $\langle 111\rangle$ direction of the crystal. Transitions to the lowest $^5$I$_7$ state, an isolated electronic doublet, and the next group of states, a pseudo-quadruplet consisting of a doublet and two nearby singlets, exhibit strongly non-linear Zeeman splittings and intensity variations. Simulated spectra based upon a crystal-field analysis give an excellent approximation to the data, illustrating the strong predictive ability of the parametrised crystal-field approach. Anti-crossings in the hyperfine splittings, the basis of quantum information storage in rare-earth doped insulating dielectrics, are also predicted.
翻訳日:2023-02-09 01:51:14 公開日:2022-06-17
# 集合振動強い結合下での化学反応性

Chemical reactivity under collective vibrational strong coupling ( http://arxiv.org/abs/2206.08937v1 )

ライセンス: Link先を確認
Derek S. Wang, Johannes Flick, and Susanne F. Yelin(参考訳) 近年の光学キャビティにおける化学反応の実験では、化学反応の改変や制御が期待されているが、理論的にはまだよく分かっていない。 特に、空洞と一定の振動モードの間の共鳴効果の起源は、現在も活発な研究の対象となっている。 本稿では,赤外線キャビティモードと相互作用する多数の分子の振動双極子モーメントによる一分子解離反応について検討する。 その結果,キャビティモードが分子の振動周波数と共振する場合,アライメント分子の数を増加させることで反応速度が遅くなることがわかった。 また,集合ラビ分裂とスケールして,群振動の強いカップリングによる反応速度変化の開始を推定し,最大1万分子に対するこれらの効果を数値的に示す単純なスケーリング関係も見いだした。

Recent experiments of chemical reactions in optical cavities have shown great promise to alter and steer chemical reactions but still remain poorly understood theoretically. In particular the origin of resonant effects between the cavity and certain vibrational modes in the collective limit is still subject to active research. In this paper, we study unimolecular dissociation reactions of many molecules collectively interacting with an infrared cavity mode through their vibrational dipole moment. We find that the reaction rate can slow down by increasing the number of aligned molecules if the cavity mode is resonant with a vibrational frequency of the molecules. We also discover a simple scaling relation that scales with the collective Rabi splitting to estimate the onset of reaction rate modification by collective vibrational strong coupling and numerically demonstrate these effects for up to 10,000 molecules.
翻訳日:2023-02-09 01:50:13 公開日:2022-06-17
# 遷移型量子駆動を用いた中性原子の2量子ビットゲート

Two-qubit gate in neutral atoms using transitionless quantum driving ( http://arxiv.org/abs/2206.08915v1 )

ライセンス: Link先を確認
Archismita Dalal and Barry C. Sanders(参考訳) 中性原子系は、異なる幾何学におけるいくつかの原子量子ビットをトラップして制御する能力と、量子ビット間の強力で長距離の相互作用を行う能力があるため、ゲートベースの量子コンピューティングを実現する有望なプラットフォームとして機能する。 我々の研究の目的は、中性原子のためのrydberg-blockade機構に基づく高速で堅牢で高忠実な制御型z(cz)ゲートを設計することである。 ブロードバンドレーザを用いた一対の原子の同時および過渡無遷移量子駆動に依存するゲートプロシージャを提案する。 励起レベルからの自然放出やパラメータ変動を含む2つの相互作用するセシウム原子の系をシミュレートすることにより、およそ0.12〜\mu$sの演算時間で、忠実度 0.9985 のリドベルク・ブロッカド CZ ゲートが得られる。 我々のゲートは、最先端の実験的なCZゲートよりも優れたCZゲートと、原子の断熱駆動に基づく模擬CZゲートを提供する。 その結果,中性原子を用いたスケーラブルな量子コンピューティングを実現する上で,ゲート手続きは大きな可能性を秘めていることがわかった。

A neutral-atom system serves as a promising platform for realizing gate-based quantum computing because of its capability to trap and control several atomic qubits in different geometries and the ability to perform strong, long-range interactions between qubits; however, the two-qubit entangling gate fidelity lags behind competing platforms such as superconducting systems and trapped ions. The aim of our work is to design a fast, robust, high-fidelity controlled-Z (CZ) gate, based on the Rydberg-blockade mechanism, for neutral atoms. We propose a gate procedure that relies on simultaneous and transitionless quantum driving of a pair of atoms using broadband lasers. By simulating a system of two interacting Caesium atoms, including spontaneous emission from excited levels and parameter fluctuations, we yield a Rydberg-blockade CZ gate with fidelity 0.9985 over an operation time of $0.12~\mu$s. Our gate procedure delivers CZ gates that are superior than the state-of-the-art experimental CZ gate and the simulated CZ gates based on adiabatic driving of atoms. Our results show that our gate procedure carries significant potential for achieving scalable quantum computing using neutral atoms.
翻訳日:2023-02-09 01:49:59 公開日:2022-06-17
# ノイズ非可観測物の共同測定による量子ハミルトニアンの推定

Estimating Quantum Hamiltonians via Joint Measurements of Noisy Non-Commuting Observables ( http://arxiv.org/abs/2206.08912v1 )

ライセンス: Link先を確認
Daniel McNulty, Filip B. Maciejewski, Micha{\l} Oszmaniec(参考訳) 不整合可観測物の期待値の推定は、特に化学や他の多体量子系のエネルギーを近似するために、量子コンピューティングにおいて重要な実践的課題である。 本研究では,非可換なパウリ可観測物の対象集合の残差が雑音(アンシャープ)となるような,局所的に実装可能な単一関節測定を基礎とする手法を提案する。 我々は、一定の精度までエネルギーを推定するのに必要な実験的な反復数の境界を導出する。 この戦略を古典的シャドウ定式化法と比較し,本手法が局所バイアス付き古典的シャドウプロトコルと同じ性能を示すことを示す。 また、2つのアプローチ間の一般的な関係についても強調し、古典的な影を使って共同測定を構築できることを示す。 最後に,共同計測手法を適用し,測定の実施を前提としたサンプルの複雑さを最小化する。 これは、古典的な影をノイズのあるシナリオに一般化するのと比べて、大幅な効率改善をもたらす。

Estimation of expectation values of incompatible observables is an essential practical task in quantum computing, especially for approximating energies of chemical and other many-body quantum systems. In this work we introduce a method for this purpose based on performing a single joint measurement that can be implemented locally and whose marginals yield noisy (unsharp) versions of the target set of non-commuting Pauli observables. We derive bounds on the number of experimental repetitions required to estimate energies up to a certain precision. We compare this strategy to the classical shadow formalism and show that our method yields the same performance as the locally biased classical shadow protocol. We also highlight some general connections between the two approaches by showing that classical shadows can be used to construct joint measurements and vice versa. Finally, we adapt the joint measurement strategy to minimise the sample complexity when the implementation of measurements is assumed noisy. This can provide significant efficiency improvements compared to known generalisations of classical shadows to noisy scenarios.
翻訳日:2023-02-09 01:49:29 公開日:2022-06-17
# 最小要件を持つZ2格子ゲージ理論の量子シミュレーション

Quantum Simulation of Z2 Lattice Gauge theory with minimal requirements ( http://arxiv.org/abs/2206.08909v1 )

ライセンス: Link先を確認
Reinis Irmejs, Mari Carmen Banuls, Juan Ignacio Cirac(参考訳) フェルミオンゲージ場の理論の量子シミュレーションは、NISQ時代の量子コンピュータの期待された使用の1つである。 近年, (1+1)DにおけるフェルミオンZ2ゲージ場理論と(2+1)Dにおける純粋なゲージ理論の特性をシミュレートする研究が進められており, 本研究では, (2+1)DにおけるフェルミオンZ2ゲージ場理論をシミュレートする様々な選択肢について検討する。 本研究では、時間ダイナミクスをシミュレートするための2つの基準を最適化する方法を提案する。 特に、量子コンピュータ上でこの理論を最小の量子ビット要求でシミュレートする新しい方法を開発した。 量子回路は1次トロッターステップをシミュレートし、2量子ゲートの数を最小限に抑え、より多くの量子ビットを必要とする手法に匹敵する結果を与える。 さらに、回路深度をさらに減少させる変動トロッタライズ手法について検討した。

The quantum simulation of fermionic gauge field theories is one of the anticipated uses of quantum computers in the NISQ era. Recently work has been done to simulate properties of the fermionic Z2 gauge field theory in (1+1)D and the pure gauge theory in (2+1) D. In this work, we investigate various options for simulating the fermionic Z2 gauge field theory in (2+1) D. To simulate the theory on a NISQ device it is vital to minimize both the number of qubits used and the circuit depth. In this work we propose ways to optimize both criteria for simulating time dynamics. In particular, we develop a new way to simulate this theory on a quantum computer, with minimal qubit requirements. We provide a quantum circuit, simulating a single first order Trotter step, that minimizes the number of 2-qubit gates needed and gives comparable results to methods requiring more qubits. Furthermore, variational Trotterization approaches are investigated that allow to further decrease the circuit depth.
翻訳日:2023-02-09 01:48:47 公開日:2022-06-17
# 弾力性量子電子顕微鏡

Resilient quantum electron microscopy ( http://arxiv.org/abs/2001.05603v4 )

ライセンス: Link先を確認
Hiroshi Okamoto(参考訳) ショットノイズの限界を超えるように設計された生体量子電子顕微鏡の基本限界について検討する。 非弾性散乱は、特に実際の生物学的関心の厚い標本にとって、この設定の主要な障害となることが期待されている。 本稿では,非弾性散乱の効果を原理的に著しく中和する測定手順について述べる。

We investigate the fundamental limit of biological quantum electron microscopy, which is designed to go beyond the shot noise limit. Inelastic scattering is expected to be the main obstacle in this setting, especially for thick specimens of actual biological interest. Here we describe a measurement procedure that, in principle, significantly neutralizes the effect of inelastic scattering.
翻訳日:2023-01-11 00:29:53 公開日:2022-06-17
# 噂の拡散力を測定するためのモデル

A Model to Measure the Spread Power of Rumors ( http://arxiv.org/abs/2002.07563v5 )

ライセンス: Link先を確認
Zoleikha Jahanbakhsh-Nagadeh, Mohammad-Reza Feizi-Derakhshi, Majid Ramezani, Taymaz Akan (Rahkar-Farshi), Meysam Asgari-Chenaghlu, Narjes Nikzad-Khasmakhi, Ali-Reza Feizi-Derakhshi, Mehrdad Ranjbar-Khadivi, Elnaz Zafarani-Moattar and Mohammad-Ali Balafar(参考訳) 情報の制作と複製を民主化した技術によって、ソーシャルメディアにおける日々の投稿のかなりの部分が噂に感染している。 噂の検出と検証に関する広範な研究にもかかわらず、これまで噂の拡散力を計算する問題は検討されていない。 本研究は,False Rumor (FR) とTrue Rumor (TR) の2つのカテゴリのコンテンツベース特徴の関数として,SPR(Spread Power of Rumor) の計算モデルを提案する。 この目的のためにオールポートとポストマンの理論が採用され、その重要性と曖昧さがうわさと噂の力の重要な変数であると主張している。 2つのカテゴリの「重要」(28)と「曖昧」(14)の合計42のコンテンツ特徴がSPRを計算するために導入された。 提案モデルはTwitterとTelegramの2つのデータセットで評価される。 その結果は (i)偽の噂文書の拡散力は真偽以上のことはめったにない。 (ii)偽のうわさと真のうわさの2つのグループによるsprの手段には有意差がある。 三 基準としてのSPRは、偽りの噂及び真偽の区別に肯定的な影響を及ぼすことができる。

With technologies that have democratized the production and reproduction of information, a significant portion of daily interacted posts in social media has been infected by rumors. Despite the extensive research on rumor detection and verification, so far, the problem of calculating the spread power of rumors has not been considered. To address this research gap, the present study seeks a model to calculate the Spread Power of Rumor (SPR) as the function of content-based features in two categories: False Rumor (FR) and True Rumor (TR). For this purpose, the theory of Allport and Postman will be adopted, which it claims that importance and ambiguity are the key variables in rumor-mongering and the power of rumor. Totally 42 content features in two categories "importance" (28 features) and "ambiguity" (14 features) are introduced to compute SPR. The proposed model is evaluated on two datasets, Twitter and Telegram. The results showed that (i) the spread power of False Rumor documents is rarely more than True Rumors. (ii) there is a significant difference between the SPR means of two groups False Rumor and True Rumor. (iii) SPR as a criterion can have a positive impact on distinguishing False Rumors and True Rumors.
翻訳日:2022-12-30 20:16:50 公開日:2022-06-17
# Omni-Scale CNNs:時系列分類のためのシンプルで効果的なカーネルサイズ構成

Omni-Scale CNNs: a simple and effective kernel size configuration for time series classification ( http://arxiv.org/abs/2002.10061v3 )

ライセンス: Link先を確認
Wensi Tang, Guodong Long, Lu Liu, Tianyi Zhou, Michael Blumenstein, Jing Jiang(参考訳) 1次元畳み込みニューラルネットワーク(1D-CNN)の時系列分類タスクにおいて、受容場(RF)サイズは最も重要な要素の1つである。 パフォーマンスに大きな影響を与え、データセットごとに大きく異なるため、適切なサイズを選択するために大きな努力が払われています。 本稿では,カーネルサイズを単純かつ普遍的なルールで決定する1d-cnnsのための全規模ブロック (os-block) を提案する。 特に、時系列の長さに応じて複数の素数からなることによって、異なるデータセットにわたって最適なrfサイズを効率的にカバーできるカーネルサイズの集合である。 実験の結果,OSブロックを用いたモデルは,探索された最適なRFサイズを持つモデルと同等の性能を達成でき,かつ,強力な最適なRFサイズキャプチャ能力を持つため,OSブロックを用いた単純な1D-CNNモデルは,複数のドメインからの一変量および多変量データを含む4つの時系列ベンチマークにおける最先端の性能を達成できることがわかった。 包括的な分析と議論により、OSブロックが異なるデータセット間で最適なRFサイズをキャプチャできる理由が明らかになった。 Code available [https://github.com/Wensi-Tang/OS-CNN]

The Receptive Field (RF) size has been one of the most important factors for One Dimensional Convolutional Neural Networks (1D-CNNs) on time series classification tasks. Large efforts have been taken to choose the appropriate size because it has a huge influence on the performance and differs significantly for each dataset. In this paper, we propose an Omni-Scale block (OS-block) for 1D-CNNs, where the kernel sizes are decided by a simple and universal rule. Particularly, it is a set of kernel sizes that can efficiently cover the best RF size across different datasets via consisting of multiple prime numbers according to the length of the time series. The experiment result shows that models with the OS-block can achieve a similar performance as models with the searched optimal RF size and due to the strong optimal RF size capture ability, simple 1D-CNN models with OS-block achieves the state-of-the-art performance on four time series benchmarks, including both univariate and multivariate data from multiple domains. Comprehensive analysis and discussions shed light on why the OS-block can capture optimal RF sizes across different datasets. Code available [https://github.com/Wensi-Tang/OS-CNN]
翻訳日:2022-12-29 02:52:14 公開日:2022-06-17
# 確率近似における最悪の場合解析を超えて:モーメント推定はインスタンス複雑性を改善する

Beyond Worst-Case Analysis in Stochastic Approximation: Moment Estimation Improves Instance Complexity ( http://arxiv.org/abs/2006.04429v3 )

ライセンス: Link先を確認
Jingzhao Zhang, Hongzhou Lin, Subhro Das, Suvrit Sra, Ali Jadbabaie(参考訳) 確率近似問題に対する勾配に基づく手法のオラクル複雑性について検討する。 多くの設定において、最適アルゴリズムと厳密な下限はそのような問題で知られているが、これらの最適アルゴリズムは実際に使用される際に最高の性能を達成できない。 最悪の場合の複雑性ではなく、インスタンス依存の複雑性に焦点を当てることで、この理論と実践的なギャップに対処する。 特に、既知のインスタンス依存の複雑性結果をまず要約し、3つのレベルに分類する。 異なるレベル間の支配関係を特定し、既存のレベルを支配する4番目のインスタンス依存境界を提案する。 次に、雑音レベルを知らずに、モーメント推定を伴う適応アルゴリズムが提案した境界を達成できる十分な条件を提供する。 提案するアルゴリズムとその解析は、インスタンスの複雑さを改善するためにモーメント推定の成功を理論的に正当化する。

We study oracle complexity of gradient based methods for stochastic approximation problems. Though in many settings optimal algorithms and tight lower bounds are known for such problems, these optimal algorithms do not achieve the best performance when used in practice. We address this theory-practice gap by focusing on instance-dependent complexity instead of worst case complexity. In particular, we first summarize known instance-dependent complexity results and categorize them into three levels. We identify the domination relation between different levels and propose a fourth instance-dependent bound that dominates existing ones. We then provide a sufficient condition according to which an adaptive algorithm with moment estimation can achieve the proposed bound without knowledge of noise levels. Our proposed algorithm and its analysis provide a theoretical justification for the success of moment estimation as it achieves improved instance complexity.
翻訳日:2022-11-24 02:37:17 公開日:2022-06-17
# Min-Max Fairnessのためのアクティブサンプリング

Active Sampling for Min-Max Fairness ( http://arxiv.org/abs/2006.06879v3 )

ライセンス: Link先を確認
Jacob Abernethy, Pranjal Awasthi, Matth\"aus Kleindessner, Jamie Morgenstern, Chris Russell, Jie Zhang(参考訳) 損失最小化によって学習される任意の分類や回帰モデルに適用可能なmin-maxフェアネスを最適化するための単純なアクティブサンプリングおよび再重み付け戦略を提案する。 私たちのアプローチの背後にある重要な直観は、モデルの更新に現在のモデルの下で最悪のデータポイントを各タイムステップで使用することです。 実装の容易さとロバストな定式化の汎用性により、不備な群におけるモデル性能を改善するための魅力的な選択肢となる。 線形回帰やロジスティック回帰といった凸学習問題に対して,細粒度解析を行い,min-maxフェア解への収束率を証明した。

We propose simple active sampling and reweighting strategies for optimizing min-max fairness that can be applied to any classification or regression model learned via loss minimization. The key intuition behind our approach is to use at each timestep a datapoint from the group that is worst off under the current model for updating the model. The ease of implementation and the generality of our robust formulation make it an attractive option for improving model performance on disadvantaged groups. For convex learning problems, such as linear or logistic regression, we provide a fine-grained analysis, proving the rate of convergence to a min-max fair solution.
翻訳日:2022-11-22 12:47:00 公開日:2022-06-17
# 有限時間地平線上のエピソディック連続時間線形-四次強化学習に対する対数的後悔

Logarithmic regret for episodic continuous-time linear-quadratic reinforcement learning over a finite-time horizon ( http://arxiv.org/abs/2006.15316v4 )

ライセンス: Link先を確認
Matteo Basei, Xin Guo, Anran Hu, Yufei Zhang(参考訳) 有限時間地平線連続時間線形2次強化学習問題を,制御器に状態係数と制御係数が未知なセッティングで検討した。 まず,連続時間観測と制御に基づく最小二乗法を提案し,数列$o((\ln m)(\ln\ln m))$の対数的後悔を定式化し,学習エピソード数を$m$とした。 この分析は、関連するリカティ微分方程式の正則性と堅牢性を利用する摂動解析と、連続時間最小二乗推定器の準指数特性に依存するパラメータ推定誤差の2つの部分からなる。 さらに,離散時間観測と分割定数制御に基づく最小二乗法を実用に実装し,アルゴリズムにおけるステップ化の時間に依存した追加項による類似の対数的後悔を実現する手法を提案する。

We study finite-time horizon continuous-time linear-quadratic reinforcement learning problems in an episodic setting, where both the state and control coefficients are unknown to the controller. We first propose a least-squares algorithm based on continuous-time observations and controls, and establish a logarithmic regret bound of order $O((\ln M)(\ln\ln M))$, with $M$ being the number of learning episodes. The analysis consists of two parts: perturbation analysis, which exploits the regularity and robustness of the associated Riccati differential equation; and parameter estimation error, which relies on sub-exponential properties of continuous-time least-squares estimators. We further propose a practically implementable least-squares algorithm based on discrete-time observations and piecewise constant controls, which achieves similar logarithmic regret with an additional term depending explicitly on the time stepsizes used in the algorithm.
翻訳日:2022-11-16 07:42:37 公開日:2022-06-17
# nudge: 過剰なプルリクエストの完了への加速

Nudge: Accelerating Overdue Pull Requests Towards Completion ( http://arxiv.org/abs/2011.12468v5 )

ライセンス: Link先を確認
Chandra Maddila, Sai Surya Upadrasta, Chetan Bansal, Nachiappan Nagappan, Georgios Gousios, Arie van Deursen(参考訳) プルリクエストは、今日のコラボレーションソフトウェア開発とコードレビュープロセスの重要な部分です。 しかし、レビュアーや著者が積極的にプルリクエストに関与していない場合、プルリクエストはソフトウェア開発プロセスを遅くする可能性がある。 本研究では,著者やレビュアーに過度なプルリクエストに対処させるようにリマインドすることで,過度なプルリクエストの完了を早めるための,エンドツーエンドサービスであるnudgeを設計した。 まず、労力推定と機械学習に基づくモデルを使用して、所定のプルリクエストの完了時間を予測します。 次に、アクティビティ検出を使用して、過剰なプルリクエストをフィルタしますが、それでも十分なアクションが行われています。 最後に、我々はアクター識別を使用して、プルリクエストのブロッカーが誰であるかを理解し、適切なアクタ(著者またはレビュアー)を判断します。 Nudgeの重要な新機能は、プルリクエストの解決時間を短縮し、開発者が数千のリポジトリの規模で送信された通知を有用と認識することを保証することだ。 microsoftで使用されている147のリポジトリのランダム化トライアルでは、nudgeが通知を送信しなかったプルリクエストに対して、プルリクエストの解決時間を8,500リクエストに対して60%削減することができた。 さらに、Nudge通知を受け取る開発者は、これらの通知の73%を肯定的に解決した。 私たちは、NudgeのデプロイをMicrosoftの8000リポジトリにスケールアップする際の同様の結果を観察しました。 これはNudgeが数千のリポジトリにスケール可能であることを示している。 最後に、nudge通知の選択に関する質的分析は、プルリクエスト間の依存関係や開発者アベイラビリティを考慮したものなど、今後の研究の領域を示しています。

Pull requests are a key part of the collaborative software development and code review process today. However, pull requests can also slow down the software development process when the reviewer(s) or the author do not actively engage with the pull request. In this work, we design an end-to-end service, Nudge, for accelerating overdue pull requests towards completion by reminding the author or the reviewer(s) to engage with their overdue pull requests. First, we use models based on effort estimation and machine learning to predict the completion time for a given pull request. Second, we use activity detection to filter out pull requests that may be overdue, but for which sufficient action is taking place nonetheless. Lastly, we use actor identification to understand who the blocker of the pull request is and nudge the appropriate actor (author or reviewer(s)). The key novelty of Nudge is that it succeeds in reducing pull request resolution time, while ensuring that developers perceive the notifications sent as useful, at the scale of thousands of repositories. In a randomized trial on 147 repositories in use at Microsoft, Nudge was able to reduce pull request resolution time by 60% for 8,500 pull requests, when compared to overdue pull requests for which Nudge did not send a notification. Furthermore, developers receiving Nudge notifications resolved 73% of these notifications as positive. We observed similar results when scaling up the deployment of Nudge to 8,000 repositories at Microsoft, for which Nudge sent 210,000 notifications during a full year. This demonstrates Nudge's ability to scale to thousands of repositories. Lastly, our qualitative analysis of a selection of Nudge notifications indicates areas for future research, such as taking dependencies among pull requests and developer availability into account.
翻訳日:2022-09-21 02:19:40 公開日:2022-06-17
# (参考訳) ポートフォリオアロケーション多様化のための自動符号化条件GAN

Autoencoding Conditional GAN for Portfolio Allocation Diversification ( http://arxiv.org/abs/2207.05701v1 )

ライセンス: CC BY 4.0
Jun Lu, Shao Yi(参考訳) 数十年にわたって、markowitzフレームワークはポートフォリオ分析で広く使われてきたが、トレンド予測よりも市場の不確実性の分析に重点を置いている。 一方,GAN(Generative Adversarial Network)とCGAN(Con Conditional GAN)は,ポートフォリオ分析に役立つ財務時系列の生成と特徴抽出を目的としている。 CGANフレームワークの制限は、このジェネレータに役立つ機能を保持するのではなく、シリーズを生成することに重点を置いている。 本稿では,市場不確実性と今後のトレンドをモデル化しながら,歴史データの内部傾向を学習する深層生成モデルに基づく自動エンコードcgan(acgan)を提案する。 米国と欧州の両方の市場における実世界のデータセットでモデルを評価したところ、提案したACGANモデルによりポートフォリオの割り当てが向上し、既存のMarkowitzやCGANのアプローチと比較して真のデータに近いシリーズが生成されることがわかった。

Over the decades, the Markowitz framework has been used extensively in portfolio analysis though it puts too much emphasis on the analysis of the market uncertainty rather than on the trend prediction. While generative adversarial network (GAN) and conditional GAN (CGAN) have been explored to generate financial time series and extract features that can help portfolio analysis. The limitation of the CGAN framework stands in putting too much emphasis on generating series rather than keeping features that can help this generator. In this paper, we introduce an autoencoding CGAN (ACGAN) based on deep generative models that learns the internal trend of historical data while modeling market uncertainty and future trends. We evaluate the model on several real-world datasets from both the US and Europe markets, and show that the proposed ACGAN model leads to better portfolio allocation and generates series that are closer to true data compared to the existing Markowitz and CGAN approaches.
翻訳日:2022-07-17 21:14:15 公開日:2022-06-17
# (参考訳) マンダニ干渉システムを用いた卵子自動インキュベータの温度と相対湿度の最適化

Optimization of Temperature and Relative Humidity in an Automatic Egg Incubator Using Mamdani Interference System ( http://arxiv.org/abs/2207.03996v1 )

ライセンス: CC BY 4.0
Pramit Dutta and Nafisa Anjum(参考訳) 温度と湿度は卵のインキュベーション中に制御しなければならない基本的な要素の2つである。 インキュベーション期間における不適切な温度と湿度は、しばしば望ましくない条件をもたらす。 本稿では,卵インキュベータの温度と湿度を制御するための多用されたタカギ・スゲノシステムの代わりに,効率的なマンダニファジィ干渉システムの設計を提案する。 ここで使用される最適なインキュベーション温度と湿度レベルは鶏卵のそれであるが、提案手法は他の鳥類にも適用できる。 マムダニを用いた安全なハッチング推定値の入力関数はここで用いられるが、デファジフィケーション法であるCOAは出力に適用されている。 モデル出力から、卵インキュベータの湿度レベルを制御するための温度レベルおよびファン速度からの安定化熱を得ることができる。 これにより、フィールド内の任意の条件下での健康なニワトリのハッチ率を最大化する。

Temperature and humidity are two of the rudimentary factors that must be controlled during egg incubation. Improper temperature and humidity levels during the incubation period often result in unwanted conditions. This paper proposes the design of an efficient Mamdani fuzzy interference system instead of the widely used Takagi-Sugeno system in this field for controlling the temperature and humidity levels of an egg incubator. Though the optimum incubation temperature and humidity levels used here are that of chicken egg, the proposed methodology is applicable to other avian species as well. Theinput functions have been used here as per estimated values forsafe hatching using Mamdani whereas defuzzification method, COA, has been applied for output. From the model output,a stabilized heat from temperature level and fan speed to control the humidity level of an egg incubator can be obtained. This maximizes the hatching rate of healthy chicks under any conditions in the field.
翻訳日:2022-07-17 20:57:23 公開日:2022-06-17
# FreeREA: 学習自由進化に基づくアーキテクチャ検索

FreeREA: Training-Free Evolution-based Architecture Search ( http://arxiv.org/abs/2207.05135v1 )

ライセンス: Link先を確認
Niccol\`o Cavagnero, Luca Robbiano, Barbara Caputo and Giuseppe Averta(参考訳) 過去10年間、機械学習のほとんどの研究は、さまざまなタスクのソリューションのためにニューラルネットワークのパフォーマンスを向上させることを目的として、既存のモデルの改善に貢献した。 しかし、そのような進歩は、しばしばモデルメモリと計算要求の増加のコストがかかる。 これは、コスト、エネルギー消費、およびフレームワークの複雑さが重要な役割を果たす現実的な環境での、研究成果のデプロイ可能性に対する重要な制限である。 この問題を解決するためにデザイナは、フットプリントを制限しながらパフォーマンスを最大化するモデルを探す必要がある。 この目標を達成するための典型的なアプローチは、最終的な設計の最適性を保証できない手作業の手順や、極めて高い計算時間を犠牲にしてプロセスを自動化するニューラルネットワーク探索アルゴリズムに依存する。 本稿では,小型デバイスに典型的なサイズと計算制約を保ちながら,モデル精度を最大化するニューラルネットワークの高速同定方法を提案する。 当社のアプローチはFreeREAと名づけられた独自のセルベースの進化型NASアルゴリズムで,検索中にアーキテクチャをランク付けするためにトレーニング不要なメトリクスの最適化の組み合わせを利用する。 nas-bench-101 と nats-bench の共通ベンチマークで行った実験は i) FreeREAは,検索時間の数分で非常に正確なモデルを提供することができる最初の方法である。 二 検討されたすべてのデータセット及びベンチマークにおいて、技術訓練ベース及びトレーニングフリー技術の現状を上回っていること、及び iii) 制約付きシナリオに容易に一般化することができ、汎用的制約付きアプリケーションにおける高速ニューラルネットワーク探索の競合ソリューションを表している。

In the last decade, most research in Machine Learning contributed to the improvement of existing models, with the aim of increasing the performance of neural networks for the solution of a variety of different tasks. However, such advancements often come at the cost of an increase of model memory and computational requirements. This represents a significant limitation for the deployability of research output in realistic settings, where the cost, the energy consumption, and the complexity of the framework play a crucial role. To solve this issue, the designer should search for models that maximise the performance while limiting its footprint. Typical approaches to reach this goal rely either on manual procedures, which cannot guarantee the optimality of the final design, or upon Neural Architecture Search algorithms to automatise the process, at the expenses of extremely high computational time. This paper provides a solution for the fast identification of a neural network that maximises the model accuracy while preserving size and computational constraints typical of tiny devices. Our approach, named FreeREA, is a custom cell-based evolution NAS algorithm that exploits an optimised combination of training-free metrics to rank architectures during the search, thus without need of model training. Our experiments, carried out on the common benchmarks NAS-Bench-101 and NATS-Bench, demonstrate that i) FreeREA is the first method able to provide very accurate models in minutes of search time; ii) it outperforms State of the Art training-based and training-free techniques in all the datasets and benchmarks considered, and iii) it can easily generalise to constrained scenarios, representing a competitive solution for fast Neural Architecture Search in generic constrained applications.
翻訳日:2022-07-17 17:04:58 公開日:2022-06-17
# (参考訳) multiearth 2022 -- 生成モデルによる画像から画像への翻訳チャレンジのチャンピオンソリューション

MultiEarth 2022 -- The Champion Solution for Image-to-Image Translation Challenge via Generation Models ( http://arxiv.org/abs/2207.00001v1 )

ライセンス: CC BY 4.0
Yuchuan Gou, Bo Peng, Hongchen Liu, Hang Zhou, Jui-Hsin Lai(参考訳) MultiEarth 2022 Image-to- Image Translation Challengeは、与えられたSentinel-1 VV & VH画像と対応するRGB Sentinel-2画像を生成するための、よく制約されたテストベッドを提供する。 この課題において、様々な世代モデルを設計し、spade [1] と pix2pixhd [2] モデルが最良の結果をもたらすことを見出しました。 自己評価では, L1-loss を用いた SPADE-2 モデルでは 0.02194 MAE スコアと 31.092 PSNR dB が得られる。 最終提出書では、トップボードの0.02795 MAEスコアが1位にランクインしている。

The MultiEarth 2022 Image-to-Image Translation challenge provides a well-constrained test bed for generating the corresponding RGB Sentinel-2 imagery with the given Sentinel-1 VV & VH imagery. In this challenge, we designed various generation models and found the SPADE [1] and pix2pixHD [2] models could perform our best results. In our self-evaluation, the SPADE-2 model with L1-loss can achieve 0.02194 MAE score and 31.092 PSNR dB. In our final submission, the best model can achieve 0.02795 MAE score ranked No.1 on the leader board.
翻訳日:2022-07-10 16:33:40 公開日:2022-06-17
# (参考訳) ハウスドルフ距離を用いた大規模自然主義データセットからの類似交通シーンの自動抽出

Automatic extraction of similar traffic scenes from large naturalistic datasets using the Hausdorff distance ( http://arxiv.org/abs/2206.13386v1 )

ライセンス: CC BY 4.0
Olger Siebinga, Arkady Zgonnikov, David Abbink(参考訳) 近年、人間駆動軌道の複数の自然なトラフィックデータセット(HighD、NGSim、pNEUMAなど)が公表されている。 これらのデータセットは、例えば、自動運転車(AV)の挙動のシナリオベースの検証、ドライバの振る舞いのモデリング、ドライバーモデルの検証など、人間の運転行動の変動性を研究する研究で使用されている。 これまでの研究では、戦術的なレベル(車線変更の有無)ではなく、運用レベルの変動性(車線変更時の速度プロファイルなど)に焦点を当てている。 両レベルの変動性を調べることは、複数の戦術行動を含むドライバーモデルとavを開発するために必要である。 マルチレベル変動を明らかにするために,同じ交通シーンに対する人間の反応を調べることができる。 しかし、データセットから同様のシーンを自動的に抽出する手法は存在しない。 本稿では,集合の数学的距離計量であるハウスドルフ距離を用いた4段階抽出法を提案する。 本研究では,本手法が実際に適用可能であることを示す高次元データセットのケーススタディを行った。 選択されたシーンに対する人間の反応は、戦術レベルと作戦レベルの両方の変動を露呈した。 この新しい手法では、コストと時間を要する運転シミュレーション実験を必要とせずに、操作的および戦術的な人間の行動の変動を調査できる。

Recently, multiple naturalistic traffic datasets of human-driven trajectories have been published (e.g., highD, NGSim, and pNEUMA). These datasets have been used in studies that investigate variability in human driving behavior, for example for scenario-based validation of autonomous vehicle (AV) behavior, modeling driver behavior, or validating driver models. Thus far, these studies focused on the variability on an operational level (e.g., velocity profiles during a lane change), not on a tactical level (i.e., to change lanes or not). Investigating the variability on both levels is necessary to develop driver models and AVs that include multiple tactical behaviors. To expose multi-level variability, the human responses to the same traffic scene could be investigated. However, no method exists to automatically extract similar scenes from datasets. Here, we present a four-step extraction method that uses the Hausdorff distance, a mathematical distance metric for sets. We performed a case study on the highD dataset that showed that the method is practically applicable. The human responses to the selected scenes exposed the variability on both the tactical and operational levels. With this new method, the variability in operational and tactical human behavior can be investigated, without the need for costly and time-consuming driving-simulator experiments.
翻訳日:2022-07-04 03:42:44 公開日:2022-06-17
# (参考訳) カロリメータシャワーシミュレーションのためのスコアベース生成モデル

Score-based Generative Models for Calorimeter Shower Simulation ( http://arxiv.org/abs/2206.11898v1 )

ライセンス: CC BY 4.0
Vinicius Mikuni and Benjamin Nachman(参考訳) スコアベース生成モデル(Score-based generative model)は、高次元空間においても現実的な画像を生成することが示されている新しい生成アルゴリズムのクラスである。 本研究では,衝突型加速器物理のためのスコアベース生成モデルであるcaloscoreについて紹介する。 高速カロリメータシミュレーションチャレンジ2022データセットを用いて3つの異なる拡散モデルを検討した。 CaloScoreは、コライダー物理学におけるスコアベースの生成モデルの最初の応用であり、全てのデータセットに対して高忠実度カロリー画像を生成することができ、カロリーメータシャワーシミュレーションの代替パラダイムを提供する。

Score-based generative models are a new class of generative algorithms that have been shown to produce realistic images even in high dimensional spaces, currently surpassing other state-of-the-art models for different benchmark categories and applications. In this work we introduce CaloScore, a score-based generative model for collider physics applied to calorimeter shower generation. Three different diffusion models are investigated using the Fast Calorimeter Simulation Challenge 2022 dataset. CaloScore is the first application of a score-based generative model in collider physics and is able to produce high-fidelity calorimeter images for all datasets, providing an alternative paradigm for calorimeter shower simulation.
翻訳日:2022-07-04 03:31:31 公開日:2022-06-17
# AnyMorph: エージェント形態を推論してトランスファー可能な警察を学習する

AnyMorph: Learning Transferable Polices By Inferring Agent Morphology ( http://arxiv.org/abs/2206.12279v1 )

ライセンス: Link先を確認
Brandon Trabucco, Mariano Phielipp, Glen Berseth(参考訳) 強化学習に対する原型的アプローチは、新しい形態ごとに特定のエージェントにスクラッチから調整されたトレーニングポリシーを含む。 最近の研究は、類似のタスク目的を持つ多様なエージェントセットで訓練された形態非依存のポリシーが、再訓練することなく、新しいエージェントに移行できるかどうかを調べることによって、ポリシーの再訓練を廃止することを目的としている。 これは、新しいエージェントのモルフォロジーを手作業で記述するために、以前のアプローチを必要とする難しい問題である。 この記述を手作業で設計する代わりに,強化学習目標から直接形態素表現を学習するデータ駆動手法を提案する。 oursは,エージェントの形態を事前に記述することなく,新たなエージェント形態に一般化するポリシをトレーニング可能な,最初の強化学習アルゴリズムである。 我々は,エージェント非依存制御のための標準ベンチマークのアプローチを評価し,新しいエージェントに対するゼロショット一般化技術の現状を改善した。 重要なことに,本手法は形態素の明示的な記述を伴わずに良好な性能を発揮する。

The prototypical approach to reinforcement learning involves training policies tailored to a particular agent from scratch for every new morphology. Recent work aims to eliminate the re-training of policies by investigating whether a morphology-agnostic policy, trained on a diverse set of agents with similar task objectives, can be transferred to new agents with unseen morphologies without re-training. This is a challenging problem that required previous approaches to use hand-designed descriptions of the new agent's morphology. Instead of hand-designing this description, we propose a data-driven method that learns a representation of morphology directly from the reinforcement learning objective. Ours is the first reinforcement learning algorithm that can train a policy to generalize to new agent morphologies without requiring a description of the agent's morphology in advance. We evaluate our approach on the standard benchmark for agent-agnostic control, and improve over the current state of the art in zero-shot generalization to new agents. Importantly, our method attains good performance without an explicit description of morphology.
翻訳日:2022-07-04 01:18:55 公開日:2022-06-17
# 小売業者のソーシャルロボットは顧客を操るべきか?

Should Social Robots in Retail Manipulate Customers? ( http://arxiv.org/abs/2206.14571v1 )

ライセンス: Link先を確認
Oliver Bendel and Liliana Margarida Dos Santos Alves(参考訳) 小売業の構造の変化を背景に、社会ロボットは顧客を引きつけ、歓迎し、挨拶するために小売店やショッピングモールに進出し、彼らに知らせ、助言し、購入するよう説得している。 セールスマンはしばしば製品について幅広い知識を持ち、靴、衣類、キッチン用品など、有能で誠実なアドバイスを提供することに頼っている。 しかし、購入の確保にしばしば販売のトリックを使う者もいる。 質問は、コンサルティングやセールスロボットがいかに“持つ”べきかという問題から生じます。 彼らは人間のアドバイザーやセールスパーソンのように振る舞うべきだろうか? あるいは、私たちよりも誠実で信頼できるべきなのか? この記事ではこれらの質問に答える。 基本を説明した後、この文脈での研究を評価し、コンサルティングや販売ロボットを使いたい企業に対して推奨する。 結局のところ、小売業における公正で誠実で信頼できるロボットは、すべての関係者にとって勝利の状況だ。

Against the backdrop of structural changes in the retail trade, social robots have found their way into retail stores and shopping malls in order to attract, welcome, and greet customers; to inform them, advise them, and persuade them to make a purchase. Salespeople often have a broad knowledge of their product and rely on offering competent and honest advice, whether it be on shoes, clothing, or kitchen appliances. However, some frequently use sales tricks to secure purchases. The question arises of how consulting and sales robots should "behave". Should they behave like human advisors and salespeople, i.e., occasionally manipulate customers? Or should they be more honest and reliable than us? This article tries to answer these questions. After explaining the basics, it evaluates a study in this context and gives recommendations for companies that want to use consulting and sales robots. Ultimately, fair, honest, and trustworthy robots in retail are a win-win situation for all concerned.
翻訳日:2022-07-04 01:15:35 公開日:2022-06-17
# グラフニューラルネットワークによる微粒子懸濁液の高速シミュレーション

Fast Simulation of Particulate Suspensions Enabled by Graph Neural Network ( http://arxiv.org/abs/2206.13905v1 )

ライセンス: Link先を確認
Zhan Ma, Zisheng Ye, Wenxiao Pan(参考訳) 流体力学的相互作用 (HI) と外部駆動による懸濁液中の粒子の動的挙動の予測は多くの応用において重要である。 本稿では,高度な深層学習手法を抽出し,ストークス懸濁液中の粒子の挙動を推算し,予測するための新しい枠組みであるhignn(hydrodynamic interaction graph neural network)を提案する。 これは計算効率、精度、および/または転送可能性における従来のアプローチの限界を克服する。 特に、グラフとニューラルネットワークで表現されるデータ構造を学習可能なパラメータで結合することにより、hignnは、hiおよび外部力に従属する粒子のダイナミクスを予測する鍵となる粒子の運動テンソルの代理モデルを構築する。 HIの多体性を考慮するため、グラフとそれに対応する畳み込み操作に高次接続を導入することにより、最先端のGNNを一般化する。 HIGNNのトレーニングには、関心領域の少数の粒子のデータのみが必要であるため、トレーニングコストを低く維持することができる。 一度構築されると、HIGNNは粒子の速度の高速な予測を許可し、同じ領域内の粒子の数や濃度の異なるサスペンションや外部の強制力に転送できる。 長距離hi効果と短距離潤滑効果の両方を正確に捉えることができる。 本稿では,提案するhignnフレームワークの各種システムにおける精度,効率,転送性を示す。 計算リソースの要件は最小限で、ほとんどのシミュレーションは1つのgpuを持つデスクトップのみを必要とする。

Predicting the dynamic behaviors of particles in suspension subject to hydrodynamic interaction (HI) and external drive can be critical for many applications. By harvesting advanced deep learning techniques, the present work introduces a new framework, hydrodynamic interaction graph neural network (HIGNN), for inferring and predicting the particles' dynamics in Stokes suspensions. It overcomes the limitations of traditional approaches in computational efficiency, accuracy, and/or transferability. In particular, by uniting the data structure represented by a graph and the neural networks with learnable parameters, the HIGNN constructs surrogate modeling for the mobility tensor of particles which is the key to predicting the dynamics of particles subject to HI and external forces. To account for the many-body nature of HI, we generalize the state-of-the-art GNN by introducing higher-order connectivity into the graph and the corresponding convolutional operation. For training the HIGNN, we only need the data for a small number of particles in the domain of interest, and hence the training cost can be maintained low. Once constructed, the HIGNN permits fast predictions of the particles' velocities and is transferable to suspensions of different numbers/concentrations of particles in the same domain and to any external forcing. It has the ability to accurately capture both the long-range HI and short-range lubrication effects. We demonstrate the accuracy, efficiency, and transferability of the proposed HIGNN framework in a variety of systems. The requirement on computing resource is minimum: most simulations only require a desktop with one GPU; the simulations for a large suspension of 100,000 particles call for up to 6 GPUs.
翻訳日:2022-07-04 01:15:21 公開日:2022-06-17
# (参考訳) 深層強化学習におけるスパーストレーニングの現状

The State of Sparse Training in Deep Reinforcement Learning ( http://arxiv.org/abs/2206.10369v1 )

ライセンス: CC BY 4.0
Laura Graesser, Utku Evci, Erich Elsen, Pablo Samuel Castro(参考訳) スパースニューラルネットワークの使用は近年急速に増加しており、特にコンピュータビジョンにおいてである。 彼らの魅力は、トレーニングと保存に必要なパラメータの数を減らすことと、学習効率の向上に起因している。 驚くべきことに、Deep Reinforcement Learning (DRL)での使用を探求する取り組みはほとんどない。 本研究は,様々なDRLエージェントや環境に対して,既存のスパーストレーニング技術を適用するための体系的な調査を行う。 計算機ビジョン領域ネットワークにおけるスパーストレーニングの結果は,DRL領域において,同じパラメータ数に対して高密度ネットワークよりも優れていた。 本稿では,DRLの各種コンポーネントがスパースネットワークの利用によってどのように影響するかを詳細に分析し,スパーストレーニング手法の有効性の向上やDRLの活用の促進に期待できる方法を提案する。

The use of sparse neural networks has seen rapid growth in recent years, particularly in computer vision. Their appeal stems largely from the reduced number of parameters required to train and store, as well as in an increase in learning efficiency. Somewhat surprisingly, there have been very few efforts exploring their use in Deep Reinforcement Learning (DRL). In this work we perform a systematic investigation into applying a number of existing sparse training techniques on a variety of DRL agents and environments. Our results corroborate the findings from sparse training in the computer vision domain - sparse networks perform better than dense networks for the same parameter count - in the DRL domain. We provide detailed analyses on how the various components in DRL are affected by the use of sparse networks and conclude by suggesting promising avenues for improving the effectiveness of sparse training methods, as well as for advancing their use in DRL.
翻訳日:2022-06-26 22:26:36 公開日:2022-06-17
# (参考訳) コンピュータ・インテリジェンスに基づくトランスファー学習に関する調査

A Survey on Computational Intelligence-based Transfer Learning ( http://arxiv.org/abs/2206.10593v1 )

ライセンス: CC BY 4.0
Mohamad Zamini, Eunjin Kim(参考訳) transfer learning(tl)の目標は、ソースからターゲットデータへの取得した知識を活用するためのフレームワークを提供することだ。 転送学習のアプローチ 従来の機械学習のアプローチと比較すると、現在のドメインからより良いデータパターンをモデル化することができます。 しかし、vanilla tlは計算知能に基づくtlを使用することで性能を改善する必要がある。 本稿では,計算知性に基づく転送学習技術を研究し,それらをニューラルネットワーク,進化的アルゴリズム,群知性に基づく,ファジィ論理に基づく転送学習に分類する。

The goal of transfer learning (TL) is providing a framework for exploiting acquired knowledge from source to target data. Transfer learning approaches compared to traditional machine learning approaches are capable of modeling better data patterns from the current domain. However, vanilla TL needs performance improvements by using computational intelligence-based TL. This paper studies computational intelligence-based transfer learning techniques and categorizes them into neural network-based, evolutionary algorithm-based, swarm intelligence-based and fuzzy logic-based transfer learning.
翻訳日:2022-06-26 21:54:40 公開日:2022-06-17
# (参考訳) RetrievalGuard: おそらく一番近い隣のイメージ検索

RetrievalGuard: Provably Robust 1-Nearest Neighbor Image Retrieval ( http://arxiv.org/abs/2206.11225v1 )

ライセンス: CC BY 4.0
Yihan Wu, Hongyang Zhang, Heng Huang(参考訳) 近年の研究では、画像検索モデルは、わずかに修正されたテスト入力が問題のある検索結果につながる可能性のある敵攻撃に弱いことが示されている。 本稿では,最も重要な評価基準であるrecall@1を逆摂動に不変に保ちながら,頑健な画像検索モデルを設計することを目的とする。 計算可能な半径が$$\ell_2$の球内における対向摂動に対して確実に頑健な,最初の1-nearest neighbor(NN)画像検索アルゴリズムであるRetrievalGuardを提案する。 課題は、1-NN探索と埋め込み空間の高次元性を考慮した、証明可能な堅牢なアルゴリズムを設計することである。 高次元埋め込み空間における1-NN探索手順を慎重に解析することにより,ベース検索モデルとクエリーサンプルからスムーズな検索モデルを構築する。 平滑化検索モデルは境界リプシッツ定数を持つので, 探索スコアは$\ell_2$ 逆摂動に不変である。 画像検索におけるRetrievalGuard法のロバスト性を検証した。

Recent research works have shown that image retrieval models are vulnerable to adversarial attacks, where slightly modified test inputs could lead to problematic retrieval results. In this paper, we aim to design a provably robust image retrieval model which keeps the most important evaluation metric Recall@1 invariant to adversarial perturbation. We propose the first 1-nearest neighbor (NN) image retrieval algorithm, RetrievalGuard, which is provably robust against adversarial perturbations within an $\ell_2$ ball of calculable radius. The challenge is to design a provably robust algorithm that takes into consideration the 1-NN search and the high-dimensional nature of the embedding space. Algorithmically, given a base retrieval model and a query sample, we build a smoothed retrieval model by carefully analyzing the 1-NN search procedure in the high-dimensional embedding space. We show that the smoothed retrieval model has bounded Lipschitz constant and thus the retrieval score is invariant to $\ell_2$ adversarial perturbations. Experiments on image retrieval tasks validate the robustness of our RetrievalGuard method.
翻訳日:2022-06-26 21:40:40 公開日:2022-06-17
# (参考訳) 一階線形論理を生成文法とする

Making first order linear logic a generating grammar ( http://arxiv.org/abs/2206.08955v1 )

ライセンス: CC BY 4.0
Sergey Slavnov(参考訳) 異なる分類文法は、一階乗算線形論理の断片において表面表現を持つことが知られている。 興味の断片は、最近導入された拡張テンソル型計算と等価であることを示す。 これは前者に対して、いくつかの代替構文と直観的幾何学的表現を提供するだけでなく、本質的な推論システムも提供する。

It is known that different categorial grammars have surface representation in a fragment of first order multiplicative linear logic. We show that the fragment of interest is equivalent to the recently introduced {\it extended tensor type calculus}. This provides the former not only with some alternative syntax and intuitive geometric representation, but also with an intrinsic deductive system, which has been absent.
翻訳日:2022-06-26 21:19:27 公開日:2022-06-17
# (参考訳) タンパク質予測課題におけるシーケンスと構造を考慮したトランスフォーマーニューラルネットワーク

Transformer Neural Networks Attending to Both Sequence and Structure for Protein Prediction Tasks ( http://arxiv.org/abs/2206.11057v1 )

ライセンス: CC BY 4.0
Anowarul Kabir, Amarda Shehu(参考訳) ゲノムから解読されるタンパク質配列の増加は、タンパク質配列をトランスフォーマーニューラルネットワークと結合させる研究の新たな道を開いた。 近年の研究では、既知のタンパク質配列の数が、トランスフォーマーによる学習に役立つタスク非依存的な配列表現を支援することが示されている。 本稿では,共同シーケンス構造表現の学習が,関数関連予測タスクにより良い表現をもたらすことを示唆する。 本稿では,シーケンス構造と3次構造の両方に対応するトランスニューラルネットワークを提案する。 このような結合表現はシーケンスベース表現よりも強力であり、様々な指標においてスーパーファミリーメンバシップの性能が向上することを示す。

The increasing number of protein sequences decoded from genomes is opening up new avenues of research on linking protein sequence to function with transformer neural networks. Recent research has shown that the number of known protein sequences supports learning useful, task-agnostic sequence representations via transformers. In this paper, we posit that learning joint sequence-structure representations yields better representations for function-related prediction tasks. We propose a transformer neural network that attends to both sequence and tertiary structure. We show that such joint representations are more powerful than sequence-based representations only, and they yield better performance on superfamily membership across various metrics.
翻訳日:2022-06-26 20:54:37 公開日:2022-06-17
# (参考訳) インフルエンザ予測のための疫学モデルによるランダム森林

Random Forest of Epidemiological Models for Influenza Forecasting ( http://arxiv.org/abs/2206.08967v1 )

ライセンス: CC BY 4.0
Majd Al Aawar, Ajitesh Srivastava(参考訳) インフルエンザウイルスによる入院予測は公衆衛生計画に不可欠であり、病院は患者の流入に備えることができる。 多くの予測手法がインフルエンザの季節にリアルタイムに使われ、cdcに公開通信のために提出されている。 予測モデルは、機械モデルから自動回帰モデル、機械学習モデルまで様々である。 複数の機械モデルを用いて潜在的な軌道を生成し、機械学習を用いてこれらの軌道を改良された予測に組み合わせることによって予測を改善することができると仮定する。 本稿では,ベースラインモデルsikjalphaの個々の予測器を用いて,その性能を向上させるツリーアンサンブルモデル設計を提案する。 各予測子は、一連のハイパーパラメータを変更して生成される。 私たちは、flusight challenge (2022)のためにデプロイされた予測を、他のすべての提出されたアプローチと比較します。 私たちのアプローチは完全に自動化され、手作業によるチューニングは不要です。 我々のランダムフォレストに基づくアプローチは、平均絶対誤差、カバレッジ、重み付き間隔スコアの観点から、個々の予測者の予測を改善することができることを示す。 提案手法は, 平均絶対誤差, 重み付き区間スコアにおいて, 現行シーズン(2022年)の全週平均値において, 他モデルよりも優れていた。 ランダムフォレストの説明可能性(木の解析を通して)は、それが個々の予測因子をどのように改善するかについての洞察を得ることができる。

Forecasting the hospitalizations caused by the Influenza virus is vital for public health planning so that hospitals can be better prepared for an influx of patients. Many forecasting methods have been used in real-time during the Influenza seasons and submitted to the CDC for public communication. The forecasting models range from mechanistic models, and auto-regression models to machine learning models. We hypothesize that we can improve forecasting by using multiple mechanistic models to produce potential trajectories and use machine learning to learn how to combine those trajectories into an improved forecast. We propose a Tree Ensemble model design that utilizes the individual predictors of our baseline model SIkJalpha to improve its performance. Each predictor is generated by changing a set of hyper-parameters. We compare our prospective forecasts deployed for the FluSight challenge (2022) to all the other submitted approaches. Our approach is fully automated and does not require any manual tuning. We demonstrate that our Random Forest-based approach is able to improve upon the forecasts of the individual predictors in terms of mean absolute error, coverage, and weighted interval score. Our method outperforms all other models in terms of the mean absolute error and the weighted interval score based on the mean across all weekly submissions in the current season (2022). Explainability of the Random Forest (through analysis of the trees) enables us to gain insights into how it improves upon the individual predictors.
翻訳日:2022-06-26 20:41:54 公開日:2022-06-17
# (参考訳) MultiEarth 2022 -- マルチモーダル回帰と生成によるマトリックスコンプリートチャレンジのチャンピオンソリューション

MultiEarth 2022 -- The Champion Solution for the Matrix Completion Challenge via Multimodal Regression and Generation ( http://arxiv.org/abs/2206.08970v1 )

ライセンス: CC BY 4.0
Bo Peng, Hongchen Liu, Hang Zhou, Yuchuan Gou, Jui-Hsin Lai(参考訳) 地球観測衛星は、何年にもわたって異なる場所やスペクトル帯で地球環境を継続的に監視してきた。 複雑な衛星センシング条件(気象、雲、大気、軌道など)のため、特定のモダリティ、バンド、位置、時刻の観測は不可能である。 CVPR 2022 [1] の MultiEarth Matrix Completion Challenge は、Amazon Rainforest を関心のある領域として扱うことで、このようなデータの分散性に対処するためのマルチモーダル衛星データを提供する。 本研究は,適応型リアルタイムマルチモーダル回帰生成フレームワークを提案し,LPIPSが0.2226,PSNRが123.0372,SSIMが0.6347で,未確認のテストクエリに対して優れた性能を実現する。

Earth observation satellites have been continuously monitoring the earth environment for years at different locations and spectral bands with different modalities. Due to complex satellite sensing conditions (e.g., weather, cloud, atmosphere, orbit), some observations for certain modalities, bands, locations, and times may not be available. The MultiEarth Matrix Completion Challenge in CVPR 2022 [1] provides the multimodal satellite data for addressing such data sparsity challenges with the Amazon Rainforest as the region of interest. This work proposes an adaptive real-time multimodal regression and generation framework and achieves superior performance on unseen test queries in this challenge with an LPIPS of 0.2226, a PSNR of 123.0372, and an SSIM of 0.6347.
翻訳日:2022-06-26 20:28:51 公開日:2022-06-17
# (参考訳) TransResU-Net: Real-Time Colonoscopy Polyp SegmentationのためのTransformerベースのResU-Net

TransResU-Net: Transformer based ResU-Net for Real-Time Colonoscopy Polyp Segmentation ( http://arxiv.org/abs/2206.08985v1 )

ライセンス: CC BY 4.0
Nikhil Kumar Tomar, Annie Shergill, Brandon Rieders, Ulas Bagci, Debesh Jha(参考訳) 大腸癌 (crc) は、がんおよびがん関連死亡の最も一般的な原因の1つである。 早期発見の鍵は,大腸癌検診をタイムリーに行うことにある。 大腸内視鏡は大腸癌の診断に使用される一次形態である。 しかし, ポリープ, 腺腫, 進行腺腫のミス率は有意に高かった。 早期のポリープの早期検出は、大腸癌に伴う死亡率と経済的負担を軽減するのに役立つ。 深層学習に基づくコンピュータ支援診断システム(CADx)は、消化器科医が見逃される可能性のあるポリープを識別し、ポリープ検出率を向上させるのに役立つ。 さらにCADxシステムは、長期の大腸癌予防を改善するコスト効率の高いシステムであることが証明できる。 本研究では,Transformer ResU-Net(TransResU-Net)と呼ばれる,自動ポリープセグメンテーションのためのディープラーニングアーキテクチャを提案する。 提案アーキテクチャはResNet-50をバックボーンとして残余ブロック上に構築されており,トランスフォーマーの自己保持機構と拡張畳み込みの利点を生かしている。 公開された2つのポリプセグメンテーションベンチマークデータセットによる実験結果から,TransResU-Netは高い有望なダイススコアとリアルタイム速度を得た。 その結果,transresu-netは大腸癌早期診断,治療,予防のためのリアルタイムポリープ検出システムを構築するための強力なベンチマークとなる可能性が示唆された。 TransResU-Netのソースコードはhttps://github.com/nikhilroxtomar/TransResUNetで公開されている。

Colorectal cancer (CRC) is one of the most common causes of cancer and cancer-related mortality worldwide. Performing colon cancer screening in a timely fashion is the key to early detection. Colonoscopy is the primary modality used to diagnose colon cancer. However, the miss rate of polyps, adenomas and advanced adenomas remains significantly high. Early detection of polyps at the precancerous stage can help reduce the mortality rate and the economic burden associated with colorectal cancer. Deep learning-based computer-aided diagnosis (CADx) system may help gastroenterologists to identify polyps that may otherwise be missed, thereby improving the polyp detection rate. Additionally, CADx system could prove to be a cost-effective system that improves long-term colorectal cancer prevention. In this study, we proposed a deep learning-based architecture for automatic polyp segmentation, called Transformer ResU-Net (TransResU-Net). Our proposed architecture is built upon residual blocks with ResNet-50 as the backbone and takes the advantage of transformer self-attention mechanism as well as dilated convolution(s). Our experimental results on two publicly available polyp segmentation benchmark datasets showed that TransResU-Net obtained a highly promising dice score and a real-time speed. With high efficacy in our performance metrics, we concluded that TransResU-Net could be a strong benchmark for building a real-time polyp detection system for the early diagnosis, treatment, and prevention of colorectal cancer. The source code of the proposed TransResU-Net is publicly available at https://github.com/nikhilroxtomar/TransResUNet.
翻訳日:2022-06-26 20:23:27 公開日:2022-06-17
# (参考訳) StaDReとStaDRo:統計的距離測定によるMLベース予測の信頼性とロバスト性の推定

StaDRe and StaDRo: Reliability and Robustness Estimation of ML-based Forecasting using Statistical Distance Measures ( http://arxiv.org/abs/2206.11116v1 )

ライセンス: CC BY 4.0
Mohammed Naveed Akram, Akshatha Ambekar, Ioannis Sorokos, Koorosh Aslansefat, Daniel Schneider(参考訳) 機械学習(ML)モデルの信頼性評価が重要な課題となっている。 このような \mbox{models} が安全クリティカルなアプリケーションにデプロイされる場合、モデル予測に基づく決定が危険な状況を引き起こす可能性がある。 この点において、近年の研究は安全で、mbox{dependable}、信頼性の高いMLシステムを実現する方法を提案している。 そのような方法の1つは、分布シフトを検出して分析し、それらのシフトにどのように反応するかを測定することである。 これは以前にSafeMLで提案された。 本研究は,時系列データに対するSafeMLの利用,および統計的距離測定を用いたML予測手法の信頼性とロバスト性評価に焦点をあてる。 この目的のために, SafeML で提案されている経験的累積分布関数 (ECDF) に基づく距離測定を行い, 時系列にわたって統計的距離異性度 (SDD) を測定する。 次に、SDDに基づく信頼性評価(StaDRe)およびSDDに基づくロバストネス(StaDRo)尺度を提案する。 クラスタリング手法を用いて,トレーニング中に観測されたデータの統計特性と予測値との類似性を明らかにする。 提案手法は,MLモデルのデータセットSDDとキーパフォーマンス指標(KPI)のリンクを提供する。

Reliability estimation of Machine Learning (ML) models is becoming a crucial subject. This is particularly the case when such \mbox{models} are deployed in safety-critical applications, as the decisions based on model predictions can result in hazardous situations. In this regard, recent research has proposed methods to achieve safe, \mbox{dependable}, and reliable ML systems. One such method consists of detecting and analyzing distributional shift, and then measuring how such systems respond to these shifts. This was proposed in earlier work in SafeML. This work focuses on the use of SafeML for time series data, and on reliability and robustness estimation of ML-forecasting methods using statistical distance measures. To this end, distance measures based on the Empirical Cumulative Distribution Function (ECDF) proposed in SafeML are explored to measure Statistical-Distance Dissimilarity (SDD) across time series. We then propose SDD-based Reliability Estimate (StaDRe) and SDD-based Robustness (StaDRo) measures. With the help of a clustering technique, the similarity between the statistical properties of data seen during training and the forecasts is identified. The proposed method is capable of providing a link between dataset SDD and Key Performance Indicators (KPIs) of the ML models.
翻訳日:2022-06-26 20:11:46 公開日:2022-06-17
# (参考訳) 確率的水文後処理・予測における課題解決のための機械学習概念と手法のレビュー

A review of machine learning concepts and methods for addressing challenges in probabilistic hydrological post-processing and forecasting ( http://arxiv.org/abs/2206.08998v1 )

ライセンス: CC BY 4.0
Georgia Papacharalampous, Hristos Tyralis(参考訳) 確率予測は水文学を含む様々な応用分野において近年注目を集めている。 いくつかの機械学習の概念と手法は、関連する課題に対処することによって、確率的予測実装の形式化と最適化に特に関係している。 それにもかかわらず、このような概念と手法に焦点を当てた事実上のレビューは、現在確率的水文予測文献から欠落している。 この欠如は、この同じ文献で機械学習から利益を得るための研究努力が顕著に強化されているにもかかわらず、特に確率的水文後処理の分野で最近出現した実質的な関連する進歩にもかかわらず、伝統的に水文学者に確率的水文予測の実装を提供している。 ここではこのギャップを埋めることを目指しています。 本総説では,研究コンセプトや手法の効果的な普及に繋がる鍵となるアイデアや情報を強調し,将来的な実装とさらなる科学的発展を支援することを目的としている。 同じ方向を向いて、オープンな研究課題を特定し、将来検討すべきアイデアを提案する。

Probabilistic forecasting is receiving growing attention nowadays in a variety of applied fields, including hydrology. Several machine learning concepts and methods are notably relevant to formalizing and optimizing probabilistic forecasting implementations by addressing the relevant challenges. Nonetheless, practically-oriented reviews focusing on such concepts and methods are currently missing from the probabilistic hydrological forecasting literature. This absence holds despite the pronounced intensification in the research efforts for benefitting from machine learning in this same literature, and despite the substantial relevant progress that has recently emerged, especially in the field of probabilistic hydrological post-processing, which traditionally provides the hydrologists with probabilistic hydrological forecasting implementations. Herein, we aim to fill this specific gap. In our review, we emphasize key ideas and information that can lead to effective popularizations of the studied concepts and methods, as such an emphasis can support successful future implementations and further scientific developments in the field. In the same forward-looking direction, we identify open research questions and propose ideas to be explored in the future.
翻訳日:2022-06-26 20:01:47 公開日:2022-06-17
# (参考訳) 深層エネルギーモデルによるクラスター生成

Cluster Generation via Deep Energy-Based Model ( http://arxiv.org/abs/2206.09002v1 )

ライセンス: CC BY 4.0
A. Yu. Artsukevich, S. V. Lepeshkin(参考訳) 深層学習を用いたナノクラスターの安定構造生成のための新しい手法を提案する。 本手法は,最も安定な構造に対応し,構成空間の中間領域の「実」ポテンシャルよりもずっと滑らかな局所的極小を持つ人工的ポテンシャルエネルギー面を構築することで構成する。 表面を構築するために、グラフ畳み込みネットワークが使用される。 この方法は、訓練で使用されたものよりも多くの原子を持つ構造物の電位面を外挿することができる。 したがって、トレーニングセットに十分な数の低エネルギー構造を持つことで、より多くの原子を含む基底状態構造に対する新しい候補を生成することができる。 このアプローチをシリカクラスター$(sio_2)_n$に適用し,n=28の安定構造を初めて発見した。 .51. この方法は普遍的であり、原子組成や原子数に依存しない。

We present a new approach for the generation of stable structures of nanoclusters using deep learning methods. Our method consists in constructing an artificial potential energy surface, with local minima corresponding to the most stable structures and which is much smoother than "real" potential in the intermediate regions of the configuration space. To build the surface, graph convolutional networks are used. The method can extrapolates the potential surface to cases of structures with larger number of atoms than was used in training. Thus, having a sufficient number of low-energy structures in the training set, the method allows to generate new candidates for the ground-state structures, including ones with larger number of atoms. We applied the approach to silica clusters $(SiO_2)_n$ and for the first time found the stable structures with n=28...51. The method is universal and does not depend on the atomic composition and number of atoms.
翻訳日:2022-06-26 20:00:46 公開日:2022-06-17
# (参考訳) pdfaの効率的なアクティブラーニングに向けて

Towards Efficient Active Learning of PDFA ( http://arxiv.org/abs/2206.09004v1 )

ライセンス: CC BY-SA 4.0
Franz Mayr, Sergio Yovine, Federico Pan, Nicolas Basset, Thao Dang(参考訳) 本稿では,次のシンボル確率分布を考慮した状態の合同化,分布の差異に対応する量子化,効率的な木構造という3つの側面に基づく,pdfaのための新しいアクティブラーニングアルゴリズムを提案する。 実験では、参照実装に関して大きなパフォーマンス向上を示した。

We propose a new active learning algorithm for PDFA based on three main aspects: a congruence over states which takes into account next-symbol probability distributions, a quantization that copes with differences in distributions, and an efficient tree-based data structure. Experiments showed significant performance gains with respect to reference implementations.
翻訳日:2022-06-26 19:49:25 公開日:2022-06-17
# (参考訳) プラグアンドプレイ先としての拡散モデル

Diffusion models as plug-and-play priors ( http://arxiv.org/abs/2206.09012v1 )

ライセンス: CC BY 4.0
Alexandros Graikos, Nikolay Malkin, Nebojsa Jojic, Dimitris Samaras(参考訳) 我々は、事前の $p(\mathbf{x})$ と補助制約 $c(\mathbf{x},\mathbf{y})$ からなるモデルにおいて、高次元データ $\mathbf{x}$ を推測する問題を考える。 本稿では,前者は独立に訓練された拡散生成モデルである。 補助的な制約は、微分可能な形式を持つことが期待されているが、様々なソースから来ることができる。 このような推論は拡散モデルをプラグアンドプレイモジュールに変えるため、条件生成やイメージセグメンテーションといった新しい領域やタスクにモデルを適用する際の潜在的な応用範囲が生まれる。 拡散モデルの構造は、各ステップで異なるノイズ量で富む固定された復調ネットワークを通して微分を反復することで近似推論を行うことができる。 適合性の評価において多くのノイズの多い$\mathbf{x}$ を考えることは、組合せ最適化問題を解決する新しいアルゴリズムをもたらす新しい探索メカニズムである。

We consider the problem of inferring high-dimensional data $\mathbf{x}$ in a model that consists of a prior $p(\mathbf{x})$ and an auxiliary constraint $c(\mathbf{x},\mathbf{y})$. In this paper, the prior is an independently trained denoising diffusion generative model. The auxiliary constraint is expected to have a differentiable form, but can come from diverse sources. The possibility of such inference turns diffusion models into plug-and-play modules, thereby allowing a range of potential applications in adapting models to new domains and tasks, such as conditional generation or image segmentation. The structure of diffusion models allows us to perform approximate inference by iterating differentiation through the fixed denoising network enriched with different amounts of noise at each step. Considering many noised versions of $\mathbf{x}$ in evaluation of its fitness is a novel search mechanism that may lead to new algorithms for solving combinatorial optimization problems.
翻訳日:2022-06-26 19:36:16 公開日:2022-06-17
# (参考訳) 連続正規化流れに対する経路勾配推定器

Path-Gradient Estimators for Continuous Normalizing Flows ( http://arxiv.org/abs/2206.09016v1 )

ライセンス: CC BY 4.0
Lorenz Vaitl, Kim A. Nicoli, Shinichi Nakajima, Pan Kessel(参考訳) 最近の研究は、単純な変分ガウス分布の経路勾配推定器を確立し、変分分布が正確な目標分布に近づく状態において、経路勾配は特に有益であると主張した。 多くの応用において、この状態は単純なガウス変分分布では到達できない。 本研究では,連続正規化フローのより表現力のある変分系に対して経路勾配推定器を提案することにより,この限界を克服する。 我々はこの推定器を計算し、その優れた性能を実証的に確立する効率的なアルゴリズムを概説する。

Recent work has established a path-gradient estimator for simple variational Gaussian distributions and has argued that the path-gradient is particularly beneficial in the regime in which the variational distribution approaches the exact target distribution. In many applications, this regime can however not be reached by a simple Gaussian variational distribution. In this work, we overcome this crucial limitation by proposing a path-gradient estimator for the considerably more expressive variational family of continuous normalizing flows. We outline an efficient algorithm to calculate this estimator and establish its superior performance empirically.
翻訳日:2022-06-26 19:16:36 公開日:2022-06-17
# (参考訳) 記述論理のための一様およびモジュール列システム

Uniform and Modular Sequent Systems for Description Logics ( http://arxiv.org/abs/2206.09020v1 )

ライセンス: CC BY 4.0
Tim Lyon and Jonas Karge(参考訳) 本稿では alc を拡張した表現型記述論理のためのシークエントシステムの構築を可能にするフレームワークを提案する。 我々のフレームワークは、幅広い共通記述論理を網羅するだけでなく、「ロールリレーショナル公理」と呼ばれる特別な公式を持つ記述論理の拡張のための逐次システムも得ることができる。 すべてのシークエントシステムは健全で完全であり、共通の構造規則の許容度や規則の可逆性などの優れた性質を持っている。

We introduce a framework that allows for the construction of sequent systems for expressive description logics extending ALC. Our framework not only covers a wide array of common description logics, but also allows for sequent systems to be obtained for extensions of description logics with special formulae that we call "role relational axioms." All sequent systems are sound, complete, and possess favorable properties such as height-preserving admissibility of common structural rules and height-preserving invertibility of rules.
翻訳日:2022-06-26 18:57:53 公開日:2022-06-17
# (参考訳) ベイズ最適化を用いたMacPhersonサスペンションアーキテクチャの設計

Designing MacPherson Suspension Architectures using Bayesian Optimization ( http://arxiv.org/abs/2206.09022v1 )

ライセンス: CC BY 4.0
Sinnu Susan Thomas, Jacopo Palandri, Mohsen Lakehal-ayat, Punarjay Chakravarty, Friedrich Wolf-Monheim and Matthew B. Blaschko(参考訳) エンジニアリング設計は伝統的に手作業で行われ、専門家は過去の経験に基づいて設計提案を行い、これらの提案は特定の目標仕様に従ってテストされる。 コンプライアンステストは、まず、規律モデルと呼ばれるものを使用してコンピュータシミュレーションによって実行される。 そのようなモデルは有限要素解析や多体システムアプローチなどで実装することができる。 このシミュレーションを通した設計は、物理的プロトタイピングとして考慮される。 全体のプロセスには何ヶ月もかかり、実践にはかなりのコストがかかります。 我々は,設計パラメータに対する対象仕様への準拠を直接最適化することにより,このプロセスを部分的に自動化するベイズ最適化システムを開発した。 提案手法は,勾配情報を必要としない高次元非線形関数の一般化逆を計算するための一般的なフレームワークである。 さらに,2層収束基準を策定する。 一 すべての特定設計基準を最適に満たす解に収束すること、又は (ii)最小ノルム解への収束。 最先端の商業規律モデルを用いて,産業設定に動機づけられた車体シャシー設計問題に対する提案手法を実証する。 提案手法は汎用的でスケーラブルで効率的であり,ベイズ最適化ソフトウェアパッケージの既存の概念やサブルーチンに基づいて,新しい収束基準を簡単に実装可能であることを示す。

Engineering design is traditionally performed by hand: an expert makes design proposals based on past experience, and these proposals are then tested for compliance with certain target specifications. Testing for compliance is performed first by computer simulation using what is called a discipline model. Such a model can be implemented by a finite element analysis, multibody systems approach, etc. Designs passing this simulation are then considered for physical prototyping. The overall process may take months, and is a significant cost in practice. We have developed a Bayesian optimization system for partially automating this process by directly optimizing compliance with the target specification with respect to the design parameters. The proposed method is a general framework for computing a generalized inverse of a high-dimensional non-linear function that does not require e.g. gradient information, which is often unavailable from discipline models. We furthermore develop a two-tier convergence criterion based on (i) convergence to a solution optimally satisfying all specified design criteria, or (ii) convergence to a minimum-norm solution. We demonstrate the proposed approach on a vehicle chassis design problem motivated by an industry setting using a state-of-the-art commercial discipline model. We show that the proposed approach is general, scalable, and efficient, and that the novel convergence criteria can be implemented straightforwardly based on existing concepts and subroutines in popular Bayesian optimization software packages.
翻訳日:2022-06-26 18:20:05 公開日:2022-06-17
# (参考訳) 低リソースデバイスにおける適応推論のためのバイナリ・アーリーエクイットネットワーク

Binary Early-Exit Network for Adaptive Inference on Low-Resource Devices ( http://arxiv.org/abs/2206.09029v1 )

ライセンス: CC BY 4.0
Aaqib Saeed(参考訳) ディープニューラルネットワークは、計算リソースの需要の増加に伴い、さまざまなタスクのパフォーマンスを大幅に向上させ、(メモリとバッテリパワーの制限のある)低リソースデバイスへのデプロイを不可能にした。 バイナリニューラルネットワーク(BNN)は、実数値モデルと比較して、極端な圧縮とスピードアップでこの問題に対処する。 そこで本研究では,BNNを早期導入戦略で統合し,推論を高速化する手法を提案する。 このアプローチでは、単純なインスタンスが決定しきい値に基づいて早期に終了でき、異なる中間層に追加された出力層を利用してバイナリモデル全体の実行を避けることができる。 3つの音声分類タスクと4つのBNNアーキテクチャに対して,本手法を広範囲に評価した。 本手法は,システムユーザが指定したエントロピーベースのしきい値に制御可能でありながら,品質効率の良好なトレードオフを示す。 また、既存のBNNアーキテクチャをベースとした単一のモデルで、異なる効率レベルをトレーニングすることなく、より優れたスピードアップ(レイテンシ6ms未満)を実現している。 また、サンプルの難易度を推定し、データセット内の特定のクラスに関する不確実性をよりよく理解する簡単な方法を提供する。

Deep neural networks have significantly improved performance on a range of tasks with the increasing demand for computational resources, leaving deployment on low-resource devices (with limited memory and battery power) infeasible. Binary neural networks (BNNs) tackle the issue to an extent with extreme compression and speed-up gains compared to real-valued models. We propose a simple but effective method to accelerate inference through unifying BNNs with an early-exiting strategy. Our approach allows simple instances to exit early based on a decision threshold and utilizes output layers added to different intermediate layers to avoid executing the entire binary model. We extensively evaluate our method on three audio classification tasks and across four BNNs architectures. Our method demonstrates favorable quality-efficiency trade-offs while being controllable with an entropy-based threshold specified by the system user. It also results in better speed-ups (latency less than 6ms) with a single model based on existing BNN architectures without retraining for different efficiency levels. It also provides a straightforward way to estimate sample difficulty and better understanding of uncertainty around certain classes within the dataset.
翻訳日:2022-06-26 18:11:03 公開日:2022-06-17
# (参考訳) 斜め画像を用いたベクトルデータの検証

Validation of Vector Data using Oblique Images ( http://arxiv.org/abs/2206.09038v1 )

ライセンス: CC BY 4.0
Pragyana Mishra, Eyal Ofek, Gur Kimchi(参考訳) 斜めの画像は、地表の斜めの角度で撮影された空中写真である。 これらの画像におけるベクトルおよびその他の地理空間データの投影は、カメラパラメータ、地理空間実体の位置、地表地形、閉塞、可視性に依存する。 本稿では,斜め画像を用いたベクトルデータの不整合を検出する頑健でスケーラブルなアルゴリズムを提案する。 このアルゴリズムは画像記述子を用いて、画像中の地理空間エンティティの局所的な外観を符号化する。 これらの画像記述子は、色、画素強度勾配、テクスチャ、ステアブルフィルタ応答を組み合わせる。 Support Vector Machine分類器は、基礎となるベクトルデータ、デジタル標高マップ、構築モデル、カメラパラメータと一致しない画像記述子を検出するように訓練されている。 本稿では,視覚的道路セグメントと非道路データに基づいて分類器を訓練する。 その後、訓練された分類器は、オクルードとミスアライメントの両方を含むベクトルの不整合を検出する。 整合性のある道路セグメントは、これらの領域のベクトル、DEMおよび3次元モデルデータを検証し、不整合セグメントはエラーを指摘する。 さらに,不整列道路近傍の目に見える道路セグメントと一致する記述子を探索することで,画像中の画素と一致する所望の道路アライメントが得られることを示す。

Oblique images are aerial photographs taken at oblique angles to the earth's surface. Projections of vector and other geospatial data in these images depend on camera parameters, positions of the geospatial entities, surface terrain, occlusions, and visibility. This paper presents a robust and scalable algorithm to detect inconsistencies in vector data using oblique images. The algorithm uses image descriptors to encode the local appearance of a geospatial entity in images. These image descriptors combine color, pixel-intensity gradients, texture, and steerable filter responses. A Support Vector Machine classifier is trained to detect image descriptors that are not consistent with underlying vector data, digital elevation maps, building models, and camera parameters. In this paper, we train the classifier on visible road segments and non-road data. Thereafter, the trained classifier detects inconsistencies in vectors, which include both occluded and misaligned road segments. The consistent road segments validate our vector, DEM, and 3-D model data for those areas while inconsistent segments point out errors. We further show that a search for descriptors that are consistent with visible road segments in the neighborhood of a misaligned road yields the desired road alignment that is consistent with pixels in the image.
翻訳日:2022-06-26 18:01:57 公開日:2022-06-17
# (参考訳) 限界オーダーブック予測のための機械学習学習時間の高速化

Accelerating Machine Learning Training Time for Limit Order Book Prediction ( http://arxiv.org/abs/2206.09041v1 )

ライセンス: CC BY 4.0
Mark Joseph Bennett(参考訳) 金融機関は、金融機械学習を含む特定のアルゴリズムが利益をもたらすかどうかを判断するためにシミュレーションに興味を持っている。 この種のアルゴリズムの多くのバージョンが研究者によって最近公表されているが、ここでの焦点は、高頻度市場データの説明可能な性質と可用性のため、特定の機械学習トレーニングプロジェクトである。 このタスクでは、ハードウェアアクセラレーションが、金融機械学習研究者が結果を得るのに必要な時間を短縮することが期待される。 大部分の時間は分類器の訓練に費やされるため、より高速な訓練手順に関心がある。 株式市場の方向性を予測するためのリミットオーダーブックアルゴリズムが我々の課題であり、特にモデル開発の反復性を考慮した場合、機械学習トレーニングプロセスは時間集約的である。 これを改善するため,NVIDIA が生成する Graphical Processing Units (GPU) を,コンピュータアーキテクチャが並列な高速演算に最適化されているデータセンタに展開する。 調査した構成では、トレーニング時間が大幅に短縮され、より効率的で広範なモデル開発が可能になる。

Financial firms are interested in simulation to discover whether a given algorithm involving financial machine learning will operate profitably. While many versions of this type of algorithm have been published recently by researchers, the focus herein is on a particular machine learning training project due to the explainable nature and the availability of high frequency market data. For this task, hardware acceleration is expected to speed up the time required for the financial machine learning researcher to obtain the results. As the majority of the time can be spent in classifier training, there is interest in faster training steps. A published Limit Order Book algorithm for predicting stock market direction is our subject, and the machine learning training process can be time-intensive especially when considering the iterative nature of model development. To remedy this, we deploy Graphical Processing Units (GPUs) produced by NVIDIA available in the data center where the computer architecture is geared to parallel high-speed arithmetic operations. In the studied configuration, this leads to significantly faster training time allowing more efficient and extensive model development.
翻訳日:2022-06-26 17:36:01 公開日:2022-06-17
# 大型モデルによる進化

Evolution through Large Models ( http://arxiv.org/abs/2206.08896v1 )

ライセンス: Link先を確認
Joel Lehman and Jonathan Gordon and Shawn Jain and Kamal Ndousse and Cathy Yeh and Kenneth O. Stanley(参考訳) 本稿では,大規模言語モデル(LLM)が遺伝的プログラミング(GP)プログラムに適用された突然変異演算子の有効性を大幅に向上できることを示す。 このようなllmは、逐次的な変更や変更を含むトレーニングデータによるメリットがあるため、人間が行う可能性のある変更を近似することができる。 大規模なモデル (ELM) による進化の広大さを強調するため、ELMとMAP-Elitesを組み合わせたメイン実験では、オリジナルのLLMが事前訓練で見たことのないソダレース領域で動くアンブレーションロボットを出力するPythonプログラムの数十万の機能例を生成する。 これらの例は、特定の地形に対して適切な歩行を出力できる新しい条件付き言語モデルのトレーニングをブートストラップするのに役立つ。 トレーニングデータがないドメインにおいて、特定のコンテキストに対して適切なアーティファクトを出力できる新しいモデルをブートストラップする機能には、オープンディペンデンス、ディープラーニング、強化学習といった意味がある。 これらの影響は、EMMが現在オープンしている新しい研究の方向性を刺激することを期待して、ここで深く研究されている。

This paper pursues the insight that large language models (LLMs) trained to generate code can vastly improve the effectiveness of mutation operators applied to programs in genetic programming (GP). Because such LLMs benefit from training data that includes sequential changes and modifications, they can approximate likely changes that humans would make. To highlight the breadth of implications of such evolution through large models (ELM), in the main experiment ELM combined with MAP-Elites generates hundreds of thousands of functional examples of Python programs that output working ambulating robots in the Sodarace domain, which the original LLM had never seen in pre-training. These examples then help to bootstrap training a new conditional language model that can output the right walker for a particular terrain. The ability to bootstrap new models that can output appropriate artifacts for a given context in a domain where zero training data was previously available carries implications for open-endedness, deep learning, and reinforcement learning. These implications are explored here in depth in the hope of inspiring new directions of research now opened up by ELM.
翻訳日:2022-06-26 14:50:31 公開日:2022-06-17
# 自閉症スペクトラム障害のfMRI予測のための深部強化学習

Deep reinforcement learning for fMRI prediction of Autism Spectrum Disorder ( http://arxiv.org/abs/2206.11224v1 )

ライセンス: Link先を確認
Joseph Stember, Danielle Stember, Luca Pasquini, Jenabi Merhnaz, Andrei Holodny, Hrithwik Shalu(参考訳) 目的: 機能的MRI(fMRI)データセットは一般的に小さいため, 自閉症スペクトラム障害 (ASD) とニューロタイプ (NT) コントロール (NT) の相殺状態fMRI分類のためのデータ効率の良いアプローチを模索した。 深部強化学習(DRL)分類器は小さなfMRIトレーニングセットで効果的に学習できると仮定した。 方法: autism brain imaging data exchange (abide) データベースから100のグラフラベルペアを用いた深層強化学習(drl)分類法を訓練した。 比較のために、我々は同じトレーニングセットでSupervised Deep Learning (SDL)分類器を訓練した。 結果: drl は 2.4 x 10^(-7) の sdl を有意に上回った。 DRL は F1 スコア 76 を含む様々な分類器のパフォーマンス指標において,SDL 67 に対して優れた結果を得た。 SDLはトレーニングデータに素早く適合するが、DRLは段階的な方法で学習し、個別のテストセットに一般化した。 結論: drl は asd と nt をデータ効率の良い方法で分類し、小さなトレーニングセットでそれを行うことができる。 今後の研究には、データ効率のためにニューラルネットワークを最適化し、他のfMRIデータセット、すなわち脳がん患者にアプローチを適用することが含まれる。

Purpose : Because functional MRI (fMRI) data sets are in general small, we sought a data efficient approach to resting state fMRI classification of autism spectrum disorder (ASD) versus neurotypical (NT) controls. We hypothesized that a Deep Reinforcement Learning (DRL) classifier could learn effectively on a small fMRI training set. Methods : We trained a Deep Reinforcement Learning (DRL) classifier on 100 graph-label pairs from the Autism Brain Imaging Data Exchange (ABIDE) database. For comparison, we trained a Supervised Deep Learning (SDL) classifier on the same training set. Results : DRL significantly outperformed SDL, with a p-value of 2.4 x 10^(-7). DRL achieved superior results for a variety of classifier performance metrics, including an F1 score of 76, versus 67 for SDL. Whereas SDL quickly overfit the training data, DRL learned in a progressive manner that generalised to the separate testing set. Conclusion : DRL can learn to classify ASD versus NT in a data efficient manner, doing so for a small training set. Future work will involve optimizing the neural network for data efficiency and applying the approach to other fMRI data sets, namely for brain cancer patients.
翻訳日:2022-06-26 07:12:33 公開日:2022-06-17
# 自動学習と不確実性定量化を用いた光電率予測

Photoelectric Factor Prediction Using Automated Learning and Uncertainty Quantification ( http://arxiv.org/abs/2206.08950v1 )

ライセンス: Link先を確認
Khalid L. Alsamadony, Ahmed Farid Ibrahim, Salaheldin Elkatatny, Abdulazeez Abdulraheem(参考訳) 光電率(PEF)は、PEF測定が原子番号の高い元素に敏感であるため、異なる種類の貯水池岩を識別するための重要な井戸検層ツールである。 さらに, PEFログと他のウェルログを組み合わせることで, 岩石鉱物の比を決定することができた。 しかし、例えば古い井戸の丸太やバリットベースの泥で掘られた井戸などでは、pefログが欠落している可能性がある。 したがって,これらの状況下では,PEFログの欠落を推定するためのモデルの開発が不可欠である。 本研究では, バルク密度 (RHOB) , 中性子ポーシティ (NPHI) , ガンマ線 (GR) , 圧縮速度, せん断速度のそれぞれを用いて, PEF の値を予測する機械学習モデルを開発した。 適応ネットワークファジィ推論システム(ANFIS)と人工ニューラルネットワーク(ANN)モデルを用いたPEF値の予測は,それぞれ,テストデータセットにおける平均絶対パーセンテージ誤差(AAPE)の約16%と14%の誤差を有する。 このように、自動化機械学習の概念に基づく別のアプローチが提案された。 最適なモデルタイプを自動的に検索し、調査中のデータセットのハイパーパラメータを最適化する。 このアプローチは、PEF値の正確な推定のためのガウス過程回帰(GPR)モデルを選択する。 開発されたGPRモデルは、テストデータセットにおける予測されたPEF値のAPEを約10%に削減する。 この誤差は、GPRモデルを用いた測定の潜在的なノイズをモデル化することで、約2%に低減できる。

The photoelectric factor (PEF) is an important well logging tool to distinguish between different types of reservoir rocks because PEF measurement is sensitive to elements with high atomic number. Furthermore, the ratio of rock minerals could be determined by combining PEF log with other well logs. However, PEF log could be missing in some cases such as in old well logs and wells drilled with barite-based mud. Therefore, developing models for estimating missing PEF log is essential in those circumstances. In this work, we developed various machine learning models to predict PEF values using the following well logs as inputs: bulk density (RHOB), neutron porosity (NPHI), gamma ray (GR), compressional and shear velocity. The predictions of PEF values using adaptive-network-fuzzy inference system (ANFIS) and artificial neural network (ANN) models have errors of about 16% and 14% average absolute percentage error (AAPE) in the testing dataset, respectively. Thus, a different approach was proposed that is based on the concept of automated machine learning. It works by automatically searching for the optimal model type and optimizes its hyperparameters for the dataset under investigation. This approach selected a Gaussian process regression (GPR) model for accurate estimation of PEF values. The developed GPR model decreases the AAPE of the predicted PEF values in the testing dataset to about 10% AAPE. This error could be further decreased to about 2% by modeling the potential noise in the measurements using the GPR model.
翻訳日:2022-06-22 20:03:12 公開日:2022-06-17
# 随伴方程式を通して微分方程式の軌道からパラメータを学習する

Learning the parameters of a differential equation from its trajectory via the adjoint equation ( http://arxiv.org/abs/2206.09054v1 )

ライセンス: Link先を確認
Imre Fekete, Andr\'as Moln\'ar, P\'eter L. Simon(参考訳) 本論文は、機械学習と微分方程式の理論との関係の強化に寄与する。 この文脈では、パラメータを適合させる逆問題と、ある測定値に対する微分方程式の初期条件が重要な問題となっている。 本稿では,初期値問題の解を離散的あるいは連続的な測定値の集合に適合させる目的で,損失関数の族を構成するのに使用できる抽象化について検討する。 共役方程式の拡張は、機械学習におけるバックプロパゲーションの連続的類似物としての損失関数の勾配を導出するために利用できることを示した。 合理的に制御された状況下では、この方法で得られた勾配は、初期値問題の解を連続的なノイズ測定の集合と不確定な時間に記録される離散的ノイズ測定の集合に適合させるために、勾配降下に使用できることが示される。

The paper contributes to strengthening the relation between machine learning and the theory of differential equations. In this context, the inverse problem of fitting the parameters, and the initial condition of a differential equation to some measurements constitutes a key issue. The paper explores an abstraction that can be used to construct a family of loss functions with the aim of fitting the solution of an initial value problem to a set of discrete or continuous measurements. It is shown, that an extension of the adjoint equation can be used to derive the gradient of the loss function as a continuous analogue of backpropagation in machine learning. Numerical evidence is presented that under reasonably controlled circumstances the gradients obtained this way can be used in a gradient descent to fit the solution of an initial value problem to a set of continuous noisy measurements, and a set of discrete noisy measurements that are recorded at uncertain times.
翻訳日:2022-06-22 20:01:14 公開日:2022-06-17
# 宇宙テア計画

The SPACE THEA Project ( http://arxiv.org/abs/2206.10390v1 )

ライセンス: Link先を確認
Martin Spathelf and Oliver Bendel(参考訳) 職業的な人間との接触はできない場合もある。 それゆえ、自分の問題や恐れは独りぼっちのままである。 有人火星飛行は確かにそのような状況です。 共感を示し、宇宙飛行士を助ける音声アシスタントは、解決策になり得る。 SPACE THEAプロジェクトでは、Google AssistantとDialogflow Essentialsを使ったプロトタイプが開発された。 音声アシスタントは、機能的知性、誠実性、創造性、感情的知性などの特徴に基づく性格を持つ。 これは、宇宙飛行士の日常生活を表現するために設計された7つの異なるシナリオで証明され、運用上の危機や人間の問題に対処する。 本稿は7つのシナリオを詳述し、音声アシスタントの技術的および概念的基礎を列挙する。 最後に、最も重要な結果が述べられ、各章を要約する。

In some situations, no professional human contact can be available. Accordingly, one remains alone with one's problems and fears. A manned Mars flight is certainly such a situation. A voice assistant that shows empathy and assists the astronauts could be a solution. In the SPACE THEA project, a prototype with such capabilities was developed using Google Assistant and Dialogflow Essentials. The voice assistant has a personality based on characteristics such as functional intelligence, sincerity, creativity, and emotional intelligence. It proves itself in seven different scenarios designed to represent the daily lives of astronauts, addressing operational crises and human problems. The paper describes the seven scenarios in detail, and lists technical and conceptual foundations of the voice assistant. Finally, the most important results are stated and the chapters are summarized.
翻訳日:2022-06-22 19:14:08 公開日:2022-06-17
# 機械学習による大型液体シンチレータ検出器のエネルギー再構成:集合的特徴量アプローチ

Energy reconstruction for large liquid scintillator detectors with machine learning techniques: aggregated features approach ( http://arxiv.org/abs/2206.09040v1 )

ライセンス: Link先を確認
Arsenii Gavrikov, Yury Malyshkin and Fedor Ratnikov(参考訳) 多数の光増倍管(PMT)に囲まれた液体シンチレータ(LS)ターゲットからなる大規模検出器は、ボレキシーノ、カムランD、デイアベイ、ダブルチョーズ、レノ、そして衛星検出器TAOとともに、現代のニュートリノ実験で広く用いられている。 このような装置は、光の量とそのPMTチャネル上の空間的および時間的分布から得られるニュートリノエネルギーを測定することができる。 しかし,大規模検出器における微細なエネルギー分解能の実現は困難である。 本研究では,最も先進的な検出器であるJUNOにおけるエネルギー再構成のための機械学習手法を提案する。 原子炉コアから発生し、逆β-デカイチャネルを介して検出されたジュノーの主信号に対応する0-10 mevのエネルギー範囲における陽電子事象に注目した。 PMTによって収集された情報を用いて,集約された特徴を学習したブースト決定木と完全連結ディープニューラルネットワークを考える。 我々は、機能工学の手順の詳細を説明し、機械学習モデルが工学的機能のサブセットを使用して、1 mevでエネルギー分解能$\sigma = 3\%$を提供できることを示す。 モデルトレーニングとテストのためのデータセットは、モンテカルロ法と公式のJUNOソフトウェアによって生成される。 実データを用いた再構成アルゴリズムの性能評価のための校正源の検討も行った。

Large scale detectors consisting of a liquid scintillator (LS) target surrounded by an array of photo-multiplier tubes (PMT) are widely used in modern neutrino experiments: Borexino, KamLAND, Daya Bay, Double Chooz, RENO, and upcoming JUNO with its satellite detector TAO. Such apparatuses are able to measure neutrino energy, which can be derived from the amount of light and its spatial and temporal distribution over PMT-channels. However, achieving a fine energy resolution in large scale detectors is challenging. In this work, we present machine learning methods for energy reconstruction in JUNO, the most advanced detector of its type. We focus on positron events in the energy range of 0-10 MeV which corresponds to the main signal in JUNO $-$ neutrinos originated from nuclear reactor cores and detected via an inverse beta-decay channel. We consider Boosted Decision Trees and Fully Connected Deep Neural Network trained on aggregated features, calculated using information collected by PMTs. We describe the details of our feature engineering procedure and show that machine learning models can provide energy resolution $\sigma = 3\%$ at 1 MeV using subsets of engineered features. The dataset for model training and testing is generated by the Monte Carlo method with the official JUNO software. Consideration of calibration sources for evaluation of the reconstruction algorithms performance on real data is also presented.
翻訳日:2022-06-22 19:13:10 公開日:2022-06-17
# Beyond Rewards: オフラインマルチエージェント行動分析における階層的視点

Beyond Rewards: a Hierarchical Perspective on Offline Multiagent Behavioral Analysis ( http://arxiv.org/abs/2206.09046v1 )

ライセンス: Link先を確認
Shayegan Omidshafiei, Andrei Kapishnikov, Yannick Assogba, Lucas Dixon, Been Kim(参考訳) 毎年、専門家レベルのパフォーマンスは、Go、Poker、StarCraft IIなど、ますます複雑なマルチエージェントドメインで達成されている。 この急激な進展には、このようなエージェントがこのパフォーマンスを達成する方法の理解を深め、安全なデプロイメントを可能にし、制限を特定し、改善する潜在的な手段を明らかにする必要性が伴う。 本稿では,パフォーマンスに着目したマルチエージェント学習から一歩引いて,エージェントの動作分析に注意を向ける。 本稿では,多エージェント領域における行動クラスタの探索のためのモデルに依存しない手法を提案する。 我々のフレームワークはエージェントの学習アルゴリズムを前提とせず、潜在状態やモデルへのアクセスを必要とせず、完全にオフラインの観測データを使ってトレーニングすることができる。 本稿では, 共同作業者レベルでの行動の理解, トレーニングを通しての行動変化点の検出, コア動作概念の発見(例えば, より高いリターンを促進するもの) と高次元マルチエージェント MuJoCo 制御領域へのアプローチのスケーラビリティを実証するための手法の有効性について述べる。

Each year, expert-level performance is attained in increasingly-complex multiagent domains, notable examples including Go, Poker, and StarCraft II. This rapid progression is accompanied by a commensurate need to better understand how such agents attain this performance, to enable their safe deployment, identify limitations, and reveal potential means of improving them. In this paper we take a step back from performance-focused multiagent learning, and instead turn our attention towards agent behavior analysis. We introduce a model-agnostic method for discovery of behavior clusters in multiagent domains, using variational inference to learn a hierarchy of behaviors at the joint and local agent levels. Our framework makes no assumption about agents' underlying learning algorithms, does not require access to their latent states or models, and can be trained using entirely offline observational data. We illustrate the effectiveness of our method for enabling the coupled understanding of behaviors at the joint and local agent level, detection of behavior changepoints throughout training, discovery of core behavioral concepts (e.g., those that facilitate higher returns), and demonstrate the approach's scalability to a high-dimensional multiagent MuJoCo control domain.
翻訳日:2022-06-22 19:12:43 公開日:2022-06-17
# 影が3dオブジェクトに光を放つ

Shadows Shed Light on 3D Objects ( http://arxiv.org/abs/2206.08990v1 )

ライセンス: Link先を確認
Ruoshi Liu, Sachit Menon, Chengzhi Mao, Dennis Park, Simon Stent, Carl Vondrick(参考訳) 3次元再構成はコンピュータビジョンにおける根本的な問題であり、復元対象が部分的にあるいは完全にオクルードされている場合、特に課題である。 咬合の背後にある可能性のある3dボリュームを推定するために,観察されていない物体がキャストする影を用いる手法を提案する。 我々は、物体の3次元形状、ポーズ、光源の位置を共同で推測できる、微分可能な画像形成モデルを作成する。 このアプローチはエンドツーエンドで微分可能であるため、異なるオブジェクトカテゴリの現実的な3d形状を生成するために、オブジェクト幾何の学習済みの事前事項を統合することができる。 実験と可視化により、この手法は影の観測と一致する複数の可能な解を生成できることが示されている。 我々のアプローチは、光源の位置とオブジェクトのポーズが未知であっても機能する。 我々のアプローチは、地上のシャドウマスクが不明な現実世界のイメージにも頑健です。

3D reconstruction is a fundamental problem in computer vision, and the task is especially challenging when the object to reconstruct is partially or fully occluded. We introduce a method that uses the shadows cast by an unobserved object in order to infer the possible 3D volumes behind the occlusion. We create a differentiable image formation model that allows us to jointly infer the 3D shape of an object, its pose, and the position of a light source. Since the approach is end-to-end differentiable, we are able to integrate learned priors of object geometry in order to generate realistic 3D shapes of different object categories. Experiments and visualizations show that the method is able to generate multiple possible solutions that are consistent with the observation of the shadow. Our approach works even when the position of the light source and object pose are both unknown. Our approach is also robust to real-world images where ground-truth shadow mask is unknown.
翻訳日:2022-06-22 18:45:04 公開日:2022-06-17
# 可変順序付けがベイズネットワーク構造学習に及ぼす影響

The Impact of Variable Ordering on Bayesian Network Structure Learning ( http://arxiv.org/abs/2206.08952v1 )

ライセンス: Link先を確認
Neville K Kitson and Anthony C Constantinou(参考訳) Causal Bayesian Networksは、多くの複雑な因果系への潜在的な適用の不確実性の下で推論するための重要なツールを提供する。 これらのシステムの因果構造について何かを教えてくれる構造学習アルゴリズムがますます重要になっている。 文献では、これらのアルゴリズムの有効性は、様々なサンプルサイズ、ハイパーパラメータ、時折客観的な関数に対する感度についてしばしば試験される。 本稿では,データから変数を読み取る順序が,これらの因子よりもアルゴリズムの精度に大きな影響を与えることを示す。 変数順序付けは任意であるため、学習グラフの精度に与えたいかなる影響も考慮され、異なる変数順序付けに対して敏感であるが評価されていないアルゴリズムによって生成された結果の妥当性に関する疑問を提起する。

Causal Bayesian Networks provide an important tool for reasoning under uncertainty with potential application to many complex causal systems. Structure learning algorithms that can tell us something about the causal structure of these systems are becoming increasingly important. In the literature, the validity of these algorithms is often tested for sensitivity over varying sample sizes, hyper-parameters, and occasionally objective functions. In this paper, we show that the order in which the variables are read from data can have much greater impact on the accuracy of the algorithm than these factors. Because the variable ordering is arbitrary, any significant effect it has on learnt graph accuracy is concerning, and this raises questions about the validity of the results produced by algorithms that are sensitive to, but have not been assessed against, different variable orderings.
翻訳日:2022-06-22 17:36:15 公開日:2022-06-17
# SVMを用いたスイッチング論理を用いた多モデル線形推論センサの設計

Design of Multi-model Linear Inferential Sensors with SVM-based Switching Logic ( http://arxiv.org/abs/2206.08961v1 )

ライセンス: Link先を確認
Martin Mojto, Miroslav Fikar, Radoslav Paulen(参考訳) マルチモデル線形推論(ソフト)センサのデータベース設計の問題について検討する。 多モデル線形推論センサは、予測精度が向上するが、モデル構造とトレーニングは単純である。 マルチモデル推論センサ設計への標準的なアプローチは、1)データラベリング(個々のモデルのトレーニングサブセットを確立する)、2)データ分類(モデルのスイッチングロジックを作成する)、3)個々のモデルのトレーニングという3つのステップから構成される。 この概念には2つの大きな問題があります a) ステップ 2) と 3) は分離しているため、モデル間の切り替え時に不連続が生じることがある。 b) ステップ(1)及び(3)が分離されている場合、データラベリングは結果のモデルの品質を無視します。 私たちの貢献は、上記の問題、つまり、問題の両方を目標としています。 a) SVMベースの新しいモデルトレーニングを導入し, スイッチングロジックの識別を併用し, その問題に対処する。 b) データラベリングの直接最適化を提案する。 ケミカルエンジニアリング分野の例として,提案手法とその利点について解説する。

We study the problem of data-based design of multi-model linear inferential (soft) sensors. The multi-model linear inferential sensors promise increased prediction accuracy yet simplicity of the model structure and training. The standard approach to the multi-model inferential sensor design consists in three separate steps: 1) data labeling (establishing training subsets for individual models), 2) data classification (creating a switching logic for the models), and 3) training of individual models. There are two main issues with this concept: a) as steps 2) & 3) are separate, discontinuities can occur when switching between the models; b) as steps 1) & 3) are separate, data labelling disregards the quality of the resulting model. Our contribution aims at both the mentioned problems, where, for the problem a), we introduce a novel SVM-based model training coupled with switching logic identification and, for the problem b), we propose a direct optimization of data labelling. We illustrate the proposed methodology and its benefits on an example from the chemical engineering domain.
翻訳日:2022-06-22 17:36:03 公開日:2022-06-17
# DPDR:次元化のための決定過程のための新しい機械学習手法

DPDR: A novel machine learning method for the Decision Process for Dimensionality Reduction ( http://arxiv.org/abs/2206.08974v1 )

ライセンス: Link先を確認
Jean-S\'ebastien Dessureault and Daniel Massicotte(参考訳) 本稿では,教師付き学習コンテキストにおける特徴抽出・選択に関する決定過程について述べる。 次元を減少させる適切な方法を見つけることはしばしば混乱する。 データの性質とユーザの好みに応じて、特徴選択と特徴抽出のどちらを選択するかを決めるための長所と短所がある。 実際、ユーザは、整合性や解釈可能性、および特定のデータ解決に対する結果を強調したいかもしれない。 本稿では,教師付き学習コンテキストにおいて最良次元化手法を選択する新しい手法を提案する。 また、ターゲットの解像度に達するまで機能をドロップまたは再構築するのに役立つ。 このターゲットの解決はユーザ定義でもよいし、メソッドによって自動的に定義することもできる。 本手法は、回帰または分類を適用し、その結果を評価し、この特定の教師付き学習文脈における最良の次元減少過程を診断する。 主なアルゴリズムはランダムフォレストアルゴリズム(RF)、主成分分析アルゴリズム(PCA)、多層パーセプトロン(MLP)ニューラルネットワークアルゴリズムである。 6つのユースケースが提示され、それぞれがよく知られた合成データを生成する技術に基づいている。 本研究は、特徴の選択や抽出の過程全体に関する問題を明らかにすることを目的として、そのプロセスでできる選択について論じる。

This paper discusses the critical decision process of extracting or selecting the features in a supervised learning context. It is often confusing to find a suitable method to reduce dimensionality. There are pros and cons to deciding between a feature selection and feature extraction according to the data's nature and the user's preferences. Indeed, the user may want to emphasize the results toward integrity or interpretability and a specific data resolution. This paper proposes a new method to choose the best dimensionality reduction method in a supervised learning context. It also helps to drop or reconstruct the features until a target resolution is reached. This target resolution can be user-defined, or it can be automatically defined by the method. The method applies a regression or a classification, evaluates the results, and gives a diagnosis about the best dimensionality reduction process in this specific supervised learning context. The main algorithms used are the Random Forest algorithms (RF), the Principal Component Analysis (PCA) algorithm, and the multilayer perceptron (MLP) neural network algorithm. Six use cases are presented, and every one is based on some well-known technique to generate synthetic data. This research discusses each choice that can be made in the process, aiming to clarify the issues about the entire decision process of selecting or extracting the features.
翻訳日:2022-06-22 17:35:46 公開日:2022-06-17
# 特徴量に重きを置く説明可能なグローバルエラー:データインプテーションとデータ拡張の誤差を評価するためのxgewfiメトリック

Explainable Global Error Weighted on Feature Importance: The xGEWFI metric to evaluate the error of data imputation and data augmentation ( http://arxiv.org/abs/2206.08980v1 )

ライセンス: Link先を確認
Jean-S\'ebastien Dessureault and Daniel Massicotte(参考訳) アルゴリズムの性能を評価することが重要である。 両方の生成されたデータを元の分布と比較できるため、データインプテーションとデータ拡張の性能の評価は似ている。 しかし、典型的な評価基準には、同じ欠陥がある。それらは、機能の重要性でエラーを重み付けすることなく、生成したデータの機能エラーとグローバルエラーを計算する。 機能の重要性がすべて同じであれば、結果はよいでしょう。 しかし、ほとんどの場合、機能の重要性は不均衡であり、機能とグローバルなエラーに重要なバイアスを生じさせる可能性がある。 本稿では,"Explainable Global Error Weighted on Feature Importance"(xGEWFI)という新しい指標を提案する。 この新しい計量は、前処理の全体でテストされる 1. 外れ値を検出し、null値に置き換える。 2. データの欠落を暗示し、 3. データの強化。 プロセスの最後には、xGEWFIエラーが計算される。 各特徴に対してコルモゴロフ・スミルノフ検定(ks test)を用いて、原データと生成データの分配誤差を算出する。 これらの結果は、ランダムフォレスト(RF)アルゴリズムを用いて計算された各特徴の重要性によって乗じられる。 計量結果は、倫理的AIを目的とした説明可能な形式で表現される。

Evaluating the performance of an algorithm is crucial. Evaluating the performance of data imputation and data augmentation can be similar since both generated data can be compared with an original distribution. Although, the typical evaluation metrics have the same flaw: They calculate the feature's error and the global error on the generated data without weighting the error with the feature importance. The result can be good if all of the feature's importance is similar. However, in most cases, the importance of the features is imbalanced, and it can induce an important bias on the features and global errors. This paper proposes a novel metric named "Explainable Global Error Weighted on Feature Importance"(xGEWFI). This new metric is tested in a whole preprocessing method that 1. detects the outliers and replaces them with a null value. 2. imputes the data missing, and 3. augments the data. At the end of the process, the xGEWFI error is calculated. The distribution error between the original and generated data is calculated using a Kolmogorov-Smirnov test (KS test) for each feature. Those results are multiplied by the importance of the respective features, calculated using a Random Forest (RF) algorithm. The metric result is expressed in an explainable format, aiming for an ethical AI.
翻訳日:2022-06-22 17:35:25 公開日:2022-06-17
# ファジィとクリッピークラスタリングを組み合わせた新しい教師なし学習手法ck-means

ck-means, a novel unsupervised learning method that combines fuzzy and crispy clustering methods to extract intersecting data ( http://arxiv.org/abs/2206.08982v1 )

ライセンス: Link先を確認
Jean-S\'ebastien Dessureault and Daniel Massicotte(参考訳) クラスタリングデータは教師なし機械学習の分野で人気のある機能である。 ほとんどのアルゴリズムは、一貫性のあるデータのクラスタを抽出する最善の方法を見つけることを目標としているが、2つ以上の機能間で同じ交差点を共有するデータをクラスタ化する意図を持つものはほとんどない。 本稿では,その方法を提案する。 この手法の主な考え方は、ファジィ C-Means (FCM) アルゴリズムを用いてファジィクラスタを生成することである。 第2部では、境界データを強調して、最小および最大メンバーシップ値の範囲を選択するフィルタを適用する。 パラメータは、この範囲の振幅を定義する。 最終的に、FCMによって生成されるメンバシップ値を用いてk-meansアルゴリズムを適用する。 当然、同じメンバーシップ値を持つデータは、新しいcrispyクラスタに再グループ化される。 このアルゴリズムはまた、シルエット指数(SI)によって与えられるクラスタの一貫性に従って、FCMとk平均アルゴリズムの最適なクラスタ数を見つけることができる。 その結果はデータとクラスタのリストであり、同じ交差点を共有するデータを再グループ化し、2つ以上の機能と交差する。 ck-meansは、同じクラスタに自然に落ちるのではなく、2つ以上のクラスタの交差点で、非常に類似したデータを抽出することができる。 このアルゴリズムは、常に最適なクラスタ数を見つける。

Clustering data is a popular feature in the field of unsupervised machine learning. Most algorithms aim to find the best method to extract consistent clusters of data, but very few of them intend to cluster data that share the same intersections between two features or more. This paper proposes a method to do so. The main idea of this novel method is to generate fuzzy clusters of data using a Fuzzy C-Means (FCM) algorithm. The second part involves applying a filter that selects a range of minimum and maximum membership values, emphasizing the border data. A {\mu} parameter defines the amplitude of this range. It finally applies a k-means algorithm using the membership values generated by the FCM. Naturally, the data having similar membership values will regroup in a new crispy cluster. The algorithm is also able to find the optimal number of clusters for the FCM and the k-means algorithm, according to the consistency of the clusters given by the Silhouette Index (SI). The result is a list of data and clusters that regroup data sharing the same intersection, intersecting two features or more. ck-means allows extracting the very similar data that does not naturally fall in the same cluster but at the intersection of two clusters or more. The algorithm also always finds itself the optimal number of clusters.
翻訳日:2022-06-22 17:35:05 公開日:2022-06-17
# LIMO:標的分子生成のための潜在開始性

LIMO: Latent Inceptionism for Targeted Molecule Generation ( http://arxiv.org/abs/2206.09010v1 )

ライセンス: Link先を確認
Peter Eckmann, Kunyang Sun, Bo Zhao, Mudong Feng, Michael K. Gilson, Rose Yu(参考訳) 標的タンパク質に高い結合親和性を持つ薬物様分子の生成は、薬物発見において困難で資源集約的な課題である。 既存のアプローチでは、主に強化学習、マルコフサンプリング、あるいはガウス過程によって導かれる深層生成モデルを採用しており、計算量的に拡張された物理学に基づく方法で計算される高い結合親和性を持つ分子を生成する際には、制限的に遅い。 本研究は,分子発生を極めて促進する分子発生機構であるLIMO(Latent Inceptionism on Molecules)を提案する。 LIMOは変分自己エンコーダが生成する潜在空間と、2つのニューラルネットワークによる特性予測を用いて、より高速な勾配に基づく分子特性の逆最適化を可能にする。 包括的実験により、limoはベンチマークのタスクで競争力があり、2つのタンパク質ターゲットに対してナノモル範囲に達する高い結合親和性を持つ薬物様化合物を生成するという新しいタスクにおいて、最先端の技術を著しく上回っていることが示された。 我々は、これらのドッキングに基づく結果を、絶対結合自由エネルギーのより正確な分子動力学に基づく計算で相関させ、生成した薬物様化合物の1つが、ヒトエストロゲン受容体に対する6:cdot 10^{-14}$MのK_D$(結合親和性の測定値)を予測していることを示す。 コードはhttps://github.com/Rose-STL-Lab/LIMOで入手できる。

Generation of drug-like molecules with high binding affinity to target proteins remains a difficult and resource-intensive task in drug discovery. Existing approaches primarily employ reinforcement learning, Markov sampling, or deep generative models guided by Gaussian processes, which can be prohibitively slow when generating molecules with high binding affinity calculated by computationally-expensive physics-based methods. We present Latent Inceptionism on Molecules (LIMO), which significantly accelerates molecule generation with an inceptionism-like technique. LIMO employs a variational autoencoder-generated latent space and property prediction by two neural networks in sequence to enable faster gradient-based reverse-optimization of molecular properties. Comprehensive experiments show that LIMO performs competitively on benchmark tasks and markedly outperforms state-of-the-art techniques on the novel task of generating drug-like compounds with high binding affinity, reaching nanomolar range against two protein targets. We corroborate these docking-based results with more accurate molecular dynamics-based calculations of absolute binding free energy and show that one of our generated drug-like compounds has a predicted $K_D$ (a measure of binding affinity) of $6 \cdot 10^{-14}$ M against the human estrogen receptor, well beyond the affinities of typical early-stage drug candidates and most FDA-approved drugs to their respective targets. Code is available at https://github.com/Rose-STL-Lab/LIMO.
翻訳日:2022-06-22 17:34:44 公開日:2022-06-17
# CMT-DeepLab: パノプティックセグメンテーションのためのクラスタリングマスク変換器

CMT-DeepLab: Clustering Mask Transformers for Panoptic Segmentation ( http://arxiv.org/abs/2206.08948v1 )

ライセンス: Link先を確認
Qihang Yu, Huiyu Wang, Dahun Kim, Siyuan Qiao, Maxwell Collins, Yukun Zhu, Hartwig Adam, Alan Yuille, Liang-Chieh Chen(参考訳) CMT-DeepLabは,クラスタリングを主軸としたパン光学セグメンテーションのためのトランスフォーマベースのフレームワークである。 cmt-deeplabでは、オブジェクトクエリをクラスタセンタとして捉えており、セグメンテーションに適用されるピクセルをグループ化する役割を担っている。 クラスタリングは、まずその特徴親和性によってクラスタにピクセルを割り当て、次にクラスタセンターとピクセルの特徴を更新することで、交互に計算される。 これらの操作はクラスタリングマスク変換器(CMT)レイヤで構成されており、最終セグメンテーションタスクとより密で一貫性のあるクロスアテンションを生成する。 CMT-DeepLabは先行技術よりもパフォーマンスを4.4%向上させ、COCOテストデブセットで55.7%のPQを新たに達成した。

We propose Clustering Mask Transformer (CMT-DeepLab), a transformer-based framework for panoptic segmentation designed around clustering. It rethinks the existing transformer architectures used in segmentation and detection; CMT-DeepLab considers the object queries as cluster centers, which fill the role of grouping the pixels when applied to segmentation. The clustering is computed with an alternating procedure, by first assigning pixels to the clusters by their feature affinity, and then updating the cluster centers and pixel features. Together, these operations comprise the Clustering Mask Transformer (CMT) layer, which produces cross-attention that is denser and more consistent with the final segmentation task. CMT-DeepLab improves the performance over prior art significantly by 4.4% PQ, achieving a new state-of-the-art of 55.7% PQ on the COCO test-dev set.
翻訳日:2022-06-22 17:11:08 公開日:2022-06-17
# 調整可能なシャープネスを用いたマルチスケール高分解能磁気共鳴分光イメージング

Multi-scale Super-resolution Magnetic Resonance Spectroscopic Imaging with Adjustable Sharpness ( http://arxiv.org/abs/2206.08984v1 )

ライセンス: Link先を確認
Siyuan Dong, Gilbert Hangel, Wolfgang Bogner, Georg Widhalm, Karl R\"ossler, Siegfried Trattnig, Chenyu You, Robin de Graaf, John Onofrey, James Duncan(参考訳) MRSI(MR Resonance Spectroscopic Imaging)は人体における代謝活性を研究するための貴重なツールであるが、現在の応用は低空間分解能に限られている。 既存のディープラーニングベースのMRSI超解像法では、アップスケーリング係数ごとに別々のネットワークをトレーニングする必要がある。 我々は,このマルチスケールの超解像問題に対して,アップスケーリング係数に基づいて畳み込みフィルタを変調するフィルタスケーリング戦略を用いて対処する。 それぞれの代謝物が異なる空間的特性を有することを観察し、特定の代謝物に基づいてネットワークを変調する。 さらに,本ネットワークは,超解法メタボリックマップの知覚的シャープネスを1つのネットワーク内で調整できるように,対向損失の重み付けを行う。 これらのネットワークコンディショニングを,新しいマルチコンディショナルモジュールを用いて組み込む。 15名の高次グリオーマ患者の1H-MRSIデータセットを用いて実験を行った。 以上の結果から,提案ネットワークは複数の超解像法において最高の性能を達成でき,鋭さを調整可能な超解像メタボリックマップを提供できることがわかった。

Magnetic Resonance Spectroscopic Imaging (MRSI) is a valuable tool for studying metabolic activities in the human body, but the current applications are limited to low spatial resolutions. The existing deep learning-based MRSI super-resolution methods require training a separate network for each upscaling factor, which is time-consuming and memory inefficient. We tackle this multi-scale super-resolution problem using a Filter Scaling strategy that modulates the convolution filters based on the upscaling factor, such that a single network can be used for various upscaling factors. Observing that each metabolite has distinct spatial characteristics, we also modulate the network based on the specific metabolite. Furthermore, our network is conditioned on the weight of adversarial loss so that the perceptual sharpness of the super-resolved metabolic maps can be adjusted within a single network. We incorporate these network conditionings using a novel Multi-Conditional Module. The experiments were carried out on a 1H-MRSI dataset from 15 high-grade glioma patients. Results indicate that the proposed network achieves the best performance among several multi-scale super-resolution methods and can provide super-resolved metabolic maps with adjustable sharpness.
翻訳日:2022-06-22 15:30:44 公開日:2022-06-17
# 近似等分散so(3)針畳み込み

Approximate Equivariance SO(3) Needlet Convolution ( http://arxiv.org/abs/2206.10385v1 )

ライセンス: Link先を確認
Kai Yi, Jialin Chen, Yu Guang Wang, Bingxin Zhou, Pietro Li\`o, Yanan Fan, Jan Hamann(参考訳) 本稿では,回転群SO(3)に対する回転不変な要求子畳み込み法を開発し,球面信号のマルチスケール情報を蒸留する。 球状ファブレット変換は、$\mathbb{S}^2$ から SO(3) 群へ一般化され、強フレームレット作用素の集合によって、球面信号を近似して詳細なスペクトル係数を分解する。 分解および再構成中の球面信号は回転不変性を達成する。 要求レット変換に基づいて、複数のSO(3) 要求レット畳み込み層を持つ必要条件近似等分散球面CNN(NES)を形成する。 このネットワークは、球面信号の幾何学的不変の特徴を抽出する強力なツールを確立する。 このモデルはマルチレゾリューション表現で十分なネットワークスケーラビリティを実現する。 近似回転不変性を保ちながら冗長なハイパス表現をフィルタするウェーブレット収縮活性化関数を用いてロバスト信号埋め込みを学習する。 nesは、量子化学回帰と宇宙マイクロ波背景(cmb)のリコンストラクションのための最先端の性能を実現し、高分解能かつ多スケールの球面信号表現による科学的課題を解決する大きな可能性を示している。

This paper develops a rotation-invariant needlet convolution for rotation group SO(3) to distill multiscale information of spherical signals. The spherical needlet transform is generalized from $\mathbb{S}^2$ onto the SO(3) group, which decomposes a spherical signal to approximate and detailed spectral coefficients by a set of tight framelet operators. The spherical signal during the decomposition and reconstruction achieves rotation invariance. Based on needlet transforms, we form a Needlet approximate Equivariance Spherical CNN (NES) with multiple SO(3) needlet convolutional layers. The network establishes a powerful tool to extract geometric-invariant features of spherical signals. The model allows sufficient network scalability with multi-resolution representation. A robust signal embedding is learned with wavelet shrinkage activation function, which filters out redundant high-pass representation while maintaining approximate rotation invariance. The NES achieves state-of-the-art performance for quantum chemistry regression and Cosmic Microwave Background (CMB) delensing reconstruction, which shows great potential for solving scientific challenges with high-resolution and multi-scale spherical signal representation.
翻訳日:2022-06-22 15:25:37 公開日:2022-06-17
# ロバスト主成分分析のためのリーマンCUR分解

Riemannian CUR Decompositions for Robust Principal Component Analysis ( http://arxiv.org/abs/2206.09042v1 )

ライセンス: Link先を確認
Keaton Hamm and Mohamed Meskini and HanQin Cai(参考訳) 近年,ロバスト主成分分析 (PCA) が注目されている。 低ランク行列とその和からスパース行列を復元することを目的としている。 本稿では、リーマン最適化とロバストCUR分解のアイデアを利用する、リーマンCUR(RieCUR)という新しい非凸ロバストPCAアルゴリズムを提案する。 このアルゴリズムは反復型ロバストcurと同じ計算複雑性を持ち、現在の最先端だが、外れ値に対してよりロバストである。 RieCURはまた、かなりの量の外れ値に耐えることができ、より高い外れ値耐性を持つが、提案手法よりも計算複雑性の悪い加速交互射影に匹敵する。 そこで,提案アルゴリズムは計算複雑性と外乱耐性の両面から,ロバストPCAの最先端性能を実現する。

Robust Principal Component Analysis (PCA) has received massive attention in recent years. It aims to recover a low-rank matrix and a sparse matrix from their sum. This paper proposes a novel nonconvex Robust PCA algorithm, coined Riemannian CUR (RieCUR), which utilizes the ideas of Riemannian optimization and robust CUR decompositions. This algorithm has the same computational complexity as Iterated Robust CUR, which is currently state-of-the-art, but is more robust to outliers. RieCUR is also able to tolerate a significant amount of outliers, and is comparable to Accelerated Alternating Projections, which has high outlier tolerance but worse computational complexity than the proposed method. Thus, the proposed algorithm achieves state-of-the-art performance on Robust PCA both in terms of computational complexity and outlier tolerance.
翻訳日:2022-06-22 15:24:18 公開日:2022-06-17
# ニューラルネットワークインバージョンのための景観学習

Landscape Learning for Neural Network Inversion ( http://arxiv.org/abs/2206.09027v1 )

ライセンス: Link先を確認
Ruoshi Liu, Chengzhi Mao, Purva Tendulkar, Hao Wang, Carl Vondrick(参考訳) 多くの機械学習手法は、推論時にニューラルネットワークを反転させることで動作し、コンピュータビジョン、ロボティクス、グラフィックスの逆問題解決の一般的な技術となった。 しかしながら、これらの手法は、しばしば非凸な損失ランドスケープを勾配降下させ、最適化プロセスは不安定で遅くなる。 本研究では,勾配降下が効率的である損失景観を学習し,インバージョンプロセスに大幅な改善と加速をもたらす手法を提案する。 本稿では,GAN逆転,対人防御,3次元ポーズ再構築など,生成的タスクと識別的タスクの両方において,この利点を示す。

Many machine learning methods operate by inverting a neural network at inference time, which has become a popular technique for solving inverse problems in computer vision, robotics, and graphics. However, these methods often involve gradient descent through a highly non-convex loss landscape, causing the optimization process to be unstable and slow. We introduce a method that learns a loss landscape where gradient descent is efficient, bringing massive improvement and acceleration to the inversion process. We demonstrate this advantage on a number of methods for both generative and discriminative tasks, including GAN inversion, adversarial defense, and 3D human pose reconstruction.
翻訳日:2022-06-22 15:01:14 公開日:2022-06-17
# 高頻度AIリスクマネジメントのための実用的なガイダンス:AI破滅的なリスクに対処する標準に向けて

Actionable Guidance for High-Consequence AI Risk Management: Towards Standards Addressing AI Catastrophic Risks ( http://arxiv.org/abs/2206.08966v1 )

ライセンス: Link先を確認
Anthony M. Barrett (1), Dan Hendrycks (1), Jessica Newman (1), Brandie Nonnecke (1) ((1) UC Berkeley)(参考訳) 人工知能(AI)システムは、多くの有益な能力を提供するだけでなく、有害事象のリスクも与えている。 一部のAIシステムは、社会規模で非常に高い、または破滅的な結果をもたらす事象のリスクを示す可能性がある。 アメリカ国立標準技術研究所(NIST)は、AI開発者などのAIリスク評価と管理に関する自主的なガイダンスとして、AI RMF(AI Intelligence Risk Management Framework)を開発している。 破滅的な結果をもたらす事象のリスクに対処するため、NISTはハイレベルな原則から行動可能なリスク管理ガイダンスへの転換の必要性を示した。 本報告では,AI RMFバージョン1.0(2023年初頭にリリース予定)やAI RMFユーザ,あるいはその他のAIリスク管理ガイダンスや標準に対して,NISTのリスク管理実践リソースとして意図された,極めて高いないし破滅的な結果のイベントのリスクを特定し,管理することを目的とした,詳細な行動可能なガイダンスを提供する。 勧告の方法論も提供します。 我々は、AI RMF 1.0に対して、AIシステムの潜在的意図しない使用や誤用からのリスクの特定、リスク評価と影響評価の範囲内の破滅的なリスク要因の特定、人権侵害の特定と軽減、破滅的なリスク要因を含むAIのリスク要因に関する情報の報告を行う。 さらに、AI RMFの後期バージョンや補足刊行物のロードマップに追加の課題について推奨する。 最先端の多目的あるいは汎用AIのための補助的なガイダンスを備えたAI RMF Profileの提供。 この研究は、具体的なリスク管理プラクティスのコントリビューションであり、AI標準における破滅的なリスクや関連する問題への対処方法に関する建設的な対話を促進することを目的としている。

Artificial intelligence (AI) systems can provide many beneficial capabilities but also risks of adverse events. Some AI systems could present risks of events with very high or catastrophic consequences at societal scale. The US National Institute of Standards and Technology (NIST) is developing the NIST Artificial Intelligence Risk Management Framework (AI RMF) as voluntary guidance on AI risk assessment and management for AI developers and others. For addressing risks of events with catastrophic consequences, NIST indicated a need to translate from high level principles to actionable risk management guidance. In this document, we provide detailed actionable-guidance recommendations focused on identifying and managing risks of events with very high or catastrophic consequences, intended as a risk management practices resource for NIST for AI RMF version 1.0 (scheduled for release in early 2023), or for AI RMF users, or for other AI risk management guidance and standards as appropriate. We also provide our methodology for our recommendations. We provide actionable-guidance recommendations for AI RMF 1.0 on: identifying risks from potential unintended uses and misuses of AI systems; including catastrophic-risk factors within the scope of risk assessments and impact assessments; identifying and mitigating human rights harms; and reporting information on AI risk factors including catastrophic-risk factors. In addition, we provide recommendations on additional issues for a roadmap for later versions of the AI RMF or supplementary publications. These include: providing an AI RMF Profile with supplementary guidance for cutting-edge increasingly multi-purpose or general-purpose AI. We aim for this work to be a concrete risk-management practices contribution, and to stimulate constructive dialogue on how to address catastrophic risks and associated issues in AI standards.
翻訳日:2022-06-22 14:53:27 公開日:2022-06-17
# ガウス過程の浅層および深層非パラメトリック畳み込み

Shallow and Deep Nonparametric Convolutions for Gaussian Processes ( http://arxiv.org/abs/2206.08972v1 )

ライセンス: Link先を確認
Thomas M. McDonald, Magnus Ross, Michael T. Smith, Mauricio A. \'Alvarez(参考訳) ガウス過程(gps)の実用的応用における重要な課題は、適切な共分散関数の選択である。 移動平均、あるいはプロセス畳み込みにより、gpsの構築は若干の柔軟性をもたらすが、それでも適切な平滑化カーネルを選択する必要がある。 従来のアプローチでは、スムーズなカーネル上のGPプリエントを用いて共分散関数を構築し、その共分散を前もって指定する必要を回避した。 しかし、そのようなモデルはいくつかの方法で制限されている: 時間のように単一の次元の入力に制限されている; 単一の出力のモデリングのみが可能であり、推論が単純ではないため、大規模なデータセットにスケールできない。 本稿では,GPの非パラメトリックプロセス畳み込み定式化を導入し,Matheronの法則に基づく関数型サンプリング手法を用いて,ドメイン間誘導変数を用いた高速サンプリングを行う。 さらに、古典的な深層GPモデルの代替として機能するこれらの非パラメトリック畳み込みの合成を提案し、中間層の共分散関数をデータから推測できるようにする。 単出力GP,複数出力GP,深部GPのベンチマークにおいて,本モデルの性能を検証した結果,標準GPモデルよりも優れた手法が得られた。

A key challenge in the practical application of Gaussian processes (GPs) is selecting a proper covariance function. The moving average, or process convolutions, construction of GPs allows some additional flexibility, but still requires choosing a proper smoothing kernel, which is non-trivial. Previous approaches have built covariance functions by using GP priors over the smoothing kernel, and by extension the covariance, as a way to bypass the need to specify it in advance. However, such models have been limited in several ways: they are restricted to single dimensional inputs, e.g. time; they only allow modelling of single outputs and they do not scale to large datasets since inference is not straightforward. In this paper, we introduce a nonparametric process convolution formulation for GPs that alleviates these weaknesses by using a functional sampling approach based on Matheron's rule to perform fast sampling using interdomain inducing variables. Furthermore, we propose a composition of these nonparametric convolutions that serves as an alternative to classic deep GP models, and allows the covariance functions of the intermediate layers to be inferred from the data. We test the performance of our model on benchmarks for single output GPs, multiple output GPs and deep GPs and find that in many cases our approach can provide improvements over standard GP models.
翻訳日:2022-06-22 14:25:47 公開日:2022-06-17
# 条件付き置換不変フロー

Conditional Permutation Invariant Flows ( http://arxiv.org/abs/2206.09021v1 )

ライセンス: Link先を確認
Berend Zwartsenberg, Adam \'Scibior, Matthew Niedoba, Vasileios Lioutas, Yunpeng Liu, Justice Sefas, Setareh Dabiri, Jonathan Wilder Lavington, Trevor Campbell, Frank Wood(参考訳) 本稿では,トラクタブルログ密度を持つ集合値データの条件付き生成確率モデルを提案する。 このモデルは、置換同変ダイナミクスによって支配される連続正規化フローである。 これらのダイナミクスは、学習可能なセット単位の項とペアの相互作用によって駆動される。 本稿では,(1)視覚特定地図情報に基づく複雑なトラヒックシーン生成,(2)画像に直接条件づけられたオブジェクトバウンディングボックス生成といったアプリケーションを用いて,このモデルの有用性を示す。 我々は,流動下でのラベル付き条件データの予測可能性を最大化し,力学が滑らかで効率的に解けることを保証するペナルティを生かしてモデルを訓練する。 提案手法は, 実データと区別が難しい実例を生み出すため, 非置換不変基線に対して, 対数確率と領域固有測度(オフロード, 衝突, 複合屈折法)で著しく優れる。

We present a novel, conditional generative probabilistic model of set-valued data with a tractable log density. This model is a continuous normalizing flow governed by permutation equivariant dynamics. These dynamics are driven by a learnable per-set-element term and pairwise interactions, both parametrized by deep neural networks. We illustrate the utility of this model via applications including (1) complex traffic scene generation conditioned on visually specified map information, and (2) object bounding box generation conditioned directly on images. We train our model by maximizing the expected likelihood of labeled conditional data under our flow, with the aid of a penalty that ensures the dynamics are smooth and hence efficiently solvable. Our method significantly outperforms non-permutation invariant baselines in terms of log likelihood and domain-specific metrics (offroad, collision, and combined infractions), yielding realistic samples that are difficult to distinguish from real data.
翻訳日:2022-06-22 14:25:25 公開日:2022-06-17
# instance vicreg: 自己監視型イメージパッチ埋め込みバッグ

Intra-Instance VICReg: Bag of Self-Supervised Image Patch Embedding ( http://arxiv.org/abs/2206.08954v1 )

ライセンス: Link先を確認
Yubei Chen, Adrien Bardes, Zengyi Li, Yann LeCun(参考訳) 近年,自己教師付き学習(SSL)は画像表現の学習において極めて経験的な進歩を遂げている。 しかしながら、我々の表現の理解と知識はまだ限られている。 本研究は,SOTAシアムネットワークベースのSSLアプローチの成功が,主にイメージパッチの表現の学習に基づいていることを示す。 特に、固定スケールの画像パッチのみの表現を学習し、画像(インスタンス)の異なるパッチ表現を線形に集約すると、複数のベンチマークのベースラインメソッドよりも同等あるいはそれ以上の結果が得られることを示す。 さらに,パッチ表現アグリゲーションにより,様々なSOTAベースライン手法を大きなマージンで改善できることを示す。 また、SSLの目的と画像パッチの共起統計モデルとの正式な接続を確立することで、一般的な不変性の観点から補うことができる。 埋め込み空間と射影空間における異なる画像パッチの最も近い近傍を可視化することにより、射影はより不変であるが、埋め込み空間はより均等で局所性を保つ傾向があることを示す。 最後に,本研究の発見に基づく今後の方向性に関する仮説を提案する。

Recently, self-supervised learning (SSL) has achieved tremendous empirical advancements in learning image representation. However, our understanding and knowledge of the representation are still limited. This work shows that the success of the SOTA siamese-network-based SSL approaches is primarily based on learning a representation of image patches. Particularly, we show that when we learn a representation only for fixed-scale image patches and aggregate different patch representations linearly for an image (instance), it can achieve on par or even better results than the baseline methods on several benchmarks. Further, we show that the patch representation aggregation can also improve various SOTA baseline methods by a large margin. We also establish a formal connection between the SSL objective and the image patches co-occurrence statistics modeling, which supplements the prevailing invariance perspective. By visualizing the nearest neighbors of different image patches in the embedding space and projection space, we show that while the projection has more invariance, the embedding space tends to preserve more equivariance and locality. Finally, we propose a hypothesis for the future direction based on the discovery of this work.
翻訳日:2022-06-22 14:21:26 公開日:2022-06-17
# 選択的分類を過度に補完するのを止める: max-logit

Stop Overcomplicating Selective Classification: Use Max-Logit ( http://arxiv.org/abs/2206.09034v1 )

ライセンス: Link先を確認
Leo Feng, Mohamed Osama Ahmed, Hossein Hajimirsadeghi, Amir Abdi(参考訳) 我々は、データセットの望ましいカバレッジで最高のパフォーマンスを達成することを目標とする選択分類の問題に取り組む。 最近の最先端の選択手法は、別個のセレクションヘッドを導入するか、余分な禁忌ロジットを導入することによってアーキテクチャの変更が伴う。 本稿では,より一般化可能な分類器を訓練するために,最先端手法の優れた性能が必須であることを確認することで,選択分類の驚くべき結果を示す。 選択機構は、別々に計算されたスコアではなく、目的関数に根ざすべきである。 そこで本稿では,分類設定におけるクロスエントロピー損失,すなわちロジットの最大値に基づく代替選択戦略の動機付けを行う。 提案した選択戦略は,余分な計算を伴わずに,すべてのカバレッジと全データセットに対して一貫して,優れたマージンを達成できる。 最後に, 最適選択機構に着想を得て, エントロピー最小化による目的関数の正規化を提案する。 修正損失関数を用いた最大ロジット選択により,選択分類のための新たな最新結果が得られた。

We tackle the problem of Selective Classification where the goal is to achieve the best performance on the desired coverages of the dataset. Recent state-of-the-art selective methods come with architectural changes either via introducing a separate selection head or an extra abstention logit. In this paper, we present surprising results for Selective Classification by confirming that the superior performance of state-of-the-art methods is owed to training a more generalizable classifier; however, their selection mechanism is suboptimal. We argue that the selection mechanism should be rooted in the objective function instead of a separately calculated score. Accordingly, in this paper, we motivate an alternative selection strategy that is based on the cross entropy loss for the classification settings, namely, max of the logits. Our proposed selection strategy achieves better results by a significant margin, consistently, across all coverages and all datasets, without any additional computation. Finally, inspired by our superior selection mechanism, we propose to further regularize the objective function with entropy-minimization. Our proposed max-logit selection with the modified loss function achieves new state-of-the-art results for Selective Classification.
翻訳日:2022-06-22 13:31:58 公開日:2022-06-17
# 柔軟な拡散モデル

A Flexible Diffusion Model ( http://arxiv.org/abs/2206.10365v1 )

ライセンス: Link先を確認
Weitao Du, Tao Yang, He Zhang, Yuanqi Du(参考訳) 拡散(スコアベース)生成モデルは、画像、オーディオ、点雲など、様々な種類の複雑なデータモデリングに広く利用されている。 近年, 後方確率微分方程式 (sdes) と拡散モデルとの深い関係が明らかにされ, sdes の新たな変種 (sub-vp, 臨界減衰ランジュバンなど) が提案されている。 手作りの固定前方SDEの実証的な成功にもかかわらず、多くの適切な前方SDEは未調査のままである。 本研究では,拡散モデル,特に前方SDEの空間的部分のパラメータ化のための一般フレームワークを提案する。 抽象形式論は理論的な保証とともに導入され、それ以前の拡散モデルとの関係が活用される。 最適化の観点から,提案手法の理論的利点を示す。 また, このフレームワークの有効性を検証するために, 合成データセット MINIST と CIFAR10 の数値実験を行った。

Diffusion (score-based) generative models have been widely used for modeling various types of complex data, including images, audios, and point clouds. Recently, the deep connection between forward-backward stochastic differential equations (SDEs) and diffusion-based models has been revealed, and several new variants of SDEs are proposed (e.g., sub-VP, critically-damped Langevin) along this line. Despite the empirical success of the hand-crafted fixed forward SDEs, a great quantity of proper forward SDEs remain unexplored. In this work, we propose a general framework for parameterizing the diffusion model, especially the spatial part of the forward SDE. An abstract formalism is introduced with theoretical guarantees, and its connection with previous diffusion models is leveraged. We demonstrate the theoretical advantage of our method from an optimization perspective. Numerical experiments on synthetic datasets, MINIST and CIFAR10 are also presented to validate the effectiveness of our framework.
翻訳日:2022-06-22 13:28:37 公開日:2022-06-17
# 二次計画によるロバスト群同期

Robust Group Synchronization via Quadratic Programming ( http://arxiv.org/abs/2206.08994v1 )

ライセンス: Link先を確認
Yunpeng Shi, Cole Wyeth, Gilad Lerman(参考訳) 本稿では,グループ同期の劣化レベルを推定するための2次計画法を提案し,これらの推定値を用いてこの問題を解決する。 目的関数はグループのサイクル整合性を利用しており,本手法を構造整合性の検出と推定 (DESC) と呼ぶ。 この一般的な枠組みは他の代数的構造や幾何学的構造にも拡張できる。 我々の定式化には次のような利点がある: 情報理論的境界ほど汚職を許容し、グループ要素の推定に適切な初期化を必要とせず、単純な解釈を持ち、いくつかの穏やかな条件下では、目的関数のグローバル最小値が汚職レベルを正確に回復する。 回転平均化の合成データおよび実データ実験において,本手法の競合精度を実証する。

We propose a novel quadratic programming formulation for estimating the corruption levels in group synchronization, and use these estimates to solve this problem. Our objective function exploits the cycle consistency of the group and we thus refer to our method as detection and estimation of structural consistency (DESC). This general framework can be extended to other algebraic and geometric structures. Our formulation has the following advantages: it can tolerate corruption as high as the information-theoretic bound, it does not require a good initialization for the estimates of group elements, it has a simple interpretation, and under some mild conditions the global minimum of our objective function exactly recovers the corruption levels. We demonstrate the competitive accuracy of our approach on both synthetic and real data experiments of rotation averaging.
翻訳日:2022-06-22 13:27:58 公開日:2022-06-17
# KitBit: インテリジェンステストと数値シリーズの解決のための新しいAIモデル

KitBit: A New AI Model for Solving Intelligence Tests and Numerical Series ( http://arxiv.org/abs/2206.08965v1 )

ライセンス: Link先を確認
V\'ictor Corsino, Jos\'e Manuel Gilp\'erez, Luis Herrera(参考訳) インテリジェンステストの解決、特に数値シーケンスは、AIシステムの評価に大きな関心を寄せている。 そこで我々は,減算アルゴリズムとそれらの組み合わせを用いて,IQテストなどの数値列の下位パターンを検出する予測モデルを構築するKitBitという新しい計算モデルを提案する。 我々は,モデルの基礎と応用について異なるケースで述べる。 まず、システムは様々なソースから収集されたiqテストで使用される一連の数列でテストされる。 次に,本論文で報告したモデルの評価に用いる配列に対して,本モデルを適用した。 どちらの場合でも、このシステムは標準的な計算能力を使って1秒足らずでこれらの問題を解決することができる。 最後に、KitBitのアルゴリズムは、よく知られたOEISデータベースの全シーケンスの完全なセットに初めて適用された。 我々は、アルゴリズムのリストの形式でパターンを見つけ、今までで最大のシリーズ数で次の用語を予測する。 これらの結果は,kitbit が数値的に表現できる複雑な問題を解く可能性を示している。

The resolution of intelligence tests, in particular numerical sequences, has been of great interest in the evaluation of AI systems. We present a new computational model called KitBit that uses a reduced set of algorithms and their combinations to build a predictive model that finds the underlying pattern in numerical sequences, such as those included in IQ tests and others of much greater complexity. We present the fundamentals of the model and its application in different cases. First, the system is tested on a set of number series used in IQ tests collected from various sources. Next, our model is successfully applied on the sequences used to evaluate the models reported in the literature. In both cases, the system is capable of solving these types of problems in less than a second using standard computing power. Finally, KitBit's algorithms have been applied for the first time to the complete set of entire sequences of the well-known OEIS database. We find a pattern in the form of a list of algorithms and predict the following terms in the largest number of series to date. These results demonstrate the potential of KitBit to solve complex problems that could be represented numerically.
翻訳日:2022-06-22 13:26:14 公開日:2022-06-17
# (参考訳) 自己蒸留の再考

Revisiting Self-Distillation ( http://arxiv.org/abs/2206.08491v1 )

ライセンス: CC BY 4.0
Minh Pham, Minsu Cho, Ameya Joshi, and Chinmay Hegde(参考訳) 知識蒸留は、大きなモデル(教師)からよりコンパクトなモデル(学生)に「知識」を移す手順であり、しばしばモデル圧縮の文脈で使用される。 両方のモデルが同じアーキテクチャを持つ場合、この手順は自己蒸留と呼ばれる。 いくつかの作品では、自給自足の生徒が保持データで教師より優れているという逸話がある。 本研究では,種々の環境下での自己蒸留を系統的に研究する。 まず,高精細な教師であっても,すべての場合において自己蒸留によって教師を超過できることを示す。 第二に、既存の(自己)蒸留の理論的説明を再考し、矛盾する例を特定し、これらの説明の欠点を明らかにする。 最後に, 損失景観幾何学のレンズを通して, 自己蒸留の力学に対する代替的な説明を与える。 我々は, 自己蒸留がより平坦な極小につながり, より良い一般化につながることを示すために, 広範な実験を行った。

Knowledge distillation is the procedure of transferring "knowledge" from a large model (the teacher) to a more compact one (the student), often being used in the context of model compression. When both models have the same architecture, this procedure is called self-distillation. Several works have anecdotally shown that a self-distilled student can outperform the teacher on held-out data. In this work, we systematically study self-distillation in a number of settings. We first show that even with a highly accurate teacher, self-distillation allows a student to surpass the teacher in all cases. Secondly, we revisit existing theoretical explanations of (self) distillation and identify contradicting examples, revealing possible drawbacks of these explanations. Finally, we provide an alternative explanation for the dynamics of self-distillation through the lens of loss landscape geometry. We conduct extensive experiments to show that self-distillation leads to flatter minima, thereby resulting in better generalization.
翻訳日:2022-06-21 05:27:51 公開日:2022-06-17
# (参考訳) TLETA: 予測時間推定のための深層移動学習とセルラー知識の統合

TLETA: Deep Transfer Learning and Integrated Cellular Knowledge for Estimated Time of Arrival Prediction ( http://arxiv.org/abs/2206.08513v1 )

ライセンス: CC BY 4.0
Hieu Tran, Son Nguyen, I-Ling Yen, Farokh Bastani(参考訳) 車両到着時刻の予測は広く研究されている。 IoTデバイスの出現とディープラーニング技術により、推定到着時間(ETA)はインテリジェントトランスポートシステムにおいて重要な要素となっている。 ETAには多くのツールが存在するが、救急車や消防車などの特殊車両のETAは、特別車両の交通データが限られているため、依然として困難である。 既存の作業では、すべての種類の車両に1つのモデルを使用しているため、精度が低下する可能性がある。 そこで本稿では,この分野で初めて,運転時間予測のための深層伝達学習フレームワークtletaを提案する。 TLETAは、運転パターンを抽出するための細胞間空間的知識グリッドを構築し、道路ネットワーク構造を埋め込み、ETAのためのディープニューラルネットワークを構築する。 TLETAは、異なるカテゴリーの車両間の知識伝達をサポートするための転送可能な層を含んでいる。 重要なことは、転送モデルは、転送された知識をマップするために最後のレイヤのみをトレーニングします。 実験の結果,本モデルは移動時間を高精度に予測し,最先端の手法を上回っていることがわかった。

Vehicle arrival time prediction has been studied widely. With the emergence of IoT devices and deep learning techniques, estimated time of arrival (ETA) has become a critical component in intelligent transportation systems. Though many tools exist for ETA, ETA for special vehicles, such as ambulances, fire engines, etc., is still challenging due to the limited amount of traffic data for special vehicles. Existing works use one model for all types of vehicles, which can lead to low accuracy. To tackle this, as the first in the field, we propose a deep transfer learning framework TLETA for the driving time prediction. TLETA constructs cellular spatial-temporal knowledge grids for extracting driving patterns, combined with the road network structure embedding to build a deep neural network for ETA. TLETA contains transferable layers to support knowledge transfer between different categories of vehicles. Importantly, our transfer models only train the last layers to map the transferred knowledge, that reduces the training time significantly. The experimental studies show that our model predicts travel time with high accuracy and outperforms many state-of-the-art approaches.
翻訳日:2022-06-21 05:12:16 公開日:2022-06-17
# (参考訳) metafed: 循環型知識蒸留によるパーソナライズ医療における連合学習

MetaFed: Federated Learning among Federations with Cyclic Knowledge Distillation for Personalized Healthcare ( http://arxiv.org/abs/2206.08516v1 )

ライセンス: CC BY 4.0
Yiqiang Chen, Wang Lu, Xin Qin, Jindong Wang, Xing Xie(参考訳) フェデレーション学習は、特にヘルスケアにおいて、生のユーザーデータにアクセスせずにモデルを構築することに注目が集まっている。 実際のアプリケーションでは、異なるフェデレーションは、データの不均一性や中央サーバの不信/不信など、起こりうる理由により、ほとんど連携できない。 本稿では,異なるフェデレーション間の信頼性の高いFLを実現するためのMetaFedというフレームワークを提案する。 MetaFedは、提案されたサイクリック知識蒸留を通じて、中央サーバーなしで各フェデレーションのパーソナライズされたモデルを取得する。 具体的には、MetaFedは各フェデレーションをメタ分布として扱い、各フェデレーションの知識を循環的に集約する。 トレーニングは、共通知識蓄積とパーソナライズという2つの部分に分けられる。 3つのベンチマークの総合的な実験により、MetaFedは最先端の手法(PAMAP2のベースラインに比べて10%以上精度が向上している)に比べて通信コストが低いことが示されている。

Federated learning has attracted increasing attention to building models without accessing the raw user data, especially in healthcare. In real applications, different federations can seldom work together due to possible reasons such as data heterogeneity and distrust/inexistence of the central server. In this paper, we propose a novel framework called MetaFed to facilitate trustworthy FL between different federations. MetaFed obtains a personalized model for each federation without a central server via the proposed Cyclic Knowledge Distillation. Specifically, MetaFed treats each federation as a meta distribution and aggregates knowledge of each federation in a cyclic manner. The training is split into two parts: common knowledge accumulation and personalization. Comprehensive experiments on three benchmarks demonstrate that MetaFed without a server achieves better accuracy compared to state-of-the-art methods (e.g., 10%+ accuracy improvement compared to the baseline for PAMAP2) with fewer communication costs.
翻訳日:2022-06-21 04:57:01 公開日:2022-06-17
# (参考訳) VLMbench: 視覚と言語操作のためのコンポジションベンチマーク

VLMbench: A Compositional Benchmark for Vision-and-Language Manipulation ( http://arxiv.org/abs/2206.08522v1 )

ライセンス: CC BY 4.0
Kaizhi Zheng, Xiaotong Chen, Odest Chadwicke Jenkins, Xin Eric Wang(参考訳) 言語柔軟性と構成性から恩恵を受けるため、人間は自然に言語を使ってナビゲーションやオブジェクト操作といった複雑なタスクに実施エージェントを命令する。 本研究は,「箱の横にある赤いマグカップを直立させながら移動させる」など,人間の指示に従ってオブジェクト操作を行う,組立エージェントの最後の1マイルの空白を埋めることを目的としている。 この目的のために,自動操作ソルバ(amsolver)シミュレータを導入し,ロボット操作タスクに様々な言語指示を含む視覚言語操作ベンチマーク(vlmbench)を構築する。 具体的には、モジュール型ルールベースのタスクテンプレートを作成し、さまざまなオブジェクトの形状と外観、アクションタイプ、動作制約からなる言語命令によるロボットデモを自動的に生成する。 また、多視点観測と言語入力を扱うキーポイントベースモデル6D-CLIPortを開発し、6自由度(DoF)動作のシーケンスを出力する。 新しいシミュレータとベンチマークにより、言語誘導型ロボット操作の今後の研究が促進されることを願っている。

Benefiting from language flexibility and compositionality, humans naturally intend to use language to command an embodied agent for complex tasks such as navigation and object manipulation. In this work, we aim to fill the blank of the last mile of embodied agents -- object manipulation by following human guidance, e.g., "move the red mug next to the box while keeping it upright." To this end, we introduce an Automatic Manipulation Solver (AMSolver) simulator and build a Vision-and-Language Manipulation benchmark (VLMbench) based on it, containing various language instructions on categorized robotic manipulation tasks. Specifically, modular rule-based task templates are created to automatically generate robot demonstrations with language instructions, consisting of diverse object shapes and appearances, action types, and motion constraints. We also develop a keypoint-based model 6D-CLIPort to deal with multi-view observations and language input and output a sequence of 6 degrees of freedom (DoF) actions. We hope the new simulator and benchmark will facilitate future research on language-guided robotic manipulation.
翻訳日:2022-06-21 04:44:13 公開日:2022-06-17
# (参考訳) CDNet:光B-Scan超音波の微細画像分類のためのコントラストディスタングルネットワーク

CDNet: Contrastive Disentangled Network for Fine-Grained Image Categorization of Ocular B-Scan Ultrasound ( http://arxiv.org/abs/2206.08524v1 )

ライセンス: CC BY 4.0
Ruilong Dan, Yunxiang Li, Yijie Wang, Gangyong Jia, Ruiquan Ge, Juan Ye, Qun Jin, Yaqi Wang(参考訳) B-Scan超音波画像の高精度かつ迅速な分類は眼疾患の診断に不可欠である。 それでも、超音波で様々な病気を区別することは、眼科医が経験した課題である。 そこで本研究では,眼内腫瘍 (IOT) ,網膜剥離 (RD) ,後腹膜肉腫 (PSS) , 硝子体出血 (VH) などの超音波画像における眼内異常の細粒度分類 (FGIC) 問題に取り組むために, 新たにCDNetを開発した。 CDNetの3つの重要な構成要素は、弱制御型病変局在モジュール(WSLL)、コントラスト型マルチゾーン(CMZ)戦略、超球面型コントラスト型アンタングルドロス(HCD-Loss)である。 これらのコンポーネントは、入出力と入出力の両方において細粒度認識のための特徴ディスタングルを容易にする。 提案したCDNetは5213個のサンプルからなるZJU Ocular Ultrasound Dataset (ZJUOUSD)で検証されている。 さらに、CDNetの一般化能力は、2つの公開および広く使われている胸部X線FGICベンチマークで検証される。 FGICタスクにおける最先端性能を実現するCDNetの有効性を定量的・定性的に検証した。 コードは、https://github.com/ZeroOneGame/CDNet-for-OUS-FGIC で入手できる。

Precise and rapid categorization of images in the B-scan ultrasound modality is vital for diagnosing ocular diseases. Nevertheless, distinguishing various diseases in ultrasound still challenges experienced ophthalmologists. Thus a novel contrastive disentangled network (CDNet) is developed in this work, aiming to tackle the fine-grained image categorization (FGIC) challenges of ocular abnormalities in ultrasound images, including intraocular tumor (IOT), retinal detachment (RD), posterior scleral staphyloma (PSS), and vitreous hemorrhage (VH). Three essential components of CDNet are the weakly-supervised lesion localization module (WSLL), contrastive multi-zoom (CMZ) strategy, and hyperspherical contrastive disentangled loss (HCD-Loss), respectively. These components facilitate feature disentanglement for fine-grained recognition in both the input and output aspects. The proposed CDNet is validated on our ZJU Ocular Ultrasound Dataset (ZJUOUSD), consisting of 5213 samples. Furthermore, the generalization ability of CDNet is validated on two public and widely-used chest X-ray FGIC benchmarks. Quantitative and qualitative results demonstrate the efficacy of our proposed CDNet, which achieves state-of-the-art performance in the FGIC task. Code is available at: https://github.com/ZeroOneGame/CDNet-for-OUS-FGIC .
翻訳日:2022-06-21 04:20:33 公開日:2022-06-17
# (参考訳) k-Sliced Mutual Information:次元によるスケーラビリティの定量的研究

k-Sliced Mutual Information: A Quantitative Study of Scalability with Dimension ( http://arxiv.org/abs/2206.08526v1 )

ライセンス: CC BY 4.0
Ziv Goldfeld, Kristjan Greenewald, Theshani Nuradha, Galen Reeves(参考訳) スライスされた相互情報(SMI)は、ランダム変数の1次元ランダムプロジェクション間の相互情報(MI)平均として定義される。 古典的なMIへの依存の代用尺度として機能し、多くの特性を保存しているが、高次元に対してよりスケーラブルである。 しかしながら、smi自体とその推定率が、スケーラビリティを理解する上で重要な環境次元に依存するかの定量的な特徴は、いまだに不明である。 これは元の SMI の定義を $k$-SMI に拡張し、射影を $k$-次元部分空間とみなし、次元への依存に関する多面的な説明を提供する。 2-ワッサーシュタイン計量における微分エントロピーの連続性に関する新しい結果を用いて、モンテカルロ (MC) に基づく推定値 $k$-SMI の誤差の鋭い境界を導出する。 次に、MC積分器とニューラルネットワーク推定フレームワークを組み合わせて、最適収束率を確立するエンドツーエンドの$k$-SMI推定器を提供する。 また,次元が大きくなるにつれてk$-smiの集団の漸近性も探究し,ガウス近似の結果に適切なモーメント境界の下で崩壊する残差を与える。 本理論は数値実験により検証され,$k=1$の場合の特別ケースとしてSMIを含む,$k$-SMIのスケーラビリティ問題に関する包括的定量的な説明を提供するInfoGANに適用される。

Sliced mutual information (SMI) is defined as an average of mutual information (MI) terms between one-dimensional random projections of the random variables. It serves as a surrogate measure of dependence to classic MI that preserves many of its properties but is more scalable to high dimensions. However, a quantitative characterization of how SMI itself and estimation rates thereof depend on the ambient dimension, which is crucial to the understanding of scalability, remain obscure. This works extends the original SMI definition to $k$-SMI, which considers projections to $k$-dimensional subspaces, and provides a multifaceted account on its dependence on dimension. Using a new result on the continuity of differential entropy in the 2-Wasserstein metric, we derive sharp bounds on the error of Monte Carlo (MC)-based estimates of $k$-SMI, with explicit dependence on $k$ and the ambient dimension, revealing their interplay with the number of samples. We then combine the MC integrator with the neural estimation framework to provide an end-to-end $k$-SMI estimator, for which optimal convergence rates are established. We also explore asymptotics of the population $k$-SMI as dimension grows, providing Gaussian approximation results with a residual that decays under appropriate moment bounds. Our theory is validated with numerical experiments and is applied to sliced InfoGAN, which altogether provide a comprehensive quantitative account of the scalability question of $k$-SMI, including SMI as a special case when $k=1$.
翻訳日:2022-06-21 03:54:54 公開日:2022-06-17
# (参考訳) safel-kit: 安全自動運転のための効率的な強化学習方法の評価

SafeRL-Kit: Evaluating Efficient Reinforcement Learning Methods for Safe Autonomous Driving ( http://arxiv.org/abs/2206.08528v1 )

ライセンス: CC BY 4.0
Linrui Zhang, Qin Zhang, Li Shen, Bo Yuan, Xueqian Wang(参考訳) 安全強化学習(RL)は、リスクに敏感なタスクにおいて大きな成功を収め、自律運転(AD)においても有望であることを示す。 このコミュニティの特異性を考えると、効率的で再現可能なベースラインはまだ安全なADに欠けています。 本稿では,AD指向タスクの安全なRLメソッドをベンチマークするSafeRL-Kitをリリースする。 具体的には、SafeRL-Kitには、セーフ・レイヤ、リカバリ・RL、オフ・ポリティ・ラグランジアン・メソッド、ファシブル・アクター・クリティカルなど、ゼロ制約違反タスクに特化した最新のアルゴリズムがいくつか含まれている。 既存の手法に加えて,Exact Penalty Optimization (EPO) と呼ばれる新しい一階法を提案し,その安全性を十分に実証する。 SafeRL-Kitのアルゴリズムはすべて実装されている i) サンプル効率を改善し、過去のログをよりよく活用できる、オフ・ポリティシ・セッティングの下で (i) 統合学習フレームワークにより、研究者がドメイン固有の知識を基本的な安全なRL手法に組み込むための既製のインタフェースを提供する。 結論として,これらのアルゴリズムをsafenel-kitで比較評価し,安全な自動運転に対する有効性について考察した。 ソースコードは \href{ https://github.com/zlr20/saferl_kit}{this https url} で入手できる。

Safe reinforcement learning (RL) has achieved significant success on risk-sensitive tasks and shown promise in autonomous driving (AD) as well. Considering the distinctiveness of this community, efficient and reproducible baselines are still lacking for safe AD. In this paper, we release SafeRL-Kit to benchmark safe RL methods for AD-oriented tasks. Concretely, SafeRL-Kit contains several latest algorithms specific to zero-constraint-violation tasks, including Safety Layer, Recovery RL, off-policy Lagrangian method, and Feasible Actor-Critic. In addition to existing approaches, we propose a novel first-order method named Exact Penalty Optimization (EPO) and sufficiently demonstrate its capability in safe AD. All algorithms in SafeRL-Kit are implemented (i) under the off-policy setting, which improves sample efficiency and can better leverage past logs; (ii) with a unified learning framework, providing off-the-shelf interfaces for researchers to incorporate their domain-specific knowledge into fundamental safe RL methods. Conclusively, we conduct a comparative evaluation of the above algorithms in SafeRL-Kit and shed light on their efficacy for safe autonomous driving. The source code is available at \href{ https://github.com/zlr20/saferl_kit}{this https URL}.
翻訳日:2022-06-21 03:53:26 公開日:2022-06-17
# (参考訳) 戦略的表現

Strategic Representation ( http://arxiv.org/abs/2206.08542v1 )

ライセンス: CC BY 4.0
Vineet Nair, Ganesh Ghalme, Inbal Talgam-Cohen, Nir Rosenfeld(参考訳) 人間は、過剰な情報を管理可能な表現に減らすために機械に頼るようになった。 しかし、この依存度は悪用される可能性がある。戦略機械はユーザーを操る表現を作るかもしれない。 戦略的表現に基づいて、ユーザはどのように良い選択をするか? 我々はこれを学習問題として形式化し、操作に堅牢な意思決定のためのアルゴリズムを追求する。 主な関心事の設定では、システムはアイテムの属性をユーザに表現し、そのアイテムが消費するかどうかを判断します。 このインタラクションを、戦略的な分類のレンズ(hardt et al. 2016)でモデル化し、反転して、ユーザが最初に学習し、応答するシステムが第2の役割を果たすようにします。 システムは「真理以外の何でもない」を明かす表現で応答しなければならないが、真理全体を明かす必要はない。 したがって、ユーザは戦略的な部分集合選択の下で集合関数を学習する問題に直面し、異なるアルゴリズム的および統計的課題を示す。 私たちの主な結果は、戦略的表現にもかかわらずエラーを最小限に抑える学習アルゴリズムであり、理論分析は、学習努力と操作可能性の間のトレードオフを浮き彫りにしている。

Humans have come to rely on machines for reducing excessive information to manageable representations. But this reliance can be abused -- strategic machines might craft representations that manipulate their users. How can a user make good choices based on strategic representations? We formalize this as a learning problem, and pursue algorithms for decision-making that are robust to manipulation. In our main setting of interest, the system represents attributes of an item to the user, who then decides whether or not to consume. We model this interaction through the lens of strategic classification (Hardt et al. 2016), reversed: the user, who learns, plays first; and the system, which responds, plays second. The system must respond with representations that reveal `nothing but the truth' but need not reveal the entire truth. Thus, the user faces the problem of learning set functions under strategic subset selection, which presents distinct algorithmic and statistical challenges. Our main result is a learning algorithm that minimizes error despite strategic representations, and our theoretical analysis sheds light on the trade-off between learning effort and susceptibility to manipulation.
翻訳日:2022-06-21 03:38:49 公開日:2022-06-17
# (参考訳) 伝達学習に基づくディープニューラルネットワークを用いた脳腫瘍画像の多重分類

Multi-Classification of Brain Tumor Images Using Transfer Learning Based Deep Neural Network ( http://arxiv.org/abs/2206.08543v1 )

ライセンス: CC BY 4.0
Pramit Dutta, Khaleda Akhter Sathi and Md. Saiful Islam(参考訳) 近年,脳腫瘍画像の分類が課題となっている。 本稿では,脳腫瘍画像の分類精度を伝達学習に基づくディープニューラルネットワークで高めることに焦点を当てた。 分類法は、画像データセットの多様性を高めるために、回転、ズーム、水平方向のフリップ、幅シフト、高さシフト、せん断を含む画像拡張操作から始める。 そして、インセプションv3からなる事前学習された伝達学習方法に基づいて、入力脳腫瘍画像の一般特徴を抽出する。 4つの層がカスタマイズされたディープニューラルネットワークは、髄膜腫、グリオーマ、下垂体などの最も頻繁に発生する脳腫瘍の分類に使用される。 提案手法は, 従来のマルチクラス化法に比べて, 96.25%の精度で性能が向上した。 一方、超パラメータの微調整とインセプション-v3モデルによるカスタマイズDNNの導入により、分類精度が向上する。

In recent advancement towards computer based diagnostics system, the classification of brain tumor images is a challenging task. This paper mainly focuses on elevating the classification accuracy of brain tumor images with transfer learning based deep neural network. The classification approach is started with the image augmentation operation including rotation, zoom, hori-zontal flip, width shift, height shift, and shear to increase the diversity in image datasets. Then the general features of the input brain tumor images are extracted based on a pre-trained transfer learning method comprised of Inception-v3. Fi-nally, the deep neural network with 4 customized layers is employed for classi-fying the brain tumors in most frequent brain tumor types as meningioma, glioma, and pituitary. The proposed model acquires an effective performance with an overall accuracy of 96.25% which is much improved than some existing multi-classification methods. Whereas, the fine-tuning of hyper-parameters and inclusion of customized DNN with the Inception-v3 model results in an im-provement of the classification accuracy.
翻訳日:2022-06-21 03:37:49 公開日:2022-06-17
# (参考訳) rarity score : 合成画像の不規則性評価のための新しい指標

Rarity Score : A New Metric to Evaluate the Uncommonness of Synthesized Images ( http://arxiv.org/abs/2206.08549v1 )

ライセンス: CC BY 4.0
Jiyeon Han, Hwanil Choi, Yunjey Choi, Junho Kim, Jung-Woo Ha, Jaesik Choi(参考訳) 画像合成における評価指標は生成モデルの性能を測定する上で重要な役割を果たす。 しかし、ほとんどのメトリクスは画像の忠実性に重点を置いている。 既存の多様性指標は分布を比較することによって導出されるため、それぞれの画像の多様性や希少度を定量化することはできない。 そこで本研究では,生成モデルにより合成された各画像の個性を測定するための評価基準「rarity score」を提案する。 まず、共通サンプルが互いに近接しており、稀なサンプルは特徴空間の近辺距離において互いに遠く離れていることを示す。 次に、異なる生成モデルがレアな画像を生成する程度を効果的に比較できることを示すためにメトリクスを使用します。 また,CelebA-HQ や FFHQ のような同じ概念を共有するデータセット間でのラミリティを比較する手法を提案する。 最後に、特徴空間の異なる設計におけるメトリクスの使用を分析し、特徴空間と結果として生じるスパース画像の関係をよりよく理解する。 コードは研究コミュニティ向けにオンラインで公開されている。

Evaluation metrics in image synthesis play a key role to measure performances of generative models. However, most metrics mainly focus on image fidelity. Existing diversity metrics are derived by comparing distributions, and thus they cannot quantify the diversity or rarity degree of each generated image. In this work, we propose a new evaluation metric, called `rarity score', to measure the individual rarity of each image synthesized by generative models. We first show empirical observation that common samples are close to each other and rare samples are far from each other in nearest-neighbor distances of feature space. We then use our metric to demonstrate that the extent to which different generative models produce rare images can be effectively compared. We also propose a method to compare rarities between datasets that share the same concept such as CelebA-HQ and FFHQ. Finally, we analyze the use of metrics in different designs of feature spaces to better understand the relationship between feature spaces and resulting sparse images. Code will be publicly available online for the research community.
翻訳日:2022-06-21 03:33:40 公開日:2022-06-17
# (参考訳) SOS: タブラルデータのためのスコアベースのオーバーサンプリング

SOS: Score-based Oversampling for Tabular Data ( http://arxiv.org/abs/2206.08555v1 )

ライセンス: CC BY 4.0
Jayoung Kim, Chaejeong Lee, Yehjin Shin, Sewon Park, Minjung Kim, Noseong Park, Jihoon Cho(参考訳) スコアベース生成モデル(SGM)は、最近のフェイク画像の生成におけるブレークスルーである。 SGMは、GAN(generative adversarial network)やVAE(variantal autoencoder)など、他の生成モデルを上回ることが知られている。 彼らの大きな成功にインスパイアされたこの作業では、偽の表データを生成するために、完全にカスタマイズしています。 特に、不均衡なクラスがしばしば最適以下のトレーニング結果につながるため、マイナークラスのオーバーサンプリングに関心があります。 私たちの知る限りでは,スコアベースの表データオーバーサンプリング手法を初めて提示する。 まず、表データを処理する必要があるため、スコアネットワークを再設計する。 次に,本手法の2つの選択肢を提案する。前者は表型データに対するスタイル転送に等価であり,後者はSGMの標準生成ポリシーを使用する。 最後に,オーバーサンプリング品質をさらに向上させる微調整手法を定義する。 6つのデータセットと10のベースラインによる実験では、すべてのケースにおいて、オーバーサンプリングメソッドよりも優れています。

Score-based generative models (SGMs) are a recent breakthrough in generating fake images. SGMs are known to surpass other generative models, e.g., generative adversarial networks (GANs) and variational autoencoders (VAEs). Being inspired by their big success, in this work, we fully customize them for generating fake tabular data. In particular, we are interested in oversampling minor classes since imbalanced classes frequently lead to sub-optimal training outcomes. To our knowledge, we are the first presenting a score-based tabular data oversampling method. Firstly, we re-design our own score network since we have to process tabular data. Secondly, we propose two options for our generation method: the former is equivalent to a style transfer for tabular data and the latter uses the standard generative policy of SGMs. Lastly, we define a fine-tuning method, which further enhances the oversampling quality. In our experiments with 6 datasets and 10 baselines, our method outperforms other oversampling methods in all cases.
翻訳日:2022-06-21 03:20:46 公開日:2022-06-17
# (参考訳) 畳み込みニューラルネットワークを用いたトランスファーラーニングを用いたCOVID-19検出

COVID-19 Detection using Transfer Learning with Convolutional Neural Network ( http://arxiv.org/abs/2206.08557v1 )

ライセンス: CC BY 4.0
Pramit Dutta, Tanny Roy and Nafisa Anjum(参考訳) 新型コロナウイルス(COVID-19)は、2019年12月に中国湖北省武漢で初めて確認された、致命的な感染症である。 こうした状況下では、感染した人々から新型コロナウイルスを検出することがより重要になった。 現在、検査キットの数は感染者数に比べて徐々に減少している。 近年,胸部CT(Computed Tomography)画像解析による肺疾患の診断は,新型コロナウイルス患者の診断と予言の両面で重要なツールとなっている。 本研究では,CT画像からCOVID-19感染を検出するためのトランスファーラーニング戦略(CNN)を提案する。 提案モデルでは,Transfer Learning Model Inception V3を用いた多層畳み込みニューラルネットワーク(CNN)が設計されている。 CNNと同様に、畳み込みとプールを使って特徴を抽出するが、この転送学習モデルはデータセットイメージネットの重みを含んでいる。 したがって、非常に効果的に特徴を検出することができ、より良い精度を達成するための上手となる。

The Novel Coronavirus disease 2019 (COVID-19) is a fatal infectious disease, first recognized in December 2019 in Wuhan, Hubei, China, and has gone on an epidemic situation. Under these circumstances, it became more important to detect COVID-19 in infected people. Nowadays, the testing kits are gradually lessening in number compared to the number of infected population. Under recent prevailing conditions, the diagnosis of lung disease by analyzing chest CT (Computed Tomography) images has become an important tool for both diagnosis and prophecy of COVID-19 patients. In this study, a Transfer learning strategy (CNN) for detecting COVID-19 infection from CT images has been proposed. In the proposed model, a multilayer Convolutional neural network (CNN) with Transfer learning model Inception V3 has been designed. Similar to CNN, it uses convolution and pooling to extract features, but this transfer learning model contains weights of dataset Imagenet. Thus it can detect features very effectively which gives it an upper hand for achieving better accuracy.
翻訳日:2022-06-21 03:01:30 公開日:2022-06-17
# (参考訳) HairFIT:フローベースヘアアアライメントとセマンティック・レジオン・アウェア・インペインティングによるポーズ不変ヘアスタイルトランスファー

HairFIT: Pose-Invariant Hairstyle Transfer via Flow-based Hair Alignment and Semantic-Region-Aware Inpainting ( http://arxiv.org/abs/2206.08585v1 )

ライセンス: CC BY 4.0
Chaeyeon Chung, Taewoo Kim, Hyelin Nam, Seunghwan Choi, Gyojung Gu, Sunghyun Park, Jaegul Choo(参考訳) 髪型変換は、ソースの髪型をターゲットの髪型に変更する作業である。 最近のヘアスタイルの転送モデルは、ヘアスタイルの繊細な特徴を反映できるが、2つの大きな制限がある。 まず、既存の方法では、ソースとターゲットイメージが異なるポーズ(例えば、視方向や顔のサイズ)を持つ場合、実際の世界で流行するヘアスタイルの転送に失敗する。 また、以前のモデルでは、元の髪に隠されたソース画像に非自明な量の領域が存在する場合、非現実的な画像を生成する。 長い髪を短い髪に修正する場合は、長い髪に隠された肩や背景を塗る必要がある。 これらの問題を解決するために,ポーズ不変ヘアスタイル転送のための新しいフレームワークであるHairFITを提案する。 私たちのモデルは2つの段階からなる。 1)フローベース毛髪アライメント 2)毛髪合成。 ヘアアライメントの段階では,キーポイントを用いたオプティカルフロー推定器を用いて,ターゲットのヘアスタイルとソースポーズをアライメントする。 次に,Semantic-rea-aware Inpainting Mask (SIM) 推定器を用いて,髪型変換画像を生成する。 我々のSIM推定器は、画像中の隠蔽領域を異なる意味領域に分割し、塗装中の特徴を反映する。 モデルの有効性を示すため,マルチビューデータセット,Kヘアスタイル,VoxCelebを用いて定量的,質的な評価を行う。 その結果,HairFITは異なるポーズの画像間でヘアスタイルの転送を成功させることで,最先端のパフォーマンスを実現することができた。

Hairstyle transfer is the task of modifying a source hairstyle to a target one. Although recent hairstyle transfer models can reflect the delicate features of hairstyles, they still have two major limitations. First, the existing methods fail to transfer hairstyles when a source and a target image have different poses (e.g., viewing direction or face size), which is prevalent in the real world. Also, the previous models generate unrealistic images when there is a non-trivial amount of regions in the source image occluded by its original hair. When modifying long hair to short hair, shoulders or backgrounds occluded by the long hair need to be inpainted. To address these issues, we propose a novel framework for pose-invariant hairstyle transfer, HairFIT. Our model consists of two stages: 1) flow-based hair alignment and 2) hair synthesis. In the hair alignment stage, we leverage a keypoint-based optical flow estimator to align a target hairstyle with a source pose. Then, we generate a final hairstyle-transferred image in the hair synthesis stage based on Semantic-region-aware Inpainting Mask (SIM) estimator. Our SIM estimator divides the occluded regions in the source image into different semantic regions to reflect their distinct features during the inpainting. To demonstrate the effectiveness of our model, we conduct quantitative and qualitative evaluations using multi-view datasets, K-hairstyle and VoxCeleb. The results indicate that HairFIT achieves a state-of-the-art performance by successfully transferring hairstyles between images of different poses, which has never been achieved before.
翻訳日:2022-06-21 02:56:35 公開日:2022-06-17
# (参考訳) ヒト翻訳の自動補正

Automatic Correction of Human Translations ( http://arxiv.org/abs/2206.08593v1 )

ライセンス: CC BY 4.0
Jessy Lin, Geza Kovacs, Aditya Shastry, Joern Wuebker, John DeNero(参考訳) 人為的な翻訳を自動的に修正するタスクである翻訳誤り訂正(TEC)を導入する。 機械翻訳(MT)の欠陥は、自動編集によるポストホック翻訳を改善するための長いモチベーションを持つ。 対照的に、人間の翻訳を自動修正する問題は、機械がタイプミスから翻訳慣行の不整合まで、支援するのに適しているという、人間が明確な誤りを犯すという直感にもかかわらず、ほとんど注目されていない。 これを調べるために、3つのTECデータセットでAcedコーパスを構築し、リリースする。 その結果、tecにおけるヒューマンエラーは、自動編集後のデータセットにおけるmtエラーよりも幅広い範囲のエラーと翻訳フラレンシエラーを示し、ヒューマンエラーの修正に特化した専用のtecモデルの必要性が示唆された。 人工的誤りに基づく事前学習はtec f-scoreを最大5.1ポイント向上させることを示した。 そこで我々は,9人のプロ翻訳編集者による人文内ユーザスタディを行い,TECシステムの支援により,より高品質な翻訳が得られた。

We introduce translation error correction (TEC), the task of automatically correcting human-generated translations. Imperfections in machine translations (MT) have long motivated systems for improving translations post-hoc with automatic post-editing. In contrast, little attention has been devoted to the problem of automatically correcting human translations, despite the intuition that humans make distinct errors that machines would be well-suited to assist with, from typos to inconsistencies in translation conventions. To investigate this, we build and release the Aced corpus with three TEC datasets. We show that human errors in TEC exhibit a more diverse range of errors and far fewer translation fluency errors than the MT errors in automatic post-editing datasets, suggesting the need for dedicated TEC models that are specialized to correct human errors. We show that pre-training instead on synthetic errors based on human errors improves TEC F-score by as much as 5.1 points. We conducted a human-in-the-loop user study with nine professional translation editors and found that the assistance of our TEC system led them to produce significantly higher quality revised translations.
翻訳日:2022-06-21 02:39:56 公開日:2022-06-17
# (参考訳) リアルタイムセマンティックセグメンテーションの効率化に関する調査

On Efficient Real-Time Semantic Segmentation: A Survey ( http://arxiv.org/abs/2206.08605v1 )

ライセンス: CC BY 4.0
Christopher J. Holder, Muhammad Shafique(参考訳) セマンティックセグメンテーション(Semantic segmentation)は、画像中の各ピクセルにクラスラベルを割り当てることの問題であり、シーン理解とオブジェクト検出を容易にする自動運転車ビジョンスタックの重要な構成要素である。 しかし、最上位のセマンティックセグメンテーションモデルの多くは非常に複雑で煩雑であり、計算資源が限られ、低レイテンシ操作が不可欠である自動運転車プラットフォームへの展開には適していない。 本調査では、リアルタイム推論の制約を満たしつつ、低メモリの組み込みシステムにデプロイ可能な、よりコンパクトで効率的なモデルを用いて、このミスアライメントに対処する作業について、徹底的に検討する。 我々は,この分野で最も著名な作品のいくつかについて論じ,その主要な貢献に基づいて分類法に分類し,最後に,ハイエンドgpuを用いた典型的な研究環境と低メモリ組込みgpuハードウェアを用いた現実的なデプロイシナリオを表現した,一貫したハードウェアとソフトウェアセットアップの下でのモデルの推論速度を評価した。 実験結果から,リソース制約のあるハードウェア上でのリアルタイム性能を実証し,レイテンシと精度の相反するトレードオフを考察した。

Semantic segmentation is the problem of assigning a class label to every pixel in an image, and is an important component of an autonomous vehicle vision stack for facilitating scene understanding and object detection. However, many of the top performing semantic segmentation models are extremely complex and cumbersome, and as such are not suited to deployment onboard autonomous vehicle platforms where computational resources are limited and low-latency operation is a vital requirement. In this survey, we take a thorough look at the works that aim to address this misalignment with more compact and efficient models capable of deployment on low-memory embedded systems while meeting the constraint of real-time inference. We discuss several of the most prominent works in the field, placing them within a taxonomy based on their major contributions, and finally we evaluate the inference speed of the discussed models under consistent hardware and software setups that represent a typical research environment with high-end GPU and a realistic deployed scenario using low-memory embedded GPU hardware. Our experimental results demonstrate that many works are capable of real-time performance on resource-constrained hardware, while illustrating the consistent trade-off between latency and accuracy.
翻訳日:2022-06-21 02:18:11 公開日:2022-06-17
# (参考訳) Pivotal Information Recalling を用いた医療対話応答生成

Medical Dialogue Response Generation with Pivotal Information Recalling ( http://arxiv.org/abs/2206.08611v1 )

ライセンス: CC BY 4.0
Yu Zhao, Yunxin Li, Yuxiang Wu, Baotian Hu, Qingcai Chen, Xiaolong Wang, Yuxin Ding, Min Zhang(参考訳) 医療対話の生成は重要だが困難な課題である。 これまでのほとんどの研究は、注意機構と大規模事前訓練言語モデルに依存していた。 しかしながら、これらの手法は、長い対話の歴史から重要な情報を取得して、正確かつ情報的な応答を得るのに失敗することが多い。 この問題を解決するために,知識対応対話グラフエンコーダとリコール強化ジェネレータという2つのコンポーネント上に構築されたPivotal Information Recalling(MedPIR)を用いた医療応答生成モデルを提案する。 知識認識対話グラフエンコーダは、発話中のエンティティ間の知識関係を利用して対話グラフを構築し、グラフ注意ネットワークで符号化する。 そして、リコール強化ジェネレータは、実際の応答を生成する前に対話の要約を生成することにより、これらの重要な情報の使用を強化する。 2つの大規模医療対話データセットの実験結果から,MedPIRはBLEUスコアと医療機関F1測定において,強いベースラインを上回ります。

Medical dialogue generation is an important yet challenging task. Most previous works rely on the attention mechanism and large-scale pretrained language models. However, these methods often fail to acquire pivotal information from the long dialogue history to yield an accurate and informative response, due to the fact that the medical entities usually scatters throughout multiple utterances along with the complex relationships between them. To mitigate this problem, we propose a medical response generation model with Pivotal Information Recalling (MedPIR), which is built on two components, i.e., knowledge-aware dialogue graph encoder and recall-enhanced generator. The knowledge-aware dialogue graph encoder constructs a dialogue graph by exploiting the knowledge relationships between entities in the utterances, and encodes it with a graph attention network. Then, the recall-enhanced generator strengthens the usage of these pivotal information by generating a summary of the dialogue before producing the actual response. Experimental results on two large-scale medical dialogue datasets show that MedPIR outperforms the strong baselines in BLEU scores and medical entities F1 measure.
翻訳日:2022-06-21 01:45:42 公開日:2022-06-17
# (参考訳) 言語による美学理解:美学評価のための写真批判データセット

Understanding Aesthetics with Language: A Photo Critique Dataset for Aesthetic Assessment ( http://arxiv.org/abs/2206.08614v1 )

ライセンス: CC BY 4.0
Daniel Vera Nieto and Luigi Celona and Clara Fernandez-Labrador(参考訳) 美学の計算的推論は主観的な性質から不明確な課題である。 人間の評価に基づく画像と美的スコアのペアを提供することで、この問題に取り組むために多くのデータセットが提案されている。 しかし、人間は1つの数字にまとめるよりも、言語によって自分の意見、味、感情を表現するのが得意である。 実際、写真批評は、ユーザーが視覚刺激の美学を評価する方法と理由を明らかにするため、よりリッチな情報を提供する。 本稿では,画像および写真批評のタプルを含む Reddit Photo Critique Dataset (RPCD) を提案する。 RPCDは74Kイメージと220Kコメントで構成されており、ホビイストやプロの写真家が、建設的なコミュニティフィードバックを利用して写真スキルを向上させるために使用しているRedditコミュニティから収集されている。 提案データセットは,3つの側面,すなわち従来の美学データセットとは異なる。 (i)データセットの大規模化と画像の異なる側面を批判したコメントの拡張。 (ii)主にウルトラhd画像を含み、 (iii)自動パイプラインを介して収集されるので、簡単に新しいデータに拡張できる。 そこで本研究では,視覚刺激の美的品質を批判から推定する最初の試みを提案する。 この目的のために私たちは,批判の感情の極性を美的判断の指標として活用する。 感性極性は2つの審美評価ベンチマークで利用できる審美判断と正の相関関係を示す。 最後に,評価画像のターゲットとして感情スコアを用いて,複数のモデルについて実験を行った。 データセットとベースラインは利用可能である(https://github.com/mediatechnologycenter/aestheval)。

Computational inference of aesthetics is an ill-defined task due to its subjective nature. Many datasets have been proposed to tackle the problem by providing pairs of images and aesthetic scores based on human ratings. However, humans are better at expressing their opinion, taste, and emotions by means of language rather than summarizing them in a single number. In fact, photo critiques provide much richer information as they reveal how and why users rate the aesthetics of visual stimuli. In this regard, we propose the Reddit Photo Critique Dataset (RPCD), which contains tuples of image and photo critiques. RPCD consists of 74K images and 220K comments and is collected from a Reddit community used by hobbyists and professional photographers to improve their photography skills by leveraging constructive community feedback. The proposed dataset differs from previous aesthetics datasets mainly in three aspects, namely (i) the large scale of the dataset and the extension of the comments criticizing different aspects of the image, (ii) it contains mostly UltraHD images, and (iii) it can easily be extended to new data as it is collected through an automatic pipeline. To the best of our knowledge, in this work, we propose the first attempt to estimate the aesthetic quality of visual stimuli from the critiques. To this end, we exploit the polarity of the sentiment of criticism as an indicator of aesthetic judgment. We demonstrate how sentiment polarity correlates positively with the aesthetic judgment available for two aesthetic assessment benchmarks. Finally, we experiment with several models by using the sentiment scores as a target for ranking images. Dataset and baselines are available (https://github.com/mediatechnologycenter/aestheval).
翻訳日:2022-06-21 01:24:30 公開日:2022-06-17
# (参考訳) MSDF: 汎用オープンドメインマルチスキル・ダイアログフレームワーク

MSDF: A General Open-Domain Multi-Skill Dialog Framework ( http://arxiv.org/abs/2206.08626v1 )

ライセンス: CC BY 4.0
Yu Zhao, Xinshuo Hu, Yunxin Li, Baotian Hu, Dongfang Li, Sichao Chen, Xiaolong Wang(参考訳) ダイアログシステムは大きな進歩を遂げ、様々なシナリオで広く利用されている。 これまでの研究は主に単一のシナリオでダイアログ生成モデルを設計することに焦点を当て、現実世界の様々なシナリオでタスクを処理するために包括的な能力が必要である。 本稿では,異なる対話タスク(知識接地ダイアログやペルソナベースダイアログなど)に適用可能な汎用マルチスキルダイアログフレームワークであるmsdfを提案する。 具体的には、BERTエンコーダとGPTデコーダからなるMSDFのバックボーンとして、多種多様な大規模ダイアログコーパスを事前訓練した転送可能な応答生成器を提案する。 対話履歴と一致した応答を選択するために,負サンプリングにより学習した一貫性セレクタを提案する。 また,外部知識のフレキシブルコピー機構を用いて,様々なシナリオにおける多形態知識の利用性を高める。 知識接地ダイアログ,レコメンデーションダイアログ,ペルソナベースのダイアログタスクについて実験を行った。 実験の結果,MSDFはベースラインモデルよりも大きなマージンで優れていた。 2021年のMulti-Skill Dialog of Language and Intelligence Challengeでは、MSDFが第3回受賞し、MSDFが効果的で競争力のあることを証明しました。

Dialog systems have achieved significant progress and have been widely used in various scenarios. The previous researches mainly focused on designing dialog generation models in a single scenario, while comprehensive abilities are required to handle tasks under various scenarios in the real world. In this paper, we propose a general Multi-Skill Dialog Framework, namely MSDF, which can be applied in different dialog tasks (e.g. knowledge grounded dialog and persona based dialog). Specifically, we propose a transferable response generator pre-trained on diverse large-scale dialog corpora as the backbone of MSDF, consisting of BERT-based encoders and a GPT-based decoder. To select the response consistent with dialog history, we propose a consistency selector trained through negative sampling. Moreover, the flexible copy mechanism of external knowledge is also employed to enhance the utilization of multiform knowledge in various scenarios. We conduct experiments on knowledge grounded dialog, recommendation dialog, and persona based dialog tasks. The experimental results indicate that our MSDF outperforms the baseline models with a large margin. In the Multi-skill Dialog of 2021 Language and Intelligence Challenge, our general MSDF won the 3rd prize, which proves our MSDF is effective and competitive.
翻訳日:2022-06-21 00:56:38 公開日:2022-06-17
# (参考訳) 視覚・言語ナビゲーションのための局所スロットアテンション

Local Slot Attention for Vision-and-Language Navigation ( http://arxiv.org/abs/2206.08645v1 )

ライセンス: CC BY 4.0
Yifeng Zhuang, Qiang Sun, Yanwei Fu, Lifeng Chen, Xiangyang Sue(参考訳) 汎用ロボットへの道を開くためのフロンティア研究であるヴィジョン・アンド・言語ナビゲーション(vln)は、コンピュータビジョンと自然言語処理コミュニティでホットな話題となっている。 VLNタスクは、不慣れな環境で自然言語命令に従って、エージェントが目標地点に向かう必要がある。 近年、トランスフォーマーベースのモデルではVLNタスクが大幅に改善されている。 トランスフォーマーアーキテクチャの注意のメカニズムは、視覚と言語のモード間情報とイントラモーダル情報をより統合することができる。 しかし、現在のトランスモデルには2つの問題がある。 1) モデルは各ビューを独立して処理し、オブジェクトの完全性を考慮していない。 2)視覚モダリティにおける自己照準操作では,空間的に離れた視点を明示的な制約なく相互に織り込むことができる。 この種の混合は有用な情報の代わりに余分なノイズをもたらすかもしれない。 これらの問題に対処するために 1)同一オブジェクトのセグメンテーションからの情報を取り込むスロットアテンションベースのモジュール。 2)視覚的注意範囲を制限する局所的な注意マスク機構。 提案するモジュールは任意のVLNアーキテクチャに簡単にプラグインでき、ベースモデルとしてRecurrent VLN-Bertを使用します。 R2Rデータセットの実験は、我々のモデルが最先端の結果を達成したことを示している。

Vision-and-language navigation (VLN), a frontier study aiming to pave the way for general-purpose robots, has been a hot topic in the computer vision and natural language processing community. The VLN task requires an agent to navigate to a goal location following natural language instructions in unfamiliar environments. Recently, transformer-based models have gained significant improvements on the VLN task. Since the attention mechanism in the transformer architecture can better integrate inter- and intra-modal information of vision and language. However, there exist two problems in current transformer-based models. 1) The models process each view independently without taking the integrity of the objects into account. 2) During the self-attention operation in the visual modality, the views that are spatially distant can be inter-weaved with each other without explicit restriction. This kind of mixing may introduce extra noise instead of useful information. To address these issues, we propose 1) A slot-attention based module to incorporate information from segmentation of the same object. 2) A local attention mask mechanism to limit the visual attention span. The proposed modules can be easily plugged into any VLN architecture and we use the Recurrent VLN-Bert as our base model. Experiments on the R2R dataset show that our model has achieved the state-of-the-art results.
翻訳日:2022-06-21 00:37:33 公開日:2022-06-17
# (参考訳) すべての誤りは等しくない:包括的階層型マルチラベル予測(CHAMP)

All Mistakes Are Not Equal: Comprehensive Hierarchy Aware Multi-label Predictions (CHAMP) ( http://arxiv.org/abs/2206.08653v1 )

ライセンス: CC BY 4.0
Ashwin Vaswani, Gaurav Aggarwal, Praneeth Netrapalli, Narayan G Hegde(参考訳) 本稿では階層型マルチラベル分類(HMC)の問題について考察する。 (i)各例にいくつかのラベルがある場合、及び (ii)ラベルはドメイン固有の階層木を介して関連付けられる。 全ての誤りが同じではないという直感に導かれ、階層木のような厳密性に応じて誤予測を罰するフレームワークである包括的階層認識マルチラベル予測(CHAMP)を提示する。 このようなアイデアをシングルラベル分類に適用する研究は、私たちの知識の最大限に活用する一方で、ミスの深刻さに焦点をあてたマルチラベル分類には限定的な研究がある。 主な理由は、マルチラベル設定において誤予測の重大さを定量化する方法が存在しないことである。 本研究では,HMCにおける誤りの重大度を定量化するための,単純だが効果的な計量法を提案する。 モダリティ(画像、音声、テキスト)にまたがる6つの公共HMCデータセットの大規模な実験により、階層的情報の統合は、CHAMPがAUPRC(2.6%の中央値改善)と階層的メトリクス(2.85%の中央値改善)の両方を改善し、スタンドアロンの階層的または複数ラベルの分類方法よりも大幅に向上することを示した。 標準のマルチラベルベースラインと比較して、CHAMPは堅牢性(8.87%の平均パーセンテージ改善)とデータレギュレーションの両面で改善されたAPRCを提供する。 さらに,提案手法は,既存のマルチラベル分類アルゴリズムをより良い誤り(平均パーセンテージインクリメント18.1%)で拡張するフレームワークを提供する。

This paper considers the problem of Hierarchical Multi-Label Classification (HMC), where (i) several labels can be present for each example, and (ii) labels are related via a domain-specific hierarchy tree. Guided by the intuition that all mistakes are not equal, we present Comprehensive Hierarchy Aware Multi-label Predictions (CHAMP), a framework that penalizes a misprediction depending on its severity as per the hierarchy tree. While there have been works that apply such an idea to single-label classification, to the best of our knowledge, there are limited such works for multilabel classification focusing on the severity of mistakes. The key reason is that there is no clear way of quantifying the severity of a misprediction a priori in the multilabel setting. In this work, we propose a simple but effective metric to quantify the severity of a mistake in HMC, naturally leading to CHAMP. Extensive experiments on six public HMC datasets across modalities (image, audio, and text) demonstrate that incorporating hierarchical information leads to substantial gains as CHAMP improves both AUPRC (2.6% median percentage improvement) and hierarchical metrics (2.85% median percentage improvement), over stand-alone hierarchical or multilabel classification methods. Compared to standard multilabel baselines, CHAMP provides improved AUPRC in both robustness (8.87% mean percentage improvement ) and less data regimes. Further, our method provides a framework to enhance existing multilabel classification algorithms with better mistakes (18.1% mean percentage increment).
翻訳日:2022-06-21 00:24:10 公開日:2022-06-17
# (参考訳) ランダムな直交分解と深層学習によるディジタル双対データモデリング

Digital Twin Data Modelling by Randomized Orthogonal Decomposition and Deep Learning ( http://arxiv.org/abs/2206.08659v1 )

ライセンス: CC BY 4.0
Diana Alina Bistrian and Omer San and Ionel Michael Navon(参考訳) デジタル双生児(digital twin)は、元のプロセスの振る舞いを反映する主要な特徴を持つ代理モデルである。 複雑さを減少させるデジタル双生児モデルで力学過程を関連付けることは、高い精度でダイナミクスをマッピングし、cpu時間とハードウェアのコストを、大幅な変化に苦しむ時間スケールに縮めるという大きな利点があるため、探索は困難である。 本稿では,流体の効率的なディジタル双対モデルを作成するための新しい枠組みを提案する。 我々は、Krylovに基づく動的モード分解と適切な直交分解を組み合わせ、最も影響力のあるモードの選択を上回る新しいアルゴリズムを提案する。 我々は,SVD経験的直交分解法に対してランダム化された直交分解アルゴリズムがいくつかの利点を与え,多目的最適化問題の射影誤差を軽減できることを証明した。我々は,ディジタル双対モデルのリアルタイム適応キャリブレーションを行うために,最先端の人工知能ディープラーニング(DL)を巻き込み,忠実度を増大させる。 出力は流体力学の高忠実なデジタルTWINデータモデルであり、複雑さの低減の利点がある。 複雑化を伴う3つの波動現象の数値シミュレーションにおいて,新しいモデリングツールについて検討した。 本報告では,出力が原データと一致していることを示し,数値的精度と計算効率の観点から,新しいデジタルツインデータモデルの性能を徹底的に評価する。

A digital twin is a surrogate model that has the main feature to mirror the original process behavior. Associating the dynamical process with a digital twin model of reduced complexity has the significant advantage to map the dynamics with high accuracy and reduced costs in CPU time and hardware to timescales over which that suffers significantly changes and so it is difficult to explore. This paper introduces a new framework for creating efficient digital twin models of fluid flows. We introduce a novel algorithm that combines the advantages of Krylov based dynamic mode decomposition with proper orthogonal decomposition and outperforms the selection of the most influential modes. We prove that randomized orthogonal decomposition algorithm provides several advantages over SVD empirical orthogonal decomposition methods and mitigates the projection error formulating a multiobjective optimization problem.We involve the state-of-the-art artificial intelligence Deep Learning (DL) to perform a real-time adaptive calibration of the digital twin model, with increasing fidelity. The output is a high-fidelity DIGITAL TWIN DATA MODEL of the fluid flow dynamics, with the advantage of a reduced complexity. The new modelling tools are investigated in the numerical simulation of three wave phenomena with increasing complexity. We show that the outputs are consistent with the original source data.We perform a thorough assessment of the performance of the new digital twin data models, in terms of numerical accuracy and computational efficiency, including a time simulation response feature study.
翻訳日:2022-06-21 00:02:36 公開日:2022-06-17
# (参考訳) 眼球運動計測における脳波データのセグメンテーションのための深層学習手法

A Deep Learning Approach for the Segmentation of Electroencephalography Data in Eye Tracking Applications ( http://arxiv.org/abs/2206.08672v1 )

ライセンス: CC BY 4.0
Lukas Wolf, Ard Kastrati, Martyna Beata P{\l}omecka, Jie-Ming Li, Dustin Klebe, Alexander Veicht, Roger Wattenhofer, Nicolas Langer(参考訳) 視線情報の収集は、人間の認知、健康、行動の多くの重要な側面の窓となる。 さらに、多くの神経科学的研究は、視線追跡から得られる行動情報を高時間分解能と脳波(EEG)によって提供される神経生理学的マーカーで補完する。 重要なアイトラッキングソフトウェア処理ステップの1つは、連続データストリームを、ササード、フィクスメント、ブリンクなどのアイトラッキングアプリケーションに関連するイベントにセグメント化することである。 本稿では,脳波データのみに依存する眼球追跡モダリティを必要としない眼球イベント検出装置を,時系列セグメンテーションのための新しいフレームワークであるDETRtimeを紹介する。 我々のエンドツーエンドのディープラーニングベースのフレームワークは、脳波データの時系列セグメンテーションの最前線にコンピュータビジョンの最近の進歩をもたらします。 DETRtimeは様々な視線追跡実験パラダイムにまたがる眼球イベントの検出において最先端の性能を達成する。 さらに,脳波睡眠ステージセグメンテーションの課題において,我々のモデルがよく一般化していることを示す。

The collection of eye gaze information provides a window into many critical aspects of human cognition, health and behaviour. Additionally, many neuroscientific studies complement the behavioural information gained from eye tracking with the high temporal resolution and neurophysiological markers provided by electroencephalography (EEG). One of the essential eye-tracking software processing steps is the segmentation of the continuous data stream into events relevant to eye-tracking applications, such as saccades, fixations, and blinks. Here, we introduce DETRtime, a novel framework for time-series segmentation that creates ocular event detectors that do not require additionally recorded eye-tracking modality and rely solely on EEG data. Our end-to-end deep learning-based framework brings recent advances in Computer Vision to the forefront of the times series segmentation of EEG data. DETRtime achieves state-of-the-art performance in ocular event detection across diverse eye-tracking experiment paradigms. In addition to that, we provide evidence that our model generalizes well in the task of EEG sleep stage segmentation.
翻訳日:2022-06-20 23:38:00 公開日:2022-06-17
# (参考訳) 敵対的訓練の強固な過剰フィットの理解

Understanding Robust Overfitting of Adversarial Training and Beyond ( http://arxiv.org/abs/2206.08675v1 )

ライセンス: CC BY 4.0
Chaojian Yu, Bo Han, Li Shen, Jun Yu, Chen Gong, Mingming Gong, Tongliang Liu(参考訳) 強固な過剰フィッティングは、ディープネットワークの敵対的トレーニングに広く存在する。 正確な理由はまだ完全には分かっていない。 本稿では, 弱敵が生成する逆データ分布が, 主に小損失データを含むことを観察し, 強敵(弱敵)と強敵(強敵)の学習データ分布を比較することにより, 強固な過剰フィッティングの原因を考察する。 しかし、強敵が生成する敵データは、大損失データと小損失データでより多様に分布する。 これらの結果を踏まえて,データアブレーション攻撃訓練を更に設計し,敵の強さに値しない小さな損失データの一部が強敵モードで強固な過剰フィットを引き起こすことを同定した。 この問題を解消するため,我々はMLCAT (emph{minimum loss constrained adversarial training}) を提案する。 技術的には、MLCATは、堅牢なオーバーフィッティングを回避し、学習しやすくなればデータの適合を阻害し、哲学的には、廃棄物を宝に換え、各逆データに最適に活用する精神を反映し、アルゴリズムにより、MLCATの2つの実現を設計し、MLCATが堅牢なオーバーフィッティングを排除し、さらに敵のロバスト性を高めることを実証した。

Robust overfitting widely exists in adversarial training of deep networks. The exact underlying reasons for this are still not completely understood. Here, we explore the causes of robust overfitting by comparing the data distribution of \emph{non-overfit} (weak adversary) and \emph{overfitted} (strong adversary) adversarial training, and observe that the distribution of the adversarial data generated by weak adversary mainly contain small-loss data. However, the adversarial data generated by strong adversary is more diversely distributed on the large-loss data and the small-loss data. Given these observations, we further designed data ablation adversarial training and identify that some small-loss data which are not worthy of the adversary strength cause robust overfitting in the strong adversary mode. To relieve this issue, we propose \emph{minimum loss constrained adversarial training} (MLCAT): in a minibatch, we learn large-loss data as usual, and adopt additional measures to increase the loss of the small-loss data. Technically, MLCAT hinders data fitting when they become easy to learn to prevent robust overfitting; philosophically, MLCAT reflects the spirit of turning waste into treasure and making the best use of each adversarial data; algorithmically, we designed two realizations of MLCAT, and extensive experiments demonstrate that MLCAT can eliminate robust overfitting and further boost adversarial robustness.
翻訳日:2022-06-20 23:13:39 公開日:2022-06-17
# (参考訳) BITS Pilani at HinglishEval: Code-Mixed Hinglish Text using Transformers (英語)

BITS Pilani at HinglishEval: Quality Evaluation for Code-Mixed Hinglish Text Using Transformers ( http://arxiv.org/abs/2206.08680v1 )

ライセンス: CC BY-SA 4.0
Shaz Furniturewala, Vijay Kumari, Amulya Ratna Dash, Hriday Kedia, Yashvardhan Sharma(参考訳) Code-Mixedのテキストデータは、複数の言語の単語やフレーズを持つ文で構成されている。 世界中のほとんどの多言語コミュニティは複数の言語を使ってコミュニケーションしている。 ハインリッシュ(hinglish)は、ヒンディー語と英語を混成したもので、ローマ文字で書かれている。 本稿では,システムによって生成されたコードミクシングテキストデータの品質に影響を及ぼす要因を明らかにすることを目的とする。 hinglishevalタスクでは,多言語bertを用いて合成生成文と人間の生成文の類似性を求め,合成生成hinglish文の品質を予測する。

Code-Mixed text data consists of sentences having words or phrases from more than one language. Most multi-lingual communities worldwide communicate using multiple languages, with English usually one of them. Hinglish is a Code-Mixed text composed of Hindi and English but written in Roman script. This paper aims to determine the factors influencing the quality of Code-Mixed text data generated by the system. For the HinglishEval task, the proposed model uses multi-lingual BERT to find the similarity between synthetically generated and human-generated sentences to predict the quality of synthetically generated Hinglish sentences.
翻訳日:2022-06-20 22:35:26 公開日:2022-06-17
# (参考訳) aggnet: グループメンバシップ検証のための顔を集約する学習

AggNet: Learning to Aggregate Faces for Group Membership Verification ( http://arxiv.org/abs/2206.08683v1 )

ライセンス: CC BY 4.0
Marzieh Gheisari, Javad Amirian, Teddy Furon, Laurent Amsaleg(参考訳) いくつかの顔認識アプリケーションでは、個人がグループのメンバーであるかどうかを識別することなく確認することに興味がある。 既存の手法では、事前計算された顔記述子を離散埋め込みに定量化し、それらを一つのグループ表現に集約するメカニズムを提案する。 しかし、このメカニズムは与えられた閉じた個人に対してのみ最適化されており、グループを変更する度にスクラッチからグループ表現を学ぶ必要がある。 本稿では,より優れたエンドツーエンド性能を実現するために,顔記述子と集約機構を協調的に学習するディープアーキテクチャを提案する。 このシステムは、これまで見たことのない新しいグループに適用でき、新しいメンバーシップやメンバーシップの終了を簡単に管理できる。 本稿では,複数の大規模ワイルドフェイスデータセットの実験を通して,提案手法が他のベースラインと比較して高い検証性能をもたらすことを示す。

In some face recognition applications, we are interested to verify whether an individual is a member of a group, without revealing their identity. Some existing methods, propose a mechanism for quantizing precomputed face descriptors into discrete embeddings and aggregating them into one group representation. However, this mechanism is only optimized for a given closed set of individuals and needs to learn the group representations from scratch every time the groups are changed. In this paper, we propose a deep architecture that jointly learns face descriptors and the aggregation mechanism for better end-to-end performances. The system can be applied to new groups with individuals never seen before and the scheme easily manages new memberships or membership endings. We show through experiments on multiple large-scale wild-face datasets, that the proposed method leads to higher verification performance compared to other baselines.
翻訳日:2022-06-20 22:30:29 公開日:2022-06-17
# (参考訳) 強化学習による人間レベル2次元デキスタラスマニピュレーションを目指して

Towards Human-Level Bimanual Dexterous Manipulation with Reinforcement Learning ( http://arxiv.org/abs/2206.08686v1 )

ライセンス: CC BY 4.0
Yuanpei Chen, Yaodong Yang, Tianhao Wu, Shengjie Wang, Xidong Feng, Jiechuang Jiang, Stephen Marcus McAleer, Hao Dong, Zongqing Lu, Song-Chun Zhu(参考訳) ロボット工学において、人間レベルのデキスタリティを達成することは重要なオープンな問題である。 しかし,乳児レベルにおいても手指操作の課題は強化学習(rl)による解決が困難である。 この難しさは、高い自由度と不均一なエージェント(例えば指の関節)間の必要な協力にある。 本研究では,2つのデキスタラスハンドと数十のバイマンダル操作タスク,数千の対象オブジェクトを含むシミュレータであるBimanual Dexterous Hands Benchmark(Bi-DexHands)を提案する。 具体的には、Bi-DexHandsのタスクは認知科学の文献によると、人間の運動能力のレベルが異なるように設計されている。 私たちはIssac GymにBi-DexHandsを組みました。これは高い効率のRLトレーニングを可能にし、NVIDIA RTX 3090を1つだけで3万 FPSに到達します。 一般的なRLアルゴリズムの総合ベンチマークを異なる設定で提供し、Single-agent/Multi-agent RL、Offline RL、Multi-task RL、Meta RLを含む。 以上の結果から,PPO型オンデマンドアルゴリズムは,48ヶ月の人間の乳児(例えば,空飛ぶ物体を捕獲し,ボトルを開ける)に匹敵する簡単な操作タスクを習得し,マルチエージェントRLは,熟練した双方向協調を必要とする操作(例えば,ポットを持ち上げる,積み重ねブロック)の習得にさらに役立てることが示唆された。 ひとつのタスクで成功しているにも関わらず、複数の操作スキルを取得するという点では、既存のRLアルゴリズムは、マルチタスクと数ショットの学習設定の大部分で機能せず、RLコミュニティからより実質的な開発が求められている。 私たちのプロジェクトはhttps://github.com/PKU-MARL/DexterousHands.comで公開されている。

Achieving human-level dexterity is an important open problem in robotics. However, tasks of dexterous hand manipulation, even at the baby level, are challenging to solve through reinforcement learning (RL). The difficulty lies in the high degrees of freedom and the required cooperation among heterogeneous agents (e.g., joints of fingers). In this study, we propose the Bimanual Dexterous Hands Benchmark (Bi-DexHands), a simulator that involves two dexterous hands with tens of bimanual manipulation tasks and thousands of target objects. Specifically, tasks in Bi-DexHands are designed to match different levels of human motor skills according to cognitive science literature. We built Bi-DexHands in the Issac Gym; this enables highly efficient RL training, reaching 30,000+ FPS by only one single NVIDIA RTX 3090. We provide a comprehensive benchmark for popular RL algorithms under different settings; this includes Single-agent/Multi-agent RL, Offline RL, Multi-task RL, and Meta RL. Our results show that the PPO type of on-policy algorithms can master simple manipulation tasks that are equivalent up to 48-month human babies (e.g., catching a flying object, opening a bottle), while multi-agent RL can further help to master manipulations that require skilled bimanual cooperation (e.g., lifting a pot, stacking blocks). Despite the success on each single task, when it comes to acquiring multiple manipulation skills, existing RL algorithms fail to work in most of the multi-task and the few-shot learning settings, which calls for more substantial development from the RL community. Our project is open sourced at https://github.com/PKU-MARL/DexterousHands.
翻訳日:2022-06-20 22:19:55 公開日:2022-06-17
# (参考訳) You Only Derive Once (YODO):ベイジアンネットワークにおける効率的な感度分析のための自動微分

You Only Derive Once (YODO): Automatic Differentiation for Efficient Sensitivity Analysis in Bayesian Networks ( http://arxiv.org/abs/2206.08687v1 )

ライセンス: CC BY 4.0
Rafael Ballester-Ripoll, Manuele Leonelli(参考訳) 感度分析は、ベイズネットワークのパラメータが特定の値を取る変数の確率など、ネットワークによって定義された関心量に与える影響を測定する。 特に、いわゆる感度値は、ネットワークの条件付き確率に対する利子の偏微分の量を測定する。 しかし、数千のパラメータを持つ大規模ネットワークでそのような値を見つけるのは非常にコストがかかる。 1回のパスで全ての感度値を取得するために,自動微分と正確な推論を併用する手法を提案する。 提案手法は,まず変数除去などを用いてネットワーク全体の辺限化を行い,その処理をバックプロパゲーションし,入力パラメータの勾配を求める。 我々は,人道的危機と災害をモデル化したベイズネットワーク上で,すべてのパラメータを重要度でランク付けし,最大10万のパラメータを持つ巨大ネットワークにスケールすることで,手法の効率を示す。 一般的な機械学習ライブラリであるPyTorchを使ったメソッドの実装は無料で利用可能である。

Sensitivity analysis measures the influence of a Bayesian network's parameters on a quantity of interest defined by the network, such as the probability of a variable taking a specific value. In particular, the so-called sensitivity value measures the quantity of interest's partial derivative with respect to the network's conditional probabilities. However, finding such values in large networks with thousands of parameters can become computationally very expensive. We propose to use automatic differentiation combined with exact inference to obtain all sensitivity values in a single pass. Our method first marginalizes the whole network once using e.g. variable elimination and then backpropagates this operation to obtain the gradient with respect to all input parameters. We demonstrate our routines by ranking all parameters by importance on a Bayesian network modeling humanitarian crises and disasters, and then show the method's efficiency by scaling it to huge networks with up to 100'000 parameters. An implementation of the methods using the popular machine learning library PyTorch is freely available.
翻訳日:2022-06-20 22:17:57 公開日:2022-06-17
# (参考訳) 色名機能付きリアルタイムビジュアルトラッキングの実現に向けて

Towards Real-Time Visual Tracking with Graded Color-names Features ( http://arxiv.org/abs/2206.08701v1 )

ライセンス: CC BY 4.0
Lin Li, Guoli Wang, Xuemei Guo,(参考訳) meanshiftアルゴリズムは、シンプルさと効率性から、タスク追跡に広く使われている。 しかし、従来のMeanShiftアルゴリズムはターゲットの初期領域をラベル付けする必要があるため、アルゴリズムの適用性が低下する。 さらに、ターゲット領域と候補領域との重複率が大きいシーンにのみ適用可能である。 したがって、目標速度が速ければ、目標スケールの変化、形状変形、または目標閉塞が発生すると、追跡性能が低下する。 本稿では,MeanShift フレームワークの下で,背景モデルと色名のグレード化機能を組み合わせたトラッキング手法を開発することにより,上記の課題に対処する。 この方法は上記のシナリオのパフォーマンスを大幅に改善する。 さらに、検出精度と検出速度のバランスを容易にする。 実験の結果,提案手法の有効性が示された。

MeanShift algorithm has been widely used in tracking tasks because of its simplicity and efficiency. However, the traditional MeanShift algorithm needs to label the initial region of the target, which reduces the applicability of the algorithm. Furthermore, it is only applicable to the scene with a large overlap rate between the target area and the candidate area. Therefore, when the target speed is fast, the target scale change, shape deformation or the target occlusion occurs, the tracking performance will be deteriorated. In this paper, we address the challenges above-mentioned by developing a tracking method that combines the background models and the graded features of color-names under the MeanShift framework. This method significantly improve performance in the above scenarios. In addition, it facilitates the balance between detection accuracy and detection speed. Experimental results demonstrate the validation of the proposed method.
翻訳日:2022-06-20 22:07:17 公開日:2022-06-17
# (参考訳) 知識グラフにおける言語間エンティティラベルマッピングの統計的およびニューラル手法

Statistical and Neural Methods for Cross-lingual Entity Label Mapping in Knowledge Graphs ( http://arxiv.org/abs/2206.08709v1 )

ライセンス: CC BY 4.0
Gabriel Amaral, M\=arcis Pinnis, Inguna Skadi\c{n}a, Odinaldo Rodrigues and Elena Simperl(参考訳) Wikidataのような知識ベースは、多言語ラベルのような大量の名前付きエンティティ情報を蓄積しており、多言語および多言語アプリケーションに非常に有用である。 しかし、そのようなラベルは、情報一貫性の観点から言語間でマッチすることが保証されておらず、機械翻訳などの分野における有用性を著しく損なう。 本研究では,単語と文のアライメント手法とマッチングアルゴリズムを併用して,Wikidataから抽出した言語間エンティティラベルを10言語で整列させる手法を提案する。 以上の結果から,wikidata の主要ラベル間のマッピングは,どの手法でも大幅に改善されている(f1-score では最大$20 ドル)。 文埋め込みに依存するメソッドが他のすべてのスクリプトよりも優れていることを示す。 このような手法を適用してラベルペアの類似度を測定し、高品質なエンティティラベルに富む知識ベースと組み合わせることで、機械翻訳に優れた資産となると信じている。

Knowledge bases such as Wikidata amass vast amounts of named entity information, such as multilingual labels, which can be extremely useful for various multilingual and cross-lingual applications. However, such labels are not guaranteed to match across languages from an information consistency standpoint, greatly compromising their usefulness for fields such as machine translation. In this work, we investigate the application of word and sentence alignment techniques coupled with a matching algorithm to align cross-lingual entity labels extracted from Wikidata in 10 languages. Our results indicate that mapping between Wikidata's main labels stands to be considerably improved (up to $20$ points in F1-score) by any of the employed methods. We show how methods relying on sentence embeddings outperform all others, even across different scripts. We believe the application of such techniques to measure the similarity of label pairs, coupled with a knowledge base rich in high-quality entity labels, to be an excellent asset to machine translation.
翻訳日:2022-06-20 21:55:19 公開日:2022-06-17
# (参考訳) 神経陰影写像上のse(3)変換による再マッピング関数のアルゴリズム

An Algorithm for the SE(3)-Transformation on Neural Implicit Maps for Remapping Functions ( http://arxiv.org/abs/2206.08712v1 )

ライセンス: CC BY 4.0
Yijun Yuan, Andreas Nuechter(参考訳) 命令表現は、その効率性と柔軟性のためにオブジェクト再構成に広く使われている。 2021年、神経暗黙マップと呼ばれる新しい構造が漸進的な再構成のために発明された。 ニューラル暗黙マップは、以前のオンライン3D高密度再構成の非効率なメモリコストの問題を軽減すると同時に、より良い品質を生み出す。 しかし、ニューラル暗黙マップは、ニューラル暗示マップを生成した後、スキャンのフレームが深部にエンコードされるため、リマッピングをサポートしないという制限を被っている。 つまり、この生成プロセスは逆転可能でも、より深い事前は変換不可能である。 非remappableプロパティはループクロージャテクニックを適用できない。 このギャップを埋めるために,ニューラル暗黙マップに基づく変換アルゴリズムを提案する。 我々のニューラル暗黙マップは変換可能であるので、我々のモデルは潜伏した特徴のこの特別なマップのリマッピングをサポートする。 %実験の結果、リマッピングモジュールはニューラルな暗黙の地図を新しいポーズに十分に変換できることがわかった。 SLAMフレームワークに組み込んだマッピングモデルにより,ループ閉鎖のリマッピングに対処し,高品質な表面再構成を実現する。 この実装は、研究コミュニティ向けのgithub\footnote{\url{https://github.com/Jarrome/IMT_Mapping}}で利用可能です。

Implicit representations are widely used for object reconstruction due to their efficiency and flexibility. In 2021, a novel structure named neural implicit map has been invented for incremental reconstruction. A neural implicit map alleviates the problem of inefficient memory cost of previous online 3D dense reconstruction while producing better quality. % However, the neural implicit map suffers the limitation that it does not support remapping as the frames of scans are encoded into a deep prior after generating the neural implicit map. This means, that neither this generation process is invertible, nor a deep prior is transformable. The non-remappable property makes it not possible to apply loop-closure techniques. % We present a neural implicit map based transformation algorithm to fill this gap. As our neural implicit map is transformable, our model supports remapping for this special map of latent features. % Experiments show that our remapping module is capable to well-transform neural implicit maps to new poses. Embedded into a SLAM framework, our mapping model is able to tackle the remapping of loop closures and demonstrates high-quality surface reconstruction. % Our implementation is available at github\footnote{\url{https://github.com/Jarrome/IMT_Mapping}} for the research community.
翻訳日:2022-06-20 21:42:41 公開日:2022-06-17
# (参考訳) 多語表現の相対ランク付けをクラウドソーシングする:エキスパート対非専門家

Crowdsourcing Relative Rankings of Multi-Word Expressions: Experts versus Non-Experts ( http://arxiv.org/abs/2206.08724v1 )

ライセンス: CC BY 4.0
David Alfter, Therese Lindstr\"om Tiedemann, Elena Volodina(参考訳) 本研究では,クラウドソーシング実験における難問について,専門家と非専門家がどの程度一致しているかを検討する。 クラウドソーシング実験では,非専門家(スウェーデン語2番目の言語学習者)と2つの専門家グループ(スウェーデン語2番目の言語とcefrの専門家)に,多語表現のランク付けを依頼する。 その結果,3つのテストグループで得られたランキングは非常に高い水準に相関することが明らかとなり,比較で得られた判断はスウェーデン語を第二言語とする専門的洞察に影響されないことが示唆された。

In this study we investigate to which degree experts and non-experts agree on questions of difficulty in a crowdsourcing experiment. We ask non-experts (second language learners of Swedish) and two groups of experts (teachers of Swedish as a second/foreign language and CEFR experts) to rank multi-word expressions in a crowdsourcing experiment. We find that the resulting rankings by all the three tested groups correlate to a very high degree, which suggests that judgments produced in a comparative setting are not influenced by professional insights into Swedish as a second language.
翻訳日:2022-06-20 21:25:12 公開日:2022-06-17
# (参考訳) ITU Faroese Pairsデータセット

The ITU Faroese Pairs Dataset ( http://arxiv.org/abs/2206.08727v1 )

ライセンス: CC BY 4.0
Leon Derczynski, Annika Solveig Hedegaard Isfeldt, Signhild Djurhuus(参考訳) この記事は、ituコペンハーゲンで作成されたフェロー語とデンマーク語の文対のデータセットを文書化する。 このデータは、両方のソース言語からの翻訳をカバーしており、この言語ペアにおける機械翻訳システムのトレーニングデータとしての使用を意図している。

This article documents a dataset of sentence pairs between Faroese and Danish, produced at ITU Copenhagen. The data covers tranlsation from both source languages, and is intended for use as training data for machine translation systems in this language pair.
翻訳日:2022-06-20 21:24:10 公開日:2022-06-17
# (参考訳) 幾何学的政策構成による一般政策改善

Generalised Policy Improvement with Geometric Policy Composition ( http://arxiv.org/abs/2206.08736v1 )

ライセンス: CC BY 4.0
Shantanu Thakoor, Mark Rowland, Diana Borsa, Will Dabney, R\'emi Munos, Andr\'e Barreto(参考訳) 本稿では、価値ベース強化学習(RL)の欲求的アプローチとモデルベースRLに典型的な計画的アプローチとを補間する政策改善手法を提案する。 この新しい手法は、与えられたポリシーの割引された状態参照分布をモデル化する幾何学的地平線モデル(ghm、ガンマモデルとしても知られる)の概念に基づいている。 我々は,基本方針GHMを慎重に構成することにより,マルコフ政策の集合を一定の確率で切り換える非マルコフ政策を,追加の学習なしに評価できることを示す。 そして、そのような非マルコフ政策の集合に一般化された政策改善(GPI)を適用して、その前駆体を全般的に上回る新しいマルコフ政策を得る。 本稿では,本手法の詳細な理論的解析を行い,トランスファーと標準RLの応用を開発し,挑戦的なRL連続制御タスクにおいて標準GPIよりも有効であることを示す。 また,ghmトレーニング手法の解析を行い,提案手法に関する新しい収束結果を示し,これらのモデルを深いrl環境で安定的にトレーニングする方法を示す。

We introduce a method for policy improvement that interpolates between the greedy approach of value-based reinforcement learning (RL) and the full planning approach typical of model-based RL. The new method builds on the concept of a geometric horizon model (GHM, also known as a gamma-model), which models the discounted state-visitation distribution of a given policy. We show that we can evaluate any non-Markov policy that switches between a set of base Markov policies with fixed probability by a careful composition of the base policy GHMs, without any additional learning. We can then apply generalised policy improvement (GPI) to collections of such non-Markov policies to obtain a new Markov policy that will in general outperform its precursors. We provide a thorough theoretical analysis of this approach, develop applications to transfer and standard RL, and empirically demonstrate its effectiveness over standard GPI on a challenging deep RL continuous control task. We also provide an analysis of GHM training methods, proving a novel convergence result regarding previously proposed methods and showing how to train these models stably in deep RL settings.
翻訳日:2022-06-20 21:19:35 公開日:2022-06-17
# (参考訳) バッチにおける逆例の検出-幾何学的アプローチ

Detecting Adversarial Examples in Batches -- a geometrical approach ( http://arxiv.org/abs/2206.08738v1 )

ライセンス: CC BY-SA 4.0
Danush Kumar Venkatesh and Peter Steinbach(参考訳) 多くのディープラーニング手法がコンピュータビジョンや音声認識アプリケーションにおいて複雑なタスクを解くことに成功した。 それにもかかわらず、これらのモデルの堅牢性は、人間の目には知覚できないが誤った出力決定へと導かれる摂動入力や逆さまの例に対して脆弱であることが判明している。 本研究では,2つの幾何学的指標(密度とカバレッジ)を適応・導入し,非知覚データのバッチにおける逆サンプル検出におけるそれらの利用を評価する。 MNISTとMedMNISTの2つの実世界のバイオメディカルデータセットを用いて、これらの指標を実証研究し、2つの異なる敵攻撃を受けた。 本実験は,両指標が敵対例を検出するための有望な結果を示す。 我々は、彼の研究が、デプロイされた機械学習システムにおけるこれらのメトリクスの使用に関するさらなる研究の基盤となり、敵の例やデータセットシフトのような関連する病理による攻撃の可能性を監視できると考えている。

Many deep learning methods have successfully solved complex tasks in computer vision and speech recognition applications. Nonetheless, the robustness of these models has been found to be vulnerable to perturbed inputs or adversarial examples, which are imperceptible to the human eye, but lead the model to erroneous output decisions. In this study, we adapt and introduce two geometric metrics, density and coverage, and evaluate their use in detecting adversarial samples in batches of unseen data. We empirically study these metrics using MNIST and two real-world biomedical datasets from MedMNIST, subjected to two different adversarial attacks. Our experiments show promising results for both metrics to detect adversarial examples. We believe that his work can lay the ground for further study on these metrics' use in deployed machine learning systems to monitor for possible attacks by adversarial examples or related pathologies such as dataset shift.
翻訳日:2022-06-20 21:18:25 公開日:2022-06-17
# (参考訳) 分布的コントラスト的絡み合いによる公正表現の学習

Learning Fair Representation via Distributional Contrastive Disentanglement ( http://arxiv.org/abs/2206.08743v1 )

ライセンス: CC BY 4.0
Changdae Oh, Heeji Won, Junhyuk So, Taero Kim, Yewon Kim, Hosik Choi, Kyungwoo Song(参考訳) 公平な表現を学ぶことは、公平性を達成するか、機密情報を偏らせるために不可欠である。 既存の研究の多くは、ある不変性を表現に注入する逆表現学習に依存している。 しかし、敵対的学習法は比較的不安定な訓練に苦しむことが知られており、これは表現の公平性と予測性のバランスを損なう可能性がある。 本稿では,分布型コントラスト変分オートエンコーダ (farconvae) による公平表現を学習する新しい手法を提案する。 まず、異なる感度の属性を持つが、同じラベルを持つ観測ペアを構築します。 すると、FarconVAEは各非感受性潜水剤を近接させ、感度潜水剤は互いに遠く、またその分布を対比することで非感受性潜水剤から遠ざかる。 分布的コントラスト学習と理論解析のためのgaussian および student-t カーネルにより動機づけられた新しいタイプのコントラスト損失を提案する。 さらに,新たなスワップリコンストラクションロスを導入して,さらに絡み合いを高めた。 FarconVAEは、公正性、事前訓練されたモデルデバイアス、および表、画像、テキストを含む様々なモードからのドメイン一般化タスクにおいて優れたパフォーマンスを示す。

Learning fair representation is crucial for achieving fairness or debiasing sensitive information. Most existing works rely on adversarial representation learning to inject some invariance into representation. However, adversarial learning methods are known to suffer from relatively unstable training, and this might harm the balance between fairness and predictiveness of representation. We propose a new approach, learning FAir Representation via distributional CONtrastive Variational AutoEncoder (FarconVAE), which induces the latent space to be disentangled into sensitive and nonsensitive parts. We first construct the pair of observations with different sensitive attributes but with the same labels. Then, FarconVAE enforces each non-sensitive latent to be closer, while sensitive latents to be far from each other and also far from the non-sensitive latent by contrasting their distributions. We provide a new type of contrastive loss motivated by Gaussian and Student-t kernels for distributional contrastive learning with theoretical analysis. Besides, we adopt a new swap-reconstruction loss to boost the disentanglement further. FarconVAE shows superior performance on fairness, pretrained model debiasing, and domain generalization tasks from various modalities, including tabular, image, and text.
翻訳日:2022-06-20 21:02:42 公開日:2022-06-17
# (参考訳) テンソル・オン・テンソル回帰:リーマン最適化、過剰パラメータ化、統計計算ギャップ、それらの相互作用

Tensor-on-Tensor Regression: Riemannian Optimization, Over-parameterization, Statistical-computational Gap, and Their Interplay ( http://arxiv.org/abs/2206.08756v1 )

ライセンス: CC BY 4.0
Yuetian Luo and Anru R. Zhang(参考訳) テンソル・オン・テンソル回帰(tensor-on-tensor regression)は、テンソル応答をテンソル共変量とタッカー階数パラメータのテンソル/行列とを、その内在的な階数に関する事前の知識なしで接続することを目的としている。 リーマン勾配降下法(RGD)とリーマンガウスニュートン法(RGN)を提案し、ランクオーバーパラメータ化の効果を研究することによって未知ランクの挑戦に対処する。 rgd と rgn はそれぞれ線形および二次的に収束し, 次数に最適推定値を示すことにより, 一般のテンソル・オン・テンソル回帰に対する最初の収束保証を提供する。 リーマン最適化法は、その実装に修正を加えることなく、自然に過剰パラメータ化に適応する。 また,低次多項式の枠組みの下でのスカラー・オン・テンソル回帰における統計計算的ギャップに対する最初の厳密な証拠を与える。 Our theory demonstrates a ``blessing of statistical-computational gap" phenomenon: in a wide range of scenarios in tensor-on-tensor regression for tensors of order three or higher, the computationally required sample size matches what is needed by moderate rank over-parameterization when considering computationally feasible estimators, while there are no such benefits in the matrix settings. This shows moderate rank over-parameterization is essentially ``cost-free" in terms of sample size in tensor-on-tensor regression of order three or higher. 最後に,提案手法の利点を示すためにシミュレーション研究を行い,理論的な知見を裏付ける。

We study the tensor-on-tensor regression, where the goal is to connect tensor responses to tensor covariates with a low Tucker rank parameter tensor/matrix without the prior knowledge of its intrinsic rank. We propose the Riemannian gradient descent (RGD) and Riemannian Gauss-Newton (RGN) methods and cope with the challenge of unknown rank by studying the effect of rank over-parameterization. We provide the first convergence guarantee for the general tensor-on-tensor regression by showing that RGD and RGN respectively converge linearly and quadratically to a statistically optimal estimate in both rank correctly-parameterized and over-parameterized settings. Our theory reveals an intriguing phenomenon: Riemannian optimization methods naturally adapt to over-parameterization without modifications to their implementation. We also give the first rigorous evidence for the statistical-computational gap in scalar-on-tensor regression under the low-degree polynomials framework. Our theory demonstrates a ``blessing of statistical-computational gap" phenomenon: in a wide range of scenarios in tensor-on-tensor regression for tensors of order three or higher, the computationally required sample size matches what is needed by moderate rank over-parameterization when considering computationally feasible estimators, while there are no such benefits in the matrix settings. This shows moderate rank over-parameterization is essentially ``cost-free" in terms of sample size in tensor-on-tensor regression of order three or higher. Finally, we conduct simulation studies to show the advantages of our proposed methods and to corroborate our theoretical findings.
翻訳日:2022-06-20 20:41:48 公開日:2022-06-17
# (参考訳) 分布自由データのためのリッジ回帰

Beyond Ridge Regression for Distribution-Free Data ( http://arxiv.org/abs/2206.08757v1 )

ライセンス: CC BY 4.0
Koby Bibas and Meir Feder(参考訳) 教師付きバッチ学習では、データに分布仮定を課さない分布自由設定に対するmin-max後悔解として、予測正規化最大可能性(pNML)が提案されている。 しかし、pnmlは超パラメータ線形回帰として大容量仮説クラスでは定義されていない。 大規模なクラスの場合、一般的なアプローチは正規化や事前モデルを使用することである。 min-max の解が正規化最大等式 (NML) であるオンライン予測の文脈では、NML を `luckiness'' で使用することが提案されている。 幸運の概念に動機づけられた線形回帰に対しては、仮説を l2 ノルムに比例する運の関数を組み込む。 これによりリッジ回帰解が導かれる。 関連するpNML(LpNML)予測は、リッジ回帰経験的リスク最小化器(Ridge ERM)から逸脱する: トレーニングデータの経験的相関行列の小さな固有値に対応する部分空間にテストデータが駐在すると、その予測は0。 我々のLpNMLは、PMLB集合のリッジERM誤差を最大20%削減し、UCI集合の最近の先行手法と比較して、分布シフトの存在下では最大4.9%堅牢である。

In supervised batch learning, the predictive normalized maximum likelihood (pNML) has been proposed as the min-max regret solution for the distribution-free setting, where no distributional assumptions are made on the data. However, the pNML is not defined for a large capacity hypothesis class as over-parameterized linear regression. For a large class, a common approach is to use regularization or a model prior. In the context of online prediction where the min-max solution is the Normalized Maximum Likelihood (NML), it has been suggested to use NML with ``luckiness'': A prior-like function is applied to the hypothesis class, which reduces its effective size. Motivated by the luckiness concept, for linear regression we incorporate a luckiness function that penalizes the hypothesis proportionally to its l2 norm. This leads to the ridge regression solution. The associated pNML with luckiness (LpNML) prediction deviates from the ridge regression empirical risk minimizer (Ridge ERM): When the test data reside in the subspace corresponding to the small eigenvalues of the empirical correlation matrix of the training data, the prediction is shifted toward 0. Our LpNML reduces the Ridge ERM error by up to 20% for the PMLB sets, and is up to 4.9% more robust in the presence of distribution shift compared to recent leading methods for UCI sets.
翻訳日:2022-06-20 20:40:24 公開日:2022-06-17
# (参考訳) IPAのC-Pack: 導入プログラミング割り当てのC90プログラムベンチマーク

C-Pack of IPAs: A C90 Program Benchmark of Introductory Programming Assignments ( http://arxiv.org/abs/2206.08768v1 )

ライセンス: CC BY-SA 4.0
Pedro Orvalho and Mikol\'a\v{s} Janota and Vasco Manquinho(参考訳) 大規模なオープン・オンライン・コース(moocs)に参加する学生の数が膨大であるため、導入型プログラミング課題(ipas)に焦点を当てた自動プログラム修復技術が増えている。 このようなテクニックは、学生に自動的、包括的、パーソナライズされたフィードバックを提供するために、以前の正しい学生実装を利用する。 本稿では,25種類のIPAを対象とする学生プログラムのベンチマークであるC-Pack-IPAを提案する。 C-Pack-IPAは、意味的に正しい、意味的に間違っている、構文的に間違っているプログラムと、各IPA用のテストスイートを含んでいる。 したがって、C-Pack-IPAsは、初心者プログラマにフィードバックを提供することに焦点を当てた構文的自動プログラム修復フレームワークと同様に、新しいセマンティクスの開発を評価するのに役立つ。

Due to the vast number of students enrolled in Massive Open Online Courses (MOOCs), there has been an increasing number of automated program repair techniques focused on introductory programming assignments (IPAs). Such techniques take advantage of previous correct student implementations in order to provide automated, comprehensive, and personalized feedback to students. This paper presents C-Pack-IPAs, a publicly available benchmark of students' programs submitted for 25 different IPAs. C-Pack-IPAs contains semantically correct, semantically incorrect, and syntactically incorrect programs plus a test suite for each IPA. Hence, C-Pack-IPAs can be used to help evaluate the development of novel semantic, as well as syntactic, automated program repair frameworks, focused on providing feedback to novice programmers.
翻訳日:2022-06-20 20:26:24 公開日:2022-06-17
# (参考訳) 球状スライスwasserstein

Spherical Sliced-Wasserstein ( http://arxiv.org/abs/2206.08780v1 )

ライセンス: CC BY 4.0
Cl\'ement Bonet, Paul Berg, Nicolas Courty, Fran\c{c}ois Septier, Lucas Drumetz, Minh-Tan Pham(参考訳) ワッサーシュタイン距離の多くの変種が、元の計算負担を減らすために導入された。 特に、ワッサーシュタイン距離の閉形式解が利用できる一次元射影を利用するスライス・ワッサーシュタイン距離(SW)は、多くの関心を集めている。 しかし、これはユークリッド空間に生きるデータに制限されるが、ワッサーシュタイン距離は近年研究され、多様体で使われている。 我々は、球状スライス・ワッサーシュタイン(spherical Sliced-Wasserstein)と呼ばれる新しいSWの相違を定義する球面に特に焦点をあて、多様体上のSWの相違を定義するための第一歩となる。 我々の構成は特に、新しい球面ラドン変換とともに、円上のワッサーシュタイン距離の閉形式解に基づいている。 効率的なアルゴリズムとそれに対応する実装とともに、データの球面表現が問題となるいくつかの機械学習のユースケースでその特性を説明する:球面上の密度推定、変分推論、超球面オートエンコーダ。

Many variants of the Wasserstein distance have been introduced to reduce its original computational burden. In particular the Sliced-Wasserstein distance (SW), which leverages one-dimensional projections for which a closed-form solution of the Wasserstein distance is available, has received a lot of interest. Yet, it is restricted to data living in Euclidean spaces, while the Wasserstein distance has been studied and used recently on manifolds. We focus more specifically on the sphere, for which we define a novel SW discrepancy, which we call spherical Sliced-Wasserstein, making a first step towards defining SW discrepancies on manifolds. Our construction is notably based on closed-form solutions of the Wasserstein distance on the circle, together with a new spherical Radon transform. Along with efficient algorithms and the corresponding implementations, we illustrate its properties in several machine learning use cases where spherical representations of data are at stake: density estimation on the sphere, variational inference or hyperspherical auto-encoders.
翻訳日:2022-06-20 20:20:16 公開日:2022-06-17
# (参考訳) VQ-VAEを用いた音声・音響特徴からの自己教師付き音声単位の検出

Self-supervised speech unit discovery from articulatory and acoustic features using VQ-VAE ( http://arxiv.org/abs/2206.08790v1 )

ライセンス: CC BY 4.0
Marc-Antoine Georges, Jean-Luc Schwartz, Thomas Hueber(参考訳) 人間の知覚システムは、聴覚音声入力を処理する際に、運動知識を雇うとしばしば仮定される。 本研究は, 調音モデルと深層学習を用いて, 音声単位の発見にこの調音情報をいかに活用するかを検討する。 我々はベクトル量子化変分オートエンコーダ(VQ-VAE)を用いて音声・音声データから離散表現を学習した。 ゼロリソースのパラダイムに従って、抽出された表現がどのように音韻的関連のあるプロパティをエンコードするかを調べるためにabxテストが用いられた。 実験は英語とフランス語の3つの異なるコーパスで行われた。 調音情報は,発話の場所という観点からはむしろ潜在表現を整理するのに対し,音声音響では発話の仕方で主に潜在空間を構成できることがわかった。 2つのモダリティの最適融合は、個々のモダリティを個別に考えるよりも、これらの音韻次元の結合表現をより正確に導くことができることを示す。 音声情報は通常,実用的な状況では利用できないため,音声音響から推測した場合のメリットを自己教師ありで検証する。

The human perception system is often assumed to recruit motor knowledge when processing auditory speech inputs. Using articulatory modeling and deep learning, this study examines how this articulatory information can be used for discovering speech units in a self-supervised setting. We used vector-quantized variational autoencoders (VQ-VAE) to learn discrete representations from articulatory and acoustic speech data. In line with the zero-resource paradigm, an ABX test was then used to investigate how the extracted representations encode phonetically relevant properties. Experiments were conducted on three different corpora in English and French. We found that articulatory information rather organises the latent representations in terms of place of articulation whereas the speech acoustics mainly structure the latent space in terms of manner of articulation. We show that an optimal fusion of the two modalities can lead to a joint representation of these phonetic dimensions more accurate than each modality considered individually. Since articulatory information is usually not available in a practical situation, we finally investigate the benefit it provides when inferred from the speech acoustics in a self-supervised manner.
翻訳日:2022-06-20 20:19:10 公開日:2022-06-17
# (参考訳) 流通一般化のための背景情報の重要性

The Importance of Background Information for Out of Distribution Generalization ( http://arxiv.org/abs/2206.08794v1 )

ライセンス: CC0 1.0
Jupinder Parmar, Khaled Saab, Brian Pogatchnik, Daniel Rubin, Christopher R\'e(参考訳) 医用画像分類におけるドメインの一般化は、信頼できる機械学習を医療に展開する上で重要な問題である。 我々は,機能帰属を制御するために接地的異常分節を用いた既存のドメイン一般化手法は,経験的リスク最小化(erm)の標準ベースラインと比較して,アウト・オブ・ディストリビューション(ood)性能に乏しいことを見出した。 画像のどの領域が医用画像分類に重要かを調査し,異常分割に含まれない背景の一部が有用な信号となることを示す。 次に、関連するすべての領域をカバーする新しいタスク特化マスクを開発する。 新しいセグメンテーションマスクを利用することで、OODテストセット上の既存のメソッドのパフォーマンスが大幅に向上する。 ermよりも優れた一般化結果を得るためには,これらのタスク固有のマスクの使用に加えて,トレーニングデータサイズをスケールアップする必要がある。

Domain generalization in medical image classification is an important problem for trustworthy machine learning to be deployed in healthcare. We find that existing approaches for domain generalization which utilize ground-truth abnormality segmentations to control feature attributions have poor out-of-distribution (OOD) performance relative to the standard baseline of empirical risk minimization (ERM). We investigate what regions of an image are important for medical image classification and show that parts of the background, that which is not contained in the abnormality segmentation, provides helpful signal. We then develop a new task-specific mask which covers all relevant regions. Utilizing this new segmentation mask significantly improves the performance of the existing methods on the OOD test sets. To obtain better generalization results than ERM, we find it necessary to scale up the training data size in addition to the usage of these task-specific masks.
翻訳日:2022-06-20 20:07:36 公開日:2022-06-17
# (参考訳) open-sampling: ロングテールデータセットの再バランスのための分散データの探索

Open-Sampling: Exploring Out-of-Distribution data for Re-balancing Long-tailed datasets ( http://arxiv.org/abs/2206.08802v1 )

ライセンス: CC0 1.0
Hongxin Wei, Lue Tao, Renchunzi Xie, Lei Feng, Bo An(参考訳) 深層ニューラルネットワークは通常、トレーニングデータセットが極端なクラス不均衡に苦しむ場合、パフォーマンスが低下する。 最近の研究では、半教師ありの方法で分散データ(すなわちオープンセットサンプル)を直接トレーニングすることは、一般化性能を損なうことを発見した。 本研究では,ベイズ的観点からのマイノリティクラスの拡大に,分配外データが引き続き活用可能であることを理論的に示す。 この動機に基づき,オープンセットノイズラベルを用いてトレーニングデータセットのクラスプリエントを再バランスさせる,open-samplingと呼ばれる新しい手法を提案する。 各オープンセットインスタンスに対して、ラベルは、元のクラス前の分布を補完する事前定義された分布からサンプリングされる。 我々は、オープンサンプリングがクラスプリエントを再バランスさせるだけでなく、ニューラルネットワークが分離可能な表現を学ぶように促すことを実証的に示す。 大規模な実験により,提案手法は既存のデータ再分散手法を著しく上回り,既存の最先端手法の性能向上を図っている。

Deep neural networks usually perform poorly when the training dataset suffers from extreme class imbalance. Recent studies found that directly training with out-of-distribution data (i.e., open-set samples) in a semi-supervised manner would harm the generalization performance. In this work, we theoretically show that out-of-distribution data can still be leveraged to augment the minority classes from a Bayesian perspective. Based on this motivation, we propose a novel method called Open-sampling, which utilizes open-set noisy labels to re-balance the class priors of the training dataset. For each open-set instance, the label is sampled from our pre-defined distribution that is complementary to the distribution of original class priors. We empirically show that Open-sampling not only re-balances the class priors but also encourages the neural network to learn separable representations. Extensive experiments demonstrate that our proposed method significantly outperforms existing data re-balancing methods and can boost the performance of existing state-of-the-art methods.
翻訳日:2022-06-20 19:56:56 公開日:2022-06-17
# (参考訳) Holistic Transformer: 自律走行車の軌道予測と決定処理のためのニューラルネットワーク

Holistic Transformer: A Joint Neural Network for Trajectory Prediction and Decision-Making of Autonomous Vehicles ( http://arxiv.org/abs/2206.08809v1 )

ライセンス: CC BY 4.0
Hongyu Hu, Qi Wang, Zhengguang Zhang, Zhengyi Li, Zhenhai Gao(参考訳) 軌道予測と行動決定は、軌道予測のアウトプットを参照することで行動決定がより良くなるように、環境文脈をよく理解する必要がある自動運転車にとって2つの重要なタスクである。 しかし、現在のほとんどのソリューションはこれらの2つのタスクを別々に実行する。 そこで,複数の手がかりを組み合わせたジョイントニューラルネットワークを提案し,軌跡予測と行動決定を同時に行うための包括的トランスフォーマと呼ばれる。 ネットワークは既存の知識を用いて,ノイズの影響を低減させるスパースマルチヘッド型,部分的事前知識を最適に活用するための特徴選択スパース型,後部知識を最適に活用するためのシグミドアクティベーション型を用いたマルチヘッドの3種類の注意機構を採用している。 他の軌道予測モデルと比較して,提案モデルの方が総合的な性能と解釈性が良好である。 知覚的雑音ロバスト性実験は,提案モデルが雑音ロバスト性を有することを示す。 このように、複数の手がかりを組み合わせた同時軌跡予測と行動決定は、計算コストを低減し、シーンとエージェント間の意味的関係を高めることができる。

Trajectory prediction and behavioral decision-making are two important tasks for autonomous vehicles that require good understanding of the environmental context; behavioral decisions are better made by referring to the outputs of trajectory predictions. However, most current solutions perform these two tasks separately. Therefore, a joint neural network that combines multiple cues is proposed and named as the holistic transformer to predict trajectories and make behavioral decisions simultaneously. To better explore the intrinsic relationships between cues, the network uses existing knowledge and adopts three kinds of attention mechanisms: the sparse multi-head type for reducing noise impact, feature selection sparse type for optimally using partial prior knowledge, and multi-head with sigmoid activation type for optimally using posteriori knowledge. Compared with other trajectory prediction models, the proposed model has better comprehensive performance and good interpretability. Perceptual noise robustness experiments demonstrate that the proposed model has good noise robustness. Thus, simultaneous trajectory prediction and behavioral decision-making combining multiple cues can reduce computational costs and enhance semantic relationships between scenes and agents.
翻訳日:2022-06-20 19:31:10 公開日:2022-06-17
# (参考訳) FedNew:フェデレーション学習のためのコミュニケーション効率とプライバシ保護のためのニュートン方式

FedNew: A Communication-Efficient and Privacy-Preserving Newton-Type Method for Federated Learning ( http://arxiv.org/abs/2206.08829v1 )

ライセンス: CC BY 4.0
Anis Elgabli and Chaouki Ben Issaid and Amrit S. Bedi and Ketan Rajawat and Mehdi Bennis and Vaneet Aggarwal(参考訳) ニュートン型法は、高速な収束のため、連合学習で人気がある。 それでも、クライアントからパラメータサーバ(PS)にヘッセン情報を送信する必要があるため、通信効率の低下とプライバシーの低下という2つの大きな問題に悩まされている。 本研究では,クライアントからpsへhessian情報を送信する必要がなく,通信効率を向上させるためにボトルネックを解消するfeednewという新しいフレームワークを導入した。 さらに、FedNewは勾配情報を隠蔽し、既存の最先端技術と比べてプライバシー保護のアプローチをもたらす。 FedNewの中核的なアイデアは、2段階のフレームワークを導入し、1つの交互方向の乗算器(ADMM)ステップのみを用いて逆ヘッセン勾配の製品を更新し、ニュートンの手法でグローバルモデル更新を実行することである。 逆 Hessian-gradient 積を各繰り返しで近似するために1つの ADMM パスしか使われていないが、凸問題に対するFedNew の収束挙動を示す新しい理論的アプローチを開発する。 さらに,確率的量子化を利用して通信オーバーヘッドを大幅に低減する。 実データを用いた数値計算の結果,FedNewは通信コストの面で既存の手法よりも優れていることがわかった。

Newton-type methods are popular in federated learning due to their fast convergence. Still, they suffer from two main issues, namely: low communication efficiency and low privacy due to the requirement of sending Hessian information from clients to parameter server (PS). In this work, we introduced a novel framework called FedNew in which there is no need to transmit Hessian information from clients to PS, hence resolving the bottleneck to improve communication efficiency. In addition, FedNew hides the gradient information and results in a privacy-preserving approach compared to the existing state-of-the-art. The core novel idea in FedNew is to introduce a two level framework, and alternate between updating the inverse Hessian-gradient product using only one alternating direction method of multipliers (ADMM) step and then performing the global model update using Newton's method. Though only one ADMM pass is used to approximate the inverse Hessian-gradient product at each iteration, we develop a novel theoretical approach to show the converging behavior of FedNew for convex problems. Additionally, a significant reduction in communication overhead is achieved by utilizing stochastic quantization. Numerical results using real datasets show the superiority of FedNew compared to existing methods in terms of communication costs.
翻訳日:2022-06-20 19:11:56 公開日:2022-06-17
# (参考訳) 日射予測のための空間的および時間的埋め込みに基づく太陽放射予測

Prediction of Solar Radiation Based on Spatial and Temporal Embeddings for Solar Generation Forecast ( http://arxiv.org/abs/2206.08832v1 )

ライセンス: CC BY-SA 4.0
Mohammad Alqudah, Tatjana Dokic, Mladen Kezunovic, Zoran Obradovic(参考訳) 気象データを用いたリアルタイム太陽発生予測のための新しい手法を提案する。 時間とともに観測されたネットワークは、予測段階で天気予報を行う間、様々な気象測定を用いて構造化回帰モデルを訓練する低次元表現に投影される。 実験は、サンアントニオのTXエリアの288箇所で実施され、国立太陽放射データベースから得られた。 このモデルは太陽の光を精度良く予測する(夏はR2 0.91、冬は0.85、世界モデルは0.89)。 最良の精度はランダム森林局が取得した。 複数の実験により、新しいアルゴリズムは、ランダムなデータだけでなく、そのメカニズムが空間的、時間的にも完全に欠落するデータに対して堅牢であることを示す証拠となる、欠落データや異なる時間的地平の影響を特徴づける。

A novel method for real-time solar generation forecast using weather data, while exploiting both spatial and temporal structural dependencies is proposed. The network observed over time is projected to a lower-dimensional representation where a variety of weather measurements are used to train a structured regression model while weather forecast is used at the inference stage. Experiments were conducted at 288 locations in the San Antonio, TX area on obtained from the National Solar Radiation Database. The model predicts solar irradiance with a good accuracy (R2 0.91 for the summer, 0.85 for the winter, and 0.89 for the global model). The best accuracy was obtained by the Random Forest Regressor. Multiple experiments were conducted to characterize influence of missing data and different time horizons providing evidence that the new algorithm is robust for data missing not only completely at random but also when the mechanism is spatial, and temporal.
翻訳日:2022-06-20 18:46:12 公開日:2022-06-17
# (参考訳) ディープネットの分散適応クラスタリングはクライアントコラボレーションに有用である

Decentralized adaptive clustering of deep nets is beneficial for client collaboration ( http://arxiv.org/abs/2206.08839v1 )

ライセンス: CC BY 4.0
Edvin Listo Zec, Ebba Ekblom, Martin Willbo, Olof Mogren and Sarunas Girdzijauskas(参考訳) 本研究では,分散ピアツーピア環境における個別の深層学習モデルの学習課題について検討し,各クライアント間のデータ分散の相違点と,各クライアントのローカルな学習タスクの相違点に着目した。 我々は共変量とラベルシフトの両方について検討し、各クライアントがローカルタスクの類似度推定に基づいて有益な協調関係を求めるアルゴリズムである。 提案手法は,クライアントクラスタ数などの推定が難しいハイパーパラメータに依存しず,新しい適応型ゴシップアルゴリズムに基づくソフトクラスタ割り当てを用いてネットワークトポロジに継続的に適応する。 提案手法は,クライアント間でデータを独立に,同一に分散しない様々な環境で検証する。 実験により,提案手法は従来の最先端アルゴリズムよりも優れた性能を示し,従来の手法が失敗する状況に対処する。

We study the problem of training personalized deep learning models in a decentralized peer-to-peer setting, focusing on the setting where data distributions differ between the clients and where different clients have different local learning tasks. We study both covariate and label shift, and our contribution is an algorithm which for each client finds beneficial collaborations based on a similarity estimate for the local task. Our method does not rely on hyperparameters which are hard to estimate, such as the number of client clusters, but rather continuously adapts to the network topology using soft cluster assignment based on a novel adaptive gossip algorithm. We test the proposed method in various settings where data is not independent and identically distributed among the clients. The experimental evaluation shows that the proposed method performs better than previous state-of-the-art algorithms for this problem setting, and handles situations well where previous methods fail.
翻訳日:2022-06-20 18:34:42 公開日:2022-06-17
# (参考訳) エンティティグラフによるインスタンスレベルの製品検索のためのクロスモーダル事前トレーニング

Entity-Graph Enhanced Cross-Modal Pretraining for Instance-level Product Retrieval ( http://arxiv.org/abs/2206.08842v1 )

ライセンス: CC BY 4.0
Xiao Dong, Xunlin Zhan, Yunchao Wei, Xiaoyong Wei, Yaowei Wang, Minlong Lu, Xiaochun Cao, Xiaodan Liang(参考訳) 本研究の目的は、より現実的な環境において、細粒度製品カテゴリに対する弱制御マルチモーダル・インスタンスレベルの製品検索を可能にすることである。 まず、product1mデータセットを投稿し、2つの現実的なインスタンスレベルの検索タスクを定義し、価格比較とパーソナライズドレコメンデーションの評価を可能にします。 どちらの場合も、視覚言語データで言及されている製品ターゲットを正確に特定し、無関係な内容の影響を効果的に低減する方法は非常に難しい。 本研究では、ノードとエッジがそれぞれエンティティを表すエンティティグラフとエンティティ間の類似性関係を用いて、マルチモーダルデータからキー概念情報を適応的に組み込むことのできる、より効果的なクロスモーダル関連モデルの訓練を行う。 具体的には,自己教師付きハイブリッドストリームトランスフォーマーによって,ノードベースとサブグラフベースの両方の方法でエンティティ知識をマルチモーダルネットワークに明示的に注入し,異なるオブジェクトコンテンツ間の混乱を低減し,ネットワークを実際の意味を持つエンティティに集中させる,新たなエンティティグラフ強化クロスモーダルプリトレーニング(ege-cmp)モデルを提案する。 EGE-CMPはCLIP, UNITER, CAPTUREなどのSOTAクロスモーダルベースラインより優れており, 有効性と一般化性は良好であった。

Our goal in this research is to study a more realistic environment in which we can conduct weakly-supervised multi-modal instance-level product retrieval for fine-grained product categories. We first contribute the Product1M datasets, and define two real practical instance-level retrieval tasks to enable the evaluations on the price comparison and personalized recommendations. For both instance-level tasks, how to accurately pinpoint the product target mentioned in the visual-linguistic data and effectively decrease the influence of irrelevant contents is quite challenging. To address this, we exploit to train a more effective cross-modal pertaining model which is adaptively capable of incorporating key concept information from the multi-modal data, by using an entity graph whose node and edge respectively denote the entity and the similarity relation between entities. Specifically, a novel Entity-Graph Enhanced Cross-Modal Pretraining (EGE-CMP) model is proposed for instance-level commodity retrieval, that explicitly injects entity knowledge in both node-based and subgraph-based ways into the multi-modal networks via a self-supervised hybrid-stream transformer, which could reduce the confusion between different object contents, thereby effectively guiding the network to focus on entities with real semantic. Experimental results well verify the efficacy and generalizability of our EGE-CMP, outperforming several SOTA cross-modal baselines like CLIP, UNITER and CAPTURE.
翻訳日:2022-06-20 18:24:42 公開日:2022-06-17
# (参考訳) SMPL : 産業生産のシミュレーションとプロセス制御学習環境

SMPL: Simulated Industrial Manufacturing and Process Control Learning Environments ( http://arxiv.org/abs/2206.08851v1 )

ライセンス: CC BY 4.0
Mohan Zhang, Xiaozhou Wang, Benjamin Decardi-Nelson, Bo Song, An Zhang, Jinfeng Liu, Sile Tao, Jiayi Cheng, Xiaohong Liu, DengDeng Yu, Matthew Poon, Animesh Garg(参考訳) 伝統的な生物および薬品製造工場は、人間の労働者または事前に定義された閾値によって制御されている。 近代化工場はモデル予測制御(mpc)のような高度なプロセス制御アルゴリズムを備えている。 しかし、製造プラントの制御に深層強化学習を適用することはほとんどない。 その理由の1つは、高忠実度シミュレーションとベンチマークのための標準APIの欠如である。 このギャップを埋めるために,BeerFMTEnv,ReactorEnv,AtropineEnv,PenSimEnv,mAbEnvの5つの高忠実性シミュレーション環境を含む,使い易いライブラリを開発した。 公開されたダイナミクスモデル上でこれらの環境を構築します。 さらに、オンラインおよびオフライン、モデルベースおよびモデルフリー強化学習アルゴリズムをフォローアップ研究の比較のためにベンチマークする。

Traditional biological and pharmaceutical manufacturing plants are controlled by human workers or pre-defined thresholds. Modernized factories have advanced process control algorithms such as model predictive control (MPC). However, there is little exploration of applying deep reinforcement learning to control manufacturing plants. One of the reasons is the lack of high fidelity simulations and standard APIs for benchmarking. To bridge this gap, we develop an easy-to-use library that includes five high-fidelity simulation environments: BeerFMTEnv, ReactorEnv, AtropineEnv, PenSimEnv and mAbEnv, which cover a wide range of manufacturing processes. We build these environments on published dynamics models. Furthermore, we benchmark online and offline, model-based and model-free reinforcement learning algorithms for comparisons of follow-up research.
翻訳日:2022-06-20 17:32:21 公開日:2022-06-17
# (参考訳) 制約エッジノード上のDNN推論のためのチャネルワイド混合精度アサインメント

Channel-wise Mixed-precision Assignment for DNN Inference on Constrained Edge Nodes ( http://arxiv.org/abs/2206.08852v1 )

ライセンス: CC BY-SA 4.0
Matteo Risso, Alessio Burrello, Luca Benini, Enrico Macii, Massimo Poncino, Daniele Jahier Pagliari(参考訳) 量子化は、ディープニューラルネットワークのメモリ占有、レイテンシ、エネルギー消費を減らすために、クラウドとエッジシステムの両方で広く利用されている。 特に,ニューラルネットワーク探索(automated neural architecture search:nas)ツールによって決定される最適化されたビット幅割り当てにおいて,ネットワークの異なる部分に対する異なるビット幅の使用が,精度低下の少ない優れた効率向上をもたらすことが示されている。 最先端の混合精度は階層的に作用する、すなわち、各ネットワーク層の重みとアクティベーションのテンソルに異なるビット幅を使用する。 本研究では,各重みテンソルチャネルのビット幅を独立に選択する新しいNASを提案する。 これにより、最も情報性の高い機能に関連する重みにのみ高い精度を割り当てる、さらなる柔軟性が得られる。 MLPerf Tinyベンチマークスイートを用いて、精度対モデルサイズと精度対エネルギー空間におけるパレート最適モデルの豊富なコレクションを得る。 mpic risc-v edgeプロセッサにデプロイすると、ネットワークは同じ精度で、層別アプローチと比較して、推論のメモリとエネルギーを最大63%と27%削減します。

Quantization is widely employed in both cloud and edge systems to reduce the memory occupation, latency, and energy consumption of deep neural networks. In particular, mixed-precision quantization, i.e., the use of different bit-widths for different portions of the network, has been shown to provide excellent efficiency gains with limited accuracy drops, especially with optimized bit-width assignments determined by automated Neural Architecture Search (NAS) tools. State-of-the-art mixed-precision works layer-wise, i.e., it uses different bit-widths for the weights and activations tensors of each network layer. In this work, we widen the search space, proposing a novel NAS that selects the bit-width of each weight tensor channel independently. This gives the tool the additional flexibility of assigning a higher precision only to the weights associated with the most informative features. Testing on the MLPerf Tiny benchmark suite, we obtain a rich collection of Pareto-optimal models in the accuracy vs model size and accuracy vs energy spaces. When deployed on the MPIC RISC-V edge processor, our networks reduce the memory and energy for inference by up to 63% and 27% respectively compared to a layer-wise approach, for the same accuracy.
翻訳日:2022-06-20 17:02:38 公開日:2022-06-17
# (参考訳) 多エージェント強化学習のための論理に基づく逆整形

Logic-based Reward Shaping for Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2206.08881v1 )

ライセンス: CC BY 4.0
Ingy ElSayed-Aly and Lu Feng(参考訳) 強化学習(RL)は、その環境から学び、観察された報酬を最大化する探索に大きく依存する。 したがって、受け取った経験から最適な学習を保証する報奨機能を設計することが不可欠である。 これまでの研究では、automattaとlogic based reward shapingを環境仮定と組み合わせて、タスクに基づいた報酬関数を合成する自動メカニズムを提供してきた。 しかし,MARL(Multi-Agent Reinforcement Learning)へのロジックベースの報酬形成の展開には限界がある。 タスクが協力を必要とする場合、他のエージェントを追跡するために、環境が協調状態を考慮する必要があるため、エージェントの数に関して次元の呪いに苦しむことになる。 このプロジェクトでは、さまざまなシナリオとタスクのために、marlのロジックベースの報酬形成がどのように設計できるかを探求する。 本稿では,エージェント数でスケーラブルな半分散論理ベースのMARL報酬生成手法を提案し,複数のシナリオで評価する。

Reinforcement learning (RL) relies heavily on exploration to learn from its environment and maximize observed rewards. Therefore, it is essential to design a reward function that guarantees optimal learning from the received experience. Previous work has combined automata and logic based reward shaping with environment assumptions to provide an automatic mechanism to synthesize the reward function based on the task. However, there is limited work on how to expand logic-based reward shaping to Multi-Agent Reinforcement Learning (MARL). The environment will need to consider the joint state in order to keep track of other agents if the task requires cooperation, thus suffering from the curse of dimensionality with respect to the number of agents. This project explores how logic-based reward shaping for MARL can be designed for different scenarios and tasks. We present a novel method for semi-centralized logic-based MARL reward shaping that is scalable in the number of agents and evaluate it in multiple scenarios.
翻訳日:2022-06-20 16:48:42 公開日:2022-06-17
# (参考訳) ベクトル通信ネットワークにおけるエッジ支援センサデータ共有

Edge-Aided Sensor Data Sharing in Vehicular Communication Networks ( http://arxiv.org/abs/2206.08882v1 )

ライセンス: CC BY 4.0
Rui Song, Anupama Hegde, Numan Senel, Alois Knoll, Andreas Festag(参考訳) 車両網におけるセンサデータ共有は、自動車の環境知覚の範囲と精度を大幅に向上させることができる。 センサデータの拡散と融合のための異なる概念とスキームが開発されている。 これらのスキームでは,センサの誤差測定が知覚品質を損なうことがあり,道路交通事故の原因となる可能性がある。 具体的には、センサ(測定ノイズとも呼ばれる)からの計測誤差が不明で時間が異なる場合には、データ融合プロセスの性能が制限され、センサの校正における大きな課題となる。 本稿では,車両間通信と車両間通信の両方を備えた車両間ネットワークにおけるセンサデータ共有と融合について検討する。 本稿では、エッジサーバが車両からセンサ計測データを収集・キャッシュするBidirectional Feedback Noise Estimation (BiFNoE) 手法を提案する。 エッジは、ダブルダイナミックなスライディング時間窓において、ノイズとターゲットを交互に推定し、低通信コストで各車両の分散協調環境を検知する。 本研究では,アプリケーションシナリオにおけるアルゴリズムとデータ拡散戦略をシミュレーションにより評価し,12kbpsのアップリンクと28kbpsのダウンリンク帯域で,知覚精度が平均80%向上していることを示す。

Sensor data sharing in vehicular networks can significantly improve the range and accuracy of environmental perception for connected automated vehicles. Different concepts and schemes for dissemination and fusion of sensor data have been developed. It is common to these schemes that measurement errors of the sensors impair the perception quality and can result in road traffic accidents. Specifically, when the measurement error from the sensors (also referred as measurement noise) is unknown and time varying, the performance of the data fusion process is restricted, which represents a major challenge in the calibration of sensors. In this paper, we consider sensor data sharing and fusion in a vehicular network with both, vehicle-to-infrastructure and vehicle-to-vehicle communication. We propose a method, named Bidirectional Feedback Noise Estimation (BiFNoE), in which an edge server collects and caches sensor measurement data from vehicles. The edge estimates the noise and the targets alternately in double dynamic sliding time windows and enhances the distributed cooperative environment sensing at each vehicle with low communication costs. We evaluate the proposed algorithm and data dissemination strategy in an application scenario by simulation and show that the perception accuracy is on average improved by around 80 % with only 12 kbps uplink and 28 kbps downlink bandwidth.
翻訳日:2022-06-20 16:32:43 公開日:2022-06-17
# (参考訳) 大規模市民科学データセットへの多種多様な占有モデルのスケーリング

Scaling multi-species occupancy models to large citizen science datasets ( http://arxiv.org/abs/2206.08894v1 )

ライセンス: CC BY 4.0
Martin Ingram, Damjan Vukcevic, Nick Golding(参考訳) 市民科学データセットは非常に大きく、種分布モデリングを改善することを約束できるが、検出は不完全であり、モデルに適合する際のバイアスを負う。 特に、観測者は実際に存在する種を検出できない。 活動モデルは、この観察過程に対して推定と修正が可能であり、多種占有モデルは、観察過程における類似性を利用して、希少種の推定を改善することができる。 しかし、これらのモデルに適合するために現在使われている計算方法は、大規模なデータセットにスケールしない。 近似ベイズ推定法を開発し,グラフィック処理ユニット(gpu)を用いて,大規模市民科学データに対する多種多様な占有モデルの拡張を行う。 我々は,430種の鳥類からなる186,811のチェックリスト記録からなるeBirdプロジェクトから得られた1ヶ月のデータに,多種占有モデルを適用した。 59,338レコードの空間的に分離されたテストセット上での予測を評価し,マルコフ連鎖モンテカルロ (mcmc) と変分推論 (vi) の2つの異なる推定法と,各種に適応する占有率モデルを比較した。 VIを用いてデータセット全体にモデルを配置し、MCMCで最大32,000レコードを記録しました。 vi データセット全体のパフォーマンスは auc (90.4% 対 88.7%) と log likelihood (-0.080 対 -0.085) の両方において,single-species モデルよりも優れていた。 また,モデルが予測する範囲マップがエキスパートマップとどのように一致しているかを評価する。 検出プロセスのモデル化によって合意が大幅に改善され,得られたマップは,高品質なサーベイデータから推定したような専門家マップと密接に一致していることがわかった。 以上の結果から,多種間占有モデルは,大規模市民科学データセットをモデル化するための説得力のあるアプローチであり,観察過程を考慮すれば,種分布を正確にモデル化できることを示した。

Citizen science datasets can be very large and promise to improve species distribution modelling, but detection is imperfect, risking bias when fitting models. In particular, observers may not detect species that are actually present. Occupancy models can estimate and correct for this observation process, and multi-species occupancy models exploit similarities in the observation process, which can improve estimates for rare species. However, the computational methods currently used to fit these models do not scale to large datasets. We develop approximate Bayesian inference methods and use graphics processing units (GPUs) to scale multi-species occupancy models to very large citizen science data. We fit multi-species occupancy models to one month of data from the eBird project consisting of 186,811 checklist records comprising 430 bird species. We evaluate the predictions on a spatially separated test set of 59,338 records, comparing two different inference methods -- Markov chain Monte Carlo (MCMC) and variational inference (VI) -- to occupancy models fitted to each species separately using maximum likelihood. We fitted models to the entire dataset using VI, and up to 32,000 records with MCMC. VI fitted to the entire dataset performed best, outperforming single-species models on both AUC (90.4% compared to 88.7%) and on log likelihood (-0.080 compared to -0.085). We also evaluate how well range maps predicted by the model agree with expert maps. We find that modelling the detection process greatly improves agreement and that the resulting maps agree as closely with expert maps as ones estimated using high quality survey data. Our results demonstrate that multi-species occupancy models are a compelling approach to model large citizen science datasets, and that, once the observation process is taken into account, they can model species distributions accurately.
翻訳日:2022-06-20 16:16:42 公開日:2022-06-17
# (参考訳) 一般的な決定木アルゴリズムはノイズに耐性がある

Popular decision tree algorithms are provably noise tolerant ( http://arxiv.org/abs/2206.08899v1 )

ライセンス: CC BY 4.0
Guy Blanc, Jane Lange, Ali Malik, Li-Yang Tan(参考訳) ブースティングの枠組みを用いて,古典的なID3,C4.5,CARTを含む不純物に基づく決定木学習アルゴリズムが耐雑音性が高いことを示す。 提案手法は,高音質雑音の最大雑音モデルに準拠し,許容雑音率の上限値と下限値とをほぼ一致させる。 さらに、これらのアルゴリズムは、日常的な機械学習の中心であり、決定木学習に関する理論的文献において、既存のアルゴリズムに適合しないノイズのある環境で、証明可能な保証を享受していることを示す。 同時に,本研究は,これらの実践的決定木アルゴリズムの実証的な成功を確固とした理論的足場に据えるための一連の研究を継続する。

Using the framework of boosting, we prove that all impurity-based decision tree learning algorithms, including the classic ID3, C4.5, and CART, are highly noise tolerant. Our guarantees hold under the strongest noise model of nasty noise, and we provide near-matching upper and lower bounds on the allowable noise rate. We further show that these algorithms, which are simple and have long been central to everyday machine learning, enjoy provable guarantees in the noisy setting that are unmatched by existing algorithms in the theoretical literature on decision tree learning. Taken together, our results add to an ongoing line of research that seeks to place the empirical success of these practical decision tree algorithms on firm theoretical footing.
翻訳日:2022-06-20 16:15:30 公開日:2022-06-17
# 最適外向き二成分結合サドル点最適化

Optimal Extragradient-Based Bilinearly-Coupled Saddle-Point Optimization ( http://arxiv.org/abs/2206.08573v1 )

ライセンス: Link先を確認
Simon S. Du, Gauthier Gidel, Michael I. Jordan, Chris Junchi Li(参考訳) 滑らかな凸凸凸双線型共役saddle-point問題、$\min_{\mathbf{x}}\max_{\mathbf{y}}~f(\mathbf{x}) + h(\mathbf{x},\mathbf{y}) - g(\mathbf{y})$ を考える。 変分不等式に対する標準確率的超次数解析に基づいて,一般の確率的設定において,超次数とネステロフの加速度を結合した確率的昇降アルゴリズムを提案する。 このアルゴリズムは、スケジュールされた再起動を利用して、既知の下界と対応する設定で一致するような細粒度の漸近収束率を許容し、また、一定の事前因子に最適化された有界確率雑音に対するさらなる統計誤差項を付与する。 これは、鞍点最適化における最適性の比較的成熟したキャラクタリゼーションを達成する最初の結果である。

We consider the smooth convex-concave bilinearly-coupled saddle-point problem, $\min_{\mathbf{x}}\max_{\mathbf{y}}~F(\mathbf{x}) + H(\mathbf{x},\mathbf{y}) - G(\mathbf{y})$, where one has access to stochastic first-order oracles for $F$, $G$ as well as the bilinear coupling function $H$. Building upon standard stochastic extragradient analysis for variational inequalities, we present a stochastic \emph{accelerated gradient-extragradient (AG-EG)} descent-ascent algorithm that combines extragradient and Nesterov's acceleration in general stochastic settings. This algorithm leverages scheduled restarting to admit a fine-grained nonasymptotic convergence rate that matches known lower bounds by both \citet{ibrahim2020linear} and \citet{zhang2021lower} in their corresponding settings, plus an additional statistical error term for bounded stochastic noise that is optimal up to a constant prefactor. This is the first result that achieves such a relatively mature characterization of optimality in saddle-point optimization.
翻訳日:2022-06-20 15:48:02 公開日:2022-06-17
# 勾配に基づくメタ解法による数値計算の高速化

Accelerating numerical methods by gradient-based meta-solving ( http://arxiv.org/abs/2206.08594v1 )

ライセンス: Link先を確認
Sohei Arisaka, Qianxiao Li(参考訳) 科学や工学の応用では、しばしば同様の計算問題を何度も解く必要がある。 このような場合、以前に解決した問題インスタンスのデータを利用して、後続のソリューションを見つける効率を向上させることができる。 これは機械学習(特にメタラーニング)と科学計算を組み合わせるユニークな機会を提供する。 これまで、文献に様々なドメイン固有の手法が提案されてきたが、これらの手法を設計するための汎用的アプローチは未検討のままである。 本稿では,これらの問題を記述するための一般的な枠組みを定式化し,それらを統一的に解くための勾配アルゴリズムを提案する。 このアプローチの例証として、微分方程式の解を高速化する反復解法に対するパラメータの適応生成について考察する。 本手法の性能と汎用性を理論的解析と数値実験により実証し,非圧縮流シミュレーションとパラメータ推定の逆問題への応用を行った。

In science and engineering applications, it is often required to solve similar computational problems repeatedly. In such cases, we can utilize the data from previously solved problem instances to improve the efficiency of finding subsequent solutions. This offers a unique opportunity to combine machine learning (in particular, meta-learning) and scientific computing. To date, a variety of such domain-specific methods have been proposed in the literature, but a generic approach for designing these methods remains under-explored. In this paper, we tackle this issue by formulating a general framework to describe these problems, and propose a gradient-based algorithm to solve them in a unified way. As an illustration of this approach, we study the adaptive generation of parameters for iterative solvers to accelerate the solution of differential equations. We demonstrate the performance and versatility of our method through theoretical analysis and numerical experiments, including applications to incompressible flow simulations and an inverse problem of parameter estimation.
翻訳日:2022-06-20 15:47:34 公開日:2022-06-17
# RECAPP: より効率的なコンベックス最適化触媒の開発

RECAPP: Crafting a More Efficient Catalyst for Convex Optimization ( http://arxiv.org/abs/2206.08627v1 )

ライセンス: Link先を確認
Yair Carmon, Arun Jambulapati, Yujia Jin, Aaron Sidford(参考訳) 加速近点アルゴリズム (appa) は「触媒」としても知られ、凸最適化から近似近点計算(つまり正規化最小化)への確立された還元である。 この還元は概念的にはエレガントであり、強い収束率を保証する。 しかしながら、これらの速度は、各近位点を高い精度で計算する必要から生じる対数項が特徴である。 本稿では, 高精度なサブプロブレム解の必要性を解消する新しいRelaxed Error Criterion for Accelerated Proximal Point (RECAPP)を提案する。 有限サムと最大構造最小化という2つの標準問題にRECAPPを適用する。 有限サム問題の場合、我々は最もよく知られた複雑性にマッチする。 ここで$f$が$x$で凸であり、$y$で強凹である$\max_y f(x,y)$を最小化するために、対数係数によって縛られる最もよく知られた(触媒ベースの)ものを改善する。

The accelerated proximal point algorithm (APPA), also known as "Catalyst", is a well-established reduction from convex optimization to approximate proximal point computation (i.e., regularized minimization). This reduction is conceptually elegant and yields strong convergence rate guarantees. However, these rates feature an extraneous logarithmic term arising from the need to compute each proximal point to high accuracy. In this work, we propose a novel Relaxed Error Criterion for Accelerated Proximal Point (RECAPP) that eliminates the need for high accuracy subproblem solutions. We apply RECAPP to two canonical problems: finite-sum and max-structured minimization. For finite-sum problems, we match the best known complexity, previously obtained by carefully-designed problem-specific algorithms. For minimizing $\max_y f(x,y)$ where $f$ is convex in $x$ and strongly-concave in $y$, we improve on the best known (Catalyst-based) bound by a logarithmic factor.
翻訳日:2022-06-20 15:47:19 公開日:2022-06-17
# 階層的分離木によるスケーラブルな微分プライベートクラスタリング

Scalable Differentially Private Clustering via Hierarchically Separated Trees ( http://arxiv.org/abs/2206.08646v1 )

ライセンス: Link先を確認
Vincent Cohen-Addad, Alessandro Epasto, Silvio Lattanzi, Vahab Mirrokni, Andres Munoz, David Saulpic, Chris Schwiegelshohn, Sergei Vassilvitskii(参考訳) 我々は、次元ユークリッド空間におけるプライベートな$k$-medianおよび$k$-meansクラスタリング問題を研究する。 ツリー埋め込みを利用することで、効率的で実装が容易なアルゴリズムを提供し、そのアルゴリズムは最先端の非プライベートメソッドと実証的に競合する。 提案手法は,最大で$O(d^{3/2}\log n)\cdot OPT + O(k d^2 \log^2 n / \epsilon^2)$で解を計算する。 (次元項 $d$ は標準次元還元法を用いて $o(\log k)$ に置き換えることができる。 ) 最悪の場合の保証は最先端のプライベートクラスタリング手法よりも悪いが、我々が提案するアルゴリズムは実用的であり、ほぼ線形で$\tilde{o}(nkd)$、時間とスケールで数千万ポイントまで動作している。 また,本手法は大規模分散コンピューティング環境での並列化に適していることを示す。 特に、我々のプライベートアルゴリズムは、サブ線形メモリシステムにおけるMPCラウンドの対数で実装可能であることを示す。 最後に、我々の理論解析を、他のプライバシクラスタリングベースラインと比較してアルゴリズムの効率と精度を示す経験的評価で補完する。

We study the private $k$-median and $k$-means clustering problem in $d$ dimensional Euclidean space. By leveraging tree embeddings, we give an efficient and easy to implement algorithm, that is empirically competitive with state of the art non private methods. We prove that our method computes a solution with cost at most $O(d^{3/2}\log n)\cdot OPT + O(k d^2 \log^2 n / \epsilon^2)$, where $\epsilon$ is the privacy guarantee. (The dimension term, $d$, can be replaced with $O(\log k)$ using standard dimension reduction techniques.) Although the worst-case guarantee is worse than that of state of the art private clustering methods, the algorithm we propose is practical, runs in near-linear, $\tilde{O}(nkd)$, time and scales to tens of millions of points. We also show that our method is amenable to parallelization in large-scale distributed computing environments. In particular we show that our private algorithms can be implemented in logarithmic number of MPC rounds in the sublinear memory regime. Finally, we complement our theoretical analysis with an empirical evaluation demonstrating the algorithm's efficiency and accuracy in comparison to other privacy clustering baselines.
翻訳日:2022-06-20 15:46:58 公開日:2022-06-17
# 接続ラプラシアンを用いたせん断ニューラルネットワーク

Sheaf Neural Networks with Connection Laplacians ( http://arxiv.org/abs/2206.08702v1 )

ライセンス: Link先を確認
Federico Barbero, Cristian Bodnar, Haitz S\'aez de Oc\'ariz Borde, Michael Bronstein, Petar Veli\v{c}kovi\'c, Pietro Li\`o(参考訳) シーフニューラルネットワーク(英: Sheaf Neural Network、略称:SNN)は、グラフニューラルネットワークの一種で、グラフにそのノードとエッジにベクトル空間とそれらの空間の間の線形写像を割り当てるオブジェクトである。 SNNはヘテロフィリーや過剰なスムーシングから生じる問題に対処する上で有用な理論的特性を持っていることが示されている。 これらのモデルに固有の複雑さの1つは、解決すべきタスクに適した層を見つけることである。 それまでの研究では、ドメイン知識に基づいたシーフを手作業で構築することと、勾配に基づく手法によるシーフエンドツーエンドの学習という2つのダイメトリックなアプローチが提案されていた。 しかし、ドメインの知識はしばしば不十分であるが、層を学習すると過剰フィッティングとかなりの計算オーバーヘッドにつながる可能性がある。 本研究では、リーマン幾何学から着想を得た新しい計算方法を提案する: 多様体の仮定を利用して、近傍のデータ点の接空間を最適に整列する多様体およびグラフ対応直交写像を計算する。 提案手法は,従来のSNNモデルと比較して計算オーバーヘッドが少なく,有望な結果が得られることを示す。 全体として、この研究は代数的トポロジーと微分幾何学の間の興味深い関係を提供しており、この方向に将来の研究が引き起こされることを願っている。

A Sheaf Neural Network (SNN) is a type of Graph Neural Network (GNN) that operates on a sheaf, an object that equips a graph with vector spaces over its nodes and edges and linear maps between these spaces. SNNs have been shown to have useful theoretical properties that help tackle issues arising from heterophily and over-smoothing. One complication intrinsic to these models is finding a good sheaf for the task to be solved. Previous works proposed two diametrically opposed approaches: manually constructing the sheaf based on domain knowledge and learning the sheaf end-to-end using gradient-based methods. However, domain knowledge is often insufficient, while learning a sheaf could lead to overfitting and significant computational overhead. In this work, we propose a novel way of computing sheaves drawing inspiration from Riemannian geometry: we leverage the manifold assumption to compute manifold-and-graph-aware orthogonal maps, which optimally align the tangent spaces of neighbouring data points. We show that this approach achieves promising results with less computational overhead when compared to previous SNN models. Overall, this work provides an interesting connection between algebraic topology and differential geometry, and we hope that it will spark future research in this direction.
翻訳日:2022-06-20 15:46:36 公開日:2022-06-17
# plotly-resampler: 大規模時系列の効果的なビジュアル分析

Plotly-Resampler: Effective Visual Analytics for Large Time Series ( http://arxiv.org/abs/2206.08703v1 )

ライセンス: Link先を確認
Jonas Van Der Donckt, Jeroen Van Der Donckt, Emiel Deprost, Sofie Van Hoecke(参考訳) visual analyticsは間違いなく、データに精通する上で最も重要なステップだ。 これは特に時系列の場合であり、このデータ型は記述が困難であり、例えば要約統計を使用する場合、完全には理解できない。 効果的な時系列可視化を実現するためには,(1)対話的,(2)数百万のデータポイントにスケーラブル,(3)従来のデータサイエンス環境では統合可能,(4)高度に構成可能,の4つの要件を満たす必要がある。 オープンソースのpythonビジュアライゼーションツールキットは、ほとんどのビジュアル分析タスクでデータサイエンティストに役立つが、効果的な時系列視覚化を実現するためにスケーラビリティと対話性の組み合わせが欠如している。 これらの要件を促進する手段として、オープンソースのPythonライブラリであるPlotly-Resamplerを開発しました。 Plotly-Resamplerは、PlotlyのPythonバインディング用のアドオンで、現在のグラフビューに応じて基盤となるデータを集約することで、インタラクティブツールキット上でのラインチャートのスケーラビリティを向上させる。 Plotly-Resamplerは、ツールの反応性が、アナリストがデータを視覚的に探索し分析する方法に質的に影響を及ぼすため、スナッピーに作られている。 ベンチマークタスクでは、サンプル数や時系列の点で、ツールキットのスケールが代替よりも優れている点を強調します。 さらに、Plotly-Resamplerの柔軟なデータアグリゲーション機能は、新しいアグリゲーション技術の研究への道を開く。 plotly-resamplerの可積分性は、構成性、利便性、高スケーラビリティとともに、日々のpython環境での高周波データを効果的に分析できる。

Visual analytics is arguably the most important step in getting acquainted with your data. This is especially the case for time series, as this data type is hard to describe and cannot be fully understood when using for example summary statistics. To realize effective time series visualization, four requirements have to be met; a tool should be (1) interactive, (2) scalable to millions of data points, (3) integrable in conventional data science environments, and (4) highly configurable. We observe that open source Python visualization toolkits empower data scientists in most visual analytics tasks, but lack the combination of scalability and interactivity to realize effective time series visualization. As a means to facilitate these requirements, we created Plotly-Resampler, an open source Python library. Plotly-Resampler is an add-on for Plotly's Python bindings, enhancing line chart scalability on top of an interactive toolkit by aggregating the underlying data depending on the current graph view. Plotly-Resampler is built to be snappy, as the reactivity of a tool qualitatively affects how analysts visually explore and analyze data. A benchmark task highlights how our toolkit scales better than alternatives in terms of number of samples and time series. Additionally, Plotly-Resampler's flexible data aggregation functionality paves the path towards researching novel aggregation techniques. Plotly-Resampler's integrability, together with its configurability, convenience, and high scalability, allows to effectively analyze high-frequency data in your day-to-day Python environment.
翻訳日:2022-06-20 15:46:14 公開日:2022-06-17
# フェデレーションキーワードスポッティングにおけるユーザ固有の情報過剰の回避

Avoid Overfitting User Specific Information in Federated Keyword Spotting ( http://arxiv.org/abs/2206.08864v1 )

ライセンス: Link先を確認
Xin-Chun Li, Jin-Lin Tang, Shaoming Song, Bingshuai Li, Yinchuan Li, Yunfeng Shao, Le Gan, De-Chuan Zhan(参考訳) キーワードスポッティング(KWS)は、特定のウェイクアップワードを他の信号と正確にかつ効率的に区別することを目的としている。 近年の作業では、データプライバシを考慮せずに、さまざまなディープネットワークを使用して、すべてのユーザの音声データを集中的にKWSモデルをトレーニングしている。 フェデレートされたKWS(FedKWS)は、ユーザのデータを直接共有することなくソリューションとして機能する。 しかし、少量のデータ、異なるユーザー習慣、様々なアクセントは、過剰フィッティングや重みの相違など、致命的な問題を引き起こす可能性がある。 そこで本研究では,feedkwsにおけるユーザ固有情報を過小評価しないようにモデルを促すいくつかの戦略を提案する。 具体的には、まず、ダウンロードされたグローバルモデルを過度に適合したローカルモデルに対して更新し、ユーザ不変情報をキャプチャするためのグローバルモデルを明示的に推奨する逆学習戦略を提案する。 さらに、より訓練データとより均一なクラス分布を持つクライアントに、より局所的な更新手順を施す適応的なローカルトレーニング戦略を提案する。 同じくこの戦略は、データの資格が低いユーザの負の影響を弱める可能性がある。 提案したFedKWS-UIは、FedKWSで明示的に暗黙的にユーザ不変情報を学習できる。 federated google speech commandの豊富な実験結果がfeedkws-uiの有効性を検証している。

Keyword spotting (KWS) aims to discriminate a specific wake-up word from other signals precisely and efficiently for different users. Recent works utilize various deep networks to train KWS models with all users' speech data centralized without considering data privacy. Federated KWS (FedKWS) could serve as a solution without directly sharing users' data. However, the small amount of data, different user habits, and various accents could lead to fatal problems, e.g., overfitting or weight divergence. Hence, we propose several strategies to encourage the model not to overfit user-specific information in FedKWS. Specifically, we first propose an adversarial learning strategy, which updates the downloaded global model against an overfitted local model and explicitly encourages the global model to capture user-invariant information. Furthermore, we propose an adaptive local training strategy, letting clients with more training data and more uniform class distributions undertake more local update steps. Equivalently, this strategy could weaken the negative impacts of those users whose data is less qualified. Our proposed FedKWS-UI could explicitly and implicitly learn user-invariant information in FedKWS. Abundant experimental results on federated Google Speech Commands verify the effectiveness of FedKWS-UI.
翻訳日:2022-06-20 15:45:45 公開日:2022-06-17
# オープン触媒2022(OC22)データセットと酸化物電解への挑戦

The Open Catalyst 2022 (OC22) Dataset and Challenges for Oxide Electrocatalysis ( http://arxiv.org/abs/2206.08917v1 )

ライセンス: Link先を確認
Richard Tran, Janice Lan, Muhammed Shuaibi, Siddharth Goyal, Brandon M. Wood, Abhishek Das, Javier Heras-Domingo, Adeesh Kolluru, Ammar Rizvi, Nima Shoghi, Anuroop Sriram, Zachary Ulissi, C. Lawrence Zitnick(参考訳) 計算触媒と機械学習のコミュニティは、触媒発見と設計のための機械学習モデルの開発に大きく進歩している。 しかし、触媒の化学空間にまたがる一般的な機械学習の可能性はまだ手に負えない。 重要なハードルは、幅広い材料にわたるトレーニングデータへのアクセスを得ることである。 データが欠落している重要な素材の1つは酸化物であり、これはより一般的に酸素進化反応や酸化物電気触媒のモデル研究を妨げる。 そこで我々は,62,521 密度汎関数論 (DFT) の緩和 (~9,884,504 個点計算) と吸着剤 (*H, *O, *N, *C, *OOH, *OH, *OH2, *O2, *CO) からなる Open Catalyst 2022(OC22) データセットを開発した。 触媒作用に適用可能な総システムエネルギーを予測するための汎用タスクを定義し、いくつかのグラフニューラルネットワーク(SchNet, DimeNet++, ForceNet, SpinConv, PaiNN, GemNet-dT, GemNet-OC)のベースライン性能を開発し、将来の取り組みのための明確なベンチマークを確立するために予め定義されたデータセット分割を提供する。 すべてのタスクにおいて、データセットの組み合わせがより良い結果をもたらすかどうかを、異なる材料や吸着物を含む場合でも調査する。 具体的には、Open Catalyst 2020 (OC20) Dataset と OC22 のモデルを共同でトレーニングし、OC22 の OC20 モデルを微調整した。 最も一般的なタスクとして、gemnet-ocでは、微調整によるエネルギー予測が約32%改善され、共同トレーニングによる力予測が約9%向上している。 驚いたことに、OC20とより小さなOC22データセットの合同トレーニングもOC20の総エネルギー予測を約19%改善している。 データセットとベースラインモデルはオープンソース化され、全体エネルギータスクとデータに関するコミュニティの継続的な発展を促進するために、公開のリーダーボードが続く。

Computational catalysis and machine learning communities have made considerable progress in developing machine learning models for catalyst discovery and design. Yet, a general machine learning potential that spans the chemical space of catalysis is still out of reach. A significant hurdle is obtaining access to training data across a wide range of materials. One important class of materials where data is lacking are oxides, which inhibits models from studying the Oxygen Evolution Reaction and oxide electrocatalysis more generally. To address this we developed the Open Catalyst 2022(OC22) dataset, consisting of 62,521 Density Functional Theory (DFT) relaxations (~9,884,504 single point calculations) across a range of oxide materials, coverages, and adsorbates (*H, *O, *N, *C, *OOH, *OH, *OH2, *O2, *CO). We define generalized tasks to predict the total system energy that are applicable across catalysis, develop baseline performance of several graph neural networks (SchNet, DimeNet++, ForceNet, SpinConv, PaiNN, GemNet-dT, GemNet-OC), and provide pre-defined dataset splits to establish clear benchmarks for future efforts. For all tasks, we study whether combining datasets leads to better results, even if they contain different materials or adsorbates. Specifically, we jointly train models on Open Catalyst 2020 (OC20) Dataset and OC22, or fine-tune pretrained OC20 models on OC22. In the most general task, GemNet-OC sees a ~32% improvement in energy predictions through fine-tuning and a ~9% improvement in force predictions via joint training. Surprisingly, joint training on both the OC20 and much smaller OC22 datasets also improves total energy predictions on OC20 by ~19%. The dataset and baseline models are open sourced, and a public leaderboard will follow to encourage continued community developments on the total energy tasks and data.
翻訳日:2022-06-20 15:44:22 公開日:2022-06-17
# (参考訳) 2D-3Dレジストレーションによる深度3次元ビデオデータセット

Colonoscopy 3D Video Dataset with Paired Depth from 2D-3D Registration ( http://arxiv.org/abs/2206.08903v1 )

ライセンス: CC BY 4.0
Taylor L. Bobrow, Mayank Golhar, Rohan Vijayan, Venkata S. Akshintala, Juan R. Garcia, and Nicholas J. Durr(参考訳) スクリーニング大腸内視鏡は,深度推定,表面再構成,欠損領域検出など,いくつかの3次元コンピュータビジョン技術における重要な臨床応用である。 しかし,実際の大腸内視鏡映像におけるこれらの手法の開発と評価,比較は,真理データ取得の難しさから定性的なままである。 本稿では,高精細度大腸内視鏡と高精細度大腸モデルを用いて取得した大腸内視鏡3dビデオデータセット(c3vd)について紹介する。 本稿では, 既知の3次元モデルの基底真理レンダリングを用いた光学映像列を登録する, 新規なマルチモーダル2d-3d登録手法を提案する。 光画像からデプスマップへジェネレーティブ・アドバイサル・ネットワークで変換し、エッジ特徴を進化最適化器で整列することで、様々なモダリティが登録される。 この登録法は, 誤差のない地上真実が利用できるシミュレーション実験において, 平均翻訳誤差0.321mm, 平均回転誤差0.159度を達成する。 また、ビデオ情報を利用して、翻訳の登録精度を55.6%向上し、回転の60.4%向上させる。 22の短いビデオシーケンスが登録され、ペア化された地上の真理深度、表面の正常度、光学的流れ、閉塞度、6自由度ポーズ、カバレッジマップ、および3Dモデルで10,015フレームを生成する。 このデータセットには、胃腸科医が取得した3Dサーフェスモデルを用いたスクリーニングビデオも含まれている。 データセットと登録ソースコードは durr.jhu.edu/C3VD で入手できる。

Screening colonoscopy is an important clinical application for several 3D computer vision techniques, including depth estimation, surface reconstruction, and missing region detection. However, the development, evaluation, and comparison of these techniques in real colonoscopy videos remain largely qualitative due to the difficulty of acquiring ground truth data. In this work, we present a Colonoscopy 3D Video Dataset (C3VD) acquired with a high definition clinical colonoscope and high-fidelity colon models for benchmarking computer vision methods in colonoscopy. We introduce a novel multimodal 2D-3D registration technique to register optical video sequences with ground truth rendered views of a known 3D model. The different modalities are registered by transforming optical images to depth maps with a Generative Adversarial Network and aligning edge features with an evolutionary optimizer. This registration method achieves an average translation error of 0.321 millimeters and an average rotation error of 0.159 degrees in simulation experiments where error-free ground truth is available. The method also leverages video information, improving registration accuracy by 55.6% for translation and 60.4% for rotation compared to single frame registration. 22 short video sequences were registered to generate 10,015 total frames with paired ground truth depth, surface normals, optical flow, occlusion, six degree-of-freedom pose, coverage maps, and 3D models. The dataset also includes screening videos acquired by a gastroenterologist with paired ground truth pose and 3D surface models. The dataset and registration source code are available at durr.jhu.edu/C3VD.
翻訳日:2022-06-20 15:42:43 公開日:2022-06-17
# スパース時空間脳-コンピューターインタフェースのための因子化アプローチ

Factorization Approach for Sparse Spatio-Temporal Brain-Computer Interface ( http://arxiv.org/abs/2206.08494v1 )

ライセンス: Link先を確認
Byeong-Hoo Lee, Jeong-Hyun Cho, Byoung-Hee Kwon and Seong-Whan Lee(参考訳) 近年、先進技術は、大量のデータで様々な問題を解決する可能性を無限に持っている。 しかし、これらの技術は、脳信号を扱う脳-コンピュータインタフェース(BCI)において、まだ競争性能を示していない。 基本的に、脳の信号は大量に収集することは困難であり、特に自然発生のBCIでは情報の量が少なくなる。 さらに,タスク間の空間的・時間的類似度が高いと予測が困難になる。 我々はこの問題をスパース条件と定義する。 これを解決するために、モデルが潜在空間から異なる表現を得られるように分解法が導入された。 そこで,本研究では,クラス共通モジュールをジェネレータとして機能する敵学習を通じて学習し,クラス固有モジュールは分類から生成した損失関数を利用して従来の手法で特徴を抽出する。 クラス共通およびクラス固有特徴によって共有される潜在空間を最小化するために、モデルは直交制約の下で訓練される。 その結果、EEG信号は2つの別々の潜在空間に分解される。 評価は、シングルアームのモーターイメージデータセットで行われた。 結果から,脳波信号の分解により,スパース条件下での豊かで決定的な特徴を抽出できることを示した。

Recently, advanced technologies have unlimited potential in solving various problems with a large amount of data. However, these technologies have yet to show competitive performance in brain-computer interfaces (BCIs) which deal with brain signals. Basically, brain signals are difficult to collect in large quantities, in particular, the amount of information would be sparse in spontaneous BCIs. In addition, we conjecture that high spatial and temporal similarities between tasks increase the prediction difficulty. We define this problem as sparse condition. To solve this, a factorization approach is introduced to allow the model to obtain distinct representations from latent space. To this end, we propose two feature extractors: A class-common module is trained through adversarial learning acting as a generator; Class-specific module utilizes loss function generated from classification so that features are extracted with traditional methods. To minimize the latent space shared by the class-common and class-specific features, the model is trained under orthogonal constraint. As a result, EEG signals are factorized into two separate latent spaces. Evaluations were conducted on a single-arm motor imagery dataset. From the results, we demonstrated that factorizing the EEG signal allows the model to extract rich and decisive features under sparse condition.
翻訳日:2022-06-20 15:19:33 公開日:2022-06-17
# yankee swap:matroidランクバリュエーションのための高速で簡単なフェアアロケーションメカニズム

Yankee Swap: a Fast and Simple Fair Allocation Mechanism for Matroid Rank Valuations ( http://arxiv.org/abs/2206.08495v1 )

ライセンス: Link先を確認
Vignesh Viswanathan and Yair Zick(参考訳) エージェントがマトロイドランクの評価値を持つ場合、不特定商品の公平な割り当てについて検討する。 我々の主な貢献は、明快で効率的なロレンツ支配割り当てを計算する、口語的ヤンキースワップ手順に基づく単純なアルゴリズムである。 このような割り当てを計算する多項式時間アルゴリズムはあるが、提案手法は2つの方法で改善する。 (a)我々のアプローチは容易に理解でき、複雑なマトロイド最適化アルゴリズムをサブルーチンとして使用しません。 (b)我々のアプローチはスケーラブルであり、ロレンツ支配割当を計算するのに既知のアルゴリズムよりも高速である。 これらの2つの特性は、実際の公平な割り当て設定におけるアルゴリズムの採用の鍵となります。

We study fair allocation of indivisible goods when agents have matroid rank valuations. Our main contribution is a simple algorithm based on the colloquial Yankee Swap procedure that computes provably fair and efficient Lorenz dominating allocations. While there exist polynomial time algorithms to compute such allocations, our proposed method improves on them in two ways. (a) Our approach is easy to understand and does not use complex matroid optimization algorithms as subroutines. (b) Our approach is scalable; it is provably faster than all known algorithms to compute Lorenz dominating allocations. These two properties are key to the adoption of algorithms in any real fair allocation setting; our contribution brings us one step closer to this goal.
翻訳日:2022-06-20 15:19:13 公開日:2022-06-17
# マルチブロックモバイルページにおける情報検索のためのF字クリックモデル

An F-shape Click Model for Information Retrieval on Multi-block Mobile Pages ( http://arxiv.org/abs/2206.08604v1 )

ライセンス: Link先を確認
Lingyue Fu, Jianghao Lin, Weiwen Liu, Ruiming Tang, Weinan Zhang, Rui Zhang, Yong Yu(参考訳) ユーザの暗黙のインタラクションフィードバックに基づくクリックシミュレーションや関連性評価を実現するため,近年,クリックモデルの研究が盛んに行われている。 ほとんどのクリックモデルは、単一のリストに対するユーザーの振る舞いに焦点を当てている。 しかし、ui(user interface)デザインの開発により、結果ページの表示項目のレイアウトは単一のリストではなくマルチブロック(すなわちマルチリスト)スタイルになりがちで、ユーザーの振る舞いをより正確にモデル化するには異なる仮定が必要となる。 デスクトップ環境ではマルチブロックページのクリックモデルが存在するが、インタラクションの方法や結果タイプ、特にマルチブロックのプレゼンテーションスタイルによって、モバイルシナリオに直接適用することはできない。 特に、マルチブロックモバイルページは、通常、基本的な垂直ブロックと水平ブロックのインターリーブに分解できるため、通常、f字形になる。 マルチブロックページにおけるデスクトップとモバイルのコンテキスト間のギャップを軽減するため,ユーザの視線追跡調査を行い,F-シェープページ上のユーザのシーケンシャルブラウジング,ブロックスキップ,比較パターンを識別する。 これらの結果から,F字型クリックモデル (FSCM) が考案され,マルチブロックモバイルページの一般的なソリューションとなった。 まず,各ページに対して有向非巡回グラフ(DAG)を構築し,各項目を頂点とみなし,各エッジがユーザの可能な検査フローを示す。 次に,dag構造化grusと比較モジュールを提案し,ユーザのシーケンシャル(シーケンシャルブラウジング,ブロックスキップ)と非シーケンシャル(比較)動作をそれぞれモデル化する。 最後に、ユーザクリック予測を行うために、GRU状態と比較パターンを組み合わせる。 大規模実世界のデータセットを用いた実験により,FSCMがユーザ行動予測に与える影響をベースラインモデルと比較した。

To provide click simulation or relevance estimation based on users' implicit interaction feedback, click models have been much studied during recent years. Most click models focus on user behaviors towards a single list. However, with the development of user interface (UI) design, the layout of displayed items on a result page tends to be multi-block (i.e., multi-list) style instead of a single list, which requires different assumptions to model user behaviors more accurately. There exist click models for multi-block pages in desktop contexts, but they cannot be directly applied to mobile scenarios due to different interaction manners, result types and especially multi-block presentation styles. In particular, multi-block mobile pages can normally be decomposed into interleavings of basic vertical blocks and horizontal blocks, thus resulting in typically F-shape forms. To mitigate gaps between desktop and mobile contexts for multi-block pages, we conduct a user eye-tracking study, and identify users' sequential browsing, block skip and comparison patterns on F-shape pages. These findings lead to the design of a novel F-shape Click Model (FSCM), which serves as a general solution to multi-block mobile pages. Firstly, we construct a directed acyclic graph (DAG) for each page, where each item is regarded as a vertex and each edge indicates the user's possible examination flow. Secondly, we propose DAG-structured GRUs and a comparison module to model users' sequential (sequential browsing, block skip) and non-sequential (comparison) behaviors respectively. Finally, we combine GRU states and comparison patterns to perform user click predictions. Experiments on a large-scale real-world dataset validate the effectiveness of FSCM on user behavior predictions compared with baseline models.
翻訳日:2022-06-20 15:19:02 公開日:2022-06-17
# Web検索のためのグラフ強化クリックモデル

A Graph-Enhanced Click Model for Web Search ( http://arxiv.org/abs/2206.08621v1 )

ライセンス: Link先を確認
Jianghao Lin, Weiwen Liu, Xinyi Dai, Weinan Zhang, Shuai Li, Ruiming Tang, Xiuqiang He, Jianye Hao, Yong Yu(参考訳) 検索ログの活用とユーザの行動パターンのモデル化のために,ユーザの暗黙的なインタラクションフィードバックを抽出するクリックモデルが多数提案されている。 従来のクリックモデルのほとんどは、手動で設計した依存関係を必要とする確率的グラフィカルモデル(pgm)フレームワークに基づいており、ユーザの振る舞いを過度に単純化する可能性がある。 近年,ニューラルネットワークに基づく手法により,表現能力の向上と柔軟な依存関係の実現により,ユーザの行動予測精度の向上が図られている。 しかし、データスパーシティやコールドスタートの問題に苦しんでいる。 本稿では,Web検索のための新しいグラフ強調クリックモデル(GraphCM)を提案する。 まず、各問合せや文書を頂点として、問合せや文書に対する新しい均質なグラフ構築手法を提案し、スペア性やコールドスタート問題に対して、セッション内情報とセッション間情報の両方を完全に活用する。 次に, 評価仮説に従って, 魅力度推定器と検査予測器を別々にモデル化し, 先行構築した同質グラフに符号化された補助情報を抽出するために, グラフニューラルネットワークと隣接相互作用技術を適用した。 最後に,テスト確率と魅力スコアをクリック予測に組み込むために組み合わせ関数を適用した。 3つの実世界のセッションデータセットで実施された大規模な実験は、GraphCMが最先端モデルを上回るだけでなく、データの疎さやコールドスタート問題に対処する上で優れたパフォーマンスを達成することを示している。

To better exploit search logs and model users' behavior patterns, numerous click models are proposed to extract users' implicit interaction feedback. Most traditional click models are based on the probabilistic graphical model (PGM) framework, which requires manually designed dependencies and may oversimplify user behaviors. Recently, methods based on neural networks are proposed to improve the prediction accuracy of user behaviors by enhancing the expressive ability and allowing flexible dependencies. However, they still suffer from the data sparsity and cold-start problems. In this paper, we propose a novel graph-enhanced click model (GraphCM) for web search. Firstly, we regard each query or document as a vertex, and propose novel homogeneous graph construction methods for queries and documents respectively, to fully exploit both intra-session and inter-session information for the sparsity and cold-start problems. Secondly, following the examination hypothesis, we separately model the attractiveness estimator and examination predictor to output the attractiveness scores and examination probabilities, where graph neural networks and neighbor interaction techniques are applied to extract the auxiliary information encoded in the pre-constructed homogeneous graphs. Finally, we apply combination functions to integrate examination probabilities and attractiveness scores into click predictions. Extensive experiments conducted on three real-world session datasets show that GraphCM not only outperforms the state-of-art models, but also achieves superior performance in addressing the data sparsity and cold-start problems.
翻訳日:2022-06-20 15:18:11 公開日:2022-06-17
# n$^2$m$^2$:非知覚および動的環境における任意の移動操作動作の学習ナビゲーション

N$^2$M$^2$: Learning Navigation for Arbitrary Mobile Manipulation Motions in Unseen and Dynamic Environments ( http://arxiv.org/abs/2206.08737v1 )

ライセンス: Link先を確認
Daniel Honerkamp, Tim Welschehold, Abhinav Valada(参考訳) 産業とサービスロボティクスの両方で重要であるにもかかわらず、モバイル操作は、エンドエフェクタの軌道生成とナビゲーションスキルのシームレスな統合、そして長いホリゾンに対する推論を必要とするため、依然として大きな課題である。 既存の方法は、大きな構成空間を制御したり、動的で未知の環境をナビゲートするのに苦労する。 本研究では,移動体操作タスクをタスク空間におけるエンドエフェクタのための簡易な動作生成器と,運動の運動性を考慮した移動体ベースのための強化学習エージェントに分解する提案を行った。 本研究では,モバイル操作のためのニューラルナビゲーション(N$^2$M$^2$)を導入し,この分解を複雑な障害物環境に拡張し,実世界の環境において幅広いタスクに対処できるようにする。 結果として得られたアプローチは、動的障害や環境変化に即座に反応しながら、未探索の環境において、目に見えない長時間ホリゾンタスクを実行することができる。 同時に、新しいモバイル操作タスクを定義するための簡単な方法を提供する。 提案手法は,マルチキネマティックに多様な移動マニピュレータ上での大規模シミュレーションと実世界実験において有効であることを示す。 コードとビデオはhttp://mobile-rl.cs.uni-freiburg.deで公開されている。

Despite its importance in both industrial and service robotics, mobile manipulation remains a significant challenge as it requires a seamless integration of end-effector trajectory generation with navigation skills as well as reasoning over long-horizons. Existing methods struggle to control the large configuration space, and to navigate dynamic and unknown environments. In previous work, we proposed to decompose mobile manipulation tasks into a simplified motion generator for the end-effector in task space and a trained reinforcement learning agent for the mobile base to account for kinematic feasibility of the motion. In this work, we introduce Neural Navigation for Mobile Manipulation (N$^2$M$^2$) which extends this decomposition to complex obstacle environments and enables it to tackle a broad range of tasks in real world settings. The resulting approach can perform unseen, long-horizon tasks in unexplored environments while instantly reacting to dynamic obstacles and environmental changes. At the same time, it provides a simple way to define new mobile manipulation tasks. We demonstrate the capabilities of our proposed approach in extensive simulation and real-world experiments on multiple kinematically diverse mobile manipulators. Code and videos are publicly available at http://mobile-rl.cs.uni-freiburg.de.
翻訳日:2022-06-20 15:17:46 公開日:2022-06-17
# 精神療法におけるワーキングアライアンスについて、スピーチと言語で何がわかるか

What can Speech and Language Tell us About the Working Alliance in Psychotherapy ( http://arxiv.org/abs/2206.08835v1 )

ライセンス: Link先を確認
Sebastian P. Bayerl, Gabriel Roccabruna, Shammur Absar Chowdhury, Tommaso Ciulli, Morena Danieli, Korbinian Riedhammer, Giuseppe Riccardi(参考訳) 我々は,会話分析の問題とその健康領域への応用に関心を持っている。 認知行動療法(英: cognitive behavior therapy)は、精神療法における構造化されたアプローチであり、患者が悪意ある思考、行動、行動を特定し修正するのを助ける。 この協力的な取り組みは、治療結果に関連のある12項目の項目であるworking alliance inventory observer-rated shortened(タスク、目標、関係をカバーする12項目)を用いて評価することができる。 本研究では,このアライアンス・インベントリと患者と心理療法士の会話(セッション)との関係について検討する。 私たちは8週間のe-therapyを行い、オーディオとビデオの通話セッションを収集し、手書きで書き起こしました。 音声会話は、専門家のセラピストによるwai評価で注釈と評価がなされている。 音声と言語の特徴とWAI項目との関連について検討した。 特徴型には、音声と言語信号から抽出されたターンダイナミクス、語彙エントレメント、会話記述子が含まれる。 私たちの調査結果は、これらの機能のサブセットがワーキングアライアンスの強力な指標であるという強い証拠を提供します。 我々の知る限りでは、これは労働同盟を特徴づけるためにスピーチと言語を利用する最初の、そして新しい研究である。

We are interested in the problem of conversational analysis and its application to the health domain. Cognitive Behavioral Therapy is a structured approach in psychotherapy, allowing the therapist to help the patient to identify and modify the malicious thoughts, behavior, or actions. This cooperative effort can be evaluated using the Working Alliance Inventory Observer-rated Shortened - a 12 items inventory covering task, goal, and relationship - which has a relevant influence on therapeutic outcomes. In this work, we investigate the relation between this alliance inventory and the spoken conversations (sessions) between the patient and the psychotherapist. We have delivered eight weeks of e-therapy, collected their audio and video call sessions, and manually transcribed them. The spoken conversations have been annotated and evaluated with WAI ratings by professional therapists. We have investigated speech and language features and their association with WAI items. The feature types include turn dynamics, lexical entrainment, and conversational descriptors extracted from the speech and language signals. Our findings provide strong evidence that a subset of these features are strong indicators of working alliance. To the best of our knowledge, this is the first and a novel study to exploit speech and language for characterising working alliance.
翻訳日:2022-06-20 15:17:26 公開日:2022-06-17
# 部分分割3次元形状コレクションの教師なし運動検出

Unsupervised Kinematic Motion Detection for Part-segmented 3D Shape Collections ( http://arxiv.org/abs/2206.08497v1 )

ライセンス: Link先を確認
Xianghao Xu, Yifan Ruan, Srinath Sridhar, Daniel Ritchie(参考訳) 人工物の3dモデルは、仮想世界や視覚とロボティクスのための合成データ生成のために重要である。 最も有用であるためには、そのようなオブジェクトを明瞭にする必要がある。 有声オブジェクトデータセットは存在するが、それらの作成は労働集約的である。 学習に基づく部分動作の予測は役立つが、既存の方法はすべて注釈付きトレーニングデータを必要とする。 本稿では,3次元形状群における関節運動を教師なしで発見する手法を提案する。 我々のアプローチは、私たちが圏閉包と呼ぶ概念に基づいている:オブジェクトの部分の有効な記述は、オブジェクトを同じ意味圏(例えば、椅子が椅子に残る)に保たなければならない。 我々は、この概念を、形状の部分運動パラメータを最適化して、コレクション内の他の形状に変換するアルゴリズムで運用する。 partnet-mobilityデータセットから部分動作を再発見するために,このアプローチを評価した。 ほぼすべての形状のカテゴリーにおいて,提案手法の予測動作パラメータは,2つの教師あり動作予測法よりも低い誤差を有する。

3D models of manufactured objects are important for populating virtual worlds and for synthetic data generation for vision and robotics. To be most useful, such objects should be articulated: their parts should move when interacted with. While articulated object datasets exist, creating them is labor-intensive. Learning-based prediction of part motions can help, but all existing methods require annotated training data. In this paper, we present an unsupervised approach for discovering articulated motions in a part-segmented 3D shape collection. Our approach is based on a concept we call category closure: any valid articulation of an object's parts should keep the object in the same semantic category (e.g. a chair stays a chair). We operationalize this concept with an algorithm that optimizes a shape's part motion parameters such that it can transform into other shapes in the collection. We evaluate our approach by using it to re-discover part motions from the PartNet-Mobility dataset. For almost all shape categories, our method's predicted motion parameters have low error with respect to ground truth annotations, outperforming two supervised motion prediction methods.
翻訳日:2022-06-20 15:15:56 公開日:2022-06-17
# 連続時間フィルタ登録を用いた実効固体LiDARオドメトリー

Effective Solid State LiDAR Odometry Using Continuous-time Filter Registration ( http://arxiv.org/abs/2206.08517v1 )

ライセンス: Link先を確認
Xin Zheng, Jianke Zhu(参考訳) 固体LiDARは従来の機械式マルチライン回転LiDARよりもコンパクトで安価である。 しかし、これらの新しいLiDARセンサには、激しい動きの歪み、小さな視野、スパース点雲など、いくつかの課題があり、LiDARオドメトリーで広く使用されることを妨げている。 これらの問題に対処するために,リズリープリズムに基づく非反復走査型LiDARのための実効連続時間LiDARオドメトリー(ECTLO)法を提案する。 このノイズデータを考慮するために、ロバスト登録にフィルタベースの点対平面混合モデルを用いる。 さらに、LiDARのみの連続時間運動モデルを用いて、避けられない歪みを緩和する。 暗黙的データアソシエーションの並列化を容易にするため,全マップポイントを単一範囲画像内に保持する。 走査パターンの異なる固体ライダーを用いて, 各種試験ベッドで広範囲な実験を行い, 提案手法の有効性を実証した。

Solid-state LiDARs are more compact and cheaper than the conventional mechanical multi-line spinning LiDARs, which have become increasingly popular in autonomous driving recently. However, there are several challenges for these new LiDAR sensors, including severe motion distortions, small field of view and sparse point cloud, which hinder them from being widely used in LiDAR odometry. To tackle these problems, we present an effective continuous-time LiDAR odometry (ECTLO) method for the Risley prism-based LiDARs with non-repetitive scanning patterns. To account for the noisy data, a filter-based point-to-plane Gaussian Mixture Model is used for robust registration. Moreover, a LiDAR-only continuous-time motion model is employed to relieve the inevitable distortions. To facilitate the implicit data association in parallel, we maintain all map points within a single range image. Extensive experiments have been conducted on various testbeds using the solid-state LiDARs with different scanning patterns, whose promising results demonstrate the efficacy of our proposed approach.
翻訳日:2022-06-20 15:15:36 公開日:2022-06-17
# oadat: 標準化画像処理のための実験および合成臨床視音響データ

OADAT: Experimental and Synthetic Clinical Optoacoustic Data for Standardized Image Processing ( http://arxiv.org/abs/2206.08612v1 )

ライセンス: Link先を確認
Berkan Lafci, Firat Ozdemir, Xos\'e Lu\'is De\'an-Ben, Daniel Razansky, Fernando Perez-Cruz(参考訳) オプトアコースティック(OA)イメージングは、ナノ秒レーザーパルスによる生体組織の励起と、光吸収による熱弾性膨張によって発生する超音波の検出に基づいている。 OAイメージングは、豊富な光学コントラストと深部組織における高分解能の強力な組み合わせである。 これにより、臨床と実験室の両方で多くの魅力的な新しい応用が探求できるようになった。 しかし、OAのより広範な臨床応用を促進するために、異なるタイプの実験的なセットアップと関連する処理方法によって生成される標準化データセットは存在しない。 これは、新しいデータ処理方法と確立されたデータ処理方法の客観的な比較を複雑にし、しばしば定性的な結果とデータの任意の解釈をもたらす。 本稿では,実験パラメータとトモグラフィー取得ジオメトリを用いて,実験および合成OA生信号と再構成画像領域データセットの両方を提供する。 さらに, oa画像処理に関連する3つの重要な課題,すなわち, 制限された断層撮影条件下での正確な再構成, 空間的アンサンブルアーティファクトの除去, 画像再構成改善のための解剖学的セグメンテーションに取り組むために, 訓練されたニューラルネットワークを提供する。 具体的には,上述の課題に対応する18の実験を,より高度な処理手法の開発のための基準として用いるためのベンチマークとして定義する。

Optoacoustic (OA) imaging is based on excitation of biological tissues with nanosecond-duration laser pulses followed by subsequent detection of ultrasound waves generated via light-absorption-mediated thermoelastic expansion. OA imaging features a powerful combination between rich optical contrast and high resolution in deep tissues. This enabled the exploration of a number of attractive new applications both in clinical and laboratory settings. However, no standardized datasets generated with different types of experimental set-up and associated processing methods are available to facilitate advances in broader applications of OA in clinical settings. This complicates an objective comparison between new and established data processing methods, often leading to qualitative results and arbitrary interpretations of the data. In this paper, we provide both experimental and synthetic OA raw signals and reconstructed image domain datasets rendered with different experimental parameters and tomographic acquisition geometries. We further provide trained neural networks to tackle three important challenges related to OA image processing, namely accurate reconstruction under limited view tomographic conditions, removal of spatial undersampling artifacts and anatomical segmentation for improved image reconstruction. Specifically, we define 18 experiments corresponding to the aforementioned challenges as benchmarks to be used as a reference for the development of more advanced processing methods.
翻訳日:2022-06-20 15:15:19 公開日:2022-06-17
# VectorMapNet: エンドツーエンドのベクトル化HDマップ学習

VectorMapNet: End-to-end Vectorized HD Map Learning ( http://arxiv.org/abs/2206.08920v1 )

ライセンス: Link先を確認
Yicheng Liu, Yue Wang, Yilun Wang, Hang Zhao(参考訳) 自律運転システムは、移動障害物や静的高精細度(hd)セマンティックマップなど、周囲の環境をよく理解する必要がある。 既存のメソッドは、オフラインのマニュアルアノテーションによってセマンティックマップの問題にアプローチする。 より最近の学習に基づく手法は、個々の地図要素のインスタンス情報を含まない高密度なラスタ化セグメンテーション予測を生成し、手作業で設計された多くのコンポーネントを含むヒューリスティックな後処理を必要とする。 そこで我々は,VectorMapNetと呼ばれるエンドツーエンドのベクトル化HDマップ学習パイプラインを導入する。 vectormapnet は、オンボードセンサーによる観測を行い、鳥の眼図の細かなポリラインプリミティブのセットを予測し、hdマップの幾何学をモデル化する。 このパイプラインに基づいて,マップ要素間の空間関係を明示的にモデル化し,後処理を必要とせずに下流自動運転タスクに好適なベクトルマップを生成する。 我々の実験では、VectorMapNetはnuScenesデータセット上で強力なHDマップ学習性能を実現し、従来の最先端手法を14.2mAPで上回っている。 定性的に、VectorMapNetは網羅的な地図を生成し、より詳細な道路形状を捉えることができる。 私たちの知る限り、VectorMapNetは、エンドツーエンドのベクトル化HDマップ学習問題を対象とした最初の研究です。

Autonomous driving systems require a good understanding of surrounding environments, including moving obstacles and static High-Definition (HD) semantic maps. Existing methods approach the semantic map problem by offline manual annotations, which suffer from serious scalability issues. More recent learning-based methods produce dense rasterized segmentation predictions which do not include instance information of individual map elements and require heuristic post-processing that involves many hand-designed components, to obtain vectorized maps. To that end, we introduce an end-to-end vectorized HD map learning pipeline, termed VectorMapNet. VectorMapNet takes onboard sensor observations and predicts a sparse set of polylines primitives in the bird's-eye view to model the geometry of HD maps. Based on this pipeline, our method can explicitly model the spatial relation between map elements and generate vectorized maps that are friendly for downstream autonomous driving tasks without the need for post-processing. In our experiments, VectorMapNet achieves strong HD map learning performance on nuScenes dataset, surpassing previous state-of-the-art methods by 14.2 mAP. Qualitatively, we also show that VectorMapNet is capable of generating comprehensive maps and capturing more fine-grained details of road geometry. To the best of our knowledge, VectorMapNet is the first work designed toward end-to-end vectorized HD map learning problems.
翻訳日:2022-06-20 15:14:58 公開日:2022-06-17
# マルチモーダルは必要か? マルチモーダル偽ニュース検出のロバスト性評価

Is Multi-Modal Necessarily Better? Robustness Evaluation of Multi-modal Fake News Detection ( http://arxiv.org/abs/2206.08788v1 )

ライセンス: Link先を確認
Jinyin Chen, Chengyu Jia, Haibin Zheng, Ruoxi Chen and Chenbo Fu(参考訳) フェイクニュースの拡散とその深刻なネガティブな社会的影響は、フェイクニュース検出手法をWeb管理者に必要なツールへと押し上げている。 一方、ソーシャルメディアのマルチメディア性は、マルチモーダルフェイクニュース検出を、ユニモーダル検出方法よりも多くのモーダル特徴をキャプチャする能力によって人気を高めている。 しかし、現在のマルチモーダル検出に関する文献は、検出精度を追求する傾向にあるが、検出器の堅牢性は無視される。 この問題に対処するために,マルチモーダルフェイクニュース検出器の包括的ロバスト性評価を提案する。 本研究では,悪意のあるユーザや開発者の攻撃方法,すなわち偽ニュースの投稿やバックドアの注入をシミュレートする。 具体的には,5つの対角法と2つのバックドアアタック法によるマルチモーダル検出器の評価を行った。 Experiment results imply that: (1) The detection performance of the state-of-the-art detectors degrades significantly under adversarial attacks, even worse than general detectors; (2) Most multi-modal detectors are more vulnerable when subjected to attacks on visual modality than textual modality; (3) Popular events' images will cause significant degradation to the detectors when they are subjected to backdoor attacks; (4) The performance of these detectors under multi-modal attacks is worse than under uni-modal attacks; (5) Defensive methods will improve the robustness of the multi-modal detectors.

The proliferation of fake news and its serious negative social influence push fake news detection methods to become necessary tools for web managers. Meanwhile, the multi-media nature of social media makes multi-modal fake news detection popular for its ability to capture more modal features than uni-modal detection methods. However, current literature on multi-modal detection is more likely to pursue the detection accuracy but ignore the robustness of the detector. To address this problem, we propose a comprehensive robustness evaluation of multi-modal fake news detectors. In this work, we simulate the attack methods of malicious users and developers, i.e., posting fake news and injecting backdoors. Specifically, we evaluate multi-modal detectors with five adversarial and two backdoor attack methods. Experiment results imply that: (1) The detection performance of the state-of-the-art detectors degrades significantly under adversarial attacks, even worse than general detectors; (2) Most multi-modal detectors are more vulnerable when subjected to attacks on visual modality than textual modality; (3) Popular events' images will cause significant degradation to the detectors when they are subjected to backdoor attacks; (4) The performance of these detectors under multi-modal attacks is worse than under uni-modal attacks; (5) Defensive methods will improve the robustness of the multi-modal detectors.
翻訳日:2022-06-20 15:13:06 公開日:2022-06-17
# nu-wave 2: 様々なサンプリングレートのための汎用ニューラルオーディオアップサンプリングモデル

NU-Wave 2: A General Neural Audio Upsampling Model for Various Sampling Rates ( http://arxiv.org/abs/2206.08545v1 )

ライセンス: Link先を確認
Seungu Han, Junhyeok Lee(参考訳) 従来、オーディオ超解像モデルは初期値と目標値のサンプリングレートを固定していた。 単一モデルを用いたサンプリングレートの入力から48kHzの音声信号を生成可能な,ニューラルオーディオアップサンプリング用拡散モデルであるNU-Wave 2を提案する。 NU-Waveのアーキテクチャに基づいて、NU-Wave 2は、短時間のフーリエ畳み込み(STFC)を使用して、NU-Waveの主な障害モードを解決するためにハーモニクスを生成し、周波数領域における入力の帯域幅を条件に帯域スペクトル特徴変換(BSFT)を組み込む。 実験により,nu-wave 2は入力のサンプリング速度に関わらず,他のモデルに比べてパラメータの少ない高分解能オーディオを生成することを実証した。 公式コードとオーディオサンプルは、https://mindslab-ai.github.io/nuwave2で入手できる。

Conventionally, audio super-resolution models fixed the initial and the target sampling rates, which necessitate the model to be trained for each pair of sampling rates. We introduce NU-Wave 2, a diffusion model for neural audio upsampling that enables the generation of 48 kHz audio signals from inputs of various sampling rates with a single model. Based on the architecture of NU-Wave, NU-Wave 2 uses short-time Fourier convolution (STFC) to generate harmonics to resolve the main failure modes of NU-Wave, and incorporates bandwidth spectral feature transform (BSFT) to condition the bandwidths of inputs in the frequency domain. We experimentally demonstrate that NU-Wave 2 produces high-resolution audio regardless of the sampling rate of input while requiring fewer parameters than other models. The official code and the audio samples are available at https://mindslab-ai.github.io/nuwave2.
翻訳日:2022-06-20 15:12:30 公開日:2022-06-17
# ベイズ最適化による離散逐次データに対するクエリ効率とスケーラブルなブラックボックス攻撃

Query-Efficient and Scalable Black-Box Adversarial Attacks on Discrete Sequential Data via Bayesian Optimization ( http://arxiv.org/abs/2206.08575v1 )

ライセンス: Link先を確認
Deokjae Lee, Seungyong Moon, Junhyeok Lee, Hyun Oh Song(参考訳) 我々は,攻撃者が被害者モデルへの限定的なクエリアクセスで敵の例を作成することを目的としたブラックボックス設定における,離散的なシーケンシャルデータに対するモデルに対する敵意攻撃の問題に焦点を当てる。 既存のブラックボックス攻撃は、主に欲求アルゴリズムに基づいており、事前計算された鍵位置を用いて摂動の逆例を見つけ、探索空間を著しく制限し、最適解をもたらす可能性がある。 この目的のために,ベイジアン最適化を用いたクエリ効率の良いブラックボックス攻撃を提案し,自動関係決定(ARD)分類カーネルを用いて重要な位置を動的に計算する。 入力シーケンスが長くなるとベイズ最適化のスケーラビリティを向上させるために,ブロック分解と履歴サブサンプリング手法を導入する。 さらに,摂動サイズの小さい逆例を求めるポスト最適化アルゴリズムを開発した。 自然言語およびタンパク質分類タスクの実験により,本手法は従来手法と比較してクエリ数や修正率を大幅に削減し,攻撃成功率を継続的に向上することを示した。

We focus on the problem of adversarial attacks against models on discrete sequential data in the black-box setting where the attacker aims to craft adversarial examples with limited query access to the victim model. Existing black-box attacks, mostly based on greedy algorithms, find adversarial examples using pre-computed key positions to perturb, which severely limits the search space and might result in suboptimal solutions. To this end, we propose a query-efficient black-box attack using Bayesian optimization, which dynamically computes important positions using an automatic relevance determination (ARD) categorical kernel. We introduce block decomposition and history subsampling techniques to improve the scalability of Bayesian optimization when an input sequence becomes long. Moreover, we develop a post-optimization algorithm that finds adversarial examples with smaller perturbation size. Experiments on natural language and protein classification tasks demonstrate that our method consistently achieves higher attack success rate with significant reduction in query count and modification rate compared to the previous state-of-the-art methods.
翻訳日:2022-06-20 15:12:13 公開日:2022-06-17
# 塩分誘導ミックスアップによるブースティングファクタライゼーションマシン

Boosting Factorization Machines via Saliency-Guided Mixup ( http://arxiv.org/abs/2206.08661v1 )

ライセンス: Link先を確認
Chenwang Wu, Defu Lian, Yong Ge, Min Zhou, Enhong Chen, Dacheng Tao(参考訳) ファクトリゼーションマシン(FM)は、適応性とスパースデータから学習する能力のため、リコメンデータシステムで広く使われている。 しかし、スパースデータのユビキタスな非インタラクティブな特徴に対して、既存のFMはこれらの特徴に対応するパラメータを、埋め込みの内積によってのみ推定できる。 当然ながら、これらの機能の直接的な相互作用を学べないため、モデルの表現力は制限される。 そこで我々は,mixupにインスパイアされたmixfmを用いて,fmsを増強するための補助訓練データを生成する。 労働コストや専門知識を必要とする既存の強化戦略とは違って、MixFMが生成するこれらの追加データは、専門知識を持たない原材料の組み合わせによってのみ生成される。 さらに重要なことに、混合される親サンプルが相互作用しない機能を持つ場合、mixfmは直接相互作用を確立する。 第2に,MixFMが冗長あるいは有害なインスタンスを生成する可能性があることを考慮し,Saliency-guided Mixup(SMFM)を利用した新しいファクトリゼーションマシンを提案する。 カスタマイズされたサリエンシーによって導かれるsmfmは、より有益な隣り合うデータを生成することができる。 理論的解析により,提案手法は一般化誤差の上限を最小化し,FMの強化に有効であることを示す。 特に、fm の第一一般化境界を与え、その一般化には十分な表現能力の下でより多くのデータとより小さな埋め込みサイズが必要であることを示唆する。 最後に、5つのデータセットに関する広範な実験により、我々のアプローチがベースラインよりも優れていることを確認した。 さらに、この結果から、混合データの「汚染」はFM変種にも有益であることが示された。

Factorization machines (FMs) are widely used in recommender systems due to their adaptability and ability to learn from sparse data. However, for the ubiquitous non-interactive features in sparse data, existing FMs can only estimate the parameters corresponding to these features via the inner product of their embeddings. Undeniably, they cannot learn the direct interactions of these features, which limits the model's expressive power. To this end, we first present MixFM, inspired by Mixup, to generate auxiliary training data to boost FMs. Unlike existing augmentation strategies that require labor costs and expertise to collect additional information such as position and fields, these extra data generated by MixFM only by the convex combination of the raw ones without any professional knowledge support. More importantly, if the parent samples to be mixed have non-interactive features, MixFM will establish their direct interactions. Second, considering that MixFM may generate redundant or even detrimental instances, we further put forward a novel Factorization Machine powered by Saliency-guided Mixup (denoted as SMFM). Guided by the customized saliency, SMFM can generate more informative neighbor data. Through theoretical analysis, we prove that the proposed methods minimize the upper bound of the generalization error, which hold a beneficial effect on enhancing FMs. Significantly, we give the first generalization bound of FM, implying the generalization requires more data and a smaller embedding size under the sufficient representation capability. Finally, extensive experiments on five datasets confirm that our approaches are superior to baselines. Besides, the results show that "poisoning" mixed data is likewise beneficial to the FM variants.
翻訳日:2022-06-20 15:11:58 公開日:2022-06-17
# 説明可能性の利得は 最適性の損失か? --バイアス意思決定の仕方

Explainability's Gain is Optimality's Loss? -- How Explanations Bias Decision-making ( http://arxiv.org/abs/2206.08705v1 )

ライセンス: Link先を確認
Charles Wan, Rodrigo Belo, Leid Zejnilovi\'c(参考訳) 組織における決定は、オルタナティブを評価し、組織目標に最適なものを選択することです。 適切なメトリクスを用いた予測タスクとして代替品の評価を定式化できるほど、機械学習アルゴリズムはプロセスの効率を改善するためにますます使われている。 説明は、アルゴリズムと人間の意思決定者間のコミュニケーションを容易にし、前者による予測に基づいて、後者が解釈し、意思決定することを容易にする。 しかし、特徴に基づく因果モデルの意味論は、意思決定者の以前の信念から漏れを引き起こす。 フィールド実験から得られた知見は, このことが, 予測に対する意思決定者の信頼度にどのように影響するかを実証的に示すものである。 このような違いは、準最適かつ偏った決定結果をもたらす可能性がある。

Decisions in organizations are about evaluating alternatives and choosing the one that would best serve organizational goals. To the extent that the evaluation of alternatives could be formulated as a predictive task with appropriate metrics, machine learning algorithms are increasingly being used to improve the efficiency of the process. Explanations help to facilitate communication between the algorithm and the human decision-maker, making it easier for the latter to interpret and make decisions on the basis of predictions by the former. Feature-based explanations' semantics of causal models, however, induce leakage from the decision-maker's prior beliefs. Our findings from a field experiment demonstrate empirically how this leads to confirmation bias and disparate impact on the decision-maker's confidence in the predictions. Such differences can lead to sub-optimal and biased decision outcomes.
翻訳日:2022-06-20 15:09:53 公開日:2022-06-17
# ML4SEモデルにおけるソースコードパーザの影響評価

Evaluating the Impact of Source Code Parsers on ML4SE Models ( http://arxiv.org/abs/2206.08713v1 )

ライセンス: Link先を確認
Ilya Utkin, Egor Spirin, Egor Bogomolov, Timofey Bryksin(参考訳) 研究者や実践者が機械学習を、ますます多くのソフトウェアエンジニアリング問題に適用するにつれ、彼らが使用するアプローチはより洗練されていく。 現代的なアプローチの多くは、抽象構文木(AST)またはその拡張(パスベースの表現、ASTと追加のエッジを組み合わせた複雑なグラフ)の形で内部コード構造を利用する。 コードからASTを抽出するプロセスは異なるパーサーで行うことができるが、パーサーの選択が最終的なモデル品質に与える影響は未検討である。 さらに、研究者はしばしば特定のコード表現を抽出する正確な詳細を省略する。 本研究では,Java言語の8つの異なるパーサが支援するメソッド名予測タスクにおいて,Code2SeqとTreeLSTMの2つのモデルを評価する。 そこで我々は,PathMinerをベースとした多言語構文解析ライブラリであるSuperParserを開発した。 SuperParserは、ソースコードから構造情報を扱うMLモデルのトレーニングと評価に適したデータセットのエンドツーエンド作成を容易にする。 その結果,異なるパーサによって構築される木は,その構造や内容によって異なることがわかった。 そして、この多様性がモデルの品質にどのように影響するかを分析し、両方のモデルの最も適したパーサーと最も適さないパーサー間の品質ギャップが重要であることを示した。 最後に、モデル品質への影響とともに、研究者や実践者がパーサーを選択する際に考慮すべきパーサーの他の特徴について論じる。 SuperParserのコードはhttps://doi.org/10.5281/zenodo.6366591で公開されている。 また、モデルを評価するために使用するデータセットであるjava-normも公開しています。

As researchers and practitioners apply Machine Learning to increasingly more software engineering problems, the approaches they use become more sophisticated. A lot of modern approaches utilize internal code structure in the form of an abstract syntax tree (AST) or its extensions: path-based representation, complex graph combining AST with additional edges. Even though the process of extracting ASTs from code can be done with different parsers, the impact of choosing a parser on the final model quality remains unstudied. Moreover, researchers often omit the exact details of extracting particular code representations. In this work, we evaluate two models, namely Code2Seq and TreeLSTM, in the method name prediction task backed by eight different parsers for the Java language. To unify the process of data preparation with different parsers, we develop SuperParser, a multi-language parser-agnostic library based on PathMiner. SuperParser facilitates the end-to-end creation of datasets suitable for training and evaluation of ML models that work with structural information from source code. Our results demonstrate that trees built by different parsers vary in their structure and content. We then analyze how this diversity affects the models' quality and show that the quality gap between the most and least suitable parsers for both models turns out to be significant. Finally, we discuss other features of the parsers that researchers and practitioners should take into account when selecting a parser along with the impact on the models' quality. The code of SuperParser is publicly available at https://doi.org/10.5281/zenodo.6366591. We also publish Java-norm, the dataset we use to evaluate the models: https://doi.org/10.5281/zenodo.6366599.
翻訳日:2022-06-20 15:09:42 公開日:2022-06-17
# コードクローン検出のためのコード表現を用いたコントラスト学習の評価

Evaluation of Contrastive Learning with Various Code Representations for Code Clone Detection ( http://arxiv.org/abs/2206.08726v1 )

ライセンス: Link先を確認
Maksim Zubkov, Egor Spirin, Egor Bogomolov, Timofey Bryksin(参考訳) コードクローンは、同様の機能を実装するコードスニペットのペアです。 クローン検出は自動ソースコード理解の基本的な分岐であり、リファクタリングレコメンデーション、盗作検出、コード要約に多くの応用がある。 クローン検出の特に興味深い例は、セマンティッククローン(つまり、同じ機能を持つが実装で大きく異なるコードスニペット)の検出である。 セマンティッククローンを検出するための有望なアプローチは、コンピュータビジョンで人気のある機械学習パラダイムであるコントラッシブラーニング(CL)である。 本研究の目的は、最も人気のあるCLアルゴリズムと2つのタスクにおける3つのソースコード表現の組み合わせを評価することである。 最初のタスクはコードクローン検出であり、104アルゴリズムの実装を含むPOJ-104データセットで評価する。 第二の課題は盗作検知である。 このタスクのモデルを評価するために,ソースコードを変換するツールであるCodeTransformatorを紹介した。 私たちは、競争力のあるプログラミングソリューションに基づいて、盗用されたコードを模倣するデータセットを作成するためにそれを使用します。 両方のタスクで9つのモデルをトレーニングし、従来のツールや現代的なトレーニング済みニューラルモデルを含む、既存の6つのアプローチと比較しました。 評価の結果,提案手法は各タスクにおいて多種多様な性能を示すが,グラフベースモデルの性能は他のモデルよりも高い。 CLアルゴリズムのうち、SimCLRとSwAVはより良い結果をもたらすが、Mocoは最も堅牢なアプローチである。 私たちのコードとトレーニングモデルは、https://doi.org/10.5281/zenodo.6360627, https://doi.org/10.5281/zenodo.5596345で利用可能です。

Code clones are pairs of code snippets that implement similar functionality. Clone detection is a fundamental branch of automatic source code comprehension, having many applications in refactoring recommendation, plagiarism detection, and code summarization. A particularly interesting case of clone detection is the detection of semantic clones, i.e., code snippets that have the same functionality but significantly differ in implementation. A promising approach to detecting semantic clones is contrastive learning (CL), a machine learning paradigm popular in computer vision but not yet commonly adopted for code processing. Our work aims to evaluate the most popular CL algorithms combined with three source code representations on two tasks. The first task is code clone detection, which we evaluate on the POJ-104 dataset containing implementations of 104 algorithms. The second task is plagiarism detection. To evaluate the models on this task, we introduce CodeTransformator, a tool for transforming source code. We use it to create a dataset that mimics plagiarised code based on competitive programming solutions. We trained nine models for both tasks and compared them with six existing approaches, including traditional tools and modern pre-trained neural models. The results of our evaluation show that proposed models perform diversely in each task, however the performance of the graph-based models is generally above the others. Among CL algorithms, SimCLR and SwAV lead to better results, while Moco is the most robust approach. Our code and trained models are available at https://doi.org/10.5281/zenodo.6360627, https://doi.org/10.5281/zenodo.5596345.
翻訳日:2022-06-20 15:09:17 公開日:2022-06-17
# 一般凸ゲームにおける近似最適no-regret学習

Near-Optimal No-Regret Learning for General Convex Games ( http://arxiv.org/abs/2206.08742v1 )

ライセンス: Link先を確認
Gabriele Farina, Ioannis Anagnostides, Haipeng Luo, Chung-Wei Lee, Christian Kroer, Tuomas Sandholm(参考訳) 最近の一連の研究は、ゲーム内のすべてのプレイヤーが採用する際、T$の繰り返し後の各プレイヤーの「emph{regret}」は、非regretフレームワーク内の従来の保証よりも指数関数的に向上する、非結合学習力学を確立している。 しかし、これまでのところこれらの結果は、通常の形式や広範な形式のゲームのような、構造化された戦略空間を持つある種のゲームに限られている。 O(\text{polylog} T)$ regret bounds が一般的な凸やコンパクトな戦略集合に対して得られるかどうかという問題は、効率的な戦略更新を維持しながら、経済学やマルチエージェントシステムの多くの基本モデルで発生する。 本稿では,任意の凸とコンパクトな戦略セットでサポートされた凹凸ユーティリティ関数を持つゲームにおいて,O(\log T)$ per-player regreterという最初の未結合学習アルゴリズムを確立することで,これを肯定的に解する。 我々の学習力学は、適度に \emph{lifted} 空間上の楽観的な従順化リーダのインスタンス化に基づいており、これは特に、実現可能な領域の障壁ではない。 さらに、私たちの学習ダイナミクスは、凸戦略セットの近辺のオラクルへのアクセスを前提に、効率的に実装でき、o(\log\log t)$ 1イテレーションの複雑さをもたらします。 最後に、我々は、敵対体制において$o(\sqrt{t})$の後悔を保証するためにダイナミクスを適応させる。 先行結果が適用される特別な場合においても,提案アルゴリズムは繰り返し回数や戦略集合の次元に依存するため,最先端の後悔境界よりも改善される。

A recent line of work has established uncoupled learning dynamics such that, when employed by all players in a game, each player's \emph{regret} after $T$ repetitions grows polylogarithmically in $T$, an exponential improvement over the traditional guarantees within the no-regret framework. However, so far these results have only been limited to certain classes of games with structured strategy spaces -- such as normal-form and extensive-form games. The question as to whether $O(\text{polylog} T)$ regret bounds can be obtained for general convex and compact strategy sets -- which occur in many fundamental models in economics and multiagent systems -- while retaining efficient strategy updates is an important question. In this paper, we answer this in the positive by establishing the first uncoupled learning algorithm with $O(\log T)$ per-player regret in general \emph{convex games}, that is, games with concave utility functions supported on arbitrary convex and compact strategy sets. Our learning dynamics are based on an instantiation of optimistic follow-the-regularized-leader over an appropriately \emph{lifted} space using a \emph{self-concordant regularizer} that is, peculiarly, not a barrier for the feasible region. Further, our learning dynamics are efficiently implementable given access to a proximal oracle for the convex strategy set, leading to $O(\log\log T)$ per-iteration complexity; we also give extensions when access to only a \emph{linear} optimization oracle is assumed. Finally, we adapt our dynamics to guarantee $O(\sqrt{T})$ regret in the adversarial regime. Even in those special cases where prior results apply, our algorithm improves over the state-of-the-art regret bounds either in terms of the dependence on the number of iterations or on the dimension of the strategy sets.
翻訳日:2022-06-20 15:08:51 公開日:2022-06-17
# ランダムなプロジェクションとカーネル化された1つのクラスタのクロスバリデーション:ユニバーサルベースラインと材料特性のための教師付き機械学習のための評価ツール

Random projections and Kernelised Leave One Cluster Out Cross-Validation: Universal baselines and evaluation tools for supervised machine learning for materials properties ( http://arxiv.org/abs/2206.08841v1 )

ライセンス: Link先を確認
Samantha Durdy, Michael Gaultois, Vladimir Gusev, Danushka Bollegala and Matthew J. Rosseinsky(参考訳) 機械学習は、現在の計算材料科学文献で一般的な話題であり、化合物の表現を作ることが一般的になっている。 これらの表現は、それらのパフォーマンスを評価するものとして、まれに比較される。 研究プロセスによって生じる偏りと歪を含む多くの材料データセットにより、以前は目に見えない材料群を予測するアルゴリズムの性能を測定する方法として、1つのクラスタ・オブ・クロス・バリデーション(LOCO-CV)が導入された。 これにより、LOCO-CV測定結果に対するクラスタサイズの範囲の影響、制御に関する疑問が提起される。 コンポジションベース表現の徹底的な比較を行い、LOCO-CVアプリケーションを強化するために、カーネル近似関数を用いてデータ分離を改善する方法について検討する。 テストされたほとんどのタスクにおいて、ドメイン知識は機械学習のパフォーマンスを向上しないが、バンドギャップ予測は例外である。 また、放射基底関数は、試験された10個のデータセットの線形分離性を向上し、この関数をLOCO-CVプロセスに適用するためのフレームワークを提供し、機械学習アルゴリズム、計量の選択、複合表現の選択に関わらず、LOCO-CV測定の結果を改善する。 我々は,アルゴリズムの材料データに対する外挿力の測定を目的としたトレーニングパラダイムとして,LOCO-CVのカーネル化を推奨する。

With machine learning being a popular topic in current computational materials science literature, creating representations for compounds has become common place. These representations are rarely compared, as evaluating their performance - and the performance of the algorithms that they are used with - is non-trivial. With many materials datasets containing bias and skew caused by the research process, leave one cluster out cross validation (LOCO-CV) has been introduced as a way of measuring the performance of an algorithm in predicting previously unseen groups of materials. This raises the question of the impact, and control, of the range of cluster sizes on the LOCO-CV measurement outcomes. We present a thorough comparison between composition-based representations, and investigate how kernel approximation functions can be used to better separate data to enhance LOCO-CV applications. We find that domain knowledge does not improve machine learning performance in most tasks tested, with band gap prediction being the notable exception. We also find that the radial basis function improves the linear separability of chemical datasets in all 10 datasets tested and provide a framework for the application of this function in the LOCO-CV process to improve the outcome of LOCO-CV measurements regardless of machine learning algorithm, choice of metric, and choice of compound representation. We recommend kernelised LOCO-CV as a training paradigm for those looking to measure the extrapolatory power of an algorithm on materials data.
翻訳日:2022-06-20 15:08:19 公開日:2022-06-17
# SYMBA:機械学習による高エネルギー物理における正方形振幅の記号計算

SYMBA: Symbolic Computation of Squared Amplitudes in High Energy Physics with Machine ALearning ( http://arxiv.org/abs/2206.08901v1 )

ライセンス: Link先を確認
Abdulhakim Alnuqaydan, Sergei Gleyzer, Harrison Prosper(参考訳) 断面は高エネルギー物理学において最も重要な物理量の一つであり、計算に最も時間がかかる。 機械学習は高エネルギー物理学における数値計算で非常に成功したが、機械学習を用いた解析計算はまだ初期段階にある。 本研究では,区間計算のキー要素,すなわち相互作用の2乗振幅を計算するためにシーケンシャル・ツー・シーケンス変換モデルを用いる。 変圧器モデルは, qcdとqedの2乗振幅の89.0%と99.4%を精度良く予測できることを示した。 我々は,現在のモデルの性能,限界,今後の方向性について考察する。

The cross section is one of the most important physical quantities in high-energy physics and the most time consuming to compute. While machine learning has proven to be highly successful in numerical calculations in high-energy physics, analytical calculations using machine learning are still in their infancy. In this work, we use a sequence-to-sequence transformer model to compute a key element of the cross section calculation, namely, the squared amplitude of an interaction. We show that a transformer model is able to predict correctly 89.0% and 99.4% of squared amplitudes of QCD and QED processes, respectively. We discuss the performance of the current model, its limitations and possible future directions for this work.
翻訳日:2022-06-20 15:07:52 公開日:2022-06-17
# (参考訳) Unified-IO: ビジョン、言語、マルチモーダルタスクのための統一モデル

Unified-IO: A Unified Model for Vision, Language, and Multi-Modal Tasks ( http://arxiv.org/abs/2206.08916v1 )

ライセンス: CC BY 4.0
Jiasen Lu, Christopher Clark, Rowan Zellers, Roozbeh Mottaghi, Aniruddha Kembhavi(参考訳) 質問応答やパラフレーズ処理などの自然言語処理タスクに対して,ポーズ推定,オブジェクト検出,深度推定と画像生成,領域キャプションや参照表現理解などの視覚・言語タスクなど,従来のコンピュータビジョンタスクにまたがるさまざまなAIタスクを実行するモデルであるUnified-IOを提案する。 このような多種多様なタスクのための単一の統一モデルの開発は、RGB画像、ピクセルごとのマップ、バイナリマスク、バウンディングボックス、言語など、各タスクに関する不均一な入力と出力のために、ユニークな課題を引き起こす。 我々は、サポート対象の入力と出力を個別の語彙トークン列に均質化することで、この統一を実現する。 この共通表現により、ビジョンと言語分野における80以上の多様なデータセットを共同で、単一のトランスフォーマーベースのアーキテクチャをトレーニングすることができます。 Unified-IOはGRITベンチマークで7つのタスクすべてを実行することができる最初のモデルであり、NYUv2-Depth、ImageNet、VQA2.0、OK-VQA、Swig、VizWizGround、BoolQ、SciTailといった16の多様なベンチマークに対して、タスクやベンチマーク固有の微調整なしで強力な結果を生成する。 Unified-IOのデモはhttps://unified-io.allenai.orgで公開されている。

We propose Unified-IO, a model that performs a large variety of AI tasks spanning classical computer vision tasks, including pose estimation, object detection, depth estimation and image generation, vision-and-language tasks such as region captioning and referring expression comprehension, to natural language processing tasks such as question answering and paraphrasing. Developing a single unified model for such a large variety of tasks poses unique challenges due to the heterogeneous inputs and outputs pertaining to each task, including RGB images, per-pixel maps, binary masks, bounding boxes, and language. We achieve this unification by homogenizing every supported input and output into a sequence of discrete vocabulary tokens. This common representation across all tasks allows us to train a single transformer-based architecture, jointly on over 80 diverse datasets in the vision and language fields. Unified-IO is the first model capable of performing all 7 tasks on the GRIT benchmark and produces strong results across 16 diverse benchmarks like NYUv2-Depth, ImageNet, VQA2.0, OK-VQA, Swig, VizWizGround, BoolQ, and SciTail, with no task or benchmark specific fine-tuning. Demos for Unified-IO are available at https://unified-io.allenai.org.
翻訳日:2022-06-20 15:05:45 公開日:2022-06-17
# SimA:視覚変換器用ソフトマックスフリーアテンション

SimA: Simple Softmax-free Attention for Vision Transformers ( http://arxiv.org/abs/2206.08898v1 )

ライセンス: Link先を確認
Soroush Abbasi Koohpayegani, Hamed Pirsiavash(参考訳) 近年,視覚トランスフォーマーが普及している。 しかし、多くのアプリケーションにデプロイするのは、注意ブロックのSoftmax層のために計算コストがかかる。 我々は、Softmaxレイヤの代わりに単純な$\ell_1$-normでクエリとキー行列を正規化する、シンプルで効果的なSoftmaxフリーアテンションブロックSimAを導入する。 次に、SimAのアテンションブロックは3つの行列の単純な乗算であり、SimAはテスト時の計算順序を動的に変更し、トークン数やチャネル数に対する線形計算を実現する。 実験により,SimAが3種類のSOTA変圧器,DeiT,XCiT,CvTに適用されたことにより,SoTAモデルと比較して,ソフトマックス層を必要とせずに精度が低くなることを示した。 興味深いことに、SimAをマルチヘッドからシングルヘッドに変更することは、注意ブロックをさらに単純化する精度に小さな影響しか与えない。 コードはここで入手できる。$\href{https://github.com/ucdvision/sima}{\text{this https url}}$

Recently, vision transformers have become very popular. However, deploying them in many applications is computationally expensive partly due to the Softmax layer in the attention block. We introduce a simple but effective, Softmax-free attention block, SimA, which normalizes query and key matrices with simple $\ell_1$-norm instead of using Softmax layer. Then, the attention block in SimA is a simple multiplication of three matrices, so SimA can dynamically change the ordering of the computation at the test time to achieve linear computation on the number of tokens or the number of channels. We empirically show that SimA applied to three SOTA variations of transformers, DeiT, XCiT, and CvT, results in on-par accuracy compared to the SOTA models, without any need for Softmax layer. Interestingly, changing SimA from multi-head to single-head has only a small effect on the accuracy, which simplifies the attention block further. The code is available here: $\href{https://github.com/UCDvision/sima}{\text{This https URL}}$
翻訳日:2022-06-20 14:38:33 公開日:2022-06-17
# vlmixer:クロスモーダルカットミックスによる非ペアビジョン言語事前学習

VLMixer: Unpaired Vision-Language Pre-training via Cross-Modal CutMix ( http://arxiv.org/abs/2206.08919v1 )

ライセンス: Link先を確認
Teng Wang, Wenhao Jiang, Zhichao Lu, Feng Zheng, Ran Cheng, Chengguo Yin, Ping Luo(参考訳) 既存の視覚言語事前学習(VLP)手法は、主に、膨大な人間の労働力によって注釈付けされたペア画像テキストデータセット、あるいはインターネットからクロールされた後、精巧なデータクリーニング技術に頼っている。 整列された画像テキスト対への依存を減らすため、大規模なテキストのみと画像のみのコーパスを直接活用することを約束している。 本稿では,非ペアVLPにおける暗黙的なクロスモーダルアライメント学習のためのデータ拡張手法,すなわちクロスモーダルCutMix(CMC)を提案する。 具体的には、CMCは自然文をテキストビューからマルチモーダルビューに変換し、文中の視覚的に接頭した単語を、類似した意味を持つ多様な画像パッチにランダムに置き換える。 提案されているcmcの魅力はいくつかある。 第2に、ユニモーダルデータにクロスモーダルノイズを付加することにより、モダリティ間でのトークンレベルの相互作用を学習し、より良質な装飾を行うようにモデルに誘導する。 さらに,vlmixerと呼ばれる新しい非ペアリングvlp法を提案する。この手法は,cmcとコントラスト学習を統合して,単モードと多モードのビューを組み合わせることで,異なるモダリティ間のインスタンスレベルのアライメントを改善する。 5つの下流タスクに関する大規模な実験は、VLMixerが以前の最先端の未実装のVLPメソッドを超える可能性があることを示している。

Existing vision-language pre-training (VLP) methods primarily rely on paired image-text datasets, which are either annotated by enormous human labors, or crawled from the internet followed by elaborate data cleaning techniques. To reduce the dependency on well-aligned image-text pairs, it is promising to directly leverage the large-scale text-only and image-only corpora. This paper proposes a data augmentation method, namely cross-modal CutMix (CMC), for implicit cross-modal alignment learning in unpaired VLP. Specifically, CMC transforms natural sentences from the textual view into a multi-modal view, where visually-grounded words in a sentence are randomly replaced by diverse image patches with similar semantics. There are several appealing proprieties of the proposed CMC. First, it enhances the data diversity while keeping the semantic meaning intact for tackling problems where the aligned data are scarce; Second, by attaching cross-modal noise on uni-modal data, it guides models to learn token-level interactions across modalities for better denoising. Furthermore, we present a new unpaired VLP method, dubbed as VLMixer, that integrates CMC with contrastive learning to pull together the uni-modal and multi-modal views for better instance-level alignments among different modalities. Extensive experiments on five downstream tasks show that VLMixer could surpass previous state-of-the-art unpaired VLP methods.
翻訳日:2022-06-20 14:38:11 公開日:2022-06-17
# ComENet: 3次元分子グラフのための完全かつ効率的なメッセージパッシングを目指す

ComENet: Towards Complete and Efficient Message Passing for 3D Molecular Graphs ( http://arxiv.org/abs/2206.08515v1 )

ライセンス: Link先を確認
Limei Wang, Yi Liu, Yuchao Lin, Haoran Liu, Shuiwang Ji(参考訳) 現実世界のデータの多くは3dグラフとしてモデル化できるが、3d情報を完全かつ効率的に組み込んだ学習表現は困難である。 既存の方法は部分的な3D情報を使用するか、過剰な計算コストに悩まされる。 3次元情報を完全かつ効率的に組み込むため,1-hop近傍で機能する新しいメッセージパッシング方式を提案する。 本手法は,グローバルかつ局所的な完全性を達成することにより,3次元グラフ上の3次元情報の完全性を保証する。 特に,大域的完全性を達成するために重要な回転角を提案する。 さらに,本手法は従来の手法よりも桁違いに高速であることを示す。 提案手法の完全性の厳密な証明と時間複雑性の解析を行う。 分子は本質的に量子システムであるため、量子インスパイアされた基底関数と提案するメッセージパッシングスキームを組み合わせることで、\underline{com}plete と \underline{e}fficient graph neural network (comenet) を構築する。 実験結果は、特にグラフの数とサイズの両方で大きい実世界のデータセットにおいて、ComENetの能力と効率を示す。 私たちのコードは、DIGライブラリ(\url{https://github.com/divelab/DIG})の一部として公開されています。

Many real-world data can be modeled as 3D graphs, but learning representations that incorporates 3D information completely and efficiently is challenging. Existing methods either use partial 3D information, or suffer from excessive computational cost. To incorporate 3D information completely and efficiently, we propose a novel message passing scheme that operates within 1-hop neighborhood. Our method guarantees full completeness of 3D information on 3D graphs by achieving global and local completeness. Notably, we propose the important rotation angles to fulfill global completeness. Additionally, we show that our method is orders of magnitude faster than prior methods. We provide rigorous proof of completeness and analysis of time complexity for our methods. As molecules are in essence quantum systems, we build the \underline{com}plete and \underline{e}fficient graph neural network (ComENet) by combing quantum inspired basis functions and the proposed message passing scheme. Experimental results demonstrate the capability and efficiency of ComENet, especially on real-world datasets that are large in both numbers and sizes of graphs. Our code is publicly available as part of the DIG library (\url{https://github.com/divelab/DIG}).
翻訳日:2022-06-20 14:37:18 公開日:2022-06-17
# 火口モデルのエミュレーションのための時空間ニューラルネットワーク予測手法

A Spatio-Temporal Neural Network Forecasting Approach for Emulation of Firefront Models ( http://arxiv.org/abs/2206.08523v1 )

ライセンス: Link先を確認
Andrew Bolt, Carolyn Huston, Petra Kuhnert, Joel Janek Dabrowski, James Hilton, Conrad Sanderson(参考訳) 山火事の拡散の計算シミュレーションは、様々な条件(地形、燃料タイプ、天候など)下での実験的な速度計算を用いるのが一般的である。 条件の小さな摂動は、しばしば火の広がり(速度や方向など)を大きく変化させ、不確実性を定量化するために計算に高価な大規模なシミュレーションを必要とする。 モデルエミュレーションは、より効率的で単純化された代理モデルを提供することを目的として、機械学習を使用して物理モデルの代替表現を求める。 本研究では, モデルエミュレーションのための時空間ニューラルネットワークを用いたフレームワークを提案し, 火災拡散モデルの複雑な挙動を捉える。 提案手法は、ニューラルネットワークに基づくアプローチにおいてしばしば困難となる、空間的および時間的細部での予測を近似することができる。 さらに,新しいデータ拡張手法により,小規模のトレーニングセットでも頑健な手法を提案する。 実証実験では、シミュレーションとエミュレートされたファイアフロントの間に良い一致を示し、平均的なジャカードスコアは0.76である。

Computational simulations of wildfire spread typically employ empirical rate-of-spread calculations under various conditions (such as terrain, fuel type, weather). Small perturbations in conditions can often lead to significant changes in fire spread (such as speed and direction), necessitating a computationally expensive large set of simulations to quantify uncertainty. Model emulation seeks alternative representations of physical models using machine learning, aiming to provide more efficient and/or simplified surrogate models. We propose a dedicated spatio-temporal neural network based framework for model emulation, able to capture the complex behaviour of fire spread models. The proposed approach can approximate forecasts at fine spatial and temporal resolutions that are often challenging for neural network based approaches. Furthermore, the proposed approach is robust even with small training sets, due to novel data augmentation methods. Empirical experiments show good agreement between simulated and emulated firefronts, with an average Jaccard score of 0.76.
翻訳日:2022-06-20 14:34:43 公開日:2022-06-17
# 一般化のためにどう始めるか

How You Start Matters for Generalization ( http://arxiv.org/abs/2206.08558v1 )

ライセンス: Link先を確認
Sameera Ramasinghe, Lachlan MacDonald, Moshiur Farazi, Hemanth Sartachandran, Simon Lucey(参考訳) 過パラメータニューラルネットワークの顕著な一般化特性を特徴付けることは、まだ未解決の問題である。 本稿では,この暗黙の正規化を説明するために,ニューラルネットワークや(確率的な)勾配降下よりも初期化に焦点を移すことを促進する。 フーリエレンズを用いて、ニューラルネットワークのスペクトルバイアスに関する一般的な結果を導出し、ニューラルネットワークの一般化がその初期化に強く結びついていることを示す。 さらに,実用的深層ネットワークを用いた理論的洞察を実証的に確立した。 最後に、議論を呼んでいるフラットミニマ予想に反論し、フーリエ解析がニューラルネットワークの一般化を理解するためのより信頼性の高い枠組みを与えることを示した。

Characterizing the remarkable generalization properties of over-parameterized neural networks remains an open problem. In this paper, we promote a shift of focus towards initialization rather than neural architecture or (stochastic) gradient descent to explain this implicit regularization. Through a Fourier lens, we derive a general result for the spectral bias of neural networks and show that the generalization of neural networks is heavily tied to their initialization. Further, we empirically solidify the developed theoretical insights using practical, deep networks. Finally, we make a case against the controversial flat-minima conjecture and show that Fourier analysis grants a more reliable framework for understanding the generalization of neural networks.
翻訳日:2022-06-20 14:34:29 公開日:2022-06-17
# ダミーノードによるグラフ構造学習の強化

Boosting Graph Structure Learning with Dummy Nodes ( http://arxiv.org/abs/2206.08561v1 )

ライセンス: Link先を確認
Xin Liu, Jiayang Cheng, Yangqiu Song, Xin Jiang(参考訳) グラフカーネルとグラフ表現学習の開発により、グラフ構造学習におけるスケーラビリティと過度な問題に対処する多くの優れた手法が提案されている。 しかし、これらの戦略のほとんどは理論解析よりも実践的な経験に基づいて設計されている。 本稿では,既存のすべての頂点と接続するダミーノードを,元の頂点やエッジ特性に影響を与えずに使用する。 さらに、このようなダミーノードは、効率的な一様エッジ-頂点変換とエピモルフィック逆を構築でき、元のグラフを復元できることを示す。 また、ダミーノードの追加は、グラフ表現学習を改善するためにローカルおよびグローバル構造を保存できることを示している。 グラフカーネルとグラフニューラルネットワークをダミーノードで拡張し,グラフ分類と部分グラフ同型マッチングタスクの実験を行う。 実験の結果、ダミーノードを入力とするグラフはグラフ構造学習を著しく促進し、edge-to-vertexグラフも同様の結果が得られることがわかった。 また,ニューラルネットワークにおけるダミーからの表現力の獲得についても論じる。

With the development of graph kernels and graph representation learning, many superior methods have been proposed to handle scalability and oversmoothing issues on graph structure learning. However, most of those strategies are designed based on practical experience rather than theoretical analysis. In this paper, we use a particular dummy node connecting to all existing vertices without affecting original vertex and edge properties. We further prove that such the dummy node can help build an efficient monomorphic edge-to-vertex transform and an epimorphic inverse to recover the original graph back. It also indicates that adding dummy nodes can preserve local and global structures for better graph representation learning. We extend graph kernels and graph neural networks with dummy nodes and conduct experiments on graph classification and subgraph isomorphism matching tasks. Empirical results demonstrate that taking graphs with dummy nodes as input significantly boosts graph structure learning, and using their edge-to-vertex graphs can also achieve similar results. We also discuss the gain of expressive power from the dummy in neural networks.
翻訳日:2022-06-20 14:34:19 公開日:2022-06-17
# dfg-nas: 深く柔軟なグラフニューラルネットワーク検索

DFG-NAS: Deep and Flexible Graph Neural Architecture Search ( http://arxiv.org/abs/2206.08582v1 )

ライセンス: Link先を確認
Wentao Zhang, Zheyu Lin, Yu Shen, Yang Li, Zhi Yang, Bin Cui(参考訳) グラフニューラルネットワーク(GNN)は、様々なグラフベースのアプリケーションに強く適用されている。 彼らの成功にもかかわらず、身近なGNNを手動で設計するには膨大な専門知識が必要である。 したがって、潜在的に最適なデータ固有のGNNアーキテクチャを見つけることは非効率である。 本稿では,非常に深く柔軟なGNNアーキテクチャの自動探索を可能にする新しいニューラルアーキテクチャ探索(NAS)手法であるDFG-NASを提案する。 既存のマイクロアーキテクチャにフォーカスした手法と異なり、dfg-nasは別のレベルの設計を強調する: 原子伝搬(\textbf{\textt{p}})と変換(\textbf{\textt{t}})の操作がgnnに統合され組織化される方法に関するマクロアーキテクチャの探索。 この目的のためにdfg-nasは、メッセージ・パッシブ・ディス・アグリゲーション(英語版)に基づく置換と組合せを分類する新しい探索空間を提案し、4つのカスタム設計のマクロアーキテクチャ変異を定義し、進化アルゴリズムを用いて効率的かつ効果的な探索を行う。 4つのノード分類タスクに関する実証的研究は、DFG-NASがGNNの最先端手動設計やNASメソッドより優れていることを示している。

Graph neural networks (GNNs) have been intensively applied to various graph-based applications. Despite their success, manually designing the well-behaved GNNs requires immense human expertise. And thus it is inefficient to discover the potentially optimal data-specific GNN architecture. This paper proposes DFG-NAS, a new neural architecture search (NAS) method that enables the automatic search of very deep and flexible GNN architectures. Unlike most existing methods that focus on micro-architectures, DFG-NAS highlights another level of design: the search for macro-architectures on how atomic propagation (\textbf{\texttt{P}}) and transformation (\textbf{\texttt{T}}) operations are integrated and organized into a GNN. To this end, DFG-NAS proposes a novel search space for \textbf{\texttt{P-T}} permutations and combinations based on message-passing dis-aggregation, defines four custom-designed macro-architecture mutations, and employs the evolutionary algorithm to conduct an efficient and effective search. Empirical studies on four node classification tasks demonstrate that DFG-NAS outperforms state-of-the-art manual designs and NAS methods of GNNs.
翻訳日:2022-06-20 14:34:03 公開日:2022-06-17
# NAFS: グラフ表現学習のためのシンプルで難しいベースライン

NAFS: A Simple yet Tough-to-beat Baseline for Graph Representation Learning ( http://arxiv.org/abs/2206.08583v1 )

ライセンス: Link先を確認
Wentao Zhang, Zeang Sheng, Mingyu Yang, Yang Li, Yu Shen, Zhi Yang, Bin Cui(参考訳) 近年、グラフニューラルネットワーク(gnns)は、グラフ構造とノード機能の両方から知識を活用し、グラフ表現学習において顕著な性能を示している。 しかし、そのほとんどは2つの大きな制限がある。 まず、GNNはより多くのレイヤを積み重ねて高階構造情報を学ぶことができるが、過度にスムースな問題のために大きな深さを扱うことはできない。 第二に、高価な計算コストと高いメモリ使用量のために、これらの手法を大きなグラフに適用するのは容易ではない。 本稿では,パラメータ学習なしでノード表現を構成する単純な非パラメトリック手法であるノード適応型特徴平滑化(NAFS)を提案する。 NAFSはまず、各ノードの特徴を異なるホップの隣人にスムーズに抽出し、次にスムーズな特徴を適応的に組み合わせる。 さらに、異なる平滑化戦略によって抽出された平滑化特徴のアンサンブルにより、構築ノード表現をさらに強化することができる。 ノードクラスタリングとリンク予測という,2つの異なるアプリケーションシナリオに関する4つのベンチマークデータセットの実験を行った。 注目すべきは、機能アンサンブルを持つNAFSは、これらのタスクにおける最先端のGNNよりも優れており、前述の学習ベースのGNNの2つの制限を緩和する。

Recently, graph neural networks (GNNs) have shown prominent performance in graph representation learning by leveraging knowledge from both graph structure and node features. However, most of them have two major limitations. First, GNNs can learn higher-order structural information by stacking more layers but can not deal with large depth due to the over-smoothing issue. Second, it is not easy to apply these methods on large graphs due to the expensive computation cost and high memory usage. In this paper, we present node-adaptive feature smoothing (NAFS), a simple non-parametric method that constructs node representations without parameter learning. NAFS first extracts the features of each node with its neighbors of different hops by feature smoothing, and then adaptively combines the smoothed features. Besides, the constructed node representation can further be enhanced by the ensemble of smoothed features extracted via different smoothing strategies. We conduct experiments on four benchmark datasets on two different application scenarios: node clustering and link prediction. Remarkably, NAFS with feature ensemble outperforms the state-of-the-art GNNs on these tasks and mitigates the aforementioned two limitations of most learning-based GNN counterparts.
翻訳日:2022-06-20 14:33:39 公開日:2022-06-17
# 不均一データに対するインクリメンタルクラスタリングによるフェデレーション学習

Federated learning with incremental clustering for heterogeneous data ( http://arxiv.org/abs/2206.08752v1 )

ライセンス: Link先を確認
Fabiola Espinoza Castellon, Aurelien Mayoue, Jacques-Henri Sublemontier, Cedric Gouy-Pailler(参考訳) フェデレーション学習は、クライアントのデバイスにトレーニングデータを保持しながら、サーバのオーケストレーションの下で、さまざまなパーティが協力してグローバルモデルを構築することを可能にする。 しかし、クライアントが異質なデータを持っている場合、パフォーマンスは影響を受ける。 この問題に対処するために、データの不均一性にもかかわらず、同様のデータ分布を持つクライアント群がクラスタ化できると仮定する。 以前のアプローチでは、クライアントをクラスタ化するには、クライアントがパラメータを同時に送信する必要がある。 しかし、可用性に制限のある参加者がかなりの数いる状況では、これは問題となる可能性がある。 このようなボトルネックを回避するために,サーバが同時にパラメータを送信するのではなく,クライアントから送信される更新を活用できるFLIC(Federated Learning with Incremental Clustering)を提案する。 したがって、サーバとクライアントの間の追加の通信は、古典的な連合学習に必要なもの以外は不要である。 我々は,この手法がクライアントを同じデータ分布に従うグループに分割することに成功していることを示す。 また、フェデレート学習プロセスの初期段階において、クライアントを分割する能力を効率よく研究することで、FLICの限界を識別する。 さらに,データの不均質性としてモデルへの攻撃にも対処し,悪意のあるクライアントの割合が50\%以上であっても,flicは中毒攻撃に対する強固な防御であることを示す。

Federated learning enables different parties to collaboratively build a global model under the orchestration of a server while keeping the training data on clients' devices. However, performance is affected when clients have heterogeneous data. To cope with this problem, we assume that despite data heterogeneity, there are groups of clients who have similar data distributions that can be clustered. In previous approaches, in order to cluster clients the server requires clients to send their parameters simultaneously. However, this can be problematic in a context where there is a significant number of participants that may have limited availability. To prevent such a bottleneck, we propose FLIC (Federated Learning with Incremental Clustering), in which the server exploits the updates sent by clients during federated training instead of asking them to send their parameters simultaneously. Hence no additional communications between the server and the clients are necessary other than what classical federated learning requires. We empirically demonstrate for various non-IID cases that our approach successfully splits clients into groups following the same data distributions. We also identify the limitations of FLIC by studying its capability to partition clients at the early stages of the federated learning process efficiently. We further address attacks on models as a form of data heterogeneity and empirically show that FLIC is a robust defense against poisoning attacks even when the proportion of malicious clients is higher than 50\%.
翻訳日:2022-06-20 14:33:19 公開日:2022-06-17
# 多クラス分類のための真に順序のない確率的ルールセット

Truly Unordered Probabilistic Rule Sets for Multi-class Classification ( http://arxiv.org/abs/2206.08804v1 )

ライセンス: Link先を確認
Lincen Yang, Matthijs van Leeuwen(参考訳) ルールセット学習は長い間研究されてきたが、近年は解釈可能なモデルの必要性から再検討されている。 それでも、既存の方法にはいくつかの欠点がある。 1) 最近の手法では、入力としてバイナリ特徴行列が必要であり、数値変数から直接ルールを学習する。 2) 既存の方法は,明示的にも暗黙的にも,解釈可能性に害を与える規則間で命令を課す。 3) 現在,多クラス対象変数に対する確率的ルールセットの学習方法は存在しない(確率的ルールリストの方法のみが存在する)。 本稿では、これらの欠点に対処する真に無秩序なルールセットのTURSを提案する。 まず、真に順序のない規則集合を学習する問題を定式化する。 重複するルール、すなわち複数のルールがカバーするインスタンスによって引き起こされる競合を解決するために、ルール集合の確率的性質を利用する新しいアプローチを提案する。 次に,ルール集合を注意深く学習する二相ヒューリスティックアルゴリズムを開発した。 重要なイノベーションは、ローカルルールを学ぶ際に設定されたルールのグローバルなポテンシャルを考慮に入れるために、サロゲートスコアを使用することです。 最後に,非確率的かつ(明示的あるいは暗黙的に)順序づけられた最先端の手法と比較して,より優れた解釈性(すなわち,小さく,真に順序のない)を持つ規則集合を学習し,予測性能も向上することを示す。

Rule set learning has long been studied and has recently been frequently revisited due to the need for interpretable models. Still, existing methods have several shortcomings: 1) most recent methods require a binary feature matrix as input, learning rules directly from numeric variables is understudied; 2) existing methods impose orders among rules, either explicitly or implicitly, which harms interpretability; and 3) currently no method exists for learning probabilistic rule sets for multi-class target variables (there is only a method for probabilistic rule lists). We propose TURS, for Truly Unordered Rule Sets, which addresses these shortcomings. We first formalise the problem of learning truly unordered rule sets. To resolve conflicts caused by overlapping rules, i.e., instances covered by multiple rules, we propose a novel approach that exploits the probabilistic properties of our rule sets. We next develop a two-phase heuristic algorithm that learns rule sets by carefully growing rules. An important innovation is that we use a surrogate score to take the global potential of the rule set into account when learning a local rule. Finally, we empirically demonstrate that, compared to non-probabilistic and (explicitly or implicitly) ordered state-of-the-art methods, our method learns rule sets that not only have better interpretability (i.e., they are smaller and truly unordered), but also better predictive performance.
翻訳日:2022-06-20 14:32:56 公開日:2022-06-17
# (参考訳) 深層学習における信頼度校正の比較研究:コンピュータビジョンから医用画像まで

A Comparative Study of Confidence Calibration in Deep Learning: From Computer Vision to Medical Imaging ( http://arxiv.org/abs/2206.08833v1 )

ライセンス: CC BY 4.0
Riqiang Gao, Thomas Li, Yucheng Tang, Zhoubing Xu, Michael Kammer, Sanja L. Antic, Kim Sandler, Fabien Moldonado, Thomas A. Lasko, Bennett Landman(参考訳) ディープラーニング予測モデルは、異なるクラスの識別に成功しているが、医療を含む課題領域におけるキャリブレーションの低下に悩まされることがしばしばある。 さらに, 長期分布は, 臨床疾患予測を含む深層学習の分類問題において大きな課題となる。 近年、コンピュータビジョンの深い予測を校正する手法が提案されているが、代表モデルが異なる状況下でどのように動作するかを実証する研究はない。 本稿では,コンピュータビジョンから医用画像への信頼度校正と,4つのハイインパクト校正モデルの比較研究とを橋渡しする。 本研究は,非平衡トレーニングセットとコンピュータビジョンと医用画像とを含む,さまざまな文脈(自然画像分類と肺がんリスク推定)で実施されている。 その結果,(1) 異なる学習環境下では研究されない新たな結論,例えば,過信予測を緩和する2つのキャリブレーションモデルを組み合わせることにより,信頼度の低い予測が得られ,コンピュータビジョン領域からの単純なキャリブレーションモデルの方が医用画像により一般化しやすい傾向が示唆された。 2)一般のコンピュータビジョンタスクと医用画像予測のギャップ,例えば,一般のコンピュータビジョンタスクに適した校正手法は,実際に医用画像予測の校正を損なう可能性がある。 (3) 自然画像分類設定における過去の結論を補強する。 本研究は,一般コンピュータビジョンと医用画像領域のギャップを理解するために,キャリブレーションモデルの選択を読者に指導する効果があると信じている。

Although deep learning prediction models have been successful in the discrimination of different classes, they can often suffer from poor calibration across challenging domains including healthcare. Moreover, the long-tail distribution poses great challenges in deep learning classification problems including clinical disease prediction. There are approaches proposed recently to calibrate deep prediction in computer vision, but there are no studies found to demonstrate how the representative models work in different challenging contexts. In this paper, we bridge the confidence calibration from computer vision to medical imaging with a comparative study of four high-impact calibration models. Our studies are conducted in different contexts (natural image classification and lung cancer risk estimation) including in balanced vs. imbalanced training sets and in computer vision vs. medical imaging. Our results support key findings: (1) We achieve new conclusions which are not studied under different learning contexts, e.g., combining two calibration models that both mitigate the overconfident prediction can lead to under-confident prediction, and simpler calibration models from the computer vision domain tend to be more generalizable to medical imaging. (2) We highlight the gap between general computer vision tasks and medical imaging prediction, e.g., calibration methods ideal for general computer vision tasks may in fact damage the calibration of medical imaging prediction. (3) We also reinforce previous conclusions in natural image classification settings. We believe that this study has merits to guide readers to choose calibration models and understand gaps between general computer vision and medical imaging domains.
翻訳日:2022-06-20 14:31:00 公開日:2022-06-17
# 地図適応レーン損失に基づく複数軌道予測の多様性向上

Improving Diversity of Multiple Trajectory Prediction based on Map-adaptive Lane Loss ( http://arxiv.org/abs/2206.08641v1 )

ライセンス: Link先を確認
Sanmin Kim, Hyeongseok Jeon, Junwon Choi, and Dongsuk Kum(参考訳) 自律走行のための運動予測の分野における先行技術は、地上の真理軌道に近い軌道を見つけることに集中する傾向がある。 しかし、このような問題定式化とアプローチは、しばしば多様性の喪失と偏りのある軌道予測につながる。 したがって、多様な道路依存のマルチモーダル軌道予測が安全にとって重要な現実の自動運転には適さない。 そこで本研究では,マップ適応型多様性を保証し,幾何学的制約を満たす新しい損失関数 \textit{lane loss} を提案する。 新規な軌道候補提案モジュールである \textit{trajectory prediction attention (tpa)} を備えた2段階の軌道予測アーキテクチャは、レーン損失で訓練され、複数の軌道が多様に分散され、地図認識の方法で実現可能な操作がカバーされる。 さらに、既存の軌道性能指標が地中の将来軌道に基づく精度評価に重点を置いていることを考慮し、予測された複数の軌道の多様性を評価する定量的評価指標を提案する。 argoverseデータセットで行った実験により,提案手法は予測精度を犠牲にすることなく,予測軌道の多様性を著しく向上させることがわかった。

Prior arts in the field of motion predictions for autonomous driving tend to focus on finding a trajectory that is close to the ground truth trajectory. Such problem formulations and approaches, however, frequently lead to loss of diversity and biased trajectory predictions. Therefore, they are unsuitable for real-world autonomous driving where diverse and road-dependent multimodal trajectory predictions are critical for safety. To this end, this study proposes a novel loss function, \textit{Lane Loss}, that ensures map-adaptive diversity and accommodates geometric constraints. A two-stage trajectory prediction architecture with a novel trajectory candidate proposal module, \textit{Trajectory Prediction Attention (TPA)}, is trained with Lane Loss encourages multiple trajectories to be diversely distributed, covering feasible maneuvers in a map-aware manner. Furthermore, considering that the existing trajectory performance metrics are focusing on evaluating the accuracy based on the ground truth future trajectory, a quantitative evaluation metric is also suggested to evaluate the diversity of predicted multiple trajectories. The experiments performed on the Argoverse dataset show that the proposed method significantly improves the diversity of the predicted trajectories without sacrificing the prediction accuracy.
翻訳日:2022-06-20 14:12:01 公開日:2022-06-17
# 意味セグメンテーションのための暗黙的特徴アライメント関数の学習

Learning Implicit Feature Alignment Function for Semantic Segmentation ( http://arxiv.org/abs/2206.08655v1 )

ライセンス: Link先を確認
Hanzhe Hu, Yinbo Chen, Jiarui Xu, Shubhankar Borse, Hong Cai, Fatih Porikli, Xiaolong Wang(参考訳) 低レベルな詳細にハイレベルなコンテキスト情報を統合することは、セマンティックセグメンテーションにおいて重要となる。 この目的に向けて、既存のセグメンテーションモデルの多くは、異なるスケールの特徴写像に双線形のアップサンプリングと畳み込みを適用し、同じ解像度でそれらを整列させる。 しかし、双線形アップサンプリングはこれらの特徴マップで得られた正確な情報を曖昧にし、畳み込みによって余分な計算コストがかかる。 これらの問題に対処するため,IFA (Implicit Feature Alignment Function) を提案する。 本手法は,信号場を指定するために座標ベースのニューラルネットワークを用いる暗黙的ニューラルネットワークの急速に拡大する話題に着想を得たものである。 ifaでは、特徴ベクトルは情報の2次元フィールドを表すと見なされる。 クエリ座標が与えられた後、その周辺特徴ベクトルとその相対座標を多層特徴写像から取り出し、MLPに入力して対応する出力を生成する。 したがって、IFAは機能マップを異なるレベルで暗黙的に整列させ、任意の解像度でセグメンテーションマップを生成することができる。 都市景観,PASCALコンテキスト,ADE20Kなど,複数のデータセットに対するIFAの有効性を示す。 本手法は,様々なアーキテクチャの改善と組み合わせることで,共通ベンチマークにおいて最先端の計算精度のトレードオフを実現する。 コードはhttps://github.com/hzhupku/ifaで入手できる。

Integrating high-level context information with low-level details is of central importance in semantic segmentation. Towards this end, most existing segmentation models apply bilinear up-sampling and convolutions to feature maps of different scales, and then align them at the same resolution. However, bilinear up-sampling blurs the precise information learned in these feature maps and convolutions incur extra computation costs. To address these issues, we propose the Implicit Feature Alignment function (IFA). Our method is inspired by the rapidly expanding topic of implicit neural representations, where coordinate-based neural networks are used to designate fields of signals. In IFA, feature vectors are viewed as representing a 2D field of information. Given a query coordinate, nearby feature vectors with their relative coordinates are taken from the multi-level feature maps and then fed into an MLP to generate the corresponding output. As such, IFA implicitly aligns the feature maps at different levels and is capable of producing segmentation maps in arbitrary resolutions. We demonstrate the efficacy of IFA on multiple datasets, including Cityscapes, PASCAL Context, and ADE20K. Our method can be combined with improvement on various architectures, and it achieves state-of-the-art computation-accuracy trade-off on common benchmarks. Code will be made available at https://github.com/hzhupku/IFA.
翻訳日:2022-06-20 14:11:38 公開日:2022-06-17
# FD-CAM:CNNにおける視覚表現の忠実度と識別性の改善

FD-CAM: Improving Faithfulness and Discriminability of Visual Explanation for CNNs ( http://arxiv.org/abs/2206.08792v1 )

ライセンス: Link先を確認
Hui Li, Zihao Li, Rui Ma, Tieru Wu(参考訳) 畳み込みニューラルネットワークの内部動作機構を視覚的に説明するために,クラスアクティベーションマップ(CAM)が広く研究されている。 既存のCAMベースの手法の鍵は、目標畳み込み層の活性化マップを結合する効果的な重みを計算することである。 既存の勾配とスコアに基づく重み付けスキームは、CAMの差別性または忠実性を保証する上で優位性を示しているが、それらは通常両方の特性において排他的ではない。 本稿では,CAMに基づくCNN視覚的説明の忠実度と差別性を両立させるため,FD-CAMと呼ばれる新しいCAM重み付け手法を提案する。 まず,グループ化チャネル切替操作を行うことで,スコアベース重みの忠実度と識別性を向上させる。 具体的には,各チャネルの類似度グループを計算し,同時にチャネルのグループをオン/オフにし,クラス予測スコアの変化を重みとして計算する。 そして,改良されたスコアベース重みと従来の勾配ベース重みを組み合わせることにより,最終的なCAMの識別性をさらに向上させることができる。 我々は最先端のCAMアルゴリズムと比較を行った。 定量的および質的な結果から,我々のFD-CAMはCNNのより忠実で差別的な視覚的説明を得られることが示された。 また,提案するグループ化チャネル切替方式と重み付け方式の有効性を検証する実験を行った。 私たちのコードはhttps://github.com/crishhh1998/fd-camで利用可能です。

Class activation map (CAM) has been widely studied for visual explanation of the internal working mechanism of convolutional neural networks. The key of existing CAM-based methods is to compute effective weights to combine activation maps in the target convolution layer. Existing gradient and score based weighting schemes have shown superiority in ensuring either the discriminability or faithfulness of the CAM, but they normally cannot excel in both properties. In this paper, we propose a novel CAM weighting scheme, named FD-CAM, to improve both the faithfulness and discriminability of the CAM-based CNN visual explanation. First, we improve the faithfulness and discriminability of the score-based weights by performing a grouped channel switching operation. Specifically, for each channel, we compute its similarity group and switch the group of channels on or off simultaneously to compute changes in the class prediction score as the weights. Then, we combine the improved score-based weights with the conventional gradient-based weights so that the discriminability of the final CAM can be further improved. We perform extensive comparisons with the state-of-the-art CAM algorithms. The quantitative and qualitative results show our FD-CAM can produce more faithful and more discriminative visual explanations of the CNNs. We also conduct experiments to verify the effectiveness of the proposed grouped channel switching and weight combination scheme on improving the results. Our code is available at https://github.com/crishhh1998/FD-CAM.
翻訳日:2022-06-20 14:11:18 公開日:2022-06-17
# 時空間補間整合性トレーニングによるビデオシャドウ検出

Video Shadow Detection via Spatio-Temporal Interpolation Consistency Training ( http://arxiv.org/abs/2206.08801v1 )

ライセンス: Link先を確認
Xiao Lu, Yihong Cao, Sheng Liu, Chengjiang Long, Zipei Chen, Xuanyu Zhou, Yimin Yang, Chunxia Xiao(参考訳) 教師付きビデオシャドウ検出のための大規模データセットのアノテートは困難である。 ラベル付き画像に基づいてトレーニングされたモデルをビデオフレームに直接使用すると、高い一般化誤差と時間的矛盾が生じる可能性がある。 本稿では、ラベル付き画像とともにラベル付きビデオフレームを合理的に供給する時空間補間整合訓練(STICT)フレームワークを画像陰影検出ネットワークトレーニングに導入することで、これらの課題に対処する。 具体的には,空間補間と時間補間という2つの新しい補間スキームを定義できる空間補間法と時間補間法を提案する。 次に,空間的および時間的補間一貫性の制約を導出し,画素分割タスクの一般化と時間的一貫性の予測をそれぞれ奨励する。 さらに,画像のマルチスケール影知識学習のためのスケール・アウェア・ネットワークを設計し,異なるスケールでの予測の差を最小限に抑えるスケール一貫性制約を提案する。 提案手法は,ViShaデータセットと自己アノテートデータセットで広く検証されている。 実験の結果,映像ラベルがなくても,映像・映像のシャドウ検出手法や関連課題における他の手法よりも優れた手法が得られた。 コードとデータセットは \url{https://github.com/yihong-97/STICT} で入手できる。

It is challenging to annotate large-scale datasets for supervised video shadow detection methods. Using a model trained on labeled images to the video frames directly may lead to high generalization error and temporal inconsistent results. In this paper, we address these challenges by proposing a Spatio-Temporal Interpolation Consistency Training (STICT) framework to rationally feed the unlabeled video frames together with the labeled images into an image shadow detection network training. Specifically, we propose the Spatial and Temporal ICT, in which we define two new interpolation schemes, \textit{i.e.}, the spatial interpolation and the temporal interpolation. We then derive the spatial and temporal interpolation consistency constraints accordingly for enhancing generalization in the pixel-wise classification task and for encouraging temporal consistent predictions, respectively. In addition, we design a Scale-Aware Network for multi-scale shadow knowledge learning in images, and propose a scale-consistency constraint to minimize the discrepancy among the predictions at different scales. Our proposed approach is extensively validated on the ViSha dataset and a self-annotated dataset. Experimental results show that, even without video labels, our approach is better than most state of the art supervised, semi-supervised or unsupervised image/video shadow detection methods and other methods in related tasks. Code and dataset are available at \url{https://github.com/yihong-97/STICT}.
翻訳日:2022-06-20 14:10:55 公開日:2022-06-17
# DGMIL:全スライド画像分類のための分散指導型複数インスタンス学習

DGMIL: Distribution Guided Multiple Instance Learning for Whole Slide Image Classification ( http://arxiv.org/abs/2206.08861v1 )

ライセンス: Link先を確認
Linhao Qu, Xiaoyuan Luo, Shaolei Liu, Manning Wang, Zhijian Song(参考訳) 病理組織学的全スライド画像(WSI)の解析には,MIL(Multiple Instance Learning)が広く用いられている。 しかし、既存のMILメソッドはデータ分散を明示的にモデル化せず、分類器を訓練することで、バッグレベルまたはインスタンスレベルの決定境界のみを識別的に学習する。 本稿では,WSI分類と正のパッチローカライゼーションのための機能分布ガイド型深層MILフレームワークDGMILを提案する。 複雑な識別ネットワークアーキテクチャを設計する代わりに, 病理画像データの特徴分布が, 事例分類の極めて効果的なガイドとして機能することを明らかにする。 クラスタ条件付き特徴分布モデルと擬似ラベルに基づく反復的特徴空間改善戦略を提案し、最終特徴空間において、正と負のインスタンスを容易に分離できるようにする。 CAMELYON16 データセットと TCGA Lung Cancer データセットを用いた実験により,本手法はグローバルな分類と正のパッチローカライゼーションの両タスクにおいて,新たな SOTA を実現することが示された。

Multiple Instance Learning (MIL) is widely used in analyzing histopathological Whole Slide Images (WSIs). However, existing MIL methods do not explicitly model the data distribution, and instead they only learn a bag-level or instance-level decision boundary discriminatively by training a classifier. In this paper, we propose DGMIL: a feature distribution guided deep MIL framework for WSI classification and positive patch localization. Instead of designing complex discriminative network architectures, we reveal that the inherent feature distribution of histopathological image data can serve as a very effective guide for instance classification. We propose a cluster-conditioned feature distribution modeling method and a pseudo label-based iterative feature space refinement strategy so that in the final feature space the positive and negative instances can be easily separated. Experiments on the CAMELYON16 dataset and the TCGA Lung Cancer dataset show that our method achieves new SOTA for both global classification and positive patch localization tasks.
翻訳日:2022-06-20 14:10:32 公開日:2022-06-17
# (参考訳) niksss at hinglisheval: 言語に依存しないbertに基づくcatboostを用いたコンテキスト埋め込みによる低リソース合成hinglishテキストの品質評価

niksss at HinglishEval: Language-agnostic BERT-based Contextual Embeddings with Catboost for Quality Evaluation of the Low-Resource Synthetically Generated Code-Mixed Hinglish Text ( http://arxiv.org/abs/2206.08910v1 )

ライセンス: CC BY 4.0
Nikhil Singh(参考訳) 本稿では inlg 2022 における hinglisheval challenge のシステム記述について述べる。 本研究の目的は,コード混合テキスト生成システムの品質に影響を及ぼす要因を検討することである。 このタスクは2つのサブタスク、品質評価予測とアノテータの不一致予測に分割された。 テキスト中のすべての入力トークンに対してコンテキスト化された単語埋め込みを平均プールすることで得られる文レベルの埋め込みを用いて,これらのタスクを解決しようと試みた。 それぞれのタスクで生成された埋め込みの上に様々な分類器を実験した。 ベストパフォーマンスシステムはサブタスクBで1位,サブタスクAで3位であった。

This paper describes the system description for the HinglishEval challenge at INLG 2022. The goal of this task was to investigate the factors influencing the quality of the code-mixed text generation system. The task was divided into two subtasks, quality rating prediction and annotators disagreement prediction of the synthetic Hinglish dataset. We attempted to solve these tasks using sentence-level embeddings, which are obtained from mean pooling the contextualized word embeddings for all input tokens in our text. We experimented with various classifiers on top of the embeddings produced for respective tasks. Our best-performing system ranked 1st on subtask B and 3rd on subtask A.
翻訳日:2022-06-20 14:08:23 公開日:2022-06-17
# 微細レトリバーを用いた数値推論質問応答システムとフィンQA用複数発電機の組立

A Numerical Reasoning Question Answering System with Fine-grained Retriever and the Ensemble of Multiple Generators for FinQA ( http://arxiv.org/abs/2206.08506v1 )

ライセンス: Link先を確認
Bin Wang, Jiangzhou Ju, Yunlin Mao, Xin-Yu Dai, Shujian Huang, Jiajun Chen(参考訳) 金融分野における数値的推論 -- 定量的分析と財務報告からの情報を要約する -- は、ビジネス効率を大幅に向上させ、数十億ドルのコストを削減することができる。 本稿では,レトリバーモジュール,ジェネレータモジュール,アンサンブルモジュールからなる,財務用テキストと表データソース間の数値推論質問に答える数値推論質問応答システムを提案する。 具体的には、検索モジュールにおいて、行データ全体の検索に加えて、生成モジュールの入力に無関係で類似したセルを同じ行に持ってくるのを避けるために、金細胞を検索するセルレトリバーを革新的に設計する。 ジェネレータモジュールでは,複数のジェネレータを用いてプログラムを生成する。 最後に、アンサンブルモジュールにおいて、システム出力として最適なプログラムを選択するために複数のプログラムを統合する。 FinQAコンペティションの最終プライベートテストセットでは,69.79の実行精度が得られた。

The numerical reasoning in the financial domain -- performing quantitative analysis and summarizing the information from financial reports -- can greatly increase business efficiency and reduce costs of billions of dollars. Here, we propose a numerical reasoning question answering system to answer numerical reasoning questions among financial text and table data sources, consisting of a retriever module, a generator module, and an ensemble module. Specifically, in the retriever module, in addition to retrieving the whole row data, we innovatively design a cell retriever that retrieves the gold cells to avoid bringing unrelated and similar cells in the same row to the inputs of the generator module. In the generator module, we utilize multiple generators to produce programs, which are operation steps to answer the question. Finally, in the ensemble module, we integrate multiple programs to choose the best program as the output of our system. In the final private test set in FinQA Competition, our system obtains 69.79 execution accuracy.
翻訳日:2022-06-20 14:02:40 公開日:2022-06-17
# 深層学習を用いた自殺思想検出の定量的・質的分析

A Quantitative and Qualitative Analysis of Suicide Ideation Detection using Deep Learning ( http://arxiv.org/abs/2206.08673v1 )

ライセンス: Link先を確認
Siqu Long, Rina Cabral, Josiah Poon, Soyeon Caren Han(参考訳) 若者の自殺を防ぐため、ソーシャルメディアプラットフォームは研究者から多くの注目を集めている。 スーシダリティリスクを含むソーシャルメディア投稿を分類するために、機械学習またはディープラーニングベースのテキスト分類アプローチを適用するいくつかの研究がある。 本稿では,競争性のあるソーシャルメディアを用いたsuicidality detection/predictionモデルを再現した。 複数のデータセットと異なる最先端ディープラーニングモデル(RNN-, CNN-, Attention-based model)を用いて自殺思考の検出の可能性を検討した。 2つの自殺評価データセットを用いて、7つの入力埋め込みと4つの一般的なディープラーニングモデルと5つの事前学習言語モデルの組み合わせを定量的および定性的に評価した。 当社のレプリケーション研究は、ディープラーニングがソーシャルメディアベースのsuicidality検出全般に有効であることを確認していますが、データセットの品質に大きく依存しています。

For preventing youth suicide, social media platforms have received much attention from researchers. A few researches apply machine learning, or deep learning-based text classification approaches to classify social media posts containing suicidality risk. This paper replicated competitive social media-based suicidality detection/prediction models. We evaluated the feasibility of detecting suicidal ideation using multiple datasets and different state-of-the-art deep learning models, RNN-, CNN-, and Attention-based models. Using two suicidality evaluation datasets, we evaluated 28 combinations of 7 input embeddings with 4 commonly used deep learning models and 5 pretrained language models in quantitative and qualitative ways. Our replication study confirms that deep learning works well for social media-based suicidality detection in general, but it highly depends on the dataset's quality.
翻訳日:2022-06-20 14:02:22 公開日:2022-06-17
# cookdial: 手続き文書に基づくタスク指向ダイアログのためのデータセット

CookDial: A dataset for task-oriented dialogs grounded in procedural documents ( http://arxiv.org/abs/2206.08723v1 )

ライセンス: Link先を確認
Yiwei Jiang, Klim Zaporojets, Johannes Deleu, Thomas Demeester, Chris Develder(参考訳) 本研究は、手続き的知識理解を伴うタスク指向対話システムの研究を容易にする新しいダイアログデータセットであるCookDialを提案する。 コーパスは、260人の人対人タスク指向のダイアログを含み、エージェントがレシピドキュメントを与えられた場合、ユーザが料理を調理するように誘導する。 CookDialのダイアログには2つの特徴がある。 (i) 対話フローと支援文書との手続き的アライメント (II)長い文のセグメンテーション、ハードインストラクションのパラフレーズ化、会話コンテキストにおけるコア推論の解決を含む複雑なエージェント決定 また,タスク指向対話システムでは,(1)ユーザ質問理解,(2)エージェント行動フレーム予測,(3)エージェント応答生成の3つの課題(サブタスク)を識別する。 これらのタスク毎に、我々はCookDialデータセットに基づいて評価するニューラルベースラインモデルを開発する。 ダイアログとレシピドキュメントの豊富なアノテーションを含むCookDialデータセットを公開し、ドメイン固有の文書基底ダイアログシステムに関するさらなる研究を促進する。

This work presents a new dialog dataset, CookDial, that facilitates research on task-oriented dialog systems with procedural knowledge understanding. The corpus contains 260 human-to-human task-oriented dialogs in which an agent, given a recipe document, guides the user to cook a dish. Dialogs in CookDial exhibit two unique features: (i) procedural alignment between the dialog flow and supporting document; (ii) complex agent decision-making that involves segmenting long sentences, paraphrasing hard instructions and resolving coreference in the dialog context. In addition, we identify three challenging (sub)tasks in the assumed task-oriented dialog system: (1) User Question Understanding, (2) Agent Action Frame Prediction, and (3) Agent Response Generation. For each of these tasks, we develop a neural baseline model, which we evaluate on the CookDial dataset. We publicly release the CookDial dataset, comprising rich annotations of both dialogs and recipe documents, to stimulate further research on domain-specific document-grounded dialog systems.
翻訳日:2022-06-20 14:02:10 公開日:2022-06-17
# 視覚を伴う言語:接地語と文の埋め込みに関する研究

Language with Vision: a Study on Grounded Word and Sentence Embeddings ( http://arxiv.org/abs/2206.08823v1 )

ライセンス: Link先を確認
Hassan Shahmohammadi, Maria Heitmeier, Elnaz Shafaei-Bajestan, Hendrik P. A. Lensch, and Harald Baayen(参考訳) 視覚に根ざした言語は、視覚からの知覚的知識を活用することによって、単語の意味をテキストベースで表現することを目的とした研究の活発な分野である。 言語基盤化の多くの試みにもかかわらず、テキストと視覚の知識の適切なバランスが維持されるように、言語の単語埋め込みに視覚的知識を効果的に注入する方法は、いまだ不明である。 一般的な懸念は以下のとおりである。 視覚的基盤は抽象語にとって有益か、それとも具体的な単語に限られるのか? テキストと視覚のギャップを埋める最適な方法は何か? テキスト埋め込みを視覚的に接地することで、どのくらい稼ぐことができるか? 本研究では,これらの課題に対して,事前学習した単語の埋め込みに対して,単純かつ極めて効果的な基礎的アプローチを提案する。 本モデルは,テキストコーパスにおける単語使用を特徴付ける分布統計を主に保存しながら,テキスト埋め込みと視覚を一致させる。 学習したアライメントを適用することで、抽象語を含む見えない単語に対して、視覚的に接地された埋め込みを生成することができる。 単語類似度ベンチマークの一連の評価は、ビジュアルグラウンドリングは具体的な単語だけでなく抽象的な単語にも有用であることを示している。 また,提案手法はコンテキスト化埋め込みに有利であるが,比較的小さめのコーパス上で学習した場合にのみ有効であることを示した。 コードはhttps://github.com/Hazel 1994/Visually_Grounded_Word_Embeddings_2で公開されている。

Language grounding to vision is an active field of research aiming to enrich text-based representations of word meanings by leveraging perceptual knowledge from vision. Despite many attempts at language grounding, it is still unclear how to effectively inject visual knowledge into the word embeddings of a language in such a way that a proper balance of textual and visual knowledge is maintained. Some common concerns are the following. Is visual grounding beneficial for abstract words or is its contribution only limited to concrete words? What is the optimal way of bridging the gap between text and vision? How much do we gain by visually grounding textual embeddings? The present study addresses these questions by proposing a simple yet very effective grounding approach for pre-trained word embeddings. Our model aligns textual embeddings with vision while largely preserving the distributional statistics that characterize word use in text corpora. By applying a learned alignment, we are able to generate visually grounded embeddings for unseen words, including abstract words. A series of evaluations on word similarity benchmarks shows that visual grounding is beneficial not only for concrete words, but also for abstract words. We also show that our method for visual grounding offers advantages for contextualized embeddings, but only when these are trained on corpora of relatively modest size. Code and grounded embeddings for English are available at https://github.com/Hazel1994/Visually_Grounded_Word_Embeddings_2.
翻訳日:2022-06-20 14:01:50 公開日:2022-06-17
# モノラベルブール分類器の定式化

Rectifying Mono-Label Boolean Classifiers ( http://arxiv.org/abs/2206.08758v1 )

ライセンス: Link先を確認
Sylvie Coste-Marquis and Pierre Marquis(参考訳) ブール分類子 $\sigma$ の正則化の概念について詳述する。 $\sigma$ といくつかの背景知識 $t$ が与えられた場合、$\sigma$ を新しい分類器 $\sigma \star t$ に変更しなければならないという仮定は、すでに提示されている。 ここでは、単ラベルブール分類器の特定の場合、すなわち、単一の目標概念が存在し、任意のインスタンスは正(概念の要素)または負(相補的概念の要素)に分類される。 この特別な場合、我々の主な貢献は2つある: (1) 仮定を満たす一意な整流作用素 $\star$ が存在し、(2) $\sigma$ と $t$ がブール回路であるとき、$\sigma \star t$ に相当する分類回路が$\sigma$ と $t$ のサイズで線形に計算できることを示す; $\sigma$ と $t$ が決定木であるとき、$\sigma \star t$ に相当する決定木は $\sigma$ と $t$ の大きさの時間多項式で計算できる。

We elaborate on the notion of rectification of a Boolean classifier $\Sigma$. Given $\Sigma$ and some background knowledge $T$, postulates characterizing the way $\Sigma$ must be changed into a new classifier $\Sigma \star T$ that complies with $T$ have already been presented. We focus here on the specific case of mono-label Boolean classifiers, i.e., there is a single target concept and any instance is classified either as positive (an element of the concept), or as negative (an element of the complementary concept). In this specific case, our main contribution is twofold: (1) we show that there is a unique rectification operator $\star$ satisfying the postulates, and (2) when $\Sigma$ and $T$ are Boolean circuits, we show how a classification circuit equivalent to $\Sigma \star T$ can be computed in time linear in the size of $\Sigma$ and $T$; when $\Sigma$ and $T$ are decision trees, a decision tree equivalent to $\Sigma \star T$ can be computed in time polynomial in the size of $\Sigma$ and $T$.
翻訳日:2022-06-20 14:00:41 公開日:2022-06-17
# グラフ生成逆ネットワークと微分可能レンダリングを用いたテクスチャ生成

Texture Generation Using Graph Generative Adversarial Network And Differentiable Rendering ( http://arxiv.org/abs/2206.08547v1 )

ライセンス: Link先を確認
Dharma KC, Clayton T. Morrison, Bradley Walls(参考訳) 既存の3次元メッシュモデルのための新しいテクスチャ合成は、既存のシミュレータのためのフォトリアルアセット生成に向けた重要なステップである。 しかし、既存の手法は、所定のカメラ視点から3d空間を投影する2d画像空間で本質的に機能する。 これらの方法は、カメラアングル、3dモデル情報、照明情報、フォトリアリスティックな2d画像を生成する。 別の視点や照明からフォトリアリスティック画像を生成するためには、パラメータを変更する度に計算的に高価な前方通過をする必要がある。 また、画像のシーケンスが類似すべき時間的制約を満たすことができるシミュレータに対してそのような画像を生成することは困難であるが、望まれる照明の視点を変える必要がある。 blenderやunreal engineといった既存のツールと直接統合することはできない。 手動のソリューションは高価で時間がかかります。 そこで本研究では,ggan(graph generative adversarial network)と呼ばれる新たなシステムを提案する。これは,ミキサーやunreal engineといったツールを用いて,所定の3dメッシュモデルに直接統合され,任意の視点や照明条件から容易にシミュレーションできるテクスチャを生成することができる。

Novel texture synthesis for existing 3D mesh models is an important step towards photo realistic asset generation for existing simulators. But existing methods inherently work in the 2D image space which is the projection of the 3D space from a given camera perspective. These methods take camera angle, 3D model information, lighting information and generate photorealistic 2D image. To generate a photorealistic image from another perspective or lighting, we need to make a computationally expensive forward pass each time we change the parameters. Also, it is hard to generate such images for a simulator that can satisfy the temporal constraints the sequences of images should be similar but only need to change the viewpoint of lighting as desired. The solution can not be directly integrated with existing tools like Blender and Unreal Engine. Manual solution is expensive and time consuming. We thus present a new system called a graph generative adversarial network (GGAN) that can generate textures which can be directly integrated into a given 3D mesh models with tools like Blender and Unreal Engine and can be simulated from any perspective and lighting condition easily.
翻訳日:2022-06-20 13:57:08 公開日:2022-06-17
# active data discovery: submodular information measure を用いた未知のデータマイニング

Active Data Discovery: Mining Unknown Data using Submodular Information Measures ( http://arxiv.org/abs/2206.08566v1 )

ライセンス: Link先を確認
Suraj Kothawade, Shivang Chopra, Saikat Ghosh, Rishabh Iyer(参考訳) アクティブラーニング(active learning)は、ラベルなし集合のサブセットをループ内の人間で反復的かつ適応的にサンプリングし、ラベリング効率を達成するための非常に一般的かつ強力なフレームワークである。 ほとんどの現実世界のデータセットはクラスとスライスで不均衡であり、それに対応するデータセットの一部がレアである。 その結果、これらの稀なデータインスタンスをマイニングするためのアクティブな学習アプローチを設計する作業が数多く行われている。 ほとんどのアプローチでは、このようなまれなデータインスタンスを含むシードインスタンスセットへのアクセスを想定している。 しかし、より極端なレアネスの場合、これらのレアなデータインスタンス(クラスやスライス)がシードラベルセットに存在せず、アクティブな学習パラダイムが必要とされるのは、これらのレアなデータインスタンスを効率的に発見することである。 本研究では,未知データスライスとクラスを,サブモジュラー条件利得とサブモジュラー条件付き相互情報関数を用いて効率的にマイニングできるアクティブデータディスカバリフレームワークを提供する。 画像分類やオブジェクト検出など,多数のシナリオで機能する汎用的なアルゴリズムフレームワークを提供し,ラベルなし集合に存在する希少なクラスと希少なスライスの両方で動作する。 我々は,これらの希少なクラスやスライスを積極的に発見するための既存の最先端アクティブラーニングアプローチと比較して,アプローチによる精度とラベリング効率の向上を示す。

Active Learning is a very common yet powerful framework for iteratively and adaptively sampling subsets of the unlabeled sets with a human in the loop with the goal of achieving labeling efficiency. Most real world datasets have imbalance either in classes and slices, and correspondingly, parts of the dataset are rare. As a result, there has been a lot of work in designing active learning approaches for mining these rare data instances. Most approaches assume access to a seed set of instances which contain these rare data instances. However, in the event of more extreme rareness, it is reasonable to assume that these rare data instances (either classes or slices) may not even be present in the seed labeled set, and a critical need for the active learning paradigm is to efficiently discover these rare data instances. In this work, we provide an active data discovery framework which can mine unknown data slices and classes efficiently using the submodular conditional gain and submodular conditional mutual information functions. We provide a general algorithmic framework which works in a number of scenarios including image classification and object detection and works with both rare classes and rare slices present in the unlabeled set. We show significant accuracy and labeling efficiency gains with our approach compared to existing state-of-the-art active learning approaches for actively discovering these rare classes and slices.
翻訳日:2022-06-20 13:56:49 公開日:2022-06-17
# 視覚サリエンシーによるvitショートカット学習の修正

Rectify ViT Shortcut Learning by Visual Saliency ( http://arxiv.org/abs/2206.08567v1 )

ライセンス: Link先を確認
Chong Ma, Lin Zhao, Yuzhong Chen, David Weizhong Liu, Xi Jiang, Tuo Zhang, Xintao Hu, Dinggang Shen, Dajiang Zhu, Tianming Liu(参考訳) 近道学習は、ディープラーニングモデルでは一般的だが有害であり、特徴表現が失われ、結果としてモデルの一般化可能性と解釈可能性が損なわれる。 しかし、広く使われているVision Transformerフレームワークでのショートカット学習はほとんど不明である。 一方、ドメイン固有の知識の導入は、背景要因によって優先されるショートカットの修正における主要なアプローチである。 例えば、医療画像分野では、放射線科医によるアイガゼデータは、人間の視覚に先行した知識であり、深層学習モデルに有意義な前景領域に焦点を当てる大きな可能性を秘めている。 しかし、アイガゼデータの取得には時間がかかり、労働集約的であり、時には実用的でない場合もある。 本研究では,視線データがない状態でのViTにおけるショートカット学習を補正するための,新規で効果的なサリエンシ誘導型視覚変換器(SGT)モデルを提案する。 具体的には、入力画像サンプルの精度マップを予測するために、計算ビジュアル・サリエンシ・モデルを採用する。 次に、最も情報性の高い画像パッチを消し去るために、サリエンシマップを使用する。 提案するsgtでは,画像パッチ間の自己付着は蒸留した情報のみに焦点をあてる。 この蒸留処理がグローバルな情報が失われることを考えると、最後のエンコーダ層では、すべてのイメージパッチの自己注意をキャプチャする残差接続が導入された。 4つの独立したパブリックデータセットによる実験の結果,我々のsgtフレームワークは,視線データなしで人間の事前知識を効果的に学習し,活用でき,ベースラインよりも優れたパフォーマンスを達成できることがわかった。 一方, 有害近道学習の是正に成功し, vitモデルの解釈性が大幅に向上し, 近道学習における人間の先天的知識の伝達が期待できることを示した。

Shortcut learning is common but harmful to deep learning models, leading to degenerated feature representations and consequently jeopardizing the model's generalizability and interpretability. However, shortcut learning in the widely used Vision Transformer framework is largely unknown. Meanwhile, introducing domain-specific knowledge is a major approach to rectifying the shortcuts, which are predominated by background related factors. For example, in the medical imaging field, eye-gaze data from radiologists is an effective human visual prior knowledge that has the great potential to guide the deep learning models to focus on meaningful foreground regions of interest. However, obtaining eye-gaze data is time-consuming, labor-intensive and sometimes even not practical. In this work, we propose a novel and effective saliency-guided vision transformer (SGT) model to rectify shortcut learning in ViT with the absence of eye-gaze data. Specifically, a computational visual saliency model is adopted to predict saliency maps for input image samples. Then, the saliency maps are used to distil the most informative image patches. In the proposed SGT, the self-attention among image patches focus only on the distilled informative ones. Considering this distill operation may lead to global information lost, we further introduce, in the last encoder layer, a residual connection that captures the self-attention across all the image patches. The experiment results on four independent public datasets show that our SGT framework can effectively learn and leverage human prior knowledge without eye gaze data and achieves much better performance than baselines. Meanwhile, it successfully rectifies the harmful shortcut learning and significantly improves the interpretability of the ViT model, demonstrating the promise of transferring human prior knowledge derived visual saliency in rectifying shortcut learning
翻訳日:2022-06-20 13:56:27 公開日:2022-06-17
# 映像異常検出のための視覚トランスフォーマによるマルチコンテキスト予測

Multi-Contextual Predictions with Vision Transformer for Video Anomaly Detection ( http://arxiv.org/abs/2206.08568v1 )

ライセンス: Link先を確認
Joo-Yeon Lee, Woo-Jeoung Nam, Seong-Whan Lee(参考訳) ビデオ異常検出(VAD)は伝統的に2つの主要な手法、すなわち再構成に基づくアプローチと予測に基づく手法で取り組まれてきた。 レコンストラクションベースの手法が入力画像を一般化することを学ぶと、モデルは単にアイデンティティ関数を学習し、一般化問題と呼ばれる問題を強く引き起こす。 一方, 予測ベースでは, 過去の数フレームから将来のフレームを予測できるため, 一般化問題にはあまり敏感ではない。 しかし、モデルがビデオの時空間的文脈を学習できるかどうかはまだ不明である。 我々の直感は、ビデオの時空間的文脈を理解することは、ビデオクリップにおけるイベントの出現がどのように変化するかの正確な情報を提供するため、VADにおいて重要な役割を果たす。 そこで,ビデオ環境下での異常検出にコンテキスト情報をフル活用するために,3つの異なるコンテキスト予測ストリームを持つトランスモデルを設計した。 連続する通常フレームの欠落フレームを予測できるように学習することにより,映像中の様々な正規性パターンを効果的に学習することができ,学習コンテキストに不適合な異常症例において高い再構成誤差を生じさせる。 本手法の有効性を検証するために,uscd pedestrian 2, cuhk avenue および shanghaitech の公開ベンチマークデータセット上でのモデルを評価し,再構成誤差の異常スコア指標を用いて性能評価を行った。 その結果,提案手法は既存のビデオ異常検出手法と比較して競合性能が高いことがわかった。

Video Anomaly Detection(VAD) has been traditionally tackled in two main methodologies: the reconstruction-based approach and the prediction-based one. As the reconstruction-based methods learn to generalize the input image, the model merely learns an identity function and strongly causes the problem called generalizing issue. On the other hand, since the prediction-based ones learn to predict a future frame given several previous frames, they are less sensitive to the generalizing issue. However, it is still uncertain if the model can learn the spatio-temporal context of a video. Our intuition is that the understanding of the spatio-temporal context of a video plays a vital role in VAD as it provides precise information on how the appearance of an event in a video clip changes. Hence, to fully exploit the context information for anomaly detection in video circumstances, we designed the transformer model with three different contextual prediction streams: masked, whole and partial. By learning to predict the missing frames of consecutive normal frames, our model can effectively learn various normality patterns in the video, which leads to a high reconstruction error at the abnormal cases that are unsuitable to the learned context. To verify the effectiveness of our approach, we assess our model on the public benchmark datasets: USCD Pedestrian 2, CUHK Avenue and ShanghaiTech and evaluate the performance with the anomaly score metric of reconstruction error. The results demonstrate that our proposed approach achieves a competitive performance compared to the existing video anomaly detection methods.
翻訳日:2022-06-20 13:55:59 公開日:2022-06-17
# ビデオフレーム補間のための双方向運動推定

Enhanced Bi-directional Motion Estimation for Video Frame Interpolation ( http://arxiv.org/abs/2206.08572v1 )

ライセンス: Link先を確認
Jin Xin, Wu Longhai, Shen Guotao, Chen Youxin, Chen Jie, Koo Jayoon, Hahm Cheul-hee(参考訳) 動きに基づくビデオフレーム補間のための,新しい単純かつ効果的なアルゴリズムを提案する。 既存の動きに基づく補間法は、通常、運動推定のために事前訓練された光フローモデルまたはu-netベースのピラミッドネットワークに依存している。 本研究では,中間方向のフォワードウォーピング,軽量特徴エンコーダ,相関ボリュームをピラミッドリカレントフレームワークに慎重に統合することにより,入力フレーム間の双方向動作を同時に推定するコンパクトモデルを求める。 サイズはPWC-Netの15倍小さいが、より信頼性が高く柔軟な動作ケースの処理が可能である。 推定された双方向動作に基づいて,入力フレームとそのコンテキスト特徴を中間フレームにフォワードウォープし,中間フレームをワープ表現から推定する合成ネットワークを用いる。 本手法は幅広いビデオフレーム補間ベンチマークにおいて優れた性能を実現する。 コードはもうすぐ入手できる。

We present a novel simple yet effective algorithm for motion-based video frame interpolation. Existing motion-based interpolation methods typically rely on a pre-trained optical flow model or a U-Net based pyramid network for motion estimation, which either suffer from large model size or limited capacity in handling complex and large motion cases. In this work, by carefully integrating intermediateoriented forward-warping, lightweight feature encoder, and correlation volume into a pyramid recurrent framework, we derive a compact model to simultaneously estimate the bidirectional motion between input frames. It is 15 times smaller in size than PWC-Net, yet enables more reliable and flexible handling of challenging motion cases. Based on estimated bi-directional motion, we forward-warp input frames and their context features to intermediate frame, and employ a synthesis network to estimate the intermediate frame from warped representations. Our method achieves excellent performance on a broad range of video frame interpolation benchmarks. Code will be available soon.
翻訳日:2022-06-20 13:55:33 公開日:2022-06-17
# 汎用イベント境界検出CVPR'2022Kineetics-GEBDチャレンジのためのマスク付きオートエンコーダ

Masked Autoencoders for Generic Event Boundary Detection CVPR'2022 Kinetics-GEBD Challenge ( http://arxiv.org/abs/2206.08610v1 )

ライセンス: Link先を確認
Rui He, Yuanxi Sun, Youzeng Li, Zuwei Huang, Feng Hu, Xu Cheng, Jie Tang(参考訳) ジェネリックイベント境界検出(GEBD)タスクは、ビデオ全体をチャンクに分割する、ジェネリックで分類のないイベント境界を検出することを目的としている。 本稿では,GABDタスクにおけるアルゴリズム性能向上のためにMasked Autoencodersを適用した。 提案手法は,他のベースモデルを用いた自己教師型学習者として,GABDタスクを微調整したMasked Autoencoderのアンサンブルを主に採用した。 さらに,半教師付き擬似ラベル法を用いて,トレーニング中に大量の未ラベルの Kinetics-400 データをフル活用する。 さらに,正と負のサンプルを部分的にバランスさせ,不明瞭なラベル付けの問題を緩和するソフトラベル手法を提案する。 最後に、モデルによって予測される境界をより正確な場所に洗練するために、トリッキーなセグメンテーションアライメントポリシーが実装されている。 我々のアプローチでは、2021年のキネティクス-GEBDチャレンジの勝者と比較してF1スコアを2.31%改善したKinetics-GEBDテストセットのF1スコアで85.94%を達成した。 私たちのコードはhttps://github.com/ContentAndMaterialPortrait/MAE-GEBDで利用可能です。

Generic Event Boundary Detection (GEBD) tasks aim at detecting generic, taxonomy-free event boundaries that segment a whole video into chunks. In this paper, we apply Masked Autoencoders to improve algorithm performance on the GEBD tasks. Our approach mainly adopted the ensemble of Masked Autoencoders fine-tuned on the GEBD task as a self-supervised learner with other base models. Moreover, we also use a semi-supervised pseudo-label method to take full advantage of the abundant unlabeled Kinetics-400 data while training. In addition, we propose a soft-label method to partially balance the positive and negative samples and alleviate the problem of ambiguous labeling in this task. Lastly, a tricky segmentation alignment policy is implemented to refine boundaries predicted by our models to more accurate locations. With our approach, we achieved 85.94% on the F1-score on the Kinetics-GEBD test set, which improved the F1-score by 2.31% compared to the winner of the 2021 Kinetics-GEBD Challenge. Our code is available at https://github.com/ContentAndMaterialPortrait/MAE-GEBD.
翻訳日:2022-06-20 13:55:15 公開日:2022-06-17
# ゼロショット動作認識のための特権情報を用いた学習

Learning Using Privileged Information for Zero-Shot Action Recognition ( http://arxiv.org/abs/2206.08632v1 )

ライセンス: Link先を確認
Zhiyi Gao, Wanqing Li, Zihui Guo, Bin Yu and Yonghong Hou(参考訳) Zero-Shot Action Recognition (ZSAR)は、訓練中に見たことのないビデオアクションを認識することを目的としている。 既存のほとんどの手法は、目に見えるアクションと目に見えないアクションの間に共有の意味空間を仮定し、視覚空間から意味空間へのマッピングを直接学習する。 このアプローチは、視覚空間と意味空間の間の意味的ギャップによって挑戦されている。 本稿では,オブジェクト意味論を特権情報として利用し,意味的ギャップを狭くし,効果的な学習を支援する新しい手法を提案する。 特に、オブジェクトを明示的に抽出せずにテスト中にオブジェクトセマンティクスを暗黙的に抽出するシンプルな幻覚ネットワークを提案し、オブジェクトセマンティクスで視覚的特徴を増強するクロスアテンションモジュールを開発した。 オリンピック競技, hmdb51, ucf101のデータセットを用いた実験では, 提案手法が最先端の手法を大差で上回っていることが示されている。

Zero-Shot Action Recognition (ZSAR) aims to recognize video actions that have never been seen during training. Most existing methods assume a shared semantic space between seen and unseen actions and intend to directly learn a mapping from a visual space to the semantic space. This approach has been challenged by the semantic gap between the visual space and semantic space. This paper presents a novel method that uses object semantics as privileged information to narrow the semantic gap and, hence, effectively, assist the learning. In particular, a simple hallucination network is proposed to implicitly extract object semantics during testing without explicitly extracting objects and a cross-attention module is developed to augment visual feature with the object semantics. Experiments on the Olympic Sports, HMDB51 and UCF101 datasets have shown that the proposed method outperforms the state-of-the-art methods by a large margin.
翻訳日:2022-06-20 13:54:53 公開日:2022-06-17
# (参考訳) 分散プール法による弱教師付き深層学習モデルへの腫瘍内異種性の導入

Incorporating intratumoral heterogeneity into weakly-supervised deep learning models via variance pooling ( http://arxiv.org/abs/2206.08885v1 )

ライセンス: CC BY 4.0
Iain Carmichael, Andrew H. Song, Richard J. Chen, Drew F.K. Williamson, Tiffany Y. Chen, Faisal Mahmood(参考訳) ギガピクセル全体のスライド画像(WSI)からのがん生存予測などの教師付き学習タスクは、腫瘍微小環境の複雑な特徴をモデル化する必要がある計算病理学において重要な課題である。 これらの学習課題は、腫瘍内不均一性を明示的に捉えない深層マルチインスタンス学習(MIL)モデルでしばしば解決される。 我々は,MILモデルが腫瘍内不均一性を予測に組み込むことのできる,新しい分散プーリングアーキテクチャを開発した。 代表的なパッチに基づく2つの解釈可能性ツールを図示し、これらのモデルが捉えた生物学的信号を探索する。 がんゲノムアトラスの4,479ギガピクセルWSIを用いた実証研究は、MILフレームワークに分散プールを追加することで、5種類のがんの生存予測性能が向上することを示した。

Supervised learning tasks such as cancer survival prediction from gigapixel whole slide images (WSIs) are a critical challenge in computational pathology that requires modeling complex features of the tumor microenvironment. These learning tasks are often solved with deep multi-instance learning (MIL) models that do not explicitly capture intratumoral heterogeneity. We develop a novel variance pooling architecture that enables a MIL model to incorporate intratumoral heterogeneity into its predictions. Two interpretability tools based on representative patches are illustrated to probe the biological signals captured by these models. An empirical study with 4,479 gigapixel WSIs from the Cancer Genome Atlas shows that adding variance pooling onto MIL frameworks improves survival prediction performance for five cancer types.
翻訳日:2022-06-20 13:54:09 公開日:2022-06-17
# オフライン強化学習のためのブートストラップ変換器

Bootstrapped Transformer for Offline Reinforcement Learning ( http://arxiv.org/abs/2206.08569v1 )

ライセンス: Link先を確認
Kerong Wang, Hanye Zhao, Xufang Luo, Kan Ren, Weinan Zhang, Dongsheng Li(参考訳) オフライン強化学習(RL)は,以前に収集した静的軌跡データから実環境と対話することなく,学習方針を学習することを目的とする。 最近の研究は、オフラインRLを汎用シーケンス生成問題として捉え、トランスフォーマーアーキテクチャのようなシーケンスモデルを採用して軌道上の分布をモデル化し、ビーム探索を計画アルゴリズムとして再利用することで、新しい視点を提供する。 しかし、一般のオフラインRLタスクで使用されるトレーニングデータセットは非常に限定的であり、分散カバレッジが不十分な場合が多いため、トレーニングシーケンス生成モデルには有害であるが、以前の研究では十分に注意が払われていない。 本稿では,ブートストラップの考え方を取り入れたブートストラップトランスフォーマーという新しいアルゴリズムを提案し,学習モデルを用いてオフラインデータの自動生成を行い,シーケンスモデルのトレーニングをさらに強化する。 2つのオフラインRLベンチマークで広範な実験を行い、我々のモデルが既存のオフラインRLトレーニングの制限を大幅に緩和し、他の強力なベースライン手法を克服できることを実証した。 また、生成された擬似データを分析し、その特徴がオフラインのrlトレーニングに光を当てる可能性がある。 コードはhttps://seqml.github.io/bootorl.com/で入手できる。

Offline reinforcement learning (RL) aims at learning policies from previously collected static trajectory data without interacting with the real environment. Recent works provide a novel perspective by viewing offline RL as a generic sequence generation problem, adopting sequence models such as Transformer architecture to model distributions over trajectories, and repurposing beam search as a planning algorithm. However, the training datasets utilized in general offline RL tasks are quite limited and often suffer from insufficient distribution coverage, which could be harmful to training sequence generation models yet has not drawn enough attention in the previous works. In this paper, we propose a novel algorithm named Bootstrapped Transformer, which incorporates the idea of bootstrapping and leverages the learned model to self-generate more offline data to further boost the sequence model training. We conduct extensive experiments on two offline RL benchmarks and demonstrate that our model can largely remedy the existing offline RL training limitations and beat other strong baseline methods. We also analyze the generated pseudo data and the revealed characteristics may shed some light on offline RL training. The codes are available at https://seqml.github.io/bootorl.
翻訳日:2022-06-20 13:40:26 公開日:2022-06-17
# littleSNN: メモリとエネルギー効率のよいスパイクニューラルネットワークを目指して

tinySNN: Towards Memory- and Energy-Efficient Spiking Neural Networks ( http://arxiv.org/abs/2206.08656v1 )

ライセンス: Link先を確認
Rachmad Vidya Wicaksana Putra, Muhammad Shafique(参考訳) より大規模なスパイクニューラルネットワーク(SNN)モデルは、高い精度を提供できるため、一般的に好ましい。 しかし、資源とエネルギーを制約した組込みプラットフォームにそのようなモデルを適用することは非効率である。 そこで本研究では,SNN処理のメモリおよびエネルギー要求をトレーニングと推論の両フェーズで最適化し,精度を高く保ちながら,SNNフレームワークを提案する。 SNN操作の削減、学習品質の向上、SNNパラメータの定量化、適切なSNNモデルの選択によって実現されている。 さらにsnパラメータ(重みとニューロンパラメータ)を量子化し、圧縮を最大化し、量子化スキーム、精度レベル、丸めスキームの組み合わせを探索し、許容可能な精度を提供するモデルを見つける。 実験結果から,SNNのメモリフットプリントとエネルギー消費は,ベースラインネットワークと比較して精度の低下を伴わないことが明らかとなった。 そこで,我々は,SNNモデルを効率よく圧縮し,メモリ効率とエネルギー効率の両面で高い精度を実現し,資源・エネルギー制約の組込みアプリケーションにSNNを活用できるようにする。

Larger Spiking Neural Network (SNN) models are typically favorable as they can offer higher accuracy. However, employing such models on the resource- and energy-constrained embedded platforms is inefficient. Towards this, we present a tinySNN framework that optimizes the memory and energy requirements of SNN processing in both the training and inference phases, while keeping the accuracy high. It is achieved by reducing the SNN operations, improving the learning quality, quantizing the SNN parameters, and selecting the appropriate SNN model. Furthermore, our tinySNN quantizes different SNN parameters (i.e., weights and neuron parameters) to maximize the compression while exploring different combinations of quantization schemes, precision levels, and rounding schemes to find the model that provides acceptable accuracy. The experimental results demonstrate that our tinySNN significantly reduces the memory footprint and the energy consumption of SNNs without accuracy loss as compared to the baseline network. Therefore, our tinySNN effectively compresses the given SNN model to achieve high accuracy in a memory- and energy-efficient manner, hence enabling the employment of SNNs for the resource- and energy-constrained embedded applications.
翻訳日:2022-06-20 13:40:07 公開日:2022-06-17
# 大規模マウス一次視覚野活動予測におけるSensiumコンペティション

The Sensorium competition on predicting large-scale mouse primary visual cortex activity ( http://arxiv.org/abs/2206.08666v1 )

ライセンス: Link先を確認
Konstantin F. Willeke (1 and 2 and 3), Paul G. Fahey (4 and 5), Mohammad Bashiri (1 and 2 and 3), Laura Pede (3), Max F. Burg (1 and 2 and 3 and 6), Christoph Blessing (3), Santiago A. Cadena (1 and 3 and 6), Zhiwei Ding (4 and 5), Konstantin-Klemens Lurz (1 and 2 and 3), Kayla Ponder (4 and 5), Taliah Muhammad (4 and 5), Saumil S. Patel (4 and 5), Alexander S. Ecker (3 and 7), Andreas S. Tolias (4 and 5 and 8), Fabian H. Sinz (2 and 3 and 4 and 5) ((1) International Max Planck Research School for Intelligent Systems, University of Tuebingen, Germany, (2) Institute for Bioinformatics and Medical Informatics, University of Tuebingen, Germany (3) Institute of Computer Science and Campus Institute Data Science, University of Goettingen, Germany, (4) Department of Neuroscience, Baylor College of Medicine, Houston, USA, (5) Center for Neuroscience and Artificial Intelligence, Baylor College of Medicine, Houston, USA, (6) Institute for Theoretical Physics, University of Tuebingen, Germany, (7) Max Planck Institute for Dynamics and Self-Organization, Goettingen, Germany, (8) Electrical and Computer Engineering, Rice University, Houston, USA)(参考訳) 生物学的視覚系の神経基盤は、特に視覚入力に関して神経活動がますます非線形になるにつれて実験的に研究することが困難である。 人工ニューラルネットワーク(ANN)は、シリコの新しい仮説生成のための感覚野の予測デジタルツインとして機能するだけでなく、生物と機械のビジョンのギャップを段階的に橋渡しするためにバイオインスパイアされたアーキテクチャモチーフを取り入れることで、この複雑なシステムを理解するためのさまざまな目標を達成できます。 マウスは、視覚情報処理を研究する人気のあるモデルシステムとして最近登場したが、マウス視覚システムの最先端モデルを特定するための標準化されたベンチマークは確立されていない。 このギャップを埋めるため,我々はsensorium benchmark competitionを提案する。 何千もの自然画像で刺激された7マウスの28,000以上のニューロンの反応を含むマウス一次視覚野から大規模なデータセットを収集し、ランニングスピード、瞳孔拡張、眼球運動を含む同時行動計測を行った。 ベンチマークの課題は、保持されたテストセット上での神経反応の予測性能に基づいてモデルをランク付けし、刺激のみ(Sensorium)または刺激+行動(Sensorium+)に制限されたモデル入力のための2つのトラックを含む。 チュートリアル、トレーニング済みのベースラインモデル、データローディングとサブミッションのための1行コマンドを備えたAPIなど、エントリの障壁を低くするスタートキットを提供しています。 これは、定期的な課題やデータリリースの出発点であり、マウスの視覚システムの大規模ニューラルネットワーク識別モデルの進歩を測定する標準的なツールであると考えています。

The neural underpinning of the biological visual system is challenging to study experimentally, in particular as the neuronal activity becomes increasingly nonlinear with respect to visual input. Artificial neural networks (ANNs) can serve a variety of goals for improving our understanding of this complex system, not only serving as predictive digital twins of sensory cortex for novel hypothesis generation in silico, but also incorporating bio-inspired architectural motifs to progressively bridge the gap between biological and machine vision. The mouse has recently emerged as a popular model system to study visual information processing, but no standardized large-scale benchmark to identify state-of-the-art models of the mouse visual system has been established. To fill this gap, we propose the Sensorium benchmark competition. We collected a large-scale dataset from mouse primary visual cortex containing the responses of more than 28,000 neurons across seven mice stimulated with thousands of natural images, together with simultaneous behavioral measurements that include running speed, pupil dilation, and eye movements. The benchmark challenge will rank models based on predictive performance for neuronal responses on a held-out test set, and includes two tracks for model input limited to either stimulus only (Sensorium) or stimulus plus behavior (Sensorium+). We provide a starting kit to lower the barrier for entry, including tutorials, pre-trained baseline models, and APIs with one line commands for data loading and submission. We would like to see this as a starting point for regular challenges and data releases, and as a standard tool for measuring progress in large-scale neural system identification models of the mouse visual system and beyond.
翻訳日:2022-06-20 13:39:46 公開日:2022-06-17
# 単一マシン上での高速人口ベース強化学習

Fast Population-Based Reinforcement Learning on a Single Machine ( http://arxiv.org/abs/2206.08888v1 )

ライセンス: Link先を確認
Arthur Flajolet, Claire Bizon Monroc, Karim Beguir, Thomas Pierrot(参考訳) エージェントの集団の訓練は、トレーニングの安定化、探索と漸近的なパフォーマンスの向上、多様なソリューションセットの生成のための強化学習において、大きな可能性を証明している。 しかし、人口ベースのトレーニングは、(連続的に実施する場合)禁止的に遅いか(エージェントが独立アクセラレータ上で並列に訓練されている場合)計算コストが高いと認識されるため、実践者によっては考慮されないことが多い。 本研究では,提案手法を比較,再検討し,コンパイルとベクトル化の相互利用により,単一のエージェントを訓練するよりも少ないオーバヘッドで,ひとつのマシン上で集団ベースのトレーニングを行うことができることを示した。 また、いくつかのアクセラレーターを提供すると、ハイパーパラメータチューニングのようなアプリケーションのために、我々のプロトコルは大きな人口規模に拡張されます。 この作業とコードの公開によって、実践者が研究や応用に人口ベースの学習をより頻繁に使用するようになることを願っています。

Training populations of agents has demonstrated great promise in Reinforcement Learning for stabilizing training, improving exploration and asymptotic performance, and generating a diverse set of solutions. However, population-based training is often not considered by practitioners as it is perceived to be either prohibitively slow (when implemented sequentially), or computationally expensive (if agents are trained in parallel on independent accelerators). In this work, we compare implementations and revisit previous studies to show that the judicious use of compilation and vectorization allows population-based training to be performed on a single machine with one accelerator with minimal overhead compared to training a single agent. We also show that, when provided with a few accelerators, our protocols extend to large population sizes for applications such as hyperparameter tuning. We hope that this work and the public release of our code will encourage practitioners to use population-based learning more frequently for their research and applications.
翻訳日:2022-06-20 13:39:15 公開日:2022-06-17
# 2レベル最適化のための一般化Frank-Wolfeアルゴリズム

Generalized Frank-Wolfe Algorithm for Bilevel Optimization ( http://arxiv.org/abs/2206.08868v1 )

ライセンス: Link先を確認
Ruichen Jiang, Nazanin Abolfazli, Aryan Mokhtari, Erfan Yazdandoost Hamedani(参考訳) 本稿では,他の凸制約最適化問題の最適解集合上の滑らかな目的関数を最小化する,単純二値最適化(Simple bilevel optimization)のクラスについて検討する。 この問題に対処するための反復的な手法がいくつか開発されている。 残念なことに、それらの収束保証は上層目標に漸近的であるか、収束速度が遅く、準最適であるため満足できない。 この問題に対処するため,本稿ではフランク・ウルフ法(FW)の一般化を導入し,この問題を解決した。 提案手法の主な考え方は,低レベル問題の解集合を切削面を通して局所的に近似し,fw型更新を行い,上位レベルの目標を減少させることである。 上層目標が凸である場合、上層目標に対して$\epsilon_f$-optimal、下層目標に対して$\epsilon_g$-optimalの解を見つけるためには${\mathcal{O}}(\max\{1/\epsilon_f,1/\epsilon_g\})$反復が必要である。 さらに、上層目標が非凸である場合、我々の方法は${\mathcal{O}}(\max\{1/\epsilon_f^2,1/(\epsilon_f\epsilon_g)\})$の反復を必要とする。 さらに、下層問題に対するH\"olderian error bound assumptionの下で、より強い収束を保証する。 我々の知識を最大限に活用するため,本手法は2レベル問題の最もよく知られた反復複雑性を実現する。 また,現状の手法と比較して,提案手法の優れた性能を示す数値実験を行った。

In this paper, we study a class of bilevel optimization problems, also known as simple bilevel optimization, where we minimize a smooth objective function over the optimal solution set of another convex constrained optimization problem. Several iterative methods have been developed for tackling this class of problems. Alas, their convergence guarantees are not satisfactory as they are either asymptotic for the upper-level objective, or the convergence rates are slow and sub-optimal. To address this issue, in this paper, we introduce a generalization of the Frank-Wolfe (FW) method to solve the considered problem. The main idea of our method is to locally approximate the solution set of the lower-level problem via a cutting plane, and then run a FW-type update to decrease the upper-level objective. When the upper-level objective is convex, we show that our method requires ${\mathcal{O}}(\max\{1/\epsilon_f,1/\epsilon_g\})$ iterations to find a solution that is $\epsilon_f$-optimal for the upper-level objective and $\epsilon_g$-optimal for the lower-level objective. Moreover, when the upper-level objective is non-convex, our method requires ${\mathcal{O}}(\max\{1/\epsilon_f^2,1/(\epsilon_f\epsilon_g)\})$ iterations to find an $(\epsilon_f,\epsilon_g)$-optimal solution. We further prove stronger convergence guarantees under the H\"olderian error bound assumption on the lower-level problem. To the best of our knowledge, our method achieves the best-known iteration complexity for the considered bilevel problem. We also present numerical experiments to showcase the superior performance of our method compared with state-of-the-art methods.
翻訳日:2022-06-20 13:37:00 公開日:2022-06-17
# 測度空間における相対滑らかな鏡像とシンクホーンとEMへの応用

Mirror Descent with Relative Smoothness in Measure Spaces, with application to Sinkhorn and EM ( http://arxiv.org/abs/2206.08873v1 )

ライセンス: Link先を確認
Pierre-Cyril Aubin-Frankowski and Anna Korba and Flavien L\'eger(参考訳) 機械学習における多くの問題は、測度空間上の凸関数の最適化として定式化することができる。 本稿では,この無限次元設定におけるミラー降下アルゴリズムの収束について検討する。 方向微分を通じてブレグマンの発散を定義することにより、関数の相対滑らかかつ強い凸対に対するスキームの収束を導出する。 この結果を合同分布とkullback-leibler (kl) 分岐に適用し, 連続配置におけるエントロピー最適輸送のためのシンクホーンの原始反復がミラー降下に対応することを証明し, その(sub)線形収束の新たな証明を得る。 また, 期待最大化 (em) は常にミラー降下として書けることを示し, 混合を固定しながら潜在分布を最適化すると, 部分線形収束率を導出する。

Many problems in machine learning can be formulated as optimizing a convex functional over a space of measures. This paper studies the convergence of the mirror descent algorithm in this infinite-dimensional setting. Defining Bregman divergences through directional derivatives, we derive the convergence of the scheme for relatively smooth and strongly convex pairs of functionals. Applying our result to joint distributions and the Kullback--Leibler (KL) divergence, we show that Sinkhorn's primal iterations for entropic optimal transport in the continuous setting correspond to a mirror descent, and we obtain a new proof of its (sub)linear convergence. We also show that Expectation Maximization (EM) can always formally be written as a mirror descent, and, when optimizing on the latent distribution while fixing the mixtures, we derive sublinear rates of convergence.
翻訳日:2022-06-20 13:36:19 公開日:2022-06-17
# ガウス拡散を伴う損失圧縮

Lossy Compression with Gaussian Diffusion ( http://arxiv.org/abs/2206.08889v1 )

ライセンス: Link先を確認
Lucas Theis, Tim Salimans, Matthew D. Hoffman, Fabian Mentzer(参考訳) 非条件拡散生成モデルに基づくdiffcと呼ばれる新しい損失圧縮手法について述べる。 トランスフォーメーション符号化と量子化に依存して送信された情報を制限する現代の圧縮方式とは異なり、DiffCはガウスノイズによって劣化したピクセルの効率的な通信に依存している。 我々は概念実証を実装し,imagenet 64x64 上の最先端生成圧縮法に匹敵するエンコーダ変換の欠如にもかかわらず,驚くほどうまく機能していることを見出した。 DiffCは1つのモデルのみを使用して、劣化したピクセルを任意のビットレートでエンコードし、復号する。 このアプローチはさらにプログレッシブコーディング、すなわち部分ビットストリームから復号化をサポートする。 我々は,多変量ガウスデータに対する解析結果と一般分布に対する初期結果を提供するとともに,その性能をより深く理解するために,レートゆがみ解析を行う。 さらに,フローベースの再構成により,高ビットレートでの祖先サンプリングよりも3dBのゲインが得られることを示す。

We describe a novel lossy compression approach called DiffC which is based on unconditional diffusion generative models. Unlike modern compression schemes which rely on transform coding and quantization to restrict the transmitted information, DiffC relies on the efficient communication of pixels corrupted by Gaussian noise. We implement a proof of concept and find that it works surprisingly well despite the lack of an encoder transform, outperforming the state-of-the-art generative compression method HiFiC on ImageNet 64x64. DiffC only uses a single model to encode and denoise corrupted pixels at arbitrary bitrates. The approach further provides support for progressive coding, that is, decoding from partial bit streams. We perform a rate-distortion analysis to gain a deeper understanding of its performance, providing analytical results for multivariate Gaussian data as well as initial results for general distributions. Furthermore, we show that a flow-based reconstruction achieves a 3 dB gain over ancestral sampling at high bitrates.
翻訳日:2022-06-20 13:36:03 公開日:2022-06-17
# ナビゲーションエージェントは環境について何を学ぶのか?

What do navigation agents learn about their environment? ( http://arxiv.org/abs/2206.08500v1 )

ライセンス: Link先を確認
Kshitij Dwivedi, Gemma Roig, Aniruddha Kembhavi, Roozbeh Mottaghi(参考訳) 今日の最先端のビジュアルナビゲーションエージェントは、通常、エンドツーエンドでトレーニングされた大きなディープラーニングモデルで構成される。 このようなモデルは、その環境に応じて取られたエージェントの学習スキルや行動について、ほとんど、あるいは全く解釈できない。 過去の研究は深層学習モデルの解釈を探求してきたが、環境の構造、対象特性、行動の結果を推論することを含む具体化されたaiシステムの解釈にはほとんど注意が払われていない。 本稿では,ポイントゴールおよびオブジェクトゴールナビゲーションエージェントのための具体化エージェント(isee)の解釈可能性システムを提案する。 我々は,これらのエージェントが生成する動的表現をiseeを用いて調査し,エージェントと環境に関する情報を収集する。 iSEEを用いたナビゲーションエージェントに関する興味深い知見として、到達可能な位置(障害物を避けるために)を符号化する能力、ターゲットの視認性、初期発生位置からの進展、重要な個々のニューロンを隠蔽する際のエージェントの行動に対する劇的な影響などを挙げる。 コードは、https://github.com/allenai/iSEEで入手できる。

Today's state of the art visual navigation agents typically consist of large deep learning models trained end to end. Such models offer little to no interpretability about the learned skills or the actions of the agent taken in response to its environment. While past works have explored interpreting deep learning models, little attention has been devoted to interpreting embodied AI systems, which often involve reasoning about the structure of the environment, target characteristics and the outcome of one's actions. In this paper, we introduce the Interpretability System for Embodied agEnts (iSEE) for Point Goal and Object Goal navigation agents. We use iSEE to probe the dynamic representations produced by these agents for the presence of information about the agent as well as the environment. We demonstrate interesting insights about navigation agents using iSEE, including the ability to encode reachable locations (to avoid obstacles), visibility of the target, progress from the initial spawn location as well as the dramatic effect on the behaviors of agents when we mask out critical individual neurons. The code is available at: https://github.com/allenai/iSEE
翻訳日:2022-06-20 13:35:21 公開日:2022-06-17
# マルチモーダル注意に基づくアルツハイマー病診断のための深層学習

Multimodal Attention-based Deep Learning for Alzheimer's Disease Diagnosis ( http://arxiv.org/abs/2206.08826v1 )

ライセンス: Link先を確認
Michal Golovanevsky, Carsten Eickhoff, and Ritambhara Singh(参考訳) アルツハイマー病(ad)は最も複雑な病原体の一つである神経変性疾患であり、効果的かつ臨床的に有効な意思決定支援が困難である。 本研究の目的は,医療従事者のad診断を支援するマルチモーダル深層学習フレームワークの開発である。 画像,遺伝子,臨床データから,ADと軽度認知障害(MCI)の存在を正確に検出するためのマルチモーダルアルツハイマー病診断フレームワーク(MADDi)を提案する。 maddiは、モダリティ間のインタラクションをキャプチャするクロスモーダルアテンション(cross-modal attention)を使用するという点では、新しい。 MCIとADの強い類似性を考慮した多クラス分類を行う。 従来の最先端モデルと比較し,注意の重要性を評価し,各モダリティがモデルの性能に与える影響を検討する。 MADDiはMCI、AD、制御を96.88%の精度で分類する。 異なる注意スキームの寄与を調べると,クロスモーダル注意と自己注意の組合せが最もよく,モデルの注意層は最悪で,f1-scoreでは7.9%の差が見られた。 我々の実験は、機械学習モデルが残りのモダリティをコンテキスト化し解釈するのを助けるために、構造化された臨床データの重要性を強調した。 広範なアブレーション研究により、構造的な臨床情報にアクセスできない入力特徴のマルチモーダル混合は、著しい性能低下を被った。 本研究は, 高精度なAD診断決定支援を実現するために, 複数の入力モダリティを相互注意で組み合わせることの利点を示す。

Alzheimer's Disease (AD) is the most common neurodegenerative disorder with one of the most complex pathogeneses, making effective and clinically actionable decision support difficult. The objective of this study was to develop a novel multimodal deep learning framework to aid medical professionals in AD diagnosis. We present a Multimodal Alzheimer's Disease Diagnosis framework (MADDi) to accurately detect the presence of AD and mild cognitive impairment (MCI) from imaging, genetic, and clinical data. MADDi is novel in that we use cross-modal attention, which captures interactions between modalities - a method not previously explored in this domain. We perform multi-class classification, a challenging task considering the strong similarities between MCI and AD. We compare with previous state-of-the-art models, evaluate the importance of attention, and examine the contribution of each modality to the model's performance. MADDi classifies MCI, AD, and controls with 96.88% accuracy on a held-out test set. When examining the contribution of different attention schemes, we found that the combination of cross-modal attention with self-attention performed the best, and no attention layers in the model performed the worst, with a 7.9% difference in F1-Scores. Our experiments underlined the importance of structured clinical data to help machine learning models contextualize and interpret the remaining modalities. Extensive ablation studies showed that any multimodal mixture of input features without access to structured clinical information suffered marked performance losses. This study demonstrates the merit of combining multiple input modalities via cross-modal attention to deliver highly accurate AD diagnostic decision support.
翻訳日:2022-06-20 13:35:04 公開日:2022-06-17
# Integer-Only Discrete Flowを用いた高速ロスレスニューラル圧縮

Fast Lossless Neural Compression with Integer-Only Discrete Flows ( http://arxiv.org/abs/2206.08869v1 )

ライセンス: Link先を確認
Siyu Wang, Jianfei Chen, Chongxuan Li, Jun Zhu, Bo Zhang(参考訳) エントロピーコーデックを学習データ分布に適用することにより、神経圧縮装置は従来のコーデックを圧縮比で大幅に上回っている。 しかし、ニューラルネットワークの高推論レイテンシは、実用的な応用におけるニューラル圧縮機の展開を妨げる。 本研究では整数のみの算術演算を持つ効率的なニューラル圧縮機であるInteger-only Discrete Flows (IODF)を提案する。 我々の研究は、離散確率変数間の可逆変換からなる整数離散フローに基づいている。 8ビット量子化に基づく整数のみ演算を用いた効率的な可逆変換を提案する。 我々の可逆変換は、推論中に冗長なフィルタを取り除くための学習可能なバイナリゲートを備えている。 gpu上にtensorrtを使用したiodfをデプロイし,既存のニューラルネットワーク圧縮機と比較して10倍の高速化を実現し,imagenet32とimagenet64の圧縮速度も維持した。

By applying entropy codecs with learned data distributions, neural compressors have significantly outperformed traditional codecs in terms of compression ratio. However, the high inference latency of neural networks hinders the deployment of neural compressors in practical applications. In this work, we propose Integer-only Discrete Flows (IODF), an efficient neural compressor with integer-only arithmetic. Our work is built upon integer discrete flows, which consists of invertible transformations between discrete random variables. We propose efficient invertible transformations with integer-only arithmetic based on 8-bit quantization. Our invertible transformation is equipped with learnable binary gates to remove redundant filters during inference. We deploy IODF with TensorRT on GPUs, achieving 10x inference speedup compared to the fastest existing neural compressors, while retaining the high compression rates on ImageNet32 and ImageNet64.
翻訳日:2022-06-20 13:34:33 公開日:2022-06-17
# トンプソンサンプリングは線形二次制御において$\tilde o(\sqrt{t})$ regretを達成する

Thompson Sampling Achieves $\tilde O(\sqrt{T})$ Regret in Linear Quadratic Control ( http://arxiv.org/abs/2206.08520v1 )

ライセンス: Link先を確認
Taylan Kargin, Sahin Lale, Kamyar Azizzadenesheli, Anima Anandkumar, Babak Hassibi(参考訳) トンプソンサンプリング(英: thompson sampling、ts)は、不確実性下での効率的な意思決定方法であり、観測データに基づいて更新された注意深く定められた分布から作用をサンプリングする。 本研究では,システムダイナミクスが不明なTSを用いた安定化線形二次規制器(LQR)の適応制御問題について検討する。 以前の研究で、$\tilde O(\sqrt{T})$ frequentist regret が LQR の適応制御に最適であることが証明されている。 しかし、既存の手法は制限的な設定でのみ動作し、事前の既知の安定化コントローラを必要とするか、計算的に難解なアプローチを利用するかのいずれかである。 我々は,LQRの適応制御のための効率的なTSアルゴリズム,TS-based Adaptive Control, TSACを提案し, マルチ次元システムにおいても, $\tilde O(\sqrt{T})$ regretを達成した。 TSACは、既知の安定化コントローラを必要とせず、初期環境を効果的に探索することで基盤システムの迅速な安定化を実現する。 我々の結果は、TSが楽観的なサンプルを提供する確率に基づいた、新しい低い境界の開発に結びついている。 早期探索戦略と政策更新ルールを慎重に規定することにより,多次元安定化型lqrsの適応制御において,tsが秩序最適後悔を達成できることを実証する。 いくつかの適応制御タスクにおけるtsacの性能と効率を実証的に示す。

Thompson Sampling (TS) is an efficient method for decision-making under uncertainty, where an action is sampled from a carefully prescribed distribution which is updated based on the observed data. In this work, we study the problem of adaptive control of stabilizable linear-quadratic regulators (LQRs) using TS, where the system dynamics are unknown. Previous works have established that $\tilde O(\sqrt{T})$ frequentist regret is optimal for the adaptive control of LQRs. However, the existing methods either work only in restrictive settings, require a priori known stabilizing controllers, or utilize computationally intractable approaches. We propose an efficient TS algorithm for the adaptive control of LQRs, TS-based Adaptive Control, TSAC, that attains $\tilde O(\sqrt{T})$ regret, even for multidimensional systems, thereby solving the open problem posed in Abeille and Lazaric (2018). TSAC does not require a priori known stabilizing controller and achieves fast stabilization of the underlying system by effectively exploring the environment in the early stages. Our result hinges on developing a novel lower bound on the probability that the TS provides an optimistic sample. By carefully prescribing an early exploration strategy and a policy update rule, we show that TS achieves order-optimal regret in adaptive control of multidimensional stabilizable LQRs. We empirically demonstrate the performance and the efficiency of TSAC in several adaptive control tasks.
翻訳日:2022-06-20 13:33:33 公開日:2022-06-17
# ニューラルネットワークの線形領域数における深さ・幅・活性化複雑さの役割

The Role of Depth, Width, and Activation Complexity in the Number of Linear Regions of Neural Networks ( http://arxiv.org/abs/2206.08615v1 )

ライセンス: Link先を確認
Alexis Goujon, Arian Etemadi and Michael Unser(参考訳) 多くのフィードフォワードニューラルネットワークはCPWL(Continuous and piecewise-linear)マッピングを生成する。 具体的には、入力ドメインをマッピングがアフィン関数である領域に分割する。 これらのいわゆる線型領域の数は、CPWL写像の表現性を特徴づける自然な計量を与える。 この量の正確な決定はしばしば到達できないが、よく知られたReLUやMaxoutネットワークを含む特定のアーキテクチャでは境界が提案されている。 本研究では,より汎用的な視点を提案し,cpwlネットワークの線形領域の最大数について,深さ,幅,アクティベーション複雑性の3つの表現源に基づいて正確な境界を与える。 我々の推定は凸分割の組合せ構造に依存しており、それ自身で指数関数的に領域数を増やすことができる深さの役割を強調する。 次に、CPWLネットワークアーキテクチャによって生成される線形領域の平均数を推定する補的確率的フレームワークを提案する。 合理的な仮定では、任意の1次元経路に沿った線形領域の期待密度は、深さ、幅、活性化複雑性(スケーリング係数まで)の積によって制限される。 これは表現力の3つの源と同一の役割をもたらす:深さを持つ指数的成長はもはや観察されない。

Many feedforward neural networks generate continuous and piecewise-linear (CPWL) mappings. Specifically, they partition the input domain into regions on which the mapping is an affine function. The number of these so-called linear regions offers a natural metric to characterize the expressiveness of CPWL mappings. Although the precise determination of this quantity is often out of reach, bounds have been proposed for specific architectures, including the well-known ReLU and Maxout networks. In this work, we propose a more general perspective and provide precise bounds on the maximal number of linear regions of CPWL networks based on three sources of expressiveness: depth, width, and activation complexity. Our estimates rely on the combinatorial structure of convex partitions and highlight the distinctive role of depth which, on its own, is able to exponentially increase the number of regions. We then introduce a complementary stochastic framework to estimate the average number of linear regions produced by a CPWL network architecture. Under reasonable assumptions, the expected density of linear regions along any 1D path is bounded by the product of depth, width, and a measure of activation complexity (up to a scaling factor). This yields an identical role to the three sources of expressiveness: no exponential growth with depth is observed anymore.
翻訳日:2022-06-20 13:33:04 公開日:2022-06-17
# 翻訳不変カーネルのオルソノーマル展開

Orthonormal Expansions for Translation-Invariant Kernels ( http://arxiv.org/abs/2206.08648v1 )

ライセンス: Link先を確認
Filip Tronarp and Toni Karvonen(参考訳) 我々は、$\mathscr{L}_2(\mathbb{R})$の正則基底から翻訳不変核の正則基底展開を構築するための一般フーリエ解析手法を提案する。 これにより、実数直線上の明示的な展開を導出できる。 (i)ラゲール関数の項で、すべての半整数順序の Mat\'ern 核。 (ii)有理関数の観点からのコーシー核、及び (iii) エルミート函数の点でのガウス核。

We present a general Fourier analytic technique for constructing orthonormal basis expansions of translation-invariant kernels from orthonormal bases of $\mathscr{L}_2(\mathbb{R})$. This allows us to derive explicit expansions on the real line for (i) Mat\'ern kernels of all half-integer orders in terms of associated Laguerre functions, (ii) the Cauchy kernel in terms of rational functions, and (iii) the Gaussian kernel in terms of Hermite functions.
翻訳日:2022-06-20 13:32:45 公開日:2022-06-17
# 逆行性ラベルノイズを伴う単一ニューロンのグラディエントDescentによる学習

Learning a Single Neuron with Adversarial Label Noise via Gradient Descent ( http://arxiv.org/abs/2206.08918v1 )

ライセンス: Link先を確認
Ilias Diakonikolas, Vasilis Kontonis, Christos Tzamos, Nikos Zarifis(参考訳) 単一ニューロンを学習する基本的な問題、すなわち、逆ラベルノイズの存在下での$L_2^2$-lossに関して、モノトン活性化に対する $\mathbf{x}\mapsto\sigma(\mathbf{w}\cdot\mathbf{x})$ という形の関数について研究する。 具体的には、$(\mathbf{x}, y)\in\mathbb{R}^d \times \mathbb{R}$ が存在するような分布 $D$ on $(\mathbf{x}, y)\in\mathbb{R}^d \times \mathbb{R}$ が存在し、$F(\mathbf{w}^\ast)=\epsilon$, ここで$F(\mathbf{w})=\mathbf{E}_{(\mathbf{x},y)\sim D}[(\sigma(\mathbf{w}\cdot \mathbf{x})-y)^2]$ が与えられる。 学習者の目標は、高い確率で$f(\mathbb{w})=c\, \epsilon$となるような仮説ベクトル$\mathbf{w}$を出力することである。 本研究の主な貢献として,多種多様な分布(対数凹分布を含む)とアクティベーション関数に対して,効率的な定数近似学習者を与える。 具体的には、等方性対数凸分布のクラスに対して、次の重要なコロールを得る: ロジスティック活性化のために、(ガウス分布の下でも)最初の多項式時間定数係数近似を得る。 我々のアルゴリズムは、多対数因子の中で厳密なサンプル複雑性$\widetilde{O}(d/\epsilon)$を持つ。 ReLU 活性化のために、サンプル複雑性 $\tilde{O}(d\, \polylog(1/\epsilon))$ の効率的なアルゴリズムを与える。 我々の研究に先立ち、最もよく知られている定数要素近似学習者はサンプル複雑性$\tilde{\Omega}(d/\epsilon)$であった。 どちらの設定でも、我々のアルゴリズムは単純で、(正規化)$L_2^2$-lossで勾配差を発生させる。 アルゴリズムの正しさは、確立した新しい構造的結果に依存し、基礎となる非凸損失の定常点がほぼ最適であることを示す。

We study the fundamental problem of learning a single neuron, i.e., a function of the form $\mathbf{x}\mapsto\sigma(\mathbf{w}\cdot\mathbf{x})$ for monotone activations $\sigma:\mathbb{R}\mapsto\mathbb{R}$, with respect to the $L_2^2$-loss in the presence of adversarial label noise. Specifically, we are given labeled examples from a distribution $D$ on $(\mathbf{x}, y)\in\mathbb{R}^d \times \mathbb{R}$ such that there exists $\mathbf{w}^\ast\in\mathbb{R}^d$ achieving $F(\mathbf{w}^\ast)=\epsilon$, where $F(\mathbf{w})=\mathbf{E}_{(\mathbf{x},y)\sim D}[(\sigma(\mathbf{w}\cdot \mathbf{x})-y)^2]$. The goal of the learner is to output a hypothesis vector $\mathbf{w}$ such that $F(\mathbb{w})=C\, \epsilon$ with high probability, where $C>1$ is a universal constant. As our main contribution, we give efficient constant-factor approximate learners for a broad class of distributions (including log-concave distributions) and activation functions. Concretely, for the class of isotropic log-concave distributions, we obtain the following important corollaries: For the logistic activation, we obtain the first polynomial-time constant factor approximation (even under the Gaussian distribution). Our algorithm has sample complexity $\widetilde{O}(d/\epsilon)$, which is tight within polylogarithmic factors. For the ReLU activation, we give an efficient algorithm with sample complexity $\tilde{O}(d\, \polylog(1/\epsilon))$. Prior to our work, the best known constant-factor approximate learner had sample complexity $\tilde{\Omega}(d/\epsilon)$. In both of these settings, our algorithms are simple, performing gradient-descent on the (regularized) $L_2^2$-loss. The correctness of our algorithms relies on novel structural results that we establish, showing that (essentially all) stationary points of the underlying non-convex loss are approximately optimal.
翻訳日:2022-06-20 13:32:39 公開日:2022-06-17
# (参考訳) 分散シフトに対する事前学習モデルの堅牢性は?

How robust are pre-trained models to distribution shift? ( http://arxiv.org/abs/2206.08871v1 )

ライセンス: CC BY 4.0
Yuge Shi, Imant Daunhawer, Julia E. Vogt, Philip H.S. Torr, Amartya Sanyal(参考訳) 機械学習モデルの突発的相関に対する脆弱性は、主に教師付き学習(SL)の文脈で議論されている。 しかし、この相関関係が一般的な自己教師付き学習(SSL)と自動エンコーダベースモデル(AE)のパフォーマンスにどのように影響するかについての知見は乏しい。 本研究では,実世界と合成分布シフトデータセットの両方において,これらのモデルの性能を評価することにより,この点に光を当てた。 線形ヘッド自体がスプリアス相関の影響を受けやすいという観測を受けて,od(out-of-distribution)データにトレーニングされたリニアヘッドを用いた新しい評価手法を開発し,評価に用いるリニアヘッドの潜在的なバイアスから事前学習したモデルの性能を分離する。 新たな手法により、SSLモデルはAEモデルやSLモデルよりも分散シフトに対して一貫して堅牢であり、OODの一般化が優れていることを示す。

The vulnerability of machine learning models to spurious correlations has mostly been discussed in the context of supervised learning (SL). However, there is a lack of insight on how spurious correlations affect the performance of popular self-supervised learning (SSL) and auto-encoder based models (AE). In this work, we shed light on this by evaluating the performance of these models on both real world and synthetic distribution shift datasets. Following observations that the linear head itself can be susceptible to spurious correlations, we develop a novel evaluation scheme with the linear head trained on out-of-distribution (OOD) data, to isolate the performance of the pre-trained models from a potential bias of the linear head used for evaluation. With this new methodology, we show that SSL models are consistently more robust to distribution shifts and thus better at OOD generalisation than AE and SL models.
翻訳日:2022-06-20 13:29:49 公開日:2022-06-17
# リストワイズ自己蒸留によるメトリック学習の一般化

Improving Generalization of Metric Learning via Listwise Self-distillation ( http://arxiv.org/abs/2206.08880v1 )

ライセンス: Link先を確認
Zelong Zeng, Fan Yang, Zheng Wang and Shin'ichi Satoh(参考訳) ほとんどの深層メトリック学習(dml)法は、すべての正のサンプルを負のサンプルから遠ざけながら埋め込み空間に近づけるように強制する戦略を採用している。 しかし、このような戦略は正の(負の)サンプルの内部関係を無視し、特に硬いサンプルやラベルのつかないサンプルの存在において過度に適合する。 本研究では,各試料対に対してより適切な距離目標を適応的に割り当てるために,モデルの知識を段階的に蒸留するlistwise self-distillation(lsd)という,単純かつ効果的な正則化を提案する。 LSDは、過剰適合を緩和し、一般化を改善する方法として、正(負)サンプルへのよりスムーズな埋め込みと情報マイニングを促進する。 私たちのLSDは、一般的なDMLフレームワークに直接統合することができます。 大規模な実験により、LSDは複数のデータセット上で様々なメトリック学習手法の性能を一貫して向上させることが示された。

Most deep metric learning (DML) methods employ a strategy that forces all positive samples to be close in the embedding space while keeping them away from negative ones. However, such a strategy ignores the internal relationships of positive (negative) samples and often leads to overfitting, especially in the presence of hard samples and mislabeled samples. In this work, we propose a simple yet effective regularization, namely Listwise Self-Distillation (LSD), which progressively distills a model's own knowledge to adaptively assign a more appropriate distance target to each sample pair in a batch. LSD encourages smoother embeddings and information mining within positive (negative) samples as a way to mitigate overfitting and thus improve generalization. Our LSD can be directly integrated into general DML frameworks. Extensive experiments show that LSD consistently boosts the performance of various metric learning methods on multiple datasets.
翻訳日:2022-06-20 13:08:58 公開日:2022-06-17
# 表現の多重性は排除されるべきではない

Representational Multiplicity Should Be Exposed, Not Eliminated ( http://arxiv.org/abs/2206.08890v1 )

ライセンス: Link先を確認
Ari Heljakka, Martin Trapp, Juho Kannala, Arno Solin(参考訳) トレーニング中に同様のパフォーマンスを持つ2つの機械学習モデルが、実世界のパフォーマンス特性とは全く異なる可能性があることは、一般的でよく理解されていない。 このことは、表現的多重性(RM)として表されるモデルの内部の明確な違いを意味する。 本稿では,rm分析のための概念的および実験的な設定を導入し,single vector canonical correlation analysis (svcca) による活性化類似性を用いて,特定の訓練方法が系統的に他の方法よりも大きなrmをもたらすことを示す。 さらに,4つの共通画像データセットにおいて,分散度および分布外テストセットの予測によって測定された予測多重度と相関する。 我々は,モデルにおけるrmの体系的測定と最大露出を求める。 コンファビュレータ分析のような定性的なツールは、利害関係者へのRM効果の理解とコミュニケーションを容易にします。

It is prevalent and well-observed, but poorly understood, that two machine learning models with similar performance during training can have very different real-world performance characteristics. This implies elusive differences in the internals of the models, manifesting as representational multiplicity (RM). We introduce a conceptual and experimental setup for analyzing RM and show that certain training methods systematically result in greater RM than others, measured by activation similarity via singular vector canonical correlation analysis (SVCCA). We further correlate it with predictive multiplicity measured by the variance in i.i.d. and out-of-distribution test set predictions, in four common image data sets. We call for systematic measurement and maximal exposure, not elimination, of RM in models. Qualitative tools such as our confabulator analysis can facilitate understanding and communication of RM effects to stakeholders.
翻訳日:2022-06-20 13:08:42 公開日:2022-06-17
# 高密度マルチタスク学習のためのクロスタスク注意機構

Cross-task Attention Mechanism for Dense Multi-task Learning ( http://arxiv.org/abs/2206.08927v1 )

ライセンス: Link先を確認
Ivan Lopes, Tuan-Hung Vu, and Raoul de Charette(参考訳) マルチタスク学習は、最近、複雑なシーンを包括的に理解するための有望なソリューションとなっている。 メモリ効率だけでなく、適切な設計のマルチタスクモデルでもタスク間で補完的な信号の交換が可能である。 本研究では,2次元セマンティックセグメンテーションと2つの幾何学的タスク,すなわち深度,表面正規度,およびエッジ推定を共同で扱う。 本稿では,相関誘導注意と自己注意を通じて対方向のクロスタスク交換を活用し,すべてのタスクにおける平均表現学習を向上させる,新しいマルチタスク学習アーキテクチャを提案する。 我々は,3つのマルチタスク構成を考慮に入れた広範囲な実験を行い,提案手法の利点を総合ベンチマークと実ベンチマークで比較した。 また,本手法を新しいマルチタスクアン教師付きドメイン適応設定に拡張する。 私たちのコードはhttps://github.com/cv-rits/DenseMTLで利用可能です。

Multi-task learning has recently become a promising solution for a comprehensive understanding of complex scenes. Not only being memory-efficient, multi-task models with an appropriate design can favor exchange of complementary signals across tasks. In this work, we jointly address 2D semantic segmentation, and two geometry-related tasks, namely dense depth, surface normal estimation as well as edge estimation showing their benefit on indoor and outdoor datasets. We propose a novel multi-task learning architecture that exploits pair-wise cross-task exchange through correlation-guided attention and self-attention to enhance the average representation learning for all tasks. We conduct extensive experiments considering three multi-task setups, showing the benefit of our proposal in comparison to competitive baselines in both synthetic and real benchmarks. We also extend our method to the novel multi-task unsupervised domain adaptation setting. Our code is available at https://github.com/cv-rits/DenseMTL.
翻訳日:2022-06-20 13:08:26 公開日:2022-06-17
# テキストバックドア学習の統一的評価--フレームワークとベンチマーク

A Unified Evaluation of Textual Backdoor Learning: Frameworks and Benchmarks ( http://arxiv.org/abs/2206.08514v1 )

ライセンス: Link先を確認
Ganqu Cui, Lifan Yuan, Bingxiang He, Yangyi Chen, Zhiyuan Liu, Maosong Sun(参考訳) テキストバックドア攻撃は、NLPシステムに対する実用的な脅威である。 トレーニングフェーズにバックドアを注入することで、敵は事前に定義されたトリガーを通じてモデル予測を制御することができる。 様々な攻撃・防御モデルが提案されているため、厳密な評価を行うことが重要である。 However, we highlight two issues in previous backdoor learning evaluations: (1) The differences between real-world scenarios (e.g. releasing poisoned datasets or models) are neglected, and we argue that each scenario has its own constraints and concerns, thus requires specific evaluation protocols; (2) The evaluation metrics only consider whether the attacks could flip the models' predictions on poisoned samples and retain performances on benign samples, but ignore that poisoned samples should also be stealthy and semantic-preserving. これらの問題に対処するために,我々は既存の作品を,攻撃者がデータセット,事前学習モデル,微調整モデルをリリースする3つの実用的なシナリオに分類し,それぞれ独自の評価手法について論じる。 有毒試料の完全評価には, 文法的誤りの増加と難解性差と, テキストの類似性を有効性として用いた。 フレームワークの形式化後,テキストバックドア学習の実装と評価を促進するオープンソースツールキットOpenBackdoorを開発した。 このツールキットでは,提案パラダイムの下で攻撃モデルと防御モデルをベンチマークする広範囲な実験を行う。 有害なデータセットに対する未熟な防御を容易にするため、シンプルなクラスタリングベースの防御ベースラインであるcubeも提案する。 私たちのフレームワークとベンチマークが将来のモデル開発と評価の基礎になることを期待しています。

Textual backdoor attacks are a kind of practical threat to NLP systems. By injecting a backdoor in the training phase, the adversary could control model predictions via predefined triggers. As various attack and defense models have been proposed, it is of great significance to perform rigorous evaluations. However, we highlight two issues in previous backdoor learning evaluations: (1) The differences between real-world scenarios (e.g. releasing poisoned datasets or models) are neglected, and we argue that each scenario has its own constraints and concerns, thus requires specific evaluation protocols; (2) The evaluation metrics only consider whether the attacks could flip the models' predictions on poisoned samples and retain performances on benign samples, but ignore that poisoned samples should also be stealthy and semantic-preserving. To address these issues, we categorize existing works into three practical scenarios in which attackers release datasets, pre-trained models, and fine-tuned models respectively, then discuss their unique evaluation methodologies. On metrics, to completely evaluate poisoned samples, we use grammar error increase and perplexity difference for stealthiness, along with text similarity for validity. After formalizing the frameworks, we develop an open-source toolkit OpenBackdoor to foster the implementations and evaluations of textual backdoor learning. With this toolkit, we perform extensive experiments to benchmark attack and defense models under the suggested paradigm. To facilitate the underexplored defenses against poisoned datasets, we further propose CUBE, a simple yet strong clustering-based defense baseline. We hope that our frameworks and benchmarks could serve as the cornerstones for future model development and evaluations.
翻訳日:2022-06-20 13:08:08 公開日:2022-06-17
# 連系コオペレータ選択によるシェープリー説明の促進

Accelerating Shapley Explanation via Contributive Cooperator Selection ( http://arxiv.org/abs/2206.08529v1 )

ライセンス: Link先を確認
Guanchu Wang and Yu-Neng Chuang and Mengnan Du and Fan Yang and Quan Zhou and Pushkar Tripathi and Xuanting Cai and Xia Hu(参考訳) Shapleyの値はDNNモデル予測に効果的な説明を提供するが、計算は全ての可能な入力特徴連立の列挙に依存するため、指数関数的に増大する複雑性をもたらす。 そこで本研究では,DNNモデルのShapley説明を高速化する新しい手法SHEARを提案する。 特徴連立の選定は,提案したシェープリー連鎖則に従えば,絶対誤差をゼロトラスシェープリー値から最小化し,計算の効率と精度を両立させることができる。 そこで本研究では, 実測値からの絶対誤差, 説明の忠実さ, 走行速度など, 複数の測定値のせん断特性を総合的に評価した。 実験結果から,SHEARは,計算資源が限られている実世界のアプリケーションにおいて,様々な評価指標において,最先端のベースライン手法を一貫して上回ることを示す。

Even though Shapley value provides an effective explanation for a DNN model prediction, the computation relies on the enumeration of all possible input feature coalitions, which leads to the exponentially growing complexity. To address this problem, we propose a novel method SHEAR to significantly accelerate the Shapley explanation for DNN models, where only a few coalitions of input features are involved in the computation. The selection of the feature coalitions follows our proposed Shapley chain rule to minimize the absolute error from the ground-truth Shapley values, such that the computation can be both efficient and accurate. To demonstrate the effectiveness, we comprehensively evaluate SHEAR across multiple metrics including the absolute error from the ground-truth Shapley value, the faithfulness of the explanations, and running speed. The experimental results indicate SHEAR consistently outperforms state-of-the-art baseline methods across different evaluation metrics, which demonstrates its potentials in real-world applications where the computational resource is limited.
翻訳日:2022-06-20 13:06:41 公開日:2022-06-17
# (参考訳) TAVA:テンプレートなしアニメーションボリュームアクター

TAVA: Template-free Animatable Volumetric Actors ( http://arxiv.org/abs/2206.08929v1 )

ライセンス: CC BY 4.0
Ruilong Li, Julian Tanke, Minh Vo, Michael Zollhofer, Jurgen Gall, Angjoo Kanazawa, Christoph Lassner(参考訳) 座標に基づくボリューム表現は、画像からフォトリアリスティックな仮想アバターを生成する可能性を秘めている。 しかし、仮想アバターは観察されなかったかもしれない新しいポーズに対しても制御可能である必要がある。 LBSのような伝統的な技術はそのような機能を提供しているが、通常は手書きのボディテンプレート、3Dスキャンデータ、限られた外観モデルを必要とする。 一方、神経表現は視覚的詳細を表現するのに強力であることが示されているが、動的調音アクターの変形について検討されている。 本稿では,ニューラルネットワークをベースとした,Tエンプレートフリーのアニマタブルボリュームアクタ作成手法であるTAVAを提案する。 我々は、アクターのボリュームモデルを作成するために、マルチビューデータと追跡されたスケルトンのみを頼りにしており、新しいポーズを与えられたテスト時間でアニメーションすることができる。 TAVAは体テンプレートを必要としないため、ヒトや動物などの他の生物にも適用可能である。 さらに、tavaは正確な密接な対応を復元できるように設計されており、コンテンツ作成や編集作業に適している。 広範にわたる実験により,提案手法は新規なポーズや未知のビューを一般化し,基本的な編集機能を示す。

Coordinate-based volumetric representations have the potential to generate photo-realistic virtual avatars from images. However, virtual avatars also need to be controllable even to a novel pose that may not have been observed. Traditional techniques, such as LBS, provide such a function; yet it usually requires a hand-designed body template, 3D scan data, and limited appearance models. On the other hand, neural representation has been shown to be powerful in representing visual details, but are under explored on deforming dynamic articulated actors. In this paper, we propose TAVA, a method to create T emplate-free Animatable Volumetric Actors, based on neural representations. We rely solely on multi-view data and a tracked skeleton to create a volumetric model of an actor, which can be animated at the test time given novel pose. Since TAVA does not require a body template, it is applicable to humans as well as other creatures such as animals. Furthermore, TAVA is designed such that it can recover accurate dense correspondences, making it amenable to content-creation and editing tasks. Through extensive experiments, we demonstrate that the proposed method generalizes well to novel poses as well as unseen views and showcase basic editing capabilities.
翻訳日:2022-06-20 13:05:39 公開日:2022-06-17
# FiT:パーソナライズ・フェデレーション画像分類のためのパラメータ効率の良いFew-shot Transfer Learning

FiT: Parameter Efficient Few-shot Transfer Learning for Personalized and Federated Image Classification ( http://arxiv.org/abs/2206.08671v1 )

ライセンス: Link先を確認
Aliaksandra Shysheya, John Bronskill, Massimiliano Patacchiola, Sebastian Nowozin, Richard E Turner(参考訳) 最近のディープラーニングシステムは、パーソナライゼーションやフェデレーション学習といった、サポートが必要な状況にますます展開されている。 一 少量のデータについて学ぶこと、及び 二 通信効率のよい分散トレーニングプロトコル。 本研究では、画像分類設定においてこれらの要件を満たすFiLM Transfer(FiT)を開発する。 FiTは、大規模な画像データセットで事前トレーニングされた固定バックボーンの上に、自動的に設定されたNaive Bayes分類器を使用する。 パラメータ効率の良いFiLMレイヤを使用してバックボーンを変調し、下流タスクの表現を形成する。 ネットワークはエピソード微調整プロトコルを介して訓練される。 このアプローチはパラメータ効率が重要であり、少数ショット学習、パーソナライズのための安価なモデル更新、コミュニケーション効率のよいフェデレーション学習を可能にする。 我々は、幅広い下流データセットでfitを実験し、低ショットおよび挑戦的なvtab-1kベンチマークにおいて、更新可能なパラメータの1%未満で、最先端のbig transfer (bit)アルゴリズムよりも優れた分類精度を実現できることを示した。 最後に、モデルパーソナライゼーションやフェデレーション学習を含む分散ローショットアプリケーションにおいて、モデル更新サイズが重要なパフォーマンス指標となるFiTのパラメータ効率を示す。

Modern deep learning systems are increasingly deployed in situations such as personalization and federated learning where it is necessary to support i) learning on small amounts of data, and ii) communication efficient distributed training protocols. In this work we develop FiLM Transfer (FiT) which fulfills these requirements in the image classification setting. FiT uses an automatically configured Naive Bayes classifier on top of a fixed backbone that has been pretrained on large image datasets. Parameter efficient FiLM layers are used to modulate the backbone, shaping the representation for the downstream task. The network is trained via an episodic fine-tuning protocol. The approach is parameter efficient which is key for enabling few-shot learning, inexpensive model updates for personalization, and communication efficient federated learning. We experiment with FiT on a wide range of downstream datasets and show that it achieves better classification accuracy than the state-of-the-art Big Transfer (BiT) algorithm at low-shot and on the challenging VTAB-1k benchmark, with fewer than 1% of the updateable parameters. Finally, we demonstrate the parameter efficiency of FiT in distributed low-shot applications including model personalization and federated learning where model update size is an important performance metric.
翻訳日:2022-06-20 13:04:12 公開日:2022-06-17
# チャネル次元の探索と事前学習パラメータのマッピングによる物体検出のためのニューラルアーキテクチャ適応

Neural Architecture Adaptation for Object Detection by Searching Channel Dimensions and Mapping Pre-trained Parameters ( http://arxiv.org/abs/2206.08509v1 )

ライセンス: Link先を確認
Harim Jung, Myeong-Seok Oh, Cheoljong Yang, Seong-Whan Lee(参考訳) ほとんどのオブジェクト検出フレームワークは、元来画像分類用に設計されたバックボーンアーキテクチャを使用する。 しかし、画像分類とオブジェクト検出は本質的に異なるタスクであり、分類のための最適なバックボーンがオブジェクト検出にも最適である保証はない。 最近のニューラルアーキテクチャサーチ(NAS)研究は、オブジェクト検出に特化したバックボーンの自動設計が全体的な精度を向上させることを実証している。 本稿では,与えられたバックボーンを検出目的に最適化し,事前学習パラメータの使用を可能としたニューラルアーキテクチャ適応手法を提案する。 本稿では,各ブロックの出力チャネル次元に加えて,特定の操作とレイヤ数を求めることで,マイクロアーキテクチャとマクロアーキテクチャの両方を適用することを提案する。 特徴表現能力と計算コストに大きな影響を与えるため、最適なチャネル深さを見つけることが重要である。 対象検出のために検索したバックボーンを用いて実験を行い、我々のバックボーンがCOCOデータセット上で手動設計および検索された最先端のバックボーンよりも優れていることを示す。

Most object detection frameworks use backbone architectures originally designed for image classification, conventionally with pre-trained parameters on ImageNet. However, image classification and object detection are essentially different tasks and there is no guarantee that the optimal backbone for classification is also optimal for object detection. Recent neural architecture search (NAS) research has demonstrated that automatically designing a backbone specifically for object detection helps improve the overall accuracy. In this paper, we introduce a neural architecture adaptation method that can optimize the given backbone for detection purposes, while still allowing the use of pre-trained parameters. We propose to adapt both the micro- and macro-architecture by searching for specific operations and the number of layers, in addition to the output channel dimensions of each block. It is important to find the optimal channel depth, as it greatly affects the feature representation capability and computation cost. We conduct experiments with our searched backbone for object detection and demonstrate that our backbone outperforms both manually designed and searched state-of-the-art backbones on the COCO dataset.
翻訳日:2022-06-20 13:03:20 公開日:2022-06-17
# ドメインシフトを用いたオンライン手書き認識における時系列分類の不確実性評価

Uncertainty-aware Evaluation of Time-Series Classification for Online Handwriting Recognition with Domain Shift ( http://arxiv.org/abs/2206.08640v1 )

ライセンス: Link先を確認
Andreas Kla{\ss} and Sven M. Lorenz and Martin W. Lauer-Schmaltz and David R\"ugamer and Bernd Bischl and Christopher Mutschler and Felix Ott(参考訳) 多くのアプリケーションにおいて、機械学習モデルの不確実性を分析することは不可欠である。 不確実量化(UQ)技術の研究はコンピュータビジョン応用において非常に進んでいるが、時空間データに対するUQ手法の研究は少ない。 本稿では,一種類の時空間データであるオンライン手書き認識モデルに着目した。 データは、文字の分類を目標としたセンサエンハンスペンから観測される。 ベイズ推定のための2つの顕著な手法である確率的重み平均ゲージ (swag) と深いアンサンブルに基づいて, aleatoric (データ) と epistemic (モデル) uq の広範な評価を行う。 モデルをよりよく理解するために、右利きと左利きのライター(表現不足のグループ)を組み合わせると、UQテクニックは配布外データとドメインシフトを検出することができる。

For many applications, analyzing the uncertainty of a machine learning model is indispensable. While research of uncertainty quantification (UQ) techniques is very advanced for computer vision applications, UQ methods for spatio-temporal data are less studied. In this paper, we focus on models for online handwriting recognition, one particular type of spatio-temporal data. The data is observed from a sensor-enhanced pen with the goal to classify written characters. We conduct a broad evaluation of aleatoric (data) and epistemic (model) UQ based on two prominent techniques for Bayesian inference, Stochastic Weight Averaging-Gaussian (SWAG) and Deep Ensembles. Next to a better understanding of the model, UQ techniques can detect out-of-distribution data and domain shifts when combining right-handed and left-handed writers (an underrepresented group).
翻訳日:2022-06-20 13:03:00 公開日:2022-06-17
# ctooth:完全注釈付き3dデータセットとコーンビームct画像における歯の体積分割ベンチマーク

CTooth: A Fully Annotated 3D Dataset and Benchmark for Tooth Volume Segmentation on Cone Beam Computed Tomography Images ( http://arxiv.org/abs/2206.08778v1 )

ライセンス: Link先を確認
Weiwei Cui, Yaqi Wang, Qianni Zhang, Huiyu Zhou, Dan Song, Xingyong Zuo, Gangyong Jia, Liaoyuan Zeng(参考訳) 3次元歯のセグメンテーションはコンピュータ支援型歯科診断と治療の前提条件である。 しかし、すべての歯の領域を手動で分割することは主観的で時間を要する。 近年,深層学習に基づくセグメンテーション手法によって説得力のある結果が得られ,手作業による注記作業が削減されている。 我々の知る限り、3Dセグメンテーション研究に利用できる歯のデータはほとんどない。 そこで本研究では,歯金規格のCToothを完全注釈付きコーンビームで計算した。 このデータセットは、経験豊富な放射線インタプリタによって注釈された細かい歯のラベルを含む22巻(7363スライス)を含んでいる。 相対的なデータサンプリング分布を確保するために、歯の欠損や歯の修復を含むCToothにデータ分散を含む。 このデータセットでは,いくつかの最先端セグメンテーション手法が評価されている。 その後, 歯の容積を分割するために, 3次元注意に基づくUnetの変種を更に要約し, 適用する。 この研究は、歯の体積分割タスクの新しいベンチマークを提供する。 実験的証拠は、3D UNet構造の注意モジュールが歯の部位の反応を高め、背景と騒音の影響を抑制することを証明している。 最高のパフォーマンスは、SKNetアテンションモジュールを持つ3D Unetで、それぞれ88.04 \% Diceと78.71 \% IOUである。 注意ベースのUnetフレームワークは、CToothデータセット上の他の最先端メソッドよりも優れています。 コードベースとデータセットがリリースされる。

3D tooth segmentation is a prerequisite for computer-aided dental diagnosis and treatment. However, segmenting all tooth regions manually is subjective and time-consuming. Recently, deep learning-based segmentation methods produce convincing results and reduce manual annotation efforts, but it requires a large quantity of ground truth for training. To our knowledge, there are few tooth data available for the 3D segmentation study. In this paper, we establish a fully annotated cone beam computed tomography dataset CTooth with tooth gold standard. This dataset contains 22 volumes (7363 slices) with fine tooth labels annotated by experienced radiographic interpreters. To ensure a relative even data sampling distribution, data variance is included in the CTooth including missing teeth and dental restoration. Several state-of-the-art segmentation methods are evaluated on this dataset. Afterwards, we further summarise and apply a series of 3D attention-based Unet variants for segmenting tooth volumes. This work provides a new benchmark for the tooth volume segmentation task. Experimental evidence proves that attention modules of the 3D UNet structure boost responses in tooth areas and inhibit the influence of background and noise. The best performance is achieved by 3D Unet with SKNet attention module, of 88.04 \% Dice and 78.71 \% IOU, respectively. The attention-based Unet framework outperforms other state-of-the-art methods on the CTooth dataset. The codebase and dataset are released.
翻訳日:2022-06-20 13:02:40 公開日:2022-06-17
# DU-Netを用いた癌分離のための非教師付きコントラスト学習

DU-Net based Unsupervised Contrastive Learning for Cancer Segmentation in Histology Images ( http://arxiv.org/abs/2206.08791v1 )

ライセンス: Link先を確認
Yilong Li, Yaqi Wang, Huiyu Zhou, Huaqiong Wang, Gangyong Jia, Qianni Zhang(参考訳) 本稿では,組織像に対する教師なし癌分割フレームワークを提案する。 このフレームワークは、セグメンテーションのための視覚表現を抽出する効果的なコントラスト学習スキームを含む。 エンコーダはDeep U-Net(DU-Net)構造であり、通常のU-Netと比較して完全な畳み込み層を含む。 腫瘍境界の良質なアノテーションを用いた訓練セットの欠如を解消するために,対照学習方式を開発した。 コントラスト学習から学習した色彩特徴の識別性を向上させるために,特定のデータ拡張手法が用いられる。 畳み込み条件付きランダム場を用いて、平滑化とノイズ除去を行う。 この実験は、人気のある教師付きネットワークよりも、セグメンテーションにおける競合性能がさらに優れていることを示している。

In this paper, we introduce an unsupervised cancer segmentation framework for histology images. The framework involves an effective contrastive learning scheme for extracting distinctive visual representations for segmentation. The encoder is a Deep U-Net (DU-Net) structure that contains an extra fully convolution layer compared to the normal U-Net. A contrastive learning scheme is developed to solve the problem of lacking training sets with high-quality annotations on tumour boundaries. A specific set of data augmentation techniques are employed to improve the discriminability of the learned colour features from contrastive learning. Smoothing and noise elimination are conducted using convolutional Conditional Random Fields. The experiments demonstrate competitive performance in segmentation even better than some popular supervised networks.
翻訳日:2022-06-20 13:02:18 公開日:2022-06-17
# 直交勾配降下を用いたデバッギング

Debugging using Orthogonal Gradient Descent ( http://arxiv.org/abs/2206.08489v1 )

ライセンス: Link先を確認
Narsimha Chilkuri, Chris Eliasmith(参考訳) 部分的に欠陥のあるトレーニング済みのモデルを考えると、モデルをスクラッチからトレーニングすることなく、その振る舞いを修正できますか? 言い換えれば、ニューラルネットワークの‘デバッグ’は、数学的モデルや標準的なコンピュータコードにおけるバグに対処する方法に似ていますか? 我々は,デバッグを2タスク連続学習問題として扱うことができるという仮説に基づく。 特に,直交勾配降下 (ogd) と呼ばれる連続学習アルゴリズムの修正版を用いて,mnistデータセットの2つの単純な実験を通じて,モデルの一般的な性能を維持しつつ,望ましくない振る舞いを具体化できることを実証し,さらに,モデルをスクラッチからトレーニングすることなく,適切な振る舞いを \textit{relearn} することができる。

In this report we consider the following problem: Given a trained model that is partially faulty, can we correct its behaviour without having to train the model from scratch? In other words, can we ``debug" neural networks similar to how we address bugs in our mathematical models and standard computer code. We base our approach on the hypothesis that debugging can be treated as a two-task continual learning problem. In particular, we employ a modified version of a continual learning algorithm called Orthogonal Gradient Descent (OGD) to demonstrate, via two simple experiments on the MNIST dataset, that we can in-fact \textit{unlearn} the undesirable behaviour while retaining the general performance of the model, and we can additionally \textit{relearn} the appropriate behaviour, both without having to train the model from scratch.
翻訳日:2022-06-20 13:00:15 公開日:2022-06-17
# 時間周波数一貫性による自己監督型コントラスト事前訓練

Self-Supervised Contrastive Pre-Training For Time Series via Time-Frequency Consistency ( http://arxiv.org/abs/2206.08496v1 )

ライセンス: Link先を確認
Xiang Zhang, Ziyuan Zhao, Theodoros Tsiligkaridis, Marinka Zitnik(参考訳) 時系列での事前トレーニングは、時間的ダイナミクスの変化、急速な発展傾向、長距離および短いサイクル効果など、事前トレーニングとターゲットドメインの潜在的なミスマッチが下流のパフォーマンスを損なう可能性があるため、ユニークな課題となっている。 ドメイン適応メソッドはこれらのシフトを緩和するが、ほとんどのメソッドはターゲットドメインから直接サンプルを必要とし、事前トレーニングに最適ではない。 この課題に対処するためには、メソッドは異なる時間的ダイナミクスを持つターゲットドメインに対応し、事前トレーニング中にターゲットの例を見ることなく実行可能である必要がある。 他のモダリティとは対照的に、時系列では、同じ例の時間ベースおよび周波数ベースの表現が時間周波数空間に近接していると期待する。 この目的のために、時間周波数整合性(TF-C) -- 特定のサンプルの時間ベースの近傍をその周波数ベースの近傍と後方に埋め込むこと -- が事前トレーニングに望ましいと仮定する。 TF-C をモチベーションとして,時間と周波数成分の距離で自己教師型信号が提供され,それぞれがコントラスト推定によって個別に訓練される,分解可能な事前学習モデルを定義する。 本手法は, 電気診断検査, 人的活動認識, 機械的故障検出, 物理的状態モニタリングを含む8つのデータセットに対して評価した。 8つの最先端手法に対する実験では、TF-Cは1対1の設定で平均15.4%(F1スコア)、EMGデータ上では最大8.4%(F1スコア)のベースラインを上回り、現実世界のアプリケーションで発生するシナリオの幅を反映している。 ソースコードとデータセットはhttps: //anonymous.4open.science/r/TFC-pretraining-6B07で公開されている。

Pre-training on time series poses a unique challenge due to the potential mismatch between pre-training and target domains, such as shifts in temporal dynamics, fast-evolving trends, and long-range and short cyclic effects, which can lead to poor downstream performance. While domain adaptation methods can mitigate these shifts, most methods need examples directly from the target domain, making them suboptimal for pre-training. To address this challenge, methods need to accommodate target domains with different temporal dynamics and be capable of doing so without seeing any target examples during pre-training. Relative to other modalities, in time series, we expect that time-based and frequency-based representations of the same example are located close together in the time-frequency space. To this end, we posit that time-frequency consistency (TF-C) -- embedding a time-based neighborhood of a particular example close to its frequency-based neighborhood and back -- is desirable for pre-training. Motivated by TF-C, we define a decomposable pre-training model, where the self-supervised signal is provided by the distance between time and frequency components, each individually trained by contrastive estimation. We evaluate the new method on eight datasets, including electrodiagnostic testing, human activity recognition, mechanical fault detection, and physical status monitoring. Experiments against eight state-of-the-art methods show that TF-C outperforms baselines by 15.4% (F1 score) on average in one-to-one settings (e.g., fine-tuning an EEG-pretrained model on EMG data) and by up to 8.4% (F1 score) in challenging one-to-many settings, reflecting the breadth of scenarios that arise in real-world applications. The source code and datasets are available at https: //anonymous.4open.science/r/TFC-pretraining-6B07.
翻訳日:2022-06-20 12:59:59 公開日:2022-06-17
# 政策最適化のための近似勾配更新のパラメトリッククラス

A Parametric Class of Approximate Gradient Updates for Policy Optimization ( http://arxiv.org/abs/2206.08499v1 )

ライセンス: Link先を確認
Ramki Gummadi, Saurabh Kumar, Junfeng Wen, Dale Schuurmans(参考訳) 政策最適化のアプローチは、パラメトリックモデルをどのように解釈するか(例えば、価値と政策表現)、学習目標をどのように定式化するかに基づいて、様々な原則から動機づけられているが、それらは期待されたリターンを最大化する共通の目標を共有している。 政策最適化手法の共通性をよりよく把握し,重要な違いを識別するために,勾配形式とスケーリング関数の限定的な選択という観点から,基盤となる更新を再表現する統一的な視点を開発する。 特に、PPOを含む古典的および最近の事例を網羅しながら、高度に構造化された政策最適化のための近似勾配更新のパラメータ化空間を同定する。 その結果、収束速度と最終的な結果品質の両方の利点を享受できる方法で、既存のアルゴリズムを一般化する新たなモチベーションが得られた。 実験的研究により、パラメータ化された一連の更新で提供される追加の自由度が、合成ドメインと一般的なディープrlベンチマークの両方で非自明な改善を得るために活用できることが示されている。

Approaches to policy optimization have been motivated from diverse principles, based on how the parametric model is interpreted (e.g. value versus policy representation) or how the learning objective is formulated, yet they share a common goal of maximizing expected return. To better capture the commonalities and identify key differences between policy optimization methods, we develop a unified perspective that re-expresses the underlying updates in terms of a limited choice of gradient form and scaling function. In particular, we identify a parameterized space of approximate gradient updates for policy optimization that is highly structured, yet covers both classical and recent examples, including PPO. As a result, we obtain novel yet well motivated updates that generalize existing algorithms in a way that can deliver benefits both in terms of convergence speed and final result quality. An experimental investigation demonstrates that the additional degrees of freedom provided in the parameterized family of updates can be leveraged to obtain non-trivial improvements both in synthetic domains and on popular deep RL benchmarks.
翻訳日:2022-06-20 12:59:23 公開日:2022-06-17
# ニューラル条件依存尺度を用いた再構成GES

Reframed GES with a Neural Conditional Dependence Measure ( http://arxiv.org/abs/2206.08531v1 )

ライセンス: Link先を確認
Xinwei Shen, Shengyu Zhu, Jiji Zhang, Shoubo Hu, Zhitang Chen(参考訳) 非パラメトリックな設定では、因果構造はしばしばマルコフ同値のみを識別し、因果推論のためにマルコフ同値類(MEC)のグラフィカル表現を学ぶのに有用である。 本稿では,基礎となる因果構造のmecを学習するためのスコアベースアルゴリズムとして広く引用される greedy equivalence search (ges) アルゴリズムを再検討する。 我々は、gesアルゴリズムを非パラメトリックな設定で一貫性を持たせるために、グラフを評価するスコア付けメトリックを設計する必要はないと観察する。 代わりに、条件依存の尺度の一貫した推定器を差し込み、検索を導くだけで十分である。 そこで本研究では,標準スコアベース版よりも柔軟で,条件依存の一般的な尺度を用いて非パラメトリック設定に容易に適合するgesアルゴリズムの再構成を提案する。 さらに,ディープニューラルネットワークの表現力を利用して条件付き独立性を非パラメトリックに特徴付けるニューラル条件付き依存尺度(ncd)を提案する。 標準仮定の下で再構成されたgesアルゴリズムの最適性と、条件付き独立性を決定するための ncd 推定器の使用の一貫性を確立する。 これらの結果は、提案されたアプローチを正当化する。 実験の結果,本手法が因果発見に有効であること,およびNCD測定をカーネルベース測定に応用することの利点が示された。

In a nonparametric setting, the causal structure is often identifiable only up to Markov equivalence, and for the purpose of causal inference, it is useful to learn a graphical representation of the Markov equivalence class (MEC). In this paper, we revisit the Greedy Equivalence Search (GES) algorithm, which is widely cited as a score-based algorithm for learning the MEC of the underlying causal structure. We observe that in order to make the GES algorithm consistent in a nonparametric setting, it is not necessary to design a scoring metric that evaluates graphs. Instead, it suffices to plug in a consistent estimator of a measure of conditional dependence to guide the search. We therefore present a reframing of the GES algorithm, which is more flexible than the standard score-based version and readily lends itself to the nonparametric setting with a general measure of conditional dependence. In addition, we propose a neural conditional dependence (NCD) measure, which utilizes the expressive power of deep neural networks to characterize conditional independence in a nonparametric manner. We establish the optimality of the reframed GES algorithm under standard assumptions and the consistency of using our NCD estimator to decide conditional independence. Together these results justify the proposed approach. Experimental results demonstrate the effectiveness of our method in causal discovery, as well as the advantages of using our NCD measure over kernel-based measures.
翻訳日:2022-06-20 12:56:24 公開日:2022-06-17
# マルチタスクバンドにおけるロバスト転送のためのトンプソンサンプリング

Thompson Sampling for Robust Transfer in Multi-Task Bandits ( http://arxiv.org/abs/2206.08556v1 )

ライセンス: Link先を確認
Zhi Wang, Chicheng Zhang, Kamalika Chaudhuri(参考訳) 本研究では,同一だが同一のマルチアーム付きバンディット環境においてタスクが実行されるオンラインマルチタスク学習の問題点について検討する。 特に,学習者が知識の堅牢な伝達を通じて,複数のタスクにわたる全体的なパフォーマンスを改善する方法について検討する。 近年,全てのタスクが並列に処理される環境では,上位信頼度境界(UCB)に基づくアルゴリズムがほぼ最適性能を保証することが示されているが,実験性能に優れるトンプソンサンプリング(TS)アルゴリズムが同様の理論的特性を持つかどうかは不明である。 本研究では,より一般的なオンラインマルチタスク学習プロトコルのためのTS型アルゴリズムを提案する。 我々は、その頻繁な分析を行い、ランダム停止時間におけるマルチタスクデータアグリゲーションのための新しい濃度不等式を用いて、ほぼ最適であることを示す。 最後に,合成データを用いたアルゴリズムの評価を行い,ts型アルゴリズムは,ucbベースのアルゴリズムや,トランスファーを伴わないタスク毎にtsを実行するベースラインアルゴリズムと比較して,優れた経験的性能を享受できることを示す。

We study the problem of online multi-task learning where the tasks are performed within similar but not necessarily identical multi-armed bandit environments. In particular, we study how a learner can improve its overall performance across multiple related tasks through robust transfer of knowledge. While an upper confidence bound (UCB)-based algorithm has recently been shown to achieve nearly-optimal performance guarantees in a setting where all tasks are solved concurrently, it remains unclear whether Thompson sampling (TS) algorithms, which have superior empirical performance in general, share similar theoretical properties. In this work, we present a TS-type algorithm for a more general online multi-task learning protocol, which extends the concurrent setting. We provide its frequentist analysis and prove that it is also nearly-optimal using a novel concentration inequality for multi-task data aggregation at random stopping times. Finally, we evaluate the algorithm on synthetic data and show that the TS-type algorithm enjoys superior empirical performance in comparison with the UCB-based algorithm and a baseline algorithm that performs TS for each individual task without transfer.
翻訳日:2022-06-20 12:56:01 公開日:2022-06-17
# met: 表データのためのマスクエンコーディング

MET: Masked Encoding for Tabular Data ( http://arxiv.org/abs/2206.08564v1 )

ライセンス: Link先を確認
Kushal Majmundar, Sachin Goyal, Praneeth Netrapalli, Prateek Jain(参考訳) 表型データに対する自己教師型表現学習(SSL)の課題を考察する。 典型的なコントラスト学習ベースのsslメソッドは、非構造化表型データの設計が難しいインスタンス毎のデータ拡張を必要とする。 既存のタブ形式のSSLメソッドは、そのような拡張を比較的アドホックな方法で設計し、基礎となるデータ多様体をキャプチャできない可能性がある。 タブ型SSLのための拡張ベースのアプローチの代わりに、拡張を必要としないMasked Encoding for Tabular Data (MET)と呼ばれる新しい再構築ベースの手法を提案する。 METは、ビジョンSSL(He et al., 2021)の人気のあるMAEアプローチに基づいており、2つの主要なアイデアを使っている。 (i)表型データセットの各座標には明確な意味があるため、すべての座標に対して別々の表現を用いる必要がある。 (ii)標準的なものに加えて、逆さまの復元損失を用いる。 5つの多彩な表付きデータセットの実証結果は、METがこれらのデータセットのすべてで新たなSOTA(State of the art)を実現し、現在のSOTAメソッドよりも9%改善していることを示している。 私たちは、注意深く設計された単純なデータセットに関する実験を通じて、metの作業にさらに光を当てた。

We consider the task of self-supervised representation learning (SSL) for tabular data: tabular-SSL. Typical contrastive learning based SSL methods require instance-wise data augmentations which are difficult to design for unstructured tabular data. Existing tabular-SSL methods design such augmentations in a relatively ad-hoc fashion and can fail to capture the underlying data manifold. Instead of augmentations based approaches for tabular-SSL, we propose a new reconstruction based method, called Masked Encoding for Tabular Data (MET), that does not require augmentations. MET is based on the popular MAE approach for vision-SSL [He et al., 2021] and uses two key ideas: (i) since each coordinate in a tabular dataset has a distinct meaning, we need to use separate representations for all coordinates, and (ii) using an adversarial reconstruction loss in addition to the standard one. Empirical results on five diverse tabular datasets show that MET achieves a new state of the art (SOTA) on all of these datasets and improves up to 9% over current SOTA methods. We shed more light on the working of MET via experiments on carefully designed simple datasets.
翻訳日:2022-06-20 12:55:40 公開日:2022-06-17
# モデル同定性がガウス混合モデルの学習ダイナミクスに及ぼす影響について

On the Influence of Enforcing Model Identifiability on Learning dynamics of Gaussian Mixture Models ( http://arxiv.org/abs/2206.08598v1 )

ライセンス: Link先を確認
Pascal Mattia Esser, Frank Nielsen(参考訳) 統計モデルを学習し分析する一般的な方法は、モデルパラメータ空間での操作を考えることである。 しかし、パラメータ空間を最適化し、パラメータ空間と基礎となる統計モデル空間の間に1対1のマッピングがなければどうなるだろうか? このようなケースは統計混合や確率的ニューラルネットワークを含む階層モデルに対してしばしば起こり、これらのモデルは特異であると言われている。 特異モデルは、アトラクタ行動による学習軌跡の収束速度の低下のような機械学習において、いくつかの重要かつよく研究された問題を明らかにする。 本研究では,パラメータ空間の相対的再パラメータ化手法を提案し,特異モデルから正規部分モデルを抽出する一般手法を提案する。 本手法は,学習中のモデル同定性を強制し,相対パラメータ化下でのガウス混合モデル(gmms)の勾配降下と期待最大化の学習ダイナミクスを検証し,実験収束の高速化と特異点周辺の力学の多様体形状の改善を示した。 さらに,本手法をgmmsを超えて拡張し,比較的再パラメータ化されたfisher情報行列と一般化誤差の影響を解析し,深層ニューラルネットワークなどのより複雑なモデルに適用できることを示す。

A common way to learn and analyze statistical models is to consider operations in the model parameter space. But what happens if we optimize in the parameter space and there is no one-to-one mapping between the parameter space and the underlying statistical model space? Such cases frequently occur for hierarchical models which include statistical mixtures or stochastic neural networks, and these models are said to be singular. Singular models reveal several important and well-studied problems in machine learning like the decrease in convergence speed of learning trajectories due to attractor behaviors. In this work, we propose a relative reparameterization technique of the parameter space, which yields a general method for extracting regular submodels from singular models. Our method enforces model identifiability during training and we study the learning dynamics for gradient descent and expectation maximization for Gaussian Mixture Models (GMMs) under relative parameterization, showing faster experimental convergence and a improved manifold shape of the dynamics around the singularity. Extending the analysis beyond GMMs, we furthermore analyze the Fisher information matrix under relative reparameterization and its influence on the generalization error, and show how the method can be applied to more complex models like deep neural networks.
翻訳日:2022-06-20 12:55:22 公開日:2022-06-17
# 予測的健康モニタリングのためのガウス過程への事前知識の統合について

On Integrating Prior Knowledge into Gaussian Processes for Prognostic Health Monitoring ( http://arxiv.org/abs/2206.08600v1 )

ライセンス: Link先を確認
Simon Pfingstl, Markus Zimmermann(参考訳) ガウス過程回帰は与えられたデータに基づいて状態を予測する強力な方法である。 これは、例えば機械構造のひび割れ成長を定量化するために、構造系の確率論的予測に成功している。 通常、事前定義された平均と共分散関数を用いてガウス過程モデルを構築する。 そして、前のデータに基づく事前情報を無視しながら、動作中の現在のデータを用いてモデルを更新する。 しかし、事前情報を持たない事前定義された平均および共分散関数はガウス過程のポテンシャルを減少させる。 本稿では,ガウス過程の予測能力を向上する手法を提案する。 先行データから平均および共分散関数を導出することにより,事前知識を統合する。 具体的には,まず基礎関数の重み付き和で先行データを近似し,推定重み係数から直接平均と共分散関数を導出する。 基底関数は、物理情報を組み込む問題固有の支配方程式から推定または導出することができる。 本手法の適用性と有効性は, 疲労き裂進展, レーザ劣化, およびミリング機械摩耗データに適用可能である。 先行データにもとづく well-chosen 平均関数と共分散関数は, ルックアヘッド時間と精度が著しく向上することを示す。 物理基底関数の使用は精度をさらに向上させる。 さらに、トレーニングのための計算労力が大幅に削減される。

Gaussian process regression is a powerful method for predicting states based on given data. It has been successfully applied for probabilistic predictions of structural systems to quantify, for example, the crack growth in mechanical structures. Typically, predefined mean and covariance functions are employed to construct the Gaussian process model. Then, the model is updated using current data during operation while prior information based on previous data is ignored. However, predefined mean and covariance functions without prior information reduce the potential of Gaussian processes. This paper proposes a method to improve the predictive capabilities of Gaussian processes. We integrate prior knowledge by deriving the mean and covariance functions from previous data. More specifically, we first approximate previous data by a weighted sum of basis functions and then derive the mean and covariance functions directly from the estimated weight coefficients. Basis functions may be either estimated or derived from problem-specific governing equations to incorporate physical information. The applicability and effectiveness of this approach are demonstrated for fatigue crack growth, laser degradation, and milling machine wear data. We show that well-chosen mean and covariance functions, like those based on previous data, significantly increase look-ahead time and accuracy. Using physical basis functions further improves accuracy. In addition, computation effort for training is significantly reduced.
翻訳日:2022-06-20 12:55:02 公開日:2022-06-17
# 共有可能な有限容量アームを用いたマルチプレイ確率バンディット

Multiple-Play Stochastic Bandits with Shareable Finite-Capacity Arms ( http://arxiv.org/abs/2206.08776v1 )

ライセンス: Link先を確認
Xuchuang Wang, Hong Xie, John C.S. Lui(参考訳) 複数のプレイが同じアームを共有することができる共有可能なアーム設定でマルチプレイマルチアームバンディット(mp-mab)問題を一般化する。 さらに、各共有可能なアームは、有限報酬能力と「単負荷」報酬分布を有しており、どちらも学習者には未知である。 共有可能なアームからの報酬は負荷依存であり、これは「負荷当たり」の報酬であり、アームを引っ張るプレイの数と、そのプレイ数が容量制限を超える場合の報酬能力とを乗じる。 負荷当たりの報酬」がガウス分布に従えば、負荷依存の報酬から学習能力の限界が低くなり、また、この新たなMP-MAB問題に対する後悔の少ない境界が証明される。 我々は,サンプルの複雑さが報酬手段とキャパシティの観点で下限に一致するキャパシティ推定器を考案する。 また,この問題に対処し,その後悔の上限を立証するためのオンライン学習アルゴリズムを提案する。 この後悔の上限の第1項は後悔の下限と同じであり、第2項と第3項は明らかに下限と同値である。 5Gと4Gの基地局選択では,アルゴリズムの性能および性能が向上した。

We generalize the multiple-play multi-armed bandits (MP-MAB) problem with a shareable arm setting, in which several plays can share the same arm. Furthermore, each shareable arm has a finite reward capacity and a ''per-load'' reward distribution, both of which are unknown to the learner. The reward from a shareable arm is load-dependent, which is the "per-load" reward multiplying either the number of plays pulling the arm, or its reward capacity when the number of plays exceeds the capacity limit. When the "per-load" reward follows a Gaussian distribution, we prove a sample complexity lower bound of learning the capacity from load-dependent rewards and also a regret lower bound of this new MP-MAB problem. We devise a capacity estimator whose sample complexity upper bound matches the lower bound in terms of reward means and capacities. We also propose an online learning algorithm to address the problem and prove its regret upper bound. This regret upper bound's first term is the same as regret lower bound's, and its second and third terms also evidently correspond to lower bound's. Extensive experiments validate our algorithm's performance and also its gain in 5G & 4G base station selection.
翻訳日:2022-06-20 12:54:45 公開日:2022-06-17
# AutoMLの2サンプルテスト

AutoML Two-Sample Test ( http://arxiv.org/abs/2206.08843v1 )

ライセンス: Link先を確認
Jonas M. K\"ubler, Vincent Stimper, Simon Buchholz, Krikamol Muandet, Bernhard Sch\"olkopf(参考訳) 2サンプルテストは統計学と機械学習において重要であり、科学的発見と分布シフトの検出のためのツールである。 これにより、2サンプルテストに関する専門知識を必要とする標準的な教師付き学習フレームワークを超えて、多くの高度なテスト手順の開発につながった。 単純なテストでは、証人関数の平均的不一致をテスト統計として捉え、二乗損失を最小化することで、最適なテスト能力を持つ証人を導くことを証明します。 これにより、AutoMLの最近の進歩を活用することができます。 ユーザの手元にある問題に対する入力が無く、同じ手法をすべての実験に使わずに、AutoMLの2サンプルテストは、多様な分散シフトベンチマーク上での競合性能と、2サンプルテストの問題に挑戦する。 我々はPythonパッケージAutotstでAutoMLの2サンプルテストの実装を提供する。

Two-sample tests are important in statistics and machine learning, both as tools for scientific discovery as well as to detect distribution shifts. This led to the development of many sophisticated test procedures going beyond the standard supervised learning frameworks, whose usage can require specialized knowledge about two-sample testing. We use a simple test that takes the mean discrepancy of a witness function as the test statistic and prove that minimizing a squared loss leads to a witness with optimal testing power. This allows us to leverage recent advancements in AutoML. Without any user input about the problems at hand, and using the same method for all our experiments, our AutoML two-sample test achieves competitive performance on a diverse distribution shift benchmark as well as on challenging two-sample testing problems. We provide an implementation of the AutoML two-sample test in the Python package autotst.
翻訳日:2022-06-20 12:53:43 公開日:2022-06-17
# テクスチャ分類のための大マージン表現学習

Large-Margin Representation Learning for Texture Classification ( http://arxiv.org/abs/2206.08537v1 )

ライセンス: Link先を確認
Jonathan de Matos and Luiz Eduardo Soares de Oliveira and Alceu de Souza Britto Junior and Alessandro Lameiras Koerich(参考訳) 本稿では,テクスチャ分類のための小さなデータセット上で教師付きモデルをトレーニングするために,畳み込み層(CL)と大規模計量学習を組み合わせた新しいアプローチを提案する。 このようなアプローチの中核は、関心のインスタンスとサポートベクトルの間の距離を計算する損失関数である。 目的はCLの重みを反復的に更新し、クラス間で大きなマージンを持つ表現を学ぶことである。 各イテレーションは、そのような表現に基づいてサポートベクトルで表される大きなマージン判別モデルをもたらす。 提案したアプローチw.r.t.畳み込みニューラルネットワーク(CNN)の利点は2倍である。 まず、等価なcnnと比較してパラメータの数が少ないため、少量のデータによる表現学習を可能にする。 第2に、バックプロパゲーションはサポートベクトルのみを考慮するため、トレーニングコストが低い。 テクスチャと病理組織画像データセットに関する実験結果から,提案手法は計算コストが低く,コンバージェンスが高速で,同等のcnnと比較できることがわかった。

This paper presents a novel approach combining convolutional layers (CLs) and large-margin metric learning for training supervised models on small datasets for texture classification. The core of such an approach is a loss function that computes the distances between instances of interest and support vectors. The objective is to update the weights of CLs iteratively to learn a representation with a large margin between classes. Each iteration results in a large-margin discriminant model represented by support vectors based on such a representation. The advantage of the proposed approach w.r.t. convolutional neural networks (CNNs) is two-fold. First, it allows representation learning with a small amount of data due to the reduced number of parameters compared to an equivalent CNN. Second, it has a low training cost since the backpropagation considers only support vectors. The experimental results on texture and histopathologic image datasets have shown that the proposed approach achieves competitive accuracy with lower computational cost and faster convergence when compared to equivalent CNNs.
翻訳日:2022-06-20 12:52:38 公開日:2022-06-17
# Sparse Double Descent: ネットワークの運営が過度に適合する場所

Sparse Double Descent: Where Network Pruning Aggravates Overfitting ( http://arxiv.org/abs/2206.08684v1 )

ライセンス: Link先を確認
Zheng He, Zeke Xie, Quanzhi Zhu, Zengchang Qin(参考訳) ネットワークプルーニングはディープネットワークの計算コストを減少させるだけでなく、モデルの容量を減少させることによる過剰フィッティングを防いでいる、と人々は一般的に信じている。 しかし、私たちの研究は驚くべきことに、ネットワークの刈り取りは時々過度に膨らむことさえあります。 本報告では,ネットワークプルーニングによりモデルの疎度を増大させると,まずテスト性能が悪化し(オーバーフィッティングにより),その後改善され(オーバーフィッティングが緩和される),最後に悪化する(有用な情報を忘れる)という予期せぬ二重降下現象を報告する。 最近の研究では、モデルの過度パラメータ化に関して、深度二重降下に焦点を当てているが、スパーシティが二重降下を引き起こすことも認識できなかった。 本稿では,主な貢献を3つ挙げる。 まず,新しいスパース二重降下現象を広範な実験により報告する。 次に, この現象に対して, スパースモデルの$\ell_{2}$ 学習距離曲線(初期化パラメータから最終パラメータまで)がスパース二重降下曲線と相関し, 最小平坦性よりも一般化を反映する新しい学習距離解釈を提案する。 第3に、スパースダブル降下の文脈では、抽選券仮説の当選券は、必ずしも勝つとは限らない。

People usually believe that network pruning not only reduces the computational cost of deep networks, but also prevents overfitting by decreasing model capacity. However, our work surprisingly discovers that network pruning sometimes even aggravates overfitting. We report an unexpected sparse double descent phenomenon that, as we increase model sparsity via network pruning, test performance first gets worse (due to overfitting), then gets better (due to relieved overfitting), and gets worse at last (due to forgetting useful information). While recent studies focused on the deep double descent with respect to model overparameterization, they failed to recognize that sparsity may also cause double descent. In this paper, we have three main contributions. First, we report the novel sparse double descent phenomenon through extensive experiments. Second, for this phenomenon, we propose a novel learning distance interpretation that the curve of $\ell_{2}$ learning distance of sparse models (from initialized parameters to final parameters) may correlate with the sparse double descent curve well and reflect generalization better than minima flatness. Third, in the context of sparse double descent, a winning ticket in the lottery ticket hypothesis surprisingly may not always win.
翻訳日:2022-06-20 12:52:23 公開日:2022-06-17
# 誘導バイアスとしての最大クラス分離

Maximum Class Separation as Inductive Bias in One Matrix ( http://arxiv.org/abs/2206.08704v1 )

ライセンス: Link先を確認
Tejaswi Kasarla, Gertjan J. Burghouts, Max van Spengler, Elise van der Pol, Rita Cucchiara, Pascal Mettes(参考訳) クラス間の分離を最大化することは、機械学習におけるよく知られた帰納バイアスと、多くの伝統的なアルゴリズムの柱を構成する。 デフォルトでは、ディープネットワークにはこの帰納バイアスが備わっていないため、微分最適化を通じて多くの代替解が提案されている。 現在のアプローチでは、分類と分離を共同で最適化する傾向がある: 入力をクラスベクトルにアライメントし、クラスベクトルを角的に分離する。 本稿では,ソフトマックスアクティベーションを演算する前に1つの固定行列乗算を加えることで,ネットワーク内の帰納バイアスとして最大分離を符号化する簡単な方法を提案する。 このアプローチの背後にある主な観察は、分離は最適化を必要としないが、トレーニング前にクローズドフォームで解決し、ネットワークにプラグインできるということだ。 本稿では,任意のクラスに対して最大分離可能なベクトルからなる行列を得るための再帰的アプローチについて概説する。 単純な性質にもかかわらず、この1つの行列乗法は真の影響をもたらす。 提案手法は, CIFAR から ImageNet への分類, 長距離認識, アウト・オブ・ディストリビューション検出, オープンセット認識を直接促進する。 最大分離は固定バイアスとして最適であり、マトリックスを学習可能にすることは性能に何の影響を与えない。 実験を再現するためのクローズドな実装とコードはgithubにある。

Maximizing the separation between classes constitutes a well-known inductive bias in machine learning and a pillar of many traditional algorithms. By default, deep networks are not equipped with this inductive bias and therefore many alternative solutions have been proposed through differential optimization. Current approaches tend to optimize classification and separation jointly: aligning inputs with class vectors and separating class vectors angularly. This paper proposes a simple alternative: encoding maximum separation as an inductive bias in the network by adding one fixed matrix multiplication before computing the softmax activations. The main observation behind our approach is that separation does not require optimization but can be solved in closed-form prior to training and plugged into a network. We outline a recursive approach to obtain the matrix consisting of maximally separable vectors for any number of classes, which can be added with negligible engineering effort and computational overhead. Despite its simple nature, this one matrix multiplication provides real impact. We show that our proposal directly boosts classification, long-tailed recognition, out-of-distribution detection, and open-set recognition, from CIFAR to ImageNet. We find empirically that maximum separation works best as a fixed bias; making the matrix learnable adds nothing to the performance. The closed-form implementation and code to reproduce the experiments are on github.
翻訳日:2022-06-20 12:51:58 公開日:2022-06-17
# (参考訳) CtrlFormer: トランスフォーマーによる視覚制御のための伝達可能な状態表現学習

CtrlFormer: Learning Transferable State Representation for Visual Control via Transformer ( http://arxiv.org/abs/2206.08883v1 )

ライセンス: CC BY 4.0
Yao Mu, Shoufa Chen, Mingyu Ding, Jianyu Chen, Runjian Chen, Ping Luo(参考訳) Transformerは、様々な下流タスクにまたがる視覚と言語表現の学習において、大きな成功を収めてきた。 視覚的制御では、異なる制御タスク間で転送可能な転送可能な状態表現の学習が、トレーニングサンプルサイズを減らすために重要である。 しかし、Transformerをサンプル効率のよいビジュアルコントロールに移植することは難しい問題であり、未解決である。 そこで本研究では,先行技術が備えていない多くの魅力ある利点を有する新しい制御変換器(CtrlFormer)を提案する。 まず、ctrlformerは、異なる制御タスク間の視覚的トークンとポリシートークン間の自己照応機構を共同で学習し、マルチタスク表現を破滅的な忘れずに学習し、転送することができる。 第2に,ctrlformerを訓練するためのコントラスト強化学習パラダイムを慎重に設計し,制御問題において重要なサンプル効率を実現する。 例えば、DMControlベンチマークでは、100kサンプルの転送学習後に"Cartpole"タスクでゼロスコアを生成できなかった最近の高度なメソッドとは異なり、CtrlFormerは100kサンプルのみの最先端スコアを達成でき、以前のタスクのパフォーマンスを維持している。 コードとモデルはプロジェクトのホームページでリリースされています。

Transformer has achieved great successes in learning vision and language representation, which is general across various downstream tasks. In visual control, learning transferable state representation that can transfer between different control tasks is important to reduce the training sample size. However, porting Transformer to sample-efficient visual control remains a challenging and unsolved problem. To this end, we propose a novel Control Transformer (CtrlFormer), possessing many appealing benefits that prior arts do not have. Firstly, CtrlFormer jointly learns self-attention mechanisms between visual tokens and policy tokens among different control tasks, where multitask representation can be learned and transferred without catastrophic forgetting. Secondly, we carefully design a contrastive reinforcement learning paradigm to train CtrlFormer, enabling it to achieve high sample efficiency, which is important in control problems. For example, in the DMControl benchmark, unlike recent advanced methods that failed by producing a zero score in the "Cartpole" task after transfer learning with 100k samples, CtrlFormer can achieve a state-of-the-art score with only 100k samples while maintaining the performance of previous tasks. The code and models are released in our project homepage.
翻訳日:2022-06-20 12:50:32 公開日:2022-06-17
# (参考訳) MineDojo: インターネット規模の知識によるオープンエンベッド型エージェントの構築

MineDojo: Building Open-Ended Embodied Agents with Internet-Scale Knowledge ( http://arxiv.org/abs/2206.08853v1 )

ライセンス: CC BY 4.0
Linxi Fan, Guanzhi Wang, Yunfan Jiang, Ajay Mandlekar, Yuncong Yang, Haoyi Zhu, Andrew Tang, De-An Huang, Yuke Zhu, Anima Anandkumar(参考訳) 自律エージェントはatari gamesやgoといった専門分野において大きな進歩を遂げている。 しかし、それらは通常、限定的で手動で考案された目的を持つ孤立した環境でタブララザを学習し、それによって幅広いタスクや能力の一般化に失敗する。 人間がオープンな世界で継続的に学び、適応する方法に触発された私たちは、ジェネラリストエージェントを構築するための材料の三位一体を提唱します。 1)多数のタスクや目標をサポートする環境。 2)マルチモーダル知識の大規模データベース,および 3)柔軟でスケーラブルなエージェントアーキテクチャ。 minedojoは、人気の高いminecraftゲーム上に構築された新しいフレームワークで、何千もの多様なオープンエンドタスクを備えたシミュレーションスイートと、minecraftビデオ、チュートリアル、wikiページ、フォーラムディスカッションを備えたインターネット規模の知識ベースを備えています。 minedojoのデータを用いて,事前学習された大規模ビデオ言語モデルを学習報酬関数として利用するエージェント学習アルゴリズムを提案する。 当社のエージェントは,自由形式の言語で指定したさまざまなオープンエンドタスクを,手作業で設計した高密度なシェーピング報酬なしで解決することができる。 我々はシミュレーションスイートと知識ベース(https://minedojo.org)をオープンソース化し、一般的に有能なエンボディエージェントの目標に向けた研究を促進する。

Autonomous agents have made great strides in specialist domains like Atari games and Go. However, they typically learn tabula rasa in isolated environments with limited and manually conceived objectives, thus failing to generalize across a wide spectrum of tasks and capabilities. Inspired by how humans continually learn and adapt in the open world, we advocate a trinity of ingredients for building generalist agents: 1) an environment that supports a multitude of tasks and goals, 2) a large-scale database of multimodal knowledge, and 3) a flexible and scalable agent architecture. We introduce MineDojo, a new framework built on the popular Minecraft game that features a simulation suite with thousands of diverse open-ended tasks and an internet-scale knowledge base with Minecraft videos, tutorials, wiki pages, and forum discussions. Using MineDojo's data, we propose a novel agent learning algorithm that leverages large pre-trained video-language models as a learned reward function. Our agent is able to solve a variety of open-ended tasks specified in free-form language without any manually designed dense shaping reward. We open-source the simulation suite and knowledge bases (https://minedojo.org) to promote research towards the goal of generally capable embodied agents.
翻訳日:2022-06-20 12:19:18 公開日:2022-06-17
# 線形化ラプラスモデルによる現代深層学習への適応

Adapting the Linearised Laplace Model Evidence for Modern Deep Learning ( http://arxiv.org/abs/2206.08900v1 )

ライセンス: Link先を確認
Javier Antor\'an, David Janz, James Urquhart Allingham, Erik Daxberger, Riccardo Barbano, Eric Nalisnick, Jos\'e Miguel Hern\'andez-Lobato(参考訳) モデル不確実性を推定する線形化ラプラス法は,ベイズ深層学習コミュニティで注目されている。 この手法は信頼性の高いエラーバーを提供し、モデルのエビデンスに対してクローズドフォーム式を認め、モデルのハイパーパラメータをスケーラブルに選択できる。 本研究では,この手法の背景にある仮定,特にモデル選択に関して検討する。 これらの手法は,現在標準となっている深層学習ツール – 確率近似法や正規化層 – との相互作用が不十分であることを示すとともに,この古典的手法を現代的設定に適合させる方法を推奨する。 提案するレコメンデーションを理論的に支援し,MPP,古典的CNN,正規化層と非正規化層,生成オートエンコーダ,トランスフォーマーの残余ネットワーク上で実証的に検証する。

The linearised Laplace method for estimating model uncertainty has received renewed attention in the Bayesian deep learning community. The method provides reliable error bars and admits a closed-form expression for the model evidence, allowing for scalable selection of model hyperparameters. In this work, we examine the assumptions behind this method, particularly in conjunction with model selection. We show that these interact poorly with some now-standard tools of deep learning--stochastic approximation methods and normalisation layers--and make recommendations for how to better adapt this classic method to the modern setting. We provide theoretical support for our recommendations and validate them empirically on MLPs, classic CNNs, residual networks with and without normalisation layers, generative autoencoders and transformers.
翻訳日:2022-06-20 12:16:03 公開日:2022-06-17
# tkil: クラスバランスインクリメンタル学習のための接点カーネルアプローチ

TKIL: Tangent Kernel Approach for Class Balanced Incremental Learning ( http://arxiv.org/abs/2206.08492v1 )

ライセンス: Link先を確認
Jinlin Xiang and Eli Shlizerman(参考訳) 新しいタスクを逐次的に学習する場合、ディープニューラルネットワークは彼らが以前に学んだタスク、すなわち破滅的な忘れという現象を忘れがちだ。 クラスインクリメンタル学習手法は、以前学習したタスクからいくつかの例題の記憶を保持し、そこから知識を蒸留することで、この問題に対処することを目的としている。 しかしながら、既存のメソッドはモデルが最新のタスクに過度に適合するため、クラス間でのパフォーマンスのバランスをとるのに苦労しています。 本稿では,これらの課題に対して,クラスバランス性能を実現するTKIL(Tangent Kernel for Incremental Learning)の新たな方法論を導入することを提案する。 このアプローチはクラス間の表現を保持し、各クラスの精度をバランスさせ、全体的な正確性と分散性を向上させる。 TKILのアプローチは、ニューラルネットワークの収束挙動を無限幅の限界におけるカーネル関数として記述する、Neural Tangent Kernel (NTK)に基づいている。 TKILでは、特徴層間の勾配をこれらの層の表現間の距離として扱い、平均重みとともに最小化するようにグラディエントタンジェントカーネル損失(GTK損失)と定義することができる。 これにより、TKILはタスクを自動的に識別し、推論中に迅速に適応できる。 CIFAR-100とImageNetデータセットに対する様々なインクリメンタルな学習設定の実験は、これらの戦略により、TKILが既存の最先端メソッドより優れていることを示している。

When learning new tasks in a sequential manner, deep neural networks tend to forget tasks that they previously learned, a phenomenon called catastrophic forgetting. Class incremental learning methods aim to address this problem by keeping a memory of a few exemplars from previously learned tasks, and distilling knowledge from them. However, existing methods struggle to balance the performance across classes since they typically overfit the model to the latest task. In our work, we propose to address these challenges with the introduction of a novel methodology of Tangent Kernel for Incremental Learning (TKIL) that achieves class-balanced performance. The approach preserves the representations across classes and balances the accuracy for each class, and as such achieves better overall accuracy and variance. TKIL approach is based on Neural Tangent Kernel (NTK), which describes the convergence behavior of neural networks as a kernel function in the limit of infinite width. In TKIL, the gradients between feature layers are treated as the distance between the representations of these layers and can be defined as Gradients Tangent Kernel loss (GTK loss) such that it is minimized along with averaging weights. This allows TKIL to automatically identify the task and to quickly adapt to it during inference. Experiments on CIFAR-100 and ImageNet datasets with various incremental learning settings show that these strategies allow TKIL to outperform existing state-of-the-art methods.
翻訳日:2022-06-20 12:15:48 公開日:2022-06-17
# 高速有限幅ニューラルタンジェントカーネル

Fast Finite Width Neural Tangent Kernel ( http://arxiv.org/abs/2206.08720v1 )

ライセンス: Link先を確認
Roman Novak, Jascha Sohl-Dickstein, Samuel S. Schoenholz(参考訳) \theta_\theta^f(x_1, x_2) = \left[\partial f(\theta, x_1)\big/\partial \theta\right] \left[\partial f(\theta, x_2)\big/\partial \theta\right]^t$ ここで$\left[\partial f(\theta, \cdot)\big/\partial \theta\right]$はニューラルネットワーク(nn)ジャコビアンである。 無限幅制限では、NTKを解析的に計算することができ、NNアーキテクチャのトレーニングと一般化を理解するのに有用である。 有限幅では、NTKはNNの初期化の改善、モデル間の条件付けの比較、アーキテクチャ検索の実行、メタラーニングにも使用される。 残念ながら、有限幅ntkは計算コストが高く、実用性を著しく制限している。 有限幅ネットワークにおけるNTK計算における計算およびメモリ要求の詳細な解析を行う。 さらに,ニューラルネットワークの構造を活かし,有限幅ntkの計算とメモリ要求の指数を変化させ,効率を劇的に向上させる2つのアルゴリズムを提案する。 我々のアルゴリズムは、ニューラルネットワークを実装するものを含むあらゆる異なる機能にブラックボックス方式で適用することができる。 Neural Tangentsパッケージ(arXiv:1912.02803)をhttps://github.com/google/neural-tangents.comで公開しています。

The Neural Tangent Kernel (NTK), defined as $\Theta_\theta^f(x_1, x_2) = \left[\partial f(\theta, x_1)\big/\partial \theta\right] \left[\partial f(\theta, x_2)\big/\partial \theta\right]^T$ where $\left[\partial f(\theta, \cdot)\big/\partial \theta\right]$ is a neural network (NN) Jacobian, has emerged as a central object of study in deep learning. In the infinite width limit, the NTK can sometimes be computed analytically and is useful for understanding training and generalization of NN architectures. At finite widths, the NTK is also used to better initialize NNs, compare the conditioning across models, perform architecture search, and do meta-learning. Unfortunately, the finite width NTK is notoriously expensive to compute, which severely limits its practical utility. We perform the first in-depth analysis of the compute and memory requirements for NTK computation in finite width networks. Leveraging the structure of neural networks, we further propose two novel algorithms that change the exponent of the compute and memory requirements of the finite width NTK, dramatically improving efficiency. Our algorithms can be applied in a black box fashion to any differentiable function, including those implementing neural networks. We open-source our implementations within the Neural Tangents package (arXiv:1912.02803) at https://github.com/google/neural-tangents.
翻訳日:2022-06-20 12:15:25 公開日:2022-06-17
# 橋梁:視覚言語表現学習におけるエンコーダ間の橋梁構築

Bridge-Tower: Building Bridges Between Encoders in Vision-Language Representation Learning ( http://arxiv.org/abs/2206.08657v1 )

ライセンス: Link先を確認
Xiao Xu, Chenfei Wu, Shachar Rosenman, Vasudev Lal, Nan Duan(参考訳) 近年,2towerアーキテクチャを用いた視覚言語モデル(VL)が視覚言語表現学習を支配している。 現在のvlモデルは軽量なユニモーダルエンコーダを使用して、クロスモーダルエンコーダで同時に両方のモダリティを抽出、調整、融合することを学習するか、最上位のクロスモーダルエンコーダに直接ラスト層ユニモーダル機能を供給し、ディープユニモーダルエンコーダの異なるレベルでの意味情報を無視する。 どちらのアプローチも視覚言語表現学習とモデル性能を制限する可能性がある。 本稿では,ユニモーダルエンコーダの上位層とクロスモーダルエンコーダの各層とを接続する複数のブリッジ層を提案する。 これにより、視覚的およびテキスト的表現の様々な意味レベルでの包括的ボトムアップ相互作用が可能となり、より効果的な相互モーダルアライメントと融合が実現される。 提案するBridge-Towerは,4Mイメージのみを事前学習し,様々な下流視覚言語タスクにおける最先端のパフォーマンスを実現する。 vqav2テスト-stdセットでは、ブリッジ-トワーは78.73\%$の精度を達成し、同じ事前トレーニングデータで以前の最先端メーターモデルよりも1.09\%高くなり、追加パラメータや計算コストもほとんどない。 特に、モデルをさらにスケールする場合、Bridge-Tower は 811.15\% の精度を達成し、マグニチュードの大きなデータセットで事前訓練されたモデルを上回る。 コードはhttps://github.com/microsoft/BridgeTower.comで入手できる。

Vision-Language (VL) models with the Two-Tower architecture have dominated visual-language representation learning in recent years. Current VL models either use lightweight uni-modal encoders and learn to extract, align and fuse both modalities simultaneously in a cross-modal encoder, or feed the last-layer uni-modal features directly into the top cross-modal encoder, ignoring the semantic information at the different levels in the deep uni-modal encoders. Both approaches possibly restrict vision-language representation learning and limit model performance. In this paper, we introduce multiple bridge layers that build a connection between the top layers of uni-modal encoders and each layer of the cross-modal encoder. This enables comprehensive bottom-up interactions between visual and textual representations at different semantic levels, resulting in more effective cross-modal alignment and fusion. Our proposed Bridge-Tower, pre-trained with only $4$M images, achieves state-of-the-art performance on various downstream vision-language tasks. On the VQAv2 test-std set, Bridge-Tower achieves an accuracy of $78.73\%$, outperforming the previous state-of-the-art METER model by $1.09\%$ with the same pre-training data and almost no additional parameters and computational cost. Notably, when further scaling the model, Bridge-Tower achieves an accuracy of $81.15\%$, surpassing models that are pre-trained on orders-of-magnitude larger datasets. Code is available at https://github.com/microsoft/BridgeTower.
翻訳日:2022-06-20 12:14:49 公開日:2022-06-17
# 可視差最小化に基づくプライバシー保護画像生成

Minimum Noticeable Difference based Adversarial Privacy Preserving Image Generation ( http://arxiv.org/abs/2206.08638v1 )

ライセンス: Link先を確認
Wen Sun, Jian Jin, and Weisi Lin(参考訳) 深層学習モデルは、深層学習モデルの入力において、小さな摂動によって誤った予測が引き起こされるため、敵対的な例に対して脆弱である。 既存の敵画像生成の作業の多くは、ほとんどのモデルに対する攻撃を達成しようとする一方で、敵画像の知覚的品質を保証する努力は少ない。 高品質な敵の例は多くのアプリケーション、特にプライバシー保護のために重要です。 本研究では,mnd(minimum noticeable difference)概念に基づいたフレームワークを開発し,クリーンな画像と最小の知覚的差異を持つが,ディープラーニングモデルへの攻撃が可能な敵対的プライバシー保護画像を生成する。 これを実現するために、まず、敵画像に攻撃された深層学習モデルを成功させるために、敵対的損失を提案する。 そして、対向画像生成における高い知覚品質を維持することを目的とした、摂動・摂動による構造変化と勾配変化の程度を考慮に入れて、知覚品質保存損失を発生させる。 我々の知る限りでは、これはプライバシー保護のためのMND概念に基づく品質保護の敵画像生成を探求する最初の試みである。 知覚的品質の観点からその性能を評価するため,提案手法といくつかのアンカー法を用いて,画像分類と顔認識の深部モデルをテストする。 大規模な実験結果から,提案したMNDフレームワークは,性能指標(PSNR,SSIM,MOS)をアンカー法より大幅に向上した逆画像を生成することができることがわかった。

Deep learning models are found to be vulnerable to adversarial examples, as wrong predictions can be caused by small perturbation in input for deep learning models. Most of the existing works of adversarial image generation try to achieve attacks for most models, while few of them make efforts on guaranteeing the perceptual quality of the adversarial examples. High quality adversarial examples matter for many applications, especially for the privacy preserving. In this work, we develop a framework based on the Minimum Noticeable Difference (MND) concept to generate adversarial privacy preserving images that have minimum perceptual difference from the clean ones but are able to attack deep learning models. To achieve this, an adversarial loss is firstly proposed to make the deep learning models attacked by the adversarial images successfully. Then, a perceptual quality-preserving loss is developed by taking the magnitude of perturbation and perturbation-caused structural and gradient changes into account, which aims to preserve high perceptual quality for adversarial image generation. To the best of our knowledge, this is the first work on exploring quality-preserving adversarial image generation based on the MND concept for privacy preserving. To evaluate its performance in terms of perceptual quality, the deep models on image classification and face recognition are tested with the proposed method and several anchor methods in this work. Extensive experimental results demonstrate that the proposed MND framework is capable of generating adversarial images with remarkably improved performance metrics (e.g., PSNR, SSIM, and MOS) than that generated with the anchor methods.
翻訳日:2022-06-20 12:14:00 公開日:2022-06-17
# (参考訳) プルーニングはニューラルネットワークの堅牢性を改善するか?

Can pruning improve certified robustness of neural networks? ( http://arxiv.org/abs/2206.07311v2 )

ライセンス: CC BY 4.0
Zhangheng Li, Tianlong Chen, Linyi Li, Bo Li, Zhangyang Wang(参考訳) ディープラーニングの急速な発展により、ニューラルネットワークのサイズがますます大きくなり、トレーニングや推論がハードウェアリソースを圧倒するようになる。 ニューラルネットワークが過度にパラメータ化されているという事実を考えると、そのような計算オーバーヘッドを減らす効果的な方法は、トレーニングされたニューラルネットワークから冗長なパラメータを取り除くことによって、ニューラルネットワークのプルーニングである。 近年、プルーニングは計算オーバーヘッドを削減するだけでなく、予測精度を維持しながら、急激な相関を取り除き、深層ニューラルネットワーク(NN)の実証的堅牢性を向上させることができることが観察されている。 本稿では,ReLUベースNNの完全検証条件下でのプルーニングにより,一般に信頼性が向上することを示す。 一般的なブランチ・アンド・バウンド(bab)フレームワークを使用することで、線形緩和とサブドメイン分割問題を緩和することにより、pruningは認定ロバスト性検証の限定性を高めることができる。 本研究は, 既設プルーニング法を市販プルーニング法で実証的に検証し, さらに, 既存のプルーニング法よりも信頼性の高い, ニューロン不安定性の低減に適した安定性ベースのプルーニング法を提案する。 我々の実験は、NNを適切に刈り取ることで、その認証精度が標準トレーニングで8.2%、CIFAR10データセットで敵対トレーニングで24.5%向上できることを示している。 さらに、異なるデータセットにまたがるオリジナルの密集したモデルの標準的および認定されたロバストなアキュラリティにマッチする認定抽選チケットの存在も観察する。 本研究は、スパーシティとロバストネスの間の興味深い相互作用、すなわちニューロンの安定性を介してスパーシティと認定ロバストネスの相互作用を解釈する新しい角度を提供する。 コードは、https://github.com/VITA-Group/CertifiedPruning.comで入手できる。

With the rapid development of deep learning, the sizes of neural networks become larger and larger so that the training and inference often overwhelm the hardware resources. Given the fact that neural networks are often over-parameterized, one effective way to reduce such computational overhead is neural network pruning, by removing redundant parameters from trained neural networks. It has been recently observed that pruning can not only reduce computational overhead but also can improve empirical robustness of deep neural networks (NNs), potentially owing to removing spurious correlations while preserving the predictive accuracies. This paper for the first time demonstrates that pruning can generally improve certified robustness for ReLU-based NNs under the complete verification setting. Using the popular Branch-and-Bound (BaB) framework, we find that pruning can enhance the estimated bound tightness of certified robustness verification, by alleviating linear relaxation and sub-domain split problems. We empirically verify our findings with off-the-shelf pruning methods and further present a new stability-based pruning method tailored for reducing neuron instability, that outperforms existing pruning methods in enhancing certified robustness. Our experiments show that by appropriately pruning an NN, its certified accuracy can be boosted up to 8.2% under standard training, and up to 24.5% under adversarial training on the CIFAR10 dataset. We additionally observe the existence of certified lottery tickets that can match both standard and certified robust accuracies of the original dense models across different datasets. Our findings offer a new angle to study the intriguing interaction between sparsity and robustness, i.e. interpreting the interaction of sparsity and certified robustness via neuron stability. Codes are available at: https://github.com/VITA-Group/CertifiedPruning.
翻訳日:2022-06-20 11:54:13 公開日:2022-06-17
# (参考訳) QONNX: 任意精度量子化ニューラルネットワーク

QONNX: Representing Arbitrary-Precision Quantized Neural Networks ( http://arxiv.org/abs/2206.07527v2 )

ライセンス: CC BY 4.0
Alessandro Pappalardo and Yaman Umuroglu and Michaela Blott and Jovan Mitrevski and Ben Hawks and Nhan Tran and Vladimir Loncar and Sioni Summers and Hendrik Borras and Jules Muhizi and Matthew Trahms and Shih-Chieh Hsu and Scott Hauck and Javier Duarte(参考訳) 我々は,任意の精度の量子化ニューラルネットワークを表現するために,open neural network exchange (onnx) 中間表現形式の拡張を提案する。 まず,既存のonnxベースの量子化フォーマットにおいて,整数クリッピングを利用した低精度量子化のサポートを導入することで,後方互換性を持つ2つの新しい変種:クリッピングを用いた量子化演算子形式とqcdq形式を導入する。 次に、一様量子化を表すために、新しい3つの演算子、Quant、BipolarQuant、Truncを導入する量子化NNX(QONNX)と呼ばれる新しい高レベルNNXフォーマットを導入する。 QONNX IRを高レベルかつフレキシブルに保つことで、幅広いプラットフォームをターゲットにすることができる。 また,qonnx と連携するユーティリティや finn や hls4ml のツールチェーンでの使用例についても紹介する。 最後に、低精度量子化ニューラルネットワークを共有するためのQONNXモデル動物園を紹介する。

We present extensions to the Open Neural Network Exchange (ONNX) intermediate representation format to represent arbitrary-precision quantized neural networks. We first introduce support for low precision quantization in existing ONNX-based quantization formats by leveraging integer clipping, resulting in two new backward-compatible variants: the quantized operator format with clipping and quantize-clip-dequantize (QCDQ) format. We then introduce a novel higher-level ONNX format called quantized ONNX (QONNX) that introduces three new operators -- Quant, BipolarQuant, and Trunc -- in order to represent uniform quantization. By keeping the QONNX IR high-level and flexible, we enable targeting a wider variety of platforms. We also present utilities for working with QONNX, as well as examples of its usage in the FINN and hls4ml toolchains. Finally, we introduce the QONNX model zoo to share low-precision quantized neural networks.
翻訳日:2022-06-20 11:27:01 公開日:2022-06-17
# (参考訳) 分散結合によるIoTデータ市場への参加とデータ評価

Participation and Data Valuation in IoT Data Markets through Distributed Coalitions ( http://arxiv.org/abs/2206.07785v2 )

ライセンス: CC BY 4.0
Shashi Raj Pandey, Pierre Pinson, Petar Popovski(参考訳) 本稿では,機械学習モデルのトレーニングに使用されるIoT(Internet of Things)データ市場について考察する。 データはネットワークを介してマーケットプラットフォームに供給され、そのデータの価格は、機械学習モデルにもたらした価値に基づいて制御される。 ゲーム理論におけるデータの相関性について検討し、最終的にはデバイスと市場の相互利益を強調するデータトレーディング機構のための簡易分散ソリューションを導出する。 鍵となる提案は、IoTネットワークにおける信頼の移転とデータ交換の経済的価値に加えて、参加の可用性と不均一性の課題を共同で解決する、市場のための効率的なアルゴリズムである。 提案手法は,情報漏洩を回避するために相関データを持つデバイス間の協調機会を強化することにより,データ市場を確立する。 そこで、類似したデータ型を持つiotデバイス間の結合の社会的価値を最大化するネットワーク全体の最適化問題を開発し、同時に、ネットワーク外部性によるコスト、すなわちデータ相関による情報漏洩の影響や機会コストを最小化する。 最後に,定式化問題の構造を分散連立ゲームとして明らかにし,単純化した分割・マージアルゴリズムにより解いた。 シミュレーションの結果,信頼されたIoTデータ市場に向けたメカニズム設計の有効性が示され,各販売者の平均支払額は最大32.72%増加した。

This paper considers a market for Internet of Things (IoT) data that is used to train machine learning models. The data is supplied to the market platform through a network and the price of the data is controlled based on the value it brings to the machine learning model. We explore the correlation property of data in a game-theoretical setting to eventually derive a simplified distributed solution for a data trading mechanism that emphasizes the mutual benefit of devices and the market. The key proposal is an efficient algorithm for markets that jointly addresses the challenges of availability and heterogeneity in participation, as well as the transfer of trust and the economic value of data exchange in IoT networks. The proposed approach establishes the data market by reinforcing collaboration opportunities between devices with correlated data to avoid information leakage. Therein, we develop a network-wide optimization problem that maximizes the social value of coalition among the IoT devices of similar data types; at the same time, it minimizes the cost due to network externalities, i.e., the impact of information leakage due to data correlation, as well as the opportunity costs. Finally, we reveal the structure of the formulated problem as a distributed coalition game and solve it following the simplified split-and-merge algorithm. Simulation results show the efficacy of our proposed mechanism design toward a trusted IoT data market, with up to 32.72% gain in the average payoff for each seller.
翻訳日:2022-06-20 11:11:02 公開日:2022-06-17
# 自己教師型視覚変換器のパッチレベル表現学習

Patch-level Representation Learning for Self-supervised Vision Transformers ( http://arxiv.org/abs/2206.07990v2 )

ライセンス: Link先を確認
Sukmin Yun, Hankook Lee, Jaehyung Kim, Jinwoo Shin(参考訳) 最近の自己教師あり学習(ssl)法はラベルなし画像から視覚的表現を学習する印象的な結果を示している。 本稿では、SSLの現在最先端のビジュアルプリテキストタスクは、アーキテクチャに依存しないというメリットを享受できないため、基盤となるニューラルネットワークのアーキテクチャ上の利点を活用することにより、パフォーマンスをさらに向上することを目的とする。 特に視覚トランスフォーマー(vits: vision transformers)に重点を置いており、近年はアーキテクチャ上の選択肢として注目を集めており、様々な視覚タスクにおいて畳み込みネットワークよりも優れています。 ViTのユニークな特徴は、画像から切り離されたパッチのシーケンスを取り、内部でパッチレベルの表現を処理することである。 それによって、パッチレベルの表現をより良く学習するために、シンプルで効果的なビジュアルプリテキストタスク、selfpatchを設計しました。 具体的には、各パッチとその隣人に対する不変性、すなわち、各パッチは類似した隣接パッチを正のサンプルとして扱う。 結果として、SelfPatchを使ったViTsのトレーニングは、より意味論的に意味のあるパッチ間の関係を学習し、特に高密度な予測型のタスクの下流で有益なものとなる。 その単純さにもかかわらず、オブジェクト検出やセマンティックセグメンテーションを含む様々な視覚的タスクに対して、既存のSSLメソッドの性能を大幅に改善できることを実証する。 具体的には、COCOオブジェクト検出において+1.3 AP、COCOインスタンスセグメンテーションでは+1.2 AP、ADE20Kセグメンテーションでは+2.9 mIoUを達成することで、最近の自己監督型ViTであるDINOを大幅に改善している。

Recent self-supervised learning (SSL) methods have shown impressive results in learning visual representations from unlabeled images. This paper aims to improve their performance further by utilizing the architectural advantages of the underlying neural network, as the current state-of-the-art visual pretext tasks for SSL do not enjoy the benefit, i.e., they are architecture-agnostic. In particular, we focus on Vision Transformers (ViTs), which have gained much attention recently as a better architectural choice, often outperforming convolutional networks for various visual tasks. The unique characteristic of ViT is that it takes a sequence of disjoint patches from an image and processes patch-level representations internally. Inspired by this, we design a simple yet effective visual pretext task, coined SelfPatch, for learning better patch-level representations. To be specific, we enforce invariance against each patch and its neighbors, i.e., each patch treats similar neighboring patches as positive samples. Consequently, training ViTs with SelfPatch learns more semantically meaningful relations among patches (without using human-annotated labels), which can be beneficial, in particular, to downstream tasks of a dense prediction type. Despite its simplicity, we demonstrate that it can significantly improve the performance of existing SSL methods for various visual tasks, including object detection and semantic segmentation. Specifically, SelfPatch significantly improves the recent self-supervised ViT, DINO, by achieving +1.3 AP on COCO object detection, +1.2 AP on COCO instance segmentation, and +2.9 mIoU on ADE20K semantic segmentation.
翻訳日:2022-06-20 10:36:39 公開日:2022-06-17
# 問合せ未問合せデータによるクラスインクリメンタル学習の改善と堅牢化

Queried Unlabeled Data Improves and Robustifies Class-Incremental Learning ( http://arxiv.org/abs/2206.07842v2 )

ライセンス: Link先を確認
Tianlong Chen, Sijia Liu, Shiyu Chang, Lisa Amini, Zhangyang Wang(参考訳) クラスインクリメンタル学習(cil)は、新しく追加されたクラスを学習し、以前の学習したクラス知識を保存することで悪名高いジレンマに苦しむ。 この破滅的な忘れ問題は、履歴データをリプレイ用に保存することで緩和される可能性があるため、メモリオーバーヘッドや不均衡な予測更新を引き起こす可能性がある。 このジレンマに対処するために,我々は「自由」な外部ラベルのないデータクエリを連続学習に活用することを提案する。 まず,クエリなしデータ(cil-qud)スキームによるcilを提案する。そこでは,過去のトレーニングサンプルをアンカーとして保存し,関連するラベルなしの例を毎回クエリするために使用する。 新旧の保存データとともに、学習無鍛造(LwF)正規化とクラスバランストレーニングを通じて、クエリされた未ラベルを効果的に活用する。 CIL-QUDにおけるモデル一般化の過去・現在課題の保存に加えて, 対角的ロバスト性の問題についても検討する。 ラベルのないデータでロバストモデルを学ぶことの最近の成功に触発されて、我々は新しいロバスト性を認識するcil設定を探求する。 既存のオプションは容易に失敗するが、クエリ済みのラベル付きデータは引き続き利益を示し、CIL-QUDをその堅牢化バージョンであるRCIL-QUDにシームレスに拡張する。 CIL-QUD は CIFAR-10 と CIFAR-100 に対して, 従来の CIL のアプローチと比較して, かなり精度が向上することを示した。 さらに、RCIL-QUDはロバストネスを意識したCILの最初の強力なマイルストーンを確立している。 コードはhttps://github.com/VITA-Group/CIL-QUDで入手できる。

Class-incremental learning (CIL) suffers from the notorious dilemma between learning newly added classes and preserving previously learned class knowledge. That catastrophic forgetting issue could be mitigated by storing historical data for replay, which yet would cause memory overheads as well as imbalanced prediction updates. To address this dilemma, we propose to leverage "free" external unlabeled data querying in continual learning. We first present a CIL with Queried Unlabeled Data (CIL-QUD) scheme, where we only store a handful of past training samples as anchors and use them to query relevant unlabeled examples each time. Along with new and past stored data, the queried unlabeled are effectively utilized, through learning-without-forgetting (LwF) regularizers and class-balance training. Besides preserving model generalization over past and current tasks, we next study the problem of adversarial robustness for CIL-QUD. Inspired by the recent success of learning robust models with unlabeled data, we explore a new robustness-aware CIL setting, where the learned adversarial robustness has to resist forgetting and be transferred as new tasks come in continually. While existing options easily fail, we show queried unlabeled data can continue to benefit, and seamlessly extend CIL-QUD into its robustified versions, RCIL-QUD. Extensive experiments demonstrate that CIL-QUD achieves substantial accuracy gains on CIFAR-10 and CIFAR-100, compared to previous state-of-the-art CIL approaches. Moreover, RCIL-QUD establishes the first strong milestone for robustness-aware CIL. Codes are available in https://github.com/VITA-Group/CIL-QUD.
翻訳日:2022-06-20 10:36:10 公開日:2022-06-17
# 世界中の(ハイパー)グラフ:データドラマ

All the World's a (Hyper)Graph: A Data Drama ( http://arxiv.org/abs/2206.08225v2 )

ライセンス: Link先を確認
Corinna Coupette, Jilles Vreeken, Bastian Rieck(参考訳) シェークスピアの戯曲から派生した多種多様な関係データ表現のデータセットであるhyperbardを紹介する。 私たちの表現は、単一シーンにおける文字共起をキャプチャする単純なグラフから、複雑な通信設定を符号化したハイパーグラフ、エッジ固有のノード重み付きハイパーエッジとしての文字コントリビューションまでさまざまです。 複数の直感的な表現を実験で容易に利用できるようにすることで、グラフ学習、グラフマイニング、ネットワーク分析における厳密な表現堅牢性チェックを容易にし、特定の表現の利点と欠点を強調する。 Hyperbardでリリースされたデータを利用して、人気のあるグラフマイニング問題に対する多くのソリューションが表現の選択に大きく依存していることを示し、現在のグラフキュレーションの実践を疑問視する。 データソースへのオマージュとして、科学もまた芸術であると主張するため、私たちはすべてのポイントを遊びの形で提示します。

We introduce Hyperbard, a dataset of diverse relational data representations derived from Shakespeare's plays. Our representations range from simple graphs capturing character co-occurrence in single scenes to hypergraphs encoding complex communication settings and character contributions as hyperedges with edge-specific node weights. By making multiple intuitive representations readily available for experimentation, we facilitate rigorous representation robustness checks in graph learning, graph mining, and network analysis, highlighting the advantages and drawbacks of specific representations. Leveraging the data released in Hyperbard, we demonstrate that many solutions to popular graph mining problems are highly dependent on the representation choice, thus calling current graph curation practices into question. As an homage to our data source, and asserting that science can also be art, we present all our points in the form of a play.
翻訳日:2022-06-20 10:35:15 公開日:2022-06-17
# VoxGRAF: スパースボクセルグリッドを用いた高速3次元画像合成

VoxGRAF: Fast 3D-Aware Image Synthesis with Sparse Voxel Grids ( http://arxiv.org/abs/2206.07695v2 )

ライセンス: Link先を確認
Katja Schwarz and Axel Sauer and Michael Niemeyer and Yiyi Liao and Andreas Geiger(参考訳) 最先端の3D認識生成モデルは、3Dラディアンス場をパラメータ化するために座標ベースのMLPに依存している。 印象的な結果を示す一方で、各試料ごとにMLPをクエリすると、レンダリングが遅くなります。 したがって、既存のアプローチはしばしば低解像度の特徴写像をレンダリングし、それらをアップサンプリングネットワークで処理して最終的な画像を得る。 効率は良いが、ニューラルレンダリングは、しばしば視点とコンテンツが絡み合っており、カメラのポーズを変えると、不要な形状や外観の変化が生じる。 本稿では,voxelを用いた新しいビュー合成の最近の結果に動機づけられ,高速かつ3次元一貫性のある生成モデルのためのスパースvoxelグリッド表現の有用性について検討する。 その結果, 不定形mlpは, スパースボクセルグリッドとプログレッシブ成長, フリースペースプルーニング, 適切な正規化を組み合わせた場合, 3次元畳み込みに置き換えられることがわかった。 シーンのコンパクトな表現と,より高いボクセル解像度へのスケーリングを実現するため,本モデルでは,背景(2次元モデル)から前景オブジェクト(3次元モデル)を遠ざけている。 既存の手法とは対照的に,本手法では完全な3Dシーンを生成するために,単一の前方通過しか必要としない。 したがって、任意の視点から効率的なレンダリングを可能にし、高い視覚的忠実度で3D一貫性のある結果が得られる。

State-of-the-art 3D-aware generative models rely on coordinate-based MLPs to parameterize 3D radiance fields. While demonstrating impressive results, querying an MLP for every sample along each ray leads to slow rendering. Therefore, existing approaches often render low-resolution feature maps and process them with an upsampling network to obtain the final image. Albeit efficient, neural rendering often entangles viewpoint and content such that changing the camera pose results in unwanted changes of geometry or appearance. Motivated by recent results in voxel-based novel view synthesis, we investigate the utility of sparse voxel grid representations for fast and 3D-consistent generative modeling in this paper. Our results demonstrate that monolithic MLPs can indeed be replaced by 3D convolutions when combining sparse voxel grids with progressive growing, free space pruning and appropriate regularization. To obtain a compact representation of the scene and allow for scaling to higher voxel resolutions, our model disentangles the foreground object (modeled in 3D) from the background (modeled in 2D). In contrast to existing approaches, our method requires only a single forward pass to generate a full 3D scene. It hence allows for efficient rendering from arbitrary viewpoints while yielding 3D consistent results with high visual fidelity.
翻訳日:2022-06-20 10:35:01 公開日:2022-06-17
# ビデオにおけるマルチモーダル感情分析のためのマルチスケール協調マルチモーダルトランスフォーマ

Multi-scale Cooperative Multimodal Transformers for Multimodal Sentiment Analysis in Videos ( http://arxiv.org/abs/2206.07981v2 )

ライセンス: Link先を確認
Lianyang Ma, Yu Yao, Tao Liang, Tongliang Liu(参考訳) ビデオにおけるマルチモーダル感情分析は、多くの現実世界アプリケーションにおいて重要なタスクであり、視覚、言語、音響的振る舞いを含むマルチモーダルストリームを統合する必要がある。 マルチモーダル核融合の堅牢性を改善するために、既存手法のいくつかは異なるモーダルを相互に通信させ、トランスフォーマーを介して相互モーダル相互作用を変調する。 しかし、これらの手法は相互作用中にのみ単一スケール表現を使用するが、異なるレベルの意味情報を含むマルチスケール表現を利用することを忘れる。 その結果、トランスフォーマーによって学習される表現は、特に不整列マルチモーダルデータに対して偏りがある。 本稿では,マルチモーダル感情分析のためのマルチスケール協調型マルチモーダルトランス (MCMulT) アーキテクチャを提案する。 全体として、"マルチスケール"メカニズムは、細粒度のクロスモーダル相互作用に使用される各モダリティの意味情報の異なるレベルを利用することができる。 一方、各モダリティは、元のモダリティの複数のレベル特徴からのクロスモーダル相互作用を統合することによって特徴階層を学習する。 このように、それぞれのモダリティのペアはそれぞれ協調的な方法で機能階層を段階的に構築する。 実験の結果,mcmultモデルが既存のマルチモーダル配列のアプローチよりも優れているだけでなく,マルチモーダル配列のアライメントの性能も高いことがわかった。

Multimodal sentiment analysis in videos is a key task in many real-world applications, which usually requires integrating multimodal streams including visual, verbal and acoustic behaviors. To improve the robustness of multimodal fusion, some of the existing methods let different modalities communicate with each other and modal the crossmodal interaction via transformers. However, these methods only use the single-scale representations during the interaction but forget to exploit multi-scale representations that contain different levels of semantic information. As a result, the representations learned by transformers could be biased especially for unaligned multimodal data. In this paper, we propose a multi-scale cooperative multimodal transformer (MCMulT) architecture for multimodal sentiment analysis. On the whole, the "multi-scale" mechanism is capable of exploiting the different levels of semantic information of each modality which are used for fine-grained crossmodal interactions. Meanwhile, each modality learns its feature hierarchies via integrating the crossmodal interactions from multiple level features of its source modality. In this way, each pair of modalities progressively builds feature hierarchies respectively in a cooperative manner. The empirical results illustrate that our MCMulT model not only outperforms existing approaches on unaligned multimodal sequences but also has strong performance on aligned multimodal sequences.
翻訳日:2022-06-20 10:34:38 公開日:2022-06-17
# 幼児の言語発達テストにおける非単語の発音分類

Nonwords Pronunciation Classification in Language Development Tests for Preschool Children ( http://arxiv.org/abs/2206.08058v2 )

ライセンス: Link先を確認
Ilja Baumann, Dominik Wagner, Sebastian Bayerl, Tobias Bocklet(参考訳) 本研究の目的は,子どもの言語発達が年齢的に適切かどうかを自動評価することである。 この目的のために、音声と言語による検証を行い、聴覚記憶をテストする。 本研究の課題は,話し言葉が正しく発声されたかどうかを判断することである。 低レベル特徴(FFT)、話者埋め込み(ECAPA-TDNN)、グラファイムを動機とした埋め込み(wav2vec 2.0)、セノン(ASR音響モデル)などの言語構造をモデル化するための様々なアプローチを比較した。 それぞれのアプローチはVGGライクな5層CNN分類器の入力を提供する。 ノンワードによる適応についても検討する。 提案システムの評価は,話し言葉の異なる幼稚園の音声記録を用いて行った。 ECAPA-TDNNと低レベルFFT機能は、明示的に音声情報をモデル化しない。wav2vec2.0は、グラファイムラベルに基づいて訓練されており、ASR音響モデルは、(サブ)音声情報を含む。 その結果,音素モデルの方が粒度が高いほど認識率が高くなることがわかった。 VTLNでASR音響モデルの特徴を訓練した最良のシステムは89.4%の精度で、LOC曲線(AUC) 0.923の領域を達成した。 これはFFTベースラインと比較して精度が20.2%、AUCが0.309である。

This work aims to automatically evaluate whether the language development of children is age-appropriate. Validated speech and language tests are used for this purpose to test the auditory memory. In this work, the task is to determine whether spoken nonwords have been uttered correctly. We compare different approaches that are motivated to model specific language structures: Low-level features (FFT), speaker embeddings (ECAPA-TDNN), grapheme-motivated embeddings (wav2vec 2.0), and phonetic embeddings in form of senones (ASR acoustic model). Each of the approaches provides input for VGG-like 5-layer CNN classifiers. We also examine the adaptation per nonword. The evaluation of the proposed systems was performed using recordings from different kindergartens of spoken nonwords. ECAPA-TDNN and low-level FFT features do not explicitly model phonetic information; wav2vec2.0 is trained on grapheme labels, our ASR acoustic model features contain (sub-)phonetic information. We found that the more granular the phonetic modeling is, the higher are the achieved recognition rates. The best system trained on ASR acoustic model features with VTLN achieved an accuracy of 89.4% and an area under the ROC (Receiver Operating Characteristic) curve (AUC) of 0.923. This corresponds to an improvement in accuracy of 20.2% and AUC of 0.309 relative compared to the FFT-baseline.
翻訳日:2022-06-20 10:34:15 公開日:2022-06-17
# Metric-Fair Classifier Derandomization

Metric-Fair Classifier Derandomization ( http://arxiv.org/abs/2206.07826v2 )

ライセンス: Link先を確認
Jimmy Wu, Yatong Chen, Yang Liu(参考訳) 機械学習における分類器のデランドマイゼーションの問題を考察する: 確率的二項分類器$f: X \to [0,1]$, 決定論的分類器$\hat{f}: X \to \{0,1\}$, 任意のデータ分布に対して集約された$f$の出力を近似する。 最近の研究により、強い出力近似保証を持つ確率的分類器を効率的にデランダライズする方法が明らかになったが、個々のフェアネスのコストで -- つまり、$f$ が同様の入力を処理した場合、$\hat{f}$ は成立しなかった。 本稿では,計量公正性保証を伴う分類器のデランドマイゼーションの系統的研究を開始する。 従来のデランドマイズ手法は, ほぼ最大距離不等式であり, 単純な「ランダムしきい値」デランドマイズ法は, より弱い出力近似で最適公平性保存を実現する。 もし$f$ が$\alpha$-metric fair で、locality-sensitive hash (lsh) ファミリを持つメトリック $d$ に基づいて、我々の非ランダム化された$\hat{f}$ は、高い確率で$o(\alpha)$-metric fair であり、$f$ の近似値である。 また、バイアス分散分解や様々な距離的公平性の概念間の縮小を含むすべての(公平かつ不公平な)分類子非ランダム化手順に適用可能な汎用的な結果も証明する。

We study the problem of classifier derandomization in machine learning: given a stochastic binary classifier $f: X \to [0,1]$, sample a deterministic classifier $\hat{f}: X \to \{0,1\}$ that approximates the output of $f$ in aggregate over any data distribution. Recent work revealed how to efficiently derandomize a stochastic classifier with strong output approximation guarantees, but at the cost of individual fairness -- that is, if $f$ treated similar inputs similarly, $\hat{f}$ did not. In this paper, we initiate a systematic study of classifier derandomization with metric fairness guarantees. We show that the prior derandomization approach is almost maximally metric-unfair, and that a simple ``random threshold'' derandomization achieves optimal fairness preservation but with weaker output approximation. We then devise a derandomization procedure that provides an appealing tradeoff between these two: if $f$ is $\alpha$-metric fair according to a metric $d$ with a locality-sensitive hash (LSH) family, then our derandomized $\hat{f}$ is, with high probability, $O(\alpha)$-metric fair and a close approximation of $f$. We also prove generic results applicable to all (fair and unfair) classifier derandomization procedures, including a bias-variance decomposition and reductions between various notions of metric fairness.
翻訳日:2022-06-20 10:33:52 公開日:2022-06-17