このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220425となっている論文です。

PDF登録状況(公開日: 20220425)

TitleAuthorsAbstract論文公表日・翻訳日
# リアルタイムノイズ取得によるデコヒーレンス低減

Decoherence mitigation by real-time noise acquisition ( http://arxiv.org/abs/2004.08709v2 )

ライセンス: Link先を確認
Georg Braunbeck, Maximilian Kaindl, Andreas Michael Waeber, Friedemann Reinhard(参考訳) 量子ビット上での古典的雑音による劣化効果を中和する手法を提案する。 このスキームは、このようなノイズは量子ビットの進化中に古典的なデバイスによって記録され、その効果は測定結果に条件付けられた適切な制御シーケンスによって取り除かれるというキーアイデアに基づいている。 本研究では, この手法を, 近傍の導体に強い結合性を有する窒素空洞(NV)センターで実証する。 電流の測定に読み出し可観測値を設定することにより、全量子コヒーレンスとその固有コヒーレンス時間$T_2$を回復する。 このスキームは、ノイズ源によって駆動されたとしても、10^{-2}$の非忠実性を持つ単一量子ゲートを簡易に実装する方法を実証し、さらに改良を加えて10^{-5}$の不完全性に到達できると推定する。 強電流を駆動する高速制御パルス、特に100maのピーク電流sを100mhz帯域で制御するナノスケール磁気共鳴イメージングを用いた実験において、この方法が広く採用されることを期待した。

We present a scheme to neutralize the dephasing effect induced by classical noise on a qubit. The scheme builds upon the key idea that this kind of noise can be recorded by a classical device during the qubit evolution, and that its effect can be undone by a suitable control sequence that is conditioned on the measurement result. We specifically demonstrate this scheme on a nitrogen-vacancy (NV) center that strongly couples to current noise in a nearby conductor. By conditioning the readout observable on a measurement of the current, we recover the full qubit coherence and its intrinsic coherence time $T_2$. We demonstrate that this scheme provides a simple way to implement single-qubit gates with an infidelity of $10^{-2}$ even if they are driven by noisy sources, and we estimate that an infidelity of $10^{-5}$ could be reached with additional improvements. We anticipate this method to find widespread adoption in experiments using fast control pulses driven from strong currents, in particular in nanoscale magnetic resonance imaging, where control of peak current s of 100 mA with a bandwidth of 100 MHz is required.
翻訳日:2023-05-23 02:38:14 公開日:2022-04-25
# 量子チャネル認証における偽陰誤差を除く

Excluding false negative error in certification of quantum channels ( http://arxiv.org/abs/2106.02375v3 )

ライセンス: Link先を確認
Aleksandra Krawiec, {\L}ukasz Pawela, Zbigniew Pucha{\l}a(参考訳) 量子チャネルの認証は量子仮説テストに基づいており、入力状態の準備と最終測定の選択も含んでいる。 この研究は主に、偽のネガティブなエラーが発生しないシナリオに焦点を合わせ、たとえ偽のポジティブなエラーの確率の増大に繋がるとしても、そのシナリオに焦点をあてる。 量子チャネルへの有限個のクエリの後に、偽の負のエラーを並行して排除できる条件を確立し、クエリ数の上界を提供する。 その上に,有限個のクエリを並列に処理した後,誤った負のエラーを排除できるチャネルのクラスを見出したが,曖昧な区別はできなかった。 さらに、並列認証スキームは常に十分であることが証明されるが、適応スキームを用いることでステップ数を減少させることができる。 最後に、量子チャネルと測定の様々なクラスの認証の例について考察する。

Certification of quantum channels is based on quantum hypothesis testing and involves also preparation of an input state and choosing the final measurement. This work primarily focuses on the scenario when the false negative error cannot occur, even if it leads to the growth of the probability of false positive error. We establish a condition when it is possible to exclude false negative error after a finite number of queries to the quantum channel in parallel, and we provide an upper bound on the number of queries. On top of that, we found a class of channels which allow for excluding false negative error after a finite number of queries in parallel, but cannot be distinguished unambiguously. Moreover, it will be proved that parallel certification scheme is always sufficient, however the number of steps may be decreased by the use of adaptive scheme. Finally, we consider examples of certification of various classes of quantum channels and measurements.
翻訳日:2023-03-27 21:21:53 公開日:2022-04-25
# 検索エンジン監査のスケールアップ - アルゴリズム監査の実践的考察

Scaling up Search Engine Audits: Practical Insights for Algorithm Auditing ( http://arxiv.org/abs/2106.05831v3 )

ライセンス: Link先を確認
Roberto Ulloa and Mykola Makhortykh and Aleksandra Urman(参考訳) 近年、インターネットで利用可能な大規模でダイナミックな情報の処理、フィルタリング、ランク付けを行う自動キュレーションサービスのパフォーマンスを独立して評価する必要性が高まっているため、アルゴリズム監査が増加している。 このような監査を行ういくつかの手法の中で、仮想エージェントは、参加者をリクルートするコストを伴わずに人間の行動をシミュレートし、体系的な実験を行う能力を提供するため、目立たない。 研究の透明性と結果の再現性の重要性に動機づけられ,このようなアプローチの課題に焦点を当てた。 8つの検索エンジン(メイン、ニュース、画像、ビデオセクションを含む)に、数百の仮想エージェントを配置した実験をセットアップした経験に基づいて、方法論の詳細、勧告、学習した教訓、制限を提供します。 様々な実験的な設計で複数のデータ集合をまたいだ研究基盤の性能を実証し、その方法の品質を向上させるための異なる変更と戦略を指摘する。 仮想エージェントは,アルゴリズムの性能を長期にわたって監視するための有望な場所であると結論づけるとともに,本論文がこの分野におけるさらなる研究の基盤となることを期待する。

Algorithm audits have increased in recent years due to a growing need to independently assess the performance of automatically curated services that process, filter, and rank the large and dynamic amount of information available on the internet. Among several methodologies to perform such audits, virtual agents stand out because they offer the ability to perform systematic experiments, simulating human behaviour without the associated costs of recruiting participants. Motivated by the importance of research transparency and replicability of results, this paper focuses on the challenges of such an approach. It provides methodological details, recommendations, lessons learned, and limitations based on our experience of setting up experiments for eight search engines (including main, news, image and video sections) with hundreds of virtual agents placed in different regions. We demonstrate the successful performance of our research infrastructure across multiple data collections, with diverse experimental designs, and point to different changes and strategies that improve the quality of the method. We conclude that virtual agents are a promising venue for monitoring the performance of algorithms across long periods of time, and we hope that this paper can serve as a basis for further research in this area.
翻訳日:2023-03-27 01:49:56 公開日:2022-04-25
# ポアソン方程式を解くための最小ポテンシャルエネルギーに基づく変分量子アルゴリズム

Variational quantum algorithm based on the minimum potential energy for solving the Poisson equation ( http://arxiv.org/abs/2106.09333v2 )

ライセンス: Link先を確認
Yuki Sato, Ruho Kondo, Satoshi Koide, Hideki Takamatsu, Nobuyuki Imoto(参考訳) コンピュータ支援工学技術は現代工学の発展に不可欠である。 特に、偏微分方程式は、物理現象の力学をシミュレートするために一般的に用いられるが、非常に大きな系は、スーパーコンピュータを用いても、妥当な計算時間内でしばしば引き起こされる。 古典計算の固有限界を克服するために, 雑音中規模量子デバイスに実装可能なポアソン方程式を解くための変分量子アルゴリズムを提案する。 提案手法は、ポアソン方程式の総ポテンシャルエネルギーをハミルトニアンとして定義し、パウリ作用素と単純な可観測物の線形結合に分解する。 ハミルトニアンの期待値は、パラメータ化された量子状態に対して最小化される。 分解された項の数は問題のサイズに依存しないため、この方法は比較的少ない量子測定を必要とする。 数値実験により、従来の計算法や従来の変分量子法と比較して、この手法の高速な計算速度が示されている。 我々のアプローチは、量子コンピュータ支援技術がエンジニアリング開発における将来の応用に近くなると信じている。 コードはhttps://github.com/toyotacrdl/vqapoissonで入手できる。

Computer-aided engineering techniques are indispensable in modern engineering developments. In particular, partial differential equations are commonly used to simulate the dynamics of physical phenomena, but very large systems are often intractable within a reasonable computation time, even when using supercomputers. To overcome the inherent limit of classical computing, we present a variational quantum algorithm for solving the Poisson equation that can be implemented in noisy intermediate-scale quantum devices. The proposed method defines the total potential energy of the Poisson equation as a Hamiltonian, which is decomposed into a linear combination of Pauli operators and simple observables. The expectation value of the Hamiltonian is then minimized with respect to a parameterized quantum state. Because the number of decomposed terms is independent of the size of the problem, this method requires relatively few quantum measurements. Numerical experiments demonstrate the faster computing speed of this method compared with classical computing methods and a previous variational quantum approach. We believe that our approach brings quantum computer-aided techniques closer to future applications in engineering developments. Code is available at https://github.com/ToyotaCRDL/VQAPoisson.
翻訳日:2023-03-26 10:59:14 公開日:2022-04-25
# 多体局在系における雪崩と多体共鳴

Avalanches and many-body resonances in many-body localized systems ( http://arxiv.org/abs/2107.05642v3 )

ライセンス: Link先を確認
Alan Morningstar, Luis Colmenarez, Vedika Khemani, David J. Luitz, and David A. Huse(参考訳) 多体局在(MBL)を示す強秩序スピン鎖における雪崩不安定性と多体共鳴の両方を数値解析した。 我々は、有限サイズ/時間MBL体制と漸近MBLフェーズを区別し、MBL体制内のいくつかの「ランドマーク」を識別する。 最初のランドマークは、mbl相が雪崩に不安定になる場所を推定し、一方の端に無限の浴槽と結合した有限鎖の最も遅い緩和速度を測定することである。 我々の推定では、無限長系における実際のMBL-熱間相転移は、これまでのほとんどの研究で示唆されたよりもずっと深く起こる。 他のランドマークはシステム全体の共鳴です。 システムワイド共鳴による固有状態を生成する有効行列要素は広範囲に分布している。 これは、典型的なサンプルにおけるそのような共鳴の開始は、MBL状態において非常に深く発生し、最初の共鳴は通常、最小のギャップよりもエネルギーにおいて遠く離れている稀な固有状態のペアを含むことを意味する。 したがって、共鳴特性はmblレジームを3つのサブレジームに分割する2つのランドマークを定義する。 (i)最も強い疾患では、典型的なサンプルは、システム全体の多体共鳴に関与している固有状態を持たない。 (二)典型的なサンプルがそのような共鳴を持つような実質的な中間状態があるが、スペクトルギャップが最小の固有状態の対は存在しない。 3) より弱いランダム性状態においては、最小のギャップは多体共鳴に関与し、したがってレベル反発する。 しかしながら、この第3のサブレジスターでさえ、消滅する固有状態の分数以外はすべて共鳴せず、この系は多くの点でmblとして現れる。 雪崩不安定度の推定値から、MBL相はサブレジームの一部に過ぎないかもしれない。 (i)。

We numerically study both the avalanche instability and many-body resonances in strongly-disordered spin chains exhibiting many-body localization (MBL). We distinguish between a finite-size/time MBL regime, and the asymptotic MBL phase, and identify some "landmarks" within the MBL regime. Our first landmark is an estimate of where the MBL phase becomes unstable to avalanches, obtained by measuring the slowest relaxation rate of a finite chain coupled to an infinite bath at one end. Our estimates indicate that the actual MBL-to-thermal phase transition, in infinite-length systems, occurs much deeper in the MBL regime than has been suggested by most previous studies. Our other landmarks involve system-wide resonances. We find that the effective matrix elements producing eigenstates with system-wide resonances are enormously broadly distributed. This means that the onset of such resonances in typical samples occurs quite deep in the MBL regime, and the first such resonances typically involve rare pairs of eigenstates that are farther apart in energy than the minimum gap. Thus we find that the resonance properties define two landmarks that divide the MBL regime in to three subregimes: (i) at strongest disorder, typical samples do not have any eigenstates that are involved in system-wide many-body resonances; (ii) there is a substantial intermediate regime where typical samples do have such resonances, but the pair of eigenstates with the minimum spectral gap does not; and (iii) in the weaker randomness regime, the minimum gap is involved in a many-body resonance and thus subject to level repulsion. Nevertheless, even in this third subregime, all but a vanishing fraction of eigenstates remain non-resonant and the system thus still appears MBL in many respects. Based on our estimates of the location of the avalanche instability, it might be that the MBL phase is only part of subregime (i).
翻訳日:2023-03-22 18:11:38 公開日:2022-04-25
# 積分可能な集合スピンモデルにおける固有状態絡み合い

Eigenstate entanglement in integrable collective spin models ( http://arxiv.org/abs/2108.09866v3 )

ライセンス: Link先を確認
Meenu Kumari, \'Alvaro M. Alhambra(参考訳) エネルギー固有状態の平均エンタングルメントエントロピー(EE)は、近年、量子多体系における積分可能性の診断として提案されている。 量子可積分性が忠実に特徴づけられるためには、明確な古典可積分性基準と同様に、よく定義された古典極限を持つ量子系を区別する必要がある。 スピンの置換対称性を特徴とする集団スピンモデルのクラスにおける診断について検討した。 有名なリプキン・メショフ・グリク(lmg)モデルは、古典的極限を持つこのクラスにおけるパラダイム的可積分系である。 したがって、このモデルは量子可積分性診断に優れたテストベッドである。 まず、非消滅二分法におけるディック基底の平均EE$\{|j,m\rangle \}_{m=-j}^j$を解析的に計算し、熱力学的極限において、対応する二分法における最大EEの1/2$に収束することを示す。 有限スケールスケーリングを用いて、上記の熱力学限界における平均EEが、LMGモデルの全てのパラメータ値に対して普遍的であることを数値的に示す。 我々の分析は、平均EE値が熱力学限界の最大値から遠く離れていることが積分可能性のサインであることを示している。

The average entanglement entropy (EE) of the energy eigenstates in non-vanishing partitions has been recently proposed as a diagnostic of integrability in quantum many-body systems. For it to be a faithful characterization of quantum integrability, it should distinguish quantum systems with a well-defined classical limit in the same way as the unequivocal classical integrability criteria. We examine the proposed diagnostic in the class of collective spin models characterized by permutation symmetry in the spins. The well-known Lipkin-Meshov-Glick (LMG) model is a paradigmatic integrable system in this class with a well-defined classical limit. Thus, this model is an excellent testbed for examining quantum integrability diagnostics. First, we calculate analytically the average EE of the Dicke basis $\{|j,m\rangle \}_{m=-j}^j$ in any non-vanishing bipartition, and show that in the thermodynamic limit, it converges to $1/2$ of the maximal EE in the corresponding bipartition. Using finite-size scaling, we numerically demonstrate that the aforementioned average EE in the thermodynamic limit is universal for all parameter values of the LMG model. Our analysis illustrates how a value of the average EE far away from the maximal in the thermodynamic limit could be a signature of integrability.
翻訳日:2023-03-17 18:25:53 公開日:2022-04-25
# 弱非調和量子ビットを持つ2量子ゲートの速度制限

Speed limits for two-qubit gates with weakly anharmonic qubits ( http://arxiv.org/abs/2109.01469v2 )

ライセンス: Link先を確認
Sahel Ashhab, Fumiki Yoshihara, Tomoko Fuse, Naoki Yamamoto, Adrian Lupascu, and Kouichi Semba(参考訳) 量子ビットを実現する物理系が、アクセス可能なエネルギー範囲で追加の量子状態を持つ場合、二量子ゲートの実装を検討する。 我々は最適制御理論を用いて、多レベルヒルベルト空間のキュービット部分空間における2量子ゲートの最大到達ゲート速度を決定し、ゲート速度に対する追加量子状態の影響を分析する。 競合する2つのメカニズムを同定する。 一方、より高いエネルギー準位は一般的に互いにより強く結合している。 適切な条件下では、この強い結合により、2量子ビットゲートは単純な量子ビットに基づく基準値よりも大幅に高速になる。 一方、弱い非調和性は、システムが適切に制御できる速度を制限し、直感的な図によれば、より速い操作ではより強い制御場が必要であり、弱い非調和性システムではより高いレベルを励起する傾向があり、これによりより高速なデコヒーレンスと制御不能なリークにつながる。 この制約を考慮し、我々はパルス最適化アルゴリズムを変更し、高いレベルの高い個体数につながるパルスを避ける。 この場合、より高いレベルの存在は、達成可能な最大ゲート速度を大幅に低下させる可能性がある。 また、最適制御ゲート速度を、クロス共振/選択ダンキングゲートプロトコルを用いて得られるものと比較する。 パラメータ最適化によって,CNOTゲートの比較的高速な実装を実現するために,後者が利用できることがわかった。 これらの結果は、超伝導回路に基づくような現実的な量子コンピューティングアーキテクチャにおける最適化ゲート実装の探索に役立つ。 また、より高レベルな量子ゲートの最適利用を可能にする無調和性に関する望ましい条件のガイドラインも提供している。

We consider the implementation of two-qubit gates when the physical systems used to realize the qubits possess additional quantum states in the accessible energy range. We use optimal control theory to determine the maximum achievable gate speed for two-qubit gates in the qubit subspace of the many-level Hilbert space, and we analyze the effect of the additional quantum states on the gate speed. We identify two competing mechanisms. On one hand, higher energy levels are generally more strongly coupled to each other. Under suitable conditions, this stronger coupling can be utilized to make two-qubit gates significantly faster than the reference value based on simple qubits. On the other hand, a weak anharmonicity constrains the speed at which the system can be adequately controlled: according to the intuitive picture, faster operations require stronger control fields, which are more likely to excite higher levels in a weakly anharmonic system, which in turn leads to faster decoherence and uncontrolled leakage outside the qubit space. In order to account for this constraint, we modify the pulse optimization algorithm to avoid pulses that lead to appreciable population of the higher levels. In this case we find that the presence of the higher levels can lead to a significant reduction in the maximum achievable gate speed. We also compare the optimal-control gate speeds with those obtained using the cross-resonance/selective-darkening gate protocol. We find that the latter, with some parameter optimization, can be used to achieve a relatively fast implementation of the CNOT gate. These results can help the search for optimized gate implementations in realistic quantum computing architectures, such as those based on superconducting circuits. They also provide guidelines for desirable conditions on anharmonicity that allow optimal utilization of the higher levels to achieve fast quantum gates.
翻訳日:2023-03-16 06:27:41 公開日:2022-04-25
# 空洞量子力学における時間分解物理スペクトル

Time-resolved physical spectrum in cavity quantum electrodynamics ( http://arxiv.org/abs/2109.02287v2 )

ライセンス: Link先を確認
Makoto Yamaguchi, Alexey Lyasota, Tatsuro Yuge, Yasutomo Ota(参考訳) 発光の時間分解物理スペクトルは標準空洞量子力学系において理論的に研究されている。 定常状態のパワースペクトルとは対照的に、現在までの相関関数は時間分解スペクトルの構築に不可欠であるが、因果性のため将来の量との相関は到達できない。 この因果性は時間分解スペクトルを理解する上で重要な役割を担っており、ラビ振動の最初のピークの間はラビ二重子を観測できない。 さらに、因果関係はいくつかの状況においてラビダブレットの過渡的な大きさに影響を及ぼす可能性がある。 また,ラビダブレットとの差異を強調できるファノ反共振のダイナミクスについても検討した。

The time-resolved physical spectrum of luminescence is theoretically studied for a standard cavity quantum electrodynamics system. In contrast to the power spectrum for the steady state, the correlation functions up to the present time are crucial for the construction of the time-resolved spectrum, while the correlations with future quantities are inaccessible because of the causality, i.e., the future quantities cannot be measured until the future comes. We find that this causality plays a key role to understand the time-resolved spectrum, in which the Rabi doublet can never be seen during the time of the first peak of the Rabi oscillation. Furthermore, the causality can influence on the transient magnitude of the Rabi doublet in some situations. We also study the dynamics of the Fano anti-resonance, where the difference from the Rabi doublet can be highlighted.
翻訳日:2023-03-16 00:58:13 公開日:2022-04-25
# 位相安定器符号の誤り率非依存復号

Error-rate-agnostic decoding of topological stabilizer codes ( http://arxiv.org/abs/2112.01977v2 )

ライセンス: Link先を確認
Karl Hammar, Alexei Orekhov, Patrik Wallin Hybelius, Anna Katariina Wisakanto, Basudha Srivastava, Anton Frisk Kockum, Mats Granath(参考訳) トポロジカル安定化符号の効率的な高性能復号化は、構成キュービットの論理故障率と個数と個数エラー率のバランスを著しく改善する可能性がある。 高threshold maximum-likelihood decoderは、特定の症候群をデコードするためにpauliエラーの明確なエラーモデルを必要とするが、最小重量マッチングのような低thresholdヒューリスティックなアプローチは"エラー非依存"である。 ここでは、位相フリップとビットフリップの相対確率というバイアスに依存するデコーダを定式化する中間的アプローチを考えるが、誤差率には依存しない。 我々のデコーダは、与えられたシンドロームの各同値クラスにおける最も可能性の高いエラーチェーンの数と有効重みを数えることに基づいている。 我々は,metropolisベースのモンテカルロサンプリングを用いてエラーチェーンの空間を探索し,ハッシュテーブルを用いて効率的に同定されるユニークなチェーンを見つける。 エラーレートの不変性を用いることで、デコーダは物理的エラー率よりも高く、同値クラスのチェーン間での「熱化」を必要としないエラーレートで効果的に連鎖をサンプリングすることができる。 表面コードとXZZXコードに適用すると、デコーダは中程度のコードサイズやエラー率の低い最大値のデコーダと一致する。 我々は,シンドロームごとの圧縮情報量により,モンテカルロ生成データを外挿する機械学習手法と組み合わせることで,最大限に活用できると予測している。

Efficient high-performance decoding of topological stabilizer codes has the potential to crucially improve the balance between logical failure rates and the number and individual error rates of the constituent qubits. High-threshold maximum-likelihood decoders require an explicit error model for Pauli errors to decode a specific syndrome, whereas lower-threshold heuristic approaches such as minimum weight matching are "error agnostic". Here we consider an intermediate approach, formulating a decoder that depends on the bias, i.e., the relative probability of phase-flip to bit-flip errors, but is agnostic to error rate. Our decoder is based on counting the number and effective weight of the most likely error chains in each equivalence class of a given syndrome. We use Metropolis-based Monte Carlo sampling to explore the space of error chains and find unique chains, that are efficiently identified using a hash table. Using the error-rate invariance the decoder can sample chains effectively at an error rate which is higher than the physical error rate and without the need for "thermalization" between chains in different equivalence classes. Applied to the surface code and the XZZX code, the decoder matches maximum-likelihood decoders for moderate code sizes or low error rates. We anticipate that, because of the compressed information content per syndrome, it can be taken full advantage of in combination with machine-learning methods to extrapolate Monte Carlo-generated data.
翻訳日:2023-03-05 23:56:10 公開日:2022-04-25
# xyz$^2$六角形安定化符号

The XYZ$^2$ hexagonal stabilizer code ( http://arxiv.org/abs/2112.06036v2 )

ライセンス: Link先を確認
Basudha Srivastava, Anton Frisk Kockum, Mats Granath(参考訳) 我々は、ハニカムグリッド上の位相安定化符号「XYZ$^2$」を考える。 このコードはkitaev honeycombモデルにインスパイアされ、wootton [j. phys. a: math. theor. 48, 215302 (2015)] によって議論された"マッチングコード"の単純な実現である。 コード距離$d$の2d^2$ qubitsからなる平面六角形グリッド上で、重み6(xyzxyz$)のプラーペットスタビライザと重2(xx$)リンクスタビライザを使用し、境界に重み3スタビライザを配置し、1つの論理キュービットを安定化する。 完全安定化器の測定を前提として, 符号特性を最大形復号法を用いて検討した。 純粋な$x$、$y$、または$z$ノイズの場合、論理的障害率を解析的に解くことができ、しきい値が50%になる。 回転した表面コードと、純粋な$y$ノイズに対してのみコード距離$d^2$を持つxzzxコードとは対照的に、このコード距離は、純粋な$z$と純粋な$y$ノイズの両方に対して$d^2$である。 有限$Z$バイアスのノイズの閾値はXZZX符号と似ているが、サブ閾値の論理的故障率は非常に低い。 この符号は、三角格子の3方向に沿って一方向のプラケット欠陥を持つ独自のシンドローム特性を有しており、効率的なマッチングベースや他の近似復号に有用である。

We consider a topological stabilizer code on a honeycomb grid, the "XYZ$^2$" code. The code is inspired by the Kitaev honeycomb model and is a simple realization of a "matching code" discussed by Wootton [J. Phys. A: Math. Theor. 48, 215302 (2015)], with a specific implementation of the boundary. It utilizes weight-six ($XYZXYZ$) plaquette stabilizers and weight-two ($XX$) link stabilizers on a planar hexagonal grid composed of $2d^2$ qubits for code distance $d$, with weight-three stabilizers at the boundary, stabilizing one logical qubit. We study the properties of the code using maximum-likelihood decoding, assuming perfect stabilizer measurements. For pure $X$, $Y$, or $Z$ noise, we can solve for the logical failure rate analytically, giving a threshold of 50%. In contrast to the rotated surface code and the XZZX code, which have code distance $d^2$ only for pure $Y$ noise, here the code distance is $2d^2$ for both pure $Z$ and pure $Y$ noise. Thresholds for noise with finite $Z$ bias are similar to the XZZX code, but with markedly lower sub-threshold logical failure rates. The code possesses distinctive syndrome properties with unidirectional pairs of plaquette defects along the three directions of the triangular lattice for isolated errors, which may be useful for efficient matching-based or other approximate decoding.
翻訳日:2023-03-04 20:29:42 公開日:2022-04-25
# 経路非依存量子制御の代数的構造

Algebraic structure of path-independent quantum control ( http://arxiv.org/abs/2201.00360v2 )

ライセンス: Link先を確認
Wen-Long Ma, Shu-Shen Li, and Liang Jiang(参考訳) 経路独立(pi)量子制御は、最近量子誤差補正と量子制御を統合するために提案されている[phys. rev. lett. 125, 110503 (2020)]。 ここでは,pi量子制御の基盤となる代数構造を明らかにする。 pi のハミルトニアンとプロパゲーターは、我々が pi 行列代数と呼ぶ通常の行列代数に同型な代数に属することが判明した。 複合系のヒルベルト空間(アンシラ系と中心系を含む)上で定義されるpi行列代数は、アンシラ系のヒルベルト空間上で定義される行列代数に同型である。 合成系のヒルベルト・シュミット空間に PI 行列代数を拡張することにより、我々は、アンシラノイズに対する PI 量子制御の正確かつ統一的な条件を提供する。

Path-independent (PI) quantum control has recently been proposed to integrate quantum error correction and quantum control [Phys. Rev. Lett. 125, 110503 (2020)], achieving fault-tolerant quantum gates against ancilla errors. Here we reveal the underlying algebraic structure of PI quantum control. The PI Hamiltonians and propagators turn out to lie in an algebra isomorphic to the ordinary matrix algebra, which we call the PI matrix algebra. The PI matrix algebra, defined on the Hilbert space of a composite system (including an ancilla system and a central system), is isomorphic to the matrix algebra defined on the Hilbert space of the ancilla system. By extending the PI matrix algebra to the Hilbert-Schmidt space of the composite system, we provide an exact and unifying condition for PI quantum control against ancilla noise.
翻訳日:2023-03-02 11:52:25 公開日:2022-04-25
# DFTを用いた量子熱力学特性の近似

Approximating quantum thermodynamic properties using DFT ( http://arxiv.org/abs/2201.05563v2 )

ライセンス: Link先を確認
Krissia Zawadzki, Amy Skelt and Irene D'Amico(参考訳) 量子技術の製作、利用、効率は量子熱力学特性の理解に頼っている。 多くの身体系はしばしばこれらの量子デバイスのためのハードウェアとして使用されるが、粒子間の相互作用は関連する計算の複雑さをシステムサイズとともに指数関数的に増大させる。 ここでは,静的密度汎関数理論の概念に基づく平均作業とエントロピー変化に対して,'simple' と `hybrid' 近似を探索し,系統的に比較する。 これらの近似は計算的に安価であり、大規模システムに適用できる。 それらが一次元ハバード鎖の駆動を考えることを例示し、'単純'近似と低-中温度の場合、駆動ハミルトニアンを近似するために良いコーン・シャム・ハミルトン系を考える必要があることを示す。 以上の結果から,システムのエントロピー,最終状態に対して,初期状態の極めて良好な近似を必要とする「ハイブリッド」アプローチが大きな改善をもたらすことが確認された。 このアプローチは、駆動ハミルトニアンによって多体効果が増大しない場合に特に効率的である。

The fabrication, utilisation, and efficiency of quantum technologies rely on a good understanding of quantum thermodynamic properties. Many-body systems are often used as hardware for these quantum devices, but interactions between particles make the complexity of related calculations grow exponentially with the system size. Here we explore and systematically compare `simple' and `hybrid' approximations to the average work and entropy variation built on static density functional theory concepts. These approximations are computationally cheap and could be applied to large systems. We exemplify them considering driven one-dimensional Hubbard chains and show that, for `simple' approximations and low to medium temperatures, it pays to consider a good Kohn-Sham Hamiltonian to approximate the driving Hamiltonian. Our results confirm that a `hybrid' approach, requiring a very good approximation of the initial and, for the entropy, final states of the system, provides great improvements. This approach should be particularly efficient when many-body effects are not increased by the driving Hamiltonian.
翻訳日:2023-03-01 04:32:59 公開日:2022-04-25
# 量子演算エージェントのネットワークにおける集団情報の役割

Role of collective information in networks of quantum operating agents ( http://arxiv.org/abs/2201.11008v2 )

ライセンス: Link先を確認
V.I. Yukalov, E.P. Yukalova, and D. Sornette(参考訳) エージェントのネットワークは、前述した量子決定理論によって決定過程が記述されると考えられる。 決定は、選択肢の効用、魅力、利用可能な情報を評価して行われ、その組み合わせが与えられた選択肢を選択する確率を形成する。 これら3つのコントリビューション間の相互作用の結果、いくつかの選択肢の選択プロセスはマルチモーダルである。 エージェントは情報交換によって対話し、2つの形式をとることができる。 (i)エージェントが他のエージェントから直接受け取ることができる情報 (ii)協会員が総合的に作成した情報 すべてのエージェントに共通する情報領域は、確率の時間的振る舞いの急激な変動を滑らかにし、それらを取り除くことができる。 短期記憶を持つエージェントの場合、確率は強い振動を通じて限界値になりがちであり、様々なパラメータのためにこれらの振動は永遠に持続し、意思決定者の絶え間ない迷いを表す。 情報フィールドを切り替えることで、振動の振幅が小さくなり、確率を一定の限界に収束させる永遠の振動さえ停止できる。 動的解離効果について述べる。

A network of agents is considered whose decision processes are described by the quantum decision theory previously advanced by the authors. Decision making is done by evaluating the utility of alternatives, their attractiveness, and the available information, whose combinations form the probabilities to choose a given alternative. As a result of the interplay between these three contributions, the process of choice between several alternatives is multimodal. The agents interact by exchanging information, which can take two forms: (i) information that an agent can directly receive from another agent and (ii) information collectively created by the members of the society. The information field common to all agents tends to smooth out sharp variations in the temporal behaviour of the probabilities and can even remove them. For agents with short-term memory, the probabilities often tend to their limiting values through strong oscillations and, for a range of parameters, these oscillations last for ever, representing an ever lasting hesitation of the decision makers. Switching on the information field makes the amplitude of the oscillations smaller and even can halt the everlasting oscillations forcing the probabilities to converge to fixed limits. The dynamic disjunction effect is described.
翻訳日:2023-02-27 20:25:35 公開日:2022-04-25
# 機械学習によるひずみ下の準1次元材料の電子構造予測

Machine learning based prediction of the electronic structure of quasi-one-dimensional materials under strain ( http://arxiv.org/abs/2202.00930v3 )

ライセンス: Link先を確認
Shashank Pathrudkar, Hsuan Ming Yu, Susanta Ghosh and Amartya S. Banerjee(参考訳) 本稿では, ねじれや伸縮・圧縮などの変形モード下で, 準1次元材料の電子構造を予測できる機械学習モデルを提案する。 ここでは, ナノチューブ, ナノリボン, ナノワイヤ, 異種キラル構造, ナノ集合体などの重要な材料に適用し, 機械変形と電子場との相互作用のチューニングは, 文献研究の活発な分野である。 我々のモデルは、大域的な構造対称性と原子緩和効果、電子場を特定するためのヘリカル座標の利点、およびこれらの座標におけるコーン・シャム密度汎関数論の対称性適応方程式を解く特別なデータ生成プロセスを利用する。 アームチェア単層カーボンナノチューブを原型例として用いて, 3つのパラメータ, ナノチューブの半径, 軸伸長, ユニット長あたりのねじれを入力として, 基底状態の電子密度と核擬電荷に関連する磁場を予測するモデルを用いた。 基底状態の電子自由エネルギーを含む他の電子的性質は、通常は化学的精度で低オーバーヘッド後処理によって評価することができる。 また,クラスタリングに基づく手法を用いて,疑似電荷場から核座標を確実に決定できることを示す。 驚くべきことに、問題設定における対称性、サンプリングのための低離散シーケンスの使用、電子分野に固有の低次元特徴の存在を記述した3次元電子場を正確に予測するには、約120のデータポイントだけで十分であることがわかった。 機械学習モデルの解釈可能性についてコメントし、今後の応用について論じる。

We present a machine learning based model that can predict the electronic structure of quasi-one-dimensional materials while they are subjected to deformation modes such as torsion and extension/compression. The technique described here applies to important classes of materials such as nanotubes, nanoribbons, nanowires, miscellaneous chiral structures and nano-assemblies, for all of which, tuning the interplay of mechanical deformations and electronic fields is an active area of investigation in the literature. Our model incorporates global structural symmetries and atomic relaxation effects, benefits from the use of helical coordinates to specify the electronic fields, and makes use of a specialized data generation process that solves the symmetry-adapted equations of Kohn-Sham Density Functional Theory in these coordinates. Using armchair single wall carbon nanotubes as a prototypical example, we demonstrate the use of the model to predict the fields associated with the ground state electron density and the nuclear pseudocharges, when three parameters - namely, the radius of the nanotube, its axial stretch, and the twist per unit length - are specified as inputs. Other electronic properties of interest, including the ground state electronic free energy, can then be evaluated with low-overhead post-processing, typically to chemical accuracy. We also show how the nuclear coordinates can be reliably determined from the pseudocharge field using a clustering based technique. Remarkably, only about 120 data points are found to be enough to predict the three dimensional electronic fields accurately, which we ascribe to the symmetry in the problem setup, the use of low-discrepancy sequences for sampling, and presence of intrinsic low-dimensional features in the electronic fields. We comment on the interpretability of our machine learning model and discuss its possible future applications.
翻訳日:2023-02-27 01:15:10 公開日:2022-04-25
# 荷電スピン粒子を用いたフェルミ気体の量子制限温度測定

Quantum-limited thermometry of a Fermi gas with a charged spin particle ( http://arxiv.org/abs/2202.09092v2 )

ライセンス: Link先を確認
Lorenzo Oghittu and Antonio Negretti(参考訳) 原子性フェルミガスの温度決定におけるイオンセンサの感度について検討した。 我々の研究は、M. T. Mitchisonらの提案による不純物処理にまで及んでいる。 Phys Rev. Lett. 125, 080402 (2020) では、原子中性不純物が量子ガスのその場温度計として使用された。 原子-イオン相互作用の長距離特性は、特定の系パラメータに対する温度計の感度を高める。 さらに, 高調波トラップに閉じ込められていることを仮定して, イオン量子運動状態が感度に与える影響について検討した。 イオンの温度感度は空間拡張の影響を顕著に受けており,温度計の性能向上のために操作可能な汎用ツールである。 最後に, 実験原子-イオン混合系の文脈での研究結果について考察する。

We investigate the sensitivity of an ion sensor in determining the temperature of an atomic Fermi gas. Our study extends to charged impurities the proposal by M. T. Mitchison et al. Phys. Rev. Lett. 125, 080402 (2020), where atomic neutral impurities were used as an in situ thermometer of the quantum gas. We find that the long-range character of the atom-ion interaction enhances the thermometer's sensitivity for certain system parameters. In addition, we investigate the impact of the ion quantum motional state on the sensitivity by assuming that it is confined in a harmonic trap. We observe that the temperature sensitivity of the ion is noticeably influenced by its spatial extension, making the latter a versatile tool to be manipulated for improving the thermometer performance. We finally discuss our findings in the context of current experimental atom-ion mixtures.
翻訳日:2023-02-24 17:43:47 公開日:2022-04-25
# スノーマスホワイトペーパー:量子場理論と量子重力における量子情報

Snowmass white paper: Quantum information in quantum field theory and quantum gravity ( http://arxiv.org/abs/2203.07117v2 )

ライセンス: Link先を確認
Thomas Faulkner, Thomas Hartman, Matthew Headrick, Mukund Rangamani, Brian Swingle(参考訳) 本稿では、量子場理論と量子重力の研究に量子情報理論の手法と考え方を適用する上での最近の進歩と課題について概説する。 重要なトピックとテーマは、QFTにおける絡み合いエントロピーと、それがRGフロー、対称性、フェーズについて明らかにするもの、スクランブル、情報拡散、カオス、状態準備と複雑性、QFTの古典的および量子シミュレーション、ホログラム双対性における情報の役割である。 また,量子情報科学がフィールド間の相乗効果から恩恵を受ける方法についても強調する。

We present a summary of recent progress and remaining challenges in applying the methods and ideas of quantum information theory to the study of quantum field theory and quantum gravity. Important topics and themes include: entanglement entropy in QFTs and what it reveals about RG flows, symmetries, and phases; scrambling, information spreading, and chaos; state preparation and complexity; classical and quantum simulation of QFTs; and the role of information in holographic dualities. We also highlight the ways in which quantum information science benefits from the synergy between the fields.
翻訳日:2023-02-22 03:38:54 公開日:2022-04-25
# ゲリマンダーの個性

Gerrymandering Individual Fairness ( http://arxiv.org/abs/2204.11615v1 )

ライセンス: Link先を確認
Tim R\"az(参考訳) Dworkらによって提唱された個人の公正性は、サブグループレベルでの個人の不公平な扱いを防止し、グループフェアネス対策が操作やジェリーマンディングの影響を受けるという問題を克服することを目的としている。 本論文の目的は,個別の公平性自体をジェリーマンダーに与えることができる範囲を探究することである。 得点予測の文脈で個々人の公平さを損なうことが可能であることが証明される。 また、個々の公正性は、特徴空間と計量のいくつかの選択に対して、フェアネスの非常に弱い概念を提供するとも主張される。 最後に、個々人の公正に関する一般的な考えは、ここで特定された個々人の公正に関する問題を克服できる公平の概念を定式化することによってどのように保存されるかについて議論する。

Individual fairness, proposed by Dwork et al., is a fairness measure that is supposed to prevent the unfair treatment of individuals on the subgroup level, and to overcome the problem that group fairness measures are susceptible to manipulation, or gerrymandering. The goal of the present paper is to explore the extent to which it is possible to gerrymander individual fairness itself. It will be proved that gerrymandering individual fairness in the context of predicting scores is possible. It will also be argued that individual fairness provides a very weak notion of fairness for some choices of feature space and metric. Finally, it will be discussed how the general idea of individual fairness may be preserved by formulating a notion of fairness that allows us to overcome some of the problems with individual fairness identified here and elsewhere.
翻訳日:2023-02-19 16:27:55 公開日:2022-04-25
# 噂検出のための深層学習手法の研究状況

Research Status of Deep Learning Methods for Rumor Detection ( http://arxiv.org/abs/2204.11540v1 )

ライセンス: Link先を確認
Li Tan, Ge Wang, Feiyang Jia, Xiaofeng Lian(参考訳) ソーシャルメディアの噂を管理し、社会における噂の害を軽減する。 多くの研究は、オープンネットワークの噂を検出するためにディープラーニングの手法を用いた。 本稿では,複数の視点からうわさ検出の研究状況を総合的に整理するために,特徴選択,モデル構造,研究方法という3つの視点から,高度に焦点を絞った作業を分析する。 特徴選択の観点から、我々は、噂のコンテンツ特徴、社会的特徴、伝播構造特徴にメソッドを分割する。 そこで本研究では,CNN,RNN,GNN,Transformerの深層学習モデルをモデル構造に基づいて分割し,比較に有用である。 さらに,本研究は,30の作品を,伝播木,敵対学習,クロスドメイン手法,マルチタスク学習,教師なし・半教師付き手法,知識グラフなど7つの噂検出手法にまとめる。 そして、噂を検出する様々な方法の利点を比較する。 さらに、このレビューでは、利用可能なデータセットを列挙し、研究者がフィールドの開発を進めるのに役立つ潜在的な問題と今後の研究について論じる。

To manage the rumors in social media to reduce the harm of rumors in society. Many studies used methods of deep learning to detect rumors in open networks. To comprehensively sort out the research status of rumor detection from multiple perspectives, this paper analyzes the highly focused work from three perspectives: Feature Selection, Model Structure, and Research Methods. From the perspective of feature selection, we divide methods into content feature, social feature, and propagation structure feature of the rumors. Then, this work divides deep learning models of rumor detection into CNN, RNN, GNN, Transformer based on the model structure, which is convenient for comparison. Besides, this work summarizes 30 works into 7 rumor detection methods such as propagation trees, adversarial learning, cross-domain methods, multi-task learning, unsupervised and semi-supervised methods, based knowledge graph, and other methods for the first time. And compare the advantages of different methods to detect rumors. In addition, this review enumerate datasets available and discusses the potential issues and future work to help researchers advance the development of field.
翻訳日:2023-02-19 16:27:39 公開日:2022-04-25
# 市民技術研究のレビュー : 定義・理論・歴史・洞察

A Review of Research on Civic Technology: Definitions, Theories, History and Insights ( http://arxiv.org/abs/2204.11461v1 )

ライセンス: Link先を確認
Weiyu Zhang, Gionnieve Lim, Simon Perrault, Chuyao Wang(参考訳) 市民技術(Civic Tech)と呼ばれる、市民の目的のために情報とコミュニケーション技術を活用するイニシアチブがある。 本稿では,ACM Digital Library の224論文について,Civic Tech 構築を支える重要な分野である,コンピュータ支援協調作業とヒューマン・コンピュータインタラクションに焦点を当てたレビューを行う。 このレビューを通じて, 市民技術研究の概念, 理論, 歴史を考察し, 関連する技術ツール, 社会的プロセス, 参加機構について考察する。 我々の仕事は、将来の市民の技術努力を市民の段階へと導くことを目指している。

There have been initiatives that take advantage of information and communication technologies to serve civic purposes, referred to as civic technologies (Civic Tech). In this paper, we present a review of 224 papers from the ACM Digital Library focusing on Computer Supported Cooperative Work and Human-Computer Interaction, the key fields supporting the building of Civic Tech. Through this review, we discuss the concepts, theories and history of civic tech research and provide insights on the technological tools, social processes and participation mechanisms involved. Our work seeks to direct future civic tech efforts to the phase of by the citizens.
翻訳日:2023-02-19 16:26:49 公開日:2022-04-25
# マルチメディアアプリケーションのための効率的な量子画像暗号化技術

Efficient Quantum Image Encryption Technique for Securing Multimedia Applications ( http://arxiv.org/abs/2204.07996v2 )

ライセンス: Link先を確認
Rakesh Saini, Bikash K. Behera, Hussein Abulkasim, Prayag Tiwari, Ahmed Farouk(参考訳) マルチメディアセキュリティは、業界5.0の開発に大きな影響を与えるため、重要な分野である。 現在のマルチメディアセキュリティシステムは複雑な数学的計算に依存しており、理論上、事実上、内部および外部からの攻撃や侵入の試みに対する情報の完全な保護を提供することができないことが証明されている。 残念ながら、古典的な暗号アルゴリズムによるセキュアなマルチメディアデータの復号化を可能にする量子コンピュータの進歩は、量子コンピュータの実際の処理能力を想像できないため、スマート産業に影響を及ぼすだろう。 そこで我々は,一般化アフィン変換とロジスティックマップを用いたマルチメディアアプリケーションのための効率的な量子画像暗号化手法を開発した。 設計した一般化量子回路をibmのクラウドベースの量子コンピュータを用いてテストし,評価した。 提案アルゴリズムの性能と計算複雑性を計測し,その効率を様々な基準に対して証明した。 さらに、Espressoアルゴリズムを用いた回路複雑性と量子コストを、回路にもう1つの量子ビットを加えるコストに対して約50倍に削減するハイブリッドアプローチを提案する。 最後に,様々なノイズアタックに対するロバスト性とセキュリティ解析により,提案手法が安全かつ正確に測定可能な量子画像処理システムを形成することを証明した。

Multimedia security is a vital sector due to its significant impact on the development of industry 5.0. The current multimedia security systems depend on complex mathematical calculations, proven theoretically and practically in their inability to provide complete protection of information against internal and external attacks and penetration attempts. Unfortunately, the advancement of the quantum computer allowing the decryption of secured multimedia data by classical cryptographic algorithms will influence smart industries since no one can imagine the actual processing power of the quantum computer. Therefore, we have developed an efficient quantum image encryption technique for multimedia applications using generalized affine transform and logistic map. The designed generalized quantum circuits for the developed approach are tested and evaluated using the IBM cloud-based quantum computer. The proposed algorithms' performance and computational complexity analysis are measured and proved its efficiency against various criteria. Furthermore, a hybrid approach to reduce the circuit complexity and quantum cost using the Espresso algorithm to approximately 50\% for the cost of adding one more qubit to the circuit is presented. Finally, the robustness and security analysis against various noise attacks proved that the proposed quantum image encryption method forms a secured and accurately measurable quantum image processing system.
翻訳日:2023-02-17 00:00:15 公開日:2022-04-25
# トロイダルスピノルBose-Einstein凝縮におけるジョセフソン様振動 : 前向き対称性プローブ

Josephson-like oscillations in toroidal spinor Bose-Einstein condensates: a prospective symmetry probe ( http://arxiv.org/abs/2204.07925v2 )

ライセンス: Link先を確認
M\'ario H. Figlioli Donato, S\'ergio R. Muniz(参考訳) ジョセフソン接合は、多くの既存の量子技術で使用される超伝導回路において重要な要素である。 さらに、超低温原子量子ガスは超流動性を研究する上で必須のプラットフォームとなっている。 そこで, 準一次元トロイダルスピノルBose--Einstein condensate (BEC) において, 超伝導と超流動の類似性を探り, 薄い有限障壁に起因する興味深い効果を示す。 このシステムでは、バリアの端を流れる原子電流密度は、超伝導体内のジョセフソン接合を流れる電流のように振動するが、この場合、バリアを流れる電流循環は存在しない。 また、スピノルBECの非自明な破壊対称性状態がこのジョセフソン様電流の構造を変化させ、この超流動電流の測定だけを用いてスピノル対称性をプローブする可能性も示している。

Josephson junctions are essential ingredients in the superconducting circuits used in many existing quantum technologies. Additionally, ultracold atomic quantum gases have also become essential platforms to study superfluidity. Here, we explore the analogy between superconductivity and superfluidity to present an intriguing effect caused by a thin finite barrier in a quasi-one-dimensional toroidal spinor Bose--Einstein condensate (BEC). In this system, the atomic current density flowing through the edges of the barrier oscillates, such as the electrical current through a Josephson junction in a superconductor, but in our case, there is no current circulation through the barrier. We also show how the nontrivial broken-symmetry states of spinor BECs change the structure of this Josephson-like current, creating the possibility to probe the spinor symmetry, solely using measurements of this superfluid current.
翻訳日:2023-02-16 16:54:51 公開日:2022-04-25
# 圧縮熱浴における不可逆性に関する幾何学的境界

Geometrical bounds on irreversibility in squeezed thermal bath ( http://arxiv.org/abs/2204.08260v3 )

ライセンス: Link先を確認
Chen-Juan Zou, Yue Li, Jia-Bin You, Qiong Chen, Wan-Li Yang, Mang Feng(参考訳) 非可逆エントロピー生成(IEP)は量子熱力学過程において重要な役割を果たす。 ここでは, 非平衡熱力学におけるIPPの幾何学的境界について, 散逸と脱落にともなう収縮熱浴に結合した系を例示することにより検討する。 iepの幾何学的境界は常に消散と消散の下で逆向きに変化しており、消散と消散の状況では下界と上界がより強固になる。 しかし, 消散条件や脱落条件下では, IEP自体の臨界時間と平衡に達する限界時間の両方を, IEPの値が熱力学的不可逆性の度合いを定量化するスクイーズ効果の利点を回収することによって減少させる可能性がある。 したがって、収縮した熱浴の非平衡性のため、システムバス相互作用エネルギーはIEPに顕著な影響をもたらし、その境界の厳密さをもたらす。 この結果は, 量子熱力学装置の性能を向上させるため, 浴槽のスクイーズを利用可能な資源とすることで熱力学の第2法則と矛盾しない。

Irreversible entropy production (IEP) plays an important role in quantum thermodynamic processes. Here we investigate the geometrical bounds of IEP in nonequilibrium thermodynamics by exemplifying a system coupled to a squeezed thermal bath subject to dissipation and dephasing, respectively. We find that the geometrical bounds of the IEP always shift in contrary way under dissipation and dephasing, where the lower and upper bounds turning to be tighter occurs in the situation of dephasing and dissipation, respectively. However, either under dissipation or under dephasing, we may reduce both the critical time of the IEP itself and the critical time of the bounds for reaching an equilibrium by harvesting the benefits of squeezing effects, in which the values of the IEP, quantifying the degree of thermodynamic irreversibility, also becomes smaller. Therefore, due to the nonequilibrium nature of the squeezed thermal bath, the system-bath interaction energy brings prominent impact on the IEP, leading to tightness of its bounds. Our results are not contradictory with the second law of thermodynamics by involving squeezing of the bath as an available resource, which can improve the performance of quantum thermodynamic devices.
翻訳日:2023-02-16 11:52:35 公開日:2022-04-25
# 反復可読状態、自発的崩壊、量子/古典境界

Repeatedly readable state, spontaneous collapse, and quantum/classical boundary ( http://arxiv.org/abs/2204.11656v1 )

ライセンス: Link先を確認
Xiao-Fu Peng, Yu-Hang Luo, Jiang Zhu, Bang-Hui Hua, Xue-Nan Chen, Dan-Dan Lian, Zi-Wei Chen, Xiang-Song Chen(参考訳) 量子/古典境界を同定するモデルを提案する。 このモデルは状態重ね合わせの自発的な崩壊をもたらす: $\frac{d}{dt} \rho_{ij} =-\frac{i}{\hbar}[h,\rho]_{ij}-\rho_{ij}/\tau_{ij}$。 他の崩壊モデルとは異なり、崩壊スケール $\tau_{ij}$ here は普遍パラメータを含まないが、2つの状態 $| i\rangle $ と $ | j\rangle$: 各状態が繰り返し読み取れる(qnd測定によって典型的に)ならば、$\tau_{ij}$ は2つの状態の判別に要する時間計測時間であり、崩壊は実際の監視なしで自然に発生する。 さもなくば、$\tau_{ij}=\infty$ は崩壊も永遠の重ね合わせもしないことを意味する。 これは、1つの状態が繰り返し可読性を持っていない場合や、2つの状態が特定の状況(例えばラビ振動)で区別できない場合に起こる。 詳細な分析によると、「トラップされたシュルダーの猫」に対して、$|{\rm here} \rangle$ と $| {\rm there} \rangle $ の重ね合わせは、$E D \gg 4\pi \hbar c$ が禁じられ、$E D \le 4\pi \hbar c$ が許される場合、$D$ はトラップ分離であり、$E$ はエネルギーギャップであり、$M v^2$ と推定される。 モデルはまた、$p\theta D\ge 8\hbar$, where $p=Mv$, $\theta $ が2つの軌道にまたがる角度であり、$D$ がスリット分離である場合、ダブルスリット干渉を表示するために "free Schr{\"o}dinger's cat" を制約する。 対照的に、このモデルは質量を持たない光子のコヒーレント長に制限を課さないため、ミシェルソン干渉計のアームは任意に長くなる。 提案する自発的崩壊は, 孤立したシステムにおいて発生し, 環境との相互作用によって引き起こされるデコヒーレンスを並列化する。

We propose a model to identify the quantum/classical boundary. The model introduces a spontaneous collapse of state superposition: $\frac{d}{dt} \rho_{ij} =-\frac{i}{\hbar}[H,\rho]_{ij}-\rho_{ij}/\tau_{ij}$. Different from other collapse models, the collapsing scale $\tau_{ij}$ here does not contain a universal parameter, but is specified by the two states $| i\rangle $ and $ | j\rangle$: If each state is {\em in principle} repeatedly readable (typically by a QND measurement), then $\tau_{ij}$ is the {\em potentially} needed measuring time to discriminate the two states, and the collapse occurs spontaneously {\em without} any actual monitoring. Otherwise, $\tau_{ij}=\infty$, which means no collapse and everlasting superposition. This happens if one state is not repeatedly readable, or if the two states cannot possibly be discriminated in a particular circumstance (for example in the Rabi oscillation). Detailed analysis shows that for a "trapped Schr{\"o}dinger's cat", the superposition of $|{\rm here} \rangle$ and $| {\rm there} \rangle $ is forbidden if $E D \gg 4\pi \hbar c$, and allowed if $E D \le 4\pi \hbar c$, where $D$ is the trap separation and $ E$ is the energy gap, which can be estimated with $ M v^2$. The model also constrains a "free Schr{\"o}dinger's cat" to display double-slit interference if $p\theta D\ge 8\hbar$, where $p= Mv$, $\theta $ is the angle spanned by the two trajectories, and $D$ is the slit separation. In contrast, this model sets no limit on the coherent length of massless photon, thus the arm of a Michelson interferometer can be arbitrarily long. The spontaneous collapse which we propose can occur for an isolated system, and parallels the decoherence induced by interaction with environment.
翻訳日:2023-02-15 18:02:12 公開日:2022-04-25
# 純粋量子チャネルの分極に基づく量子極安定化符号は、量子計算のための悪い安定化符号である

Quantum polar stabilizer codes based on polarization of pure quantum channel are bad stabilizer codes for quantum computing ( http://arxiv.org/abs/2204.11655v1 )

ライセンス: Link先を確認
Zhengzhong Yi, Zhipeng Liang, Xuan Wang(参考訳) 符号化速度がシャノン容量を漸近的に達成できる古典的な極性符号にインスパイアされた研究者たちは、量子極性符号と呼ばれる量子情報フィールドでその類似点を見つけようとしている。 一部の研究者は、古典的な極性符号化回路を直接量子化すると、量子コンピューティングに適用可能な量子極性符号化スキームを設計できる純粋量子チャネルの偏極現象が生じると考えている。 本稿では、この直観に従おうとし、量子コンピューティングのための量子極安定化符号のクラスを提案する。 残念ながら、シミュレーションの結果、古典的極性符号化回路を直接量子化することに基づくこの種の量子極性安定化符号は、量子コンピューティングにとって悪い安定化符号であることが示された。

Inspired by classical polar code, whose coding rate can asymptotically achieve the Shannon capacity, researchers are trying to find its analogue in quantum information field, which is called quantum polar code. Some researchers believe that directly quantizing classical polar coding circuits will produce polarization phenomenon of pure quantum channel, based on which we can design a quantum polar coding scheme that applies to quantum computing. In this paper, we try to follow this intuition and propose a class of quantum polar stabilizer codes for quantum computing. Unfortunately, simulation results shows that this kind of quantum polar stabilizer codes directly based on quantizing classical polar coding circuits are bad stabilizer codes for quantum computing.
翻訳日:2023-02-15 18:01:19 公開日:2022-04-25
# 量子状態準備とトモグラフィのためのユニバーサルコンパイル

Universal compilation for quantum state preparation and tomography ( http://arxiv.org/abs/2204.11635v1 )

ライセンス: Link先を確認
Vu Tuan Hai and Le Bin Ho(参考訳) ユニバーサルコンパイル(universal compilation)は、トレーニング可能なユニタリをターゲットユニタリにコンパイルするトレーニングプロセスであり、量子力学シミュレーションから、ディープ圧縮、デバイスベンチマーク、量子エラー緩和といった最適な回路に至るまで、幅広い潜在的な応用を提供する。 本稿では,低深度量子回路における量子状態の準備とトモグラフィのための普遍的なコンパイルに基づく変分アルゴリズムを提案する。 フビニ-スタディ距離を、量子自然勾配法を含む様々な勾配に基づく最適化器の下で訓練可能なコスト関数として適用する。 我々は,様々なユニタリトポロジの性能と異なるオプティマイザのトレーサ性を評価し,高効率化を行う。 実際には、GHZやW状態などの異なる絡み合うターゲット状態を作成するための線形およびグラフベースのアンサーゼを含む、量子状態の準備において異なる回路アンサーゼに対処する。 また,回路深度,バレン高原,モデルにおける読み出し雑音,誤差軽減ソリューションの効果についても検討した。 次に, 量子状態トモグラフィの再構成効率を, 様々な人気回路アンサーゼを用いて評価し, 堅牢性における回路深度の重要性を明らかにする。 結果はシャドウトモグラフィー法に匹敵するものであり、この分野でも同様の手法である。 本研究は,量子状態形成とトモグラフィの効率を最大化するために,ユニバーサルコンパイルに基づく変分アルゴリズムの十分な能力を示す。 さらに、量子計測やセンシングの応用を約束し、回路の忠実性や様々な量子計算タスクの検証のために、短期量子コンピュータに適用できる。

Universal compilation is a training process that compiles a trainable unitary into a target unitary and it serves vast potential applications from quantum dynamic simulations to optimal circuits with deep-compressing, device benchmarking, quantum error mitigation, and so on. Here, we propose a universal compilation-based variational algorithm for the preparation and tomography of quantum states in low-depth quantum circuits. We apply the Fubini-Study distance to be a trainable cost function under various gradient-based optimizers, including the quantum natural gradient approach. We evaluate the performance of various unitary topologies and the trainability of different optimizers for getting high efficiency. In practice, we address different circuit ansatzes in quantum state preparation, including the linear and graph-based ansatzes for preparing different entanglement target states such as representative GHZ and W states. We also discuss the effect of the circuit depth, barren plateau, readout noise in the model, and the error mitigation solution. We next evaluate the reconstructing efficiency in quantum state tomography via various popular circuit ansatzes and reveal the crucial role of the circuit depth in the robust fidelity. The results are comparable with the shadow tomography method, a similar fashion in the field. Our work expresses the adequate capacity of the universal compilation-based variational algorithm to maximize the efficiency in the quantum state preparation and tomography. Further, it promises applications in quantum metrology and sensing and is applicable in the near-term quantum computers for verification of the circuits fidelity and various quantum computing tasks.
翻訳日:2023-02-15 18:01:07 公開日:2022-04-25
# よく知られているものの機械学習

Machine learning of the well known things ( http://arxiv.org/abs/2204.11613v1 )

ライセンス: Link先を確認
V.Dolotin, A.Morozov, A.Popolitov(参考訳) 機械学習(ML)の現在の形式は、あらゆる問題に対する答えが、非常に特異な形式の関数(ヘビーサイドのテータ関数の特別に調整された反復)によってうまく近似できることを意味している。 私たちがすでに知っている質問に対する答えが、この形式で自然に表現できるかどうかを問うのは自然です。 我々は、これが実際に可能であるという初等的で、まだ明らかでない例を提供し、ML一貫性のある方法で既存の知識を体系的に再構築することを提案する。 これらの試みの成功または失敗は、科学と認識学の両方の様々な問題に光を当てることができる。

Machine learning (ML) in its current form implies that an answer to any problem can be well approximated by a function of a very peculiar form: a specially adjusted iteration of Heavyside theta-functions. It is natural to ask if the answers to the questions, which we already know, can be naturally represented in this form. We provide elementary, still non-evident examples that this is indeed possible, and suggest to look for a systematic reformulation of existing knowledge in a ML-consistent way. Success or a failure of these attempts can shed light on a variety of problems, both scientific and epistemological.
翻訳日:2023-02-15 18:00:41 公開日:2022-04-25
# 分解に基づく指向性問題に対する深層強化学習

Deep Reinforcement Learning for Orienteering Problems Based on Decomposition ( http://arxiv.org/abs/2204.11575v1 )

ライセンス: Link先を確認
Wei Liu, Tao Zhang, Rui Wang, Kaiwen Li, Wenhua Li, and Kang Yang(参考訳) そこで本論文では,knapsack problem (KP) と travel salesman problem (TSP) の2つに分割することで,OP(Orienteering problem) の解法を提案する。 KPソルバはノードの選択に責任を持ち、TSPソルバは適切なパスを設計し、制約違反を判断するKPソルバを支援する。 制約に対処するため,両集団共進化アルゴリズム(DPCA)をKPソルバとして提案する。 動的ポインタネットワーク(DYPN)はTSPソルバとして導入され、都市の位置を入力として取り、即座にノードの置換を出力する。 このモデルは強化学習によって訓練され、与えられた問題の構造的パターンと動的パターンの両方を捉えることができる。 モデルは、異なるスケールと分布を持つ他のインスタンスに一般化することができる。 実験の結果,提案手法は,訓練,推論,一般化能力において従来の手法よりも優れていた。

This paper presents a new method for solving an orienteering problem (OP) by breaking it down into two parts: a knapsack problem (KP) and a traveling salesman problem (TSP). A KP solver is responsible for picking nodes, while a TSP solver is responsible for designing the proper path and assisting the KP solver in judging constraint violations. To address constraints, we propose a dual-population coevolutionary algorithm (DPCA) as the KP solver, which simultaneously maintains both feasible and infeasible populations. A dynamic pointer network (DYPN) is introduced as the TSP solver, which takes city locations as inputs and immediately outputs a permutation of nodes. The model, which is trained by reinforcement learning, can capture both the structural and dynamic patterns of the given problem. The model can generalize to other instances with different scales and distributions. Experimental results show that the proposed algorithm can outperform conventional approaches in terms of training, inference, and generalization ability.
翻訳日:2023-02-15 18:00:33 公開日:2022-04-25
# 量子ステアリングによるウィグナー負性率の遠隔生成実験

Experimental demonstration of remotely creating Wigner negativity via quantum steering ( http://arxiv.org/abs/2204.11552v1 )

ライセンス: Link先を確認
Shuheng Liu, Dongmei Han, Na Wang, Yu Xiang, Fengxiao Sun, Meihong Wang, Zhongzhong Qin, Qihuang Gong, Xiaolong Su and Qiongyi He(参考訳) ウィグナーネガティビティを持つ非ガウス状態は、量子コンピューティングや量子メトロロジーにおける潜在的な応用のために量子技術に特に興味を持つ。 しかし、遠隔地でのそのような状態の作り方は依然として課題であり、ネットワーク内の遠隔ノード間で量子リソースを効率的に分配する上で重要である。 本稿では,局所的非ガウシアン演算と共有ガウシアン絡み状態の量子ステアリングにより,遠隔ノードに負のウィグナー関数を持つ光学的非ガウシアン状態を生成する。 1つのモードで光子サブトラクションを行うことにより、リモートターゲットモードでウィグナー負性性を生成する。 Wignerの負性率は目標モードの損失に敏感であるが,光子サブトラクションを行うモードの損失に頑健であることを示す。 この実験では、遠隔生成したウィグナーネガティビティと量子ステアリングの関連性を確認した。 応用として、生成した非ガウス状態が量子位相推定におけるメートルロジカルパワーを示すことを示す。

Non-Gaussian states with Wigner negativity are of particular interest in quantum technology due to their potential applications in quantum computing and quantum metrology. However, how to create such states at a remote location remains a challenge, which is important for efficiently distributing quantum resource between distant nodes in a network. Here, we experimentally prepare optical non-Gaussian state with negative Wigner function at a remote node via local non-Gaussian operation and shared Gaussian entangled state existing quantum steering. By performing photon subtraction on one mode, Wigner negativity is created in the remote target mode. We show that the Wigner negativity is sensitive to loss on the target mode, but robust to loss on the mode performing photon subtraction. This experiment confirms the connection between the remotely created Wigner negativity and quantum steering. As an application, we present that the generated non-Gaussian state exhibits metrological power in quantum phase estimation.
翻訳日:2023-02-15 18:00:16 公開日:2022-04-25
# SELECTOR:再現可能な統計的比較のための代表ベンチマークスイートの選択

SELECTOR: Selecting a Representative Benchmark Suite for Reproducible Statistical Comparison ( http://arxiv.org/abs/2204.11527v1 )

ライセンス: Link先を確認
Gjorgjina Cenikj, Ryan Dieter Lang, Andries Petrus Engelbrecht, Carola Doerr, Peter Koro\v{s}ec and Tome Eftimov(参考訳) 公正なアルゴリズム評価は、非冗長で典型的な最適化シナリオを代表する高品質なベンチマークデータセットの存在を条件としている。 本稿では,ロバストな統計アルゴリズムの性能解析を実現するために,最適化アルゴリズムの比較にかかわる様々な問題インスタンスを選択するための3つのヒューリスティックスを評価する。 最初のアプローチでは、類似した問題インスタンスのグループを特定するクラスタリングと、それに続く各クラスタからのサンプリングを使用して新しいベンチマークを構築し、他の2つのアプローチではグラフアルゴリズムを使用してノードの最大独立セットを識別する。 本稿では,最もよく使用される最適化ベンチマークの5つに対して,3つの最適化アルゴリズムからなる5つのポートフォリオの統計的性能解析を行うことにより,提案手法の適用性を示す。 その結果、各ベンチマークで別々に実施したアルゴリズムの性能の統計的分析は相反する結果をもたらし、あるアルゴリズムが他のアルゴリズムよりも優れているという誤った兆候を与えることができる。 一方,提案するヒューリスティックスを用いて選択した問題事例について分析を行った場合,統計的結果がロバストで一貫したものとなる。

Fair algorithm evaluation is conditioned on the existence of high-quality benchmark datasets that are non-redundant and are representative of typical optimization scenarios. In this paper, we evaluate three heuristics for selecting diverse problem instances which should be involved in the comparison of optimization algorithms in order to ensure robust statistical algorithm performance analysis. The first approach employs clustering to identify similar groups of problem instances and subsequent sampling from each cluster to construct new benchmarks, while the other two approaches use graph algorithms for identifying dominating and maximal independent sets of nodes. We demonstrate the applicability of the proposed heuristics by performing a statistical performance analysis of five portfolios consisting of three optimization algorithms on five of the most commonly used optimization benchmarks. The results indicate that the statistical analyses of the algorithms' performance, conducted on each benchmark separately, produce conflicting outcomes, which can be used to give a false indication of the superiority of one algorithm over another. On the other hand, when the analysis is conducted on the problem instances selected with the proposed heuristics, which uniformly cover the problem landscape, the statistical outcomes are robust and consistent.
翻訳日:2023-02-15 17:59:59 公開日:2022-04-25
# 無シグナリングから量子状態へ

From no-signalling to quantum states ( http://arxiv.org/abs/2204.11471v1 )

ライセンス: Link先を確認
Markus Frembs, Andreas D\"oring(参考訳) 物理原理から量子相関を特徴づけることは、量子情報理論の分野における中心的な問題である。 絡み合いはベルの定理による相関の境界を破り、局所因果性の概念を物理的原理として異議を唱える。 自然な緩和は、共同確率分布の制約として無符号の研究である。 いわゆる局所量子観測可能性に関して考えると、二成分非符号相関は量子観測値を超えることはないことが示されているが、そのような相関は一般に量子状態から導かれるものではない。 これにより、局所量子観測可能値上の(符号なしの)より大きな共同確率分布の集合内の量子状態を特定する追加の原理の探索が開かれる。 ここでは、拡張系に対する非摂動という形での非シグナリングの自然な一般化を提案する。 この拡張を満たす非シグナリング結合確率分布は、サブシステムにおける時間配向の選択までの二部量子状態に対応する。

Characterising quantum correlations from physical principles is a central problem in the field of quantum information theory. Entanglement breaks bounds on correlations put by Bell's theorem, thus challenging the notion of local causality as a physical principle. A natural relaxation is to study no-signalling as a constraint on joint probability distributions. It has been shown that when considered with respect to so-called locally quantum observables, bipartite non-signalling correlations never exceed their quantum counterparts; still, such correlations generally do not derive from quantum states. This leaves open the search for additional principles which identify quantum states within the larger set of (collections of) non-signalling joint probability distributions over locally quantum observables. Here, we suggest a natural generalisation of no-signalling in the form of no-disturbance to dilated systems. We prove that non-signalling joint probability distributions satisfying this extension correspond with bipartite quantum states up to a choice of time orientation in subsystems.
翻訳日:2023-02-15 17:59:41 公開日:2022-04-25
# Si中の1つの$^{167}Er^{3+}=イオンのゼーマン相互作用と超微細相互作用

The Zeeman and hyperfine interactions of a single $^{167}Er^{3+}$ ion in Si ( http://arxiv.org/abs/2204.11416v1 )

ライセンス: Link先を確認
Jiliang Yang, Wenda Fan, Yangbo Zhang, Changkui Duan, Gabriele G. de Boo, Rose L. Ahlefeldt, Jevon J. Longdell, Brett C. Johnson, Jeffrey C. McCallum, Matthew J. Sellars, Sven Rogge, Chunming Yin, and Jiangfeng Du(参考訳) erドープsiは、通信波長の光遷移とsiナノファブリケーション技術との互換性のため、量子情報応用に有望な候補である。 フォトルミネッセンス励起に基づく近年の分光学的研究では、ErがSiに占める複数の明確に定義された格子サイトが示されている。 ここでは、Si中の1つの167Er3+イオンのゼーマンと超微細テンソルを初めて測定する。 得られたテンソルは全て異方性が高く、最も大きな主軸がほぼ同じ方向に配向しており、最も低い結晶場レベルのg-テンソルの痕跡は17.78$\pm$0.40である。 この結果は、この特定のErサイトが、モノクリニック(C1)対称性を示す歪んだ立方体サイトであることを示している。 最後に、ゼロ一階ゼーマン場(zefoz)が同定され、将来の実験で超微粒子スピン状態の非一貫性を低減できる。

Er-doped Si is a promising candidate for quantum information applications due to its telecom wavelength optical transition and its compatibility with Si nanofabrication technologies. Recent spectroscopic studies based on photoluminescence excitation have shown multiple well-defined lattice sites that Er occupies in Si. Here we report the first measurement of the Zeeman and hyperfine tensors of a single 167Er3+ ion in Si. All the obtained tensors are highly anisotropic with the largest value principal axes aligning in nearly the same direction, and the trace of the lowest crystal field level g-tensor is 17.78$\pm$0.40. The results indicate that this specific Er site is likely to be a distorted cubic site that exhibits monoclinic (C1) symmetry. Finally, zero first-order-Zeeman (ZEFOZ) fields are identified for this site and could be used to reduce decoherence of hyperfine spin states in future experiments.
翻訳日:2023-02-15 17:59:27 公開日:2022-04-25
# スピン圧縮原子アンサンブルによる量子超越性

Quantum supremacy with spin squeezed atomic ensembles ( http://arxiv.org/abs/2204.11772v1 )

ライセンス: Link先を確認
Yueheng Shi, Junheng Shi, Tim Byrnes(参考訳) 本稿では,量子ビットのアンサンブルを用いて,スピンスクイージング,基底回転,フォック状態計測のみを用いて量子超越性を実現する手法を提案する。 各アンサンブルは全スピンのみで制御可能であると仮定される。 乱数基底回転を繰り返した列を用いて、最終的な測定値の確率分布がポーター・トーマス分布に素早く近づくことを示す。 サンプリング確率は、(N+1)^M$、$N$はアンサンブル中の量子ビットの数、$M$はアンサンブルの数である。 このスキームは熱い原子アンサンブルや冷たい原子アンサンブルで実装することができる。 典型的な原子アンサンブルの原子数が多ければ多いため、量子超越状態にアクセスでき、わずかな数のアンサンブルやゲート深さを持つことができる。

We propose a method to achieve quantum supremacy using ensembles of qubits, using only spin squeezing, basis rotations, and Fock state measurements. Each ensemble is assumed to be controllable only with its total spin. Using a repeated sequence of random basis rotations followed by squeezing, we show that the probability distribution of the final measurements quickly approaches a Porter-Thomas distribution. We show that the sampling probability can be related to a #P-hard problem with a complexity scaling as $(N+1)^M$, where $N$ is the number of qubits in an ensemble and $ M $ is the number of ensembles. The scheme can be implemented with hot or cold atomic ensembles. Due to the large number of atoms in typical atomic ensembles, this allows access to the quantum supremacy regime with a modest number of ensembles or gate depth.
翻訳日:2023-02-15 17:51:42 公開日:2022-04-25
# 進化のないハイゼンベルク・ピクチャー進化

Heisenberg-picture evolution without evolution ( http://arxiv.org/abs/2204.11740v1 )

ライセンス: Link先を確認
Simone Rijavec(参考訳) エレガントなモデルとして、page and wootters (page and wootters, 1983) は、時間のない量子宇宙において、サブシステム間の絡み合いを通じて時間がどのように現れるかを示した。 進化のない進化」のためのページウーターモデルは、通常シュル=オディンガーの図や時間の量子性を隠す他の方法で定式化される。 本研究では,Heisenberg 画像のモデルについて,Schr\"odinger 画像バージョンから定式化する。 これは、すべての絡み合いを宇宙の状態ベクトルから作用素に転送することで達成される。 この定式化では、オブザーバブルはクロック演算子の関数となり、時間の量子性を明確にする。 古典的時間パラメータの観点からの観測変数の通常のハイゼンベルク進化は、リレーショナルな方法で回復することができる。 また、宇宙の混合状態を含むようにモデルを拡張し、これらの結果をいくつかの単純なシナリオに適用します。

In an elegant model, Page and Wootters (Page and Wootters, 1983) showed how time can emerge in a timeless quantum universe through the entanglement between its subsystems. The Page-Wootters model for an "evolution without evolution" is usually formulated in the Schr\"odinger picture or in other ways that hide the quantum nature of time. In this work, I formulate the model in the Heisenberg picture starting from its Schr\"odinger picture version. This is achieved by transferring all the entanglement from the state vector of the universe to the operators. In this formulation, the observables become functions of a clock operator, thus making explicit the quantum nature of time. The usual Heisenberg evolution of the observables in terms of a classical time parameter can be recovered in a relational way. I also extend the model to include mixed states of the universe and apply these results to some simple scenarios.
翻訳日:2023-02-15 17:51:27 公開日:2022-04-25
# 量子ドット単一光子源による量子暗号の強化

Enhancing quantum cryptography with quantum dot single-photon sources ( http://arxiv.org/abs/2204.11734v1 )

ライセンス: Link先を確認
Mathieu Bozzio, Michal Vyvlecka, Michael Cosacchi, Cornelius Nawrath, Tim Seidelmann, Juan Carlos Loredo, Simone Luca Portalupi, Vollrath Martin Axt, Peter Michler, Philip Walther(参考訳) 量子暗号は量子光、特に単一光子を利用して、古典的手法では到達できないセキュリティ保証を提供する。 各暗号処理において、興味のあるセキュリティ機能は光子の非古典的特性に直接関連している。 量子ドットベースの単一光子源は、理論的に高い輝度と低い多光子寄与を持つため、顕著な候補である。 ここでは、光子数状態のコヒーレンスのチューニング性により、これらのソースがさらなるセキュリティ上の利点をもたらすことを示す。 混合状態またはコヒーレント状態を生成することにより、多くの量子暗号アプリケーションの性能が向上する。 主量子暗号プリミティブに対する最適光ポンピングスキームを同定し、減衰レーザ状態やダウンコンバージョン源といったポアソン分布源の性能をベンチマークする。 提示された結果は、量子通信タスクに合わせた光子源のための固体および量子情報科学の将来の発展を導く。

Quantum cryptography harnesses quantum light, in particular single photons, to provide security guarantees that cannot be reached by classical means. For each cryptographic task, the security feature of interest is directly related to the photons' non-classical properties. Quantum dot-based single-photon sources are remarkable candidates, as they can in principle emit deterministically, with high brightness and low multiphoton contribution. Here, we show that these sources provide additional security benefits, thanks to the tunability of coherence in the emitted photon-number states. Generating either mixed or coherent states of light allows for enhanced performance of many quantum cryptography applications. We identify the optimal optical pumping scheme for the main quantum-cryptographic primitives, and benchmark their performance with respect to Poisson-distributed sources such as attenuated laser states and down-conversion sources. The presented results will guide future developments in solid-state and quantum information science for photon sources that are tailored to quantum communication tasks.
翻訳日:2023-02-15 17:51:10 公開日:2022-04-25
# 量子論における電磁ポテンシャルの意義」へのコメント

Comment on the "Significance of Electromagnetic Potentials in the Quantum Theory" ( http://arxiv.org/abs/2204.11721v1 )

ライセンス: Link先を確認
Siddhant Das(参考訳) Aharonov and D. Bohm, Phys. Rev. 115, 485 (1959)] で得られた半整数磁束に対する波動関数の欠損角度依存性のプレファクタが供給され、その結果は単値ではない。 論文の物理的結論は影響を受けない。

A missing angle-dependent prefactor in the wave functions for half-integer magnetic flux obtained in [Y. Aharonov and D. Bohm, Phys. Rev. 115, 485 (1959)] is supplied, without which the result is not single-valued. No physical conclusions of the paper are affected.
翻訳日:2023-02-15 17:50:22 公開日:2022-04-25
# 大規模量子図式推論ツール! -ボックス対スケーラブル表記法

Large-scale quantum diagrammatic reasoning tools, !-boxes vs. scalable notations ( http://arxiv.org/abs/2204.11702v1 )

ライセンス: Link先を確認
Titouan Carette and Louis Lemonnier(参考訳) ダイアグラム推論技術の大規模量子プロセスへの応用には、任意の大きさのダイアグラムの族を記述するための特定のツールが必要である。 今のところ、ZH-calculusの大規模図式推論ツールは2つあります。 -ボックスとスケーラブルな表記法。 本稿では,この2つのアプローチ間の相互作用を文献からの様々な例を通して,(ハイパー)グラフ状態と図式変換に焦点をあてて検討する。 そうすることで、私たちは、きれいで整然とした図式的な推論ツールボックスに向かう道を設定しました。

The application of diagrammatic reasoning techniques to large-scale quantum processes needs specific tools to describe families of diagrams of arbitrary size. For now, large-scale diagrammatic reasoning tools in ZH-calculus come in two flavours, !-boxes and scalable notations. This paper investigates the interactions between the two approaches by exhibiting correspondences through various examples from the literature, focusing on (hyper)graph states and diagrammatic transforms. In doing so, we set up a path toward a neat and tidy large-scale diagrammatic reasoning toolbox.
翻訳日:2023-02-15 17:50:14 公開日:2022-04-25
# 無バイアス測定, アダマール行列および超高密度符号化

Mutually Unbiased Measurements, Hadamard Matrices, and Superdense Coding ( http://arxiv.org/abs/2204.11886v1 )

ライセンス: Link先を確認
M\'at\'e Farkas, J\k{e}drzej Kaniewski, Ashwin Nayak(参考訳) 相互非バイアス基底(MUB)は複素ヒルベルト空間上の高度対称基底であり、対応するランク-1射影測度は量子情報理論においてユビキタスである。 本研究では,最近導入されたmubの一般化である相互非バイアス測定(mums)について検討する。 これらの測定はmubから相補性の本質的性質を継承するが、ヒルベルト空間次元は結果の数に合致する必要がない。 この操作的相補性により、MUMはデバイス非依存の量子情報処理に非常に有用である。 MUM は MUB よりも厳密に一般であることが示されている。 本研究では, MUB の直和である MUM のキャラクタリゼーションの完全証明を提供する。 次に, MUB の直和ではない MUM の新たな例を構築する。 これらの構成において重要な技術的ツールは四元数アダマール行列との対応であり、これらの行列の既知の例を MUB の直接和ではない MUM にマッピングすることができる。 さらに, MUB とは対照的に, 固定結果数に対する MUM の数は非有界であることを示す。 次に、量子通信におけるMUMの利用に焦点を当てる。 D 結果を持つ任意の MUM 対が、どのように d 次元超実数符号化プロトコルを定義するかを示す。 MUB の直和ではない MUM を用いて、無限次元の超デンス符号化の剛性について、Nayak と Yuen による最近の予想を反証する。

Mutually unbiased bases (MUBs) are highly symmetric bases on complex Hilbert spaces, and the corresponding rank-1 projective measurements are ubiquitous in quantum information theory. In this work, we study a recently introduced generalization of MUBs called mutually unbiased measurements (MUMs). These measurements inherit the essential property of complementarity from MUBs, but the Hilbert space dimension is no longer required to match the number of outcomes. This operational complementarity property renders MUMs highly useful for device-independent quantum information processing. It has been shown that MUMs are strictly more general than MUBs. In this work we provide a complete proof of the characterization of MUMs that are direct sums of MUBs. We then proceed to construct new examples of MUMs that are not direct sums of MUBs. A crucial technical tool for these construction is a correspondence with quaternionic Hadamard matrices, which allows us to map known examples of such matrices to MUMs that are not direct sums of MUBs. Furthermore, we show that -- in stark contrast with MUBs -- the number of MUMs for a fixed outcome number is unbounded. Next, we focus on the use of MUMs in quantum communication. We demonstrate how any pair of MUMs with d outcomes defines a d-dimensional superdense coding protocol. Using MUMs that are not direct sums of MUBs, we disprove a recent conjecture due to Nayak and Yuen on the rigidity of superdense coding for infinitely many dimensions.
翻訳日:2023-02-15 17:43:36 公開日:2022-04-25
# 量子論における非線形状態依存項の実験的極限

Experimental limit on non-linear state-dependent terms in quantum theory ( http://arxiv.org/abs/2204.11875v1 )

ライセンス: Link先を確認
Mark Polkovnikov, Alexander V. Gramolin, David E. Kaplan, Surjeet Rajendran, Alexander O. Sushkov(参考訳) 量子場理論における因果的非線形状態依存項を探索する実験の結果を報告する。 提案手法は,コヒーレント重ね合わせ状態で作製された量子ビットの射影測定結果と,二成分系マクロ古典電圧の相関関係を示す。 測定結果は、電圧スイッチを制御するために使用されるビット列に記録される。 印加電圧がない場合の非ゼロ電圧読み出しの存在は、電磁界演算子の非線形状態依存シフトの実験的なシグネチャである。 3つの制御ビット列によるブラインド計測とデータ解析を実装した。 古典的ランダムビット発生器を用いて制御ビット列の1つを生成することにより、系統的効果の制御を実現する。 他の2つのビット列は、IBM量子プロセッサの超共役量子ビット、およびダイヤモンドのNV中心の$^{15}$N核スピンで実行される測定によって生成される。 我々の測定では、電磁量子状態依存的な非線形性を示す証拠は見つからない。 この非線形性 $|\epsilon_{\gamma}|<4.7\times 10^{-11}$ を90%の信頼レベルで定量化するパラメータにバウンドを設定した。 量子論のエベレット多世界解釈において、我々の測定は、量子ビットを重ね合わせ状態で準備することによって作成された、宇宙の異なる分枝間の電磁的相互作用に限界を与える。

We report the results of an experiment that searches for causal non-linear state-dependent terms in quantum field theory. Our approach correlates a binary macroscopic classical voltage with the outcome of a projective measurement of a quantum bit, prepared in a coherent superposition state. Measurement results are recorded in a bit string, which is used to control a voltage switch. Presence of a non-zero voltage reading in cases of no applied voltage is the experimental signature of a non-linear state-dependent shift of the electromagnetic field operator. We implement blinded measurement and data analysis with three control bit strings. Control of systematic effects is realized by producing one of the control bit strings with a classical random-bit generator. The other two bit strings are generated by measurements performed on a superconduting qubit in an IBM Quantum processor, and on a $^{15}$N nuclear spin in an NV center in diamond. Our measurements find no evidence for electromagnetic quantum state-dependent non-linearity. We set a bound on the parameter that quantifies this non-linearity $|\epsilon_{\gamma}|<4.7\times 10^{-11}$, at 90% confidence level. Within the Everett many-worlds interpretation of quantum theory, our measurements place limits on the electromagnetic interaction between different branches of the universe, created by preparing the qubit in a superposition state.
翻訳日:2023-02-15 17:43:12 公開日:2022-04-25
# 2フラクソニウムクロス共振ゲートの実証

Demonstration of the Two-Fluxonium Cross-Resonance Gate ( http://arxiv.org/abs/2204.11829v1 )

ライセンス: Link先を確認
Ebru Dogan, Dario Rosenstock, Lo\"ick Le Guevel, Haonan Xiong, Raymond A. Mencia, Aaron Somoroff, Konstantin N. Nesterov, Maxim G. Vavilov, Vladimir E. Manucharyan, and Chen Wang(参考訳) 超伝導フラクトニウム量子ビットは、長いコヒーレンス時間と半フラックス量子スイートスポットでの強い無調和性を持つ高忠実量子ゲートに対して大きなポテンシャルを持つ。 しかし、現在の2量子ビットゲートの実装は、非計算状態の一時的な集団を必要とするか、スイートスポットから磁束を調整することによって、フラックスニウムのコヒーレンス特性を損なう。 ここでは、量子ビット力学を計算空間に限定した2つの容量結合フラクソニウム間の高速全マイクロ波クロス共振ゲートを実現する。 準最適測定設定とデバイスコヒーレンスが制限されているにもかかわらず、70 ns の直接cnotゲートを $\mathcal{f}=0.9949(6)$ で示す。 その結果,現在の技術で2ビット誤り率を10〜4ドル以下に抑えることができる可能性が示唆された。

The superconducting fluxonium qubit has a great potential for high-fidelity quantum gates with its long coherence times and strong anharmonicity at the half flux quantum sweet spot. However, current implementations of two-qubit gates compromise fluxonium's coherence properties by requiring either a temporary population of the non-computational states or tuning the magnetic flux off the sweet spot. Here we realize a fast all-microwave cross-resonance gate between two capacitively-coupled fluxoniums with the qubit dynamics well confined to the computational space. We demonstrate a direct CNOT gate in 70 ns with fidelity up to $\mathcal{F}=0.9949(6)$ despite the limitations of a sub-optimal measurement setup and device coherence. Our results project a possible pathway towards reducing the two-qubit error rate below $10^{-4}$ with present-day technologies.
翻訳日:2023-02-15 17:42:48 公開日:2022-04-25
# 逆アニールによるマルチAGVルーティングの走行時間最適化

Travel time optimization on multi-AGV routing by reverse annealing ( http://arxiv.org/abs/2204.11789v1 )

ライセンス: Link先を確認
Renichiro Haba, Masayuki Ohzeki and Kazuyuki Tanaka(参考訳) D-Wave Systemsが2011年に最初の商用マシンを製造して以来、量子アニールの研究は活発に行われている。 多数の自動誘導車両を制御することは、量子アニールを利用した現実世界の応用の1つである。 本研究では,移動時間を最小限に抑えるための経路制御のための定式化を提案する。 我々は,仮想プラントにおけるシミュレーションによる定式化を検証し,全体的な遠心距離を考慮しない欲求アルゴリズムと比較して,高速分布の有効性を検証した。 さらに,d波量子アニーラの利点を最大化するために逆アニーリングを利用する。 高速グリーディアルゴリズムによって得られる比較的良い解から、逆アニールはそれらの周りのより良い解を求める。 この逆アニーリング法は,標準量子アニーリングよりも性能が向上し,強力な古典的解法であるgurobiよりも最大10倍高速である。 本研究は, マルチAGVシステムの応用における一般問題解法による最適化を拡張し, 最適化器としての逆アニーリングの可能性を明らかにする。

Quantum annealing has been actively researched since D-Wave Systems produced the first commercial machine in 2011. Controlling a large fleet of automated guided vehicles is one of the real-world applications utilizing quantum annealing. In this study, we propose a formulation to control the traveling routes to minimize the travel time. We validate our formulation through simulation in a virtual plant and authenticate the effectiveness for faster distribution compared to a greedy algorithm that does not consider the overall detour distance. Furthermore, we utilize reverse annealing to maximize the advantage of the D-Wave's quantum annealer. Starting from relatively good solutions obtained by a fast greedy algorithm, reverse annealing searches for better solutions around them. Our reverse annealing method improves the performance compared to standard quantum annealing alone and performs up to 10 times faster than the strong classical solver, Gurobi. This study extends a use of optimization with general problem solvers in the application of multi-AGV systems and reveals the potential of reverse annealing as an optimizer.
翻訳日:2023-02-15 17:41:24 公開日:2022-04-25
# LOv-Calculus:線形光量子回路のためのグラフィカル言語

LOv-Calculus: A Graphical Language for Linear Optical Quantum Circuits ( http://arxiv.org/abs/2204.11787v1 )

ライセンス: Link先を確認
Alexandre Cl\'ement, Nicolas Heurtel, Shane Mansfield, Simon Perdrix, Beno\^it Valiron(参考訳) 真空状態補助入力と呼ばれる線形光量子回路を推論するためのグラフィカル言語lov-calculusを紹介する。 2つのlov-circuitが同じ量子過程を表しているのは、一方がlov-calculusの規則で他方に変換できる場合に限りである。 線形光量子回路に対するreck et al.(1994)の普遍的分解に触発されて、任意の偏光保存型lov回路を一意な三角形正規形に書き換える合流・終端リライトシステムを与える。

We introduce the LOv-calculus, a graphical language for reasoning about linear optical quantum circuits with so-called vacuum state auxiliary inputs. We present the axiomatics of the language and prove its soundness and completeness: two LOv-circuits represent the same quantum process if and only if one can be transformed into the other with the rules of the LOv-calculus. We give a confluent and terminating rewrite system to rewrite any polarisation-preserving LOv-circuit into a unique triangular normal form, inspired by the universal decomposition of Reck et al. (1994) for linear optical quantum circuits.
翻訳日:2023-02-15 17:41:08 公開日:2022-04-25
# 多状態非可積分モデルにおけるlandau-zener遷移の確率に及ぼす最終状態の崩壊の影響

Effect of decay of the final states on the probabilities of the Landau-Zener transitions in multistate non-integrable models ( http://arxiv.org/abs/2204.11782v1 )

ライセンス: Link先を確認
Rajesh K. Malla and M. E. Raikh(参考訳) 2段階系のランダウ・ツェナー遷移の場合、まず第一段階の粒子が遷移を生き延びて第一段階にとどまる確率は、第二段階が拡大されるか否かに依存しない(v)。 M. Akulin と W. P. Schleicht, Phys A {\displaystyle A} 46}, 4110 (1992)]. 言い換えれば、senal landau-zenerの結果は、第2レベルの拡大にかかわらず適用される。 本論文では,多状態ランドウ-ツェナー遷移の課題について述べる。 仮想経路の干渉を伴わない可積分多状態モデルでは、拡張の独立性は持続すると主張することができるが、干渉を含む非可積分モデルに焦点を当てる。 解析的な処理を可能にする単純な4状態モデルでは、励起状態の減衰が生存確率に影響を与えることを証明し、最終状態の幅が異なることを示した。

For a Landau-Zener transition in a two-level system, the probability for a particle, initially in the first level, to survive the transition and to remain in the first level, does not depend on whether or not the second level is broadened [V. M. Akulin and W. P. Schleicht, Phys. Rev. A {\bf 46}, 4110 (1992)]. In other words, the seminal Landau-Zener result applies regardless of the broadening of the second level. The same question for the multistate Landau-Zener transition is addressed in the present paper. While for integrable multistate models, where the transition does not involve interference of the virtual paths, it can be argued that the independence of the broadening persists, we focus on non-integrable models involving interference. For a simple four-state model, which allows an analytical treatment, we demonstrate that the decay of the excited states affects the survival probability provided that {\em the widths of the final states are different}.
翻訳日:2023-02-15 17:40:57 公開日:2022-04-25
# 遺伝的アルゴリズムを用いた水中音響センサネットワークのエネルギー効率向上

Energy Efficient Routing For Underwater Acoustic Sensor Network Using Genetic Algorithm ( http://arxiv.org/abs/2207.00416v1 )

ライセンス: Link先を確認
Arjun Prasad Chaurasiya, Roshan Sah, Dr.V.Sivakumar(参考訳) 水中音響センサネットワーク(UWASN)では、エネルギー信頼性の高いデータ伝送は難しい課題である。 これは、過大なノイズ、非常に長い伝搬遅延、高いビット誤り率、帯域幅の制限、干渉による音響伝達の乱れによるものである。 研究におけるUWASNの最も重要な課題の1つは、データ伝送の寿命を延ばす方法である。 UWASNのソースノードから宛先ノードへのデータ転送は、研究者にとって複雑なトピックである。 ベクトルベースフォワードや深度ベースルーティングといった多くのルーティングアルゴリズムが近年開発されている。 ソースノードから宛先ノードへのルーティング経路におけるデータ伝送のエネルギー効率を改善するための遺伝的アルゴリズムに基づく最適化手法を提案する。

In underwater acoustic sensor networks (UWASN), energy-reliable data transmission is a challenging task. This is due to acoustic transmission disturbances caused by excessive noise, exceptionally long propagation delays, a high bit error rate, limited bandwidth capability, and interference. One of the most important issues of UWASN for research is how to extend the life span of data transmission. Data transfer from a source node to a destination node in UWASN is a complicated topic for researchers. Many routing algorithms, such as vector base forwarding and depth base routing, have been developed in past years. We propose a genetic algorithm-based optimization method for improving the energy efficiency of data transmission in the routing path from a source node to a destination node.
翻訳日:2023-02-15 17:33:06 公開日:2022-04-25
# CONTINUER: エッジ障害時の分散DNNサービスのメンテナンス

CONTINUER: Maintaining Distributed DNN Services During Edge Failures ( http://arxiv.org/abs/2206.05267v1 )

ライセンス: Link先を確認
Ayesha Abdul Majeed and Peter Kilpatrick and Ivor Spence and Blesson Varghese(参考訳) エッジノードにまたがるディープニューラルネットワーク(dnn)のパーティショニングとデプロイは、アプリケーションのパフォーマンス目標を満たすために使用できる。 しかしながら、単一ノードの障害はカスケード障害を引き起こし、サービスのデリバリに悪影響を及ぼし、特定の目的を達成するのに失敗する可能性がある。 これらの障害の影響は、実行時に最小化する必要がある。 本稿では, 分割, 早期終了, スキップ接続の3つの手法について検討する。 エッジノードがフェールすると、リパーティショニングテクニックが再分割され、DNNが再デプロイされるため、失敗したノードは回避される。 early-exitテクニックは、失敗したノードの前に(早期に)終了する要求をプロビジョニングする。 スキップ接続技術は、失敗したノードをスキップすることでリクエストを動的にルーティングする。 本稿では,エッジノードが故障した場合のユーザ定義目標(精度,レイテンシ,ダウンタイムしきい値)の最適手法を選択するために,精度,エンドツーエンドレイテンシ,ダウンタイムのトレードオフを利用する。 そのため、CONTINUERが開発された。 フレームワークの2つの重要なアクティビティは、分散DNNのテクニックを使用する際の精度とレイテンシを推定し、最良のテクニックを選択することである。 ラボベースの実験実験ベッドでは、平均誤差0.28%と13.06%以下の技術を使用する場合、継続者が精度とレイテンシを推定し、16.82ミリ秒以下のオーバーヘッドと99.86%の精度で適切な手法を選択することが示されている。

Partitioning and deploying Deep Neural Networks (DNNs) across edge nodes may be used to meet performance objectives of applications. However, the failure of a single node may result in cascading failures that will adversely impact the delivery of the service and will result in failure to meet specific objectives. The impact of these failures needs to be minimised at runtime. Three techniques are explored in this paper, namely repartitioning, early-exit and skip-connection. When an edge node fails, the repartitioning technique will repartition and redeploy the DNN thus avoiding the failed nodes. The early-exit technique makes provision for a request to exit (early) before the failed node. The skip connection technique dynamically routes the request by skipping the failed nodes. This paper will leverage trade-offs in accuracy, end-to-end latency and downtime for selecting the best technique given user-defined objectives (accuracy, latency and downtime thresholds) when an edge node fails. To this end, CONTINUER is developed. Two key activities of the framework are estimating the accuracy and latency when using the techniques for distributed DNNs and selecting the best technique. It is demonstrated on a lab-based experimental testbed that CONTINUER estimates accuracy and latency when using the techniques with no more than an average error of 0.28% and 13.06%, respectively and selects the suitable technique with a low overhead of no more than 16.82 milliseconds and an accuracy of up to 99.86%.
翻訳日:2023-02-15 17:32:55 公開日:2022-04-25
# 平衡内外における量子材料習得と量子シミュレータの新時代

A New Era of Quantum Materials Mastery and Quantum Simulators In and Out of Equilibrium ( http://arxiv.org/abs/2204.11928v1 )

ライセンス: Link先を確認
Dante M. Kennes and Angel Rubio(参考訳) 我々は、量子材料を自由に制御する急激な分野と、量子シミュレーションの均衡における可能性について考察する。 新規な高蛍光レーザーを用いた材料制御における最近の重要な進歩と、新しい量子材料合成(特にねじれた2次元固体の分野)の革新的アプローチを簡潔に概説した後、この分野の将来への展望を提供する。 芸術の発展の状態を融合させることで、エキゾチックかつほとんどの部分において回避的集団と位相現象を多元的に制御できる量子材料マスターリーの新たな時代に入ることができると信じている。 これは前例のない能力の機能を解き放ち、将来多くの新しい量子技術を可能にする可能性がある。

We provide a perspective on the burgeoning field of controlling quantum materials at will and its potential for quantum simulations in and out equilibrium. After briefly outlining a selection of key recent advances in controlling materials using novel high fluence lasers as well as in innovative approaches for novel quantum materials synthesis (especially in the field of twisted two-dimensional solids), we provide a vision for the future of the field. By merging state of the art developments we believe it is possible to enter a new era of quantum materials mastery, in which exotic and for the most part evasive collective as well as topological phenomena can be controlled in a versatile manner. This could unlock functionalities of unprecedented capabilities, which in turn can enable many novel quantum technologies in the future.
翻訳日:2023-02-15 17:32:31 公開日:2022-04-25
# 非古典性テストのためのオープンソースリニアプログラム

An open-source linear program for testing nonclassicality ( http://arxiv.org/abs/2204.11905v1 )

ライセンス: Link先を確認
John H. Selby, Elie Wolfe, David Schmid and Ana Bel\'en Sainz(参考訳) 実験が古典的な説明に抵抗することを示すための金の基準は、その統計が一般化された非文脈性に反することを示すことである。 ここでは,任意の準備実験が古典的に説明可能であるか否かをテストするための,オープンソースの線形プログラムを提案する。 プログラムへの入力は、単に量子状態の任意の集合と量子効果の任意の集合であり、プログラムは、それらの全ての対によって生成される自然規則統計が古典的(非文脈的)モデルによって説明できるかどうかを決定する。 古典的モデルが存在する場合、明示的なモデルを提供する。 もしそうでなければ、モデルが存在するように追加しなければならない最小限のノイズを計算し、そのモデルを提供する。 これらの結果は、任意の一般化された確率論(およびそれらのアクセシブルな断片)にも一般化される。

The gold standard for demonstrating that an experiment resists any classical explanation is to show that its statistics violate generalized noncontextuality. We here provide an open-source linear program for testing whether or not any given prepare-measure experiment is classically-explainable in this sense. The input to the program is simply an arbitrary set of quantum states and an arbitrary set of quantum effects; the program then determines if the Born rule statistics generated by all pairs of these can be explained by a classical (noncontextual) model. If a classical model exists, it provides an explicit model. If it does not, then it computes the minimal amount of noise that must be added such that a model does exist, and then provides this model. We generalize all these results to arbitrary generalized probabilistic theories (and accessible fragments thereof) as well; indeed, our linear program is a test of simplex-embeddability.
翻訳日:2023-02-15 17:32:16 公開日:2022-04-25
# ディラックスピン液体におけるモノポールジョセフソン効果

Monopole Josephson Effects in a Dirac Spin Liquid ( http://arxiv.org/abs/2204.11888v1 )

ライセンス: Link先を確認
Gautam Nambiar, Daniel Bulmash and Victor Galitski(参考訳) ディラックスピン液体(DSL)は、ギャップのない特徴のない状態であるが、(2+1)次元量子電磁力学(QED$_3$)を記述した有効場理論により興味深い。 さらに、DSLは反強磁性体や価結合固体のような、一見無関係な秩序状態の「親状態」であることが知られており、初期ゲージ場の磁気モノポールを凝縮することで秩序状態を得ることができる。 創発電場のような有効場の理論の作用素は外部に誘導され、測定できるのか? この研究では、親状態のイメージを利用して、答えはイエスであると主張する。 我々は、2つの順序状態が親 dsl の領域によって分離されたときに生じる「単極ジョセフソン効果」の範囲を提案する。 特に, ac単極ジョセフソン効果を誘導し, スピン液体中の交流発生電界として現れ, 測定可能なスピン電流が伴うことを示した。 さらに、この交流出射電界はラマン散乱における鋭い調整可能なピークとして測定できることを示す。 この研究はスピン液体の創発ゲージ場を、より伝統的な状態を用いて外部に誘導し、操作し、探究できるという理論的な証明を提供し、エキゾチックスピン相を研究するための一般的なプラットフォームを提供する。

Dirac Spin liquids (DSLs) are gapless featureless states, yet interesting by virtue of the effective field theory describing them -- (2+1)-dimensional quantum electrodynamics (QED$_3$). Further, a DSL is known to be a "parent state" of various seemingly unrelated ordered states, such as antiferromagnets and valence bond solids in the sense that one can obtain ordered states by condensing magnetic monopoles of the emergent gauge field. Can operators in the effective field theory, such as the emergent electric field, be externally induced and measured? In this work, we exploit the parent state picture to argue that the answer is yes. We propose a range of "monopole Josephson effects" that arise when two ordered states are separated by a region of the parent DSL. In particular, we show that one can induce an AC monopole Josephson effect, which manifests itself as an AC emergent electric field in the spin liquid, accompanied by a measurable spin current. Further, we show that this AC emergent electric field can be measured as a sharp tunable peak in Raman scattering. This work provides a theoretical proof of principle that emergent gauge fields in spin liquids can be externally induced, manipulated, and probed using more conventional states, which offers a generic platform for studying the exotic spin phases.
翻訳日:2023-02-15 17:31:45 公開日:2022-04-25
# プライバシ保存ノード分類のための垂直フェデレーショングラフニューラルネットワーク

Vertically Federated Graph Neural Network for Privacy-Preserving Node Classification ( http://arxiv.org/abs/2005.11903v3 )

ライセンス: Link先を確認
Chaochao Chen, Jun Zhou, Longfei Zheng, Huiwen Wu, Lingjuan Lyu, Jia Wu, Bingzhe Wu, Ziqi Liu, Li Wang, Xiaolin Zheng(参考訳) 近年、グラフニューラルネットワーク(gnn)は、ノードの特徴と異なるノード間の隣接情報からなるグラフデータ上の様々な実世界のタスクにおいて著しい進歩を遂げている。 高性能GNNモデルはグラフのリッチな特徴と完全なエッジ情報の両方に依存している。 しかし、そのような情報は実際には異なるデータホルダーによって隔離される可能性があり、これはいわゆるデータ分離問題である。 この問題を解決するために,本稿では,従来のGNNモデルに一般化可能なデータ分割設定下において,プライバシ保護ノード分類タスクのためのフェデレーション付きGNN学習パラダイムであるVFGNNを提案する。 具体的には,計算グラフを2つに分割した。 プライベートデータ(機能、エッジ、ラベル)に関連する計算をデータホルダーに残し、残りの計算を半正直なサーバに委譲する。 また,サーバからの潜在的な情報漏洩を防止するために,差分プライバシーを適用することを提案する。 3つのベンチマークで実験を行い,VFGNNの有効性を実証した。

Recently, Graph Neural Network (GNN) has achieved remarkable progresses in various real-world tasks on graph data, consisting of node features and the adjacent information between different nodes. High-performance GNN models always depend on both rich features and complete edge information in graph. However, such information could possibly be isolated by different data holders in practice, which is the so-called data isolation problem. To solve this problem, in this paper, we propose VFGNN, a federated GNN learning paradigm for privacy-preserving node classification task under data vertically partitioned setting, which can be generalized to existing GNN models. Specifically, we split the computation graph into two parts. We leave the private data (i.e., features, edges, and labels) related computations on data holders, and delegate the rest of computations to a semi-honest server. We also propose to apply differential privacy to prevent potential information leakage from the server. We conduct experiments on three benchmarks and the results demonstrate the effectiveness of VFGNN.
翻訳日:2022-11-29 05:38:35 公開日:2022-04-25
# 巡回微分可能アーキテクチャ探索

Cyclic Differentiable Architecture Search ( http://arxiv.org/abs/2006.10724v4 )

ライセンス: Link先を確認
Hongyuan Yu, Houwen Peng, Yan Huang, Jianlong Fu, Hao Du, Liang Wang, Haibin Ling(参考訳) 微分可能なArchiTecture Search、すなわちDARTSは、ニューラルアーキテクチャサーチに大きな注目を集めている。 浅い検索ネットワークで最適なアーキテクチャを見つけ、そのパフォーマンスを深い評価ネットワークで測定する。 しかし、検索と評価ネットワークの独立した最適化は、2つのネットワーク間の相互作用を可能にすることによって潜在的な改善の余地を残している。 問題となる最適化問題に対処するために,新たな共同最適化目標と,CDARTSと呼ばれる新しい循環微分ARchiTecture Searchフレームワークを提案する。 構造の違いを考慮すると,CDARTSは内観蒸留を伴う探索と評価ネットワーク間の循環フィードバック機構を構築する。 まず、検索ネットワークは、評価のための初期アーキテクチャを生成し、評価ネットワークの重みを最適化する。 第2に, 検索ネットワークのアーキテクチャ重み付けは, 分類におけるラベル監督, 特徴蒸留による評価ネットワークからの正規化によってさらに最適化される。 上記のサイクルを繰り返して探索・評価ネットワークを協調的に最適化することにより,アーキテクチャの進化を最終評価ネットワークに適合させることができる。 CIFAR, ImageNet, NAS-Bench-201の実験と解析により, 最先端技術に対する提案手法の有効性が示された。 具体的には、DARTS検索空間では、CIFAR10で97.52%、ImageNetで76.3%、トップ1で76.3%の精度を達成している。 連鎖構造検索空間では、ImageNetで78.2%の精度が達成され、これは効率の高いNet-B0よりも1.1%高い。 私たちのコードとモデルはhttps://github.com/microsoft/Cream.comで公開されています。

Differentiable ARchiTecture Search, i.e., DARTS, has drawn great attention in neural architecture search. It tries to find the optimal architecture in a shallow search network and then measures its performance in a deep evaluation network. The independent optimization of the search and evaluation networks, however, leaves room for potential improvement by allowing interaction between the two networks. To address the problematic optimization issue, we propose new joint optimization objectives and a novel Cyclic Differentiable ARchiTecture Search framework, dubbed CDARTS. Considering the structure difference, CDARTS builds a cyclic feedback mechanism between the search and evaluation networks with introspective distillation. First, the search network generates an initial architecture for evaluation, and the weights of the evaluation network are optimized. Second, the architecture weights in the search network are further optimized by the label supervision in classification, as well as the regularization from the evaluation network through feature distillation. Repeating the above cycle results in joint optimization of the search and evaluation networks and thus enables the evolution of the architecture to fit the final evaluation network. The experiments and analysis on CIFAR, ImageNet and NAS-Bench-201 demonstrate the effectiveness of the proposed approach over the state-of-the-art ones. Specifically, in the DARTS search space, we achieve 97.52% top-1 accuracy on CIFAR10 and 76.3% top-1 accuracy on ImageNet. In the chain-structured search space, we achieve 78.2% top-1 accuracy on ImageNet, which is 1.1% higher than EfficientNet-B0. Our code and models are publicly available at https://github.com/microsoft/Cream.
翻訳日:2022-11-19 13:58:57 公開日:2022-04-25
# CitisEN: ディープラーニングに基づく音声信号処理モバイルアプリケーション

CITISEN: A Deep Learning-Based Speech Signal-Processing Mobile Application ( http://arxiv.org/abs/2008.09264v5 )

ライセンス: Link先を確認
Yu-Wen Chen, Kuo-Hsuan Hung, You-Jin Li, Alexander Chao-Fu Kang, Ya-Hsin Lai, Kai-Chun Liu, Szu-Wei Fu, Syu-Siang Wang, Yu Tsao(参考訳) 本研究では,CitisENと呼ばれる深層学習に基づく音声信号処理モバイルアプリケーションを提案する。 CitisENは、音声強調(SE)、モデル適応(MA)、バックグラウンドノイズ変換(BNC)の3つの機能を提供している。 SEでは、クラウドサーバからダウンロードされた事前トレーニングされたSEモデルを使用して、ノイズコンポーネントをユーザが提供したインスタントまたは保存された記録から効果的に削減する。 耳障りな騒音や話者環境に遭遇する場合は,ma関数を用いてcitisenを促進させる。 ノイズの多い環境に記録されたいくつかのオーディオサンプルがアップロードされ、サーバ上で事前訓練されたSEモデルを適応するために使用される。 最後に、BNCの場合、CitisENはまずSEモデルを通してバックグラウンドノイズを除去し、次に処理された音声と新しいバックグラウンドノイズを混合する。 新規なBNC機能は、特定の条件下でSEパフォーマンスを評価し、人々のトラックをカバーし、エンターテイメントを提供する。 実験の結果,SE,MA,BNC機能の有効性が確認された。 雑音下での音声信号と比較すると,音声信号は,stoi(short-time objective intelligibility)とpesq(perceptual evaluation of speech quality)でそれぞれ約6\%,33\%向上した。 MAでは, STOI と PESQ をそれぞれ 6 % と 11 % に改善することができた。 最後に,bnc実験の結果から,雑音および無声背景から変換された音声信号は,音響シーン分類モデルに類似したシーン識別精度と類似した埋め込みを有することが示された。 そこで提案したBNCは,クリーン音声信号が利用できない場合に,音声信号の背景雑音を効果的に変換し,データ拡張手法である。

This study presents a deep learning-based speech signal-processing mobile application known as CITISEN. The CITISEN provides three functions: speech enhancement (SE), model adaptation (MA), and background noise conversion (BNC), allowing CITISEN to be used as a platform for utilizing and evaluating SE models and flexibly extend the models to address various noise environments and users. For SE, a pretrained SE model downloaded from the cloud server is used to effectively reduce noise components from instant or saved recordings provided by users. For encountering unseen noise or speaker environments, the MA function is applied to promote CITISEN. A few audio samples recording on a noisy environment are uploaded and used to adapt the pretrained SE model on the server. Finally, for BNC, CITISEN first removes the background noises through an SE model and then mixes the processed speech with new background noise. The novel BNC function can evaluate SE performance under specific conditions, cover people's tracks, and provide entertainment. The experimental results confirmed the effectiveness of SE, MA, and BNC functions. Compared with the noisy speech signals, the enhanced speech signals achieved about 6\% and 33\% of improvements, respectively, in terms of short-time objective intelligibility (STOI) and perceptual evaluation of speech quality (PESQ). With MA, the STOI and PESQ could be further improved by approximately 6\% and 11\%, respectively. Finally, the BNC experiment results indicated that the speech signals converted from noisy and silent backgrounds have a close scene identification accuracy and similar embeddings in an acoustic scene classification model. Therefore, the proposed BNC can effectively convert the background noise of a speech signal and be a data augmentation method when clean speech signals are unavailable.
翻訳日:2022-10-26 22:30:49 公開日:2022-04-25
# エッジストリームにおけるリアルタイム異常検出

Real-Time Anomaly Detection in Edge Streams ( http://arxiv.org/abs/2009.08452v3 )

ライセンス: Link先を確認
Siddharth Bhatia, Rui Liu, Bryan Hooi, Minji Yoon, Kijung Shin and Christos Faloutsos(参考訳) 動的グラフからグラフエッジのストリームが与えられた場合、一定時間とメモリを用いて異常な振る舞いを検出するために、オンライン的にエッジに異常スコアを割り当てるにはどうすればよいのか? 既存のアプローチは、個別に驚くべきエッジを検出することを目指している。 本研究では,マイクロクラスタ異常の検出や,ネットワークトラフィックデータにおけるサービス攻撃拒否などのロックステップ動作など,疑わしいほど類似したエッジの集団の突然到着に着目したmidaを提案する。 さらに、MIDAS-Fを提案し、アルゴリズムの内部状態に異常が組み込まれ、将来の異常が検出されない状態から抜け出すことができるような 'poisoning' 効果が生じる。 MIDAS-Fは2つの修正を加えている。 1) 新たに到達したエッジの「汚染」効果を低減すべく,異常スコアリング機能を変更する。 2)条件付マージステップを導入し,アルゴリズムのデータ構造を各時間ダック後に更新するが,アノマリースコアがしきい値以下である場合に限り,'ポジショニング'効果を低減させる。 MIDAS-FはMIDASよりも精度が高い。 MIDAS には以下の特性がある。 a) 偽陽性確率に関する理論的保証を提供しながら、マイクロクラスタ異常を検出する。 (b)オンラインなので、一定時間と一定メモリで各エッジを処理し、最先端のアプローチよりも桁違いにデータを処理します。 (c)最先端のアプローチよりも最大62%高いROC-AUCを提供する。

Given a stream of graph edges from a dynamic graph, how can we assign anomaly scores to edges in an online manner, for the purpose of detecting unusual behavior, using constant time and memory? Existing approaches aim to detect individually surprising edges. In this work, we propose MIDAS, which focuses on detecting microcluster anomalies, or suddenly arriving groups of suspiciously similar edges, such as lockstep behavior, including denial of service attacks in network traffic data. We further propose MIDAS-F, to solve the problem by which anomalies are incorporated into the algorithm's internal states, creating a `poisoning' effect that can allow future anomalies to slip through undetected. MIDAS-F introduces two modifications: 1) We modify the anomaly scoring function, aiming to reduce the `poisoning' effect of newly arriving edges; 2) We introduce a conditional merge step, which updates the algorithm's data structures after each time tick, but only if the anomaly score is below a threshold value, also to reduce the `poisoning' effect. Experiments show that MIDAS-F has significantly higher accuracy than MIDAS. MIDAS has the following properties: (a) it detects microcluster anomalies while providing theoretical guarantees about its false positive probability; (b) it is online, thus processing each edge in constant time and constant memory, and also processes the data orders-of-magnitude faster than state-of-the-art approaches; (c) it provides up to 62% higher ROC-AUC than state-of-the-art approaches.
翻訳日:2022-10-17 08:51:46 公開日:2022-04-25
# ミニマックス問題に対するリーマン勾配法について

On Riemannian Gradient-Based Methods for Minimax Problems ( http://arxiv.org/abs/2010.06097v4 )

ライセンス: Link先を確認
Feihu Huang, Shangqian Gao(参考訳) 本稿では、リーマン多様体上の有用なミニマックス最適化問題のクラスを考察し、これらのミニマックス問題を解くためのリーマン勾配に基づく手法のクラスを提案する。 具体的には,決定論的最小値最適化のためのRGDAアルゴリズムを提案する。 さらに、我々の rgda は、非凸強凸ミニマックス問題の $\epsilon$-stationary point を見つけるために $o(\kappa^2\epsilon^{-2}) のサンプル複雑性を持つことを証明し、ここで $\kappa$ は条件数を表す。 同時に, 確率的ミニマックス最適化のために, リーマン確率勾配勾配降下上昇 (rsgda) アルゴリズムを導入する。 理論解析において、我々のRSGDAが$O(\kappa^4\epsilon^{-4})$のサンプル複雑性を達成できることを示す。 サンプルの複雑さをさらに軽減するために,分散還元法に基づくRiemann的確率勾配勾配上昇(Acc-RSGDA)アルゴリズムを提案する。 acc-rsgdaアルゴリズムは、$\tilde{o}(\kappa^{4}\epsilon^{-3})$という低いサンプル複雑性を達成することを証明します。 stiefel多様体上のロバスト分布最適化とディープニューラルネットワーク(dnns)トレーニングに関する広範な実験結果から,アルゴリズムの効率性が証明された。

In the paper, we study a class of useful minimax optimization problems on Riemanian manifolds and propose a class of Riemanian gradient-based methods to solve these minimax problems. Specifically, we propose a Riemannian gradient descent ascent (RGDA) algorithm for the deterministic minimax optimization. Moreover, we prove that our RGDA has a sample complexity of $O(\kappa^2\epsilon^{-2})$ for finding an $\epsilon$-stationary point of the nonconvex strongly-concave minimax problems, where $\kappa$ denotes the condition number. At the same time, we introduce a Riemannian stochastic gradient descent ascent (RSGDA) algorithm for the stochastic minimax optimization. In the theoretical analysis, we prove that our RSGDA can achieve a sample complexity of $O(\kappa^4\epsilon^{-4})$. To further reduce the sample complexity, we propose an accelerated Riemannian stochastic gradient descent ascent (Acc-RSGDA) algorithm based on the variance-reduced technique. We prove that our Acc-RSGDA algorithm achieves a lower sample complexity of $\tilde{O}(\kappa^{4}\epsilon^{-3})$. Extensive experimental results on the robust distributional optimization and Deep Neural Networks (DNNs) training over Stiefel manifold demonstrate efficiency of our algorithms.
翻訳日:2022-10-07 23:22:16 公開日:2022-04-25
# 飲み物の漂白か、それとも今何をするか? covid-hera:covid-19情報の存在下でのリスクにかかわる健康判断に関する研究

Drink Bleach or Do What Now? Covid-HeRA: A Study of Risk-Informed Health Decision Making in the Presence of COVID-19 Misinformation ( http://arxiv.org/abs/2010.08743v2 )

ライセンス: Link先を確認
Arkin Dharawat and Ismini Lourentzou and Alex Morales and ChengXiang Zhai(参考訳) 2019年の新型コロナウイルス感染症(COVID-19)に関する不正確な医療アドバイス、例えば偽の治療法、治療、予防の提案が広く普及していることから、偽情報検出は研究コミュニティにとって重要かつ関心の高いオープンな問題となっている。 健康的誤情報検出の研究はいくつかあるが、誤情報の重大さにはほとんど注意が払われていない。 本研究では,健康誤報をリスクアセスメントタスクとして位置づける。 より具体的には、各誤報記事の重大さと、読者がこの重大さをどのように感じているか、すなわち、聴衆が信じているメッセージがどれほど有害であるか、そしてどんな種類の信号を使って、潜在的に悪質なフェイクニュースを認識し、反証されたクレームを検出するかを研究する。 そこで本研究では,詳細なデータ分析を伴う新しいベンチマークデータセットを提案する。 我々は,従来型および最新型のモデルをいくつか評価し,従来の誤情報分類モデルを適用した場合,その性能に大きな差があることを示す。 オープンチャレンジと今後の方向性で締めくくります。

Given the widespread dissemination of inaccurate medical advice related to the 2019 coronavirus pandemic (COVID-19), such as fake remedies, treatments and prevention suggestions, misinformation detection has emerged as an open problem of high importance and interest for the research community. Several works study health misinformation detection, yet little attention has been given to the perceived severity of misinformation posts. In this work, we frame health misinformation as a risk assessment task. More specifically, we study the severity of each misinformation story and how readers perceive this severity, i.e., how harmful a message believed by the audience can be and what type of signals can be used to recognize potentially malicious fake news and detect refuted claims. To address our research questions, we introduce a new benchmark dataset, accompanied by detailed data analysis. We evaluate several traditional and state-of-the-art models and show there is a significant gap in performance when applying traditional misinformation classification models to this task. We conclude with open challenges and future directions.
翻訳日:2022-10-06 11:40:07 公開日:2022-04-25
# ベイズ深層学習に必要なのはただひとつ

All You Need is a Good Functional Prior for Bayesian Deep Learning ( http://arxiv.org/abs/2011.12829v2 )

ライセンス: Link先を確認
Ba-Hien Tran and Simone Rossi and Dimitrios Milios and Maurizio Filippone(参考訳) ニューラルネットワークのベイズ処理は、その重みとバイアスパラメータに対して事前分布が指定されていることを決定づける。 これは、現代のニューラルネットワークには多くのパラメータが特徴であり、これらのプリミティブの選択は、そのプリミティブ分布からパラメータをサンプリングして得られる関数の分布である誘導機能プリミティブに制御されない影響を持つため、課題となる。 これはベイズ深層学習の非常に制限された側面であり、この研究は実用的で効果的な方法でこの制限に取り組みます。 提案手法は,ニューラルネットワークのパラメータの事前化を,そのような機能的事前化を反映した方法で「調整」することを目的としている。 ガウス過程は関数上の事前分布を定義するための厳密な枠組みを提供し、ワッサースタイン距離の最小化に基づくニューラルネットワークの機能的先行とそれらの先行とをマッチさせる新しい頑健な枠組みを提案する。 我々は、これらの先行をスケーラブルなマルコフ連鎖モンテカルロサンプリングと組み合わせることで、先行の代替選択と最先端のベイズ的ディープラーニングアプローチよりも体系的に大きな性能向上が得られるという膨大な実験的な証拠を提供する。 この研究は、畳み込みニューラルネットワークを含むニューラルネットワークを完全にベイズ処理するという長年にわたる課題を、具体的可能性として実現するための、大きな一歩だと考えている。

The Bayesian treatment of neural networks dictates that a prior distribution is specified over their weight and bias parameters. This poses a challenge because modern neural networks are characterized by a large number of parameters, and the choice of these priors has an uncontrolled effect on the induced functional prior, which is the distribution of the functions obtained by sampling the parameters from their prior distribution. We argue that this is a hugely limiting aspect of Bayesian deep learning, and this work tackles this limitation in a practical and effective way. Our proposal is to reason in terms of functional priors, which are easier to elicit, and to "tune" the priors of neural network parameters in a way that they reflect such functional priors. Gaussian processes offer a rigorous framework to define prior distributions over functions, and we propose a novel and robust framework to match their prior with the functional prior of neural networks based on the minimization of their Wasserstein distance. We provide vast experimental evidence that coupling these priors with scalable Markov chain Monte Carlo sampling offers systematically large performance improvements over alternative choices of priors and state-of-the-art approximate Bayesian deep learning approaches. We consider this work a considerable step in the direction of making the long-standing challenge of carrying out a fully Bayesian treatment of neural networks, including convolutional neural networks, a concrete possibility.
翻訳日:2022-09-21 02:01:12 公開日:2022-04-25
# (参考訳) 境界乱流の実験的画像に基づくプラズマ中性相互作用を持つドリフト還元ブラギンスキー理論による深部電界予測

Deep electric field predictions by drift-reduced Braginskii theory with plasma-neutral interactions based upon experimental images of boundary turbulence ( http://arxiv.org/abs/2204.11689v1 )

ライセンス: CC BY 4.0
Abhilash Mathews and Jerry Hughes and James Terry and Seung-Gyou Baek(参考訳) 物理インフォームド深層学習による2次元乱流電場計算について述べる。 (i)純粋なトロイダル場を持つ軸対称核融合プラズマの枠組みの下での漂流還元ブラギンスキー理論 (II)Alcator C-Modトカマクにおける放電のガスパフイメージング解析から得られた変動電子密度と温度の実験的推定 還元プラズマ乱流モデルにおける粒子およびエネルギー源に対する局所パフ原子ヘリウムの効果の包含は、電場と電子圧力の相関を強化することが判明した。 中性層は、乱流の振幅分布の観察された広がりと直接関係しており、さらに${\bf e \times b}$のせん断速度が増加する。

We present 2-dimensional turbulent electric field calculations via physics-informed deep learning consistent with (i) drift-reduced Braginskii theory under the framework of an axisymmetric fusion plasma with purely toroidal field and (ii) experimental estimates of the fluctuating electron density and temperature obtained from analysis of gas puff imaging of a discharge on the Alcator C-Mod tokamak. The inclusion of effects from the locally puffed atomic helium on particle and energy sources within the reduced plasma turbulence model are found to strengthen correlations between the electric field and electron pressure. The neutrals are also directly associated with an observed broadening in the distribution of turbulent field amplitudes and increased ${\bf E \times B}$ shearing rates.
翻訳日:2022-06-06 10:18:44 公開日:2022-04-25
# トランスフォーマーモデルはタスク固有の人間の視線と同じような注意パターンを示すか?

Do Transformer Models Show Similar Attention Patterns to Task-Specific Human Gaze? ( http://arxiv.org/abs/2205.10226v1 )

ライセンス: Link先を確認
Stephanie Brandl, Oliver Eberle, Jonas Pilot, Anders S{\o}gaard(参考訳) state-of-the-art nlpモデルにおける学習自己注意関数は、しばしば人間の注意と相関する。 大規模事前学習された言語モデルにおける自己着脱が,人間の注意の古典的認知モデルとしてのタスクリーディング中の人間の眼球固定パターンの予測であるかどうかについて検討する。 感情分析と関係抽出のための2つのタスク固有の読書データセットにまたがる注意関数を比較した。 人間の注意に対する大規模事前学習自己注意の予測性は,「尾に何があるか」,例えば希少な文脈の構文的性質に依存する。 さらに、タスク固有の微調整は、ヒューマンタスク固有の読み取りとの相関を増加させないことを観察する。 入力還元実験を通じて、疎密性と忠実性のトレードオフに関する相補的な洞察を与え、低エントロピーの注意ベクトルがより忠実であることを示す。

Learned self-attention functions in state-of-the-art NLP models often correlate with human attention. We investigate whether self-attention in large-scale pre-trained language models is as predictive of human eye fixation patterns during task-reading as classical cognitive models of human attention. We compare attention functions across two task-specific reading datasets for sentiment analysis and relation extraction. We find the predictiveness of large-scale pre-trained self-attention for human attention depends on `what is in the tail', e.g., the syntactic nature of rare contexts. Further, we observe that task-specific fine-tuning does not increase the correlation with human task-specific reading. Through an input reduction experiment we give complementary insights on the sparsity and fidelity trade-off, showing that lower-entropy attention vectors are more faithful.
翻訳日:2022-05-29 21:19:52 公開日:2022-04-25
# 予測自動走行システムのテスト : 教訓と今後の提言

Testing predictive automated driving systems: lessons learned and future recommendations ( http://arxiv.org/abs/2205.10115v1 )

ライセンス: Link先を確認
Rub\'en Izquierdo Gonzalo, Carlota Salinas Maldonado, Javier Alonso Ruiz, Ignacio Parra Alonso, David Fern\'andez Llorca and Miguel \'A. Sotelo(参考訳) 従来の車両は、異なる物理的認証試験を試験軌道に設置して必要な安全性レベルを評価する、古典的なアプローチで認証される。 これらのアプローチは、制限された複雑さと、最終秒のリソースとして他のエンティティとの限定的な相互作用を持つ車両に適している。 しかし、これらの手法は、臨界ケースやエッジケースの実際の行動による安全性の評価や、中期または長期の予測能力の評価を許さない。 これは特に、経路計画層で考慮される将来の行動や動きを予測するために高度な予測システムを使用する自動運転機能や自律運転機能に関係している。 本稿では,BRAVEプロジェクトのフレームワーク内で開発された自動運転機能において,複数の予測システムの実証実験の結果を提示し,解析する。 予測自動運転機能のテスト経験に基づき、予測システムを扱う際の現在の物理的なテストアプローチの主な制限を特定し、今後の課題を分析し、自動運転機能や自律運転機能に対する将来の物理的なテスト手順を検討するための実践的な行動と勧告のセットを提供する。

Conventional vehicles are certified through classical approaches, where different physical certification tests are set up on test tracks to assess required safety levels. These approaches are well suited for vehicles with limited complexity and limited interactions with other entities as last-second resources. However, these approaches do not allow to evaluate safety with real behaviors for critical and edge cases, nor to evaluate the ability to anticipate them in the mid or long term. This is particularly relevant for automated and autonomous driving functions that make use of advanced predictive systems to anticipate future actions and motions to be considered in the path planning layer. In this paper, we present and analyze the results of physical tests on proving grounds of several predictive systems in automated driving functions developed within the framework of the BRAVE project. Based on our experience in testing predictive automated driving functions, we identify the main limitations of current physical testing approaches when dealing with predictive systems, analyze the main challenges ahead, and provide a set of practical actions and recommendations to consider in future physical testing procedures for automated and autonomous driving functions.
翻訳日:2022-05-29 21:19:40 公開日:2022-04-25
# ゴール誘導型ニューラルセルオートマタ:自己組織化システムの学習

Goal-Guided Neural Cellular Automata: Learning to Control Self-Organising Systems ( http://arxiv.org/abs/2205.06806v1 )

ライセンス: Link先を確認
Shyam Sudhakaran, Elias Najarro and Sebastian Risi(参考訳) 細胞の成長と自己組織化にインスパイアされたNeural Cellular Automata(NCAs)は、人工細胞を画像や3D構造、さらには機能機械に“成長”することができる。 NCAは柔軟で堅牢な計算システムであるが、他の多くの自己組織化システムと同様に、成長過程中と成長過程の後に制御不能である。 本稿では,Goal-Guided Neural Cellular Automata (GoalNCA) と呼ばれる,細胞成長の各段階における細胞挙動を動的に制御する手法を提案する。 このアプローチにより、NAAは継続的に振る舞いを変更し、場合によってはその振る舞いを目に見えないシナリオに一般化することができる。 また、一部の細胞のみがゴール情報を受け取る場合でも、タスクパフォーマンスを維持する能力を備えたncaの堅牢性を示す。

Inspired by cellular growth and self-organization, Neural Cellular Automata (NCAs) have been capable of "growing" artificial cells into images, 3D structures, and even functional machines. NCAs are flexible and robust computational systems but -- similarly to many other self-organizing systems -- inherently uncontrollable during and after their growth process. We present an approach to control these type of systems called Goal-Guided Neural Cellular Automata (GoalNCA), which leverages goal encodings to control cell behavior dynamically at every step of cellular growth. This approach enables the NCA to continually change behavior, and in some cases, generalize its behavior to unseen scenarios. We also demonstrate the robustness of the NCA with its ability to preserve task performance, even when only a portion of cells receive goal information.
翻訳日:2022-05-22 12:14:54 公開日:2022-04-25
# 記号回帰のための変換-相互作用-合理表現

Transformation-Interaction-Rational Representation for Symbolic Regression ( http://arxiv.org/abs/2205.06807v1 )

ライセンス: Link先を確認
Fabricio Olivetti de Franca(参考訳) シンボリック回帰は、しばしば遺伝的プログラミングを使用してデータセットを近似する関数形式を探索する。 関数が持つことのできる形式には通常制限がないため、遺伝的プログラミングは非線型関数連鎖や長い表現のために理解しにくいモデルを返すことがある。 この問題を緩和するために、Interaction-Transformationと呼ばれる新しい表現が最近提案された。 この表現において、関数形式は、選択された変数の相互作用に対する単変量関数の適用として生成される項のアフィン結合に制限される。 この表現は標準ベンチマークで競合する解を得た。 最初の成功にもかかわらず、幅広いベンチマーク関数セットは制約付き表現の制限を明らかにした。 本稿では、2つの相互作用-変換関数の有理性として新しい関数形式を定義する変換-相互作用-規則表現と呼ばれるこの表現の拡張を提案する。 さらに、ターゲット変数を不等式関数で変換することもできる。 主な目標は、式全体の複雑さを制約しながら近似力を向上させることである。 私たちはこの表現を、交叉と変異を伴う標準的な遺伝的プログラミングでテストしました。 結果は、前モデルと比較して大きな改善を示し、大規模なベンチマークでは最先端のパフォーマンスを示した。

Symbolic Regression searches for a function form that approximates a dataset often using Genetic Programming. Since there is usually no restriction to what form the function can have, Genetic Programming may return a hard to understand model due to non-linear function chaining or long expressions. A novel representation called Interaction-Transformation was recently proposed to alleviate this problem. In this representation, the function form is restricted to an affine combination of terms generated as the application of a single univariate function to the interaction of selected variables. This representation obtained competing solutions on standard benchmarks. Despite the initial success, a broader set of benchmarking functions revealed the limitations of the constrained representation. In this paper we propose an extension to this representation, called Transformation-Interaction-Rational representation that defines a new function form as the rational of two Interaction-Transformation functions. Additionally, the target variable can also be transformed with an univariate function. The main goal is to improve the approximation power while still constraining the overall complexity of the expression. We tested this representation with a standard Genetic Programming with crossover and mutation. The results show a great improvement when compared to its predecessor and a state-of-the-art performance for a large benchmark.
翻訳日:2022-05-22 12:14:40 公開日:2022-04-25
# (参考訳) MOOCの早期成功予測のためのメタトランスファー学習

Meta Transfer Learning for Early Success Prediction in MOOCs ( http://arxiv.org/abs/2205.01064v1 )

ライセンス: CC BY 4.0
Vinitra Swamy, Mirko Marras, Tanja K\"aser(参考訳) 大規模なオープンオンラインコース(MOOC)の人気が高まっているにもかかわらず、多くは高いドロップアウトと低い成功率に悩まされている。 したがって、学生が授業に残らないようにするには、学生の早期的成功の予測が不可欠である。 MOOCの成功予測には、主に個々のコースをスクラッチからトレーニングするモデルに焦点を当てた大きな研究団体が存在する。 この設定は、学生のパフォーマンスがコースの最後にしか知られていないため、初期の成功予測では実用的ではない。 本稿では,異なるドメインとトピックのmooc間で転送可能な,早期の成功予測モデルの構築を目標とする。 そのため、転送のための3つの新しい戦略を提示する。 1)多様なコースの大きなセットでモデルを事前訓練すること。 2)授業に関するメタ情報を含む事前学習モデルを活用すること、 3) 前のコースのイテレーションでモデルを微調整する。 145,000以上の登録と数百万のインタラクションを持つ26のmoocに関する実験では、インタラクションデータとコース情報を組み合わせたモデルが、以前のコースのイテレーションにアクセス可能なモデルと同等あるいは優れたパフォーマンスを持っていることが分かりました。 これらのモデルにより、教育者は、新しいコースや進行中コースの予測を効果的に開始できる。

Despite the increasing popularity of massive open online courses (MOOCs), many suffer from high dropout and low success rates. Early prediction of student success for targeted intervention is therefore essential to ensure no student is left behind in a course. There exists a large body of research in success prediction for MOOCs, focusing mainly on training models from scratch for individual courses. This setting is impractical in early success prediction as the performance of a student is only known at the end of the course. In this paper, we aim to create early success prediction models that can be transferred between MOOCs from different domains and topics. To do so, we present three novel strategies for transfer: 1) pre-training a model on a large set of diverse courses, 2) leveraging the pre-trained model by including meta information about courses, and 3) fine-tuning the model on previous course iterations. Our experiments on 26 MOOCs with over 145,000 combined enrollments and millions of interactions show that models combining interaction data and course information have comparable or better performance than models which have access to previous iterations of the course. With these models, we aim to effectively enable educators to warm-start their predictions for new and ongoing courses.
翻訳日:2022-05-09 01:35:53 公開日:2022-04-25
# (参考訳) フェデレーション学習における医療画像再構成における攻撃構成の影響の分析

Analysing the Influence of Attack Configurations on the Reconstruction of Medical Images in Federated Learning ( http://arxiv.org/abs/2204.13808v1 )

ライセンス: CC BY 4.0
Mads Emil Dahlgaard, Morten Wehlast J{\o}rgensen, Niels Asp Fuglsang, and Hiba Nassar(参考訳) 連合学習の考え方は、ディープニューラルネットワークモデルを協調的にトレーニングし、プライベートトレーニングデータを互いに公開することなく、複数の参加者と共有することだ。 これは患者のプライバシー記録から医療分野において非常に魅力的である。 しかし、最近提案されたDeep Leakage from Gradientsは、攻撃者が共有勾配からデータを再構築することを可能にする。 本研究では,異なるデータ初期化スキームと距離測定のための画像再構成がいかに容易かを示す。 本稿では,データとモデルアーキテクチャが単一画像を扱う際の初期化スキームと距離測定設定の最適選択にどのように影響するかを示す。 初期化スキームと距離測度の選択により,収束速度と品質が著しく向上することを示す。 さらに、最適な攻撃構成は、ターゲット画像の分布の性質とモデルアーキテクチャの複雑さに大きく依存していることが判明した。

The idea of federated learning is to train deep neural network models collaboratively and share them with multiple participants without exposing their private training data to each other. This is highly attractive in the medical domain due to patients' privacy records. However, a recently proposed method called Deep Leakage from Gradients enables attackers to reconstruct data from shared gradients. This study shows how easy it is to reconstruct images for different data initialization schemes and distance measures. We show how data and model architecture influence the optimal choice of initialization scheme and distance measure configurations when working with single images. We demonstrate that the choice of initialization scheme and distance measure can significantly increase convergence speed and quality. Furthermore, we find that the optimal attack configuration depends largely on the nature of the target image distribution and the complexity of the model architecture.
翻訳日:2022-05-09 01:09:10 公開日:2022-04-25
# 自動車の交通標識分類器に対する敵攻撃に対するハイブリッド防御法

A Hybrid Defense Method against Adversarial Attacks on Traffic Sign Classifiers in Autonomous Vehicles ( http://arxiv.org/abs/2205.01225v1 )

ライセンス: Link先を確認
Zadid Khan, Mashrur Chowdhury, Sakib Mahmud Khan(参考訳) 敵対的攻撃により、ディープニューラルネットワーク(DNN)モデルは、自動運転車(AV)知覚モジュールの誤分類交通標識などの誤った出力ラベルを予測することができる。 逆境攻撃に対するレジリエンスは、サインやオブジェクトの誤分類を避けることによって、avが安全に道路を航行するのに役立つ。 このdnnに基づく研究は、ハイブリッド防御法を用いたavsのレジリエントなトラヒックサイン分類器を開発した。 Inception-V3 と Resnet-152 モデルをトラヒック記号分類器として再訓練するために転送学習を利用する。 この手法はまた、ランダムフィルタリング、アンサンブル、局所特徴マッピングの3つの異なる戦略の組み合わせを利用する。 ランダム・クロッピング・リサイズ手法を用いてランダムフィルタリングを行い,複数の投票をセンシング戦略として,光学的文字認識モデルを局所的特徴マッパーとして用いる。 このdnnベースのハイブリッド防御法は、no攻撃シナリオとよく知られた非標的攻撃(例えば、投影勾配降下またはpgd、高速勾配符号法またはfgsm、運動量反復法またはmim攻撃、carlini、wagnerまたはc&w)に対してテストされている。 本手法は, 攻撃シナリオの平均交通標識分類精度が99%, 攻撃シナリオの平均交通標識分類精度が88%であることを示す。 さらに,本研究では, FGSM, MIM, PGD攻撃において, 従来の防御手法(JPEGフィルタリング, 特徴スクイーズ, バイナリフィルタリング, ランダムフィルタリング)と比較して, FGSM, MIM, PGD攻撃では最大6%, 50%, 55%のトラフィックサイン分類精度を向上する。

Adversarial attacks can make deep neural network (DNN) models predict incorrect output labels, such as misclassified traffic signs, for autonomous vehicle (AV) perception modules. Resilience against adversarial attacks can help AVs navigate safely on the road by avoiding misclassication of signs or objects. This DNN-based study develops a resilient traffic sign classifier for AVs that uses a hybrid defense method. We use transfer learning to retrain the Inception-V3 and Resnet-152 models as traffic sign classifiers. This method also utilizes a combination of three different strategies: random filtering, ensembling, and local feature mapping. We use the random cropping and resizing technique for random filtering, plurality voting as ensembling strategy and an optical character recognition model as a local feature mapper. This DNN-based hybrid defense method has been tested for the no attack scenario and against well-known untargeted adversarial attacks (e.g., Projected Gradient Descent or PGD, Fast Gradient Sign Method or FGSM, Momentum Iterative Method or MIM attack, and Carlini and Wagner or C&W). We find that our hybrid defense method achieves 99% average traffic sign classification accuracy for the no attack scenario and 88% average traffic sign classification accuracy for all attack scenarios. Moreover, the hybrid defense method, presented in this study, improves the accuracy for traffic sign classification compared to the traditional defense methods (i.e., JPEG filtering, feature squeezing, binary filtering, and random filtering) up to 6%, 50%, and 55% for FGSM, MIM, and PGD attacks, respectively.
翻訳日:2022-05-08 23:38:25 公開日:2022-04-25
# TEMOS:テキスト記述から多様な人間の動作を生成する

TEMOS: Generating diverse human motions from textual descriptions ( http://arxiv.org/abs/2204.14109v1 )

ライセンス: Link先を確認
Mathis Petrovich, Michael J. Black, G\"ul Varol(参考訳) テキスト記述から多様な3次元人間の動きを生成する問題に対処する。 この困難なタスクには、テキストから有用な人間中心の情報を理解し抽出し、人間のポーズの現実的なシーケンスを生成するという、両方のモダリティの合同モデリングが必要です。 テキスト記述から単一の決定論的動作を生成することに焦点を当てたこれまでのほとんどの作業とは対照的に、複数の多様な人間の動きを生成できる変分的アプローチをデザインする。 本研究では,変動オートエンコーダ(VAE)トレーニングと人間の動作データを組み合わせたテキスト条件生成モデルであるTEMOSと,VAE潜在空間と互換性のある分散パラメータを生成するテキストエンコーダを提案する。 TEMOSフレームワークは,従来のような骨格に基づくアニメーションと,より表現力のあるSMPLボディモーションの両方を生成可能であることを示す。 我々は,kitモーション言語ベンチマークのアプローチを評価し,比較的単純ではあるが,最先端技術に対する大幅な改善を示す。 コードとモデルは、私たちのプロジェクトページで利用可能です。

We address the problem of generating diverse 3D human motions from textual descriptions. This challenging task requires joint modeling of both modalities: understanding and extracting useful human-centric information from the text, and then generating plausible and realistic sequences of human poses. In contrast to most previous work which focuses on generating a single, deterministic, motion from a textual description, we design a variational approach that can produce multiple diverse human motions. We propose TEMOS, a text-conditioned generative model leveraging variational autoencoder (VAE) training with human motion data, in combination with a text encoder that produces distribution parameters compatible with the VAE latent space. We show that TEMOS framework can produce both skeleton-based animations as in prior work, as well more expressive SMPL body motions. We evaluate our approach on the KIT Motion-Language benchmark and, despite being relatively straightforward, demonstrate significant improvements over the state of the art. Code and models are available on our project page.
翻訳日:2022-05-08 23:11:30 公開日:2022-04-25
# (参考訳) physioGAN: 生体センサー読み取りのための高忠実度生成モデルの訓練

PhysioGAN: Training High Fidelity Generative Model for Physiological Sensor Readings ( http://arxiv.org/abs/2204.13597v1 )

ライセンス: CC BY 4.0
Moustafa Alzantot, Luis Garcia, Mani Srivastava(参考訳) 変分オートエンコーダ (vae) やgan (generative adversarial network) のような生成モデルは、実世界のデータセット、特に画像や自然言語テキストの文脈において、統計的特性と有用性を保持する合成データの生成に非常に強力であることが証明されている。 それにもかかわらず、これまで、どちらの方法でも有用な生理的感覚データを生成する方法の実証は成功していない。 この文脈における最先端の技術は、限られた成功しか達成していない。 PHYSIOGANは高忠実性合成生理学的センサーデータ読取のための生成モデルである。 PHYSIOGANはエンコーダ、デコーダ、識別器で構成される。 我々はPHYSIOGANを2つの現実世界データセット(ECG分類とモーションセンサーデータセットからのアクティビティ認識)を用いて最先端技術と比較した。 我々は,PHYSIOGANとベースラインモデルを比較し,クラス条件生成の精度だけでなく,合成データセットのサンプル多様性とサンプル新規性も比較した。 PHYSIOGANが生成した合成データのみに基づいて学習した分類モデルは、実データに基づいて学習した分類モデルと比較して10%と20%しか分類精度を低下させていないことを示す。 さらに,センサデータ計算におけるPHYSIOGANの有効利用を実証した。

Generative models such as the variational autoencoder (VAE) and the generative adversarial networks (GAN) have proven to be incredibly powerful for the generation of synthetic data that preserves statistical properties and utility of real-world datasets, especially in the context of image and natural language text. Nevertheless, until now, there has no successful demonstration of how to apply either method for generating useful physiological sensory data. The state-of-the-art techniques in this context have achieved only limited success. We present PHYSIOGAN, a generative model to produce high fidelity synthetic physiological sensor data readings. PHYSIOGAN consists of an encoder, decoder, and a discriminator. We evaluate PHYSIOGAN against the state-of-the-art techniques using two different real-world datasets: ECG classification and activity recognition from motion sensors datasets. We compare PHYSIOGAN to the baseline models not only the accuracy of class conditional generation but also the sample diversity and sample novelty of the synthetic datasets. We prove that PHYSIOGAN generates samples with higher utility than other generative models by showing that classification models trained on only synthetic data generated by PHYSIOGAN have only 10% and 20% decrease in their classification accuracy relative to classification models trained on the real data. Furthermore, we demonstrate the use of PHYSIOGAN for sensor data imputation in creating plausible results.
翻訳日:2022-04-30 08:14:20 公開日:2022-04-25
# (参考訳) 機械学習によるメッシュレスステンシル評価

Meshless method stencil evaluation with machine learning ( http://arxiv.org/abs/2204.12940v1 )

ライセンス: CC BY 4.0
Miha Rot, Aleksandra Rashkovska(参考訳) メッシュレス法は、多くの興味深い利点を持つ数値解析の活発で現代的な分野である。 ローカルなメッシュレスメソッドに関連する主要なオープンな研究の1つは、計算の基盤となる最適なステンシル(近隣ノードのコレクション)を選択する方法である。 本稿では,ラベル付きステンシルデータセットの生成手順を説明し,ポイントクラウドに基づく深層学習ネットワークであるpointNet の変動を利用して,ステンシルの品質を分類する手法を提案する。 我々はpointnetの機能を利用して、異なるサイズのステンシルを分類し、単一のステンシルサイズに特化したモデルと比較できるモデルを実装した。 このモデルは、曲線(AUC)の約0.90の範囲で、最高のステンシルと最悪のステンシルを検出するのに特に適している。 メッシュレスドメインでは、さらなる改善と直接的なアプリケーションの可能性が大きい。

Meshless methods are an active and modern branch of numerical analysis with many intriguing benefits. One of the main open research questions related to local meshless methods is how to select the best possible stencil - a collection of neighbouring nodes - to base the calculation on. In this paper, we describe the procedure for generating a labelled stencil dataset and use a variation of pointNet - a deep learning network based on point clouds - to create a classifier for the quality of the stencil. We exploit features of pointNet to implement a model that can be used to classify differently sized stencils and compare it against models dedicated to a single stencil size. The model is particularly good at detecting the best and the worst stencils with a respectable area under the curve (AUC) metric of around 0.90. There is much potential for further improvement and direct application in the meshless domain.
翻訳日:2022-04-29 06:21:18 公開日:2022-04-25
# (参考訳) 高次元における投影的信念ネットワークの利用

Using the Projected Belief Network at High Dimensions ( http://arxiv.org/abs/2204.12922v1 )

ライセンス: CC BY 4.0
Paul M Baggenstoss(参考訳) 予測信頼ネットワーク(PBN)は、求心性を持つ層状生成ネットワーク(LGN)であり、フィードフォワードニューラルネットワーク(FFNN)に基づいている。 PBNには確率的および決定論的(D-PBN)の2つのバージョンがあり、それぞれが他のLGNに対して理論的に有利である。 しかしながら、PBNの実装には、M が層出力次元である各層における M X M の大きさの対称行列の反転を含む反復アルゴリズムが必要である。 ネットワークは常に各層で次元還元されなければならないという事実は、PBNを適用することができる問題の種類を制限することができる。 本稿では,これらの制約を回避あるいは緩和し,PBNを高次元で効果的に利用する手法について述べる。 音響事象の高次元スペクトルの分類と自動符号化にPBN(PBN-DA)を適用した。 また,d-pbnを初めて識別的にアライメントした。

The projected belief network (PBN) is a layered generative network (LGN) with tractable likelihood function, and is based on a feed-forward neural network (FFNN). There are two versions of the PBN: stochastic and deterministic (D-PBN), and each has theoretical advantages over other LGNs. However, implementation of the PBN requires an iterative algorithm that includes the inversion of a symmetric matrix of size M X M in each layer, where M is the layer output dimension. This, and the fact that the network must be always dimension-reducing in each layer, can limit the types of problems where the PBN can be applied. In this paper, we describe techniques to avoid or mitigate these restrictions and use the PBN effectively at high dimension. We apply the discriminatively aligned PBN (PBN-DA) to classifying and auto-encoding high-dimensional spectrograms of acoustic events. We also present the discriminatively aligned D-PBN for the first time.
翻訳日:2022-04-29 06:13:32 公開日:2022-04-25
# (参考訳) ホスト型ログにおける異常検出のためのトポロジデータ解析

Topological Data Analysis for Anomaly Detection in Host-Based Logs ( http://arxiv.org/abs/2204.12919v1 )

ライセンス: CC BY 4.0
Thomas Davies(参考訳) トポロジカルデータ分析(TDA)は、専門家にサイバーセキュリティデータのグローバルな構造を分析する能力を与える。 我々はオープンソースのLogging Made Easy(LME)プロジェクトで収集したホストベースのログの異常検出にTDAを使用している。 そこで本研究では,Windowsログから直接simplicial Complexのフィルタリングを構築し,トポロジカルツールを用いてその内在構造を解析する手法を提案する。 連続ホモロジーとグラフおよびハイパーグラフのスペクトルの有効性を,事象をカウントする標準ログ埋め込みに対する特徴ベクトルとして比較し,標準埋め込みに相補的な異常ログを分類するための識別情報を含むコンピュータログの位相的およびスペクトル埋め込みを見出した。 最終的には、異常検出のための説明可能なフレームワークの一部として、メソッドが使用される可能性について議論する。

Topological Data Analysis (TDA) gives practioners the ability to analyse the global structure of cybersecurity data. We use TDA for anomaly detection in host-based logs collected with the open-source Logging Made Easy (LME) project. We present an approach that builds a filtration of simplicial complexes directly from Windows logs, enabling analysis of their intrinsic structure using topological tools. We compare the efficacy of persistent homology and the spectrum of graph and hypergraph Laplacians as feature vectors against a standard log embedding that counts events, and find that topological and spectral embeddings of computer logs contain discriminative information for classifying anomalous logs that is complementary to standard embeddings. We end by discussing the potential for our methods to be used as part of an explainable framework for anomaly detection.
翻訳日:2022-04-29 06:03:46 公開日:2022-04-25
# (参考訳) ai支援認証:最先端技術,分類学,今後のロードマップ

AI-Assisted Authentication: State of the Art, Taxonomy and Future Roadmap ( http://arxiv.org/abs/2204.12492v1 )

ライセンス: CC BY 4.0
Guangyi Zhu and Yasir Al-Qaraghuli(参考訳) 人工知能(AI)は、その応用をデータサイエンスからサイバーセキュリティまで、さまざまな環境で発見している。 AIは従来のアルゴリズムの限界を突破し、問題を解決するためのより効率的で柔軟な方法を提供する。 本稿では,建物へのアクセスに顔認証,スマートフォンのアンロックにキーストロークダイナミクスなど,幅広いシナリオで使用される認証における人工知能の応用について述べる。 新たなAI支援認証スキームによって、我々の総合的な調査は、この領域における将来の研究の道を開く、ハイレベルな理解を提供する。 他の関連する調査とは対照的に、我々の研究は、認証におけるAIの役割に焦点を合わせた最初のものだ。

Artificial Intelligence (AI) has found its applications in a variety of environments ranging from data science to cybersecurity. AI helps break through the limitations of traditional algorithms and provides more efficient and flexible methods for solving problems. In this paper, we focus on the applications of artificial intelligence in authentication, which is used in a wide range of scenarios including facial recognition to access buildings, keystroke dynamics to unlock smartphones. With the emerging AI-assisted authentication schemes, our comprehensive survey provides an overall understanding on a high level, which paves the way for future research in this area. In contrast to other relevant surveys, our research is the first of its kind to focus on the roles of AI in authentication.
翻訳日:2022-04-29 05:51:38 公開日:2022-04-25
# 機械学習のための学習可能な複合活性化関数

Trainable Compound Activation Functions for Machine Learning ( http://arxiv.org/abs/2204.12920v1 )

ライセンス: Link先を確認
Paul M. Baggenstoss(参考訳) 活性化関数(AF)は、関数の近似を可能にするニューラルネットワークに必要なコンポーネントであるが、現在の使用時のAFは通常、単調に増大する関数である。 本稿では、シフトおよびスケールされた単純なAFの和からなるトレーニング可能な化合物AF(TCA)を提案する。 TCAは付加層に比べてパラメータが少ないネットワークの有効性を高める。 TCAsは、混合分布を用いてデータの各次元の辺分布を効果的に推定し、モダリティを低減し、線形次元の低減をより効果的にするため、生成ネットワークにおいて特別な解釈を持つ。 制限ボルツマン機械(RBM)で使用されると、混合確率単位を持つ新しいタイプのRBMとなる。 RBM、深い信念ネットワーク(DBN)、投影された信念ネットワーク(PBN)、変分自動エンコーダ(VAE)を用いた実験で、性能の向上が示されている。

Activation functions (AF) are necessary components of neural networks that allow approximation of functions, but AFs in current use are usually simple monotonically increasing functions. In this paper, we propose trainable compound AF (TCA) composed of a sum of shifted and scaled simple AFs. TCAs increase the effectiveness of networks with fewer parameters compared to added layers. TCAs have a special interpretation in generative networks because they effectively estimate the marginal distributions of each dimension of the data using a mixture distribution, reducing modality and making linear dimension reduction more effective. When used in restricted Boltzmann machines (RBMs), they result in a novel type of RBM with mixture-based stochastic units. Improved performance is demonstrated in experiments using RBMs, deep belief networks (DBN), projected belief networks (PBN), and variational auto-encoders (VAE).
翻訳日:2022-04-28 14:10:02 公開日:2022-04-25
# (参考訳) がん境界検出のためのビッグデータを提供するFederated Learning

Federated Learning Enables Big Data for Rare Cancer Boundary Detection ( http://arxiv.org/abs/2204.10836v2 )

ライセンス: CC BY 4.0
Sarthak Pati, Ujjwal Baid, Brandon Edwards, Micah Sheller, Shih-Han Wang, G Anthony Reina, Patrick Foley, Alexey Gruzdev, Deepthi Karkada, Christos Davatzikos, Chiharu Sako, Satyam Ghodasara, Michel Bilello, Suyash Mohan, Philipp Vollmuth, Gianluca Brugnara, Chandrakanth J Preetha, Felix Sahm, Klaus Maier-Hein, Maximilian Zenk, Martin Bendszus, Wolfgang Wick, Evan Calabrese, Jeffrey Rudie, Javier Villanueva-Meyer, Soonmee Cha, Madhura Ingalhalikar, Manali Jadhav, Umang Pandey, Jitender Saini, John Garrett, Matthew Larson, Robert Jeraj, Stuart Currie, Russell Frood, Kavi Fatania, Raymond Y Huang, Ken Chang, Carmen Balana, Jaume Capellades, Josep Puig, Johannes Trenkler, Josef Pichler, Georg Necker, Andreas Haunschmidt, Stephan Meckel, Gaurav Shukla, Spencer Liem, Gregory S Alexander, Joseph Lombardo, Joshua D Palmer, Adam E Flanders, Adam P Dicker, Haris I Sair, Craig K Jones, Archana Venkataraman, Meirui Jiang, Tiffany Y So, Cheng Chen, Pheng Ann Heng, Qi Dou, Michal Kozubek, Filip Lux, Jan Mich\'alek, Petr Matula, Milo\v{s} Ke\v{r}kovsk\'y, Tereza Kop\v{r}ivov\'a, Marek Dost\'al, V\'aclav Vyb\'ihal, Michael A Vogelbaum, J Ross Mitchell, Joaquim Farinhas, Joseph A Maldjian, Chandan Ganesh Bangalore Yogananda, Marco C Pinho, Divya Reddy, James Holcomb, Benjamin C Wagner, Benjamin M Ellingson, Timothy F Cloughesy, Catalina Raymond, Talia Oughourlian, Akifumi Hagiwara, Chencai Wang, Minh-Son To, Sargam Bhardwaj, Chee Chong, Marc Agzarian, Alexandre Xavier Falc\~ao, Samuel B Martins, Bernardo C A Teixeira, Fl\'avia Sprenger, David Menotti, Diego R Lucio, Pamela LaMontagne, Daniel Marcus, Benedikt Wiestler, Florian Kofler, Ivan Ezhov, Marie Metz, Rajan Jain, Matthew Lee, Yvonne W Lui, Richard McKinley, Johannes Slotboom, Piotr Radojewski, Raphael Meier, Roland Wiest, Derrick Murcia, Eric Fu, Rourke Haas, John Thompson, David Ryan Ormond, Chaitra Badve, Andrew E Sloan, Vachan Vadmal, Kristin Waite, Rivka R Colen, Linmin Pei, Murat Ak, Ashok Srinivasan, J Rajiv Bapuraj, Arvind Rao, Nicholas Wang, Ota Yoshiaki, Toshio Moritani, Sevcan Turk, Joonsang Lee, Snehal Prabhudesai, Fanny Mor\'on, Jacob Mandel, Konstantinos Kamnitsas, Ben Glocker, Luke V M Dixon, Matthew Williams, Peter Zampakis, Vasileios Panagiotopoulos, Panagiotis Tsiganos, Sotiris Alexiou, Ilias Haliassos, Evangelia I Zacharaki, Konstantinos Moustakas, Christina Kalogeropoulou, Dimitrios M Kardamakis, Yoon Seong Choi, Seung-Koo Lee, Jong Hee Chang, Sung Soo Ahn, Bing Luo, Laila Poisson, Ning Wen, Pallavi Tiwari, Ruchika Verma, Rohan Bareja, Ipsa Yadav, Jonathan Chen, Neeraj Kumar, Marion Smits, Sebastian R van der Voort, Ahmed Alafandi, Fatih Incekara, Maarten MJ Wijnenga, Georgios Kapsas, Renske Gahrmann, Joost W Schouten, Hendrikus J Dubbink, Arnaud JPE Vincent, Martin J van den Bent, Pim J French, Stefan Klein, Yading Yuan, Sonam Sharma, Tzu-Chi Tseng, Saba Adabi, Simone P Niclou, Olivier Keunen, Ann-Christin Hau, Martin Valli\`eres, David Fortin, Martin Lepage, Bennett Landman, Karthik Ramadass, Kaiwen Xu, Silky Chotai, Lola B Chambless, Akshitkumar Mistry, Reid C Thompson, Yuriy Gusev, Krithika Bhuvaneshwar, Anousheh Sayah, Camelia Bencheqroun, Anas Belouali, Subha Madhavan, Thomas C Booth, Alysha Chelliah, Marc Modat, Haris Shuaib, Carmen Dragos, Aly Abayazeed, Kenneth Kolodziej, Michael Hill, Ahmed Abbassy, Shady Gamal, Mahmoud Mekhaimar, Mohamed Qayati, Mauricio Reyes, Ji Eun Park, Jihye Yun, Ho Sung Kim, Abhishek Mahajan, Mark Muzi, Sean Benson, Regina G H Beets-Tan, Jonas Teuwen, Alejandro Herrera-Trujillo, Maria Trujillo, William Escobar, Ana Abello, Jose Bernal, Jhon G\'omez, Joseph Choi, Stephen Baek, Yusung Kim, Heba Ismael, Bryan Allen, John M Buatti, Aikaterini Kotrotsou, Hongwei Li, Tobias Weiss, Michael Weller, Andrea Bink, Bertrand Pouymayou, Hassan F Shaykh, Joel Saltz, Prateek Prasanna, Sampurna Shrestha, Kartik M Mani, David Payne, Tahsin Kurc, Enrique Pelaez, Heydy Franco-Maldonado, Francis Loayza, Sebastian Quevedo, Pamela Guevara, Esteban Torche, Cristobal Mendoza, Franco Vera, Elvis R\'ios, Eduardo L\'opez, Sergio A Velastin, Godwin Ogbole, Dotun Oyekunle, Olubunmi Odafe-Oyibotha, Babatunde Osobu, Mustapha Shu'aibu, Adeleye Dorcas, Mayowa Soneye, Farouk Dako, Amber L Simpson, Mohammad Hamghalam, Jacob J Peoples, Ricky Hu, Anh Tran, Danielle Cutler, Fabio Y Moraes, Michael A Boss, James Gimpel, Deepak Kattil Veettil, Kendall Schmidt, Brian Bialecki, Sailaja Marella, Cynthia Price, Lisa Cimino, Charles Apgar, Prashant Shah, Bjoern Menze, Jill S Barnholtz-Sloan, Jason Martin, Spyridon Bakas(参考訳) 機械学習(ML)は多くの領域で約束されているが、サンプル外データへの一般化性には懸念がある。 これは現在、複数のサイトから多種多様なデータを集中的に共有することで解決されている。 しかし、このような中央集権化は様々な制限によりスケール(あるいは実現不可能)が困難である。 Federated ML (FL) は数値モデルのアップデートを共有するだけで、正確で一般化可能なMLモデルをトレーニングする代替手段を提供する。 6大陸にわたる71の医療機関のデータを含む、これまでで最大のfl研究から得られた知見により、グリオブラスト腫のまれな疾患に対する腫瘍境界の自動検出装置が作成され、文献で使用された患者の最大のデータセット(6,314人の患者から25,256件のmriスキャン)を用いている。 当科では, 外科的に標的とした腫瘍の悪性度を高めるために, 33%の改善率を示し, 腫瘍全体に対する23%の改善率を示した。 我々は研究を期待する。 1) 大規模・多種多様なデータによる医療研究の促進, まれな疾患や人口不足に対する有意義な結果の確保。 2)最終的な公開のためのコンセンサスモデルの性能最適化によるグリオ芽腫の定量的解析の促進 3)マルチサイトコラボレーションのパラダイムシフトとしてのflの有効性とタスク複雑性を実証し,データ共有の必要性を緩和する。

Although machine learning (ML) has shown promise in numerous domains, there are concerns about generalizability to out-of-sample data. This is currently addressed by centrally sharing ample, and importantly diverse, data from multiple sites. However, such centralization is challenging to scale (or even not feasible) due to various limitations. Federated ML (FL) provides an alternative to train accurate and generalizable ML models, by only sharing numerical model updates. Here we present findings from the largest FL study to-date, involving data from 71 healthcare institutions across 6 continents, to generate an automatic tumor boundary detector for the rare disease of glioblastoma, utilizing the largest dataset of such patients ever used in the literature (25,256 MRI scans from 6,314 patients). We demonstrate a 33% improvement over a publicly trained model to delineate the surgically targetable tumor, and 23% improvement over the tumor's entire extent. We anticipate our study to: 1) enable more studies in healthcare informed by large and diverse data, ensuring meaningful results for rare diseases and underrepresented populations, 2) facilitate further quantitative analyses for glioblastoma via performance optimization of our consensus model for eventual public release, and 3) demonstrate the effectiveness of FL at such scale and task complexity as a paradigm shift for multi-site collaborations, alleviating the need for data sharing.
翻訳日:2022-04-28 08:33:35 公開日:2022-04-25
# (参考訳) real or virtual: 背景操作検出システムを用いたビデオ会議

Real or Virtual: A Video Conferencing Background Manipulation-Detection System ( http://arxiv.org/abs/2204.11853v1 )

ライセンス: CC BY 4.0
Ehsan Nowroozi, Yassine Mekdad, Mauro Conti, Simone Milani, Selcuk Uluagac and Berrin Yanikoglu(参考訳) 近年,次世代ビデオ会議技術の普及と普及により,市場規模は飛躍的な成長を遂げた。 このような技術により、異なる地理的領域の参加者は仮想対面ミーティングを行うことができる。 さらに、ユーザーは仮想バックグラウンドを使用して、プライバシー上の懸念から自分の環境を隠したり、特にプロフェッショナルな設定で注意をそらすことができる。 それでも、ユーザーが実際の場所を隠すべきではないシナリオでは、仮想バックグラウンドを現実のものとして主張することで、他の参加者を誤解させる可能性がある。 したがって、仮想背景の真正性を検出するためのツールや戦略を開発することが重要である。 本稿では,実際のビデオ会議と仮想ビデオ会議のユーザ背景を区別する検出戦略を提案する。 検知器は2つの攻撃シナリオに対して堅牢であることを示す。 第1のシナリオでは、検出器が攻撃に気付いていない場合に考慮し、第2のシナリオでは、敵のマルチメディア法医学(すなわち、法医学的に編集されたフレームがトレーニングセットに含まれる)を指す敵の攻撃を検知する。 ビデオ会議用の仮想および実際のバックグラウンドのデータセットが公開されていないため、私たちは独自のデータセットを作成し、それらを公開しました[1]。 次に,敵が考慮する異なる敵の攻撃に対する検知器の頑健性を示す。 最終的に、我々の検出器の性能はCRSPAM1372 [2]の特徴と、攻撃者が選択できる異なる品質要因を持つ幾何変換のような後処理操作に対して重要である。 さらに,性能評価の結果から,99.80%の精度で仮想背景から実物を完全に識別できることがわかった。

Recently, the popularity and wide use of the last-generation video conferencing technologies created an exponential growth in its market size. Such technology allows participants in different geographic regions to have a virtual face-to-face meeting. Additionally, it enables users to employ a virtual background to conceal their own environment due to privacy concerns or to reduce distractions, particularly in professional settings. Nevertheless, in scenarios where the users should not hide their actual locations, they may mislead other participants by claiming their virtual background as a real one. Therefore, it is crucial to develop tools and strategies to detect the authenticity of the considered virtual background. In this paper, we present a detection strategy to distinguish between real and virtual video conferencing user backgrounds. We demonstrate that our detector is robust against two attack scenarios. The first scenario considers the case where the detector is unaware about the attacks and inn the second scenario, we make the detector aware of the adversarial attacks, which we refer to Adversarial Multimedia Forensics (i.e, the forensically-edited frames are included in the training set). Given the lack of publicly available dataset of virtual and real backgrounds for video conferencing, we created our own dataset and made them publicly available [1]. Then, we demonstrate the robustness of our detector against different adversarial attacks that the adversary considers. Ultimately, our detector's performance is significant against the CRSPAM1372 [2] features, and post-processing operations such as geometric transformations with different quality factors that the attacker may choose. Moreover, our performance results shows that we can perfectly identify a real from a virtual background with an accuracy of 99.80%.
翻訳日:2022-04-28 05:16:36 公開日:2022-04-25
# (参考訳) 自然言語処理に基づくアルゴリズムによるアルミニウム合金の摩擦スターリング溶接における情報検索

Information Retrieval in Friction Stir Welding of Aluminum Alloys by using Natural Language Processing based Algorithms ( http://arxiv.org/abs/2204.12309v1 )

ライセンス: CC BY 4.0
Akshansh Mishra(参考訳) テキスト要約(text summarization)は、大きなテキストをいくつかの重要な要素に凝縮し、コンテンツの全体的な印象を与える技術である。 誰かが大量の情報を迅速かつ正確に要約する必要があるとき、それは不可欠になる。 手動で行えば、テキストの要約はコストと時間がかかります。 自然言語処理(NLP)は、人工知能のサブディビジョンであり、データの山から関連する情報を抽出することで、技術と人間の認知のギャップを狭める。 本研究は, 研究論文の要約から, アルミニウム合金の摩擦スターリングに関する科学的情報を集めたものである。 これらの研究から関連する情報を抽出するために、4つの自然言語処理に基づくアルゴリズム、すなわちLatent Semantic Analysis (LSA), Luhn Algorithm, Lex Rank Algorithm, KL-Algorithmが用いられた。 これらのアルゴリズムの精度を評価するために, Gisting Evaluation (ROUGE) のためのRecall-Oriented Understudyを用いた。 その結果,luhnアルゴリズムは他のアルゴリズムと比較してf1スコアが0.413であることがわかった。

Text summarization is a technique for condensing a big piece of text into a few key elements that give a general impression of the content. When someone requires a quick and precise summary of a large amount of information, it becomes vital. If done manually, summarizing text can be costly and time-consuming. Natural Language Processing (NLP) is the sub-division of Artificial Intelligence that narrows down the gap between technology and human cognition by extracting the relevant information from the pile of data. In the present work, scientific information regarding the Friction Stir Welding of Aluminum alloys was collected from the abstract of scholarly research papers. For extracting the relevant information from these research abstracts four Natural Language Processing based algorithms i.e. Latent Semantic Analysis (LSA), Luhn Algorithm, Lex Rank Algorithm, and KL-Algorithm were used. In order to evaluate the accuracy score of these algorithms, Recall-Oriented Understudy for Gisting Evaluation (ROUGE) was used. The results showed that the Luhn Algorithm resulted in the highest f1-Score of 0.413 in comparison to other algorithms.
翻訳日:2022-04-28 05:14:21 公開日:2022-04-25
# (参考訳) 強化指導

Reinforcement Teaching ( http://arxiv.org/abs/2204.11897v1 )

ライセンス: CC BY 4.0
Alex Lewandowski, Calarina Muslimani, Matthew E. Taylor, Jun Luo, Dale Schuurmans(参考訳) 強化教育は,学習者の学習過程を制御するために,強化を通じて指導方針を学習するメタラーニングの枠組みである。 学生の学習過程はマルコフ報酬過程としてモデル化され、教師はその行動空間と誘導マルコフ決定過程と相互作用する。 多くの学習プロセスにおいて,学習可能なパラメータがマルコフ状態を形成することを示す。 本研究では,教師が直接パラメータから学習することを避けるために,学生の状態の表現を入出力行動から学習するパラメータ埋め込み器を提案する。 次に,学習の進歩を活かし,生徒のパフォーマンスを最大化するための教師の報酬を形作る。 強化指導の汎用性を実証するため,教師が指導・強化学習者に対して,学習進行報酬とパラメータ埋め込み状態の組み合わせを用いて,指導・強化学習者を大幅に改善する実験を行った。 これらの結果から,強化学習は異なるアプローチを統一できる表現力のあるフレームワークであるだけでなく,強化学習から得られる多くのツールでメタラーニングを提供する。

We propose Reinforcement Teaching: a framework for meta-learning in which a teaching policy is learned, through reinforcement, to control a student's learning process. The student's learning process is modelled as a Markov reward process and the teacher, with its action-space, interacts with the induced Markov decision process. We show that, for many learning processes, the student's learnable parameters form a Markov state. To avoid having the teacher learn directly from parameters, we propose the Parameter Embedder that learns a representation of a student's state from its input/output behaviour. Next, we use learning progress to shape the teacher's reward towards maximizing the student's performance. To demonstrate the generality of Reinforcement Teaching, we conducted experiments in which a teacher learns to significantly improve supervised and reinforcement learners by using a combination of learning progress reward and a Parameter Embedded state. These results show that Reinforcement Teaching is not only an expressive framework capable of unifying different approaches, but also provides meta-learning with the plethora of tools from reinforcement learning.
翻訳日:2022-04-28 05:06:32 公開日:2022-04-25
# (参考訳) 接地した一階記号的計画表現の学習

Learning First-Order Symbolic Planning Representations That Are Grounded ( http://arxiv.org/abs/2204.11902v1 )

ライセンス: CC BY 4.0
Andr\'es Occhipinti Liberman, Hector Geffner, Blai Bonet(参考訳) 非構造化データから一階計画(アクション)モデルを学習するための2つの主要なアプローチが開発され、状態空間の構造からクリップなアクションスキーマを生成する組合せアプローチと、画像で表される状態からアクションスキーマを生成するディープラーニングアプローチである。 前者のアプローチの利点は、学習されたアクションスキーマが手書きのスキーマに似ていることである。後者の利点は、学習された表現(述語)が画像に基づいており、結果として、画像の観点で新しいインスタンスを与えることができることである。 本研究では,解析画像に基づく一階計画モデルの学習のための新しい定式化を開発し,この2つのアプローチの利点を組み合わせた。 パースされた画像は、単純なO2D言語(オブジェクトは2D)で与えられると仮定され、それは、"left"、"above"、"shape"など、少数の単項述語とバイナリ述語を含む。 学習後、新しいプランニングインスタンスはパースされたイメージのペア、初期状況の1つ、目標の1つで与えられる。 学習と計画の実験はblocks、sokoban、ipc grid、hanoiなどいくつかのドメインで報告されている。

Two main approaches have been developed for learning first-order planning (action) models from unstructured data: combinatorial approaches that yield crisp action schemas from the structure of the state space, and deep learning approaches that produce action schemas from states represented by images. A benefit of the former approach is that the learned action schemas are similar to those that can be written by hand; a benefit of the latter is that the learned representations (predicates) are grounded on the images, and as a result, new instances can be given in terms of images. In this work, we develop a new formulation for learning crisp first-order planning models that are grounded on parsed images, a step to combine the benefits of the two approaches. Parsed images are assumed to be given in a simple O2D language (objects in 2D) that involves a small number of unary and binary predicates like "left", "above", "shape", etc. After learning, new planning instances can be given in terms of pairs of parsed images, one for the initial situation and the other for the goal. Learning and planning experiments are reported for several domains including Blocks, Sokoban, IPC Grid, and Hanoi.
翻訳日:2022-04-28 05:05:26 公開日:2022-04-25
# (参考訳) DArch: 歯科用アーチを用いた3次元歯列分割

DArch: Dental Arch Prior-assisted 3D Tooth Instance Segmentation ( http://arxiv.org/abs/2204.11911v1 )

ライセンス: CC BY 4.0
Liangdong Qiu, Chongjie Ye, Pei Chen, Yunbi Liu, Xiaoguang Han, Shuguang Cui(参考訳) 3次元歯科モデルにおける自動歯列分割は, コンピュータ補綴治療の基本課題である。 既存の学習ベースの手法は、高価なポイントワイズアノテーションに大きく依存している。 この問題を緩和するために,我々は3d歯列分割のための低コストなアノテーション方法,すなわち歯の遠心部と数本の歯のみを歯モデルごとにラベル付けする方法を初めて検討した。 弱アノテーションのみを提供する場合の課題について,DArchという歯科用アーチを用いた3次元歯列分割法を提案する。 私たちのdarchは、歯の遠心検出と歯のインスタンスのセグメンテーションの2段階からなる。 歯の遠心部の正確な検出は、個々の歯の発見に役立ち、セグメンテーションの恩恵を受ける。 そこでDArchは,検出に先立って歯科用アーチを活用することを提案する。 具体的には,まず,ベジエ曲線の回帰によって歯列が生成され,その後にグラフベースの畳み込みネットワーク (GCN) を訓練して改良する歯列列推定法を提案する。 そこで本研究では, 推定した歯列を用いて, 歯の遠心プロポーザル生成を支援する新しいアーチアウェアポイントサンプリング(aps)法を提案する。 一方、セグメンタはパッチベースのトレーニング戦略を使用して独立に訓練され、歯のインスタンスを歯のセントロイドを中心とした3dパッチからセグメント化することを目的としている。 4,773ドルの歯科モデルの実験結果から,darchは歯モデルの歯を精密に切り分けることができ,その性能は最先端の方法よりも優れていることがわかった。

Automatic tooth instance segmentation on 3D dental models is a fundamental task for computer-aided orthodontic treatments. Existing learning-based methods rely heavily on expensive point-wise annotations. To alleviate this problem, we are the first to explore a low-cost annotation way for 3D tooth instance segmentation, i.e., labeling all tooth centroids and only a few teeth for each dental model. Regarding the challenge when only weak annotation is provided, we present a dental arch prior-assisted 3D tooth segmentation method, namely DArch. Our DArch consists of two stages, including tooth centroid detection and tooth instance segmentation. Accurately detecting the tooth centroids can help locate the individual tooth, thus benefiting the segmentation. Thus, our DArch proposes to leverage the dental arch prior to assist the detection. Specifically, we firstly propose a coarse-to-fine method to estimate the dental arch, in which the dental arch is initially generated by Bezier curve regression, and then a graph-based convolutional network (GCN) is trained to refine it. With the estimated dental arch, we then propose a novel Arch-aware Point Sampling (APS) method to assist the tooth centroid proposal generation. Meantime, a segmentor is independently trained using a patch-based training strategy, aiming to segment a tooth instance from a 3D patch centered at the tooth centroid. Experimental results on $4,773$ dental models have shown our DArch can accurately segment each tooth of a dental model, and its performance is superior to the state-of-the-art methods.
翻訳日:2022-04-28 04:10:08 公開日:2022-04-25
# (参考訳) Super-Prompting: Visual Commonsenseタスクに必要なデータアノテーションを減らすためにモデルに依存しないコンテキストデータを活用する

Super-Prompting: Utilizing Model-Independent Contextual Data to Reduce Data Annotation Required in Visual Commonsense Tasks ( http://arxiv.org/abs/2204.11922v1 )

ライセンス: CC BY 4.0
Navid Rezaei and Marek Z. Reformat(参考訳) 事前訓練された言語モデルは、文脈内学習を用いた数ショット学習シナリオにおいて優れた結果を示している。 印象的ではあるが、言語モデルのサイズは禁止され、センサーやスマートフォンなどのデバイス上のアプリケーションで使用できるようになる。 より小さな言語モデルでは、特定の目的のために言語モデルを微調整するためにタスク固有のデータアノテーションが必要です。 しかし、データアノテーションは小さな研究グループやスタートアップ、さらには企業にとって大きな経済的・時間的負担を負う可能性がある。 本稿では,様々なプロンプトに基づく微調整手法を分析し,言語モデルとマルチモーダル因果変換モデルの両方の結果を改善する。 結果を評価するために,視覚的常識推論に着目したデータセットを用いた。 その結果、モデルに依存しないプロンプトベースの微調整により、比較結果が35%-40%の微調整トレーニングデータセットでしか達成できないことがわかった。 提案されたアプローチは、かなりの時間と財政的節約をもたらす。 提案手法がアーキテクチャ上の仮定を最小にするため、他の研究者は最小限の適応でトランスフォーマーモデルの結果を使うことができる。 コミュニティが私たちの作業を簡単に利用し、貢献できるように、ソースコードを自由にリリースする予定です。

Pre-trained language models have shown excellent results in few-shot learning scenarios using in-context learning. Although it is impressive, the size of language models can be prohibitive to make them usable in on-device applications, such as sensors or smartphones. With smaller language models, task-specific data annotation is needed to fine-tune the language model for a specific purpose. However, data annotation can have a substantial financial and time burden for small research groups, startups, and even companies. In this paper, we analyze different prompt-based fine-tuning techniques to improve results on both language and multimodal causal transformer models. To evaluate our results, we use a dataset focusing on visual commonsense reasoning in time. Our results show that by simple model-agnostic prompt-based fine-tuning, comparable results can be reached by only using 35%-40% of the fine-tuning training dataset. The proposed approaches result in significant time and financial savings. As the proposed methods make minimal architectural assumptions, other researchers can use the results in their transformer models with minimal adaptations. We plan to release the source code freely to make it easier for the community to use and contribute to our work.
翻訳日:2022-04-28 03:56:00 公開日:2022-04-25
# (参考訳) 一般分布依存を伴う高次元マッケイン・ブラソフ前方確率微分方程式の学習

Learning High-Dimensional McKean-Vlasov Forward-Backward Stochastic Differential Equations with General Distribution Dependence ( http://arxiv.org/abs/2204.11924v1 )

ライセンス: CC BY 4.0
Jiequn Han, Ruimeng Hu, Jihao Long(参考訳) 平均場制御と平均場ゲームにおける主要な問題の1つは、対応するmckean-vlasov forward-backward stochastic differential equation (mv-fbsdes) を解くことである。 既存の手法の多くは、平均場相互作用が期待や他のモーメントにのみ依存する特別な場合に合わせたものであるため、平均場相互作用が完全な分布依存性を持つ場合の問題を解決するには不十分である。 本稿では,MV-FBSDEを平均場相互作用の一般形式で計算するための新しいディープラーニング手法を提案する。 具体的には、架空の遊びに基づいて、問題を明示的な係数関数を持つ標準 fbsd の繰り返し解に再キャストする。 これらの係数関数は、MV-FBSDEsモデル係数を全分布依存性に近似するために使用され、前回の反復のFBSDEソリューションからシミュレーションしたトレーニングデータを用いて、別の監視学習問題を解くことで更新される。 我々は,高次元mv-fbsdesを解くために,ディープニューラルネットワークを用いて標準bsdと近似係数関数を解く。 学習関数の適切な仮定の下で、提案手法の収束は、[Han, Hu and Long, arXiv:2104.12036] で以前に開発された一般化された最大平均誤差計量を用いて、次元の呪い(CoD)のないことを証明した。 証明された定理は、高次元での方法の利点を示している。 本稿では,前処理の完全分布に依存するCucker-Smaleモデルの平均フィールドゲーム例を含む,高次元MV-FBSDE問題における数値性能について述べる。

One of the core problems in mean-field control and mean-field games is to solve the corresponding McKean-Vlasov forward-backward stochastic differential equations (MV-FBSDEs). Most existing methods are tailored to special cases in which the mean-field interaction only depends on expectation or other moments and thus inadequate to solve problems when the mean-field interaction has full distribution dependence. In this paper, we propose a novel deep learning method for computing MV-FBSDEs with a general form of mean-field interactions. Specifically, built on fictitious play, we recast the problem into repeatedly solving standard FBSDEs with explicit coefficient functions. These coefficient functions are used to approximate the MV-FBSDEs' model coefficients with full distribution dependence, and are updated by solving another supervising learning problem using training data simulated from the last iteration's FBSDE solutions. We use deep neural networks to solve standard BSDEs and approximate coefficient functions in order to solve high-dimensional MV-FBSDEs. Under proper assumptions on the learned functions, we prove that the convergence of the proposed method is free of the curse of dimensionality (CoD) by using the generalized maximum mean discrepancy metric previously developed in [Han, Hu and Long, arXiv:2104.12036]. The proved theorem shows the advantage of the method in high dimensions. We present the numerical performance in high-dimensional MV-FBSDE problems, including a mean-field game example of the well-known Cucker-Smale model whose cost depends on the full distribution of the forward process.
翻訳日:2022-04-28 03:45:41 公開日:2022-04-25
# (参考訳) 確率wav2vec 2.0によるオンデマンド計算量削減

On-demand compute reduction with stochastic wav2vec 2.0 ( http://arxiv.org/abs/2204.11934v1 )

ライセンス: CC BY 4.0
Apoorv Vyas, Wei-Ning Hsu, Michael Auli, Alexei Baevski(参考訳) Squeeze and Efficient Wav2vec (SEW)は、最近提案されたアーキテクチャで、トランスフォーマーエンコーダへの入力を圧縮し、wav2vec 2.0 (W2V2)モデルによる効率的な事前学習と推論を行う。 本稿では,W2V2モデルのオンデマンド計算量削減のための確率圧縮を提案する。 固定シャープファクタの使用とは対照的に,トレーニング中に一様にサンプリングする。 さらに、各トランス層に適用可能なクエリおよびキー値プーリング機構を導入し、さらなる圧縮を行う。 960h librispeechデータセットで事前学習し、10hの書き起こしデータを微調整した結果、同じ確率モデルを用いて、特定の設定のために訓練されたw2v2とsewモデルと比較して、単語誤り率(wer)と予測時間とのスムーズなトレードオフが得られた。 さらに,同じ確率的に事前学習されたモデルを特定の構成に微調整することで,事前学習モデルの計算量を大幅に削減できることを示した。

Squeeze and Efficient Wav2vec (SEW) is a recently proposed architecture that squeezes the input to the transformer encoder for compute efficient pre-training and inference with wav2vec 2.0 (W2V2) models. In this work, we propose stochastic compression for on-demand compute reduction for W2V2 models. As opposed to using a fixed squeeze factor, we sample it uniformly during training. We further introduce query and key-value pooling mechanisms that can be applied to each transformer layer for further compression. Our results for models pre-trained on 960h Librispeech dataset and fine-tuned on 10h of transcribed data show that using the same stochastic model, we get a smooth trade-off between word error rate (WER) and inference time with only marginal WER degradation compared to the W2V2 and SEW models trained for a specific setting. We further show that we can fine-tune the same stochastically pre-trained model to a specific configuration to recover the WER difference resulting in significant computational savings on pre-training models from scratch.
翻訳日:2022-04-28 03:10:39 公開日:2022-04-25
# (参考訳) ロバストデュアルグラフ正規化移動物体検出

Robust Dual-Graph Regularized Moving Object Detection ( http://arxiv.org/abs/2204.11939v1 )

ライセンス: CC BY 4.0
Jing Qin, Ruilong Shen, Ruihan Zhu and Biyun Xie(参考訳) 移動物体の検出とその背景と地上の分離は、コンピュータビジョン、輸送、監視を含む多くのアプリケーションで広く利用されている。 静的な背景が存在するため、ビデオは自然に低ランクの背景と粗末な前景に分解することができる。 行列核ノルムのような多くの正規化手法が背景に課されている。 一方、全変動や$\ell_1$のようなスムーズさや滑らかさに基づく正規化は前景に課すことができる。 さらに、グラフラプラシアンは背景画像の複雑な幾何学を捉えるためにさらに強制される。 近年, 画像処理コミュニティにおいて, 高速な性能を実現しつつ, 適応性向上を図るために, 重み付き核ノルム正規化を含む重み付き正規化技術が提案されている。 本稿では、重み付けされた核ノルム正規化に基づくロバストなデュアルグラフ正規化移動物体検出モデルを提案し、乗算器の交互方向法(ADMM)を用いて解決する。 身体運動データセットの数値実験は、移動物体を背景から分離する際のこの手法の有効性とロボット応用における大きな可能性を示した。

Moving object detection and its associated background-foreground separation have been widely used in a lot of applications, including computer vision, transportation and surveillance. Due to the presence of the static background, a video can be naturally decomposed into a low-rank background and a sparse foreground. Many regularization techniques, such as matrix nuclear norm, have been imposed on the background. In the meanwhile, sparsity or smoothness based regularizations, such as total variation and $\ell_1$, can be imposed on the foreground. Moreover, graph Laplacians are further imposed to capture the complicated geometry of background images. Recently, weighted regularization techniques including the weighted nuclear norm regularization have been proposed in the image processing community to promote adaptive sparsity while achieving efficient performance. In this paper, we propose a robust dual-graph regularized moving object detection model based on the weighted nuclear norm regularization, which is solved by the alternating direction method of multipliers (ADMM). Numerical experiments on body movement data sets have demonstrated the effectiveness of this method in separating moving objects from background, and the great potential in robotic applications.
翻訳日:2022-04-28 03:01:33 公開日:2022-04-25
# (参考訳) ネットワークカスケードにおける計算の自然発生

Spontaneous Emergence of Computation in Network Cascades ( http://arxiv.org/abs/2204.11956v1 )

ライセンス: CC BY 4.0
Galen Wilkerson, Sotiris Moschoyiannis, Henrik Jeldtoft Jensen(参考訳) 雪崩支援ネットワークによるニューロンネットワークの計算と計算は、物理学、コンピュータ科学(統計学や機械学習と同様に計算理論)、神経科学の分野に関心がある。 ここでは,複雑なブール関数の計算が,論理オートマトン(モチーフ)によって計算された接続性とアンタゴニズム(阻害)の関数として閾値ネットワークで自然に発生することを示す。 本稿では,モチーフの計算複雑性とモチーフによる関数確率によるランク順序付けと関数空間の対称性との関係について述べる。 また,ここで観察した抑制の最適分画は,最適な情報処理に関する計算的神経科学の成果を裏付けることを示した。

Neuronal network computation and computation by avalanche supporting networks are of interest to the fields of physics, computer science (computation theory as well as statistical or machine learning) and neuroscience. Here we show that computation of complex Boolean functions arises spontaneously in threshold networks as a function of connectivity and antagonism (inhibition), computed by logic automata (motifs) in the form of computational cascades. We explain the emergent inverse relationship between the computational complexity of the motifs and their rank-ordering by function probabilities due to motifs, and its relationship to symmetry in function space. We also show that the optimal fraction of inhibition observed here supports results in computational neuroscience, relating to optimal information processing.
翻訳日:2022-04-28 02:49:29 公開日:2022-04-25
# (参考訳) 風景三部作-場面スケッチとテキスト・写真との関係について

SceneTrilogy: On Scene Sketches and its Relationship with Text and Photo ( http://arxiv.org/abs/2204.11964v1 )

ライセンス: CC BY 4.0
Pinaki Nath Chowdhury and Ayan Kumar Bhunia and Tao Xiang and Yi-Zhe Song(参考訳) 我々は初めてマルチモーダルなシーン理解を拡張して、フリーハンドのシーンスケッチを含むようにした。 これは、シーンデータモダリティ(スケッチ、テキスト、写真)の三部作となり、それぞれがシーン理解のためのユニークな視点を提供し、同時に、識別(検索)タスクと生成(カプセル化)タスクにまたがる、一連の新しいシーン固有のアプリケーションを可能にする。 我々の主要な目的は、多対多のモダリティ相互作用を可能にする共通の3方向埋め込み空間(例: sketch+text $\rightarrow$ photo search)を学ぶことである。 我々は、この目標を達成するために、情報ボトルネック理論を重要利用します。 (i)条件付きインバータブルニューラルネットワークによるモダリティ固有成分とモダリティ非依存成分間の相互情報を最小化することにより、モダリティ内情報を分離する。 (ii)情報を用いたモダリティ非依存成分間の相互情報を最大化し、多対多のモダリティ相互作用を可能にする特定のマルチヘッドアテンション機構により、 \textit{cross-modalities information}を調整する。 シーン理解のための各モダリティの相補性に関するいくつかの知見を述べ、ジョイントスケッチやテキストベースの画像検索、スケッチキャプションといったシーン固有の応用を初めて研究した。

We for the first time extend multi-modal scene understanding to include that of free-hand scene sketches. This uniquely results in a trilogy of scene data modalities (sketch, text, and photo), where each offers unique perspectives for scene understanding, and together enable a series of novel scene-specific applications across discriminative (retrieval) and generative (captioning) tasks. Our key objective is to learn a common three-way embedding space that enables many-to-many modality interactions (e.g, sketch+text $\rightarrow$ photo retrieval). We importantly leverage the information bottleneck theory to achieve this goal, where we (i) decouple intra-modality information by minimising the mutual information between modality-specific and modality-agnostic components via a conditional invertible neural network, and (ii) align \textit{cross-modalities information} by maximising the mutual information between their modality-agnostic components using InfoNCE, with a specific multihead attention mechanism to allow many-to-many modality interactions. We spell out a few insights on the complementarity of each modality for scene understanding, and study for the first time a series of scene-specific applications like joint sketch- and text-based image retrieval, sketch captioning.
翻訳日:2022-04-28 02:37:54 公開日:2022-04-25
# (参考訳) Recommenderシステムにおける予測シフトの推定とペナライズ

Estimating and Penalizing Induced Preference Shifts in Recommender Systems ( http://arxiv.org/abs/2204.11966v1 )

ライセンス: CC BY 4.0
Micah Carroll, Dylan Hadfield-Menell, Stuart Russell, Anca Dragan(参考訳) 推薦システム(RS)がユーザに示すコンテンツは、それらに影響を与える。 したがって、どのレコメンダをデプロイするかを選択するとき、暗黙的にユーザ内の特定の内部状態を誘導するかを選択する。 さらには、ロングホリゾン最適化によってトレーニングされたシステムは、ユーザを操作するための直接的なインセンティブも備えている。 本研究では,ユーザの嗜好変化に焦点をあてる。 配置前には、システム設計者は、レコメンダが誘発するシフトを見積もる、そのようなシフトが望ましくないかどうかを評価する、さらには問題のあるシフトを避けるために積極的に最適化する、と論じている。 These steps involve two challenging ingredients: estimation requires anticipating how hypothetical policies would influence user preferences if deployed - we do this by using historical user interaction data to train predictive user model which implicitly contains their preference dynamics; evaluation and optimization additionally require metrics to assess whether such influences are manipulative or otherwise unwanted - we use the notion of "safe shifts", that define a trust region within which behavior is safe. シミュレーション実験では,学習した選好ダイナミクスモデルが,ユーザの選好推定に有効であること,新たなレコメンダに対する反応の仕方を示す。 さらに,信頼領域に留まることを最適化したレコメンダは,エンゲージメントを発生させながらマニピュレーション行動を回避することができることを示した。

The content that a recommender system (RS) shows to users influences them. Therefore, when choosing which recommender to deploy, one is implicitly also choosing to induce specific internal states in users. Even more, systems trained via long-horizon optimization will have direct incentives to manipulate users, e.g. shift their preferences so they are easier to satisfy. In this work we focus on induced preference shifts in users. We argue that - before deployment - system designers should: estimate the shifts a recommender would induce; evaluate whether such shifts would be undesirable; and even actively optimize to avoid problematic shifts. These steps involve two challenging ingredients: estimation requires anticipating how hypothetical policies would influence user preferences if deployed - we do this by using historical user interaction data to train predictive user model which implicitly contains their preference dynamics; evaluation and optimization additionally require metrics to assess whether such influences are manipulative or otherwise unwanted - we use the notion of "safe shifts", that define a trust region within which behavior is safe. In simulated experiments, we show that our learned preference dynamics model is effective in estimating user preferences and how they would respond to new recommenders. Additionally, we show that recommenders that optimize for staying in the trust region can avoid manipulative behaviors while still generating engagement.
翻訳日:2022-04-28 02:09:43 公開日:2022-04-25
# (参考訳) 機械学習に基づくマルチステージシステムを用いた実生活患者の視力予測

Visual Acuity Prediction on Real-Life Patient Data Using a Machine Learning Based Multistage System ( http://arxiv.org/abs/2204.11970v1 )

ライセンス: CC BY 4.0
Tobias Schlosser, Frederik Beuth, Trixy Meyer, Arunodhayan Sampath Kumar, Gabriel Stolze, Olga Furashova, Katrin Engelmann, Danny Kowerko(参考訳) 眼科領域では、硝子体手術療法(IVOM)は、加齢性黄斑変性症(AMD)、糖尿病性黄斑浮腫(DME)、網膜静脈閉塞症(RVO)などの疾患に対して広く用いられる。 しかし, 実世界の状況では, 患者は治療にもかかわらず, 何年もの時間スケールで視力の低下に苦しむことが多いが, 視力の予測や, 実生活環境下での劣化の早期発見は不均一で不完全なデータのため困難である。 本稿では,ドイツの最大医療病院の眼科領域の異なるITシステムを融合した研究対応型データコーパスを開発するためのワークフローを提案する。 広範データコーパスは、3つの疾患のそれぞれにおいて、患者とそのVAが予想される進行の予測文を可能にする。 提案する多段階システムでは,vaの進行を治療の「勝利者」,「安定者」,「損失者」の3つのグループに分類した。 深層ニューラルネットワークのアンサンブルを用いたoctバイオマーカーの分類により,分類精度(f1-score)は98%以上となり,不完全なoctドキュメントを完結させながら,より正確なvaモデリングプロセスに活用することが可能となった。 我々のVA予測には、予測時間枠内のVA進行を予測するために、少なくとも4つのVA検査と、同じ期間のOCTバイオマーカーが必要である。 3つのWSLベースの進行群を考慮した場合の予測精度は最大で69 %(マクロ平均F1スコア)に達するが、眼科の専門知識(58 %)と比較して11 %向上した。

In ophthalmology, intravitreal operative medication therapy (IVOM) is widespread treatment for diseases such as the age-related macular degeneration (AMD), the diabetic macular edema (DME), as well as the retinal vein occlusion (RVO). However, in real-world settings, patients often suffer from loss of vision on time scales of years despite therapy, whereas the prediction of the visual acuity (VA) and the earliest possible detection of deterioration under real-life conditions is challenging due to heterogeneous and incomplete data. In this contribution, we present a workflow for the development of a research-compatible data corpus fusing different IT systems of the department of ophthalmology of a German maximum care hospital. The extensive data corpus allows predictive statements of the expected progression of a patient and his or her VA in each of the three diseases. Within our proposed multistage system, we classify the VA progression into the three groups of therapy "winners", "stabilizers", and "losers" (WSL scheme). Our OCT biomarker classification using an ensemble of deep neural networks results in a classification accuracy (F1-score) of over 98 %, enabling us to complete incomplete OCT documentations while allowing us to exploit them for a more precise VA modelling process. Our VA prediction requires at least four VA examinations and optionally OCT biomarkers from the same time period to predict the VA progression within a forecasted time frame. While achieving a prediction accuracy of up to 69 % (macro average F1-score) when considering all three WSL-based progression groups, this corresponds to an improvement by 11 % in comparison to our ophthalmic expertise (58 %).
翻訳日:2022-04-28 01:16:39 公開日:2022-04-25
# (参考訳) C3: クロス言語アドホック検索のためのコントラスト弱スーパービジョンによる事前トレーニング

C3: Continued Pretraining with Contrastive Weak Supervision for Cross Language Ad-Hoc Retrieval ( http://arxiv.org/abs/2204.11989v1 )

ライセンス: CC BY-SA 4.0
Eugene Yang and Suraj Nair and Ramraj Chandradevan and Rebecca Iglesias-Flores and Douglas W. Oard(参考訳) 事前訓練された言語モデルは、アドホック検索を含む多くのタスクの有効性を改善した。 近年の研究では、検索タスクの微調整前に補助目的の言語モデルを事前学習し続ければ、検索効率がさらに向上することが示されている。 単言語検索とは異なり、言語間マッピングのための適切な補助タスクの設計は困難である。 この課題に対処するために、検索タスクを微調整する前に、異なる言語で同等のウィキペディア記事を使用して、市販の多言語事前訓練モデルをさらに事前訓練する。 提案手法が検索効率の向上をもたらすことを示す。

Pretrained language models have improved effectiveness on numerous tasks, including ad-hoc retrieval. Recent work has shown that continuing to pretrain a language model with auxiliary objectives before fine-tuning on the retrieval task can further improve retrieval effectiveness. Unlike monolingual retrieval, designing an appropriate auxiliary task for cross-language mappings is challenging. To address this challenge, we use comparable Wikipedia articles in different languages to further pretrain off-the-shelf multilingual pretrained models before fine-tuning on the retrieval task. We show that our approach yields improvements in retrieval effectiveness.
翻訳日:2022-04-28 00:56:06 公開日:2022-04-25
# リワード最大化と人口推定の統合:内部歳入サービス監査のための逐次意思決定

Integrating Reward Maximization and Population Estimation: Sequential Decision-Making for Internal Revenue Service Audit Selection ( http://arxiv.org/abs/2204.11910v1 )

ライセンス: Link先を確認
Peter Henderson, Ben Chugg, Brandon Anderson, Kristen Altenburger, Alex Turk, John Guyton, Jacob Goldin, Daniel E. Ho(参考訳) 我々は,構造化バンディットを最適化し,評価する新しい設定を導入する。 ここでは、政策は、報酬を最大化し、その報酬の正確な(理想的には偏見のない)人口推定を維持するために、それぞれの状況によって特徴づけられる一連の武器を選択する必要がある。 この設定は、多くのパブリックおよびプライベートセクターアプリケーションに固有のものであり、しばしば遅延したフィードバック、小さなデータ、分散シフトを扱う必要がある。 我々は、米国内国歳入庁(IRS)の実際のデータにその重要性を示す。 IRSは毎年税制の監査を行っている。 その最も重要な目的の2つは、疑わしい報告を識別し、「税格差」を見積もることである。 これら2つのプロセスを統一された最適化と見積の構造化バンドとして配置しました。 基礎的アプローチに匹敵する報酬を得られる不偏人口推定のための新しいメカニズムを提供する。 このアプローチは、税収格差に関する政策関連の推定を維持しながら、監査効果を向上させる可能性がある。 これは、現在の税の格差がおよそ5兆ドルと見積もられていることから、社会的に重要な結果をもたらす。 我々は,この課題の設定はさらなる研究の場であり,その興味深い課題を浮き彫りにする。

We introduce a new setting, optimize-and-estimate structured bandits. Here, a policy must select a batch of arms, each characterized by its own context, that would allow it to both maximize reward and maintain an accurate (ideally unbiased) population estimate of the reward. This setting is inherent to many public and private sector applications and often requires handling delayed feedback, small data, and distribution shifts. We demonstrate its importance on real data from the United States Internal Revenue Service (IRS). The IRS performs yearly audits of the tax base. Two of its most important objectives are to identify suspected misreporting and to estimate the "tax gap" - the global difference between the amount paid and true amount owed. We cast these two processes as a unified optimize-and-estimate structured bandit. We provide a novel mechanism for unbiased population estimation that achieves rewards comparable to baseline approaches. This approach has the potential to improve audit efficacy, while maintaining policy-relevant estimates of the tax gap. This has important social consequences given that the current tax gap is estimated at nearly half a trillion dollars. We suggest that this problem setting is fertile ground for further research and we highlight its interesting challenges.
翻訳日:2022-04-27 15:22:09 公開日:2022-04-25
# Crystal Transformer: 材料の創成・創成設計のための自己学習型ニューラルネットワークモデル

Crystal Transformer: Self-learning neural language model for Generative and Tinkering Design of Materials ( http://arxiv.org/abs/2204.11953v1 )

ライセンス: Link先を確認
Lai Wei, Qinyang Li, Yuqi Song, Stanislav Stefanov, Edirisuriya M. D. Siriwardane, Fanglin Chen, Jianjun Hu(参考訳) 自己教師付きニューラルネットワークモデルは最近、自然言語処理から生物配列や有機分子の言語学習に至るまで、前例のない成功を収めている。 これらのモデルは、学習された表現を持つタンパク質や分子の生成、構造分類、機能予測において優れた性能を示した。 しかしながら、マスクベースの事前学習言語モデルのほとんどは生成設計のために設計されておらず、そのブラックボックスの性質は設計ロジックの解釈を困難にしている。 本稿では, ニューラルネットワークを用いた無機材料の創製・製法設計のための確率的生成モデルBLMM Crystal Transformerを提案する。 本モデルは,テキスト生成のための空白言語モデルに基づいて構築され,高品質な生成,解釈可能性,データ効率とともに,「材料文法」を学習する上で,独特な優位性を示した。 89.7\%の電荷中立性と84.8\%の平衡電子陰性度を持つ化学的に有効な材料組成物を生成でき、これは擬似ランダムサンプリングベースラインよりも4倍、8倍高い。 BLMMの確率的生成プロセスにより、学習した材料化学に基づくティンカー操作を推奨し、材料ドーピングに役立てることができる。 そこで本研究では,TSP冷凍構造予測アルゴリズムと組み合わせて,DFT計算による新しい材料セットの探索を行った。 我々の研究は、教師なしトランスフォーマー言語モデルに基づく生成人工知能を無機材料にもたらす。 ユーザフレンドリーなWebアプリケーションは、計算材料ドーピング用に開発され、 \url{www. Materialssatlas.org/blmtinker} で自由にアクセスできる。

Self-supervised neural language models have recently achieved unprecedented success, from natural language processing to learning the languages of biological sequences and organic molecules. These models have demonstrated superior performance in the generation, structure classification, and functional predictions for proteins and molecules with learned representations. However, most of the masking-based pre-trained language models are not designed for generative design, and their black-box nature makes it difficult to interpret their design logic. Here we propose BLMM Crystal Transformer, a neural network based probabilistic generative model for generative and tinkering design of inorganic materials. Our model is built on the blank filling language model for text generation and has demonstrated unique advantages in learning the "materials grammars" together with high-quality generation, interpretability, and data efficiency. It can generate chemically valid materials compositions with as high as 89.7\% charge neutrality and 84.8\% balanced electronegativity, which are more than 4 and 8 times higher compared to a pseudo random sampling baseline. The probabilistic generation process of BLMM allows it to recommend tinkering operations based on learned materials chemistry and makes it useful for materials doping. Combined with the TCSP crysal structure prediction algorithm, We have applied our model to discover a set of new materials as validated using DFT calculations. Our work thus brings the unsupervised transformer language models based generative artificial intelligence to inorganic materials. A user-friendly web app has been developed for computational materials doping and can be accessed freely at \url{www.materialsatlas.org/blmtinker}.
翻訳日:2022-04-27 15:21:50 公開日:2022-04-25
# グラフ表現学習を用いた異種システムのエンドツーエンドマッピング

End-to-end Mapping in Heterogeneous Systems Using Graph Representation Learning ( http://arxiv.org/abs/2204.11981v1 )

ライセンス: Link先を確認
Yao Xiao, Guixiang Ma, Nesreen K. Ahmed, Mihai Capota, Theodore Willke, Shahin Nazarian, Paul Bogdan(参考訳) 自動プログラミングと最適化機能を備えた異種コンピューティングシステムを実現するために,ハイレベルプログラムの複雑さを普遍的な中間表現にマイニングし,特定の計算パターンを抽出し,異種ハードウェアプラットフォーム内の特定のコア上でどのコードセグメントがベストに動作するかを予測できる,統一的でエンドツーエンドでプログラム可能なグラフ表現学習(PGL)フレームワークを提案する。 提案フレームワークは,コードグラフからマルチフラクタルトポロジ的特徴を抽出し,グラフオートエンコーダを用いてグラフを計算カーネルに分割する方法を学習し,グラフニューラルネットワーク(GNN)を用いてプロセッサタイプへの正しい割り当てを予測する。 評価では,PGLフレームワークを検証し,スレッドベースの実行と比較して最大速度が6.42倍,最先端技術と比較して2.02倍であることを示す。

To enable heterogeneous computing systems with autonomous programming and optimization capabilities, we propose a unified, end-to-end, programmable graph representation learning (PGL) framework that is capable of mining the complexity of high-level programs down to the universal intermediate representation, extracting the specific computational patterns and predicting which code segments would run best on a specific core in heterogeneous hardware platforms. The proposed framework extracts multi-fractal topological features from code graphs, utilizes graph autoencoders to learn how to partition the graph into computational kernels, and exploits graph neural networks (GNN) to predict the correct assignment to a processor type. In the evaluation, we validate the PGL framework and demonstrate a maximum speedup of 6.42x compared to the thread-based execution, and 2.02x compared to the state-of-the-art technique.
翻訳日:2022-04-27 15:21:22 公開日:2022-04-25
# 逆の例が吐き出されると

When adversarial examples are excusable ( http://arxiv.org/abs/2204.11985v1 )

ライセンス: Link先を確認
Pieter-Jan Kindermans, Charles Staats(参考訳) ニューラルネットワークは実際に驚くほどうまく機能し、理論的には普遍近似器となる。 しかし、彼らはまだ間違いを犯しておらず、敵対的誤りと呼ばれる特定の種類の間違いは人間には起こらないように見える。 本研究では, よく制御されているが, 非線形な視覚的分類問題に対して, テスト誤差と逆誤差の両方を解析する。 無限データでのトレーニングを近似すると、テストエラーは基底的真理決定境界に近い傾向があることが分かる。 質的に言えば、これは人間にとってもっと難しいことです。 対照的に、敵の例は至る所で見られ、しばしば明らかな誤りである。 しかし、逆例を多様体に限定すると、逆誤差の90%減少が観察される。 ガウス雑音の訓練により多様体を膨らませると、同様の効果が観測される。 どちらの場合も、残りの敵対的誤りは基底的真理決定の境界に近い傾向がある。 定性的には、残りの敵対的エラーは、難しい例のテストエラーに似ている。 彼らは不当な間違いを犯すという習慣的品質を持っていない。

Neural networks work remarkably well in practice and theoretically they can be universal approximators. However, they still make mistakes and a specific type of them called adversarial errors seem inexcusable to humans. In this work, we analyze both test errors and adversarial errors on a well controlled but highly non-linear visual classification problem. We find that, when approximating training on infinite data, test errors tend to be close to the ground truth decision boundary. Qualitatively speaking these are also more difficult for a human. By contrast, adversarial examples can be found almost everywhere and are often obvious mistakes. However, when we constrain adversarial examples to the manifold, we observe a 90\% reduction in adversarial errors. If we inflate the manifold by training with Gaussian noise we observe a similar effect. In both cases, the remaining adversarial errors tend to be close to the ground truth decision boundary. Qualitatively, the remaining adversarial errors are similar to test errors on difficult examples. They do not have the customary quality of being inexcusable mistakes.
翻訳日:2022-04-27 15:21:04 公開日:2022-04-25
# 研究軌跡のマッピング

Mapping Research Trajectories ( http://arxiv.org/abs/2204.11859v1 )

ライセンス: Link先を確認
Bastian Sch\"afermeier, Gerd Stumme, Tom Hanika(参考訳) 毎年発行される科学論文のような情報の量は着実に増えており、広範な手作業による分析を免れるほど大きくなっている。 したがって、概観を維持するために、知識ドメインのマッピングと視覚化の自動化手法は、例えば、科学的な意思決定者にとって、必要かつ重要である。 この分野に特に興味を持つのは、時間とともに異なる実体(例えば、科学作家や会場)の研究トピックの開発である。 しかしながら、既存の分析手法は、会場のような単一のエンティティタイプにのみ適しており、研究トピックや時間次元を容易に解釈可能な方法で捉えないことが多い。 そこで本稿では,論文の集合によって表現できるあらゆる種類の科学的実体に適用可能な,emph{mapping research trajectories} の原則的アプローチを提案する。 そこで我々は,地理的視覚化領域,特に軌跡地図とインタラクティブな地理地図からアイデアと原則を伝達する。 私たちの視覚化は、時間とともにエンティティの研究トピックを単純なinterprで表現しています。 礼儀正しく ユーザーは直感的にナビゲートでき、興味のある特定の要素に制限される。 地図は、教師なしの機械学習手法の組み合わせを通して、研究出版物(タイトルと抽象)のコーパス(コーパス)から派生している。 実践的な実証アプリケーションでは、機械学習による出版コーパスに対する提案されたアプローチを例示する。 我々は,この分野における上位30の機械学習会場と1000の著者の軌跡の可視化が十分に解釈可能であり,機関の出版物から引き出された背景知識と一致することを観察した。 次にインタラクティブなインタープリタを作る。 様々な種類の分析を支援する可視化は, 将来, トラジェクティブ・マイニング・アプリケーションに適した計算トラジェクトリである。

Steadily growing amounts of information, such as annually published scientific papers, have become so large that they elude an extensive manual analysis. Hence, to maintain an overview, automated methods for the mapping and visualization of knowledge domains are necessary and important, e.g., for scientific decision makers. Of particular interest in this field is the development of research topics of different entities (e.g., scientific authors and venues) over time. However, existing approaches for their analysis are only suitable for single entity types, such as venues, and they often do not capture the research topics or the time dimension in an easily interpretable manner. Hence, we propose a principled approach for \emph{mapping research trajectories}, which is applicable to all kinds of scientific entities that can be represented by sets of published papers. For this, we transfer ideas and principles from the geographic visualization domain, specifically trajectory maps and interactive geographic maps. Our visualizations depict the research topics of entities over time in a straightforward interpr. manner. They can be navigated by the user intuitively and restricted to specific elements of interest. The maps are derived from a corpus of research publications (i.e., titles and abstracts) through a combination of unsupervised machine learning methods. In a practical demonstrator application, we exemplify the proposed approach on a publication corpus from machine learning. We observe that our trajectory visualizations of 30 top machine learning venues and 1000 major authors in this field are well interpretable and are consistent with background knowledge drawn from the entities' publications. Next to producing interactive, interpr. visualizations supporting different kinds of analyses, our computed trajectories are suitable for trajectory mining applications in the future.
翻訳日:2022-04-27 15:14:55 公開日:2022-04-25
# 音響損失シミュレーションのための機械学習駆動サロゲートについて

On Machine Learning-Driven Surrogates for Sound Transmission Loss Simulations ( http://arxiv.org/abs/2204.12290v1 )

ライセンス: Link先を確認
Barbara Cunha (LTDS), Abdel-Malek Zine (ICJ), Mohamed Ichchou (ECL), Christophe Droz (COSYS-SII), St\'ephane Foulard(参考訳) サーロゲートモデルは計算コストの高いシミュレーションのデータベース近似であり、モデルの設計空間の効率的な探索と多くの物理領域におけるインフォームド意思決定を可能にする。 しかし、振動音響領域における代理モデルの使用は、波動現象の非滑らかで複雑な振る舞いのために困難である。 本稿では,STLのサロゲートのモデル化における機械学習(ML)の4つのアプローチについて検討する。 特徴の重要性と特徴工学は、解釈可能性と物理的整合性を高めながらモデルの精度を向上させるために使用される。 ビブロア音響領域における他の問題への提案手法の移譲とモデルの限界の可能性について論じる。

Surrogate models are data-based approximations of computationally expensive simulations that enable efficient exploration of the model's design space and informed decision-making in many physical domains. The usage of surrogate models in the vibroacoustic domain, however, is challenging due to the non-smooth, complex behavior of wave phenomena. This paper investigates four Machine Learning (ML) approaches in the modelling of surrogates of Sound Transmission Loss (STL). Feature importance and feature engineering are used to improve the models' accuracy while increasing their interpretability and physical consistency. The transfer of the proposed techniques to other problems in the vibroacoustic domain and possible limitations of the models are discussed.
翻訳日:2022-04-27 15:14:04 公開日:2022-04-25
# ビデオアクションモデルの時間的関連性解析

Temporal Relevance Analysis for Video Action Models ( http://arxiv.org/abs/2204.11929v1 )

ライセンス: Link先を確認
Quanfu Fan, Donghyun Kim, Chun-Fu (Richard) Chen, Stan Sclaroff, Kate Saenko, Sarah Adel Bargal(参考訳) 本稿では,行動認識のための時間的モデリングの深層的分析について述べる。 まず,cnnに基づく行動モデルで捉えたフレーム間の時間的関係を層間関係伝播に基づいて定量化する新しい手法を提案する。 次に、データセット、ネットワークアーキテクチャ、入力フレームなどの様々な要因によって、時間的モデリングがどのように影響を受けるかをより深く理解するために、包括的な実験と詳細な分析を行う。 これにより、興味深い発見につながる行動認識に関する重要な疑問をさらに研究する。 その結果,時間的関連性とモデル性能には強い相関性が認められず,行動モデルでは局所的時間的情報をキャプチャする傾向が見られた。 私たちのコードとモデルは公開されます。

In this paper, we provide a deep analysis of temporal modeling for action recognition, an important but underexplored problem in the literature. We first propose a new approach to quantify the temporal relationships between frames captured by CNN-based action models based on layer-wise relevance propagation. We then conduct comprehensive experiments and in-depth analysis to provide a better understanding of how temporal modeling is affected by various factors such as dataset, network architecture, and input frames. With this, we further study some important questions for action recognition that lead to interesting findings. Our analysis shows that there is no strong correlation between temporal relevance and model performance; and action models tend to capture local temporal information, but less long-range dependencies. Our codes and models will be publicly available.
翻訳日:2022-04-27 13:34:21 公開日:2022-04-25
# BronchoPose:視覚型気管支鏡のポーズ推定のためのデータとモデル構成の分析

BronchoPose: an analysis of data and model configuration for vision-based bronchoscopy pose estimation ( http://arxiv.org/abs/2204.11982v1 )

ライセンス: Link先を確認
Juan Borrego-Carazo, Carles S\'anchez, David Castells-Rufas, Jordi Carrabina, D\'ebora Gil(参考訳) vision-based bronchoscopy (vb)モデルでは、ビデオ気管支鏡からのフレームと仮想肺モデルの登録が必要であり、生検時に効果的な指導を提供する。 この登録は、気管支鏡カメラの位置と向きを追跡するか、または仮想肺モデルでシミュレートされたポーズ(位置と方向)からの偏差を校正することにより達成できる。 近年のニューラルネットワークと時間的画像処理の進歩は,気管支鏡の新たな可能性をもたらした。 しかし、このような進歩は比較実験条件の欠如によって妨げられている。 本稿では,手法の公平な比較を可能にする新しい合成データセットを提案する。 さらに、被験者のパーソナライゼーションの異なるレベルにおける時間情報学習のためのニューラルネットワークアーキテクチャについて検討する。 また、方位測定を改善するために、カメラ指向学習のための標準比較フレームワークと新しいメトリックを提案する。 分析結果から, 提案した計測値とアーキテクチャ, および標準化条件は, ビデオ気管支鏡における現況カメラのポーズ推定に顕著な改善をもたらすことが示された。

Vision-based bronchoscopy (VB) models require the registration of the virtual lung model with the frames from the video bronchoscopy to provide effective guidance during the biopsy. The registration can be achieved by either tracking the position and orientation of the bronchoscopy camera or by calibrating its deviation from the pose (position and orientation) simulated in the virtual lung model. Recent advances in neural networks and temporal image processing have provided new opportunities for guided bronchoscopy. However, such progress has been hindered by the lack of comparative experimental conditions. In the present paper, we share a novel synthetic dataset allowing for a fair comparison of methods. Moreover, this paper investigates several neural network architectures for the learning of temporal information at different levels of subject personalization. In order to improve orientation measurement, we also present a standardized comparison framework and a novel metric for camera orientation learning. Results on the dataset show that the proposed metric and architectures, as well as the standardized conditions, provide notable improvements to current state-of-the-art camera pose estimation in video bronchoscopy.
翻訳日:2022-04-27 13:34:09 公開日:2022-04-25
# コントラスト学習による癌ドライバ遺伝子の差分発現予測

Contrastive learning-based computational histopathology predict differential expression of cancer driver genes ( http://arxiv.org/abs/2204.11994v1 )

ライセンス: Link先を確認
Haojue Huang, Gongming Zhou, Xuejun Liu, Lei Deng, Chen Wu, Dachuan Zhang, and Hui Liu(参考訳) 癌の診断に使用される主な検査は、デジタル病理解析である。 近年,病理画像からの深層学習による特徴抽出は遺伝的変異や腫瘍環境を検出することができるが,腫瘍細胞における遺伝子発現の相違に焦点をあてる研究は少ない。 本稿では,全スライド画像(wsis)から微分遺伝子発現を推定する,自己教師付きコントラスト学習フレームワークであるhistcodeを提案する。 大規模無注釈WSIに対する対照的な学習を利用して,潜伏空間におけるスライドレベルの病理組織学的特徴を導出し,腫瘍診断と鑑別された癌ドライバ遺伝子の予測に移行した。 広範な実験の結果,腫瘍診断における他の最先端モデルよりも優れており,遺伝子発現の予測も効果的であった。 興味深いことに、高い折りたたみ遺伝子をより正確に予測できることがわかった。 病理画像から情報的特徴を抽出する能力を直感的に示すため,画像タイルの注意点で彩色したwsisを空間的に可視化した。 腫瘍と壊死領域は,経験豊富な病理医のアノテーションと非常に一致していた。 さらに, リンパ球特異的遺伝子発現パターンによって生成された空間熱マップは, 手動でラベル付けしたWSIと一致していた。

Digital pathological analysis is run as the main examination used for cancer diagnosis. Recently, deep learning-driven feature extraction from pathology images is able to detect genetic variations and tumor environment, but few studies focus on differential gene expression in tumor cells. In this paper, we propose a self-supervised contrastive learning framework, HistCode, to infer differential gene expressions from whole slide images (WSIs). We leveraged contrastive learning on large-scale unannotated WSIs to derive slide-level histopathological feature in latent space, and then transfer it to tumor diagnosis and prediction of differentially expressed cancer driver genes. Our extensive experiments showed that our method outperformed other state-of-the-art models in tumor diagnosis tasks, and also effectively predicted differential gene expressions. Interestingly, we found the higher fold-changed genes can be more precisely predicted. To intuitively illustrate the ability to extract informative features from pathological images, we spatially visualized the WSIs colored by the attentive scores of image tiles. We found that the tumor and necrosis areas were highly consistent with the annotations of experienced pathologists. Moreover, the spatial heatmap generated by lymphocyte-specific gene expression patterns was also consistent with the manually labeled WSI.
翻訳日:2022-04-27 13:33:52 公開日:2022-04-25
# 幼児と成人の発声音の低次元表現

Low-dimensional representation of infant and adult vocalization acoustics ( http://arxiv.org/abs/2204.12279v1 )

ライセンス: Link先を確認
Silvia Pagliarini, Sara Schneider, Christopher T. Kello, Anne S. Warlaumont(参考訳) 幼児の発声能力が発達するにつれて、幼児の発声能力が大きく変化する。 特定の音響的特徴、原音のカテゴリー、音声の転写に基づく特徴付けは、幼児が異なる年齢と異なる文脈で作る音の表現を提供することができるが、リスナーがどのように音が知覚されるかを完全には記述せず、大規模な音を得るのに非効率であり、追加の統計処理なしでは2次元の視認が困難である。 機械学習に基づくアプローチは、幼児の音声の純粋データ駆動表現でこれらの特徴を補完する機会を提供する。 そこで我々は, スペクトル特徴抽出と教師なし機械学習, 特にUniform Manifold Approximation (UMAP) を用いて, 乳幼児の2次元空間表現と, 介護者の音声化を日中録音から抽出した。 UMAPは、乳児の発声発生の特定の分析に寄与する、連続的でよく分散された空間をもたらす。 例えば、乳児の2次元空間における発声音響の1日あたりの分散は3ヶ月から9ヶ月に増加し、その後9ヶ月から18ヶ月に減少した。 この方法はまた、幼児と成人の発声の類似性の分析を可能にし、幼児の年齢とともに変化を示す。

During the first years of life, infant vocalizations change considerably, as infants develop the vocalization skills that enable them to produce speech sounds. Characterizations based on specific acoustic features, protophone categories, or phonetic transcription are able to provide a representation of the sounds infants make at different ages and in different contexts but do not fully describe how sounds are perceived by listeners, can be inefficient to obtain at large scales, and are difficult to visualize in two dimensions without additional statistical processing. Machine-learning-based approaches provide the opportunity to complement these characterizations with purely data-driven representations of infant sounds. Here, we use spectral features extraction and unsupervised machine learning, specifically Uniform Manifold Approximation (UMAP), to obtain a novel 2-dimensional spatial representation of infant and caregiver vocalizations extracted from day-long home recordings. UMAP yields a continuous and well-distributed space conducive to certain analyses of infant vocal development. For instance, we found that the dispersion of infant vocalization acoustics within the 2-D space over a day increased from 3 to 9 months, and then decreased from 9 to 18 months. The method also permits analysis of similarity between infant and adult vocalizations, which also shows changes with infant age.
翻訳日:2022-04-27 13:10:01 公開日:2022-04-25
# 音声認識におけるシーケンス・ツー・シーケンスモデルにおける教師付き注意

Supervised Attention in Sequence-to-Sequence Models for Speech Recognition ( http://arxiv.org/abs/2204.12308v1 )

ライセンス: Link先を確認
Gene-Ping Yang, Hao Tang(参考訳) 連続系列モデルの注意機構は、音声認識における音響特徴と出力トークンのアライメントをモデル化するために設計されている。 しかし、訓練されたモデルが生成した注意重みは、常に実際のアライメントに適合するとは限らないし、いくつかの研究は注意重みはフレームの帰属とうまく一致しないかもしれないと論じている。 にもかかわらず、注意重みとアライメントの視覚的類似性は、モデル品質の指標として訓練中に広く使用されている。 本稿では,注目度とアライメントの対応を教師付き注意損失を付与することにより学習問題として扱う。 実験では、トレーニング中にアライメントをよく学習することで、シーケンシャル・ツー・シーケンスモデルのパフォーマンスが決定的に決定されることが示唆された。

Attention mechanism in sequence-to-sequence models is designed to model the alignments between acoustic features and output tokens in speech recognition. However, attention weights produced by models trained end to end do not always correspond well with actual alignments, and several studies have further argued that attention weights might not even correspond well with the relevance attribution of frames. Regardless, visual similarity between attention weights and alignments is widely used during training as an indicator of the models quality. In this paper, we treat the correspondence between attention weights and alignments as a learning problem by imposing a supervised attention loss. Experiments have shown significant improved performance, suggesting that learning the alignments well during training critically determines the performance of sequence-to-sequence models.
翻訳日:2022-04-27 13:09:22 公開日:2022-04-25
# GDGRU-DTA:GNNとDouble GRUに基づく薬物標的結合性予測

GDGRU-DTA: Predicting Drug-Target Binding Affinity Based on GNN and Double GRU ( http://arxiv.org/abs/2204.11857v1 )

ライセンス: Link先を確認
Lyu Zhijian, Jiang Shaohua, Liang Yigao and Gao Min(参考訳) 薬物および標的親和性(DTA)の予測は薬物開発と再資源化に不可欠である。 本稿では,GDGRU-DTAと呼ばれる新規な手法を提案する。GDGRU-DTAは,GraphDTAをベースとした薬物と標的との結合親和性を予測できるが,タンパク質配列は長い配列であるため,単純なCNNでは,タンパク質配列のコンテキスト依存性を捉えることができない。 そこで我々は,タンパク質配列を時系列として解釈し,その特徴をゲート再帰ユニット(GRU)と双方向ゲート再帰ユニット(BiGRU)を用いて抽出することで改良する。 この薬剤の処理方法はgraphdtaと類似しているが、2つの異なるグラフ畳み込み法を用いる。 その後、最終予測のために薬物とタンパク質の表現が連結される。 提案モデルを2つのベンチマークデータセットで評価する。 本モデルは最先端の深層学習法より優れており,本モデルの有効性と優れた特徴捕捉能力を示す。

The work for predicting drug and target affinity(DTA) is crucial for drug development and repurposing. In this work, we propose a novel method called GDGRU-DTA to predict the binding affinity between drugs and targets, which is based on GraphDTA, but we consider that protein sequences are long sequences, so simple CNN cannot capture the context dependencies in protein sequences well. Therefore, we improve it by interpreting the protein sequences as time series and extracting their features using Gate Recurrent Unit(GRU) and Bidirectional Gate Recurrent Unit(BiGRU). For the drug, our processing method is similar to that of GraphDTA, but uses two different graph convolution methods. Subsequently, the representation of drugs and proteins are concatenated for final prediction. We evaluate the proposed model on two benchmark datasets. Our model outperforms some state-of-the-art deep learning methods, and the results demonstrate the feasibility and excellent feature capture ability of our model.
翻訳日:2022-04-27 13:08:26 公開日:2022-04-25
# 離散連続平滑化とマッピング

Discrete-Continuous Smoothing and Mapping ( http://arxiv.org/abs/2204.11936v1 )

ライセンス: Link先を確認
Kevin J. Doherty and Ziqi Lu and Kurran Singh and John J. Leonard(参考訳) 本稿では,ロボット工学の応用でよく見られる離散連続因子グラフを用いた平滑化とマッピングの一般的なアプローチについて述べる。 離散的または連続的なグラフィカルモデルで定式化された最適化問題の特定と解決のために、柔軟で使いやすいインターフェースを提供するオープンツールがあるが、現時点では同様の一般的なツールは存在していない。 私たちはこの問題に取り組みたい。 特に、因子グラフの観点で定義される最適化問題から離散連続モデルの設定へ、既存のツールを拡張したライブラリdc-samを提供する。 我々の研究の重要な貢献は、離散連続最適化問題に対する近似解を効率的に回収する新しい解法である。 このアプローチの鍵となる洞察は、連続的および離散的な状態空間に対する合同推論はしばしば困難であるが、一般的に遭遇する離散連続問題の多くは、個別に解ける「離散部分」と「連続部分」に自然に分割できるということである。 この構造を利用して離散変数と連続変数を交互に最適化する。 その結果, 離散連続グラフィカルモデルにおいて, 直接的および近似的推論が可能となった。 また,離散変数と連続変数の両方の推定の不確かさを回復する方法を提案する。 我々は,そのアプローチの汎用性を,ポイントクラウド登録,ロバストポーズグラフ最適化,オブジェクトベースのマッピングとローカライゼーションという,3つの異なるロボット認識アプリケーションに適用することで実証する。

We describe a general approach to smoothing and mapping with a class of discrete-continuous factor graphs commonly encountered in robotics applications. While there are openly available tools providing flexible and easy-to-use interfaces for specifying and solving optimization problems formulated in terms of either discrete or continuous graphical models, at present, no similarly general tools exist enabling the same functionality for hybrid discrete-continuous problems. We aim to address this problem. In particular, we provide a library, DC-SAM, extending existing tools for optimization problems defined in terms of factor graphs to the setting of discrete-continuous models. A key contribution of our work is a novel solver for efficiently recovering approximate solutions to discrete-continuous optimization problems. The key insight to our approach is that while joint inference over continuous and discrete state spaces is often hard, many commonly encountered discrete-continuous problems can naturally be split into a "discrete part" and a "continuous part" that can individually be solved easily. Leveraging this structure, we optimize discrete and continuous variables in an alternating fashion. In consequence, our proposed work enables straightforward representation of and approximate inference in discrete-continuous graphical models. We also provide a method to recover the uncertainty in estimates of both discrete and continuous variables. We demonstrate the versatility of our approach through its application to three distinct robot perception applications: point-cloud registration, robust pose graph optimization, and object-based mapping and localization.
翻訳日:2022-04-27 13:07:11 公開日:2022-04-25
# ネットワーク補完のためのグラフ自動エンコーダ

Graph Auto-Encoders for Network Completion ( http://arxiv.org/abs/2204.11852v1 )

ライセンス: Link先を確認
Zhang Zhang, Ruyi Tao, Yongzai Tao, Jiang Zhang(参考訳) グラフの完成は、部分的に観測されたネットワークから欠落したノードとエッジを推測することを意味する。 この問題を解決するために様々な方法が提案されているが、いずれもグラフの一部のパターン類似性を用いていない。 本稿では,グラフ自動エンコーダ手法に基づき,ネットワークの観測部分からの接続の学習パターンを用いたモデルを提案し,それらのパターンを一般化してグラフ全体を完成させる。 提案モデルは少ない情報量で競争性能を達成した。 異なる領域の合成データセットと実世界のデータセットの実証分析により,本モデルがベースライン予測モデルと比較して高い精度でネットワークを完成できることが示された。 さらに、モデルの特徴についても検討し、より複雑な局所接続パターンを持つネットワークを完成させるのに特に適していることを見出した。

Completing a graph means inferring the missing nodes and edges from a partially observed network. Different methods have been proposed to solve this problem, but none of them employed the pattern similarity of parts of the graph. In this paper, we propose a model to use the learned pattern of connections from the observed part of the network based on the Graph Auto-Encoder technique and generalize these patterns to complete the whole graph. Our proposed model achieved competitive performance with less information needed. Empirical analysis of synthetic datasets and real-world datasets from different domains show that our model can complete the network with higher accuracy compared with baseline prediction models in most cases. Furthermore, we also studied the character of the model and found it is particularly suitable to complete a network that has more complex local connection patterns.
翻訳日:2022-04-27 12:39:55 公開日:2022-04-25
# 時間的グラフニューラルネットワークポート分類による海上ゲートウェイポートの発見

Discovering Gateway Ports in Maritime Using Temporal Graph Neural Network Port Classification ( http://arxiv.org/abs/2204.11855v1 )

ライセンス: Link先を確認
Dogan Altan, Mohammad Etemad, Dusica Marijan, Tetyana Kholodna(参考訳) 船舶航行は、時間とともに変化する動的環境要因や、船舶タイプや海洋深度などの静的特徴など、様々な要因に影響を受けている。 これらの動的および静的なナビゲーション要因は、実際のポート外のリージョンで待ち時間を長くするなど、コンテナに制限を課し、これらの待ちリージョンゲートウェイポートを呼び出します。 ゲートウェイポートとその混雑や利用可能なユーティリティなどの機能を特定することで、燃料の最適化や貨物運用時間の節約を計画することで、船舶の航行性を高めることができる。 本稿では,新しい時間グラフニューラルネットワーク(TGNN)を用いたポート分類手法を提案する。 提案手法は,カナダ,nsのハリファックスで運用する10隻の船舶から収集された実世界のデータから,船舶軌道データを処理して,静的および動的ナビゲーション特徴の集合間の時空間依存性を捉える動的グラフを構築し,ポート分類精度の観点から評価する。 実験の結果,TGNNをベースとしたポート分類手法は,ポート分類において95%のfスコアを提供することがわかった。

Vessel navigation is influenced by various factors, such as dynamic environmental factors that change over time or static features such as vessel type or depth of the ocean. These dynamic and static navigational factors impose limitations on vessels, such as long waiting times in regions outside the actual ports, and we call these waiting regions gateway ports. Identifying gateway ports and their associated features such as congestion and available utilities can enhance vessel navigation by planning on fuel optimization or saving time in cargo operation. In this paper, we propose a novel temporal graph neural network (TGNN) based port classification method to enable vessels to discover gateway ports efficiently, thus optimizing their operations. The proposed method processes vessel trajectory data to build dynamic graphs capturing spatio-temporal dependencies between a set of static and dynamic navigational features in the data, and it is evaluated in terms of port classification accuracy on a real-world data set collected from ten vessels operating in Halifax, NS, Canada. The experimental results indicate that our TGNN-based port classification method provides an f-score of 95% in classifying ports.
翻訳日:2022-04-27 12:39:41 公開日:2022-04-25
# 組合せ最適化のための多目的ポインタネットワーク

Multi-objective Pointer Network for Combinatorial Optimization ( http://arxiv.org/abs/2204.11860v1 )

ライセンス: Link先を確認
Le-yang Gao and Rui Wang and Chuang Liu and Zhao-hong Jia(参考訳) 複合最適化問題の一種である多目的組合せ最適化問題(MOCOP)は、様々な実アプリケーションに広く存在する。 メタヒューリスティックスはMOCOPにうまく適用されているが、計算時間はより長いことが多い。 近年,組合せ最適化問題に対する近似最適解を生成するための深層強化学習(drl)法が提案されている。 しかし、既存のDRLの研究はMOCOPにはほとんど焦点を当てていない。 本研究では,多目的ポインタネットワーク(MOPN)と呼ばれる単一モデル深層強化学習フレームワークを提案し,PNの入力構造を効果的に改善し,単一のPNがMOCOPを解けるようにした。 さらに, 代表モデルと伝達学習に基づく2つの学習戦略を提案し, 異なるアプリケーションシナリオにおいて, MOPNの性能をさらに向上させる。 さらに、古典的メタヒューリスティックと比較すると、mopnはパレート前線を得るために前方伝播の時間を消費するだけである。 一方、MOCOPNは問題スケールに敏感であり、訓練されたMOCOPに異なるスケールで対処することができる。 MOPNの性能を検証するため、3つの多目的旅行セールスマン問題に対して、1つの最先端モデルDRL-MOAと3つの古典的多目的メタヒューリスティックスと比較実験を行った。 実験結果から,DRL-MOAのトレーニング時間は20~40倍程度であり,比較手法のすべてより優れていた。

Multi-objective combinatorial optimization problems (MOCOPs), one type of complex optimization problems, widely exist in various real applications. Although meta-heuristics have been successfully applied to address MOCOPs, the calculation time is often much longer. Recently, a number of deep reinforcement learning (DRL) methods have been proposed to generate approximate optimal solutions to the combinatorial optimization problems. However, the existing studies on DRL have seldom focused on MOCOPs. This study proposes a single-model deep reinforcement learning framework, called multi-objective Pointer Network (MOPN), where the input structure of PN is effectively improved so that the single PN is capable of solving MOCOPs. In addition, two training strategies, based on representative model and transfer learning, respectively, are proposed to further enhance the performance of MOPN in different application scenarios. Moreover, compared to classical meta-heuristics, MOPN only consumes much less time on forward propagation to obtain the Pareto front. Meanwhile, MOPN is insensitive to problem scale, meaning that a trained MOPN is able to address MOCOPs with different scales. To verify the performance of MOPN, extensive experiments are conducted on three multi-objective traveling salesman problems, in comparison with one state-of-the-art model DRL-MOA and three classical multi-objective meta-heuristics. Experimental results demonstrate that the proposed model outperforms all the comparative methods with only 20\% to 40\% training time of DRL-MOA.
翻訳日:2022-04-27 12:39:18 公開日:2022-04-25
# オンライン予約によるオフライン車両ルーティング問題:パラトランジットによる新しい問題定式化

Offline Vehicle Routing Problem with Online Bookings: A Novel Problem Formulation with Applications to Paratransit ( http://arxiv.org/abs/2204.11992v1 )

ライセンス: Link先を確認
Amutheezan Sivagnanam, Salah Uddin Kadir, Ayan Mukhopadhyay, Philip Pugliese, Abhishek Dubey, Samitha Samaranayake, Aron Laszka(参考訳) 車両ルーティング問題(vrps)は、所定のトリップリクエストのセットを提供するオフラインvrpと、リアルタイムにリクエストが到着することを考慮したオンラインvrpの2つのカテゴリに分けられる。 公共交通機関との議論に基づき、既存の定式化では解決されていない現実の問題として、事前(例えば、前日)に柔軟なピックアップウィンドウ(例えば、3時間)を予約し、予約時に厳密なピックアップウィンドウ(例えば、30分)を確認する。 このようなサービスモデルは、通常、乗客が電話で翌日の旅行を予約するパラトランジットサービス設定で必要とされることが多い。 オフラインとオンラインのこのギャップに対処するために,オンライン予約を伴うオフライン車両ルーティング問題として,新たな定式化を提案する。 この問題は、オフラインのvrpと同様に、大規模なリクエストセットを考える複雑さに直面しているが、オンラインのvrpと同様に、実行時間に関する厳格な制約に従わなければならないため、計算上非常に困難である。 この問題を解決するために,任意の時間アルゴリズムとリアルタイム決定のための学習ベースのポリシーを組み合わせた新しい計算手法を提案する。 パートナー輸送機関から得られたパラトランジットデータセットに基づいて、我々の新しい定式化と計算アプローチが、既存のアルゴリズムよりも、このサービス設定においてはるかに優れた結果をもたらすことを実証する。

Vehicle routing problems (VRPs) can be divided into two major categories: offline VRPs, which consider a given set of trip requests to be served, and online VRPs, which consider requests as they arrive in real-time. Based on discussions with public transit agencies, we identify a real-world problem that is not addressed by existing formulations: booking trips with flexible pickup windows (e.g., 3 hours) in advance (e.g., the day before) and confirming tight pickup windows (e.g., 30 minutes) at the time of booking. Such a service model is often required in paratransit service settings, where passengers typically book trips for the next day over the phone. To address this gap between offline and online problems, we introduce a novel formulation, the offline vehicle routing problem with online bookings. This problem is very challenging computationally since it faces the complexity of considering large sets of requests -- similar to offline VRPs -- but must abide by strict constraints on running time -- similar to online VRPs. To solve this problem, we propose a novel computational approach, which combines an anytime algorithm with a learning-based policy for real-time decisions. Based on a paratransit dataset obtained from our partner transit agency, we demonstrate that our novel formulation and computational approach lead to significantly better outcomes in this service setting than existing algorithms.
翻訳日:2022-04-27 12:38:08 公開日:2022-04-25
# 予測モデルのないデータ不確実性

Data Uncertainty without Prediction Models ( http://arxiv.org/abs/2204.11858v1 )

ライセンス: Link先を確認
Bongjoon Park, Eunkyung Koh(参考訳) 機械学習のデータ取得プロセスは、しばしばコストがかかる。 少ないデータで高性能な予測モデルを構築するために、新しいデータポイントを追加する際に、取得関数として予測の難易度をしばしば展開する。 難易度は予測モデルにおける不確実性と呼ばれる。 予測モデルの明示的利用を伴わない,距離重み付きクラス不純物という不確実性推定手法を提案する。 そこで本研究では,その位置に関する距離とクラス不純物を用いて不確かさを推定し,アクティブな学習タスクによる不確かさ推定の予測モデルに基づくいくつかの手法と比較した。 距離重み付きクラス不純物は予測モデルによらず効果的に機能することを確認した。

Data acquisition processes for machine learning are often costly. To construct a high-performance prediction model with fewer data, a degree of difficulty in prediction is often deployed as the acquisition function in adding a new data point. The degree of difficulty is referred to as uncertainty in prediction models. We propose an uncertainty estimation method named a Distance-weighted Class Impurity without explicit use of prediction models. We estimated uncertainty using distances and class impurities around the location, and compared it with several methods based on prediction models for uncertainty estimation by active learning tasks. We verified that the Distance-weighted Class Impurity works effectively regardless of prediction models.
翻訳日:2022-04-27 12:15:25 公開日:2022-04-25
# 人間の肖像画生成のための進化的潜時空間探索

Evolutionary latent space search for driving human portrait generation ( http://arxiv.org/abs/2204.11887v1 )

ライセンス: Link先を確認
Benjam\'in Mach\'in, Sergio Nesmachnow, Jamal Toutouh(参考訳) 本稿では, 生成的対向ネットワークの潜時空間探索に基づく, 合成ヒトの肖像画生成のための進化的アプローチを提案する。 そのアイデアは、対象の肖像画と非常によく似た、異なる人間の顔画像を作ることだ。 このアプローチは、ポートレート生成にStyleGAN2、顔類似性評価にFaceNetを適用する。 進化的探索はstylegan2のリアルタイムな潜在空間を探索することに基づいている。 合成画像と実画像の両方に対する主な結果は、提案手法がリアルな人間の肖像画を表す正確で多様な解を生成することを示している。 本研究は,顔認識システムのセキュリティ向上に寄与することができる。

This article presents an evolutionary approach for synthetic human portraits generation based on the latent space exploration of a generative adversarial network. The idea is to produce different human face images very similar to a given target portrait. The approach applies StyleGAN2 for portrait generation and FaceNet for face similarity evaluation. The evolutionary search is based on exploring the real-coded latent space of StyleGAN2. The main results over both synthetic and real images indicate that the proposed approach generates accurate and diverse solutions, which represent realistic human portraits. The proposed research can contribute to improving the security of face recognition systems.
翻訳日:2022-04-27 12:14:26 公開日:2022-04-25
# ProCST:プログレッシブサイクルスタイルトランスファーを用いたセマンティックセグメンテーションの促進

ProCST: Boosting Semantic Segmentation using Progressive Cyclic Style-Transfer ( http://arxiv.org/abs/2204.11891v1 )

ライセンス: Link先を確認
Shahaf Ettedgui, Shady Abu-Hussein, Raja Giryes(参考訳) 現実世界のデータで優れたパフォーマンスを達成するニューラルネットワークのトレーニングに合成データを使用することは、コストのかかるデータアノテーションの必要性を減らす可能性を秘めているため、重要なタスクである。 しかし、合成データだけで訓練されたネットワークは、両者のドメインギャップのため、実際のデータではうまく機能しない。 ドメイン適応として知られるこのギャップを減らすことは、近年広く研究されている。 unsupervised domain adaptation(uda)フレームワークでは、ラベル付き合成データとのトレーニング中にラベルなしの実データを使用して、実データでうまく機能するニューラルネットワークを得る。 本研究では,画像データに焦点をあてる。 セマンティックセグメンテーションタスクでは、ソースからターゲットへのイメージ間変換を実行し、ソースアノテーションのセグメンテーションのためのネットワークをトレーニングすると、結果が悪いことが示されている。 そのため、両者の合同訓練が不可欠であり、多くの技術で共通して行われている。 しかし、ソースとターゲットの間に大きなドメインギャップを閉じて、両者を直接適応させることは困難である。 本研究では,ドメイン適応技術を改善するための新しい2段階フレームワークを提案する。 最初のステップでは、複数のスケールのニューラルネットワークを段階的にトレーニングし、ソースデータからターゲットデータへの初期転送を行う。 我々は、新しい変換データを "Source in Target" (SiT) と表現する。 次に、生成したSiTデータを任意の標準UDAアプローチの入力として使用する。 この新たなデータは、所望のターゲットドメインとのドメインギャップを減らし、適用されたUDAアプローチにより、さらにギャップを埋める。 我々は,2つのUDAタスク,GTA5からCityscapes,SynthiaからCityscapesへの2つの最先端セグメンテーション手法,DAFormerとProDAを用いて,我々のフレームワークが達成した改善を実証する。 ProCST+DAFormerのコードと最先端のチェックポイントが提供される。

Using synthetic data for training neural networks that achieve good performance on real-world data is an important task as it has the potential to reduce the need for costly data annotation. Yet, a network that is trained on synthetic data alone does not perform well on real data due to the domain gap between the two. Reducing this gap, also known as domain adaptation, has been widely studied in recent years. In the unsupervised domain adaptation (UDA) framework, unlabeled real data is used during training with labeled synthetic data to obtain a neural network that performs well on real data. In this work, we focus on image data. For the semantic segmentation task, it has been shown that performing image-to-image translation from source to target, and then training a network for segmentation on source annotations - leads to poor results. Therefore a joint training of both is essential, which has been a common practice in many techniques. Yet, closing the large domain gap between the source and the target by directly performing the adaptation between the two is challenging. In this work, we propose a novel two-stage framework for improving domain adaptation techniques. In the first step, we progressively train a multi-scale neural network to perform an initial transfer between the source data to the target data. We denote the new transformed data as "Source in Target" (SiT). Then, we use the generated SiT data as the input to any standard UDA approach. This new data has a reduced domain gap from the desired target domain, and the applied UDA approach further closes the gap. We demonstrate the improvement achieved by our framework with two state-of-the-art methods for semantic segmentation, DAFormer and ProDA, on two UDA tasks, GTA5 to Cityscapes and Synthia to Cityscapes. Code and state-of-the-art checkpoints of ProCST+DAFormer are provided.
翻訳日:2022-04-27 12:14:18 公開日:2022-04-25
# NLPはどのようにして絶滅危惧言語を復活させるか? チェロキー語における事例研究とロードマップ

How can NLP Help Revitalize Endangered Languages? A Case Study and Roadmap for the Cherokee Language ( http://arxiv.org/abs/2204.11909v1 )

ライセンス: Link先を確認
Shiyue Zhang, Ben Frey, Mohit Bansal(参考訳) 世界中で話されている言語の43%以上が絶滅危惧種であり、グローバル化と新植民地主義により言語喪失が加速している。 絶滅危惧言語の保存と活性化は、地球上の文化的多様性を維持する上で非常に重要である。 本研究では,NLPが絶滅危惧言語の再活性化にどう役立つかについて議論する。 まず,nlp実践者が言語コミュニティとの相互理解とコラボレーションを促進するための3つの原則を提案し,nlpが言語教育を支援できる3つの方法について議論する。 そして、重度の絶滅危惧種であるチェロキー語をケーススタディとして捉えます。 言語の歴史、言語の特徴、そして既存のリソースをレビューした後、私たちは(チェロキーのコミュニティメンバーと共同で)nlp実践者がコミュニティパートナーと協力できる有意義な方法に到達しました。 そこで我々は,Cherokee言語のリソースをマシン・イン・ザ・ループ処理で豊かにするための2つのアプローチを提案し,Cherokeeコミュニティの人々が興味を示したいくつかのNLPツールについて議論する。 私たちの仕事は、チェロキーについてnlpコミュニティに知らせるだけでなく、絶滅危惧言語全般に関する今後の作業にインスピレーションを与えるのに役立つことを願っています。 私たちのコードとデータはhttps://github.com/ZhangShiyue/RevitalizeCherokeeでオープンソース化されます。

More than 43% of the languages spoken in the world are endangered, and language loss currently occurs at an accelerated rate because of globalization and neocolonialism. Saving and revitalizing endangered languages has become very important for maintaining the cultural diversity on our planet. In this work, we focus on discussing how NLP can help revitalize endangered languages. We first suggest three principles that may help NLP practitioners to foster mutual understanding and collaboration with language communities, and we discuss three ways in which NLP can potentially assist in language education. We then take Cherokee, a severely-endangered Native American language, as a case study. After reviewing the language's history, linguistic features, and existing resources, we (in collaboration with Cherokee community members) arrive at a few meaningful ways NLP practitioners can collaborate with community partners. We suggest two approaches to enrich the Cherokee language's resources with machine-in-the-loop processing, and discuss several NLP tools that people from the Cherokee community have shown interest in. We hope that our work serves not only to inform the NLP community about Cherokee, but also to provide inspiration for future work on endangered languages in general. Our code and data will be open-sourced at https://github.com/ZhangShiyue/RevitalizeCherokee
翻訳日:2022-04-27 12:12:06 公開日:2022-04-25
# aiのパーソナライズ:言語モデルのパーソナリティの推定

AI Personification: Estimating the Personality of Language Models ( http://arxiv.org/abs/2204.12000v1 )

ライセンス: Link先を確認
Saketh Reddy Karra, Son Nguyen, Theja Tulabandhula(参考訳) 人工知能の重要な応用であるオープンエンド言語生成技術は、近年大きく進歩している。 大規模な言語モデルは大量のテキストで訓練されており、バーチャルアシスタントから会話型ボットまで、さまざまなアプリケーションで使われている。 これらの言語モデルは流れるテキストを出力するが、既存の研究によれば、これらのモデルが人間のバイアスを捉えることができる。 これらのバイアス、特に害を引き起こす可能性のあるバイアスの多くは、十分に研究されている。 一方,これらのモデルに受け継がれた性格特性を推測し,変化させる研究は少ないか存在しない。 本研究では,オープンエンドテキスト生成用に設計された大規模言語モデルの性格特性と,それらの学習に用いるデータセットについて検討する。 我々の研究は人気のBig Five因子に基づいており、これらのモデルとその基盤となるデータセットの性格特性を定量化する堅牢な手法を開発している。 特に,パーソナリティアセスメント用に設計されたアンケートを用いてモデルを起動し,ゼロショット分類器を用いてテキスト応答を定量化可能な特徴に分類した。 我々の分類は、そのようなAIモデルに見られる重要な人為的要素に光を当て、利害関係者がどのように適用されるべきか、社会がどのように認識するかを決定するのに役立つ。 これらの個性を変えることができるアプローチを研究することで分析を強化する。

Technology for open-ended language generation, a key application of artificial intelligence, has advanced to a great extent in recent years. Large-scale language models, which are trained on large corpora of text, are being used in a wide range of applications everywhere, from virtual assistants to conversational bots. While these language models output fluent text, existing research shows that these models can and do capture human biases. Many of these biases, especially those that could potentially cause harm, are being well investigated. On the other hand, studies that infer and change personality traits inherited by these models have been scarce or non-existent. In this work, we explore the personality traits of several large-scale language models designed for open-ended text generation and the datasets used for training them. Our work builds on the popular Big Five factors and develops robust methods that quantify the personality traits of these models and their underlying datasets. In particular, we trigger the models with a questionnaire designed for personality assessment and subsequently classify the text responses into quantifiable traits using a Zero-shot classifier. Our classification sheds light on an important anthropomorphic element found in such AI models and can help stakeholders decide how they should be applied and how society could perceive them. We augment our analysis by studying approaches that can alter these personalities.
翻訳日:2022-04-27 12:11:44 公開日:2022-04-25
# (参考訳) マルチストラテジーテキスト処理による財務データ分析アプリケーション

Financial data analysis application via multi-strategy text processing ( http://arxiv.org/abs/2204.11394v1 )

ライセンス: CC BY 4.0
Hongyin Zhu(参考訳) 金融システムの安定性を維持することは経済発展に不可欠であり、リスクや機会の早期特定が不可欠である。 金融業界には、財務諸表、顧客情報、株式取引データ、ニュースなど、さまざまなデータが含まれている。 巨大な異種データ呼び出しは、マシンが処理し理解するためのインテリジェントなアルゴリズムを要求する。 本稿では、主に中国A株会社の株価データとニュースに焦点を当てる。 本稿では,マルチストラテジーデータマイニング手法を用いて,テキストデータと数値データを組み合わせた金融データ解析アプリケーションであるfinancial quotient porterを提案する。 さらに,自然言語処理 (nlp) と知識グラフ (kg) 技術を用いた深層学習ファイナンシャルテキスト処理アプリケーションシナリオにおける取り組みと計画について述べる。 KG技術に基づいて、リスクと機会を異種データから特定することができる。 NLP技術は、非構造化テキストからエンティティ、リレーション、イベントを抽出し、市場の感情を分析するために使用できる。 実験の結果は、企業と業界に対する市場感と、企業間のニュースレベルの関連性を示している。

Maintaining financial system stability is critical to economic development, and early identification of risks and opportunities is essential. The financial industry contains a wide variety of data, such as financial statements, customer information, stock trading data, news, etc. Massive heterogeneous data calls for intelligent algorithms for machines to process and understand. This paper mainly focuses on the stock trading data and news about China A-share companies. We present a financial data analysis application, Financial Quotient Porter, designed to combine textual and numerical data by using a multi-strategy data mining approach. Additionally, we present our efforts and plans in deep learning financial text processing application scenarios using natural language processing (NLP) and knowledge graph (KG) technologies. Based on KG technology, risks and opportunities can be identified from heterogeneous data. NLP technology can be used to extract entities, relations, and events from unstructured text, and analyze market sentiment. Experimental results show market sentiments towards a company and an industry, as well as news-level associations between companies.
翻訳日:2022-04-26 22:26:32 公開日:2022-04-25
# (参考訳) テンソルトモグラフィ微分位相コントラスト顕微鏡

Tensorial tomographic differential phase-contrast microscopy ( http://arxiv.org/abs/2204.11397v1 )

ライセンス: CC BY 4.0
Shiqi Xu, Xiang Dai, Xi Yang, Kevin C. Zhou, Kanghyun Kim, Vinayak Pathak, Carolyn Glass, Roarke Horstmeyer(参考訳) T2DPC(Tensorial Tomography Differential Phase-Contrast Microscopy)は,位相と異方性を同時に測定するための定量的なラベルレス断層撮影法である。 T2DPCは、定量的位相イメージング技術である差位相コントラスト顕微鏡を拡張し、光のベクトル特性を強調する。 ledマトリックス、円偏光子、偏光感光カメラを備えた標準顕微鏡で取得した強度測定から異方性試料の誘電率テンソルを求める。 本研究では,生体試料の屈折率,複屈折率,配向の正確な体積再構成を示し,生体試料の再構成分極構造が病理予測であることを示す。

We report Tensorial Tomographic Differential Phase-Contrast microscopy (T2DPC), a quantitative label-free tomographic imaging method for simultaneous measurement of phase and anisotropy. T2DPC extends differential phase-contrast microscopy, a quantitative phase imaging technique, to highlight the vectorial nature of light. The method solves for permittivity tensor of anisotropic samples from intensity measurements acquired with a standard microscope equipped with an LED matrix, a circular polarizer, and a polarization-sensitive camera. We demonstrate accurate volumetric reconstructions of refractive index, birefringence, and orientation for various validation samples, and show that the reconstructed polarization structures of a biological specimen are predictive of pathology.
翻訳日:2022-04-26 22:11:59 公開日:2022-04-25
# (参考訳) adaptive cognitive fit: 人工知能による情報ファセットと表現の管理強化

Adaptive cognitive fit: Artificial intelligence augmented management of information facets and representations ( http://arxiv.org/abs/2204.11405v1 )

ライセンス: CC BY 4.0
Jim Samuel, Rajiv Kashyap, Yana Samuel and Alexander Pelaez(参考訳) ビッグデータ技術と人工知能(ai)アプリケーションにおける爆発的な成長は、情報ファセットの広がりと急速に増加する情報表現へとつながった。 等価性や正確性などの情報フェートは、情報に対する人間の認識を支配的かつ大きく左右し、その結果、人間のパフォーマンスに影響を及ぼす。 ビッグデータとaiの時代に先立つ、認知的適合に関する現存する研究は、情報表現とタスクの連携がパフォーマンスに与える影響に焦点をあて、情報ファセットやそれに付随する認知的課題を十分に考慮することなく焦点を当てている。 したがって、情報表現やタスクによる支配的な情報ファセットの相互作用とその人的パフォーマンスへの影響を理解する必要がある。 これらの複雑な情報環境には、認知的制約を克服するために情報表現を適応できる人工知能技術が必要であることを示唆する。 この目的のために,情報ファセットとAIによる情報表現が人的パフォーマンスに与える影響を説明する,新しい*適応認知フィット*[ACF]フレームワークを提案し,検証する。 我々は、情報処理理論と認知不協和理論に基づいて、ACFフレームワークと一連の提案を前進させる。 我々は、情報ファセットの影響を実証する経済実験と、aiを人間のパフォーマンスを改善するために有効性を確立する機械学習シミュレーションを用いて、acfの提案を実証的に検証する。

Explosive growth in big data technologies and artificial intelligence [AI] applications have led to increasing pervasiveness of information facets and a rapidly growing array of information representations. Information facets, such as equivocality and veracity, can dominate and significantly influence human perceptions of information and consequently affect human performance. Extant research in cognitive fit, which preceded the big data and AI era, focused on the effects of aligning information representation and task on performance, without sufficient consideration to information facets and attendant cognitive challenges. Therefore, there is a compelling need to understand the interplay of these dominant information facets with information representations and tasks, and their influence on human performance. We suggest that artificially intelligent technologies that can adapt information representations to overcome cognitive limitations are necessary for these complex information environments. To this end, we propose and test a novel *Adaptive Cognitive Fit* [ACF] framework that explains the influence of information facets and AI-augmented information representations on human performance. We draw on information processing theory and cognitive dissonance theory to advance the ACF framework and a set of propositions. We empirically validate the ACF propositions with an economic experiment that demonstrates the influence of information facets, and a machine learning simulation that establishes the viability of using AI to improve human performance.
翻訳日:2022-04-26 21:55:28 公開日:2022-04-25
# (参考訳) 加速乗算重み更新は、ほとんど常にサドルポイントを避ける

Accelerated Multiplicative Weights Update Avoids Saddle Points almost always ( http://arxiv.org/abs/2204.11407v1 )

ライセンス: CC BY 4.0
Yi Feng, Ioannis Panageas, Xiao Wang(参考訳) 単純化の産物である制約付き非凸最適化問題を考える。 この種の問題を解決するのによく使われるアルゴリズムは、ゲーム理論、機械学習、マルチエージェントシステムで広く使われているMultiplicative Weights Update (MWU) である。 MWUがサドル点を避けることは知られているが、「サドル点を確実に避けるMWUの加速バージョンはあるか?」という疑問が残る。 本稿では,上記の質問に対する肯定的な回答を提供する。 我々は、リーマン加速度勾配 Descent に基づく加速MWUを提供し、リーマン加速度勾配 Descent が証明されるので、加速MWUは、ほぼ常にサドル点を避けることができる。

We consider non-convex optimization problems with constraint that is a product of simplices. A commonly used algorithm in solving this type of problem is the Multiplicative Weights Update (MWU), an algorithm that is widely used in game theory, machine learning and multi-agent systems. Despite it has been known that MWU avoids saddle points, there is a question that remains unaddressed:"Is there an accelerated version of MWU that avoids saddle points provably?" In this paper we provide a positive answer to above question. We provide an accelerated MWU based on Riemannian Accelerated Gradient Descent, and prove that the Riemannian Accelerated Gradient Descent, thus the accelerated MWU, almost always avoid saddle points.
翻訳日:2022-04-26 21:17:52 公開日:2022-04-25
# (参考訳) 見出し診断:コンテンツファームの見出しの操作

Headline Diagnosis: Manipulation of Content Farm Headlines ( http://arxiv.org/abs/2204.11408v1 )

ライセンス: CC BY 4.0
Yu-Chieh Chen (1), Pei-Yu Huang (2), Chun Lin (3), Yi-Ting Huang (3) and Meng Chang Chen (3) ((1) Hal{\i}c{\i}o\u{g}lu Data Science Institute, University of California San Diego, La Jolla, United States, (2) Management and Digital Innovation, University of London, Singapore, (3) Institute of Information Science, Academia Sinica, Taipei, Taiwan)(参考訳) テクノロジーが急速に成長すると、ニュースはソーシャルメディアを通じて広まる。 より多くの読者を惹きつけ、さらに利益を得るために、一部の報道機関はより魅力的な方法で巨大なニュースを再現する。 したがって、ニュース記事が公式の報道機関のものであるかどうかを正確に予測することが不可欠である。 本研究は、畳み込みニューラルネットワークに基づく見出し分類を開発し、ニュース記事の信頼性を判定する。 このモデルは主に見出しから重要な要素を調査することに焦点を当てている。 これらの要因には、単語のセグメンテーション、音声タグ、感情の特徴などが含まれる。 これらの特徴を分類モデルに組み込むことで, 精度93.99%を実現した。

As technology grows faster, the news spreads through social media. In order to attract more readers and acquire additional profit, some news agencies reproduce massive news in a more appealing manner. Therefore, it is essential to accurately predict whether a news article is from official news agencies. This work develops a headline classification based on Convoluted Neural Network to determine credibility of a news article. The model primarily focuses on investigating key factors from headlines. These factors include word segmentation, part-of-speech tags, and sentiment features. With integrating these features into the proposed classification model, the demonstrated evaluation achieves 93.99% for accuracy.
翻訳日:2022-04-26 20:51:56 公開日:2022-04-25
# (参考訳) ダイナミック・エビデンシャル・フュージョンを用いた信頼度多視点分類

Trusted Multi-View Classification with Dynamic Evidential Fusion ( http://arxiv.org/abs/2204.11423v1 )

ライセンス: CC BY 4.0
Zongbo Han, Changqing Zhang, Huazhu Fu, and Joey Tianyi Zhou(参考訳) 既存のマルチビュー分類アルゴリズムは、様々なビューを活用して精度を高めることに重点を置いている。 有効ではあるが、マルチビュー統合と最終決定、特にノイズ、腐敗、分散データの信頼性を確保することも重要である。 異なるサンプルに対する各ビューの信頼性を動的に評価することで、信頼性の高い統合が可能になる。 これは不確実性推定によって達成できる。 そこで本研究では,複数の視点をエビデンスレベルで動的に統合することで,多視点学習のための新しいパラダイムを提供する,信頼型多視点分類(TMC)と呼ばれる新しい多視点分類アルゴリズムを提案する。 提案したTMCは,各視点からの証拠を考慮し,分類信頼性を向上させることができる。 具体的には、クラス確率の分布を特徴づける変分ディリクレを導入し、異なる視点から証拠をパラメータ化し、デンプスター・シェーファー理論と統合する。 統合学習フレームワークは正確な不確実性を誘導し、ノイズや腐敗の可能性に対して信頼性と堅牢性の両方をモデルに与える。 理論および実験の結果から,提案モデルの精度,ロバスト性,信頼性が検証された。

Existing multi-view classification algorithms focus on promoting accuracy by exploiting different views, typically integrating them into common representations for follow-up tasks. Although effective, it is also crucial to ensure the reliability of both the multi-view integration and the final decision, especially for noisy, corrupted and out-of-distribution data. Dynamically assessing the trustworthiness of each view for different samples could provide reliable integration. This can be achieved through uncertainty estimation. With this in mind, we propose a novel multi-view classification algorithm, termed trusted multi-view classification (TMC), providing a new paradigm for multi-view learning by dynamically integrating different views at an evidence level. The proposed TMC can promote classification reliability by considering evidence from each view. Specifically, we introduce the variational Dirichlet to characterize the distribution of the class probabilities, parameterized with evidence from different views and integrated with the Dempster-Shafer theory. The unified learning framework induces accurate uncertainty and accordingly endows the model with both reliability and robustness against possible noise or corruption. Both theoretical and experimental results validate the effectiveness of the proposed model in accuracy, robustness and trustworthiness.
翻訳日:2022-04-26 20:39:43 公開日:2022-04-25
# (参考訳) 多視点コセグメンテーションとクラスタリングトランスフォーマによる教師なし階層的意味セグメンテーション

Unsupervised Hierarchical Semantic Segmentation with Multiview Cosegmentation and Clustering Transformers ( http://arxiv.org/abs/2204.11432v1 )

ライセンス: CC BY 4.0
Tsung-Wei Ke, Jyh-Jing Hwang, Yunhui Guo, Xudong Wang and Stella X. Yu(参考訳) 教師なしセマンティクスセグメンテーションは、オブジェクトをキャプチャする画像内と、外部の監督なしでカテゴリのビュー不変性を検出することを目的としている。 グループ化は自然に粒度のレベルを持ち、教師なしのセグメンテーションにおいて曖昧さを生み出す。 既存の手法ではあいまいさを避けてモデリング以外の要素として扱うが、私たちはそれを受け入れ、教師なしのセグメンテーションに対して階層的なグループ化一貫性を求める。 我々は画素単位の機能学習問題として教師なしセグメンテーションにアプローチする。 私たちの考えでは、よい表現は特定のグループ化のレベルだけでなく、一貫性があり予測可能な方法でグループ化のレベルも明らかにするでしょう。 我々は,同一画像の複数ビュー間の協調によるグループ化とブートストラップの特徴学習の空間的一貫性を強制し,粗い特徴ときめ細かな特徴の間のクラスタリング変換を伴うグループ化階層全体の意味的一貫性を強制する。 階層的セグメンテーショングループ(HSG)と呼ばれる,データ駆動型非教師付き階層的セグメンテーション手法を初めて提供する。 視覚的類似性と統計的共起を捉えることで、HSGは5つの主要なオブジェクト中心およびシーン中心のベンチマークにおいて、既存の教師なしセグメンテーション手法よりも大きなマージンを達成している。 私たちのコードはhttps://github.com/twke18/HSGで公開されています。

Unsupervised semantic segmentation aims to discover groupings within and across images that capture object and view-invariance of a category without external supervision. Grouping naturally has levels of granularity, creating ambiguity in unsupervised segmentation. Existing methods avoid this ambiguity and treat it as a factor outside modeling, whereas we embrace it and desire hierarchical grouping consistency for unsupervised segmentation. We approach unsupervised segmentation as a pixel-wise feature learning problem. Our idea is that a good representation shall reveal not just a particular level of grouping, but any level of grouping in a consistent and predictable manner. We enforce spatial consistency of grouping and bootstrap feature learning with co-segmentation among multiple views of the same image, and enforce semantic consistency across the grouping hierarchy with clustering transformers between coarse- and fine-grained features. We deliver the first data-driven unsupervised hierarchical semantic segmentation method called Hierarchical Segment Grouping (HSG). Capturing visual similarity and statistical co-occurrences, HSG also outperforms existing unsupervised segmentation methods by a large margin on five major object- and scene-centric benchmarks. Our code is publicly available at https://github.com/twke18/HSG .
翻訳日:2022-04-26 19:59:27 公開日:2022-04-25
# (参考訳) 遷移モデル差による観測からの模倣学習

Imitation Learning from Observations under Transition Model Disparity ( http://arxiv.org/abs/2204.11446v1 )

ライセンス: CC BY 4.0
Tanmay Gangwani, Yuan Zhou, Jian Peng(参考訳) 観察からの模倣学習(ILO)として知られる専門家観察のデータセットを活用することでタスクを実行する学習は、専門家報酬機能や専門家の行動にアクセスすることなくスキルを学ぶための重要なパラダイムである。 我々は、専門家と学習者エージェントが異なる環境で活動する環境において、ILOを考慮し、その違いの源泉は遷移力学モデルである。 スケーラブルなILOの最近の手法は,動的に異なる場合の課題である,専門家と学習者の状態遷移分布に適合する逆学習を利用する。 本研究では,学習者環境における仲介方針を訓練し,学習者の代理専門家として利用するアルゴリズムを提案する。 仲介ポリシーは、それによって生成される状態遷移がエキスパートデータセットの状態遷移に近くなるように学習される。 実用的でスケーラブルなアルゴリズムを導出するために,確率分布の支持度を推定する先行研究から概念を取り入れた。 MuJoCo の移動タスクを用いた実験では,ILO の基準値と遷移力学のミスマッチとを比較した。

Learning to perform tasks by leveraging a dataset of expert observations, also known as imitation learning from observations (ILO), is an important paradigm for learning skills without access to the expert reward function or the expert actions. We consider ILO in the setting where the expert and the learner agents operate in different environments, with the source of the discrepancy being the transition dynamics model. Recent methods for scalable ILO utilize adversarial learning to match the state-transition distributions of the expert and the learner, an approach that becomes challenging when the dynamics are dissimilar. In this work, we propose an algorithm that trains an intermediary policy in the learner environment and uses it as a surrogate expert for the learner. The intermediary policy is learned such that the state transitions generated by it are close to the state transitions in the expert dataset. To derive a practical and scalable algorithm, we employ concepts from prior work on estimating the support of a probability distribution. Experiments using MuJoCo locomotion tasks highlight that our method compares favorably to the baselines for ILO with transition dynamics mismatch.
翻訳日:2022-04-26 19:55:58 公開日:2022-04-25
# (参考訳) 実行による自然言語からコードへの翻訳

Natural Language to Code Translation with Execution ( http://arxiv.org/abs/2204.11454v1 )

ライセンス: CC BY 4.0
Freda Shi, Daniel Fried, Marjan Ghazvininejad, Luke Zettlemoyer, Sida I. Wang(参考訳) 大量のプログラムで事前学習されたコード生成モデルは、自然言語をコードに変換することに大きな成功を収めている(chen et al., 2021; austin et al., 2021; li et al., 2022, inter alia)。 これらのモデルはトレーニング中にプログラムの意味論(すなわち実行結果)を明示的に取り入れていないが、多くの問題に対して正しい解を生成することができる。 しかし、各問題に対して生成された集合の中から1つの正しいプログラムを選択することは困難である。 本研究では,プログラム選択のための実行結果に基づく最小ベイズリスク復号(mbr-exec)を導入し,自然言語からコードへのタスクで事前学習されたコードモデルの少数性能を向上させることを示す。 同じ意味を持つプログラム実装を限界にすることで、生成された候補セットから出力プログラムを選択する。 正確な等価性は難解であるので、我々は各プログラムを少数のテスト入力で実行し、ほぼ意味同値にします。 データセット全体では、実行やシミュレートの実行は、プログラムのセマンティクスを含まないメソッドを大幅に上回っている。 MBR-EXECは,すべての実行を意識しない選択手法を一貫して改善し,自然言語によるコード翻訳に有効な手法として提案する。

Generative models of code, pretrained on large corpora of programs, have shown great success in translating natural language to code (Chen et al., 2021; Austin et al., 2021; Li et al., 2022, inter alia). While these models do not explicitly incorporate program semantics (i.e., execution results) during training, they are able to generate correct solutions for many problems. However, choosing a single correct program from among a generated set for each problem remains challenging. In this work, we introduce execution result--based minimum Bayes risk decoding (MBR-EXEC) for program selection and show that it improves the few-shot performance of pretrained code models on natural-language-to-code tasks. We select output programs from a generated candidate set by marginalizing over program implementations that share the same semantics. Because exact equivalence is intractable, we execute each program on a small number of test inputs to approximate semantic equivalence. Across datasets, execution or simulated execution significantly outperforms the methods that do not involve program semantics. We find that MBR-EXEC consistently improves over all execution-unaware selection methods, suggesting it as an effective approach for natural language to code translation.
翻訳日:2022-04-26 19:37:25 公開日:2022-04-25
# (参考訳) IMデセプション:超解像ネットワークを用いたグループ情報蒸留

IMDeception: Grouped Information Distilling Super-Resolution Network ( http://arxiv.org/abs/2204.11463v1 )

ライセンス: CC BY 4.0
Mustafa Ayazoglu(参考訳) SISR(Single-Image-Super-Resolution)は、ディープラーニング手法の最近の進歩、特に畳み込みニューラルネットワーク(CNN)の進歩の恩恵を受けている古典的なコンピュータビジョン問題である。 最先端の手法は、複数のデータセットにおけるsisrの性能を向上させるが、計算負荷が大きいため、これらのネットワークを実用化するための直接利用は依然として問題である。 この目的のために、近年、研究者はより効率的で高性能なネットワーク構造に焦点を当てている。 Information Multi-distilling Network (IMDN) は、高性能で低計算負荷のSISRネットワークの1つである。 IMDNは、グローバル環境で作業する中間情報収集(IIC)、プログレッシブ・リファインメント・モジュール(PRM)、ローカル環境で使用されるコントラスト・アウェア・チャネル・アテンション(CCA)といった様々なメカニズムでこの効率を実現する。 しかし、これらのメカニズムはIMDNの効率と性能に等しく寄与しない。 本稿では,機能集約のためのiicモジュールに代わるパラメータ要求の少ない代替モジュールとして,グローバル・プログレッシブ・リファインメント・モジュール(gprm)を提案する。 パラメータ数と浮動小数点演算を1秒間(FLOPS)でさらに減少させるため,グループ情報蒸留ブロック(GIDB)を提案する。 提案した構造を用いて、IMDeceptionと呼ばれる効率的なSISRネットワークを設計する。 実験の結果,提案したネットワークはパラメータやFLOPSが限られているにもかかわらず,最先端のモデルと同等に動作していることがわかった。 さらに、GIDBのビルディングブロックとしてグループ化された畳み込みを使用すると、デプロイメント中にさらなる最適化の余地が増加する。 その可能性を示すため、提案されたモデルはNVIDIA Jetson Xavier AGX上にデプロイされ、このエッジデバイス上でリアルタイムに動作可能であることが示されている。

Single-Image-Super-Resolution (SISR) is a classical computer vision problem that has benefited from the recent advancements in deep learning methods, especially the advancements of convolutional neural networks (CNN). Although state-of-the-art methods improve the performance of SISR on several datasets, direct application of these networks for practical use is still an issue due to heavy computational load. For this purpose, recently, researchers have focused on more efficient and high-performing network structures. Information multi-distilling network (IMDN) is one of the highly efficient SISR networks with high performance and low computational load. IMDN achieves this efficiency with various mechanisms such as Intermediate Information Collection (IIC), working in a global setting, Progressive Refinement Module (PRM), and Contrast Aware Channel Attention (CCA), employed in a local setting. These mechanisms, however, do not equally contribute to the efficiency and performance of IMDN. In this work, we propose the Global Progressive Refinement Module (GPRM) as a less parameter-demanding alternative to the IIC module for feature aggregation. To further decrease the number of parameters and floating point operations persecond (FLOPS), we also propose Grouped Information Distilling Blocks (GIDB). Using the proposed structures, we design an efficient SISR network called IMDeception. Experiments reveal that the proposed network performs on par with state-of-the-art models despite having a limited number of parameters and FLOPS. Furthermore, using grouped convolutions as a building block of GIDB increases room for further optimization during deployment. To show its potential, the proposed model was deployed on NVIDIA Jetson Xavier AGX and it has been shown that it can run in real-time on this edge device
翻訳日:2022-04-26 19:13:46 公開日:2022-04-25
# (参考訳) ハイブリッド量子古典機械学習フレームワークによる未知量子絡み合いの定量化

Quantifying Unknown Quantum Entanglement via a Hybrid Quantum-Classical Machine Learning Framework ( http://arxiv.org/abs/2204.11500v1 )

ライセンス: CC BY 4.0
Xiaodie Lin, Zhenyu Chen, Zhaohui Wei(参考訳) 未知の量子絡み合いを実験的に定量化することは難しい課題であるが、量子工学の急速な発展のためにますます必要となる。 機械学習は、実験的な測定可能なデータ、例えば局所的な測定によって生成されたモーメントや相関データに基づいて、未知の量子状態の絡み合いを予測するために、適切な機械学習モデルを訓練する必要がある。 本稿では,これら2つの機械学習手法の性能を系統的に比較する。 特に、モーメントに基づくアプローチは、モーメント測定のコストがはるかに高いにもかかわらず、相関データに基づくアプローチよりも顕著に有利であることを示す。 次に,相関データを実験的に取得しやすくするため,この問題に対するハイブリッド量子古典機械学習フレームワークの提案により,より情報的な相関データを生成するために最適な局所測定を訓練することが重要である。 シミュレーションにより,新しいフレームワークは未知の絡み合いを定量化するためのモーメントに基づく手法に匹敵する性能をもたらすことが示された。 我々の研究は、このようなタスクを短期量子デバイス上で実行することは、すでに現実的であることを示唆している。

Quantifying unknown quantum entanglement experimentally is a difficult task, but also becomes more and more necessary because of the fast development of quantum engineering. Machine learning provides practical solutions to this fundamental problem, where one has to train a proper machine learning model to predict entanglement measures of unknown quantum states based on experimentally measurable data, say moments or correlation data produced by local measurements. In this paper, we compare the performance of these two different machine learning approaches systematically. Particularly, we first show that the approach based on moments enjoys a remarkable advantage over that based on correlation data, though the cost of measuring moments is much higher. Next, since correlation data is much easier to obtain experimentally, we try to better its performance by proposing a hybrid quantum-classical machine learning framework for this problem, where the key is to train optimal local measurements to generate more informative correlation data. Our numerical simulations show that the new framework brings us comparable performance with the approach based on moments to quantify unknown entanglement. Our work implies that it is already practical to fulfill such tasks on near-term quantum devices.
翻訳日:2022-04-26 19:02:27 公開日:2022-04-25
# (参考訳) fedduap: 動的更新による連合学習とサーバ上の共有データを用いた適応的pruning

FedDUAP: Federated Learning with Dynamic Update and Adaptive Pruning Using Shared Data on the Server ( http://arxiv.org/abs/2204.11536v1 )

ライセンス: CC BY 4.0
Hong Zhang, Ji Liu, Juncheng Jia, Yang Zhou, Huaiyu Dai, Dejing Dou(参考訳) 有意なパフォーマンスを達成したにもかかわらず、連合学習(fl)は2つの重要な課題、すなわち限られた計算資源と低い訓練効率に苦しむ。 本稿では,サーバ上の非センシティブデータとエッジデバイスにおける分散データを利用して,トレーニング効率をさらに向上させる新しいflフレームワーク,すなわちfeedduapを提案する。 まず、動的サーバ更新アルゴリズムは、サーバ更新の最適なステップを動的に決定し、グローバルモデルの収束と精度を向上させるために、サーバ上の無感データを活用するように設計されている。 第2に、異なる次元と複数の層の重要性に適応した独自のプルーニング操作を行うための層適応型モデルプルーニング法を開発し、効率と効率のバランスを良くする。 提案するFLモデルであるFedDUAPは,2つの元の手法を統合することで,精度(最大4.8%),効率(最大2.8倍),計算コスト(最大61.9%)において,ベースラインアプローチを著しく上回っている。

Despite achieving remarkable performance, Federated Learning (FL) suffers from two critical challenges, i.e., limited computational resources and low training efficiency. In this paper, we propose a novel FL framework, i.e., FedDUAP, with two original contributions, to exploit the insensitive data on the server and the decentralized data in edge devices to further improve the training efficiency. First, a dynamic server update algorithm is designed to exploit the insensitive data on the server, in order to dynamically determine the optimal steps of the server update for improving the convergence and accuracy of the global model. Second, a layer-adaptive model pruning method is developed to perform unique pruning operations adapted to the different dimensions and importance of multiple layers, to achieve a good balance between efficiency and effectiveness. By integrating the two original techniques together, our proposed FL model, FedDUAP, significantly outperforms baseline approaches in terms of accuracy (up to 4.8% higher), efficiency (up to 2.8 times faster), and computational cost (up to 61.9% smaller).
翻訳日:2022-04-26 18:49:27 公開日:2022-04-25
# (参考訳) LoL: 擬似関連フィードバックに対するクエリ修正損失の比較正規化損失

LoL: A Comparative Regularization Loss over Query Reformulation Losses for Pseudo-Relevance Feedback ( http://arxiv.org/abs/2204.11545v1 )

ライセンス: CC BY 4.0
Yunchang Zhu, Liang Pang, Yanyan Lan, Huawei Shen, Xueqi Cheng(参考訳) Pseudo-Relevance feedback (PRF) は、検索精度を向上させるための効果的なクエリ修正手法であることが証明されている。 クエリとその潜在的なドキュメント間の言語表現のミスマッチを緩和することを目的としている。 既存のprfメソッドは、同じクエリに由来する修正されたクエリを独立に扱うが、異なる数のフィードバックドキュメントを使用する。 同じクエリから2つの異なるリビジョンの効果を比較することなく、PRFモデルはより多くのフィードバックで増大した付加的な無関係情報に誤ってフォーカスし、少ないフィードバックでリビジョンよりも効果の低いクエリを再構成する。 理想的には、もしPRFモデルがフィードバックの無関係な情報と関連する情報を区別できるなら、そこにあるフィードバックドキュメントが多ければ多いほど、修正されたクエリがより良くなるでしょう。 このギャップを埋めるため、トレーニング中に同じクエリの異なるリビジョン間のリビジョン損失を比較するためにLos-over-Loss(LoL)フレームワークを提案する。 具体的には、異なる量のフィードバックを用いて、元のクエリを複数回並列に修正し、その修正損失を計算する。 次に,これらの再編成ロスに対する追加の正規化損失を導入し,フィードバックを多く使用するが損失が大きくなるリビジョンを罰する。 このような比較正則化により、PRFモデルは、異なる改訂クエリの効果を比較することで、付加的な無関係情報の増加を抑えることを学習することが期待される。 さらに、このフレームワークを実装するために、異なるクエリ再構成手法を提案する。 本手法は,ベクトル空間におけるクエリを再検討し,スパースモデルと密度検索モデルの両方に適用可能なクエリベクトルの検索性能を直接最適化する。 実験による評価は,2つの典型的なスパースモデルと高密度検索モデルの有効性とロバスト性を示す。

Pseudo-relevance feedback (PRF) has proven to be an effective query reformulation technique to improve retrieval accuracy. It aims to alleviate the mismatch of linguistic expressions between a query and its potential relevant documents. Existing PRF methods independently treat revised queries originating from the same query but using different numbers of feedback documents, resulting in severe query drift. Without comparing the effects of two different revisions from the same query, a PRF model may incorrectly focus on the additional irrelevant information increased in the more feedback, and thus reformulate a query that is less effective than the revision using the less feedback. Ideally, if a PRF model can distinguish between irrelevant and relevant information in the feedback, the more feedback documents there are, the better the revised query will be. To bridge this gap, we propose the Loss-over-Loss (LoL) framework to compare the reformulation losses between different revisions of the same query during training. Concretely, we revise an original query multiple times in parallel using different amounts of feedback and compute their reformulation losses. Then, we introduce an additional regularization loss on these reformulation losses to penalize revisions that use more feedback but gain larger losses. With such comparative regularization, the PRF model is expected to learn to suppress the extra increased irrelevant information by comparing the effects of different revised queries. Further, we present a differentiable query reformulation method to implement this framework. This method revises queries in the vector space and directly optimizes the retrieval performance of query vectors, applicable for both sparse and dense retrieval models. Empirical evaluation demonstrates the effectiveness and robustness of our method for two typical sparse and dense retrieval models.
翻訳日:2022-04-26 18:34:35 公開日:2022-04-25
# (参考訳) PedRecNet:完全な3次元ポーズと向き推定のためのマルチタスクディープニューラルネットワーク

PedRecNet: Multi-task deep neural network for full 3D human pose and orientation estimation ( http://arxiv.org/abs/2204.11548v1 )

ライセンス: CC BY 4.0
Dennis Burgermeister and Crist\'obal Curio(参考訳) 本稿では,様々な深層ニューラルネットワークに基づく歩行者検出機能をサポートするマルチタスクネットワークを提案する。 2Dと3Dの人間のポーズに加えて、全身境界ボックス入力に基づく身体と頭部の向きの推定もサポートする。 これにより、明示的な顔認識が不要になる。 人間の3次元ポーズ推定と向き推定の性能は最先端技術に匹敵することを示す。 3次元人間のポーズ、特に身体および頭部の向きをフルボディデータに基づいて推定するデータセットは極めて少ないため、ネットワークを訓練する特定のシミュレーションデータの利点をさらに示している。 ネットワークアーキテクチャは比較的単純だが強力であり、さらなる研究や応用にも容易に適応できる。

We present a multitask network that supports various deep neural network based pedestrian detection functions. Besides 2D and 3D human pose, it also supports body and head orientation estimation based on full body bounding box input. This eliminates the need for explicit face recognition. We show that the performance of 3D human pose estimation and orientation estimation is comparable to the state-of-the-art. Since very few data sets exist for 3D human pose and in particular body and head orientation estimation based on full body data, we further show the benefit of particular simulation data to train the network. The network architecture is relatively simple, yet powerful, and easily adaptable for further research and applications.
翻訳日:2022-04-26 18:11:01 公開日:2022-04-25
# (参考訳) デンマーク語における低リソースインザミルド条件における幼児・クリニシアン会話の音声検出 : 事例研究

Speech Detection For Child-Clinician Conversations In Danish For Low-Resource In-The-Wild Conditions: A Case Study ( http://arxiv.org/abs/2204.11550v1 )

ライセンス: CC BY 4.0
Sneha Das, Nicole Nadine L{\o}nfeldt, Anne Katrine Pagsberg, Line. H. Clemmensen(参考訳) 自動音声処理タスクのための音声モデルの使用は、医学および精神医学におけるスクリーニング、分析、診断、治療の効率を向上させることができる。 しかし、セグメンテーションやダイアリゼーションのような事前処理された音声タスクの性能は、特に非定型音声を含むターゲットデータセットにおいて、その範囲内の臨床データに大きく低下する可能性がある。 本稿では,デンマークの子供-クリニシアン会話からなるデータセット上で,分類しきい値に対する事前学習された音声モデルの性能について検討する。 十分なラベル付きデータにアクセスできないため,音声対話の最初の数分で最適な分類しきい値を得るための,少数の入力しきい値適応を提案する。 本稿では,本研究を通して,既定分類しきい値のモデルが,患者集団の子どもに悪影響を及ぼすことを見出した。 さらに, モデルの誤差率は, 患者の診断の重症度と直接相関する。 最後に, 少数インスタンス適応について検討したところ, 3分間のクリニカルチャイルド会話が最適分類閾値を得るのに十分であることがわかった。

Use of speech models for automatic speech processing tasks can improve efficiency in the screening, analysis, diagnosis and treatment in medicine and psychiatry. However, the performance of pre-processing speech tasks like segmentation and diarization can drop considerably on in-the-wild clinical data, specifically when the target dataset comprises of atypical speech. In this paper we study the performance of a pre-trained speech model on a dataset comprising of child-clinician conversations in Danish with respect to the classification threshold. Since we do not have access to sufficient labelled data, we propose few-instance threshold adaptation, wherein we employ the first minutes of the speech conversation to obtain the optimum classification threshold. Through our work in this paper, we learned that the model with default classification threshold performs worse on children from the patient group. Furthermore, the error rates of the model is directly correlated to the severity of diagnosis in the patients. Lastly, our study on few-instance adaptation shows that three-minutes of clinician-child conversation is sufficient to obtain the optimum classification threshold.
翻訳日:2022-04-26 17:53:07 公開日:2022-04-25
# (参考訳) Graph-DETR3D:マルチビュー3Dオブジェクト検出のための重複領域の再考

Graph-DETR3D: Rethinking Overlapping Regions for Multi-View 3D Object Detection ( http://arxiv.org/abs/2204.11582v1 )

ライセンス: CC BY 4.0
Zehui Chen, Zhenyu Li, Shiquan Zhang, Liangji Fang, Qinhong Jiang, Feng Zhao(参考訳) 複数の画像ビューから3Dオブジェクトを検出することは、視覚的シーン理解の基本的な課題である。 低コストかつ高効率であるため、マルチビュー3dオブジェクト検出は有望な応用可能性を示している。 しかし,3次元空間における視点視による物体の正確な検出は,深度情報の欠如により極めて困難である。 近年,DETR3Dは3次元オブジェクト検出のための多視点画像を集約する新しい3D-2Dクエリパラダイムを導入し,最先端の性能を実現する。 本稿では,集中的なパイロット実験を行い,異なる領域にある物体を定量化し,各画像の境界領域における「侵入インスタンス」がdetr3dの性能を阻害する主なボトルネックであることを示す。 重複する領域の2つの隣接するビューから複数の特徴をマージするが、DETR3Dは依然として機能集約が不十分であり、検出性能を完全に向上する機会を欠いている。 そこで本稿では,グラフ構造学習(GSL)による多視点画像情報を自動的に集約するグラフDETR3Dを提案する。 各オブジェクトクエリと2d特徴マップの間の動的3dグラフを構築し、特に境界領域におけるオブジェクト表現を強化する。 さらに、Graph-DETR3Dは、画像サイズとオブジェクト深度を同時にスケーリングすることで視覚深度一貫性を維持する、新しい深度不変のマルチスケールトレーニング戦略の恩恵を受ける。 nuScenesデータセットに関する大規模な実験は、Graph-DETR3Dの有効性と効率を実証している。 特に,我々の最良のモデルでは,nuScenesテストリーダボード上で49.5 NDSを達成し,様々な画像ビュー3Dオブジェクト検出器と比較して新しい最先端技術を実現している。

3D object detection from multiple image views is a fundamental and challenging task for visual scene understanding. Due to its low cost and high efficiency, multi-view 3D object detection has demonstrated promising application prospects. However, accurately detecting objects through perspective views in the 3D space is extremely difficult due to the lack of depth information. Recently, DETR3D introduces a novel 3D-2D query paradigm in aggregating multi-view images for 3D object detection and achieves state-of-the-art performance. In this paper, with intensive pilot experiments, we quantify the objects located at different regions and find that the "truncated instances" (i.e., at the border regions of each image) are the main bottleneck hindering the performance of DETR3D. Although it merges multiple features from two adjacent views in the overlapping regions, DETR3D still suffers from insufficient feature aggregation, thus missing the chance to fully boost the detection performance. In an effort to tackle the problem, we propose Graph-DETR3D to automatically aggregate multi-view imagery information through graph structure learning (GSL). It constructs a dynamic 3D graph between each object query and 2D feature maps to enhance the object representations, especially at the border regions. Besides, Graph-DETR3D benefits from a novel depth-invariant multi-scale training strategy, which maintains the visual depth consistency by simultaneously scaling the image size and the object depth. Extensive experiments on the nuScenes dataset demonstrate the effectiveness and efficiency of our Graph-DETR3D. Notably, our best model achieves 49.5 NDS on the nuScenes test leaderboard, achieving new state-of-the-art in comparison with various published image-view 3D object detectors.
翻訳日:2022-04-26 17:44:50 公開日:2022-04-25
# (参考訳) 自己学習による単眼3次元物体検出のための教師なし領域適応

Unsupervised Domain Adaptation for Monocular 3D Object Detection via Self-Training ( http://arxiv.org/abs/2204.11590v1 )

ライセンス: CC BY 4.0
Zhenyu Li, Zehui Chen, Ang Li, Liangji Fang, Qinhong Jiang, Xianming Liu, Junjun Jiang(参考訳) モノクロ3Dオブジェクト検出(Monocular 3D)は、ディープラーニング技術と大規模自動運転データセットの出現によって、前例のない成功を収めた。 しかしながら、ターゲットドメインにラベルがないため、パフォーマンスの大幅な低下は、実践的なクロスドメインデプロイメントの未熟な課題である。 本稿では、まず、ドメインの幾何的不一致に起因する深さシフト問題であるmono3dにおけるドメイン間隙の重要要因を包括的に検討する。 次に,mono3d 上の教師なしドメイン適応のための新しい自己学習フレームワーク stmono3d を提案する。 深度シフトを緩和するために,カメラパラメータの絡み合いを解消し,領域の幾何一貫性を保証する幾何アライメントアライメント多スケールトレーニング戦略を導入する。 そこで本研究では,対象ドメイン上で適応的な擬似ラベルを生成するための教師学生パラダイムを開発した。 擬似ラベルのリッチな情報を提供するエンド・ツー・エンドのフレームワークの恩恵を受け、インスタンスレベルの疑似自信を考慮して、ターゲットドメインのトレーニングプロセスの有効性を向上させるための品質対応の監督戦略を提案する。 さらに、FNおよびFP擬似サンプルを扱うために、ポジティブフォーカストレーニング戦略とダイナミックしきい値を提案する。 STMono3Dは、評価されたすべてのデータセットで顕著なパフォーマンスを達成し、KITTI 3Dオブジェクト検出データセットの完全な教師付き結果を超えています。 われわれの知る限りでは、これはMono3Dの効果的なUDA手法を探求する最初の研究である。

Monocular 3D object detection (Mono3D) has achieved unprecedented success with the advent of deep learning techniques and emerging large-scale autonomous driving datasets. However, drastic performance degradation remains an unwell-studied challenge for practical cross-domain deployment as the lack of labels on the target domain. In this paper, we first comprehensively investigate the significant underlying factor of the domain gap in Mono3D, where the critical observation is a depth-shift issue caused by the geometric misalignment of domains. Then, we propose STMono3D, a new self-teaching framework for unsupervised domain adaptation on Mono3D. To mitigate the depth-shift, we introduce the geometry-aligned multi-scale training strategy to disentangle the camera parameters and guarantee the geometry consistency of domains. Based on this, we develop a teacher-student paradigm to generate adaptive pseudo labels on the target domain. Benefiting from the end-to-end framework that provides richer information of the pseudo labels, we propose the quality-aware supervision strategy to take instance-level pseudo confidences into account and improve the effectiveness of the target-domain training process. Moreover, the positive focusing training strategy and dynamic threshold are proposed to handle tremendous FN and FP pseudo samples. STMono3D achieves remarkable performance on all evaluated datasets and even surpasses fully supervised results on the KITTI 3D object detection dataset. To the best of our knowledge, this is the first study to explore effective UDA methods for Mono3D.
翻訳日:2022-04-26 17:29:57 公開日:2022-04-25
# (参考訳) 教師付き段階的適応のためのアルゴリズムと理論

Algorithms and Theory for Supervised Gradual Domain Adaptation ( http://arxiv.org/abs/2204.11644v1 )

ライセンス: CC BY 4.0
Jing Dong, Shiji Zhou, Baoxiang Wang, Han Zhao(参考訳) データ分散が時間とともに進化する現象は、適応学習アルゴリズムの必要性を呼ぶ様々なアプリケーションで観測されている。 そこで我々は,対象とするデータ分布の分類器を学習者に提供し,対象とするデータ分布の分類器を学習することを目的とした,段階的領域適応の教師付き問題について検討する。 この設定の下では、軽度な仮定の下で学習誤差に関する最初の一般化上限を提供する。 結果はアルゴリズムに依存しず,損失関数の範囲が広く,軌道上の平均学習誤差に線形にのみ依存する。 これは、対象ドメインの学習エラーがソースドメインの初期エラーに指数関数的に依存する、教師なしの段階的適応に対する以前の上限よりも大きな改善を示す。 また,複数のドメインからの学習のオフライン設定と比較して,対象ドメインに適応する上で,異なるドメイン間の時間構造の有用性が示唆された。 理論的には、各領域にまたがる適切な表現の学習が学習エラーを効果的に軽減することを示す。 これらの理論的知見に動機づけられ,表現と分類を同時に学習するmin-max学習目標を提案する。 半合成および大規模実データを用いた実験結果から,本研究の成果と目的の有効性を実証した。

The phenomenon of data distribution evolving over time has been observed in a range of applications, calling the needs of adaptive learning algorithms. We thus study the problem of supervised gradual domain adaptation, where labeled data from shifting distributions are available to the learner along the trajectory, and we aim to learn a classifier on a target data distribution of interest. Under this setting, we provide the first generalization upper bound on the learning error under mild assumptions. Our results are algorithm agnostic, general for a range of loss functions, and only depend linearly on the averaged learning error across the trajectory. This shows significant improvement compared to the previous upper bound for unsupervised gradual domain adaptation, where the learning error on the target domain depends exponentially on the initial error on the source domain. Compared with the offline setting of learning from multiple domains, our results also suggest the potential benefits of the temporal structure among different domains in adapting to the target one. Empirically, our theoretical results imply that learning proper representations across the domains will effectively mitigate the learning errors. Motivated by these theoretical insights, we propose a min-max learning objective to learn the representation and classifier simultaneously. Experimental results on both semi-synthetic and large-scale real datasets corroborate our findings and demonstrate the effectiveness of our objectives.
翻訳日:2022-04-26 17:28:56 公開日:2022-04-25
# (参考訳) パッセージ・リグレードのための事前学習言語モデルにおける明示的知識の導入

Incorporating Explicit Knowledge in Pre-trained Language Models for Passage Re-ranking ( http://arxiv.org/abs/2204.11673v1 )

ライセンス: CC BY 4.0
Qian Dong, Yiding Liu, Suqi Cheng, Shuaiqiang Wang, Zhicong Cheng, Shuzi Niu, Dawei Yin(参考訳) 経路再ランクは、検索段階から設定された候補通路上の置換を得る。 自然言語理解における圧倒的なアドバンテージのため、事前訓練された言語モデル(PLM)によってリランカーがブームになった。 しかし、既存のPLMベースのリランカは語彙ミスマッチやドメイン固有の知識の欠如に容易に悩まされる。 これらの問題を緩和するために、知識グラフに含まれる明示的な知識を注意深く研究に導入する。 具体的には,不完全でノイズの多い既存の知識グラフを用い,まず文節の再ランキングタスクに適用する。 信頼性の高い知識を活用するために,新しい知識グラフ蒸留法を提案し,問合せと通過の橋渡しとして知識メタグラフを得る。 潜在空間における2種類の埋め込みを整合させるために,plmをテキストエンコーダとして,グラフニューラルネットワークを知識メタグラフを知識エンコーダとして使用する。 さらに,テキストと知識エンコーダの動的相互作用を考慮し,新しい知識インジェクタを設計する。 実験の結果,特に詳細なドメイン知識を必要とする問合せにおいて,提案手法の有効性が示された。

Passage re-ranking is to obtain a permutation over the candidate passage set from retrieval stage. Re-rankers have been boomed by Pre-trained Language Models (PLMs) due to their overwhelming advantages in natural language understanding. However, existing PLM based re-rankers may easily suffer from vocabulary mismatch and lack of domain specific knowledge. To alleviate these problems, explicit knowledge contained in knowledge graph is carefully introduced in our work. Specifically, we employ the existing knowledge graph which is incomplete and noisy, and first apply it in passage re-ranking task. To leverage a reliable knowledge, we propose a novel knowledge graph distillation method and obtain a knowledge meta graph as the bridge between query and passage. To align both kinds of embedding in the latent space, we employ PLM as text encoder and graph neural network over knowledge meta graph as knowledge encoder. Besides, a novel knowledge injector is designed for the dynamic interaction between text and knowledge encoder. Experimental results demonstrate the effectiveness of our method especially in queries requiring in-depth domain knowledge.
翻訳日:2022-04-26 17:06:31 公開日:2022-04-25
# (参考訳) Tac2Pose:最初のタッチから触覚オブジェクトポス推定

Tac2Pose: Tactile Object Pose Estimation from the First Touch ( http://arxiv.org/abs/2204.11701v1 )

ライセンス: CC0 1.0
Maria Bauza, Antonia Bronars, Alberto Rodriguez(参考訳) 本稿では,既知物体に対する第1タッチからの触覚ポーズ推定のための物体固有アプローチであるtac2poseを提案する。 物体形状を考慮に入れ, 触覚観測により, 被写体に対する確率分布を推定するシミュレーションにおいて, 適切な知覚モデルを学ぶ。 そのために、センサに密集したオブジェクトのポーズが生じるような接触形状をシミュレートする。 そして,センサから得られた新しい接触形状を,コントラスト学習を用いて学習した物体固有の埋め込みを用いて,事前計算した集合と照合する。 rgb触覚観測を2元接触形状にマッピングする物体非依存キャリブレーションステップを用いて,センサから接触形状を求める。 このマッピングは、オブジェクトとセンサーインスタンス間で再利用できるが、実際のセンサーデータでトレーニングされる唯一のステップである。 この結果、最初の実触覚観察から物体を局所化する知覚モデルが得られる。 重要なことは、ポーズ分布を生成し、他の知覚システム、連絡先、または事前からの追加のポーズ制約を組み込むことができる。 20個のオブジェクトに対して定量的な結果を提供する。 tac2poseは、異なる物体のポーズから生じる可能性のある接触形状を考慮し、有意義なポーズ分布を回帰しながら、特徴的な触覚観察から高い精度のポーズ推定を提供する。 また,3dスキャナから再構成したオブジェクトモデルに対してtac2poseをテストし,オブジェクトモデルの不確かさに対するロバスト性を評価する。 最後に、触覚ポーズ推定のための3つの基本手法と比較して、Tac2Poseの利点を実証する: 物体のポーズを直接ニューラルネットワークで回帰し、標準分類ニューラルネットワークを用いて観測された接触と可能な接触のセットをマッチングし、観測された接触と可能な接触のセットを直接ピクセル比較する。 Webサイト: http://mcube.mit.edu/research/tac2pose.html

In this paper, we present Tac2Pose, an object-specific approach to tactile pose estimation from the first touch for known objects. Given the object geometry, we learn a tailored perception model in simulation that estimates a probability distribution over possible object poses given a tactile observation. To do so, we simulate the contact shapes that a dense set of object poses would produce on the sensor. Then, given a new contact shape obtained from the sensor, we match it against the pre-computed set using an object-specific embedding learned using contrastive learning. We obtain contact shapes from the sensor with an object-agnostic calibration step that maps RGB tactile observations to binary contact shapes. This mapping, which can be reused across object and sensor instances, is the only step trained with real sensor data. This results in a perception model that localizes objects from the first real tactile observation. Importantly, it produces pose distributions and can incorporate additional pose constraints coming from other perception systems, contacts, or priors. We provide quantitative results for 20 objects. Tac2Pose provides high accuracy pose estimations from distinctive tactile observations while regressing meaningful pose distributions to account for those contact shapes that could result from different object poses. We also test Tac2Pose on object models reconstructed from a 3D scanner, to evaluate the robustness to uncertainty in the object model. Finally, we demonstrate the advantages of Tac2Pose compared with three baseline methods for tactile pose estimation: directly regressing the object pose with a neural network, matching an observed contact to a set of possible contacts using a standard classification neural network, and direct pixel comparison of an observed contact with a set of possible contacts. Website: http://mcube.mit.edu/research/tac2pose.html
翻訳日:2022-04-26 16:44:43 公開日:2022-04-25
# (参考訳) ブレークスルー曲線予測のための機械学習手法の性能について

On the Performance of Machine Learning Methods for Breakthrough Curve Prediction ( http://arxiv.org/abs/2204.11719v1 )

ライセンス: CC BY 4.0
Daria Fokina (1 and 2), Oleg Iliev (1 and 2 and 3), Pavel Toktaliev (1 and 2), Ivan Oseledets (4), Felix Schindler (5) ((1) Fraunhofer ITWM, (2) Technische Universit\"at Kaiserslautern, (3) Institute of Mathematics and Informatics, Bulgarian Academy of Sciences, (4) Skolkovo Institute of Science and Technology, (5) Westf\"alische Wilhelms-Universit\"at M\"unster)(参考訳) リアクティブフローは多くの技術および環境プロセスの重要な部分である。 多くの場合、ドメイン内の流れや種濃度のモニタリングは不可能または高価であり、対照的に、出口濃度の計測は容易である。 多孔質媒体の反応性流れに関連して、入口の所定条件で出口濃度の時間依存性を表すためにブレークスルー曲線という用語が用いられる。 本研究では,与えられたパラメータセットからブレークスルー曲線を予測するために,いくつかの機械学習手法を適用した。 私たちの場合、パラメータは Damk\"ohler と Peclet である。 1次元の場合について徹底的な解析を行い、3次元の場合の結果も提供する。

Reactive flows are important part of numerous technical and environmental processes. Often monitoring the flow and species concentrations within the domain is not possible or is expensive, in contrast, outlet concentration is straightforward to measure. In connection with reactive flows in porous media, the term breakthrough curve is used to denote the time dependency of the outlet concentration with prescribed conditions at the inlet. In this work we apply several machine learning methods to predict breakthrough curves from the given set of parameters. In our case the parameters are the Damk\"ohler and Peclet numbers. We perform a thorough analysis for the one-dimensional case and also provide the results for the three-dimensional case.
翻訳日:2022-04-26 16:08:01 公開日:2022-04-25
# (参考訳) 畳み込みニューラルネットワークを用いた外惑星カルトグラフィー

Exoplanet Cartography using Convolutional Neural Networks ( http://arxiv.org/abs/2204.11821v1 )

ライセンス: CC BY 4.0
K. Meinke, D.M. Stam, P.M. Visser(参考訳) 近未来では、専用の望遠鏡が反射光で地球に似た太陽系外惑星を観測し、その特性を評価できる。 巨大な距離のため、全ての太陽系外惑星は単一のピクセルとなるが、そのスペクトルフラックスの時間変化は惑星の表面や大気に関する情報を保持する。 本研究では, 惑星の自転軸, 表面, 雲マップをシミュレーションした単画素フラックスと偏光観測から取得するための畳み込みニューラルネットワークをテストする。 本研究は、惑星が検索においてランベルシャンを反射し、実際の反射が双方向であり、検索に偏光を含むという仮定について検討する。 様々な光子ノイズレベルにおいて,400nmから800nmのスペクトル帯で,植生,砂漠,海,雲,レイリー散乱による偏光と双方向反射を含む放射移動アルゴリズムを用いて,惑星の軌道に沿った観測をシミュレートした。 モデル惑星を覆う面の表面型と雲のパターンは確率分布に基づいている。 私たちのネットワークは、テスト惑星の地図を取得する前に、何百万もの惑星のシミュレーション観測で訓練されています。 ニューラルネットワークは、軌道傾斜角に応じて平均二乗誤差(mse)が0.0097と小さい回転軸を制約することができる。 双方向に反射する惑星では、ノイズがない状態で海洋の92%、植生、砂漠、雲面の85%が正しく回収される。 現実的なノイズがあれば、専用の望遠鏡でメインマップの特徴を回収できるはずだ。 ランベルシャンの反射する惑星で訓練されたネットワークであるface-on orbitsを除くと、2方向の反射する惑星、特に惑星の極の周りの明るさアーティファクトを観測すると、重要な検索エラーが発生する。 偏光を含むことで、回転軸の検索と、海面と雲面の検索精度が向上する。

In the near-future, dedicated telescopes observe Earth-like exoplanets in reflected light, allowing their characterization. Because of the huge distances, every exoplanet will be a single pixel, but temporal variations in its spectral flux hold information about the planet's surface and atmosphere. We test convolutional neural networks for retrieving a planet's rotation axis, surface and cloud map from simulated single-pixel flux and polarization observations. We investigate the assumption that the planets reflect Lambertian in the retrieval while their actual reflection is bidirectional, and of including polarization in retrievals. We simulate observations along a planet's orbit using a radiative transfer algorithm that includes polarization and bidirectional reflection by vegetation, desert, oceans, water clouds, and Rayleigh scattering in 6 spectral bands from 400 to 800 nm, at various photon noise levels. The surface-types and cloud patterns of the facets covering a model planet are based on probability distributions. Our networks are trained with simulated observations of millions of planets before retrieving maps of test planets. The neural networks can constrain rotation axes with a mean squared error (MSE) as small as 0.0097, depending on the orbital inclination. On a bidirectionally reflecting planet, 92% of ocean and 85% of vegetation, desert, and cloud facets are correctly retrieved, in the absence of noise. With realistic noise, it should still be possible to retrieve the main map features with a dedicated telescope. Except for face-on orbits, a network trained with Lambertian reflecting planets, yields significant retrieval errors when given observations of bidirectionally reflecting planets, in particular, brightness artefacts around a planet's pole. Including polarization improves retrieving the rotation axis and the accuracy of the retrieval of ocean and cloud facets.
翻訳日:2022-04-26 16:00:04 公開日:2022-04-25
# 音素レベル特徴抽出に基づくリアルタイム音声感情認識

Real-time Speech Emotion Recognition Based on Syllable-Level Feature Extraction ( http://arxiv.org/abs/2204.11382v1 )

ライセンス: Link先を確認
Abdul Rehman, Zhen-Tao Liu, Min Wu, Wei-Hua Cao, and Cheng-Shan Jia(参考訳) 音声感情認識システムは、ディープラーニングモデルに対する高い計算要求と、主に複数のコーパスにわたる感情計測の信頼性の低いため、高い予測遅延を有する。 そこで本研究では,音節レベルの特徴を分解・分析する還元主義的アプローチに基づく音声感情認識システムを提案する。 音声ストリームのメルスペクトログラムは音節レベルのコンポーネントに分解され、統計的特徴を抽出するために分析される。 提案手法では, フォルマント注意, ノイズゲートフィルタリング, ローリング正規化コンテキストを用いて, 特徴処理速度と可逆性の向上を図る。 一組の音節レベルのフォルマント特徴を抽出し、音節ごとの予測を行う単一の階層ニューラルネットワークに入力し、洗練されたディープラーニングを用いて文幅の予測を行う従来のアプローチとは対照的に、音節ごとの予測を行う。 音節レベルの予測は、リアルタイムのレイテンシの実現と、発話レベルのクロスコーパス予測における集約エラーの低減に役立つ。 IEMOCAP (IE) や MSP-Improv (MI) や RAVDESS (RA) のデータベースでの実験では、最先端のクロスコーパスでIEからMIに47.6%、MIからIEに56.2%の精度で予測しながら、リアルタイムのレイテンシをアーカイブしている。

Speech emotion recognition systems have high prediction latency because of the high computational requirements for deep learning models and low generalizability mainly because of the poor reliability of emotional measurements across multiple corpora. To solve these problems, we present a speech emotion recognition system based on a reductionist approach of decomposing and analyzing syllable-level features. Mel-spectrogram of an audio stream is decomposed into syllable-level components, which are then analyzed to extract statistical features. The proposed method uses formant attention, noise-gate filtering, and rolling normalization contexts to increase feature processing speed and tolerance to adversity. A set of syllable-level formant features is extracted and fed into a single hidden layer neural network that makes predictions for each syllable as opposed to the conventional approach of using a sophisticated deep learner to make sentence-wide predictions. The syllable level predictions help to achieve the real-time latency and lower the aggregated error in utterance level cross-corpus predictions. The experiments on IEMOCAP (IE), MSP-Improv (MI), and RAVDESS (RA) databases show that the method archives real-time latency while predicting with state-of-the-art cross-corpus unweighted accuracy of 47.6% for IE to MI and 56.2% for MI to IE.
翻訳日:2022-04-26 15:55:56 公開日:2022-04-25
# 無線電力伝送による無人航空機のオンラインルーティングのための深部強化学習

Deep Reinforcement Learning for Online Routing of Unmanned Aerial Vehicles with Wireless Power Transfer ( http://arxiv.org/abs/2204.11477v1 )

ライセンス: Link先を確認
Kaiwen Li, Tao Zhang, Rui Wang, Ling Wang(参考訳) 無人航空機(UAV)は、その柔軟性と汎用性から、輸送、軍事任務、災害救助、通信など様々な用途において重要な役割を担っている。 本稿では,無線電力伝送によるUAVオンラインルーティング問題を解決するための深層強化学習手法を提案する。 本研究は、uavの消費電力とワイヤレス充電プロセスについて検討する。 従来の研究とは異なり、設計したディープニューラルネットワークによってこの問題を解決する。 このモデルは、オフラインで深層強化学習法を用いて訓練され、UAVルーティング問題を最適化するために使用される。 小規模インスタンスと大規模インスタンスでは、提案されたモデルは、同じソリューション品質の最先端のコンビネータ最適化ソリューションであるgoogle or-toolsの4倍から500倍速く動作する。 また、実行時間と最適性の両方の観点から、異なるタイプのヒューリスティックおよび局所探索メソッドを上回る。 さらに、モデルがトレーニングされると、トレーニング中に見られない任意のトポロジを持つ、新たに生成された問題インスタンスにスケールすることができる。 提案手法は,問題規模が大きく,応答時間が非常に重要な場合に適用可能である。

The unmanned aerial vehicle (UAV) plays an vital role in various applications such as delivery, military mission, disaster rescue, communication, etc., due to its flexibility and versatility. This paper proposes a deep reinforcement learning method to solve the UAV online routing problem with wireless power transfer, which can charge the UAV remotely without wires, thus extending the capability of the battery-limited UAV. Our study considers the power consumption of the UAV and the wireless charging process. Unlike the previous works, we solve the problem by a designed deep neural network. The model is trained using a deep reinforcement learning method offline, and is used to optimize the UAV routing problem online. On small and large scale instances, the proposed model runs from four times to 500 times faster than Google OR-tools, the state-of-the-art combinatorial optimization solver, with identical solution quality. It also outperforms different types of heuristic and local search methods in terms of both run-time and optimality. In addition, once the model is trained, it can scale to new generated problem instances with arbitrary topology that are not seen during training. The proposed method is practically applicable when the problem scale is large and the response time is crucial.
翻訳日:2022-04-26 15:55:28 公開日:2022-04-25
# AQuaMoHo:温熱量計による低コスト屋外空気質計測

AQuaMoHo: Localized Low-Cost Outdoor Air Quality Sensing over a Thermo-Hygrometer ( http://arxiv.org/abs/2204.11484v1 )

ライセンス: Link先を確認
Prithviraj Pramanik, Prasenjit Karmakar, Praveen Kumar Sharma, Soumyajit Chatterjee, Subrata Nandi, Sandip Chakraborty, Mousumi Saha and Sujoy Saha(参考訳) 効率的な空気質のセンシングは、近年のスマートシティにおいて重要なサービスの一つとなっている。 設置や維持が困難な空気質監視局(AQMS)の設置や設置が比較的容易であり、全体の空間的変動は、これらの既設の公共インフラから十分に離れた場所での空気質監視に大きく影響する。 そこで本稿では,AQIラベルを用いて,低コストな温度センサから得られたデータをアノテート可能なAQuaMoHoというフレームワークを提案する。 コアとなるAQuaMoHoは、LSTMベースのモデルを用いて利用可能な空間的特徴の集合から時間パターンを利用し、時間的注意によるアノテーションの全体的な品質を高める。 2つの異なる都市の徹底的な研究から、AQuaMoHoは個人の規模で大気の質データに注釈をつけるのに大いに役立ちます。

Efficient air quality sensing serves as one of the essential services provided in any recent smart city. Mostly facilitated by sparsely deployed Air Quality Monitoring Stations (AQMSs) that are difficult to install and maintain, the overall spatial variation heavily impacts air quality monitoring for locations far enough from these pre-deployed public infrastructures. To mitigate this, we in this paper propose a framework named AQuaMoHo that can annotate data obtained from a low-cost thermo-hygrometer (as the sole physical sensing device) with the AQI labels, with the help of additional publicly crawled Spatio-temporal information of that locality. At its core, AQuaMoHo exploits the temporal patterns from a set of readily available spatial features using an LSTM-based model and further enhances the overall quality of the annotation using temporal attention. From a thorough study of two different cities, we observe that AQuaMoHo can significantly help annotate the air quality data on a personal scale.
翻訳日:2022-04-26 15:54:07 公開日:2022-04-25
# カオス流れにおけるデータ駆動予測と極端な事象の制御

Data-driven prediction and control of extreme events in a chaotic flow ( http://arxiv.org/abs/2204.11682v1 )

ライセンス: Link先を確認
Alberto Racca and Luca Magri(参考訳) 極端な出来事は、非線形システムの状態の突然で激しい変化である。 流体力学では、極端な事象はシステムの最適設計と操作性に悪影響を及ぼし、予測と制御の正確な方法を要求する。 本稿では,カオスせん断流れにおける極端な事象の予測と制御のためのデータ駆動手法を提案する。 このアプローチは、時間依存データセット内の時間相関を学習する貯水池コンピューティングの一種であるエコー状態ネットワークに基づいている。 目的は5倍である。 まず、二項分類から分析のためのアドホックメトリクスを利用する。 i) ネットワークによって予測される極端な事象のどれ程が実際にテストセット(精度)で発生しているか、そして (ii) ネットワークによってどれだけの極端なイベントが見逃されるか(リコール)。 本稿では,ネットワーク性能の鍵となる最適パラメータ選択のための基本戦略を適用する。 第2に、極端事象の時間精度予測に焦点を当てる。 我々は、エコー状態ネットワークは、予測可能時間、すなわち5回以上のリアプノフ時間を超えて、極端な事象を予測できることを示した。 第3に,統計的観点からの極端な事象の長期予測に焦点を当てる。 非収束統計を含むデータセットでネットワークを訓練することにより、ネットワークがフローの長期統計を学習し、外挿することができることを示す。 言い換えれば、ネットワークは比較的短い時系列から時間内に外挿することができる。 第4に、極端に発生しないよう、シンプルで効果的な制御戦略を設計する。 制御戦略は、制御されていないシステムに関して、極端事象の発生を1桁まで減少させる。 最後に,様々なレイノルズ数に対する結果のロバスト性を分析する。 ネットワークは広い範囲のレジームにまたがってうまく機能することを示す。

An extreme event is a sudden and violent change in the state of a nonlinear system. In fluid dynamics, extreme events can have adverse effects on the system's optimal design and operability, which calls for accurate methods for their prediction and control. In this paper, we propose a data-driven methodology for the prediction and control of extreme events in a chaotic shear flow. The approach is based on echo state networks, which are a type of reservoir computing that learn temporal correlations within a time-dependent dataset. The objective is five-fold. First, we exploit ad-hoc metrics from binary classification to analyse (i) how many of the extreme events predicted by the network actually occur in the test set (precision), and (ii) how many extreme events are missed by the network (recall). We apply a principled strategy for optimal hyperparameter selection, which is key to the networks' performance. Second, we focus on the time-accurate prediction of extreme events. We show that echo state networks are able to predict extreme events well beyond the predictability time, i.e., up to more than five Lyapunov times. Third, we focus on the long-term prediction of extreme events from a statistical point of view. By training the networks with datasets that contain non-converged statistics, we show that the networks are able to learn and extrapolate the flow's long-term statistics. In other words, the networks are able to extrapolate in time from relatively short time series. Fourth, we design a simple and effective control strategy to prevent extreme events from occurring. The control strategy decreases the occurrence of extreme events up to one order of magnitude with respect to the uncontrolled system. Finally, we analyse the robustness of the results for a range of Reynolds numbers. We show that the networks perform well across a wide range of regimes.
翻訳日:2022-04-26 15:53:49 公開日:2022-04-25
# 変分オートエンコーダを用いたコヒーレント光通信におけるブラインド等化とチャネル推定

Blind Equalization and Channel Estimation in Coherent Optical Communications Using Variational Autoencoders ( http://arxiv.org/abs/2204.11776v1 )

ライセンス: Link先を確認
Vincent Lauinger, Fred Buchali, Laurent Schmalen(参考訳) 光通信におけるキャリア回復のための変分推論に基づく適応型ブラインド等化器の可能性を検討する。 これらの等化器は、最大度チャネル推定の低複素近似に基づいている。 本稿では、変分オートエンコーダ(vae)イコライザの概念を、確率的コンステレーションシェーピング(pcs)を包含する高次変調フォーマット、光通信におけるユビキタス、受信機でのオーバーサンプリング、デュアルポーラライズ伝送に一般化する。 畳み込みニューラルネットワークに基づくブラックボックス等化器の他に,線形バタフライフィルタに基づくモデルベース等化器を提案し,変動推論パラダイムを用いてフィルタ係数を訓練する。 副産物として、VAEは信頼性の高いチャネル推定も提供する。 我々は,古典的な付加的な白色ガウス雑音(AWGN)チャネルとシンボル間干渉(ISI)チャネル,分散線形光双極化チャネルの性能と柔軟性について解析する。 固定チャネルと時間変化チャネルの両方に対して、PCSの最先端の定数変調アルゴリズム(CMA)より優れた性能を発揮できることを示す。 評価にはハイパーパラメータ解析が伴う。

We investigate the potential of adaptive blind equalizers based on variational inference for carrier recovery in optical communications. These equalizers are based on a low-complexity approximation of maximum likelihood channel estimation. We generalize the concept of variational autoencoder (VAE) equalizers to higher order modulation formats encompassing probabilistic constellation shaping (PCS), ubiquitous in optical communications, oversampling at the receiver, and dual-polarization transmission. Besides black-box equalizers based on convolutional neural networks, we propose a model-based equalizer based on a linear butterfly filter and train the filter coefficients using the variational inference paradigm. As a byproduct, the VAE also provides a reliable channel estimation. We analyze the VAE in terms of performance and flexibility over a classical additive white Gaussian noise (AWGN) channel with inter-symbol interference (ISI) and over a dispersive linear optical dual-polarization channel. We show that it can extend the application range of blind adaptive equalizers by outperforming the state-of-the-art constant-modulus algorithm (CMA) for PCS for both fixed but also time-varying channels. The evaluation is accompanied with a hyperparameter analysis.
翻訳日:2022-04-26 15:53:27 公開日:2022-04-25
# ランダム初期化最小角形:マトリックスセンシングのための高速収束

Randomly Initialized Alternating Least Squares: Fast Convergence for Matrix Sensing ( http://arxiv.org/abs/2204.11516v1 )

ライセンス: Link先を確認
Kiryung Lee, Dominik St\"oger(参考訳) 本稿では,信号処理,統計,機械学習における様々な問題に現れるタスクであるランダム線形計測からランク1行列を再構成する問題を考える。 本稿では, Alternating Least Squares (ALS) 法に着目した。 このアルゴリズムは以前の多くの研究で研究されてきたが、その多くは真の解に近い初期化から収束することしか示さず、慎重に設計された初期化スキームを必要とする。 しかしながら、ランダム初期化はモデルに依存しないため、実践者によってしばしば好まれている。 本稿では、ランダム初期化を持つALSが真の解に収束することを示す。$O(\log n + \log (1/\varepsilon)) $ iterations in $O(\log n + \log (1/\varepsilon)) $ iterations using a almost-timal amount of sample, ここで、測定行列をガウス行列と仮定し、$n$で周囲次元を表す。 我々の証明の鍵となるのは、ALSの軌道が反復する観察は、ランダムな測定行列の特定のエントリのみに非常に軽度に依存することである。 数値実験は我々の理論予測を裏付ける。

We consider the problem of reconstructing rank-one matrices from random linear measurements, a task that appears in a variety of problems in signal processing, statistics, and machine learning. In this paper, we focus on the Alternating Least Squares (ALS) method. While this algorithm has been studied in a number of previous works, most of them only show convergence from an initialization close to the true solution and thus require a carefully designed initialization scheme. However, random initialization has often been preferred by practitioners as it is model-agnostic. In this paper, we show that ALS with random initialization converges to the true solution with $\varepsilon$-accuracy in $O(\log n + \log (1/\varepsilon)) $ iterations using only a near-optimal amount of samples, where we assume the measurement matrices to be i.i.d. Gaussian and where by $n$ we denote the ambient dimension. Key to our proof is the observation that the trajectory of the ALS iterates only depends very mildly on certain entries of the random measurement matrices. Numerical experiments corroborate our theoretical predictions.
翻訳日:2022-04-26 15:52:25 公開日:2022-04-25
# (参考訳) 新型コロナウイルス感染拡大に伴う出生説話の変化

Discovering changes in birthing narratives during COVID-19 ( http://arxiv.org/abs/2204.11742v1 )

ライセンス: CC BY 4.0
Daphna Spira, Noreen Mayat, Caitlin Dreisbach, Adam Poliak(参考訳) Redditで新たに親が書いた物語が、新型コロナウイルス(COVID-19)で変化したかどうかを調査した。 以上の結果から,家族の存在感は有意に低下し,労働力にかかわるテーマも増加傾向にあった。 私たちの研究は、新しい親がRedditを使って出生体験を説明する方法を分析する最近の研究に基づいています。

We investigate whether, and if so how, birthing narratives written by new parents on Reddit changed during COVID-19. Our results indicate that the presence of family members significantly decreased and themes related to induced labor significantly increased in the narratives during COVID-19. Our work builds upon recent research that analyze how new parents use Reddit to describe their birthing experiences.
翻訳日:2022-04-26 15:50:51 公開日:2022-04-25
# ピラミッドpix2pixによる乳癌の免疫組織化学的画像生成

BCI: Breast Cancer Immunohistochemical Image Generation through Pyramid Pix2pix ( http://arxiv.org/abs/2204.11425v1 )

ライセンス: Link先を確認
Shengjie Liu, Chuang Zhu, Feng Xu, Xinyu Jia, Zhongyue Shi and Mulan Jin(参考訳) ヒト上皮成長因子受容体2(her2)発現の評価は、乳癌の正確な治療に必須である。 HER2の定期的な評価は免疫組織化学的手法(IHC)で行われ、非常に高価である。 そこで本研究では,ihcデータをヘマトキシリンとエオシン(he)染色画像と直接合成する乳癌免疫組織化学(bci)ベンチマークを提案する。 データセットには4870の登録イメージペアが含まれており、さまざまなHER2表現レベルをカバーする。 BCIをベースとしたピラミッド画素画像生成手法は,他の一般的なアルゴリズムよりも優れたHEとIHCの変換結果が得られる。 広範な実験により、bciは既存の画像翻訳研究に新たな課題をもたらすことが示されている。 さらに、BCIは、合成IHC画像に基づくHER2発現評価における将来の病理研究の扉を開く。 BCIデータセットはhttps://bupt-ai-cz.github.io/BCIからダウンロードできる。

The evaluation of human epidermal growth factor receptor 2 (HER2) expression is essential to formulate a precise treatment for breast cancer. The routine evaluation of HER2 is conducted with immunohistochemical techniques (IHC), which is very expensive. Therefore, for the first time, we propose a breast cancer immunohistochemical (BCI) benchmark attempting to synthesize IHC data directly with the paired hematoxylin and eosin (HE) stained images. The dataset contains 4870 registered image pairs, covering a variety of HER2 expression levels. Based on BCI, as a minor contribution, we further build a pyramid pix2pix image generation method, which achieves better HE to IHC translation results than the other current popular algorithms. Extensive experiments demonstrate that BCI poses new challenges to the existing image translation research. Besides, BCI also opens the door for future pathology studies in HER2 expression evaluation based on the synthesized IHC images. BCI dataset can be downloaded from https://bupt-ai-cz.github.io/BCI.
翻訳日:2022-04-26 15:42:15 公開日:2022-04-25
# 適応型近傍情報アグリゲーションによる高効率損失画像符号化

High-Efficiency Lossy Image Coding Through Adaptive Neighborhood Information Aggregation ( http://arxiv.org/abs/2204.11448v1 )

ライセンス: Link先を確認
Ming Lu and Zhan Ma(参考訳) 圧縮性能と計算スループットの両方において、効率のよい損失画像符号化(lic)の探索は困難である。 重要な要素は、トランスフォーメーションとエントロピーコーディングモジュールにおいて、Adaptive Neighborhood Information Aggregation(ANIA)をインテリジェントに探索する方法である。 この目的のために、ICSA(Integrated Convolution and Self-Attention)ユニットが最初に提案され、入力に条件付けられた周辺情報を動的に特徴付け、埋め込むコンテンツ適応変換が形成される。 次に、MCM(Multistage Context Model)を開発し、正確かつ並列なエントロピー確率推定に必要な近傍要素を用いてコンテキスト予測を行う。 ICSA と MCM はいずれも変分オートエンコーダ (VAE) アーキテクチャで積み重ねられ、入力画像の速度歪みを最適化したコンパクト表現をエンドツーエンドのトレーニングで導出する。 kodak, clic, tecnickのデータセットで平均約15%のbdレート改善がvvc intraよりも優れた圧縮性能を示すとともに,他の注目すべき学習licアプローチと比較して画像デコード速度が約10$\times$であることを示す。 すべての資料は再現可能な研究のためにhttps://njuvision.github.io/Tinylicで公開されている。

Questing for lossy image coding (LIC) with superior efficiency on both compression performance and computation throughput is challenging. The vital factor behind is how to intelligently explore Adaptive Neighborhood Information Aggregation (ANIA) in transform and entropy coding modules. To this aim, Integrated Convolution and Self-Attention (ICSA) unit is first proposed to form content-adaptive transform to dynamically characterize and embed neighborhood information conditioned on the input. Then a Multistage Context Model (MCM) is developed to stagewisely execute context prediction using necessary neighborhood elements for accurate and parallel entropy probability estimation. Both ICSA and MCM are stacked under a Variational Auto-Encoder (VAE) architecture to derive rate-distortion optimized compact representation of input image via end-to-end training. Our method reports the superior compression performance surpassing the VVC Intra with $\approx$15% BD-rate improvement averaged across Kodak, CLIC and Tecnick datasets; and also demonstrates $\approx$10$\times$ speedup of image decoding when compared with other notable learned LIC approaches. All materials are made publicly accessible at https://njuvision.github.io/TinyLIC for reproducible research.
翻訳日:2022-04-26 15:41:57 公開日:2022-04-25
# 自己超越対合成データセット:ビデオデノゲーションの文脈において、どちらがより悪いか?

Self-supervision versus synthetic datasets: which is the lesser evil in the context of video denoising? ( http://arxiv.org/abs/2204.11493v1 )

ライセンス: Link先を確認
Val\'ery Dewil, Aranud Barral, Gabriele Facciolo, Pablo Arias(参考訳) 監督されたトレーニングは、画像とビデオの認知の最先端の結果につながった。 しかし、その実データへの応用は、取得が難しいノイズとクリーンなペアの大規模なデータセットを必要とするため、限られている。 このため、ネットワークはしばしばリアルな合成データに基づいて訓練される。 最近では、基礎的な真理を必要とせず、ノイズの多いデータに直接ネットワークをデノナイズする自己教師型フレームワークが提案されている。 教師付き学習における合成認知問題は、自己監督的アプローチよりも優れているが、近年では、特にビデオにおいてギャップが狭まっている。 本稿では,実生映像のデノイジングネットワークを訓練する最善の方法を決定するために,合成現実データに対する監督,実データに対する自己スーパービジョンを提案する。 クリーンなノイズペアを持つデータセットが存在しないため、実際の動画の場合の定量的な結果による完全な研究は不可能である。 2つのフレームワークを比較した3つの独立した実験を考慮することでこの問題に対処する。 実データに対する自己監督は, 合成データの監督よりも優れており, 通常の照明条件では, ノイズモデルではなく, 合成地上真実の生成による性能低下が原因であることがわかった。

Supervised training has led to state-of-the-art results in image and video denoising. However, its application to real data is limited since it requires large datasets of noisy-clean pairs that are difficult to obtain. For this reason, networks are often trained on realistic synthetic data. More recently, some self-supervised frameworks have been proposed for training such denoising networks directly on the noisy data without requiring ground truth. On synthetic denoising problems supervised training outperforms self-supervised approaches, however in recent years the gap has become narrower, especially for video. In this paper, we propose a study aiming to determine which is the best approach to train denoising networks for real raw videos: supervision on synthetic realistic data or self-supervision on real data. A complete study with quantitative results in case of natural videos with real motion is impossible since no dataset with clean-noisy pairs exists. We address this issue by considering three independent experiments in which we compare the two frameworks. We found that self-supervision on the real data outperforms supervision on synthetic data, and that in normal illumination conditions the drop in performance is due to the synthetic ground truth generation, not the noise model.
翻訳日:2022-04-26 15:41:25 公開日:2022-04-25
# 噂検出のための視覚感覚融合によるマルチモーダルデュアル感情

Multimodal Dual Emotion with Fusion of Visual Sentiment for Rumor Detection ( http://arxiv.org/abs/2204.11515v1 )

ライセンス: Link先を確認
Ge Wang, Li Tan, Ziliang Shang, He Liu(参考訳) 近年、噂は社会に壊滅的な影響を与えたため、うわさ検出は大きな課題となっている。 しかし,噂コンテンツにおける画像の強烈な感情を,噂検出の研究は無視している。 本稿では,画像感情がうわさ検出効率を向上させることを検証する。 視覚的感情とテキスト的感情からなるうわさ検出におけるマルチモーダルな二重感情特徴を提案する。 私たちの知る限りでは、これは噂の検出に視覚的な感情を利用する最初の研究です。 実際のデータセットでの実験では、提案された特徴が最先端の感情的特徴より優れており、噂検出器でその性能を改善しながら拡張可能であることが確認されている。

In recent years, rumors have had a devastating impact on society, making rumor detection a significant challenge. However, the studies on rumor detection ignore the intense emotions of images in the rumor content. This paper verifies that the image emotion improves the rumor detection efficiency. A Multimodal Dual Emotion feature in rumor detection, which consists of visual and textual emotions, is proposed. To the best of our knowledge, this is the first study which uses visual emotion in rumor detection. The experiments on real datasets verify that the proposed features outperform the state-of-the-art sentiment features, and can be extended in rumor detectors while improving their performance.
翻訳日:2022-04-26 15:41:05 公開日:2022-04-25
# 4DAC: ダイナミックポイントクラウドのための属性圧縮学習

4DAC: Learning Attribute Compression for Dynamic Point Clouds ( http://arxiv.org/abs/2204.11723v1 )

ライセンス: Link先を確認
Guangchi Fang, Qingyong Hu, Yiling Xu, Yulan Guo(参考訳) 3Dデータ取得機能の開発により、取得した3Dポイントクラウドの規模が大きくなることは、既存のデータ圧縮技術に課題をもたらす。 静的ポイントクラウド圧縮では有望な性能が達成されているが、有効な動的ポイントクラウド圧縮のためにポイントクラウドシーケンス内の時間的相関を利用するのは、まだ未検討であり、困難である。 本稿では,動的点雲の属性(例えば色)の圧縮について検討し,4DACと呼ばれる学習ベースのフレームワークを提案する。 データ内の時間的冗長性を低減するため,まず深層ニューラルネットワークを用いた3次元動き推定と動き補償モジュールを構築した。 そして、動き補償成分によって生成された属性残差を領域適応階層変換により残差係数に符号化する。 また,連続点群と運動推定・補償加群から時間的文脈を取り入れ,変換係数の確率分布を推定するための深い条件エントロピーモデルを提案する。 そして、予測分布で符号化されたデータストリームがロスレスエントロピーとなる。 いくつかの公開データセットに対する大規模な実験は、提案手法の優れた圧縮性能を示す。

With the development of the 3D data acquisition facilities, the increasing scale of acquired 3D point clouds poses a challenge to the existing data compression techniques. Although promising performance has been achieved in static point cloud compression, it remains under-explored and challenging to leverage temporal correlations within a point cloud sequence for effective dynamic point cloud compression. In this paper, we study the attribute (e.g., color) compression of dynamic point clouds and present a learning-based framework, termed 4DAC. To reduce temporal redundancy within data, we first build the 3D motion estimation and motion compensation modules with deep neural networks. Then, the attribute residuals produced by the motion compensation component are encoded by the region adaptive hierarchical transform into residual coefficients. In addition, we also propose a deep conditional entropy model to estimate the probability distribution of the transformed coefficients, by incorporating temporal context from consecutive point clouds and the motion estimation/compensation modules. Finally, the data stream is losslessly entropy coded with the predicted distribution. Extensive experiments on several public datasets demonstrate the superior compression performance of the proposed approach.
翻訳日:2022-04-26 15:40:34 公開日:2022-04-25
# 安静時fMRIを用いた深層学習型脳血流マッピング

Deep-learning-enabled Brain Hemodynamic Mapping Using Resting-state fMRI ( http://arxiv.org/abs/2204.11669v1 )

ライセンス: Link先を確認
Xirui Hou, Pengfei Guo, Puyang Wang, Peiying Liu, Doris D.M. Lin, Hongli Fan, Yang Li, Zhiliang Wei, Zixuan Lin, Dengrong Jiang, Jin Jin, Catherine Kelly, Jay J. Pillai, Judy Huang, Marco C. Pinho, Binu P. Thomas, Babu G. Welch, Denise C. Park, Vishal M. Patel, Argye E. Hillis, and Hanzhang Lu(参考訳) 脳血管疾患は世界中で主要な死因である。 予防と早期介入は、その管理の最も効果的な形態として知られている。 非侵襲的イメージング法は早期成層化を大いに約束するが、現在ではパーソナライズされた予後に対する感受性が欠如している。 神経活動のマッピングに使われた強力なツールである静止状態機能型MRI(rs-fMRI)は、ほとんどの病院で利用可能である。 ここでは, rs-fmriを用いて脳血流動態のマッピングを行い, 機能障害の診断を行う。 RS-fMRIにおける呼吸パターンの経時変化を利用して、深層学習は人間の脳の脳血管反応性(CVR)とボーラス到着時刻(BAT)の再現可能なマッピングを可能にする。 深層学習ネットワークは, 若年者, 健常者, モヤモヤ病および脳腫瘍患者のデータを含む, CO2吸入MRIの基準手法を用いて, CVRおよびBATマップを用いて訓練した。 正常加齢における血管異常の検出,再血管新生効果の評価,血管変化に対する深層脳血管マッピングの有用性を実証した。 また,本法で得られた脳血管図は健常者および脳卒中患者ともに良好な再現性を示した。 深層学習型安静時血管造影は臨床脳血管造影に有用なツールとなる可能性がある。

Cerebrovascular disease is a leading cause of death globally. Prevention and early intervention are known to be the most effective forms of its management. Non-invasive imaging methods hold great promises for early stratification, but at present lack the sensitivity for personalized prognosis. Resting-state functional magnetic resonance imaging (rs-fMRI), a powerful tool previously used for mapping neural activity, is available in most hospitals. Here we show that rs-fMRI can be used to map cerebral hemodynamic function and delineate impairment. By exploiting time variations in breathing pattern during rs-fMRI, deep learning enables reproducible mapping of cerebrovascular reactivity (CVR) and bolus arrive time (BAT) of the human brain using resting-state CO2 fluctuations as a natural 'contrast media'. The deep-learning network was trained with CVR and BAT maps obtained with a reference method of CO2-inhalation MRI, which included data from young and older healthy subjects and patients with Moyamoya disease and brain tumors. We demonstrate the performance of deep-learning cerebrovascular mapping in the detection of vascular abnormalities, evaluation of revascularization effects, and vascular alterations in normal aging. In addition, cerebrovascular maps obtained with the proposed method exhibited excellent reproducibility in both healthy volunteers and stroke patients. Deep-learning resting-state vascular imaging has the potential to become a useful tool in clinical cerebrovascular imaging.
翻訳日:2022-04-26 15:40:19 公開日:2022-04-25
# 球面座標上のガウス過程回帰による銀河系3次元ダスト分布

The Galactic 3D large-scale dust distribution via Gaussian process regression on spherical coordinates ( http://arxiv.org/abs/2204.11715v1 )

ライセンス: Link先を確認
R. H. Leike, G. Edenhofer, J. Knollm\"uller, C. Alig, P. Frank, T. A. En{\ss}lin(参考訳) 銀河系の3dダスト分布を知ることは、星間媒質の多くの過程の理解と、塵の吸収と放出に関する多くの天文学的観測の修正に関係している。 そこで本研究では, ダストマップの空間的相関を利用して, ダストマップの空間的相関を利用して, 従来に比べて, マグニチュードな解像度要素数の増加を図りながら, ギャラクティックダスト分布の3次元再構成を目指す。 球面座標における対数正規過程を定義するために反復格子補正を用いる。 この対数正規過程は、銀河塵の初期の再構成で推定された固定相関構造を仮定している。 我々の地図は、PANSTARRS, 2MASS, Gaia DR2, ALLWISEのデータを組み合わせて、1億1100万のデータポイントを通して情報を得る。 対数正規化過程は1220億度の自由度に離散化されており、これは以前の地図よりも400倍大きい。 自然勾配降下とフィッシャー・ラプラス近似を用いた最も可能性の高い後続写像と不確実性推定を導出する。 ダストリコンストラクションは銀河の体積の4分の1をカバーし、最大座標距離は16\,\text{kpc}$であり、有意義な情報は4,$kpcまでの距離で、以前の地図では最大距離が5倍、体積が900ドル、角格子解像度が約18倍改善されている。 残念なことに、再構成を手頃な価格で行うために選択された最大後方アプローチは、アーティファクトを導入し、不確実性推定の精度を下げる。 提案した3次元ダストマップの明らかな限界にもかかわらず、復元された構造物の大部分は独立したメーザー観測によって確認されている。 したがって、地図は信頼性の高い3Dギャラクティック地図への一歩であり、もし注意を払って使うなら、すでに多くのタスクをこなすことができる。

Knowing the Galactic 3D dust distribution is relevant for understanding many processes in the interstellar medium and for correcting many astronomical observations for dust absorption and emission. Here, we aim for a 3D reconstruction of the Galactic dust distribution with an increase in the number of meaningful resolution elements by orders of magnitude with respect to previous reconstructions, while taking advantage of the dust's spatial correlations to inform the dust map. We use iterative grid refinement to define a log-normal process in spherical coordinates. This log-normal process assumes a fixed correlation structure, which was inferred in an earlier reconstruction of Galactic dust. Our map is informed through 111 Million data points, combining data of PANSTARRS, 2MASS, Gaia DR2 and ALLWISE. The log-normal process is discretized to 122 Billion degrees of freedom, a factor of 400 more than our previous map. We derive the most probable posterior map and an uncertainty estimate using natural gradient descent and the Fisher-Laplace approximation. The dust reconstruction covers a quarter of the volume of our Galaxy, with a maximum coordinate distance of $16\,\text{kpc}$, and meaningful information can be found up to at distances of $4\,$kpc, still improving upon our earlier map by a factor of 5 in maximal distance, of $900$ in volume, and of about eighteen in angular grid resolution. Unfortunately, the maximum posterior approach chosen to make the reconstruction computational affordable introduces artifacts and reduces the accuracy of our uncertainty estimate. Despite of the apparent limitations of the presented 3D dust map, a good part of the reconstructed structures are confirmed by independent maser observations. Thus, the map is a step towards reliable 3D Galactic cartography and already can serve for a number of tasks, if used with care.
翻訳日:2022-04-26 15:39:00 公開日:2022-04-25
# 電力価格の予測

Forecasting Electricity Prices ( http://arxiv.org/abs/2204.11735v1 )

ライセンス: Link先を確認
Katarzyna Maciejowska, Bartosz Uniejewski, Rafa{\l} Weron(参考訳) 電力価格の予測は、1990年代以降の課題であり、伝統的に独占的かつ政府主導の電力セクターの規制緩和の活発な研究領域である。 スポット価格とフォワード価格の両方を予測することを目的としているが、ほとんどの研究は短期的な地平線に焦点を当てている。 その理由は、電力系統の安定性が生産と消費のバランスを一定に保ちながら、天候(需要と供給の両方)とビジネス活動(需要のみ)に依存する必要があるからである。 最近の市場革新はこの点では役に立たない。 断続的な再生可能エネルギー源の急速な拡大は、電力貯蔵容量の増大とグリッドインフラの近代化によって相殺されない。 方法論面では、2022年現在、電力価格予測研究の3つの目に見えるトレンドに繋がる。 第一に、毎年遅く、しかしより顕著な傾向があり、点だけでなく、確率的(内部、密度)や経路(アンサンブルとも呼ばれる)の予測も考慮する傾向がある。 第二に、比較的擬似的(あるいは統計的)モデルから、より複雑で理解しにくく、より汎用的で、最終的にはより正確な統計的・機械的な学習アプローチへの移行がある。 第3に,今日では統計誤差尺度が第1評価段階に過ぎないと考えられている。 予測誤差を減少させる経済価値を反映しているとは限らないため、異なるモデルから得られる価格予測に基づいてスケジューリングや取引戦略の利益を比較するケーススタディによって補完される。

Forecasting electricity prices is a challenging task and an active area of research since the 1990s and the deregulation of the traditionally monopolistic and government-controlled power sectors. Although it aims at predicting both spot and forward prices, the vast majority of research is focused on short-term horizons which exhibit dynamics unlike in any other market. The reason is that power system stability calls for a constant balance between production and consumption, while being weather (both demand and supply) and business activity (demand only) dependent. The recent market innovations do not help in this respect. The rapid expansion of intermittent renewable energy sources is not offset by the costly increase of electricity storage capacities and modernization of the grid infrastructure. On the methodological side, this leads to three visible trends in electricity price forecasting research as of 2022. Firstly, there is a slow, but more noticeable with every year, tendency to consider not only point but also probabilistic (interval, density) or even path (also called ensemble) forecasts. Secondly, there is a clear shift from the relatively parsimonious econometric (or statistical) models towards more complex and harder to comprehend, but more versatile and eventually more accurate statistical/machine learning approaches. Thirdly, statistical error measures are nowadays regarded as only the first evaluation step. Since they may not necessarily reflect the economic value of reducing prediction errors, more and more often, they are complemented by case studies comparing profits from scheduling or trading strategies based on price forecasts obtained from different models.
翻訳日:2022-04-26 15:38:23 公開日:2022-04-25
# マルチプレイヤーゲームにおける$o(\log t)$スワップ後悔を伴う非結合学習ダイナミクス

Uncoupled Learning Dynamics with $O(\log T)$ Swap Regret in Multiplayer Games ( http://arxiv.org/abs/2204.11417v1 )

ライセンス: Link先を確認
Ioannis Anagnostides, Gabriele Farina, Christian Kroer, Chung-Wei Lee, Haipeng Luo, Tuomas Sandholm(参考訳) 本稿では,汎用マルチプレイヤーゲームにおいて,すべてのプレイヤーが使用する場合,ゲーム繰り返し後の各プレイヤーの「emph{swap regret}」を$O(\log T)$でバウンドし,前回の$O(\log^4 (T))$よりも優れた効率と「emph{uncoupled}」学習ダイナミクスを確立する。 同時に、我々は、敵体制においても最適な$o(\sqrt{t})$スワップ後悔を保証する。 これらの結果を得るために、我々の主な貢献は、すべてのプレイヤーが学習速度の \emph{time-invariant} で我々のダイナミクスに従うとき、T$までのダイナミクスの \emph{second-order path lengths} が$O(\log T)$で制限されていることを示すことである。 提案する学習ダイナミクスは,新しい方法である \emph{optimistic} 正規化学習と \emph{self-concordant barriers} を組み合わせる。 さらに,daskalakis,fishelson,golowich (neurips'21) が最近開発した高次滑らかさの煩雑な枠組みをバイパスして,解析は非常に単純である。

In this paper we establish efficient and \emph{uncoupled} learning dynamics so that, when employed by all players in a general-sum multiplayer game, the \emph{swap regret} of each player after $T$ repetitions of the game is bounded by $O(\log T)$, improving over the prior best bounds of $O(\log^4 (T))$. At the same time, we guarantee optimal $O(\sqrt{T})$ swap regret in the adversarial regime as well. To obtain these results, our primary contribution is to show that when all players follow our dynamics with a \emph{time-invariant} learning rate, the \emph{second-order path lengths} of the dynamics up to time $T$ are bounded by $O(\log T)$, a fundamental property which could have further implications beyond near-optimally bounding the (swap) regret. Our proposed learning dynamics combine in a novel way \emph{optimistic} regularized learning with the use of \emph{self-concordant barriers}. Further, our analysis is remarkably simple, bypassing the cumbersome framework of higher-order smoothness recently developed by Daskalakis, Fishelson, and Golowich (NeurIPS'21).
翻訳日:2022-04-26 15:34:42 公開日:2022-04-25
# 逐次勧告のための決定点プロセス

Determinantal Point Process Likelihoods for Sequential Recommendation ( http://arxiv.org/abs/2204.11562v1 )

ライセンス: Link先を確認
Yuli Liu, Christian Walder, Lexing Xie(参考訳) シークエンシャルレコメンデーション(Sequential recommendation)は、学術研究において一般的なタスクであり、現実のアプリケーションシナリオに近い。 推薦システムのトレーニングプロセスでは,ユーザの正確な提案を生成するために,推薦モデルの最適化を導く上で,損失関数が重要な役割を果たす。 しかし、既存のシーケンシャルレコメンデーション技術のほとんどはアルゴリズムやニューラルネットワークアーキテクチャの設計に焦点を当てており、シーケンシャルレコメンデータシステムの実用シナリオに自然に適合する損失関数を調整するための努力はほとんど行われていない。 シーケンシャルレコメンデーションエリアでは、クロスエントロピーやベイジアンパーソナライズドランキング(BPR)のようなランキングベースの損失が広く使用されている。 このような目的関数は2つの固有の欠点に悩まされる。 一 この損失定式化において、シーケンスの要素間の依存関係が見過ごされていること。 二 精度(品質)及び多様性のバランスをとる代わりに、正確な結果のみを発生させることが強調されていること。 そこで我々は,次の項目や項目を推定するために適応的に適用可能な,行列点過程(dpp)の可能性に基づく2つの新しい損失関数を提案する。 DPP分散アイテムセットは、時間的動作間の自然な依存関係をキャプチャし、DPPカーネルの品質と多様性の分解により、精度指向の損失関数を超えることができる。 提案した損失関数を実世界の3つのデータセットで実験した結果、品質と多様性の指標の両方において、最先端のシーケンシャルなレコメンデーション手法の改善が示された。

Sequential recommendation is a popular task in academic research and close to real-world application scenarios, where the goal is to predict the next action(s) of the user based on his/her previous sequence of actions. In the training process of recommender systems, the loss function plays an essential role in guiding the optimization of recommendation models to generate accurate suggestions for users. However, most existing sequential recommendation techniques focus on designing algorithms or neural network architectures, and few efforts have been made to tailor loss functions that fit naturally into the practical application scenario of sequential recommender systems. Ranking-based losses, such as cross-entropy and Bayesian Personalized Ranking (BPR) are widely used in the sequential recommendation area. We argue that such objective functions suffer from two inherent drawbacks: i) the dependencies among elements of a sequence are overlooked in these loss formulations; ii) instead of balancing accuracy (quality) and diversity, only generating accurate results has been over emphasized. We therefore propose two new loss functions based on the Determinantal Point Process (DPP) likelihood, that can be adaptively applied to estimate the subsequent item or items. The DPP-distributed item set captures natural dependencies among temporal actions, and a quality vs. diversity decomposition of the DPP kernel pushes us to go beyond accuracy-oriented loss functions. Experimental results using the proposed loss functions on three real-world datasets show marked improvements over state-of-the-art sequential recommendation methods in both quality and diversity metrics.
翻訳日:2022-04-26 15:34:18 公開日:2022-04-25
# ワクチン使用量分析によるブースター線量管理によるcovid-19感染率予測モデルの実現可能性の検討

A feasibility study proposal of the predictive model to enable the prediction of population susceptibility to COVID-19 by analysis of vaccine utilization for advising deployment of a booster dose ( http://arxiv.org/abs/2204.11747v1 )

ライセンス: Link先を確認
Chottiwatt Jittprasong (Biomedical Robotics Laboratory, Department of Biomedical Engineering, City University of Hong Kong)(参考訳) 現在、高感染性のSARS-CoV-2株であるB1.1.529株やOmicron株が世界中に分布しているため、新型コロナウイルスのパンデミックがすぐには終わらないことや、より伝染的で有害な変異が出現するまでの時間との競合が懸念されている。 ウイルスの増殖を防ぐための最も有望なアプローチの1つは、Omicron変異が頻繁に起こるように、集団間で持続的な高予防接種効果を維持し、人口保護効果を強化し、ワクチン接種された集団の感染の大部分を防ぐことである。 各国は、人口の感染に対する感受性に応じて予防接種プログラムを構築し、予防接種活動の最適化を図り、人口の大半を守るのに十分なワクチンを段階的に提供しなければならない。 本研究は, 感染率の低下, ワクチン効果の低下, 増量剤の投与による予防効果の維持を, 予測モデルを用いて評価し, 適切な連続予防接種を維持するための可能性検討を行った。 ワクチン利用の分析に向けて多くの研究が行われてきたが、機械学習アルゴリズムに基づく予測モデルの助けを借りて、ブースターのワクチン接種を最適に展開するための研究はほとんど行われていない。

With the present highly infectious dominant SARS-CoV-2 strain of B1.1.529 or Omicron spreading around the globe, there is concern that the COVID-19 pandemic will not end soon and that it will be a race against time until a more contagious and virulent variant emerges. One of the most promising approaches for preventing virus propagation is to maintain continuous high vaccination efficacy among the population, thereby strengthening the population protective effect and preventing the majority of infection in the vaccinated population, as is known to occur with the Omicron variant frequently. Countries must structure vaccination programs in accordance with their populations' susceptibility to infection, optimizing vaccination efforts by delivering vaccines progressively enough to protect the majority of the population. We present a feasibility study proposal for maintaining optimal continuous vaccination by assessing the susceptible population, the decline of vaccine efficacy in the population, and advising booster dosage deployment to maintain the population's protective efficacy through the use of a predictive model. Numerous studies have been conducted in the direction of analyzing vaccine utilization; however, very little study has been conducted to substantiate the optimal deployment of booster dosage vaccination with the help of a predictive model based on machine learning algorithms.
翻訳日:2022-04-26 15:33:51 公開日:2022-04-25
# 断面アプローチによる動的点雲圧縮

Dynamic Point Cloud Compression with Cross-Sectional Approach ( http://arxiv.org/abs/2204.11409v1 )

ライセンス: Link先を確認
Faranak Tohidi, Manoranjan Paul, Anwaar Ulhaq(参考訳) 動的点雲の最近の発展は、自然界を模倣し、生命の質を大いに支援する可能性をもたらした。 しかし、ブロードキャストを成功させるためには、ダイナミックポイントクラウドは従来のビデオに比べて大量のデータを必要とするため、高い圧縮を必要とする。 最近、MPEGはV-PCCとして知られるビデオベースのPoint Cloud Compression標準を確定した。 しかしながら、V-PCCは、高価な正規計算とセグメント化のために膨大な計算時間を必要とし、いくつかの点を犠牲にして2Dパッチの数を制限し、2Dフレーム内の全ての空間を占有することができない。 提案手法は,新しい断面法を用いてこれらの制限に対処する。 このアプローチは、高価な正規推定とセグメンテーションを削減し、より多くの点を保持し、2次元フレーム生成のためにVPCCよりも多くの空間を利用する。 標準ビデオシーケンスを用いた実験結果から,V-PCC標準と比較して幾何学的およびテクスチャ的データの圧縮性が向上することが示された。

The recent development of dynamic point clouds has introduced the possibility of mimicking natural reality, and greatly assisting quality of life. However, to broadcast successfully, the dynamic point clouds require higher compression due to their huge volume of data compared to the traditional video. Recently, MPEG finalized a Video-based Point Cloud Compression standard known as V-PCC. However, V-PCC requires huge computational time due to expensive normal calculation and segmentation, sacrifices some points to limit the number of 2D patches, and cannot occupy all spaces in the 2D frame. The proposed method addresses these limitations by using a novel cross-sectional approach. This approach reduces expensive normal estimation and segmentation, retains more points, and utilizes more spaces for 2D frame generation compared to the VPCC. The experimental results using standard video sequences show that the proposed technique can achieve better compression in both geometric and texture data compared to the V-PCC standard.
翻訳日:2022-04-26 15:33:09 公開日:2022-04-25
# 伝達学習に基づく共同最適化戦略を用いた音声・視覚シーン分類

Audio-Visual Scene Classification Using A Transfer Learning Based Joint Optimization Strategy ( http://arxiv.org/abs/2204.11420v1 )

ライセンス: Link先を確認
Chengxin Chen, Meng Wang, Pengyuan Zhang(参考訳) 近年,オーディオ視覚シーン分類 (AVSC) が多分野コミュニティから注目を集めている。 以前の研究ではパイプライントレーニング戦略を採用する傾向があり、よく訓練された視覚および音響エンコーダを使用してまずハイレベルな表現(埋め込み)を抽出する。 このように、抽出された埋め込みはユニモーダル分類には適しているが、必ずしもマルチモーダル分類には適していない。 本稿では,AVSCタスクの入力として音響特徴と生画像を直接利用する共同学習フレームワークを提案する。 具体的には、事前学習した画像モデルの底層をビジュアルエンコーダとして検索し、トレーニング中にシーン分類器と1D-CNNベースの音響エンコーダを共同で最適化する。 TAU Urban Audio-Visual Scenes 2021の開発データセットの評価を行った。 実験の結果,提案手法は従来のパイプライン訓練手法よりも大幅に改善できることがわかった。 さらに,本システムでは,従来の最先端手法よりも優れており,ログ損失0.1517,オフィシャルテストフォールドの精度94.59%となっている。

Recently, audio-visual scene classification (AVSC) has attracted increasing attention from multidisciplinary communities. Previous studies tended to adopt a pipeline training strategy, which uses well-trained visual and acoustic encoders to extract high-level representations (embeddings) first, then utilizes them to train the audio-visual classifier. In this way, the extracted embeddings are well suited for uni-modal classifiers, but not necessarily suited for multi-modal ones. In this paper, we propose a joint training framework, using the acoustic features and raw images directly as inputs for the AVSC task. Specifically, we retrieve the bottom layers of pre-trained image models as visual encoder, and jointly optimize the scene classifier and 1D-CNN based acoustic encoder during training. We evaluate the approach on the development dataset of TAU Urban Audio-Visual Scenes 2021. The experimental results show that our proposed approach achieves significant improvement over the conventional pipeline training strategy. Moreover, our best single system outperforms previous state-of-the-art methods, yielding a log loss of 0.1517 and accuracy of 94.59% on the official test fold.
翻訳日:2022-04-26 15:32:54 公開日:2022-04-25
# エンド・ツー・エンドオーディオが復活:効率的な音声分類ネットワークに向けた強化

End-to-End Audio Strikes Back: Boosting Augmentations Towards An Efficient Audio Classification Network ( http://arxiv.org/abs/2204.11479v1 )

ライセンス: Link先を確認
Avi Gazneli, Gadi Zimerman, Tal Ridnik, Gilad Sharir, Asaf Noy(参考訳) 効率的なアーキテクチャとエンドツーエンドの画像分類タスクの多くの拡張が提案され、よく研究されているが、オーディオ分類の最先端の技術は、大きなデータセットから微調整された大きなアーキテクチャとともに、オーディオ信号の多数の表現に依存している。 音声のライトウェイトな特性と新しい音声拡張機能を利用することで,効率的なエンド・ツー・エンド1ネットワークを実現することができた。 各種音響分類セットの実験は, 各種設定における最先端結果の達成により, 提案手法の有効性とロバスト性を示す。 公開コードは利用可能である。

While efficient architectures and a plethora of augmentations for end-to-end image classification tasks have been suggested and heavily investigated, state-of-the-art techniques for audio classifications still rely on numerous representations of the audio signal together with large architectures, finetuned from large datasets. By utilizing the inherited lightweight nature of audio and novel audio augmentations, we were able to present an efficient end-to-end1 network with strong generalization ability. Experiments on a variety of sound classification sets demonstrate the effectiveness and robustness of our approach, by achieving state-of-the-art results in various settings. Public code will be available.
翻訳日:2022-04-26 15:32:34 公開日:2022-04-25
# (参考訳) 一般化可能なニューラルパフォーマ:人間の新しい視点合成のためのロバスト放射場を学習する

Generalizable Neural Performer: Learning Robust Radiance Fields for Human Novel View Synthesis ( http://arxiv.org/abs/2204.11798v1 )

ライセンス: CC BY 4.0
Wei Cheng, Su Xu, Jingtan Piao, Chen Qian, Wayne Wu, Kwan-Yee Lin, Hongsheng Li(参考訳) この研究は、一般的なディープラーニングフレームワークを使用して、任意の人間のパフォーマーのフリー視点画像を合成することを目的としている。 ボディーポーズ、形状、衣服の種類によって引き起こされる、幾何学と外観の大きなバリエーションは、このタスクの重要なボトルネックである。 これらの課題を克服するため,我々は,様々な形状や外観において汎用的でロバストなニューラルネットワーク表現を学習する,generalizable neural performer(gnr)という,単純かつ強力なフレームワークを提案する。 具体的には、光野を新しい視点の人間のレンダリングのために圧縮し、幾何学的および外観的側面から条件付き暗黙的神経放射場として表現する。 まず,パラメトリック3次元人体モデルとマルチビュー画像のヒントに基づくロバスト性を高めるために,暗黙の幾何体埋め込み戦略を導入する。 さらに,光源の外観と放射界との補間を緩和しながら近似的な幾何学的指導を施し,高品質な外観を保ちつつ,スクリーン空間のオクルージョン・アウェアな外観ブレンド手法を提案する。 本手法を評価するため,我々は,複雑性と多様性の著しいデータセットの構築を継続している。 データセットのgenebody-1.0は、マルチビューカメラで370人の被験者の360mフレームをキャプチャし、さまざまなポーズアクションを実行し、さまざまなボディシェイプ、服、アクセサリー、ヘアドーを含む。 GeneBody-1.0 と ZJU-Mocap の実験は, クロスデータセット, 見えない対象, 目に見えないポーズ設定において, 最新の最先端の一般化可能な手法よりも, 我々の手法の堅牢性を示した。 また,最先端のケース固有モデルと比較して,モデルの競争力を示す。 データセット、コード、モデルは公開される予定だ。

This work targets at using a general deep learning framework to synthesize free-viewpoint images of arbitrary human performers, only requiring a sparse number of camera views as inputs and skirting per-case fine-tuning. The large variation of geometry and appearance, caused by articulated body poses, shapes and clothing types, are the key bottlenecks of this task. To overcome these challenges, we present a simple yet powerful framework, named Generalizable Neural Performer (GNR), that learns a generalizable and robust neural body representation over various geometry and appearance. Specifically, we compress the light fields for novel view human rendering as conditional implicit neural radiance fields from both geometry and appearance aspects. We first introduce an Implicit Geometric Body Embedding strategy to enhance the robustness based on both parametric 3D human body model and multi-view images hints. We further propose a Screen-Space Occlusion-Aware Appearance Blending technique to preserve the high-quality appearance, through interpolating source view appearance to the radiance fields with a relax but approximate geometric guidance. To evaluate our method, we present our ongoing effort of constructing a dataset with remarkable complexity and diversity. The dataset GeneBody-1.0, includes over 360M frames of 370 subjects under multi-view cameras capturing, performing a large variety of pose actions, along with diverse body shapes, clothing, accessories and hairdos. Experiments on GeneBody-1.0 and ZJU-Mocap show better robustness of our methods than recent state-of-the-art generalizable methods among all cross-dataset, unseen subjects and unseen poses settings. We also demonstrate the competitiveness of our model compared with cutting-edge case-specific ones. Dataset, code and model will be made publicly available.
翻訳日:2022-04-26 15:31:53 公開日:2022-04-25
# 深層学習を用いた冠動脈イメージングのためのスペクトル空間octデータのマルチスケール再構成

Multi-scale reconstruction of undersampled spectral-spatial OCT data for coronary imaging using deep learning ( http://arxiv.org/abs/2204.11769v1 )

ライセンス: Link先を確認
Xueshen Li, Shengting Cao, Hongshan Liu, Xinwen Yao, Brigitta C. Brott, Silvio H. Litovsky, Xiaoyu Song, Yuye Ling, Yu Gan(参考訳) 冠動脈疾患 (CAD) は心臓血管疾患であり, 死亡率と死亡率が高い。 血管内光コヒーレンス断層撮影(ivoct)はcadの診断と治療に最適な想像システムと考えられている。 ナイキストの定理に制約された IVOCT の高密度サンプリングは、細胞構造や特徴を規定する高分解能を実現する。 冠動脈造影には高分解能と高速走査率のトレードオフがある。 本稿では,画像再構成における高品質を維持しつつ,スペクトル領域と空間領域の両方でサンプリングプロセスをダウンスケールするスペクトル空間取得手法を提案する。 ダウンスケーリングスケジュールは、ハードウェアの変更なしにデータ取得速度を向上する。 さらに,多視点空間拡大ネットワーク (mssmn) を統一し,フレキシブルな拡大係数を持つ高ダウンスケール(圧縮) oct 画像の解決法を提案する。 本手法を,ステントや石灰化病変などの臨床的特徴を有するヒト冠動脈試料の分光ドメインCT(SD-OCT)画像に取り入れた。 実験により、スペクトル空間のダウンスケールデータの方が、スペクトル領域または空間領域にのみダウンスケールされたデータよりもよく再構成できることが示された。 また,MSSMNを用いた再現性能は,既存の再構成手法よりも優れていた。 冠動脈インターベンション時に高分解能のSD-OCT検査を高速に行うことができる。

Coronary artery disease (CAD) is a cardiovascular condition with high morbidity and mortality. Intravascular optical coherence tomography (IVOCT) has been considered as an optimal imagining system for the diagnosis and treatment of CAD. Constrained by Nyquist theorem, dense sampling in IVOCT attains high resolving power to delineate cellular structures/ features. There is a trade-off between high spatial resolution and fast scanning rate for coronary imaging. In this paper, we propose a viable spectral-spatial acquisition method that down-scales the sampling process in both spectral and spatial domain while maintaining high quality in image reconstruction. The down-scaling schedule boosts data acquisition speed without any hardware modifications. Additionally, we propose a unified multi-scale reconstruction framework, namely Multiscale- Spectral-Spatial-Magnification Network (MSSMN), to resolve highly down-scaled (compressed) OCT images with flexible magnification factors. We incorporate the proposed methods into Spectral Domain OCT (SD-OCT) imaging of human coronary samples with clinical features such as stent and calcified lesions. Our experimental results demonstrate that spectral-spatial downscaled data can be better reconstructed than data that is downscaled solely in either spectral or spatial domain. Moreover, we observe better reconstruction performance using MSSMN than using existing reconstruction methods. Our acquisition method and multi-scale reconstruction framework, in combination, may allow faster SD-OCT inspection with high resolution during coronary intervention.
翻訳日:2022-04-26 15:06:08 公開日:2022-04-25
# (参考訳) Proto2Proto: 私のやり方で、車を認識できますか?

Proto2Proto: Can you recognize the car, the way I do? ( http://arxiv.org/abs/2204.11830v1 )

ライセンス: CC BY 4.0
Monish Keswani, Sriranjani Ramakrishnan, Nishant Reddy, Vineeth N Balasubramanian(参考訳) 原型的手法は最近、その内在的な解釈可能な性質によって多くの注目を集め、プロトタイプを通じて得られた。 モデル再利用と蒸留のユースケースの増加に伴い、あるモデルから別のモデルへの解釈可能性の移動の研究も必要となる。 Proto2Protoは1つの原型部分ネットワークの解釈可能性を知識蒸留により別のものに伝達する新しい方法である。 本研究の目的は,教師からより浅い学生モデルに移行した「暗黒」知識に解釈可能性を加えることである。 本稿では,「グローバル・リゾリューション」損失と「パッチ・プロトタイプ対応」損失の2つの新たな損失を提案する。 Global Explanation Losは学生のプロトタイプを教師のプロトタイプに近いものにし、Patch-Prototype Correspondence Losは生徒のローカル表現を教師のものと似ているように強制する。 さらに,教師と教師の親密性を評価するための3つの新しい指標を提案する。 CUB-200-2011 およびStanford Cars データセット上で,本手法の有効性を質的に定量的に検証した。 提案手法が教師から生徒への解釈可能性の伝達を実際に達成し,同時に競争性能を発揮できることを示す。

Prototypical methods have recently gained a lot of attention due to their intrinsic interpretable nature, which is obtained through the prototypes. With growing use cases of model reuse and distillation, there is a need to also study transfer of interpretability from one model to another. We present Proto2Proto, a novel method to transfer interpretability of one prototypical part network to another via knowledge distillation. Our approach aims to add interpretability to the "dark" knowledge transferred from the teacher to the shallower student model. We propose two novel losses: "Global Explanation" loss and "Patch-Prototype Correspondence" loss to facilitate such a transfer. Global Explanation loss forces the student prototypes to be close to teacher prototypes, and Patch-Prototype Correspondence loss enforces the local representations of the student to be similar to that of the teacher. Further, we propose three novel metrics to evaluate the student's proximity to the teacher as measures of interpretability transfer in our settings. We qualitatively and quantitatively demonstrate the effectiveness of our method on CUB-200-2011 and Stanford Cars datasets. Our experiments show that the proposed method indeed achieves interpretability transfer from teacher to student while simultaneously exhibiting competitive performance.
翻訳日:2022-04-26 15:03:02 公開日:2022-04-25
# 空中LiDARスキャンによる高密度植生の多層モデリング

Multi-Layer Modeling of Dense Vegetation from Aerial LiDAR Scans ( http://arxiv.org/abs/2204.11620v1 )

ライセンス: Link先を確認
Ekaterina Kalinicheva, Loic Landrieu, Cl\'ement Mallet, Nesrine Chehata(参考訳) 森林の多層構造の解析は大規模林業の自動化にとって重要な課題である。 現代の空中LiDARは、すべての植生層に幾何学的な情報を提供するが、ほとんどのデータセットや方法は、天蓋の上部のセグメンテーションと再構築のみに焦点を当てている。 私たちはWildForest3Dを公開しました。これは、47000m2にまたがる29の研究プロットと2000以上の個々の木からできており、3つの植生層(地中植生、下層、上層)の占有率と高さのマップも備えています。 本稿では,3Dポイントワイドラベルと高分解能層占有ラスタを同時に同時に予測する3Dディープネットワークアーキテクチャを提案する。 これにより,各植生層の厚さとそれに対応する水密メッシュの正確な推定が可能となり,林業の目的を満たしている。 データセットとモデルの両方がオープンアクセスでリリースされている。 https://github.com/ekalinicheva/multi_layer_vegetation。

The analysis of the multi-layer structure of wild forests is an important challenge of automated large-scale forestry. While modern aerial LiDARs offer geometric information across all vegetation layers, most datasets and methods focus only on the segmentation and reconstruction of the top of canopy. We release WildForest3D, which consists of 29 study plots and over 2000 individual trees across 47 000m2 with dense 3D annotation, along with occupancy and height maps for 3 vegetation layers: ground vegetation, understory, and overstory. We propose a 3D deep network architecture predicting for the first time both 3D point-wise labels and high-resolution layer occupancy rasters simultaneously. This allows us to produce a precise estimation of the thickness of each vegetation layer as well as the corresponding watertight meshes, therefore meeting most forestry purposes. Both the dataset and the model are released in open access: https://github.com/ekalinicheva/multi_layer_vegetation.
翻訳日:2022-04-26 15:01:30 公開日:2022-04-25
# アクティブドメイン適応のためのロスベースシーケンス学習

Loss-based Sequential Learning for Active Domain Adaptation ( http://arxiv.org/abs/2204.11665v1 )

ライセンス: Link先を確認
Kyeongtak Han, Youngeun Kim, Dongyoon Han, Sungeun Hong(参考訳) アクティブドメイン適応(ada)の研究は、既存のドメイン適応戦略に従ってクエリの選択に主に取り組んだ。 しかし,クエリ選択基準だけでなく,adaシナリオ用に設計されたドメイン適応戦略も検討することが重要である。 本稿では,ドメインタイプ(ソース/ターゲット)とラベル(ラベル/ラベル)の両方を考慮した逐次学習を提案する。 まず、損失ベースのクエリ選択によって得られたラベル付きターゲットサンプルにのみモデルをトレーニングする。 ドメインシフトの下で損失ベースのクエリ選択を適用すると、無用な高損失サンプルが徐々に増加し、ラベル付きサンプルの多様性が低下する。 これらの問題を解決するため、ラベル付き対象領域の擬似ラベルを損失予測を利用して完全に活用する。 さらに、擬似ラベルは低い自己エントロピーと多様なクラス分布を持つことを奨励する。 私たちのモデルは、様々なベンチマークデータセットのベースラインモデルと同様に、以前のメソッドを大幅に上回っています。

Active domain adaptation (ADA) studies have mainly addressed query selection while following existing domain adaptation strategies. However, we argue that it is critical to consider not only query selection criteria but also domain adaptation strategies designed for ADA scenarios. This paper introduces sequential learning considering both domain type (source/target) or labelness (labeled/unlabeled). We first train our model only on labeled target samples obtained by loss-based query selection. When loss-based query selection is applied under domain shift, unuseful high-loss samples gradually increase, and the labeled-sample diversity becomes low. To solve these, we fully utilize pseudo labels of the unlabeled target domain by leveraging loss prediction. We further encourage pseudo labels to have low self-entropy and diverse class distributions. Our model significantly outperforms previous methods as well as baseline models in various benchmark datasets.
翻訳日:2022-04-26 15:01:11 公開日:2022-04-25
# 意味セグメンテーションにおける連続的非教師なし領域適応のための多頭部蒸留

Multi-Head Distillation for Continual Unsupervised Domain Adaptation in Semantic Segmentation ( http://arxiv.org/abs/2204.11667v1 )

ライセンス: Link先を確認
Antoine Saporta and Arthur Douillard and Tuan-Hung Vu and Patrick P\'erez and Matthieu Cord(参考訳) Unsupervised Domain Adaptation (UDA)は、ラベル付きソースドメインを利用してラベル付きターゲットドメイン上でトレーニングすることを目的とした、トランスファー学習タスクである。 単一のソースドメインと単一のターゲットドメインを持つ従来のUDAの範囲を超えて、現実世界の知覚システムは、様々な照明条件から世界中の多くの都市まで、さまざまなシナリオに直面する。 この文脈では、複数のドメインを持つUDAは、異なるターゲットドメイン内の分散シフトを追加することで、課題を増大させる。 本研究は,従来の対象ドメインにアクセスせずに,複数の対象ドメインを順次に運用する,uda,continuous udaの学習のための新たなフレームワークに焦点を当てている。 連続学習タスクに固有の破滅的忘れ問題の解法であるマルチヘッド蒸留法(Multi-Head Distillation)を提案する。 muhdiは、前モデルから複数のレベルで蒸留を行い、補助的ターゲット・専門的セグメンテーションヘッドも行う。 提案手法とアーキテクチャを検証するために,多目的UDAセマンティックセマンティックセマンティクスベンチマークの広範なアブレーションと実験を行った。

Unsupervised Domain Adaptation (UDA) is a transfer learning task which aims at training on an unlabeled target domain by leveraging a labeled source domain. Beyond the traditional scope of UDA with a single source domain and a single target domain, real-world perception systems face a variety of scenarios to handle, from varying lighting conditions to many cities around the world. In this context, UDAs with several domains increase the challenges with the addition of distribution shifts within the different target domains. This work focuses on a novel framework for learning UDA, continuous UDA, in which models operate on multiple target domains discovered sequentially, without access to previous target domains. We propose MuHDi, for Multi-Head Distillation, a method that solves the catastrophic forgetting problem, inherent in continual learning tasks. MuHDi performs distillation at multiple levels from the previous model as well as an auxiliary target-specialist segmentation head. We report both extensive ablation and experiments on challenging multi-target UDA semantic segmentation benchmarks to validate the proposed learning scheme and architecture.
翻訳日:2022-04-26 15:01:00 公開日:2022-04-25
# 時間的動作検出のための信頼性の高い提案品質の推定

Estimation of Reliable Proposal Quality for Temporal Action Detection ( http://arxiv.org/abs/2204.11695v1 )

ライセンス: Link先を確認
Junshan Hu, Chaoxu guo, Liansheng Zhuang, Biao Wang, Tiezheng Ge, Yuning Jiang, Houqiang Li(参考訳) 時間的行動検出(tad:temporal action detection)は、未撮影の動画における行動の特定と認識を目的としている。 アンカーフリーな手法は、主にTADを2つの異なる分岐を用いた分類と局所化の2つのタスクに分類する。 本稿では,2つのタスク間の時間的不整合がさらなる進歩を妨げることを示す。 そこで本研究では,2つの課題を一致させるため,モーメントと領域の視点を同時に把握し,信頼性の高い提案品質を得る新しい手法を提案する。 BEM(Bundary Evaluate Module)は、境界品質を推定するために局所的な外観と動きの進化に焦点をあてて設計され、様々な動作期間を扱うためのマルチスケールな方法を採用している。 地域的観点では,領域評価モジュール(rem)を導入し,より文脈的情報を含む提案特徴表現に対して,カテゴリスコアと提案境界を洗練するために,より効率的なサンプリング手法を提案する。 提案した境界評価モジュールと領域評価モジュール(BREM)は汎用的であり,他のアンカーフリーTAD手法と容易に統合して優れた性能を実現することができる。 実験では、BREMと2つの異なるフレームワークを組み合わせることで、THUMOS14のパフォーマンスをそれぞれ3.6$\%$と1.0$\%$で改善し、新しい最先端(63.6$\%$ average $m$AP)に達した。 一方、平均$m$APの36.2\%の競争結果は、BREMの一貫性のある改善によりActivityNet-1.3で達成される。

Temporal action detection (TAD) aims to locate and recognize the actions in an untrimmed video. Anchor-free methods have made remarkable progress which mainly formulate TAD into two tasks: classification and localization using two separate branches. This paper reveals the temporal misalignment between the two tasks hindering further progress. To address this, we propose a new method that gives insights into moment and region perspectives simultaneously to align the two tasks by acquiring reliable proposal quality. For the moment perspective, Boundary Evaluate Module (BEM) is designed which focuses on local appearance and motion evolvement to estimate boundary quality and adopts a multi-scale manner to deal with varied action durations. For the region perspective, we introduce Region Evaluate Module (REM) which uses a new and efficient sampling method for proposal feature representation containing more contextual information compared with point feature to refine category score and proposal boundary. The proposed Boundary Evaluate Module and Region Evaluate Module (BREM) are generic, and they can be easily integrated with other anchor-free TAD methods to achieve superior performance. In our experiments, BREM is combined with two different frameworks and improves the performance on THUMOS14 by 3.6$\%$ and 1.0$\%$ respectively, reaching a new state-of-the-art (63.6$\%$ average $m$AP). Meanwhile, a competitive result of 36.2\% average $m$AP is achieved on ActivityNet-1.3 with the consistent improvement of BREM.
翻訳日:2022-04-26 15:00:41 公開日:2022-04-25
# ClusterGNN: 効率的な特徴マッチングのためのクラスタベース粗グラフニューラルネットワーク

ClusterGNN: Cluster-based Coarse-to-Fine Graph Neural Network for Efficient Feature Matching ( http://arxiv.org/abs/2204.11700v1 )

ライセンス: Link先を確認
Yan Shi, Jun-Xiong Cai, Yoli Shavit, Tai-Jiang Mu, Wensen Feng and Kai Zhang(参考訳) 注目のグラフニューラルネットワーク(GNN)は視覚的特徴マッチングの学習に成功している。 しかし、現在の手法は完全なグラフで学習し、特徴数の二次的複雑さをもたらす。 自己および横断的注意行列がスパース表現に収束するという先行観測に触発されて,特徴マッチングタスクを学習するためのクラスタ上で動作する注目GNNアーキテクチャであるClusterGNNを提案する。 プログレッシブクラスタリングモジュールを使用して、キーポイントを異なるサブグラフに適応的に分割して冗長な接続を削減し、画像内のミスクラス化を緩和する粗雑なパラダイムを採用します。 提案手法は,現在最先端のGNNベースのマッチングと比較して,実行時の59.7%の削減,高密度検出のための58.4%のメモリ消費削減を実現している。

Graph Neural Networks (GNNs) with attention have been successfully applied for learning visual feature matching. However, current methods learn with complete graphs, resulting in a quadratic complexity in the number of features. Motivated by a prior observation that self- and cross- attention matrices converge to a sparse representation, we propose ClusterGNN, an attentional GNN architecture which operates on clusters for learning the feature matching task. Using a progressive clustering module we adaptively divide keypoints into different subgraphs to reduce redundant connectivity, and employ a coarse-to-fine paradigm for mitigating miss-classification within images. Our approach yields a 59.7% reduction in runtime and 58.4% reduction in memory consumption for dense detection, compared to current state-of-the-art GNN-based matching, while achieving a competitive performance on various computer vision tasks.
翻訳日:2022-04-26 15:00:13 公開日:2022-04-25
# Pose-Guided Multiplane Image を用いたリアルタイムニューラルキャラクタレンダリング

Real-Time Neural Character Rendering with Pose-Guided Multiplane Images ( http://arxiv.org/abs/2204.11820v1 )

ライセンス: Link先を確認
Hao Ouyang, Bo Zhang, Pan Zhang, Hao Yang, Jiaolong Yang, Dong Chen, Qifeng Chen, Fang Wen(参考訳) リアルなシーンでアニマタブルなキャラクタをフォトリアリスティックな画質でレンダリングできるポーズ誘導多面体画像(MPI)合成を提案する。 我々は、移動物体の駆動信号とともに多視点画像をキャプチャするためにポータブルカメラリグを使用する。 本研究では,画像から画像への変換パラダイムを一般化し,人間のポーズを3次元シーン表現 -- 自由視点でレンダリング可能なmpis -- に翻訳し,マルチビューキャプチャを監督として利用する。 MPIの潜在能力を十分に養うために,不正確なカメラ登録を堅牢にしながら,可変露光画像を用いて学習可能な深度適応型MPIを提案する。 本手法は,課題のある文字に対して最先端の手法よりも優れた新視点合成品質を示す。 さらに,提案手法はトレーニングポーズの新しい組み合わせに一般化でき,明示的に制御できる。 本手法は,リアルタイムに表現可能かつアニメーション可能なキャラクタレンダリングを実現し,実用的応用に有望な解決策となる。

We propose pose-guided multiplane image (MPI) synthesis which can render an animatable character in real scenes with photorealistic quality. We use a portable camera rig to capture the multi-view images along with the driving signal for the moving subject. Our method generalizes the image-to-image translation paradigm, which translates the human pose to a 3D scene representation -- MPIs that can be rendered in free viewpoints, using the multi-views captures as supervision. To fully cultivate the potential of MPI, we propose depth-adaptive MPI which can be learned using variable exposure images while being robust to inaccurate camera registration. Our method demonstrates advantageous novel-view synthesis quality over the state-of-the-art approaches for characters with challenging motions. Moreover, the proposed method is generalizable to novel combinations of training poses and can be explicitly controlled. Our method achieves such expressive and animatable character rendering all in real time, serving as a promising solution for practical applications.
翻訳日:2022-04-26 14:59:56 公開日:2022-04-25
# 探索型拡散モデル

Retrieval-Augmented Diffusion Models ( http://arxiv.org/abs/2204.11824v1 )

ライセンス: Link先を確認
Andreas Blattmann, Robin Rombach, Kaan Oktay, Bj\"orn Ommer(参考訳) 拡散モデルを用いた生成画像合成は,テキストベースやクラス条件画像合成などのタスクにおいて,視覚的品質に優れる。 この成功の大部分は、これらのモデルのトレーニングに費やされた計算能力の劇的な増加によるものである。 本稿では,自然言語処理におけるその成功にインスパイアされた代替手法として,拡散モデルを検索に基づくアプローチで補完し,外部データベースの形式で明示的なメモリを導入することを提案する。 トレーニング中、我々の拡散モデルは、CLIPおよび各トレーニングインスタンスの近傍から取得した同様の視覚的特徴で訓練される。 クリップのジョイント画像テキスト埋め込み空間を利用することで,クラス条件合成やテキスト画像合成など,明示的に訓練されていないタスクにおいて高い競合性能を達成し,テキストと画像の埋め込みの両方で条件付けすることができる。 さらに、この手法を非条件生成に適用し、最先端の性能を実現する。 我々の手法は計算とメモリのオーバーヘッドが低く、実装が容易である。 コンカレントな作業との関係を議論し、間もなくコードと事前訓練されたモデルを公開する。

Generative image synthesis with diffusion models has recently achieved excellent visual quality in several tasks such as text-based or class-conditional image synthesis. Much of this success is due to a dramatic increase in the computational capacity invested in training these models. This work presents an alternative approach: inspired by its successful application in natural language processing, we propose to complement the diffusion model with a retrieval-based approach and to introduce an explicit memory in the form of an external database. During training, our diffusion model is trained with similar visual features retrieved via CLIP and from the neighborhood of each training instance. By leveraging CLIP's joint image-text embedding space, our model achieves highly competitive performance on tasks for which it has not been explicitly trained, such as class-conditional or text-image synthesis, and can be conditioned on both text and image embeddings. Moreover, we can apply our approach to unconditional generation, where it achieves state-of-the-art performance. Our approach incurs low computational and memory overheads and is easy to implement. We discuss its relationship to concurrent work and will publish code and pretrained models soon.
翻訳日:2022-04-26 14:59:39 公開日:2022-04-25
# ED2LM: 高速な文書再ランク推論のための言語モデルへのエンコーダデコーダ

ED2LM: Encoder-Decoder to Language Model for Faster Document Re-ranking Inference ( http://arxiv.org/abs/2204.11458v1 )

ライセンス: Link先を確認
Kai Hui, Honglei Zhuang, Tao Chen, Zhen Qin, Jing Lu, Dara Bahri, Ji Ma, Jai Prakash Gupta, Cicero Nogueira dos Santos, Yi Tay, Don Metzler(参考訳) 最先端のニューラルモデルは通常、クロスアテンションを使用してドキュメント-クエリペアをエンコードする。 この目的のために、モデルは通常、エンコーダのみ(BERTのような)パラダイムまたはエンコーダ-デコーダ(T5のような)アプローチを使用する。 しかし、これらのパラダイムには欠陥がなく、すなわち推論時にすべてのクエリドキュメントペアでモデルを実行すると、かなりの計算コストがかかる。 本稿では,新たなトレーニングと推論のパラダイムを提案する。 本稿では,クエリ生成のための文書形式を用いたプリトレーニングエンコーダ・デコーダモデルを提案する。 その後、このエンコーダ-デコーダアーキテクチャを推論中にデコーダのみの言語モデルに分解できることを示す。 この結果、デコーダのみのアーキテクチャでは、推論中に静的エンコーダの埋め込みを解釈することしか学ばないため、推論時間を大幅に高速化する。 私たちの実験では、この新しいパラダイムは6.8倍高速で、より高価なクロスアテンションランキングアプローチに匹敵する結果を達成しています。 この研究は、大きな事前訓練されたモデルを活用するより効率的なニューラルランサーの道を開いたと信じています。

State-of-the-art neural models typically encode document-query pairs using cross-attention for re-ranking. To this end, models generally utilize an encoder-only (like BERT) paradigm or an encoder-decoder (like T5) approach. These paradigms, however, are not without flaws, i.e., running the model on all query-document pairs at inference-time incurs a significant computational cost. This paper proposes a new training and inference paradigm for re-ranking. We propose to finetune a pretrained encoder-decoder model using in the form of document to query generation. Subsequently, we show that this encoder-decoder architecture can be decomposed into a decoder-only language model during inference. This results in significant inference time speedups since the decoder-only architecture only needs to learn to interpret static encoder embeddings during inference. Our experiments show that this new paradigm achieves results that are comparable to the more expensive cross-attention ranking approaches while being up to 6.8X faster. We believe this work paves the way for more efficient neural rankers that leverage large pretrained models.
翻訳日:2022-04-26 14:57:45 公開日:2022-04-25
# 不均質な情報源を問う会話的質問

Conversational Question Answering on Heterogeneous Sources ( http://arxiv.org/abs/2204.11677v1 )

ライセンス: Link先を確認
Philipp Christmann, Rishiraj Saha Roy, Gerhard Weikum(参考訳) 会話型質問応答(ConvQA)は、フォローアップ質問のコンテキストを暗黙的に残すシーケンシャルな情報要求に対処する。 現在のconvqaシステムは、知識ベース(kb)またはテキストコーパス、あるいはテーブルの集合といった、均質な情報ソース上で動作します。 本稿では,これらすべてを共同で打つという新たな課題に対処し,回答のカバレッジと信頼性を高める。 異種ソース上のConvQAのエンドツーエンドパイプラインであるCONVINSEを3段階に分けて紹介する。 一 入ってくる質問及びその会話的文脈の明示的な構造化表現を学ぶこと。 二 この枠状の表現を利用して、KB、テキスト及び表から一様に証拠をつかむこと。 三 解答を生成するために融合復号器モデルを実行すること。 convqa用の最初のベンチマークであるconvmixをヘテロジニアスソース上で構築し、エンティティアノテーション、完成した質問発話、質問パラフレーズとともに、3000の実際のユーザ会話と16000の質問からなる。 実験では,最先端のベースラインと比較し,本手法の有効性と利点を実証した。

Conversational question answering (ConvQA) tackles sequential information needs where contexts in follow-up questions are left implicit. Current ConvQA systems operate over homogeneous sources of information: either a knowledge base (KB), or a text corpus, or a collection of tables. This paper addresses the novel issue of jointly tapping into all of these together, this way boosting answer coverage and confidence. We present CONVINSE, an end-to-end pipeline for ConvQA over heterogeneous sources, operating in three stages: i) learning an explicit structured representation of an incoming question and its conversational context, ii) harnessing this frame-like representation to uniformly capture relevant evidences from KB, text, and tables, and iii) running a fusion-in-decoder model to generate the answer. We construct and release the first benchmark, ConvMix, for ConvQA over heterogeneous sources, comprising 3000 real-user conversations with 16000 questions, along with entity annotations, completed question utterances, and question paraphrases. Experiments demonstrate the viability and advantages of our method, compared to state-of-the-art baselines.
翻訳日:2022-04-26 14:57:27 公開日:2022-04-25
# 変圧器モデルと強化学習を用いた実時間科学実験予測

Predicting Real-time Scientific Experiments Using Transformer models and Reinforcement Learning ( http://arxiv.org/abs/2204.11718v1 )

ライセンス: Link先を確認
Juan Manuel Parrilla-Gutierrez(参考訳) 生命科学と物理科学は、科学的な発見を加速するために、機械学習の最新技術を採用するのが早かった。 その例としては、細胞分画やがん検出がある。 それでも、これらの例外的な結果は、パターンやトレンドを発見するために以前に作成されたデータセットのマイニングに基づいている。 AIの最近の進歩は、自動運転車やビデオゲームのようなリアルタイムシナリオで実証されている。 しかし、これらの新技術は実験が遅いため、生命科学や物理科学に広く採用されていない。 この制限に対処するため、本研究は、生成学習アルゴリズムを科学的実験のモデル化に適応させ、インシリコシミュレーションを用いて発見を加速することを目的としている。 特に,ユーザの入力に対する反応のモデル化を目的としたリアルタイム実験に注目した。 そこで本稿では,トランスフォーマモデルに基づくエンコーダ・デコーダアーキテクチャを用いて,実時間科学的実験をシミュレートし,今後の動作を予測し,ステップバイステップで操作する。 概念実証として、このアーキテクチャは化学反応によって生じる振動に一連の機械的入力をマッピングするように訓練された。 モデルはReinforcement Learningコントローラと組み合わせて、シミュレーションされた化学がユーザ定義の振る舞いに対してリアルタイムでどのように操作できるかを示した。 本研究は,ユーザが操作する時間的変化を追跡するために,生成学習がリアルタイム科学実験をモデル化し,学習モデルと最適化アルゴリズムを組み合わせて実験実験の物理的限界を超えた新たな現象を発見できることを示す。 この研究は、物理的な実験がステップバイステップで機械学習と相互作用するサロゲートシステムを構築するための道を開く。

Life and physical sciences have always been quick to adopt the latest advances in machine learning to accelerate scientific discovery. Examples of this are cell segmentation or cancer detection. Nevertheless, these exceptional results are based on mining previously created datasets to discover patterns or trends. Recent advances in AI have been demonstrated in real-time scenarios like self-driving cars or playing video games. However, these new techniques have not seen widespread adoption in life or physical sciences because experimentation can be slow. To tackle this limitation, this work aims to adapt generative learning algorithms to model scientific experiments and accelerate their discovery using in-silico simulations. We particularly focused on real-time experiments, aiming to model how they react to user inputs. To achieve this, here we present an encoder-decoder architecture based on the Transformer model to simulate real-time scientific experimentation, predict its future behaviour and manipulate it on a step-by-step basis. As a proof of concept, this architecture was trained to map a set of mechanical inputs to the oscillations generated by a chemical reaction. The model was paired with a Reinforcement Learning controller to show how the simulated chemistry can be manipulated in real-time towards user-defined behaviours. Our results demonstrate how generative learning can model real-time scientific experimentation to track how it changes through time as the user manipulates it, and how the trained models can be paired with optimisation algorithms to discover new phenomena beyond the physical limitations of lab experimentation. This work paves the way towards building surrogate systems where physical experimentation interacts with machine learning on a step-by-step basis.
翻訳日:2022-04-26 14:51:32 公開日:2022-04-25
# 二重ストリーミングデータによるオンラインディープラーニング

Online Deep Learning from Doubly-Streaming Data ( http://arxiv.org/abs/2204.11793v1 )

ライセンス: Link先を確認
Heng Lian and John Scovil Atwood and Bojian Hou and Jian Wu and Yi He(参考訳) 本稿では,データストリームが常に進化する特徴空間によって記述され,新しい特徴や古い特徴が消えていくという,二重ストリームデータによる新たなオンライン学習問題を考察する。 この問題の課題は2つあります 1) 絶え間なく流れ込むデータサンプルは、時間とともに変化したパターンを持ち、学習者がそれをオンザフライで適応させる必要がある。 2) 新たな特徴はごく少数のサンプルによって説明され, 誤り予測を行う傾向の弱い学習者が現れる。 この課題を克服するための有効なアイデアは、進化する機能空間間の関係を確立することであり、オンライン学習者は、古い機能から学んだ知識を活用して、新しい機能の学習性能を向上させることができる。 残念ながら、このアイデアは複雑な機能間相互作用を持つ高次元メディアストリームにはスケールアップせず、オンライン性(浅い学習者のバイアス)と表現力(深い学習者が必要)のトレードオフに苦しむ。 そこで我々は,従来の特徴空間と新しい特徴空間の情報を要約し,中間的特徴マッピング関係を構築するために,共有潜在部分空間が発見された新しいOLD^3Sパラダイムを提案する。 OLD^3Sの重要な特徴は、学習可能なセマンティクスとしてモデルキャパシティを扱い、オンライン形式で入力データストリームの複雑さと非線形性に応じて最適なモデル深度とパラメータを共同で生成することである。 理論解析と実証研究はともに,提案の有効性と有効性を実証する。

This paper investigates a new online learning problem with doubly-streaming data, where the data streams are described by feature spaces that constantly evolve, with new features emerging and old features fading away. The challenges of this problem are two folds: 1) Data samples ceaselessly flowing in may carry shifted patterns over time, requiring learners to update hence adapt on-the-fly. 2) Newly emerging features are described by very few samples, resulting in weak learners that tend to make error predictions. A plausible idea to overcome the challenges is to establish relationship between the pre-and-post evolving feature spaces, so that an online learner can leverage the knowledge learned from the old features to better the learning performance on the new features. Unfortunately, this idea does not scale up to high-dimensional media streams with complex feature interplay, which suffers an tradeoff between onlineness (biasing shallow learners) and expressiveness(requiring deep learners). Motivated by this, we propose a novel OLD^3S paradigm, where a shared latent subspace is discovered to summarize information from the old and new feature spaces, building intermediate feature mapping relationship. A key trait of OLD^3S is to treat the model capacity as a learnable semantics, yields optimal model depth and parameters jointly, in accordance with the complexity and non-linearity of the input data streams in an online fashion. Both theoretical analyses and empirical studies substantiate the viability and effectiveness of our proposal.
翻訳日:2022-04-26 14:51:03 公開日:2022-04-25
# (参考訳) 因果ニュースコーパス:ニュースからの事象文における因果関係の注釈

The Causal News Corpus: Annotating Causal Relations in Event Sentences from News ( http://arxiv.org/abs/2204.11714v1 )

ライセンス: CC BY 4.0
Fiona Anting Tan, Ali H\"urriyeto\u{g}lu, Tommaso Caselli, Nelleke Oostdijk, Tadashi Nomoto, Hansi Hettiarachchi, Iqra Ameer, Onur Uca, Farhana Ferdousi Liza, Tiancheng Hu(参考訳) 因果関係を理解することの重要性にもかかわらず、因果関係に対処するコーパスは限られている。 事象因果性に関する既存のガイドラインと、言語学に重点を置く従来の因果性コーパスとの間には相違点がある。 多くのガイドラインは、明示的な関係や節ベースの引数だけを含めることを制限している。 そこで本稿では,これらの問題に対処するイベント因果関係のアノテーションスキーマを提案する。 我々は、抗議イベントニュースから3559件のイベント文に、因果関係を含むか否かのラベルを添付した。 私たちのコーパスはCausal News Corpus(CNC)として知られている。 最先端の事前訓練言語モデル上に構築されたニューラルネットワークは、テストセットで81.20%のF1スコア、5倍のクロスバリデーションで83.46%を達成している。 CNCはCausalTimeBank (CTB) と Penn Discourse Treebank (PDTB) の2つの外部コーパスで転送可能である。 これらの外部データセットをトレーニングに利用し、追加の微調整なしでCNCテストセットで最大64%のF1を達成しました。 CNCは2つの外部コーパスの効果的なトレーニングおよび事前トレーニングデータセットとしても機能した。 最後に,クラウドソースによるアノテーション演習において,在職者に対する課題の難しさを実証する。 私たちの注釈付きコーパスは公開されており、因果的テキストマイニング研究者に貴重なリソースを提供する。

Despite the importance of understanding causality, corpora addressing causal relations are limited. There is a discrepancy between existing annotation guidelines of event causality and conventional causality corpora that focus more on linguistics. Many guidelines restrict themselves to include only explicit relations or clause-based arguments. Therefore, we propose an annotation schema for event causality that addresses these concerns. We annotated 3,559 event sentences from protest event news with labels on whether it contains causal relations or not. Our corpus is known as the Causal News Corpus (CNC). A neural network built upon a state-of-the-art pre-trained language model performed well with 81.20% F1 score on test set, and 83.46% in 5-folds cross-validation. CNC is transferable across two external corpora: CausalTimeBank (CTB) and Penn Discourse Treebank (PDTB). Leveraging each of these external datasets for training, we achieved up to approximately 64% F1 on the CNC test set without additional fine-tuning. CNC also served as an effective training and pre-training dataset for the two external corpora. Lastly, we demonstrate the difficulty of our task to the layman in a crowd-sourced annotation exercise. Our annotated corpus is publicly available, providing a valuable resource for causal text mining researchers.
翻訳日:2022-04-26 14:48:00 公開日:2022-04-25
# アスペクトベースによる検索エンジン広告に対する広告アピールの分析

Aspect-based Analysis of Advertising Appeals for Search Engine Advertising ( http://arxiv.org/abs/2204.11445v1 )

ライセンス: Link先を確認
Soichiro Murakami, Peinan Zhang, Sho Hoshino, Hidetaka Kamigaito, Hiroya Takamura and Manabu Okumura(参考訳) 人を惹きつけ、クリックや行動するよう説得する広告テキストを書くことは、検索エンジン広告の成功に不可欠である。 したがって、広告制作者は、価格、製品の特徴、品質など、広告アピールのさまざまな側面(^3$)を考慮する必要がある。 しかし、製品やサービスは、異なる産業に対してユニークな効果的な^3$を示す。 本研究は,広告作成プロセスを支援するために,様々な産業に有効なA$^3$を探索することに焦点を当てる。 そこで我々は,広告魅力のデータセットを作成し,広告テキストのさまざまな側面を検出する既存モデルを用いた。 実験により, 異なる産業がA$^3$をそれぞれ有することを示すとともに, A$^3$の同定が広告効果の推定に寄与することを示した。

Writing an ad text that attracts people and persuades them to click or act is essential for the success of search engine advertising. Therefore, ad creators must consider various aspects of advertising appeals (A$^3$) such as the price, product features, and quality. However, products and services exhibit unique effective A$^3$ for different industries. In this work, we focus on exploring the effective A$^3$ for different industries with the aim of assisting the ad creation process. To this end, we created a dataset of advertising appeals and used an existing model that detects various aspects for ad texts. Our experiments demonstrated that different industries have their own effective A$^3$ and that the identification of the A$^3$ contributes to the estimation of advertising performance.
翻訳日:2022-04-26 14:26:32 公開日:2022-04-25
# Islander: リアルタイムニュースモニタリングと分析システム

Islander: A Real-Time News Monitoring and Analysis System ( http://arxiv.org/abs/2204.11457v1 )

ライセンス: Link先を確認
Chao-Wei Huang, Kai-Chou Yang, Zi-Yuan Chen, Hao-Chien Cheng, Po-Yu Wu, Yu-Yang Huang, Chung-Kai Hsieh, Geng-Zhi Wildsky Fann, Ting-Yin Cheng, Ethan Tu, Yun-Nung Chen(参考訳) 何千ものニュース記事が毎日配信され、共有されているため、ニュースの消費と情報収集は、読者にとってますます困難になっている。 さらに、ニュース記事の内容がキャッチーになったり、読者を惹きつけるために、ニュース報道の正確さを損ねたりしている。 オンラインニュース分析システムである islander について紹介する。 このシステムは、ユーザーが複数のソースや視点から記事のトレンドトピックを閲覧できる。 いくつかの指標をニュース品質のプロキシとして定義し,自動推定のためのアルゴリズムを開発した。 品質評価結果はWebインターフェースを通じてニュースリーダーに配信され、ニュースや情報へのアクセスが容易になる。 ウェブサイトはhttps://islander.cc/で公開されている。

With thousands of news articles from hundreds of sources distributed and shared every day, news consumption and information acquisition have been increasingly difficult for readers. Additionally, the content of news articles is becoming catchy or even inciting to attract readership, harming the accuracy of news reporting. We present Islander, an online news analyzing system. The system allows users to browse trending topics with articles from multiple sources and perspectives. We define several metrics as proxies for news quality, and develop algorithms for automatic estimation. The quality estimation results are delivered through a web interface to newsreaders for easy access to news and information. The website is publicly available at https://islander.cc/
翻訳日:2022-04-26 14:26:19 公開日:2022-04-25
# 局所ハイパーグラフに基づくNested Named Entity Recognitionをクエリベースのシーケンスラベルとして用いる

Local Hypergraph-based Nested Named Entity Recognition as Query-based Sequence Labeling ( http://arxiv.org/abs/2204.11467v1 )

ライセンス: Link先を確認
Yukun Yan, Sen Song(参考訳) 多くのドメインにおいてネストされた名前のエンティティの認識に対する学術的な関心が高まっている。 まず最初にスタートトークン候補を提案し,その周囲のコンテキストで対応するクエリを生成し,クエリベースのシーケンスラベリングモジュールを使用して各候補のローカルハイパーグラフを作成する。 エンドトークン推定器はハイパーグラフの修正と最終予測に使用される。 提案手法はスパンベース手法と比較して,スパンサンプリングの計算コストが高く,長いエンティティが失われる危険性がない。 逐次予測により、入れ子構造内の単語順の情報の利用が容易になり、よりリッチな表現は局所ハイパーグラフで構築される。 実験により,提案手法は,従来のハイパーグラフベースおよびシーケンスラベリング手法を,ネストした4つのデータセットに対して大きなマージンで上回ることを示した。 ACE 2004データセット上の新しい最先端F1スコアと、他のネストされたNERデータセットであるACE 2005、GENIA、KBP 2017の以前の最先端F1スコアを達成している。

There has been a growing academic interest in the recognition of nested named entities in many domains. We tackle the task with a novel local hypergraph-based method: We first propose start token candidates and generate corresponding queries with their surrounding context, then use a query-based sequence labeling module to form a local hypergraph for each candidate. An end token estimator is used to correct the hypergraphs and get the final predictions. Compared to span-based approaches, our method is free of the high computation cost of span sampling and the risk of losing long entities. Sequential prediction makes it easier to leverage information in word order inside nested structures, and richer representations are built with a local hypergraph. Experiments show that our proposed method outperforms all the previous hypergraph-based and sequence labeling approaches with large margins on all four nested datasets. It achieves a new state-of-the-art F1 score on the ACE 2004 dataset and competitive F1 scores with previous state-of-the-art methods on three other nested NER datasets: ACE 2005, GENIA, and KBP 2017.
翻訳日:2022-04-26 14:26:09 公開日:2022-04-25
# 協調テキスト生成の差別化要因は何か?

Which Discriminator for Cooperative Text Generation? ( http://arxiv.org/abs/2204.11586v1 )

ライセンス: Link先を確認
Antoine Chaffin, Thomas Scialom, Sylvain Lamprier, Jacopo Staiano, Benjamin Piwowarski, Ewa Kijak, Vincent Claveau(参考訳) 言語モデルは、過去のトークンの確率分布を逐次予測することでテキストを生成する。 関心の高まりは、デコードプロセスにおける外部情報を活用して、生成したテキストがより自然で有毒で、忠実で、特定の書体スタイルを持つような望ましい特性を持つようにしようとする。 解決策は、各生成ステップで分類器を使用することで、分類器が手元のタスクに関連するテキストに対して言語モデル分布の復号化をガイドする協調環境を実現する。 本稿では, この協調的復号化作業において, 双方向, 左から右へ, 生成する3種類の識別器について検討する。 協調生成のためのこれらの異なる分類器の長所と短所を評価し,分類タスクにおける各精度と結果のサンプル品質および計算性能に及ぼす影響について検討した。 また,実験で使用する強力な協調的デコード戦略であるモンテカルロ木探索のバッチ化実装のコードも提供し,各自然言語生成用識別器と連携する。

Language models generate texts by successively predicting probability distributions for next tokens given past ones. A growing field of interest tries to leverage external information in the decoding process so that the generated texts have desired properties, such as being more natural, non toxic, faithful, or having a specific writing style. A solution is to use a classifier at each generation step, resulting in a cooperative environment where the classifier guides the decoding of the language model distribution towards relevant texts for the task at hand. In this paper, we examine three families of (transformer-based) discriminators for this specific task of cooperative decoding: bidirectional, left-to-right and generative ones. We evaluate the pros and cons of these different types of discriminators for cooperative generation, exploring respective accuracy on classification tasks along with their impact on the resulting sample quality and computational performances. We also provide the code of a batched implementation of the powerful cooperative decoding strategy used for our experiments, the Monte Carlo Tree Search, working with each discriminator for Natural Language Generation.
翻訳日:2022-04-26 14:25:48 公開日:2022-04-25
# DRT:軽量で再帰的変換が可能なシングルイメージデライニングトランス

DRT: A Lightweight Single Image Deraining Recursive Transformer ( http://arxiv.org/abs/2204.11385v1 )

ライセンス: Link先を確認
Yuanchu Liang, Saeed Anwar, Yang Liu(参考訳) パラメータ化の超過は、モデルが与えられたタスクに対して十分に学習し、一般化するのを手助けするディープラーニングの一般的なテクニックである。 最近の視覚タスクにおける強力なトランスフォーマーベースディープラーニングモデルは通常、重いパラメータを持ち、訓練の難しさを負う。 しかしながら、レインストリーク除去のような高密度の低レベルコンピュータビジョンタスクの多くは、実際にはコンピュータパワーとメモリに制限のあるデバイスで実行される必要がある。 そこで本研究では,残差接続を持つ再帰的局所窓型自己着脱構造を導入し,トランスの優位性を享受するが少ない計算資源を必要とする再帰的トランスフォーマ(drt)の導出を提案する。 特に再帰的アーキテクチャにより,提案モデルでは,Rain100Lベンチマークの最先端手法を少なくとも0.33dB超えながら,現在の最高の性能モデルのパラメータの1.3%しか利用していない。 アブレーション研究は、再帰がデラインの結果に与える影響についても研究している。 また, このモデルにはデラミニングのための意図的な設計がないため, 他の画像復元にも適用可能である。 我々の実験は, 難読化の競争結果が得られることを示した。 ソースコードと事前訓練されたモデルはhttps://github.com/YC-Liang/DRTで見ることができる。

Over parameterization is a common technique in deep learning to help models learn and generalize sufficiently to the given task; nonetheless, this often leads to enormous network structures and consumes considerable computing resources during training. Recent powerful transformer-based deep learning models on vision tasks usually have heavy parameters and bear training difficulty. However, many dense-prediction low-level computer vision tasks, such as rain streak removing, often need to be executed on devices with limited computing power and memory in practice. Hence, we introduce a recursive local window-based self-attention structure with residual connections and propose deraining a recursive transformer (DRT), which enjoys the superiority of the transformer but requires a small amount of computing resources. In particular, through recursive architecture, our proposed model uses only 1.3% of the number of parameters of the current best performing model in deraining while exceeding the state-of-the-art methods on the Rain100L benchmark by at least 0.33 dB. Ablation studies also investigate the impact of recursions on derain outcomes. Moreover, since the model contains no deliberate design for deraining, it can also be applied to other image restoration tasks. Our experiment shows that it can achieve competitive results on desnowing. The source code and pretrained model can be found at https://github.com/YC-Liang/DRT.
翻訳日:2022-04-26 14:18:18 公開日:2022-04-25
# 変形可能なカーネル領域に基づくビデオフレーム補間

Video Frame Interpolation Based on Deformable Kernel Region ( http://arxiv.org/abs/2204.11396v1 )

ライセンス: Link先を確認
Haoyue Tian, Pan Gao, Xiaojiang Peng(参考訳) 近年,コンピュータビジョン分野において,映像フレーム補間作業が一般化している。 現在、深層学習に基づく多くの研究が大きな成功を収めている。 その多くは光学フロー情報や補間カーネル、あるいはこれら2つの方法の組み合わせに基づいている。 しかし,これらの手法は,各対象画素の合成中にカーネル領域の位置に格子制限が存在することを無視している。 これらの制限は、物体の形状の不規則さや運動の不確実性にうまく適応できず、補間に使用する無関係な参照画素につながる可能性がある。 この問題を解決するために,ビデオ補間における変形可能な畳み込みを再検討し,カーネル領域の固定グリッド制約を破って,参照点の分布を物体の形状に適合させ,より正確な補間フレームを警告する。 4つのデータセットを用いて実験を行い、提案モデルの性能を最先端の代替モデルと比較した。

Video frame interpolation task has recently become more and more prevalent in the computer vision field. At present, a number of researches based on deep learning have achieved great success. Most of them are either based on optical flow information, or interpolation kernel, or a combination of these two methods. However, these methods have ignored that there are grid restrictions on the position of kernel region during synthesizing each target pixel. These limitations result in that they cannot well adapt to the irregularity of object shape and uncertainty of motion, which may lead to irrelevant reference pixels used for interpolation. In order to solve this problem, we revisit the deformable convolution for video interpolation, which can break the fixed grid restrictions on the kernel region, making the distribution of reference points more suitable for the shape of the object, and thus warp a more accurate interpolation frame. Experiments are conducted on four datasets to demonstrate the superior performance of the proposed model in comparison to the state-of-the-art alternatives.
翻訳日:2022-04-26 14:17:59 公開日:2022-04-25
# PointInst3D: 3Dインスタンスをポイント単位で分割する

PointInst3D: Segmenting 3D Instances by Points ( http://arxiv.org/abs/2204.11402v1 )

ライセンス: Link先を確認
Tong He and Chunhua Shen and Anton van den Hengel(参考訳) 現在の3Dインスタンスセグメンテーションにおける最先端の手法は、ヒューリスティックスや欲求アルゴリズム、データ統計の変化に対する堅牢性の欠如にもかかわらず、クラスタリングのステップが一般的である。 対照的に、ポイントごとの予測方式で機能する完全畳み込み3Dポイントクラウドインスタンスセグメンテーション法を提案する。 そうすることで、クラスタリングベースのメソッドが直面する課題を回避することができる。 その成功の鍵は、各サンプルポイントに適切なターゲットを割り当てることにある。 静的あるいは距離に基づく配置戦略ではなく, 最適な移動手段を用いて, 動的マッチングコストに応じて, ターゲットマスクを試料点に最適割り当てる手法を提案する。 提案手法はScanNetとS3DISのベンチマークで有望な結果が得られる。 提案手法はタスク間の依存関係を取り除き、他の競合する方法よりもシンプルで柔軟な3dインスタンスセグメンテーションフレームワークを表現し、セグメンテーション精度を向上させる。

The current state-of-the-art methods in 3D instance segmentation typically involve a clustering step, despite the tendency towards heuristics, greedy algorithms, and a lack of robustness to the changes in data statistics. In contrast, we propose a fully-convolutional 3D point cloud instance segmentation method that works in a per-point prediction fashion. In doing so it avoids the challenges that clustering-based methods face: introducing dependencies among different tasks of the model. We find the key to its success is assigning a suitable target to each sampled point. Instead of the commonly used static or distance-based assignment strategies, we propose to use an Optimal Transport approach to optimally assign target masks to the sampled points according to the dynamic matching costs. Our approach achieves promising results on both ScanNet and S3DIS benchmarks. The proposed approach removes intertask dependencies and thus represents a simpler and more flexible 3D instance segmentation framework than other competing methods, while achieving improved segmentation accuracy.
翻訳日:2022-04-26 14:17:44 公開日:2022-04-25
# 単一物体追跡研究:調査

Single Object Tracking Research: A Survey ( http://arxiv.org/abs/2204.11410v1 )

ライセンス: Link先を確認
Ruize Han and Wei Feng and Qing Guo and Qinghua Hu(参考訳) 視覚オブジェクト追跡はコンピュータビジョンにおいて重要なタスクであり、ビデオ監視やビジュアルナビゲーションなど、現実世界のアプリケーションが多い。 ビジュアルオブジェクトトラッキングには、オブジェクトの閉塞や変形といった多くの課題もある。 上記の問題を正確にかつ効率的に追跡するために,近年,多くの追跡アルゴリズムが登場している。 本稿では,過去10年間に最も人気の高いトラッキングフレームワークであるコリレーションフィルタと,オブジェクト追跡のためのシームズネットワークの理論的および代表的研究について述べる。 次に,異なるネットワーク構造に分類された深層学習に基づく追跡手法を提案する。 また,追跡問題の課題に対処するための古典的な戦略をいくつか紹介する。 さらに,本論文では,視覚的トラッキングの発達史と開発動向を概説した,トラッキングのベンチマークと課題を詳述し,比較する。 オブジェクト追跡の今後の開発に焦点をあてて, 長期追跡や低消費電力高速追跡, 攻撃ロス追跡といった課題に対処する前に, 現実の場面で適用されると思われる。 将来的には、深度画像、熱画像、伝統的なカラー画像といったマルチモーダルデータの統合によって、ビジュアルトラッキングのソリューションがさらに増えるだろう。 さらに、トラッキングタスクは、ビデオオブジェクトの検出やセグメンテーションなど、他のタスクと併用される。

Visual object tracking is an important task in computer vision, which has many real-world applications, e.g., video surveillance, visual navigation. Visual object tracking also has many challenges, e.g., object occlusion and deformation. To solve above problems and track the target accurately and efficiently, many tracking algorithms have emerged in recent years. This paper presents the rationale and representative works of two most popular tracking frameworks in past ten years, i.e., the corelation filter and Siamese network for object tracking. Then we present some deep learning based tracking methods categorized by different network structures. We also introduce some classical strategies for handling the challenges in tracking problem. Further, this paper detailedly present and compare the benchmarks and challenges for tracking, from which we summarize the development history and development trend of visual tracking. Focusing on the future development of object tracking, which we think would be applied in real-world scenes before some problems to be addressed, such as the problems in long-term tracking, low-power high-speed tracking and attack-robust tracking. In the future, the integration of multimodal data, e.g., the depth image, thermal image with traditional color image, will provide more solutions for visual tracking. Moreover, tracking task will go together with some other tasks, e.g., video object detection and segmentation.
翻訳日:2022-04-26 14:17:27 公開日:2022-04-25
# 人的正確性を超える:カリキュラム学習によるUSG画像からの胆嚢癌の検出

Surpassing the Human Accuracy: Detecting Gallbladder Cancer from USG Images with Curriculum Learning ( http://arxiv.org/abs/2204.11433v1 )

ライセンス: Link先を確認
Soumen Basu, Mayank Gupta, Pratyaksha Rana, Pankaj Gupta, Chetan Arora(参考訳) 超音波(usg)画像からの胆嚢癌(gbc)検出のためのcnnモデルの可能性を検討した。 USGは低コストとアクセシビリティのため、GB病で最も一般的な診断法である。 しかし,センサのハンドヘルド特性のため,低画質,ノイズ,さまざまな視点からUSG画像を分析することは困難である。 この問題に対する最新技術(SOTA)画像分類手法の徹底的な研究により,USG画像に影があることから,正常なGB領域の学習に失敗することが多いことが明らかとなった。 SOTAオブジェクト検出技術は、ノイズや隣接臓器による刺激的なテクスチャのため、低精度を実現する。 我々はGBCNetを提案し,その課題に対処する。 GBCNetはまずGBを検出して(がんではない)関心領域(ROI)を抽出し、GBCの分類に特化した新しいマルチスケールの2階プールアーキテクチャを使用する。 そこで本研究では,GBCNetのテクスチャバイアスを低減するために,人間の視覚力に着想を得たカリキュラムを提案する。 実験の結果, GBCNetはSOTA CNNモデル, 専門家の放射線学者より有意に優れていた。 私たちの技術革新は他のusg画像分析タスクにも共通しています。 そこで本研究では,usg画像からの乳癌検出におけるgbcnetの有用性を検証した。 ソースコード、トレーニングされたモデル、データを備えたプロジェクトページは、https://gbc-iitd.github.io/gbcnetで入手できる。

We explore the potential of CNN-based models for gallbladder cancer (GBC) detection from ultrasound (USG) images as no prior study is known. USG is the most common diagnostic modality for GB diseases due to its low cost and accessibility. However, USG images are challenging to analyze due to low image quality, noise, and varying viewpoints due to the handheld nature of the sensor. Our exhaustive study of state-of-the-art (SOTA) image classification techniques for the problem reveals that they often fail to learn the salient GB region due to the presence of shadows in the USG images. SOTA object detection techniques also achieve low accuracy because of spurious textures due to noise or adjacent organs. We propose GBCNet to tackle the challenges in our problem. GBCNet first extracts the regions of interest (ROIs) by detecting the GB (and not the cancer), and then uses a new multi-scale, second-order pooling architecture specializing in classifying GBC. To effectively handle spurious textures, we propose a curriculum inspired by human visual acuity, which reduces the texture biases in GBCNet. Experimental results demonstrate that GBCNet significantly outperforms SOTA CNN models, as well as the expert radiologists. Our technical innovations are generic to other USG image analysis tasks as well. Hence, as a validation, we also show the efficacy of GBCNet in detecting breast cancer from USG images. Project page with source code, trained models, and data is available at https://gbc-iitd.github.io/gbcnet
翻訳日:2022-04-26 14:17:05 公開日:2022-04-25
# swinfuse:赤外線および可視画像のための残留スウィントランス融合ネットワーク

SwinFuse: A Residual Swin Transformer Fusion Network for Infrared and Visible Images ( http://arxiv.org/abs/2204.11436v1 )

ライセンス: Link先を確認
Zhishe Wang, Yanlin Chen, Wenyu Shao, Hui Li, Lei Zhang(参考訳) 既存のディープラーニング融合法は主に畳み込みニューラルネットワークに集中しており、変圧器による試みはほとんどない。 一方、畳み込み操作は、画像と畳み込みカーネル間のコンテンツ非依存の相互作用であり、重要なコンテキストが失われ、融合性能がさらに制限される可能性がある。 この目的に向けて,赤外線画像と可視画像の簡易かつ強力な融合ベースライン,すなわちswainfuseと呼ばれる\textit{ residual swin transformer fusion network}を提案する。 SwinFuseにはグローバルな特徴抽出、融合層、特徴再構成という3つの部分が含まれています。 特に,純粋なトランスフォーマーネットワークであり,畳み込みニューラルネットワークに比べて表現能力が強い長距離依存をモデル化するために,バックボーンを符号化する完全に注意深い特徴を構築する。 さらに,数列行列に対する$l_{1}$-normに基づく新しい特徴融合戦略をデザインし,それに対応する動きレベルを列と列のベクトル次元から測定した。 最後に,本提案手法を主観的観測と客観的比較により3つの異なるデータセット上で9つの最先端・深層学習法で検証し,提案手法が強力な一般化能力と競合計算効率で驚くべき融合性能を得ることを示す。 コードはhttps://github.com/Zhishe-Wang/SwinFuse.comから入手できる。

The existing deep learning fusion methods mainly concentrate on the convolutional neural networks, and few attempts are made with transformer. Meanwhile, the convolutional operation is a content-independent interaction between the image and convolution kernel, which may lose some important contexts and further limit fusion performance. Towards this end, we present a simple and strong fusion baseline for infrared and visible images, namely\textit{ Residual Swin Transformer Fusion Network}, termed as SwinFuse. Our SwinFuse includes three parts: the global feature extraction, fusion layer and feature reconstruction. In particular, we build a fully attentional feature encoding backbone to model the long-range dependency, which is a pure transformer network and has a stronger representation ability compared with the convolutional neural networks. Moreover, we design a novel feature fusion strategy based on $L_{1}$-norm for sequence matrices, and measure the corresponding activity levels from row and column vector dimensions, which can well retain competitive infrared brightness and distinct visible details. Finally, we testify our SwinFuse with nine state-of-the-art traditional and deep learning methods on three different datasets through subjective observations and objective comparisons, and the experimental results manifest that the proposed SwinFuse obtains surprising fusion performance with strong generalization ability and competitive computational efficiency. The code will be available at https://github.com/Zhishe-Wang/SwinFuse.
翻訳日:2022-04-26 14:16:16 公開日:2022-04-25
# 線形オーバーパラメトリゼーションを用いた微調整プルーニングネットワーク

Fine-tuning Pruned Networks with Linear Over-parameterization ( http://arxiv.org/abs/2204.11444v1 )

ライセンス: Link先を確認
Siyuan Pan, Xiaoshuang Li, Tingyao Li, Liang Hou, Kaibin Qiu, Xiaobing Tu(参考訳) 構造化プルーニングは、高速な推論のためのチャネル(フィルタ)を減らし、実行時にフットプリントを低くすることでニューラルネットワークを圧縮する。 プルーニング後の精度を回復するため、細調整は通常、プルーニングネットワークに適用される。 しかし、刈り取られたネットワークに残されているパラメータが少なすぎると、精度を回復するための微調整が困難になる。 この課題に対処するため,我々は,まず,刈り込みネットワーク内のコンパクト層を線形に過度にパラメータ化して,微調整パラメータの数を拡大し,さらに微調整後に元の層に再パラメータ化する手法を提案する。 具体的には、現在の出力特徴写像を変更しない連続的な畳み込み/直線層を複数有する畳み込み/直線層を等価に拡張する。 さらに, 類似性保存知識蒸留を利用して, 過パラメータ化ブロックが対応する高密度層の即時データ-データ類似性を学習し, 特徴学習能力を維持する。 提案手法は,CIFAR-10とImageNetで総合的に評価され,バニラ微調整戦略,特に大きな刈り取り率に優れていた。

Structured pruning compresses neural networks by reducing channels (filters) for fast inference and low footprint at run-time. To restore accuracy after pruning, fine-tuning is usually applied to pruned networks. However, too few remaining parameters in pruned networks inevitably bring a great challenge to fine-tuning to restore accuracy. To address this challenge, we propose a novel method that first linearly over-parameterizes the compact layers in pruned networks to enlarge the number of fine-tuning parameters and then re-parameterizes them to the original layers after fine-tuning. Specifically, we equivalently expand the convolution/linear layer with several consecutive convolution/linear layers that do not alter the current output feature maps. Furthermore, we utilize similarity-preserving knowledge distillation that encourages the over-parameterized block to learn the immediate data-to-data similarities of the corresponding dense layer to maintain its feature learning ability. The proposed method is comprehensively evaluated on CIFAR-10 and ImageNet which significantly outperforms the vanilla fine-tuning strategy, especially for large pruning ratio.
翻訳日:2022-04-26 14:15:48 公開日:2022-04-25
# OCFormer:画像分類のための一級変圧器ネットワーク

OCFormer: One-Class Transformer Network for Image Classification ( http://arxiv.org/abs/2204.11449v1 )

ライセンス: Link先を確認
Prerana Mukherjee, Chandan Kumar Roy, Swalpa Kumar Roy(参考訳) 一クラス分類のための視覚変換器(ViT)に基づく新しいディープラーニングフレームワークを提案する。 核となるアイデアは、ゼロ中心ガウス雑音を潜在空間表現の擬負クラスとして使用し、最適損失関数を用いてネットワークを訓練することである。 以前の作品では、損失関数の多様体を使って良質な表現を学ぼうという大きな努力があり、判別的かつコンパクトな性質が保証されている。 提案する一級視覚トランスフォーマー(ocformer)は、cifar-10, cifar-100, fashion-mnist, celeba eyeglassesデータセット上で徹底的に実験されている。 提案手法は,cnnベースの1-class classifierアプローチに比べて著しく改善した。

We propose a novel deep learning framework based on Vision Transformers (ViT) for one-class classification. The core idea is to use zero-centered Gaussian noise as a pseudo-negative class for latent space representation and then train the network using the optimal loss function. In prior works, there have been tremendous efforts to learn a good representation using varieties of loss functions, which ensures both discriminative and compact properties. The proposed one-class Vision Transformer (OCFormer) is exhaustively experimented on CIFAR-10, CIFAR-100, Fashion-MNIST and CelebA eyeglasses datasets. Our method has shown significant improvements over competing CNN based one-class classifier approaches.
翻訳日:2022-04-26 14:15:28 公開日:2022-04-25
# ジェスチャー認識のための時空間多層パーセプトロン

A Spatio-Temporal Multilayer Perceptron for Gesture Recognition ( http://arxiv.org/abs/2204.11511v1 )

ライセンス: Link先を確認
Adrian Holzbock, Alexander Tsaregorodtsev, Youssef Dawoud, Klaus Dietmayer, Vasileios Belagiannis(参考訳) ジェスチャー認識は、自動運転車と人間の相互作用に不可欠である。 現在のアプローチでは,画像特徴,キーポイント,骨ベクトルなどのモダリティに注目する一方で,体骨格入力データのみを用いて最先端の結果を提供するニューラルネットワークアーキテクチャを提案する。 自律走行車におけるジェスチャー認識のための時空間多層パーセプトロンを提案する。 3次元物体が時間とともに作用すると、時間と空間の混合演算を定義し、両方の領域の特徴を抽出する。 さらに、各タイムステップの重要性は、Squeeze-and-Excitationレイヤで再重み付けされる。 提案手法の有望な性能を示すため,TCGおよびDrive&Actデータセットの広範な評価を行った。 さらに、我々のモデルを自動運転車にデプロイし、そのリアルタイム能力と安定した実行を示す。

Gesture recognition is essential for the interaction of autonomous vehicles with humans. While the current approaches focus on combining several modalities like image features, keypoints and bone vectors, we present neural network architecture that delivers state-of-the-art results only with body skeleton input data. We propose the spatio-temporal multilayer perceptron for gesture recognition in the context of autonomous vehicles. Given 3D body poses over time, we define temporal and spatial mixing operations to extract features in both domains. Additionally, the importance of each time step is re-weighted with Squeeze-and-Excitation layers. An extensive evaluation of the TCG and Drive&Act datasets is provided to showcase the promising performance of our approach. Furthermore, we deploy our model to our autonomous vehicle to show its real-time capability and stable execution.
翻訳日:2022-04-26 14:15:15 公開日:2022-04-25
# vita : 分散一般化のための多ソースvicinal transfer augmentation法

VITA: A Multi-Source Vicinal Transfer Augmentation Method for Out-of-Distribution Generalization ( http://arxiv.org/abs/2204.11531v1 )

ライセンス: Link先を確認
Minghui Chen, Cheng Wen, Feng Zheng, Fengxiang He, Ling Shao(参考訳) ノイズやぼやけ、色の変化など、さまざまなタイプの画像腐敗に対する不変性は、コンピュータビジョンにおける堅牢なモデルを確立する上で不可欠である。 データ強化は、一般的な汚職に対する堅牢性を改善する主要なアプローチである。 しかし、一般的な拡張戦略によって生成されたサンプルは、基礎となるデータ多様体から大きく逸脱する。 その結果、特定の種類の腐敗に対してパフォーマンスが歪められる。 この問題に対処するために,多種多様なon-manifoldサンプルを生成するための多元vicinal transfer augmentation (vita)法を提案する。 提案するvitaはタンジェント転送と多源ビビナルサンプルの統合という2つの相補的な部分から構成されている。 タンジェント転送は、汚職の堅牢性を改善するために最初の拡張サンプルを生成する。 この統合は、ビクチンサンプルによって構築される基礎となる多様体を特徴づける生成モデルを採用しており、on-manifoldサンプルの生成を容易にする。 提案したVITAは, 汚損評価ベンチマークの広範な実験において, 現在の最先端化手法よりも優れていた。

Invariance to diverse types of image corruption, such as noise, blurring, or colour shifts, is essential to establish robust models in computer vision. Data augmentation has been the major approach in improving the robustness against common corruptions. However, the samples produced by popular augmentation strategies deviate significantly from the underlying data manifold. As a result, performance is skewed toward certain types of corruption. To address this issue, we propose a multi-source vicinal transfer augmentation (VITA) method for generating diverse on-manifold samples. The proposed VITA consists of two complementary parts: tangent transfer and integration of multi-source vicinal samples. The tangent transfer creates initial augmented samples for improving corruption robustness. The integration employs a generative model to characterize the underlying manifold built by vicinal samples, facilitating the generation of on-manifold samples. Our proposed VITA significantly outperforms the current state-of-the-art augmentation methods, demonstrated in extensive experiments on corruption benchmarks.
翻訳日:2022-04-26 14:15:03 公開日:2022-04-25
# 夜間車両検出のための視覚塩分法とスパースキーポイントアノテーションの併用

Combining Visual Saliency Methods and Sparse Keypoint Annotations to Providently Detect Vehicles at Night ( http://arxiv.org/abs/2204.11535v1 )

ライセンス: Link先を確認
Lukas Ewecker, Lars Ohnemus, Robin Schwager, Stefan Roos, Sascha Saralajew(参考訳) 夜間の他の道路利用者の検出は、道路安全を高める可能性がある。 この目的のために、人間は他の道路利用者が発する光円錐や反射などの視覚的手がかりを直感的に利用し、早期の交通に反応することができる。 この挙動は、車両のヘッドライトによる発光光反射に基づいて車両の外観を予測することによってコンピュータビジョンによって模倣することができる。 現在のオブジェクト検出アルゴリズムは、主にバウンディングボックスを介してアノテートされた直接可視オブジェクトの検出に基づいているため、シャープなバウンダリのない光反射の検出とアノテーションは困難である。 このため、大規模なオープンソースデータセットPVDN(Provident Vehicle Detection at Night)が公開された。 本稿では、PVDNデータセットの視覚的サリエンシとスパースなキーポイントアノテーションに基づいて、異なるオブジェクト表現を作成するための、サリエンシに基づくアプローチの可能性を検討する。 そこで我々は,人間による疎いキーポイントアノテーションを考慮し,ブールマップサリエンシの一般的な考え方を文脈認識アプローチへと拡張する。 このアプローチにより,バイナリマップやバウンディングボックスなど,さまざまなオブジェクト表現の自動導出が可能となり,検出モデルを異なるアノテーション変種でトレーニングすることが可能となり,夜間に車両を適応的に検出する問題は,異なる視点から取り組むことが可能となる。 これにより、実際に見える前に夜間に車両を検知する問題を研究するための、より強力なツールや方法を提供する。

Provident detection of other road users at night has the potential for increasing road safety. For this purpose, humans intuitively use visual cues, such as light cones and light reflections emitted by other road users to be able to react to oncoming traffic at an early stage. This behavior can be imitated by computer vision methods by predicting the appearance of vehicles based on emitted light reflections caused by the vehicle's headlights. Since current object detection algorithms are mainly based on detecting directly visible objects annotated via bounding boxes, the detection and annotation of light reflections without sharp boundaries is challenging. For this reason, the extensive open-source dataset PVDN (Provident Vehicle Detection at Night) was published, which includes traffic scenarios at night with light reflections annotated via keypoints. In this paper, we explore the potential of saliency-based approaches to create different object representations based on the visual saliency and sparse keypoint annotations of the PVDN dataset. For that, we extend the general idea of Boolean map saliency towards a context-aware approach by taking into consideration sparse keypoint annotations by humans. We show that this approach allows for an automated derivation of different object representations, such as binary maps or bounding boxes so that detection models can be trained on different annotation variants and the problem of providently detecting vehicles at night can be tackled from different perspectives. With that, we provide further powerful tools and methods to study the problem of detecting vehicles at night before they are actually visible.
翻訳日:2022-04-26 14:14:47 公開日:2022-04-25
# 弱教師付き視聴覚映像解析のためのジョイントモーダルラベル雑音化

Joint-Modal Label Denoising for Weakly-Supervised Audio-Visual Video Parsing ( http://arxiv.org/abs/2204.11573v1 )

ライセンス: Link先を確認
Haoyue Cheng, Zhaoyang Liu, Hang Zhou, Chen Qian, Wayne Wu, Limin Wang(参考訳) 本稿では,各モーダリティに属するすべてのイベントを認識し,その時間的境界を局所化することを目的とした,弱教師付き音声映像解析タスクに注目した。 ビデオイベントを示すラベル全体だけがトレーニング用に提供されるため、このタスクは難しい。 しかし、イベントはラベル付けされるが、モダリティの1つには表示されないため、モダリティ特有のノイズラベル問題が発生する。 ネットワークがまずクリーンサンプルを学習する傾向にあり,少なくとも1つのモードでラベル付きイベントが現れるという2つの観察結果から,モーダリティ固有のノイズラベルを動的に識別・除去するためのトレーニング戦略を提案する。 具体的には、各モーダルにおいて各インスタンスの損失を個別にソートし、モーダル内損失とモーダル間損失の関係に応じてノイズサンプルを選択する。 また,信頼度が予め設定された閾値未満のインスタンスの比率を計算することで,簡易かつ有効な雑音比推定法を提案する。 本手法は,従来の技術状況(例えば,セグメントレベルの視覚測定値の60.0%から63.8%)を大きく改善し,アプローチの有効性を実証する。

This paper focuses on the weakly-supervised audio-visual video parsing task, which aims to recognize all events belonging to each modality and localize their temporal boundaries. This task is challenging because only overall labels indicating the video events are provided for training. However, an event might be labeled but not appear in one of the modalities, which results in a modality-specific noisy label problem. Motivated by two observations that networks tend to learn clean samples first and that a labeled event would appear in at least one modality, we propose a training strategy to identify and remove modality-specific noisy labels dynamically. Specifically, we sort the losses of all instances within a mini-batch individually in each modality, then select noisy samples according to relationships between intra-modal and inter-modal losses. Besides, we also propose a simple but valid noise ratio estimation method by calculating the proportion of instances whose confidence is below a preset threshold. Our method makes large improvements over the previous state of the arts (e.g., from 60.0% to 63.8% in segment-level visual metric), which demonstrates the effectiveness of our approach.
翻訳日:2022-04-26 14:14:20 公開日:2022-04-25
# (参考訳) 人間の運動合成に対する敵対的注意

Adversarial Attention for Human Motion Synthesis ( http://arxiv.org/abs/2204.11751v1 )

ライセンス: CC BY 4.0
Matthew Malek-Podjaski, Fani Deligianni(参考訳) 人間の動きを分析することは、人間とコンピュータの相互作用からエンターテイメント、バーチャルリアリティ、ヘルスケアに至るまで、多くの分野にとって重要なトピックである。 ディープラーニングは、人間のポーズをリアルタイムで捉えることで素晴らしい成果を上げている。 一方、物体間変動が大きいため、ヒトの運動分析モデルは、医療などの分野で利用可能な非常に限定的なデータセットのため、見えない被験者のデータに一般化できないことが多い。 しかし、人間の動きのデータセットを取得するのは非常に時間がかかり、難しく、高価です。 したがって、人間の動き合成は深層学習とコンピュータビジョンにおける重要な研究課題である。 本稿では,エンド・ツー・エンドトレーニングを用いた注意型確率的深層対角モデルの適用により,人間の動作合成を制御可能な新しい手法を提案する。 我々は, 対角的注意力を用いて, 短時間・長時間の地平線上での合成人間の動きを生成することができることを示す。 さらに,既存のデータセットを合成動作で補完することにより,実データに不適切な場合のディープラーニングモデルの分類性能を向上させることができることを示した。

Analysing human motions is a core topic of interest for many disciplines, from Human-Computer Interaction, to entertainment, Virtual Reality and healthcare. Deep learning has achieved impressive results in capturing human pose in real-time. On the other hand, due to high inter-subject variability, human motion analysis models often suffer from not being able to generalise to data from unseen subjects due to very limited specialised datasets available in fields such as healthcare. However, acquiring human motion datasets is highly time-consuming, challenging, and expensive. Hence, human motion synthesis is a crucial research problem within deep learning and computer vision. We present a novel method for controllable human motion synthesis by applying attention-based probabilistic deep adversarial models with end-to-end training. We show that we can generate synthetic human motion over both short- and long-time horizons through the use of adversarial attention. Furthermore, we show that we can improve the classification performance of deep learning models in cases where there is inadequate real data, by supplementing existing datasets with synthetic motions.
翻訳日:2022-04-26 14:12:27 公開日:2022-04-25
# 合理化はロバスト性を改善するか?

Can Rationalization Improve Robustness? ( http://arxiv.org/abs/2204.11790v1 )

ライセンス: Link先を確認
Howard Chen, Jacqueline He, Karthik Narasimhan, Danqi Chen(参考訳) 成長している研究のラインは、モデル予測を説明する入力のサブセットを合理的に生成できるニューラルnlpモデルの開発を調査した。 本稿では,このような合理的モデルが,解釈可能な性質に加えて,敵攻撃に対して堅牢性をもたらすかどうかを問う。 これらのモデルは、予測("predictor")する前に最初に合理性("rationalizer")を生成する必要があるため、生成された合理性から単に隠して、ノイズを無視したり、逆にテキストを追加したりできる可能性がある。 この目的のために,トークンと文レベルの合理化タスクの両方に対して,様々な種類の「付加文」攻撃を体系的に生成し,5つの異なるタスクにまたがる最先端合理化モデルの広範な経験的評価を行う。 私たちの実験では、合理的なモデルがロバスト性を改善するという約束を示しつつ、特定のシナリオで苦労していることを示しています。 さらに、人間の合理性を監督として活用することは、常により良いパフォーマンスをもたらすとは限らない。 本研究は,合理化予測フレームワークにおける解釈可能性と頑健性の間の相互作用を探求する第一歩である。

A growing line of work has investigated the development of neural NLP models that can produce rationales--subsets of input that can explain their model predictions. In this paper, we ask whether such rationale models can also provide robustness to adversarial attacks in addition to their interpretable nature. Since these models need to first generate rationales ("rationalizer") before making predictions ("predictor"), they have the potential to ignore noise or adversarially added text by simply masking it out of the generated rationale. To this end, we systematically generate various types of 'AddText' attacks for both token and sentence-level rationalization tasks, and perform an extensive empirical evaluation of state-of-the-art rationale models across five different tasks. Our experiments reveal that the rationale models show the promise to improve robustness, while they struggle in certain scenarios--when the rationalizer is sensitive to positional bias or lexical choices of attack text. Further, leveraging human rationale as supervision does not always translate to better performance. Our study is a first step towards exploring the interplay between interpretability and robustness in the rationalize-then-predict framework.
翻訳日:2022-04-26 13:50:55 公開日:2022-04-25
# hypernca:神経細胞オートマトンによる成長期ネットワーク

HyperNCA: Growing Developmental Networks with Neural Cellular Automata ( http://arxiv.org/abs/2204.11674v1 )

ライセンス: Link先を確認
Elias Najarro, Shyam Sudhakaran, Claire Glanois, Sebastian Risi(参考訳) 深層強化学習剤とは対照的に、生物学的ニューラルネットワークは自己組織化された発達過程を通じて成長する。 本稿では,ニューラルセルオートマトン(NCA)に基づく,ニューラルネットワークを成長させるための新しいハイパーネットワーク手法を提案する。 自己組織システムと発達生物学への情報理論的アプローチに着想を得て,我々のhypernca法は共通の強化学習課題を解決できるニューラルネットワークを育成できることを示した。 最後に、同じアプローチが、その重みを変換して初期rlタスクのバリエーションを解決できる発達的変形ネットワークの構築にどのように役立つかを検討する。

In contrast to deep reinforcement learning agents, biological neural networks are grown through a self-organized developmental process. Here we propose a new hypernetwork approach to grow artificial neural networks based on neural cellular automata (NCA). Inspired by self-organising systems and information-theoretic approaches to developmental biology, we show that our HyperNCA method can grow neural networks capable of solving common reinforcement learning tasks. Finally, we explore how the same approach can be used to build developmental metamorphosis networks capable of transforming their weights to solve variations of the initial RL task.
翻訳日:2022-04-26 13:49:24 公開日:2022-04-25
# 条件付きデリゲーションによるヒューマンAIコラボレーション:コンテンツモデレーションを事例として

Human-AI Collaboration via Conditional Delegation: A Case Study of Content Moderation ( http://arxiv.org/abs/2204.11788v1 )

ライセンス: Link先を確認
Vivian Lai, Samuel Carton, Rajat Bhatnagar, Q. Vera Liao, Yunfeng Zhang, Chenhao Tan(参考訳) 多くのベンチマークデータセットで顕著なパフォーマンスにもかかわらず、AIモデルは依然として間違いを犯す可能性がある。 このような不完全なモデルが、人間とのコラボレーションに効果的に使用できるのか、という疑問は、まだ未解決のままである。 以前の作業では、個人のハイシックな意思決定を支援するaiアシスタンスに重点を置いてきたが、ソーシャルメディアのコメントをモデレートするなど、比較的低シックな意思決定ではスケーラビリティに欠ける。 代わりに、人間とAIのコラボレーションのための代替パラダイムとして条件付きデリゲーションを提案し、モデルの信頼できる領域を示すルールを作成する。 コンテンツモデレーションをテストベッドとして使用し,条件付デリゲーションルールの作成を支援する新たなインターフェースを開発し,2つのデータセットによるランダム化実験を行い,分散シナリオと分散シナリオをシミュレートする。 本研究は、モデル性能の向上における条件付きデリゲートの約束を実証し、AI説明の効果を含む新しいパラダイムの設計に関する洞察を提供する。

Despite impressive performance in many benchmark datasets, AI models can still make mistakes, especially among out-of-distribution examples. It remains an open question how such imperfect models can be used effectively in collaboration with humans. Prior work has focused on AI assistance that helps people make individual high-stakes decisions, which is not scalable for a large amount of relatively low-stakes decisions, e.g., moderating social media comments. Instead, we propose conditional delegation as an alternative paradigm for human-AI collaboration where humans create rules to indicate trustworthy regions of a model. Using content moderation as a testbed, we develop novel interfaces to assist humans in creating conditional delegation rules and conduct a randomized experiment with two datasets to simulate in-distribution and out-of-distribution scenarios. Our study demonstrates the promise of conditional delegation in improving model performance and provides insights into design for this novel paradigm, including the effect of AI explanations.
翻訳日:2022-04-26 13:49:12 公開日:2022-04-25
# タスク誘発表現学習

Task-Induced Representation Learning ( http://arxiv.org/abs/2204.11827v1 )

ライセンス: Link先を確認
Jun Yamada, Karl Pertsch, Anisha Gunjal, Joseph J. Lim(参考訳) 本研究では,視覚的に複雑な環境における意思決定における表現学習手法の有効性を評価する。 高次元入力からの効果的な強化学習(RL)には表現学習が不可欠である。 再構成,予測,コントラスト学習に基づく教師なし表現学習アプローチは,大幅な学習効率の向上を示した。 しかし、ほとんどはクリーンな実験室やシミュレートされた環境で評価されている。 対照的に、実際の環境は視覚的に複雑で、かなりの量の乱雑さや気晴らしがある。 教師なし表現はそのような混乱をモデル化することを学び、エージェントの学習効率を損なう可能性がある。 対照的に、タスク誘導表現学習と呼ばれる別のアプローチのクラスでは、以前のタスクからの報酬やデモンストレーションのようなタスク情報を活用して、シーンのタスク関連部分にフォーカスし、邪魔者を無視する。 我々は,dmコントロールの邪魔からcarla運転シミュレータまで4つの視覚複雑な環境における教師なしおよびタスク誘発表現学習手法の有効性について検討した。 rlと模倣学習の両方において、表現学習は一般的に視覚的に複雑な場面でも目に見えないタスクのサンプル効率が向上し、タスク誘発表現は教師なしの代替品と比較して学習効率が2倍になる。 コードはhttps://clvrai.com/tarp.comで入手できる。

In this work, we evaluate the effectiveness of representation learning approaches for decision making in visually complex environments. Representation learning is essential for effective reinforcement learning (RL) from high-dimensional inputs. Unsupervised representation learning approaches based on reconstruction, prediction or contrastive learning have shown substantial learning efficiency gains. Yet, they have mostly been evaluated in clean laboratory or simulated settings. In contrast, real environments are visually complex and contain substantial amounts of clutter and distractors. Unsupervised representations will learn to model such distractors, potentially impairing the agent's learning efficiency. In contrast, an alternative class of approaches, which we call task-induced representation learning, leverages task information such as rewards or demonstrations from prior tasks to focus on task-relevant parts of the scene and ignore distractors. We investigate the effectiveness of unsupervised and task-induced representation learning approaches on four visually complex environments, from Distracting DMControl to the CARLA driving simulator. For both, RL and imitation learning, we find that representation learning generally improves sample efficiency on unseen tasks even in visually complex scenes and that task-induced representations can double learning efficiency compared to unsupervised alternatives. Code is available at https://clvrai.com/tarp.
翻訳日:2022-04-26 13:47:33 公開日:2022-04-25
# 多様体上のmin-max最適化のためのリーマンハミルトニアン法

Riemannian Hamiltonian methods for min-max optimization on manifolds ( http://arxiv.org/abs/2204.11418v1 )

ライセンス: Link先を確認
Andi Han, Bamdev Mishra, Pratik Jawanpuria, Pawan Kumar, Junbin Gao(参考訳) 本稿では,リーマン多様体上のmin-max最適化問題について検討する。 リーマンハミルトニアン函数を導入し、最小化は元の min-max 問題を解くプロキシとして機能する。 ハミルトン函数上のリーマン的Polyak--{\L}ojasiewicz (PL)条件の下では、最小化器は所望のmin-maxサドル点に対応する。 この条件が満たされたケースも提供します。 ハミルトン関数を最小化するために、リーマンハミルトニアン法(rhm)を提案し、それらの収束解析を提案する。 我々はRHMをコンセンサス正則化と確率的設定に拡張する。 本稿では,サブスペースロバストなwaserstein距離,ニューラルネットワークのロバストトレーニング,生成的逆ネットワークといった応用におけるrrmの有効性について述べる。

In this paper, we study the min-max optimization problems on Riemannian manifolds. We introduce a Riemannian Hamiltonian function, minimization of which serves as a proxy for solving the original min-max problems. Under the Riemannian Polyak--{\L}ojasiewicz (PL) condition on the Hamiltonian function, its minimizer corresponds to the desired min-max saddle point. We also provide cases where this condition is satisfied. To minimize the Hamiltonian function, we propose Riemannian Hamiltonian methods (RHM) and present their convergence analysis. We extend RHM to include a consensus regularization and to the stochastic setting. We illustrate the efficacy of the proposed RHM in applications such as subspace robust Wasserstein distance, robust training of neural networks, and generative adversarial networks.
翻訳日:2022-04-26 13:46:44 公開日:2022-04-25
# ハイブリッドISTA:自由形ディープニューラルネットワークを用いた収束保証付きISTAの展開

Hybrid ISTA: Unfolding ISTA With Convergence Guarantees Using Free-Form Deep Neural Networks ( http://arxiv.org/abs/2204.11640v1 )

ライセンス: Link先を確認
Ziyang Zheng, Wenrui Dai, Duoduo Xue, Chenglin Li, Junni Zou, Hongkai Xiong(参考訳) 反復的縮小しきい値アルゴリズム(ISTA)を学習可能なパラメータを持つディープニューラルネットワーク(DNN)として展開することで、線形逆問題を解決することを約束している。 しかし、既存のistaベースの展開アルゴリズムは、部分重み結合構造を持つ反復更新のためにネットワークアーキテクチャを制限し、収束を保証する。 本稿では,自由形式のDNN(すなわち任意のネットワークアーキテクチャを持つDNN)を組み込んで,理論収束性を確保しつつ,ISTAを事前計算および学習パラメータで拡張するハイブリッドISTAを提案する。 まず,理論上の収束率を損なうことなく,古典的istaの効率と柔軟性を向上させるためにhcistaを開発した。 さらに、DNNベースのハイブリッドアルゴリズムは、学習パラメータの自由なアーキテクチャを線形収束を保証するため、HLISTAと呼ばれる学習ISTAの一般的な変種に一般化される。 本稿では,istaベースの展開型アルゴリズムにおいて,自由形式のdnnを実現する収束可能なフレームワークを初めて提供する。 このフレームワークは、収束保証を伴う線形逆問題を解くために任意のDNNを与えるのが一般的である。 広汎な実験により、ハイブリッドISTAはスパースリカバリおよび圧縮センシングのタスクにおける収束率の向上により再構成誤差を低減できることが示された。

It is promising to solve linear inverse problems by unfolding iterative algorithms (e.g., iterative shrinkage thresholding algorithm (ISTA)) as deep neural networks (DNNs) with learnable parameters. However, existing ISTA-based unfolded algorithms restrict the network architectures for iterative updates with the partial weight coupling structure to guarantee convergence. In this paper, we propose hybrid ISTA to unfold ISTA with both pre-computed and learned parameters by incorporating free-form DNNs (i.e., DNNs with arbitrary feasible and reasonable network architectures), while ensuring theoretical convergence. We first develop HCISTA to improve the efficiency and flexibility of classical ISTA (with pre-computed parameters) without compromising the convergence rate in theory. Furthermore, the DNN-based hybrid algorithm is generalized to popular variants of learned ISTA, dubbed HLISTA, to enable a free architecture of learned parameters with a guarantee of linear convergence. To our best knowledge, this paper is the first to provide a convergence-provable framework that enables free-form DNNs in ISTA-based unfolded algorithms. This framework is general to endow arbitrary DNNs for solving linear inverse problems with convergence guarantees. Extensive experiments demonstrate that hybrid ISTA can reduce the reconstruction error with an improved convergence rate in the tasks of sparse recovery and compressive sensing.
翻訳日:2022-04-26 13:44:24 公開日:2022-04-25
# LightDefectNet: 導光板表面欠陥検出のための高コンパクトな反エイリアスアテンションコンデンサニューラルネットワークアーキテクチャ

LightDefectNet: A Highly Compact Deep Anti-Aliased Attention Condenser Neural Network Architecture for Light Guide Plate Surface Defect Detection ( http://arxiv.org/abs/2204.11765v1 )

ライセンス: Link先を確認
Carol Xu, Mahmoud Famouri, Gautam Bathla, Mohammad Javad Shafiee, and Alexander Wong(参考訳) 光ガイドプレートは、医療用照明器具からバックライトtvディスプレイまで、様々な用途で広く使われている必須の光学部品である。 導光板の製造において不可欠なステップは、傷、明るい/暗い斑点、不純物などの欠陥の品質検査である。 これは主に産業において、時間を要するプレートパターンの不規則性に対する手動の視覚検査によって行われ、人的ミスを生じやすいため、高スループット生産において重要な障壁となる。 ディープラーニング駆動型コンピュータビジョンの進歩は、検査の一貫性、精度、効率を改善するために、ライトガイドプレートの自動視覚品質検査の探索につながった。 しかし,視覚検査シナリオにおけるコスト制約を考慮すると,光ガイド板の検査にディープラーニング駆動のコンピュータビジョン手法が広く採用されている。 本研究では,資源制約のあるシナリオにおいて,光ガイド板表面欠陥検出に特化した高度にコンパクトなディープ・アンチ・エイリアス・アテンション・コンデンサニューラルネットワークアーキテクチャであるlightdefectnetを作成するために,計算量および「最良のプラクティス」制約とl$_1$のペアド分類不一致損失を用いた機械駆動設計探索の活用について検討する。 LightDetectNetは770Kパラメータ(それぞれResNet-50とEfficientNet-B0より低い)と$\sim$93M FLOPs$(それぞれResNet-50とEfficientNet-B0より低い)と$\sim$8.4$\times$(それぞれResNet-50とEfficientNet-B0より低い)と$\sim$8.8$\times$高速推論速度(ARMプロセッサ上のEfficientNet-B0より低い)の770Kパラメータしか持たずに、LGPSDDベンチマークで$\sim$98.2%の検出精度を達成した。

Light guide plates are essential optical components widely used in a diverse range of applications ranging from medical lighting fixtures to back-lit TV displays. An essential step in the manufacturing of light guide plates is the quality inspection of defects such as scratches, bright/dark spots, and impurities. This is mainly done in industry through manual visual inspection for plate pattern irregularities, which is time-consuming and prone to human error and thus act as a significant barrier to high-throughput production. Advances in deep learning-driven computer vision has led to the exploration of automated visual quality inspection of light guide plates to improve inspection consistency, accuracy, and efficiency. However, given the cost constraints in visual inspection scenarios, the widespread adoption of deep learning-driven computer vision methods for inspecting light guide plates has been greatly limited due to high computational requirements. In this study, we explore the utilization of machine-driven design exploration with computational and "best-practices" constraints as well as L$_1$ paired classification discrepancy loss to create LightDefectNet, a highly compact deep anti-aliased attention condenser neural network architecture tailored specifically for light guide plate surface defect detection in resource-constrained scenarios. Experiments show that LightDetectNet achieves a detection accuracy of $\sim$98.2% on the LGPSDD benchmark while having just 770K parameters ($\sim$33$\times$ and $\sim$6.9$\times$ lower than ResNet-50 and EfficientNet-B0, respectively) and $\sim$93M FLOPs ($\sim$88$\times$ and $\sim$8.4$\times$ lower than ResNet-50 and EfficientNet-B0, respectively) and $\sim$8.8$\times$ faster inference speed than EfficientNet-B0 on an embedded ARM processor.
翻訳日:2022-04-26 13:44:02 公開日:2022-04-25
# CellDefectNet: エレクトロルミネッセンスに基づく太陽電池欠陥検査のための機械設計アテンションコンデンサネットワーク

CellDefectNet: A Machine-designed Attention Condenser Network for Electroluminescence-based Photovoltaic Cell Defect Inspection ( http://arxiv.org/abs/2204.11766v1 )

ライセンス: Link先を確認
Carol Xu, Mahmoud Famouri, Gautam Bathla, Saeejith Nair, Mohammad Javad Shafiee, and Alexander Wong(参考訳) 太陽電池は光エネルギーを電気に変換する電子機器であり、太陽エネルギー回収システムのバックボーンを形成する。 太陽電池の製造工程において不可欠なステップは、クラック、指の切断、壊れた細胞などの欠陥を特定するためにエレクトロルミネッセンスイメージングを用いた視覚品質検査である。 太陽電池の視覚検査で業界が直面している大きな課題は、現在人間の検査官が手動で行っていることだ。 ディープラーニングアプローチは、この検査を自動化する大きな可能性を秘めているが、ハードウェアリソースに制約のある製造シナリオは、複雑なディープニューラルネットワークアーキテクチャのデプロイを困難にしている。 本研究では,セルデベクツネット(celldefectnet)について紹介する。セルデベクツネットは,電界発光に基づく太陽電池欠陥検出のための機械駆動設計による高効率なアテンションコンデンサネットワークである。 セルデフェクトネットは410Kパラメータ (~13$\times $ lower than EfficientNet-B0) と ~115M FLOPs (~12$\times$ lower than EfficientNet-B0) と ~13$\times$ faster on a ARM Cortex A-72 embedded processor (EfficientNet-B0) の410Kパラメータ(~13$\times$ lower than EfficientNet-B0) しか持たず、86.3%の精度を達成することができる。

Photovoltaic cells are electronic devices that convert light energy to electricity, forming the backbone of solar energy harvesting systems. An essential step in the manufacturing process for photovoltaic cells is visual quality inspection using electroluminescence imaging to identify defects such as cracks, finger interruptions, and broken cells. A big challenge faced by industry in photovoltaic cell visual inspection is the fact that it is currently done manually by human inspectors, which is extremely time consuming, laborious, and prone to human error. While deep learning approaches holds great potential to automating this inspection, the hardware resource-constrained manufacturing scenario makes it challenging for deploying complex deep neural network architectures. In this work, we introduce CellDefectNet, a highly efficient attention condenser network designed via machine-driven design exploration specifically for electroluminesence-based photovoltaic cell defect detection on the edge. We demonstrate the efficacy of CellDefectNet on a benchmark dataset comprising of a diversity of photovoltaic cells captured using electroluminescence imagery, achieving an accuracy of ~86.3% while possessing just 410K parameters (~13$\times$ lower than EfficientNet-B0, respectively) and ~115M FLOPs (~12$\times$ lower than EfficientNet-B0) and ~13$\times$ faster on an ARM Cortex A-72 embedded processor when compared to EfficientNet-B0.
翻訳日:2022-04-26 13:43:12 公開日:2022-04-25
# 演奏者:心血管疾患検出用デジタルバイオマーカーのための新しいppg-ecgリコンストラクショントランスフォーマ

Performer: A Novel PPG to ECG Reconstruction Transformer For a Digital Biomarker of Cardiovascular Disease Detection ( http://arxiv.org/abs/2204.11795v1 )

ライセンス: Link先を確認
Ella Lan(参考訳) 心臓血管疾患(CVD)は死因の上位1つとなり、これらの死亡の4分の3は低所得層で発生している。 心電図(Electrocardiography、ECG)は、心活動を測定する電気測定装置であり、CVDを診断するための金標準である。 しかし、ECGはユーザーの参加を必要とするため、継続的な心臓モニタリングには適さない。 一方、光胸腺造影(PPG)の収集は容易であるが、精度の制限により臨床応用は制限される。 本研究では,新しいトランスフォーマーベースのアーキテクチャであるPerformerを発明し,CVD検出のための複数のモダリティとして,PSGからECGを再構成し,新しいデジタルバイオマーカーであるPSGを作成する。 このアーキテクチャは、バイオメディカル波形のトランスフォーマーシーケンスを初めて実行し、容易にアクセス可能なPSGとよく研究されたECGの基盤の利点を生かした。 シフトパッチベースの注意(Shifted Patch-based Attention, SPA)は、様々なシーケンス長を階層的な段階としてトレーニングに取り込み、シフトパッチ機構を通じてクロスパッチ接続をキャプチャすることで、信号特性を最大化する。 このアーキテクチャは、PSGからECGを再構築するための 0.29 RMSE の最先端性能を生成し、MIMIC III データセットでの CVD の平均 95.9% と PPG-BP データセットでの糖尿病の 75.9% を達成している。 performerは、新しいデジタルバイオマーカーと共に、継続的な心臓モニタリングのための低コストで非侵襲的なソリューションを提供するが、容易に抽出できるppgデータを必要とせず、アクセス不能なecgデータを再構築できる。 概念実証として、PEARL(プロトタイプ)と名付けられたイヤリングウェアラブルは、POSC(point-of-care)ヘルスケアシステムをスケールアップするために設計された。

Cardiovascular diseases (CVDs) have become the top one cause of death; three-quarters of these deaths occur in lower-income communities. Electrocardiography (ECG), an electrical measurement capturing the cardiac activities, is a gold-standard to diagnose CVDs. However, ECG is infeasible for continuous cardiac monitoring due to its requirement for user participation. Meanwhile, photoplethysmography (PPG) is easy to collect, but the limited accuracy constrains its clinical usage. In this research, a novel Transformer-based architecture, Performer, is invented to reconstruct ECG from PPG and to create a novel digital biomarker, PPG along with its reconstructed ECG, as multiple modalities for CVD detection. This architecture, for the first time, performs Transformer sequence to sequence translation on biomedical waveforms, while also utilizing the advantages of the easily accessible PPG and the well-studied base of ECG. Shifted Patch-based Attention (SPA) is created to maximize the signal features by fetching the various sequence lengths as hierarchical stages into the training while also capturing cross-patch connections through the shifted patch mechanism. This architecture generates a state-of-the-art performance of 0.29 RMSE for reconstructing ECG from PPG, achieving an average of 95.9% diagnosis for CVDs on the MIMIC III dataset and 75.9% for diabetes on the PPG-BP dataset. Performer, along with its novel digital biomarker, offers a low-cost and non-invasive solution for continuous cardiac monitoring, only requiring the easily extractable PPG data to reconstruct the not-as-accessible ECG data. As a prove of concept, an earring wearable, named PEARL (prototype), is designed to scale up the point-of-care (POC) healthcare system.
翻訳日:2022-04-26 13:42:32 公開日:2022-04-25
# 火を起こすのに2つのフリント:ニューラルネットワークと説明分類器のマルチタスク学習

It Takes Two Flints to Make a Fire: Multitask Learning of Neural Relation and Explanation Classifiers ( http://arxiv.org/abs/2204.11424v1 )

ライセンス: Link先を確認
Zheng Tang, Mihai Surdeanu(参考訳) 本稿では,2つの目標を共同で学習することで,一般化と説明可能性の間の緊張を緩和する関係抽出のための説明可能なアプローチを提案する。 提案手法では,関係抽出のための分類器を共同で訓練するマルチタスク学習アーキテクチャと,関係分類器の決定を説明する関係の文脈で単語をラベル付けするシーケンスモデルを用いる。 また、モデル出力をルールに変換し、このアプローチにグローバルな説明をもたらす。 このシーケンスモデルは、教師あり、既存のパターンからの監視が利用可能で、それ以外は半監督される。 後者の状況では、シーケンスモデルのラベルを潜在変数として扱い、関係分類器の性能を最大化する最適な代入を学習する。 提案手法を2つのデータセット上で評価し,関係分類器の判断の正確な説明となるラベルをシーケンスモデルで提供し,さらに,関係分類器の性能が一般的に向上することを示す。 また、生成されたルールのパフォーマンスを評価し、新しいルールが手動ルールに優れたアドオンであることを示し、ルールベースのシステムをニューラルモデルにずっと近づける。

We propose an explainable approach for relation extraction that mitigates the tension between generalization and explainability by jointly training for the two goals. Our approach uses a multi-task learning architecture, which jointly trains a classifier for relation extraction, and a sequence model that labels words in the context of the relation that explain the decisions of the relation classifier. We also convert the model outputs to rules to bring global explanations to this approach. This sequence model is trained using a hybrid strategy: supervised, when supervision from pre-existing patterns is available, and semi-supervised otherwise. In the latter situation, we treat the sequence model's labels as latent variables, and learn the best assignment that maximizes the performance of the relation classifier. We evaluate the proposed approach on the two datasets and show that the sequence model provides labels that serve as accurate explanations for the relation classifier's decisions, and, importantly, that the joint training generally improves the performance of the relation classifier. We also evaluate the performance of the generated rules and show that the new rules are great add-on to the manual rules and bring the rule-based system much closer to the neural models.
翻訳日:2022-04-26 13:38:04 公開日:2022-04-25
# (参考訳) knowaugnet:多レベルグラフコントラスト学習を用いた多元医療知識拡張薬理予測ネットワーク

KnowAugNet: Multi-Source Medical Knowledge Augmented Medication Prediction Network with Multi-Level Graph Contrastive Learning ( http://arxiv.org/abs/2204.11736v1 )

ライセンス: CC BY 4.0
Yang An, Bo Jin, Xiaopeng Wei(参考訳) 医薬品の予測は多くの知的医療システムにおいて重要な課題である。 電子カルテ(EMR)に基づき、医師が患者の情報的治療決定を行うのを助けることができる。 しかし,医療コード間の複雑な関係から,投薬予測は困難なデータマイニング課題である。 既存の研究のほとんどは、不均質または均質な医療コード間の貴重な空間的関係を無視しながら、医療コード間の時間的関係のマイニングと、階層的オントロジーグラフからの均質な医療コード間の固有の関係にフォーカスしており、予測性能をさらに制限している。 そこで本稿では,多レベルグラフコントラスト学習フレームワークを用いて,医療コード間の多様な関係を完全に把握できる多元的医療知識拡張医薬品予測ネットワークである \textbf{knowaugnet} を提案する。 具体的には、まず、グラフアテンションネットワークをエンコーダとしてグラフコントラスト学習を利用して、医用オントロジーグラフから均質な医療コード間の暗黙的な関係を捉え、知識拡張医療コード埋め込みベクトルを得る。 次に、重み付きグラフ畳み込みネットワークをエンコーダとしてグラフコントラスト学習を行い、構築した医用事前関係グラフから均質または異質な医用コード間の相関関係を捉え、拡張された医用コード埋め込みベクトルの関係を得る。 最後に、拡張医療コード埋め込みベクターと教師付き医療コード埋め込みベクターを検索してシーケンシャルラーニングネットワークに入力し、医療コードの時間的関係を把握し、患者の薬剤を予測する。

Predicting medications is a crucial task in many intelligent healthcare systems. It can assist doctors in making informed medication decisions for patients according to electronic medical records (EMRs). However, medication prediction is a challenging data mining task due to the complex relations between medical codes. Most existing studies usually focus on mining the temporal relations between medical codes while neglecting the valuable spatial relations between heterogeneous or homogeneous medical codes, and the inherent relations between homogeneous medical codes from hierarchical ontology graph, which further limits the prediction performance. Therefore, to address these limitations, this paper proposes \textbf{KnowAugNet}, a multi-sourced medical knowledge augmented medication prediction network which can fully capture the diverse relations between medical codes via multi-level graph contrastive learning framework. Specifically, KnowAugNet first leverages the graph contrastive learning using graph attention network as the encoder to capture the implicit relations between homogeneous medical codes from the medical ontology graph and obtains the knowledge augmented medical codes embedding vectors. Then, it utilizes the graph contrastive learning using a weighted graph convolutional network as the encoder to capture the correlative relations between homogeneous or heterogeneous medical codes from the constructed medical prior relation graph and obtains the relation augmented medical codes embedding vectors. Finally, the augmented medical codes embedding vectors and the supervised medical codes embedding vectors are retrieved and input to the sequential learning network to capture the temporal relations of medical codes and predict medications for patients.
翻訳日:2022-04-26 13:36:33 公開日:2022-04-25
# NIR-VISとVIS-VISの顔認識のための共同特徴分布アライメント学習

Joint Feature Distribution Alignment Learning for NIR-VIS and VIS-VIS Face Recognition ( http://arxiv.org/abs/2204.11434v1 )

ライセンス: Link先を確認
Takaya Miyamoto, Hiroshi Hashimoto, Akihiro Hayasaka, Akinori F. Ebihara, Hitoshi Imaoka(参考訳) 視覚光(VIS)画像に対する顔認識は,近年の深層学習の発展により精度が高い。 しかし、異なる領域の顔マッチングであるヘテロジニアス顔認識(HFR)は、ドメインの相違と大規模なHFRデータセットの欠如のため、依然として難しい課題である。 いくつかの手法は、微調整によりドメインの差を減らそうとしているが、これは、非常に識別性の高いVIS表現を失うため、VISドメインの性能が著しく低下する。 そこで,本稿では,知識蒸留を利用した共同学習手法であるjfdal(joint feature distribution alignment learning)を提案する。 これにより、VISドメインのオリジナル性能を維持しながら高いHFR性能を実現することができる。 提案手法は,一般のHFRデータセットであるOulu-CASIA NIR&VISや,FLW,CFP, AgeDBなどのVISドメインで一般的な検証データセットと比較して,統計的に有意に優れた性能を示すことを示す。 さらに,既存のHFR法との比較実験により,本手法がOulu-CASIA NIR&VISデータセット上で同等のHFR性能を達成し,VIS性能の劣化を低減したことを示す。

Face recognition for visible light (VIS) images achieve high accuracy thanks to the recent development of deep learning. However, heterogeneous face recognition (HFR), which is a face matching in different domains, is still a difficult task due to the domain discrepancy and lack of large HFR dataset. Several methods have attempted to reduce the domain discrepancy by means of fine-tuning, which causes significant degradation of the performance in the VIS domain because it loses the highly discriminative VIS representation. To overcome this problem, we propose joint feature distribution alignment learning (JFDAL) which is a joint learning approach utilizing knowledge distillation. It enables us to achieve high HFR performance with retaining the original performance for the VIS domain. Extensive experiments demonstrate that our proposed method delivers statistically significantly better performances compared with the conventional fine-tuning approach on a public HFR dataset Oulu-CASIA NIR&VIS and popular verification datasets in VIS domain such as FLW, CFP, AgeDB. Furthermore, comparative experiments with existing state-of-the-art HFR methods show that our method achieves a comparable HFR performance on the Oulu-CASIA NIR&VIS dataset with less degradation of VIS performance.
翻訳日:2022-04-26 12:56:44 公開日:2022-04-25
# 最適輸送による学部蒸留

Faculty Distillation with Optimal Transport ( http://arxiv.org/abs/2204.11526v1 )

ライセンス: Link先を確認
Su Lu, Han-Jia Ye, De-Chuan Zhan(参考訳) 知識蒸留(KD)は、適切な教師が与えられた学生分類器を改善する効果を示した。 多様な多種多様な事前訓練型モデルの展開は、KDに豊富な教師資源を提供する可能性がある。 しかしながら、これらのモデルは学生と異なるタスクで訓練されることが多く、生徒は最も貢献的な教師を正確に選択し、異なるラベル空間でKDを有効にする必要がある。 これらの制限は標準kdの不足を開示し、我々は学部蒸留と呼ばれる新しいパラダイムを研究する動機付けとなる。 教師のグループ(学部)が与えられると、生徒は最も関係のある教師を選び、一般的な知識の再利用を行う必要がある。 そこで我々は,教師の課題と生徒の課題を最適な輸送手段で結びつけることを提案する。 ラベル空間間の意味的関係に基づいて、シンクホーン距離を最小化することにより、出力分布間の支持ギャップを埋めることができる。 輸送コストは教師の適応性の測定にも役立ち、教師の関連度に応じて教師のランク付けを効率的に行うことができる。 各種条件下での実験では,提案手法の簡潔さと汎用性を示す。

Knowledge distillation (KD) has shown its effectiveness in improving a student classifier given a suitable teacher. The outpouring of diverse and plentiful pre-trained models may provide abundant teacher resources for KD. However, these models are often trained on different tasks from the student, which requires the student to precisely select the most contributive teacher and enable KD across different label spaces. These restrictions disclose the insufficiency of standard KD and motivate us to study a new paradigm called faculty distillation. Given a group of teachers (faculty), a student needs to select the most relevant teacher and perform generalized knowledge reuse. To this end, we propose to link teacher's task and student's task by optimal transport. Based on the semantic relationship between their label spaces, we can bridge the support gap between output distributions by minimizing Sinkhorn distances. The transportation cost also acts as a measurement of teachers' adaptability so that we can rank the teachers efficiently according to their relatedness. Experiments under various settings demonstrate the succinctness and versatility of our method.
翻訳日:2022-04-26 12:56:22 公開日:2022-04-25
# PVNAS:ポイントボクセル畳み込みによる3次元ニューラルネットワーク探索

PVNAS: 3D Neural Architecture Search with Point-Voxel Convolution ( http://arxiv.org/abs/2204.11797v1 )

ライセンス: Link先を確認
Zhijian Liu, Haotian Tang, Shengyu Zhao, Kevin Shao, Song Han(参考訳) 3Dニューラルネットワークは現実世界のアプリケーション(AR/VRヘッドセットや自動運転車など)で広く利用されている。 しかし、エッジデバイス上の限られたハードウェアリソースは、これらの要求をかなり困難にしている。 以前の作業では、ボクセルベースまたはポイントベースニューラルネットワークを使用して3Dデータを処理していたが、大きなメモリフットプリントとランダムメモリアクセスのため、どちらのタイプの3Dモデルもハードウェア効率が良くない。 本稿では,効率の観点から3次元深層学習について検討する。 まず,従来の3D手法のボトルネックを系統的に解析する。 次に,ポイントベースモデルとボクセルモデルを組み合わせて,新しいハードウェア効率の3DプリミティブであるPoint-Voxel Convolution(PVConv)を提案する。 我々はさらにこのプリミティブをスパース畳み込みで強化し、大きな(ドア外)シーンの処理をより効果的にします。 設計した3dプリミティブに基づき、3dニューラルネットワーク探索(3d-nas)を導入し、リソース制約を与えられた最適な3dネットワークアーキテクチャを探索する。 提案手法を6つの代表ベンチマークデータセットで評価し,1.8~23.7倍の高速化で最新性能を得た。 さらに、我々の手法はMIT Driverlessの自動運転車に展開され、より大きな検出範囲、高い精度、低レイテンシを実現している。

3D neural networks are widely used in real-world applications (e.g., AR/VR headsets, self-driving cars). They are required to be fast and accurate; however, limited hardware resources on edge devices make these requirements rather challenging. Previous work processes 3D data using either voxel-based or point-based neural networks, but both types of 3D models are not hardware-efficient due to the large memory footprint and random memory access. In this paper, we study 3D deep learning from the efficiency perspective. We first systematically analyze the bottlenecks of previous 3D methods. We then combine the best from point-based and voxel-based models together and propose a novel hardware-efficient 3D primitive, Point-Voxel Convolution (PVConv). We further enhance this primitive with the sparse convolution to make it more effective in processing large (outdoor) scenes. Based on our designed 3D primitive, we introduce 3D Neural Architecture Search (3D-NAS) to explore the best 3D network architecture given a resource constraint. We evaluate our proposed method on six representative benchmark datasets, achieving state-of-the-art performance with 1.8-23.7x measured speedup. Furthermore, our method has been deployed to the autonomous racing vehicle of MIT Driverless, achieving larger detection range, higher accuracy and lower latency.
翻訳日:2022-04-26 12:56:05 公開日:2022-04-25
# ゼロショットロジット調整

Zero-Shot Logit Adjustment ( http://arxiv.org/abs/2204.11822v1 )

ライセンス: Link先を確認
Dubing Chen, Yuming Shen, Haofeng Zhang, Philip H.S. Torr(参考訳) 意味記述に基づく汎用ゼロショット学習(GZSL)は、テストフェーズにおける新しいクラスを認識する上での課題である。 生成モデルの開発により、現在のGZSL技術は意味と視覚のリンクをさらに探究し、ジェネレータと分類器を含む2段階の形式を決定できる。 しかし、既存の世代ベースの手法は、分類器の改善を無視しながらジェネレータの効果を高めることに重点を置いている。 本稿では, 生成する疑似未発見試料の2つの性質, バイアスと均質性の解析を行う。 次に,評価指標をバック導出するために変分ベイズ推定を行い,見掛けたクラスと見当たらないクラスのバランスを反映する。 導出の結果,上記の2つの特性を,ロジット調整による見知らぬ事前学習として分類器訓練に取り入れた。 Zero-Shot Logit Adjustmentはさらに、セマンティックベースの分類器を世代ベースのGZSLで有効にしている。 実験により,提案手法が基本生成器と組み合わせることで,技術の現状が達成され,様々な生成型ゼロショット学習フレームワークが改善されることを示す。 我々のコードは \url{https://github.com/cdb342/IJCAI-2022-ZLA} で利用可能です。

Semantic-descriptor-based Generalized Zero-Shot Learning (GZSL) poses challenges in recognizing the novel classes in the test phase. The development of generative models enables current GZSL techniques to probe further into the semantic-visual link, culminating in a two-stage form that includes a generator and a classifier. However, existing generation-based methods focus on enhancing the generator's effect while neglecting the improvement of the classifier. In this paper, we first conduct an analysis of two properties of the generated pseudo unseen sample: bias and homogeneity. Then, we perform variational Bayesian inference to back-derive the evaluation metrics, which reflects the balance of the seen and unseen classes. As a consequence of our derivation, the aforementioned two properties are incorporated into the classifier training as seen-unseen priors via logit adjustment. The Zero-Shot Logit Adjustment further puts semantic-based classifiers into effect in generation-based GZSL. Our experiments demonstrate that the proposed technique achieves the state of the art when combined with the basic generator, and it can improve various generative zero-shot learning frameworks. Our codes are available on \url{https://github.com/cdb342/IJCAI-2022-ZLA}.
翻訳日:2022-04-26 12:55:42 公開日:2022-04-25
# StyleGAN-Human: 世代データ中心のオジッセイ

StyleGAN-Human: A Data-Centric Odyssey of Human Generation ( http://arxiv.org/abs/2204.11823v1 )

ライセンス: Link先を確認
Jianglin Fu, Shikai Li, Yuming Jiang, Kwan-Yee Lin, Chen Qian, Chen Change Loy, Wayne Wu, Ziwei Liu(参考訳) 無条件の人間の画像生成は、視覚とグラフィックにおいて重要なタスクであり、創造産業における様々な応用を可能にする。 この分野での既存の研究は主に、新しいコンポーネントや目的関数を設計する「ネットワークエンジニアリング」に焦点を当てている。 この作業は、データ中心の観点から、現在のプラクティスを補完するであろう“データエンジニアリング”における複数の重要な側面を調査します。 総合的な研究を容易にするため,大規模な人間の画像データセットを230万以上のサンプルで収集・注釈し,多様なポーズやテクスチャを抽出した。 この大規模なデータセットを具備し、StyleGANベースの人間生成のためのデータエンジニアリングにおいて、データサイズ、データ分散、データアライメントの3つの重要な要素を厳格に調査した。 大規模な実験により、これらの側面に関するいくつかの貴重な観測が明らかになった。 1)バニラスタイルGANを用いた高忠実性非条件生成モデルの訓練には,40K画像以上の大規模データが必要である。 2) バランスの取れたトレーニングセットは, 長い尾を持つものに比べ, 稀な顔のポーズで生成品質を向上させるのに有効である。 3) 顔中心や骨盤点をアライメントアンカーとして訓練し, 体中心をアライメントする人体モデル。 また、モデル動物園と人間編集の応用が示され、コミュニティにおける今後の研究が促進される。

Unconditional human image generation is an important task in vision and graphics, which enables various applications in the creative industry. Existing studies in this field mainly focus on "network engineering" such as designing new components and objective functions. This work takes a data-centric perspective and investigates multiple critical aspects in "data engineering", which we believe would complement the current practice. To facilitate a comprehensive study, we collect and annotate a large-scale human image dataset with over 230K samples capturing diverse poses and textures. Equipped with this large dataset, we rigorously investigate three essential factors in data engineering for StyleGAN-based human generation, namely data size, data distribution, and data alignment. Extensive experiments reveal several valuable observations w.r.t. these aspects: 1) Large-scale data, more than 40K images, are needed to train a high-fidelity unconditional human generation model with vanilla StyleGAN. 2) A balanced training set helps improve the generation quality with rare face poses compared to the long-tailed counterpart, whereas simply balancing the clothing texture distribution does not effectively bring an improvement. 3) Human GAN models with body centers for alignment outperform models trained using face centers or pelvis points as alignment anchors. In addition, a model zoo and human editing applications are demonstrated to facilitate future research in the community.
翻訳日:2022-04-26 12:55:25 公開日:2022-04-25
# (参考訳) 自然言語処理における性能測定のためのメトリクスのグローバル分析

A global analysis of metrics used for measuring performance in natural language processing ( http://arxiv.org/abs/2204.11574v1 )

ライセンス: CC BY 4.0
Kathrin Blagec and Georg Dorffner and Milad Moradi and Simon Ott and Matthias Samwald(参考訳) 自然言語処理モデルの性能測定は困難である。 伝統的に、機械翻訳や要約のために考案されたbleuやrougeといったメトリクスは、人間の判断との相関が低く、他のタスクや言語への転送性が欠如していることが示されている。 過去15年間、様々な代替指標が提案されてきた。 しかし、これがNLPベンチマークの取り組みにどの程度影響を与えたかは不明である。 ここでは,自然言語処理の性能測定に使用するメトリクスの大規模横断分析を初めて実施する。 オープンリポジトリ'papers with code'から3500以上の機械学習モデルのパフォーマンス結果をキュレートし、マッピングし、体系化し、グローバルかつ包括的な分析を可能にした。 この結果から,現在使用されている自然言語処理指標の大部分は,モデルの性能を不適切に反映する性質を持っていることが示唆された。 さらに,メトリクスの報告における曖昧さや矛盾は,モデル性能の解釈と比較に困難をもたらし,NLP研究における透明性や再現性を損なう可能性が示唆された。

Measuring the performance of natural language processing models is challenging. Traditionally used metrics, such as BLEU and ROUGE, originally devised for machine translation and summarization, have been shown to suffer from low correlation with human judgment and a lack of transferability to other tasks and languages. In the past 15 years, a wide range of alternative metrics have been proposed. However, it is unclear to what extent this has had an impact on NLP benchmarking efforts. Here we provide the first large-scale cross-sectional analysis of metrics used for measuring performance in natural language processing. We curated, mapped and systematized more than 3500 machine learning model performance results from the open repository 'Papers with Code' to enable a global and comprehensive analysis. Our results suggest that the large majority of natural language processing metrics currently used have properties that may result in an inadequate reflection of a models' performance. Furthermore, we found that ambiguities and inconsistencies in the reporting of metrics may lead to difficulties in interpreting and comparing model performances, impairing transparency and reproducibility in NLP research.
翻訳日:2022-04-26 12:54:16 公開日:2022-04-25
# 映像質問における複数モーダルアライメントの再考 : 特徴とサンプルの視点から

Rethinking Multi-Modal Alignment in Video Question Answering from Feature and Sample Perspectives ( http://arxiv.org/abs/2204.11544v1 )

ライセンス: Link先を確認
Shaoning Xiao, Long Chen, Kaifeng Gao, Zhao Wang, Yi Yang, and Jun Xiao(参考訳) ビデオにおける因果関係と時間的事象関係の推論は、ビデオ質問応答(videoqa)の新しい目的地である。 この目的を達成するための大きな障害は、異なる抽象化レベルにあるため、言語とビデオの間のセマンティックギャップである。 既存の取り組みは主に、フレームやオブジェクトレベルの視覚表現を利用して高度なアーキテクチャを設計することに焦点を当てている。 本稿では,ビデオQAにおけるマルチモーダルアライメント問題について,特徴およびサンプルの観点から再検討し,優れた性能を実現する。 機能の観点から、動画を軌道に分解し、まずvideoqaの軌道機能を活用して、2つのモード間のアライメントを強化します。 さらに、異種グラフアーキテクチャを採用し、トラジェクトリレベルとフレームレベルの視覚特徴を言語特徴と整合させる階層的なフレームワークを設計する。 さらに,ビデオQAモデルは言語先行に大きく依存しており,常に視覚-言語相互作用を無視していることがわかった。 そこで,2つの効果的かつポータブルなトレーニング強化戦略は,サンプルの観点からモデル間の対応性を高めるために設計されている。 その結果,提案手法の有効性を実証したNExT-QAベンチマークにおいて,提案手法がすべての最先端モデルを上回る結果が得られた。

Reasoning about causal and temporal event relations in videos is a new destination of Video Question Answering (VideoQA).The major stumbling block to achieve this purpose is the semantic gap between language and video since they are at different levels of abstraction. Existing efforts mainly focus on designing sophisticated architectures while utilizing frame- or object-level visual representations. In this paper, we reconsider the multi-modal alignment problem in VideoQA from feature and sample perspectives to achieve better performance. From the view of feature,we break down the video into trajectories and first leverage trajectory feature in VideoQA to enhance the alignment between two modalities. Moreover, we adopt a heterogeneous graph architecture and design a hierarchical framework to align both trajectory-level and frame-level visual feature with language feature. In addition, we found that VideoQA models are largely dependent on language priors and always neglect visual-language interactions. Thus, two effective yet portable training augmentation strategies are designed to strengthen the cross-modal correspondence ability of our model from the view of sample. Extensive results show that our method outperforms all the state-of-the-art models on the challenging NExT-QA benchmark, which demonstrates the effectiveness of the proposed method.
翻訳日:2022-04-26 12:40:05 公開日:2022-04-25
# ピックアップ・デリバリー問題に対する効率的なニューラルネットワークの探索

Efficient Neural Neighborhood Search for Pickup and Delivery Problems ( http://arxiv.org/abs/2204.11399v1 )

ライセンス: Link先を確認
Yining Ma, Jingwen Li, Zhiguang Cao, Wen Song, Hongliang Guo, Yuejiao Gong, Yeow Meng Chee(参考訳) ピックアップ・デリバリー問題 (PDP) に対するN2S(Neural Neighborhood Search) 手法を提案する。 具体的には,バニラセルフアテンションが経路解に関する様々な種類の特徴を合成できる強力な合成注意をデザインする。 また、プリエンス制約に対処するために、ピックアップ配信ノードペアの削除と再挿入を自動で学習する2つのカスタマイズデコーダを利用する。 さらに、多様性向上スキームを利用してパフォーマンスをさらに改善する。 我々のN2Sは汎用的であり、2つの正準PDP変種に対する広範な実験により、既存のニューラルメソッドで最先端の結果が得られることを示した。 さらに、よく知られたLKH3ソルバを、より制約のあるPDPの変種よりも上回る。 N2Sの実装はオンラインで利用可能です。

We present an efficient Neural Neighborhood Search (N2S) approach for pickup and delivery problems (PDPs). In specific, we design a powerful Synthesis Attention that allows the vanilla self-attention to synthesize various types of features regarding a route solution. We also exploit two customized decoders that automatically learn to perform removal and reinsertion of a pickup-delivery node pair to tackle the precedence constraint. Additionally, a diversity enhancement scheme is leveraged to further ameliorate the performance. Our N2S is generic, and extensive experiments on two canonical PDP variants show that it can produce state-of-the-art results among existing neural methods. Moreover, it even outstrips the well-known LKH3 solver on the more constrained PDP variant. Our implementation for N2S is available online.
翻訳日:2022-04-26 12:37:17 公開日:2022-04-25
# モデルベース強化学習法の適応性評価に向けて

Towards Evaluating Adaptivity of Model-Based Reinforcement Learning Methods ( http://arxiv.org/abs/2204.11464v1 )

ライセンス: Link先を確認
Yi Wan, Ali Rahimi-Kalahroudi, Janarthanan Rajendran, Ida Momennejad, Sarath Chandar, Harm van Seijen(参考訳) 近年,深層モデルに基づく強化学習(rl)手法が数多く導入されている。 深層モデルに基づくRLへの関心は、サンプル効率の向上や環境の変化への迅速な適応の可能性など、多くの潜在的な利点を考えれば驚きではない。 しかし,最近導入されたlocal change adapt (loca) の改良版を用いて,planetやdreamerv2といったモデルベース手法が,環境変化への対応能力に乏しいことを実証した。 他の一般的なモデルベース手法であるMuZeroについて同様の観察を行った以前の研究と合わせて、現在のディープモデルベース手法には深刻な制限があることが示唆されている。 我々は、適応的な振る舞いを損なう要素を特定し、深層モデルベースのRLで頻繁に使用される基礎技術にリンクすることで、このパフォーマンスの低下の原因を深く掘り下げる。 これらの知見を線形関数近似において実証的に検証し,線形dynaの修正版が局所的変化に効果的に適応することを示す。 さらに,dynaの非線形版を実験することにより,適応型非線形モデルに基づく手法構築の課題に関する詳細な知見を提供する。

In recent years, a growing number of deep model-based reinforcement learning (RL) methods have been introduced. The interest in deep model-based RL is not surprising, given its many potential benefits, such as higher sample efficiency and the potential for fast adaption to changes in the environment. However, we demonstrate, using an improved version of the recently introduced Local Change Adaptation (LoCA) setup, that well-known model-based methods such as PlaNet and DreamerV2 perform poorly in their ability to adapt to local environmental changes. Combined with prior work that made a similar observation about the other popular model-based method, MuZero, a trend appears to emerge, suggesting that current deep model-based methods have serious limitations. We dive deeper into the causes of this poor performance, by identifying elements that hurt adaptive behavior and linking these to underlying techniques frequently used in deep model-based RL. We empirically validate these insights in the case of linear function approximation by demonstrating that a modified version of linear Dyna achieves effective adaptation to local changes. Furthermore, we provide detailed insights into the challenges of building an adaptive nonlinear model-based method, by experimenting with a nonlinear version of Dyna.
翻訳日:2022-04-26 12:37:05 公開日:2022-04-25
# スキルに基づくメタ強化学習

Skill-based Meta-Reinforcement Learning ( http://arxiv.org/abs/2204.11828v1 )

ライセンス: Link先を確認
Taewook Nam, Shao-Hua Sun, Karl Pertsch, Sung Ju Hwang, Joseph J Lim(参考訳) 深層強化学習法は、ロボット学習において顕著な結果を示しているが、そのサンプルの非効率さは、実際のロボットシステムによる複雑な長い水平行動の学習を可能にする。 この問題を緩和するために,メタ強化学習法は,学習方法を学ぶことで,新しいタスクの学習を高速化することを目的としている。 しかし、このアプリケーションは、高い報酬を伴う短いホリゾンタスクに限定されている。 長時間ホリゾン動作の学習を可能にするために、最近の研究は、報酬やタスクアノテーションなしでオフラインデータセットの形での事前経験の活用を探求している。 これらのアプローチはサンプル効率を改善するが、複雑なタスクを解決するには環境との数百万の相互作用が必要である。 本研究では,長時間ホリゾン,スパースリワードタスクでメタラーニングを可能にする手法を考案し,環境インタラクションの桁違いな数で対象タスクの未解決を解決した。 私たちの中核となる考え方は、メタ学習中にオフラインデータセットから抽出された事前経験を活用することです。 具体的には,(1)オフラインデータセットに先立って再利用可能なスキルとスキルを抽出し,(2)学習スキルを長いホリゾン行動に効率的に構成することを学ぶ高レベルのポリシーをメタトレーニングし,(3)学習したポリシーを迅速に適用して目標課題を解決することを提案する。 ナビゲーションおよび操作における連続制御タスクの実験結果から,メタ学習の長所とオフラインデータセットの活用を併用することで,提案手法が長期的新規目標タスクを効果的に解決できること,RL,メタRL,マルチタスクRLの事前アプローチでは,タスクの解決に相当な環境相互作用が必要となることが示されている。

While deep reinforcement learning methods have shown impressive results in robot learning, their sample inefficiency makes the learning of complex, long-horizon behaviors with real robot systems infeasible. To mitigate this issue, meta-reinforcement learning methods aim to enable fast learning on novel tasks by learning how to learn. Yet, the application has been limited to short-horizon tasks with dense rewards. To enable learning long-horizon behaviors, recent works have explored leveraging prior experience in the form of offline datasets without reward or task annotations. While these approaches yield improved sample efficiency, millions of interactions with environments are still required to solve complex tasks. In this work, we devise a method that enables meta-learning on long-horizon, sparse-reward tasks, allowing us to solve unseen target tasks with orders of magnitude fewer environment interactions. Our core idea is to leverage prior experience extracted from offline datasets during meta-learning. Specifically, we propose to (1) extract reusable skills and a skill prior from offline datasets, (2) meta-train a high-level policy that learns to efficiently compose learned skills into long-horizon behaviors, and (3) rapidly adapt the meta-trained policy to solve an unseen target task. Experimental results on continuous control tasks in navigation and manipulation demonstrate that the proposed method can efficiently solve long-horizon novel target tasks by combining the strengths of meta-learning and the usage of offline datasets, while prior approaches in RL, meta-RL, and multi-task RL require substantially more environment interactions to solve the tasks.
翻訳日:2022-04-26 12:36:42 公開日:2022-04-25
# (参考訳) ロバストモデル構築のための簡単な構造

A Simple Structure For Building A Robust Model ( http://arxiv.org/abs/2204.11596v1 )

ライセンス: CC BY 4.0
Xiao Tan, JingBo Gao, Ruolin Li(参考訳) As deep learning applications, especially programs of computer vision, are increasingly deployed in our lives, we have to think more urgently about the security of these applications.One effective way to improve the security of deep learning models is to perform adversarial training, which allows the model to be compatible with samples that are deliberately created for use in attacking the model.Based on this, we propose a simple architecture to build a model with a certain degree of robustness, which improves the robustness of the trained network by adding an adversarial sample detection network for cooperative training.At the same time, we design a new data sampling strategy that incorporates multiple existing attacks, allowing the model to adapt to many different adversarial attacks with a single training.We conducted some experiments to test the effectiveness of this design based on Cifar10 dataset, and the results indicate that it has some degree of positive effect on the robustness of the model.Our code could be found at https://github.com/dowdyboy/simple_structure_for_robust_model.

As deep learning applications, especially programs of computer vision, are increasingly deployed in our lives, we have to think more urgently about the security of these applications.One effective way to improve the security of deep learning models is to perform adversarial training, which allows the model to be compatible with samples that are deliberately created for use in attacking the model.Based on this, we propose a simple architecture to build a model with a certain degree of robustness, which improves the robustness of the trained network by adding an adversarial sample detection network for cooperative training.At the same time, we design a new data sampling strategy that incorporates multiple existing attacks, allowing the model to adapt to many different adversarial attacks with a single training.We conducted some experiments to test the effectiveness of this design based on Cifar10 dataset, and the results indicate that it has some degree of positive effect on the robustness of the model.Our code could be found at https://github.com/dowdyboy/simple_structure_for_robust_model.
翻訳日:2022-04-26 12:35:04 公開日:2022-04-25
# 軌道予測のための目標駆動自己注意リカレントネットワーク

Goal-driven Self-Attentive Recurrent Networks for Trajectory Prediction ( http://arxiv.org/abs/2204.11561v1 )

ライセンス: Link先を確認
Luigi Filippo Chiara, Pasquale Coscia, Sourav Das, Simone Calderara, Rita Cucchiara, Lamberto Ballan(参考訳) 人間の軌道予測は、自動運転車、社会認識ロボット、高度なビデオ監視アプリケーションの主要な構成要素である。 この困難なタスクは通常、過去の動き、環境、そしておそらく目的地に関する知識を必要とする。 この文脈では、マルチモダリティは基本的な側面であり、その効果的なモデリングはどんなアーキテクチャにも有用である。 正確な軌跡を推測することは、本質的に不確定な未来性のため困難である。 これらの困難を克服するために、最近のモデルは異なる入力を使用し、複雑な融合機構を用いて人間の意図をモデル化することを提案する。 本稿では,過去の観測位置のみに作用する軽量な注意に基づくリカレントバックボーンを提案する。 このバックボーンは,すでに有望な結果を提供しているが,シーン認識目標推定モジュールと組み合わせることで,予測精度を大幅に向上できることを示す。 この目的のために,u-netアーキテクチャに基づいた共通の目標モジュールを用いて,シーンに適合する目的地を予測するための意味情報を抽出する。 我々は,公開データセット(SDD,inD,ETH/UCY)について広範な実験を行い,モデル複雑性を低減しつつ,最先端技術と同等に動作していることを示す。

Human trajectory forecasting is a key component of autonomous vehicles, social-aware robots and advanced video-surveillance applications. This challenging task typically requires knowledge about past motion, the environment and likely destination areas. In this context, multi-modality is a fundamental aspect and its effective modeling can be beneficial to any architecture. Inferring accurate trajectories is nevertheless challenging, due to the inherently uncertain nature of the future. To overcome these difficulties, recent models use different inputs and propose to model human intentions using complex fusion mechanisms. In this respect, we propose a lightweight attention-based recurrent backbone that acts solely on past observed positions. Although this backbone already provides promising results, we demonstrate that its prediction accuracy can be improved considerably when combined with a scene-aware goal-estimation module. To this end, we employ a common goal module, based on a U-Net architecture, which additionally extracts semantic information to predict scene-compliant destinations. We conduct extensive experiments on publicly-available datasets (i.e. SDD, inD, ETH/UCY) and show that our approach performs on par with state-of-the-art techniques while reducing model complexity.
翻訳日:2022-04-26 12:27:46 公開日:2022-04-25
# ユーザーは解釈可能な視覚から利益を得るか? ユーザスタディ,ベースライン,データセット

Do Users Benefit From Interpretable Vision? A User Study, Baseline, And Dataset ( http://arxiv.org/abs/2204.11642v1 )

ライセンス: Link先を確認
Leon Sixt, Martin Schuessler, Oana-Iuliana Popescu, Philipp Wei{\ss}, Tim Landgraf(参考訳) 画像分類モデルを説明する様々な方法が存在する。 しかし、単に様々な入力とモデルのそれぞれの予測を比較するよりも、ユーザにとってメリットがあるかどうかは不明だ。 そこで我々は,このようなベースライン説明手法が,概念ベースおよび反現実的説明に対してどのように作用するかを検証するために,ユーザスタディ(N=240)を行った。 この目的のために,個々の属性を偏り,モデルとの関連性を定量化できる合成データセット生成器を提案する。 そこで,本研究では,参加者が属性の集合を,基幹構造と比較できるかどうかを評価する。 その結果,ベースラインは概念に基づく説明よりも優れていた。 可逆ニューラルネットワークからの反事実的説明は、ベースラインと同様に実行される。 それでも、ユーザーは属性をより正確に特定できる。 この結果は,技術的評価やプロキシタスクにのみ依存するのではなく,モデルのバイアスをユーザがどの程度うまく判断できるかを評価することの重要性を強調した。 私たちは研究とデータセットをオープンソースにして、将来の研究の青写真として利用しています。 コード参照: https://github.com/berleon/do_users_benefit_from_interpretable_vision

A variety of methods exist to explain image classification models. However, whether they provide any benefit to users over simply comparing various inputs and the model's respective predictions remains unclear. We conducted a user study (N=240) to test how such a baseline explanation technique performs against concept-based and counterfactual explanations. To this end, we contribute a synthetic dataset generator capable of biasing individual attributes and quantifying their relevance to the model. In a study, we assess if participants can identify the relevant set of attributes compared to the ground-truth. Our results show that the baseline outperformed concept-based explanations. Counterfactual explanations from an invertible neural network performed similarly as the baseline. Still, they allowed users to identify some attributes more accurately. Our results highlight the importance of measuring how well users can reason about biases of a model, rather than solely relying on technical evaluations or proxy tasks. We open-source our study and dataset so it can serve as a blue-print for future studies. For code see, https://github.com/berleon/do_users_benefit_from_interpretable_vision
翻訳日:2022-04-26 12:27:27 公開日:2022-04-25
# マスク画像モデリングによる3次元医用画像解析

Masked Image Modeling Advances 3D Medical Image Analysis ( http://arxiv.org/abs/2204.11716v1 )

ライセンス: Link先を確認
Zekai Chen, Devansh Agarwal, Kshitij Aggarwal, Wiem Safta, Mariann Micsinai Balan, Venkat Sethuraman, Kevin Brown(参考訳) 近年,マスク付き画像モデリング (MIM) は,大量のラベルのないデータから学習できることから注目され,自然画像を含む様々な視覚タスクに有効であることが証明されている。 一方,3次元医用画像のモデル化における自己教師あり学習の可能性は,ラベルなし画像の量が多いこと,品質ラベルの費用と難易度が高まることから期待されている。 しかし, 医用画像へのMIMの適用性は未だ不明である。 本稿では,マスキング画像モデリング手法が,自然画像に加えて3次元医用画像解析にも応用できることを実証する。 3次元医用画像セグメンテーションを下流の代表的な課題として捉えたマスキング画像モデリング手法の有効性について検討する。 一 ナイーブコントラスト学習と比べ、仮面画像モデリングアプローチにより、監督訓練の収束をさらに早く(1.40$\times$)し、最終的により高いダイススコアを得られること。 二 マスキング比が高く、パッチサイズが比較的小さい原ボクセル値の予測は、医用画像モデリングのための自監視プリテキストタスクである。 三 軽量な復元用デコーダ又はプロジェクションヘッドの設計は、訓練の迅速化及びコスト削減を図る3次元医用画像のマスク画像モデリングにおいて強力である。 iv) 最後に, 異なる画像解像度とラベル付きデータ比を適用した場合のMIM手法の有効性について検討する。

Recently, masked image modeling (MIM) has gained considerable attention due to its capacity to learn from vast amounts of unlabeled data and has been demonstrated to be effective on a wide variety of vision tasks involving natural images. Meanwhile, the potential of self-supervised learning in modeling 3D medical images is anticipated to be immense due to the high quantities of unlabeled images, and the expense and difficulty of quality labels. However, MIM's applicability to medical images remains uncertain. In this paper, we demonstrate that masked image modeling approaches can also advance 3D medical images analysis in addition to natural images. We study how masked image modeling strategies leverage performance from the viewpoints of 3D medical image segmentation as a representative downstream task: i) when compared to naive contrastive learning, masked image modeling approaches accelerate the convergence of supervised training even faster (1.40$\times$) and ultimately produce a higher dice score; ii) predicting raw voxel values with a high masking ratio and a relatively smaller patch size is non-trivial self-supervised pretext-task for medical images modeling; iii) a lightweight decoder or projection head design for reconstruction is powerful for masked image modeling on 3D medical images which speeds up training and reduce cost; iv) finally, we also investigate the effectiveness of MIM methods under different practical scenarios where different image resolutions and labeled data ratios are applied.
翻訳日:2022-04-26 12:27:10 公開日:2022-04-25
# メタ重み付けによる名前付きエンティティ認識のための自己拡張

Self-Augmentation for Named Entity Recognition with Meta Reweighting ( http://arxiv.org/abs/2204.11406v1 )

ライセンス: Link先を確認
Linzhi Wu, Pengjun Xie, Jie Zhou, Meishan Zhang, Chunping Ma, Guangwei Xu, Min Zhang(参考訳) 最近、低リソースシナリオにおける名前付きエンティティ認識(ner)のパフォーマンスを改善するための研究への関心が高まっている。 トーケン置換とミキサップは、特定の専門的な取り組みで効果的な性能を達成することができるNERのための2つの実現可能なヘテロジニアス自己増強技術である。 明らかなことに、自己示唆は潜在的に騒がしい拡張データをもたらす可能性がある。 これまでの研究は主に、特定の自己拡張のノイズを個別に減らすためのヒューリスティックな規則に基づく制約に頼ってきた。 本稿では,NERの2つの自己拡張手法を再検討し,これらの不均一な手法の統一的メタリフレッシング戦略を提案し,自然統合を実現する。 本手法は容易に拡張可能であり,特定の自己提示法にほとんど努力を要さない。 異なる中国語と英語のNERベンチマーク実験により、トークン置換法とミキサップ法とそれらの統合法が効果的な性能向上をもたらすことを示した。 メタリウェイト機構に基づき、余分な努力を伴わずに自己増強技術の利点を高めることができる。

Self-augmentation has been received increasing research interest recently to improve named entity recognition (NER) performance in low-resource scenarios. Token substitution and mixup are two feasible heterogeneous self-augmentation techniques for NER that can achieve effective performance with certain specialized efforts. Noticeably, self-augmentation may introduce potentially noisy augmented data. Prior research has mainly resorted to heuristic rule based constraints to reduce the noise for specific self-augmentation individually. In this paper, we revisit the two self-augmentation methods for NER, and propose a unified meta-reweighting strategy for these heterogeneous methods to achieve a natural integration. Our method is easily extensible, imposing little effort on a specific self-augmentation method. Experiments on different Chinese and English NER benchmarks demonstrate that our token substitution and mixup method, as well as their integration, can obtain effective performance improvement. Based on the meta-reweighting mechanism, we can enhance the advantages of the self-augmentation techniques without extra efforts.
翻訳日:2022-04-26 12:26:28 公開日:2022-04-25
# 「話す前に考える」:シングルアクションダイアログの計画によるマルチアクションダイアログポリシーの改善

"Think Before You Speak": Improving Multi-Action Dialog Policy by Planning Single-Action Dialogs ( http://arxiv.org/abs/2204.11481v1 )

ライセンス: Link先を確認
Shuo Zhang, Junzhou Zhao, Pinghui Wang, Yu Li, Yi Huang, Junlan Feng(参考訳) マルチアクションダイアログポリシー(MADP)は,タスク指向のダイアログシステムにおいて,表現的かつ効率的なシステム応答を提供するために広く適用されてきた。 既存のMADPモデルは通常、ラベル付きマルチアクションダイアログのサンプルからアクションの組み合わせを模倣する。 データ制限のため、見当たらないダイアログフローに対してあまり一般化しない。 インタラクティブな学習と強化学習アルゴリズムは、実際のユーザとユーザシミュレータの外部データソースを組み込むために応用できるが、それらは不安定な構築と苦しむために、かなりの手作業を必要とする。 これらの課題に対処するため,多行動予測を強化するために単一動作ダイアログダイナミクスを学習する新しいマルチタスク学習フレームワークであるPlanning Enhanced Dialog Policy (PEDP)を提案する。 PEDP法では,単一動作ダイアログをシミュレーションすることで,現在の応答を決定する前に何を表現すべきかをモデルベースで決定する。 マルチウォズデータセットにおける実験結果から,完全教師付き学習ベース手法はタスク成功率90.6%に達し,最先端手法と比較して3%向上した。

Multi-action dialog policy (MADP), which generates multiple atomic dialog actions per turn, has been widely applied in task-oriented dialog systems to provide expressive and efficient system responses. Existing MADP models usually imitate action combinations from the labeled multi-action dialog samples. Due to data limitations, they generalize poorly toward unseen dialog flows. While interactive learning and reinforcement learning algorithms can be applied to incorporate external data sources of real users and user simulators, they take significant manual effort to build and suffer from instability. To address these issues, we propose Planning Enhanced Dialog Policy (PEDP), a novel multi-task learning framework that learns single-action dialog dynamics to enhance multi-action prediction. Our PEDP method employs model-based planning for conceiving what to express before deciding the current response through simulating single-action dialogs. Experimental results on the MultiWOZ dataset demonstrate that our fully supervised learning-based method achieves a solid task success rate of 90.6%, improving 3% compared to the state-of-the-art methods.
翻訳日:2022-04-26 12:26:12 公開日:2022-04-25
# 分子と自然言語間の翻訳

Translation between Molecules and Natural Language ( http://arxiv.org/abs/2204.11817v1 )

ライセンス: Link先を確認
Carl Edwards, Tuan Lai, Kevin Ros, Garrett Honke, Heng Ji(参考訳) 画像とテキストの結合表現は文献で深く研究されている。 コンピュータビジョンでは、画像のセマンティックレベル制御を可能にするために自然言語を組み込むことの利点が明確になっている。 本稿では,大量のラベルなし自然言語テキストと分子文字列を事前学習するための自己教師付き学習フレームワークである,$\textbf{molt5}-$aを提案する。 $\textbf{MolT5}$は、分子キャプションやテキストベースのdenovo分子生成(分子と言語間の翻訳)といった従来の視覚言語タスクの新しい、有用な、挑戦的なアナログを可能にします。 さらに、$\textbf{MolT5}$はシングルモーダルデータの事前トレーニングモデルであるため、データ不足の化学領域の欠点を克服するのに役立ちます。 さらに,分子キャプションやテキストベースの分子生成のタスクを評価するために,新たなクロスモーダル埋め込みベースメトリクスなど,いくつかの指標を検討する。 分子と自然言語を相互作用させることにより、分子の発見と理解をより高い意味レベルで制御することができる。 その結果、$\textbf{molt5}$ベースのモデルは分子とテキストの両方の出力を生成でき、それは多くの場合、高品質で入力のモダリティに合致する。 分子生成において, 最適モデルでは, 30%の精度で一致試験を行う(つまり, 保持試験セットの約3分の1のキャプションに対して正しい構造を生成する)。

Joint representations between images and text have been deeply investigated in the literature. In computer vision, the benefits of incorporating natural language have become clear for enabling semantic-level control of images. In this work, we present $\textbf{MolT5}-$a self-supervised learning framework for pretraining models on a vast amount of unlabeled natural language text and molecule strings. $\textbf{MolT5}$ allows for new, useful, and challenging analogs of traditional vision-language tasks, such as molecule captioning and text-based de novo molecule generation (altogether: translation between molecules and language), which we explore for the first time. Furthermore, since $\textbf{MolT5}$ pretrains models on single-modal data, it helps overcome the chemistry domain shortcoming of data scarcity. Additionally, we consider several metrics, including a new cross-modal embedding-based metric, to evaluate the tasks of molecule captioning and text-based molecule generation. By interfacing molecules with natural language, we enable a higher semantic level of control over molecule discovery and understanding--a critical task for scientific domains such as drug discovery and material design. Our results show that $\textbf{MolT5}$-based models are able to generate outputs, both molecule and text, which in many cases are high quality and match the input modality. On molecule generation, our best model achieves 30% exact matching test accuracy (i.e., it generates the correct structure for about one-third of the captions in our held-out test set).
翻訳日:2022-04-26 12:25:52 公開日:2022-04-25
# (参考訳) ポストホック説明における事前知識の統合

Integrating Prior Knowledge in Post-hoc Explanations ( http://arxiv.org/abs/2204.11634v1 )

ライセンス: CC BY 4.0
Adulam Jeyasothy and Thibault Laugel and Marie-Jeanne Lesot and Christophe Marsala and Marcin Detyniecki(参考訳) eXplainable Artificial Intelligence (XAI) の分野では、ポストホック解釈法は、訓練された決定モデルの予測をユーザーに説明することを目的としている。 このような解釈可能性手法への事前知識の統合は、説明の理解性の向上と、各ユーザに適応したパーソナライズされた説明を可能にすることを目的としている。 本稿では,先行知識を解釈可能性目標に明示的に統合するコスト関数を定義することを提案する。我々は,ポストホック解釈可能性法の最適化問題に対する一般的な枠組みを提案し,ユーザ知識をコスト関数に互換性項を追加することで任意の手法に統合できることを示す。 提案手法は,反事実説明の場合の形式化をインスタンス化し,その最適化のために知識統合(kice)と呼ばれる新しい解釈可能性手法を提案する。 本論文は,KICE が生成する実例を基準法と比較した,いくつかのベンチマークデータセットの実験的検討を行った。

In the field of eXplainable Artificial Intelligence (XAI), post-hoc interpretability methods aim at explaining to a user the predictions of a trained decision model. Integrating prior knowledge into such interpretability methods aims at improving the explanation understandability and allowing for personalised explanations adapted to each user. In this paper, we propose to define a cost function that explicitly integrates prior knowledge into the interpretability objectives: we present a general framework for the optimization problem of post-hoc interpretability methods, and show that user knowledge can thus be integrated to any method by adding a compatibility term in the cost function. We instantiate the proposed formalization in the case of counterfactual explanations and propose a new interpretability method called Knowledge Integration in Counterfactual Explanation (KICE) to optimize it. The paper performs an experimental study on several benchmark data sets to characterize the counterfactual instances generated by KICE, as compared to reference methods.
翻訳日:2022-04-26 12:24:10 公開日:2022-04-25
# 単語メタ埋め込み学習に関する調査

A Survey on Word Meta-Embedding Learning ( http://arxiv.org/abs/2204.11660v1 )

ライセンス: Link先を確認
Danushka Bollegala and James O'Neill(参考訳) メタ埋め込み(ME)学習は、既存の(ソース)単語の埋め込みを唯一の入力として与えられたより正確な単語埋め込みを学習しようとする新しいアプローチである。 複数のソース埋め込みのセマンティクスを、優れたパフォーマンスでコンパクトに組み込むことができるため、ME学習はNLPの実践者の間で人気を博している。 私たちの知る限りでは、ME学習に関する事前の体系的な調査は存在せず、本論文はこのニーズを満たそうとしている。 我々は,ME学習手法を複数の要因により分類する。 a) 静的または文脈化された埋め込みを操作する。 (b)教師なしの訓練又は (c)特定のタスク/ドメインを微調整する。 さらに,既存のme学習手法の限界を議論し,今後の研究の方向性を強調する。

Meta-embedding (ME) learning is an emerging approach that attempts to learn more accurate word embeddings given existing (source) word embeddings as the sole input. Due to their ability to incorporate semantics from multiple source embeddings in a compact manner with superior performance, ME learning has gained popularity among practitioners in NLP. To the best of our knowledge, there exist no prior systematic survey on ME learning and this paper attempts to fill this need. We classify ME learning methods according to multiple factors such as whether they (a) operate on static or contextualised embeddings, (b) trained in an unsupervised manner or (c) fine-tuned for a particular task/domain. Moreover, we discuss the limitations of existing ME learning methods and highlight potential future research directions.
翻訳日:2022-04-26 12:11:55 公開日:2022-04-25
# モバイルデバイスの深層学習を可能にする:方法,システム,アプリケーション

Enable Deep Learning on Mobile Devices: Methods, Systems, and Applications ( http://arxiv.org/abs/2204.11786v1 )

ライセンス: Link先を確認
Han Cai, Ji Lin, Yujun Lin, Zhijian Liu, Haotian Tang, Hanrui Wang, Ligeng Zhu, Song Han(参考訳) ディープニューラルネットワーク(DNN)は、コンピュータビジョン、自然言語処理、音声認識を含む人工知能(AI)分野において前例のない成功を収めている。 しかし、その優れた性能は計算複雑性のかなりのコストがかかるため、携帯電話やiot(internet of things, モノのインターネット)デバイスなど、多くのリソースに制約されたデバイスでの利用を妨げている。 したがって、多数のエッジAIアプリケーションを実現するために、DNNの高精度を保ちながら効率のボトルネックを解消できる手法や技術が要求される。 本稿では,効率的なディープラーニング手法,システム,アプリケーションの概要を紹介する。 我々は、プルーニング、分解、量子化、コンパクトモデル設計など、一般的なモデル圧縮手法の導入から始める。 これらの手動ソリューションの設計コストを大幅に削減するために、ニューラルアーキテクチャサーチ(NAS)や自動プルーニングや量子化など、それぞれのためのAutoMLフレームワークについて論じる。 次に,モバイルデバイス上でのローカルデータに基づくユーザカスタマイズを可能にするための,効率的なオンデバイストレーニングについて紹介する。 一般的な加速度技術とは別に,空間的スパース性と時間的/時間的冗長性を生かして,ポイントクラウド,ビデオ,自然言語処理のためのタスク固有加速度をいくつか紹介する。 最後に、これらのアルゴリズムの進歩をサポートするために、ソフトウェアとハードウェアの両方の観点から効率的なディープラーニングシステム設計を導入する。

Deep neural networks (DNNs) have achieved unprecedented success in the field of artificial intelligence (AI), including computer vision, natural language processing and speech recognition. However, their superior performance comes at the considerable cost of computational complexity, which greatly hinders their applications in many resource-constrained devices, such as mobile phones and Internet of Things (IoT) devices. Therefore, methods and techniques that are able to lift the efficiency bottleneck while preserving the high accuracy of DNNs are in great demand in order to enable numerous edge AI applications. This paper provides an overview of efficient deep learning methods, systems and applications. We start from introducing popular model compression methods, including pruning, factorization, quantization as well as compact model design. To reduce the large design cost of these manual solutions, we discuss the AutoML framework for each of them, such as neural architecture search (NAS) and automated pruning and quantization. We then cover efficient on-device training to enable user customization based on the local data on mobile devices. Apart from general acceleration techniques, we also showcase several task-specific accelerations for point cloud, video and natural language processing by exploiting their spatial sparsity and temporal/token redundancy. Finally, to support all these algorithmic advancements, we introduce the efficient deep learning system design from both software and hardware perspectives.
翻訳日:2022-04-26 12:10:49 公開日:2022-04-25
# 作業記憶による変換表現を用いた階層的ビデオ分解

Working memory inspired hierarchical video decomposition with transformative representations ( http://arxiv.org/abs/2204.10105v2 )

ライセンス: Link先を確認
Binjie Qin, Haohao Mao, Ruipeng Zhang, Yueqi Zhu, Song Ding, Xu Chen(参考訳) ビデオ分解は、コンピュータビジョン、機械学習、医用画像の複雑な背景から、例えばx線冠動脈造影(xca)の複雑でノイズの多い背景から、移動コントラストで満たされた血管を抽出するために非常に重要である。 しかし、動的背景、重なり合う異種環境、複雑なノイズによって生じる課題は、ビデオ分解にも存在する。 これらの問題を解決するために,視覚・認知神経科学の観点から感覚層と制御層間の変換表現を統合し,解釈可能かつ高性能な階層的深層構造を提供するために,ビデオ分解タスクにフレキシブルな視覚ワーキングメモリモデルを導入する。 具体的には、構造規則化センサ層として機能するロバストPCAアンローリングネットワークは、XCAをスパース/ローランク構造表現に分解し、ノイズと複雑な背景から移動コントラスト満載の容器を分離する。 その後、バックプロジェクションモジュールによるパッチ繰り返し畳み込みLSTMネットワークは、作業記憶における制御層の非構造的ランダム表現を具現化し、時空間的に分解された非局所パッチを、異種血管の検索と干渉抑制のために直交部分空間に繰り返し投影する。 このビデオ分解深層構造は、複雑な背景干渉に対する移動物体の不均一な強度プロファイルとジオメトリを効果的に復元する。 提案手法は, 高精度な移動コントラスト充填容器抽出において, 高い柔軟性と計算効率で, 最先端の手法を著しく上回ることを示す。

Video decomposition is very important to extract moving foreground objects from complex backgrounds in computer vision, machine learning, and medical imaging, e.g., extracting moving contrast-filled vessels from the complex and noisy backgrounds of X-ray coronary angiography (XCA). However, the challenges caused by dynamic backgrounds, overlapping heterogeneous environments and complex noises still exist in video decomposition. To solve these problems, this study is the first to introduce a flexible visual working memory model in video decomposition tasks to provide interpretable and high-performance hierarchical deep architecture, integrating the transformative representations between sensory and control layers from the perspective of visual and cognitive neuroscience. Specifically, robust PCA unrolling networks acting as a structure-regularized sensor layer decompose XCA into sparse/low-rank structured representations to separate moving contrast-filled vessels from noisy and complex backgrounds. Then, patch recurrent convolutional LSTM networks with a backprojection module embody unstructured random representations of the control layer in working memory, recurrently projecting spatiotemporally decomposed nonlocal patches into orthogonal subspaces for heterogeneous vessel retrieval and interference suppression. This video decomposition deep architecture effectively restores the heterogeneous profiles of intensity and the geometries of moving objects against the complex background interferences. Experiments show that the proposed method significantly outperforms state-of-the-art methods in accurate moving contrast-filled vessel extraction with excellent flexibility and computational efficiency.
翻訳日:2022-04-26 10:34:04 公開日:2022-04-25
# EmbedTrack -- オフセット学習とクラスタリングバンド幅によるセル分割と追跡の同時実行

EmbedTrack -- Simultaneous Cell Segmentation and Tracking Through Learning Offsets and Clustering Bandwidths ( http://arxiv.org/abs/2204.10713v2 )

ライセンス: Link先を確認
Katharina L\"offler and Ralf Mikut(参考訳) 細胞挙動を体系的に解析するには、細胞分割と追跡のための自動アプローチが必要である。 深層学習は細胞セグメンテーションのタスクにうまく応用されているが、深層学習を用いた細胞セグメンテーションと追跡を同時に行うアプローチは少ない。 本稿では,埋め込みの解釈が容易なセルセグメンテーションと追跡を同時に行う,単一の畳み込みニューラルネットワークであるembedtrackを提案する。 埋め込みとして、セルピクセルのセル中心へのオフセットと帯域幅が学習される。 我々は,Cell Tracking Challengeの9つの2Dデータセットにアプローチをベンチマークし,トップ3内の9つのデータセットのうち7つは,トップ1のパフォーマンスを含む7つのデータに対して実施する。 ソースコードはhttps://git.scc.kit.edu/kit-loe-ge/embedtrackで公開されている。

A systematic analysis of the cell behavior requires automated approaches for cell segmentation and tracking. While deep learning has been successfully applied for the task of cell segmentation, there are few approaches for simultaneous cell segmentation and tracking using deep learning. Here, we present EmbedTrack, a single convolutional neural network for simultaneous cell segmentation and tracking which predicts easy to interpret embeddings. As embeddings, offsets of cell pixels to their cell center and bandwidths are learned. We benchmark our approach on nine 2D data sets from the Cell Tracking Challenge, where our approach performs on seven out of nine data sets within the top 3 contestants including three top 1 performances. The source code is publicly available at https://git.scc.kit.edu/kit-loe-ge/embedtrack.
翻訳日:2022-04-26 10:33:35 公開日:2022-04-25
# ALQAC 2021コンペティションの概要

A Summary of the ALQAC 2021 Competition ( http://arxiv.org/abs/2204.10717v2 )

ライセンス: Link先を確認
Nguyen Ha Thanh, Bui Minh Quan, Chau Nguyen, Tung Le, Nguyen Minh Phuong, Dang Tran Binh, Vuong Thi Hai Yen, Teeradaj Racharak, Nguyen Le Minh, Tran Duc Vu, Phan Viet Anh, Nguyen Truong Son, Huy Tien Nguyen, Bhumindr Butr-indr, Peerapon Vateekul, Prachya Boonkwan(参考訳) 第1回自動法的質問回答コンテスト(ALQAC 2021)の評価を要約する。 今年のコンペティションには3つのタスクが含まれており、その中には法定テキスト情報検索(タスク1)、法定テキスト包含予測(タスク2)、法定テキスト質問応答(タスク3)が含まれる。 これらのタスクの最終目標は、特定の声明が合法であるかどうかを自動的に判断できるシステムを構築することである。 参加するチームのアプローチには制限はありません。 今年は,タスク1,6のチームがタスク2に参加し,5チームがタスク3に参加している。 総計36回が主催者に提出されている。 本稿では,各チームのアプローチ,公式な結果,競争に関する議論について要約する。 この論文では、アプローチ記述の提出に成功したチームの結果のみを報告します。

We summarize the evaluation of the first Automated Legal Question Answering Competition (ALQAC 2021). The competition this year contains three tasks, which aims at processing the statute law document, which are Legal Text Information Retrieval (Task 1), Legal Text Entailment Prediction (Task 2), and Legal Text Question Answering (Task 3). The final goal of these tasks is to build a system that can automatically determine whether a particular statement is lawful. There is no limit to the approaches of the participating teams. This year, there are 5 teams participating in Task 1, 6 teams participating in Task 2, and 5 teams participating in Task 3. There are in total 36 runs submitted to the organizer. In this paper, we summarize each team's approaches, official results, and some discussion about the competition. Only results of the teams who successfully submit their approach description paper are reported in this paper.
翻訳日:2022-04-26 10:33:22 公開日:2022-04-25
# 強化学習に対する報酬報告

Reward Reports for Reinforcement Learning ( http://arxiv.org/abs/2204.10817v2 )

ライセンス: Link先を確認
Thomas Krendl Gilbert, Sarah Dean, Nathan Lambert, Tom Zick and Aaron Snoswell(参考訳) 複雑な社会的影響に直面して優れたシステムを構築するためには、株式とアクセスに対する動的なアプローチが必要である。 機械学習(ML)ドキュメンテーションへの最近のアプローチは、これらの複雑さについて検討するための分散フレームワークの可能性を実証している。 しかしながら、これらの開発は静的MLパラダイムに基づいており、フィードバックやデプロイ後のパフォーマンスの役割は未検討のままである。 一方, 強化学習設計における最近の研究により, 最適化目標がシステム動作に与える影響は広範囲に及び予測不可能であることが示されている。 本稿では,Reward Reportsと呼ぶ,デプロイされた学習システムの文書化のためのフレームワークをスケッチする。 強化学習に関する技術文献への様々な貢献から着想を得て、リワードレポートを、特定の自動化システムが最適化しているものの背後にある設計選択や仮定の更新を追跡する、生きたドキュメントとして概説する。 それらは単にモデルやデータの静的な特性ではなく、システムデプロイメントから生じる動的現象を追跡することを目的としている。 Reward Reportの要素を提示した後、DeepMindのMuZero、MovieLens、Project Flowトラフィック制御ポリシーの仮説的な展開の3つの例を挙げる。

The desire to build good systems in the face of complex societal effects requires a dynamic approach towards equity and access. Recent approaches to machine learning (ML) documentation have demonstrated the promise of discursive frameworks for deliberation about these complexities. However, these developments have been grounded in a static ML paradigm, leaving the role of feedback and post-deployment performance unexamined. Meanwhile, recent work in reinforcement learning design has shown that the effects of optimization objectives on the resultant system behavior can be wide-ranging and unpredictable. In this paper we sketch a framework for documenting deployed learning systems, which we call Reward Reports. Taking inspiration from various contributions to the technical literature on reinforcement learning, we outline Reward Reports as living documents that track updates to design choices and assumptions behind what a particular automated system is optimizing for. They are intended to track dynamic phenomena arising from system deployment, rather than merely static properties of models or data. After presenting the elements of a Reward Report, we provide three examples: DeepMind's MuZero, MovieLens, and a hypothetical deployment of a Project Flow traffic control policy.
翻訳日:2022-04-26 10:32:21 公開日:2022-04-25