このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220622となっている論文です。

PDF登録状況(公開日: 20220622)

TitleAuthorsAbstract論文公表日・翻訳日
# R'enyiエントロピー、符号付き確率、およびQubit

R\'enyi Entropy, Signed Probabilities, and the Qubit ( http://arxiv.org/abs/2010.02111v2 )

ライセンス: Link先を確認
Adam Brandenburger, Pierfrancesco La Mura, Stuart Zoble(参考訳) 量子情報の基本的な単位である量子ビットの状態は、2 \times 2$ positive semi-definite hermitian matrices with trace 1 である。 我々は8点位相空間上に定式化されたエントロピーの不確実性原理を用いて量子力学の公理化プログラムに寄与する。 我々は、量子状態を表すために生じる符号付き位相空間確率分布に対して R'enyi entropy (シャノンエントロピーの一般化) を適切に定義することによりこれを実現できる。

The states of the qubit, the basic unit of quantum information, are $2 \times 2$ positive semi-definite Hermitian matrices with trace 1. We contribute to the program to axiomatize quantum mechanics by characterizing these states in terms of an entropic uncertainty principle formulated on an eight-point phase space. We do this by employing R\'enyi entropy (a generalization of Shannon entropy) suitably defined for the signed phase-space probability distributions that arise in representing quantum states.
翻訳日:2023-04-29 22:37:11 公開日:2022-06-22
# 量子振幅推定のための低深さアルゴリズム

Low depth algorithms for quantum amplitude estimation ( http://arxiv.org/abs/2012.03348v2 )

ライセンス: Link先を確認
Tudor Giurgica-Tiron, Iordanis Kerenidis, Farrokh Labib, Anupam Prakash and William Zeng(参考訳) 量子速度アップと回路深度の最適トレードオフを実現する2つの新しい振幅推定アルゴリズム(ae)の設計と解析を行った。 n= \tilde{o}( \frac{1}{ \epsilon^{1+\beta}})$ oracle の呼び出しとoracle のシーケンシャルな $d= o( \frac{1}{ \epsilon^{1-\beta}})$ による加算誤差 $\epsilon$ での振幅推定。 これらのアルゴリズムは、古典的アルゴリズム$(\beta=1)$と標準量子アルゴリズム$(\beta=0$)の間を補間し、$nd= o(1/\epsilon^{2})$を得る。 これらのアルゴリズムは、より浅い回路でスピードアップを提供できるため、モンテカルロ法の量子スピードアップを実現に近づける。 最初のアルゴリズム(Power Law AE)は、Suzuki et al \cite{S20} によって導入されたフレームワークで電力法スケジュールを使用する。 このアルゴリズムは$\beta \in (0,1]$で動作し、ベルンシュタイン・フォン・ミセスの定理に必要な正規性条件を満たすと証明可能な正確性を保証する。 第2のアルゴリズム(QoPrime AE)は、中国の剰余定理を用いて、より高精度な深度推定を行う。 このアルゴリズムは離散$\beta =q/k$に対して作用し、$k \geq 2$はアルゴリズムが使用する異なるコリメモジュラーの数であり、$1 \leq q \leq k-1$であり、完全に厳密な正当性証明を持つ。 両アルゴリズムを非偏極雑音の存在下で解析し,アート振幅推定アルゴリズムの状態との比較を行った。

We design and analyze two new low depth algorithms for amplitude estimation (AE) achieving an optimal tradeoff between the quantum speedup and circuit depth. For $\beta \in (0,1]$, our algorithms require $N= \tilde{O}( \frac{1}{ \epsilon^{1+\beta}})$ oracle calls and require the oracle to be called sequentially $D= O( \frac{1}{ \epsilon^{1-\beta}})$ times to perform amplitude estimation within additive error $\epsilon$. These algorithms interpolate between the classical algorithm $(\beta=1)$ and the standard quantum algorithm ($\beta=0$) and achieve a tradeoff $ND= O(1/\epsilon^{2})$. These algorithms bring quantum speedups for Monte Carlo methods closer to realization, as they can provide speedups with shallower circuits. The first algorithm (Power law AE) uses power law schedules in the framework introduced by Suzuki et al \cite{S20}. The algorithm works for $\beta \in (0,1]$ and has provable correctness guarantees when the log-likelihood function satisfies regularity conditions required for the Bernstein Von-Mises theorem. The second algorithm (QoPrime AE) uses the Chinese remainder theorem for combining lower depth estimates to achieve higher accuracy. The algorithm works for discrete $\beta =q/k$ where $k \geq 2$ is the number of distinct coprime moduli used by the algorithm and $1 \leq q \leq k-1$, and has a fully rigorous correctness proof. We analyze both algorithms in the presence of depolarizing noise and provide numerical comparisons with the state of the art amplitude estimation algorithms.
翻訳日:2023-04-21 22:58:59 公開日:2022-06-22
# データ包絡解析による人身売買の同定効果の推定

Estimating Effectiveness of Identifying Human Trafficking via Data Envelopment Analysis ( http://arxiv.org/abs/2012.07746v5 )

ライセンス: Link先を確認
Geri L. Dimas, Malak El Khalkhali, Alex Bender, Kayse Lee Maass, Renata Konrad, Jeffrey S. Blom, Joe Zhu, Andrew C. Trapp(参考訳) 交通監視 (transit monitoring) は、個人が移動中や国境を越える前に人身売買の可能性がある場合を特定するために用いられる予防的アプローチである。 交通監視は、不審な活動を特定し、傍受するようにスタッフを訓練する非政府組織(NGO)によって行われることが多い。 ラヴ・ジャスティス・インターナショナル (Love Justice International, LJI) はネパール・インド国境沿いの複数の監視所で長年にわたり交通監視を行っているNGOである。 そこで我々は,ljiと連携して,ljiの意思決定者を対象としたデータ包絡分析(dea)を用いて,人身売買被害者の資源量(スタッフ等)を遮断し,具体的な運用改善を推奨するシステムを開発した。 本モデルは,3つの入力,4つの出力,3つの均一性基準を考慮した7つの局から91個の意思決定ユニット(DMU)から構成される。 このモデルを用いて、効率的な駅を特定し、駅性能の比較を行い、効率を向上させるための戦略を推奨した。 我々の知る限りでは、これは反人身売買分野におけるDEAの最初の応用である。

Transit monitoring is a preventative approach used to identify possible cases of human trafficking prior to exploitation while an individual is in transit or before one crosses a border. Transit monitoring is often conducted by non-governmental organizations (NGOs) who train staff to identify and intercept suspicious activity. Love Justice International (LJI) is a well-established NGO that has been conducting transit monitoring for years along the Nepal-India border at multiple monitoring stations. In partnership with LJI, we developed a system that uses data envelopment analysis (DEA) to help LJI decision-makers evaluate the performance of these stations at intercepting potential human-trafficking victims given the amount of resources (e.g. staff, etc.) available and make specific operational improvement recommendations. Our model consists of 91 decision-making units (DMUs) from 7 stations over 13 quarters and considers three inputs, four outputs, and 3 homogeneity criteria. Using this model we identified efficient stations, compared rankings of station performance, and recommended strategies to improve efficiency. To the best of our knowledge, this is the first application of DEA in the anti-human trafficking domain.
翻訳日:2023-04-21 07:50:39 公開日:2022-06-22
# 通信チャネルの古典的シミュレーション

Classical simulations of communication channels ( http://arxiv.org/abs/2101.10985v4 )

ライセンス: Link先を確認
P\'eter E. Frenkel(参考訳) 特定の非古典的通信チャネルが、与えられた状態数と与えられた雑音量を持つ古典的チャネルによってシミュレートできるかどうかについて検討する。 任意のノイズ量子チャネルは、対応する古典的チャネルで「同じ量」のノイズでシミュレートできることが証明された。 一般確率チャネルの古典的シミュレーションも研究されている。

We investigate whether certain non-classical communication channels can be simulated by a classical channel with a given number of states and a given `amount' of noise. It is proved that any noisy quantum channel can be simulated by a corresponding classical channel with `the same amount' of noise. Classical simulations of general probabilistic channels are also studied.
翻訳日:2023-04-13 22:19:12 公開日:2022-06-22
# テンソルネットワーク状態の作成と検証

Preparation and verification of tensor network states ( http://arxiv.org/abs/2105.06866v2 )

ライセンス: Link先を確認
Esther Cruz, Flavio Baccari, Jordi Tura, Norbert Schuch, J. Ignacio Cirac(参考訳) 正規格子上で定義されるテンソルネットワーク状態の族は、それらを準備するための断熱経路の自然な定義を持つ。 この族は射影行列積や射影エンタングルドペア状態のような関連する状態のクラスと、古典的なスピンモデルに対応するものを含んでいる。 半定値計画法を用いて,親ハミルトニアンの断面積に対する不均一な下界を効率的に計算できることを示す。 これにより、拡張性のある努力で断熱的準備を効率的に行うことができるかどうかを確認することができる。 また、状態が一意に特徴付けられるという意味で、期待値が容易に決定され、完備集合を形成する観測可能な集合も導出する。 量子状態と局所的測定へのアクセスがあれば効率的に計算できる観測可能な観測可能な部分集合を同定し、検証手順でどのように使用できるかを解析する。

We consider a family of tensor network states defined on regular lattices that come with a natural definition of an adiabatic path to prepare them. This family comprises relevant classes of states, such as injective Matrix Product and Projected Entangled-Pair States, and some corresponding to classical spin models. We show how uniform lower bounds to the gap of the parent Hamiltonian along the adiabatic trajectory can be efficiently computed using semi-definite programming. This allows one to check whether the adiabatic preparation can be performed efficiently with a scalable effort. We also derive a set of observables whose expectation values can be easily determined and that form a complete set, in the sense that they uniquely characterize the state. We identify a subset of those observables which can be efficiently computed if one has access to the quantum state and local measurements, and analyze how they can be used in verification procedures.
翻訳日:2023-03-31 04:10:18 公開日:2022-06-22
# 多世界理論の確率

Probability in many-worlds theories ( http://arxiv.org/abs/2106.16145v2 )

ライセンス: Link先を確認
Anthony J. Short(参考訳) 我々は、決定論的多世界理論の単純なクラスの中で、世界上の自然確率分布を定義する方法を考察する。 これはそのような状態における世界の典型的な性質を理解するのに役立ち、従って多世界枠組みにおける量子論の実証的な成功を説明することができる。 量子論の場合にはボルン則につながる3つの合理的公理を与えるとともに、古典確率力学の多世界変種を含む他の場合においても自然の結果をもたらす。

We consider how to define a natural probability distribution over worlds within a simple class of deterministic many-worlds theories. This can help us understand the typical properties of worlds within such states, and hence explain the empirical success of quantum theory within a many-worlds framework. We give three reasonable axioms which lead to the Born rule in the case of quantum theory, and also yield natural results in other cases, including a many-worlds variant of classical stochastic dynamics.
翻訳日:2023-03-24 08:02:02 公開日:2022-06-22
# 量子ネットワークにおける忠実度保証エンタングルメントルーティング

Fidelity-Guarantee Entanglement Routing in Quantum Networks ( http://arxiv.org/abs/2111.07764v4 )

ライセンス: Link先を確認
Jian Li, Mingjun Wang, Qidong Jia, Kaiping Xue, Nenghai Yu, Qibin Sun, Jun Lu(参考訳) 絡み合いルーティングは、量子ネットワークにおいて最も重要な関数の1つである2つの任意のノード間のリモート絡み合い接続を確立する。 既存のルーティング機構は、主に絡み合い世代の障害に直面するロバスト性とスループットを改善するが、接続の質、絡み合いの忠実性を評価する上で最も重要な指標について考慮することはほとんどない。 この問題を解決するために,量子ネットワークにおける複数のソース・デスティネーション(sd)対に対する忠実性を保証するために,浄化可能な絡み合いルーティング設計を提案する。 提案手法では,まず単一S-Dペアのシナリオを考察し,最小の絡み合ったペアコストで経路経路に沿った最適浄化判定を行うために繰り返しルーティングアルゴリズムQ-PATHを設計する。 さらに, 拡張dijkstraアルゴリズム(q-leap)を用いた低複雑度ルーティングアルゴリズムは, 単純かつ効果的な浄化決定法を用いて計算複雑性を低減するように設計されている。 次に、複数のS-Dペアで共通シナリオを考察し、複数のルーティング要求に対するリソース割り当てと再ルーティングプロセスを考慮した欲求に基づくアルゴリズムを設計する。 提案アルゴリズムの有効性と優位性を検証するため,提案アルゴリズムは広範囲なシミュレーションを行い,提案アルゴリズムは忠実度保証ルーティングソリューションを提供するだけでなく,スループット,エンドツーエンドの絡み合い接続の完全性,資源利用率の面で,既存のルーティング方式と比較して優れた性能を有することを示した。

Entanglement routing establishes remote entanglement connection between two arbitrary nodes, which is one of the most important functions in quantum networks. The existing routing mechanisms mainly improve the robustness and throughput facing the failure of entanglement generations, which, however, rarely include the considerations on the most important metric to evaluate the quality of connection, entanglement fidelity. To solve this problem, we propose purification-enabled entanglement routing designs to provide fidelity guarantee for multiple Source-Destination (SD) pairs in quantum networks. In our proposal, we first consider the single S-D pair scenario and design an iterative routing algorithm, Q-PATH, to find the optimal purification decisions along the routing path with minimum entangled pair cost. Further, a low-complexity routing algorithm using an extended Dijkstra algorithm, Q-LEAP, is designed to reduce the computational complexity by using a simple but effective purification decision method. Then we consider the common scenario with multiple S-D pairs and design a greedy-based algorithm considering resource allocation and rerouting process for multiple routing requests. To verify the effectiveness and superiority of the proposed algorithms, extensive simulations are conducted, and the simulation results show that the proposed algorithms not only can provide fidelity-guarantee routing solutions, but also has superior performance in terms of throughput, fidelity of end-to-end entanglement connection, and resource utilization ratio, compared with the existing routing scheme.
翻訳日:2023-03-08 02:26:30 公開日:2022-06-22
# ベンチマーク量子シミュレータのための親ハミルトニアンの体積

Volumes of parent Hamiltonians for benchmarking quantum simulators ( http://arxiv.org/abs/2111.13734v2 )

ライセンス: Link先を確認
Mar\'ia Garc\'ia D\'iaz, Gael Sent\'is, Ramon Mu\~noz-Tapia, and Anna Sanpera(参考訳) 量子シミュレータの性能のベンチマーク値である固定誤差$\epsilon$までの目標基底状態を持つ親ハミルトニアンの相対体積について検討する。 消失する誤差に対して、この相対体積は測度 0 であるが、一般の $\epsilon$ に対してヒルベルト空間の次元とともに増加することを示す。 また、局所化に制限されたとき、親ハミルトニアンの体積についても扱う。 翻訳的不変なハミルトン多様体に対しては、相対体積に上限を与える。 最後に, 対象状態が逆場におけるイジング鎖の基底状態である場合, 親ハミルトニアンの相対体積を数値的に推定する。

We investigate the relative volume of parent Hamiltonians having a target ground state up to some fixed error $\epsilon$, a quantity which sets a benchmark on the performance of quantum simulators. For vanishing error, this relative volume is of measure zero, whereas for a generic $\epsilon$ we show that it increases with the dimension of the Hilbert space. We also address the volume of parent Hamiltonians when they are restricted to be local. For translationally invariant Hamiltonians, we provide an upper bound to their relative volume. Finally, we estimate numerically the relative volume of parent Hamiltonians when the target state is the ground state of the Ising chain in a transverse field.
翻訳日:2023-03-06 19:23:59 公開日:2022-06-22
# 古典的検証可能な量子アドバンテージのためのインタラクティブプロトコル

Interactive Protocols for Classically-Verifiable Quantum Advantage ( http://arxiv.org/abs/2112.05156v2 )

ライセンス: Link先を確認
Daiwei Zhu, Gregory D. Kahanamoku-Meyer, Laura Lewis, Crystal Noel, Or Katz, Bahaa Harraz, Qingfeng Wang, Andrew Risinger, Lei Feng, Debopriyo Biswas, Laird Egan, Alexandru Gheorghiu, Yunseong Nam, Thomas Vidick, Umesh Vazirani, Norman Y. Yao, Marko Cetina, Christopher Monroe(参考訳) 量子計算の利点を達成するには、量子デバイス上で古典的に難解な問題を解決する必要がある。 自然な提案は量子力学を古典的にシミュレートする本質的な硬さに依存しているが、出力の検証自体は古典的に難解である。 一方、ある量子アルゴリズム(例えばショアのアルゴリズムによる素因数分解)は効率的に検証できるが、近い将来のデバイスで利用可能なものよりも多くのリソースを必要とする。 検証可能性と実装の間のギャップを埋める一つの方法は、証明者と検証者の間の「相互作用」を使用することである。 このようなプロトコルは暗号関数を利用することで、古典的検証器は量子証明器の応答において複数のラウンドにわたる一貫性を強制することができる。 本研究では,イオントラップ量子コンピュータを用いた対話型量子アドバンストプロトコルの最初の実装を実演する。 我々は2つの補完プロトコルを実行する。1つはエラー問題による学習に基づくもので、もう1つは暗号構造が計算ベルテストを実装するものである。 複数の相互作用を行うために、閉じ込められたイオン量子ビットのサブセットの中間回路測定を行い、それに続くコヒーレントな進化を行う。 どちらのプロトコルでも、パフォーマンスは古典的な振る舞いに対する漸近的な境界を超え、スケールでのこの忠実性を維持することは検証可能な量子優位性を決定的に示します。

Achieving quantum computational advantage requires solving a classically intractable problem on a quantum device. Natural proposals rely upon the intrinsic hardness of classically simulating quantum mechanics; however, verifying the output is itself classically intractable. On the other hand, certain quantum algorithms (e.g. prime factorization via Shor's algorithm) are efficiently verifiable, but require more resources than what is available on near-term devices. One way to bridge the gap between verifiability and implementation is to use "interactions" between a prover and a verifier. By leveraging cryptographic functions, such protocols enable the classical verifier to enforce consistency in a quantum prover's responses across multiple rounds of interaction. In this work, we demonstrate the first implementation of an interactive quantum advantage protocol, using an ion trap quantum computer. We execute two complementary protocols -- one based upon the learning with errors problem and another where the cryptographic construction implements a computational Bell test. To perform multiple rounds of interaction, we implement mid-circuit measurements on a subset of trapped ion qubits, with subsequent coherent evolution. For both protocols, the performance exceeds the asymptotic bound for classical behavior; maintaining this fidelity at scale would conclusively demonstrate verifiable quantum advantage.
翻訳日:2023-03-05 00:51:38 公開日:2022-06-22
# 二重量子化

Double Quantization ( http://arxiv.org/abs/2112.11401v2 )

ライセンス: Link先を確認
Giulia Gubitosi, Fedele Lizzi, Jos\'e Javier Relancio, Patrizia Vitale(参考訳) 量子重力理論では、時空の古典的な概念は消滅し、新しい性質を持つ量子構造をもたらすことが期待される。 これらの量子効果を考慮するための可能な方法は、時空座標の非可換性である。 文献では、時空の非可換性と量子力学の位相空間非可換性を記述するための明確な方法が存在しない。 本稿では、両方の量子化を扱う位相空間におけるドリンフェルズツイストを構築することにより、この問題に対処する。 この方法は空間のみを含む非可換性に応用でき、時間は別として残すことができる。 この構成をいわゆる$\lambda$-minkwoski と $\mathbb{r}^3_\lambda$非可換空間に適用する。

In a quantum gravity theory, it is expected that the classical notion of spacetime disappears, leading to a quantum structure with new properties. A possible way to take into account these quantum effects is through a noncommutativity of spacetime coordinates. In the literature, there is not a clear way to describe at the same time a noncommutativity of spacetime and the phase-space noncommutativity of quantum mechanics. In this paper we address this issue by constructing a Drinfel'd twist in phase space which deals with both quantizations. This method can be applied to a noncommutativity which involves only space, leaving time aside. We apply our construction to the so-called $\lambda$-Minkwoski and $\mathbb{R}^3_\lambda$ noncommutative spaces.
翻訳日:2023-03-03 22:29:57 公開日:2022-06-22
# 多光子Jaynes-Cummings共鳴におけるキャビティ-フィールド分布

Cavity-field distribution in multiphoton Jaynes-Cummings resonances ( http://arxiv.org/abs/2201.02092v3 )

ライセンス: Link先を確認
Th. K. Mavrogordatos(参考訳) 弱駆動Jaynes-Cummings (JC) 発振器の2光子共鳴に対するWigner表現のキャビティ-フィールド分布を強結合限界で計算する。 実効4レベルシステムを用いて、位相空間におけるアジムタル対称性を破る定常および過渡双モード性の存在を解析的に示す。 2つの定常ピークは反対の位置にあり、駆動遷移の2光子振幅とは一致しない。 進展するバイモーダリティは、フォワード散乱光子の強度相関関数の進化と並行して描写され、最終的に共鳴により駆動されるjcモデルにおけるキャビティモードの最小光子定常および過渡位相空間プロファイルと対比される。

We calculate the cavity-field distribution in the Wigner representation for the two-photon resonance of the weakly driven Jaynes-Cummings (JC) oscillator in its strong-coupling limit. Using an effective four-level system, we analytically demonstrate the presence of steady-state and transient bimodality which breaks azimuthal symmetry in phase space. The two steady-state peaks are located at opposite positions and do not correspond to the two-photon amplitude of the driven transition. The developing bimodality is portrayed in parallel with the evolution of the intensity correlation function for the forwards-scattered photons, before being finally contrasted to the few-photon steady-state and transient phase-space profiles for the cavity mode in the JC model driven on resonance.
翻訳日:2023-03-02 03:27:51 公開日:2022-06-22
# 量子有限オートマトンとしての高次元ツイスト光子を用いた量子アドバンテージ

Quantum advantage using high-dimensional twisted photons as quantum finite automata ( http://arxiv.org/abs/2202.04915v2 )

ライセンス: Link先を確認
Stephen Z. D. Plachta, Markus Hiekkam\"aki, Abuzer Yakary{\i}lmaz, Robert Fickler(参考訳) 量子有限オートマトン (QFA) は、量子演算を用いて二項決定を行う基本的な計算装置である。 これらは古典的に比べて指数的にメモリ効率が良いことが知られている。 本稿では、単一光子の軌道角運動量(oam)を用いたマルチ量子ビットqfaの実験実装を示す。 単一光子上に符号化された異なる高次元QFAを実装し、複雑な多部演算を必要とせずに複数のキュービットを並列に動作させる。 最大4つの並列量子ビットを実装するために2から8のoam量子状態を用いることで、高次元qfaは必要メモリの点で古典的有限オートマトンを上回りながら素数5と11を検出できることを示した。 私たちの研究は、シングルフォトンの自由度で符号化されたマルチ量子ビット状態のエンコーディング、操作、解読が容易であることの利点を享受し、複雑な量子情報タスクに構造化フォトンが与える利点を示しています。

Quantum finite automata (QFA) are basic computational devices that make binary decisions using quantum operations. They are known to be exponentially memory efficient compared to their classical counterparts. Here, we demonstrate an experimental implementation of multi-qubit QFAs using the orbital angular momentum (OAM) of single photons. We implement different high-dimensional QFAs encoded on a single photon, where multiple qubits operate in parallel without the need for complicated multi-partite operations. Using two to eight OAM quantum states to implement up to four parallel qubits, we show that a high-dimensional QFA is able to detect the prime numbers 5 and 11 while outperforming classical finite automata in terms of the required memory. Our work benefits from the ease of encoding, manipulating, and deciphering multi-qubit states encoded in the OAM degree of freedom of single photons, demonstrating the advantages structured photons provide for complex quantum information tasks.
翻訳日:2023-02-26 04:58:24 公開日:2022-06-22
# 量子近似最適化アルゴリズムのための制約ミキサー

Constrained mixers for the quantum approximate optimization algorithm ( http://arxiv.org/abs/2203.06095v5 )

ライセンス: Link先を確認
Franz G. Fuchs, Kjetil Olsen Lye, Halvor M{\o}ll Nilsen, Alexander J. Stasik, and Giorgio Sartor(参考訳) 量子近似最適化アルゴリズム/量子交互演算子アンサッツ(QAOA)は組合せ最適化問題の近似解を見つけるためのヒューリスティックである。 ほとんどの文献は制約のない二次問題に限られている。 しかし、実際に関連する多くの最適化問題は(厳しい)制約を満たさなければならない。 本稿では,これらの制約により与えられた全ヒルベルト空間の部分空間に進化を制限した混合作用素を構築するための枠組みを提案する。 我々は、ミキサーの動作方法と、特にトロタライゼーションを考慮した場合、CXゲートの数でコストを最小化する方法を明らかにする数学的構造を明らかにする。 我々の分析は、現在知られているよりもCXゲートが少ない"XY"ミキサーのトロタライズも有効である。 また,実践的な実装の観点から,ベースゲートへの効率的な分解アルゴリズムについても述べる。 より一般的な事例のいくつかの例が提示され、分析される。

The quantum approximate optimization algorithm/quantum alternating operator ansatz (QAOA) is a heuristic to find approximate solutions of combinatorial optimization problems. Most literature is limited to quadratic problems without constraints. However, many practically relevant optimization problems do have (hard) constraints that need to be fulfilled. In this article, we present a framework for constructing mixing operators that restrict the evolution to a subspace of the full Hilbert space given by these constraints; We generalize the "XY"-mixer designed to preserve the subspace of "one-hot" states to the general case of subspaces given by a number of computational basis states. We expose the underlying mathematical structure which reveals more of how mixers work and how one can minimize their cost in terms of number of CX gates, particularly when Trotterization is taken into account. Our analysis also leads to valid Trotterizations for "XY"-mixer with fewer CX gates than is known to date. In view of practical implementations, we also describe algorithms for efficient decomposition into basis gates. Several examples of more general cases are presented and analyzed.
翻訳日:2023-02-22 09:22:02 公開日:2022-06-22
# オーストラリア上院の数字の正確性を評価する: 厳密で透明な監査のための重要なステップ

Assessing the accuracy of the Australian Senate count: Key steps for a rigorous and transparent audit ( http://arxiv.org/abs/2205.14634v2 )

ライセンス: Link先を確認
Michelle Blom, Philip B. Stark, Peter J. Stuckey, Vanessa Teague, Damjan Vukcevic(参考訳) 本稿では,オーストラリア上院の投票論文のスキャンとデジタル化を監査する主な原則と技術的詳細について説明する。 我々は,紙の投票を監査する動機を簡潔に要約するとともに,厳密で透明な監査に必要な支援手順を説明し,オーストラリア上院にふさわしい統計方法を提案する。 2022年6月22日 オーストラリア総選挙の上院選好データの分析を含む。

This paper explains the main principles and some of the technical details for auditing the scanning and digitisation of the Australian Senate ballot papers. We give a short summary of the motivation for auditing paper ballots, explain the necessary supporting steps for a rigorous and transparent audit, and suggest some statistical methods that would be appropriate for the Australian Senate. 22 June 2022 Update: The update includes analysis of Senate preference data from the 2022 Australian election.
翻訳日:2023-02-19 17:19:19 公開日:2022-06-22
# aiの長期的な影響に関する調査

A Survey of the Potential Long-term Impacts of AI ( http://arxiv.org/abs/2206.11076v1 )

ライセンス: Link先を確認
Sam Clarke and Jess Whittlestone(参考訳) 人工知能の進歩が社会に大きな長期的影響をもたらすと認識されている。 しかし、その影響がどんな形になるのか、どれだけ大きく長く続くのか、そして最終的に人類にとって肯定的なのか否定的なのかは、明らかになっていない。 aiが科学、協力、力、認識論、価値観の長期的な変化にどのようにつながるかという5つの潜在的な長期的な影響を、aiの社会的影響に関する文献調査に基づいて特定し、議論する。 それぞれの分野における既存研究の現状を概観し、今後の研究の優先課題を強調する。

It is increasingly recognised that advances in artificial intelligence could have large and long-lasting impacts on society. However, what form those impacts will take, just how large and long-lasting they will be, and whether they will ultimately be positive or negative for humanity, is far from clear. Based on surveying literature on the societal impacts of AI, we identify and discuss five potential long-term impacts of AI: how AI could lead to long-term changes in science, cooperation, power, epistemics, and values. We review the state of existing research in each of these areas and highlight priority questions for future research.
翻訳日:2023-02-19 09:23:59 公開日:2022-06-22
# 社会と倫理のためのAIチャレンジ

AI Challenges for Society and Ethics ( http://arxiv.org/abs/2206.11068v1 )

ライセンス: Link先を確認
Jess Whittlestone and Sam Clarke(参考訳) 人工知能はすでに、医療、金融、警察など、社会の多くの重要な分野に適用され、影響している。 これらの応用は、AIの能力が進歩し続けるにつれて増加し、社会にとって非常に有益である可能性や深刻な害をもたらす可能性がある。 AIガバナンスの役割は、最終的に、AIにおけるイノベーションのメリットを実現しつつ、この危害のリスクを軽減するための実践的なステップを取ることです。 これは、現在および潜在的リスクとAIのメリットに関する挑戦的な経験的疑問に答えること、すなわち、広く分散され間接的に行われる影響を評価し、非常に不確実な未来について予測することである。 また、社会におけるAIの有益な利用がどのようなものかという規範的な質問を通じて考える必要がある。 異なるグループがAIを尊重すべき高レベルの原則(プライバシー、公正性、自律性など)に同意するかもしれないが、これらの原則を実践する場合に課題が発生する。 例えば、AIシステムは個人のプライバシを保護する必要があると言うのは簡単ですが、ほとんどの人が救命医療の開発を諦めたいと思うような、ある程度の量のプライバシがあるでしょう。 これらの課題にもかかわらず、研究はこれらの疑問に進展しうる。 この章の目的は、読者にこの進歩と残る課題について理解してもらうことである。

Artificial intelligence is already being applied in and impacting many important sectors in society, including healthcare, finance, and policing. These applications will increase as AI capabilities continue to progress, which has the potential to be highly beneficial for society, or to cause serious harm. The role of AI governance is ultimately to take practical steps to mitigate this risk of harm while enabling the benefits of innovation in AI. This requires answering challenging empirical questions about current and potential risks and benefits of AI: assessing impacts that are often widely distributed and indirect, and making predictions about a highly uncertain future. It also requires thinking through the normative question of what beneficial use of AI in society looks like, which is equally challenging. Though different groups may agree on high-level principles that uses of AI should respect (e.g., privacy, fairness, and autonomy), challenges arise when putting these principles into practice. For example, it is straightforward to say that AI systems must protect individual privacy, but there is presumably some amount or type of privacy that most people would be willing to give up to develop life-saving medical treatments. Despite these challenges, research can and has made progress on these questions. The aim of this chapter will be to give readers an understanding of this progress, and of the challenges that remain.
翻訳日:2023-02-19 09:23:48 公開日:2022-06-22
# Jack and Masters of All Trades: ファンデーションAIモデルからモデルセットの集合をワンパスで学ぶ

Jack and Masters of All Trades: One-Pass Learning of a Set of Model Sets from Foundation AI Models ( http://arxiv.org/abs/2205.00671v2 )

ライセンス: Link先を確認
Han Xiang Choong, Yew-Soon Ong, Abhishek Gupta and Ray Lim(参考訳) ディープラーニングでは、サイズはパワーです。 タスクの幅広いデータに基づいてトレーニングされた大量のニューラルネットは、人工知能の最前線にある。 これらの基礎モデルや、下流タスクの微調整を行う場合の「全貿易のジャック」は、深層学習の推進において重要になっている。 しかし、リソースの制約の厳しい環境、目的や意図の変更、タスク要求の変化は、特定のJATの現実的なユーティリティを制限する可能性がある。 そこで本論文は,大規模ジャットの構築に向けた最近のトレンドと合致して,多様なコンパクト機械学習モデルセットの作成の基礎となる概念を最初に検討する。 多くの小規模で特殊なモデルから成り、多くのタスク設定と環境条件を同時に満たすために集合の集合を定式化する。 神経進化的マルチタスクアルゴリズムの1パスにおいて、そのようなセットに到達可能な手段を初めて提示し、集合的に「すべての取引のマスター」であるモデルに近づく。

For deep learning, size is power. Massive neural nets trained on broad data for a spectrum of tasks are at the forefront of artificial intelligence. These foundation models or 'Jacks of All Trades' (JATs), when fine-tuned for downstream tasks, are gaining importance in driving deep learning advancements. However, environments with tight resource constraints, changing objectives and intentions, or varied task requirements, could limit the real-world utility of a singular JAT. Hence, in tandem with current trends towards building increasingly large JATs, this paper conducts an initial exploration into concepts underlying the creation of a diverse set of compact machine learning model sets. Composed of many smaller and specialized models, we formulate the Set of Sets to simultaneously fulfil many task settings and environmental conditions. A means to arrive at such a set tractably in one pass of a neuroevolutionary multitasking algorithm is presented for the first time, bringing us closer to models that are collectively 'Masters of All Trades'.
翻訳日:2023-02-14 20:52:05 公開日:2022-06-22
# 量子ウォークにおける相補性

Complementarity in quantum walks ( http://arxiv.org/abs/2205.05445v2 )

ライセンス: Link先を確認
Andrzej Grudka, Pawel Kurzynski, Tomasz P. Polak, Adam S. Sajna, Jan Wojcik, Antoni Wojcik(参考訳) 位置とコイン依存位相シフトを持つ$d$サイクル上の離散時間量子ウォークについて検討した。 このようなモデルは、人工ゲージ場を持つ環上を移動する量子粒子のダイナミクスをシミュレートする。 この場合、位相シフトの振幅は単一の離散パラメータ$q$によって制御される。 このモデルを解析的に解き、素数$d$に対して、2d$次元ヒルベルト空間で作用する2つの量子ウォーク進化作用素の固有ベクトルの間に強い相補性が存在することを観察する。 すなわち、$d$ が素数であれば、進化作用素の対応する固有ベクトルは $|\langle v_q|v'_{q'} \rangle| \leq 1/\sqrt{d}$ for $q\neq q'$ およびすべての $|v_q\rangle$ と $|v'_{q'}\rangle$ に従う。 この相補性の動的帰結についても論じる。 最後に、このモデルの連続バージョンに相補性が存在することを示し、これは1次元のディラック粒子に対応する。

We study discrete-time quantum walks on $d$-cycles with a position and coin-dependent phase-shift. Such a model simulates a dynamics of a quantum particle moving on a ring with an artificial gauge field. In our case the amplitude of the phase-shift is governed by a single discrete parameter $q$. We solve the model analytically and observe that for prime $d$ there exists a strong complementarity property between the eigenvectors of two quantum walk evolution operators that act in the $2d$-dimensional Hilbert space. Namely, if $d$ is prime the corresponding eigenvectors of the evolution operators obey $|\langle v_q|v'_{q'} \rangle| \leq 1/\sqrt{d}$ for $q\neq q'$ and for all $|v_q\rangle$ and $|v'_{q'}\rangle$. We also discuss dynamical consequences of this complementarity. Finally, we show that the complementarity is still present in the continuous version of this model, which corresponds to a one-dimensional Dirac particle.
翻訳日:2023-02-13 12:41:20 公開日:2022-06-22
# 点ギャップ位相相におけるバルク境界対応

Bulk-boundary correspondence in point-gap topological phases ( http://arxiv.org/abs/2205.15635v2 )

ライセンス: Link先を確認
Daichi Nakamura, Takumi Bessho, Masatoshi Sato(参考訳) 非エルミート系の注目すべき特徴は、2つの異なるタイプの位相の存在である。 1つはエルミート位相を一般化し、もう1つはラインギャップ位相とポイントギャップ位相と呼ばれる非エルミート系に固有のものである。 バルク境界対応は以前のトポロジーの基本的な原理であるが、後者におけるその役割はまだ明らかになっていない。 本稿では,非エルミート系における点ギャップ位相におけるバルク境界対応を確立する。 開境界条件における点ギャップトポロジーの要件を明らかにした後、開境界条件におけるバルク点ギャップトポロジーと周期境界条件との関係を明らかにする。 対称性を持つ開境界点ギャップ位相の完全な分類を与え、非自明な開境界位相がロバストかつエキゾチックな曲面状態をもたらすことを示す。

A striking feature of non-Hermitian systems is the presence of two different types of topology. One generalizes Hermitian topological phases, and the other is intrinsic to non-Hermitian systems, which are called line-gap topology and point-gap topology, respectively. Whereas the bulk-boundary correspondence is a fundamental principle in the former topology, its role in the latter has not been clear yet. This paper establishes the bulk-boundary correspondence in the point-gap topology in non-Hermitian systems. After revealing the requirement for point-gap topology in the open boundary conditions, we clarify that the bulk point-gap topology in open boundary conditions can be different from that in periodic boundary conditions. We give a complete classification of the open boundary point-gap topology with symmetry and show that the non-trivial open boundary topology results in robust and exotic surface states.
翻訳日:2023-02-11 04:09:50 公開日:2022-06-22
# 1+1次元干渉フェルミオン系における一般化Thoulessポンプ

Generalized Thouless Pumps in 1+1-dimensional Interacting Fermionic Systems ( http://arxiv.org/abs/2206.01110v2 )

ライセンス: Link先を確認
Shuhei Ohyama, Ken Shiozaki and Masatoshi Sato(参考訳) トゥーレスポンプ(英: thouless pump)は、フェルミオン系の縁から別の縁に$\mathrm{u}(1)$ chargeが励起される現象である。 チューレスポンプは様々な次元と様々な電荷に対して一般化されている。 本稿では,1+1$次元相互作用するフェルミオン短距離エンタングルド(SRE)状態の自明かつ非自明な相におけるフェルミオンパリティの一般化されたThoulessポンプについて検討する。 この目的のために、行列積状態(MPS)を用いる。 MPSは多体系を1+1$次元で記述し、SRE状態を代数的に特徴づけることができる。 フェルミオンMPS (fMPS) の基本定理を証明し、一般化されたThoulessポンプの研究に使用する。 自明な相と非自明な相の両方に非自明なポンプを構築し、相互作用に対するポンプの安定性を示す。 さらに、一般化されたThoulessポンプの位相不変量をfMPSで定義し、既存の結果と整合性を確立する。 これらは、高次元ベリー曲率によって捕獲されないSRE状態の族不変量である。 また、一般化されたトゥーレスポンプの位相不変量とドノヴァン-カロビ公式におけるk$-理論のねじれとの関係も議論する。

The Thouless pump is a phenomenon in which $\mathrm{U}(1)$ charges are pumped from an edge of a fermionic system to another edge. The Thouless pump has been generalized in various dimensions and for various charges. In this paper, we investigate the generalized Thouless pumps of fermion parity in both trivial and non-trivial phases of $1+1$-dimensional interacting fermionic short range entangled (SRE) states. For this purpose, we use matrix product states (MPSs). MPSs describe many-body systems in $1+1$ dimensions, and can characterize SRE states algebraically. We prove fundamental theorems for fermionic MPSs (fMPSs) and use them to investigate the generalized Thouless pumps. We construct non-trivial pumps in both the trivial and non-trivial phases and we show the stability of the pumps against interactions. Furthermore, we define topological invariants for the generalized Thouless pumps in terms of fMPSs and establish consistency with existing results. These are invariants of the family of SRE states that are not captured by the higher dimensional Berry curvature. We also argue a relation between the topological invariants of the generalized Thouless pump and the twist of the $K$-theory in the Donovan-Karoubi formulation.
翻訳日:2023-02-10 22:35:54 公開日:2022-06-22
# 浮遊超伝導回路におけるスプリアスマイクロ波クロストーク

Spurious microwave crosstalk in floating superconducting circuits ( http://arxiv.org/abs/2206.03710v2 )

ライセンス: Link先を確認
Peng Zhao, Yingshan Zhang, Xuegang Li, Jiaxiu Han, Huikai Xu, Guangming Xue, Yirong Jin, and Haifeng Yu(参考訳) クロストークは、量子ビットアドレッシングの性能を低下させ、ゲートエラーを引き起こすため、大規模量子計算の実装において大きな関心事である。 クロストークの起源を特定し,異なるチャネルからのコントリビューションを分離することが,クロストーク緩和スキームの解明に不可欠である。 ここでは、2つの結合したトランペットキュービットの回路解析を行うことにより、例えば、クビットと近くのクビットの駆動線との間の海峡結合が欠如しているとしても、急激なクロストークチャネルの存在により、クビット間のマイクロ波クロストークが存在することを示す。 このチャネルは、トランスモンキュービットの浮遊構造、すなわち各キュービットの2つの超伝導島によって支持され、地上へのガルバニック接続がない自由モードから生じる。 浮動小数点量子ビットの様々な幾何学的レイアウトに対して、スプリアスチャネルからのマイクロ波クロストークの寄与を与え、このチャネルがキュービットアドレッシングにおける性能制限要因となることを示す。 この研究は、量子ビット回路の設計を通じて、浮遊超伝導量子ビット間のマイクロ波クロストークを抑制するためのガイダンスを提供することができる。

Crosstalk is a major concern in the implementation of large-scale quantum computation since it can degrade the performance of qubit addressing and cause gate errors. Finding the origin of crosstalk and separating contributions from different channels are essential prerequisites for figuring out crosstalk mitigation schemes. Here, by performing circuit analysis of two coupled floating transmon qubits, we demonstrate that, even if the stray coupling, e.g., between a qubit and the drive line of its nearby qubit, is absent, microwave crosstalk between qubits can still exist due to the presence of a spurious crosstalk channel. This channel arises from free modes, which are supported by the floating structure of transmon qubits, i.e., the two superconducting islands of each qubit with no galvanic connection to the ground. For various geometric layouts of floating transmon qubits, we give the contributions of microwave crosstalk from the spurious channel and show that this channel can become a performance-limiting factor in qubit addressing. This research could provide guidance for suppressing microwave crosstalk between floating superconducting qubits through the design of qubit circuits.
翻訳日:2023-02-10 04:18:40 公開日:2022-06-22
# デリゲート量子コンピューティングにおける等価性

Equivalence in delegated quantum computing ( http://arxiv.org/abs/2206.07469v2 )

ライセンス: Link先を確認
Fabian Wiesner, Jens Eisert, Anna Pappa(参考訳) デリゲート量子コンピューティング(dqc)により、限られたクライアントは量子サーバー上でリモートで能力の外の操作を実行できる。 dqcのプロトコルは通常、測定ベースの量子計算フレームワークに設定されるので、クライアントとサーバ間の計算の異なる部分を自然に分離することができる。 既存のプロトコルは、入力のセキュリティ、計算の盲点、検証可能性など、いくつかの望ましい特性を達成しており、最近ではマルチパーティ設定にも拡張されている。 DQCでは、クライアント側で完全に異なる操作を要求する2つのアプローチが従う。 1つは、クライアントが量子状態を準備し、もう1つは、クライアントがそれを測定できることです。 本研究では、プロトコルの等価性に関する新しい厳密な定義を提供し、これらの異なるDQC設定がこの意味では同値であることを示す。 私たちは、私たちの主張を証明するために抽象暗号フレームワークを使用し、ある設定から別の設定へ変更できる新しい技術を提供します。 このようにして、両方のアプローチが同じ特性を持つタスクの実行に使用できることを示す。 すなわち、提案した手法を使って、常にある設定から別の設定に翻訳することができる。 最後に,dqcのハイブリッドクライアントモデルを提案する。

Delegated quantum computing (DQC) enables limited clients to perform operations that are outside their capabilities remotely on a quantum server. Protocols for DQC are usually set up in the measurement-based quantum computation framework, as this allows for a natural separation of the different parts of the computation between the client and the server. The existing protocols achieve several desired properties, including the security of inputs, the blindness of computation and its verifiability, and have also recently been extended to the multiparty setting. Two approaches are followed in DQC that demand completely different operations on the clients' side. In one, the clients are able to prepare quantum states, in the other, the clients are able to measure them. In this work, we provide a novel stringent definition of the equivalence of protocols and show that these distinct DQC settings are, in fact, equivalent in this sense. We use the abstract cryptography framework to prove our claims and provide a novel technique that enables changing from one setting to the other. In this way, we demonstrate that both approaches can be used to perform tasks with the same properties. I.e., using our proposed techniques, we can always translate from one setting to the other. We finally use our results to propose a hybrid-client model for DQC.
翻訳日:2023-02-09 07:08:43 公開日:2022-06-22
# 非退化パラメトリック増幅器としてのジョセフソン環変調器のスクイーズ限界

Squeezing Limit of the Josephson Ring Modulator as a Non-Degenerate Parametric Amplifier ( http://arxiv.org/abs/2206.10867v1 )

ライセンス: Link先を確認
Dong Hwan Kim, Su-Yong Lee, Zaeill Kim, Taek Jeong, and Duk Y. Kim(参考訳) 2モード圧縮真空状態は量子技術の重要な構成要素である。 マイクロ波領域では、3波混合非縮退パラメトリック増幅器として機能するジョセフソン環変調器によって生成することができる。 本稿では、ジョセフソン環変調器を記述する3つのボソニックモードのマスター方程式を、出力フィールドのスクイージングと低信号パワーでのゲインを計算する新しい数値解法で解く。 3次混合過程からの3次相互作用は本質的にスクイーズを制限し,利得を減少させる。 この結果は他の一般キャビティベース3波混合プロセスと関係しているため、非退化パラメトリック増幅器は出力フィールドに固有のスクイーズ限界を持つことになる。

Two-mode squeezed vacuum states are a crucial component of quantum technologies. In the microwave domain, they can be produced by Josephson ring modulator which acts as a three-wave mixing non-degenerate parametric amplifier. Here, we solve the master equation of three bosonic modes describing the Josephson ring modulator with a novel numerical method to compute squeezing of output fields and gain at low signal power. We show that the third-order interaction from the three-wave mixing process intrinsically limits squeezing and reduces gain. Since our results are related to other general cavity-based three-wave mixing processes, these imply that any non-degenerate parametric amplifier will have an intrinsic squeezing limit in the output fields.
翻訳日:2023-02-08 10:03:55 公開日:2022-06-22
# 大規模局所化のためのデバイス非依存量子フィンガープリント

Device-independent Quantum Fingerprinting for Large Scale Localization ( http://arxiv.org/abs/2206.10838v1 )

ライセンス: Link先を確認
Ahmed Shokry and Moustafa Youssef(参考訳) RFフィンガープリントはローカライズのための最も一般的な手法の1つであるが、それをユビキタスに展開するには、多数の異種デバイスとそのバリエーションをサポートするという課題に対処する必要がある。 デバイスに依存しない量子指紋マッチングアルゴリズムであるQHFPは,ユビキタス・ユビキタスな大規模位置追跡システムを実現する上で,ストレージ空間と実行時間,デバイスの不均一性という2つの問題に対処する。 特に,空間と実行時間の両方において,古典的手法よりも指数関数的に優れた複雑性を持つ量子アルゴリズムを提案する。 QHFPはまた、異種デバイスを使用した大規模な指紋作成による固有の位置決め誤差を扱うための規定も備えている。 システム全体の詳細は、生のRSSからデバイス非依存の特徴を抽出し、古典的特徴ベクトルを量子的特徴ベクトルにマッピングし、指紋マッチングのための量子コサイン類似性アルゴリズムを示すことから始める。 我々は、量子アルゴリズムを実装し、IBM Quantumマシンシミュレータを用いて実際のテストベッドにデプロイした。 その結果,従来の古典的手法と比較して,空間と走行時間を指数的に改善し,正確な推定位置を求めるQHFPの能力を確認した。 さらに,提案するデバイス非依存機能は,中央値誤差の精度が20%以上向上する。 これは、将来のユビキタスな世界規模のデバイス非依存フィンガープリンティングローカライズシステムに対するアルゴリズムの期待を浮き彫りにしている。

Although RF fingerprinting is one of the most commonly used techniques for localization, deploying it in a ubiquitous manner requires addressing the challenge of supporting a large number of heterogeneous devices and their variations. We present QHFP, a device-independent quantum fingerprint matching algorithm that addresses two of the issues for realizing worldwide ubiquitous large-scale location tracking systems: storage space and running time as well as devices heterogeneity. In particular, we present a quantum algorithm with a complexity that is exponentially better than the classical techniques, both in space and running time. QHFP also has provisions for handling the inherent localization error due to building the large-scale fingerprint using heterogeneous devices. We give the details of the entire system starting from extracting device-independent features from the raw RSS, mapping the classical feature vectors to their quantum counterparts, and showing a quantum cosine similarity algorithm for fingerprint matching. We have implemented our quantum algorithm and deployed it in a real testbed using the IBM Quantum machine simulator. Results confirm the ability of QHFP to obtain the correct estimated location with an exponential improvement in space and running time compared to the traditional classical counterparts. In addition, the proposed device-independent features lead to more than 20% better accuracy in median error. This highlights the promise of our algorithm for future ubiquitous large-scale worldwide device-independent fingerprinting localization systems.
翻訳日:2023-02-08 10:03:26 公開日:2022-06-22
# 非エルミート皮膚効果と自己促進

Non-Hermitian skin effect and self-acceleration ( http://arxiv.org/abs/2206.10836v1 )

ライセンス: Link先を確認
Stefano Longhi(参考訳) 非エルミート系は、境界条件において非自明なバンドトポロジーとエネルギースペクトルの強い感度を示す。 顕著なことに、開境界条件下では、バルク状態のマクロな数が格子縁に向かって圧迫され、非エルミート皮膚効果(NHSE)と呼ばれる効果がある。 実空間におけるnhseのよく確立された動的シグネチャは、系の任意の初期励起に対する方向バルクフロー(または持続電流)であり、これは長時間観測される。 ここでは、実空間における NHSE の異なる動的シグネチャ、すなわち波動関数の自己加速(英語版)に自分自身が現れるような力学的シグネチャを明らかにする。 自己加速は、周期境界条件下でブロッホ・ハミルトニアンのエネルギースペクトルで囲まれた領域に比例することが判明したシングルサイト励起による単バンド格子モデルにおいて、より一般的に起こることが示されている。 初期のウェーブパケットの自己加速の観測は、NHSEの明確な署名であり、例えば離散時間フォトニック量子ウォークにおいて、合成非エルミタン物質を用いて実験的にアクセス可能であるべきである。

Non-Hermitian systems exhibit nontrivial band topology and a strong sensitivity of the energy spectrum on the boundary conditions. Remarkably, a macroscopic number of bulk states get squeezed toward the lattice edges under open boundary conditions, an effect dubbed the non-Hermitian skin effect (NHSE). A well-established dynamical signature of the NHSE in real space is the directional bulk flow (or persistent current) for arbitrary initial excitation of the system, which is observed at long times. Here we unravel a different dynamical signature of the NHSE in real space that manifests itself in the {\em early-time} dynamics of the system, namely self-acceleration of the wave function. Self-acceleration is demonstrated to occur rather generally in single--band lattice models probed by single-site excitation, where the acceleration turns out to be proportional to the area enclosed by the energy spectrum of the Bloch Hamiltonian under periodic boundary conditions. The observation of wave packet self-acceleration at early times is a clear signature of the NHSE and should be experimentally accessible using synthetic non-Hermitian matter, for example in discrete-time photonic quantum walks.
翻訳日:2023-02-08 10:02:57 公開日:2022-06-22
# 単一ビットによる状態識別に基づく文脈性の実験的検討

Experimental Test of Contextuality based on State Discrimination with a Single Qubit ( http://arxiv.org/abs/2206.10828v1 )

ライセンス: Link先を確認
Qiuxin Zhang, Chenhao Zhu, Yuxin Wang, Liangyu Ding, Tingting Shi, Xiang Zhang, Shuaining Zhang, Wei Zhang(参考訳) 古典的モデルの予測を超えた量子現象を探索することは、古典的および量子的な自然の記述の境界を理解するために基本的な重要性を持つ。 量子系が古典的システムとは明確に振る舞う典型的な性質として、文脈性は広く研究され、少なくとも3つのレベル (qutrit) からなるシステムで実験的に検証されている。 ここでは、文脈性の実験的なテストの範囲を、単一の$^{171}$Yb$^+$イオン上で最小誤差状態判別を実装することで、2つの状態(量子ビット)の最小量子系に拡張する。 非コンテクスト性を想定したノーゴー不平等の実質的な違反を観察し、国家差別の計測結果が非コンテクスト的記述と整合できないと断定する。 また、状態判別の文脈的利点と量子雑音に対する耐性を定量化する。

Exploring quantum phenomena beyond predictions of any classical model has fundamental importance to understand the boundary of classical and quantum descriptions of nature. As a typical property that a quantum system behaves distinctively from a classical counterpart, contextuality has been studied extensively and verified experimentally in systems composed of at least three levels (qutrit). Here we extend the scope of experimental test of contextuality to a minimal quantum system of only two states (qubit) by implementing the minimum error state discrimination on a single $^{171}$Yb$^+$ ion. We observe a substantial violation of a no-go inequality derived by assuming non-contextuality, and firmly conclude that the measured results of state discrimination cannot be reconciled with any non-contextual description. We also quantify the contextual advantage of state discrimination and the tolerance against quantum noises.
翻訳日:2023-02-08 10:02:35 公開日:2022-06-22
# 量子電子波束を用いた結合電子量子状態のコヒーレント励起

Coherent excitation of bound electron quantum state with quantum electron wavepackets ( http://arxiv.org/abs/2206.10803v1 )

ライセンス: Link先を確認
Du Ran, Bin Zhang, Reuven Ianconescu, Aharon Friedman, Jacob Scheuer, Amnon Yariv, and Avraham Gover(参考訳) 自由電子有界電子共鳴相互作用(FEBERI)に基づく有界電子の励起のための完全量子モデルを提案する。 有界電子は任意の初期量子(量子ビット)状態における量子二レベル系(TLS)としてモデル化され、自由電子は前形量子電子波束(QEW)として提示される。 QEWが短いか光周波数で変調されている場合、TLS量子状態は複数の変調関連QEWとコヒーレントに制御される。 この場合、ボーンの量子電子波動関数の確率論的解釈を用いたシュロディンガー方程式の解析的近似解に基づいて、多粒子ビームとの相互作用によるTLSの遷移確率を導出する。 完全量子密度行列計算法を用いて,解析モデルの信頼性をその妥当性範囲で検証する。 遷移確率は相関するQEWの数で2次的に増加し、理論的には完全なRabi振動を示す。 この研究は、形状のQEWのビームを利用してTLSの量子状態を構築する可能性を示している。

We present a fully quantum model for the excitation of a bound electron based on the free-electron bound-electron resonant interaction (FEBERI) scheme. The bound electron is modeled as a quantum two-level system (TLS) at any initial quantum (qubit) state, and the free electron is presented as a pre-shaped quantum electron wavepacket (QEW). In the case that the QEW is short or modulated at optical frequency, the TLS quantum state may be coherently controlled with multiple modulation-correlated QEWs. For this case, we derive the transition probability of the TLS due to interaction with a multi-particle beam based on an analytical approximate solution of the Schrodinger equation that amounts to using Born's probabilistic interpretation of the quantum electron wavefunction. We verify the credibility of the analytical model at its validity ranges using a fully quantum density matrix computation procedure. It is shown that the transition probability can grow quadratically with the number of correlated QEWs, and theoretically - exhibit full Rabi oscillation. The study indicates a possibility of engineering the quantum state of a TLS by utilizing a beam of shaped QEWs.
翻訳日:2023-02-08 10:02:18 公開日:2022-06-22
# ボルンの規則と置換不変性

Born's rule and permutation invariance ( http://arxiv.org/abs/2206.11055v1 )

ライセンス: Link先を確認
C Dedes(参考訳) 確率密度は、その多粒子形において空間的遠隔領域で作用する微分を含むという特徴を持つ双曲運動方程式を満たすことが示されている。 この特徴に基づき、粒子間相関と量子平衡条件と確率密度の置換不変性の関係について検討する。 量子から古典への遷移に関するいくつかの言及も提示されている。

It is shown that the probability density satisfies a hyperbolic equation of motion with the unique characteristic that in its many-particle form it contains derivatives acting at spatially remote regions. Based on this feature we explore inter-particle correlations and the relation between the quantum equilibrium condition and the permutation invariance of the probability density. Some remarks with respect to the quantum to classical transition are also presented.
翻訳日:2023-02-08 09:57:30 公開日:2022-06-22
# 1量子回路における任意個の固有ペアの変分決定

Variational determination of arbitrarily many eigenpairs in one quantum circuit ( http://arxiv.org/abs/2206.11036v1 )

ライセンス: Link先を確認
Guanglei Xu, Yi-Bin Guo, Xuan Li, Zong-Sheng Zhou, Hai-Jun Liao, T. Xiang(参考訳) 最先端の量子コンピューティングハードウェアは、ノイズの多い中間スケール量子(NISQ)時代に入った。 量子ビットの限られた数と浅い回路深さに制約されていたため、NISQデバイスは様々な分野への応用の可能性を示した。 例えば、基底状態の計算に最初に導入された変分量子固有解法(VQE)がある。 VQEは現在、励起状態の研究に拡張されているが、以前提案されたアルゴリズムは、異なる試行状態の直交性を保証するために、より深い量子回路を持つ多くの余分な演算を必要とする再帰的最適化スキームを含んでいる。 本稿では,多くの低エネルギー固有状態を同時に決定するアルゴリズムを提案する。 最適化プロセス全体を通して互いに直交するように、試行状態の清浄のために補助量子ビットを導入することにより、これらの状態を1つの量子回路で効率的に計算することができる。 提案アルゴリズムは回路の複雑さと読み出し誤差を大幅に低減し,固有ペアを正確に決定できる固有部分空間上で柔軟な後処理を可能にする。 逆イジングモデルに適用することで,このアルゴリズムを実証する。 この変分アルゴリズムを用いて得られた結果と正確な結果を比較することで、ハミルトニアンの固有値が回路深度の増加とともに急速に収束することが分かった。 収束固有値の精度は同じ順序であり、任意の2つの固有値の差が固有値自身よりも正確に決定できることを意味する。

The state-of-the-art quantum computing hardware has entered the noisy intermediate-scale quantum (NISQ) era. Having been constrained by the limited number of qubits and shallow circuit depth, NISQ devices have nevertheless demonstrated the potential of applications on various subjects. One example is the variational quantum eigensolver (VQE) that was first introduced for computing ground states. Although VQE has now been extended to the study of excited states, the algorithms previously proposed involve a recursive optimization scheme which requires many extra operations with significantly deeper quantum circuits to ensure the orthogonality of different trial states. Here we propose a new algorithm to determine many low energy eigenstates simultaneously. By introducing ancillary qubits to purify the trial states so that they keep orthogonal to each other throughout the whole optimization process, our algorithm allows these states to be efficiently computed in one quantum circuit. Our algorithm reduces significantly the complexity of circuits and the readout errors, and enables flexible post-processing on the eigen-subspace from which the eigenpairs can be accurately determined. We demonstrate this algorithm by applying it to the transverse Ising model. By comparing the results obtained using this variational algorithm with the exact ones, we find that the eigenvalues of the Hamiltonian converge quickly with the increase of the circuit depth. The accuracies of the converged eigenvalues are of the same order, which implies that the difference between any two eigenvalues can be more accurately determined than the eigenvalues themselves.
翻訳日:2023-02-08 09:57:23 公開日:2022-06-22
# 情報漂白・無拘束理論・不定因数順序

Information Bleaching, No-Hiding Theorem and Indefinite Causal Order ( http://arxiv.org/abs/2206.11032v1 )

ライセンス: Link先を確認
Abhay Srivastav and Arun Kumar Pati(参考訳) 情報漂白とは、物理系の初期状態から量子情報を除去する物理過程を指す。 ノンハイディングの定理は、情報が初期系から失われる場合、二成分量子相関に留まらず、ヒルベルト空間の残りの部分に存在することを証明している。 隠れマップが不定因果順序の存在下で入力状態に作用すると、相関関係に量子情報を隠すことができることを示す。 では、それは無加法定理に違反するのか? 我々はこの問題を解析し、拡張ヒルベルト空間において、まだ無加法定理を尊重すると論じる。 また、2つの隠れマップの重ね合わせを用いて量子情報をマスクする方法についても論じる。 以上の結果は,情報の忠実性,量子コヒーレンス保存,不定因果順序を持つ2つの隠れ地図の存在下での作業抽出に重要な意味を持つ。 さらに, 絡み合う組の半分に対して, 不定因果順序の存在下で隠れマップを適用し, 絡み合いが保存できないことを示す。 最後に,量子エンタングルメントは破壊されているが,因果順序の不定なエンタングルメント忠実度はゼロではなく,1に近い値に近づくことができることを議論する。

The information bleaching refers to any physical process that removes quantum information from the initial state of the physical system. The no-hiding theorem proves that if information is lost from the initial system, then it cannot remain in the bipartite quantum correlation and must be found in the remainder of the Hilbert space. We show that when hiding map acts on the input state in the presence of indefinite causal order, then it is possible to hide quantum information in the correlation. One may ask, does it then violate the no-hiding theorem? We analyse this question and argue that in the extended Hilbert space, it will still respect the no-hiding theorem. We also discuss how to mask quantum information using superposition of two hiding maps. Our results can have interesting implications in preserving the fidelity of information, preservation of quantum coherence and work extraction in the presence of two hiding maps with indefinite causal order. Furthermore, we apply the hiding maps in the presence of indefinite causal order on half of an entangled pair and show that entanglement cannot be preserved. Finally, we discuss that even though quantum entanglement is destroyed, the entanglement fidelity under indefinite causal order is non-zero and can approach close to one.
翻訳日:2023-02-08 09:57:02 公開日:2022-06-22
# 光スピン初期化とキャビティ結合量子ドットを用いた平面内磁場下での読み出し

Optical Spin Initialisation and Readout with a Cavity-Coupled Quantum Dot in an In-Plane Magnetic Field ( http://arxiv.org/abs/2206.11008v1 )

ライセンス: Link先を確認
Samuel J. Sheldon, Alistair J. Brash, Maurice S. Skolnick, A. Mark Fox, Jake Iles-Smith(参考訳) 光空洞に結合された荷電半導体量子ドット(QD)のスピンは、高忠実度スピン光子界面の有望な候補であり、この空洞はスピンの初期化、操作、読み出しのような光遷移の崩壊率を選択的に調節する。 キャビティqed計算を行うことにより、単一線形偏極モードのキャビティは1つの面内磁場において高忠実な光スピン初期化と読み出しの両方を同時に支援できることを示した。 さらに, 単モードキャビティは, 実験的に有利な運転形態において, 常にバイモーダルキャビティよりも優れていることを示す。 本解析は,voigt幾何場における確立された制御法と組み合わせることで,高忠実度初期化と読み出しのための最適パラメータレジームとキャビティ構成におけるコヒーレント制御を提供し,qdスピンフォトニック界面の設計と開発のための洞察を与える。

The spin of a charged semiconductor quantum dot (QD) coupled to an optical cavity is a promising candidate for high fidelity spin-photon interfaces; the cavity selectively modifies the decay rates of optical transitions such that spin initialisation, manipulation, and readout are all possible in a single magnetic field geometry. By performing cavity QED calculations, we show that a cavity with a single, linearly-polarised mode can simultaneously support both high-fidelity optical spin initialisation and readout in a single, in-plane (Voigt geometry) magnetic field. Furthermore, we demonstrate that single mode cavities always outperform bi-modal cavities in experimentally favourable driving regimes. Our analysis, when combined with established methods of control in a Voigt geometry field, provides optimal parameter regimes for high-fidelity initialisation and readout, and coherent control in both cavity configurations, providing insights for the design and development of QD spin-photon interfaces.
翻訳日:2023-02-08 09:56:09 公開日:2022-06-22
# ハイブリッド場を用いた超精密オフ軸原子局在化

Ultraprecise off-axis atom localization with hybrid fields ( http://arxiv.org/abs/2206.10979v1 )

ライセンス: Link先を確認
Ning Jia, Xing-Dong Zhao, Wen-Rong Qi and Jing Qian(参考訳) 原子の局在化は原子の位置の高精度なイメージングを可能にし、基礎科学や応用科学に大きな応用をもたらした。 本研究では,3レベルLambda型システムにおける2次元オフ軸原子の局在化を実現する手法を提案する。 1つのガウスビームと1つのラゲール・ガウスビームからなるハイブリッドカップリング場を用いることで、これらの原子を高空間分解能で任意の位置に局在させることができることを示す。 実際の実験パラメータを考慮すると、数値シミュレーションにより、数マイクロメートルの半径距離からビームコアまでの空間分解能約200nmの範囲で原子を正確に局在化できることが予測される。 この結果は、2次元システムで原子を局在させるより柔軟な方法を提供し、ナノメートルスケールの原子リソグラフィーと超精密顕微鏡に近づいた可能性がある。

Atom localization enables a high-precision imaging of the atomic position, which has provided vast applications in fundamental and applied science. In the present work, we propose a scheme for realizing two-dimensional off-axis atom localization in a three-level Lambda-type system. Benefiting from the use of a hybrid coupling field which consists of one Gaussian beam and one Laguerre-Gaussian beam, our scheme shows that the atoms can be localized at arbitrary position with a high spatial resolution. Taking account of realistic experimental parameters, our numerical simulation predicts that the atoms can be precisely localized with a spatial resolution of ~200 nm in the range of a radial distance of a few micrometers to the beam core. Our results provide a more flexible way to localize atoms in a two-dimensional system, possibly paving one-step closer to the nanometer-scale atom lithography and ultraprecise microscopy.
翻訳日:2023-02-08 09:55:46 公開日:2022-06-22
# 空の波の影響は、構成空間に残っていますか?

Do(es the influence of) empty waves survive in configuration space? ( http://arxiv.org/abs/2206.10918v1 )

ライセンス: Link先を確認
Thomas Durt(参考訳) de broglie-bohm の解釈は、宇宙の全ての粒子によって生成される空の波、つまり決して崩壊しない空の波に囲まれていることを暗黙の解釈である。 これらのパイロット波と3次元電波の類似性を確立することは一般的であり、これはエネルギーをほとんど失わないが、増幅処理後にアクセス可能な情報を持っている。 構成空間における空の波を考えると、検出器がクリックし、粒子に関連する第3の空の波が他の粒子に影響を与えない場合、効果的に崩壊する(たとえこれら2つの粒子が同一であるとしても、例えばボソンがここで考慮した例のように)。

The de Broglie-Bohm interpretation is a no-collapse interpretation, which implies that we are in principle surrounded by empty waves generated by all particles of the universe, empty waves that will never collapse. It is common to establish an analogy between these pilot-waves and 3D radio-waves, which are nearly devoided of energy but carry nevertheless information to which we may have access after an amplification process. Here we show that this analogy is limited: if we consider empty waves in configuration space, an effective collapse occurs when a detector clicks and the 3ND empty wave associated to a particle may not influence another particle (even if these two particles are identical, e.g. bosons as in the example considered here).
翻訳日:2023-02-08 09:54:56 公開日:2022-06-22
# VeriQBench: 複数種類の量子回路のベンチマーク

VeriQBench: A Benchmark for Multiple Types of Quantum Circuits ( http://arxiv.org/abs/2206.10880v1 )

ライセンス: Link先を確認
Kean Chen, Wang Fang, Ji Guan, Xin Hong, Mingyu Huang, Junyi Liu, Qisheng Wang and Mingsheng Ying(参考訳) 本稿では,量子回路のオープンソースベンチマークであるVeriQBenchを紹介する。 様々な回路タイプの高レベル量子回路抽象化を提供する。 1) 組み合わせ, 組み合わせ 2) 動的, 動的 3)シーケンシャル、および 4) 変分量子回路は、文献上の既存の量子回路のほとんど全ての種類をカバーする。 一方、VeriQBenchは、量子回路検証(例えば、等価性チェック [Hon+21a; WLY21] とモデルチェック [Yin21])、シミュレーション(例えば、故障シミュレーション)、テスト(例えば、テストパターン生成(CY22))、デバッグ(例えば、実行時アサーション [Li+20b]))などの既存の研究によって証明されているように、異なるアプリケーションに対する量子ソフトウェアを検証するのに使用できる汎用ベンチマークである。 すべての回路はOpenQASMで記述され、QiskitとQCORシミュレータで検証される。 他の研究者が利用できることを期待して、VeriQBenchはhttps://github.com/Veri-Q/Benchmark.comでリリースされた。

In this paper, we introduce VeriQBench -- an open source benchmark for quantum circuits. It offers high-level quantum circuit abstractions of various circuit types, including 1) combinational, 2) dynamic, 3) sequential, and 4) variational quantum circuits, which cover almost all existing types of quantum circuits in the literature. Meanwhile, VeriQBench is a versatile benchmark which can be used in verifying quantum software for different applications, as is evidenced by the existing works including quantum circuit verification (e.g., equivalence checking [Hon+21a; WLY21] and model checking [Yin21]), simulation (e.g., fault simulation), testing (e.g., test pattern generation [CY22]) and debugging (e.g., runtime assertions [Li+20b]). All the circuits are described in OpenQASM and are validated on Qiskit and QCOR simulators. With the hope that it can be used by other researchers, VeriQBench is released at: https://github.com/Veri-Q/Benchmark.
翻訳日:2023-02-08 09:54:31 公開日:2022-06-22
# 色変化と絵画品質を考慮した量子コンピューティングに基づくペイントショップ車両シークエンシング

Paint shop vehicle sequencing based on quantum computing considering color changeover and painting quality ( http://arxiv.org/abs/2206.11204v1 )

ライセンス: Link先を確認
Jing Huang, Hua-Tzu Fan, Guoxian Xiao, Qing Chang(参考訳) 顧客需要が多様化するにつれて、自動車会社の車両の色やスタイルも大幅に伸びている。 自動車製造システムの設計と管理には大きな課題があり、特に塗装工場の日常業務における車両の適切なシークエンシングが課題となっている。 通常、何百台もの車両がシフトしているため、ペイントショップのシーケンシング問題は古典的な計算では難解である。 本稿では,最先端の量子計算アルゴリズムを用いて,一般的なペイントショップシーケンシング問題を解くことを提案する。 既存の作品のほとんどは、カラーチェンジャーコスト、すなわち連続する車両間で異なる色によって生じるコストの削減にのみ焦点が当てられている。 この研究は、車両の異なるシークエンシングが、塗装工程の品質に大きく影響することを明らかにする。 過去のデータに基づいて事前学習した機械学習モデルを用いて,絵画欠陥の確率を予測する。 この問題は2つのコスト成分、すなわち色切替コストと修理コストの組合せ最適化問題として定式化されている。 この問題は量子最適化問題に変換され、量子近似最適化アルゴリズム(QAOA)で解かれる。 実際、現在の量子コンピュータは、精度と拡張性に制限がある。 しかし, 簡単なケーススタディにより, ペイントショップにおける古典的なシークエンシング問題を量子コンピューティングを用いて定式化し, 解決できることを示すとともに, 製造システムにおける実際の問題の解決における量子コンピューティングの可能性を示す。

As customer demands become increasingly diverse, the colors and styles of vehicles offered by automotive companies have also grown substantially. It poses great challenges to design and management of automotive manufacturing system, among which is the proper sequencing of vehicles in everyday operation of the paint shop. With typically hundreds of vehicles in one shift, the paint shop sequencing problem is intractable in classical computing. In this paper, we propose to solve a general paint shop sequencing problem using state-of-the-art quantum computing algorithms. Most existing works are solely focused on reducing color changeover costs, i.e., costs incurred by different colors between consecutive vehicles. This work reveals that different sequencing of vehicles also significantly affects the quality performance of the painting process. We use a machine learning model pretrained on historical data to predict the probability of painting defect. The problem is formulated as a combinational optimization problem with two cost components, i.e., color changeover cost and repair cost. The problem is further converted to a quantum optimization problem and solved with Quantum Approximation Optimization Algorithm (QAOA). As a matter of fact, current quantum computers are still limited in accuracy and scalability. However, with a simplified case study, we demonstrate how the classic sequencing problem in paint shop can be formulated and solved using quantum computing and demonstrate the potential of quantum computing in solving real problems in manufacturing systems.
翻訳日:2023-02-08 09:48:54 公開日:2022-06-22
# メソスコピックリングにおける結合電流-古典的および量子的ノイズによるデコヒーレンスの符号

Bond current in a mesoscopic ring -- signature of decoherence due to classical and quantum noise ( http://arxiv.org/abs/2206.11139v1 )

ライセンス: Link先を確認
Sushanta Dattagupta and Tanmay Saha(参考訳) 3サイトメソスコピック環は、環がアハロノフ・ボームフラックスでスレッディングされているときの結合電流の正確な計算に理想的な設定を与える。 結合電流は、量子相のコヒーレントな性質の測定可能な結果である。 しかし、リングが環境に接触した場合、コヒーレンスがノイズによって阻害される。 このコヒーレンス対インコヒーレンス遷移は、古典的(ゲージ的および電信的)と量子ノイズの両方について詳細に分析され、量子ノイズが散逸量子力学のスピンボソンハミルトニアンによって制御されたときに比較評価される。

A three-site mesoscopic ring provides an ideal setting for an exact calculation of the bond current when the ring is threaded by an Aharonov-Bohm flux. The bond current is a measurable outcome of the coherent properties of the quantum phase. However the coherence is impeded by noise when the ring is put in contact with an environment. This coherence-to-incoherence transition is analyzed in detail here for both classical (Gaussian and telegraphic) and quantum noise and a comparative assessment is made when the quantum noise is governed by a spin-boson Hamiltonian of dissipative quantum mechanics.
翻訳日:2023-02-08 09:46:11 公開日:2022-06-22
# 原子量子技術のための微視的3dプリント光tweezer

Microscopic 3D printed optical tweezers for atomic quantum technology ( http://arxiv.org/abs/2206.11090v1 )

ライセンス: Link先を確認
Pavel Ruchka, Sina Hammer, Marian Rockenh\"auser, Ralf Albrecht, Johannes Drozella, Simon Thiele, Harald Giessen, Tim Langen(参考訳) 単一超低温原子のトラップは、量子計算や通信からセンシングまで、アプリケーションにとって重要なツールである。 しかし、ほとんどの実験装置は、非常に正確で汎用性がありながら、その大きさ、複雑さ、コストが高いため、特殊な実験室環境でしか運用できない。 そこで本稿では,光ファイバーの先端に3dプリントしたマイクロメートルレンズを用いて,超低温原子を光学トワイザにトラップする新しいコンセプトを提案する。 これらのレンズのユニークな特性は、個々の原子を捕捉し、高い効率で蛍光を捕捉するのに適している。 探索実験において, 構造体の真空整合性と強靭性を確立し, その近傍に超低温原子の磁気光学トラップを形成することに成功した。 これにより、ポータブルな原子量子デバイスに有望なコンポーネントとなる。

Trapping of single ultracold atoms is an important tool for applications ranging from quantum computation and communication to sensing. However, most experimental setups, while very precise and versatile, can only be operated in specialized laboratory environments due to their large size, complexity and high cost. Here, we introduce a new trapping concept for ultracold atoms in optical tweezers based on micrometer-scale lenses that are 3D printed onto the tip of standard optical fibers. The unique properties of these lenses make them suitable for both trapping individual atoms and capturing their fluorescence with high efficiency. In an exploratory experiment, we have established the vacuum compatibility and robustness of the structures, and successfully formed a magneto-optical trap for ultracold atoms in their immediate vicinity. This makes them promising components for portable atomic quantum devices.
翻訳日:2023-02-08 09:45:55 公開日:2022-06-22
# 量子過程における対称性、可逆性、量子コヒーレンスの間の普遍的トレードオフ構造

Universal trade-off structure between symmetry, irreversibility, and quantum coherence in quantum processes ( http://arxiv.org/abs/2206.11086v1 )

ライセンス: Link先を確認
Hiroyasu Tajima, Ryuji Takagi, Yui Kuramochi(参考訳) 対称性、可逆性、量子コヒーレンスなどは物理学の基本概念である。 ここでは,これら3つの概念の橋渡しとなる普遍的トレードオフ関係を示す。 このトレードオフは、(1)大域対称性の下で、保存量を変化させる局所力学を誘導しようとする試みは、不可避な不可逆性を生じさせ、(2)そのような不可逆性を量子コヒーレンスによって緩和することができることを特に示している。 我々の基本的な関係は物理学や量子情報処理にも広く応用されている。 熱力学の文脈では、任意の等温過程におけるエントロピー生成と量子コヒーレンスの間のトレードオフ関係を導出する。 また、ブラックホール物理学との関係を応用し、hayden-preskillモデルの下でブラックホールに投げ込まれた古典的情報の何ビットが読めなくなるかに関する普遍的な下界を得る。 このことは、ブラックホールが十分に大きく、適切なエンコーディングの下では、少なくとも$m/4$のビットは、ブラックホールの99%が蒸発するまで発見できないことを示している。 量子情報処理への応用として、任意の量子チャネルを実装するためのコヒーレンスコストの上限を低くする。 このバウンダリを用いて、明確な操作意味を持つ定量的なウィグナー・アラキ・ヤネーゼの定理と、ユニタリゲート実装におけるエラーコヒーレンストレードオフと、共変符号化による近似誤差補正のためのエラー下界を得る。 我々の主な関係は量子不確実性関係に基づいており、基本的な物理原理と究極の操作能力の親密な関係を示す。

Symmetry, irreversibility, and quantum coherence are foundational concepts in physics. Here, we present a universal trade-off relation that builds a bridge between these three concepts. This trade-off particularly reveals that (1) under a global symmetry, any attempt to induce local dynamics that change the conserved quantity will cause inevitable irreversibility, and (2) such irreversibility could be mitigated by quantum coherence. Our fundamental relation also admits broad applications in physics and quantum information processing. In the context of thermodynamics, we derive a trade-off relation between entropy production and quantum coherence in arbitrary isothermal processes. We also apply our relation to black hole physics and obtain a universal lower bound on how many bits of classical information thrown into a black hole become unreadable under the Hayden-Preskill model with the energy conservation law. This particularly shows that when the black hole is large enough, under suitable encoding, at least about $m/4$ bits of the thrown $m$ bits will be irrecoverable until 99 percent of the black hole evaporates. As an application to quantum information processing, we provide a lower bound on the coherence cost to implement an arbitrary quantum channel. We employ this bound to obtain a quantitative Wigner-Araki-Yanase theorem that comes with a clear operational meaning, as well as an error-coherence trade-off for unitary gate implementation and an error lower bound for approximate error correction with covariant encoding. Our main relation is based on quantum uncertainty relation, showcasing intimate connections between fundamental physical principles and ultimate operational capability.
翻訳日:2023-02-08 09:45:42 公開日:2022-06-22
# ボース・アインシュタイン凝縮体における動的量子バック反応に対する数保存解

Number-conserving solution for dynamical quantum backreaction in a Bose-Einstein condensate ( http://arxiv.org/abs/2206.11317v1 )

ライセンス: Link先を確認
Sang-Shin Baak, Caio C. Holanda Ribeiro, Uwe R. Fischer(参考訳) 超低温ガス実験室で実験的に実現可能なボース・アインシュタイン凝縮体の完全可溶性力学進化のための古典的背景への小さな量子揺らぎのバックリアクション問題に対する数保存的アプローチを提案する。 量子起源の気体粒子に作用する力密度は、古典的ユーレリア力密度からの偏差として一意に同定される。 反反応方程式は、最初は静止状態にあった有限サイズの一様密度凝縮の特定の例のために研究される。 凝縮が非相互作用状態から始まり、その基底状態において、その相互作用を瞬時にオンにすることで平衡外へ駆動されるよく定義された初期真空条件を固定する。 この初期真空の仮定は、相拡散とその後の凝縮崩壊による相互作用する凝縮物に対する真空状態の選択の曖昧さを考慮に入れている。 主要な発見として、凝縮雲の時間的進化は、全密度のパワースペクトルを求める測定において、一般に量子的枯渇から切り離すことができない凝縮密度補正につながることを明らかにした。 さらに、凝縮は初め静止しているが、量子揺らぎは非自明な凝縮流束を生じさせ、そこから量子力密度が古典オイラー力の減衰を証明している。 最後に、静止状態における凝縮の時間関数としての粒子密度の知識は、粒子の総数である量子力密度であるy_n^0$を順序付けし、実験的にアクセス可能な量子反作用効果を得るための有効な経路を提供する。

We provide a number-conserving approach to the backreaction problem of small quantum fluctuations onto a classical background for the exactly soluble dynamical evolution of a Bose-Einstein condensate, experimentally realizable in the ultracold gas laboratory. A force density exerted on the gas particles which is of quantum origin is uniquely identified as the deviation from the classical Eulerian force density. The backreaction equations are then explored for the specific example of a finite size uniform density condensate initially at rest. By assuming that the condensate starts from a non-interacting regime, and in its ground state, we fix a well-defined initial vacuum condition, which is driven out-of-equilibrium by instantaneously turning on the interactions. The assumption of this initial vacuum accounts for the ambiguity in choosing a vacuum state for interacting condensates, which is due to phase diffusion and the ensuing condensate collapse. As a major finding, we reveal that the time evolution of the condensate cloud leads to condensate density corrections that cannot in general be disentangled from the quantum depletion in measurements probing the power spectrum of the total density. Furthermore, while the condensate is initially at rest, quantum fluctuations give rise to a nontrivial condensate flux, from which we demonstrate that the quantum force density attenuates the classical Eulerian force. Finally, the knowledge of the particle density as a function of time for a condensate at rest determines, to order $N^0$, where $N$ is the total number of particles, the quantum force density, thus offering a viable route for obtaining experimentally accessible quantum backreaction effects.
翻訳日:2023-02-08 09:39:35 公開日:2022-06-22
# 決定論的にグラフ状態を生成するモジュラーアーキテクチャ

Modular architectures to deterministically generate graph states ( http://arxiv.org/abs/2206.11307v1 )

ライセンス: Link先を確認
Hassan Shapourian and Alireza Shabani(参考訳) グラフ状態は安定状態の族であり、フォトニック量子コンピューティングや量子通信における様々な用途に合わせることができる。 本稿では、導波路および光ファイバ遅延線に結合した量子ドットエミッタに基づくモジュラー設計を行い、N次元クラスタ状態および木状態やリピータ状態などの有用なグラフ状態を決定的に生成する。 従来の提案とは異なり、我々の設計では量子ドット上の2量子ビットゲートや、少なくとも1つの光スイッチは必要とせず、そのため通常これらの要件によって生じる課題を最小限に抑えることができる。 さらに,raussendorf-harrington-goyal (rhg) 格子上の3次元グラフ状態の場合,誤差しきい値が0.53%のフォールトトレラント量子メモリについて述べる。 また、その状態が単純な立方体クラスタ状態から直接生成されるか取得されるかによって 1.24 db または 0.24 db となるパーコレーション理論に基づいて、フォールトトレラントrhg状態の補正可能な損失の基本的な上限を提供する。

Graph states are a family of stabilizer states which can be tailored towards various applications in photonic quantum computing and quantum communication. In this paper, we present a modular design based on quantum dot emitters coupled to a waveguide and optical fiber delay lines to deterministically generate N-dimensional cluster states and other useful graph states such as tree states and repeater states. Unlike previous proposals, our design requires no two-qubit gates on quantum dots and at most one optical switch, thereby, minimizing challenges usually posed by these requirements. Furthermore, we discuss the error model for our design and demonstrate a fault-tolerant quantum memory with an error threshold of 0.53% in the case of a 3d graph state on a Raussendorf-Harrington-Goyal (RHG) lattice. We also provide a fundamental upper bound on the correctable loss in the fault-tolerant RHG state based on the percolation theory, which is 1.24 dB or 0.24 dB depending on whether the state is directly generated or obtained from a simple cubic cluster state, respectively.
翻訳日:2023-02-08 09:39:10 公開日:2022-06-22
# 弱ウィグナー近似による摂動理論は、系環境の絡み合い形成が量子デコヒーレンスをいかに駆動するかを明らかにする

Perturbation theory under the truncated Wigner approximation reveals how system-environment entanglement formation drives quantum decoherence ( http://arxiv.org/abs/2206.11306v1 )

ライセンス: Link先を確認
Justin Provazza and Roel Tempelaar(参考訳) 量子デコヒーレンス(quantum decoherence)は、環境との相互作用の結果、離散量子システム内の単純な位相関係の消失である。 多くのアプリケーションにとって、問題はシステム環境の相互作用を避けることではなく、そのような相互作用にもかかわらずシステムの位相関係を最適に保存する環境を設計する方法である。 システム環境の絡み合いの形成は、デコヒーレンスの主要な駆動機構であり、このプロセスの詳細な理解は、コヒーレンスを最適に保存するための戦略を伝えることができる。 これには、環境の絡み合い特性に関する詳細な情報を保持するスケーラブルでフレキシブルで、体系的に改善可能な量子力学メソッドが必要であるが、この組み合わせを提供する現在の方法はほとんどない。 ここでは, トランキャットされたウィグナー近似と標準時間依存摂動理論を組み合わせることで, システム環境ヒルベルト空間の演算子の期待値を計算できる理論的枠組みを導入することにより, このニーズに対処する。 量子ビットおよび単純なドナー・アクセプタシステムの代表であるスピンボーソンモデルに適用することにより、このフレームワークの有用性を実証する。 このモデルでは、予測値に対する摂動的貢献の分析的な記述を提供する。 ゼロ温度での量子デコヒーレンスと個々の環境自由度との絡み合い形成の関係を観察する。 この絡み合い挙動に基づき、低周波環境モードの選択的抑制が量子デコヒーレンス緩和に特に有効であることを見出した。

Quantum decoherence is the disappearance of simple phase relations within a discrete quantum system as a result of interactions with an environment. For many applications, the question is not necessarily how to avoid (inevitable) system-environment interactions, but rather how to design environments that optimally preserve a system's phase relations in spite of such interactions. The formation of system-environment entanglement is a major driving mechanism for decoherence, and a detailed understanding of this process could inform strategies for conserving coherence optimally. This requires scalable, flexible, and systematically improvable quantum dynamical methods that retain detailed information about the entanglement properties of the environment, yet very few current methods offer this combination of features. Here, we address this need by introducing a theoretical framework wherein we combine the truncated Wigner approximation with standard time-dependent perturbation theory allowing for computing expectation values of operators in the combined system-environment Hilbert space. We demonstrate the utility of this framework by applying it to the spin-boson model, representative of qubits and simple donor-acceptor systems. For this model, our framework provides an analytical description of perturbative contributions to expectation values. We monitor how quantum decoherence at zero temperature is accompanied by entanglement formation with individual environmental degrees of freedom. Based on this entanglement behavior, we find that the selective suppression of low-frequency environmental modes is particularly effective for mitigating quantum decoherence.
翻訳日:2023-02-08 09:38:51 公開日:2022-06-22
# 温度誘起障害非局在化

Temperature-Induced Disorder-Free Localization ( http://arxiv.org/abs/2206.11273v1 )

ライセンス: Link先を確認
Jad C. Halimeh, Philipp Hauke, Johannes Knolle, Fabian Grusdt(参考訳) 障害のない局所化は強いエルゴディディディティの破れのパラダイムであり、多くのゲージセクター上の重ね合わせでシステムが初期化されるときに格子ゲージ理論のグローバルなクエンチで起こることが示されている。 本稿では,異なるゲージセクタ間のコヒーレンスを伴わないサーマルギブスアンサンブルでシステムを作成することで,無秩序な局所化を生じさせ,温度が障害強度として作用することを示した。 熱アンサンブルの非平衡のクエンチダイナミクスを, 正確な対角化を通じて, $\mathrm{U}(1)$と$\mathbb{Z}_2$の格子ゲージ理論で計算し, アンサンブル温度の増大に伴う局所化の増大を示す。 さらに,局所的擬似ジェネレータにおける項の線形化は,局所対称性のリッチ化による温度誘起障害の局所化をいかに促進するかを示す。 我々の研究は、障害のない局所化の領域を有限温度物理学に拡張し、ある量子非エルゴード現象が高温でより顕著になることを示す。 我々は、現在の量子シミュレーションと計算プラットフォームにおける結論のアクセシビリティについて論じる。

Disorder-free localization is a paradigm of strong ergodicity breaking that has been shown to occur in global quenches of lattice gauge theories when the system is initialized in a superposition over an extensive number of gauge sectors. Here, we show that preparing the system in a thermal Gibbs ensemble without any coherences between different gauge sectors also gives rise to disorder-free localization, with temperature acting as a disorder strength. We demonstrate our findings by calculating the quench dynamics of the imbalance of thermal ensembles in both $\mathrm{U}(1)$ and $\mathbb{Z}_2$ lattice gauge theories through exact diagonalization, showing greater localization with increasing ensemble temperature. Furthermore, we show how adding terms linear in local pseudogenerators can enhance temperature-induced disorder-free localization due to the dynamical emergence of an enriched local symmetry. Our work expands the realm of disorder-free localization into finite-temperature physics, and shows counterintuitively that certain quantum nonergodic phenomena can become more prominent at high temperature. We discuss the accessibility of our conclusions in current quantum simulation and computing platforms.
翻訳日:2023-02-08 09:38:04 公開日:2022-06-22
# 量子回路のab initioマシン合成の検討

Exploring ab initio machine synthesis of quantum circuits ( http://arxiv.org/abs/2206.11245v1 )

ライセンス: Link先を確認
Richard Meister, Cica Gustiani, Simon C. Benjamin(参考訳) ゲートレベルの量子回路は、しばしば高レベルアルゴリズムから手動で導かれる。 これは小さな実装やデモに十分だが、最終的にはハードウェア固有の操作と接続性を使って複雑なアルゴリズムを実現するために自動回路設計が必要である。 ここでは,従来のコンピュータやハイブリッド量子古典デバイスといった,機械内の回路の初期生成手法について検討する。 我々は,新しいゲート構造の導入方法,パラメータ化回路の最適化,コスト関数の選択,量子幾何テンソルや他のヒューリスティックを活用した低値ゲートの効率的な除去など,様々な手法を検討する。 これらの原理を用いて、一元的プロセスの自動符号化と回路の1つの形式から別の形式への変換(再コンパイル)のタスクに取り組む。 様々なノイズフリーゲートセットを持つエミュレートされた量子コンピュータを用いて、使用する拡張空間の20キュービットに対応する最大10キュービットの単純な例を提供する。 化学モデリングにおける特定の関連性のさらなる応用は、"exploiting subspace constraints and ab initio variational methods for quantum chemistry"という姉妹論文で検討されている。

Gate-level quantum circuits are often derived manually from higher level algorithms. While this suffices for small implementations and demonstrations, ultimately automatic circuit design will be required to realise complex algorithms using hardware-specific operations and connectivity. Here we explore methods for the ab initio creation of circuits within a machine, either a classical computer or a hybrid quantum-classical device. We consider a range of techniques including: methods for introducing new gate structures, optimisation of parameterised circuits and choices of cost functions, and efficient removal of low-value gates exploiting the quantum geometric tensor and other heuristics. Using these principles we tackle the tasks of automatic encoding of unitary processes and translation (recompilation) of a circuit from one form to another. Using emulated quantum computers with various noise-free gate sets we provide simple examples involving up to 10 qubits, corresponding to 20 qubits in the augmented space we use. Further applications of specific relevance to chemistry modelling are considered in a sister paper, 'Exploiting subspace constraints and ab initio variational methods for quantum chemistry'.
翻訳日:2023-02-08 09:36:57 公開日:2022-06-22
# 秘密文字列学習のための量子アルゴリズムとその実験的実証

Quantum algorithm for learning secret strings and its experimental demonstration ( http://arxiv.org/abs/2206.11221v1 )

ライセンス: Link先を確認
Yongzhen Xu, Shihao Zhang, Lvzhou Li(参考訳) In this paper, we consider the secret-string-learning problem in the teacher-student setting: the teacher has a secret string $s\in {{\{0,1\}}^{n}}$, and the student wants to learn the secret $s$ by question-answer interactions with the teacher, where at each time, the student can ask the teacher with a pair $(x, q) \in {{\{0,1\}}^{n}}\times\{0,1,\cdots, n-1\}$ and the teacher returns a bit given by the oracle $f_{s}(x,q)$ that indicates whether the length of the longest common prefix of $s$ and $x$ is greater than $q$ or not. 私たちの貢献は以下の通りです。 (i)あらゆる古典的な決定論的アルゴリズムが、最悪のケースと平均ケースの両方において、n$-bitの秘密文字列を学習するために、oracle $f_{s}$に対して少なくとも$n$クエリを必要とすることを証明し、また$n$クエリを使用して$s$を学習する最適な古典的決定論的アルゴリズムを示す。 (ii) oracle $f_s$に対して$\left\lceil n/2\right\rceil$クエリを使用して、n$-bit の秘密文字列 $s$ を学習する量子アルゴリズムを得る。 (iii)ibm cloud quantum computer上での量子アルゴリズムの実験的な実証を行い、それぞれ$n=2$と$n=3$の全てのケースにおいて平均成功確率は85.3\%$と82.5\%$である。

In this paper, we consider the secret-string-learning problem in the teacher-student setting: the teacher has a secret string $s\in {{\{0,1\}}^{n}}$, and the student wants to learn the secret $s$ by question-answer interactions with the teacher, where at each time, the student can ask the teacher with a pair $(x, q) \in {{\{0,1\}}^{n}}\times\{0,1,\cdots, n-1\}$ and the teacher returns a bit given by the oracle $f_{s}(x,q)$ that indicates whether the length of the longest common prefix of $s$ and $x$ is greater than $q$ or not. Our contributions are as follows. (i) We prove that any classical deterministic algorithm needs at least $n$ queries to the oracle $f_{s}$ to learn the $n$-bit secret string $s$ in both the worst case and the average case, and also present an optimal classical deterministic algorithm learning any $s$ using $n$ queries. (ii) We obtain a quantum algorithm learning the $n$-bit secret string $s$ with certainty using $\left\lceil n/2\right\rceil$ queries to the oracle $f_s$, thus proving a double speedup over classical counterparts. (iii) Experimental demonstrations of our quantum algorithm on the IBM cloud quantum computer are presented, with average success probabilities of $85.3\%$ and $82.5\%$ for all cases with $n=2$ and $n=3$ , respectively.
翻訳日:2023-02-08 09:36:37 公開日:2022-06-22
# 位相的に保護された$\pi$-ring qubits

Topologically protected $\pi$-ring qubits ( http://arxiv.org/abs/2206.11213v1 )

ライセンス: Link先を確認
Michael Forrester and Fedor Kusmartsev(参考訳) $\pi$-ring qubit配列は、正解であることが示され、連結渦量子ビットの複雑なエネルギーランドスケープを明確にする準古典的アプローチを用いて記述される。 この手法を用いることで、位相シフトデバイスを含む多数のジョセフソン接合系を設計することができる。 ここで、$\pi$ジャンクションを含むループの連結配列を記述する。 これらの技術は超伝導技術、ハイブリッド量子技術、量子ネットワークに基づく量子コンピュータの設計に有用である。

The $\pi$-ring qubit array is described using quasiclassical approaches that are shown to be accurate and give clarity to the complex energy landscape of connected vortex qubits. Using the techniques, large arrays of Josephson junction systems can be designed, including phase shift devices. Herein, connected arrays of loops containing $\pi$ junctions are described. These techniques are useful for design of quantum computers based on superconducting technologies, hybrid quantum technologies and quantum networks.
翻訳日:2023-02-08 09:36:08 公開日:2022-06-22
# 高速テキスト駆動による芸術コンテンツ生成手法

A Fast Text-Driven Approach for Generating Artistic Content ( http://arxiv.org/abs/2208.01748v1 )

ライセンス: Link先を確認
Marian Lupascu, Ryan Murdock, Ionut Mironic\u{a}, Yijun Li(参考訳) 本研究では,視覚芸術を生成するためのフレームワークを提案する。 スタイルパラメータに柔軟性のない従来のスタイライゼーション手法とは異なり(例えば、1つのスタイルイメージ、単一のスタイライゼーションテキスト、特定のドメインからのコンテンツイメージのスタイライゼーションのみを許容する)、この方法にはそのような制限がない。 さらに,様々なディテール,スタイル,構造を持った多種多様な結果を生成できる改良版を実装し,生成速度を向上する。 結果をさらに高めるため,生成パイプラインに芸術的超解像モジュールを挿入する。 このモジュールは、画家特有のパターン、わずかなブラシマークなど、追加の詳細を提供する。

In this work, we propose a complete framework that generates visual art. Unlike previous stylization methods that are not flexible with style parameters (i.e., they allow stylization with only one style image, a single stylization text or stylization of a content image from a certain domain), our method has no such restriction. In addition, we implement an improved version that can generate a wide range of results with varying degrees of detail, style and structure, with a boost in generation speed. To further enhance the results, we insert an artistic super-resolution module in the generative pipeline. This module will bring additional details such as patterns specific to painters, slight brush marks, and so on.
翻訳日:2023-02-08 09:29:37 公開日:2022-06-22
# 人工知能のためのシステム教育に向けて--インテリジェントコンピューティングアーキテクチャの授業実践

Towards Systems Education for Artificial Intelligence: A Course Practice in Intelligent Computing Architectures ( http://arxiv.org/abs/2207.12229v1 )

ライセンス: Link先を確認
Jianlei Yang, Xiaopeng Gao, Weisheng Zhao(参考訳) 人工知能(AI)コミュニティの急速な発展に伴い、AIの教育はますます注目を集めている。 アルゴリズムやアプリケーションに関しては、AI関連のコースが数多くあるが、システムレベルのコースが真剣に検討されているわけではない。 AIとコンピューティングシステムのギャップを埋めるために、私たちは、コンピュータシステムの観点からAI教育を行う方法を模索しています。 本稿では,AI時代のシステム教育を実証するために,インテリジェントコンピューティングアーキテクチャの授業実践について述べる。 このコースの実践のモチベーションは、まず学習の方向性とともに導入される。 このコースの主な目標は、FPGAプラットフォーム上でAIアクセラレータを設計する学生に教えることである。 講座内容は講義ノート及び関連技術資料を含む。 特にいくつかの実践的な研究所やプロジェクトの詳細が示されている。 最後に、いくつかの教育経験と効果、そして将来への潜在的な改善について論じる。

With the rapid development of artificial intelligence (AI) community, education in AI is receiving more and more attentions. There have been many AI related courses in the respects of algorithms and applications, while not many courses in system level are seriously taken into considerations. In order to bridge the gap between AI and computing systems, we are trying to explore how to conduct AI education from the perspective of computing systems. In this paper, a course practice in intelligent computing architectures are provided to demonstrate the system education in AI era. The motivation for this course practice is first introduced as well as the learning orientations. The main goal of this course aims to teach students for designing AI accelerators on FPGA platforms. The elaborated course contents include lecture notes and related technical materials. Especially several practical labs and projects are detailed illustrated. Finally, some teaching experiences and effects are discussed as well as some potential improvements in the future.
翻訳日:2023-02-08 09:29:25 公開日:2022-06-22
# 人工畳み込みニューラルネットワークを用いた脳腫瘍検出

Brain tumor detection using artificial convolutional neural networks ( http://arxiv.org/abs/2207.11248v1 )

ライセンス: Link先を確認
Javier Melchor, Balam Sotelo, Jorge Vera, Horacio Corral(参考訳) 本稿では,ヒト脳のNMR像を髄膜腫,グリオーマ,下垂体腺腫瘍の4種類の腫瘍で分類するために,畳み込みニューラルネットワーク(CNN)を用いた。 このプロジェクトのトレーニング段階では,100%の精度が得られたが,評価段階では96%の精度が得られた。

In this paper, a convolutional neural network (CNN) was used to classify NMR images of human brains with 4 different types of tumors: meningioma, glioma and pituitary gland tumors. During the training phase of this project, an accuracy of 100% was obtained, meanwhile, in the evaluation phase the precision was 96%.
翻訳日:2023-02-08 09:29:14 公開日:2022-06-22
# 量子ネットワーク医学 : ネットワーク科学と量子アルゴリズムによる医学の再考

Quantum network medicine: rethinking medicine with network science and quantum algorithms ( http://arxiv.org/abs/2206.12405v1 )

ライセンス: Link先を確認
Sabrina Maniscalco, Elsi-Mari Borrelli, Daniel Cavalcanti, Caterina Foti, Adam Glos, Mark Goldsmith, Stefan Knecht, Keijo Korhonen, Joonas Malmi, Anton Nyk\"anen, Matteo A. C. Rossi, Harto Saarinen, Boris Sokolov, N. Walter Talarico, Jussi Westergren, Zolt\'an Zimbor\'as, and Guillermo Garc\'ia-P\'erez(参考訳) 医学とシステム生物学の科学的・技術的進歩は、健康と病気が複数の分子と環境要因の相互作用の文脈で見なされなければならないことを明確に示している。 細胞相互接続が疾患の進行に及ぼす影響を理解することは、新しい疾患遺伝子や経路の同定につながり、それによって正確な診断や治療に影響を及ぼす可能性がある。 この目的を達成するために、ネットワーク医療の新興分野は、ネットワークサイエンスのアプローチを適用して病気の病因を調査し、タンパク質とタンパク質の相互作用、相関に基づく遺伝子制御、ベイズネットワークなどの関連するOmicsデータベースからの情報を統合する。 しかし、これには大量のデータの解析と計算が必要です。 さらに、新薬と新薬の組み合わせを効率的に探すためには、これまでほとんど探索されていなかった大量の化学物質空間へのアクセスを可能にする計算方法が必要不可欠です。 最後に、顕微鏡レベルでは、ドラッグターゲット化学シミュレーションは究極的には量子問題であり、従って量子解を必要とする。 議論するが、量子コンピューティングは、ネットワーク医療の可能性を最大限に活用するための鍵となる要素であるかもしれない。 本稿では,新たな研究分野であるquantum network medicineにおいて,ネットワーク医療と量子アルゴリズムを組み合わせることで,疾病予防と薬物設計の新しい時代の基礎を築くことを提案する。

Scientific and technological advances in medicine and systems biology have unequivocally shown that health and disease must be viewed in the context of the interplay among multiple molecular and environmental factors. Understanding the effects of cellular interconnection on disease progression may lead to the identification of novel disease genes and pathways, and hence influence precision diagnostics and therapeutics. To accomplish this goal, the emerging field of network medicine applies network science approaches to investigate disease pathogenesis, integrating information from relevant Omics databases, including protein-protein interaction, correlation-based, gene regulatory, and Bayesian networks. However, this requires analysing and computing large amounts of data. Moreover, if we are to efficiently search for new drugs and new drug combinations, there is a pressing need for computational methods that could allow us to access the immense chemical compound space until now largely unexplored. Finally, at the microscopic level, drug-target chemistry simulation is ultimately a quantum problem, and hence it requires a quantum solution. As we will discuss, quantum computing may be a key ingredient in enabling the full potential of network medicine. We propose to combine network medicine and quantum algorithms in a novel research field, quantum network medicine, to lay the foundations of a new era of disease prevention and drug design.
翻訳日:2023-02-08 09:28:54 公開日:2022-06-22
# 対称性によるNV中心スペクトル拡散の定量化

Quantifying NV-center Spectral Diffusion by Symmetry ( http://arxiv.org/abs/2206.11362v1 )

ライセンス: Link先を確認
B. A. McCullian, H. F. H. Cheung, H. Y. Chen, and G. D. Fuchs(参考訳) ダイヤモンド中の窒素空孔(nv)中心欠陥のスペクトル的に狭くスピン依存的な光学遷移は量子ネットワークへの応用に利用できる。 このようなネットワークスキームの鍵は、区別できない光子の生成である。 2つの課題は、局所ひずみ変動による光遷移周波数の欠陥-欠陥変動と、近傍の電荷トラップの光励起による繰り返し測定における光遷移周波数のスペクトル拡散である。 本研究では,NV中心のJahn-Teller対称性に対応する成分に分解し,スペクトル拡散とひずみの定量化のための群理論的アプローチを提案する。 ひずみ成分, スペクトル拡散成分, および表面からの深さの相関について検討し, ひずみ成分とスペクトル拡散成分がそれぞれ縦方向の摂動によって支配されていることを見出した。 また, 横ひずみと全スペクトル拡散との間には負の相関がみられ, 横ひずみはスペクトル拡散からある程度の保護を与えることが示唆された。 さらに,ダイヤモンドバルクの深さの増大に伴い,スペクトル拡散がより顕著になることがわかった。 我々の対称性分解法によるスペクトル拡散の定量化技術は、与えられたナノスケール電荷トラップ環境がスペクトル拡散にどのように影響するかを理解するのに有用である。

The spectrally narrow, spin-dependent optical transitions of nitrogen vacancy (NV) center defects in diamond can be harnessed for quantum networking applications. Key to such networking schemes is the generation of indistinguishable photons. Two challenges limit scalability in such systems: defect-to-defect variations of the optical transition frequencies caused by local strain variation, and spectral diffusion of the optical frequencies on repeated measurement caused by photoexcitation of nearby charge traps. In this experimental study we undertake a group theoretic approach to quantifying spectral diffusion and strain, decomposing each into components corresponding to Jahn-Teller symmetries of the NV center. We investigate correlations between the components of strain, spectral diffusion, and depth from surface, finding that strain and spectral diffusion are each dominated by longitudinal perturbations. We also find a weak negative correlation between transverse static strain and total spectral diffusion suggesting that transverse strain provides some degree of protection from spectral diffusion. Additionally, we find that spectral diffusion becomes more pronounced with increasing depth in the diamond bulk. Our symmetry-decomposed technique for quantifying spectral diffusion can be valuable for understanding how a given nanoscale charge trap environment influences spectral diffusion and for developing strategies of mitigation.
翻訳日:2023-02-08 09:27:50 公開日:2022-06-22
# 量子絡み目の情報的完備測度

Informationally complete measures of quantum entanglement ( http://arxiv.org/abs/2206.11336v1 )

ライセンス: Link先を確認
Zhi-Xiang Jin, Shao-Ming Fei, Xianqing Li-Jost, Cong-Feng Qiao(参考訳) 量子エンタングルメントはすでに実験的に検証され、量子コンピューティング、量子センシング、量子ネットワークで応用されているが、既存の測定のほとんどはエンタングルメントを忠実に特徴づけることができない。 本研究では, 2成分状態 ||\psi\rangle_{ab}$ のシュミット分解を利用して, 還元状態 $\rho_a$ の特性多項式と多項式のトレースとの1対1の対応関係を確立する。 次に、システムの縮小密度行列の完全固有値によって与えられる絡み合い測度の族を紹介する。 情報完全絡み合い対策(ICEMs)と呼ばれる具体的な対策を提示し、その利点を示す。 このような氷片は, 既知の絡み合い法よりも細部を特徴付け, 絡み合いを識別できることが実証された。 それらはまた、局所的な操作と古典的コミュニケーションの下での状態変換の基準となる。 さらに, 量子コンピュータ上では, icmsを効率的に推定できることを示した。 完全分離性、絡み合い、真の多成分絡み合いは量子デバイス上で忠実に検出できる。

Although quantum entanglement has already been verified experimentally and applied in quantum computing, quantum sensing and quantum networks, most of the existing measures cannot characterize the entanglement faithfully. In this work, by exploiting the Schmidt decomposition of a bipartite state $|\psi\rangle_{AB}$, we first establish a one-to-one correspondence relation between the characteristic polynomial of the reduced state $\rho_A$ and the polynomials its trace. Then we introduce a family of entanglement measures which are given by the complete eigenvalues of the reduced density matrices of the system. Specific measures called informationally complete entanglement measures (ICEMs) are presented to illustrate the advantages. It is demonstrated that such ICEMs can characterize finer and distinguish better the entanglement than existing well-known entanglement measures. They also give rise to criteria of state transformations under local operation and classical communication. Moreover, we show that the ICEMs can be efficiently estimated on a quantum computer. The fully separability, entanglement and genuine multipartite entanglement can detected faithfully on quantum devices.
翻訳日:2023-02-08 09:27:29 公開日:2022-06-22
# ニューラルネットワークによるモノトンダイナミクスの学習

Learning Monotone Dynamics by Neural Networks ( http://arxiv.org/abs/2006.06417v2 )

ライセンス: Link先を確認
Yu Wang, Qitong Gao, and Miroslav Pajic(参考訳) フィードフォワードニューラルネットワーク(FNN)は、人工知能(AI)を物理世界に適用するための標準ビルディングブロックとして機能する。 これらは未知の物理系の力学(例えば、生物と化学)を学習し、将来の振る舞いを予測する。 しかし、適切な処理を行わずにこれらのシステムの物理的制約に違反する可能性が高い。 この研究は、2つの重要な物理的制約を課すことに焦点を当てている: モノトニック性(すなわち、システム状態の部分次数は時間とともに保存される)と安定性(つまり、システムの状態は時間とともに収束する)である。 単調性制約に対して,非負のニューラルネットワークとバッチ正規化を提案する。 単調性と安定性の制約の両方に対して,システム力学と対応するリャプノフ関数を同時に学習することを提案する。 ケーススタディで示されたように,本手法はFNNの安定性と単調性を保ち,予測誤差を大幅に低減することができる。

Feed-forward neural networks (FNNs) work as standard building blocks in applying artificial intelligence (AI) to the physical world. They allow learning the dynamics of unknown physical systems (e.g., biological and chemical) {to predict their future behavior}. However, they are likely to violate the physical constraints of those systems without proper treatment. This work focuses on imposing two important physical constraints: monotonicity (i.e., a partial order of system states is preserved over time) and stability (i.e., the system states converge over time) when using FNNs to learn physical dynamics. For monotonicity constraints, we propose to use nonnegative neural networks and batch normalization. For both monotonicity and stability constraints, we propose to learn the system dynamics and corresponding Lyapunov function simultaneously. As demonstrated by case studies, our methods can preserve the stability and monotonicity of FNNs and significantly reduce their prediction errors.
翻訳日:2022-11-22 14:53:25 公開日:2022-06-22
# Heteroskedastic Errorsを用いたスケッチデータを用いた最小二乗推定

Least Squares Estimation Using Sketched Data with Heteroskedastic Errors ( http://arxiv.org/abs/2007.07781v3 )

ライセンス: Link先を確認
Sokbae Lee, Serena Ng(参考訳) 研究者は、さまざまな理由から、サイズ$n$の全サンプルではなく、サイズ$m$のスケッチを使用して回帰を行うことができる。 本稿では, 回帰誤差が一定のばらつきを持たず, 正則誤差が頑健である場合, 精度の高い推論を行うためには, テスト統計学には通常必要となる。 ランダムなプロジェクションによってスケッチされたデータを用いた推定は、エラーがホモスケダティックであるかのように振る舞います。 ランダムサンプリングによる推定は、この性質を持たない。 この結果は、ランダムな射影の場合のスケッチされた推定値が退化$U$-統計量として表され、ある条件下では、これらの統計値がホモスケダスティックな分散を伴う漸近正規であるから生じる。 共変数が外因性である場合の最小二乗回帰だけでなく、共変数が内因性である場合のインストゥルメンタル変数推定においても、条件が成り立つことを検証する。 結果として、もしスケッチ方式が適切に選択された場合、第一段階のfテストを含む推論は、完全なサンプルケースよりも単純であることが示唆される。

Researchers may perform regressions using a sketch of data of size $m$ instead of the full sample of size $n$ for a variety of reasons. This paper considers the case when the regression errors do not have constant variance and heteroskedasticity robust standard errors would normally be needed for test statistics to provide accurate inference. We show that estimates using data sketched by random projections will behave `as if' the errors were homoskedastic. Estimation by random sampling would not have this property. The result arises because the sketched estimates in the case of random projections can be expressed as degenerate $U$-statistics, and under certain conditions, these statistics are asymptotically normal with homoskedastic variance. We verify that the conditions hold not only in the case of least squares regression when the covariates are exogenous, but also in instrumental variables estimation when the covariates are endogenous. The result implies that inference, including first-stage F tests for instrument relevance, can be simpler than the full sample case if the sketching scheme is appropriately chosen.
翻訳日:2022-11-10 05:28:43 公開日:2022-06-22
# 行列的に$\ell_0$-制約付きスパース非負極正方形

Matrix-wise $\ell_0$-constrained Sparse Nonnegative Least Squares ( http://arxiv.org/abs/2011.11066v4 )

ライセンス: Link先を確認
Nicolas Nadisic, Jeremy E Cohen, Arnaud Vandaele, Nicolas Gillis(参考訳) 多重右辺 (MNNLS) を持つ非負の最小二乗問題は、加法線形結合に依存するモデルに現れる。 特に、ほとんどの非負行列分解アルゴリズムの中核にあり、多くの応用がある。 非負性制約(nonnegativity constraint)は、自然にスパーシティ、すなわち非零成分の少ない解を好むことが知られている。 しかし、結果の解釈性が向上し、ノイズの低減に役立ち、スパースMNNLS問題につながるため、この空間性をさらに強化することがしばしば有用である。 本稿では,スパースカラムを行方向に強制するこれまでのほとんどの研究とは対照的に,まず,行列方向のスパース制約を持つスパースMNNLSの新しい定式化を導入する。 次に,この問題に取り組むための二段階アルゴリズムを提案する。 最初のステップでは、sparse mnnlをサブプロブレムで分割し、元の問題の列に1つずつ分割する。 次に、異なるアルゴリズムを用いて、各サブプロブレムのパレートフロント、すなわち、再構成エラーとスパーシティの間の異なるトレードオフを表す一連のソリューションを生成する。 第2のステップは、復元エラーを最小限に抑えるスパーシティ制約付きマトリックスを構築するために、これらのパレートフロント間の解を選択する。 顔とハイパースペクトルの画像について実験を行い,提案する2段階のアプローチは,カラム単位とグローバルの両方に適用した,最先端のスパース符号化ヒューリスティックよりも精度の高い結果を提供することを示した。

Nonnegative least squares problems with multiple right-hand sides (MNNLS) arise in models that rely on additive linear combinations. In particular, they are at the core of most nonnegative matrix factorization algorithms and have many applications. The nonnegativity constraint is known to naturally favor sparsity, that is, solutions with few non-zero entries. However, it is often useful to further enhance this sparsity, as it improves the interpretability of the results and helps reducing noise, which leads to the sparse MNNLS problem. In this paper, as opposed to most previous works that enforce sparsity column- or row-wise, we first introduce a novel formulation for sparse MNNLS, with a matrix-wise sparsity constraint. Then, we present a two-step algorithm to tackle this problem. The first step divides sparse MNNLS in subproblems, one per column of the original problem. It then uses different algorithms to produce, either exactly or approximately, a Pareto front for each subproblem, that is, to produce a set of solutions representing different tradeoffs between reconstruction error and sparsity. The second step selects solutions among these Pareto fronts in order to build a sparsity-constrained matrix that minimizes the reconstruction error. We perform experiments on facial and hyperspectral images, and we show that our proposed two-step approach provides more accurate results than state-of-the-art sparse coding heuristics applied both column-wise and globally.
翻訳日:2022-09-22 09:01:31 公開日:2022-06-22
# スマートグリッドのサイバーセキュリティに関する包括的調査 : サイバー攻撃,検出,対策技術,今後の方向性

A Comprehensive Survey on the Cyber-Security of Smart Grids: Cyber-Attacks, Detection, Countermeasure Techniques, and Future Directions ( http://arxiv.org/abs/2207.07738v1 )

ライセンス: Link先を確認
Tala Talaei Khoei, Hadjar Ould Slimane, and Naima Kaabouch(参考訳) smart grid networksが直面する大きな課題のひとつは、サイバーセキュリティだ。 セキュリティ上の課題を強調するために、いくつかの研究が実施されている。 しかしながら、これらの調査の大部分は、説明責任要件を考慮せずに、セキュリティ要件、機密性、完全性、可用性に基づく攻撃を分類している。 さらに、これらの調査のいくつかは、アプリケーション、セッション、プレゼンテーションとOpen System Interconnection(OSI)モデルのデータリンクと物理層とを区別しないTransmission Control Protocol/Internet Protocol(TCP/IP)モデルに焦点を当てている。 本稿では,OSIモデルに基づく攻撃の分類を行い,スマートグリッドネットワーク通信の異なる層をターゲットにしたサイバー攻撃について,より詳細に検討する。 また,検出・対策手法の新しい分類を提案し,各カテゴリにおける既存手法について述べる。 最後に,課題と今後の研究方向性について論じる。

One of the significant challenges that smart grid networks face is cyber-security. Several studies have been conducted to highlight those security challenges. However, the majority of these surveys classify attacks based on the security requirements, confidentiality, integrity, and availability, without taking into consideration the accountability requirement. In addition, some of these surveys focused on the Transmission Control Protocol/Internet Protocol (TCP/IP) model, which does not differentiate between the application, session, and presentation and the data link and physical layers of the Open System Interconnection (OSI) model. In this survey paper, we provide a classification of attacks based on the OSI model and discuss in more detail the cyber-attacks that can target the different layers of smart grid networks communication. We also propose new classifications for the detection and countermeasure techniques and describe existing techniques under each category. Finally, we discuss challenges and future research directions.
翻訳日:2022-07-24 11:49:23 公開日:2022-06-22
# 相関強度重み付けに基づく移動目標ゴーストイメージングレーダの局所化とイメージング手法

Localisation And Imaging Methods for Moving Target Ghost Imaging Radar Based On Correlation Intensity Weighting ( http://arxiv.org/abs/2207.07649v1 )

ライセンス: Link先を確認
Yuliang Li(参考訳) ゴーストイメージングレーダは、検出感度が高く、超高解像度で、対干渉性能が良い新しい画像レーダのシステムであるが、レーダーシステムとターゲットの間の相対的な動きは、ターゲットイメージングを劣化させる。 本稿では、粗目標の単一フレーム画像の相関強度を重み付け、視野における単一ターゲットの絶対位置定位を行うとともに、粗目標画像の局所化と追跡軌跡に応じて参照アームスペックルの翻訳を補償し、粗像を高品質な画像に蓄積することを提案する。 提案する相関強度重み付き局所化・追従イメージング法をシミュレーションにより検証し,視野内における目標の同定と画像化を可能にした。

Ghost imaging radar is a new system of gaze imaging radar with high detection sensitivity, super-resolution and better anti-interference performance, but the relative motion between the radar system and the target will make the target imaging deteriorate. This paper proposes to perform absolute position localisation of a single target in the field of view by weighting the correlation strength of a single frame image of rough target, and to compensate translation of the reference arm speckle according to the localisation and tracking trajectory to accumulate the rough image into a high quality image. The proposed correlation intensity weighted localization and tracking imaging method has been verified by simulation to be able to locate and image targets in the field of view well.
翻訳日:2022-07-24 11:49:07 公開日:2022-06-22
# (参考訳) データベースのマッチング, インプット, 変換を併用したディープラーニング

Deep Learning to Jointly Schema Match, Impute, and Transform Databases ( http://arxiv.org/abs/2207.03536v1 )

ライセンス: CC BY 4.0
Sandhya Tripathi, Bradley A. Fritz, Mohamed Abdelhack, Michael S. Avidan, Yixin Chen, and Christopher R. King(参考訳) データサイエンスのあらゆる領域に直面する応用問題は、データソースの調和である。 複数の起源のデータを未マッピングで部分的に重複する機能で結合することは、特に医療において、堅牢で一般化可能なアルゴリズムを開発し、テストするための前提条件である。 本稿では,単位変化と変数シフトが単変量要約の単純なマッチングを失敗させるような,ガウス的特徴や二項的特徴などの数値的特徴の一般的なケースにおいて,この問題にアプローチする。 我々はこの問題に対処する2つの新しい手順を開発する。 まず,その特徴を他の特徴と関連付けて「フィンガープリンティング」する複数の方法を示す。 たとえ控えめな事前情報の設定でも、ほとんどの共有フィーチャを正確に識別することができる。 次に,データベース間の翻訳のための深層学習アルゴリズムを提案する。 従来のアプローチとは異なり、アルゴリズムは発見済みのマッピングを活用し、未共有の機能や学習変換のためのサロゲートを識別します。 2つの電子健康記録データベースを用いた人工的および実世界の実験において、我々のアルゴリズムは、変化集合をマッチングするための既存のベースラインよりも優れ、未整形または変換された変数をインプットする共同学習を行う。

An applied problem facing all areas of data science is harmonizing data sources. Joining data from multiple origins with unmapped and only partially overlapping features is a prerequisite to developing and testing robust, generalizable algorithms, especially in health care. We approach this issue in the common but difficult case of numeric features such as nearly Gaussian and binary features, where unit changes and variable shift make simple matching of univariate summaries unsuccessful. We develop two novel procedures to address this problem. First, we demonstrate multiple methods of "fingerprinting" a feature based on its associations to other features. In the setting of even modest prior information, this allows most shared features to be accurately identified. Second, we demonstrate a deep learning algorithm for translation between databases. Unlike prior approaches, our algorithm takes advantage of discovered mappings while identifying surrogates for unshared features and learning transformations. In synthetic and real-world experiments using two electronic health record databases, our algorithms outperform existing baselines for matching variable sets, while jointly learning to impute unshared or transformed variables.
翻訳日:2022-07-17 20:48:17 公開日:2022-06-22
# ハイブリッドモデル学習手法を用いた適応姿勢推定

Adaptive Attitude Estimation Using a Hybrid Model-Learning Approach ( http://arxiv.org/abs/2207.06903v1 )

ライセンス: Link先を確認
Eran Vertzberger and Itzik Klein(参考訳) スマートフォンの慣性センサを用いた姿勢判断は、センサの低パフォーマンスグレードと歩行歩行者の変動性から大きな課題となっている。 本稿では,その課題に対処するためにデータ駆動技術を用いる。 この目的のために,態度推定のためのハイブリッド型ディープラーニングとモデルベースソリューションを提案する。 ここでは、古典的なモデルに基づく方程式を適用し、適応補完フィルタ構造を形成する。 定数やモデルに基づく適応重みを用いる代わりに、各軸の加速度計重みはユニークなニューラルネットワークによって決定される。 実験データを用いて, 一般的なモデルベースアプローチと比較して, 提案手法の性能評価を行った。

Attitude determination using the smartphone's inertial sensors poses a major challenge due to the sensor low-performance grade and variate nature of the walking pedestrian. In this paper, data-driven techniques are employed to address that challenge. To that end, a hybrid deep learning and model based solution for attitude estimation is proposed. Here, classical model based equations are applied to form an adaptive complementary filter structure. Instead of using constant or model based adaptive weights, the accelerometer weights in each axis are determined by a unique neural network. The performance of the proposed hybrid approach is evaluated relative to popular model based approaches using experimental data.
翻訳日:2022-07-17 17:05:06 公開日:2022-06-22
# (参考訳) 人口ベースエンゲージメントはパーソナライゼーションを改善するか? 新たなデータセットと実験

Can Population-based Engagement Improve Personalisation? A Novel Dataset and Experiments ( http://arxiv.org/abs/2207.01504v1 )

ライセンス: CC BY 4.0
Sahan Bulathwela, Meghana Verma, Maria Perez-Ortiz, Emine Yilmaz and John Shawe-Taylor(参考訳) 本研究は,大規模な学習資源収集において,集団ベースのエンゲージメント予測が大規模にコールドスタートにどう対処できるかを考察する。 論文紹介 一 公開可能な科学ビデオ講義から抽出したコンテンツ及び映像に基づく特徴と、学習者の関与に関連する暗黙的及び明示的な信号とを組み合わせた新しいデータセット 二 予備的ベースラインを有するビデオ講義における文脈非依存の関与の予測及びランキングに関する二の標準課題 三 提案したデータセットの有用性を検証する実験の集合 実験結果から,新たに提案するvleデータセットは,トレーニング例の増加を主とする,先行データセットに基づくものよりも大幅にパフォーマンスの高い,コンテキスト非依存なエンゲージメント予測モデルの構築に繋がることが示唆された。 VLEデータセットは、eラーニング/MOOCユースケースに焦点を当てたコンピュータサイエンス/人工知能教育のためのモデル構築に適していることも証明されている。 構築したモデルとパーソナライズアルゴリズムを組み合わせるさらなる実験は、教育推薦者によるコールドスタート問題に対処する上で有望な改善を示す。 これは、学習者のエンゲージメント予測タスクを扱う私たちの知識にとって、最大かつ最も多様な公開データセットです。 データセット、ヘルパーツール、記述統計、サンプルコードスニペットが公開されている。

This work explores how population-based engagement prediction can address cold-start at scale in large learning resource collections. The paper introduces i) VLE, a novel dataset that consists of content and video based features extracted from publicly available scientific video lectures coupled with implicit and explicit signals related to learner engagement, ii) two standard tasks related to predicting and ranking context-agnostic engagement in video lectures with preliminary baselines and iii) a set of experiments that validate the usefulness of the proposed dataset. Our experimental results indicate that the newly proposed VLE dataset leads to building context-agnostic engagement prediction models that are significantly performant than ones based on previous datasets, mainly attributing to the increase of training examples. VLE dataset's suitability in building models towards Computer Science/ Artificial Intelligence education focused on e-learning/ MOOC use-cases is also evidenced. Further experiments in combining the built model with a personalising algorithm show promising improvements in addressing the cold-start problem encountered in educational recommenders. This is the largest and most diverse publicly available dataset to our knowledge that deals with learner engagement prediction tasks. The dataset, helper tools, descriptive statistics and example code snippets are available publicly.
翻訳日:2022-07-10 15:53:31 公開日:2022-06-22
# (参考訳) 均一線形アレイのサイドローブ制御のためのアントヒル植民地最適化アルゴリズム(AHCOA)

Ant Hill Colonization optimization algorithm(AHCOA) for controlling the side lobe of a uniform linear array ( http://arxiv.org/abs/2207.02910v1 )

ライセンス: CC BY 4.0
Sunit Shantanu Digamber Fulari, Harbinder Singh(参考訳) 本稿では、電磁・アンテナコミュニティにAnt Hill Colonization Optimizationアルゴリズム(AHCOA)を導入することを目的とする。 アリの丘は、formicas ants(草原アリ、火のアリ、収穫アリ)として知られる特殊なアリによって造られている。 AHCOAは、アリが生き残るためのアリの丘を作り、維持する方法を真似た、新しい自然にインスパイアされたアルゴリズムです。 この問題は、様々な分野において幅広い能力を持つ制約付きおよび制約なし最適化問題を解く。 AHCOAは、構造が構築される方法として、アリヒルの体積解析の方程式を書く際に用いられる。 本稿では,アンテナパターン合成におけるサイドローブ制御のためのアリライオンオプティマイザについて,以前の論文よりもAHCOAが優れていることを示す[1]。 また,1.1,0.6,0.5,0.3,0.1線形配列のd/の合成と解析におけるahcoaの可能性も示す。 アンテナサイドローブレベルの最小化をアリライオンオプティマイザと比較すると,以前シミュレーションしたアリライオンオプティマイザよりもAHCOAが優れている理由が分かる。 その結果,AHCOAに対して線形配列がより良く合成され,平面配列で使用される他のアルゴリズムが得られた。 本稿では,AHCOAが線形アレイにおけるアンテナ最適化の強力な候補であることを示す。

This paper aims to introduce the Ant hill colonization optimization algorithm(AHCOA) to the electromagnetics and antenna community. The ant hill is built by special species of ants known as formicas ants(also meadow ants, fire ants and harvester ants). AHCOA is a novel new nature inspired algorithm mimicking how the ants built and sustain the ant hill for their survival and sustenance for many years. This problem solves constrained and unconstrained optimization problems with wide capability in diverse fields. AHCOA is used by writing equations of volumetric analysis of the ant hill mould the manner in which the structure is architected. In this paper, we have shown how AHCOA is better than the previous paper on ant lion optimizer for controlling side lobe in antenna pattern synthesis in paper [1]. The potential of AHCOA in synthesizing and analyzing for d/ varying from 1.1,0.6,0.5,0.3 and 0.1 linear array is also illustrated. Antenna side lobe level minimization is compared with ant lion optimizer showing why AHCOA is better than the previously simulated ant lion optimizer for side lobe control. The results show why linear arrays are better synthesized for AHCOA then other algorithms used in planar arrays. This paper shows why AHCOA is a strong candidate for antenna optimization used in linear arrays.
翻訳日:2022-07-10 15:36:45 公開日:2022-06-22
# (参考訳) DCGANとDeep CNNによるプレゼンテーションアタックの緩和

Mitigating Presentation Attack using DCGAN and Deep CNN ( http://arxiv.org/abs/2207.00161v1 )

ライセンス: CC BY 4.0
Nyle Siddiqui, Rushit Dave(参考訳) バイオメトリックベースの認証は、従来の認証システムよりも重要な役割を担っているが、その後のプレゼンテーション攻撃のリスクは増大している。 本研究は,ユーザのバイオメトリック画像サンプルが限られていても,プレゼンテーション攻撃を防止できる領域を特定することを目的とする。 本研究は,Deep Convolution Generative Adversarial Net (DCGAN)を実装することで,実画像集合からフォトリアリスティックな合成画像を生成することに焦点を当てる。 我々は、フェイク画像生成中に時間的・空間的拡張を実装した。 本研究は,VGGNet [1] に触発された深部CNNを用いて,顔および虹彩画像の提示攻撃を検出する。 深層ニューラルネットワークの手法を,miche i [2],visob [3],ubipr [4]の3種類のバイオメトリック画像データセットに適用した。 この研究で使用されるデータセットには、さまざまな解像度とサイズとともに、制御された環境と制御されていない環境の両方でキャプチャされるイメージが含まれている。 ubi-pr [4] irisデータセットにおけるテスト精度は97%であった。 MICHE-I [2] と VISOB [3] データセットでは, それぞれ95%, 96%の精度で実験を行った。

Biometric based authentication is currently playing an essential role over conventional authentication system; however, the risk of presentation attacks subsequently rising. Our research aims at identifying the areas where presentation attack can be prevented even though adequate biometric image samples of users are limited. Our work focusses on generating photorealistic synthetic images from the real image sets by implementing Deep Convolution Generative Adversarial Net (DCGAN). We have implemented the temporal and spatial augmentation during the fake image generation. Our work detects the presentation attacks on facial and iris images using our deep CNN, inspired by VGGNet [1]. We applied the deep neural net techniques on three different biometric image datasets, namely MICHE I [2], VISOB [3], and UBIPr [4]. The datasets, used in this research, contain images that are captured both in controlled and uncontrolled environment along with different resolutions and sizes. We obtained the best test accuracy of 97% on UBI-Pr [4] Iris datasets. For MICHE-I [2] and VISOB [3] datasets, we achieved the test accuracies of 95% and 96% respectively.
翻訳日:2022-07-10 15:25:56 公開日:2022-06-22
# 正規化によるニューラルネットワークの一貫性

Consistency of Neural Networks with Regularization ( http://arxiv.org/abs/2207.01538v1 )

ライセンス: Link先を確認
Xiaoxi Shen, Jinghang Lin(参考訳) ニューラルネットワークは自然言語処理やコンピュータビジョンなどの応用で成功しているため、多くの注目を集めている。 大規模データの場合、ニューラルネットワークのパラメータが膨大であるため、ニューラルネットワークのトレーニングではオーバーフィッティングが問題となる。 過剰フィッティングを避けるための一般的なアプローチは、パラメーター、特にニューラルネットワークの重み付けをペナルティ化することである。 ニューラルネットワークは多くの応用においてその利点を示しているが、ペナルドニューラルネットワークの理論的な基礎は確立されていない。 本稿では,正規化を伴うニューラルネットワークの汎用フレームワークを提案し,その一貫性を証明することを目的とする。 ある条件下では、推定されたニューラルネットワークはサンプルサイズが大きくなるにつれて真の基礎関数に収束する。 最小限のニューラルネットワークにおけるシーブの方法と理論は、パラメータの不特定可能性の問題を克服するために用いられる。 双曲型タンジェント関数(Tanh)と整流線形単位(ReLU)の2種類の活性化関数が検討されている。 一貫性の定理の妥当性を検証するためにシミュレーションが行われている。

Neural networks have attracted a lot of attention due to its success in applications such as natural language processing and computer vision. For large scale data, due to the tremendous number of parameters in neural networks, overfitting is an issue in training neural networks. To avoid overfitting, one common approach is to penalize the parameters especially the weights in neural networks. Although neural networks has demonstrated its advantages in many applications, the theoretical foundation of penalized neural networks has not been well-established. Our goal of this paper is to propose the general framework of neural networks with regularization and prove its consistency. Under certain conditions, the estimated neural network will converge to true underlying function as the sample size increases. The method of sieves and the theory on minimal neural networks are used to overcome the issue of unidentifiability for the parameters. Two types of activation functions: hyperbolic tangent function(Tanh) and rectified linear unit(ReLU) have been taken into consideration. Simulations have been conducted to verify the validation of theorem of consistency.
翻訳日:2022-07-10 12:01:19 公開日:2022-06-22
# 超画素CNNとCRFモデルを用いた高精細道路セグメンテーション

Efficient fine-grained road segmentation using superpixel-based CNN and CRF models ( http://arxiv.org/abs/2207.02844v1 )

ライセンス: Link先を確認
Farnoush Zohourian, Jan Siegemund, Mirko Meuter, Josef Pauli(参考訳) 安全で快適な運転に向けて、道路シーンセグメンテーションはカメラベースの先進運転支援システム(ADAS)の初歩的な問題である。 セマンティックセグメンテーションタスクにおける畳み込みニューラルネットワーク(CNN)の大きな成果にもかかわらず、CNNベースの手法の高度な計算努力は依然として難しい分野である。 近年の研究では,道路分割作業におけるCNNの利点を合理的な計算力で活用するための新しい手法を提案する。 ランタイムは、イメージグリッドではなくCNNの入力の基盤として不規則なスーパーピクセルを使用することで、入力サイズを大幅に削減する。 この手法は, トレーニングとテストの両段階において, 計算時間を著しく短縮するが, 超画素領域の低分解能は, 高コストの工法に比べて自然に低い精度が得られる。 本研究では,条件付ランダムフィールド(CRF)を利用した道路セグメントの改良に焦点を当てた。 補正手順は、予測された道路境界に触れる超画素に限られ、追加の計算労力を低く抑える。 スーパーピクセル領域への入力を減らすことで、CNNの構造は、畳み込みレイヤの利点を維持しながら、小さく、効率的に計算でき、ADASを利用できる。 CRFを適用することで、精度と計算効率のトレードオフを補う。 提案方式は,KITTIロードベンチマークの上位性能アルゴリズムに匹敵する性能を示し,その高速推論によりリアルタイムアプリケーションに特に適している。

Towards a safe and comfortable driving, road scene segmentation is a rudimentary problem in camera-based advance driver assistance systems (ADAS). Despite of the great achievement of Convolutional Neural Networks (CNN) for semantic segmentation task, the high computational efforts of CNN based methods is still a challenging area. In recent work, we proposed a novel approach to utilise the advantages of CNNs for the task of road segmentation at reasonable computational effort. The runtime benefits from using irregular super pixels as basis for the input for the CNN rather than the image grid, which tremendously reduces the input size. Although, this method achieved remarkable low computational time in both training and testing phases, the lower resolution of the super pixel domain yields naturally lower accuracy compared to high cost state of the art methods. In this work, we focus on a refinement of the road segmentation utilising a Conditional Random Field (CRF).The refinement procedure is limited to the super pixels touching the predicted road boundary to keep the additional computational effort low. Reducing the input to the super pixel domain allows the CNNs structure to stay small and efficient to compute while keeping the advantage of convolutional layers and makes them eligible for ADAS. Applying CRF compensate the trade off between accuracy and computational efficiency. The proposed system obtained comparable performance among the top performing algorithms on the KITTI road benchmark and its fast inference makes it particularly suitable for realtime applications.
翻訳日:2022-07-10 11:40:06 公開日:2022-06-22
# (参考訳) 強化学習を用いたマルチエージェント駐車場

Multi-Agent Car Parking using Reinforcement Learning ( http://arxiv.org/abs/2206.13338v1 )

ライセンス: CC BY 4.0
Omar Tanner(参考訳) 自動運転の産業が成長するにつれて、自動運転車のグループの潜在的な相互作用も増加する。 人工知能とシミュレーションの進歩と組み合わせて、そのようなグループをシミュレートし、車内を制御する安全クリティカルモデルを学ぶことができる。 本研究は,車両群が安全かつ合理的でありながら,効率的な駐車を目指すマルチエージェント駐車場の問題に対して,強化学習を適用する。 頑健なツールと機械学習フレームワークを活用して,マルチエージェント通信を活用した,独立学習者によるマルコフ決定プロセスという形式で,柔軟な駐車場環境を設計し,実装する。 実験を行うための一連のツールを実装し、98.1%以上の成功率で最大7台の車を駐車させ、既存のシングルエージェントモデルを大幅に上回った。 また,我々の環境における自動車の競争行動や協調行動に関するいくつかの結果も得られ,その密度やコミュニケーションのレベルは様々である。 特に、競争なしでは起こり得ないコラボレーションの形式と、エージェントが十分な状態なしに協力する「レキー」なコラボレーションの形式を見出す。 このような作業は、自律走行および艦隊管理産業に多くの潜在的応用をもたらし、強化学習のマルチエージェント駐車場への適用に有用な技術とベンチマークを提供している。

As the industry of autonomous driving grows, so does the potential interaction of groups of autonomous cars. Combined with the advancement of Artificial Intelligence and simulation, such groups can be simulated, and safety-critical models can be learned controlling the cars within. This study applies reinforcement learning to the problem of multi-agent car parking, where groups of cars aim to efficiently park themselves, while remaining safe and rational. Utilising robust tools and machine learning frameworks, we design and implement a flexible car parking environment in the form of a Markov decision process with independent learners, exploiting multi-agent communication. We implement a suite of tools to perform experiments at scale, obtaining models parking up to 7 cars with over a 98.1% success rate, significantly beating existing single-agent models. We also obtain several results relating to competitive and collaborative behaviours exhibited by the cars in our environment, with varying densities and levels of communication. Notably, we discover a form of collaboration that cannot arise without competition, and a 'leaky' form of collaboration whereby agents collaborate without sufficient state. Such work has numerous potential applications in the autonomous driving and fleet management industries, and provides several useful techniques and benchmarks for the application of reinforcement learning to multi-agent car parking.
翻訳日:2022-07-04 01:48:26 公開日:2022-06-22
# マンモグラフィにおける最先端ディープネットワークの独立評価

Independent evaluation of state-of-the-art deep networks for mammography ( http://arxiv.org/abs/2206.12407v1 )

ライセンス: Link先を確認
Osvaldo Matias Velarde and Lucas Parrra(参考訳) ディープニューラルモデルは、ラベル付き画像の大きなデータセットが利用できる場合、画像認識タスクにおいて顕著なパフォーマンスを示している。 放射線学における最大のデータセットはマンモグラフィのスクリーニングに利用できる。 近年の高影響誌等では、放射線科医による深部モデルの性能を文書化している。 まだ知られていないのは、これらのトレーニングされたモデルのパフォーマンスが堅牢で、データセット間で複製されるかどうかだ。 本稿では,公開されている4つのマンモグラフィデータセットを用いた5つの最新モデルの性能評価を行った。 パブリックデータセットの制限されたサイズは、モデルの再トレーニングを妨げるため、事前トレーニングされたパラメータで利用できるモデルを評価することに限定されます。 テストデータが利用可能であれば、公開結果を再現しました。 しかし、トレーニングされたモデルは、マンモグラフィー試験の標準的な4つのビューに基づいた場合を除き、サンプル外データでは不十分であった。 今後の進歩は、より多様で大きなマンモグラフィデータセットを一般公開するための協力的な取り組みにかかっていると結論づける。 一方、独立した検証のための訓練済みモデルのリリースを伴わない結果を慎重に判断する必要がある。

Deep neural models have shown remarkable performance in image recognition tasks, whenever large datasets of labeled images are available. The largest datasets in radiology are available for screening mammography. Recent reports, including in high impact journals, document performance of deep models at or above that of trained radiologists. What is not yet known is whether performance of these trained models is robust and replicates across datasets. Here we evaluate performance of five published state-of-the-art models on four publicly available mammography datasets. The limited size of public datasets precludes retraining the model and so we are limited to evaluate those models that have been made available with pre-trained parameters. Where test data was available, we replicated published results. However, the trained models performed poorly on out-of-sample data, except when based on all four standard views of a mammographic exam. We conclude that future progress will depend on a concerted effort to make more diverse and larger mammography datasets publicly available. Meanwhile, results that are not accompanied by a release of trained models for independent validation should be judged cautiously.
翻訳日:2022-07-04 01:22:38 公開日:2022-06-22
# 合成データを用いたエンドツーエンドASRシステムにおけるドメイン適応のための簡易ベースライン

A Simple Baseline for Domain Adaptation in End to End ASR Systems Using Synthetic Data ( http://arxiv.org/abs/2206.13240v1 )

ライセンス: Link先を確認
Raviraj Joshi, Anupam Singh(参考訳) ASR(Automatic Speech Recognition)は、ディープラーニングに基づくエンドツーエンド音声認識モデルによって支配されている。 これらのアプローチは、音声とテキストのペアという形で大量のラベル付きデータを必要とする。 さらに、これらのモデルは従来のモデルに比べてドメインシフトの影響を受けやすい。 一般的なASRモデルをトレーニングし、比較的小さなデータセットを使用してターゲットドメインに適応させるのが一般的である。 テキストのみのコーパスが利用できるドメイン適応の極端な場合を考える。 本研究では,エンドツーエンド音声認識モデルにおけるドメイン適応のためのシンプルなベースライン手法を提案する。 テキストのみのコーパスを単一話者テキスト音声(TTS)エンジンを用いて音声データに変換する。 対象領域の並列データは、一般的なASRモデルの最終的な密度層を微調整するために使用される。 単一話者合成TTSデータと最終密度層を結合した微調整が単語誤り率の適切な改善をもたらすことを示す。 アドレスとeコマース検索ドメインからのテキストデータを用いて,CTCおよび注目モデルに対する低コストベースラインアプローチの有効性を示す。

Automatic Speech Recognition(ASR) has been dominated by deep learning-based end-to-end speech recognition models. These approaches require large amounts of labeled data in the form of audio-text pairs. Moreover, these models are more susceptible to domain shift as compared to traditional models. It is common practice to train generic ASR models and then adapt them to target domains using comparatively smaller data sets. We consider a more extreme case of domain adaptation where text-only corpus is available. In this work, we propose a simple baseline technique for domain adaptation in end-to-end speech recognition models. We convert the text-only corpus to audio data using single speaker Text to Speech (TTS) engine. The parallel data in the target domain is then used to fine-tune the final dense layer of generic ASR models. We show that single speaker synthetic TTS data coupled with final dense layer only fine-tuning provides reasonable improvements in word error rates. We use text data from address and e-commerce search domains to show the effectiveness of our low-cost baseline approach on CTC and attention-based models.
翻訳日:2022-07-04 01:19:43 公開日:2022-06-22
# (参考訳) 交通予測のための動的時空間グラフニューラルネットワークの分離

Decoupled Dynamic Spatial-Temporal Graph Neural Network for Traffic Forecasting ( http://arxiv.org/abs/2206.09112v2 )

ライセンス: CC BY 4.0
Zezhi Shao, Zhao Zhang, Wei Wei, Fei Wang, Yongjun Xu, Xin Cao, and Christian S. Jensen(参考訳) 私たちは皆移動に頼っており、車載輸送は私たちのほとんどの日常生活に影響を与えます。 したがって、道路網における交通状況を予測する能力は重要な機能であり、課題である。 交通データは道路網に配置されたセンサーから取得されることが多い。 近年の時空間グラフニューラルネットワークの提案は,交通データを拡散過程としてモデル化することで,交通データの複雑な時空間相関をモデル化する上で大きな進歩を遂げている。 しかし直観的には、交通データは拡散信号と固有信号という2種類の隠れた時系列信号を含んでいる。 残念なことに、これまでのほとんどの研究は、交通信号が拡散の結果であると考える一方で、モデルの性能に悪影響を及ぼす固有の信号を無視している。 モデリング性能を向上させるために,分散と固有トラフィック情報をデータ駆動方式で分離し,一意な推定ゲートと残留分解機構を包含する,分離した空間時空間フレームワーク(dstf)を提案する。 分離された信号はその後、拡散と固有のモジュールによって別々に処理できる。 さらに、時空間相関を捉えるDSTF(Decoupled Dynamic Spatial-Temporal Graph Neural Network, D2STGNN)のインスタンス化を提案し、また、トラフィックネットワークの動的特性の学習を目的とした動的グラフ学習モジュールを特徴とする。 4つの現実世界のトラフィックデータセットによる広範囲な実験により、フレームワークが最先端を前進できることが示されている。

We all depend on mobility, and vehicular transportation affects the daily lives of most of us. Thus, the ability to forecast the state of traffic in a road network is an important functionality and a challenging task. Traffic data is often obtained from sensors deployed in a road network. Recent proposals on spatial-temporal graph neural networks have achieved great progress at modeling complex spatial-temporal correlations in traffic data, by modeling traffic data as a diffusion process. However, intuitively, traffic data encompasses two different kinds of hidden time series signals, namely the diffusion signals and inherent signals. Unfortunately, nearly all previous works coarsely consider traffic signals entirely as the outcome of the diffusion, while neglecting the inherent signals, which impacts model performance negatively. To improve modeling performance, we propose a novel Decoupled Spatial-Temporal Framework (DSTF) that separates the diffusion and inherent traffic information in a data-driven manner, which encompasses a unique estimation gate and a residual decomposition mechanism. The separated signals can be handled subsequently by the diffusion and inherent modules separately. Further, we propose an instantiation of DSTF, Decoupled Dynamic Spatial-Temporal Graph Neural Network (D2STGNN), that captures spatial-temporal correlations and also features a dynamic graph learning module that targets the learning of the dynamic characteristics of traffic networks. Extensive experiments with four real-world traffic datasets demonstrate that the framework is capable of advancing the state-of-the-art.
翻訳日:2022-06-26 15:16:55 公開日:2022-06-22
# (参考訳) クエリを念頭に置いて:クエリ条件の畳み込みによるビジュアルグラウンド

Bear the Query in Mind: Visual Grounding with Query-conditioned Convolution ( http://arxiv.org/abs/2206.09114v2 )

ライセンス: CC BY 4.0
Chonghan Chen, Qi Jiang, Chih-Hao Wang, Noel Chen, Haohan Wang, Xiang Li, Bhiksha Raj(参考訳) ビジュアルグラウンドティングは、自然言語表現に従って対象物を見つけることを目的としたタスクである。 マルチモーダルタスクとしては,テキスト入力と視覚入力の相互作用が不可欠である。 しかし, 従来の手法では, 視覚的特徴を抽出しながら, 関係するテキスト情報を十分に活用することができない。 ビジュアルグラウンドディングにおけるテキスト-視覚的関係をよりよく活用するために,クエリ情報を畳み込みカーネルの生成に組み込むことで,クエリ対応の視覚特徴を抽出するクエリ条件付き畳み込みモジュール(QCM)を提案する。 提案したQCMにより、下流融合モジュールはより識別性が高く、表現に記述された所望のオブジェクトに焦点を絞った視覚的特徴を受け取り、より正確な予測を行う。 3つの一般的な視覚的グラウンドティングデータセットに対する大規模な実験により、我々の手法が最先端の性能を達成することを示す。 さらに、クエリアウェアなビジュアル機能は、さらなるマルチモーダル融合なしに直接予測に使用される場合、最新のメソッドに匹敵するパフォーマンスを達成するのに十分な情報を提供する。

Visual grounding is a task that aims to locate a target object according to a natural language expression. As a multi-modal task, feature interaction between textual and visual inputs is vital. However, previous solutions mainly handle each modality independently before fusing them together, which does not take full advantage of relevant textual information while extracting visual features. To better leverage the textual-visual relationship in visual grounding, we propose a Query-conditioned Convolution Module (QCM) that extracts query-aware visual features by incorporating query information into the generation of convolutional kernels. With our proposed QCM, the downstream fusion module receives visual features that are more discriminative and focused on the desired object described in the expression, leading to more accurate predictions. Extensive experiments on three popular visual grounding datasets demonstrate that our method achieves state-of-the-art performance. In addition, the query-aware visual features are informative enough to achieve comparable performance to the latest methods when directly used for prediction without further multi-modal fusion.
翻訳日:2022-06-26 13:58:37 公開日:2022-06-22
# バランス表現をもつ遺伝的アルゴリズムに対する局所探索の影響

The Influence of Local Search over Genetic Algorithms with Balanced Representations ( http://arxiv.org/abs/2206.10974v1 )

ライセンス: Link先を確認
Luca Manzoni, Luca Mariot, Eva Tuba(参考訳) 我々は, 候補解が均衡制約を満たす必要がある組合せ最適化問題に関する遺伝的アルゴリズム(ga)の研究を継続する。 アドホックなクロスオーバーと突然変異演算子によって与えられる探索空間の縮小は、GA性能の大幅な改善にはならないことが観察されている。 この現象の明確な説明はいまだにないが、バランスの取れた表現はより不規則なフィットネスランドスケープをもたらす可能性があり、GAがグローバルな最適化に収束することがより困難である可能性がある。 本稿では,平衡演算子を持つGAに局所探索ステップを追加してこの問題を考察し,高非線形平衡ブール関数の進化に活用する。 特に, 局所探索がgaの収束速度を向上させるか, (2) 個体群多様性を低下させるかという2つの研究課題に関する実験を整理した。 驚くべきことに、私たちの結果は最初の質問に対して肯定的に答える一方で、ローカル検索を追加することで、実際に人口の多様性が向上することを示している。 これらの知見を、Boolean関数の問題に対するフィットネスランドスケープ分析に関する最近の結果とリンクする。

We continue the study of Genetic Algorithms (GA) on combinatorial optimization problems where the candidate solutions need to satisfy a balancedness constraint. It has been observed that the reduction of the search space size granted by ad-hoc crossover and mutation operators does not usually translate to a substantial improvement of the GA performances. There is still no clear explanation of this phenomenon, although it is suspected that a balanced representation might yield a more irregular fitness landscape, where it could be more difficult for GA to converge to a global optimum. In this paper, we investigate this issue by adding a local search step to a GA with balanced operators, and use it to evolve highly nonlinear balanced Boolean functions. In particular, we organize our experiments around two research questions, namely if local search (1) improves the convergence speed of GA, and (2) decreases the population diversity. Surprisingly, while our results answer affirmatively the first question, they also show that adding local search actually \emph{increases} the diversity among the individuals in the population. We link these findings to some recent results on fitness landscape analysis for problems on Boolean functions.
翻訳日:2022-06-26 12:38:48 公開日:2022-06-22
# バッチベイズ最適化における動的多目的獲得関数の集合

Dynamic Multi-objective Ensemble of Acquisition Functions in Batch Bayesian Optimization ( http://arxiv.org/abs/2206.11118v1 )

ライセンス: Link先を確認
Jixiang Chen and Fu Luo and Zhenkun Wang(参考訳) ベイズ最適化(BO)は高価な最適化問題を解決する典型的な手法である。 boの各イテレーションでは、予め評価された解を用いてガウス過程(gp)モデルを訓練し、訓練されたサロゲートモデル上で安価に評価された取得関数を最大化することにより、高価な評価のための次の候補解を推奨する。 獲得関数は最適化プロセスにおいて重要な役割を果たす。 しかし、それぞれの獲得関数は強みと弱みを持ち、単一の獲得関数があらゆる種類の問題に対して一貫して他の関数を上回ることはない。 異なる獲得関数の利点をよりよく活用するために,バッチBOの新しい手法を提案する。 各イテレーションにおいて、3つの取得関数は、その現在および過去のパフォーマンスに基づいてセットから動的に選択され、多目的最適化問題(MOP)を形成する。 進化的多目的アルゴリズムを用いて、MOPを最適化し、非支配的な解の集合を得ることができる。 バッチ候補の解を選択するために,これら非支配的な解を3つの獲得関数の相対的性能に応じて複数の層に分類する。 実験の結果,提案手法は,異なる問題に対する最先端手法と競合することがわかった。

Bayesian optimization (BO) is a typical approach to solve expensive optimization problems. In each iteration of BO, a Gaussian process(GP) model is trained using the previously evaluated solutions; then next candidate solutions for expensive evaluation are recommended by maximizing a cheaply-evaluated acquisition function on the trained surrogate model. The acquisition function plays a crucial role in the optimization process. However, each acquisition function has its own strengths and weaknesses, and no single acquisition function can consistently outperform the others on all kinds of problems. To better leverage the advantages of different acquisition functions, we propose a new method for batch BO. In each iteration, three acquisition functions are dynamically selected from a set based on their current and historical performance to form a multi-objective optimization problem (MOP). Using an evolutionary multi-objective algorithm to optimize such a MOP, a set of non-dominated solutions can be obtained. To select batch candidate solutions, we rank these non-dominated solutions into several layers according to their relative performance on the three acquisition functions. The empirical results show that the proposed method is competitive with the state-of-the-art methods on different problems.
翻訳日:2022-06-26 12:38:29 公開日:2022-06-22
# 垂直キャビティ面発光レーザーに結合した共鳴トンネルダイオードを用いた人工光電子スパイキングニューロン

Artificial optoelectronic spiking neuron based on a resonant tunnelling diode coupled to a vertical cavity surface emitting laser ( http://arxiv.org/abs/2206.11044v1 )

ライセンス: Link先を確認
Mat\v{e}j Hejda, Ekaterina Malysheva, Dafydd Owen-Newns, Qusay Raghib Ali Al-Taai, Weikang Zhang, Ignacio Ortega-Piwonka, Julien Javaloyes, Edward Wasige, Victor Dolores-Calzadilla, Jos\'e M. L. Figueiredo, Bruno Romeira, and Antonio Hurtado(参考訳) 精密光電子デバイスは、ニューロモルフィック(脳にインスパイアされた)フォトニックシステムにおける人工スパイクニューロンの実装のための重要な構成要素の1つである。 本研究は、光検出器を受信機として共振トンネルダイオード(rtd)を結合した光電気光学(o/e/o)人工ニューロンと、その送信機として垂直キャビティ面発光レーザを紹介する。 我々は,このニューロンが特徴的な神経様耐火物周期で100nsの光スパイク応答を発生させる,よく定義された興奮性閾値を示す。 ファンイン機能を利用して、デバイス内同時検出(論理AND)および排他論理OR(XOR)タスクを実行する。 これらの結果は、入力および出力光(I/O)端子を持つRTDベースのスパイキング光電子ニューロンにおいて、決定論的トリガーとタスクを初めて実験的に検証する。 さらに, ナノスケールRTD素子とナノレーザーを組み合わせたモノリシック設計によるナノフォトニック実装システムの実現の可能性も理論的に検討し, 将来のニューロモルフィック・フォトニック・ハードウェアにおける低フットプリント, 高速光電子スパイクニューロンに対するRTDベースの励起可能な集積ノードの可能性を示す。

Excitable optoelectronic devices represent one of the key building blocks for implementation of artificial spiking neurons in neuromorphic (brain-inspired) photonic systems. This work introduces and experimentally investigates an opto-electro-optical (O/E/O) artificial neuron built with a resonant tunnelling diode (RTD) coupled to a photodetector as a receiver and a vertical cavity surface emitting laser as a the transmitter. We demonstrate a well defined excitability threshold, above which this neuron produces 100 ns optical spiking responses with characteristic neural-like refractory period. We utilise its fan-in capability to perform in-device coincidence detection (logical AND) and exclusive logical OR (XOR) tasks. These results provide first experimental validation of deterministic triggering and tasks in an RTD-based spiking optoelectronic neuron with both input and output optical (I/O) terminals. Furthermore, we also investigate in theory the prospects of the proposed system for its nanophotonic implementation with a monolithic design combining a nanoscale RTD element and a nanolaser; therefore demonstrating the potential of integrated RTD-based excitable nodes for low footprint, high-speed optoelectronic spiking neurons in future neuromorphic photonic hardware.
翻訳日:2022-06-26 12:37:50 公開日:2022-06-22
# (参考訳) コインフリップニューラルネットワーク

Coin Flipping Neural Networks ( http://arxiv.org/abs/2206.09182v2 )

ライセンス: CC BY 4.0
Yuval Sieradzki, Nitzan Hodos, Gal Yehuda, Assaf Schuster(参考訳) ランダム性を持つニューラルネットワークは増幅を用いて決定論的ネットワークより優れていることを示す。 このようなネットワークをCoin-Flipping Neural Networks(CFNN)と呼ぶ。 CFNNは2層と$\mathcal{O}(1)$ニューロンで任意の精度で$d$次元球のインジケータを近似することができ、そこでは2層決定ネットワークが$\Omega(e^d)$ニューロンを必要とし、指数的改善(arXiv:1610.09887)を行うことを示した。 ほとんどすべての分類問題に対して、ネットワークの重みに対して十分な強力な生成器を与えるような、自明な単純なネットワークが存在することを証明している。 これらの結果を組み合わせることで、ほとんどの分類問題に対して、決定論的ネットワークよりも高い精度または少ないニューロンでそれらを解くCFNNが存在すると推測する。 最後に, CIFAR10 および CIFAR100 上の新しい CFNN アーキテクチャを用いて実験により検証を行い, ベースラインから 9.25 % 向上した。

We show that neural networks with access to randomness can outperform deterministic networks by using amplification. We call such networks Coin-Flipping Neural Networks, or CFNNs. We show that a CFNN can approximate the indicator of a $d$-dimensional ball to arbitrary accuracy with only 2 layers and $\mathcal{O}(1)$ neurons, where a 2-layer deterministic network was shown to require $\Omega(e^d)$ neurons, an exponential improvement (arXiv:1610.09887). We prove a highly non-trivial result, that for almost any classification problem, there exists a trivially simple network that solves it given a sufficiently powerful generator for the network's weights. Combining these results we conjecture that for most classification problems, there is a CFNN which solves them with higher accuracy or fewer neurons than any deterministic network. Finally, we verify our proofs experimentally using novel CFNN architectures on CIFAR10 and CIFAR100, reaching an improvement of 9.25\% from the baseline.
翻訳日:2022-06-26 06:18:08 公開日:2022-06-22
# (参考訳) savir-t:トランスフォーマーを用いた空間的注意視覚推論

SAViR-T: Spatially Attentive Visual Reasoning with Transformers ( http://arxiv.org/abs/2206.09265v2 )

ライセンス: CC BY 4.0
Pritish Sahu, Kalliopi Basioti, Vladimir Pavlovic(参考訳) 本稿では,Raven's Progressive Matrices (RPM) に具現化された視覚的推論問題に対する新しい計算モデル "SAViR-T" を提案する。 本モデルでは,各画像内の視覚的要素の明示的な空間的意味論を,空間的・視覚的なトークンとして符号化し,画像内および画像間トークン依存性を学習する。 トランスフォーマーベースのsavir-tアーキテクチャでモデル化されたトークン関係は、グループルールコヒーレンスを利用してグループ(行または列)駆動の表現を抽出し、これをインダクティブバイアスとして、rpmのトークン毎に上位2行(またはカラム)のルール表現を抽出する。 我々はこの関係表現を用いて、RPMの最終行または列を完成させる正しい選択画像を見つける。 RAVEN、I-RAVEN、RAVEN-FAIR、PGMといった合成RPMベンチマークと自然画像ベースの「V-PROM」の双方にわたる広範な実験により、SAViR-Tは視覚的推論のための新しい最先端技術を構築し、以前のモデルの性能をかなり上回った。

We present a novel computational model, "SAViR-T", for the family of visual reasoning problems embodied in the Raven's Progressive Matrices (RPM). Our model considers explicit spatial semantics of visual elements within each image in the puzzle, encoded as spatio-visual tokens, and learns the intra-image as well as the inter-image token dependencies, highly relevant for the visual reasoning task. Token-wise relationship, modeled through a transformer-based SAViR-T architecture, extract group (row or column) driven representations by leveraging the group-rule coherence and use this as the inductive bias to extract the underlying rule representations in the top two row (or column) per token in the RPM. We use this relation representations to locate the correct choice image that completes the last row or column for the RPM. Extensive experiments across both synthetic RPM benchmarks, including RAVEN, I-RAVEN, RAVEN-FAIR, and PGM, and the natural image-based "V-PROM" demonstrate that SAViR-T sets a new state-of-the-art for visual reasoning, exceeding prior models' performance by a considerable margin.
翻訳日:2022-06-26 01:25:35 公開日:2022-06-22
# (参考訳) C^*$-algebra Net: ニューラルネットワークパラメータを$C^*$-algebraに一般化する新しいアプローチ

$C^*$-algebra Net: A New Approach Generalizing Neural Network Parameters to $C^*$-algebra ( http://arxiv.org/abs/2206.09513v2 )

ライセンス: CC BY 4.0
Yuka Hashimoto, Zhao Wang, and Tomoko Matsui(参考訳) ニューラルネットワークモデルのパラメータを$c^*$-algebra-valuedに一般化する新しいフレームワークを提案する。 C^*$-algebra は複素数の空間の一般化である。 典型的な例はコンパクト空間上の連続函数の空間である。 この一般化により、複数のモデルを連続的に組み合わせ、回帰や統合といった機能にツールを使うことができる。 その結果,データの特徴を効率的に学習し,モデルを継続的に問題に適用することができる。 我々は,密度推定や少数ショット学習といった実践的な問題にフレームワークを適用し,限られたサンプル数でもデータの特徴を学習できることを示す。 新しいフレームワークは、一般的なニューラルネットワークモデルに$c^*$-algebraの理論を適用する可能性を強調している。

We propose a new framework that generalizes the parameters of neural network models to $C^*$-algebra-valued ones. $C^*$-algebra is a generalization of the space of complex numbers. A typical example is the space of continuous functions on a compact space. This generalization enables us to combine multiple models continuously and use tools for functions such as regression and integration. Consequently, we can learn features of data efficiently and adapt the models to problems continuously. We apply our framework to practical problems such as density estimation and few-shot learning and show that our framework enables us to learn features of data even with a limited number of samples. Our new framework highlights the potential possibility of applying the theory of $C^*$-algebra to general neural network models.
翻訳日:2022-06-25 18:07:59 公開日:2022-06-22
# (参考訳) 分散検出のための複数テストフレームワーク

Multiple Testing Framework for Out-of-Distribution Detection ( http://arxiv.org/abs/2206.09522v2 )

ライセンス: CC BY 4.0
Akshayaa Magesh, Venugopal V. Veeravalli, Anirban Roy, Susmit Jha(参考訳) 本研究では,学習アルゴリズムの出力を推定時に信頼できるかどうかを検知するOOD(Out-of-Distribution)検出の問題について検討する。 OOD検出のためのいくつかの試験が先行研究で提案されているが、この問題を研究するための正式な枠組みが欠如している。 我々は,OOD検出のための強力なテスト構築のための洞察を提供する,入力分布と学習アルゴリズムの両方を含むOOD概念の定義を提案する。 共形p-値を用いた学習アルゴリズムから,様々な統計情報を体系的に組み合わせた多重仮説テスト法を提案する。 さらに, 流通中のサンプルをOODと誤分類する可能性を強く保証する。 実験では、前処理で提案したしきい値ベースのテストは、特定の環境では良好に動作するが、異なるタイプのOODインスタンスでは均一に機能しないことがわかった。 対照的に,複数の統計値を組み合わせた提案手法は,異なるデータセットとニューラルネットワークに対して均一に機能する。

We study the problem of Out-of-Distribution (OOD) detection, that is, detecting whether a learning algorithm's output can be trusted at inference time. While a number of tests for OOD detection have been proposed in prior work, a formal framework for studying this problem is lacking. We propose a definition for the notion of OOD that includes both the input distribution and the learning algorithm, which provides insights for the construction of powerful tests for OOD detection. We propose a multiple hypothesis testing inspired procedure to systematically combine any number of different statistics from the learning algorithm using conformal p-values. We further provide strong guarantees on the probability of incorrectly classifying an in-distribution sample as OOD. In our experiments, we find that threshold-based tests proposed in prior work perform well in specific settings, but not uniformly well across different types of OOD instances. In contrast, our proposed method that combines multiple statistics performs uniformly well across different datasets and neural networks.
翻訳日:2022-06-25 17:23:26 公開日:2022-06-22
# (参考訳) 小型ロングテール鳥音声認識

Few-shot Long-Tailed Bird Audio Recognition ( http://arxiv.org/abs/2206.11260v1 )

ライセンス: CC BY-SA 4.0
Marcos V. Conde and Ui-Jin Choi(参考訳) 鳥を見るより鳥の声が聞こえやすい。 しかし、それらは自然界において重要な役割を担い、環境の質と汚染を悪化させる優れた指標である。 機械学習と畳み込みニューラルネットワークの最近の進歩により、連続した音声データを処理して鳥の鳴き声を検出し分類することができる。 この技術は、研究者が鳥類の個体数や傾向、生態系の生物多様性をモニタリングするのに役立つ。 本研究では,複雑なサウンドスケープを解析し,背景の鳥の鳴き声を識別するための音響検出・分類パイプラインを提案する。 本手法は弱いラベルと少ないデータから学習し,鳥種を音響的に認識する。 私たちのソリューションは、Kaggleで開催されたBirdCLEF 2022 Challengeで、807チームの18位を獲得しました。

It is easier to hear birds than see them. However, they still play an essential role in nature and are excellent indicators of deteriorating environmental quality and pollution. Recent advances in Machine Learning and Convolutional Neural Networks allow us to process continuous audio data to detect and classify bird sounds. This technology can assist researchers in monitoring bird populations' status and trends and ecosystems' biodiversity. We propose a sound detection and classification pipeline to analyze complex soundscape recordings and identify birdcalls in the background. Our method learns from weak labels and few data and acoustically recognizes the bird species. Our solution achieved 18th place of 807 teams at the BirdCLEF 2022 Challenge hosted on Kaggle.
翻訳日:2022-06-25 04:35:22 公開日:2022-06-22
# (参考訳) 回帰モデルの最適重み付けアンサンブル:厳密な重み最適化とその応用

Optimally Weighted Ensembles of Regression Models: Exact Weight Optimization and Applications ( http://arxiv.org/abs/2206.11263v1 )

ライセンス: CC BY 4.0
Patrick Echtenbruck, Martina Echtenbruck, Joost Batenburg, Thomas B\"ack, Boris Naujoks, Michael Emmerich(参考訳) 自動モデル選択は、ユーザーが与えられた回帰タスクに適用する機械学習モデル(または方法)を選択するためにしばしば提案される。 本稿では,異なる回帰モデルの組み合わせにより,単一('ベスト')回帰モデルよりもよい結果が得られることを示すとともに,不均質な回帰モデルから最適重み付き凸線形結合を得る効率的な手法を概説する。 具体的には,前回の論文で用いたヒューリスティックな重み最適化を,凸二次計画法を用いて正確に最適化するアルゴリズムに置き換える。 直観的定式化と重み付きデータ点を持つ定式化に対する二次計画定式化の凸性を証明する。 新たな重量最適化は(より)正確であるだけでなく、より効率的である。 本論文で開発する手法はgithub-open sourceで実装・利用可能である。 一般に利用可能なハードウェア上で実行でき、透過的で容易にインターフェイスを解釈できる。 その結果,本手法は薬物発見アプリケーションからの混合変数型データセットを含む,さまざまなデータセットにおけるモデル選択法よりも優れていた。

Automated model selection is often proposed to users to choose which machine learning model (or method) to apply to a given regression task. In this paper, we show that combining different regression models can yield better results than selecting a single ('best') regression model, and outline an efficient method that obtains optimally weighted convex linear combination from a heterogeneous set of regression models. More specifically, in this paper, a heuristic weight optimization, used in a preceding conference paper, is replaced by an exact optimization algorithm using convex quadratic programming. We prove convexity of the quadratic programming formulation for the straightforward formulation and for a formulation with weighted data points. The novel weight optimization is not only (more) exact but also more efficient. The methods we develop in this paper are implemented and made available via github-open source. They can be executed on commonly available hardware and offer a transparent and easy to interpret interface. The results indicate that the approach outperforms model selection methods on a range of data sets, including data sets with mixed variable type from drug discovery applications.
翻訳日:2022-06-25 04:24:15 公開日:2022-06-22
# (参考訳) 敵対的模倣学習のための潜在政策

Latent Policies for Adversarial Imitation Learning ( http://arxiv.org/abs/2206.11299v1 )

ライセンス: CC BY 4.0
Tianyu Wang, Nikhil Karnwal, Nikolay Atanasov(参考訳) 本稿では,ロボットのロコモーションと操作タスクの学習について検討する。 GAIL(Generative Adversarial mimicion Learning)は、エージェント遷移から専門家を区別する判別器を訓練し、その判別器出力によって定義された報酬を用いてエージェントのポリシー生成を最適化する。 この生成的逆行訓練アプローチは非常に強力であるが、判別器とジェネレータの微妙なバランスに依存する。 高次元問題では、判別器の訓練は容易に過度に適合したり、移行分類のためのタスク非関連の特徴と結びついたりすることができる。 この研究の重要な洞察は、適切な潜在タスク空間で模倣学習を行うことで、高次元問題に挑戦してもトレーニングプロセスが安定するということである。 我々は,行動エンコーダ・デコーダモデルを用いて,低次元の潜在行動空間を取得し,適応的模倣学習(LAPAL)を用いてLAtent Policyを訓練する。 エンコーダ・デコーダモデルは、状態-動作ペアからオフラインでトレーニングし、タスク非依存の潜在動作表現又はオンライン、および識別器およびジェネレータ訓練を同時に取得し、タスク対応潜在動作表現を得る。 我々は,ラダルトレーニングが安定であり,ほぼモノトニックな性能改善を伴い,ほとんどのロコモーションや操作タスクにおいてエキスパートパフォーマンスを達成し,gailベースラインは収束が遅く,高次元環境ではエキスパートパフォーマンスを達成できないことを示す。

This paper considers learning robot locomotion and manipulation tasks from expert demonstrations. Generative adversarial imitation learning (GAIL) trains a discriminator that distinguishes expert from agent transitions, and in turn use a reward defined by the discriminator output to optimize a policy generator for the agent. This generative adversarial training approach is very powerful but depends on a delicate balance between the discriminator and the generator training. In high-dimensional problems, the discriminator training may easily overfit or exploit associations with task-irrelevant features for transition classification. A key insight of this work is that performing imitation learning in a suitable latent task space makes the training process stable, even in challenging high-dimensional problems. We use an action encoder-decoder model to obtain a low-dimensional latent action space and train a LAtent Policy using Adversarial imitation Learning (LAPAL). The encoder-decoder model can be trained offline from state-action pairs to obtain a task-agnostic latent action representation or online, simultaneously with the discriminator and generator training, to obtain a task-aware latent action representation. We demonstrate that LAPAL training is stable, with near-monotonic performance improvement, and achieves expert performance in most locomotion and manipulation tasks, while a GAIL baseline converges slower and does not achieve expert performance in high-dimensional environments.
翻訳日:2022-06-25 04:10:43 公開日:2022-06-22
# (参考訳) 創発語研究の体系化への提言

Recommendations for Systematic Research on Emergent Language ( http://arxiv.org/abs/2206.11302v1 )

ライセンス: CC BY 4.0
Brendon Boldt, David Mortensen(参考訳) 創発的言語はその開放性に関して機械学習の分野内でユニークであり、解決すべき問題が明確に示されていない。 その結果、この分野の現在の研究は主に探索的であり、新しい問題、技術、現象の確立に焦点が当てられている。 しかし、これらの問題が解決された後、その後の進歩は、以前のアプローチでどのように改善するかを測定できる研究が必要である。 この種の研究はシステマティック・リサーチと呼ばれており,本稿では,創発的言語に特有な研究方法を紹介する。 まず、創発的な言語研究の全体目標を特定し、それらを科学か工学のいずれかに分類する。 この区別を用いて,科学と工学の中心的な方法論的要素を提示し,現在の創発的言語研究におけるその役割を分析し,これらの要素の応用を推奨する。

Emergent language is unique among fields within the discipline of machine learning for its open-endedness, not obviously presenting well-defined problems to be solved. As a result, the current research in the field has largely been exploratory: focusing on establishing new problems, techniques, and phenomena. Yet after these problems have been established, subsequent progress requires research which can measurably demonstrate how it improves on prior approaches. This type of research is what we call systematic research; in this paper, we illustrate this mode of research specifically for emergent language. We first identify the overarching goals of emergent language research, categorizing them as either science or engineering. Using this distinction, we present core methodological elements of science and engineering, analyze their role in current emergent language research, and recommend how to apply these elements.
翻訳日:2022-06-25 03:51:23 公開日:2022-06-22
# (参考訳) GODEL: ゴール指向ダイアログのための大規模事前トレーニング

GODEL: Large-Scale Pre-Training for Goal-Directed Dialog ( http://arxiv.org/abs/2206.11309v1 )

ライセンス: CC BY 4.0
Baolin Peng, Michel Galley, Pengcheng He, Chris Brockett, Lars Liden, Elnaz Nouri, Zhou Yu, Bill Dolan, Jianfeng Gao(参考訳) 対話のための大規模事前学習型言語モデルであるgodel (grounded open dialogue language model) を紹介する。 ダイアロGPTのような以前のモデルとは対照的に、GODELはGODELを現在の会話(例えばデータベースやドキュメント)以外の情報を必要とする幅広いダウンストリームダイアログタスクに適応して、優れた応答を生成するために、より優れた基礎的な事前訓練の新たなフェーズを利用する。 タスク指向ダイアログ、対話型QA、接地型オープンドメインダイアログを含む一連のベンチマークに対する実験により、GODELは人間と自動評価の両方の観点から、数ショットの微調整設定で最先端の訓練済みダイアログモデルより優れていることが示された。 評価手法の新たな特徴は,そのコミュニケーション的特徴(内在的評価)に加えて,応答の有用性(外在的評価)を評価するユーティリティの概念の導入である。 評価の結果,アノテーション間合意と自動メトリクスとの相関性が向上した。 コードとデータ処理スクリプトが公開されている。

We introduce GODEL (Grounded Open Dialogue Language Model), a large pre-trained language model for dialog. In contrast with earlier models such as DialoGPT, GODEL leverages a new phase of grounded pre-training designed to better support adapting GODEL to a wide range of downstream dialog tasks that require information external to the current conversation (e.g., a database or document) to produce good responses. Experiments against an array of benchmarks that encompass task-oriented dialog, conversational QA, and grounded open-domain dialog show that GODEL outperforms state-of-the-art pre-trained dialog models in few-shot fine-tuning setups, in terms of both human and automatic evaluation. A novel feature of our evaluation methodology is the introduction of a notion of utility that assesses the usefulness of responses (extrinsic evaluation) in addition to their communicative features (intrinsic evaluation). We show that extrinsic evaluation offers improved inter-annotator agreement and correlation with automated metrics. Code and data processing scripts are publicly available.
翻訳日:2022-06-25 03:35:22 公開日:2022-06-22
# (参考訳) 還元次数モデルに適応するグラスマン多様体上の回帰木

Regression Trees on Grassmann Manifold for Adapting Reduced-Order Models ( http://arxiv.org/abs/2206.11324v1 )

ライセンス: CC BY 4.0
Xiao Liu and Xinchao Liu(参考訳) 低次元および計算コストの少ない低次モデル(rom)は、高次元システムの支配的な振る舞いを捉えるために広く使われている。 実験データ、シミュレーションデータ、観測データ、すなわち訓練データから学習されるモーダル基底モードにまたがる部分空間に全次モデルを投影することにより、よく知られた固有直交分解(pod)を用いてromを得ることができる。 しかし、最適な基底はパラメータの設定で変更できる。 トレーニングデータから得られたPODベースを用いて構築されたROMを新しいパラメータ設定に適用すると、設計、制御、その他のリアルタイム操作問題におけるパラメータの変化に対する堅牢性に欠けることが多い。 本稿では,Grassmann Manifold上の回帰木を用いて,全階モデルが投影される低次元部分空間にまたがるパラメータとPOD基底のマッピングを学習する。 グラフマン多様体の点としてPOD基底で表される部分空間を見ることができるという事実により、我々は木ノードを分割して、予測されたPOD基底によって左右娘ノードの2つの部分空間の間のリーマン距離を最大化することを提案する。 5つの数値例を示し,提案手法の性能を総合的に示すとともに,提案手法を既存のPOD法とグローバルPOD法との比較を行った。 その結果,提案手法はパラメータとPODのマッピングを確立でき,ROMを新しいパラメータに適応させることができることがわかった。

Low dimensional and computationally less expensive Reduced-Order Models (ROMs) have been widely used to capture the dominant behaviors of high-dimensional systems. A ROM can be obtained, using the well-known Proper Orthogonal Decomposition (POD), by projecting the full-order model to a subspace spanned by modal basis modes which are learned from experimental, simulated or observational data, i.e., training data. However, the optimal basis can change with the parameter settings. When a ROM, constructed using the POD basis obtained from training data, is applied to new parameter settings, the model often lacks robustness against the change of parameters in design, control, and other real-time operation problems. This paper proposes to use regression trees on Grassmann Manifold to learn the mapping between parameters and POD bases that span the low-dimensional subspaces onto which full-order models are projected. Motivated by the fact that a subspace spanned by a POD basis can be viewed as a point in the Grassmann manifold, we propose to grow a tree by repeatedly splitting the tree node to maximize the Riemannian distance between the two subspaces spanned by the predicted POD bases on the left and right daughter nodes. Five numerical examples are presented to comprehensively demonstrate the performance of the proposed method, and compare the proposed tree-based method to the existing interpolation method for POD basis and the use of global POD basis. The results show that the proposed tree-based method is capable of establishing the mapping between parameters and POD bases, and thus adapt ROMs for new parameters.
翻訳日:2022-06-25 03:15:47 公開日:2022-06-22
# (参考訳) DP-Parse:インスタンス辞書による生音声から単語境界を見つける

DP-Parse: Finding Word Boundaries from Raw Speech with an Instance Lexicon ( http://arxiv.org/abs/2206.11332v1 )

ライセンス: CC BY 4.0
Robin Algayres, Tristan Ricoul, Julien Karadayi, Hugo Lauren\c{c}on, Salah Zaiem, Abdelrahman Mohamed, Beno\^it Sagot, Emmanuel Dupoux(参考訳) 連続音声における単語境界の発見は、単語間に「空間」の区切りがほとんど、あるいは全くないため困難である。 テキストセグメンテーションのための一般的なベイズ非パラメトリックモデルでは、ディリクレプロセスを使用して文を分割し、単語タイプの語彙を構築する。 同様の原則を用いるが,単語トークンのインスタンスレキシコンのみに依存するdp-parseを導入することで,単語タイプのレキシコンによるクラスタリングエラーを回避する。 Zero Resource Speech Benchmark 2017で、我々のモデルは5つの言語で新しい音声セグメンテーション状態を設定する。 このアルゴリズムは、より優れた入力表現で単調に改善し、弱い教師付き入力で入力されるとさらに高いスコアを達成する。 型レキシコンがないにもかかわらず、DP-Parseは言語モデルにパイプライン化され、新しい音声単語埋め込みベンチマークで評価された意味と構文表現を学ぶことができる。

Finding word boundaries in continuous speech is challenging as there is little or no equivalent of a 'space' delimiter between words. Popular Bayesian non-parametric models for text segmentation use a Dirichlet process to jointly segment sentences and build a lexicon of word types. We introduce DP-Parse, which uses similar principles but only relies on an instance lexicon of word tokens, avoiding the clustering errors that arise with a lexicon of word types. On the Zero Resource Speech Benchmark 2017, our model sets a new speech segmentation state-of-the-art in 5 languages. The algorithm monotonically improves with better input representations, achieving yet higher scores when fed with weakly supervised inputs. Despite lacking a type lexicon, DP-Parse can be pipelined to a language model and learn semantic and syntactic representations as assessed by a new spoken word embedding benchmark.
翻訳日:2022-06-25 02:44:37 公開日:2022-06-22
# (参考訳) ブロック共重合体自己集合のためのベイズモデルキャリブレーション:測度輸送による自由推測と期待情報獲得計算

Bayesian model calibration for block copolymer self-assembly: Likelihood-free inference and expected information gain computation via measure transport ( http://arxiv.org/abs/2206.11343v1 )

ライセンス: CC BY 4.0
Ricardo Baptista, Lianghao Cao, Joshua Chen, Omar Ghattas, Fengyi Li, Youssef M. Marzouk, J. Tinsley Oden(参考訳) 顕微鏡やX線散乱による画像データを用いて,ブロック共重合体(BCP)の自己組織化現象を記述するモデルのベイズ校正について検討する。 bcp平衡構造におけるランダムな長距離障害を考慮し、この不確かさを表現するために補助変数を導入する。 しかし、これらの変数は一般に評価が難しい高次元画像データに対して統合的な可能性をもたらす。 画像データに対する要約統計の作成とともに,測度輸送に基づく確率自由なアプローチを用いて,この挑戦的なベイズ推定問題に取り組む。 また,モデルパラメータに関する観測データからの期待情報ゲイン(eig)を,大幅な追加コストを伴わずに計算できることを示した。 最後に, ダイブロック共重合体薄膜の自己組織化とトップダウン顕微鏡によるキャラクタリゼーションのための大田-川崎モデルに基づく数値ケーススタディを提案する。 キャリブレーションには、いくつかの領域固有のエネルギーとフーリエに基づく要約統計を導入し、その情報性をEIGを用いて定量化する。 本研究では,データ破損と実験設計が校正結果に及ぼす影響を検討するため,提案手法の有効性を示す。

We consider the Bayesian calibration of models describing the phenomenon of block copolymer (BCP) self-assembly using image data produced by microscopy or X-ray scattering techniques. To account for the random long-range disorder in BCP equilibrium structures, we introduce auxiliary variables to represent this aleatory uncertainty. These variables, however, result in an integrated likelihood for high-dimensional image data that is generally intractable to evaluate. We tackle this challenging Bayesian inference problem using a likelihood-free approach based on measure transport together with the construction of summary statistics for the image data. We also show that expected information gains (EIGs) from the observed data about the model parameters can be computed with no significant additional cost. Lastly, we present a numerical case study based on the Ohta--Kawasaki model for diblock copolymer thin film self-assembly and top-down microscopy characterization. For calibration, we introduce several domain-specific energy- and Fourier-based summary statistics, and quantify their informativeness using EIG. We demonstrate the power of the proposed approach to study the effect of data corruptions and experimental designs on the calibration results.
翻訳日:2022-06-25 02:24:03 公開日:2022-06-22
# (参考訳) pepperのリアルタイムオンラインスケルトン抽出とジェスチャー認識

Real-Time Online Skeleton Extraction and Gesture Recognition on Pepper ( http://arxiv.org/abs/2206.11376v1 )

ライセンス: CC BY 4.0
Axel Lefrant, Jean-Marc Montanier(参考訳) 簡単なジェスチャー認識のための多段階パイプラインを提案する。 我々のアプローチの目新しさは、異なるテクノロジーの結合であり、現在、ペッパーロボットの骨格を結合的に抽出し、ジェスチャーを認識する最初のリアルタイムシステムとなっている。 このタスクのためにpepperは、ディープcnnを実行する組込みgpuと、シーン全体のインタラクションをキャプチャする魚眼カメラを追加した。 本稿では、実例シナリオは困難であり、最先端のアプローチは未知の人間のジェスチャーにはほとんど対応していないことを示す。 私たちはこのようなケースを扱う方法を提示します。

We present a multi-stage pipeline for simple gesture recognition. The novelty of our approach is the association of different technologies, resulting in the first real-time system as of now to conjointly extract skeletons and recognise gesture on a Pepper robot. For this task, Pepper has been augmented with an embedded GPU for running deep CNNs and a fish-eye camera to capture whole scene interaction. We show in this article that real-case scenarios are challenging, and the state-of-the-art approaches hardly deal with unknown human gestures. We present here a way to handle such cases.
翻訳日:2022-06-25 02:22:17 公開日:2022-06-22
# (参考訳) 双構造正規化グラフ Laplacian: 多様体 Laplacian への収束と外部雑音へのロバスト性

Bi-stochastically normalized graph Laplacian: convergence to manifold Laplacian and robustness to outlier noise ( http://arxiv.org/abs/2206.11386v1 )

ライセンス: CC BY 4.0
Xiuyuan Cheng, Boris Landa(参考訳) 核化されたグラフ親和性行列の双確率正規化はグラフベースデータ解析におけるグラフラプラシアン法に対する代替正規化スキームを提供し、実際にシンクホーンknopp(sk)反復によって効率的に計算できる。 本稿では、n$のデータポイントが高次元空間に埋め込まれた一般の$d$次元多様体からサンプリングされた場合のレートで、二項正規化グラフラプラシアンを多様体(重み付き)ラプラシアンに収束することを示す。 ある結合極限$n \to \infty$とカーネル帯域$\epsilon \to 0$の下では、グラフラプラシアン作用素の点収束速度は、(2-ノルムの下で)$ O(n^{-1/(d/2+3)} と証明され、有限大の$n$は、$\epsilon \sim n^{-1/(d/2+3)} のスケーリングで達成される。 マニホールドデータが外れたノイズによって腐敗すると、理論上は、クリーンマニホールドデータのレートとノイズベクトルの相互内積の有界性に比例する追加の誤差項に一致するグラフラプラシアン点方向の一貫性が証明される。 本論文では, この条件下では, 両確率正規化ではなく, 近似的に同じ整合性が得られることが示唆されている。 解析に動機づけられ,sk反復により早期に解くことができる近似的および制約付き行列スケーリング問題を提案し,クリーンかつ異常ノイズを伴う模擬多様体データに適用する。 数値実験は、我々の理論結果を支持し、二階層正規化グラフラプラシアンの外周雑音に対する堅牢性を示す。

Bi-stochastic normalization of kernelized graph affinity matrix provides an alternative normalization scheme for graph Laplacian methods in graph-based data analysis and can be computed efficiently by Sinkhorn-Knopp (SK) iterations in practice. This paper proves the convergence of the bi-stochastically normalized graph Laplacian to manifold (weighted-)Laplacian with rates when $n$ data points are i.i.d. sampled from a general $d$-dimensional manifold embedded in a possibly high-dimensional space. Under certain joint limit of $n \to \infty$ and kernel bandwidth $\epsilon \to 0$, the point-wise convergence rate of the graph Laplacian operator (under 2-norm) is proved to be $ O( n^{-1/(d/2+3)})$ at finite large $n$ up to log factors, achieved at the scaling of $\epsilon \sim n^{-1/(d/2+3)} $. When the manifold data are corrupted by outlier noise, we theoretically prove the graph Laplacian point-wise consistency which matches the rate for clean manifold data up to an additional error term proportional to the boundedness of mutual inner-products of the noise vectors. Our analysis suggests that, under the setting being considered in this paper, not exact bi-stochastic normalization but an approximate one will achieve the same consistency rate. Motivated by the analysis, we propose an approximate and constrained matrix scaling problem that can be solved by SK iterations with early termination, and apply to simulated manifold data both clean and with outlier noise. Numerical experiments support our theoretical results and show the robustness of bi-stochastically normalized graph Laplacian to outlier noise.
翻訳日:2022-06-25 01:42:40 公開日:2022-06-22
# (参考訳) 階層フォワードモデルを用いた制御のための学習表現

Learning Representations for Control with Hierarchical Forward Models ( http://arxiv.org/abs/2206.11396v1 )

ライセンス: CC BY 4.0
Trevor McInroe, Lukas Sch\"afer, Stefano V. Albrecht(参考訳) 表現学習とポリシー学習が絡み合っているため、強化学習(RL)エージェントでは画素からの学習制御が難しい。 従来のアプローチでは、補助表現学習タスクでこの問題を改善するが、問題の時間的側面を考慮せず、単段遷移のみを考慮しない。 その代わり、階層的な$k$-step latent(hksl)を提案し、階層内のレベル間のコミュニケーションを学ぶと同時に、ステップスキップのさまざまな大きさで動作する前方モデルの階層を通して表現を学習する補助タスクである。 我々は,HKSLを30のロボット制御タスク群で評価し,HKSLが複数のベースラインよりも高いエピソジックリターンに達するか,あるいは最大性能に収束することを確認した。 また、HKSL階層のレベルは、エージェントアクションの長期的あるいは短期的な結果に特化することを学び、より情報的な表現で下流制御ポリシーを提供する。 最後に、階層レベル間の通信チャネルがコミュニケーションプロセスの両側に基づいて情報を整理し、サンプル効率を向上させることを判定する。

Learning control from pixels is difficult for reinforcement learning (RL) agents because representation learning and policy learning are intertwined. Previous approaches remedy this issue with auxiliary representation learning tasks, but they either do not consider the temporal aspect of the problem or only consider single-step transitions. Instead, we propose Hierarchical $k$-Step Latent (HKSL), an auxiliary task that learns representations via a hierarchy of forward models that operate at varying magnitudes of step skipping while also learning to communicate between levels in the hierarchy. We evaluate HKSL in a suite of 30 robotic control tasks and find that HKSL either reaches higher episodic returns or converges to maximum performance more quickly than several current baselines. Also, we find that levels in HKSL's hierarchy can learn to specialize in long- or short-term consequences of agent actions, thereby providing the downstream control policy with more informative representations. Finally, we determine that communication channels between hierarchy levels organize information based on both sides of the communication process, which improves sample efficiency.
翻訳日:2022-06-25 01:40:51 公開日:2022-06-22
# (参考訳) 機械学習と携帯電話データによるプログラムターゲット:アフガニスタンにおける反貧困介入の証拠

Program Targeting with Machine Learning and Mobile Phone Data: Evidence from an Anti-Poverty Intervention in Afghanistan ( http://arxiv.org/abs/2206.11400v1 )

ライセンス: CC BY 4.0
Emily Aiken, Guadalupe Bedoya, Joshua Blumenstock, Aidan Coville(参考訳) 携帯電話データはプログラムターゲティングを改善することができるか? アフガニスタンの「大きなプッシュ」反貧困プログラムからの豊富な調査データを、プログラム受益者からの詳細な携帯電話ログと組み合わせることで、プログラムの利益に適する超貧しい世帯を、プログラムの利益に適した世帯から正確に区別できる範囲について調査する。 携帯電話データを利用した機械学習手法は、調査に基づく消費と富の尺度とほぼ同じ精度で、調査に基づく測定と携帯電話データを組み合わせることで、単一のデータソースに基づくものよりも正確な分類を実現できることを示す。

Can mobile phone data improve program targeting? By combining rich survey data from a "big push" anti-poverty program in Afghanistan with detailed mobile phone logs from program beneficiaries, we study the extent to which machine learning methods can accurately differentiate ultra-poor households eligible for program benefits from ineligible households. We show that machine learning methods leveraging mobile phone data can identify ultra-poor households nearly as accurately as survey-based measures of consumption and wealth; and that combining survey-based measures with mobile phone data produces classifications more accurate than those based on a single data source.
翻訳日:2022-06-25 01:22:46 公開日:2022-06-22
# (参考訳) PAC:マルチエージェント強化学習における対実予測による価値要因化支援

PAC: Assisted Value Factorisation with Counterfactual Predictions in Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2206.11420v1 )

ライセンス: CC BY 4.0
Hanhan Zhou, Tian Lan, Vaneet Aggarwal(参考訳) 多エージェント強化学習(MARL)は、値関数分解法の開発において大きな進歩をみせた。 単調性による因子化毎の効用を最大化することで、共同作用値関数を最適化することができる。 本稿では,marl問題の部分的観測において,エージェントが自分自身のアクションを順序づけすることで,表現可能な関数クラスに並列制約(異なる状態)を課し,トレーニング中にかなりの推定誤差を生じさせることを示した。 本稿では,この制約に対処し,新たな反事実損失による価値関数分解への明示的な支援を可能にする,最適行動選択の反事実予測から生じる支援情報を活用した新しい枠組みpacを提案する。 変動推論に基づく情報符号化法を開発し、推定ベースラインから反現実予測を収集・符号化する。 分散実行を可能にするために,最大エントロピーmarlフレームワークにインスパイアされた,エージェント毎のファクタリゼーションポリシも導出する。 提案したPACを,マルチエージェント捕食者とStarCraft IIマイクロマネジメントタスクのセットで評価した。 実証実験の結果,すべてのベンチマークにおいて,最先端のバリューベースおよびポリシベースのマルチエージェント強化学習アルゴリズムに対するpacの効果が向上した。

Multi-agent reinforcement learning (MARL) has witnessed significant progress with the development of value function factorization methods. It allows optimizing a joint action-value function through the maximization of factorized per-agent utilities due to monotonicity. In this paper, we show that in partially observable MARL problems, an agent's ordering over its own actions could impose concurrent constraints (across different states) on the representable function class, causing significant estimation error during training. We tackle this limitation and propose PAC, a new framework leveraging Assistive information generated from Counterfactual Predictions of optimal joint action selection, which enable explicit assistance to value function factorization through a novel counterfactual loss. A variational inference-based information encoding method is developed to collect and encode the counterfactual predictions from an estimated baseline. To enable decentralized execution, we also derive factorized per-agent policies inspired by a maximum-entropy MARL framework. We evaluate the proposed PAC on multi-agent predator-prey and a set of StarCraft II micromanagement tasks. Empirical results demonstrate improved results of PAC over state-of-the-art value-based and policy-based multi-agent reinforcement learning algorithms on all benchmarks.
翻訳日:2022-06-25 01:21:50 公開日:2022-06-22
# 幾何学的ブロックモデルにおけるコミュニティリカバリ

Community Recovery in the Geometric Block Model ( http://arxiv.org/abs/2206.11303v1 )

ライセンス: Link先を確認
Sainyam Galhotra, Arya Mazumdar, Soumyabrata Pal, Barna Saha(参考訳) コミュニティ検出問題の多くに固有の幾何学的特徴を捉えるため,我々は,コミュニティのランダムグラフモデルを用いて,これを「emph{Geometric Block Model}」と呼ぶ。 幾何学ブロックモデルは、Erd\H{o}s-R\'{en}yiランダムグラフ上によく研究された確率ブロックモデルが構築されるのと同じように、空間ネットワークのランダムグラフの基本モデルの一つである 'emph{random geometry graphs} (Gilbert, 1961) の上に構築される。 コミュニティ検出の最近の理論的および実践的な進歩に触発されたランダムなコミュニティモデルの自然な拡張でもある。 幾何学的ブロックモデルを分析するために、まずランダム幾何グラフの一般化である \emph{random annulus graphs} に対する新たな接続結果を提供する。 幾何グラフの接続性は導入以来研究されており、エッジ形成の相関により解析は困難である。 次に,ランダムアニュラスグラフの接続結果を用いて,幾何学的ブロックモデルにおけるコミュニティの効率的な回復に必要な十分条件を提供する。 幾何ブロックモデルのコミュニティを検出する単純な三角計数アルゴリズムがほぼ最適であることを示す。 このため、グラフ密度の2つのレギュレーションを考える。 グラフの平均次数が頂点数と対数的に増加する体制において、我々のアルゴリズムは理論的にも実用的にも非常によく機能することを示す。 対照的に、三角数え上げアルゴリズムは対数次数法における確率的ブロックモデルに最適ではない。 また、グラフの平均次数は頂点数$n$で線形に増加するので、グラフを保存するためには$\Theta(n^2)$メモリが必要である。 我々のアルゴリズムは、潜伏するコミュニティを回復するために、この体制に$O(n \log n)$ edgeだけを格納する必要がある。

To capture inherent geometric features of many community detection problems, we propose to use a new random graph model of communities that we call a \emph{Geometric Block Model}. The geometric block model builds on the \emph{random geometric graphs} (Gilbert, 1961), one of the basic models of random graphs for spatial networks, in the same way that the well-studied stochastic block model builds on the Erd\H{o}s-R\'{en}yi random graphs. It is also a natural extension of random community models inspired by the recent theoretical and practical advancements in community detection. To analyze the geometric block model, we first provide new connectivity results for \emph{random annulus graphs} which are generalizations of random geometric graphs. The connectivity properties of geometric graphs have been studied since their introduction, and analyzing them has been difficult due to correlated edge formation. We then use the connectivity results of random annulus graphs to provide necessary and sufficient conditions for efficient recovery of communities for the geometric block model. We show that a simple triangle-counting algorithm to detect communities in the geometric block model is near-optimal. For this we consider two regimes of graph density. In the regime where the average degree of the graph grows logarithmically with number of vertices, we show that our algorithm performs extremely well, both theoretically and practically. In contrast, the triangle-counting algorithm is far from being optimum for the stochastic block model in the logarithmic degree regime. We also look at the regime where the average degree of the graph grows linearly with the number of vertices $n$, and hence to store the graph one needs $\Theta(n^2)$ memory. We show that our algorithm needs to store only $O(n \log n)$ edges in this regime to recover the latent communities.
翻訳日:2022-06-24 14:40:34 公開日:2022-06-22
# 非凸が平均外であるときの多孔体-L{}ojasiewicz関数に対する準数値を超えた重ボールの確率的加速

Provable Acceleration of Heavy Ball beyond Quadratics for a Class of Polyak-\L{}ojasiewicz Functions when the Non-Convexity is Averaged-Out ( http://arxiv.org/abs/2206.11872v1 )

ライセンス: Link先を確認
Jun-Kun Wang and Chi-Heng Lin and Andre Wibisono and Bin Hu(参考訳) 現在、ヘビーボール(HB)は非凸最適化において最も一般的な運動量法の一つである。 勾配に基づく手法にヘビーボール力学を取り入れることで、現代の機械学習モデルのトレーニングプロセスが加速することが広く観測されている。 しかし、加速の理論的基盤を確立するという進歩は、その実証的な成功よりもはるかに遅れている。 既存の証明可能な加速結果は、HBの加速度を示す現在の技術は、ヘシアンが固定された場合に限られているため、2次あるいは2次に近い関数である。 本研究では,2点連続時間におけるヘッセン変換が収束速度にどう影響するかを解析し,二次性を超えて加速を示す新しい手法を開発した。 本研究の技術的結果に基づき、hbを介して証明可能な加速度を達成することができるポリak-\l{}ojasiewicz(pl)最適化問題のクラスを同定する。 さらに,本分析は運動量パラメータを適応的に設定する利点を示す。

Heavy Ball (HB) nowadays is one of the most popular momentum methods in non-convex optimization. It has been widely observed that incorporating the Heavy Ball dynamic in gradient-based methods accelerates the training process of modern machine learning models. However, the progress on establishing its theoretical foundation of acceleration is apparently far behind its empirical success. Existing provable acceleration results are of the quadratic or close-to-quadratic functions, as the current techniques of showing HB's acceleration are limited to the case when the Hessian is fixed. In this work, we develop some new techniques that help show acceleration beyond quadratics, which is achieved by analyzing how the change of the Hessian at two consecutive time points affects the convergence speed. Based on our technical results, a class of Polyak-\L{}ojasiewicz (PL) optimization problems for which provable acceleration can be achieved via HB is identified. Moreover, our analysis demonstrates a benefit of adaptively setting the momentum parameter.
翻訳日:2022-06-24 14:31:32 公開日:2022-06-22
# Recommender システムのための合成データベースシミュレータ:サーベイ

Synthetic Data-Based Simulators for Recommender Systems: A Survey ( http://arxiv.org/abs/2206.11338v1 )

ライセンス: Link先を確認
Elizaveta Stavinova, Alexander Grigorievskiy, Anna Volodkevich, Petr Chunaev, Klavdiya Bochenina, Dmitry Bugaychenko(参考訳) 本調査は, ユーザとレコメンダシステム間のインタラクションのモデリングとシミュレーション(M&S)の分野における最近の動向と, 産業用レコメンダエンジンの性能向上へのM&Sの適用について, 概観することを目的としている。 まず、シミュレーション(シミュレーター)を実装するフレームワークの開発と、それらを異なるタイプの推奨システム(強化学習システムを含む)のトレーニングとテストに利用する動機から始めます。 さらに,その機能,適用性,工業的有効性に基づく既存のシミュレータの新たな一貫した分類を行い,さらに,本研究文献に見られるシミュレータの概略を述べる。 また,シミュレーションの構成要素として,合成データ(ユーザ,アイテム,ユーザ-テーマ応答)生成法,what-if実験解析法,シミュレーション品質評価に使用される手法とデータセット(シミュレーションと現実のギャップを監視・閉鎖する手法を含む),実験シミュレーション結果を要約する手法について論じた。 最後に,この分野における新たな話題と課題について考察する。

This survey aims at providing a comprehensive overview of the recent trends in the field of modeling and simulation (M&S) of interactions between users and recommender systems and applications of the M&S to the performance improvement of industrial recommender engines. We start with the motivation behind the development of frameworks implementing the simulations -- simulators -- and the usage of them for training and testing recommender systems of different types (including Reinforcement Learning ones). Furthermore, we provide a new consistent classification of existing simulators based on their functionality, approbation, and industrial effectiveness and moreover make a summary of the simulators found in the research literature. Besides other things, we discuss the building blocks of simulators: methods for synthetic data (user, item, user-item responses) generation, methods for what-if experimental analysis, methods and datasets used for simulation quality evaluation (including the methods that monitor and/or close possible simulation-to-reality gaps), and methods for summarization of experimental simulation results. Finally, this survey considers emerging topics and open problems in the field.
翻訳日:2022-06-24 14:30:00 公開日:2022-06-22
# GACT: 一般的なアーキテクチャのためのアクティベーション圧縮トレーニング

GACT: Activation Compressed Training for General Architectures ( http://arxiv.org/abs/2206.11357v1 )

ライセンス: Link先を確認
Xiaoxuan Liu, Lianmin Zheng, Dequan Wang, Yukuo Cen, Weize Chen, Xu Han, Jianfei Chen, Zhiyuan Liu, Jie Tang, Joey Gonzalez, Michael Mahoney, Alvin Cheung(参考訳) 大規模なニューラルネットワーク(NN)モデルのトレーニングには広範なメモリリソースが必要であり、Activation Compressed Training(ACT)は、トレーニングメモリフットプリントを削減するための有望なアプローチである。 本稿では,ドメイン知識に制限のある汎用NNアーキテクチャに対して,幅広い機械学習タスクをサポートするACTフレームワークであるGACTを提案する。 ACT の近似勾配の線形化バージョンを解析することにより、演算子タイプやモデルアーキテクチャに関する事前の知識なしに GACT の収束を証明できる。 トレーニングを安定させるために,実行時の勾配への影響を推定し,テンソル毎の圧縮比を決定するアルゴリズムを提案する。 我々は任意のNNアーキテクチャに適用可能なPyTorchライブラリとしてGACTを実装している。 gactは畳み込みnn、トランスフォーマー、グラフnnのアクティベーションメモリを最大8.1x削減し、4.2倍から24.7倍のバッチサイズでのトレーニングを可能にする。

Training large neural network (NN) models requires extensive memory resources, and Activation Compressed Training (ACT) is a promising approach to reduce training memory footprint. This paper presents GACT, an ACT framework to support a broad range of machine learning tasks for generic NN architectures with limited domain knowledge. By analyzing a linearized version of ACT's approximate gradient, we prove the convergence of GACT without prior knowledge on operator type or model architecture. To make training stable, we propose an algorithm that decides the compression ratio for each tensor by estimating its impact on the gradient at run time. We implement GACT as a PyTorch library that readily applies to any NN architecture. GACT reduces the activation memory for convolutional NNs, transformers, and graph NNs by up to 8.1x, enabling training with a 4.2x to 24.7x larger batch size, with negligible accuracy loss.
翻訳日:2022-06-24 14:20:45 公開日:2022-06-22
# FINGER:グラフベースの近似近傍探索のための高速推論

FINGER: Fast Inference for Graph-based Approximate Nearest Neighbor Search ( http://arxiv.org/abs/2206.11408v1 )

ライセンス: Link先を確認
Patrick H. Chen, Chang Wei-cheng, Yu Hsiang-fu, Inderjit S. Dhillon, Hsieh Cho-jui(参考訳) 近似K-Nearest Neighbor Search (AKNNS) は、2つのタワー深層学習モデルを用いた高速探索手法として、現代のアプリケーションで広く使われている。 特にAKNNSのグラフベースの手法は優れた性能で注目されている。 これらの方法は、データベースに埋め込みベクトルとしてデータポイントをトラバースするために、欲深いグラフ検索に依存している。 多くの距離計算は検索更新に影響を与えないので、これらの計算は性能を損なうことなく近似することができる。 その結果,効率的なグラフ探索を実現する高速推論手法であるFINGERを提案する。 FINGERは、近傍の残差ベクトルと低ランク基底と分布マッチングとの角度を推定することで距離関数を近似する。 近似距離は不要な計算を回避し、より高速な検索につながる。 実証的に、FINGERによるHNSWと呼ばれるグラフベースの手法の高速化は、異なるベンチマークデータセット間で既存のグラフベースの手法を20%から60%上回っている。

Approximate K-Nearest Neighbor Search (AKNNS) has now become ubiquitous in modern applications, for example, as a fast search procedure with two tower deep learning models. Graph-based methods for AKNNS in particular have received great attention due to their superior performance. These methods rely on greedy graph search to traverse the data points as embedding vectors in a database. Under this greedy search scheme, we make a key observation: many distance computations do not influence search updates so these computations can be approximated without hurting performance. As a result, we propose FINGER, a fast inference method to achieve efficient graph search. FINGER approximates the distance function by estimating angles between neighboring residual vectors with low-rank bases and distribution matching. The approximated distance can be used to bypass unnecessary computations, which leads to faster searches. Empirically, accelerating a popular graph-based method named HNSW by FINGER is shown to outperform existing graph-based methods by 20%-60% across different benchmark datasets.
翻訳日:2022-06-24 14:20:26 公開日:2022-06-22
# 信頼性の特定について

On Specifying for Trustworthiness ( http://arxiv.org/abs/2206.11421v1 )

ライセンス: Link先を確認
Dhaminda B. Abeywickrama, Amel Bennaceur, Greg Chance, Yiannis Demiris, Anastasia Kordoni, Mark Levine, Luke Moffat, Luc Moreau, Mohammad Reza Mousavi, Bashar Nuseibeh, Subramanian Ramamoorthy, Jan Oliver Ringert, James Wilson, Shane Windsor, Kerstin Eder(参考訳) 自律システムは私たちの日常生活の一部になりつつあるため、信頼の確保が不可欠です。 信頼性を示す技術はいくつかある。 これらのテクニックすべてに共通しているのは、仕様を明確化する必要があることです。 本稿では,機能,安全性,セキュリティ,その他の非機能特性に限らず,トップレベルの要件に重点を置いて,幅広い仕様を考察する。 本稿の主な貢献は、自律システムコミュニティにおける信頼性の特定に関連する高度な知的課題の集合である。 また,自律システムのためのアプリケーションドメインに関するユニークな仕様の課題についても述べる。

As autonomous systems are becoming part of our daily lives, ensuring their trustworthiness is crucial. There are a number of techniques for demonstrating trustworthiness. Common to all these techniques is the need to articulate specifications. In this paper, we take a broad view of specification, concentrating on top-level requirements including but not limited to functionality, safety, security and other non-functional properties. The main contribution of this article is a set of high-level intellectual challenges for the autonomous systems community related to specifying for trustworthiness. We also describe unique specification challenges concerning a number of application domains for autonomous systems.
翻訳日:2022-06-24 14:17:16 公開日:2022-06-22
# グラフに基づくマルチロボット経路探索と計画

Graph-Based Multi-Robot Path Finding and Planning ( http://arxiv.org/abs/2206.11319v1 )

ライセンス: Link先を確認
Hang Ma(参考訳) 複数ロボットのための衝突回避経路の見直しは,実世界のマルチロボットシステムにおいて重要であり,マルチエージェントパス探索(MAPF)と呼ばれるグラフ上での最適化問題として研究されている。 このレビューは、古典的なmapfアルゴリズムと最先端のmapfアルゴリズムの異なるカテゴリと、mapf技術を現実世界のシナリオに一般化する挑戦に取り組む異なる研究の試みを調査している。 最近の発見 MAPF問題の最適解法は計算的に困難である。 近年、MAPFアルゴリズムは数百のロボットと数千のナビゲーションタスクの衝突のない経路を数秒で計算できるようになっている。 MAPFの多くの変種は、ロボットキネマティクスの考慮、リアルタイムシステムのオンライン最適化、タスク割り当てとパス計画の統合など、MAPFのテクニックを様々な実世界の要求に適応するように形式化されている。 MAPF問題に対するアルゴリズム手法は、自動倉庫充足とソート、自動列車スケジューリング、非ホロノミックロボットとクワッドコプターのナビゲーションなど、いくつかのマルチロボットアプリケーションの重要な側面に対処してきた。 これは大規模なマルチロボットシステムの現実的な応用の可能性を示している。

Purpose of Review Planning collision-free paths for multiple robots is important for real-world multi-robot systems and has been studied as an optimization problem on graphs, called Multi-Agent Path Finding (MAPF). This review surveys different categories of classic and state-of-the-art MAPF algorithms and different research attempts to tackle the challenges of generalizing MAPF techniques to real-world scenarios. Recent Findings Solving MAPF problems optimally is computationally challenging. Recent advances have resulted in MAPF algorithms that can compute collision-free paths for hundreds of robots and thousands of navigation tasks in seconds of runtime. Many variants of MAPF have been formalized to adapt MAPF techniques to different real-world requirements, such as considerations of robot kinematics, online optimization for real-time systems, and the integration of task assignment and path planning. Summary Algorithmic techniques for MAPF problems have addressed important aspects of several multi-robot applications, including automated warehouse fulfillment and sortation, automated train scheduling, and navigation of non-holonomic robots and quadcopters. This showcases their potential for real-world applications of large-scale multi-robot systems.
翻訳日:2022-06-24 14:11:11 公開日:2022-06-22
# ガウスパラメータ平滑化による入力非依存認定グループフェアネス

Input-agnostic Certified Group Fairness via Gaussian Parameter Smoothing ( http://arxiv.org/abs/2206.11423v1 )

ライセンス: Link先を確認
Jiayin Jin, Zeru Zhang, Yang Zhou, and Lingfei Wu(参考訳) つい最近になって、研究者は証明可能なグループフェアネス保証を備えた分類アルゴリズムの提供を試みた。 これらのアルゴリズムのほとんどは、トレーニングデータとデプロイメントデータが同じ分布に従うという要求によって、ハラスメントに悩まされる。 本稿では,予測精度を維持しつつ分類モデルの公平性を向上させるために,入力非依存なグループフェアネスアルゴリズムfairsmoothを提案する。 基本分類器をスムーズなバージョンに変換するためにガウスパラメータ平滑化法を開発した。 グループに関するデータのみを有する各グループに対して最適な個別の滑らかな分類器を学習し、各個別の滑らかなパラメータを平均化することにより、すべてのグループに対する全体的な滑らかな分類器を生成する。 非線形汎函数解析の理論を活用することにより、滑らかな分類器はネミツキイ作用素の出力関数として再構成される。 理論解析により、ネミトスキー作用素は滑らかであり、フレシェ微分可能滑らかな多様体を誘導する。 理論的には、滑らかな多様体は入力データの領域に依存しない大域的なリプシッツ定数を持ち、入力非依存な認定群フェアネスを導出する。

Only recently, researchers attempt to provide classification algorithms with provable group fairness guarantees. Most of these algorithms suffer from harassment caused by the requirement that the training and deployment data follow the same distribution. This paper proposes an input-agnostic certified group fairness algorithm, FairSmooth, for improving the fairness of classification models while maintaining the remarkable prediction accuracy. A Gaussian parameter smoothing method is developed to transform base classifiers into their smooth versions. An optimal individual smooth classifier is learnt for each group with only the data regarding the group and an overall smooth classifier for all groups is generated by averaging the parameters of all the individual smooth ones. By leveraging the theory of nonlinear functional analysis, the smooth classifiers are reformulated as output functions of a Nemytskii operator. Theoretical analysis is conducted to derive that the Nemytskii operator is smooth and induces a Frechet differentiable smooth manifold. We theoretically demonstrate that the smooth manifold has a global Lipschitz constant that is independent of the domain of the input data, which derives the input-agnostic certified group fairness.
翻訳日:2022-06-24 14:10:28 公開日:2022-06-22
# ユークリッドmm法による測地線凸最適化問題のクラスについて

On a class of geodesically convex optimization problems solved via Euclidean MM methods ( http://arxiv.org/abs/2206.11426v1 )

ライセンス: Link先を確認
Suvrit Sra and Melanie Weber(参考訳) ユークリッド凸関数の差分として記述できる測地凸(g-凸)問題を考察する。 この構造は統計学や機械学習におけるいくつかの最適化問題、例えば行列のスケーリング、共分散のM推定器、ブラスカンプ・リーブの不等式に現れる。 我々の研究は, g-凸性を利用した効率的なアルゴリズムを提供し, イテレーションの複雑さの保証とともに, グローバルな最適性を保証する。 一方、分割構造は、指数写像や平行移動といった高価なリーマン演算を計算する必要性を回避するのに役立つユークリッド大化-最小化アルゴリズムを開発することができる。 これまで機械学習の文献で研究されてきたいくつかの具体的最適化問題に特化することで,この結果を示す。 最終的に、我々の研究がユークリッドとリーマンの混合最適化アルゴリズムのより広範な探索を動機付けることを願っている。

We study geodesically convex (g-convex) problems that can be written as a difference of Euclidean convex functions. This structure arises in several optimization problems in statistics and machine learning, e.g., for matrix scaling, M-estimators for covariances, and Brascamp-Lieb inequalities. Our work offers efficient algorithms that on the one hand exploit g-convexity to ensure global optimality along with guarantees on iteration complexity. On the other hand, the split structure permits us to develop Euclidean Majorization-Minorization algorithms that help us bypass the need to compute expensive Riemannian operations such as exponential maps and parallel transport. We illustrate our results by specializing them to a few concrete optimization problems that have been previously studied in the machine learning literature. Ultimately, we hope our work helps motivate the broader search for mixed Euclidean-Riemannian optimization algorithms.
翻訳日:2022-06-24 14:10:07 公開日:2022-06-22
# シーングラフ生成のための2倍重み付け構造学習

Doubly Reparameterized Importance Weighted Structure Learning for Scene Graph Generation ( http://arxiv.org/abs/2206.11352v1 )

ライセンス: Link先を確認
Daqi Liu, Miroslaw Bober, Josef Kittler(参考訳) 構造化予測タスクとして、入力画像が与えられたシーングラフ生成は、視覚的に接地されたシーングラフを構築し、オブジェクトとその関係を明示的にモデル化することを目的としている。 現在の文献では、この課題は平均場変動ベイズ法に基づくメッセージパッシングニューラルネットワークによって普遍的に解決される。 古典的な緩い証拠の下限は、一般的に変分推論の目的として選ばれ、これは過度に単純化された変分近似を誘導し、基礎となる複素後部を過小評価する。 本稿では,重み付き重み付き構造学習の目的として,重み付き下限をより厳密に活用した,重み付き構造学習手法を提案する。 再パラメータ化可能なGumbel-Softmaxサンプルから引き出された複数のサンプルから算出し、結果として生じる制約付き変動推論タスクを一般的なエントロピックミラー降下アルゴリズムにより解く。 得られた2重再パラメータ化勾配推定器は、学習に有益な影響で対応する誘導体の分散を減少させる。 提案手法は,様々な人気シーングラフ生成ベンチマークにおける最先端性能を実現する。

As a structured prediction task, scene graph generation, given an input image, aims to explicitly model objects and their relationships by constructing a visually-grounded scene graph. In the current literature, such task is universally solved via a message passing neural network based mean field variational Bayesian methodology. The classical loose evidence lower bound is generally chosen as the variational inference objective, which could induce oversimplified variational approximation and thus underestimate the underlying complex posterior. In this paper, we propose a novel doubly reparameterized importance weighted structure learning method, which employs a tighter importance weighted lower bound as the variational inference objective. It is computed from multiple samples drawn from a reparameterizable Gumbel-Softmax sampler and the resulting constrained variational inference task is solved by a generic entropic mirror descent algorithm. The resulting doubly reparameterized gradient estimator reduces the variance of the corresponding derivatives with a beneficial impact on learning. The proposed method achieves the state-of-the-art performance on various popular scene graph generation benchmarks.
翻訳日:2022-06-24 13:42:23 公開日:2022-06-22
# 特異結合型弱レイアウトキューによる球面深さ推定

Monocular Spherical Depth Estimation with Explicitly Connected Weak Layout Cues ( http://arxiv.org/abs/2206.11358v1 )

ライセンス: Link先を確認
Nikolaos Zioulis, Federico Alvarez, Dimitrios Zarpalas, Petros Daras(参考訳) 球面カメラは総合的にシーンを捉え、部屋のレイアウト推定に使われている。 近年,適切なデータセットが利用できるようになり,全方位画像からの深度推定も進展している。 これら2つのタスクは相補的なものだが、屋内の幾何学的知覚を前進させるために並列に探索できる研究はほとんどなく、合成データや小規模なデータセットに頼っているものも、実際のシーンにおけるレイアウトアノテーションと密集した深度マップの両方を含む選択肢がほとんどない。 これは部分的には、部屋のレイアウトに手動アノテーションが必要になるためである。 本研究では,この制限を超えて,複数のモーダル性,多視点ステレオデータ,弱レイアウトキューの自動生成を含む360Vデータセットを生成する。 また、2つのタスク間の明確な結合を検討し、それらを単発トレーニングモデルに統合します。 我々は、深さに基づくレイアウトの再構築とレイアウトに基づく深さの注意に頼り、両方のタスクにまたがるパフォーマンスの向上を示す。 360度カメラで部屋をスキャンすることで、ファクシブルで素早く3Dスキャンする機会が生まれる。

Spherical cameras capture scenes in a holistic manner and have been used for room layout estimation. Recently, with the availability of appropriate datasets, there has also been progress in depth estimation from a single omnidirectional image. While these two tasks are complementary, few works have been able to explore them in parallel to advance indoor geometric perception, and those that have done so either relied on synthetic data, or used small scale datasets, as few options are available that include both layout annotations and dense depth maps in real scenes. This is partly due to the necessity of manual annotations for room layouts. In this work, we move beyond this limitation and generate a 360 geometric vision (360V) dataset that includes multiple modalities, multi-view stereo data and automatically generated weak layout cues. We also explore an explicit coupling between the two tasks to integrate them into a singleshot trained model. We rely on depth-based layout reconstruction and layout-based depth attention, demonstrating increased performance across both tasks. By using single 360 cameras to scan rooms, the opportunity for facile and quick building-scale 3D scanning arises.
翻訳日:2022-06-24 13:42:06 公開日:2022-06-22
# トポロジーを考慮した生成モデルのためのニューラルインプリシトマニフォールド学習

Neural Implicit Manifold Learning for Topology-Aware Generative Modelling ( http://arxiv.org/abs/2206.11267v1 )

ライセンス: Link先を確認
Brendan Leigh Ross, Gabriel Loaiza-Ganem, Anthony L. Caterini, Jesse C. Cresswell(参考訳) $\mathbb{R}^n$ で観測される自然データは、$m < n$ であるような $m$-次元多様体 $\mathcal{M}$ に制約されることが多い。 現在の生成モデルは、$m$-dimensional latent変数をニューラルネットワーク $f_\theta: \mathbb{r}^m \to \mathbb{r}^n$ でマッピングすることでこの多様体を表現する。 多様体は一般に単一のパラメータ化では表現できない、つまりそのような試みは、計算不安定性または多様体内の確率密度を学習できないのいずれかを引き起こす。 この問題を解決するために、ニューラルネットワークの零点の集合である神経暗黙多様体として$\mathcal{m}$をモデル化する。 データ分布を$\mathcal{M}$で学習するために、Langevin Dynamicsの制約付き変種を用いた制約付きエネルギーベースモデルを導入し、学習多様体内でのトレーニングとサンプリングを行う。 得られたモデルは多様体の算術で操作することができ、実践者はモデルの多様体の和と交叉を取ることができる。 合成および自然データに関する実験において、制約付きEMMは、プッシュフォワードモデルよりも複雑なトポロジーを持つ多様体支持分布を正確に学習できることを示した。

Natural data observed in $\mathbb{R}^n$ is often constrained to an $m$-dimensional manifold $\mathcal{M}$, where $m < n$. Current generative models represent this manifold by mapping an $m$-dimensional latent variable through a neural network $f_\theta: \mathbb{R}^m \to \mathbb{R}^n$. Such procedures, which we call pushforward models, incur a straightforward limitation: manifolds cannot in general be represented with a single parameterization, meaning that attempts to do so will incur either computational instability or the inability to learn probability densities within the manifold. To remedy this problem, we propose to model $\mathcal{M}$ as a neural implicit manifold: the set of zeros of a neural network. To learn the data distribution within $\mathcal{M}$, we introduce constrained energy-based models, which use a constrained variant of Langevin dynamics to train and sample within the learned manifold. The resulting model can be manipulated with an arithmetic of manifolds which allows practitioners to take unions and intersections of model manifolds. In experiments on synthetic and natural data, we show that constrained EBMs can learn manifold-supported distributions with complex topologies more accurately than pushforward models.
翻訳日:2022-06-24 13:17:35 公開日:2022-06-22
# 機能的非線形学習

Functional Nonlinear Learning ( http://arxiv.org/abs/2206.11424v1 )

ライセンス: Link先を確認
Haixu Wang and Jiguo Cao(参考訳) 関数データの表現を使うことは、直接観測よりも後続の統計モデルでより便利で有益である。 これらの表現は、低次元空間において、個々の曲線から情報を抽出し圧縮する。 関数データ解析における既存の表現学習アプローチは、通常、関数主成分分析(FPCA)のような多変量解析の手法と平行して線形写像を用いる。 しかし、無限次元対象としての函数は、線型写像によって発見できない非線形構造を持つこともある。 線形メソッドは多変量関数データにより圧倒される。 そこで本稿では,多変量関数データを低次元特徴空間で十分に表現する関数型非線形学習(funnol)手法を提案する。 さらに,曲線ラベルの予測における表現能力を高めるための分類モデルをマージする。 したがって、FunNoLからの表現は曲線再構成と分類の両方に利用できる。 さらに,提案したモデルに,不足する観測問題に対処すると同時に,観測をさらに軽視する能力を与えている。 結果として生じる表現は、制御不能なランダムノイズによって局所的に乱される観測に対して堅牢である。 提案手法を複数の実データ集合に適用し,特に多変量関数型データセットにおいて,ファンノールがfpcaよりも優れた分類を実現できることを示す。 シミュレーション研究により、FunNoLはデータ間隔に関係なく、良好な曲線分類と再構成を提供することが示された。

Using representations of functional data can be more convenient and beneficial in subsequent statistical models than direct observations. These representations, in a lower-dimensional space, extract and compress information from individual curves. The existing representation learning approaches in functional data analysis usually use linear mapping in parallel to those from multivariate analysis, e.g., functional principal component analysis (FPCA). However, functions, as infinite-dimensional objects, sometimes have nonlinear structures that cannot be uncovered by linear mapping. Linear methods will be more overwhelmed given multivariate functional data. For that matter, this paper proposes a functional nonlinear learning (FunNoL) method to sufficiently represent multivariate functional data in a lower-dimensional feature space. Furthermore, we merge a classification model for enriching the ability of representations in predicting curve labels. Hence, representations from FunNoL can be used for both curve reconstruction and classification. Additionally, we have endowed the proposed model with the ability to address the missing observation problem as well as to further denoise observations. The resulting representations are robust to observations that are locally disturbed by uncontrollable random noises. We apply the proposed FunNoL method to several real data sets and show that FunNoL can achieve better classifications than FPCA, especially in the multivariate functional data setting. Simulation studies have shown that FunNoL provides satisfactory curve classification and reconstruction regardless of data sparsity.
翻訳日:2022-06-24 13:17:10 公開日:2022-06-22
# ゼロショットオブジェクト操作による構造化世界モデルによるキュリオシティ探索

Curious Exploration via Structured World Models Yields Zero-Shot Object Manipulation ( http://arxiv.org/abs/2206.11403v1 )

ライセンス: Link先を確認
Cansu Sancaktar, Sebastian Blaes, Georg Martius(参考訳) 子どもたちが好奇心をそそられるフリープレイを行うのと同じように、本質的なモチベーションを通じて環境を効率的に探索する人工エージェントを設計することが長年の夢でした。 近年のRL(Intrinsically motivated reinforcement learning)の進歩にもかかわらず、オブジェクト操作シナリオにおけるサンプル効率の探究は、スパースエージェントオブジェクトとオブジェクトオブジェクトの相互作用に関係する情報の大半が存在しているため、重要な課題である。 本稿では,構成的多目的環境におけるサンプル効率と対話性に富む探索を実現するために,関係帰納的バイアスを制御ループに組み込むための構造的世界モデルを提案する。 構造化世界モデル内の将来的な新しさを計画することにより、より早い段階でオブジェクトと対話し始め、時間とともにより複雑な振る舞いを発達させるフリープレイ動作を生成する。 一般的に行われているように、モデルのみを用いて本質的な報酬を計算する代わりに、良いモデルと良い探索の間の自己強化サイクルがモデルベース計画による下流タスクへのゼロショット一般化という別の道を開くことを示す。 全く本質的なタスク非依存探索フェーズの後,本手法は,積み重ね,転動,ピック・アンド・プレイス,スローといった下流タスクの課題を解決する。

It has been a long-standing dream to design artificial agents that explore their environment efficiently via intrinsic motivation, similar to how children perform curious free play. Despite recent advances in intrinsically motivated reinforcement learning (RL), sample-efficient exploration in object manipulation scenarios remains a significant challenge as most of the relevant information lies in the sparse agent-object and object-object interactions. In this paper, we propose to use structured world models to incorporate relational inductive biases in the control loop to achieve sample-efficient and interaction-rich exploration in compositional multi-object environments. By planning for future novelty inside structured world models, our method generates free-play behavior that starts to interact with objects early on and develops more complex behavior over time. Instead of using models only to compute intrinsic rewards, as commonly done, our method showcases that the self-reinforcing cycle between good models and good exploration also opens up another avenue: zero-shot generalization to downstream tasks via model-based planning. After the entirely intrinsic task-agnostic exploration phase, our method solves challenging downstream tasks such as stacking, flipping, pick & place, and throwing that generalizes to unseen numbers and arrangements of objects without any additional training.
翻訳日:2022-06-24 13:13:03 公開日:2022-06-22
# 状態依存マルコフデータを用いた投影自由制約確率的非凸最適化

Projection-free Constrained Stochastic Nonconvex Optimization with State-dependent Markov Data ( http://arxiv.org/abs/2206.11346v1 )

ライセンス: Link先を確認
Abhishek Roy (1), Krishnakumar Balasubramanian (1), Saeed Ghadimi (2) ((1) Department of Statistics, University of California, Davis, (2) Department of Management Sciences, University of Waterloo)(参考訳) マルコフデータを用いた制約付き非凸確率最適化問題に対するプロジェクションフリー条件勾配型アルゴリズムについて検討した。 特に、マルコフ連鎖の遷移核が状態依存である場合に焦点を当てる。 このような確率的最適化問題は、戦略分類や強化学習を含む様々な機械学習問題に発生する。 この問題に対して、確率的一階のオラクルと線形最小化オラクルの呼び出し数がそれぞれ$\mathcal{o}(1/\epsilon^{2.5})$と$\mathcal{o}(1/\epsilon^{5.5})$の順で、適切に定義された$\epsilon$-stationary pointを得る。 また,ニューラルネットワークを用いた戦略的分類問題におけるアルゴリズムの性能を実証的に示す。

We study a projection-free conditional gradient-type algorithm for constrained nonconvex stochastic optimization problems with Markovian data. In particular, we focus on the case when the transition kernel of the Markov chain is state-dependent. Such stochastic optimization problems arise in various machine learning problems including strategic classification and reinforcement learning. For this problem, we establish that the number of calls to the stochastic first-order oracle and the linear minimization oracle to obtain an appropriately defined $\epsilon$-stationary point, are of the order $\mathcal{O}(1/\epsilon^{2.5})$ and $\mathcal{O}(1/\epsilon^{5.5})$ respectively. We also empirically demonstrate the performance of our algorithm on the problem of strategic classification with neural networks.
翻訳日:2022-06-24 13:09:56 公開日:2022-06-22
# ArtBenchデータセット: Artworksで生成モデルをベンチマークする

The ArtBench Dataset: Benchmarking Generative Models with Artworks ( http://arxiv.org/abs/2206.11404v1 )

ライセンス: Link先を確認
Peiyuan Liao, Xiuyu Li, Xihui Liu, Kurt Keutzer(参考訳) 今回我々はartbench-10を紹介する。artbench-10は,最初のクラスバランス,高品質,クリーンアノテート,標準化された,アートワーク生成のためのデータセットである。 10の異なる芸術的スタイルから6万枚の芸術作品があり、5,000枚のトレーニング画像と1000枚のテスト画像がある。 artbench-10は、以前のアートワークデータセットよりもいくつかの利点がある。 まず、ほとんどの過去のアートデータセットが長い尾のクラス分布に悩まされている間、クラスバランスが取れます。 第二に、画像はきれいなアノテーションで高品質です。 第3に、ArtBench-10は標準化されたデータ収集、アノテーション、フィルタリング、前処理の手順で作成される。 一般的な機械学習フレームワークに簡単に組み込める方法でフォーマットされたデータセットの3つのバージョン(32\times32$,256\times256$,オリジナル画像サイズ)を提供する。 また,ArtBench-10を用いた画像合成モデルを用いた広範囲なベンチマーク実験を行い,詳細な解析を行った。 データセットはFair Useライセンスの下でhttps://github.com/liaopeiyuan/artbenchで公開されている。

We introduce ArtBench-10, the first class-balanced, high-quality, cleanly annotated, and standardized dataset for benchmarking artwork generation. It comprises 60,000 images of artwork from 10 distinctive artistic styles, with 5,000 training images and 1,000 testing images per style. ArtBench-10 has several advantages over previous artwork datasets. Firstly, it is class-balanced while most previous artwork datasets suffer from the long tail class distributions. Secondly, the images are of high quality with clean annotations. Thirdly, ArtBench-10 is created with standardized data collection, annotation, filtering, and preprocessing procedures. We provide three versions of the dataset with different resolutions ($32\times32$, $256\times256$, and original image size), formatted in a way that is easy to be incorporated by popular machine learning frameworks. We also conduct extensive benchmarking experiments using representative image synthesis models with ArtBench-10 and present in-depth analysis. The dataset is available at https://github.com/liaopeiyuan/artbench under a Fair Use license.
翻訳日:2022-06-24 12:43:38 公開日:2022-06-22
# 最適政策伝達の基盤としての最適線形サポートと継承機能

Optimistic Linear Support and Successor Features as a Basis for Optimal Policy Transfer ( http://arxiv.org/abs/2206.11326v1 )

ライセンス: Link先を確認
Lucas N. Alegre and Ana L. C. Bazzan and Bruno C. da Silva(参考訳) 多くの現実世界のアプリケーションでは、強化学習(RL)エージェントは複数のタスクを解く必要があり、それぞれが報酬関数によってモデル化される。 報酬関数が線形に表現され、エージェントが以前、異なるタスクに対する一連のポリシーを学んだ場合、後継機能(SF)を利用してこれらのポリシーを組み合わせて、新しい問題に対する合理的な解決策を特定することができる。 しかし、同定された解が最適であるとは保証されていない。 この制限に対処する新しいアルゴリズムを導入する。 RLエージェントは既存のポリシーを組み合わせることができ、環境とのさらなる相互作用を必要とせず、任意の新しい問題に対して最適なポリシーを直接識別することができる。 まず、SFが取り組んだ伝達学習問題は、RLにおける複数の目的を最適化する学習問題と等価であることを示す。 次に、最適化線形サポートアルゴリズムのSFベースの拡張を導入し、SFが凸カバレッジセットを形成するポリシーの集合を学習する。 この集合のポリシは、一般化されたポリシー改善によって、追加のトレーニングサンプルを必要とせずに、新しい線形表現可能なタスクに対して最適な振る舞いを構築することができることを証明します。 提案手法は,値関数近似の下での離散領域と連続領域の両方において,最先端の競合アルゴリズムよりも優れていることを示す。

In many real-world applications, reinforcement learning (RL) agents might have to solve multiple tasks, each one typically modeled via a reward function. If reward functions are expressed linearly, and the agent has previously learned a set of policies for different tasks, successor features (SFs) can be exploited to combine such policies and identify reasonable solutions for new problems. However, the identified solutions are not guaranteed to be optimal. We introduce a novel algorithm that addresses this limitation. It allows RL agents to combine existing policies and directly identify optimal policies for arbitrary new problems, without requiring any further interactions with the environment. We first show (under mild assumptions) that the transfer learning problem tackled by SFs is equivalent to the problem of learning to optimize multiple objectives in RL. We then introduce an SF-based extension of the Optimistic Linear Support algorithm to learn a set of policies whose SFs form a convex coverage set. We prove that policies in this set can be combined via generalized policy improvement to construct optimal behaviors for any new linearly-expressible tasks, without requiring any additional training samples. We empirically show that our method outperforms state-of-the-art competing algorithms both in discrete and continuous domains under value function approximation.
翻訳日:2022-06-24 12:40:05 公開日:2022-06-22
# QuAFL: 平均的フェデレーションは非同期かつ通信効率が良い

QuAFL: Federated Averaging Can Be Both Asynchronous and Communication-Efficient ( http://arxiv.org/abs/2206.10032v2 )

ライセンス: Link先を確認
Hossein Zakerinia, Shayan Talaei, Giorgi Nadiradze, Dan Alistarh(参考訳) Federated Learning(FL)は、マシンラーニングモデルの大規模分散トレーニングを可能にするとともに、プライバシ保証も提供する、新たなパラダイムである。 本研究では,大ノード数へのフェデレーション最適化のスケールアップにおける2つの課題として,中央局と個別の計算ノード間の緊密な同期の必要性と,中央サーバとクライアント間の通信コストの大幅な増大を挙げる。 具体的には、非同期通信と通信圧縮の両方をサポートする古典的フェデレーション平均化アルゴリズム(FedAvg)を提案する。 システム緩和にもかかわらず、我々のアルゴリズムは基本的に、適切なパラメータ設定の下で、FedAvgの最もよく知られた境界と一致することを示す新しい分析手法を提供する。 実験的な側面から,我々のアルゴリズムは,標準的なフェデレーションタスクの高速な実践的収束を保証する。

Federated Learning (FL) is an emerging paradigm to enable the large-scale distributed training of machine learning models, while still providing privacy guarantees. In this work, we jointly address two of the main practical challenges when scaling federated optimization to large node counts: the need for tight synchronization between the central authority and individual computing nodes, and the large communication cost of transmissions between the central server and clients. Specifically, we present a new variant of the classic federated averaging (FedAvg) algorithm, which supports both asynchronous communication and communication compression. We provide a new analysis technique showing that, in spite of these system relaxations, our algorithm essentially matches the best known bounds for FedAvg, under reasonable parameter settings. On the experimental side, we show that our algorithm ensures fast practical convergence for standard federated tasks.
翻訳日:2022-06-24 10:49:49 公開日:2022-06-22
# (参考訳) 言語およびグラフニューラルネットワークモデルの効率的かつ効果的な訓練

Efficient and effective training of language and graph neural network models ( http://arxiv.org/abs/2206.10781v1 )

ライセンス: CC BY 4.0
Vassilis N. Ioannidis, Xiang Song, Da Zheng, Houyu Zhang, Jun Ma, Yi Xu, Belinda Zeng, Trishul Chilimbi, George Karypis(参考訳) 異種グラフ構造をテキストと組み合わせて高品質な意味表現と行動表現を学習できるか? グラフニューラルネットワーク(GNN)は、数値ノード属性とグラフ構造を符号化し、様々な教師付き学習タスクにおいて印象的なパフォーマンスを実現する。 現在のGNNアプローチは、通常、GNNに提供される前に数値ベクトルにエンコードする必要があるテキスト機能によって挑戦される。 本稿では,大規模言語モデルとグラフニューラルネットワークを協調的に学習する,効率的な言語モデルGNN(LM-GNN)を提案する。 本フレームワークの有効性は、BERTモデルの段階的微調整をまず異種グラフ情報に適用し、次にGNNモデルを用いて達成する。 スケーラブルで効率的なトレーニングを実現するために,システムと設計の最適化が提案されている。 LM-GNNはノードとエッジの分類とリンク予測タスクに対応している。 LM-GNNフレームワークを異なるデータセットの性能で評価し,提案手法の有効性を示す。 LM-GNNはAmazonのクエリ購入製品アプリケーションで競合する結果を提供する。

Can we combine heterogenous graph structure with text to learn high-quality semantic and behavioural representations? Graph neural networks (GNN)s encode numerical node attributes and graph structure to achieve impressive performance in a variety of supervised learning tasks. Current GNN approaches are challenged by textual features, which typically need to be encoded to a numerical vector before provided to the GNN that may incur some information loss. In this paper, we put forth an efficient and effective framework termed language model GNN (LM-GNN) to jointly train large-scale language models and graph neural networks. The effectiveness in our framework is achieved by applying stage-wise fine-tuning of the BERT model first with heterogenous graph information and then with a GNN model. Several system and design optimizations are proposed to enable scalable and efficient training. LM-GNN accommodates node and edge classification as well as link prediction tasks. We evaluate the LM-GNN framework in different datasets performance and showcase the effectiveness of the proposed approach. LM-GNN provides competitive results in an Amazon query-purchase-product application.
翻訳日:2022-06-24 06:52:53 公開日:2022-06-22
# (参考訳) ブラックボックス最適化のための生成前訓練

Generative Pretraining for Black-Box Optimization ( http://arxiv.org/abs/2206.10786v1 )

ライセンス: CC BY 4.0
Siddarth Krishnamoorthy, Satvik Mehul Mashkaria, Aditya Grover(参考訳) 科学や工学における多くの問題は、高次元空間上の高価なブラックボックス関数の最適化を伴う。 このようなブラックボックス最適化(BBO)問題に対して、オンライン機能評価の予算は小さく、事前トレーニングのための固定されたオフラインデータセットへのアクセスも少なくない。 以前のアプローチでは、オフラインデータを使用して関数やその逆を近似するが、データ分布からは程遠い精度では不十分である。 オフラインデータセットを用いてブラックボックスオプティマイザを事前学習するための生成フレームワークであるBlack-box Optimization Transformer (BOOMER)を提案する。 BOOMERでは,暗黙のブラックボックス関数最適化器の軌道実行を模倣する自己回帰モデルを訓練する。 これらの軌道はデフォルトでは利用できないため、オフラインデータからランダムポイントをソートして軌道を合成する単純なランダム化ヒューリスティックを開発した。 理論的には、このヒューリスティックは様々な低忠実度(探索)から高忠実度(探索)への遷移を模倣する軌道を誘導する。 さらに,軌道が探索から搾取へ遷移する速度を制御する機構を導入し,テスト時にオフラインデータの外部への一般化を行う。 実証的には、カジュアルなマスク付きトランスフォーマーを用いてBOOMERをインスタンス化し、Design-Benchで評価する。

Many problems in science and engineering involve optimizing an expensive black-box function over a high-dimensional space. For such black-box optimization (BBO) problems, we typically assume a small budget for online function evaluations, but also often have access to a fixed, offline dataset for pretraining. Prior approaches seek to utilize the offline data to approximate the function or its inverse but are not sufficiently accurate far from the data distribution. We propose Black-box Optimization Transformer (BOOMER), a generative framework for pretraining black-box optimizers using offline datasets. In BOOMER, we train an autoregressive model to imitate trajectory runs of implicit black-box function optimizers. Since these trajectories are unavailable by default, we develop a simple randomized heuristic to synthesize trajectories by sorting random points from offline data. We show theoretically that this heuristic induces trajectories that mimic transitions from diverse low-fidelity (exploration) to high-fidelity (exploitation) samples. Further, we introduce mechanisms to control the rate at which a trajectory transitions from exploration to exploitation, and use it to generalize outside the offline data at test-time. Empirically, we instantiate BOOMER using a casually masked Transformer and evaluate it on Design-Bench, where we rank the best on average, outperforming state-of-the-art baselines.
翻訳日:2022-06-24 06:38:48 公開日:2022-06-22
# (参考訳) ベクトル量子化相互情報最大化による癌自動置換

Automated Cancer Subtyping via Vector Quantization Mutual Information Maximization ( http://arxiv.org/abs/2206.10801v1 )

ライセンス: CC BY 4.0
Zheng Chen, Lingwei Zhu, Ziwei Yang, Takashi Matsubara(参考訳) 癌サブタイプは腫瘍の性質を理解し、適切な治療を提供するために重要である。 しかし、既存のラベリング法は医学的に議論の的となり、教示信号のサブタイプ化を推進してきた。 さらに、癌遺伝子の発現プロファイルは高次元であり、希少であり、複雑な依存を持つため、感受性クラスタリングを出力する既存のサブタイプモデルに深刻な課題を生じさせる。 本研究では,遺伝的表現プロファイルの活用とサブタイプを教師なしで識別する新たなクラスタリング手法を提案する。 提案手法は,表現プロファイルの潜在表現からモデルが出力するサブタイプへのカテゴリ対応を適応的に学習する。 問題 -- 入力式プロファイルと出力サブタイプ間の非依存な相互情報を最大化することで、適切なサブタイプを自動で決定できる。 実験により,提案手法が既存の議論を呼ぶラベルを洗練できることを実証し,さらなる医学的分析により,この改良が癌生存率と高い相関性を持つことが証明された。

Cancer subtyping is crucial for understanding the nature of tumors and providing suitable therapy. However, existing labelling methods are medically controversial, and have driven the process of subtyping away from teaching signals. Moreover, cancer genetic expression profiles are high-dimensional, scarce, and have complicated dependence, thereby posing a serious challenge to existing subtyping models for outputting sensible clustering. In this study, we propose a novel clustering method for exploiting genetic expression profiles and distinguishing subtypes in an unsupervised manner. The proposed method adaptively learns categorical correspondence from latent representations of expression profiles to the subtypes output by the model. By maximizing the problem -- agnostic mutual information between input expression profiles and output subtypes, our method can automatically decide a suitable number of subtypes. Through experiments, we demonstrate that our proposed method can refine existing controversial labels, and, by further medical analysis, this refinement is proven to have a high correlation with cancer survival rates.
翻訳日:2022-06-24 06:13:06 公開日:2022-06-22
# (参考訳) ジョイントリスト:マルチインスツルメント転写のための共同学習とその応用

Jointist: Joint Learning for Multi-instrument Transcription and Its Applications ( http://arxiv.org/abs/2206.10805v1 )

ライセンス: CC BY 4.0
Kin Wai Cheuk, Keunwoo Choi, Qiuqiang Kong, Bochen Li, Minz Won, Amy Hung, Ju-Chiang Wang, Dorien Herremans(参考訳) 本稿では,複数の楽器を音声クリップから書き起こし,認識し,分離することのできる,楽器を意識したマルチインストラクトフレームワークであるJointistを紹介する。 ジョイントリストは、他のモジュールを条件付ける楽器認識モジュールと、楽器固有のピアノロールを出力する転写モジュールと、楽器情報と転写結果を利用する音源分離モジュールから構成される。 インスツルメンテーションは明示的なマルチインストゥルメント機能のために設計されており、転写モジュールとソース分離モジュールの接続は転写性能の向上を目的としている。 我々の挑戦的な問題定式化は、現代ポピュラー音楽が一般的に複数の楽器で構成されていることを考えると、実世界では非常に有用である。 しかし、その新しさは、そのようなモデルを評価する新しい視点を必要としている。 実験では,様々な側面からモデルを評価し,マルチ・インシュルーメント・トランスクリプションの新たな評価視点を提供する。 また、他の音楽分析タスクの事前処理モジュールとして、転写モデルを利用することもできる。 ダウンビート検出やコード認識,キー推定など,複数の下流課題において,転写モデルが提供する記号表現は,スペクトログラムに有用であることが判明した。

In this paper, we introduce Jointist, an instrument-aware multi-instrument framework that is capable of transcribing, recognizing, and separating multiple musical instruments from an audio clip. Jointist consists of the instrument recognition module that conditions the other modules: the transcription module that outputs instrument-specific piano rolls, and the source separation module that utilizes instrument information and transcription results. The instrument conditioning is designed for an explicit multi-instrument functionality while the connection between the transcription and source separation modules is for better transcription performance. Our challenging problem formulation makes the model highly useful in the real world given that modern popular music typically consists of multiple instruments. However, its novelty necessitates a new perspective on how to evaluate such a model. During the experiment, we assess the model from various aspects, providing a new evaluation perspective for multi-instrument transcription. We also argue that transcription models can be utilized as a preprocessing module for other music analysis tasks. In the experiment on several downstream tasks, the symbolic representation provided by our transcription model turned out to be helpful to spectrograms in solving downbeat detection, chord recognition, and key estimation.
翻訳日:2022-06-24 04:47:43 公開日:2022-06-22
# (参考訳) DeepONetsを用いた効率的な相互依存型システム回復モデル

Efficient Interdependent Systems Recovery Modeling with DeepONets ( http://arxiv.org/abs/2206.10829v1 )

ライセンス: CC BY 4.0
Somayajulu L. N. Dhulipala, Ryan C. Hruska(参考訳) 相互依存的クリティカルインフラストラクチャのリカバリのモデル化は、破壊的なイベントに対する社会的レジリエンスの定量化と最適化の重要なコンポーネントである。 しかし、ランダムな破壊的事象下での大規模相互依存システムの回復のシミュレーションは計算的に高価である。 そこで本稿では,相互依存システムのリカバリを高速化するために,Deep Operator Networks (DeepONets) の応用を提案する。 DeepONetsはデータから数学的演算子を識別するMLアーキテクチャである。 DeepONetsが特定する支配方程式の形式と、相互依存システム回復モデルの支配方程式は類似している。 したがって、deeponetsはトレーニングデータが少なく、相互依存システムのリカバリを効率的にモデル化できると仮定する。 我々は16状態の4つの相互依存系の単純なケースにDeepONetsを適用した。 deeponetsは全体として、参照結果と比較してサンプルデータのトレーニング外における相互依存システムの回復を予測するのに十分だった。

Modeling the recovery of interdependent critical infrastructure is a key component of quantifying and optimizing societal resilience to disruptive events. However, simulating the recovery of large-scale interdependent systems under random disruptive events is computationally expensive. Therefore, we propose the application of Deep Operator Networks (DeepONets) in this paper to accelerate the recovery modeling of interdependent systems. DeepONets are ML architectures which identify mathematical operators from data. The form of governing equations DeepONets identify and the governing equation of interdependent systems recovery model are similar. Therefore, we hypothesize that DeepONets can efficiently model the interdependent systems recovery with little training data. We applied DeepONets to a simple case of four interdependent systems with sixteen states. DeepONets, overall, performed satisfactorily in predicting the recovery of these interdependent systems for out of training sample data when compared to reference results.
翻訳日:2022-06-24 04:21:30 公開日:2022-06-22
# (参考訳) マルチアース2022 森林破壊チャレンジ -- 森林管理

MultiEarth 2022 Deforestation Challenge -- ForestGump ( http://arxiv.org/abs/2206.10831v1 )

ライセンス: CC BY 4.0
Dongoo Lee, Yeonju Choi(参考訳) アマゾン・フォレストにおける森林破壊の推定は、広大な面積と直接アクセスの困難さから難しい課題である。 しかし、森林破壊が地球温暖化や生物多様性の低減といった深刻な環境問題を引き起こすことは重要な問題である。 この問題を効果的に解決するために、衛星画像はアマゾンの森林破壊を推定する良い代替手段となるだろう。 光画像と合成開口レーダ(SAR)画像を組み合わせることで、気象条件に関わらず、このような巨大な領域の観測が可能となる。 本稿では,従来型unetと包括的データ処理を用いた森林破壊推定手法を提案する。 Sentinel-1、Sentinel-2、Landsat 8の様々なチャネルが慎重に選択され、ディープニューラルネットワークのトレーニングに使用される。 提案手法により,新規クエリの森林破壊状況を高精度に推定することに成功した。

The estimation of deforestation in the Amazon Forest is challenge task because of the vast size of the area and the difficulty of direct human access. However, it is a crucial problem in that deforestation results in serious environmental problems such as global climate change, reduced biodiversity, etc. In order to effectively solve the problems, satellite imagery would be a good alternative to estimate the deforestation of the Amazon. With a combination of optical images and Synthetic aperture radar (SAR) images, observation of such a massive area regardless of weather conditions become possible. In this paper, we present an accurate deforestation estimation method with conventional UNet and comprehensive data processing. The diverse channels of Sentinel-1, Sentinel-2 and Landsat 8 are carefully selected and utilized to train deep neural networks. With the proposed method, deforestation status for novel queries are successfully estimated with high accuracy.
翻訳日:2022-06-24 04:13:14 公開日:2022-06-22
# (参考訳) ロバストベイズ・リコース

Robust Bayesian Recourse ( http://arxiv.org/abs/2206.10833v1 )

ライセンス: CC BY 4.0
Tuan-Duy H. Nguyen, Ngoc Bui, Duy Nguyen, Man-Chung Yue, Viet Anh Nguyen(参考訳) algorithmic recourseは、好ましくない機械学習の決定を覆すために、有益なフィードバックを推奨することを目的としている。 本稿では,後続確率オッズ比を最小化するモデル非依存リコースであるベイズ的リコースを紹介する。 さらに,機械学習モデルパラメータの将来の変化に対処する目的で,min-maxのロバストな対応を提示する。 頑健な対向は、最適輸送(ワッサーシュタイン)距離を用いて設定されたガウス混合曖昧性におけるデータの摂動を明示的に考慮する。 結果の最悪の対象関数を2次元の最適化サブプロブレムに分解し, min-maxリコース探索問題を勾配降下アルゴリズムに導出可能であることを示す。 既存のロバストなリコースを生成する方法とは異なり、ロバストベイズ的リコースは線形近似ステップを必要としない。 この数値実験は,提案するロバストベイズ回帰モデルシフトの有効性を示す。 私たちのコードはhttps://github.com/vinairesearch/robust-bayesian-recourseで利用可能です。

Algorithmic recourse aims to recommend an informative feedback to overturn an unfavorable machine learning decision. We introduce in this paper the Bayesian recourse, a model-agnostic recourse that minimizes the posterior probability odds ratio. Further, we present its min-max robust counterpart with the goal of hedging against future changes in the machine learning model parameters. The robust counterpart explicitly takes into account possible perturbations of the data in a Gaussian mixture ambiguity set prescribed using the optimal transport (Wasserstein) distance. We show that the resulting worst-case objective function can be decomposed into solving a series of two-dimensional optimization subproblems, and the min-max recourse finding problem is thus amenable to a gradient descent algorithm. Contrary to existing methods for generating robust recourses, the robust Bayesian recourse does not require a linear approximation step. The numerical experiment demonstrates the effectiveness of our proposed robust Bayesian recourse facing model shifts. Our code is available at https://github.com/VinAIResearch/robust-bayesian-recourse.
翻訳日:2022-06-24 04:06:41 公開日:2022-06-22
# (参考訳) 不均一デバイスにおける効率的な推論のための量子化ロバストフェデレーション学習

Quantization Robust Federated Learning for Efficient Inference on Heterogeneous Devices ( http://arxiv.org/abs/2206.10844v1 )

ライセンス: CC BY 4.0
Kartik Gupta, Marios Fournarakis, Matthias Reisser, Christos Louizos, Markus Nagel(参考訳) Federated Learning(FL)は、デバイス上に留まる分散データから機械学習モデルを分散的に学習する機械学習パラダイムである。 FLにおけるフェデレーション平均化(FedAvg)のような標準フェデレーション最適化手法の成功にもかかわらず、デバイス上での学習に対するエネルギー需要やハードウェアによる制約は文献上十分に考慮されていない。 具体的には、デバイス上での学習に欠かせない要求は、トレーニングされたモデルを様々なビット幅に量子化できるようにすることである。 本研究では、量子化に頑健なニューラルネットワークをトレーニングするフェデレーション平均化アルゴリズムの複数の変種を紹介する。 このようなネットワークは様々なビット幅に量子化でき、完全な精度のモデルの精度を限定するだけである。 標準flベンチマークの広範な実験を行い,提案するfedavgの量子化ロバスト性を評価するとともに,flの量子化認識型に対する収束解析を行った。 本結果は,量子化オンデバイス推論において,異なるビット幅に対してはるかに堅牢なFLモデルにおいて,量子化ロバスト性の統合が生じることを示す。

Federated Learning (FL) is a machine learning paradigm to distributively learn machine learning models from decentralized data that remains on-device. Despite the success of standard Federated optimization methods, such as Federated Averaging (FedAvg) in FL, the energy demands and hardware induced constraints for on-device learning have not been considered sufficiently in the literature. Specifically, an essential demand for on-device learning is to enable trained models to be quantized to various bit-widths based on the energy needs and heterogeneous hardware designs across the federation. In this work, we introduce multiple variants of federated averaging algorithm that train neural networks robust to quantization. Such networks can be quantized to various bit-widths with only limited reduction in full precision model accuracy. We perform extensive experiments on standard FL benchmarks to evaluate our proposed FedAvg variants for quantization robustness and provide a convergence analysis for our Quantization-Aware variants in FL. Our results demonstrate that integrating quantization robustness results in FL models that are significantly more robust to different bit-widths during quantized on-device inference.
翻訳日:2022-06-24 03:13:05 公開日:2022-06-22
# (参考訳) ランダムノイズからの逆流浄化のための誘導拡散モデル

Guided Diffusion Model for Adversarial Purification from Random Noise ( http://arxiv.org/abs/2206.10875v1 )

ライセンス: CC BY 4.0
Quanlin Wu, Hang Ye, Yuntian Gu(参考訳) 本稿では,敵攻撃に対する強力な防御手段として,新しい拡散浄化法を提案する。 pgd-l_inf攻撃(eps = 8/255)によるcifar-10データセットのロバスト精度は89.62%である。 まず,無誘導拡散モデルと無作為な平滑化との本質的な相関関係について検討し,そのモデルの有効性を検証した。 実験の結果, 認定l2半径rが0.5以上の場合, モデルがランダム化平滑化を5%上回った。

In this paper, we propose a novel guided diffusion purification approach to provide a strong defense against adversarial attacks. Our model achieves 89.62% robust accuracy under PGD-L_inf attack (eps = 8/255) on the CIFAR-10 dataset. We first explore the essential correlations between unguided diffusion models and randomized smoothing, enabling us to apply the models to certified robustness. The empirical results show that our models outperform randomized smoothing by 5% when the certified L2 radius r is larger than 0.5.
翻訳日:2022-06-24 02:40:49 公開日:2022-06-22
# (参考訳) 全スライド画像分類のための特徴再校正に基づくMIL

Feature Re-calibration based MIL for Whole Slide Image Classification ( http://arxiv.org/abs/2206.10878v1 )

ライセンス: CC BY 4.0
Philip Chikontwe, Soo Jeong Nam, Heounjeong Go, Meejeong Kim, Hyun Jung Sung, Sang Hyun Park(参考訳) 全スライド画像(wsi)分類は疾患の診断と治療の基本的な課題であるが、正確なラベルのキュレーションは時間がかかり、完全に監督された方法の適用が制限される。 これを解決するために、MIL(Multiple Case Learning)はスライドレベルラベルのみを用いた弱い教師付き学習タスクとして分類される一般的な手法である。 現在のMIL法では、より強力なモデルを持つ再重み付けのインスタンス機能にアテンションメカニズムの変種を適用するが、データ分散の特性には注意が払われる。 本稿では,max-instance (critical) 特徴の統計情報を用いて,wsi バッグ(インスタンス)の分布を再調整することを提案する。 二元的MILでは、正の袋は負よりも大きな特徴量を持つので、正の袋を分布外としてモデル化する計量的特徴損失を持つ袋間の差を最大化するために、モデルを強制することができると仮定する。 そこで本研究では, 単一バッチ学習モードを用いた既存のMIL手法と異なり, 機能損失(+/-)を同時に効果的に活用するための平衡バッチサンプリングを提案する。 さらに、位置符号化モジュール(PEM)を用いて空間・形態情報をモデル化し、トランスフォーマーエンコーダを用いたマルチヘッド自己アテンション(PSMA)によるプールを行う。 既存のベンチマークデータセットによる実験結果から,我々のアプローチは有効であり,最先端のMIL法よりも改善されている。

Whole slide image (WSI) classification is a fundamental task for the diagnosis and treatment of diseases; but, curation of accurate labels is time-consuming and limits the application of fully-supervised methods. To address this, multiple instance learning (MIL) is a popular method that poses classification as a weakly supervised learning task with slide-level labels only. While current MIL methods apply variants of the attention mechanism to re-weight instance features with stronger models, scant attention is paid to the properties of the data distribution. In this work, we propose to re-calibrate the distribution of a WSI bag (instances) by using the statistics of the max-instance (critical) feature. We assume that in binary MIL, positive bags have larger feature magnitudes than negatives, thus we can enforce the model to maximize the discrepancy between bags with a metric feature loss that models positive bags as out-of-distribution. To achieve this, unlike existing MIL methods that use single-batch training modes, we propose balanced-batch sampling to effectively use the feature loss i.e., (+/-) bags simultaneously. Further, we employ a position encoding module (PEM) to model spatial/morphological information, and perform pooling by multi-head self-attention (PSMA) with a Transformer encoder. Experimental results on existing benchmark datasets show our approach is effective and improves over state-of-the-art MIL methods.
翻訳日:2022-06-24 02:29:18 公開日:2022-06-22
# (参考訳) multi-lexsum: 複数の粒度で公民権訴訟の現実の要約

Multi-LexSum: Real-World Summaries of Civil Rights Lawsuits at Multiple Granularities ( http://arxiv.org/abs/2206.10883v1 )

ライセンス: CC BY 4.0
Zejiang Shen, Kyle Lo, Lauren Yu, Nathan Dahlberg, Margo Schlanger, Doug Downey(参考訳) 大規模な言語モデルが登場し、抽象的な要約の手法が大きな進歩を遂げ、知識労働者が文書コレクションを処理するのに使える可能性を生み出した。 そのような設定の1つが公民権解放クリアリングハウス (CRLC) (https://clearinghouse.net) であり、大規模な公民権訴訟に関する情報を投稿し、弁護士、学者、一般大衆に奉仕している。 今日、CRLCの要約は、重要な出来事や成果の高品質な要約を作成するために、1件あたり何時間もの関連文書を理解する弁護士や法学生の広範な訓練を必要とする。 この実世界の要約に触発されたMulti-LexSumは、現在進行中のCRLCによる9,280名の専門家による要約集である。 Multi-LexSumは、ソースドキュメントの長さを考慮し、1ケースあたり200ページを超える、挑戦的なマルチドキュメント要約タスクを示す。 さらに、multi-lexsumは、複数のターゲットサマリーの他のデータセットとは、それぞれ異なる粒度("extreme"サマリーから500語以上のマルチパラグラフナレーションまで)で区別される。 学習データ(厳格なコンテンツとスタイルガイドラインに準拠)の質の高い要約にもかかわらず、最先端の要約モデルは、このタスクではうまく機能しないことを示す広範な分析を行う。 要約手法のさらなる研究と https://multilexsum.github.io での CRLC のミッションを支援するアプリケーションの開発を容易にするため,Multi-LexSum をリリースする。

With the advent of large language models, methods for abstractive summarization have made great strides, creating potential for use in applications to aid knowledge workers processing unwieldy document collections. One such setting is the Civil Rights Litigation Clearinghouse (CRLC) (https://clearinghouse.net),which posts information about large-scale civil rights lawsuits, serving lawyers, scholars, and the general public. Today, summarization in the CRLC requires extensive training of lawyers and law students who spend hours per case understanding multiple relevant documents in order to produce high-quality summaries of key events and outcomes. Motivated by this ongoing real-world summarization effort, we introduce Multi-LexSum, a collection of 9,280 expert-authored summaries drawn from ongoing CRLC writing. Multi-LexSum presents a challenging multi-document summarization task given the length of the source documents, often exceeding two hundred pages per case. Furthermore, Multi-LexSum is distinct from other datasets in its multiple target summaries, each at a different granularity (ranging from one-sentence "extreme" summaries to multi-paragraph narrations of over five hundred words). We present extensive analysis demonstrating that despite the high-quality summaries in the training data (adhering to strict content and style guidelines), state-of-the-art summarization models perform poorly on this task. We release Multi-LexSum for further research in summarization methods as well as to facilitate development of applications to assist in the CRLC's mission at https://multilexsum.github.io.
翻訳日:2022-06-24 02:17:07 公開日:2022-06-22
# (参考訳) i^2r-net : 多人数ポーズ推定のための人間間関係ネットワーク

I^2R-Net: Intra- and Inter-Human Relation Network for Multi-Person Pose Estimation ( http://arxiv.org/abs/2206.10892v1 )

ライセンス: CC BY 4.0
Yiwei Ding, Wenjin Deng, Yinglin Zheng, Pengfei Liu, Meihong Wang, Xuan Cheng, Jianmin Bao, Dong Chen, Ming Zeng(参考訳) 本稿では,多人数ポーズ推定のための人間間関係ネットワーク(i^2r-net)を提案する。 基本モジュールは2つある。 まず、Human内リレーショナルモジュールは1人で動作し、Human内依存関係をキャプチャすることを目的としている。 第2に、Human間関係モジュールは複数のインスタンス間の関係を考慮し、Human間相互作用のキャプチャに重点を置いている。 関数間関係モジュールは特徴マップの解像度を小さくすることで非常に軽量に設計できるが、Human内関係モジュールの性能を大幅に向上させるために有用な関係情報を学習することができる。 ベルやホイッスルがなくても、我々の方法は現在の競争勝者を競ったり、上回ったりすることができる。 我々はCOCO、CrowdPose、OCHumanデータセットに関する広範な実験を行っている。 その結果,提案モデルがすべての最先端手法を超越していることが示唆された。 具体的には,CrowPoseデータセットでは77.4%のAP,OCHumanデータセットでは67.8%のAPを達成した。 また, アブレーション研究と可視化分析により, モデルの有効性が証明された。

In this paper, we present the Intra- and Inter-Human Relation Networks (I^2R-Net) for Multi-Person Pose Estimation. It involves two basic modules. First, the Intra-Human Relation Module operates on a single person and aims to capture Intra-Human dependencies. Second, the Inter-Human Relation Module considers the relation between multiple instances and focuses on capturing Inter-Human interactions. The Inter-Human Relation Module can be designed very lightweight by reducing the resolution of feature map, yet learn useful relation information to significantly boost the performance of the Intra-Human Relation Module. Even without bells and whistles, our method can compete or outperform current competition winners. We conduct extensive experiments on COCO, CrowdPose, and OCHuman datasets. The results demonstrate that the proposed model surpasses all the state-of-the-art methods. Concretely, the proposed method achieves 77.4% AP on CrowPose dataset and 67.8% AP on OCHuman dataset respectively, outperforming existing methods by a large margin. Additionally, the ablation study and visualization analysis also prove the effectiveness of our model.
翻訳日:2022-06-24 02:15:43 公開日:2022-06-22
# (参考訳) 連帯学習における変分ベイズネットワークの結合法

How to Combine Variational Bayesian Networks in Federated Learning ( http://arxiv.org/abs/2206.10897v1 )

ライセンス: CC BY 4.0
Atahan Ozer, Kadir Burak Buldu, Abdullah Akg\"ul, Gozde Unal(参考訳) フェデレーション学習は、複数のデータセンタが機密データを公開することなく、中央モデルを協調的にトレーニングすることを可能にする。 決定論的モデルは高い予測精度を実現できるが、不確かさを定量化するキャリブレーションや能力の欠如は安全クリティカルなアプリケーションでは問題となる。 決定論的モデルと異なり、ベイズニューラルネットワークのような確率論的モデルは比較的よく校正されており、その競合予測精度とともに不確実性を定量化することができる。 どちらのアプローチもフェデレーション学習フレームワークに現れるが、重み付けは点推定ではなく分布に対応するため、決定論的モデルの集約スキームを直接確率モデルに適用することはできない。 本研究では,変分ベイズニューラルネットワークに対する様々なアグリゲーションスキームの効果について検討する。 3つの画像分類データセットに対する実験結果から,集約分布の拡散度が学習過程において重要な要因であることが確認された。 そこで本研究では,分散学習における変分ベイズネットワークの結合方法についての考察を行い,異なるアグリゲーション設定のベンチマークを提供する。

Federated Learning enables multiple data centers to train a central model collaboratively without exposing any confidential data. Even though deterministic models are capable of performing high prediction accuracy, their lack of calibration and capability to quantify uncertainty is problematic for safety-critical applications. Different from deterministic models, probabilistic models such as Bayesian neural networks are relatively well-calibrated and able to quantify uncertainty alongside their competitive prediction accuracy. Both of the approaches appear in the federated learning framework; however, the aggregation scheme of deterministic models cannot be directly applied to probabilistic models since weights correspond to distributions instead of point estimates. In this work, we study the effects of various aggregation schemes for variational Bayesian neural networks. With empirical results on three image classification datasets, we observe that the degree of spread for an aggregated distribution is a significant factor in the learning process. Hence, we present an investigation on the question of how to combine variational Bayesian networks in federated learning, while providing benchmarks for different aggregation settings.
翻訳日:2022-06-24 02:02:27 公開日:2022-06-22
# (参考訳) 肝病変検出における偽陽性低下に対する不確実性評価法の影響

Influence of uncertainty estimation techniques on false-positive reduction in liver lesion detection ( http://arxiv.org/abs/2206.10911v1 )

ライセンス: CC BY 4.0
Ishaan Bhat, Josien P.W. Pluim, Max A. Viergerver, Hugo J. Kuijf(参考訳) 深層学習技術は、医学画像中の物体を検出することに成功しているが、正確な診断を妨げる偽陽性の予測に苦しむ。 ニューラルネットワーク出力の推定不確実性は、誤った予測をフラグするために使われています。 肝病変検出における偽陽性率の低減には, ニューラルネットワークの不確実性推定から計算される特徴と, 二元予測から計算された形状に基づく特徴が果たす役割について, 異なる不確実性推定法のための分類に基づく後処理ステップを開発し, 検討した。 腹部MRI画像とCT画像を含む2つのデータセットにおける不確実性評価手法について,ニューラルネットワークの病変検出性能(F1スコア)の改善を実証した。 ニューラルネットワークの不確実性推定から計算された特徴は、偽陽性を減らすことにはあまり寄与しない。 以上の結果から,不確実性マップから抽出したクラス不均衡(真偽正比)や形状に基づく特徴などの要因が,偽陽性と真正の予測を区別する上で重要な役割を担っていることが明らかとなった。

Deep learning techniques show success in detecting objects in medical images, but still suffer from false-positive predictions that may hinder accurate diagnosis. The estimated uncertainty of the neural network output has been used to flag incorrect predictions. We study the role played by features computed from neural network uncertainty estimates and shape-based features computed from binary predictions in reducing false positives in liver lesion detection by developing a classification-based post-processing step for different uncertainty estimation methods. We demonstrate an improvement in the lesion detection performance of the neural network (with respect to F1-score) for all uncertainty estimation methods on two datasets, comprising abdominal MR and CT images respectively. We show that features computed from neural network uncertainty estimates tend not to contribute much toward reducing false positives. Our results show that factors like class imbalance (true over false positive ratio) and shape-based features extracted from uncertainty maps play an important role in distinguishing false positive from true positive predictions
翻訳日:2022-06-24 01:52:03 公開日:2022-06-22
# (参考訳) 胸部X線における肺結節検出のためのAIベースのソフトウェア -- 第2の読者アプローチの時間?

AI-based software for lung nodule detection in chest X-rays -- Time for a second reader approach? ( http://arxiv.org/abs/2206.10912v1 )

ライセンス: CC BY 4.0
Susanne Ohlmann-Knafo, Naglis Ramanauskas, Sebastian Huettinger, Emil Johnson Jeyakumar, Darius Baru\v{s}auskas, Neringa Bielskien\.e, Vytautas Naujalis, Jonas Bialopetravi\v{c}ius, Jonas Ra\v{z}anskas, Art\=uras Samuilis, J\=urat\.e Dementavi\v{c}ien\.e, Dirk Pickuth(参考訳) 目的: 胸部x線(cxr)上の肺結節の検出における第2の読者としてai(artificial intelligence, 人工知能)を比較し, 2つの双国籍機関の放射線科医と比較し, 2つの異なるモード(automated and assisted (additional remote radioologist review) を用いたaiの性能評価を行う。 方法】肺結節の種類や大きさの異なる日本放射線技術学会のcxr public database (n = 247) を解析した。 放射線技師8人が肺結節と結節の出現についてCXR画像を評価した。 放射線科医のレビューの後、aiソフトウェアはcxrを最も低い結節率で処理し、フラグを付けた。 計算された精度指標は,曲線下領域 (auc), 感度, 特異性, f1得点, 偽陰性症例数 (fn), 異なるaiモード (自動/補助) が結節検出精度に及ぼす影響であった。 結果: 放射線科医の平均 auc 値は 0.77 $\pm$ 0.07 であり, 平均 fn は 52.63 $\pm$ 17.53 であり, 32 $\pm$ 11.59 であった。 自動化と支援の両方のaiモードは、平均感度(14%と12%)とf1-score(5%と6%)の上昇と特異度(それぞれ10%と3%)の低下をもたらした。 結論: どちらのAIモードも, 放射線技師が見逃した肺結節にフラグを付けた。 第2の読者としてのAIは、診断精度と放射線学ワークフローを改善する可能性が高い。 AIは放射線科医よりも早く特定の肺結節を検出する可能性がある。

Objectives: To compare artificial intelligence (AI) as a second reader in detecting lung nodules on chest X-rays (CXR) versus radiologists of two binational institutions, and to evaluate AI performance when using two different modes: automated versus assisted (additional remote radiologist review). Methods: The CXR public database (n = 247) of the Japanese Society of Radiological Technology with various types and sizes of lung nodules was analyzed. Eight radiologists evaluated the CXR images with regard to the presence of lung nodules and nodule conspicuity. After radiologist review, the AI software processed and flagged the CXR with the highest probability of missed nodules. The calculated accuracy metrics were the area under the curve (AUC), sensitivity, specificity, F1 score, false negative case number (FN), and the effect of different AI modes (automated/assisted) on the accuracy of nodule detection. Results: For radiologists, the average AUC value was 0.77 $\pm$ 0.07, while the average FN was 52.63 $\pm$ 17.53 (all studies) and 32 $\pm$ 11.59 (studies containing a nodule of malignant etiology = 32% rate of missed malignant nodules). Both AI modes -- automated and assisted -- produced an average increase in sensitivity (by 14% and 12%) and of F1-score (5% and 6%) and a decrease in specificity (by 10% and 3%, respectively). Conclusions: Both AI modes flagged the pulmonary nodules missed by radiologists in a significant number of cases. AI as a second reader has a high potential to improve diagnostic accuracy and radiology workflow. AI might detect certain pulmonary nodules earlier than radiologists, with a potentially significant impact on patient outcomes.
翻訳日:2022-06-24 01:26:15 公開日:2022-06-22
# (参考訳) テンプレートによるゼロショットインテント認識

Template-based Approach to Zero-shot Intent Recognition ( http://arxiv.org/abs/2206.10914v1 )

ライセンス: CC BY 4.0
Dmitry Lamanov and Pavel Burnyshev and Ekaterina Artemova and Valentin Malykh and Andrey Bout and Irina Piontkovskaya(参考訳) トランスファー学習技術の最近の進歩と、大規模なコンテキストエンコーダの事前学習は、ダイアログアシスタントを含む実生活アプリケーションにおけるイノベーションを促進する。 インテント認識の実践的なニーズは、効果的なデータ使用と、サポート対象の更新、新しいインテントの採用、古いインテントの放棄を必要とする。 特に、モデルが見た意図に基づいて訓練され、見た意図と見えない意図の両方でテストされる一般化されたゼロショットパラダイムが、新たな重要性を担っている。 本稿では,意図認識のための汎用ゼロショット設定について検討する。 ゼロショットテキスト分類のベストプラクティスに従い、文ペアモデリングアプローチを用いてタスクを扱います。 我々は、意図ラベルやユーザ発話を使用し、外部ソース(知識ベースなど)にアクセスせずに、それまでの最先端のf1尺度を最大16\%上回る。 さらなる拡張にはインテントラベルの語彙化が含まれており、パフォーマンスが最大7\%向上している。 自然言語推論などの他の文ペアタスクからタスクを転送することで、さらなる改善が得られます。

The recent advances in transfer learning techniques and pre-training of large contextualized encoders foster innovation in real-life applications, including dialog assistants. Practical needs of intent recognition require effective data usage and the ability to constantly update supported intents, adopting new ones, and abandoning outdated ones. In particular, the generalized zero-shot paradigm, in which the model is trained on the seen intents and tested on both seen and unseen intents, is taking on new importance. In this paper, we explore the generalized zero-shot setup for intent recognition. Following best practices for zero-shot text classification, we treat the task with a sentence pair modeling approach. We outperform previous state-of-the-art f1-measure by up to 16\% for unseen intents, using intent labels and user utterances and without accessing external sources (such as knowledge bases). Further enhancement includes lexicalization of intent labels, which improves performance by up to 7\%. By using task transferring from other sentence pair tasks, such as Natural Language Inference, we gain additional improvements.
翻訳日:2022-06-24 01:16:48 公開日:2022-06-22
# (参考訳) 人間と機械翻訳におけるフォーミュラ言語の比較--議会コーパスからの考察

Comparing Formulaic Language in Human and Machine Translation: Insight from a Parliamentary Corpus ( http://arxiv.org/abs/2206.10919v1 )

ライセンス: CC BY 4.0
Yves Bestgen(参考訳) 最近の研究では、人間の翻訳と比較して、ニューラルマシン翻訳は比較的高周波の単語で作られたより強い関連式列を含むが、比較的稀な単語で作られた強い関連式列ははるかに少ないことが示されている。 これらの結果は、人間の翻訳があまりリテラルではないと考えられる高品質な新聞記事の翻訳に基づいて得られた。 本研究では, この研究を議会コーパスを用いて再現しようとする。 このテキストは、deepl、google translate、microsoft translatorの3つの有名なニューラルマシン翻訳システムによってフランス語から英語に翻訳された。 その結果, ニュースコーパスの観測結果が確認できたが, 違いは少ない。 彼らは、通常、議会コーパスのような、よりリテラルな翻訳をもたらすテキストジャンルの使用は、人間と機械の翻訳を比較する際に望ましいと示唆している。 3つのニューラルマシンシステムの違いに関して、Google翻訳はDeeplやMicrosoft翻訳よりも、ColllGram技術によって識別される、高いコロケーションのビッグラムを少なく含んでいるようだ。

A recent study has shown that, compared to human translations, neural machine translations contain more strongly-associated formulaic sequences made of relatively high-frequency words, but far less strongly-associated formulaic sequences made of relatively rare words. These results were obtained on the basis of translations of quality newspaper articles in which human translations can be thought to be not very literal. The present study attempts to replicate this research using a parliamentary corpus. The text were translated from French to English by three well-known neural machine translation systems: DeepL, Google Translate and Microsoft Translator. The results confirm the observations on the news corpus, but the differences are less strong. They suggest that the use of text genres that usually result in more literal translations, such as parliamentary corpora, might be preferable when comparing human and machine translations. Regarding the differences between the three neural machine systems, it appears that Google translations contain fewer highly collocational bigrams, identified by the CollGram technique, than Deepl and Microsoft translations.
翻訳日:2022-06-24 00:59:20 公開日:2022-06-22
# (参考訳) 自然言語によるネットワーク暗号アルゴリズムの強化

Enhancing Networking Cipher Algorithms with Natural Language ( http://arxiv.org/abs/2206.10924v1 )

ライセンス: CC BY 4.0
John E. Ortega(参考訳) 本研究は,いくつかのネットワーク暗号アルゴリズムを調査し,その保護剤として自然言語処理(NLP)を統合する手法を提案する。 ネットワークにおけるNLPの使用に関する2つの主要な提案が紹介されている。 第一に、NLPはネットワーク暗号化モデルで最も弱いリンクと考えられており、第二に、ストリーム暗号である強力なタイプの暗号化と見なされる余分なレイヤとして組み合わせられた場合、重厚な抑止力である。 本稿では,局所言語ストリームにおける文字や単語の自然な頻度分布による攻撃を受ける可能性のある,脆弱なストリームの暗号化を支援する手段として,言語を対称暗号に統合する方法を概説する。

This work provides a survey of several networking cipher algorithms and proposes a method for integrating natural language processing (NLP) as a protective agent for them. Two main proposals are covered for the use of NLP in networking. First, NLP is considered as the weakest link in a networking encryption model; and, second, as a hefty deterrent when combined as an extra layer over what could be considered a strong type of encryption -- the stream cipher. This paper summarizes how languages can be integrated into symmetric encryption as a way to assist in the encryption of vulnerable streams that may be found under attack due to the natural frequency distribution of letters or words in a local language stream.
翻訳日:2022-06-24 00:49:03 公開日:2022-06-22
# (参考訳) 生成モデルの評価に関する研究

A Study on the Evaluation of Generative Models ( http://arxiv.org/abs/2206.10935v1 )

ライセンス: CC BY 4.0
Eyal Betzalel, Coby Penso, Aviv Navon, Ethan Fetaya(参考訳) 近年では、生成逆数ネットワークや拡散モデルなど、確率値を返さない帰納的生成モデルが普及している。 これらのモデルが顕著な結果を示していることは事実だが、パフォーマンスの評価は困難である。 この問題は研究を前進させ、ランダムノイズから有意義な成果を識別する上で極めて重要である。 現在、インセプションスコア(IS)やFrechet Inception Distance(FID)といったヒューリスティックな指標が最も一般的な評価指標であるが、その測定内容は明らかになっていない。 さらに、スコアがどの程度有意義かという疑問もある。 本研究では,古典的指標を推定できる高品質な合成データセットを作成し,生成モデルの評価指標について検討する。 FIDとISはいくつかのf-divergencesと相関するが、密閉モデルのランクは相違し、ファイングラデーション比較で問題となる可能性がある。 さらに, この実験セットを用いて, 評価基準と確率的指標の相関性について検討した。 最後に、FIDのようなメトリクスに使用される基本機能について調べる。

Implicit generative models, which do not return likelihood values, such as generative adversarial networks and diffusion models, have become prevalent in recent years. While it is true that these models have shown remarkable results, evaluating their performance is challenging. This issue is of vital importance to push research forward and identify meaningful gains from random noise. Currently, heuristic metrics such as the Inception score (IS) and Frechet Inception Distance (FID) are the most common evaluation metrics, but what they measure is not entirely clear. Additionally, there are questions regarding how meaningful their score actually is. In this work, we study the evaluation metrics of generative models by generating a high-quality synthetic dataset on which we can estimate classical metrics for comparison. Our study shows that while FID and IS do correlate to several f-divergences, their ranking of close models can vary considerably making them problematic when used for fain-grained comparison. We further used this experimental setting to study which evaluation metric best correlates with our probabilistic metrics. Lastly, we look into the base features used for metrics such as FID.
翻訳日:2022-06-24 00:37:01 公開日:2022-06-22
# (参考訳) ドロップアウトトレーニングの情報幾何学

Information Geometry of Dropout Training ( http://arxiv.org/abs/2206.10936v1 )

ライセンス: CC BY 4.0
Masanari Kimura, Hideitsu Hino(参考訳) dropoutは、ニューラルネットワークトレーニングで最も一般的な正規化テクニックの1つである。 アイデアの力とシンプルさから、ドロップアウトは広範囲に分析され、多くの変種が提案されている。 本稿では,情報幾何の観点から,ドロップアウトのいくつかの特性を統一的に議論する。 我々は,ドロップアウトがモデル多様体を平坦化し,それらの正規化性能が曲率の量に依存することを示した。 そして,ドロップアウトは基本的にフィッシャー情報に依存する正規化に対応し,数値実験からこの結果を支持することを示した。 このような異なる視点からの技術の理論分析は、まだ初期段階にあるニューラルネットワークの理解を大いに支援することが期待されている。

Dropout is one of the most popular regularization techniques in neural network training. Because of its power and simplicity of idea, dropout has been analyzed extensively and many variants have been proposed. In this paper, several properties of dropout are discussed in a unified manner from the viewpoint of information geometry. We showed that dropout flattens the model manifold and that their regularization performance depends on the amount of the curvature. Then, we showed that dropout essentially corresponds to a regularization that depends on the Fisher information, and support this result from numerical experiments. Such a theoretical analysis of the technique from a different perspective is expected to greatly assist in the understanding of neural networks, which are still in their infancy.
翻訳日:2022-06-24 00:26:09 公開日:2022-06-22
# (参考訳) 対話戦略の最適選択に向けて:知的アウトバウンドロボットのための目標駆動アプローチ

Toward An Optimal Selection of Dialogue Strategies: A Target-Driven Approach for Intelligent Outbound Robots ( http://arxiv.org/abs/2206.10953v1 )

ライセンス: CC BY 4.0
Ruifeng Qian, Shijie Li, Mengjiao Bao, Huan Chen, Yu Che(参考訳) 経済と社会の成長に伴い、企業は特にフィンテック業界において、債務の回収、マーケティング、詐欺防止など、顧客へのアウトバウンド要求の需要が高まっている。 しかし, 繰り返し作業や機械作業は, エージェントの時間の大半を占めており, 企業における設備や労働力のコストが増大している。 それと同時に、過去数十年の人工知能技術の発展とともに、企業はビッグデータや人工知能といった新しい技術を使って、アウトバウンドコールビジネスを力づけることが非常に一般的になっている。 インテリジェントなアウトバウンドロボットは、アウトバウンドコールビジネスの分野における人工知能技術の典型的な応用である。 主に特定の目標を達成するために顧客とコミュニケーションするために使用される。 低コスト、高い再利用、簡単なコンプライアンスの特徴があり、業界から注目を集めています。 現在、業界には2種類のインテリジェントなアウトバウンドロボットがあるが、どちらも改善の余地は大きい。 1つのタイプは、手動の経験に基づいてジャンプ条件と対応するノードの設定に依存する有限状態マシンに基づいている。 このようなインテリジェントなアウトバウンドロボットはフローベースロボットとも呼ばれる。 例えば、負債回収のためのフローベースロボットの動作モデルの図式を図に示す。 ref{fig:label} である。 各ラウンドにおいて、ロボットは各ノードに対応する単語でユーザに返信する。

With the growth of the economy and society, enterprises, especially in the FinTech industry, have increasing demands of outbound calls for customers such as debt collection, marketing, anti-fraud calls, and so on. But a large amount of repetitive and mechanical work occupies most of the time of human agents, so the cost of equipment and labor for enterprises is increasing accordingly. At the same time, with the development of artificial intelligence technology in the past few decades, it has become quite common for companies to use new technologies such as Big Data and artificial intelligence to empower outbound call businesses. The intelligent outbound robot is a typical application of the artificial intelligence technology in the field of outbound call businesses. It is mainly used to communicate with customers in order to accomplish a certain target. It has the characteristics of low cost, high reuse, and easy compliance, which has attracted more attention from the industry. At present, there are two kinds of intelligent outbound robots in the industry but both of them still leave large room for improvement. One kind of them is based on a finite state machine relying on the configuration of jump conditions and corresponding nodes based on manual experience. This kind of intelligent outbound robot is also called a flow-based robot. For example, the schematic diagram of the working model of a flow-based robot for debt collection is shown in Fig.\ref{fig:label}. In each round, the robot will reply to the user with the words corresponding to each node.
翻訳日:2022-06-24 00:09:58 公開日:2022-06-22
# (参考訳) スタイリスティックメトリクスを用いた欠陥予測

Defect Prediction Using Stylistic Metrics ( http://arxiv.org/abs/2206.10959v1 )

ライセンス: CC BY 4.0
Rafed Muhammad Yasir, Moumita Asad, Ahmedul Kabir(参考訳) 欠陥予測は、ソフトウェア品質保証の努力を最小限に抑えるために最も人気のある研究トピックの1つである。 既存のアプローチでは、複雑性や開発者のメトリクスなど、さまざまな観点から欠陥予測を調査している。 しかし、いずれも欠陥予測にはプログラミングスタイルを考慮しない。 本稿では,プロジェクト内およびプロジェクト間の欠陥予測におけるスタイル指標の影響を分析することを目的とした。 予測には、Naive Bayes、Support Vector Machine、Decision Tree、Logistic Regressionという4つの機械学習アルゴリズムが広く使用されている。 この実験は5つの人気のあるオープンソースプロジェクトの14のリリースで実施されている。 F1、精度、リコールを検査して結果を評価する。 その結果、スタイリスティックなメトリクスは欠陥のよい予測要因であることが判明した。

Defect prediction is one of the most popular research topics due to its potential to minimize software quality assurance efforts. Existing approaches have examined defect prediction from various perspectives such as complexity and developer metrics. However, none of these consider programming style for defect prediction. This paper aims at analyzing the impact of stylistic metrics on both within-project and crossproject defect prediction. For prediction, 4 widely used machine learning algorithms namely Naive Bayes, Support Vector Machine, Decision Tree and Logistic Regression are used. The experiment is conducted on 14 releases of 5 popular, open source projects. F1, Precision and Recall are inspected to evaluate the results. Results reveal that stylistic metrics are a good predictor of defects.
翻訳日:2022-06-23 23:57:37 公開日:2022-06-22
# (参考訳) ユニバーサムデータを用いたマルチタスクツインサポートベクタマシン

Multi-task twin support vector machine with Universum data ( http://arxiv.org/abs/2206.10978v1 )

ライセンス: CC0 1.0
Hossein Moosaei, Fatemeh Bazikar, Milan Hlad\'ik(参考訳) 近年、多タスク学習(MTL)が機械学習の有望なトピックとして登場し、有益な情報を活用することで、多くの関連する学習タスクのパフォーマンス向上を目指している。 トレーニングフェーズの間、既存のマルチタスク学習モデルのほとんどは、ターゲットタスクデータに完全に集中し、ターゲットタスクに含まれる非ターゲットタスクデータを無視します。 この問題に対処するために、分類問題のどのクラスにも対応しない大学データは、トレーニングモデルにおける事前知識として使用できる。 本研究では,単元データを用いたマルチタスク学習の課題について検討し,非目標タスクデータを用いることにより,高いパフォーマンスを実現する。 UMTSVM(Universum Data)を用いたマルチタスクツインサポートベクタマシンを提案し,そのソリューションに2つのアプローチを提供する。 最初のアプローチはUMTSVMの2つの定式化を考慮しており、二次プログラミング問題の解決を試みるものである。 2つ目のアプローチはUMTSVMの最小2乗バージョンを定式化し、一般化性能をさらに向上させるためにLS-UMTSVMと呼ぶ。 LS-UMTSVMにおける2つの原始問題の解法は、線形方程式の2つの系を解くために単純化され、非常に単純で迅速なアプローチをもたらす。 複数の一般的なマルチタスクデータセットと医療データセットに関する数値実験により,提案手法の有効性が示された。

Multi-task learning (MTL) has emerged as a promising topic of machine learning in recent years, aiming to enhance the performance of numerous related learning tasks by exploiting beneficial information. During the training phase, most of the existing multi-task learning models concentrate entirely on the target task data and ignore the non-target task data contained in the target tasks. To address this issue, Universum data, that do not correspond to any class of a classification problem, may be used as prior knowledge in the training model. This study looks at the challenge of multi-task learning using Universum data to employ non-target task data, which leads to better performance. It proposes a multi-task twin support vector machine with Universum data (UMTSVM) and provides two approaches to its solution. The first approach takes into account the dual formulation of UMTSVM and tries to solve a quadratic programming problem. The second approach formulates a least-squares version of UMTSVM and refers to it as LS-UMTSVM to further increase the generalization performance. The solution of the two primal problems in LS-UMTSVM is simplified to solving just two systems of linear equations, resulting in an incredibly simple and quick approach. Numerical experiments on several popular multi-task data sets and medical data sets demonstrate the efficiency of the proposed methods.
翻訳日:2022-06-23 23:49:21 公開日:2022-06-22
# (参考訳) 機械学習を用いた交通渋滞予測

Traffic Congestion Prediction Using Machine Learning Techniques ( http://arxiv.org/abs/2206.10983v1 )

ライセンス: CC BY 4.0
Moumita Asad, Rafed Muhammad Yasir, Dr. Naushin Nower, Dr. Mohammad Shoyaib(参考訳) 交通渋滞の予測は、将来の意思決定において重要な役割を果たす。 渋滞に関する多くの研究が行われてきたが、これらの多くは重要な要因(例えば気象条件)をすべてカバーできなかった。 本研究では,日時,気象データ(気温,湿度など)に基づいて渋滞を予測できる交通渋滞予測モデルを提案した。 我々のモデルを評価するため、ニューデリーの交通データに対してテストされている。 このモデルでは、道路の混雑が1週間前に予測され、平均RMSEは1.12である。 したがって、このモデルは事前に予防措置を取るために使用できる。

The prediction of traffic congestion can serve a crucial role in making future decisions. Although many studies have been conducted regarding congestion, most of these could not cover all the important factors (e.g., weather conditions). We proposed a prediction model for traffic congestion that can predict congestion based on day, time and several weather data (e.g., temperature, humidity). To evaluate our model, it has been tested against the traffic data of New Delhi. With this model, congestion of a road can be predicted one week ahead with an average RMSE of 1.12. Therefore, this model can be used to take preventive measure beforehand.
翻訳日:2022-06-23 23:23:58 公開日:2022-06-22
# (参考訳) ギロシェパターンの偽検出に基づくID文書認証

Identity Documents Authentication based on Forgery Detection of Guilloche Pattern ( http://arxiv.org/abs/2206.10989v1 )

ライセンス: CC BY 4.0
Musab Al-Ghadi, Zuheng Ming, Petra Gomez-Kr\"amer, Jean-Christophe Burie(参考訳) モバイルやオンラインサービスによるデジタル化のような場合、偽造を効率的に検出し、デジタル世界におけるユーザ信頼を構築するために、ID文書の検証が重要である。 本稿では,ギロシェパターンの偽造検出に基づく識別文書の認証モデルを提案する。 提案手法は,一対の特徴ベクトル間の特徴抽出と類似度尺度の2つのステップから構成される。 特徴抽出ステップでは、畳み込みニューラルネットワーク(CNN)アーキテクチャを通じて、一対のIDドキュメント間の類似性を学習し、それら間で高度に識別可能な特徴を抽出することで終了する。 一方、類似度測定ステップは、与えられたアイデンティティ文書が本物か偽造であるかを決定するために適用される。 この作業では、これらの2つのステップを組み合わせて、2つの目標を達成する。 (i)抽出された特徴は、異なるクラスに属する一対のアイデンティティ文書を区別する優れた抗衝突(差別的)能力を有するべきである。 (ii)所定のアイデンティティ文書のギロシュパターンの適合性をチェックアウトし、同一国の正統版であるギロシュパターンと類似していること。 認証性能を高めるために、最も適切なパラメータを分析し、識別するために実験を行う。 MIDV-2020データセットを用いて実験を行った。 その結果,提案手法は,ギロシェパターンをモデル化し,それらを正確に識別するために,処理された識別文書の関連特性を抽出する能力を示した。 実装コードとフォークデータセットはここで提供されている(https://drive.google.com/id-FDGP-1)。

In cases such as digital enrolment via mobile and online services, identity document verification is critical in order to efficiently detect forgery and therefore build user trust in the digital world. In this paper, an authentication model for identity documents based on forgery detection of guilloche patterns is proposed. The proposed approach is made up of two steps: feature extraction and similarity measure between a pair of feature vectors of identity documents. The feature extraction step involves learning the similarity between a pair of identity documents via a convolutional neural network (CNN) architecture and ends by extracting highly discriminative features between them. While, the similarity measure step is applied to decide if a given identity document is authentic or forged. In this work, these two steps are combined together to achieve two objectives: (i) extracted features should have good anticollision (discriminative) capabilities to distinguish between a pair of identity documents belonging to different classes, (ii) checking out the conformity of the guilloche pattern of a given identity document and its similarity to the guilloche pattern of an authentic version of the same country. Experiments are conducted in order to analyze and identify the most proper parameters to achieve higher authentication performance. The experimental results are performed on the MIDV-2020 dataset. The results show the ability of the proposed approach to extract the relevant characteristics of the processed pair of identity documents in order to model the guilloche patterns, and thus distinguish them correctly. The implementation code and the forged dataset are provided here (https://drive.google.com/id-FDGP-1)
翻訳日:2022-06-23 23:19:31 公開日:2022-06-22
# (参考訳) 原型コントラスト言語画像の事前学習

Prototypical Contrastive Language Image Pretraining ( http://arxiv.org/abs/2206.10996v1 )

ライセンス: CC BY 4.0
Delong Chen, Zhao Wu, Fan Liu, Zaiquan Yang, Yixiang Huang, Yiping Bao, and Erjin Zhou(参考訳) コントラスト言語画像事前学習(CLIP)は、学習された表現を様々な下流タスクにうまく転送できるため、広く注目を集めた。 CLIPトレーニング中、InfoNCEの目的は、肯定的なイメージテキストペアと否定的なペアを分離することである。 本稿では,このプロセスにおける表現グループ化の効果を示す。InfoNCEの目的は,ランダムに出現したモーダルアンカーを介して,意味的に類似した表現を間接的にグループ化する。 我々は,その効率を高め,モダリティギャップに対するロバスト性を高めることにより,これらのグループ化を強化するために,原型的コントラスト言語イメージプリトレーニング(protoclip)を導入する。 具体的には、ProtoCLIPは画像空間とテキスト空間の間のプロトタイプレベルの識別を設定し、高いレベルの構造的知識を効率的に伝達する。 さらに,表現のアライメントから表現群を切り離すためのPBT(Prototypeal Back Translation)を提案し,その結果,大きなモダリティギャップの下で意味のある表現を効果的に学習する。 PBTはまた、より豊富な事前知識を持つ外部教師を導入することもできる。 ProtoCLIPはオンラインのエピソードトレーニング戦略でトレーニングされており、無制限のデータまでスケールアップすることができる。 上記の斬新なデザインを組み合わせることで、コンセプトキャプションでProtoCLIPをトレーニングし、+5.81%のイメージネット線形探索の改善と+2.01%のイメージネットゼロショット分類の改善を実現した。 コードはhttps://github.com/megvii-research/protoclipで入手できる。

Contrastive Language Image Pretraining (CLIP) received widespread attention since its learned representations can be transferred well to various downstream tasks. During CLIP training, the InfoNCE objective aims to align positive image-text pairs and separate negative ones. In this paper, we show a representation grouping effect during this process: the InfoNCE objective indirectly groups semantically similar representations together via randomly emerged within-modal anchors. We introduce Prototypical Contrastive Language Image Pretraining (ProtoCLIP) to enhance such grouping by boosting its efficiency and increasing its robustness against modality gap. Specifically, ProtoCLIP sets up prototype-level discrimination between image and text spaces, which efficiently transfers higher-level structural knowledge. We further propose Prototypical Back Translation (PBT) to decouple representation grouping from representation alignment, resulting in effective learning of meaningful representations under large modality gap. PBT also enables us to introduce additional external teachers with richer prior knowledge. ProtoCLIP is trained with an online episodic training strategy, which makes it can be scaled up to unlimited amounts of data. Combining the above novel designs, we train our ProtoCLIP on Conceptual Captions and achieved an +5.81% ImageNet linear probing improvement and an +2.01% ImageNet zero-shot classification improvement. Codes are available at https://github.com/megvii-research/protoclip.
翻訳日:2022-06-23 23:05:42 公開日:2022-06-22
# (参考訳) 表現空間を通る経路としてのニューラルネットワーク

Neural Networks as Paths through the Space of Representations ( http://arxiv.org/abs/2206.10999v1 )

ライセンス: CC BY 4.0
Richard D. Lange, Jordan Matelsky, Xinyue Wang, Devin Kwok, David S. Rolnick, Konrad P. Kording(参考訳) ディープニューラルネットワークは、それぞれが比較的理解しやすい層別操作のシーケンスを実装するが、結果として得られる全体的な計算は一般に理解しにくい。 各層の役割は、目的の出力に対する「距離」を減らすために情報を再構成することである。 この「距離」という直感的な概念を、計量表現の類似性に関する最近の研究を利用して定式化し、幾何学的概念のリッチな空間をいかに導くかを示す。 このフレームワークにより、ディープニューラルネットワークによって実装された階層計算は、高次元の表現空間におけるパスと見なすことができる。 我々はこれらの幾何学を距離、角度、測地線で特徴づけるツールを開発した。 次に、cifar-10でトレーニングされた残差ネットワークの3組の質問を行う。(1)パスのストレート性、および各レイヤがターゲットに対してどのように貢献するか。 2) これらの特性はトレーニングでどのように現れるのか? (3)より広いネットワークと深いネットワークの経路はどの程度似ていますか? 結論として,このような表現幾何学がネットワークトレーニングを理解し,解釈したり,タスクに適合するネットワークアーキテクチャを規範的に改善するために利用できる,という追加の方法をスケッチする。

Deep neural networks implement a sequence of layer-by-layer operations that are each relatively easy to understand, but the resulting overall computation is generally difficult to understand. We develop a simple idea for interpreting the layer-by-layer construction of useful representations: the role of each layer is to reformat information to reduce the "distance" to the target outputs. We formalize this intuitive idea of "distance" by leveraging recent work on metric representational similarity, and show how it leads to a rich space of geometric concepts. With this framework, the layer-wise computation implemented by a deep neural network can be viewed as a path in a high-dimensional representation space. We develop tools to characterize the geometry of these in terms of distances, angles, and geodesics. We then ask three sets of questions of residual networks trained on CIFAR-10: (1) how straight are paths, and how does each layer contribute towards the target? (2) how do these properties emerge over training? and (3) how similar are the paths taken by wider versus deeper networks? We conclude by sketching additional ways that this kind of representational geometry can be used to understand and interpret network training, or to prescriptively improve network architectures to suit a task.
翻訳日:2022-06-23 22:29:12 公開日:2022-06-22
# (参考訳) エージェントベースグラフニューラルネットワーク

Agent-based Graph Neural Networks ( http://arxiv.org/abs/2206.11010v1 )

ライセンス: CC BY 4.0
Karolis Martinkus, P\'al Andr\'as Papp, Benedikt Schesch, Roger Wattenhofer(参考訳) 本論文では,グラフレベルのタスク専用に設計されたエージェントネットと呼ばれる新しいグラフニューラルネットワークを提案する。 AgentNetはサブ線形アルゴリズムにインスパイアされ、グラフサイズに依存しない計算複雑性を特徴とする。 AgentNetのアーキテクチャは、既知のグラフニューラルネットワークのアーキテクチャと根本的に異なる。 agentnetでは、トレーニングされた \textit{neural agents} がインテリジェントにグラフを歩き、その結果をまとめて決定する。 我々はエージェントネットの広範な理論的解析を行い,エージェントネットが3-wlで識別不能な構造を識別できることを示した。 さらに agentnet は、サブグラフの観点で十分異なる2つのグラフを分離することができる。 実世界のグラフ分類タスクと難解グラフの合成実験により,これらの理論結果を確認した。 どちらの場合も、標準のGNNだけでなく、計算上より高価なGNN拡張も好適に比較する。

We present a novel graph neural network we call AgentNet, which is designed specifically for graph-level tasks. AgentNet is inspired by sublinear algorithms, featuring a computational complexity that is independent of the graph size. The architecture of AgentNet differs fundamentally from the architectures of known graph neural networks. In AgentNet, some trained \textit{neural agents} intelligently walk the graph, and then collectively decide on the output. We provide an extensive theoretical analysis of AgentNet: We show that the agents can learn to systematically explore their neighborhood and that AgentNet can distinguish some structures that are even indistinguishable by 3-WL. Moreover, AgentNet is able to separate any two graphs which are sufficiently different in terms of subgraphs. We confirm these theoretical results with synthetic experiments on hard-to-distinguish graphs and real-world graph classification tasks. In both cases, we compare favorably not only to standard GNNs but also to computationally more expensive GNN extensions.
翻訳日:2022-06-23 22:13:17 公開日:2022-06-22
# (参考訳) ソフトウェアエフォート推定のための不均一グラフニューラルネットワーク

Heterogeneous Graph Neural Networks for Software Effort Estimation ( http://arxiv.org/abs/2206.11023v1 )

ライセンス: CC BY 4.0
Hung Phan and Ali Jannesari(参考訳) ソフトウェアの取り組みはストーリーポイント[35]で測定できる。 ストーリーポイントを自動的に見積もる現在のアプローチは、トレーニング済みの埋め込みモデルとテキスト回帰のためのディープラーニングを適用して、高価な埋め込みモデルを必要とする問題を解決することに焦点を当てている。 我々は,アジャイルソフトウェアプロジェクトのテキスト入力からストーリーポイントを推定するツールであるherespを提案する。 GPT2SP[12]とDeep-SE[8]を比較基準として選択する。 まず、ストーリーポイントデータセット [8]の分析から、ソフトウェアの問題は、実際には自然言語文と引用されたコードスニペットの混合であり、大きな語彙に関連する問題があると結論づける。 第2に,ソフトウェア問題の単語やコードトークンを含む入力テキストを正規化するモジュールを提供する。 第3に、入力ソフトウェアの問題を異なる種類のノードとエッジを持つグラフに変換するアルゴリズムを設計する。 第4に、新しい問題のストーリーポイントを学習し予測するために、初期ノード埋め込みを構築するためのfastText [6]をサポートした異種グラフニューラルネットワークモデルを構築した。 プロジェクト内、リポジトリ内のクロスプロジェクト、ベースラインアプローチによるクロスプロジェクトリポジトリなど、見積もりのシナリオを3つ比較しました。 我々は平均平均絶対誤差を3つのシナリオで2.38,2.61,2.63とする。 GPT2SPを2/3のシナリオで上回り、Deep-SEをはるかに少ないランニング時間で上回り、最も難しいシナリオで上回りました。 また,提案手法を異なる均質グラフニューラルネットワークモデルと比較し,不均質グラフニューラルネットワークモデルがストーリーポイント推定において均質モデルを上回ることを示した。 時間的性能については,ノード埋め込み初期化,モデル構築,ストーリーポイント推定という3つのプロセスの時間的性能として約570秒を達成している。

Software effort can be measured by story point [35]. Current approaches for automatically estimating story points focus on applying pre-trained embedding models and deep learning for text regression to solve this problem which required expensive embedding models. We propose HeteroSP, a tool for estimating story points from textual input of Agile software project issues. We select GPT2SP [12] and Deep-SE [8] as the baselines for comparison. First, from the analysis of the story point dataset [8], we conclude that software issues are actually a mixture of natural language sentences with quoted code snippets and have problems related to large-size vocabulary. Second, we provide a module to normalize the input text including words and code tokens of the software issues. Third, we design an algorithm to convert an input software issue to a graph with different types of nodes and edges. Fourth, we construct a heterogeneous graph neural networks model with the support of fastText [6] for constructing initial node embedding to learn and predict the story points of new issues. We did the comparison over three scenarios of estimation, including within project, cross-project within the repository, and cross-project cross repository with our baseline approaches. We achieve the average Mean Absolute Error (MAE) as 2.38, 2.61, and 2.63 for three scenarios. We outperform GPT2SP in 2/3 of the scenarios while outperforming Deep-SE in the most challenging scenario with significantly less amount of running time. We also compare our approaches with different homogeneous graph neural network models and the results show that the heterogeneous graph neural networks model outperforms the homogeneous models in story point estimation. For time performance, we achieve about 570 seconds as the time performance in both three processes: node embedding initialization, model construction, and story point estimation.
翻訳日:2022-06-23 21:33:47 公開日:2022-06-22
# (参考訳) KeyCLD: 画像からのキーポイント座標における制約付きラグランジアンダイナミクスの学習

KeyCLD: Learning Constrained Lagrangian Dynamics in Keypoint Coordinates from Images ( http://arxiv.org/abs/2206.11030v1 )

ライセンス: CC BY 4.0
Rembert Daems, Jeroen Taets, Francis wyffels and Guillaume Crevecoeur(参考訳) 画像からラグランジアン力学を学習するフレームワークであるKeyCLDを提案する。 学習されたキーポイントはイメージのセマンティックランドマークを表し、状態のダイナミクスを直接表現することができる。 この状態を、明示的なホロノミック制約と結合した直交座標として解釈することで、制約されたラグランジアンでダイナミクスを表現することができる。 提案手法は運動エネルギーとポテンシャルエネルギーを明示的にモデル化し,エネルギーベース制御を可能にする。 我々は、dm_control振り子、カートポール、アクロボット環境の画像からラグランジアン力学を初めて学習した。 これは、文学におけるこれまでの研究は、空の背景に単色形状の最小限の画像にのみ適用されていたため、現実のイメージからラグランジュ力学を学ぶための一歩である。 https://rdaems.github.io/keycld/. プロジェクトページ コードと追加結果を参照してください。

We present KeyCLD, a framework to learn Lagrangian dynamics from images. Learned keypoints represent semantic landmarks in images and can directly represent state dynamics. Interpreting this state as Cartesian coordinates coupled with explicit holonomic constraints, allows expressing the dynamics with a constrained Lagrangian. Our method explicitly models kinetic and potential energy, thus allowing energy based control. We are the first to demonstrate learning of Lagrangian dynamics from images on the dm_control pendulum, cartpole and acrobot environments. This is a step forward towards learning Lagrangian dynamics from real-world images, since previous work in literature was only applied to minimalistic images with monochromatic shapes on empty backgrounds. Please refer to our project page for code and additional results: https://rdaems.github.io/keycld/
翻訳日:2022-06-23 21:16:22 公開日:2022-06-22
# (参考訳) 深層学習によるgi tract segmentationの自動化

Automated GI tract segmentation using deep learning ( http://arxiv.org/abs/2206.11048v1 )

ライセンス: CC BY 4.0
Manhar Sharma(参考訳) 放射線腫瘍学者の仕事はx線ビームを腫瘍に向けることであり、同時に胃や腸を避けることである。 MR-Linacs(磁気共鳴イメージングと線形加速器システム)では、腫瘍の位置を可視化し、日によって異なる腫瘍細胞の存在に応じて正確な投与を可能にする。 胃と腸の位置を概説し、臓器を避けながら腫瘍への線量伝達のためのx線ビーム方向を調整する現在の仕事。 これは、深層学習法がセグメンテーションプロセスを自動化できなければ、1日15分から1時間に簡単に治療を延長できる、時間を要する労働集約プロセスである。 本稿では,このプロセスをより高速にし,より多くの患者に効果的な治療を施すために,ディープラーニングを用いた自動セグメンテーションプロセスについて述べる。

The job of Radiation oncologists is to deliver x-ray beams pointed toward the tumor and at the same time avoid the stomach and intestines. With MR-Linacs (magnetic resonance imaging and linear accelerator systems), oncologists can visualize the position of the tumor and allow for precise dose according to tumor cell presence which can vary from day to day. The current job of outlining the position of the stomach and intestines to adjust the X-ray beams direction for the dose delivery to the tumor while avoiding the organs. This is a time-consuming and labor-intensive process that can easily prolong treatments from 15 minutes to an hour a day unless deep learning methods can automate the segmentation process. This paper discusses an automated segmentation process using deep learning to make this process faster and allow more patients to get effective treatment.
翻訳日:2022-06-23 20:53:58 公開日:2022-06-22
# (参考訳) 音声表現のマルチタスク学習のための動的制約付き不確かさ重み損失

Dynamic Restrained Uncertainty Weighting Loss for Multitask Learning of Vocal Expression ( http://arxiv.org/abs/2206.11049v1 )

ライセンス: CC BY 4.0
Meishu Song, Zijiang Yang, Andreas Triantafyllopoulos, Xin Jing, Vincent Karas, Xie Jiangjian, Zixing Zhang, Yamamoto Yoshiharu, Bjoern W. Schuller(参考訳) icml exvo 2022チャレンジにおいて,複数タスクのコントリビュートバランスの問題を実験的に処理するために,新しい動的拘束型不確実性重み付け損失法を提案する。 マルチタスクは、声帯から表現された感情と人口特性を共同で認識することを目的としている。 提案手法は,不確実度重みと動的重み平均の長所を組み合わせることにより,重みを制約項で拡張することで,学習過程をより説明しやすくする。 提案手法の実装には,軽量なマルチエグジットCNNアーキテクチャを用いる。 実験h-meanスコア(0.394)は,h-meanスコア(0.335)に対して有意に改善した。

We propose a novel Dynamic Restrained Uncertainty Weighting Loss to experimentally handle the problem of balancing the contributions of multiple tasks on the ICML ExVo 2022 Challenge. The multitask aims to recognize expressed emotions and demographic traits from vocal bursts jointly. Our strategy combines the advantages of Uncertainty Weight and Dynamic Weight Average, by extending weights with a restraint term to make the learning process more explainable. We use a lightweight multi-exit CNN architecture to implement our proposed loss approach. The experimental H-Mean score (0.394) shows a substantial improvement over the baseline H-Mean score (0.335).
翻訳日:2022-06-23 20:48:35 公開日:2022-06-22
# (参考訳) AlphaMLDigger: 投資に対する過剰なリターンを探求する新しい機械学習ソリューション

AlphaMLDigger: A Novel Machine Learning Solution to Explore Excess Return on Investment ( http://arxiv.org/abs/2206.11072v1 )

ライセンス: CC BY 4.0
Jimei Shen, Zhehu Yuan, Yifan Jin(参考訳) 効果的な情報を迅速かつ自動的にマイニングし、投資決定に役立てる方法は、学界や業界から注目を集めている。 世界的なパンデミックによって 新しい課題が生まれました 本稿では,高度変動市場における過剰リターンを効果的に見出す2相AlphaMLDiggerを提案する。 フェーズ1では、Sina Microblogのブログを市場感情に転送するディープシーケンシャルNLPモデルが提案されている。 フェーズ2では、予測された市場感情とソーシャルネットワーク指標機能と株式市場履歴機能を組み合わせて、異なる機械学習モデルとオプティマイザで株価の動きを予測する。 その結果、AlphaMLDiggerは以前の研究よりも高い精度でテストを行い、ある程度は新型コロナウイルスの負の影響に強いことが判明した。

How to quickly and automatically mine effective information and serve investment decisions has attracted more and more attention from academia and industry. And new challenges have been raised with the global pandemic. This paper proposes a two-phase AlphaMLDigger that effectively finds excessive returns in the highly fluctuated market. In phase 1, a deep sequential NLP model is proposed to transfer blogs on Sina Microblog to market sentiment. In phase 2, the predicted market sentiment is combined with social network indicator features and stock market history features to predict the stock movements with different Machine Learning models and optimizers. The results show that our AlphaMLDigger achieves higher accuracy in the test set than previous works and is robust to the negative impact of COVID-19 to some extent.
翻訳日:2022-06-23 20:40:21 公開日:2022-06-22
# (参考訳) OpenXAI: モデル説明の透明な評価を目指して

OpenXAI: Towards a Transparent Evaluation of Model Explanations ( http://arxiv.org/abs/2206.11104v1 )

ライセンス: CC BY 4.0
Chirag Agarwal, Eshika Saxena, Satyapriya Krishna, Martin Pawelczyk, Nari Johnson, Isha Puri, Marinka Zitnik, and Himabindu Lakkaraju(参考訳) ポストホックな説明法(例えば特徴帰属法)が近年文献で提案されているが、効率的かつ透明な方法でこれらの手法を体系的にベンチマークする作業はほとんどない。 本稿では,ポストホックな説明手法の評価とベンチマークを行う,包括的で拡張可能なオープンソースフレームワークであるOpenXAIを紹介する。 OpenXAIは以下のキーコンポーネントで構成されています。 (i)フレキシブルな合成データ生成装置、多種多様な実世界のデータセット、事前学習されたモデル、最先端の特徴帰属方法 二 忠実性、安定性(乱れ)及び説明方法の公平性の評価のための二十二定量指標のオープンソース実装 (iii) 説明をベンチマークする最初の公開XAIリーダーボード。 OpenXAIは、ユーザがカスタムな説明方法を評価し、それをリーダーボードに組み込むことができるので、容易に拡張できます。 全体として、OpenXAIは、ポストホックな説明手法の評価を単純化し標準化するだけでなく、これらの手法のベンチマークにおける透明性と再現性を促進する、エンドツーエンドの自動パイプラインを提供する。 OpenXAIデータセットとデータローダ、最先端の説明方法と評価指標の実装、およびリーダボードはhttps://open-xai.github.io/で公開されている。

While several types of post hoc explanation methods (e.g., feature attribution methods) have been proposed in recent literature, there is little to no work on systematically benchmarking these methods in an efficient and transparent manner. Here, we introduce OpenXAI, a comprehensive and extensible open source framework for evaluating and benchmarking post hoc explanation methods. OpenXAI comprises of the following key components: (i) a flexible synthetic data generator and a collection of diverse real-world datasets, pre-trained models, and state-of-the-art feature attribution methods, (ii) open-source implementations of twenty-two quantitative metrics for evaluating faithfulness, stability (robustness), and fairness of explanation methods, and (iii) the first ever public XAI leaderboards to benchmark explanations. OpenXAI is easily extensible, as users can readily evaluate custom explanation methods and incorporate them into our leaderboards. Overall, OpenXAI provides an automated end-to-end pipeline that not only simplifies and standardizes the evaluation of post hoc explanation methods, but also promotes transparency and reproducibility in benchmarking these methods. OpenXAI datasets and data loaders, implementations of state-of-the-art explanation methods and evaluation metrics, as well as leaderboards are publicly available at https://open-xai.github.io/.
翻訳日:2022-06-23 20:32:43 公開日:2022-06-22
# (参考訳) tntorch: PyTorchによるテンソルネットワーク学習

tntorch: Tensor Network Learning with PyTorch ( http://arxiv.org/abs/2206.11128v1 )

ライセンス: CC BY 4.0
Mikhail Usvyatsov, Rafael Ballester-Ripoll, Konrad Schindler(参考訳) 我々は,複数の分解(candecomp/parafac,tucker,tensor trainを含む)を統一インターフェース下でサポートするテンソル学習フレームワークtntorchを提案する。 私たちのライブラリでは、自動微分、シームレスなGPUサポート、PyTorchのAPIの利便性を備えた低ランクテンソルを学習し、処理することができます。 分解アルゴリズムに加えて、tntorchは微分可能なテンソル代数、ランク切り算、交差近似、バッチ処理、包括的テンソル算術などを実装している。

We present tntorch, a tensor learning framework that supports multiple decompositions (including Candecomp/Parafac, Tucker, and Tensor Train) under a unified interface. With our library, the user can learn and handle low-rank tensors with automatic differentiation, seamless GPU support, and the convenience of PyTorch's API. Besides decomposition algorithms, tntorch implements differentiable tensor algebra, rank truncation, cross-approximation, batch processing, comprehensive tensor arithmetics, and more.
翻訳日:2022-06-23 20:03:53 公開日:2022-06-22
# (参考訳) 変分因果ダイナミクス:干渉からモジュラー世界モデルを発見する

Variational Causal Dynamics: Discovering Modular World Models from Interventions ( http://arxiv.org/abs/2206.11131v1 )

ライセンス: CC BY 4.0
Anson Lei, Bernhard Sch\"olkopf, Ingmar Posner(参考訳) 後期世界モデルでは、エージェントは高次元の観測で複雑な環境を推論することができる。 しかし、新しい環境に適応し、過去の知識を効果的に活用することは重要な課題である。 本稿では, 環境間の因果的メカニズムの分散を利用して, 高速かつモジュラーな適応を実現する構造化世界モデルVCDを提案する。 遷移モデルを因果分解することで、VCDは様々な環境における再利用可能なコンポーネントを識別することができる。 これは因果発見と変分推論を組み合わせて、教師なしの方法で潜在表現と遷移モデルを共同で学習することで達成される。 具体的には,説明モデルと因果グラフィカルモデルとして構成された遷移モデルとを併用して,エビデンス下限を最適化する。 状態と画像の観察によるシミュレーション環境の評価において,VCDは因果変数の同定に成功し,異なる環境における一貫した因果構造を発見することができることを示す。 さらに、未確認のインターベンション環境での少数の観測から、VCDはダイナミクスのスパース変化を特定し、効率的に適応することができる。 このようにして、VCDは現在の最先端世界モデルの能力を大幅に拡張するとともに、予測精度についても好意的に比較する。

Latent world models allow agents to reason about complex environments with high-dimensional observations. However, adapting to new environments and effectively leveraging previous knowledge remain significant challenges. We present variational causal dynamics (VCD), a structured world model that exploits the invariance of causal mechanisms across environments to achieve fast and modular adaptation. By causally factorising a transition model, VCD is able to identify reusable components across different environments. This is achieved by combining causal discovery and variational inference to learn a latent representation and transition model jointly in an unsupervised manner. Specifically, we optimise the evidence lower bound jointly over a representation model and a transition model structured as a causal graphical model. In evaluations on simulated environments with state and image observations, we show that VCD is able to successfully identify causal variables, and to discover consistent causal structures across different environments. Moreover, given a small number of observations in a previously unseen, intervened environment, VCD is able to identify the sparse changes in the dynamics and to adapt efficiently. In doing so, VCD significantly extends the capabilities of the current state-of-the-art in latent world models while also comparing favourably in terms of prediction accuracy.
翻訳日:2022-06-23 18:48:29 公開日:2022-06-22
# (参考訳) 自己強化確率過程による創発的語彙形成のモデル化

Modeling Emergent Lexicon Formation with a Self-Reinforcing Stochastic Process ( http://arxiv.org/abs/2206.11146v1 )

ライセンス: CC BY 4.0
Brendon Boldt, David Mortensen(参考訳) 創発言語実験において有限語彙をモデル化する自己強化確率過程FiLexを導入する。 FiLexの中心的な性質は、単語が言語で使われるほど、その使用が続くという直感と並行して、自己強化プロセスであることである。 理論的モデルとして、filexは、創発的な言語システムの振る舞いを説明し予測する手段として機能する。 我々は,創発的言語のハイパーパラメータとレキシコンのシャノンエントロピーの関係を捉えるfilexの能力について実証的に検証する。

We introduce FiLex, a self-reinforcing stochastic process which models finite lexicons in emergent language experiments. The central property of FiLex is that it is a self-reinforcing process, parallel to the intuition that the more a word is used in a language, the more its use will continue. As a theoretical model, FiLex serves as a way to both explain and predict the behavior of the emergent language system. We empirically test FiLex's ability to capture the relationship between the emergent language's hyperparameters and the lexicon's Shannon entropy.
翻訳日:2022-06-23 18:28:34 公開日:2022-06-22
# (参考訳) 再構成事前訓練

reStructured Pre-training ( http://arxiv.org/abs/2206.11147v1 )

ライセンス: CC BY 4.0
Weizhe Yuan, Pengfei Liu(参考訳) 本研究では,NLP技術開発における過去数十年の内的つながりを解明し,本質を探究し,reStructured Pre-training (RST)と呼ばれる,NLPタスクのための(潜在的に)新しい学習パラダイムを提案する。 このようなパラダイムでは、データの役割は再強調され、データ保存とアクセスのプロセスとして、ダウンストリームタスクの事前トレーニングと微調整をモデル化する。 これに基づいて、優れたストレージ機構は大量のデータをキャッシュするだけでなく、アクセスの容易性も考慮すべきである、という単純な原則を運用する。 我々は、いくつかの技術的課題を克服した後、生データではなく、さまざまな貴重な情報からなる再構成されたデータに対してモデルを事前訓練することで、これを実現する。 実験的に、RTTモデルは、様々なNLPタスクから52/55の人気のデータセットで強力な競争相手(例えばT0)を上回るだけでなく、中国で最も権威のある試験であるNational College Entrance Examination - English (Gaokao-English)でも優れたパフォーマンスを達成している。 具体的には,提案システムであるQinは,生徒の平均得点よりも40点高く,パラメータが1/16のGPT3よりも15点高い。 特にqinは2018年の英語試験(national paper iii)で138.5点(全点150点)のハイスコアを獲得した。 オンラインの提出プラットフォームを備えたGaokao Benchmarkをリリースしました。 さらに、数日前(2022.06.08)に行われた2022 College Entrance Examination Englishにおいて、我々のモデルをテストし、合計で134点(GPT3の108点)を得た。

In this work, we try to decipher the internal connection of NLP technology development in the past decades, searching for essence, which rewards us with a (potential) new learning paradigm for NLP tasks, dubbed as reStructured Pre-training (RST). In such a paradigm, the role of data will be re-emphasized, and model pre-training and fine-tuning of downstream tasks are viewed as a process of data storing and accessing. Based on that, we operationalize the simple principle that a good storage mechanism should not only have the ability to cache a large amount of data but also consider the ease of access. We achieve this by pre-training models over restructured data that consist of a variety of valuable information instead of raw data after overcoming several engineering challenges. Experimentally, RST models not only surpass strong competitors (e.g., T0) on 52/55 popular datasets from a variety of NLP tasks, but also achieve superior performance in National College Entrance Examination - English (Gaokao-English),the most authoritative examination in China. Specifically, the proposed system Qin achieves 40 points higher than the average scores made by students and 15 points higher than GPT3 with 1/16 parameters. In particular, Qin gets a high score of 138.5 (the full mark is 150) in the 2018 English exam (national paper III). We have released the Gaokao Benchmark with an online submission platform. In addition, we test our model in the 2022 College Entrance Examination English that happened a few days ago (2022.06.08), and it gets a total score of 134 (v.s. GPT3's 108).
翻訳日:2022-06-23 18:20:17 公開日:2022-06-22
# (参考訳) ニューラルインバース変換サンプリング装置

Neural Inverse Transform Sampler ( http://arxiv.org/abs/2206.11172v1 )

ライセンス: CC BY 4.0
Henry Li, Yuval Kluger(参考訳) 密度の明示的な関数表現$f$は、生成モデルとして使用したいときに2つの主要な障害によって妨げられる: サンプリングが高速になるように$f$を設計し、$Z = \int f$を推定すると、$Z^{-1}f$は 1 に統合される。 これは$f$自体が複雑になるにつれてますます複雑になる。 本稿では, 1次元条件密度をニューラルネットワークでモデル化する場合, 対象密度の累積分布関数をネットワークに表現させ, 一般化基本定理を適用することにより, 正確に効率的にZ$を計算することができることを示す。 また, 逆変換法による結果表現からサンプリングする高速アルゴリズムを導出する。 これらの原理を高次元に拡張することにより、一般化された多次元のコンパクトな確率密度からモデリングおよびサンプリングを行うための新しいディープラーニングフレームワークである \textbf{Neural Inverse Transform Sampler (NITS) を導入する。 NITSは高度に表現力のある密度推定器であり、エンドツーエンドの微分可能性、高速サンプリング、正確で安価な確率評価を備えている。 そこで本研究では,高次元密度推定タスクであるcifar-10データセットの確率ベース生成モデル,uciベンチマークデータセットの密度推定にnitsを適用することで,nitsの適用性を示す。

Any explicit functional representation $f$ of a density is hampered by two main obstacles when we wish to use it as a generative model: designing $f$ so that sampling is fast, and estimating $Z = \int f$ so that $Z^{-1}f$ integrates to 1. This becomes increasingly complicated as $f$ itself becomes complicated. In this paper, we show that when modeling one-dimensional conditional densities with a neural network, $Z$ can be exactly and efficiently computed by letting the network represent the cumulative distribution function of a target density, and applying a generalized fundamental theorem of calculus. We also derive a fast algorithm for sampling from the resulting representation by the inverse transform method. By extending these principles to higher dimensions, we introduce the \textbf{Neural Inverse Transform Sampler (NITS)}, a novel deep learning framework for modeling and sampling from general, multidimensional, compactly-supported probability densities. NITS is a highly expressive density estimator that boasts end-to-end differentiability, fast sampling, and exact and cheap likelihood evaluation. We demonstrate the applicability of NITS by applying it to realistic, high-dimensional density estimation tasks: likelihood-based generative modeling on the CIFAR-10 dataset, and density estimation on the UCI suite of benchmark datasets, where NITS produces compelling results rivaling or surpassing the state of the art.
翻訳日:2022-06-23 18:16:25 公開日:2022-06-22
# (参考訳) 領域適応のためのノイズラベルロバスト損失とミックスアップ正規化を考慮した最適トランスポート

Optimal transport meets noisy label robust loss and MixUp regularization for domain adaptation ( http://arxiv.org/abs/2206.11180v1 )

ライセンス: CC BY 4.0
Kilian Fatras, Hiroki Naganuma, Ioannis Mitliagkas(参考訳) コンピュータビジョンでは、同じクラスだが異なる取得条件のイメージというドメインシフトに直面することが一般的である。 ドメイン適応(da)では、ソースラベル付き画像を使用してラベルなしのターゲット画像を分類したい。 残念なことに、ソーストレーニングセットでトレーニングされたディープニューラルネットワークは、トレーニングドメインに属さないターゲットイメージでパフォーマンスが悪い。 これらの性能を改善する1つの戦略は、最適なトランスポート(ot)を使用して、埋め込み空間内のソースとターゲットのイメージ分布を調整することである。 しかしながら、otは、サンプルを異なるラベルにアライメントすることで、特にドメイン間のラベルシフトが存在する場合に過剰に適合する、負の転送を引き起こす可能性がある。 本研究では,ターゲット画像に対するノイズラベルの割り当てとして,負のアライメントを緩和する。 そして、適切な正規化によってその効果を緩和します。 ドメイン適応性能を改善するために,ノイズラベルにロバストな損失を持つミックスアップ正規化 \citep{zhang2018mixup} を組み合わせることを提案する。 そこで本研究では,この2つの手法の組み合わせが性能向上に不可欠であることを示す。 最後に,いくつかのベンチマークと実世界のDA問題に基づいて,この手法の評価を行った。

It is common in computer vision to be confronted with domain shift: images which have the same class but different acquisition conditions. In domain adaptation (DA), one wants to classify unlabeled target images using source labeled images. Unfortunately, deep neural networks trained on a source training set perform poorly on target images which do not belong to the training domain. One strategy to improve these performances is to align the source and target image distributions in an embedded space using optimal transport (OT). However OT can cause negative transfer, i.e. aligning samples with different labels, which leads to overfitting especially in the presence of label shift between domains. In this work, we mitigate negative alignment by explaining it as a noisy label assignment to target images. We then mitigate its effect by appropriate regularization. We propose to couple the MixUp regularization \citep{zhang2018mixup} with a loss that is robust to noisy labels in order to improve domain adaptation performance. We show in an extensive ablation study that a combination of the two techniques is critical to achieve improved performance. Finally, we evaluate our method, called \textsc{mixunbot}, on several benchmarks and real-world DA problems.
翻訳日:2022-06-23 17:56:06 公開日:2022-06-22
# (参考訳) correct and certify: 自己教師付き3dオブジェクト知覚への新しいアプローチ

Correct and Certify: A New Approach to Self-Supervised 3D-Object Perception ( http://arxiv.org/abs/2206.11215v1 )

ライセンス: CC BY 4.0
Rajat Talak, Lisa Peng, and Luca Carlone(参考訳) 対象のポーズ推定とモデルフィッティングの問題を考える。対象の部分点クラウドは、cadモデルをセンサデータに適合させることで、対象ポーズを推定することを目的としている。 私たちはこの問題を組み合わせて解決する (i)意味的キーポイントに基づくポーズ推定モデル (二)新しい自己指導型研修方法、及び (iii) モデルが生成した出力が正しいか否かを検証できるだけでなく、生成した解の独特さをフラグする認証手続。 セマンティクスキーポイント検出器モデルは、当初はシミュレーションで訓練されており、ドメインギャップのため実データではうまく動作しない。 自己監督訓練では,検出装置の改良に補正器と認証モジュールを用いる。 修正モジュールは検出されたキーポイントを補正してドメインギャップを補償し、宣言層として実装し、簡単な微分則を開発する。 認証モジュールは、モデルによって生成された補正された出力が証明可能であるか否か(すなわち正しい)を宣言する。 各イテレーションでは、検証可能な入出力ペアのみによって引き起こされる損失を最適化する。 トレーニングが進むにつれて、検証可能なアウトプットのごく一部が増加し、多くの場合、100ドル=$近くに達する。 また、予測対象モデルが一意であるか否かをモデルが判断できる強力な証明可能性の概念も導入する。 検出されたセマンティックキーポイントは、フォワードパスでこれを実装するのに役立つ。 提案手法は,シェープネットとycbデータセットを用いて,修正者,認証者,提案する自己教師付きトレーニングの性能を評価するための広範囲な実験を行い,実データに対してポーズやキーポイントの監督を必要とせず,完全に教師付きベースラインと同等のパフォーマンスを実現する。

We consider an object pose estimation and model fitting problem, where - given a partial point cloud of an object - the goal is to estimate the object pose by fitting a CAD model to the sensor data. We solve this problem by combining (i) a semantic keypoint-based pose estimation model, (ii) a novel self-supervised training approach, and (iii) a certification procedure, that not only verifies whether the output produced by the model is correct or not, but also flags uniqueness of the produced solution. The semantic keypoint detector model is initially trained in simulation and does not perform well on real-data due to the domain gap. Our self-supervised training procedure uses a corrector and a certification module to improve the detector. The corrector module corrects the detected keypoints to compensate for the domain gap, and is implemented as a declarative layer, for which we develop a simple differentiation rule. The certification module declares whether the corrected output produced by the model is certifiable (i.e. correct) or not. At each iteration, the approach optimizes over the loss induced only by the certifiable input-output pairs. As training progresses, we see that the fraction of outputs that are certifiable increases, eventually reaching near $100\%$ in many cases. We also introduce the notion of strong certifiability wherein the model can determine if the predicted object model fit is unique or not. The detected semantic keypoints help us implement this in the forward pass. We conduct extensive experiments to evaluate the performance of the corrector, the certification, and the proposed self-supervised training using the ShapeNet and YCB datasets, and show the proposed approach achieves performance comparable to fully supervised baselines while not requiring pose or keypoint supervision on real data.
翻訳日:2022-06-23 17:26:51 公開日:2022-06-22
# (参考訳) 発話書き換えのための階層的コンテキストタギング

Hierarchical Context Tagging for Utterance Rewriting ( http://arxiv.org/abs/2206.11218v1 )

ライセンス: CC BY 4.0
Lisa Jin, Linfeng Song, Lifeng Jin, Dong Yu, Daniel Gildea(参考訳) 発話書き直しは、マルチターン対話の最新のターンからコア参照と省略された情報を復元することを目的としている。 近年、ドメイン内および外部の書き直し設定において、配列を線形に生成するよりもタグ付けする方が強いことが証明されている。 これは、対話コンテキストからトークンをコピーすることしかできないため、タグの検索スペースが小さいためである。 しかしながら、ソース発話に追加しなければならないフレーズが単一のコンテキストスパンでカバーできない場合、これらのメソッドはカバレッジの低下に苦しむ可能性がある。 これは英語のような言語で起こり、文法性の書き直しに前置詞などのトークンを導入する。 本稿では,スロットが後にコンテキストスパンで満たされたスロット付きルール(例えば "besides_" など)を予測することで,この問題を緩和する階層型コンテキストタグ (HCT) を提案する。 HCT (i)ソース文字列にトークンレベルの編集アクションとスロットされたルールをタグ付けする。 (ii)対話コンテキストのスパンで、結果のルールスロットを埋めます。 このルールタグ付けにより、HCTはアウト・オブ・コンテクストトークンと複数のスパンを同時に追加することができます。 いくつかのベンチマーク実験により、HCTは最先端の書き換えシステムよりも2 BLEU点の方が優れていることが示されている。

Utterance rewriting aims to recover coreferences and omitted information from the latest turn of a multi-turn dialogue. Recently, methods that tag rather than linearly generate sequences have proven stronger in both in- and out-of-domain rewriting settings. This is due to a tagger's smaller search space as it can only copy tokens from the dialogue context. However, these methods may suffer from low coverage when phrases that must be added to a source utterance cannot be covered by a single context span. This can occur in languages like English that introduce tokens such as prepositions into the rewrite for grammaticality. We propose a hierarchical context tagger (HCT) that mitigates this issue by predicting slotted rules (e.g., "besides_") whose slots are later filled with context spans. HCT (i) tags the source string with token-level edit actions and slotted rules and (ii) fills in the resulting rule slots with spans from the dialogue context. This rule tagging allows HCT to add out-of-context tokens and multiple spans at once; we further cluster the rules to truncate the long tail of the rule distribution. Experiments on several benchmarks show that HCT can outperform state-of-the-art rewriting systems by ~2 BLEU points.
翻訳日:2022-06-23 16:49:08 公開日:2022-06-22
# 神経常微分方程式をもつ力学系の近似最適制御

Near-optimal control of dynamical systems with neural ordinary differential equations ( http://arxiv.org/abs/2206.11120v1 )

ライセンス: Link先を確認
Lucas B\"ottcher and Thomas Asikis(参考訳) 最適制御問題は、ある初期状態 $\mathbf{x}_0$ から所望の目標状態 $\mathbf{x}^*$ までの力学系を有限時間 $T$ で操りたいとする多くの科学的応用において自然に発生する。 ディープラーニングとニューラルネットワークに基づく最適化の最近の進歩は、高次元力学系に関わる制御問題を解決する方法の開発に寄与している。 特に、ニューラル常微分方程式(ニューラルODE)の枠組みは、解析的に難解で計算的に要求される制御タスクに関連する連続時間制御関数を反復的に近似する効率的な手段を提供する。 ニューラルODEコントローラは複雑な制御問題を解く大きな可能性を示しているが、ネットワーク構造やオプティマイザなどのハイパーパラメータが学習性能に与える影響の理解は依然として限られている。 本研究の目的は,これらの知識ギャップに対処し,効率的なハイパーパラメータ最適化を実現することである。 この目的のために,まず,時間経過による停止および非停止バックプロパゲーションが実行時性能およびニューラルネットワークが最適制御関数を学習する能力に与える影響を解析する。 解析的および数値的手法を用いて,パラメータ初期化,最適化,ニューラルネットワークアーキテクチャの役割を研究する。 最後に,神経odeコントローラが制御エネルギーを暗黙的に規則化する能力と結果を結びつける。

Optimal control problems naturally arise in many scientific applications where one wishes to steer a dynamical system from a certain initial state $\mathbf{x}_0$ to a desired target state $\mathbf{x}^*$ in finite time $T$. Recent advances in deep learning and neural network-based optimization have contributed to the development of methods that can help solve control problems involving high-dimensional dynamical systems. In particular, the framework of neural ordinary differential equations (neural ODEs) provides an efficient means to iteratively approximate continuous time control functions associated with analytically intractable and computationally demanding control tasks. Although neural ODE controllers have shown great potential in solving complex control problems, the understanding of the effects of hyperparameters such as network structure and optimizers on learning performance is still very limited. Our work aims at addressing some of these knowledge gaps to conduct efficient hyperparameter optimization. To this end, we first analyze how truncated and non-truncated backpropagation through time affect runtime performance and the ability of neural networks to learn optimal control functions. Using analytical and numerical methods, we then study the role of parameter initializations, optimizers, and neural-network architecture. Finally, we connect our results to the ability of neural ODE controllers to implicitly regularize control energy.
翻訳日:2022-06-23 16:34:21 公開日:2022-06-22
# DNNに基づく非線形多チャンネル音声強調における空間・スペクトル・時間処理の役割について

On the Role of Spatial, Spectral, and Temporal Processing for DNN-based Non-linear Multi-channel Speech Enhancement ( http://arxiv.org/abs/2206.11181v1 )

ライセンス: Link先を確認
Kristina Tesch, Nils-Hendrik Mohrmann, Timo Gerkmann(参考訳) ディープニューラルネットワーク(DNN)を用いて、マルチチャネル音声強調のためのフィルタを直接学習することは、線形空間フィルタと独立したテンポスペクトルポストフィルタを組み合わせる従来のアプローチに対して、2つの重要な利点がある。 1)非線形空間フィルタリングは線形処理モデルから生じる潜在的な制約を克服することができる。 2)空間情報とテンポスペクトル情報の共同処理により,情報ソース間の相互依存を活用できる。 近年,DNNをベースとした非線形フィルタが多数提案されており,性能向上が報告されている。 しかし、ネットワークアーキテクチャ設計を偶然のゲームに変える内部メカニズムについてはほとんど知られていない。 そこで本稿では,DNNに基づく非線形フィルタによる空間,スペクトル,時間情報の内部処理をよりよく理解するための実験を行う。 一方, 難解な音声抽出シナリオにおける実験により, オラクル線形空間フィルタを0.24 polqaスコアで上回る非線形空間フィルタリングの重要性が確認された。 一方,共同処理の結果,空間情報以外のスペクトル情報と時間情報を利用するネットワークアーキテクチャ間では0.4POLQAスコアが大きな性能差を生じることを示した。

Employing deep neural networks (DNNs) to directly learn filters for multi-channel speech enhancement has potentially two key advantages over a traditional approach combining a linear spatial filter with an independent tempo-spectral post-filter: 1) non-linear spatial filtering allows to overcome potential restrictions originating from a linear processing model and 2) joint processing of spatial and tempo-spectral information allows to exploit interdependencies between different sources of information. A variety of DNN-based non-linear filters have been proposed recently, for which good enhancement performance is reported. However, little is known about the internal mechanisms which turns network architecture design into a game of chance. Therefore, in this paper, we perform experiments to better understand the internal processing of spatial, spectral and temporal information by DNN-based non-linear filters. On the one hand, our experiments in a difficult speech extraction scenario confirm the importance of non-linear spatial filtering, which outperforms an oracle linear spatial filter by 0.24 POLQA score. On the other hand, we demonstrate that joint processing results in a large performance gap of 0.4 POLQA score between network architectures exploiting spectral versus temporal information besides spatial information.
翻訳日:2022-06-23 16:33:57 公開日:2022-06-22
# (参考訳) 生成コーパスの性質の理解

Understanding the Properties of Generated Corpora ( http://arxiv.org/abs/2206.11219v1 )

ライセンス: CC BY 4.0
Naama Zwerdling, Segev Shlomov, Esther Goldbraich, George Kour, Boaz Carmeli, Naama Tepper, Inbal Ronen, Vitaly Zabershinsky, Ateret Anaby-Tavor(参考訳) テキスト生成モデルは多くの研究課題、特に文コーパスの生成に焦点が当てられている。 しかし,自動生成されたテキストコーパスの特性の理解は依然として困難である。 本稿では,生成テキストコーパスの特性を調べるツールセットを提案する。 これらのツールを様々な生成コーパスに適用することで、生成モデルの性質に関する新たな洞察を得ることができます。 キャラクタリゼーションプロセスの一環として,2つの主要な生成技術によって生成されたコーパスに顕著な差異が認められた。

Models for text generation have become focal for many research tasks and especially for the generation of sentence corpora. However, understanding the properties of an automatically generated text corpus remains challenging. We propose a set of tools that examine the properties of generated text corpora. Applying these tools on various generated corpora allowed us to gain new insights into the properties of the generative models. As part of our characterization process, we found remarkable differences in the corpora generated by two leading generative technologies.
翻訳日:2022-06-23 16:32:07 公開日:2022-06-22
# 一般マルチプレイヤー非対称ゲームの進化的ゲーム理論的解析

Evolutionary Game-Theoretical Analysis for General Multiplayer Asymmetric Games ( http://arxiv.org/abs/2206.11114v1 )

ライセンス: Link先を確認
Xinyu Zhang, Peng Peng, Yushan Zhou, Haifeng Wang, Wenxin Li(参考訳) 進化ゲーム理論は、古典ゲーム理論とマルチエージェントシステムにおける学習力学記述を結合する成功の道具である。 相互作用するプレイヤーの対称構造を考えると、多くの研究は相互作用のダイナミクスを分析するインプットとして単純化されたヒューリスティックなペイオフテーブルを使うことに焦点をあてている。 しかし、最先端の方法であっても2つの限界がある。 まず、単純化されたペイオフテーブルを分析すると不正確になる。 第二に、既存の作業では2つのポピュレーション・マルチプレイヤー非対称ゲームに対処できない。 本稿では,ヒューリスティックなペイオフテーブルと,不正確性のない動的解析のギャップを埋める。 さらに,$m$対$n$2-population multiplayer非対称ゲームに対する一般的なフレームワークを提案する。 そこで,本手法と最先端のゲームとの比較を行った。 最後に,WolfpackとStarCraft IIの複雑なマルチエージェント相互作用を含む経験的ゲーム理論解析を行う。

Evolutionary game theory has been a successful tool to combine classical game theory with learning-dynamical descriptions in multiagent systems. Provided some symmetric structures of interacting players, many studies have been focused on using a simplified heuristic payoff table as input to analyse the dynamics of interactions. Nevertheless, even for the state-of-the-art method, there are two limits. First, there is inaccuracy when analysing the simplified payoff table. Second, no existing work is able to deal with 2-population multiplayer asymmetric games. In this paper, we fill the gap between heuristic payoff table and dynamic analysis without any inaccuracy. In addition, we propose a general framework for $m$ versus $n$ 2-population multiplayer asymmetric games. Then, we compare our method with the state-of-the-art in some classic games. Finally, to illustrate our method, we perform empirical game-theoretical analysis on Wolfpack as well as StarCraft II, both of which involve complex multiagent interactions.
翻訳日:2022-06-23 16:24:42 公開日:2022-06-22
# 脆弱性に対する攻撃技術と脅威識別

Attack Techniques and Threat Identification for Vulnerabilities ( http://arxiv.org/abs/2206.11171v1 )

ライセンス: Link先を確認
Constantin Adam, Muhammed Fatih Bulut, Daby Sow, Steven Ocepek, Chris Bedell, Lilian Ngweta(参考訳) 現代の組織は、ネットワークやアプリケーションの脆弱性スキャナーによって検出され、報告される、不可解な数の脆弱性に苦しむ。 そのため、優先順位付けと集中が重要になり、リスクの最も高い脆弱性に限られた時間を費やします。 これを行う上で,これらの組織は,脆弱性の技術的説明を理解するだけでなく,攻撃者の視点に対する洞察を得ることが重要である。 この研究では、機械学習と自然言語処理のテクニックと、いくつかの公開データセットを使用して、攻撃技術や脅威アクターに対する脆弱性の説明可能なマッピングを提供します。 この研究は新たなセキュリティインテリジェンスを提供し、どの攻撃テクニックが特定の脆弱性を悪用する可能性が高いか、どの脅威アクターが攻撃を行う可能性が高いかを予測する。 ラベル付きデータと異なる語彙の欠如により、大規模な攻撃テクニックに対するマッピングの脆弱性は、教師なしまたは教師なし(類似性検索)学習技術を使って簡単に対処できない難しい問題となる。 この問題を解決するため、まず脆弱性を一般的な弱点のセットにマップし、次に攻撃手法に共通弱点をマップします。 このアプローチは平均相反ランク(MRR)が0.95であり、最先端システムで報告されているものと同等の精度である。 私たちのソリューションは、IBM Security X-Force Red Vulnerability Management Servicesにデプロイされ、2021年から運用されています。 このソリューションは、セキュリティ実践者が顧客の脆弱性の管理と優先順位付けを支援し、攻撃テクニックや脅威アクタに対する脆弱性の説明可能なマッピングを提供する。

Modern organizations struggle with insurmountable number of vulnerabilities that are discovered and reported by their network and application vulnerability scanners. Therefore, prioritization and focus become critical, to spend their limited time on the highest risk vulnerabilities. In doing this, it is important for these organizations not only to understand the technical descriptions of the vulnerabilities, but also to gain insights into attackers' perspectives. In this work, we use machine learning and natural language processing techniques, as well as several publicly available data sets to provide an explainable mapping of vulnerabilities to attack techniques and threat actors. This work provides new security intelligence, by predicting which attack techniques are most likely to be used to exploit a given vulnerability and which threat actors are most likely to conduct the exploitation. Lack of labeled data and different vocabularies make mapping vulnerabilities to attack techniques at scale a challenging problem that cannot be addressed easily using supervised or unsupervised (similarity search) learning techniques. To solve this problem, we first map the vulnerabilities to a standard set of common weaknesses, and then common weaknesses to the attack techniques. This approach yields a Mean Reciprocal Rank (MRR) of 0.95, an accuracy comparable with those reported for state-of-the-art systems. Our solution has been deployed to IBM Security X-Force Red Vulnerability Management Services, and in production since 2021. The solution helps security practitioners to assist customers to manage and prioritize their vulnerabilities, providing them with an explainable mapping of vulnerabilities to attack techniques and threat actors
翻訳日:2022-06-23 16:24:29 公開日:2022-06-22
# 脆弱性優先順位付け:攻撃的セキュリティアプローチ

Vulnerability Prioritization: An Offensive Security Approach ( http://arxiv.org/abs/2206.11182v1 )

ライセンス: Link先を確認
Muhammed Fatih Bulut, Abdulhamid Adebayo, Daby Sow, Steve Ocepek(参考訳) 組織は、クラウド環境における多数の脆弱性を扱うのに苦労しています。 脆弱性の優先順位付けに使用されるデファクト手法は、Common Vulnerability Scoring System (CVSS)を使用することである。 しかしCVSSには本質的に制限があり、優先順位付けには適していない。 本研究では,脆弱性を優先順位付けする新しい手法を提案する。 当社のアプローチは、攻撃的なセキュリティ実践者が侵入テストを実行する方法に着想を得ています。 当社のアプローチを,大規模なクライアントを対象とした実世界のケーススタディと,プロセスのエンドツーエンド自動化のための機械学習の精度で評価する。

Organizations struggle to handle sheer number of vulnerabilities in their cloud environments. The de facto methodology used for prioritizing vulnerabilities is to use Common Vulnerability Scoring System (CVSS). However, CVSS has inherent limitations that makes it not ideal for prioritization. In this work, we propose a new way of prioritizing vulnerabilities. Our approach is inspired by how offensive security practitioners perform penetration testing. We evaluate our approach with a real world case study for a large client, and the accuracy of machine learning to automate the process end to end.
翻訳日:2022-06-23 16:23:46 公開日:2022-06-22
# 人工知能によるコンプライアンスブループリントの自動最適化

Automated Compliance Blueprint Optimization with Artificial Intelligence ( http://arxiv.org/abs/2206.11187v1 )

ライセンス: Link先を確認
Abdulhamid Adebayo, Daby Sow, Muhammed Fatih Bulut(参考訳) 銀行や医療といった高度に規制された業界では、クラウドコンピューティングの採用の大きな障害の1つは規制基準の遵守である。 企業が従わなければならない多くの規制および技術仕様(techspec)文書のために、これは複雑な問題です。 重要な問題は、技術仕様と規制管理のマッピングを確立することで、当初から企業は最小限の努力で規制に従うことができる。 人工知能(AI)技術を用いて規制基準を自動的に分析する手法の実践性を実証する。 我々は,技術仕様と規制管理のマッピングを早期に検討し,このソリューションが完全に実用的であるためには克服すべき課題について議論する。

For highly regulated industries such as banking and healthcare, one of the major hindrances to the adoption of cloud computing is compliance with regulatory standards. This is a complex problem due to many regulatory and technical specification (techspec) documents that the companies need to comply with. The critical problem is to establish the mapping between techspecs and regulation controls so that from day one, companies can comply with regulations with minimal effort. We demonstrate the practicality of an approach to automatically analyze regulatory standards using Artificial Intelligence (AI) techniques. We present early results to identify the mapping between techspecs and regulation controls, and discuss challenges that must be overcome for this solution to be fully practical.
翻訳日:2022-06-23 16:23:35 公開日:2022-06-22
# サッカーCPD:時空間追跡データを用いたサッカーマッチの生成と役割変化点検出

SoccerCPD: Formation and Role Change-Point Detection in Soccer Matches Using Spatiotemporal Tracking Data ( http://arxiv.org/abs/2206.10926v1 )

ライセンス: Link先を確認
Hyunsung Kim, Bit Kim, Dongwook Chung, Jinsung Yoon, Sang-Ki Ko(参考訳) サッカーやバスケットボールのような流動的なチームスポーツでは、チーム形成の分析は、ドメイン参加者の視点から戦術を理解する最も直感的な方法の1つです。 しかし、既存のアプローチでは、チーム構成がマッチ全体を通して一貫していると仮定するか、フレーム単位で構成を割り当てる。 そこで本研究では,サッカーの一時的な変化から戦術的に意図された形成と役割変化を区別する,サッカーcpdと呼ばれる変化点検出フレームワークを提案する。 まず,プレーヤのフレーム単位にロールを割り当て,(1)ロールアジャクシー行列のシーケンスに基づくフォーメーションチェンジポイント検出,(2)ロール順列に基づくロールチェンジポイント検出という2段階のチェンジポイント検出を行う。 ドメインエキスパートがアノテートした基底的真理を用いたサッカーcpdの評価により,本手法は戦術的変化点を正確に検出し,セグメント毎の形成と役割割り当てを推定する。 最後に、ドメイン参加者が容易に解釈し利用できる実用的なユースケースを紹介します。

In fluid team sports such as soccer and basketball, analyzing team formation is one of the most intuitive ways to understand tactics from domain participants' point of view. However, existing approaches either assume that team formation is consistent throughout a match or assign formations frame-by-frame, which disagree with real situations. To tackle this issue, we propose a change-point detection framework named SoccerCPD that distinguishes tactically intended formation and role changes from temporary changes in soccer matches. We first assign roles to players frame-by-frame and perform two-step change-point detections: (1) formation change-point detection based on the sequence of role-adjacency matrices and (2) role change-point detection based on the sequence of role permutations. The evaluation of SoccerCPD using the ground truth annotated by domain experts shows that our method accurately detects the points of tactical changes and estimates the formation and role assignment per segment. Lastly, we introduce practical use-cases that domain participants can easily interpret and utilize.
翻訳日:2022-06-23 16:23:21 公開日:2022-06-22
# SVoRT : 胎児脳MRIにおけるスライス・ツー・ボリューム登録のための反復変換器

SVoRT: Iterative Transformer for Slice-to-Volume Registration in Fetal Brain MRI ( http://arxiv.org/abs/2206.10802v1 )

ライセンス: Link先を確認
Junshen Xu, Daniel Moyer, P. Ellen Grant, Polina Golland, Juan Eugenio Iglesias, Elfar Adalsteinsson(参考訳) 複数のMRスライスから胎児の脳の容積再構成は、ほぼ予測不可能で、しばしば重篤な被写体運動の存在下で得られたものであり、スライス・ツー・ボリューム変換の初期化に非常に敏感な課題である。 本稿では,MRスライスの複数スタックをシーケンスとしてモデル化した,合成変換データに基づくトランスフォーマーを用いた新しいスライス・ツー・ボリューム登録手法を提案する。 注意機構を用いてスライス間の関係を自動的に検出し,他のスライス情報を用いてスライス間の変換を予測する。 また、3dボリュームを推定し、スライスからボリュームへの登録を支援し、ボリュームと変換を交互に更新し、精度を向上させる。 その結果,本手法は既存手法と比較して登録誤差が低く,復元品質も良好であることが判明した。 また, 重度胎児運動下での3次元再構成の精度向上のためのモデルの有効性を示すために, 実世界のMRIデータを用いた実験を行った。

Volumetric reconstruction of fetal brains from multiple stacks of MR slices, acquired in the presence of almost unpredictable and often severe subject motion, is a challenging task that is highly sensitive to the initialization of slice-to-volume transformations. We propose a novel slice-to-volume registration method using Transformers trained on synthetically transformed data, which model multiple stacks of MR slices as a sequence. With the attention mechanism, our model automatically detects the relevance between slices and predicts the transformation of one slice using information from other slices. We also estimate the underlying 3D volume to assist slice-to-volume registration and update the volume and transformations alternately to improve accuracy. Results on synthetic data show that our method achieves lower registration error and better reconstruction quality compared with existing state-of-the-art methods. Experiments with real-world MRI data are also performed to demonstrate the ability of the proposed model to improve the quality of 3D reconstruction under severe fetal motion.
翻訳日:2022-06-23 16:21:13 公開日:2022-06-22
# 要注意:単純かつ効率的なビデオレコーダのためのグループ時間シフト

No Attention is Needed: Grouped Spatial-temporal Shift for Simple and Efficient Video Restorers ( http://arxiv.org/abs/2206.10810v1 )

ライセンス: Link先を確認
Dasong Li, Xiaoyu Shi, Yi Zhang, Xiaogang Wang, Hongwei Qin, Hongsheng Li(参考訳) 劣化したビデオからクリアフレームを復元するビデオ修復が注目を集めている。 ビデオ復元は、複数の不整合フレームから時間的対応を確立するために必要である。 この目的を達成するために、既存のディープメソッドは一般的に、光学フロー、変形可能な畳み込み、クロスフレームまたはクロスピクセルの自己アテンション層を統合するなどの複雑なネットワークアーキテクチャを採用する。 適切な設計により,映像復元における時間的情報の利用は,はるかに効率的かつ効果的であると考えられる。 本研究では,ビデオ復元のための簡易かつ高速かつ効果的なフレームワークを提案する。 フレームワークの鍵となるのは、単純で軽量なグループ化された時空間シフトであるが、暗黙的にフレーム間対応を確立し、多フレームアグリゲーションを実現することができる。 フレーム単位の符号化と復号のための基本2次元U-Netと組み合わせることで、このような効率的な時空間シフトモジュールは、ビデオ復元の課題に効果的に取り組むことができる。 大規模な実験により,我々のフレームワークは従来の最先端手法を43%のコストで超越していることがわかった。

Video restoration, aiming at restoring clear frames from degraded videos, has been attracting increasing attention. Video restoration is required to establish the temporal correspondences from multiple misaligned frames. To achieve that end, existing deep methods generally adopt complicated network architectures, such as integrating optical flow, deformable convolution, cross-frame or cross-pixel self-attention layers, resulting in expensive computational cost. We argue that with proper design, temporal information utilization in video restoration can be much more efficient and effective. In this study, we propose a simple, fast yet effective framework for video restoration. The key of our framework is the grouped spatial-temporal shift, which is simple and lightweight, but can implicitly establish inter-frame correspondences and achieve multi-frame aggregation. Coupled with basic 2D U-Nets for frame-wise encoding and decoding, such an efficient spatial-temporal shift module can effectively tackle the challenges in video restoration. Extensive experiments show that our framework surpasses previous state-of-the-art method with 43% of its computational cost on both video deblurring and video denoising.
翻訳日:2022-06-23 16:20:54 公開日:2022-06-22
# 自然シーンの高分解能多露光ステレオ画像・映像データベース

A High Resolution Multi-exposure Stereoscopic Image & Video Database of Natural Scenes ( http://arxiv.org/abs/2206.11095v1 )

ライセンス: Link先を確認
Rohit Choudhary and Mansi Sharma and Aditya Wadaskar(参考訳) 近年、VRヘッドセット、ARメガネ、マルチビューディスプレイ、フリーポイントテレビなどの没入型ディスプレイが新しいタイプのディスプレイ技術として登場し、従来のディスプレイに比べて視覚的体験と視聴者のエンゲージメントが向上している。 3Dビデオとディスプレイ技術の進化に伴い、ハイダイナミックレンジ(HDR)カメラとディスプレイの消費者市場は急速に成長している。 適切な実験データがないことは、3D HDRビデオ技術分野における主要な研究活動の進展にとって重要な障害である。 また、十分な実世界のマルチ露光実験データセットが利用できないことは、HDRイメージング研究の大きなボトルネックであり、視聴者の体験の質(QoE)を制限している。 本稿では,インド工科大学マドラス校内において,多様な植物相と動物相を呈する多種多様な立体視マルチ露光データセットについて紹介する。 データセットは、ZEDステレオカメラを用いて撮影され、庭園、道路沿いの景色、祭り会場、建物、学術・住宅地などの屋内場所などの複雑な屋外のシーンを提供する。 提案するデータセットは、広い深度範囲、複雑な深度構造、複雑な物体の動き、照明の変動、豊かな色力学、テクスチャのばらつき、そして、カメラの動きと背景の動きによってもたらされる重要なランダム性に適応する。 提案されたデータセットは研究コミュニティで公開されている。 さらに、マルチ露光ステレオビデオと画像をキャプチャ、アライメント、校正する手順について詳述する。 最後に,HDR画像,深度推定,一貫したトーンマッピング,3次元HDR符号化に関する進歩,課題,潜在的なユースケース,今後の研究機会について論じる。

Immersive displays such as VR headsets, AR glasses, Multiview displays, Free point televisions have emerged as a new class of display technologies in recent years, offering a better visual experience and viewer engagement as compared to conventional displays. With the evolution of 3D video and display technologies, the consumer market for High Dynamic Range (HDR) cameras and displays is quickly growing. The lack of appropriate experimental data is a critical hindrance for the development of primary research efforts in the field of 3D HDR video technology. Also, the unavailability of sufficient real world multi-exposure experimental dataset is a major bottleneck for HDR imaging research, thereby limiting the quality of experience (QoE) for the viewers. In this paper, we introduce a diversified stereoscopic multi-exposure dataset captured within the campus of Indian Institute of Technology Madras, which is home to a diverse flora and fauna. The dataset is captured using ZED stereoscopic camera and provides intricate scenes of outdoor locations such as gardens, roadside views, festival venues, buildings and indoor locations such as academic and residential areas. The proposed dataset accommodates wide depth range, complex depth structure, complicate object movement, illumination variations, rich color dynamics, texture discrepancy in addition to significant randomness introduced by moving camera and background motion. The proposed dataset is made publicly available to the research community. Furthermore, the procedure for capturing, aligning and calibrating multi-exposure stereo videos and images is described in detail. Finally, we have discussed the progress, challenges, potential use cases and future research opportunities with respect to HDR imaging, depth estimation, consistent tone mapping and 3D HDR coding.
翻訳日:2022-06-23 16:20:35 公開日:2022-06-22
# DaisyRec 2.0: 厳格な評価のためのベンチマーク勧告

DaisyRec 2.0: Benchmarking Recommendation for Rigorous Evaluation ( http://arxiv.org/abs/2206.10848v1 )

ライセンス: Link先を確認
Zhu Sun, Hui Fang, Jie Yang, Xinghua Qu, Hongyang Liu, Di Yu, Yew-Soon Ong, Jie Zhang(参考訳) 最近、リコメンデータシステム分野において重要な問題の一つが、厳格な評価のための効果的なベンチマークがないことであり、結果として再現不可能な評価と不公平な比較につながっている。 そこで本研究では, 実践理論と実験の観点から, 厳密な評価のためのベンチマーク・レコメンデーションをめざして研究を行う。 理論的には,2017~2020年の8つのトップレベル会議において発表された141論文の総括的レビューを通じて,評価チェーン全体のレコメンデーションパフォーマンスに影響を及ぼす一連の超因子を体系的に要約し,分析する。 次に、モデル非依存型およびモデル依存型ハイパーファクターに分類し、それに応じて厳密な評価の異なるモードを定義し、議論する。 本研究では,これらのハイパーファクタを統合して厳密な評価を行い,様々なハイパーファクタがレコメンデーションパフォーマンスに与える影響を明らかにするための総合的な実証的研究を行った。 理論的および実験的研究の支援により、6つのデータセット上の6つの評価基準にまたがって、標準化された手順の提案と10の最先端のパフォーマンスを提供することにより、厳密な評価のためのベンチマークを最終的に作成する。 全体としては、推奨評価の問題に光を当て、厳格な評価のための潜在的な解決策を提供し、さらなる調査の基礎を築きます。

Recently, one critical issue looms large in the field of recommender systems -- there are no effective benchmarks for rigorous evaluation -- which consequently leads to unreproducible evaluation and unfair comparison. We, therefore, conduct studies from the perspectives of practical theory and experiments, aiming at benchmarking recommendation for rigorous evaluation. Regarding the theoretical study, a series of hyper-factors affecting recommendation performance throughout the whole evaluation chain are systematically summarized and analyzed via an exhaustive review on 141 papers published at eight top-tier conferences within 2017-2020. We then classify them into model-independent and model-dependent hyper-factors, and different modes of rigorous evaluation are defined and discussed in-depth accordingly. For the experimental study, we release DaisyRec 2.0 library by integrating these hyper-factors to perform rigorous evaluation, whereby a holistic empirical study is conducted to unveil the impacts of different hyper-factors on recommendation performance. Supported by the theoretical and experimental studies, we finally create benchmarks for rigorous evaluation by proposing standardized procedures and providing performance of ten state-of-the-arts across six evaluation metrics on six datasets as a reference for later study. Overall, our work sheds light on the issues in recommendation evaluation, provides potential solutions for rigorous evaluation, and lays foundation for further investigation.
翻訳日:2022-06-23 16:18:15 公開日:2022-06-22
# ロバストな普遍的対向摂動

Robust Universal Adversarial Perturbations ( http://arxiv.org/abs/2206.10858v1 )

ライセンス: Link先を確認
Changming Xu, Gagandeep Singh(参考訳) UAP(Universal Adversarial Perturbations)は、ディープニューラルネットワーク(DNN)を引き起こすイメージに依存しないベクトルであり、高い確率でデータ分布からの入力を誤分類する。 既存のメソッドは、トランスフォーメーションに対して堅牢なUAPを生成しないため、現実の攻撃としての適用性が制限される。 本稿では,ロバストな普遍的逆摂動の新たな概念と定式化について述べる。 この定式化に基づき,任意の部分微分可能変換関数を構成することによって生成される変換に対して頑健な uap を生成する確率的ロバスト性境界を利用する新しい反復アルゴリズムを構築した。 CIFAR-10 と ILSVRC 2012 のデータセットを用いて,実世界でよく見られる回転,コントラスト変化などの人間解釈可能な意味変換の下で頑健さを測定する。 以上の結果から,我々の生成するUAPはベースラインよりもはるかに堅牢であることがわかった。

Universal Adversarial Perturbations (UAPs) are imperceptible, image-agnostic vectors that cause deep neural networks (DNNs) to misclassify inputs from a data distribution with high probability. Existing methods do not create UAPs robust to transformations, thereby limiting their applicability as a real-world attacks. In this work, we introduce a new concept and formulation of robust universal adversarial perturbations. Based on our formulation, we build a novel, iterative algorithm that leverages probabilistic robustness bounds for generating UAPs robust against transformations generated by composing arbitrary sub-differentiable transformation functions. We perform an extensive evaluation on the popular CIFAR-10 and ILSVRC 2012 datasets measuring robustness under human-interpretable semantic transformations, such as rotation, contrast changes, etc, that are common in the real-world. Our results show that our generated UAPs are significantly more robust than those from baselines.
翻訳日:2022-06-23 16:17:51 公開日:2022-06-22
# RMSEを超えて: 道路ユーザインタラクションのマシン学習モデルは、人間のような振る舞いを生み出すか?

Beyond RMSE: Do machine-learned models of road user interaction produce human-like behavior? ( http://arxiv.org/abs/2206.11110v1 )

ライセンス: Link先を確認
Aravinda Ramakrishnan Srinivasan, Yi-Shin Lin, Morris Antonello, Anthony Knittel, Mohamed Hasan, Majd Hawasly, John Redford, Subramanian Ramamoorthy, Matteo Leonetti, Jac Billington, Richard Romano, Gustav Markkula(参考訳) 自動運転車は、周囲の道路利用者の行動を予測するために、さまざまなセンサーとマシン学習モデルを使用する。 文学における機械学習モデルのほとんどは、モデルの能力を学習し報告するためのルート平均二乗誤差(RMSE)のような量的エラーメトリクスに焦点を当てている。 定量的エラーメトリクスにフォーカスすることは、モデルのより重要な振る舞いの側面を無視する傾向があり、これらのモデルが実際に人間のような振る舞いを予測するかどうかという疑問を提起する。 そこで本研究では,従来の行動研究で人間のデータを分析するように,機械学習モデルの出力を分析することを提案する。 自然主義高速道路運転データセットにおける3つの異なる行動現象の存在を示す定量的指標を導入する。 1)マージングポイントを最初に通過した者のキネマティクス依存性 2高速車両の車線変更による車線変更 3)幹線道路での車両衝突を避けるため、車線変更を行う。 そして,同じ指標を用いて3つの機械学習モデルの挙動を解析する。 モデルのrmse値は異なっていたが、全てのモデルはキネマティック依存のマージ行動を捉えたが、より微妙な礼儀正しい車線変更と高速道路の車線変更の挙動を捉えるのに苦労した。 さらに、車線変更時の衝突回避分析により、モデルが人間の運転の物理的側面を捉えるのに苦労したことが明らかとなった。 そこで本研究では,人間の運転予測の機械学習モデルの解析において,単純な量的指標の不十分さと,より広い行動観を捉える必要性を強調した。

Autonomous vehicles use a variety of sensors and machine-learned models to predict the behavior of surrounding road users. Most of the machine-learned models in the literature focus on quantitative error metrics like the root mean square error (RMSE) to learn and report their models' capabilities. This focus on quantitative error metrics tends to ignore the more important behavioral aspect of the models, raising the question of whether these models really predict human-like behavior. Thus, we propose to analyze the output of machine-learned models much like we would analyze human data in conventional behavioral research. We introduce quantitative metrics to demonstrate presence of three different behavioral phenomena in a naturalistic highway driving dataset: 1) The kinematics-dependence of who passes a merging point first 2) Lane change by an on-highway vehicle to accommodate an on-ramp vehicle 3) Lane changes by vehicles on the highway to avoid lead vehicle conflicts. Then, we analyze the behavior of three machine-learned models using the same metrics. Even though the models' RMSE value differed, all the models captured the kinematic-dependent merging behavior but struggled at varying degrees to capture the more nuanced courtesy lane change and highway lane change behavior. Additionally, the collision aversion analysis during lane changes showed that the models struggled to capture the physical aspect of human driving: leaving adequate gap between the vehicles. Thus, our analysis highlighted the inadequacy of simple quantitative metrics and the need to take a broader behavioral perspective when analyzing machine-learned models of human driving predictions.
翻訳日:2022-06-23 16:17:32 公開日:2022-06-22
# UniCon+:ICTCAS-UCAS Submission to the AVA-ActiveSpeaker Task at ActivityNet Challenge 2022

UniCon+: ICTCAS-UCAS Submission to the AVA-ActiveSpeaker Task at ActivityNet Challenge 2022 ( http://arxiv.org/abs/2206.10861v1 )

ライセンス: Link先を確認
Yuanhang Zhang, Susan Liang, Shuang Yang, Shiguang Shan(参考訳) 本稿では,アクティベーションネットチャレンジ2022におけるAVAアクティブ話者検出(ASD)課題に対する,我々の勝利ソリューションの簡潔な説明を行う。 当社の基盤となるモデルであるUniCon+は、堅牢なシーンレベルのASD用に設計されたUnified Context Network(UniCon)とExtended UniConという、これまでの作業に基づいて構築を続けています。 アーキテクチャを単純なGRUベースのモジュールで拡張し、読み取りおよび更新操作を通じて繰り返しアイデンティティの情報がシーンを流れるようにする。 ava-activespeaker テストセットの 94.47% の最高の結果が報告されている。

This report presents a brief description of our winning solution to the AVA Active Speaker Detection (ASD) task at ActivityNet Challenge 2022. Our underlying model UniCon+ continues to build on our previous work, the Unified Context Network (UniCon) and Extended UniCon which are designed for robust scene-level ASD. We augment the architecture with a simple GRU-based module that allows information of recurring identities to flow across scenes through read and update operations. We report a best result of 94.47% mAP on the AVA-ActiveSpeaker test set, which continues to rank first on this year's challenge leaderboard and significantly pushes the state-of-the-art.
翻訳日:2022-06-23 16:14:27 公開日:2022-06-22
# MR画像におけるCNNによる完全自動手首軟骨体積定量化

CNN-based fully automatic wrist cartilage volume quantification in MR Image ( http://arxiv.org/abs/2206.11127v1 )

ライセンス: Link先を確認
Nikita Vladimirov, Ekaterina Brui, Anatoliy Levchuk, Vladimir Fokin, Aleksandr Efimtcev, David Bendahan(参考訳) 関節リウマチの診断には軟骨消失の検出が重要である。 大規模な関節の磁気共鳴画像における軟骨評価のために,多数の自動セグメンテーションツールが報告されている。 膝や股関節と比較して、手首軟骨はより複雑な構造であるため、手首軟骨のセグメンテーションのために大きな関節向けに開発された自動工具が動作しない。 その点では、完全自動手首軟骨分割法が臨床上の関心事となるだろう。 我々は,U-Netアーキテクチャの4つの最適化版の性能評価を行い,その深さと注意層(U-Net_AL)の追加について検討した。 対応する結果は、以前設計したパッチベースの畳み込みニューラルネットワーク(CNN)と比較された。 2次元DSC, 3次元DSC, 精度)と体積測定値を用いて, 手動分割との比較分析により, セグメンテーションの質を評価した。 4つのネットワークは、セグメンテーションの均一性と品質の点でパッチベースのCNNを上回った。 U-Net_AL (0.817) で計算した3次元DSC値の平均値は、他のネットワークで計算したDSC値よりも有意に大きい。 加えて、U-Net_AL CNNは、基底真理に関して最低平均体積誤差(17%)と最高ピアソン相関係数(0.765)を提供した。 U-Net_ALを用いて計算した再現性は手動分割の再現性よりも大きかった。 追加の注意層を持つu-net畳み込みニューラルネットワークは、最高の手首軟骨セグメンテーション性能を提供する。 臨床現場で使用するために、訓練されたネットワークを特定の患者のグループを表すデータセット上で微調整することができる。 非MRI法による軟骨体積測定の誤差を独立に評価する必要がある。

Detection of cartilage loss is crucial for the diagnosis of osteo- and rheumatoid arthritis. A large number of automatic segmentation tools have been reported so far for cartilage assessment in magnetic resonance images of large joints. As compared to knee or hip, wrist cartilage has a more complex structure so that automatic tools developed for large joints are not expected to be operational for wrist cartilage segmentation. In that respect, a fully automatic wrist cartilage segmentation method would be of high clinical interest. We assessed the performance of four optimized variants of the U-Net architecture with truncation of its depth and addition of attention layers (U-Net_AL). The corresponding results were compared to those from a patch-based convolutional neural network (CNN) we previously designed. The segmentation quality was assessed on the basis of a comparative analysis with manual segmentation using several morphological (2D DSC, 3D DSC, precision) and a volumetric metrics. The four networks outperformed the patch-based CNN in terms of segmentation homogeneity and quality. The median 3D DSC value computed with the U-Net_AL (0.817) was significantly larger than the corresponding DSC values computed with the other networks. In addition, the U-Net_AL CNN provided the lowest mean volume error (17%) and the highest Pearson correlation coefficient (0.765) with respect to the ground truth. Of interest, the reproducibility computed from using U-Net_AL was larger than the reproducibility of the manual segmentation. U-net convolutional neural network with additional attention layers provides the best wrist cartilage segmentation performance. In order to be used in clinical conditions, the trained network can be fine-tuned on a dataset representing a group of specific patients. The error of cartilage volume measurement should be assessed independently using a non-MRI method.
翻訳日:2022-06-23 16:14:12 公開日:2022-06-22
# $\texttt{FedBC}$:Federated Learning Beyond Consensusによるグローバルモデルとローカルモデルの校正

$\texttt{FedBC}$: Calibrating Global and Local Models via Federated Learning Beyond Consensus ( http://arxiv.org/abs/2206.10815v1 )

ライセンス: Link先を確認
Amrit Singh Bedi, Chen Fan, Alec Koppel, Anit Kumar Sahu, Brian M. Sadler, Furong Huang, and Dinesh Manocha(参考訳) フェデレーション学習(fl)では、デバイス間のモデル更新を集約してグローバルなモデルを協調的に学習する目的は、ローカル情報によるパーソナライゼーションの目標に反対する傾向がある。 本研究では,このトレードオフを,局所モデルとグローバルモデルとの近接性を定量化する非線形制約を満足しつつ,最小化を図りつつ,デバイスを局所的な目的とする多条件最適化に基づくフレームワークを用いて,定量的に校正する。 この問題のラグランジアン緩和を考えることで、一階勾配オラクルへのクエリを通じて各ノードがラグランジアンの局所成分を最小化できるアルゴリズムを開発した。 そして、サーバは、ラグランジ乗数重み付け平均化ステップに続いてラグランジ乗数昇降ステップを実行する。 私たちはこれを、Federated Learning Beyond Consensus(\texttt{FedBC}$)という原始双対メソッドのインスタンス化と呼ぶ。 理論的には、$\texttt{FedBC}$は、技術の状態と一致するレートで1次定常点に収束し、近接制約によって生じる許容パラメータに依存する追加エラー項に収束する。 全体として、この解析は非線形制約のある非凸サドルポイント問題に適用される原始双対法の新しい特徴付けである。 最後に、$\texttt{FedBC}$は、一連のデータセット(Synthetic, MNIST, CIFAR-10, Shakespeare)間でグローバルおよびローカルモデルテスト精度のメトリクスのバランスをとり、最先端技術との競合性能を達成することを実証する。

In federated learning (FL), the objective of collaboratively learning a global model through aggregation of model updates across devices tends to oppose the goal of personalization via local information. In this work, we calibrate this tradeoff in a quantitative manner through a multi-criterion optimization-based framework, which we cast as a constrained program: the objective for a device is its local objective, which it seeks to minimize while satisfying nonlinear constraints that quantify the proximity between the local and the global model. By considering the Lagrangian relaxation of this problem, we develop an algorithm that allows each node to minimize its local component of Lagrangian through queries to a first-order gradient oracle. Then, the server executes Lagrange multiplier ascent steps followed by a Lagrange multiplier-weighted averaging step. We call this instantiation of the primal-dual method Federated Learning Beyond Consensus ($\texttt{FedBC}$). Theoretically, we establish that $\texttt{FedBC}$ converges to a first-order stationary point at rates that matches the state of the art, up to an additional error term that depends on the tolerance parameter that arises due to the proximity constraints. Overall, the analysis is a novel characterization of primal-dual methods applied to non-convex saddle point problems with nonlinear constraints. Finally, we demonstrate that $\texttt{FedBC}$ balances the global and local model test accuracy metrics across a suite of datasets (Synthetic, MNIST, CIFAR-10, Shakespeare), achieving competitive performance with the state of the art.
翻訳日:2022-06-23 16:11:16 公開日:2022-06-22
# 分散グリッドトポロジを学習する: チュートリアル

Learning Distribution Grid Topologies: A Tutorial ( http://arxiv.org/abs/2206.10837v1 )

ライセンス: Link先を確認
Deepjyoti Deka, Vassilis Kekatos, Guido Cavraro(参考訳) データからのフィーダトポロジーの公開は、電力配電網における状況認識とスマートリソースの適切な活用を進める上で最も重要なものである。 本チュートリアルでは,近年の送電網に提案されているトポロジー同定と検出スキームの関連を要約,対比,確立する。 %であった。 主な焦点は、配電網における測定装置の可用性の限界を克服し、電力フロー物理の保存則と供給者の構造特性を用いたトポロジー推定を向上することである。 ファサー測定ユニットやスマートメーターからのグリッドデータは、グリッドリソースを作動させ、供給者の電圧応答を測定することによって、従来の方法で受動的に収集することができる。 異なるメータ配置シナリオ下で, 供給者の識別性と検出性に関する解析的主張をレビューする。 このようなトポロジ学習の主張は、最小二乗から凸最適化問題、グラフ上の多項式時間探索から混合整数プログラムまで、様々なレベルの計算複雑性を持つアルゴリズム的解によって、正確にあるいは概ね達成することができる。 このチュートリアルは、研究者やエンジニアに現在の最先端の分散グリッド学習と今後の仕事の方向性に関する洞察を提供することを目的としている。

Unveiling feeder topologies from data is of paramount importance to advance situational awareness and proper utilization of smart resources in power distribution grids. This tutorial summarizes, contrasts, and establishes useful links between recent works on topology identification and detection schemes that have been proposed for power distribution grids.% under different regimes of measurement type, observability, and sampling. The primary focus is to highlight methods that overcome the limited availability of measurement devices in distribution grids, while enhancing topology estimates using conservation laws of power-flow physics and structural properties of feeders. Grid data from phasor measurement units or smart meters can be collected either passively in the traditional way, or actively, upon actuating grid resources and measuring the feeder's voltage response. Analytical claims on feeder identifiability and detectability are reviewed under disparate meter placement scenarios. Such topology learning claims can be attained exactly or approximately so via algorithmic solutions with various levels of computational complexity, ranging from least-squares fits to convex optimization problems, and from polynomial-time searches over graphs to mixed-integer programs. This tutorial aspires to provide researchers and engineers with knowledge of the current state-of-the-art in tractable distribution grid learning and insights into future directions of work.
翻訳日:2022-06-23 16:10:45 公開日:2022-06-22
# 音声強調のための音声認識手法の体系的比較

A Systematic Comparison of Phonetic Aware Techniques for Speech Enhancement ( http://arxiv.org/abs/2206.11000v1 )

ライセンス: Link先を確認
Or Tal, Moshe Mandel, Felix Kreuk, Yossi Adi(参考訳) 音声強調は近年、エンドツーエンドのニューラルネットワークを使用して大幅に改善されている。 しかし、ほとんどのモデルは音声内容に無関係である。 近年,音素認識音声強調法の研究が盛んに行われている。 しかし、モデル最適化中に音声的特徴を注入するには追加の形式(例えば、モデル条件付け)が必要となる。 本稿では,音声強調モデルにおいて,音声情報を取り込む異なる手法を体系的に比較する。 本研究では,様々な音声コンテンツモデルと様々な特徴インジェクション手法が,因果モデルと非因果モデルの両方を考慮して,拡張性能に与える影響を観察した。 具体的には,音声情報を注入するための3つの設定,すなわち: i) 特徴条件付け 二 知覚的監督、及び iii) 規則化。 教師付き事前学習型音声認識(ASR)モデルの中間層,あるいは事前学習型自己監督型学習(SSL)モデルを用いて音声特徴を求める。 さらに、手作業と学習した構成の両方を考慮して、異なる埋め込み層がパフォーマンスに与える影響を観察する。 その結果、SSLモデルを音声機能として使用する場合、ほとんどの場合、ASRよりも優れていることが示唆された。 興味深いことに、条件設定は評価された構成の中で最高に機能する。

Speech enhancement has seen great improvement in recent years using end-to-end neural networks. However, most models are agnostic to the spoken phonetic content. Recently, several studies suggested phonetic-aware speech enhancement, mostly using perceptual supervision. Yet, injecting phonetic features during model optimization can take additional forms (e.g., model conditioning). In this paper, we conduct a systematic comparison between different methods of incorporating phonetic information in a speech enhancement model. By conducting a series of controlled experiments, we observe the influence of different phonetic content models as well as various feature-injection techniques on enhancement performance, considering both causal and non-causal models. Specifically, we evaluate three settings for injecting phonetic information, namely: i) feature conditioning; ii) perceptual supervision; and iii) regularization. Phonetic features are obtained using an intermediate layer of either a supervised pre-trained Automatic Speech Recognition (ASR) model or by using a pre-trained Self-Supervised Learning (SSL) model. We further observe the effect of choosing different embedding layers on performance, considering both manual and learned configurations. Results suggest that using a SSL model as phonetic features outperforms the ASR one in most cases. Interestingly, the conditioning setting performs best among the evaluated configurations.
翻訳日:2022-06-23 16:10:22 公開日:2022-06-22
# (参考訳) クロスモーダルコンテキストマイニングによる奥行き認識ガラス表面検出

Depth-aware Glass Surface Detection with Cross-modal Context Mining ( http://arxiv.org/abs/2206.11250v1 )

ライセンス: CC BY 4.0
Jiaying Lin and Yuen Hei Yeung and Rynson W.H. Lau(参考訳) 現代の建物ではガラスパネルが多用される傾向があるため、ガラスの表面はますます普及している。 しかし、このことは、ガラスパネルがナビゲーションの透明な障害になる可能性があるため、ロボットや自動運転車、ドローンなどの自律システムの運用に重大な課題をもたらす。 しかし,これらは全て入力されたRGB画像に基づいており,ガラス表面からの3次元奥行きセンサ光の透過は,深度マップ内の空白領域を発生することが多く,ガラス表面検出のためのRGB画像特徴を補完する新たな洞察を与えることができる。 本稿では,rgb-d情報を組み込んだ新しいガラス表面検出手法を提案する。(1)rgbと深度情報から個別および相互のコンテキスト特徴を適応的に学習するクロスモーダル・コンテキストマイニング(ccm)モジュール,(2)ガラス表面の存在を検出するために深さの欠落する空間的位置を明示的に活用する深さ許容認識注意(daa)モジュールの2つである。 さらに,RGB-D ガラス表面検出のための大規模 RGB-D ガラス表面検出データセットである \textit{RGB-D GSD} を提案する。 我々のデータセットは3,009個の実世界のRGB-Dガラス表面画像と正確なアノテーションからなる。 実験の結果,提案手法は最先端の手法よりも優れていた。

Glass surfaces are becoming increasingly ubiquitous as modern buildings tend to use a lot of glass panels. This however poses substantial challenges on the operations of autonomous systems such as robots, self-driving cars and drones, as the glass panels can become transparent obstacles to the navigation.Existing works attempt to exploit various cues, including glass boundary context or reflections, as a prior. However, they are all based on input RGB images.We observe that the transmission of 3D depth sensor light through glass surfaces often produces blank regions in the depth maps, which can offer additional insights to complement the RGB image features for glass surface detection. In this paper, we propose a novel framework for glass surface detection by incorporating RGB-D information, with two novel modules: (1) a cross-modal context mining (CCM) module to adaptively learn individual and mutual context features from RGB and depth information, and (2) a depth-missing aware attention (DAA) module to explicitly exploit spatial locations where missing depths occur to help detect the presence of glass surfaces. In addition, we propose a large-scale RGB-D glass surface detection dataset, called \textit{RGB-D GSD}, for RGB-D glass surface detection. Our dataset comprises 3,009 real-world RGB-D glass surface images with precise annotations. Extensive experimental results show that our proposed model outperforms state-of-the-art methods.
翻訳日:2022-06-23 16:07:14 公開日:2022-06-22
# bregman power k-meansによる指数関数型家族データのクラスタリング

Bregman Power k-Means for Clustering Exponential Family Data ( http://arxiv.org/abs/2206.10860v1 )

ライセンス: Link先を確認
Adithya Vellal, Saptarshi Chakraborty and Jason Xu(参考訳) センタベースクラスタリングアルゴリズムの最近の進歩は、一般化された手段のファミリーを使用して、暗黙のアニーリングによる貧弱なローカルミニマと戦う。 これらの方法はロイドの有名な$k$-meansアルゴリズムのバリエーションであり、ガウスデータから生じるような球状クラスタに最も適している。 本稿では,これらのアルゴリズムの進歩を,指数関数的家族分布への単射効果を享受し,データ生成機構の幅広さから生じるクラスタリング対象に適しているBregman発散に基づく古典的クラスタリングに橋渡しする。 bregman divergencesのエレガントな性質は、単純で透明なアルゴリズムでクローズドフォーム更新を維持することを可能にし、さらに、既存の状態における境界付きサポート仮定を緩和する有限サンプル境界を確立するための新しい理論的議論につながる。 さらに,シミュレーション実験の徹底した経験的解析と降雨データに関するケーススタディを考察し,提案手法が非ゲージデータ設定において既存のピアメソッドよりも優れていることを見出した。

Recent progress in center-based clustering algorithms combats poor local minima by implicit annealing, using a family of generalized means. These methods are variations of Lloyd's celebrated $k$-means algorithm, and are most appropriate for spherical clusters such as those arising from Gaussian data. In this paper, we bridge these algorithmic advances to classical work on hard clustering under Bregman divergences, which enjoy a bijection to exponential family distributions and are thus well-suited for clustering objects arising from a breadth of data generating mechanisms. The elegant properties of Bregman divergences allow us to maintain closed form updates in a simple and transparent algorithm, and moreover lead to new theoretical arguments for establishing finite sample bounds that relax the bounded support assumption made in the existing state of the art. Additionally, we consider thorough empirical analyses on simulated experiments and a case study on rainfall data, finding that the proposed method outperforms existing peer methods in a variety of non-Gaussian data settings.
翻訳日:2022-06-23 15:43:01 公開日:2022-06-22
# リスト決定可能な共分散推定

List-Decodable Covariance Estimation ( http://arxiv.org/abs/2206.10942v1 )

ライセンス: Link先を確認
Misha Ivkov and Pravesh K. Kothari(参考訳) 我々は、 \emph{list-decodable covariance estimation} に対する最初の多項式時間アルゴリズムを与える。 任意の$\alpha > 0$に対して、我々のアルゴリズムはサンプル$Y \subseteq \mathbb{R}^d$ of size $n\geq d^{\mathsf{poly}(1/\alpha)}$を、未知の平均$\mu_*$と共分散$\Sigma_*$でガウス分布から$1-\alpha)n$の点を逆転して得られる。 $n^{\mathsf{poly}(1/\alpha)}$ timeでは、$k = k(\alpha)= (1/\alpha)^{\mathsf{poly}(1/\alpha)$ candidateパラメータを出力し、高い確率で、$(\hat{\mu},\hat{\Sigma})$を含み、総変動距離$TV(\mathcal{N}(\mu_*,\Sigma_*),\mathcal{N}(\hat{\mu},\hat{\Sigma}))<1-O_{\alpha}(1)$である。 これは統計上最も強い距離の概念であり、次元独立な誤差を持つパラメータに対する乗法スペクトルと相対フロベニウス距離近似を意味する。 我々のアルゴリズムは、より一般的に、1-\alpha)$-corruptions of any distribution $D$ that possesss low-degree sum-of-squares certificates of two natural analysis propertiesに対して機能する。 1) 一次元辺縁の反集中 2)次数 2 多項式の超収縮率。 本研究以前は,カルマルカ,クリバン,コタリ(2019),ラガヴェンドラとヤウ(2019年,2020年),バクシとコタリ(2020年)によるリスト決定可能な線形回帰と部分空間回復の特別なケースで,リスト決定可能な設定における共分散を推定する唯一の既知の結果であった。 これらの結果は、下層の次元における任意のサブコンスタント誤差を得るために超ポリノミカル時間を必要とする。 その結果、リスト決定可能な線形回帰と部分空間復元のための最初の多項式時間 \emph{exact} アルゴリズムが示され、特に多項式時間で 2^{-\mathsf{poly}(d)}$ の誤差を得ることができる。 また,非球面混合をクラスタリングするための改良アルゴリズムも提案する。

We give the first polynomial time algorithm for \emph{list-decodable covariance estimation}. For any $\alpha > 0$, our algorithm takes input a sample $Y \subseteq \mathbb{R}^d$ of size $n\geq d^{\mathsf{poly}(1/\alpha)}$ obtained by adversarially corrupting an $(1-\alpha)n$ points in an i.i.d. sample $X$ of size $n$ from the Gaussian distribution with unknown mean $\mu_*$ and covariance $\Sigma_*$. In $n^{\mathsf{poly}(1/\alpha)}$ time, it outputs a constant-size list of $k = k(\alpha)= (1/\alpha)^{\mathsf{poly}(1/\alpha)}$ candidate parameters that, with high probability, contains a $(\hat{\mu},\hat{\Sigma})$ such that the total variation distance $TV(\mathcal{N}(\mu_*,\Sigma_*),\mathcal{N}(\hat{\mu},\hat{\Sigma}))<1-O_{\alpha}(1)$. This is the statistically strongest notion of distance and implies multiplicative spectral and relative Frobenius distance approximation for parameters with dimension independent error. Our algorithm works more generally for $(1-\alpha)$-corruptions of any distribution $D$ that possesses low-degree sum-of-squares certificates of two natural analytic properties: 1) anti-concentration of one-dimensional marginals and 2) hypercontractivity of degree 2 polynomials. Prior to our work, the only known results for estimating covariance in the list-decodable setting were for the special cases of list-decodable linear regression and subspace recovery due to Karmarkar, Klivans, and Kothari (2019), Raghavendra and Yau (2019 and 2020) and Bakshi and Kothari (2020). These results need superpolynomial time for obtaining any subconstant error in the underlying dimension. Our result implies the first polynomial-time \emph{exact} algorithm for list-decodable linear regression and subspace recovery that allows, in particular, to obtain $2^{-\mathsf{poly}(d)}$ error in polynomial-time. Our result also implies an improved algorithm for clustering non-spherical mixtures.
翻訳日:2022-06-23 15:42:39 公開日:2022-06-22
# 多変量依存に対する「多変量フィッシャーの独立試験」の考察

Discussion of `Multiscale Fisher's Independence Test for Multivariate Dependence' ( http://arxiv.org/abs/2206.11142v1 )

ライセンス: Link先を確認
Antonin Schrab and Wittawat Jitkrittum and Zolt\'an Szab\'o and Dino Sejdinovic and Arthur Gretton(参考訳) 我々は,Gorsky と Ma (2022) が提案したマルチスケールフィッシャー独立性試験である MultiFIT を,Hilbert-Schmidt 独立性基準(HSIC)に基づく既存の線形時間カーネルテストと比較した。 カーネルテストのレベルが有限のサンプルサイズであれば,MultiFITのレベルの場合と同様に,正確に制御できるという事実を強調した。 実験では,マルチフィットの性能限界のいくつかをテストパワーの観点から観察した。

We discuss how MultiFIT, the Multiscale Fisher's Independence Test for Multivariate Dependence proposed by Gorsky and Ma (2022), compares to existing linear-time kernel tests based on the Hilbert-Schmidt independence criterion (HSIC). We highlight the fact that the levels of the kernel tests at any finite sample size can be controlled exactly, as it is the case with the level of MultiFIT. In our experiments, we observe some of the performance limitations of MultiFIT in terms of test power.
翻訳日:2022-06-23 15:41:34 公開日:2022-06-22
# オブジェクト中心プロセスマイニングにおけるマルコフ追従マルチグラフを用いたオブジェクト型クラスタリング

Object Type Clustering using Markov Directly-Follow Multigraph in Object-Centric Process Mining ( http://arxiv.org/abs/2206.11017v1 )

ライセンス: Link先を確認
Amin Jalali(参考訳) オブジェクト中心のプロセスマイニング(object-centric process mining)は、いくつかのケース概念(例えば、順序、アイテム、パッケージ、ルートケースの概念に基づいて順序処理プロセスを分析できる)を考慮し、基礎となるデータに関するより現実的な仮定を持つ新しいパラダイムである。 多くのケースの概念を含めると、非常に複雑なモデルが得られる。 このような複雑さに対処するために,本稿では,多くの産業的・学術的プロセスマイニングツールでサポートされている,よく知られた直接フォローグラフの拡張版であるマルチグラフに基づく類似のケース概念をクラスタ化する新しいアプローチを紹介する。 このグラフは、しきい値に基づいて類似したケース概念のクラスターを発見するための類似度行列を計算するために使われる。 しきい値チューニングアルゴリズムは、異なるレベルの類似性に基づいて発見できる異なるクラスタの集合を特定するためにも定義される。 したがって、クラスタ発見は単なるアナリストの仮定に依存しない。 このアプローチは、processminingと呼ばれるpythonライブラリの一部として実装され、リリースされ、Purchase to Pay(P2P)オブジェクト中心のイベントログファイルを通じて評価される。 いくつかのクラスタは、クラスタに基づいてログをフラット化することによって直接フォロー・マルチグラフを発見することで評価される。 また,フットプリント適合性チェックに基づくインダクティブマイナを用いて,各ケース概念で発見されたプロセスモデルの挙動の類似性を計算することにより,クラスタ間の類似性を評価する。

Object-centric process mining is a new paradigm with more realistic assumptions about underlying data by considering several case notions, e.g., an order handling process can be analyzed based on order, item, package, and route case notions. Including many case notions can result in a very complex model. To cope with such complexity, this paper introduces a new approach to cluster similar case notions based on Markov Directly-Follow Multigraph, which is an extended version of the well-known Directly-Follow Graph supported by many industrial and academic process mining tools. This graph is used to calculate a similarity matrix for discovering clusters of similar case notions based on a threshold. A threshold tuning algorithm is also defined to identify sets of different clusters that can be discovered based on different levels of similarity. Thus, the cluster discovery will not rely on merely analysts' assumptions. The approach is implemented and released as a part of a python library, called processmining, and it is evaluated through a Purchase to Pay (P2P) object-centric event log file. Some discovered clusters are evaluated by discovering Directly Follow-Multigraph by flattening the log based on the clusters. The similarity between identified clusters is also evaluated by calculating the similarity between the behavior of the process models discovered for each case notion using inductive miner based on footprints conformance checking.
翻訳日:2022-06-23 15:41:23 公開日:2022-06-22
# 単一画像レーディングの基盤的真実に向けて

Towards Ground Truth for Single Image Deraining ( http://arxiv.org/abs/2206.10779v1 )

ライセンス: Link先を確認
Yunhao Ba, Howard Zhang, Ethan Yang, Akira Suzuki, Arnold Pfahnl, Chethan Chinder Chandrappa, Celso de Melo, Suya You, Stefano Soatto, Alex Wong, Achuta Kadambi(参考訳) 本研究では,実際の降雨量とクリーンなイメージペアの大規模データセットと,降雨量と降雨量による劣化を画像から除去する方法を提案する。 現在の最先端の手法は合成データに依存しているため、sim2realドメインギャップが制限されているため、実際のデータがないため、厳格な評価は課題となっている。 このギャップを埋めるために,非rain変異の細心の注意による制御を通じて,第1の真のペアレーディングデータセットを収集する。 本データセットは,多種多様な降雨現象(降雨量,降雨量など)のペアトレーニングと定量的評価を可能にする。 雨現象に不変な表現を学習するために,雨画像とクリーン画像の間の雨不変損失を最小化することにより,基盤となるシーンを再構成するディープニューラルネットワークを提案する。 大規模実験により,提案手法が既存のデライナーに有益であることを実証し,種々の条件下での実際の雨画像のデリーニング手法を上回ることができることを示した。

We propose a large-scale dataset of real-world rainy and clean image pairs and a method to remove degradations, induced by rain streaks and rain accumulation, from the image. As there exists no real-world dataset for deraining, current state-of-the-art methods rely on synthetic data and thus are limited by the sim2real domain gap; moreover, rigorous evaluation remains a challenge due to the absence of a real paired dataset. We fill this gap by collecting the first real paired deraining dataset through meticulous control of non-rain variations. Our dataset enables paired training and quantitative evaluation for diverse real-world rain phenomena (e.g. rain streaks and rain accumulation). To learn a representation invariant to rain phenomena, we propose a deep neural network that reconstructs the underlying scene by minimizing a rain-invariant loss between rainy and clean images. Extensive experiments demonstrate that the proposed dataset benefits existing derainers, and our model can outperform the state-of-the-art deraining methods on real rainy images under various conditions.
翻訳日:2022-06-23 15:38:40 公開日:2022-06-22
# 同期活性化による人工ニューラルネットワークの視覚意味と脳機能との結合

Coupling Visual Semantics of Artificial Neural Networks and Human Brain Function via Synchronized Activations ( http://arxiv.org/abs/2206.10821v1 )

ライセンス: Link先を確認
Lin Zhao, Haixing Dai, Zihao Wu, Zhenxiang Xiao, Lu Zhang, David Weizhong Liu, Xintao Hu, Xi Jiang, Sheng Li, Dajiang Zhu, Tianming Liu(参考訳) もともと生物学的ニューラルネットワーク(bnns)に触発された人工ニューラルネットワーク(anns)は、視覚表現学習など多くのタスクで目覚ましい成功を収めている。 しかし、2つの異なるドメインをリンクし結合する効果的なツールの欠如と、ヒト機能的脳ネットワーク(fbns)などのbnnにおける視覚意味論を表現する汎用的かつ効果的なフレームワークの欠如により、annにおける視覚表現とbnnの視覚表現との間に意味的相関/関連が存在するかどうかについては、ほとんど検討されていない。 そこで本研究では,人間の脳内におけるANNとBNNの視覚的表現空間と意味を自然な機能的磁気共鳴画像(nfMRI)データに基づいて結合する,新しい計算フレームワークSync-ACTを提案する。 このアプローチにより、人間の脳画像から生物学的に意味のある記述を初めて、ANNのニューロンに意味論的にアノテートすることができる。 公開された2つのnfMRIデータセット上でSync-ACTフレームワークを評価した。 実験は a) FBNにおける視覚表現と様々な畳み込みニューラルネットワーク(CNN)モデルにおける意味の有意な相関及び類似性 b) 画像分類作業におけるBNNとCNNの視覚的表現の類似性と性能の密接な関係 全体として、我々の研究は、ANNとBNNを結合するための汎用的で効果的なパラダイムを導入し、脳にインスパイアされた人工知能のような将来の研究に新しい洞察を提供する。

Artificial neural networks (ANNs), originally inspired by biological neural networks (BNNs), have achieved remarkable successes in many tasks such as visual representation learning. However, whether there exists semantic correlations/connections between the visual representations in ANNs and those in BNNs remains largely unexplored due to both the lack of an effective tool to link and couple two different domains, and the lack of a general and effective framework of representing the visual semantics in BNNs such as human functional brain networks (FBNs). To answer this question, we propose a novel computational framework, Synchronized Activations (Sync-ACT), to couple the visual representation spaces and semantics between ANNs and BNNs in human brain based on naturalistic functional magnetic resonance imaging (nfMRI) data. With this approach, we are able to semantically annotate the neurons in ANNs with biologically meaningful description derived from human brain imaging for the first time. We evaluated the Sync-ACT framework on two publicly available movie-watching nfMRI datasets. The experiments demonstrate a) the significant correlation and similarity of the semantics between the visual representations in FBNs and those in a variety of convolutional neural networks (CNNs) models; b) the close relationship between CNN's visual representation similarity to BNNs and its performance in image classification tasks. Overall, our study introduces a general and effective paradigm to couple the ANNs and BNNs and provides novel insights for future studies such as brain-inspired artificial intelligence.
翻訳日:2022-06-23 15:38:22 公開日:2022-06-22
# EPIC-KITCHENS-100アクション予測チャレンジ2022のNVIDIA-UNIBZサブミッション

NVIDIA-UNIBZ Submission for EPIC-KITCHENS-100 Action Anticipation Challenge 2022 ( http://arxiv.org/abs/2206.10869v1 )

ライセンス: Link先を確認
Tsung-Ming Tai, Oswald Lanz, Giuseppe Fiameni, Yi-Kwan Wong, Sze-Sen Poon, Cheng-Kuang Lee, Ka-Chun Cheung, Simon See(参考訳) 本報告では,EPIC-Kitchen-100アクション予測課題に対する提案の技術的詳細について述べる。 我々のモデリングは、高次リカレント時空トランスフォーマーとエッジ学習を伴うメッセージパッシングニューラルネットワークであり、どちらも2.5秒の推論コンテキストを観測してアクション予測予測を形成するリカレントベースのアーキテクチャである。 提案したトレーニングパイプラインでコンパイルされたモデルの予測スコアを平均化することにより、テストセット上で強力なパフォーマンスを実現しました。

In this report, we describe the technical details of our submission for the EPIC-Kitchen-100 action anticipation challenge. Our modelings, the higher-order recurrent space-time transformer and the message-passing neural network with edge learning, are both recurrent-based architectures which observe only 2.5 seconds inference context to form the action anticipation prediction. By averaging the prediction scores from a set of models compiled with our proposed training pipeline, we achieved strong performance on the test set, which is 19.61% overall mean top-5 recall, recorded as second place on the public leaderboard.
翻訳日:2022-06-23 15:37:54 公開日:2022-06-22
# 自然言語に基づく車両検索のための空間関係モデル付き対称性ネットワーク

Symmetric Network with Spatial Relationship Modeling for Natural Language-based Vehicle Retrieval ( http://arxiv.org/abs/2206.10879v1 )

ライセンス: Link先を確認
Chuyang Zhao and Haobo Chen and Wenyuan Zhang and Junru Chen and Sipeng Zhang and Yadong Li and Boxun Li(参考訳) 自然言語(NL)に基づく車両検索は,特定の車両のテキスト記述を検索することを目的としている。 画像に基づく車両検索とは異なり、NLに基づく車両検索は車両の外観だけでなく、周囲環境や時間的関係も考慮する必要がある。 本稿では,空間関係モデリング(ssm)手法を用いたnlに基づく車両検索のための対称ネットワークを提案する。 具体的には,車両の外観詳細と車両軌跡のグローバル情報を保存するために,テキスト記述と車両画像の統一的なクロスモーダル表現を学ぶための対称ネットワークを設計する。 また,位置情報をより活用するために,周辺環境と車両間の相互関係を考慮した空間関係モデリング手法を提案する。 定性的かつ定量的な実験により,提案手法の有効性が検証された。 第6回ai city challenge(ai city challenge on natural language-based vehicle retrieval track)の試験セットにおいて,43.92%のmrr精度を達成した。 コードはhttps://github.com/hbchen121/aicity2022_track2_ssmで入手できる。

Natural language (NL) based vehicle retrieval aims to search specific vehicle given text description. Different from the image-based vehicle retrieval, NL-based vehicle retrieval requires considering not only vehicle appearance, but also surrounding environment and temporal relations. In this paper, we propose a Symmetric Network with Spatial Relationship Modeling (SSM) method for NL-based vehicle retrieval. Specifically, we design a symmetric network to learn the unified cross-modal representations between text descriptions and vehicle images, where vehicle appearance details and vehicle trajectory global information are preserved. Besides, to make better use of location information, we propose a spatial relationship modeling methods to take surrounding environment and mutual relationship between vehicles into consideration. The qualitative and quantitative experiments verify the effectiveness of the proposed method. We achieve 43.92% MRR accuracy on the test set of the 6th AI City Challenge on natural language-based vehicle retrieval track, yielding the 1st place among all valid submissions on the public leaderboard. The code is available at https://github.com/hbchen121/AICITY2022_Track2_SSM.
翻訳日:2022-06-23 15:37:43 公開日:2022-06-22
# UniUD-FBK-UB-UniBZ EPIC-Kitchens-100 Multi-Instance Retrieval Challenge 2022参加報告

UniUD-FBK-UB-UniBZ Submission to the EPIC-Kitchens-100 Multi-Instance Retrieval Challenge 2022 ( http://arxiv.org/abs/2206.10903v1 )

ライセンス: Link先を確認
Alex Falcon and Giuseppe Serra and Sergio Escalera and Oswald Lanz(参考訳) 本稿では,epic-kitchens-100 multi-instance search challenge 2022の技術的詳細を紹介する。 この課題に参加するために、我々は最近開発された2種類の3重項損失の関連性強化バージョンで訓練された異なるモデルからなるアンサンブルを設計した。 我々の投稿は、公開リーダーボードに表示され、平均スコアは61.02% ndcgと49.77%である。

This report presents the technical details of our submission to the EPIC-Kitchens-100 Multi-Instance Retrieval Challenge 2022. To participate in the challenge, we designed an ensemble consisting of different models trained with two recently developed relevance-augmented versions of the widely used triplet loss. Our submission, visible on the public leaderboard, obtains an average score of 61.02% nDCG and 49.77% mAP.
翻訳日:2022-06-23 15:37:25 公開日:2022-06-22
# ニューラルネットワークの堅牢性に対する空間性の影響の理解

Understanding the effect of sparsity on neural networks robustness ( http://arxiv.org/abs/2206.10915v1 )

ライセンス: Link先を確認
Lukas Timpl, Rahim Entezari, Hanie Sedghi, Behnam Neyshabur, Olga Saukh(参考訳) 本稿では,トレーニングされたネットワークの頑健性に対する静的スパース性の影響について検討する。 ネットワークの容量を一定に保ちながら、ネットワークの幅と深さを増大させ、ネットワークの幅を一定に保ち、当初より密接なバージョンよりも良くすることを示す。 ネットワーク層間のゆるい接続のため、ロバスト性と正確性が同時に低下する。 文献で観察されたネットワーク圧縮による急激なロバスト性低下は,空隙性よりもネットワーク容量の減少によるものと考えられた。

This paper examines the impact of static sparsity on the robustness of a trained network to weight perturbations, data corruption, and adversarial examples. We show that, up to a certain sparsity achieved by increasing network width and depth while keeping the network capacity fixed, sparsified networks consistently match and often outperform their initially dense versions. Robustness and accuracy decline simultaneously for very high sparsity due to loose connectivity between network layers. Our findings show that a rapid robustness drop caused by network compression observed in the literature is due to a reduced network capacity rather than sparsity.
翻訳日:2022-06-23 15:37:17 公開日:2022-06-22
# 視覚に基づく3次元視野検出のための極性パラメトリゼーション

Polar Parametrization for Vision-based Surround-View 3D Detection ( http://arxiv.org/abs/2206.10965v1 )

ライセンス: Link先を確認
Shaoyu Chen, Xinggang Wang, Tianheng Cheng, Qian Zhang, Chang Huang, Wenyu Liu(参考訳) サラウンドビューカメラシステムに基づく3次元検出は自動操縦において重要な技術である。 本研究では, 位置パラメトリゼーション, 速度分解, 知覚範囲, ラベル割り当て, 損失関数を極座標系で再構成した3次元検出のためのポーラパラメトリゼーションを提案する。 極性パラメトリゼーションは、画像パターンと予測対象との明示的な関連を確立し、サラウンドビューカメラのビュー対称性をインダクティブバイアスとして活用し、最適化を容易化し、パフォーマンスを向上させる。 偏光パラメトリゼーションに基づいて,ポーラDETRというサラウンドビュー3次元検出TRansformerを提案する。 PolarDETRは、さまざまなバックボーン構成でパフォーマンスと速度のトレードオフを実現する。 さらに、PolarDETRは、提出時に3D検出と3Dトラッキングの両方でnuScenesベンチマークのリーダーボードにランクインしている(2022年2月4日)。 コードは \url{https://github.com/hustvl/PolarDETR} でリリースされる。

3D detection based on surround-view camera system is a critical technique in autopilot. In this work, we present Polar Parametrization for 3D detection, which reformulates position parametrization, velocity decomposition, perception range, label assignment and loss function in polar coordinate system. Polar Parametrization establishes explicit associations between image patterns and prediction targets, exploiting the view symmetry of surround-view cameras as inductive bias to ease optimization and boost performance. Based on Polar Parametrization, we propose a surround-view 3D DEtection TRansformer, named PolarDETR. PolarDETR achieves promising performance-speed trade-off on different backbone configurations. Besides, PolarDETR ranks 1st on the leaderboard of nuScenes benchmark in terms of both 3D detection and 3D tracking at the submission time (Mar. 4th, 2022). Code will be released at \url{https://github.com/hustvl/PolarDETR}.
翻訳日:2022-06-23 15:36:59 公開日:2022-06-22
# Siamese NetworkとFew-shot Learningを用いた単一モーフィング検出

Single Morphing Attack Detection using Siamese Network and Few-shot Learning ( http://arxiv.org/abs/2206.10969v1 )

ライセンス: Link先を確認
Juan Tapia, Daniel Schulz, Christoph Busch(参考訳) 顔変形攻撃の検出は困難であり、顔認証システムに対する具体的かつ深刻な脅威となる。 このような攻撃の信頼性の高い検出メカニズムは、堅牢なクロスデータベースプロトコルと未知のモーフィングツールでテストされている。 本稿では,シアームネットワークに基づく画像情報をトリプレット・セミハードロスを用いて共有し,モーフィングアタック検出に取り組み,クラスタリング分類プロセスを促進する,マイショット学習手法に基づく枠組みを提案する。 このネットワークは、ボナフィドまたは潜在的に変形した画像と、モルヒネのトリプレットとボナフィドの顔画像を比較する。 その結果,新しいネットワークはデータポイントをクラスタ化し,未知のデータベースから小さな画像番号のみを共有するクロスデータベースシナリオにおいて,エラー率を低くするためにクラスに割り当てる。 少ないショットの学習は、学習プロセスの促進に役立つ。 FRGCv2でトレーニングし、FERETとAMSLでテストしたクロスデータセットを使った実験結果、BPCER10はResNet50とMobileNetV2で43%から4.91%に減少した。

Face morphing attack detection is challenging and presents a concrete and severe threat for face verification systems. Reliable detection mechanisms for such attacks, which have been tested with a robust cross-database protocol and unknown morphing tools still is a research challenge. This paper proposes a framework following the Few-Shot-Learning approach that shares image information based on the siamese network using triplet-semi-hard-loss to tackle the morphing attack detection and boost the clustering classification process. This network compares a bona fide or potentially morphed image with triplets of morphing and bona fide face images. Our results show that this new network cluster the data points, and assigns them to classes in order to obtain a lower equal error rate in a cross-database scenario sharing only small image numbers from an unknown database. Few-shot learning helps to boost the learning process. Experimental results using a cross-datasets trained with FRGCv2 and tested with FERET and the AMSL open-access databases reduced the BPCER10 from 43% to 4.91% using ResNet50 and 5.50% for MobileNetV2.
翻訳日:2022-06-23 15:36:38 公開日:2022-06-22
# advsmo: テクスチャの線形構造平滑化によるブラックボックス逆襲

AdvSmo: Black-box Adversarial Attack by Smoothing Linear Structure of Texture ( http://arxiv.org/abs/2206.10988v1 )

ライセンス: Link先を確認
Hui Xia, Rui Zhang, Shuliang Jiang, Zi Kang(参考訳) ブラックボックス攻撃は通常、転送能力の低下と敵の防御を回避できないという2つの問題に直面する。 これらの欠点を克服するために,良性画像におけるテクスチャの線形構造を平滑化することにより,逆例を生成するための独自のアプローチであるadvsmoを開発した。 対象モデルに内部情報を頼らずに敵対的例を構築し,インセプタブル・ハイアタック成功率制約を設計すれば,gaborフィルタを適切な角度とスケールを選択して,入力画像から線形テクスチャを平滑化し,敵対的例を生成することができる。 上記の設計概念に相応しいAdvSmoは、強い伝達可能性と固い回避性を持つ敵の例を生成する。 その結果,AdvSmoはCIFAR-10では平均攻撃成功率を9%,Tiny-ImageNetデータセットでは16%改善した。

Black-box attacks usually face two problems: poor transferability and the inability to evade the adversarial defense. To overcome these shortcomings, we create an original approach to generate adversarial examples by smoothing the linear structure of the texture in the benign image, called AdvSmo. We construct the adversarial examples without relying on any internal information to the target model and design the imperceptible-high attack success rate constraint to guide the Gabor filter to select appropriate angles and scales to smooth the linear texture from the input images to generate adversarial examples. Benefiting from the above design concept, AdvSmo will generate adversarial examples with strong transferability and solid evasiveness. Finally, compared to the four advanced black-box adversarial attack methods, for the eight target models, the results show that AdvSmo improves the average attack success rate by 9% on the CIFAR-10 and 16% on the Tiny-ImageNet dataset compared to the best of these attack methods.
翻訳日:2022-06-23 15:35:49 公開日:2022-06-22
# 階層的マイニングによる弱監督型アクションローカライゼーション

Weakly-supervised Action Localization via Hierarchical Mining ( http://arxiv.org/abs/2206.11011v1 )

ライセンス: Link先を確認
Jia-Chang Feng, Fa-Ting Hong, Jia-Run Du, Zhongang Qi, Ying Shan, Xiaohu Qie, Wei-Shi Zheng, Jianping Wu(参考訳) 弱教師付きアクションローカライゼーションは、ビデオレベルの分類ラベルだけで、与えられたビデオ内のアクションインスタンスを時間的にローカライズし分類することを目的としている。 したがって、既存の弱教師付きアクションローカライズ手法の重要な問題は、正確な予測のための弱いアノテーションからの限定的な監督である。 本研究では,ビデオレベルおよびスニペットレベルのマナー,すなわち階層的監督と階層的一貫性のマイニングの下での階層的マイニング戦略を提案し,与えられたアノテーションの使用と予測的一貫性を最大化する。 この目的のために階層的マイニングネットワーク(HiM-Net)を提案する。 具体的には、複数の事例学習で捉えた地上の真理カテゴリの動画レベルの存在と、補完ラベルの観点で各負ラベルカテゴリーのスニペットレベルの存在とを、比較ラベル学習により最適化した2つの粒状分類の階層的監督について検討する。 階層的一貫性について、him-netはビデオレベルのコアクション特徴類似性とスニペットレベルのフォアグラウンド-バックグラウンド対立を探求し、識別表現学習と一貫したフォアグラウンド-バックグラウンド分離を行う。 具体的には,提案するフォアグラウンド・バックグラウンド協調学習において,高いコンセンサスを持つペアを選択するための不確実性として予測分散が考えられる。 総合的な実験結果によると、HiM-NetはTHUMOS14とActivityNet1.3データセットの既存の手法よりも、階層的に監督と一貫性をマイニングすることで、大きなマージンを持つ。 コードはGitHubで入手できる。

Weakly-supervised action localization aims to localize and classify action instances in the given videos temporally with only video-level categorical labels. Thus, the crucial issue of existing weakly-supervised action localization methods is the limited supervision from the weak annotations for precise predictions. In this work, we propose a hierarchical mining strategy under video-level and snippet-level manners, i.e., hierarchical supervision and hierarchical consistency mining, to maximize the usage of the given annotations and prediction-wise consistency. To this end, a Hierarchical Mining Network (HiM-Net) is proposed. Concretely, it mines hierarchical supervision for classification in two grains: one is the video-level existence for ground truth categories captured by multiple instance learning; the other is the snippet-level inexistence for each negative-labeled category from the perspective of complementary labels, which is optimized by our proposed complementary label learning. As for hierarchical consistency, HiM-Net explores video-level co-action feature similarity and snippet-level foreground-background opposition, for discriminative representation learning and consistent foreground-background separation. Specifically, prediction variance is viewed as uncertainty to select the pairs with high consensus for proposed foreground-background collaborative learning. Comprehensive experimental results show that HiM-Net outperforms existing methods on THUMOS14 and ActivityNet1.3 datasets with large margins by hierarchically mining the supervision and consistency. Code will be available on GitHub.
翻訳日:2022-06-23 15:35:29 公開日:2022-06-22
# モーション・ゲイト:モーション・エキサイティングによる歩行認識

Motion Gait: Gait Recognition via Motion Excitation ( http://arxiv.org/abs/2206.11080v1 )

ライセンス: Link先を確認
Yunpeng Zhang, Zhengyou Wang, Shanna Zhuang, Hui Wang(参考訳) 長距離かつ接触のない識別を実現する歩行認識は重要な生体計測技術である。 最近の歩行認識手法は、歩行中の人間の動きや外観のパターンを学習することに集中し、対応する時空間表現を構築する。 しかし, 動作パターンは個人によって異なり, 簡単な時空間的特徴は人体の動作の変化を記述することが困難であり, 特に衣服や携帯などの相違変数が混在している場合, 特徴の識別性が低下する。 本稿では,運動励起モジュール (mem) を提案する。空間的特徴を,大きな動的変化を伴う人間の部分に集中させ,フレームと間隔の差情報をmemが学習し,時間的運動変化の表現を得るため,memが不確定な長さのフレームシーケンスに適応可能であり,追加パラメータを付加しない。 さらに,個人の水平部分に応じて人体の時空間的表現を独立に学習するファイン・フィーチャー・エクストラクタ(FFE)を提案する。 提案手法はMEMとFFEを併用し, 動作変化情報を革新的に組み合わせ, 異機種間における性能を著しく向上する。 一般的なデータセットであるCASIA-Bでは,既存の歩行認識法よりもMotion Gaitの方が優れている。

Gait recognition, which can realize long-distance and contactless identification, is an important biometric technology. Recent gait recognition methods focus on learning the pattern of human movement or appearance during walking, and construct the corresponding spatio-temporal representations. However, different individuals have their own laws of movement patterns, simple spatial-temporal features are difficult to describe changes in motion of human parts, especially when confounding variables such as clothing and carrying are included, thus distinguishability of features is reduced. In this paper, we propose the Motion Excitation Module (MEM) to guide spatio-temporal features to focus on human parts with large dynamic changes, MEM learns the difference information between frames and intervals, so as to obtain the representation of temporal motion changes, it is worth mentioning that MEM can adapt to frame sequences with uncertain length, and it does not add any additional parameters. Furthermore, we present the Fine Feature Extractor (FFE), which independently learns the spatio-temporal representations of human body according to different horizontal parts of individuals. Benefiting from MEM and FFE, our method innovatively combines motion change information, significantly improving the performance of the model under cross appearance conditions. On the popular dataset CASIA-B, our proposed Motion Gait is better than the existing gait recognition methods.
翻訳日:2022-06-23 15:35:02 公開日:2022-06-22
# ICC++:画像合成キャンバスを用いた歴史コーパスの説明可能な画像検索

ICC++: Explainable Image Retrieval for Art Historical Corpora using Image Composition Canvas ( http://arxiv.org/abs/2206.11115v1 )

ライセンス: Link先を確認
Prathmesh Madhu, Tilman Marquart, Ronak Kosti, Dirk Suckow, Peter Bell, Andreas Maier, Vincent Christlein(参考訳) 画像構成は、画像構造の研究に役立ち、芸術形式や様式にまたがって描かれた下層のセマンティクスを発見するのに役立ちます。 近年のアートワークのデジタル化により、特定のシーンや物語の何千ものイメージが一緒にリンクされる可能性がある。 しかし、このデータを一貫した目的性と手動でリンクすることは、非常に困難で時間を要する作業である。 本研究では,画像合成Canvas (ICC++) と呼ばれる,類似の合成要素を持つ画像の比較と検索を行う手法を提案する。 icc++は、max imdahl氏の仕事による低レベル、高レベルな機能(コンポジション要素)の生成を専門とするiccに対する改善である。 そこで本研究では,従来のsota法と従来のsota法との厳密な定量的・質的比較を行い,提案手法がこれらすべてを上回ることを示した。 本手法は,深層機能と組み合わせることで,最良な深層学習手法を上回り,デジタル人文科学のための説明可能な機械学習研究の方向性を開く。 コードと公開後のデータを公開します。

Image compositions are helpful in the study of image structures and assist in discovering the semantics of the underlying scene portrayed across art forms and styles. With the digitization of artworks in recent years, thousands of images of a particular scene or narrative could potentially be linked together. However, manually linking this data with consistent objectiveness can be a highly challenging and time-consuming task. In this work, we present a novel approach called Image Composition Canvas (ICC++) to compare and retrieve images having similar compositional elements. ICC++ is an improvement over ICC specializing in generating low and high-level features (compositional elements) motivated by Max Imdahl's work. To this end, we present a rigorous quantitative and qualitative comparison of our approach with traditional and state-of-the-art (SOTA) methods showing that our proposed method outperforms all of them. In combination with deep features, our method outperforms the best deep learning-based method, opening the research direction for explainable machine learning for digital humanities. We will release the code and the data post-publication.
翻訳日:2022-06-23 15:34:39 公開日:2022-06-22
# 提案マイニングと予測等化を用いたオープン語彙物体検出

Open Vocabulary Object Detection with Proposal Mining and Prediction Equalization ( http://arxiv.org/abs/2206.11134v1 )

ライセンス: Link先を確認
Peixian Chen, Kekai Sheng, Mengdan Zhang, Yunhang Shen, Ke Li, Chunhua Shen(参考訳) Open-vocabulary Object Detection (OVD)は、学習語彙以外の新しいカテゴリのオブジェクトを検出するために、語彙サイズを拡大することを目的としている。 最近の研究は、事前訓練された視覚言語モデルにおける豊富な知識に頼っている。 しかし、既存の手法は提案レベルの視覚言語アライメントでは効果がない。 一方、モデルは通常、基本カテゴリに対する信頼バイアスに苦しめられ、新しいカテゴリではパフォーマンスが悪化する。 この課題を克服するために,提案マイニングと予測等化を用いた新規かつ効果的なovdフレームワークであるmedetを提案する。 まず,提案手法を設計し,遺伝的知識を粗いものから細かいものへと改良し,提案レベルの検出指向の特徴アライメントを実現する。 第二に, 因果推論理論に基づき, 新たなカテゴリーの予測を強化し, 全体のovd性能を向上させるために, クラス毎のバックドア調整を導入する。 COCOおよびLVISベンチマークの広範囲にわたる実験は、新しいカテゴリのオブジェクト(例えば、COCOでは32.6% AP50、LVISでは22.4%マスクmAP)の検出において、MEDetが競合するアプローチよりも優れていることを検証している。

Open-vocabulary object detection (OVD) aims to scale up vocabulary size to detect objects of novel categories beyond the training vocabulary. Recent work resorts to the rich knowledge in pre-trained vision-language models. However, existing methods are ineffective in proposal-level vision-language alignment. Meanwhile, the models usually suffer from confidence bias toward base categories and perform worse on novel ones. To overcome the challenges, we present MEDet, a novel and effective OVD framework with proposal mining and prediction equalization. First, we design an online proposal mining to refine the inherited vision-semantic knowledge from coarse to fine, allowing for proposal-level detection-oriented feature alignment. Second, based on causal inference theory, we introduce a class-wise backdoor adjustment to reinforce the predictions on novel categories to improve the overall OVD performance. Extensive experiments on COCO and LVIS benchmarks verify the superiority of MEDet over the competing approaches in detecting objects of novel categories, e.g., 32.6% AP50 on COCO and 22.4% mask mAP on LVIS.
翻訳日:2022-06-23 15:34:21 公開日:2022-06-22
# Codebook Lookup Transformer を用いたロバストブラインド顔復元

Towards Robust Blind Face Restoration with Codebook Lookup Transformer ( http://arxiv.org/abs/2206.11253v1 )

ライセンス: Link先を確認
Shangchen Zhou, Kelvin C.K. Chan, Chongyi Li, Chen Change Loy(参考訳) ブラインドフェイスの修復は、しばしば補助的な指導を必要とする非常に不適切な問題である 1)劣化した入力から所望の出力へのマッピングを改善するか 2)入力に失われた高品質な詳細を補完する。 本稿では,小さなプロキシ空間で学習された離散コードブックをコード予測タスクとしてブラインドフェース復元を行うことで,復元マッピングの不確かさと曖昧さを低減し,高品質な顔を生成するためのリッチな視覚原子を提供することを実証する。 このパラダイムの下では,コード予測のために,低品質の顔のグローバル構成とコンテキストをモデル化するcodeformerと呼ばれるトランスフォーマーベースの予測ネットワークを提案し,入力がひどく劣化しても対象の顔と密接に近似する自然顔の発見を可能にする。 異なる劣化に対する適応性を高めるため,我々は,忠実度と品質の柔軟なトレードオフを可能にする制御可能な特徴変換モジュールを提案する。 表現力のあるコードブックとグローバルモデリングのおかげで、CodeFormerは品質と忠実性の両方で芸術の状態を上回り、劣化に対して優れた堅牢性を示している。 合成データと実世界のデータセットの広範な実験結果から,本手法の有効性を確認した。

Blind face restoration is a highly ill-posed problem that often requires auxiliary guidance to 1) improve the mapping from degraded inputs to desired outputs, or 2) complement high-quality details lost in the inputs. In this paper, we demonstrate that a learned discrete codebook prior in a small proxy space largely reduces the uncertainty and ambiguity of restoration mapping by casting blind face restoration as a code prediction task, while providing rich visual atoms for generating high-quality faces. Under this paradigm, we propose a Transformer-based prediction network, named CodeFormer, to model global composition and context of the low-quality faces for code prediction, enabling the discovery of natural faces that closely approximate the target faces even when the inputs are severely degraded. To enhance the adaptiveness for different degradation, we also propose a controllable feature transformation module that allows a flexible trade-off between fidelity and quality. Thanks to the expressive codebook prior and global modeling, CodeFormer outperforms state of the arts in both quality and fidelity, showing superior robustness to degradation. Extensive experimental results on synthetic and real-world datasets verify the effectiveness of our method.
翻訳日:2022-06-23 15:34:00 公開日:2022-06-22
# 学術文献における認識エンティティの自動抽出と分類のための埋め込みモデルの評価

Evaluation of Embedding Models for Automatic Extraction and Classification of Acknowledged Entities in Scientific Documents ( http://arxiv.org/abs/2206.10939v1 )

ライセンス: Link先を確認
Nina Smirnova, Philipp Mayr(参考訳) 科学論文の認定は、報酬システム、コラボレーションパターン、隠れた研究動向など、科学コミュニティの側面に関する洞察を与えるかもしれない。 本研究の目的は,科学論文における認識テキストから認識された実体の自動抽出と分類のタスクにおいて,異なる埋め込みモデルの性能を評価することである。 我々は、Frair NLP-frameworkを用いて、名前付きエンティティ認識(NER)タスクを訓練、実装した。 訓練は3つのデフォルトのFrair NERモデルと2つの異なる大きさのコーパスを使用して実施された。 より大きなトレーニングコーパスでトレーニングしたflairembedsモデルでは,0.77。 我々のモデルは、資金提供機関、助成金番号、個人、大学、法人、雑務の6つのエンティティタイプを認識できる。 モデルは他のモデルよりも精度が良いため、個人や許可証番号は0.9以上非常に良いF1スコアを示した。 認識分析に関するこれまでの研究のほとんどは、手動によるデータ評価や処理データの量によって制限されていた。 このモデルは、認識テキストの包括的解析に適用することができ、自動認識分析の分野に多大な貢献をする可能性がある。

Acknowledgments in scientific papers may give an insight into aspects of the scientific community, such as reward systems, collaboration patterns, and hidden research trends. The aim of the paper is to evaluate the performance of different embedding models for the task of automatic extraction and classification of acknowledged entities from the acknowledgment text in scientific papers. We trained and implemented a named entity recognition (NER) task using the Flair NLP-framework. The training was conducted using three default Flair NER models with two differently-sized corpora. The Flair Embeddings model trained on the larger training corpus showed the best accuracy of 0.77. Our model is able to recognize six entity types: funding agency, grant number, individuals, university, corporation and miscellaneous. The model works more precise for some entity types than the others, thus, individuals and grant numbers showed very good F1-Score over 0.9. Most of the previous works on acknowledgement analysis were limited by the manual evaluation of data and therefore by the amount of processed data. This model can be applied for the comprehensive analysis of the acknowledgement texts and may potentially make a great contribution to the field of automated acknowledgement analysis.
翻訳日:2022-06-23 15:31:49 公開日:2022-06-22
# 20世紀初頭からウィキデータとフランス語辞書をつなぐ

Connecting a French Dictionary from the Beginning of the 20th Century to Wikidata ( http://arxiv.org/abs/2206.11022v1 )

ライセンス: Link先を確認
Pierre Nugues(参考訳) The \textit{Petit Larousse illustr\'e} は1905年に出版されたフランスの辞書である。 言語と歴史と地理に関する2つの主要な部分の区分は、フランス語の辞書学における大きなマイルストーンであり、またこの時代の一般的な知識の保管庫でもある。 1905年からの多くの項目の価値は残っていないが、現代よりも歴史的な次元を持つ記述もある。 それにもかかわらず、それらはこの時代の文化表現の分析と理解に重要である。 最近の情報との比較やこれらのエントリの検証には面倒な手作業が必要になる。 本稿では,歴史と地理の全ての辞書エントリを現在のデータソースに接続する,新しい語彙資源について述べる。 そのため、これらのエントリをwikidata識別子にリンクしました。 wikidataのリンクを使えば、歴史的に分類された表現の識別、比較、検証をより容易に自動化できる。 我々はwikidata識別子の処理方法についていくつかの例を示し、辞書に記述されたエンティティの小さな分析を行い、考えられるアプリケーションを概説した。 ウィキデータリンクを含む20,245の辞書エントリのアノテーションはgithubから入手できる(\url{https://github.com/pnugues/petit_larousse_1905/})。

The \textit{Petit Larousse illustr\'e} is a French dictionary first published in 1905. Its division in two main parts on language and on history and geography corresponds to a major milestone in French lexicography as well as a repository of general knowledge from this period. Although the value of many entries from 1905 remains intact, some descriptions now have a dimension that is more historical than contemporary. They are nonetheless significant to analyze and understand cultural representations from this time. A comparison with more recent information or a verification of these entries would require a tedious manual work. In this paper, we describe a new lexical resource, where we connected all the dictionary entries of the history and geography part to current data sources. For this, we linked each of these entries to a wikidata identifier. Using the wikidata links, we can automate more easily the identification, comparison, and verification of historically-situated representations. We give a few examples on how to process wikidata identifiers and we carried out a small analysis of the entities described in the dictionary to outline possible applications. The resource, i.e. the annotation of 20,245 dictionary entries with wikidata links, is available from GitHub (\url{https://github.com/pnugues/petit_larousse_1905/})
翻訳日:2022-06-23 15:31:32 公開日:2022-06-22
# ソーシャルメディアの縦断モニタリングにおけるセマンティックシフトの問題--COVID-19パンデミック時のメンタルヘルスを事例として

The Problem of Semantic Shift in Longitudinal Monitoring of Social Media: A Case Study on Mental Health During the COVID-19 Pandemic ( http://arxiv.org/abs/2206.11160v1 )

ライセンス: Link先を確認
Keith Harrigian and Mark Dredze(参考訳) ソーシャルメディアによって、研究者は言語分析ツールに基づいて、時間とともに社会や文化の変化を追跡することができる。 これらのツールの多くは、特定の種類の言語に調整する必要がある統計アルゴリズムに依存している。 近年の研究では、セマンティックシフトの存在下で適切なチューニングが存在しないことが、基礎となる手法の堅牢性を妨げることが示されている。 しかし、この感度が下流の縦断解析に与える影響についてはほとんど分かっていない。 我々は、新型コロナウイルスのパンデミックに伴ううつ病の変化を理解するためのタイムリーなケーススタディを通じて、このギャップを文献の中で検討する。 少数の意味的に不安定な特徴しか含まないことは、目的とする結果の縦断的な推定において大きな変化をもたらす可能性がある。 同時に,最近導入された意味的変化を測定する手法が,言語ベースのモデルの障害点を積極的に識別し,予測一般化を改善できることを実証する。

Social media allows researchers to track societal and cultural changes over time based on language analysis tools. Many of these tools rely on statistical algorithms which need to be tuned to specific types of language. Recent studies have shown the absence of appropriate tuning, specifically in the presence of semantic shift, can hinder robustness of the underlying methods. However, little is known about the practical effect this sensitivity may have on downstream longitudinal analyses. We explore this gap in the literature through a timely case study: understanding shifts in depression during the course of the COVID-19 pandemic. We find that inclusion of only a small number of semantically-unstable features can promote significant changes in longitudinal estimates of our target outcome. At the same time, we demonstrate that a recently-introduced method for measuring semantic shift may be used to proactively identify failure points of language-based models and, in turn, improve predictive generalization.
翻訳日:2022-06-23 15:31:11 公開日:2022-06-22
# 階層データに対するフェデレーション潜在クラス回帰

Federated Latent Class Regression for Hierarchical Data ( http://arxiv.org/abs/2206.10783v1 )

ライセンス: Link先を確認
Bin Yang, Thomas Carette, Masanobu Jimbo, Shinya Maruyama(参考訳) フェデレートラーニング(FL)は、多くのエージェントがローカルに保存されたデータを開示することなく、グローバル機械学習モデルのトレーニングに参加することを可能にする。 従来の分散学習と比較して、エージェントの不均一性(非IID)はFLの収束を遅くする。 さらに、ノイズや小さすぎる多くのデータセットは、ディープニューラルネットワークのような複雑なモデルによって簡単に過度に適合する。 本稿では,ユーザの分布が著しく異なる雑音,階層的,表型データセット上でfl回帰を利用する問題を考える。 潜在クラス回帰(LCR)に着想を得て,新しい確率モデルである階層潜在クラス回帰(HLCR)を提案し,フェデレートラーニング(FEDHLCR)への拡張を提案する。 FEDHLCRは線形回帰モデルの混合で構成されており、単純な線形回帰よりも精度が良く、同時に解析的性質を維持でき、オーバーフィッティングを避けることができる。 我々の推論アルゴリズムはベイズ理論から導かれ、強い収束保証と過剰適合に対する優れた堅牢性を提供する。 実験結果から,FEDHLCRは非IIDデータセットにおいても高速収束を実現することが示された。

Federated Learning (FL) allows a number of agents to participate in training a global machine learning model without disclosing locally stored data. Compared to traditional distributed learning, the heterogeneity (non-IID) of the agents slows down the convergence in FL. Furthermore, many datasets, being too noisy or too small, are easily overfitted by complex models, such as deep neural networks. Here, we consider the problem of using FL regression on noisy, hierarchical and tabular datasets in which user distributions are significantly different. Inspired by Latent Class Regression (LCR), we propose a novel probabilistic model, Hierarchical Latent Class Regression (HLCR), and its extension to Federated Learning, FEDHLCR. FEDHLCR consists of a mixture of linear regression models, allowing better accuracy than simple linear regression, while at the same time maintaining its analytical properties and avoiding overfitting. Our inference algorithm, being derived from Bayesian theory, provides strong convergence guarantees and good robustness to overfitting. Experimental results show that FEDHLCR offers fast convergence even in non-IID datasets.
翻訳日:2022-06-23 15:30:10 公開日:2022-06-22
# マルチリゾリューション・マルチ水平分散ソーラーPV電力予測とフォアキャストの組み合わせ

Multi-Resolution, Multi-Horizon Distributed Solar PV Power Forecasting with Forecast Combinations ( http://arxiv.org/abs/2206.10795v1 )

ライセンス: Link先を確認
Maneesha Perera, Julian De Hoog, Kasun Bandara and Saman Halgamuge(参考訳) 分散型で小規模な太陽光発電システム(PV)が急速に普及している。 これは流通ネットワークやエネルギー市場に大きな影響を与える可能性がある。 その結果、異なる時間分解能と地平線でこれらのシステムの発電予測を改善するための大きなニーズがある。 しかし、予測モデルの性能は解像度と地平線に依存する。 複数のモデルの予測を単一の予測に組み合わせる予測の組み合わせ(アンサンブル)はそのような場合、堅牢である。 そこで本稿では,最新の5つの予測モデルと既存の予測の組み合わせを,複数の解像度と地平線で比較・考察する。 本研究では,個別モデルによる予測の重み付けにより,予測者が目の前のタスクの正確な予測を行うことができるpso( particle swarm optimization)に基づく予測組合せ手法を提案する。 さらに,提案手法の性能と既存の予測手法との比較を行った。 総合的な評価は、米国の3つの場所にある25軒の住宅で測定された実世界の住宅用pv電力データセットを用いて行われる。 4つの異なる解像度と4つの異なる水平線にわたる結果から、PSOベースの予測組み合わせアプローチは、最も優れた個々のモデルと比較して平均3.81%の誤差削減率で、個々の予測モデルや他の予測組み合わせよりも優れていることが示されている。 提案手法により, 太陽予報装置は, 予測解像度や地平線に関わらず, 正確な予測を行うことができる。

Distributed, small-scale solar photovoltaic (PV) systems are being installed at a rapidly increasing rate. This can cause major impacts on distribution networks and energy markets. As a result, there is a significant need for improved forecasting of the power generation of these systems at different time resolutions and horizons. However, the performance of forecasting models depends on the resolution and horizon. Forecast combinations (ensembles), that combine the forecasts of multiple models into a single forecast may be robust in such cases. Therefore, in this paper, we provide comparisons and insights into the performance of five state-of-the-art forecast models and existing forecast combinations at multiple resolutions and horizons. We propose a forecast combination approach based on particle swarm optimization (PSO) that will enable a forecaster to produce accurate forecasts for the task at hand by weighting the forecasts produced by individual models. Furthermore, we compare the performance of the proposed combination approach with existing forecast combination approaches. A comprehensive evaluation is conducted using a real-world residential PV power data set measured at 25 houses located in three locations in the United States. The results across four different resolutions and four different horizons show that the PSO-based forecast combination approach outperforms the use of any individual forecast model and other forecast combination counterparts, with an average Mean Absolute Scaled Error reduction by 3.81% compared to the best performing individual model. Our approach enables a solar forecaster to produce accurate forecasts for their application regardless of the forecast resolution or horizon.
翻訳日:2022-06-23 15:29:53 公開日:2022-06-22
# 敵対的模倣学習の自動エンコーディング

Auto-Encoding Adversarial Imitation Learning ( http://arxiv.org/abs/2206.11004v1 )

ライセンス: Link先を確認
Kaifeng Zhang, Rui Zhao, Ziming Zhang, Yang Gao(参考訳) 強化学習(rl)は意思決定のための強力なフレームワークを提供するが、実際には注意深く設計された報酬機能を必要とすることが多い。 AIL(Adversarial Imitation Learning)は、環境からの報酬信号にアクセスせずに自動ポリシー取得に光を当てる。 本稿では,堅牢でスケーラブルな AIL フレームワークである Auto-Encoding Adversarial Imitation Learning (AEAIL) を提案する。 AEAILは、実証から専門家ポリシーを誘導するため、オートエンコーダの再構成エラーを報奨信号として利用し、従来の差別者ベースのものよりも、ポリシーを最適化するための情報を提供する。 その後、導出した目的関数を用いてオートエンコーダとエージェントポリシーを訓練する。 実験の結果,AEAIL は MuJoCo 環境の最先端手法に比べて優れていた。 さらに重要なのは、AEAILは、専門家によるデモが騒々しいときに、はるかに優れた堅牢性を示します。 具体的には, FAIRL と PWIL のそれぞれがクリーンかつノイズの多い専門家データに対して, 総合的に16.4\%と47.2\%の相対的改善を達成している。 ビデオ結果、オープンソースコード、データセットはhttps://sites.google.com/view/auto-encoding-imitationで確認できる。

Reinforcement learning (RL) provides a powerful framework for decision-making, but its application in practice often requires a carefully designed reward function. Adversarial Imitation Learning (AIL) sheds light on automatic policy acquisition without access to the reward signal from the environment. In this work, we propose Auto-Encoding Adversarial Imitation Learning (AEAIL), a robust and scalable AIL framework. To induce expert policies from demonstrations, AEAIL utilizes the reconstruction error of an auto-encoder as a reward signal, which provides more information for optimizing policies than the prior discriminator-based ones. Subsequently, we use the derived objective functions to train the auto-encoder and the agent policy. Experiments show that our AEAIL performs superior compared to state-of-the-art methods in the MuJoCo environments. More importantly, AEAIL shows much better robustness when the expert demonstrations are noisy. Specifically, our method achieves $16.4\%$ and $47.2\%$ relative improvement overall compared to the best baseline FAIRL and PWIL on clean and noisy expert data, respectively. Video results, open-source code and dataset are available in https://sites.google.com/view/auto-encoding-imitation.
翻訳日:2022-06-23 15:29:12 公開日:2022-06-22
# 説明に基づく反事実再訓練(xcr) : ブラックボックスモデルのキャリブレーション法

Explanation-based Counterfactual Retraining(XCR): A Calibration Method for Black-box Models ( http://arxiv.org/abs/2206.11126v1 )

ライセンス: Link先を確認
Liu Zhendong, Wenyu Jiang, Yi Zhang, Chongjun Wang(参考訳) eXplainable Artificial Intelligence (XAI) の急速な発展に伴い、過去の研究は摂動に基づくポストホックXAIモデルにおけるアウト・オブ・ディストリビューション(OOD)問題への懸念を示し、説明は社会的に誤解されている。 近似子を用いてブラックボックスモデルの挙動を模倣するポストホックな説明法の限界を検討する。 次に,eXplanation-based Counterfactual Retraining (XCR)を提案する。 xcrはxaiモデルによって生成された説明を偽の入力として適用し、ブラックボックスモデルを再訓練し、オードや社会的不均衡問題に対処する。 一般的な画像データセットの評価では、ブラックボックスモデル構造を変更することなく、最も重要な機能の12.5%しか保持していない場合、XCRはモデル性能を改善することができる。 さらに, 評価結果から, XCRはモデルロバスト性の向上に有効であり, OOD問題の校正に肯定的な影響を及ぼすことが示された。 OODキャリブレーション法のような検証セットでは校正されていないが、破損したデータメートル法は既存の手法よりも優れている。 また,評価セットの校正が適用されれば,OOD校正基準の現在のOOD校正手法を破る。

With the rapid development of eXplainable Artificial Intelligence (XAI), a long line of past work has shown concerns about the Out-of-Distribution (OOD) problem in perturbation-based post-hoc XAI models and explanations are socially misaligned. We explore the limitations of post-hoc explanation methods that use approximators to mimic the behavior of black-box models. Then we propose eXplanation-based Counterfactual Retraining (XCR), which extracts feature importance fastly. XCR applies the explanations generated by the XAI model as counterfactual input to retrain the black-box model to address OOD and social misalignment problems. Evaluation of popular image datasets shows that XCR can improve model performance when only retaining 12.5% of the most crucial features without changing the black-box model structure. Furthermore, the evaluation of the benchmark of corruption datasets shows that the XCR is very helpful for improving model robustness and positively impacts the calibration of OOD problems. Even though not calibrated in the validation set like some OOD calibration methods, the corrupted data metric outperforms existing methods. Our method also beats current OOD calibration methods on the OOD calibration metric if calibration on the validation set is applied.
翻訳日:2022-06-23 15:28:53 公開日:2022-06-22
# 対称性の再考によるグラフGNNの理解と拡張

Understanding and Extending Subgraph GNNs by Rethinking Their Symmetries ( http://arxiv.org/abs/2206.11140v1 )

ライセンス: Link先を確認
Fabrizio Frasca, Beatrice Bevilacqua, Michael M. Bronstein, Haggai Maron(参考訳) グラフGNNはグラフをサブグラフのコレクションとしてモデル化するグラフニューラルネットワーク(GNN)の最近のクラスである。 これまでのところ、サブグラフGNNアーキテクチャやその基本的な理論的性質の設計領域は、まだ明らかにされていない。 本稿では,egoネットワークやノードマーキングや削除といった,ノードベースのサブグラフ選択ポリシを用いたサブグラフ手法の最も顕著な形態について検討する。 1)これらの手法の表現力の上限は何か? そして、(2)これらのサブグラフの集合上の同変メッセージパッシングレイヤのファミリーは何ですか? . これらの質問に答える最初のステップは、ノードベースの部分グラフコレクションの対称性をモデル化するには、以前の研究で採用されたものよりもはるかに小さな対称性群が必要であることを示す新しい対称性解析である。 この分析は、サブグラフGNNと不変グラフネットワーク(IGN)のリンクを確立するために使われる。 本稿では,まず3WLでサブグラフ手法の表現力を表現し,次に,従来のノードベースサブグラフGNNを一般化したサブグラフ方式の一般的なメッセージパス層を提案する。 最後に、SUNと呼ばれる新しいサブグラフGNNを設計し、理論的には以前のアーキテクチャを統一し、複数のベンチマーク上でより優れた経験的性能を提供する。

Subgraph GNNs are a recent class of expressive Graph Neural Networks (GNNs) which model graphs as collections of subgraphs. So far, the design space of possible Subgraph GNN architectures as well as their basic theoretical properties are still largely unexplored. In this paper, we study the most prominent form of subgraph methods, which employs node-based subgraph selection policies such as ego-networks or node marking and deletion. We address two central questions: (1) What is the upper-bound of the expressive power of these methods? and (2) What is the family of equivariant message passing layers on these sets of subgraphs?. Our first step in answering these questions is a novel symmetry analysis which shows that modelling the symmetries of node-based subgraph collections requires a significantly smaller symmetry group than the one adopted in previous works. This analysis is then used to establish a link between Subgraph GNNs and Invariant Graph Networks (IGNs). We answer the questions above by first bounding the expressive power of subgraph methods by 3-WL, and then proposing a general family of message-passing layers for subgraph methods that generalises all previous node-based Subgraph GNNs. Finally, we design a novel Subgraph GNN dubbed SUN, which theoretically unifies previous architectures while providing better empirical performance on multiple benchmarks.
翻訳日:2022-06-23 15:28:30 公開日:2022-06-22
# FedorAS: システムの異質性の下でのフェデレーションアーキテクチャ検索

FedorAS: Federated Architecture Search under system heterogeneity ( http://arxiv.org/abs/2206.11239v1 )

ライセンス: Link先を確認
Lukasz Dudziak, Stefanos Laskaridis, Javier Fernandez-Marques(参考訳) federated learning(fl)は最近、プライバシを維持しながら分散データを使用する能力により、かなりの注目を集めている。 しかし、これはまた、その計算能力とコントリビューションデータの両方の観点から、参加するデバイスの不均一性に関する追加の課題を引き起こす。 一方、Neural Architecture Search(NAS)は中央集権的なデータセットでうまく利用されており、制約付き(ハードウェア対応)と制約なしの設定で最先端の結果を生成する。 しかしながら、NASとFLの交差点に位置する最新の研究でさえ、データセンターグレードのハードウェアで同質な計算環境を前提としており、制約のある異種デバイスを扱う際の問題には対処していない。 その結果、フェデレーション環境でのnasの実用的利用は、我々の仕事において解決されるオープンな問題です。 本システムであるFedorASを設計し,非IID分散データを持つ様々な機能を持つデバイスに対処する際の有望なアーキテクチャの発見と訓練を行い,その有効性を示す実証的証拠を示す。 具体的には、3つの異なるモード(ビジョン、スピーチ、テキスト)にまたがるデータセット間でFedorASを評価し、リソース効率を維持しながら、最先端のフェデレーションソリューションよりも優れたパフォーマンスを示す。

Federated learning (FL) has recently gained considerable attention due to its ability to use decentralised data while preserving privacy. However, it also poses additional challenges related to the heterogeneity of the participating devices, both in terms of their computational capabilities and contributed data. Meanwhile, Neural Architecture Search (NAS) has been successfully used with centralised datasets, producing state-of-the-art results in constrained (hardware-aware) and unconstrained settings. However, even the most recent work laying at the intersection of NAS and FL assumes homogeneous compute environment with datacenter-grade hardware and does not address the issues of working with constrained, heterogeneous devices. As a result, practical usage of NAS in a federated setting remains an open problem that we address in our work. We design our system, FedorAS, to discover and train promising architectures when dealing with devices of varying capabilities holding non-IID distributed data, and present empirical evidence of its effectiveness across different settings. Specifically, we evaluate FedorAS across datasets spanning three different modalities (vision, speech, text) and show its better performance compared to state-of-the-art federated solutions, while maintaining resource efficiency.
翻訳日:2022-06-23 15:28:10 公開日:2022-06-22
# アルゴリズム研究とコンテキストの結合:説明可能なAIのための文脈評価の視点

Connecting Algorithmic Research and Usage Contexts: A Perspective of Contextualized Evaluation for Explainable AI ( http://arxiv.org/abs/2206.10847v1 )

ライセンス: Link先を確認
Q. Vera Liao, Yunfeng Zhang, Ronny Luss, Finale Doshi-Velez, Amit Dhurandhar(参考訳) 近年、説明可能なai(xai)の分野への関心が高まり、多くのアルゴリズムが文献に提案されている。 しかし、XAIの評価方法に関する合意の欠如は、この分野の進歩を妨げている。 XAIはモノリシックな技術ではなく、研究者や実践者がXAIアルゴリズムを活用して、モデルデバッグや意思決定支援など、さまざまな使用状況に対応するXAIシステムを構築し始めている。 しかし、xaiのアルゴリズムによる研究は、これらの多様な下流の使用状況を考慮しておらず、実際のユーザにとっての有効性や意図しない結果や、実践者が技術的な選択をすることは困難である。 このギャップを埋める一つの方法は、これらの利用状況において異なるユーザ要件を考慮した評価方法を開発することである。 本研究の目的は,XAIの原型的使用文脈に対するXAI評価基準の相対的重要性を考慮し,文脈化されたXAI評価の視点を導入することである。 我々は,XAI評価基準の文脈依存性を検討するために,XAIトピックの専門家と,クラウドワーカーの2つの調査を行った。 本研究の結果は,XAIのユーザ要件を,使用状況によって不明瞭に理解する上で,AI研究に責任を負うことを促すものである。

Recent years have seen a surge of interest in the field of explainable AI (XAI), with a plethora of algorithms proposed in the literature. However, a lack of consensus on how to evaluate XAI hinders the advancement of the field. We highlight that XAI is not a monolithic set of technologies -- researchers and practitioners have begun to leverage XAI algorithms to build XAI systems that serve different usage contexts, such as model debugging and decision-support. Algorithmic research of XAI, however, often does not account for these diverse downstream usage contexts, resulting in limited effectiveness or even unintended consequences for actual users, as well as difficulties for practitioners to make technical choices. We argue that one way to close the gap is to develop evaluation methods that account for different user requirements in these usage contexts. Towards this goal, we introduce a perspective of contextualized XAI evaluation by considering the relative importance of XAI evaluation criteria for prototypical usage contexts of XAI. To explore the context-dependency of XAI evaluation criteria, we conduct two survey studies, one with XAI topical experts and another with crowd workers. Our results urge for responsible AI research with usage-informed evaluation practices, and provide a nuanced understanding of user requirements for XAI in different usage contexts.
翻訳日:2022-06-23 15:27:46 公開日:2022-06-22
# 非カノニカルアフォーアンス効果を考慮した予測された将来の計画におけるアフォーアンス認識

Recognising Affordances in Predicted Futures to Plan with Consideration of Non-canonical Affordance Effects ( http://arxiv.org/abs/2206.10920v1 )

ライセンス: Link先を確認
Solvi Arnold, Mami Kuroishi, Tadashi Adachi and Kimitoshi Yamazaki(参考訳) 本稿では,アフォーマンス認識と,アフォーマンス実行の効果を予測するニューラルフォワードモデルを組み合わせたアクションシーケンス計画システムを提案する。 予測された将来に対する割当認識を行うことにより、多段階計画における明示的な割当効果の定義への依存を避ける。 このシステムは、経験データから手頃な効果を学習するため、手頃な効果だけでなく、状況に応じた副作用も予測できる。 これにより、このような非カノニカル効果による計画障害を回避することができ、与えられた目標を達成するために非カノニカル効果を活用できる。 シミュレーションにおいて, 標準的及び非標準的補償効果を考慮した一連のテスト課題について評価する。

We propose a novel system for action sequence planning based on a combination of affordance recognition and a neural forward model predicting the effects of affordance execution. By performing affordance recognition on predicted futures, we avoid reliance on explicit affordance effect definitions for multi-step planning. Because the system learns affordance effects from experience data, the system can foresee not just the canonical effects of an affordance, but also situation-specific side-effects. This allows the system to avoid planning failures due to such non-canonical effects, and makes it possible to exploit non-canonical effects for realising a given goal. We evaluate the system in simulation, on a set of test tasks that require consideration of canonical and non-canonical affordance effects.
翻訳日:2022-06-23 15:27:23 公開日:2022-06-22
# ヒューマン・ヒューマンコミュニケーションのためのヒューマン・AIコミュニケーション : 教師なし異常検出のエグゼクティブコーチングへの応用

Human-AI communication for human-human communication: Applying interpretable unsupervised anomaly detection to executive coaching ( http://arxiv.org/abs/2206.10987v1 )

ライセンス: Link先を確認
Riku Arakawa, Hiromu Yakura(参考訳) 本稿では,高度に文脈的な状況,すなわち人間と人間のコミュニケーションを扱うAIベースの対話システムを構築する際に,教師なしの異常検出を適用する可能性について論じる。 我々は,経営指導のための計算支援ツールを開発する経験から,教師なしの異常検出を利用するこのアプローチに到達し,専門家のコーチが結果と文脈の両方を考慮に入れられるように,解釈可能な結果を提供することの重要性を教えてくれた。 このアプローチの鍵となる考え方は、従来の教師付きアルゴリズムで抽出可能な問題に対する社会的相互作用の性質を単純化するのではなく、専門家のコーチがオープンな解釈を解き放つ余地を残すことである。 さらに,本手法は初級コーチの育成にも適用でき,システムから結果の解釈を促すことで,コーチに教育的機会を与えることができることがわかった。 このアプローチの適用性は他の領域で検証されるべきですが、教師なしの異常検出を利用してAIベースの対話システムを構築するというアイデアは、人間とAIのコミュニケーションの別の方向に光を当てるでしょう。

In this paper, we discuss the potential of applying unsupervised anomaly detection in constructing AI-based interactive systems that deal with highly contextual situations, i.e., human-human communication, in collaboration with domain experts. We reached this approach of utilizing unsupervised anomaly detection through our experience of developing a computational support tool for executive coaching, which taught us the importance of providing interpretable results so that expert coaches can take both the results and contexts into account. The key idea behind this approach is to leave room for expert coaches to unleash their open-ended interpretations, rather than simplifying the nature of social interactions to well-defined problems that are tractable by conventional supervised algorithms. In addition, we found that this approach can be extended to nurturing novice coaches; by prompting them to interpret the results from the system, it can provide the coaches with educational opportunities. Although the applicability of this approach should be validated in other domains, we believe that the idea of leveraging unsupervised anomaly detection to construct AI-based interactive systems would shed light on another direction of human-AI communication.
翻訳日:2022-06-23 15:27:10 公開日:2022-06-22
# (参考訳) 確率的深層ニューラルネットワークにおける濃度不等式と最適層数

Concentration inequalities and optimal number of layers for stochastic deep neural networks ( http://arxiv.org/abs/2206.11241v1 )

ライセンス: CC BY 4.0
Michele Caprio and Sayan Mukherjee(参考訳) 我々は,確率的ディープニューラルネットワーク(SDNN)の隠れ層の出力とSDNN全体の出力に対して,濃度とマーチンゲール不等式を述べる。 これらの結果から、予測分類器(EC)を導入し、ECの分類誤差に対する確率的上限を与えることができる。 また, SDNN の最適レイヤ数を最適停止手順により記述する。 reluアクティベーション関数を持つfeedforwardニューラルネットワークの確率的バージョンに対して,本解析を適用した。

We state concentration and martingale inequalities for the output of the hidden layers of a stochastic deep neural network (SDNN), as well as for the output of the whole SDNN. These results allow us to introduce an expected classifier (EC), and to give probabilistic upper bound for the classification error of the EC. We also state the optimal number of layers for the SDNN via an optimal stopping procedure. We apply our analysis to a stochastic version of a feedforward neural network with ReLU activation function.
翻訳日:2022-06-23 15:25:29 公開日:2022-06-22
# 連続空間におけるオフライン強化学習を用いた敗血症の最適治療戦略の学習

Learning Optimal Treatment Strategies for Sepsis Using Offline Reinforcement Learning in Continuous Space ( http://arxiv.org/abs/2206.11190v1 )

ライセンス: Link先を確認
Zeyu Wang, Huiying Zhao, Peng Ren, Yuxi Zhou, Ming Sheng(参考訳) 敗血症はicuの主要な死因である。 短期間に複雑な介入を必要とする疾患であるが、その最適な治療戦略は定かではない。 証拠は、現在使われている治療戦略の実践が問題であり、患者に害を与える可能性があることを示唆している。 この問題を解決するために,臨床医がリアルタイム治療に最適な基準選択を推奨するのを支援するために,歴史的データに基づく新たな医療決定モデルを提案する。 我々のモデルは、オフライン強化学習と深層強化学習を組み合わせて、医療における従来の強化学習が環境と相互作用できない問題に対処し、継続的な状態行動空間における決定を可能にする。 このモデルが推奨する治療は, 臨床医が推奨する治療よりも, 平均的に有用で信頼性が高いことが示されている。 大規模な検証データセットでは、臨床医の実際の服用量とAIの決定が一致した患者が死亡率が最も低いことがわかった。 本モデルでは, 患者ケアを改善するために, パーソナライズし, 臨床的に解釈可能な治療決定を行う。

Sepsis is a leading cause of death in the ICU. It is a disease requiring complex interventions in a short period of time, but its optimal treatment strategy remains uncertain. Evidence suggests that the practices of currently used treatment strategies are problematic and may cause harm to patients. To address this decision problem, we propose a new medical decision model based on historical data to help clinicians recommend the best reference option for real-time treatment. Our model combines offline reinforcement learning with deep reinforcement learning to address the problem that traditional reinforcement learning in healthcare cannot interact with the environment, enabling our model to make decisions in a continuous state-action space. We demonstrate that, on average, the treatments recommended by the model are more valuable and reliable than those recommended by clinicians. In a large validation dataset, we found that patients whose actual doses from clinicians matched the AI's decisions had the lowest mortality rates. Our model provides personalized, clinically interpretable treatment decisions for sepsis that can improve patient care.
翻訳日:2022-06-23 14:58:22 公開日:2022-06-22
# サンプル外モデル評価のための診断ツール

Diagnostic Tool for Out-of-Sample Model Evaluation ( http://arxiv.org/abs/2206.10982v1 )

ライセンス: Link先を確認
Ludvig Hult, Dave Zachariah and Petre Stoica(参考訳) モデル適合性の評価は多くの問題において重要なステップである。 モデルは通常、正方形のエラーや負のログのような損失関数を最小化することでトレーニングデータに適合する。 このレターでは、モデルのサンプル外損失を特徴付けるテストデータセットの使用について検討する。 弱仮定下で有限サンプル保証を提供する簡易なモデル診断ツールを提案する。 このツールは計算効率が良く、経験的量子化として解釈できる。 提案手法が分布シフトの影響を定量化し,回帰分析を補助し,ハイパーパラメータチューニングと同様にモデル選択を可能にすることを示す数値実験を行った。

Assessment of model fitness is an important step in many problems. Models are typically fitted to training data by minimizing a loss function, such as the squared-error or negative log-likelihood, and it is natural to desire low losses on future data. This letter considers the use of a test data set to characterize the out-of-sample losses of a model. We propose a simple model diagnostic tool that provides finite-sample guarantees under weak assumptions. The tool is computationally efficient and can be interpreted as an empirical quantile. Several numerical experiments are presented to show how the proposed method quantifies the impact of distribution shifts, aids the analysis of regression, and enables model selection as well as hyper-parameter tuning.
翻訳日:2022-06-23 14:57:13 公開日:2022-06-22
# 勾配流としてのグラフニューラルネットワーク

Graph Neural Networks as Gradient Flows ( http://arxiv.org/abs/2206.10991v1 )

ライセンス: Link先を確認
Francesco Di Giovanni, James Rowbottom, Benjamin P. Chamberlain, Thomas Markovich, Michael M. Bronstein(参考訳) エネルギーを最小化する力学系は幾何学や物理学においてユビキタスである。 本稿では,学習可能なエネルギーの最も急降下方向を方程式が追従するGNNの勾配流フレームワークを提案する。 このアプローチは、多粒子の観点からGNNの進化を、対称な「チャネル混合」行列の正および負の固有値を通して特徴空間における魅力的で反発的な力を学ぶものとして説明することができる。 本研究では, この解のスペクトル解析を行い, ヘテロ親和性データセットに望ましいグラフ高頻度に支配されるダイナミックスを導出できることを結論する。 また,グラデーションフローとして解釈可能な共通gnnアーキテクチャの構造制約についても述べる。 我々は,我々の理論解析を補完する徹底的なアブレーション研究を行い,実世界のホモ親和性データセットとヘテロ親和性データセット上で,単純で軽量なモデルの競合性能を示す。

Dynamical systems minimizing an energy are ubiquitous in geometry and physics. We propose a gradient flow framework for GNNs where the equations follow the direction of steepest descent of a learnable energy. This approach allows to explain the GNN evolution from a multi-particle perspective as learning attractive and repulsive forces in feature space via the positive and negative eigenvalues of a symmetric "channel-mixing" matrix. We perform spectral analysis of the solutions and conclude that gradient flow graph convolutional models can induce a dynamics dominated by the graph high frequencies which is desirable for heterophilic datasets. We also describe structural constraints on common GNN architectures allowing to interpret them as gradient flows. We perform thorough ablation studies corroborating our theoretical analysis and show competitive performance of simple and lightweight models on real-world homophilic and heterophilic datasets.
翻訳日:2022-06-23 14:57:03 公開日:2022-06-22
# 次元縮小データ上のノイズ$\ell^{0}$-スパース部分空間クラスタリング

Noisy $\ell^{0}$-Sparse Subspace Clustering on Dimensionality Reduced Data ( http://arxiv.org/abs/2206.11079v1 )

ライセンス: Link先を確認
Yingzhen Yang, Ping Li(参考訳) $\ell^{0}$-norm(例えば $\ell^{0}$-Sparse Subspace Clustering ($\ell^{0}$-SSC)~\citep{YangFJYH16-L0SSC-ijcv})のように、sparse Subspace Clustering (SSC)~\citep{ElhamifarV13}(英語版)のような、sparse subspace Clustering (SSC)$-normによって誘導されるスパース部分空間クラスタリング法は、より効果的であることが示されている。 しかし、$\ell^{0}$-SSC の理論解析は、部分空間に完全に属するクリーンなデータに制限される。 実データはしばしばノイズに悩まされ、部分空間に近接している。 本稿では,決定論的および半ランダムモデルの下で,異なる部分空間からデータを分離する鍵要素である部分空間検出特性(SDP)を,雑音の$\ell^{0}$-SSCの最適化問題に対する最適解として達成することを示す。 本研究は, 雑音データに対するsdpによるノイズの正しさを理論的に保証するものであり, 部分空間の親和性に対する制約条件がはるかに小さいことから, 雑音データに対して, 初めてsscの正しさを理論的に保証するものである。 本研究では, ノイズの多い$\ell^{0}$-SSCの効率を改善するために, 次元減少データ上の部分空間を確実に復元するNoisy-DR-$\ell^{0}$-SSCを提案する。 ノイズ-DR-$\ell^{0}$-SSC は、まずランダム射影により下次元空間にデータを投影し、次に、予測されたデータに対してノイズ$\ell^{0}$-SSC を実行して効率を向上させる。 実験により, ノイズDR-$\ell^{0}$-SSCの有効性が示された。

Sparse subspace clustering methods with sparsity induced by $\ell^{0}$-norm, such as $\ell^{0}$-Sparse Subspace Clustering ($\ell^{0}$-SSC)~\citep{YangFJYH16-L0SSC-ijcv}, are demonstrated to be more effective than its $\ell^{1}$ counterpart such as Sparse Subspace Clustering (SSC)~\citep{ElhamifarV13}. However, the theoretical analysis of $\ell^{0}$-SSC is restricted to clean data that lie exactly in subspaces. Real data often suffer from noise and they may lie close to subspaces. In this paper, we show that an optimal solution to the optimization problem of noisy $\ell^{0}$-SSC achieves subspace detection property (SDP), a key element with which data from different subspaces are separated, under deterministic and semi-random model. Our results provide theoretical guarantee on the correctness of noisy $\ell^{0}$-SSC in terms of SDP on noisy data for the first time, which reveals the advantage of noisy $\ell^{0}$-SSC in terms of much less restrictive condition on subspace affinity. In order to improve the efficiency of noisy $\ell^{0}$-SSC, we propose Noisy-DR-$\ell^{0}$-SSC which provably recovers the subspaces on dimensionality reduced data. Noisy-DR-$\ell^{0}$-SSC first projects the data onto a lower dimensional space by random projection, then performs noisy $\ell^{0}$-SSC on the projected data for improved efficiency. Experimental results demonstrate the effectiveness of Noisy-DR-$\ell^{0}$-SSC.
翻訳日:2022-06-23 14:56:51 公開日:2022-06-22
# 欠落値を用いた予測のためのパターンサブモデル共有

Sharing pattern submodels for prediction with missing values ( http://arxiv.org/abs/2206.11161v1 )

ライセンス: Link先を確認
Lena Stempfle and Fredrik Johansson(参考訳) 機械学習の多くのアプリケーションでは、欠落する値は避けられず、トレーニング中もテスト時にも課題を提示します。 繰り返しパターンに変数が欠けている場合、別のパターンサブモデルがソリューションとして提案されている。 しかし、独立したモデルは利用可能なデータをすべて効率的に利用するわけではない。 逆に、共有モデルを完全なデータセットに適合させるには、通常、欠如が観測されていない要因に依存する場合に最適でないインプテーションに依存する。 我々は、パターンのサブモデルを共有するという別のアプローチを提案している。 a) テスト時に欠落した値に対して堅牢である b) パターンサブモデルの予測力を維持又は改善する c) 解釈性を改善するための短い説明がある。 不足そのものが予測可能であり、予測対象が観測されていない変数に依存する場合であっても、共有が確実に最適である場合を特定する。 合成データと2つの医療データを用いた分類と回帰実験により,モデルがパターンの特殊化と情報共有のトレードオフを良好に達成できることを実証した。

Missing values are unavoidable in many applications of machine learning and present a challenge both during training and at test time. When variables are missing in recurring patterns, fitting separate pattern submodels have been proposed as a solution. However, independent models do not make efficient use of all available data. Conversely, fitting a shared model to the full data set typically relies on imputation which may be suboptimal when missingness depends on unobserved factors. We propose an alternative approach, called sharing pattern submodels, which make predictions that are a) robust to missing values at test time, b) maintains or improves the predictive power of pattern submodels, and c) has a short description enabling improved interpretability. We identify cases where sharing is provably optimal, even when missingness itself is predictive and when the prediction target depends on unobserved variables. Classification and regression experiments on synthetic data and two healthcare data sets demonstrate that our models achieve a favorable trade-off between pattern specialization and information sharing.
翻訳日:2022-06-23 14:56:04 公開日:2022-06-22
# 安全制約によるアクティブラーニング

Active Learning with Safety Constraints ( http://arxiv.org/abs/2206.11183v1 )

ライセンス: Link先を確認
Romain Camilleri, Andrew Wagenmaker, Jamie Morgenstern, Lalit Jain, Kevin Jamieson(参考訳) アクティブな学習手法は、学習に必要なサンプルの数を減らすことに非常に有望である。 自動学習システムがリアルタイムな意思決定パイプラインに採用されるにつれて、そのようなアルゴリズムが安全を念頭に設計されることがますます重要になっている。 本研究では,対話環境における最良安全決定の学習の複雑さについて検討する。 我々はこの問題を、一定の(未知の)安全制約を満たす最適なアームを見つけることを目的として、制約付き線形包帯問題に還元する。 適応的設計に基づくアルゴリズムを提案し、腕が安全でないことを示すことの難しさと、準最適であることのトレードオフを効果的に示す。 我々の知る限り、我々の結果は安全制約のある線形包帯における最良腕識別における最初のものである。 実際、このアプローチが合成および実世界のデータセットでうまく機能することを実証する。

Active learning methods have shown great promise in reducing the number of samples necessary for learning. As automated learning systems are adopted into real-time, real-world decision-making pipelines, it is increasingly important that such algorithms are designed with safety in mind. In this work we investigate the complexity of learning the best safe decision in interactive environments. We reduce this problem to a constrained linear bandits problem, where our goal is to find the best arm satisfying certain (unknown) safety constraints. We propose an adaptive experimental design-based algorithm, which we show efficiently trades off between the difficulty of showing an arm is unsafe vs suboptimal. To our knowledge, our results are the first on best-arm identification in linear bandits with safety constraints. In practice, we demonstrate that this approach performs well on synthetic and real world datasets.
翻訳日:2022-06-23 14:55:49 公開日:2022-06-22
# コンテキストバンドのためのLangevin Monte Carlo

Langevin Monte Carlo for Contextual Bandits ( http://arxiv.org/abs/2206.11254v1 )

ライセンス: Link先を確認
Pan Xu, Hongkai Zheng, Eric Mazumdar, Kamyar Azizzadenesheli, Anima Anandkumar(参考訳) 文脈的包帯に対するトンプソンサンプリングの効率性について検討する。 既存のトンプソンサンプリングに基づくアルゴリズムは、後方分布のラプラス近似(すなわちガウス分布)を構築する必要があり、これは一般共分散行列に対する高次元応用では標本化に非効率である。 さらに、ガウス近似は一般報酬生成関数の後方分布に対する良いサロゲートではないかもしれない。 我々は,マルコフ・チェイン・モンテ・カルロ法(MCMC)を用いて,文脈的包帯における後部分布から直接サンプリングする,効率的な後部サンプリングアルゴリズムであるLangevin Monte Carlo Thompson Sampling (LMC-TS)を提案する。 本手法は,後方分布のラプラス近似を構築することなく,ノイズ勾配降下更新のみを行うため,計算効率が高い。 提案手法は,コンテキストバンディット,viz.,リニアコンテクストバンディットの特別な場合において,最高のトンプソンサンプリングアルゴリズムと同等のサブリニア後悔値が得られることを証明した。 我々は,異なる文脈のバンディットモデル上で合成データと実世界のデータセットの両方について実験を行い,後方からの直接サンプリングが計算効率と性能の両立を実証した。

We study the efficiency of Thompson sampling for contextual bandits. Existing Thompson sampling-based algorithms need to construct a Laplace approximation (i.e., a Gaussian distribution) of the posterior distribution, which is inefficient to sample in high dimensional applications for general covariance matrices. Moreover, the Gaussian approximation may not be a good surrogate for the posterior distribution for general reward generating functions. We propose an efficient posterior sampling algorithm, viz., Langevin Monte Carlo Thompson Sampling (LMC-TS), that uses Markov Chain Monte Carlo (MCMC) methods to directly sample from the posterior distribution in contextual bandits. Our method is computationally efficient since it only needs to perform noisy gradient descent updates without constructing the Laplace approximation of the posterior distribution. We prove that the proposed algorithm achieves the same sublinear regret bound as the best Thompson sampling algorithms for a special case of contextual bandits, viz., linear contextual bandits. We conduct experiments on both synthetic data and real-world datasets on different contextual bandit models, which demonstrates that directly sampling from the posterior is both computationally efficient and competitive in performance.
翻訳日:2022-06-23 14:54:52 公開日:2022-06-22
# コンテンツリッチテキスト対画像生成のための自己回帰モデルのスケーリング

Scaling Autoregressive Models for Content-Rich Text-to-Image Generation ( http://arxiv.org/abs/2206.10789v1 )

ライセンス: Link先を確認
Jiahui Yu, Yuanzhong Xu, Jing Yu Koh, Thang Luong, Gunjan Baid, Zirui Wang, Vijay Vasudevan, Alexander Ku, Yinfei Yang, Burcu Karagol Ayan, Ben Hutchinson, Wei Han, Zarana Parekh, Xin Li, Han Zhang, Jason Baldridge, Yonghui Wu(参考訳) 本稿では,高忠実度フォトリアリスティック画像を生成し,複雑な構成や世界知識を含むコンテンツ豊富な合成を支援する,自己回帰型テキスト・ツー・イメージ(parti)モデルを提案する。 partiは、テキストから画像への生成を、機械翻訳に似たシーケンスからシーケンスへのモデリング問題として扱い、画像トークンのシーケンスは、他の言語のテキストトークンではなく、ターゲット出力として扱う。 この戦略は、データとモデルサイズをスケールすることで、機能とパフォーマンスの継続的な進歩を目の当たりにした、大規模な言語モデルにおける、豊富な作業の本体を自然に活用することができる。 まず、PartiはTransformerベースの画像トークンライザViT-VQGANを使用して、画像を離散トークンのシーケンスとしてエンコードする。 第2に,エンコーダ・デコーダ・トランスフォーマーモデルを20Bパラメータまで拡張し,最新のゼロショットFIDスコア7.23,微調整FIDスコア3.22をMS-COCO上で実現した。 1600以上の英語プロンプトの新たな総称ベンチマークであるpartiprompts (p2) とともに,局所化物語の詳細な分析を行い,多種多様なカテゴリーと難易度におけるpartiの有効性を実証した。 また、さらなる改善のために焦点の重要な領域を定義し、例示するために、モデルの制限を探求し、強調します。 高解像度画像についてはhttps://parti.research.google/を参照。

We present the Pathways Autoregressive Text-to-Image (Parti) model, which generates high-fidelity photorealistic images and supports content-rich synthesis involving complex compositions and world knowledge. Parti treats text-to-image generation as a sequence-to-sequence modeling problem, akin to machine translation, with sequences of image tokens as the target outputs rather than text tokens in another language. This strategy can naturally tap into the rich body of prior work on large language models, which have seen continued advances in capabilities and performance through scaling data and model sizes. Our approach is simple: First, Parti uses a Transformer-based image tokenizer, ViT-VQGAN, to encode images as sequences of discrete tokens. Second, we achieve consistent quality improvements by scaling the encoder-decoder Transformer model up to 20B parameters, with a new state-of-the-art zero-shot FID score of 7.23 and finetuned FID score of 3.22 on MS-COCO. Our detailed analysis on Localized Narratives as well as PartiPrompts (P2), a new holistic benchmark of over 1600 English prompts, demonstrate the effectiveness of Parti across a wide variety of categories and difficulty aspects. We also explore and highlight limitations of our models in order to define and exemplify key areas of focus for further improvements. See https://parti.research.google/ for high-resolution images.
翻訳日:2022-06-23 14:54:05 公開日:2022-06-22
# バイアス付き委員会によるバイアス付き分類器の学習

Learning Debiased Classifier with Biased Committee ( http://arxiv.org/abs/2206.10843v1 )

ライセンス: Link先を確認
Nayeong Kim, Sehyun Hwang, Sungsoo Ahn, Jaesik Park, Suha Kwak(参考訳) ニューラルネットワークは、その一般化能力を損なうトレーニングデータの大部分に現れるクラスと潜在属性の急激な相関に偏りがちである。 本論文では,スプリアス属性のラベルを付けずにデバイアス分類器を訓練する新しい手法を提案する。 この手法の鍵となる考え方は、偏りを伴うデータを識別する補助モジュールとして分類器委員会を採用することであり、すなわち、素因関係のないデータを識別し、主分類器を訓練する際に大きな重みを割り当てることである。 委員会はブートストラップされたアンサンブルとして学習され、分類者の大多数がバイアスを受けており、多様性があり、従ってバイアスを伴うデータのクラスを意図的に予測できない。 予測難易度委員会内のコンセンサスは、バイアスコンフリクトデータを識別し重み付けするための信頼できる手がかりを提供する。 さらに、委員会は、主分類器から移行した知識を訓練することで、主分類器とともに徐々に偏りを増し、訓練が進むにつれてより困難なデータを強調する。 5つの実世界のデータセット上では、我々のようなスプリアス属性ラベルを使わずに既存のメソッドを上回り、時にはバイアスラベルに依存するメソッドを上回っています。

Neural networks are prone to be biased towards spurious correlations between classes and latent attributes exhibited in a major portion of training data, which ruins their generalization capability. This paper proposes a new method for training debiased classifiers with no spurious attribute label. The key idea of the method is to employ a committee of classifiers as an auxiliary module that identifies bias-conflicting data, i.e., data without spurious correlations, and assigns large weights to them when training the main classifier. The committee is learned as a bootstrapped ensemble so that a majority of its classifiers are biased as well as being diverse, and intentionally fail to predict classes of bias-conflicting data accordingly. The consensus within the committee on prediction difficulty thus provides a reliable cue for identifying and weighting bias-conflicting data. Moreover, the committee is also trained with knowledge transferred from the main classifier so that it gradually becomes debiased along with the main classifier and emphasizes more difficult data as training progresses. On five real-world datasets, our method outperforms existing methods using no spurious attribute label like ours and even surpasses those relying on bias labels occasionally.
翻訳日:2022-06-23 14:53:38 公開日:2022-06-22
# ビデオフレーム補間のための入射ニューラル表現の光学的フロー正規化

Optical Flow Regularization of Implicit Neural Representations for Video Frame Interpolation ( http://arxiv.org/abs/2206.10886v1 )

ライセンス: Link先を確認
Weihao Zhuang, Tristan Hascoet, Ryoichi Takashima, Tetsuya Takiguchi(参考訳) 近年の研究では、インプシット神経表現(INR)がシグナル誘導体の有意義な表現を行う能力を示している。 本研究では,この特性を利用して,光フロー制約式を満たすためにinrの微分を明示的に制約することにより,ビデオフレーム補間(vfi)を行う。 我々は,対象映像とその光流のみを用いて限られた運動範囲におけるVFIの状態を,追加のトレーニングデータから補間演算子を学習することなく達成する。 さらに,inr誘導体の制約により,中間フレームの補間性が向上するだけでなく,狭帯域ネットワークによる観測フレームの適合性が向上し,ビデオ圧縮やinr最適化への潜在的な応用が示唆された。

Recent works have shown the ability of Implicit Neural Representations (INR) to carry meaningful representations of signal derivatives. In this work, we leverage this property to perform Video Frame Interpolation (VFI) by explicitly constraining the derivatives of the INR to satisfy the optical flow constraint equation. We achieve state of the art VFI on limited motion ranges using only a target video and its optical flow, without learning the interpolation operator from additional training data. We further show that constraining the INR derivatives not only allows to better interpolate intermediate frames but also improves the ability of narrow networks to fit the observed frames, which suggests potential applications to video compression and INR optimization.
翻訳日:2022-06-23 14:53:18 公開日:2022-06-22
# SpA-Former:空間的注意によるトランスフォーマー画像の影検出と除去

SpA-Former: Transformer image shadow detection and removal via spatial attention ( http://arxiv.org/abs/2206.10910v1 )

ライセンス: Link先を確認
Xiao Feng Zhang and Chao Chen Gu and Shan Ying Zhu(参考訳) 本論文では,1つの陰影画像から影のない画像を復元するエンドツーエンドのSpA-Formerを提案する。 シャドウ検出とシャドウ除去のための2つのステップを必要とする従来の方法とは異なり、spa-formerはこれらのステップを1つに統合する。 これにより、異なるセマンティクス領域に投影されるシャドウに対して、スパフォーマは実画像デシャドーイングに適応できる。 SpA-Formerは変圧器層と一連の継手フーリエ変換残差ブロックと二輪継手空間アテンションからなる。 この論文のネットワークは、非常に高速な処理効率を実現しながら、タスクを処理できる。 私たちのコードはhttps://github.com/ zhangbaijin/spatial-transformer-shadow-removalで更新されます。

In this paper, we propose an end-to-end SpA-Former to recover a shadow-free image from a single shaded image. Unlike traditional methods that require two steps for shadow detection and then shadow removal, the SpA-Former unifies these steps into one, which is a one-stage network capable of directly learning the mapping function between shadows and no shadows, it does not require a separate shadow detection. Thus, SpA-former is adaptable to real image de-shadowing for shadows projected on different semantic regions. SpA-Former consists of transformer layer and a series of joint Fourier transform residual blocks and two-wheel joint spatial attention. The network in this paper is able to handle the task while achieving a very fast processing efficiency. Our code is relased on https://github.com/ zhangbaijin/Spatial-Transformer-shadow-removal
翻訳日:2022-06-23 14:53:04 公開日:2022-06-22
# 6自由度姿勢検出のためのハイブリッド物理指標

Hybrid Physical Metric For 6-DoF Grasp Pose Detection ( http://arxiv.org/abs/2206.11141v1 )

ライセンス: Link先を確認
Yuhao Lu, Beixing Deng, Zhenyu Wang, Peiyuan Zhi, Yali Li, Shengjin Wang(参考訳) 6自由度把持姿勢検出は知的ロボットの分野における課題課題である。 物体をつかむ人間の推論能力を模倣するために、データ駆動手法が広く研究されている。 大規模データセットの導入により、単一の物理メトリックは、通常、数百万の把持ポーズを微妙に区別できず、不正確な予測結果をもたらす、いくつかの離散的な把持信頼度スコアを生成することが判明した。 本稿では,この評価不足を解決するためのハイブリッド物理指標を提案する。 まず, 物体の平坦度, 重力, 衝突の測定によって補足される, 力-閉鎖距離に基づく新しい計量を定義する。 第二に、このハイブリッド物理測度を利用して、精巧な信頼性スコアを生成する。 第3に、新しい信頼度を効果的に学習するために、FGC-GraspNet(Flatness Gravity Collision GraspNet)と呼ばれるマルチ解像度ネットワークを設計する。 fgc-graspnetは複数のタスクのためのマルチレゾリューション特徴学習アーキテクチャを提案し、把持検出の平均精度を高める新しいジョイント損失関数を導入した。 ネットワーク評価と適切な実ロボット実験は、我々のハイブリッド物理メトリックとFGC-GraspNetの有効性を示す。 本手法は実世界の乱雑なシーンにおいて90.5%の成功率を達成する。 私たちのコードはhttps://github.com/luyh20/fgc-graspnetで利用可能です。

6-DoF grasp pose detection of multi-grasp and multi-object is a challenge task in the field of intelligent robot. To imitate human reasoning ability for grasping objects, data driven methods are widely studied. With the introduction of large-scale datasets, we discover that a single physical metric usually generates several discrete levels of grasp confidence scores, which cannot finely distinguish millions of grasp poses and leads to inaccurate prediction results. In this paper, we propose a hybrid physical metric to solve this evaluation insufficiency. First, we define a novel metric is based on the force-closure metric, supplemented by the measurement of the object flatness, gravity and collision. Second, we leverage this hybrid physical metric to generate elaborate confidence scores. Third, to learn the new confidence scores effectively, we design a multi-resolution network called Flatness Gravity Collision GraspNet (FGC-GraspNet). FGC-GraspNet proposes a multi-resolution features learning architecture for multiple tasks and introduces a new joint loss function that enhances the average precision of the grasp detection. The network evaluation and adequate real robot experiments demonstrate the effectiveness of our hybrid physical metric and FGC-GraspNet. Our method achieves 90.5\% success rate in real-world cluttered scenes. Our code is available at https://github.com/luyh20/FGC-GraspNet.
翻訳日:2022-06-23 14:52:50 公開日:2022-06-22
# そして今, 自己開示型うつ病の縦断的妥当性の定量化

Then and Now: Quantifying the Longitudinal Validity of Self-Disclosed Depression Diagnoses ( http://arxiv.org/abs/2206.11155v1 )

ライセンス: Link先を確認
Keith Harrigian and Mark Dredze(参考訳) 自己開示型精神保健診断は、臨床対策がなければ精神保健状態に関する基礎的真理の注釈となり、過去10年間の精神保健言語に関するほとんどの計算研究の結論を導いた。 しかし、精神疾患は動的であり、以前のうつ病の診断は、治療やその他の緩和要因によって、もはや個人の精神的健康を示すものではない。 精神的な健康診断の自己開示は、時間とともに実際にどのような関係があるのか? 5年以上前にソーシャルメディア上でうつ病の診断を明かした人物の最近の活動を分析し,その結果,ソーシャルメディア上でのメンタルヘルス状態の呈示が縦断的にどのように現れるか,新たな理解を得た。 また,自己開示診断を用いて収集したデータセットにおけるパーソナリティ関連バイアスの存在に関する広範な証拠を提供する。 本研究は、自己開示診断を用いたメンタルヘルスデータセット改善のための3つの実践的推奨事項を動機付けている。 1) 診断日及び精神医学的共生を注釈する。 2)適合度スコアマッチングを用いたサンプル制御グループ 3)選択バイアスによって生じる急激な相関を同定・除去する。

Self-disclosed mental health diagnoses, which serve as ground truth annotations of mental health status in the absence of clinical measures, underpin the conclusions behind most computational studies of mental health language from the last decade. However, psychiatric conditions are dynamic; a prior depression diagnosis may no longer be indicative of an individual's mental health, either due to treatment or other mitigating factors. We ask: to what extent are self-disclosures of mental health diagnoses actually relevant over time? We analyze recent activity from individuals who disclosed a depression diagnosis on social media over five years ago and, in turn, acquire a new understanding of how presentations of mental health status on social media manifest longitudinally. We also provide expanded evidence for the presence of personality-related biases in datasets curated using self-disclosed diagnoses. Our findings motivate three practical recommendations for improving mental health datasets curated using self-disclosed diagnoses: 1) Annotate diagnosis dates and psychiatric comorbidities; 2) Sample control groups using propensity score matching; 3) Identify and remove spurious correlations introduced by selection bias.
翻訳日:2022-06-23 14:52:30 公開日:2022-06-22
# play it cool: 動的シフトは熱スロットリングを防ぐ

Play It Cool: Dynamic Shifting Prevents Thermal Throttling ( http://arxiv.org/abs/2206.10849v1 )

ライセンス: Link先を確認
Yang Zhou, Feng Liang, Ting-wu Chin, Diana Marculescu(参考訳) 機械学習(ML)は、エッジデバイスに膨大な数のMLモデルをデプロイするモバイル時代に入った。 しかし、エッジデバイス上で共通のMLモデルを継続的に実行することで、計算から過剰な熱を発生させ、過熱を防ぐためにデバイスを「スローダウン」させてしまうことがある。 本稿では,携帯電話における熱スロットリングの影響について検討する。発生時,cpuクロック周波数が減少し,モデル推論遅延が劇的に増加する可能性がある。 この不快な一貫性のない動作はユーザエクスペリエンスに大きな悪影響を与えますが、長い間見過ごされています。 熱絞り対策として, 共有重み付き動的ネットワークの活用, 大型モデルと小型MLモデル間のシームレスなシフト, すなわち, システムが減速しようとしているときに, 小型モデルに移行することを提案する。 提案された動的シフトにより、アプリケーションはCPUクロック周波数の劣化や遅延の増加を経験することなく、一貫して動作する。 さらに,動的シフトが展開された際の結果の精度についても検討し,モデル遅延とモデル精度との間に合理的なトレードオフをもたらすことを示す。

Machine learning (ML) has entered the mobile era where an enormous number of ML models are deployed on edge devices. However, running common ML models on edge devices continuously may generate excessive heat from the computation, forcing the device to "slow down" to prevent overheating, a phenomenon called thermal throttling. This paper studies the impact of thermal throttling on mobile phones: when it occurs, the CPU clock frequency is reduced, and the model inference latency may increase dramatically. This unpleasant inconsistent behavior has a substantial negative effect on user experience, but it has been overlooked for a long time. To counter thermal throttling, we propose to utilize dynamic networks with shared weights and dynamically shift between large and small ML models seamlessly according to their thermal profile, i.e., shifting to a small model when the system is about to throttle. With the proposed dynamic shifting, the application runs consistently without experiencing CPU clock frequency degradation and latency increase. In addition, we also study the resulting accuracy when dynamic shifting is deployed and show that our approach provides a reasonable trade-off between model latency and model accuracy.
翻訳日:2022-06-23 14:48:43 公開日:2022-06-22
# FairGrad:Fairness Aware Aware Gradient Descent

FairGrad: Fairness Aware Gradient Descent ( http://arxiv.org/abs/2206.10923v1 )

ライセンス: Link先を確認
Gaurav Maheshwari, Micha\"el Perrot(参考訳) 分類におけるグループフェアネスの問題は、集団のサブグループに対して不当に差別しないモデルを学習することを目的としている。 既存のアプローチの多くは単純なバイナリタスクに限定されているか、あるいはトレーニングメカニズムを実装するのが難しい。 これにより実用性が低下する。 本稿では,FairGradを提案する。これは,グループ固有の重み付けを,有効かどうかに基づいて反復的に学習する再重み付け方式に基づくフェアネスの実施方法である。 FairGradは実装が容易で、様々な標準的なフェアネス定義に対応できる。 さらに,自然言語処理やコンピュータビジョンなど,各種データセットの標準ベースラインと同等であることを示す。

We tackle the problem of group fairness in classification, where the objective is to learn models that do not unjustly discriminate against subgroups of the population. Most existing approaches are limited to simple binary tasks or involve difficult to implement training mechanisms. This reduces their practical applicability. In this paper, we propose FairGrad, a method to enforce fairness based on a reweighting scheme that iteratively learns group specific weights based on whether they are advantaged or not. FairGrad is easy to implement and can accommodate various standard fairness definitions. Furthermore, we show that it is comparable to standard baselines over various datasets including ones used in natural language processing and computer vision.
翻訳日:2022-06-23 14:48:23 公開日:2022-06-22
# POGEMA: 複数のエージェントに対する部分観測可能なグリッド環境

POGEMA: Partially Observable Grid Environment for Multiple Agents ( http://arxiv.org/abs/2206.10944v1 )

ライセンス: Link先を確認
Alexey Skrynnik, Anton Andreychuk, Konstantin Yakovlev, Aleksandr I. Panov(参考訳) POGEMA (https://github.com/AIRI-Institute/pogema) は、部分的に観察可能なマルチエージェントパスフィンディング(PO-MAPF)問題に挑戦するためのサンドボックスである。 これは、柔軟でチューニング可能でスケーラブルなベンチマークとして特別に設計されたグリッドベースの環境です。 さまざまなPO-MAPFに合わせることができ、プランニングと学習方法の優れたテスト基盤として機能し、それらの組み合わせによって、AI計画と学習のギャップを埋めることができます。

We introduce POGEMA (https://github.com/AIRI-Institute/pogema) a sandbox for challenging partially observable multi-agent pathfinding (PO-MAPF) problems . This is a grid-based environment that was specifically designed to be a flexible, tunable and scalable benchmark. It can be tailored to a variety of PO-MAPF, which can serve as an excellent testing ground for planning and learning methods, and their combination, which will allow us to move towards filling the gap between AI planning and learning.
翻訳日:2022-06-23 14:48:11 公開日:2022-06-22
# rose: 堅牢でセキュアなdnnウォーターマーク

ROSE: A RObust and SEcure DNN Watermarking ( http://arxiv.org/abs/2206.11024v1 )

ライセンス: Link先を確認
Kassem Kallas and Teddy Furon(参考訳) DNNモデルの知的財産権を保護することは、その展開前に最も重要なことである。 これまでのところ、提案手法は内部モデルパラメータや機械学習パイプラインの変更を必要とするか、セキュリティ要件と堅牢性要件の両方を満たすことができない。 本稿では,暗号化の一方向関数の活用と,トレーニング中にタスク内のキーとラベルのペアを注入する,軽量で堅牢でセキュアなDNN透かしプロトコルを提案する。 これらのペアは後にテスト中にdnnモデルの所有権を証明するために使用される。 主な特徴は、証明の値とそのセキュリティが測定可能であることである。 さまざまなデータセットのイメージ分類モデルを透かし、さまざまなアタックに公開することにより、適切なレベルのセキュリティと堅牢性を維持しながら保護を提供することを示す。

Protecting the Intellectual Property rights of DNN models is of primary importance prior to their deployment. So far, the proposed methods either necessitate changes to internal model parameters or the machine learning pipeline, or they fail to meet both the security and robustness requirements. This paper proposes a lightweight, robust, and secure black-box DNN watermarking protocol that takes advantage of cryptographic one-way functions as well as the injection of in-task key image-label pairs during the training process. These pairs are later used to prove DNN model ownership during testing. The main feature is that the value of the proof and its security are measurable. The extensive experiments watermarking image classification models for various datasets as well as exposing them to a variety of attacks, show that it provides protection while maintaining an adequate level of security and robustness.
翻訳日:2022-06-23 14:48:03 公開日:2022-06-22
# 一般不定分布推定アルゴリズム

General Univariate Estimation-of-Distribution Algorithms ( http://arxiv.org/abs/2206.11198v1 )

ライセンス: Link先を確認
Benjamin Doerr, Marc Dufay(参考訳) 本稿では,単変量分布推定アルゴリズム(EDA)の一般化を提案する。 これは自然に3つの古典的な不等式 edas \emph{compact genetic algorithm}, \emph{univariate marginal distribution algorithm}, \emph{population-based incremental learning} と \emph{max-min ant system} を反復最良更新で取り入れている。 既存のアルゴリズムの統一的な記述は、これらを統一的な分析を可能にし、上述の4つのアルゴリズムで証明された既存の結果とすぐに別々に示す遺伝子ドリフトの分析を提供することで、これを実証する。 私たちの一般的なモデルには、既存のモデルよりも効率的で、OneMaxとLeadingOnesベンチマークで示されているような、見つけにくいEDAも含まれています。

We propose a general formulation of a univariate estimation-of-distribution algorithm (EDA). It naturally incorporates the three classic univariate EDAs \emph{compact genetic algorithm}, \emph{univariate marginal distribution algorithm} and \emph{population-based incremental learning} as well as the \emph{max-min ant system} with iteration-best update. Our unified description of the existing algorithms allows a unified analysis of these; we demonstrate this by providing an analysis of genetic drift that immediately gives the existing results proven separately for the four algorithms named above. Our general model also includes EDAs that are more efficient than the existing ones and these may not be difficult to find as we demonstrate for the OneMax and LeadingOnes benchmarks.
翻訳日:2022-06-23 14:47:23 公開日:2022-06-22
# 社会的に公平な$k$-Clusteringのための定数要素近似アルゴリズム

Constant-Factor Approximation Algorithms for Socially Fair $k$-Clustering ( http://arxiv.org/abs/2206.11210v1 )

ライセンス: Link先を確認
Mehrdad Ghadiri, Mohit Singh, Santosh S. Vempala(参考訳) 我々は、社会的に公正な$(\ell_p, k)$-clusteringを$m$グループで行う際の近似アルゴリズムについて研究し、社会的にフェアな$k$-median(p=1$)と社会的にフェアな$k$-means(p=2$)の問題を含む。 多項式時間 $(5+2\sqrt{6})^p$-approximation with at least $k+m$ center (2) a $(5+2\sqrt{6}+\epsilon)^p$-approximation with $k$ center in time $n^{2^{O(p)}\cdot m^2}$, (3) a $(15+6\sqrt{6})^p$ at time $k^{m}\cdot\text{poly}(n)$.} を示す。 第1の結果は,線形プログラム列を用いた反復丸め法の改良により得られた。 後者の2つの結果は、(2)のスパーシフィケーション法を用いて最大$k+m$センターの解を$k$センターの解に変換し、(3)の徹底的な探索によって得られる。 また、アルゴリズムの性能を既存のbicriteriaアルゴリズムと比較し、ベンチマークデータセット上のセンター近似アルゴリズムを正確に$k$で評価し、我々のアルゴリズムが既存のメソッドを実際に上回っていることも確認した。

We study approximation algorithms for the socially fair $(\ell_p, k)$-clustering problem with $m$ groups, whose special cases include the socially fair $k$-median ($p=1$) and socially fair $k$-means ($p=2$) problems. We present (1) a polynomial-time $(5+2\sqrt{6})^p$-approximation with at most $k+m$ centers (2) a $(5+2\sqrt{6}+\epsilon)^p$-approximation with $k$ centers in time $n^{2^{O(p)}\cdot m^2}$, and (3) a $(15+6\sqrt{6})^p$ approximation with $k$ centers in time $k^{m}\cdot\text{poly}(n)$. The first result is obtained via a refinement of the iterative rounding method using a sequence of linear programs. The latter two results are obtained by converting a solution with up to $k+m$ centers to one with $k$ centers using sparsification methods for (2) and via an exhaustive search for (3). We also compare the performance of our algorithms with existing bicriteria algorithms as well as exactly $k$ center approximation algorithms on benchmark datasets, and find that our algorithms also outperform existing methods in practice.
翻訳日:2022-06-23 14:47:06 公開日:2022-06-22
# 分散ゴシップに基づく通信ネットワーク上の確率的バイレベル最適化

Decentralized Gossip-Based Stochastic Bilevel Optimization over Communication Networks ( http://arxiv.org/abs/2206.10870v1 )

ライセンス: Link先を確認
Shuoguang Yang, Xuezhou Zhang, Mengdi Wang(参考訳) 双レベル最適化は、メタラーニング、ミニマックスゲーム、強化学習、ネストされた合成最適化など多くの応用によって、関心が高まりつつある。 本稿では,マルチタスク,マルチエージェント学習,フェデレーション学習など,エージェントが隣人とのみ通信可能なネットワーク上の分散2レベル最適化の問題について検討する。 本稿では,ネットワークエージェントが内部と外部の両方の最適化問題を単一時間スケールで解決し,ネットワーク伝搬を介して情報を共有できる,ゴシップに基づく分散二段階学習アルゴリズムを提案する。 本アルゴリズムは, 一般の非凸二レベル最適化に対して, $\mathcal{O}(\frac{1}{K \epsilon^2})$ per-agent sample complexity と $\mathcal{O}(\frac{1}{K \epsilon})$ を, 強凸目的に対して, ネットワークサイズと線形にスケールするスピードアップを達成できることを示す。 サンプルの複雑さは$\epsilon$と$K$の両方で最適である。 我々はハイパーパラメータチューニングと分散強化学習の例でアルゴリズムを検証した。 シミュレーション実験により,最先端のトレーニング効率とテスト精度が得られた。

Bilevel optimization have gained growing interests, with numerous applications found in meta learning, minimax games, reinforcement learning, and nested composition optimization. This paper studies the problem of distributed bilevel optimization over a network where agents can only communicate with neighbors, including examples from multi-task, multi-agent learning and federated learning. In this paper, we propose a gossip-based distributed bilevel learning algorithm that allows networked agents to solve both the inner and outer optimization problems in a single timescale and share information via network propagation. We show that our algorithm enjoys the $\mathcal{O}(\frac{1}{K \epsilon^2})$ per-agent sample complexity for general nonconvex bilevel optimization and $\mathcal{O}(\frac{1}{K \epsilon})$ for strongly convex objective, achieving a speedup that scales linearly with the network size. The sample complexities are optimal in both $\epsilon$ and $K$. We test our algorithm on the examples of hyperparameter tuning and decentralized reinforcement learning. Simulated experiments confirmed that our algorithm achieves the state-of-the-art training efficiency and test accuracy.
翻訳日:2022-06-23 14:46:27 公開日:2022-06-22
# 生成関数によるミニバッチsgdの展望:収束条件、相転移、負のモーメントによる利益

A view of mini-batch SGD via generating functions: conditions of convergence, phase transitions, benefit from negative momenta ( http://arxiv.org/abs/2206.11124v1 )

ライセンス: Link先を確認
Maksim Velikanov, Denis Kuznedelev, Dmitry Yarotsky(参考訳) 運動量を持つミニバッチSGDは、大きな予測モデルを学ぶための基本的なアルゴリズムである。 本稿では,異なるモータおよびバッチサイズでの線形モデルに対するミニバッチSGDを解析するための新しい分析フレームワークを開発する。 我々のキーとなる考え方は、モデル重みの第二モーメントに対する対角近似を仮定するコンパクトな形式で記述できる、その生成関数の観点から損失値列を記述することである。 この生成関数を解析することにより、収束条件、モデルの位相構造、最適学習設定に関する様々な結論を導出する。 いくつか例を挙げると、 1)最適化軌道は一般的に,解析的に予測可能な時間スケールにおいて,「信号支配」から「雑音支配」フェーズに切り替えることができる。 2)「信号支配」(ただし「雑音支配」ではない)段階では、大きな有効学習率を選択するのが好ましいが、発散を避けるために、その値は任意の有限バッチサイズに制限されなければならない。 3) 最適収束速度は負の運動量で達成できる。 我々は、MNISTと合成問題による広範な実験により理論予測を検証し、良好な量的一致を見いだす。

Mini-batch SGD with momentum is a fundamental algorithm for learning large predictive models. In this paper we develop a new analytic framework to analyze mini-batch SGD for linear models at different momenta and sizes of batches. Our key idea is to describe the loss value sequence in terms of its generating function, which can be written in a compact form assuming a diagonal approximation for the second moments of model weights. By analyzing this generating function, we deduce various conclusions on the convergence conditions, phase structure of the model, and optimal learning settings. As a few examples, we show that 1) the optimization trajectory can generally switch from the "signal-dominated" to the "noise-dominated" phase, at a time scale that can be predicted analytically; 2) in the "signal-dominated" (but not the "noise-dominated") phase it is favorable to choose a large effective learning rate, however its value must be limited for any finite batch size to avoid divergence; 3) optimal convergence rate can be achieved at a negative momentum. We verify our theoretical predictions by extensive experiments with MNIST and synthetic problems, and find a good quantitative agreement.
翻訳日:2022-06-23 14:45:45 公開日:2022-06-22
# Sim-to-real Transferを用いた一般化可能な自動運転政策の模倣学習

Imitation Learning for Generalizable Self-driving Policy with Sim-to-real Transfer ( http://arxiv.org/abs/2206.10797v1 )

ライセンス: Link先を確認
Zolt\'an L\H{o}rincz, M\'arton Szemenyei, R\'obert Moni(参考訳) Imitation Learningは、専門家のデモを使って最適なポリシーを明らかにし、現実世界のロボティクスのタスクにも適している。 しかし、この場合、安全性、経済性、時間的制約により、シミュレーション環境でエージェントのトレーニングを行う。 その後、エージェントはsim-to-realメソッドを使用して実生活ドメインに適用される。 本稿では,シミュレーション環境におけるロボットの課題を解くイミテーション学習手法を適用し,実環境におけるこれらのソリューションの適用にトランスファー学習を用いる。 我々の仕事はダッキータウンの環境に置かれており、ロボットエージェントは1台の前方カメラの入力画像に基づいて右車線を追わなければならない。 本研究は,この課題を達成できる3つの模倣学習と2つのシミュレート・トゥ・リアルな手法を提案する。 これらのテクニックの利点と欠点を強調するために、詳細な比較が提供されている。

Imitation Learning uses the demonstrations of an expert to uncover the optimal policy and it is suitable for real-world robotics tasks as well. In this case, however, the training of the agent is carried out in a simulation environment due to safety, economic and time constraints. Later, the agent is applied in the real-life domain using sim-to-real methods. In this paper, we apply Imitation Learning methods that solve a robotics task in a simulated environment and use transfer learning to apply these solutions in the real-world environment. Our task is set in the Duckietown environment, where the robotic agent has to follow the right lane based on the input images of a single forward-facing camera. We present three Imitation Learning and two sim-to-real methods capable of achieving this task. A detailed comparison is provided on these techniques to highlight their advantages and disadvantages.
翻訳日:2022-06-23 14:45:23 公開日:2022-06-22
# 火で戦う - プライミングを通したdnnショートカットを避ける

Fighting Fire with Fire: Avoiding DNN Shortcuts through Priming ( http://arxiv.org/abs/2206.10816v1 )

ライセンス: Link先を確認
Chuan Wen, Jianing Qian, Jierui Lin, Jiaye Teng, Dinesh Jayaraman, Yang Gao(参考訳) 教師付き分類とシーケンシャルコントロールにまたがるアプリケーション全体にわたって、ディープラーニングはデータ分布の小さな変化の下で破滅的に失敗する「ショートカット」ソリューションを見つけることが報告されている。 本稿では、キー入力特徴(通常、粗い出力推定値)から計算した「価格」を付加することで、DNNを粗末なショートカットを避けることができることを示す。 プライミングは、これらのタスクに関連するキー入力機能の近似的なドメイン知識に依存している。 例えば、視覚模倣学習のためのビデオ入力や、画像分類のための背景ピクセル上のsaient foregroundにおいて、過去のフレームよりも最近のフレームを優先することができる。 NICO画像分類、MuJoCo連続制御、CARLA自動運転について、我々のプライミング戦略は、特徴選択とデータ拡張のためのいくつかの最先端アプローチよりもはるかに優れている。 我々はこれらの経験的結果と最近のDNN最適化の理論的結果とを結びつけるとともに、プリミングはより良いより単純なショートカットを作成することにより、最適化者を貧弱なショートカットから遠ざけることを理論的に論じる。

Across applications spanning supervised classification and sequential control, deep learning has been reported to find "shortcut" solutions that fail catastrophically under minor changes in the data distribution. In this paper, we show empirically that DNNs can be coaxed to avoid poor shortcuts by providing an additional "priming" feature computed from key input features, usually a coarse output estimate. Priming relies on approximate domain knowledge of these task-relevant key input features, which is often easy to obtain in practical settings. For example, one might prioritize recent frames over past frames in a video input for visual imitation learning, or salient foreground over background pixels for image classification. On NICO image classification, MuJoCo continuous control, and CARLA autonomous driving, our priming strategy works significantly better than several popular state-of-the-art approaches for feature selection and data augmentation. We connect these empirical findings to recent theoretical results on DNN optimization, and argue theoretically that priming distracts the optimizer away from poor shortcuts by creating better, simpler shortcuts.
翻訳日:2022-06-23 14:45:12 公開日:2022-06-22
# KiloNeuS: リアルタイムグローバルイルミネーションによるニューラル表現

KiloNeuS: Implicit Neural Representations with Real-Time Global Illumination ( http://arxiv.org/abs/2206.10885v1 )

ライセンス: Link先を確認
Stefano Esposito, Daniele Baieri, Stefan Zellmann, Andr\'e Hinkenjann, Emanuele Rodol\`a(参考訳) 再構成のための逆レンダリング技術の最新トレンドは、ニューラルネットワークを使って3D表現をニューラルネットワークとして学習する。 NeRFベースの技術は、マルチ層パーセプトロン(MLP)をトレーニング画像の集合に適合させ、ボリュームレンダリングアルゴリズムを用いて任意の仮想カメラからレンダリング可能な放射場を推定する。 これらの表現の大きな欠点は、明確に定義された曲面の欠如と非インタラクティブなレンダリング時間である。 これらの制限は最近、例外的に克服されたが、これを同時に達成するために管理することで、新しいユースケースが開かれる。 我々は、インタラクティブなフレームレートでパストレーシングシーンで描画できる新しいニューラルオブジェクト表現であるKiloNeuSを紹介する。 kiloneusは、共有シーンにおけるニューラルネットワークと古典的なプリミティブ間の現実的な光相互作用のシミュレーションを可能にする。

The latest trends in inverse rendering techniques for reconstruction use neural networks to learn 3D representations as neural fields. NeRF-based techniques fit multi-layer perceptrons (MLPs) to a set of training images to estimate a radiance field which can then be rendered from any virtual camera by means of volume rendering algorithms. Major drawbacks of these representations are the lack of well-defined surfaces and non-interactive rendering times, as wide and deep MLPs must be queried millions of times per single frame. These limitations have recently been singularly overcome, but managing to accomplish this simultaneously opens up new use cases. We present KiloNeuS, a new neural object representation that can be rendered in path-traced scenes at interactive frame rates. KiloNeuS enables the simulation of realistic light interactions between neural and classic primitives in shared scenes, and it demonstrably performs in real-time with plenty of room for future optimizations and extensions.
翻訳日:2022-06-23 14:44:50 公開日:2022-06-22
# s2tnet: 自律走行時の軌道予測のための時空間変圧器ネットワーク

S2TNet: Spatio-Temporal Transformer Networks for Trajectory Prediction in Autonomous Driving ( http://arxiv.org/abs/2206.10902v1 )

ライセンス: Link先を確認
Weihuang Chen and Fangfang Wang and Hongbin Sun(参考訳) 密集した不均一な交通に安全かつ合理的に参加するには、自動運転車は周囲の交通エージェントの運動パターンを十分に分析し、将来の軌跡を正確に予測する必要がある。 交通エージェントの軌道は、交通エージェント自体の影響だけでなく、相互の空間的相互作用にも影響されるため、これは難しい。 従来の手法は通常、Long Short-Term Memory Network (LSTM) の逐次的なステップバイステップ処理に依存しており、単に単一タイプのトラフィックエージェントのための空間的隣人間の相互作用を抽出するだけである。 時空間変圧器による時空間相互作用をモデル化し、時空間変圧器によるテンポレルシーケンスを扱う時空間変圧器ネットワーク(s2tnet)を提案する。 我々は、トラフィックエージェントの不均一性を扱うために、新たなカテゴリ、形状、方向情報をネットワークに入力する。 提案手法は, 平均変位誤差と最終変位誤差の重み付き和の両方において, アポロスケープ軌道データセットの最先端手法を72%以上上回っている。 私たちのコードはhttps://github.com/chenghuang66/s2tnetで利用可能です。

To safely and rationally participate in dense and heterogeneous traffic, autonomous vehicles require to sufficiently analyze the motion patterns of surrounding traffic-agents and accurately predict their future trajectories. This is challenging because the trajectories of traffic-agents are not only influenced by the traffic-agents themselves but also by spatial interaction with each other. Previous methods usually rely on the sequential step-by-step processing of Long Short-Term Memory networks (LSTMs) and merely extract the interactions between spatial neighbors for single type traffic-agents. We propose the Spatio-Temporal Transformer Networks (S2TNet), which models the spatio-temporal interactions by spatio-temporal Transformer and deals with the temporel sequences by temporal Transformer. We input additional category, shape and heading information into our networks to handle the heterogeneity of traffic-agents. The proposed methods outperforms state-of-the-art methods on ApolloScape Trajectory dataset by more than 7\% on both the weighted sum of Average and Final Displacement Error. Our code is available at https://github.com/chenghuang66/s2tnet.
翻訳日:2022-06-23 14:44:30 公開日:2022-06-22
# (参考訳) GEMv2: 1行のコードによる多言語NLGベンチマーク

GEMv2: Multilingual NLG Benchmarking in a Single Line of Code ( http://arxiv.org/abs/2206.11249v1 )

ライセンス: CC BY 4.0
Sebastian Gehrmann, Abhik Bhattacharjee, Abinaya Mahendiran, Alex Wang, Alexandros Papangelis, Aman Madaan, Angelina McMillan-Major, Anna Shvets, Ashish Upadhyay, Bingsheng Yao, Bryan Wilie, Chandra Bhagavatula, Chaobin You, Craig Thomson, Cristina Garbacea, Dakuo Wang, Daniel Deutsch, Deyi Xiong, Di Jin, Dimitra Gkatzia, Dragomir Radev, Elizabeth Clark, Esin Durmus, Faisal Ladhak, Filip Ginter, Genta Indra Winata, Hendrik Strobelt, Hiroaki Hayashi, Jekaterina Novikova, Jenna Kanerva, Jenny Chim, Jiawei Zhou, Jordan Clive, Joshua Maynez, Jo\~ao Sedoc, Juraj Juraska, Kaustubh Dhole, Khyathi Raghavi Chandu, Leonardo F. R. Ribeiro, Lewis Tunstall, Li Zhang, Mahima Pushkarna, Mathias Creutz, Michael White, Mihir Sanjay Kale, Moussa Kamal Eddine, Nico Daheim, Nishant Subramani, Ondrej Dusek, Paul Pu Liang, Pawan Sasanka Ammanamanchi, Qi Zhu, Ratish Puduppully, Reno Kriz, Rifat Shahriyar, Ronald Cardenas, Saad Mahamood, Salomey Osei, Samuel Cahyawijaya, Sanja \v{S}tajner, Sebastien Montella, Shailza, Shailza Jolly, Simon Mille, Tahmid Hasan, Tianhao Shen, Tosin Adewumi, Vikas Raunak, Vipul Raheja, Vitaly Nikolaev, Vivian Tsai, Yacine Jernite, Ying Xu, Yisi Sang, Yixin Liu, Yufang Hou(参考訳) 機械学習の評価は通常、データセットやメトリクスなど、過去の選択によって通知される。 この標準化により、リーダーボードを用いた均等な足場の比較が可能となるが、より良い選択肢が生まれるにつれて、評価選択は準最適となる。 この問題は、断定的な主張をするためにデータセット、メトリクス、人間の評価を継続的に改善する必要がある自然言語生成において特に重要となる。 モデル評価のベストプラクティスをより容易にするために、GEMv2を導入します。 新バージョンのGeneration, Evaluation, Metrics Benchmarkでは、データセット、モデル、メトリック開発者が互いに作業の恩恵を受けるためのモジュラーインフラストラクチャが導入されている。 GEMv2は51言語で40のドキュメントデータセットをサポートする。 すべてのデータセットのモデルはオンラインで評価でき、インタラクティブなデータカード作成とレンダリングツールによって、生きたベンチマークに新しいデータセットを簡単に追加できます。

Evaluation in machine learning is usually informed by past choices, for example which datasets or metrics to use. This standardization enables the comparison on equal footing using leaderboards, but the evaluation choices become sub-optimal as better alternatives arise. This problem is especially pertinent in natural language generation which requires ever-improving suites of datasets, metrics, and human evaluation to make definitive claims. To make following best model evaluation practices easier, we introduce GEMv2. The new version of the Generation, Evaluation, and Metrics Benchmark introduces a modular infrastructure for dataset, model, and metric developers to benefit from each others work. GEMv2 supports 40 documented datasets in 51 languages. Models for all datasets can be evaluated online and our interactive data card creation and rendering tools make it easier to add new datasets to the living benchmark.
翻訳日:2022-06-23 14:41:48 公開日:2022-06-22
# 順序付きサブグラフ集約ネットワーク

Ordered Subgraph Aggregation Networks ( http://arxiv.org/abs/2206.11168v1 )

ライセンス: Link先を確認
Chendi Qian, Gaurav Rattan, Floris Geerts, Christopher Morris, Mathias Niepert(参考訳) 多数のサブグラフ強化グラフニューラルネットワーク(GNN)が最近出現し、標準(メッセージパス)GNNの表現力を高めている。 しかしながら、これらのアプローチとWeisfeiler-Leman階層との関係について、限定的な理解がある。 さらに、現在のアプローチでは、与えられたサイズのすべてのサブグラフを使用し、ランダムにサンプリングするか、データ駆動の方法でサブグラフを選択することを学ぶ代わりに手作りのヒューリスティックを使用する。 本稿では,理論的枠組みを導入し,グラフ強化GNNの既知表現率を拡張することによって,そのようなアーキテクチャを統一的に研究する方法を提案する。 具体的には、サブグラフサイズの増加は常に表現力を高め、確立された $k\text{-}\mathsf{wl}$ 階層と関連づけることで、それらの制限をよりよく理解する。 さらに, 複素離散確率分布をバックプロパゲーションする最近の手法を用いて, サブグラフをサンプル化する学習法について検討した。 実験により,データ駆動アーキテクチャは,計算時間を短縮しつつ,非データ駆動グラフニューラルネットワークと比較して,標準ベンチマークデータセットの予測精度を向上させることを示した。

Numerous subgraph-enhanced graph neural networks (GNNs) have emerged recently, provably boosting the expressive power of standard (message-passing) GNNs. However, there is a limited understanding of how these approaches relate to each other and to the Weisfeiler--Leman hierarchy. Moreover, current approaches either use all subgraphs of a given size, sample them uniformly at random, or use hand-crafted heuristics instead of learning to select subgraphs in a data-driven manner. Here, we offer a unified way to study such architectures by introducing a theoretical framework and extending the known expressivity results of subgraph-enhanced GNNs. Concretely, we show that increasing subgraph size always increases the expressive power and develop a better understanding of their limitations by relating them to the established $k\text{-}\mathsf{WL}$ hierarchy. In addition, we explore different approaches for learning to sample subgraphs using recent methods for backpropagating through complex discrete probability distributions. Empirically, we study the predictive performance of different subgraph-enhanced GNNs, showing that our data-driven architectures increase prediction accuracy on standard benchmark datasets compared to non-data-driven subgraph-enhanced graph neural networks while reducing computation time.
翻訳日:2022-06-23 14:12:56 公開日:2022-06-22
# 変圧器を用いた手術場面における視覚的質問応答

Surgical-VQA: Visual Question Answering in Surgical Scenes using Transformer ( http://arxiv.org/abs/2206.11053v1 )

ライセンス: Link先を確認
Lalithkumar Seenivasan, Mobarakol Islam, Adithya Krishna and Hongliang Ren(参考訳) 手術における視覚的質問応答 (VQA) はほとんど探索されていない。 専門家の外科医は乏しく、しばしば臨床および学術的なワークロードで過負荷される。 この過負荷は、外科手術に関連する患者、医学生、または中学生からのアンケートに答える時間を制限することが多い。 学生や中学生も授業中に多くの質問をすることを避けて、混乱を減らすこともある。 コンピュータ支援シミュレーターと過去の手術手順の記録は、彼らのスキルを観察し改善するために利用できるが、それでも医療専門家の質問に答えることに大きく依存している。 信頼できる「第2の意見」として外科的VQAシステムを持つことは、バックアップとして機能し、これらの質問に答える医療専門家の負担を軽減することができる。 注釈付き医療データの欠如とドメイン固有の用語の存在は、外科手術のためのVQAの探索を制限している。 本研究は,手術シーンに基づく外科手術に対する質問票を回答する手術VQAタスクを設計する。 miccai endoscopic vision challenge 2018データセットとworkflow recognitionデータセットを拡張し、分類と文ベースの回答を含む2つの手術用vqaデータセットを紹介します。 手術用VQAを実現するために,視覚テキストトランスフォーマモデルを用いる。 さらに、視覚トークンとテキストトークンの相互作用を強制し、分類ベースの応答の性能を向上させるMLPベースの残差VisualBertエンコーダモデルを導入する。 さらに,入力画像のパッチ数と時間的視覚的特徴が,分類および文ベース回答におけるモデル性能に与える影響について検討した。

Visual question answering (VQA) in surgery is largely unexplored. Expert surgeons are scarce and are often overloaded with clinical and academic workloads. This overload often limits their time answering questionnaires from patients, medical students or junior residents related to surgical procedures. At times, students and junior residents also refrain from asking too many questions during classes to reduce disruption. While computer-aided simulators and recording of past surgical procedures have been made available for them to observe and improve their skills, they still hugely rely on medical experts to answer their questions. Having a Surgical-VQA system as a reliable 'second opinion' could act as a backup and ease the load on the medical experts in answering these questions. The lack of annotated medical data and the presence of domain-specific terms has limited the exploration of VQA for surgical procedures. In this work, we design a Surgical-VQA task that answers questionnaires on surgical procedures based on the surgical scene. Extending the MICCAI endoscopic vision challenge 2018 dataset and workflow recognition dataset further, we introduce two Surgical-VQA datasets with classification and sentence-based answers. To perform Surgical-VQA, we employ vision-text transformers models. We further introduce a residual MLP-based VisualBert encoder model that enforces interaction between visual and text tokens, improving performance in classification-based answering. Furthermore, we study the influence of the number of input image patches and temporal visual features on the model performance in both classification and sentence-based answering.
翻訳日:2022-06-23 14:12:29 公開日:2022-06-22
# オープン知識ベース標準化のためのマルチビュークラスタリング

Multi-View Clustering for Open Knowledge Base Canonicalization ( http://arxiv.org/abs/2206.11130v1 )

ライセンス: Link先を確認
Wei Shen, Yang Yang, Yinan Liu(参考訳) オープン情報抽出 (oie) 手法は, 大規模オープン知識ベース (okbs) を構成する非構造化テキストから, 大量のoie三重項<名詞句, 関係句, 名詞句>を抽出する。 このようなOKBの名詞句や関係句は正規化されておらず、乱れや冗長な事実につながる。 知識の2つの視点(すなわち、事実三重項に基づくファクトビューと、事実三重項のソースコンテキストに基づくコンテキストビュー)は、同義名詞句と関係句を同一のグループに集約し、それら固有の識別子を割り当てるokb標準化のタスクに不可欠な補完的情報を提供する。 しかし、これまでの2つの知識観は、既存の作品によって孤立的に活用されてきた。 本稿では,手動でアノテートしたラベルを必要とせず,これら2つの知識を協調的に活用する新しいフレームワークCMVCを提案する。 この目的を達成するために、各ビューから学習したビュー固有の埋め込みのクラスタリングを、異なるクラスタリング特性を考慮して相互に強化するマルチビューCH K-Meansクラスタリングアルゴリズムを提案する。 正規化性能をさらに向上するため,各視点におけるデータ量とデータ品質の観点からトレーニングデータ最適化戦略を提案し,学習されたビュー固有の埋め込みを反復的に洗練する。 さらに、ラベルを必要とせず、データ駆動方式で最適なクラスタ数を予測できるLog-Jumpアルゴリズムを提案する。 我々は,複数の実世界のOKBデータセットに対して,最先端の手法に対する広範な実験を通じて,我々のフレームワークの優位性を実証する。

Open information extraction (OIE) methods extract plenty of OIE triples <noun phrase, relation phrase, noun phrase> from unstructured text, which compose large open knowledge bases (OKBs). Noun phrases and relation phrases in such OKBs are not canonicalized, which leads to scattered and redundant facts. It is found that two views of knowledge (i.e., a fact view based on the fact triple and a context view based on the fact triple's source context) provide complementary information that is vital to the task of OKB canonicalization, which clusters synonymous noun phrases and relation phrases into the same group and assigns them unique identifiers. However, these two views of knowledge have so far been leveraged in isolation by existing works. In this paper, we propose CMVC, a novel unsupervised framework that leverages these two views of knowledge jointly for canonicalizing OKBs without the need of manually annotated labels. To achieve this goal, we propose a multi-view CH K-Means clustering algorithm to mutually reinforce the clustering of view-specific embeddings learned from each view by considering their different clustering qualities. In order to further enhance the canonicalization performance, we propose a training data optimization strategy in terms of data quantity and data quality respectively in each particular view to refine the learned view-specific embeddings in an iterative manner. Additionally, we propose a Log-Jump algorithm to predict the optimal number of clusters in a data-driven way without requiring any labels. We demonstrate the superiority of our framework through extensive experiments on multiple real-world OKB data sets against state-of-the-art methods.
翻訳日:2022-06-23 14:12:06 公開日:2022-06-22
# SSMI:オブジェクト検出器を使わずに、関心のあるオブジェクトが消える方法

SSMI: How to Make Objects of Interest Disappear without Accessing Object Detectors? ( http://arxiv.org/abs/2206.10809v1 )

ライセンス: Link先を確認
Hui Xia, Rui Zhang, Zi Kang, Shuliang Jiang(参考訳) 対象検出器に対するブラックボックスの敵攻撃方式の多くは、主にターゲットモデルへのアクセスを必要とし、非効率な敵の例を生成するという2つの欠点に直面している。 これらの欠点を克服するために,意味的セグメンテーションとモデル反転(SSMI)に基づくブラックボックス攻撃方式を提案する。 まず,対象オブジェクトの位置を意味セグメンテーション技術を用いて特定する。 次に,対象領域の画素を背景画素に置き換えた周辺背景画素を設計し,人間の視覚で容易に検出できないようにした。 最後に、機械認識可能な例を再構成し、マスク行列を用いて再構成された例の画素を選択し、良性画像を修正して敵の例を生成する。 詳細な実験結果から、SSMIは人間の目からの知覚を回避し、興味のある物体を消滅させる効率的な敵の例を生成することができる。 さらに重要なことに、SSMIは既存の同様の攻撃よりも優れている。 新しいラベルと消えるラベルの最大増加は16%であり、オブジェクト検出のためのmAPメトリクスの最大減少は36%である。

Most black-box adversarial attack schemes for object detectors mainly face two shortcomings: requiring access to the target model and generating inefficient adversarial examples (failing to make objects disappear in large numbers). To overcome these shortcomings, we propose a black-box adversarial attack scheme based on semantic segmentation and model inversion (SSMI). We first locate the position of the target object using semantic segmentation techniques. Next, we design a neighborhood background pixel replacement to replace the target region pixels with background pixels to ensure that the pixel modifications are not easily detected by human vision. Finally, we reconstruct a machine-recognizable example and use the mask matrix to select pixels in the reconstructed example to modify the benign image to generate an adversarial example. Detailed experimental results show that SSMI can generate efficient adversarial examples to evade human-eye perception and make objects of interest disappear. And more importantly, SSMI outperforms existing same kinds of attacks. The maximum increase in new and disappearing labels is 16%, and the maximum decrease in mAP metrics for object detection is 36%.
翻訳日:2022-06-23 14:11:37 公開日:2022-06-22
# エッジインテリジェント製造に向けたテクスチャ表面欠陥の視覚検査のための特徴記憶再構成ネットワーク

A Feature Memory Rearrangement Network for Visual Inspection of Textured Surface Defects Toward Edge Intelligent Manufacturing ( http://arxiv.org/abs/2206.10830v1 )

ライセンス: Link先を確認
Haiming Yao, Wenyong Yu, Xue Wang(参考訳) 近年のテクスチャ表面の産業検査の進歩は、視覚検査という形で、効率的なフレキシブルな製造システムの実現を可能にした。 本稿では,様々なテクスチャ欠陥を同時に検出するための,教師なし機能メモリ再構成ネットワーク(FMR-Net)を提案する。 しかし,従来の知恵は欠陥のないサンプルにのみ依存するのに対し,本研究では,人工的な人工的な欠陥を利用して異常を認識できるようにする。 まず, テクスチャ面のマルチスケール特徴を得るために, 符号化モジュールを用いる。 その後、対比学習に基づくメモリ特徴モジュール(cmfm)が提案され、識別表現を得て、潜在空間に通常の特徴記憶バンクを構築し、パッチレベルでの欠陥や高速な異常スコアの代用として使用できる。 次に, 残差欠陥の再構築をさらに抑制するために, 新たなglobal feature rerangement module (gfrm) を提案する。 最後に、復号モジュールは復元された特徴を利用して通常のテクスチャ背景を再構築する。 さらに, 検査性能を向上させるため, 2段階のトレーニング戦略を高精度な欠陥修復に利用し, マルチモーダル検査手法を用いてノイズロスト欠陥の局所化を実現する。 本稿では,多段階検出手法を用いて,エッジ・クラウド・インテリジェント・マニュファクチャリング・シナリオにおける本手法の実用的展開を検証し,fmr-netが最先端の検査精度を示し,エッジ・コンピューティング対応スマート産業での利用の可能性を示すことを示す。

Recent advances in the industrial inspection of textured surfaces-in the form of visual inspection-have made such inspections possible for efficient, flexible manufacturing systems. We propose an unsupervised feature memory rearrangement network (FMR-Net) to accurately detect various textural defects simultaneously. Consistent with mainstream methods, we adopt the idea of background reconstruction; however, we innovatively utilize artificial synthetic defects to enable the model to recognize anomalies, while traditional wisdom relies only on defect-free samples. First, we employ an encoding module to obtain multiscale features of the textured surface. Subsequently, a contrastive-learning-based memory feature module (CMFM) is proposed to obtain discriminative representations and construct a normal feature memory bank in the latent space, which can be employed as a substitute for defects and fast anomaly scores at the patch level. Next, a novel global feature rearrangement module (GFRM) is proposed to further suppress the reconstruction of residual defects. Finally, a decoding module utilizes the restored features to reconstruct the normal texture background. In addition, to improve inspection performance, a two-phase training strategy is utilized for accurate defect restoration refinement, and we exploit a multimodal inspection method to achieve noise-robust defect localization. We verify our method through extensive experiments and test its practical deployment in collaborative edge--cloud intelligent manufacturing scenarios by means of a multilevel detection method, demonstrating that FMR-Net exhibits state-of-the-art inspection accuracy and shows great potential for use in edge-computing-enabled smart industries.
翻訳日:2022-06-23 14:09:39 公開日:2022-06-22
# 合成データに基づくインスタンス分割のための並列事前学習変換器(PPT)

Parallel Pre-trained Transformers (PPT) for Synthetic Data-based Instance Segmentation ( http://arxiv.org/abs/2206.10845v1 )

ライセンス: Link先を確認
Ming Li, Jie Wu, Jinhang Cai, Jie Qin, Yuxi Ren, Xuefeng Xiao, Min Zheng, Rui Wang, Xin Pan(参考訳) 近年、シミュレーションレンダリングと物理を利用して高品質な画像アノテーションペアを生成するため、シンセティックデータベースのインスタンスセグメンテーションは、非常に好ましい最適化パラダイムとなっている。 本稿では,合成データに基づくインスタンスセグメンテーションタスクを実現するために,ppt(parallel pre-trained transformers)フレームワークを提案する。 具体的には,人工データと自然データとのギャップを緩和するために,既成の視覚トランスを活用し,サンプル数が少ない下流合成データシーンにおける良好な一般化を実現する。 並列特徴学習にはSwin-BベースのCBNet V2,Swin-LベースのCBNet V2,Swin-LベースのUniformerが使用され,これらの3つのモデルの結果はピクセルレベルの非最大抑圧(NMS)アルゴリズムによって融合され,より堅牢な結果が得られる。 実験の結果、pptは65.155%の地図でcvpr2022 avaアクセシビリティビジョンと自律性チャレンジで1位となった。

Recently, Synthetic data-based Instance Segmentation has become an exceedingly favorable optimization paradigm since it leverages simulation rendering and physics to generate high-quality image-annotation pairs. In this paper, we propose a Parallel Pre-trained Transformers (PPT) framework to accomplish the synthetic data-based Instance Segmentation task. Specifically, we leverage the off-the-shelf pre-trained vision Transformers to alleviate the gap between natural and synthetic data, which helps to provide good generalization in the downstream synthetic data scene with few samples. Swin-B-based CBNet V2, SwinL-based CBNet V2 and Swin-L-based Uniformer are employed for parallel feature learning, and the results of these three models are fused by pixel-level Non-maximum Suppression (NMS) algorithm to obtain more robust results. The experimental results reveal that PPT ranks first in the CVPR2022 AVA Accessibility Vision and Autonomy Challenge, with a 65.155% mAP.
翻訳日:2022-06-23 14:09:13 公開日:2022-06-22
# facke:顔交換のための生成モデルに関する調査

Facke: a Survey on Generative Models for Face Swapping ( http://arxiv.org/abs/2206.11203v1 )

ライセンス: Link先を確認
Wei Jiang and Wentao Dong(参考訳) 本研究では,顔交換のタスクにおいて,主流のニューラル生成モデルの性能について検討する。 CVAE,CGAN,CVAE-GAN,条件付き拡散モデルについて実験を行った。 既存の精巧に訓練されたモデルは、肉眼で識別できない偽の顔(Facke)を生成し、高い客観的な測定値を得ることができた。 私たちはそれらの比較を行い、彼らの長所と短所を分析します。 さらに,この課題には適用されないが,有望なトリックをいくつか提案した。

In this work, we investigate into the performance of mainstream neural generative models on the very task of swapping faces. We have experimented on CVAE, CGAN, CVAE-GAN, and conditioned diffusion models. Existing finely trained models have already managed to produce fake faces (Facke) indistinguishable to the naked eye as well as achieve high objective metrics. We perform a comparison among them and analyze their pros and cons. Furthermore, we proposed some promising tricks though they do not apply to this task.
翻訳日:2022-06-23 14:08:52 公開日:2022-06-22
# Answer Fast: Tensor Streaming Processor上でのBERTの高速化

Answer Fast: Accelerating BERT on the Tensor Streaming Processor ( http://arxiv.org/abs/2206.11062v1 )

ライセンス: Link先を確認
Ibrahim Ahmed, Sahil Parmar, Matthew Boyd, Michael Beidler, Kris Kang, Bill Liu, Kyle Roach, John Kim and Dennis Abts(参考訳) トランスフォーマーは機械学習のワークロードの大部分を占めており、自然言語処理タスクのデファクトスタンダードであるだけでなく、視覚や音声認識といった他の領域にもデプロイされている。 トランスフォーマーベースのアプリケーションの多くは、機械翻訳やWeb検索のようなリアルタイムシステムである。 これらのリアルタイムシステムは、しばしば厳格なエンドツーエンドの推論遅延要件を伴います。 残念なことに、トランスフォーマーの計算の大半は行列乗算によるものであるが、トランスフォーマーには推論時にボトルネックになる傾向にあるいくつかの非線形成分も含まれている。 本研究では,テンソルストリーミングプロセッサ上でのBERTモデルの推論を高速化する。 行列乗算成分で全ての非線形成分を慎重に融合させることで、現在の最先端よりも6倍高速なBERTベースのバッチ-1推論において、決定論的テールレイテンシが130$\mu$sとなるようなオンチップ行列乗算単位を効率的に利用することができる。

Transformers have become a predominant machine learning workload, they are not only the de-facto standard for natural language processing tasks, but they are also being deployed in other domains such as vision and speech recognition. Many of the transformer-based applications are real-time systems such as machine translation and web search. These real time systems often come with strict end-to-end inference latency requirements. Unfortunately, while the majority of the transformer computation comes from matrix multiplications, transformers also include several non-linear components that tend to become the bottleneck during an inference. In this work, we accelerate the inference of BERT models on the tensor streaming processor. By carefully fusing all the nonlinear components with the matrix multiplication components, we are able to efficiently utilize the on-chip matrix multiplication units resulting in a deterministic tail latency of 130 $\mu$s for a batch-1 inference through BERT-base, which is 6X faster than the current state-of-the-art.
翻訳日:2022-06-23 14:08:44 公開日:2022-06-22
# ヘテロジニアスグラフニューラルネットワークにおける関係認識エネルギーの降下ステップ

Descent Steps of a Relation-Aware Energy Produce Heterogeneous Graph Neural Networks ( http://arxiv.org/abs/2206.11081v1 )

ライセンス: Link先を確認
Hongjoon Ahn, Youngyi Yang, Quan Gan, David Wipf and Taesup Moon(参考訳) 不均一グラフニューラルネットワーク(GNN)は、半教師付き学習環境においてノード分類タスクにおいて高い性能を達成する。 しかし、より単純な同種GNNの場合と同様に、メッセージパッシングに基づく異種GNNは、深層モデルで発生する過度な平滑化と、長距離依存グラフ構造データとのバランスをとるのに苦労する可能性がある。 さらに、このトレードオフの複雑さは、異なるタイプのノード間の異種不均一関係のため、異種グラフの場合において複雑になる。 これらの問題に対処するため、我々は、新しい関係認識エネルギー関数を導出する最適化ステップから層を導出する異種GNNアーキテクチャを提案する。 対応する最小化器はエネルギー関数パラメータに関して完全に微分可能であり、次の分類タスクに対して最小が最適なノード表現を提供する機能形式を効果的に学習するために二段階最適化を適用することができる。 特に,本手法では,多種多様なノード間のヘテロフィリな関係をモデル化できる。 8つの異種グラフベンチマークの実験結果から,提案手法が競合ノードの分類精度を向上できることが示された。

Heterogeneous graph neural networks (GNNs) achieve strong performance on node classification tasks in a semi-supervised learning setting. However, as in the simpler homogeneous GNN case, message-passing-based heterogeneous GNNs may struggle to balance between resisting the oversmoothing occuring in deep models and capturing long-range dependencies graph structured data. Moreover, the complexity of this trade-off is compounded in the heterogeneous graph case due to the disparate heterophily relationships between nodes of different types. To address these issues, we proposed a novel heterogeneous GNN architecture in which layers are derived from optimization steps that descend a novel relation-aware energy function. The corresponding minimizer is fully differentiable with respect to the energy function parameters, such that bilevel optimization can be applied to effectively learn a functional form whose minimum provides optimal node representations for subsequent classification tasks. In particular, this methodology allows us to model diverse heterophily relationships between different node types while avoiding oversmoothing effects. Experimental results on 8 heterogeneous graph benchmarks demonstrates that our proposed method can achieve competitive node classification accuracy.
翻訳日:2022-06-23 14:05:32 公開日:2022-06-22
# (参考訳) ビヘイビアトランスフォーマー:1石で$k$モードをクローンする

Behavior Transformers: Cloning $k$ modes with one stone ( http://arxiv.org/abs/2206.11251v1 )

ライセンス: CC BY 4.0
Nur Muhammad Mahi Shafiullah, Zichen Jeff Cui, Ariuntuya Altanzaya, Lerrel Pinto(参考訳) 近年、行動学習は目覚ましい進歩を遂げているが、人間の生成した大規模なデータセットを活用できないため、コンピュータビジョンや自然言語処理に遅れを取っている。 人間の行動は幅広いばらつきを持ち、複数のモードがあり、人間のデモは通常報酬ラベルを持っていない。 これらの特性は、オフラインRLおよびビヘイビア・クローンにおける現在のメソッドの適用性を制限する。 本研究では,複数のモードでラベルのない実演データをモデル化する新しい手法であるBeTを提案する。 BeTは、オブジェクト検出におけるオフセット予測にインスパイアされたマルチタスクアクション補正と合わせて、アクションの離散化を伴う標準トランスフォーマーアーキテクチャに適合する。 これにより、現代変圧器のマルチモーダルモデリング能力を利用して、マルチモーダル連続動作を予測することができる。 さまざまなロボット操作と自律行動データセットを用いてBeTを実験的に評価した。 我々は,事前収集したデータセットに存在する主要なモードをキャプチャしながら,実演されたタスクを解決するための事前の作業よりも,betが大幅に改善することを示す。 最後に, 広範囲なアブレーション研究を通じて, 賭けにおける重要成分の重要度を解析した。 BeTが生成した振る舞いのビデオはhttps://notmahi.github.io/betで公開されている。

While behavior learning has made impressive progress in recent times, it lags behind computer vision and natural language processing due to its inability to leverage large, human-generated datasets. Human behaviors have wide variance, multiple modes, and human demonstrations typically do not come with reward labels. These properties limit the applicability of current methods in Offline RL and Behavioral Cloning to learn from large, pre-collected datasets. In this work, we present Behavior Transformer (BeT), a new technique to model unlabeled demonstration data with multiple modes. BeT retrofits standard transformer architectures with action discretization coupled with a multi-task action correction inspired by offset prediction in object detection. This allows us to leverage the multi-modal modeling ability of modern transformers to predict multi-modal continuous actions. We experimentally evaluate BeT on a variety of robotic manipulation and self-driving behavior datasets. We show that BeT significantly improves over prior state-of-the-art work on solving demonstrated tasks while capturing the major modes present in the pre-collected datasets. Finally, through an extensive ablation study, we analyze the importance of every crucial component in BeT. Videos of behavior generated by BeT are available at https://notmahi.github.io/bet
翻訳日:2022-06-23 14:02:59 公開日:2022-06-22
# visfis:right-for-the-reason目的による視覚的特徴重要度監督

VisFIS: Visual Feature Importance Supervision with Right-for-the-Right-Reason Objectives ( http://arxiv.org/abs/2206.11212v1 )

ライセンス: Link先を確認
Zhuofan Ying, Peter Hase, Mohit Bansal(参考訳) 多くの過去の研究は、重要な画像領域のハイライトなどの人間のアノテーションで特徴の重要性(モデル説明手法によって推定される)を監督することで、モデルの視覚的推論を改善することを目的としている。 しかし、近年の研究では、視覚質問応答(vqa)タスクに対する機能重要度(fi)監督によるパフォーマンス向上がランダムな監督でも持続していることが示されており、これらの手法がmodel fiを人間のfiと有意義に一致させるものではないことを示唆している。 In this paper, we show that model FI supervision can meaningfully improve VQA model accuracy as well as performance on several Right-for-the-Right-Reason (RRR) metrics by optimizing for four key model objectives: (1) accurate predictions given limited but sufficient information (Sufficiency); (2) max-entropy predictions given no important information (Uncertainty); (3) invariance of predictions to changes in unimportant features (Invariance); and (4) alignment between model FI explanations and human FI explanations (Plausibility). 当社の最高のパフォーマンス手法であるVisual Feature Importance Supervision (VisFIS)は、VQAデータセットの分布内と分布外の両方の精度において、ベンチマークVQAデータセットの強いベースラインを上回ります。 過去の研究は、精度向上のメカニズムは説明の妥当性の向上によるものであることを示唆しているが、この関係は説明の忠実性(説明がモデルの内部的推論を真に表すかどうか)に大きく依存していることを示している。 予測は説明が妥当で忠実である場合の方が正確であり、説明が妥当であるが忠実でない場合ではない。 最後に,RRR測度は,モデルの分布内精度を制御する際に,分布外モデルの精度を予測できないことを示し,モデル推論を評価するためにこれらの測度の価値を疑問視する。 すべてのサポートコードはhttps://github.com/zfying/visfisで入手できる。

Many past works aim to improve visual reasoning in models by supervising feature importance (estimated by model explanation techniques) with human annotations such as highlights of important image regions. However, recent work has shown that performance gains from feature importance (FI) supervision for Visual Question Answering (VQA) tasks persist even with random supervision, suggesting that these methods do not meaningfully align model FI with human FI. In this paper, we show that model FI supervision can meaningfully improve VQA model accuracy as well as performance on several Right-for-the-Right-Reason (RRR) metrics by optimizing for four key model objectives: (1) accurate predictions given limited but sufficient information (Sufficiency); (2) max-entropy predictions given no important information (Uncertainty); (3) invariance of predictions to changes in unimportant features (Invariance); and (4) alignment between model FI explanations and human FI explanations (Plausibility). Our best performing method, Visual Feature Importance Supervision (VisFIS), outperforms strong baselines on benchmark VQA datasets in terms of both in-distribution and out-of-distribution accuracy. While past work suggests that the mechanism for improved accuracy is through improved explanation plausibility, we show that this relationship depends crucially on explanation faithfulness (whether explanations truly represent the model's internal reasoning). Predictions are more accurate when explanations are plausible and faithful, and not when they are plausible but not faithful. Lastly, we show that, surprisingly, RRR metrics are not predictive of out-of-distribution model accuracy when controlling for a model's in-distribution accuracy, which calls into question the value of these metrics for evaluating model reasoning. All supporting code is available at https://github.com/zfying/visfis
翻訳日:2022-06-23 13:37:04 公開日:2022-06-22
# 統語的役割による文表現における教師なし内容の絡み合い

Towards Unsupervised Content Disentanglement in Sentence Representations via Syntactic Roles ( http://arxiv.org/abs/2206.11184v1 )

ライセンス: Link先を確認
Ghazi Felhi, Joseph Le Roux, Djam\'e Seddah(参考訳) 言語因子に神経表現をリンクすることは、人間の解釈可能なNLPモデルの構築と解析に不可欠である。 これらの要因のうち、構文的役割(主題、直接対象、$\dots$)とその実現は、述語構造と文の意味の分解として理解されるため、必須のマーカーである。 注意深い確率的生成モデルから,潜在変数間の相互作用と構文的役割の実現を計測し,異なる構文的役割が明瞭に識別された異なる潜在的変数に対応する文の表現を監督することなく得ることができることを示した。 私たちが提案する確率モデルは注意駆動型変分オートエンコーダ(advae)である。 トランスフォーマーベースの機械翻訳モデルからインスピレーションを得たADVAEは、注意を通して潜在変数と入力トークン間の相互作用の分析を可能にする。 また,構文的役割の実現に関して,絡み合いを測定するための評価プロトコルを開発した。 このプロトコルは、エンコーダの注意最大値とデコーダの潜伏変数摂動に基づいている。 snliデータセットからの生の英語テキストについての実験では,$\textit{i)}$構文的役割の不等角化は監督なしで誘導可能であること,$\textit{ii)}$ advaeは古典的シーケンスvaesとトランスフォーマーvaesよりも構文的役割を分離すること,$\textit{iii)}$構文的役割の実現は,関連する潜在変数に対する単なる介入によって文中で別々に修正可能であることが示されている。 我々の仕事は、教師なし制御可能なコンテンツ生成への第一歩を構成する。 私たちの仕事のコードは公開されています。

Linking neural representations to linguistic factors is crucial in order to build and analyze NLP models interpretable by humans. Among these factors, syntactic roles (e.g. subjects, direct objects,$\dots$) and their realizations are essential markers since they can be understood as a decomposition of predicative structures and thus the meaning of sentences. Starting from a deep probabilistic generative model with attention, we measure the interaction between latent variables and realizations of syntactic roles and show that it is possible to obtain, without supervision, representations of sentences where different syntactic roles correspond to clearly identified different latent variables. The probabilistic model we propose is an Attention-Driven Variational Autoencoder (ADVAE). Drawing inspiration from Transformer-based machine translation models, ADVAEs enable the analysis of the interactions between latent variables and input tokens through attention. We also develop an evaluation protocol to measure disentanglement with regard to the realizations of syntactic roles. This protocol is based on attention maxima for the encoder and on latent variable perturbations for the decoder. Our experiments on raw English text from the SNLI dataset show that $\textit{i)}$ disentanglement of syntactic roles can be induced without supervision, $\textit{ii)}$ ADVAE separates syntactic roles better than classical sequence VAEs and Transformer VAEs, $\textit{iii)}$ realizations of syntactic roles can be separately modified in sentences by mere intervention on the associated latent variables. Our work constitutes a first step towards unsupervised controllable content generation. The code for our work is publicly available.
翻訳日:2022-06-23 13:36:30 公開日:2022-06-22
# PACベイを通した冷間後部

Cold Posteriors through PAC-Bayes ( http://arxiv.org/abs/2206.11173v1 )

ライセンス: Link先を確認
Konstantinos Pitas, Julyan Arbel(参考訳) PAC-Bayes一般化境界のレンズによる冷後効果について検討した。 非漸近的な環境では、トレーニングサンプルの数(相対的に)が小さい場合には、ベイズ近似がサンプル外データの性能保証を容易に提供できないことを考慮し、冷間後効果に関する議論を考慮すべきである。 代わりに、アウト・オブ・サンプルエラーは一般化境界によってよりよく記述される。 この文脈では、変動推論からELBO目標とPAC-Bayes目標の関連性を検討する。 elbo と pac-bayes の目標は似ているが、後者の目標は自然に $\lambda=1$ と制限されない温度パラメータ $\lambda$ を含む。 回帰と分類のタスクでは, 後方への等方ラプラス近似の場合, 温度パラメータのpac-ベイズ解釈が寒冷後効果をどのように捉えているかを示す。

We investigate the cold posterior effect through the lens of PAC-Bayes generalization bounds. We argue that in the non-asymptotic setting, when the number of training samples is (relatively) small, discussions of the cold posterior effect should take into account that approximate Bayesian inference does not readily provide guarantees of performance on out-of-sample data. Instead, out-of-sample error is better described through a generalization bound. In this context, we explore the connections between the ELBO objective from variational inference and the PAC-Bayes objectives. We note that, while the ELBO and PAC-Bayes objectives are similar, the latter objectives naturally contain a temperature parameter $\lambda$ which is not restricted to be $\lambda=1$. For both regression and classification tasks, in the case of isotropic Laplace approximations to the posterior, we show how this PAC-Bayesian interpretation of the temperature parameter captures the cold posterior effect.
翻訳日:2022-06-23 13:35:32 公開日:2022-06-22
# (参考訳) 尾のみ--凸系における平均ケース普遍性とロバスト性

Only Tails Matter: Average-Case Universality and Robustness in the Convex Regime ( http://arxiv.org/abs/2206.09901v2 )

ライセンス: CC BY 4.0
Leonardo Cunha, Gauthier Gidel, Fabian Pedregosa, Damien Scieur and Courtney Paquette(参考訳) 最近開発された最適化手法の平均ケース解析により、通常の最悪の結果よりも細粒度で代表的な収束解析が可能になる。 それと引き換えに、この分析はデータ生成プロセスに関するより正確な仮説、すなわち問題に関連するランダム行列の期待スペクトル分布(esd)の知識を仮定する必要がある。 この研究は、ESDの端付近の固有値の濃度が問題の漸近平均複雑性を決定することを示している。 この濃度に関する事前情報は、ESDの完全な知識よりも基礎的な仮定である。 この近似濃度は、最悪のシナリオ収束の粗さと制限的な前の平均ケース分析の中間点である。 また、この濃度に関する仮説の下で漸近的に最適であり、esdがベータ分布に従うとグローバルに最適である一般化されたchebyshev法も導入する。 我々はその性能を勾配降下やネステロフのスキームのような古典的な最適化アルゴリズムと比較し、平均的な文脈ではネステロフの手法は漸近的にほぼ最適であることを示す。

The recently developed average-case analysis of optimization methods allows a more fine-grained and representative convergence analysis than usual worst-case results. In exchange, this analysis requires a more precise hypothesis over the data generating process, namely assuming knowledge of the expected spectral distribution (ESD) of the random matrix associated with the problem. This work shows that the concentration of eigenvalues near the edges of the ESD determines a problem's asymptotic average complexity. This a priori information on this concentration is a more grounded assumption than complete knowledge of the ESD. This approximate concentration is effectively a middle ground between the coarseness of the worst-case scenario convergence and the restrictive previous average-case analysis. We also introduce the Generalized Chebyshev method, asymptotically optimal under a hypothesis on this concentration and globally optimal when the ESD follows a Beta distribution. We compare its performance to classical optimization algorithms, such as gradient descent or Nesterov's scheme, and we show that, in the average-case context, Nesterov's method is universally nearly optimal asymptotically.
翻訳日:2022-06-23 12:48:14 公開日:2022-06-22
# (参考訳) Graphical Join: RDBMSのための新しい物理結合アルゴリズム

Graphical Join: A New Physical Join Algorithm for RDBMSs ( http://arxiv.org/abs/2206.10435v2 )

ライセンス: CC BY-SA 4.0
Ali Mohammadi Shanghooshabad and Peter Triantafillou(参考訳) 結合操作(特にn-way, many-to-many joins)は時間とリソース消費であることが知られている。 大規模では、テーブルサイズとジョインサイズに関して、現在の最先端技術(Nested-loop/Hash/Sort-merge Joinアルゴリズムを使ったバイナリジョイン計画と、最悪ケースの最適ジョインアルゴリズム(WOJA)の両方を含む)は、適切なリソースと時間制約を与えられた答えを生成できない。 本稿では, n-way equi-join処理のための新しい手法であるgraphical join (gj)を提案する。 まず、物理結合計算問題をPGMにマッピングし、Run-Length Encoding (RLE)ベースの結合-resultサマリを計算できる微調整推論アルゴリズムを導入する。 第2に,上述のジョイン/リサート要約を生成してデサム化するGJのような結合アルゴリズムが,時間と空間において大きなパフォーマンス上のメリットをもたらすことを示す。 JOB、TPCDS、最後のFMデータセットからの結合クエリを用いて総合的な実験が行われ、PostgresQLとMonetDBに対するGJと、Umbraシステムで実装されたアートWOJAの状態を比較している。 インメモリ結合計算の結果、PostgreSQL、MonetDB、Umbraよりも64X、388X、6倍パフォーマンスが向上した。 ディスク上の結合計算では、GJはPostgreSQL、MonetDB、Umbraよりも最大820X、717X、165X高速である。 さらに、GJスペースの必要性は、PostgresQL、MonetDB、Umbraよりも最大21,488X、38,333X、78,750X小さい。

Join operations (especially n-way, many-to-many joins) are known to be time- and resource-consuming. At large scales, with respect to table and join-result sizes, current state of the art approaches (including both binary-join plans which use Nested-loop/Hash/Sort-merge Join algorithms or, alternatively, worst-case optimal join algorithms (WOJAs)), may even fail to produce any answer given reasonable resource and time constraints. In this work, we introduce a new approach for n-way equi-join processing, the Graphical Join (GJ). The key idea is two-fold: First, to map the physical join computation problem to PGMs and introduce tweaked inference algorithms which can compute a Run-Length Encoding (RLE) based join-result summary, entailing all statistics necessary to materialize the join result. Second, and most importantly, to show that a join algorithm, like GJ, which produces the above join-result summary and then desummarizes it, can introduce large performance benefits in time and space. Comprehensive experimentation is undertaken with join queries from the JOB, TPCDS, and lastFM datasets, comparing GJ against PostgresQL and MonetDB and a state of the art WOJA implemented within the Umbra system. The results for in-memory join computation show performance improvements up to 64X, 388X, and 6X faster than PostgreSQL, MonetDB and Umbra, respectively. For on-disk join computation, GJ is faster than PostgreSQL, MonetDB and Umbra by up to 820X, 717X and 165X, respectively. Furthermore, GJ space needs are up to 21,488X, 38,333X, and 78,750X smaller than PostgresQL, MonetDB, and Umbra, respectively.
翻訳日:2022-06-23 12:28:03 公開日:2022-06-22
# 遺伝的ドリフトの理解から分布推定アルゴリズムのスマートリスタート機構へ

From Understanding Genetic Drift to a Smart-Restart Mechanism for Estimation-of-Distribution Algorithms ( http://arxiv.org/abs/2206.09090v2 )

ライセンス: Link先を確認
Weijie Zheng, Benjamin Doerr(参考訳) 推定分布アルゴリズム(EDAs)は、優れた解を容易にサンプリングできる探索空間上の分布を学習する最適化アルゴリズムである。 ほとんどのEDAのキーパラメータはサンプルサイズ(集団サイズ)である。 集団サイズが小さすぎると、確率モデルの更新は少数のサンプルの上に構築され、遺伝的ドリフトの望ましくない影響をもたらす。 人口が多すぎると遺伝的ドリフトは避けられますが、プロセスは遅くなります。 集団の大きさが遺伝的ドリフトにどのように繋がるかの最近の定量的分析に基づいて、我々はEDAのためのスマートリスタート機構を設計する。 遺伝的ドリフトのリスクが高い場合に実行を停止することで、適切なパラメータで自動的にedaを実行します。 数学的な実行時解析により、このスマートリスタート方式の一般的な性能保証が証明される。 特に、最適パラメータ値が知られている多くの状況において、再起動スキームが自動的にこれらを見つけ出し、漸近的に最適な性能をもたらすことが示されている。 広範な実験分析も行っています。 4つの古典的なベンチマーク問題において,個体群の大きさが性能に与える影響を明らかに観察し,スマートリスタート方式が最適なパラメータ値で得られるものに近い性能をもたらすことを見出した。 また, 最適個体数に対する従来の理論に基づく提案は, 最適個体数とは程遠い可能性を示し, スマートリスタート方式によって得られた提案よりも明らかに性能が劣ることを示した。 また,2つの組合せ最適化問題,最大カット問題,分割問題についてもPBIL(クロスエントロピーアルゴリズム)を用いて実験を行った。 繰り返しになるが、スマートリスタート機構は文献で示唆されているものよりも人口規模に対してはるかに優れた値を見出すので、パフォーマンスが向上する。

Estimation-of-distribution algorithms (EDAs) are optimization algorithms that learn a distribution on the search space from which good solutions can be sampled easily. A key parameter of most EDAs is the sample size (population size). If the population size is too small, the update of the probabilistic model builds on few samples, leading to the undesired effect of genetic drift. Too large population sizes avoid genetic drift, but slow down the process. Building on a recent quantitative analysis of how the population size leads to genetic drift, we design a smart-restart mechanism for EDAs. By stopping runs when the risk for genetic drift is high, it automatically runs the EDA in good parameter regimes. Via a mathematical runtime analysis, we prove a general performance guarantee for this smart-restart scheme. This in particular shows that in many situations where the optimal (problem-specific) parameter values are known, the restart scheme automatically finds these, leading to the asymptotically optimal performance. We also conduct an extensive experimental analysis. On four classic benchmark problems, we clearly observe the critical influence of the population size on the performance, and we find that the smart-restart scheme leads to a performance close to the one obtainable with optimal parameter values. Our results also show that previous theory-based suggestions for the optimal population size can be far from the optimal ones, leading to a performance clearly inferior to the one obtained via the smart-restart scheme. We also conduct experiments with PBIL (cross-entropy algorithm) on two combinatorial optimization problems from the literature, the max-cut problem and the bipartition problem. Again, we observe that the smart-restart mechanism finds much better values for the population size than those suggested in the literature, leading to a much better performance.
翻訳日:2022-06-23 12:00:25 公開日:2022-06-22
# CVPR'2022 AQTCチャレンジの勝者:2段階関数中心アプローチ

Winning the CVPR'2022 AQTC Challenge: A Two-stage Function-centric Approach ( http://arxiv.org/abs/2206.09597v2 )

ライセンス: Link先を確認
Shiwei Wu, Weidong He, Tong Xu, Hao Wang, Enhong Chen(参考訳) AQTC(Affordance-centric Question-driven Task Completion for Egocentric Assistant)は、AIアシスタントが指導ビデオやスクリプトから学習し、ユーザのステップバイステップをガイドするのに役立つ新しいタスクである。 本稿では,aqtcを2段階の関数中心のアプローチで扱う。これは質問2関数モジュールからなり,質問を関連する関数と関数2アンスワーモジュールで基礎化し,過去のステップに基づいて行動を予測する。 各モジュールの可能なソリューションをいくつか評価し,与えられたベースラインと比較して有意な利益を得た。 我々のコードは \url{https://github.com/starsholic/LOVEU-CVPR22-AQTC} で入手できる。

Affordance-centric Question-driven Task Completion for Egocentric Assistant(AQTC) is a novel task which helps AI assistant learn from instructional videos and scripts and guide the user step-by-step. In this paper, we deal with the AQTC via a two-stage Function-centric approach, which consists of Question2Function Module to ground the question with the related function and Function2Answer Module to predict the action based on the historical steps. We evaluated several possible solutions in each module and obtained significant gains compared to the given baselines. Our code is available at \url{https://github.com/starsholic/LOVEU-CVPR22-AQTC}.
翻訳日:2022-06-23 11:59:55 公開日:2022-06-22
# 効率的なunetsとtransformerを用いた高分解能画像の意味的ラベリング

Semantic Labeling of High Resolution Images Using EfficientUNets and Transformers ( http://arxiv.org/abs/2206.09731v2 )

ライセンス: Link先を確認
Hasan AlMarzouqi and Lyes Saad Saoud(参考訳) セマンティックセグメンテーションは大量のデータを扱う際に高いレベルの特性を学ぶアプローチを必要とする。 畳み込みニューラルネットワーク(CNN)はこの目的を達成するためにユニークで適応的な特徴を学ぶことができる。 しかし、リモートセンシング画像のサイズが大きく空間解像度が高いため、これらのネットワークはシーン全体を効率的に分析することはできない。 近年、ディープ・トランスフォーマーは、画像内の異なるオブジェクト間のグローバルな相互作用を記録する能力を証明している。 本稿では,畳み込みニューラルネットワークと変圧器を組み合わせた新たなセグメンテーションモデルを提案する。 さらに,提案モデルには,マルチモーダル入力とネットワーク出力を効率的に表現する2つの融合層が含まれている。 入力融合層は、画像内容と標高マップ(DSM)の関係を要約した特徴写像を抽出する。 出力融合層は、クラス固有の特徴抽出層と損失関数を用いてクラスラベルを識別する、新しいマルチタスクセグメンテーション戦略を使用する。 最後に、すべての未知のクラスラベルを最も近い隣人に変換するために、高速マーチングメソッドが使用される。 提案手法は,最先端技術に比べてセグメント化精度が向上することを示す。

Semantic segmentation necessitates approaches that learn high-level characteristics while dealing with enormous amounts of data. Convolutional neural networks (CNNs) can learn unique and adaptive features to achieve this aim. However, due to the large size and high spatial resolution of remote sensing images, these networks cannot analyze an entire scene efficiently. Recently, deep transformers have proven their capability to record global interactions between different objects in the image. In this paper, we propose a new segmentation model that combines convolutional neural networks with transformers, and show that this mixture of local and global feature extraction techniques provides significant advantages in remote sensing segmentation. In addition, the proposed model includes two fusion layers that are designed to represent multi-modal inputs and output of the network efficiently. The input fusion layer extracts feature maps summarizing the relationship between image content and elevation maps (DSM). The output fusion layer uses a novel multi-task segmentation strategy where class labels are identified using class-specific feature extraction layers and loss functions. Finally, a fast-marching method is used to convert all unidentified class labels to their closest known neighbors. Our results demonstrate that the proposed methodology improves segmentation accuracy compared to state-of-the-art techniques.
翻訳日:2022-06-23 11:59:43 公開日:2022-06-22
# プライバシーオニオン効果:記憶力は相対的

The Privacy Onion Effect: Memorization is Relative ( http://arxiv.org/abs/2206.10469v2 )

ライセンス: Link先を確認
Nicholas Carlini, Matthew Jagielski, Chiyuan Zhang, Nicolas Papernot, Andreas Terzis, Florian Tramer(参考訳) プライベートデータセットでトレーニングされた機械学習モデルは、プライベートデータを漏洩することが示されている。 最近の研究によると、平均的なデータポイントがリークされることはほとんどないが、外れ値のサンプルはしばしば暗記され、結果としてプライバシーが漏洩する。 プライバシ攻撃に最も脆弱なインタラヤポイントの"レイヤ"を削除することで、前もって安全だったポイントの新たなレイヤを同じ攻撃に公開する。 この効果を研究するためにいくつかの実験を行い、なぜそれが起こるのかを理解する。 この効果の存在は様々な結果をもたらす。 例えば、厳格なプライバシー保証のトレーニングを伴わずに暗記を擁護する提案は効果が低いことを示唆している。 さらに、機械学習のようなプライバシー向上技術が、他のユーザーのプライバシーを損なう可能性があることも示唆している。

Machine learning models trained on private datasets have been shown to leak their private data. While recent work has found that the average data point is rarely leaked, the outlier samples are frequently subject to memorization and, consequently, privacy leakage. We demonstrate and analyse an Onion Effect of memorization: removing the "layer" of outlier points that are most vulnerable to a privacy attack exposes a new layer of previously-safe points to the same attack. We perform several experiments to study this effect, and understand why it occurs. The existence of this effect has various consequences. For example, it suggests that proposals to defend against memorization without training with rigorous privacy guarantees are unlikely to be effective. Further, it suggests that privacy-enhancing technologies such as machine unlearning could actually harm the privacy of other users.
翻訳日:2022-06-23 11:59:22 公開日:2022-06-22
# sqsgd: ローカルプライベートと通信効率のよい連合学習

sqSGD: Locally Private and Communication Efficient Federated Learning ( http://arxiv.org/abs/2206.10565v2 )

ライセンス: Link先を確認
Yan Feng, Tao Xiong, Ruofan Wu, LingJuan Lv, Leilei Shi(参考訳) Federated Learning(FL)は、分散データソースから機械学習モデルをトレーニングするテクニックである。 我々は、FLをプライバシー制約というローカルな概念の下で研究し、クライアントを離れる前にデータを難読化することで機密データ開示に対して強力な保護を提供する。 実用的プライバシー保護FLアルゴリズムの設計における主な関心点として,通信効率と高次元互換性の2つを挙げる。 次に,2つの関心事に対応する勾配型学習アルゴリズム \emph{sqsgd} (selective quantized stochastic gradient descent) を開発した。 提案アルゴリズムは,クライアント1次元当たりのビット数が一定である新しいプライバシ保存量子化方式に基づいている。 次に,基本アルゴリズムを3つの方法で改善する。まず,固定されたプライバシ予算の下で,より優れたトレーニング性能とより少ない通信コストを同時に提供する,勾配サブサンプリング戦略を適用する。 次に,ランダム化回転を前処理ステップとして利用し,量子化誤差を低減する。 第3に,適応勾配ノルム上界収縮戦略を採用し,精度の向上とトレーニングの安定化を図る。 最後に,提案フレームワークの実用性をベンチマークデータセットで実証する。 実験の結果、sqSGDはローカルのプライバシー制約でLeNetやResNetのような大規模なモデルをうまく学習していることがわかった。 さらに、固定されたプライバシーと通信レベルにおいて、sqsgdの性能は様々なベースラインアルゴリズムのそれを大幅に上回っている。

Federated learning (FL) is a technique that trains machine learning models from decentralized data sources. We study FL under local notions of privacy constraints, which provides strong protection against sensitive data disclosures via obfuscating the data before leaving the client. We identify two major concerns in designing practical privacy-preserving FL algorithms: communication efficiency and high-dimensional compatibility. We then develop a gradient-based learning algorithm called \emph{sqSGD} (selective quantized stochastic gradient descent) that addresses both concerns. The proposed algorithm is based on a novel privacy-preserving quantization scheme that uses a constant number of bits per dimension per client. Then we improve the base algorithm in three ways: first, we apply a gradient subsampling strategy that simultaneously offers better training performance and smaller communication costs under a fixed privacy budget. Secondly, we utilize randomized rotation as a preprocessing step to reduce quantization error. Thirdly, an adaptive gradient norm upper bound shrinkage strategy is adopted to improve accuracy and stabilize training. Finally, the practicality of the proposed framework is demonstrated on benchmark datasets. Experiment results show that sqSGD successfully learns large models like LeNet and ResNet with local privacy constraints. In addition, with fixed privacy and communication level, the performance of sqSGD significantly dominates that of various baseline algorithms.
翻訳日:2022-06-23 11:59:07 公開日:2022-06-22
# ロバスト飛行制御のためのニューラル移動水平推定

Neural Moving Horizon Estimation for Robust Flight Control ( http://arxiv.org/abs/2206.10397v2 )

ライセンス: Link先を確認
Bingheng Wang, Zhengtian Ma, Shupeng Lai, and Lin Zhao(参考訳) 外乱に対する推定と反応は、クワッドローターのロバストな飛行制御に不可欠である。 既存の推定器は通常、満足な性能を達成するために、特定の飛行シナリオの大幅なチューニングや、広範な実世界のデータによるトレーニングを必要とする。 本稿では,ニューラルネットワークによってモデル化されたMHEパラメータを自動的に調整し,異なる飛行シナリオに適応できるニューロ移動地平線推定器を提案する。 本研究では,mheのパラメータに関する推定値の解析勾配を導出し,mheを層としてニューラルネットワークにシームレスに埋め込み,高効率な学習を実現する。 最も興味深いのは、カルマンフィルタから再帰的に勾配を効率的に解くことができることである。 さらに, 軌道追従誤差から直接ニューロメエを訓練するモデルベースポリシー勾配アルゴリズムを, 地中外乱を必要とせずに開発した。 ニューロMHEの有効性は、様々な挑戦飛行において四重極子上でのシミュレーションと物理実験を通じて広範囲に検証される。 特に、ニューロマッハは2.5%のパラメータしか使わず、強制推定誤差を最大49.4%まで削減することで最先端の推定器を上回る。 提案手法は汎用的であり,他のロボットシステムのロバスト適応制御に適用可能である。

Estimating and reacting to external disturbances is crucial for robust flight control of quadrotors. Existing estimators typically require significant tuning for a specific flight scenario or training with extensive real-world data to achieve satisfactory performance. In this paper, we propose a neural moving horizon estimator (NeuroMHE) that can automatically tune the MHE parameters modeled by a neural network and adapt to different flight scenarios. We achieve this by deriving the analytical gradient of the MHE estimates with respect to the tunable parameters, enabling a seamless embedding of MHE as a layer into the neural network for highly effective learning. Most interestingly, we show that the gradient can be solved efficiently from a Kalman filter in a recursive form. Moreover, we develop a model-based policy gradient algorithm to train NeuroMHE directly from the trajectory tracking error without the need for the ground-truth disturbance. The effectiveness of NeuroMHE is verified extensively via both simulations and physical experiments on a quadrotor in various challenging flights. Notably, NeuroMHE outperforms the state-of-the-art estimator with force estimation error reductions of up to 49.4% by using only a 2.5% amount of parameters. The proposed method is general and can be applied to robust adaptive control for other robotic systems.
翻訳日:2022-06-23 11:58:44 公開日:2022-06-22
# (参考訳) 教師なしコントラスト表現学習のためのFew-Max:Few-Shot領域適応

Few-Max: Few-Shot Domain Adaptation for Unsupervised Contrastive Representation Learning ( http://arxiv.org/abs/2206.10137v2 )

ライセンス: CC0 1.0
Ali Lotfi Rezaabad, Sidharth Kumar, Sriram Vishwanath, and Jonathan I. Tamir(参考訳) 対照的な自己教師付き学習手法は、ラベルを必要とせず、画像などのデータポイントを非パラメトリック表現空間にマッピングすることを学ぶ。 高い成功を収める一方で、現在の方法はトレーニングフェーズで大量のデータを必要とする。 ターゲットトレーニングセットのサイズが制限されている場合、一般化は貧弱であることが知られている。 大規模なソースデータセットの事前トレーニングとターゲットサンプルの微調整は、少数のターゲットサンプルしか使用できない数ショット方式で過度に適合する傾向にある。 そこで本研究では,Few-Maxと呼ばれる自己教師型コントラスト学習のためのドメイン適応手法を提案する。 表現の質を定量化するために、Few-MaxはImageNet, VisDA, fastMRIを含む様々なソースおよびターゲットデータセットで評価し、Few-Maxは他のアプローチよりも一貫して優れている。

Contrastive self-supervised learning methods learn to map data points such as images into non-parametric representation space without requiring labels. While highly successful, current methods require a large amount of data in the training phase. In situations where the target training set is limited in size, generalization is known to be poor. Pretraining on a large source data set and fine-tuning on the target samples is prone to overfitting in the few-shot regime, where only a small number of target samples are available. Motivated by this, we propose a domain adaption method for self-supervised contrastive learning, termed Few-Max, to address the issue of adaptation to a target distribution under few-shot learning. To quantify the representation quality, we evaluate Few-Max on a range of source and target datasets, including ImageNet, VisDA, and fastMRI, on which Few-Max consistently outperforms other approaches.
翻訳日:2022-06-23 11:56:22 公開日:2022-06-22
# SMT-DTA:半教師型マルチタスクトレーニングによる薬物標的親和性予測の改善

SMT-DTA: Improving Drug-Target Affinity Prediction with Semi-supervised Multi-task Training ( http://arxiv.org/abs/2206.09818v2 )

ライセンス: Link先を確認
Qizhi Pei, Lijun Wu, Jinhua Zhu, Yingce Xia, Shufang Xie, Tao Qin, Haiguang Liu, Tie-Yan Liu(参考訳) ドラッグターゲット親和性(DTA)予測は、薬物発見と医薬品研究に不可欠な課題である。 DTAの正確な予測は、新しい薬物の設計に大きな恩恵をもたらす。 濡れた実験は費用がかかり時間もかかるため、DTA予測のための教師付きデータは極めて限られている。 これにより、大規模な教師付きデータを必要とするディープラーニングベースの手法の適用が深刻な障害となる。 To address this challenge and improve the DTA prediction accuracy, we propose a framework with several simple yet effective strategies in this work: (1) a multi-task training strategy, which takes the DTA prediction and the masked language modeling (MLM) task on the paired drug-target dataset; (2) a semi-supervised training method to empower the drug and target representation learning by leveraging large-scale unpaired molecules and proteins in training, which differs from previous pre-training and fine-tuning methods that only utilize molecules or proteins in pre-training; and (3) a cross-attention module to enhance the interaction between drug and target representation. BindingDB、DAVIS、KIBAの3つの実世界のベンチマークデータセットで大規模な実験が行われた。 その結果,提案手法は既存の手法を大幅に上回っており,最新の性能,例えばバインディングdb ic$_{50}$測定値で$0.712$ rmseを達成することができた。 さらに、特定の薬物標的結合活性、薬物の特徴可視化、および実世界の応用に関するケーススタディは、我々の研究の大きな可能性を示している。 コードとデータはhttps://github.com/QizhiPei/SMT-DTAで公開される

Drug-Target Affinity (DTA) prediction is an essential task for drug discovery and pharmaceutical research. Accurate predictions of DTA can greatly benefit the design of new drug. As wet experiments are costly and time consuming, the supervised data for DTA prediction is extremely limited. This seriously hinders the application of deep learning based methods, which require a large scale of supervised data. To address this challenge and improve the DTA prediction accuracy, we propose a framework with several simple yet effective strategies in this work: (1) a multi-task training strategy, which takes the DTA prediction and the masked language modeling (MLM) task on the paired drug-target dataset; (2) a semi-supervised training method to empower the drug and target representation learning by leveraging large-scale unpaired molecules and proteins in training, which differs from previous pre-training and fine-tuning methods that only utilize molecules or proteins in pre-training; and (3) a cross-attention module to enhance the interaction between drug and target representation. Extensive experiments are conducted on three real-world benchmark datasets: BindingDB, DAVIS and KIBA. The results show that our framework significantly outperforms existing methods and achieves state-of-the-art performances, e.g., $0.712$ RMSE on BindingDB IC$_{50}$ measurement with more than $5\%$ improvement than previous best work. In addition, case studies on specific drug-target binding activities, drug feature visualizations, and real-world applications demonstrate the great potential of our work. The code and data are released at https://github.com/QizhiPei/SMT-DTA
翻訳日:2022-06-23 11:41:26 公開日:2022-06-22
# 生成逆ネットワークを用いたマルチモーダル画像超解法

Multi-Modality Image Super-Resolution using Generative Adversarial Networks ( http://arxiv.org/abs/2206.09193v2 )

ライセンス: Link先を確認
Aref Abedjooy, Mehran Ebrahimi(参考訳) 過去数年間、GAN(Generative Adversarial Networks)のようなディープラーニングベースの技術は、画像の超解像および画像間翻訳問題に対するソリューションを著しく改善してきた。 本稿では,画像超解像と多モード画像-画像変換の連立問題に対する解法を提案する。 この問題は、別のモダリティで同じ像を低解像度で観測することを考えると、モダリティにおける高分解能像の回復と表現できる。 本稿では,この問題に対処する2つのモデルを提案し,同一シーンの低解像度夜間画像から高解像度の日像を復元する方法について検討する。 定性的かつ定量的な結果を各モデルに提示する。

Over the past few years deep learning-based techniques such as Generative Adversarial Networks (GANs) have significantly improved solutions to image super-resolution and image-to-image translation problems. In this paper, we propose a solution to the joint problem of image super-resolution and multi-modality image-to-image translation. The problem can be stated as the recovery of a high-resolution image in a modality, given a low-resolution observation of the same image in an alternative modality. Our paper offers two models to address this problem and will be evaluated on the recovery of high-resolution day images given low-resolution night images of the same scene. Promising qualitative and quantitative results will be presented for each model.
翻訳日:2022-06-23 11:41:04 公開日:2022-06-22
# 生成的対向ネットワークを用いたマルチモーダル画像インパインティング

Multi-Modality Image Inpainting using Generative Adversarial Networks ( http://arxiv.org/abs/2206.09210v2 )

ライセンス: Link先を確認
Aref Abedjooy, Mehran Ebrahimi(参考訳) ディープラーニング技術、特にGAN(Generative Adversarial Networks)は、過去数年間で画像インペイントと画像間翻訳タスクを大幅に改善した。 我々の知る限りでは、画像インパインティングタスクとマルチモーダル画像-画像間翻訳を併用する問題はいまだに残っていない。 本稿では,この問題に対処するためのモデルを提案する。 モデルは、定性的かつ定量的な結果とともに、夜間のイメージ翻訳と塗装の組み合わせで評価される。

Deep learning techniques, especially Generative Adversarial Networks (GANs) have significantly improved image inpainting and image-to-image translation tasks over the past few years. To the best of our knowledge, the problem of combining the image inpainting task with the multi-modality image-to-image translation remains intact. In this paper, we propose a model to address this problem. The model will be evaluated on combined night-to-day image translation and inpainting, along with promising qualitative and quantitative results.
翻訳日:2022-06-23 11:40:53 公開日:2022-06-22
# 物理力学による流体運動の推定と再現の学習

Learning to Estimate and Refine Fluid Motion with Physical Dynamics ( http://arxiv.org/abs/2206.10480v2 )

ライセンス: Link先を確認
Mingrui Zhang and Jianhong Wang and James Tlhomole and Matthew D. Piggott(参考訳) 画像から直接流体運動に関する情報を抽出することは困難である。 流体流動はナヴィエ・ストークス方程式によって支配される複雑な力学系を表す。 一般の光学フロー法は通常剛体運動のために設計されており、流体運動の直接推定に適用すると苦労する。 さらに、光学フロー法は2つの連続したフレームにのみ焦点をあてるが、流体運動(速度場)は時間依存偏微分方程式(pdes)によって制約された連続軌道と考えることができる。 この不一致は物理的に矛盾した推定を誘導する可能性がある。 本稿では,教師なし学習に基づく流体流量推定のための予測補正手法を提案する。 推定はまずPDE制約の光フロー予測器によって与えられ、次に物理ベースの補正器によって洗練される。 提案手法は,既存の教師付き学習法と比較し,光学フロー法より優れ,競合する結果を示す。 さらに,提案手法は,地上の真理情報が効果的に理解できない複雑な実世界の流体シナリオに一般化することができる。 最後に,流体力学シミュレーションでよく用いられる演算子分割法を模倣して,物理補正器が流量推定を洗練できることを実証する。

Extracting information on fluid motion directly from images is challenging. Fluid flow represents a complex dynamic system governed by the Navier-Stokes equations. General optical flow methods are typically designed for rigid body motion, and thus struggle if applied to fluid motion estimation directly. Further, optical flow methods only focus on two consecutive frames without utilising historical temporal information, while the fluid motion (velocity field) can be considered a continuous trajectory constrained by time-dependent partial differential equations (PDEs). This discrepancy has the potential to induce physically inconsistent estimations. Here we propose an unsupervised learning based prediction-correction scheme for fluid flow estimation. An estimate is first given by a PDE-constrained optical flow predictor, which is then refined by a physical based corrector. The proposed approach outperforms optical flow methods and shows competitive results compared to existing supervised learning based methods on a benchmark dataset. Furthermore, the proposed approach can generalize to complex real-world fluid scenarios where ground truth information is effectively unknowable. Finally, experiments demonstrate that the physical corrector can refine flow estimates by mimicking the operator splitting method commonly utilised in fluid dynamical simulation.
翻訳日:2022-06-23 11:40:44 公開日:2022-06-22
# 不確実性定量化を用いた非パラメトリック多形モデリング

Nonparametric Multi-shape Modeling with Uncertainty Quantification ( http://arxiv.org/abs/2206.09127v2 )

ライセンス: Link先を確認
Hengrui Luo, Justin D. Strait(参考訳) 閉曲線のモデリングと不確かさの定量化は形状解析の分野において重要な問題であり、その後の統計的タスクに重大な影響をもたらす可能性がある。 これらのタスクの多くは閉曲線の集合を含み、しばしば複数のレベルで構造的類似性を示す。 このような曲線間の依存を効率的に組み込む方法で複数の閉曲線をモデル化することは難しい問題である。 本研究では,多次元ガウス過程モデリングフレームワーク(multi-output,multi-output)を提案する。 提案手法を応用し,いくつかの曲線および形状関連課題において有意義な不確実性定量化の有用性を示す。 このモデルに基づくアプローチは、閉曲線(とその形状)をカーネル構成で推論する問題だけでなく、一般に関数オブジェクトに対するマルチレベル依存の非パラメトリックモデリングへの扉を開く。

The modeling and uncertainty quantification of closed curves is an important problem in the field of shape analysis, and can have significant ramifications for subsequent statistical tasks. Many of these tasks involve collections of closed curves, which often exhibit structural similarities at multiple levels. Modeling multiple closed curves in a way that efficiently incorporates such between-curve dependence remains a challenging problem. In this work, we propose and investigate a multiple-output (a.k.a. multi-output), multi-dimensional Gaussian process modeling framework. We illustrate the proposed methodological advances, and demonstrate the utility of meaningful uncertainty quantification, on several curve and shape-related tasks. This model-based approach not only addresses the problem of inference on closed curves (and their shapes) with kernel constructions, but also opens doors to nonparametric modeling of multi-level dependence for functional objects in general.
翻訳日:2022-06-23 11:40:26 公開日:2022-06-22