このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。
公開日が20220209となっている論文です。
Title | Authors | Abstract | 論文公表日・翻訳日 |
---|---|---|---|
# 地球依存度を持つ離散モデルにおける多項式時間厳密MAP推定 Polynomial-Time Exact MAP Inference on Discrete Models with Global Dependencies ( http://arxiv.org/abs/1912.12090v3 ) ライセンス: Link先を確認 | Alexander Bauer, Shinichi Nakajima | (参考訳) 最悪のシナリオを考えると、ジャンクションツリーアルゴリズムは多項式実行時の保証と正確なMAP推論の最も一般的な解である。
残念ながら、その主なトラクタビリティの仮定は、対応するMDFのツリー幅が許容可能なアプリケーションの範囲を強く制限することを要求する。
実際、構造化予測の分野における多くの実用的な問題は、グローバルな要因を直接導入するか、予測変数にグローバルな制約を課すことによって、グローバル依存のモデリングを必要とする。
しかし、それは常に完全に連結されたグラフとなり、このアルゴリズムによって正確に推測できる。
従来の研究[1]-[4]では、SSVMのトレーニングシステム内での非分解性損失関数を表す特定のグローバル因子を持つモデルにおいて、損失増大した推論の問題に焦点をあてて、効率的に推論を行うことができることを示した。
本稿では,[3] に提案される効率的な正確な推論の枠組みを拡張し,コアモデルのエネルギーと計算コストを伴わずに,グローバルな用語の十分な統計量とのより詳細な相互作用を可能にする。
従来の手法では処理できないものを含む,いくつかのユースケースにおいて,本手法の有用性を実証する。
最後に、ノードクローニングによる新しいグラフ変換手法を提案する。これは、対応するクランクツリーの形式とは無関係に対象問題を解くための多項式実行時間を保証する。
これは主アルゴリズムの効率にとって重要であり、以前の研究の理論的保証を大幅に改善する。 Considering the worst-case scenario, junction tree algorithm remains the most general solution for exact MAP inference with polynomial run-time guarantees. Unfortunately, its main tractability assumption requires the treewidth of a corresponding MRF to be bounded strongly limiting the range of admissible applications. In fact, many practical problems in the area of structured prediction require modelling of global dependencies by either directly introducing global factors or enforcing global constraints on the prediction variables. That, however, always results in a fully-connected graph making exact inference by means of this algorithm intractable. Previous work [1]-[4] focusing on the problem of loss-augmented inference has demonstrated how efficient inference can be performed on models with specific global factors representing non-decomposable loss functions within the training regime of SSVMs. In this paper, we extend the framework for an efficient exact inference proposed in in [3] by allowing much finer interactions between the energy of the core model and the sufficient statistics of the global terms with no additional computation costs. We demonstrate the usefulness of our method in several use cases, including one that cannot be handled by any of the previous approaches. Finally, we propose a new graph transformation technique via node cloning which ensures a polynomial run-time for solving our target problem independently of the form of a corresponding clique tree. This is important for the efficiency of the main algorithm and greatly improves upon the theoretical guarantees of the previous works. | 翻訳日:2023-06-09 23:46:59 公開日:2022-02-09 |
# 単一粒子による複数のアクセスチャネルの構築 Building Multiple Access Channels with a Single Particle ( http://arxiv.org/abs/2006.12475v4 ) ライセンス: Link先を確認 | Yujie Zhang, Xinan Chen and Eric Chitambar | (参考訳) 多重アクセスチャンネルは、複数の送信者が物理媒体を使用して単一の受信機にメッセージを転送しようとする状況を記述する。
本稿では,この媒体が単一古典粒子あるいは量子粒子からなるシナリオについて考察する。
量子の場合、粒子は重ね合わせ状態で生成することができ、エンコーディング戦略のよりリッチな族を可能にする。
量子チャネルと古典チャネルの比較を精度良くするために,全ての可能な符号化戦略が1つの粒子しか消費しない操作フレームワークを導入する。
この枠組みをNポート干渉計実験に適用し、粒子が通過可能な経路を各パーティが制御する。
通信のために使用される場合、この設定は単一の粒子で構築された多重アクセスチャネル(MAC)を具現化する。
単一粒子から構築できるN-パーティ古典MACの完全な特徴づけを提供し、すべての古典的でない粒子が古典的集合の外側でMACを生成可能であることを示す。
単一古典粒子と量子粒子の能力をさらに区別するため、局所性制約を緩和し、1<k<= n 個の部分集合による共同符号化を可能にする。
これにより、計算するポリトープ次元を持つ古典的なMACのリッチな族が生成される。
このポリトープの有効な面として「一般化フィンガープリンティング不等式」を同定し、k=n-1 の場合においても n 個の分散した量子粒子がこの不等式を破ることができることを検証した。
単粒子フレームワークと多レベルコヒーレンス理論の間に接続が引かれる。
Kレベルのコヒーレンスを持つ全ての純状態が半デバイス独立な方法で検出可能であることを示し、粒子数の保存のみを仮定する。 A multiple access channel describes a situation in which multiple senders are trying to forward messages to a single receiver using some physical medium. In this paper we consider scenarios in which this medium consists of just a single classical or quantum particle. In the quantum case, the particle can be prepared in a superposition state thereby allowing for a richer family of encoding strategies. To make the comparison between quantum and classical channels precise, we introduce an operational framework in which all possible encoding strategies consume no more than a single particle. We apply this framework to an N-port interferometer experiment in which each party controls a path the particle can traverse. When used for the purpose of communication, this setup embodies a multiple access channel (MAC) built with a single particle. We provide a full characterization of the N-party classical MACs that can be built from a single particle, and we show that every non-classical particle can generate a MAC outside the classical set. To further distinguish the capabilities of a single classical and quantum particle, we relax the locality constraint and allow for joint encodings by subsets of 1<K<= N parties. This generates a richer family of classical MACs whose polytope dimension we compute. We identify a "generalized fingerprinting inequality" as a valid facet for this polytope, and we verify that a quantum particle distributed among N separated parties can violate this inequality even when K=N-1. Connections are drawn between the single-particle framework and multi-level coherence theory. We show that every pure state with K-level coherence can be detected in a semi-device independent manner, with the only assumption being conservation of particle number. | 翻訳日:2023-05-13 04:50:42 公開日:2022-02-09 |
# 超伝導回路上の格子ゲージ理論の量子シミュレーション:量子相転移とクエンチダイナミクス Quantum Simulation of Lattice Gauge Theories on Superconducting Circuits: Quantum Phase Transition and Quench Dynamics ( http://arxiv.org/abs/2009.13350v3 ) ライセンス: Link先を確認 | Zi-Yong Ge, Rui-Zhen Huang, Zi Yang Meng, and Heng Fan | (参考訳) 近年,低次元格子ゲージ理論(LGT)の量子シミュレーションが注目されている。
そこで本研究では, 超伝導量子回路上での |\mathbb{z}_2$ lgt を近似する実装を提案し, 有効理論は lgt とゲージブローク項の混合である。
行列積状態に基づく手法を用いて, 基底状態特性とクエンチダイナミクスを体系的に検討した。
横(電)場の増加に伴い、この系は乱れた位相から翻訳対称性の破れ相への量子位相遷移を示す。
順序付けられた位相において、{\mathbb{z}_2$ lgt の近似ガウス則が基底状態において現れる。
さらに, 実験に光を当てるために, 自発的翻訳対称性の破れの動的シグネチャが存在するクエンチ力学についても検討した。
物質次数の単一粒子の拡散は弱い横磁場下では拡散的であるが、強い磁場では小さい速度で弾道的である。
さらに、強い横磁場下でのガウス法則により、物質次数はまた、最も近い隣のホッピングを強く抑制する閉じ込めのダイナミクスを示すことができる。
本研究は, 超伝導回路上でのLGTのシミュレーション方法として, 量子相転移やクエンチダイナミクスについて検討した。 Recently, quantum simulation of low-dimensional lattice gauge theories (LGTs) has attracted many interests, which may improve our understanding of strongly correlated quantum many-body systems. Here, we propose an implementation to approximate $\mathbb{Z}_2$ LGT on superconducting quantum circuits, where the effective theory is a mixture of a LGT and a gauge-broken term. Using matrix product state based methods, both the ground state properties and quench dynamics are systematically investigated. With an increase of the transverse (electric) field, the system displays a quantum phase transition from a disordered phase to a translational symmetry breaking phase. In the ordered phase, an approximate Gauss law of the $\mathbb{Z}_2$ LGT emerges in the ground state. Moreover, to shed light on the experiments, we also study the quench dynamics, where there is a dynamical signature of the spontaneous translational symmetry breaking. The spreading of the single particle of matter degree is diffusive under the weak transverse field, while it is ballistic with small velocity for the strong field. Furthermore, due to the emergent Gauss law under the strong transverse field, the matter degree can also exhibit confinement dynamics which leads to a strong suppression of the nearest-neighbor hopping. Our results pave the way for simulating the LGT on superconducting circuits, including the quantum phase transition and quench dynamics. | 翻訳日:2023-04-30 18:52:04 公開日:2022-02-09 |
# 補間トラヒック割り当てによるトラヒックルーティングの公平性と効率のバランス Balancing Fairness and Efficiency in Traffic Routing via Interpolated Traffic Assignment ( http://arxiv.org/abs/2104.00098v4 ) ライセンス: Link先を確認 | Devansh Jalota and Kiril Solovey and Matthew Tsao and Stephen Zoepf and Marco Pavone | (参考訳) システム最適化(so)ルーティングは、全ユーザの総移動時間が最小化され、交通当局にとって聖杯となる。
しかし、ルーティングは、高いシステム効率、すなわち総旅行時間を達成するために、他よりはるかに長い旅行時間を発生させるユーザーに対して差別する可能性がある。
soルーティングの固有の不公平さに対処するため、我々は、共通の起源を持つ異なるユーザの移動時間と目的地との最大比率を規定する${\beta\geq 1}$の不公平さを保証しながら、全体の旅行時間を最小化することを目的とした${\beta}$-fair という問題を研究した。
システム効率の向上を図りつつ、${\beta}$-fair問題に対する実現可能な解決策を得るため、フェアネスプロモーティングと効率向上のトラヒックアサイン目標の間を補間する新しいconvexプログラム、interpolated traffic assignment problem (i-tap)を開発した。
我々は,その補間パラメータの観点から,システム走行時間と不公平度に関する理論的境界によるI-TAPの有効性を評価するとともに,様々な交通ネットワーク上でのI-TAPと最先端アルゴリズムの数値比較を行う。
数値計算の結果,提案手法はベンチマークアルゴリズムに比べて数桁の精度で高速であり,不公平な条件で高いシステム効率を達成できることがわかった。
さらに, i-tapの構造を利用して, 自発的な均質なユーザと異質なユーザの存在下で, 自発的にi-tapソリューションを強制する2つの価格メカニズムを開発し, 自発的な旅行コストを最小化する経路を独自に選択した。
これは、一般的な道路網(例えば、並列道路網とは対照的に)の公平なルーティングの文脈における価格に関する最初の研究である。 System optimum (SO) routing, wherein the total travel time of all users is minimized, is a holy grail for transportation authorities. However, SO routing may discriminate against users who incur much larger travel times than others to achieve high system efficiency, i.e., low total travel times. To address the inherent unfairness of SO routing, we study the ${\beta}$-fair SO problem whose goal is to minimize the total travel time while guaranteeing a ${\beta\geq 1}$ level of unfairness, which specifies the maximum possible ratio between the travel times of different users with shared origins and destinations. To obtain feasible solutions to the ${\beta}$-fair SO problem while achieving high system efficiency, we develop a new convex program, the Interpolated Traffic Assignment Problem (I-TAP), which interpolates between a fairness-promoting and an efficiency-promoting traffic-assignment objective. We evaluate the efficacy of I-TAP through theoretical bounds on the total system travel time and level of unfairness in terms of its interpolation parameter, as well as present a numerical comparison between I-TAP and a state-of-the-art algorithm on a range of transportation networks. The numerical results indicate that our approach is faster by several orders of magnitude as compared to the benchmark algorithm, while achieving higher system efficiency for all desirable levels of unfairness. We further leverage the structure of I-TAP to develop two pricing mechanisms to collectively enforce the I-TAP solution in the presence of selfish homogeneous and heterogeneous users, respectively, that independently choose routes to minimize their own travel costs. We mention that this is the first study of pricing in the context of fair routing for general road networks (as opposed to, e.g., parallel road networks). | 翻訳日:2023-04-06 00:26:11 公開日:2022-02-09 |
# 量子制御古典演算による普遍量子計算 Universal quantum computation via quantum controlled classical operations ( http://arxiv.org/abs/2104.06424v2 ) ライセンス: Link先を確認 | Sebastian Horvat, Xiaoqin Gao, Borivoje Daki\'c | (参考訳) 古典的あるいは量子的)計算のための普遍的ゲート集合は、他の演算を近似するために使用できるゲートの集合である。
アダマールゲートで拡張された古典計算の普遍集合が普遍量子コンピューティングをもたらすことはよく知られている。
古典的なゲートの集合を量子制御で補足し、量子ゲートの集合を後者でのみ動作させることで、普遍的な量子計算を実行できるか?
本稿では,2n$目標ビットとlog$(2n+1)$ Acillary qubitsで制御される古典ゲートの集合からなる計算モデルを考えることにより,この問題に対する肯定的な回答を提供する。
このモデルは、$n$ qubitsで動作する量子コンピュータと等価であることを示す。
さらに,SWAPゲートのみを実装可能なプリミティブコンピュータであっても,対数サイズの適切な量子制御を施せば,普遍的な量子コンピューティングに持ち上げることができることを示す。
この結果から,量子制御システムによる情報処理能力の実証が可能となった。 A universal set of gates for (classical or quantum) computation is a set of gates that can be used to approximate any other operation. It is well known that a universal set for classical computation augmented with the Hadamard gate results in universal quantum computing. Motivated by the latter, we pose the following question: can one perform universal quantum computation by supplementing a set of classical gates with a quantum control, and a set of quantum gates operating solely on the latter? In this work we provide an affirmative answer to this question by considering a computational model that consists of $2n$ target bits together with a set of classical gates controlled by log$(2n+1)$ ancillary qubits. We show that this model is equivalent to a quantum computer operating on $n$ qubits. Furthermore, we show that even a primitive computer that is capable of implementing only SWAP gates, can be lifted to universal quantum computing, if aided with an appropriate quantum control of logarithmic size. Our results thus exemplify the information processing power brought forth by the quantum control system. | 翻訳日:2023-04-03 23:22:52 公開日:2022-02-09 |
# 定常軸対称時空における反発カシミール力 Repulsive Casimir force in stationary axisymmetric spacetimes ( http://arxiv.org/abs/2106.00698v2 ) ライセンス: Link先を確認 | V.D. Coronell, A.E. Gon\c{c}alves, M.C. Baldiotti and R. C. Batista | (参考訳) 静止軸対称時空がカシミールエネルギーに与える影響について検討する。
大規模スカラー場を考察し,そのような空間に関連付けられた引きずり方向に対する装置配向への依存度を解析する。
文献で考慮されていない機器指向においては, カシミールエネルギーはそのサインを変え, 反発力を生み出すことが示されている。
応用として、シリンダーの線形運動と、カー幾何学で記述された重力源の周りの円形赤道運動の2つの特定の指標を解析する。 We study the influence of stationary axisymmetric spacetimes on Casimir energy. We consider a massive scalar field and analyze its dependence on the apparatus orientation with respect to the dragging direction associated with such spaces. We show that, for an apparatus orientation not considered before in the literature, the Casimir energy can change its sign, producing a repulsive force. As applications, we analyze two specific metrics: one associated with a linear motion of a cylinder and a circular equatorial motion around a gravitational source described by Kerr geometry. | 翻訳日:2023-03-28 03:30:38 公開日:2022-02-09 |
# 短絡-断熱によるオプトメカニカル共振器の高速地中冷却 Accelerated ground-state cooling of an optomechanical resonator via shortcuts to adiabaticity ( http://arxiv.org/abs/2109.05538v3 ) ライセンス: Link先を確認 | Yu-Hong Liu, Xian-Li Yin, Jin-Feng Huang, Jie-Qiao Liao | (参考訳) メカニカル共振器の地中冷却は、マクロ的なメカニカルコヒーレンスの生成、操作、応用に必要な前提条件であるため、量子光学において重要な課題である。
本稿では, 3モードループ結合型オプティメカルシステムにおいて, メカニカル共振器の地中冷却を高速化する過渡状態方式を提案する。
我々は4種類の結合プロトコルを検討し, adiabatic と sta の両ケースにおけるメカニカル共振器の平均フォノン数の進化を計算した。
メカニカル共振器の地中冷却は, より短い期間でSTA法により達成できることを確認した。
sta法は、キャビティ・オプトメカニクスにおける他の断熱プロセスを促進するためにも一般化できるため、この研究は高速光機械操作の新しい領域を開くことになる。 Ground-state cooling of mechanical resonators is an important task in quantum optomechanics, because it is a necessary prerequisite for creation, manipulation, and application of macroscopic mechanical coherence. Here, we propose a transient-state scheme to accelerate ground-state cooling of a mechanical resonator in a three-mode loop-coupled optomechanical system via shortcuts to adiabaticity (STA). We consider four kinds of coupling protocols and calculate the evolution of the mean phonon number of the mechanical resonator in both the adiabatic and STA cases. We verify that the ground-state cooling of the mechanical resonator can be achieved with the STA method in a much shorter period. The STA method can also be generalized to accelerate other adiabatic processes in cavity optomechanics, and hence this work will open up a new realm of fast optomechanical manipulations. | 翻訳日:2023-03-15 07:16:20 公開日:2022-02-09 |
# Mnイオンをドープした半磁性量子ドットキャビティ系における決定論的光子貯蔵と読み出し Deterministic photon storage and readout in a semimagnetic quantum-dot--cavity system doped with a single Mn ion ( http://arxiv.org/abs/2110.07576v2 ) ライセンス: Link先を確認 | M. Cosacchi, T. Seidelmann, A. Mielnik-Pyszczorski, M. Neumann, T. K. Bracht, M. Cygorek, A. Vagov, D. E. Reiter, V. M. Axt | (参考訳) 光トラップは光通信における同期の重要なメカニズムである。
特に単一光子のレベルにおいては、正確な発光時間の制御が望ましい。
本稿では,1つのMn原子を空洞にドープした量子ドットからなる単一光子バッファリングデバイスを理論的に提案する。
本稿では,ドットの励起として単一空洞光子を格納する方法を提案する。
保存方式は、オフ共振外部の光学場によって行われる明るく暗い励起子変換に基づいており、磁気イオンによるスピンフリップを介して媒介される。
誘導されたスタークシフトは、両方の励起子状態が共鳴し、光学的に不活性な状態への励起転移をもたらす。
保存された光子は、寿命が短い明るい状態を再ポピュレーションすることで、同じ方法でオンデマンドで読み出すことができる。
その結果、明るい励起子の寿命よりも約2桁長い光子を懸濁させる可能性が示唆された。 Light trapping is a crucial mechanism for synchronization in optical communication. Especially on the level of single photons, control of the exact emission time is desirable. In this paper, we theoretically propose a single-photon buffering device composed of a quantum dot doped with a single Mn atom in a cavity. We present a method to detain a single cavity photon as an excitation of the dot. The storage scheme is based on bright to dark exciton conversion performed with an off-resonant external optical field and mediated via a spin-flip with the magnetic ion. The induced Stark shift brings both exciton states to resonance and results in an excitation transfer to the optically inactive one. The stored photon can be read out on demand in the same manner by repopulating the bright state, which has a short lifetime. Our results indicate the possibility to suspend a photon for almost two orders of magnitude longer than the lifetime of the bright exciton. | 翻訳日:2023-03-11 12:10:24 公開日:2022-02-09 |
# 相関量化器の階層性は負性に匹敵する Hierarchy of correlation quantifiers comparable to negativity ( http://arxiv.org/abs/2111.11887v2 ) ライセンス: Link先を確認 | Ray Ganardi, Marek Miller, Tomasz Paterek, Marek \.Zukowski | (参考訳) 量子系は一般に異なる種類の相関を示す。
同じ足場で比較するために、異なる種類の相関が異なる状態の集合から異なる状態への距離によって捕捉されるいわゆる距離ベースアプローチを用いる。
しかしながら、これらの量化器は定義が集合内で最も近い状態を見つけるための最適化を伴うため、計算が難しい。
一方、ネガティビティは数少ない計算可能な絡み合いモノトンの一つであるが、他の相関との比較はさらなる正当化を必要とした。
ここでは、距離に基づく構成を持つ相関尺度の族の一部として、負性を置く。
我々は,適切な距離を導入し,新しい測度とその応用について議論し,相対エントロピーに基づく相関量化器と比較する。
この研究は、同時に比較可能で計算可能な相関測度への一歩である。 Quantum systems generally exhibit different kinds of correlations. In order to compare them on equal footing, one uses the so-called distance-based approach where different types of correlations are captured by the distance to different sets of states. However, these quantifiers are usually hard to compute as their definition involves optimization aiming to find the closest states within the set. On the other hand, negativity is one of the few computable entanglement monotones, but its comparison with other correlations required further justification. Here we place negativity as part of a family of correlation measures that has a distance-based construction. We introduce a suitable distance, discuss the emerging measures and their applications, and compare them to relative entropy-based correlation quantifiers. This work is a step towards correlation measures that are simultaneously comparable and computable. | 翻訳日:2023-03-07 02:05:08 公開日:2022-02-09 |
# 多重任意階非エルミート特異点の分類 Classification of multiple arbitrary-order non-Hermitian singularities ( http://arxiv.org/abs/2112.02547v2 ) ライセンス: Link先を確認 | Jung-Wan Ryu, Jae-Ho Han, Chang-Hwan Yi | (参考訳) 準定常状態の複数の任意次例外点によって生成されるリーマン曲面位相の一般分類を示す。
本研究は、2次例外点を囲むストロボスコープを記述したホロノミー行列のすべての生成置換を明らかにした。
置換はリーマン面の位相構造に従って有限個のクラスに分類される。
さらに、置換クラスは高次例外点に付随する巡回的構造ブロックの組み合わせから導出可能であることを示す。
この結果は、ジェネリックなヨルダン形式に基づく効果的な非エルミート・ハミルトニアンによって検証され、非対称性光マイクロキャビティの物理系で検証された。 We demonstrate general classifications of Riemann surface topology generated by multiple arbitrary-order exceptional points of quasi-stationary states. Our studies reveal all possible product permutations of holonomy matrices that describe a stroboscopic encircling of 2nd order exceptional points. The permutations turn out to be categorized into a finite number of classes according to the topological structures of the Riemann surfaces. We further show that the permutation classes can be derived from combinations of cyclic building blocks associated with higher-order exceptional points. Our results are verified by an effective non-Hermitian Hamiltonian founded on generic Jordan forms and then examined in physical systems of desymmetrized optical microcavities. | 翻訳日:2023-03-05 12:17:04 公開日:2022-02-09 |
# 連続測定による強結合多モード空洞の非マルコフ量子ダイナミクス Non-Markovian Quantum Dynamics in Strongly Coupled Multimode Cavities Conditioned on Continuous Measurement ( http://arxiv.org/abs/2112.09499v2 ) ライセンス: Link先を確認 | Valentin Link, Kai M\"uller, Rosaria G. Lena, Kimmo Luoma, Fran\c{c}ois Damanet, Walter T. Strunz, Andrew J. Daley | (参考訳) 非マルコフ開量子システムにおける重要な課題は、出力場の連続的な測定から得られる情報を理解することである。
例えば、多モードキャビティqedシステムにおける原子は、原子が自分自身とキャビティと強く結合している状態において多体現象を研究するエキサイティングなプラットフォームを提供するが、強いカップリングは出力光から原子の状態の推測を複雑にする。
本研究では, 運動方程式の条件付き階層を通じて原子状態の低減を記述し, 監視(および連続フィードバック)下での厳密な条件付き還元記述を提供する。
我々は、このフォーマリズムを利用して、マルチモードキャビティのモードの異なるモニタリングが、原子状態における情報ゲインに与える影響を研究し、強い結合状態における測定とフィードバックによるスピンスクイーズを改善する。
この研究は、非マルコフ的開量子系の連続的なモニタリングを理解する機会を、実用的および基本的レベルでも開放する。 An important challenge in non-Markovian open quantum systems is to understand what information we gain from continuous measurement of an output field. For example, atoms in multimode cavity QED systems provide an exciting platform to study many-body phenomena in regimes where the atoms are strongly coupled amongst themselves and with the cavity, but the strong coupling makes it complicated to infer the conditioned state of the atoms from the output light. In this work we address this problem, describing the reduced atomic state via a conditioned hierarchy of equations of motion, which provides an exact conditioned reduced description under monitoring (and continuous feedback). We utilise this formalism to study how different monitoring for modes of a multimode cavity affects our information gain for an atomic state, and to improve spin squeezing via measurement and feedback in a strong coupling regime. This work opens opportunities to understand continuous monitoring of non-Markovian open quantum systems, both on a practical and fundamental level. | 翻訳日:2023-03-04 07:21:02 公開日:2022-02-09 |
# 厳密な局所性条件下での実数値量子力学の実験的解法 Experimental refutation of real-valued quantum mechanics under strict locality conditions ( http://arxiv.org/abs/2201.04177v2 ) ライセンス: Link先を確認 | Dian Wu, Yang-Fan Jiang, Xue-Mei Gu, Liang Huang, Bing Bai, Qi-Chao Sun, Si-Qiu Gong, Yingqiu Mao, Han-Sen Zhong, Ming-Cheng Chen, Jun Zhang, Qiang Zhang, Chao-Yang Lu, Jian-Wei Pan | (参考訳) 物理学者は自然を自然言語として用い、量子力学では複素数を使うのが好まれる。
しかし、この理論に複素数が本当に必要なのかは、誕生以来ずっと議論されてきた。
近年,独立状態と測定値からなる絡み合い交換シナリオにおいて生じる3つの相関関係は実数のみを用いて再現できないことが示されている。
以前の実験は概念的にこの述語を支持したが、独立国家の準備と測定を同時に満たさなかった。
ここでは,厳格な局所条件下で,真に独立した2つの光子を3つの当事者に届けるテストを実施する。
高速な量子乱数生成器と高速偏光測定を用いて、独立状態の準備と測定を確実にするため、空間的に全ての関連する事象を分離し、同時に局所性ループホールを閉じる。
この結果は、7.66 × 5.30 の標準偏差に反し、自然を記述するための実数値量子力学の普遍的妥当性を否定する。 Physicists describe nature using mathematics as the natural language, and for quantum mechanics, it prefers to use complex numbers. However, whether complex numbers are really necessary for the theory has been debated ever since its birth. Recently, it has been shown that a three-party correlation created in entanglement swapping scenarios comprising independent states and measurements cannot be reproduced using only real numbers. Previous experiments have conceptually supported the predication, yet not satisfying the independent state preparations and measurements simultaneously. Here, we implement such a test with two truly independent sources delivering entangled photons to three parties under strict locality conditions. By employing fast quantum random number generators and high-speed polarization measurements, we space-like separate all relevant events to ensure independent state preparations and measurements, and close locality loopholes simultaneously. Our results violate the real number bound of 7.66 by 5.30 standard deviations, hence rejecting the universal validity of the real-valued quantum mechanics to describe nature. | 翻訳日:2023-03-01 12:45:35 公開日:2022-02-09 |
# 量子ジャンプ法:2つの相互作用する原子の光子統計とマクロ量子ジャンプ The quantum jump method: photon statistics and macroscopic quantum jumps of two interacting atoms ( http://arxiv.org/abs/2201.11193v2 ) ライセンス: Link先を確認 | Charles A. McDermott | (参考訳) まず、量子法を用いて1つの原子が緩和することのよく知られた結果を再現し、発散動力学の直感的な図形を示す。
個々の「量子軌道」を用いることで、アンサンブル処理に到達できないシステムのシミュレーションが可能になる。
これは共鳴蛍光を再現することにより示され、離散光子ストリームの生成による光子統計の計算の容易化を同時に示すことができる。
これらを分析するために,二階コヒーレンス関数の計算法について理論的基礎を定式化し,実装する。
量子ジャンプ法による計算を可能にするために相互作用する2原子系をモデル化するプロセスを開発した。
これを用いて, 発散性およびコヒーレント相互作用から状態の疎結合を解明する前に, 発光スペクトルを大きく変化させる協調効果を示す。
ここでは,量子ジャンプ法が生み出す新たな知見を見いだし,2つの2つの双極子-双極子結合原子の系において,マクロジャンプの発生と巨視的暗黒周期の形成を調べるためのツールを提供する。 We first use the quantum method to replicate the well-known results of a single atom relaxing, whilst demonstrating the intuitive picture it provides for dissipative dynamics. By use of individual "quantum trajectories", the method allows for simulation of systems inaccessible to ensemble treatments. This is shown by replicating resonance fluorescence, allowing us to concurrently demonstrate the method's facilitation of calculating photon statistics by the creation of discrete photon streams. To analyse these, we solidify the theoretical basis for, and implement, a computational method of calculating second-order coherence functions. A process by which to model interacting two-atom systems to allow for computation with the quantum jump method is then developed. Using this, we demonstrate cooperative effects leading to greatly modified emission spectra, before investigating the decoupling of states from dissipative and coherent interactions. Here, we find the novel insight provided by the quantum jump method both births and provides the tools with which to begin an investigation into the occurrence of macroscopic jumps and the formation of macroscopic dark periods in a system of two two-level dipole-dipole coupled atoms. | 翻訳日:2023-02-28 05:57:08 公開日:2022-02-09 |
# ナノスケール超音速フォノン輸送技術 Engineering nanoscale hypersonic phonon transport ( http://arxiv.org/abs/2202.02166v2 ) ライセンス: Link先を確認 | O. Florez, G. Arregui, M. Albrechtsen, R. C. Ng, J. Gomis-Bresco, S. Stobbe, C. M. Sotomayor-Torres, P. D. Garc\'ia | (参考訳) 固体の振動を制御することは、その機械的特性と光との相互作用を調整するために重要である。
熱振動はノイズの発生源を表し、量子レベルでの多くの物理過程を強調する。
これらの振動を避ける1つの戦略は、音速停止帯域(すなわち、メカニカルモードがない周波数範囲)を持つ固体を構成することである。
ここでは広帯域のスペクトル窓上での室温での機械的振動の完全な欠如をブリュアン光散乱分光法を用いて測定したパターン化シリコンナノ構造膜において8.4GHz中心の広帯域ギャップ5.3GHzで示す。
直線欠陥導波路を構成することにより,室温でのGHzローカライズモードを直接測定する。
ghz帯の熱励起誘導機械モードの実験結果により、光子-フォノン結合と光メカニクスおよび信号処理変換への応用が確立された。 Controlling the vibrations in solids is crucial to tailor their mechanical properties and their interaction with light. Thermal vibrations represent a source of noise and dephasing for many physical processes at the quantum level. One strategy to avoid these vibrations is to structure a solid such that it possesses a phononic stop band, i.e., a frequency range over which there are no available mechanical modes. Here, we demonstrate the complete absence of mechanical vibrations at room temperature over a broad spectral window, with a 5.3 GHz wide band gap centered at 8.4 GHz in a patterned silicon nanostructure membrane measured using Brillouin light scattering spectroscopy. By constructing a line-defect waveguide, we directly measure GHz localized modes at room temperature. Our experimental results of thermally excited guided mechanical modes at GHz frequencies provides an eficient platform for photon-phonon integration with applications in optomechanics and signal processing transduction. | 翻訳日:2023-02-26 20:50:50 公開日:2022-02-09 |
# 量子時空間イメージングへの様相的アプローチ A modal approach to quantum temporal imaging ( http://arxiv.org/abs/2202.03707v2 ) ライセンス: Link先を確認 | G Patera (PhLAM), M Allgaier, D Horoshko, M Kolobov (PhLAM), C Silberhorn (UPB) | (参考訳) 本稿では,時間レンズがSum Frequency Generation非線形プロセスによって実装される場合,特にデバイスを100%変換効率で動作させる場合において,時間時間像の問題を考察する。
時間レンズが有限開口と非完全位相マッチングも含む一般的な場合、例えば時間分解能のような、関連するメリットの図形は明示的な表現を持たない。
その結果,撮像方式の性能を評価することは困難である。
これらの特徴を信頼性の高い推定を行うことは、古典的時間画像で通常考慮される変換効率の低い状態とは大きく異なるため、特に重要である。
本稿では,画像の固有値の観点からこの問題にアプローチできることを示し,画像のモーダルな記述から,その意義をいかに抽出できるかを示す。
その結果、結束効率に近い撮像スキームを設計できる基準が得られる。 We consider the problem of quantum temporal imaging in the case where the time lens is implemented by a Sum Frequency Generation nonlinear process, in particular when the device is operated close to 100% conversion efficiency. In the general case where the time lens also presents a finite aperture and a non-perfect phase-matching the relevant figures of merit, as for example the temporal resolution, do not have an explicit expression. As a consequence, the performances of imaging scheme are difficult to assess. Having a reliable estimation of these figures of merits is particularly important because they can be significantly different from the regime of low conversion efficiency usually considered in classical temporal imaging. We show that this problem can be approached in terms of the eigenmodes of the imaging scheme and we show how its relevant figures of merit can be extracted from the modal description of the imaging scheme. As a consequence we obtain criteria allowing to design imaging schemes with close to unity efficiencies. | 翻訳日:2023-02-26 09:14:26 公開日:2022-02-09 |
# QAC:量子計算支援 QAC: Quantum-computing Aided Composition ( http://arxiv.org/abs/2202.04215v1 ) ライセンス: Link先を確認 | Omar Costa Hamido | (参考訳) この章では、コンピュータ音楽における量子コンピューティングの役割と、創造的なアーティストにどのように貢献できるかについて論じます。
私はまず、現在のコンピュータ音楽と量子コンピューティングツールの異なるアプローチを検討し、それを統合するいくつかの以前の試みをレビューする。
次に、この統合の意味を振り返って、私がQAC(Quantum-Computing Aided Composition)と呼ぶもの、そしてそれを実現するための初期の試みを示します。
この章ではまた、QAC Toolkit Maxパッケージを導入し、パフォーマンスを分析し、リアルタイムなクリエイティブプラクティスに何が提供できるかを探求する。
最後に、私はcreative work disklavier prelude #3でqacの実際のケースシナリオを提示します。 In this chapter I will discuss the role of quantum computing in computer music and how it can be integrated to better serve the creative artists. I will start by considering different approaches in current computer music and quantum computing tools, as well as reviewing some previous attempts to integrate them. Then, I will reflect on the meaning of this integration and present what I coined as QAC (Quantum-computing Aided Composition) as well as an early attempt at realizing it. This chapter will also introduce The QAC Toolkit Max package, analyze its performance, and explore some examples of what it can offer to realtime creative practice. Lastly, I will present a real case scenario of QAC in the creative work Disklavier Prelude #3. | 翻訳日:2023-02-26 07:11:24 公開日:2022-02-09 |
# 自然発光寿命の分解能と識別に対する量子限界 Quantum limits to resolution and discrimination of spontaneous emission lifetimes ( http://arxiv.org/abs/2202.04205v1 ) ライセンス: Link先を確認 | Cheyenne S. Mitchell and Mikael P. Backlund | (参考訳) 本研究では、2レベル自発光エミッタの寿命推定と識別に関するいくつかのタスクに対する量子情報理論的限界について検討する。
特に,重なり合う時間的確率プロファイルを持つ2つの相互に一貫性のない指数的崩壊を解消するモデル問題に注目した。
量子にインスパイアされた点エミッターの超解像に関する最近の研究を反映して、2つの崩壊チャネルの時間定数が互いに近づくと、直接寿命の測定は「レイリーのカース」の類似に悩まされる。
本稿では,この限界を回避し,関連する二項仮説テストの直接測定に優れる別の測定手法を提案する。
我々の研究は、多光子干渉を頼らずに、単一の光子のコヒーレンス特性をより徹底的に活用することで、量子解析が特定のタスクに対して重要な情報を得るという、増大する例の一覧を付け加えた。 In this work we investigate the quantum information theoretical limits to several tasks related to lifetime estimation and discrimination of a two-level spontaneous optical emitter. We focus in particular on the model problem of resolving two mutually incoherent exponential decays with highly overlapping temporal probability profiles. Mirroring recent work on quantum-inspired super-resolution of point emitters, we find that direct lifetime measurement suffers from an analogue of "Rayleigh's Curse" when the time constants of the two decay channels approach one another. We propose alternative measurement schemes that circumvent this limit, and also demonstrate superiority to direct measurement for a related binary hypothesis test. Our findings add to a growing list of examples in which a quantum analysis uncovers significant information gains for certain tasks in opto-molecular metrology that do not rely on multiphoton interference, but evidently do benefit from a more thorough exploitation of the coherence properties of single photons. | 翻訳日:2023-02-26 07:11:11 公開日:2022-02-09 |
# 観測者に対する量子力学的規則と量子論の一貫性 Quantum mechanical rules for observed observers and the consistency of quantum theory ( http://arxiv.org/abs/2202.04203v1 ) ライセンス: Link先を確認 | Alexios P. Polychronakos | (参考訳) 私は、測定結果に対する通常の量子力学の規則は、マクロな状態の線形な組み合わせで測定の対象となる観測者が、そのような測定後の実験結果に対して信頼できる予測をできないという条件を補完する(あるいは、より理解される)必要があると論じる。
この条件で完了した量子力学的規則は、フラウチガーとレンナーによって同定されたパラドックスを持ち上げ、完全に一貫する。 I argue that the usual rules of quantum mechanics on measurement outcomes have to be complemented with (or rather, understood to include) the condition that observers who are themselves going to be subject to measurements in a linear combination of macroscopic states cannot make reliable predictions on the results of experiments performed after such measurements. Quantum mechanical rules completed with this condition lift the paradox identified by Frauchiger and Renner and become fully consistent. | 翻訳日:2023-02-26 07:10:53 公開日:2022-02-09 |
# シリコンフォトニックチップ上のダウンコンバータの完全2光子干渉 Near perfect two-photon interference out a down-converter on a silicon photonic chip ( http://arxiv.org/abs/2202.04316v1 ) ライセンス: Link先を確認 | Romain Dalidet, Florent Mazeas, Edgars Nitiss, Ozan Yakar, Anton Stroganov, S\'ebastien Tanzilli, Laurent Labont\'e, and Camille-Sophie Br\`es | (参考訳) 統合された光子ペア源は、大規模量子フォトニックソリューションを実現する上で重要な要素であり、スケールアップと安定性の課題に対処する。
本稿では,光誘起第2次(\chi^{(2)}$)非線形性を介してシリコン系プラットフォームにおける自発的パラメトリックダウン変換に基づくエネルギー時間エンタングルフォトンペア源の最初の実証を行い,基本高調波とその導波路内部における第2高調波の準位相整合を保証した。
開発されたソースは、$\mu$wポンプパワーの8で1635の偶然の比を示している。
驚くべきことに、99.36$\pm1.94\%$の視認性がほぼ完全である2光子干渉を報告し、背景雑音のない高品質フォトニックエンタングルメントを示した。
これにより、単一チップ上に様々なビルディング機能を統合する必要がある量子技術の新たな地平が開ける。 Integrated entangled photon-pair sources are key elements for enabling large-scale quantum photonic solutions, and addresses the challenges of both scaling-up and stability. Here we report the first demonstration of an energy-time entangled photon-pair source based on spontaneous parametric down-conversion in silicon-based platform through an optically induced second-order ($\chi^{(2)}$) nonlinearity, ensuring type-0 quasi-phase-matching of fundamental harmonic and its second-harmonic inside the waveguide. The developed source shows a coincidence-to-accidental ratio of 1635 at 8 of $\mu$W pump power. Remarkably, we report two-photon interference with near-perfect visibility of 99.36$\pm1.94\%$, showing high-quality photonic entanglement without excess background noise. This opens a new horizon for quantum technologies requiring the integration of a large variety of building functionalities on single chips. | 翻訳日:2023-02-26 07:04:40 公開日:2022-02-09 |
# クエンチダイナミクスにおける隠れ量子臨界性と絡み合い Hidden Quantum Criticality and Entanglement in Quench Dynamics ( http://arxiv.org/abs/2202.04654v1 ) ライセンス: Link先を確認 | Sanku Paul, Paraj Titum, and Mohammad F. Maghrebi | (参考訳) 絡み合いは、相関が長距離で熱力学的エントロピーが消滅する基底状態臨界点付近で普遍的な挙動を示す。
一方、量子クエンチは広範なエネルギーを付与し、エントロピーの蓄積をもたらすため、長い時間にわたって批判的な振る舞いは期待されない。
本稿では,臨界線における基底状態秩序不規則相転移を示す可積分スピン鎖のクエンチダイナミクスの新しいパラダイムを提案する。
具体的には、エントロピーと指数関数的に崩壊する相関関係の体積-法則挙動を示す臨界線に沿ったクエンチを考えるが、量子臨界性は高次相関に隠れており、相互情報や対数ネガティビティなどの測度によって現れることを示す。
さらに,R\'{e}nyi相互情報の領域間におけるスケール不変性を,真の臨界行動のさらなる証拠として示す。
新たに出現する普遍性は,冷やすにもかかわらずソフトモードの消失する有効温度に特有である。
この結果は、異なる量子シミュレータプラットフォーム、特にRydbergシミュレータの実験的な実現に有効である。 Entanglement exhibits universal behavior near the ground-state critical point where correlations are long-ranged and the thermodynamic entropy is vanishing. On the other hand, a quantum quench imparts extensive energy and results in a build-up of entropy, hence no critical behavior is expected at long times. In this work, we present a new paradigm in the quench dynamics of integrable spin chains which exhibit a ground-state order-disorder phase transition at a critical line. Specifically, we consider a quench along the critical line which displays a volume-law behavior of the entropy and exponentially decaying correlations; however, we show that quantum criticality is hidden in higher-order correlations and becomes manifest via measures such as the mutual information and logarithmic negativity. Furthermore, we showcase the scale-invariance of the R\'{e}nyi mutual information between disjoint regions as further evidence for genuine critical behavior. We attribute the emerging universality to the vanishing effective temperature of the soft mode in spite of the quench. Our results are amenable to an experimental realization on different quantum simulator platforms, particularly the Rydberg simulators. | 翻訳日:2023-02-26 06:57:17 公開日:2022-02-09 |
# 不可逆性と時間の矢印 Irreversibility and the Arrow of Time ( http://arxiv.org/abs/2202.04619v1 ) ライセンス: Link先を確認 | J\"urg Fr\"ohlich | (参考訳) 量子論の一般的な形式論の中では、様々な物理系の進化における不可逆性と時間の矢印が研究される。
不可逆的な行動はしばしばエントロピー生産の指針に現れる。
この論文は、エリオット・リーブ(Elliott Lieb)が卓越した貢献をした主題である量子力学のエントロピーの簡単なレビューと、それに続く不可逆的な振る舞いの例と、後続のセクションで分析された時間の矢印の列挙から始めます。
その後、(量子)統計力学から熱力学の法則の導出、特にクラウシウスとカルノットによって与えられた形式における熱力学の第二法則の導出が行われる。
第3部では、準自由量子力学的熱浴と相互作用する量子粒子の拡散(ブラウン)運動の結果について概説する。
これに続いて、ボース=アインシュタイン凝縮体を通過してそれと相互作用する粒子からなる系における音波のチェレンコフ放射の放出による摩擦の理論の概要が述べられている。
この論文で最も重要な部分であるかもしれないのは、量子力学に固有の時間の基本的矢印について論じることである。 Within the general formalism of quantum theory irreversibility and the arrow of time in the evolution of various physical systems are studied. Irreversible behavior often manifests itself in the guise of entropy production. This motivates me to begin this paper with a brief review of quantum-mechanical entropy, a subject that Elliott Lieb has made outstanding contributions to, followed by an enumeration of examples of irreversible behavior and of an arrow of time analyzed in later sections. Subsequently, a derivation of the laws of thermodynamics from (quantum) statistical mechanics, and, in particular, of the Second Law of thermodynamics, in the forms given to it by Clausius and Carnot, is presented. In a third part, results on diffusive (Brownian) motion of a quantum particle interacting with a quasi-free quantum-mechanical heat bath are reviewed. This is followed by an outline of a theory of friction by emission of Cherenkov radiation of sound waves in a system consisting of a particle moving through a Bose- Einstein condensate and interacting with it. In what may be the most important section of this paper, the fundamental arrow of time inherent in Quantum Mechanics is discussed. | 翻訳日:2023-02-26 06:56:31 公開日:2022-02-09 |
# 零および低磁場状態における高速回転場による過分極読み出し Hyperpolarization read-out through rapidly rotating fields in the zero- and low-field regime ( http://arxiv.org/abs/2202.04604v1 ) ライセンス: Link先を確認 | Laurynas Dagys and Christian Bengs | (参考訳) パラ水素誘起偏極法(PHIP法)の不可欠な部分は、核一重項秩序を観測可能な磁化に変換することである。
本研究では、回転磁場と弱バイアス場の組み合わせにより駆動される陽子一重項トリップレット状態の選択的回転によりヘテロ核への偏極移動を実現する。
驚くべきことに、STORM (Singlet-Triplet Oscillations through Rotating Magnetic Field) パルスによって駆動される効率的な偏光伝達は、数kHzのオーダーで、$\mu$Tのバイアス場が存在する場合、回転周波数を必要とする。
したがって、回転周波数は典型的なゼロから超低磁場実験のあらゆる内部周波数を大きく超える。
さらに、回転場の回転方向は任意ではなく、最終伝達効率に大きな影響を及ぼすことを示す。
これらの側面のいくつかは過分極(1-$^{13}$C)フマレートを考えることによって実験的に示される。
さらに、破壊的四極結合パートナーに対するSTORMパルスのレジリエンスを強調した数値シミュレーションを提供する。
既存のほとんどの方法とは対照的に、STORM法はPHIP実験における四極分離偏極移動の有望な候補である。 An integral part of para-hydrogen induced polarization (PHIP) methods is the conversion of nuclear singlet order into observable magnetization. In this study polarisation transfer to a heteronucleus is achieved through a selective rotation of the proton singlet-triplet states driven by a combination of a rotating magnetic field and a weak bias field. Surprisingly we find that efficient polarisation transfer driven by a STORM (Singlet-Triplet Oscillations through Rotating Magnetic fields) pulse in the presence of $\mu$T bias fields requires rotation frequencies on the order of several kHz. The rotation frequencies therefore greatly exceed any of the internal frequencies of typical zero- to ultralow field experiments. We further show that the rotational direction of the rotating field is not arbitrary and greatly influences the final transfer efficiency. Some of these aspects are demonstrated experimentally by considering hyperpolarised (1-$^{13}$C)fumarate. In addition, we provide numerical simulations highlighting the resilience of the STORM pulse against disruptive quadrupolar coupling partners. In contrast to most of the existing methods, the STORM procedure therefore represents a promising candidate for quadrupolar decoupled polarisation transfer in PHIP experiments. | 翻訳日:2023-02-26 06:55:52 公開日:2022-02-09 |
# マイクロ波による量子変換と光エンタングルメント Quantum transduction with microwave and optical entanglement ( http://arxiv.org/abs/2202.04601v1 ) ライセンス: Link先を確認 | Changchun Zhong, Xu Han, Liang Jiang | (参考訳) 量子トランスダクション(quantum transduction)とは、マイクロ波と光状態のコヒーレントな変換であり、高忠実度マイクロ波-光の絡み合い、すなわち絡み合いに基づく量子トランスダクションが与えられると量子テレポーテーションによって達成される。
信頼性の高いマイクロ波光エンタングルメントは、様々なプラットフォームを使って生成することができる。
本稿では,ピエゾ-オプトメカニカルシステムに関する議論を基礎とし,量子チャネル理論の枠組みにおいて,テレポーテーション誘起変換スキームをより具体化する。
エンタングルメントベースの変換チャネルと従来の直接量子トランスダクションチャネルの量子容量を比較することで、直接量子トランスダクションの量子容量がゼロである場合、エンタングルメントベースのスキームが正のトランスダクションレートを持つことを示す。
2つのピエゾ-オプトメカニカル系が与えられた場合、連続変数および離散変数設定内での絡み合わせによるマイクロ波-マイクロ波絡み合わせの発生についても検討し、マイクロ波-マイクロ波量子テレポーテーションによるマイクロ波量子プロセッサを直接接続する可能性を示した。 Quantum transduction refers to the coherent conversion between microwave and optical states, which can be achieved by quantum teleportation if given high fidelity microwave-optical entanglement, namely entanglement-based quantum transduction. Reliable microwave-optical entanglement can be generated using various platforms. In this paper, we base the discussion on piezo-optomechanical system and make the teleportation induced conversion scheme more concrete in the framework of quantum channel theory. By comparing the quantum capacity between the entanglement-based conversion channel and the traditional direct quantum transduction channel, we show entanglement-based scheme indeed admits a positive transduction rate when the direct quantum transduction has zero quantum capacity. Given two piezo-optomechanical systems, we also investigate the generation of microwave-microwave entanglement from entanglement swapping within continuous variable and discrete variable settings, showing the potentials of directly connecting microwave quantum processor by microwave-microwave quantum teleportation. | 翻訳日:2023-02-26 06:55:36 公開日:2022-02-09 |
# カオスボソニック系における対称性誘起多体量子干渉:拡張切断ウィグナー法 Symmetry-induced many-body quantum interference in chaotic bosonic systems: an augmented Truncated Wigner method ( http://arxiv.org/abs/2202.04596v1 ) ライセンス: Link先を確認 | Quirin Hummel and Peter Schlagheck | (参考訳) 非常に成功したものの、Trncated Wigner Approximation (TWA) はボソニック多体(MB)系の平均場方程式の異なる解間の真の多体量子干渉を説明できない。
これにより、twa は本質的に古典的であり、多くの粒子がプランクの定数 $\hbar$ の逆数の役割を形式的に果たす。
フォック空間における局所化やスカーリングのような真の干渉現象を記述できないことは、この準古典的手法の長所と見なすことができ、これにより、プリオリ近似を含まない「正確な」量子計算と比較されるときに、真の量子効果を特定できる。
TWAによって説明されないような量子効果のかなり顕著な原因は、初期状態の位相空間分布と、対応する対称性部分空間に関する強い局所化を特徴とする可観測性を備えた離散対称性の存在下で生じる対称性関連軌道の寄与の間の構成的干渉である。
ここでは、この特定の効果を考慮に入れたTWAの拡張版をどう考えるかを示す。
この拡張TWAは、対称部分空間に制限され、それらの部分空間からの垂直偏差に対するサンプリング軌道の動的安定性を考慮に入れた重み要因を含む、切り裂かれたウィグナーシミュレーションによって従来のTWA計算を補完する。
カオス的古典力学を呈する原型 Bose-Hubbard システムにおける前・後エレンフェスト時間尺度の有効性について述べるとともに,追加の MB 干渉効果の存在を明らかにした。 Although highly successful, the Truncated Wigner Approximation (TWA) does not account for genuine many-body quantum interference between different solutions of the mean-field equations of a bosonic many-body (MB) system. This renders the TWA essentially classical, where a large number of particles formally takes the role of the inverse of Planck's constant $\hbar$. The failure to describe genuine interference phenomena, such as localization and scarring in Fock space, can be seen as a virtue of this quasiclassical method, which thereby allows one to identify genuine quantum effects when being compared with "exact" quantum calculations that do not involve any a priori approximation. A rather prominent cause for such quantum effects that are not accounted for by the TWA is the constructive interference between the contributions of symmetry-related trajectories, which would occur in the presence of discrete symmetries provided the phase-space distribution of the initial state and the observable to be evaluated feature a strong localization about the corresponding symmetry subspaces. Here we show how one can conceive an augmented version of the TWA which can account for this particular effect. This augmented TWA effectively amounts to complementing conventional TWA calculations by separate Truncated Wigner simulations that are restricted to symmetric subspaces and involve weight factors that account for the dynamical stability of sampling trajectories with respect to perpendicular deviations from those subspaces. We illustrate the validity of this method at pre- as well as post-Ehrenfest time scales in prototypical Bose-Hubbard systems displaying chaotic classical dynamics, where it also reveals the existence of additional MB interference effects. | 翻訳日:2023-02-26 06:54:58 公開日:2022-02-09 |
# 物理空間の四元数モデルにおけるベルの定理と局所実在論」への回答 Reply to "Comment on 'Bell's Theorem Versus Local Realism in a Quaternionic Model of Physical Space'" ( http://arxiv.org/abs/2202.05615v1 ) ライセンス: Link先を確認 | Joy Christian | (参考訳) この論文では、以前にこの雑誌に掲載した論文の1つ、「物理空間の四元数モデルにおけるベルの定理対局所実在論」の批判に回答する。
この論文は、四元数3次元球面に基づく量子相関の局所的実数的モデルを示し、全ての実験を行うために限定された物理空間として捉える。
一方、批判は平坦なユークリッド空間内の2つの全く異なるモデルを考えるものであり、私の四元数3次元球面モデルとは関係がない。
その後、独自のフラットスペースモデルを批判し、その結果私の論文で提示されたモデルを批判したと主張する。
その過程で、証拠や証拠は提供せず、私の論文の結果は誤りに基づいていると主張している。
私の論文にどんな間違いもないことを実証します。
それとは逆に、私は基礎的な数学的および概念的な誤りを、それが依存する批判と批判から取り出します。 In this paper, I respond to a critique of one of my papers previously published in this journal, entitled "Bell's Theorem Versus Local Realism in a Quaternionic Model of Physical Space." That paper presents a local-realistic model of quantum correlations based on a quaternionic 3-sphere, taken as a physical space in which we are confined to perform all our experiments. The critique, on the other hand, considers two entirely different models within a flat Euclidean space, neither related to my quaternionic 3-sphere model. It then criticizes its own flat space models and claims that it has thereby criticized the model presented in my paper. Along the way, without providing evidence or proof, it claims that the results in my paper are based on mistakes. I demonstrate that there are no mistakes of any kind in my paper. On the contrary, I bring out a number of elementary mathematical and conceptual mistakes from the critique and the critiques it relies on. | 翻訳日:2023-02-26 06:49:06 公開日:2022-02-09 |
# MnBi2Te4とPtの2層膜における非相互輸送 Nonreciprocal transport in a bilayer of MnBi2Te4 and Pt ( http://arxiv.org/abs/2202.05398v1 ) ライセンス: Link先を確認 | Chen Ye, Xiangnan Xie, Wenxing Lv3, Ke Huang, Allen Jian Yang, Sicong Jiang, Xue Liu, Dapeng Zhu, Xuepeng Qiu, Mingyu Tong, Tong Zhou, Chuang-Han Hsu, Guoqing Chang, Hsin Lin, Peisen Li, Kesong Yang, Zhenyu Wang, Tian Jiang, Xiao Renshaw Wang | (参考訳) MnBi2Te4(MBT)はスピン-モメンタムロック表面電子と固有磁気の相互作用を持つ最初の固有磁気的トポロジカル絶縁体であり、新しい磁気的およびトポロジカル現象を示す。
近年の研究では、電子と磁性の相互作用は、表面のMnドープBi2Te3相の影響を受けやすいことが示唆されている。
本稿では,反強磁性 mbt と非磁性 pt からなる二重層における非相反輸送,すなわち電流指向依存性抵抗の観察を報告する。
N'eel温度以下での非相互応答の出現は、MTTの表面状態における非相互性と内在磁性の相関を裏付ける。
非相反輸送の角度依存性は、非相反応答はマグノンが媒介するmbt表面における電子の非対称性散乱に由来することを示している。
本研究は、内在的磁気位相絶縁体における磁性とディラック表面電子の相関から生じる非相反性に関する知見を提供する。 MnBi2Te4 (MBT) is the first intrinsic magnetic topological insulator with the interaction of spin-momentum locked surface electrons and intrinsic magnetism, and it exhibits novel magnetic and topological phenomena. Recent studies suggested that the interaction of electrons and magnetism can be affected by the Mn-doped Bi2Te3 phase at the surface due to inevitable structural defects. Here we report an observation of nonreciprocal transport, i.e. current-direction-dependent resistance, in a bilayer composed of antiferromagnetic MBT and nonmagnetic Pt. The emergence of the nonreciprocal response below the N\'eel temperature confirms a correlation between nonreciprocity and intrinsic magnetism in the surface state of MBT. The angular dependence of the nonreciprocal transport indicates that nonreciprocal response originates from the asymmetry scattering of electrons at the surface of MBT mediated by magnon. Our work provides an insight into nonreciprocity arising from the correlation between magnetism and Dirac surface electrons in intrinsic magnetic topological insulators. | 翻訳日:2023-02-26 06:48:50 公開日:2022-02-09 |
# 短期フォトニック量子デバイスの品質評価 Assessing the quality of near-term photonic quantum devices ( http://arxiv.org/abs/2202.04735v1 ) ライセンス: Link先を確認 | Rawad Mezher and Shane Mansfield | (参考訳) 短期量子デバイスにとって重要な課題は、潜在的に有用なアプリケーションを実行するのに十分なノイズレベルが低いことを証明するための効率的な方法を開発することである。
本稿では,光子検出器に結合した線形光回路に結合した単一光子源からなる光子量子デバイスに適した方法を提案する。
入力サイズが$n$(理想的な場合は$n$入力光子)のボソンサンプリング実験の出力統計を使用する。
我々は,光子損失と識別性という2つの主なノイズ源を対象とする一連のベンチマークテストを提案する。
本手法は、出力統計が全てのテストに合格する入力光子の最大数として定義される1つの数であるフォトニック品質係数を導出する。
すべての試験を通過させることで、我々の実験がより効率的に古典的にシミュレートできないことを示す強い証拠を、ボソンサンプリングの雑音を効率的にシミュレートするいくつかの古典的アルゴリズムがテストに失敗したことを示す。
最後に、BosonSampling実験はモードごとの平均光子損失率を$o(1)$とし、平均光子損失率を$ (1-o(\frac{1}{n^6}))^2$とすることで、実験をパスし続けるのに十分であることを示した。
当然ながら、効率的な古典的シミュラビリティを回避した方法でのスケーリングには、必ずエラーの修正と緩和が必要です。 For near-term quantum devices, an important challenge is to develop efficient methods to certify that noise levels are low enough to allow potentially useful applications to be carried out. We present such a method tailored to photonic quantum devices consisting of single photon sources coupled to linear optical circuits coupled to photon detectors. It uses the output statistics of BosonSampling experiments with input size $n$ ($n$ input photons in the ideal case). We propose a series of benchmark tests targetting two main sources of noise, namely photon loss and distinguishability. Our method results in a single-number metric, the Photonic Quality Factor, defined as the largest number of input photons for which the output statistics pass all tests. We provide strong evidence that passing all tests implies that our experiments are not efficiently classically simulable, by showing how several existing classical algorithms for efficiently simulating noisy BosonSampling fail the tests. Finally we show that BosonSampling experiments with average photon loss rate per mode scaling as $o(1)$ and average fidelity of $ (1-o(\frac{1}{n^6}))^2$ between any two single photon states is sufficient to keep passing our tests. Unsurprisingly, our results highlight that scaling in a manner that avoids efficient classical simulability will at some point necessarily require error correction and mitigation. | 翻訳日:2023-02-26 06:48:10 公開日:2022-02-09 |
# 量子対称回転子の単一入力摂動制御 Single-input perturbative control of a quantum symmetric rotor ( http://arxiv.org/abs/2202.04689v1 ) ライセンス: Link先を確認 | Thomas Chambrion and Eugenio Pozzoli | (参考訳) 我々は、z線偏極電場によって駆動される回転対称剛性分子(対称回転子)のシュリンガー偏微分方程式を、退化無限次元双線型制御系のプロトタイプとして考える。
抽象摂動基準を導入することで、その同時近似制御可能性の分類を行い、この知見に基づいて回転人口の方向選択的移動を数値的に行う。 We consider the Schr\"odinger partial differential equation of a rotating symmetric rigid molecule (symmetric rotor) driven by a z-linearly polarized electric field, as prototype of degenerate infinite-dimensional bilinear control system. By introducing an abstract perturbative criterium, we classify its simultaneous approximate controllability; based on this insight, we numerically perform an orientational selective transfer of rotational population. | 翻訳日:2023-02-26 06:46:08 公開日:2022-02-09 |
# 『侵略的、不安的、不安を感じ、自分を守るかもしれない』:ジェンダーとカントリーをまたがるオンライン追跡とその保護行動に関する個人意識 "I feel invaded, annoyed, anxious and I may protect myself": Individuals' Feelings about Online Tracking and their Protective Behaviour across Gender and Country ( http://arxiv.org/abs/2202.04682v1 ) ライセンス: Link先を確認 | Kovila P.L. Coopamootoo, Maryam Mehrnezhad, Ehsan Toreini | (参考訳) オンライントラッキングはインターネットユーザーにとって主要な関心事であるが、過去の研究では追跡と保護行動の認知的理解の間に明確な関連性を見出していない。
保護行動は追跡の感情的評価に従うと仮定する。
われわれは、N=614人の参加者とともに、イギリス、ドイツ、フランスでオンライン調査を行い、ユーザーがサードパーティの追跡についてどう感じているか、そしてどのような保護措置をとるかを調査した。
追跡に対するほとんどの参加者の感情は否定的で、情報領域を超えて、保護行動を予測する不安感や不安感など、深く侵入的だと説明されています。
また,女性の方が追跡に否定的だが,男性に比べて保護行動を取る可能性が低い「プライバシー性格差」の兆候も観察した。
英国では、ドイツやフランスに比べ、ネガティブな感情や保護行動が報告される人は少ない。
本稿では,プライバシの脅威に対する感情評価と保護行動の予測方法について考察する。
また、これらの発見が様々な利害関係者に与える影響について議論し、将来の作業のための推奨事項と概要を述べる。 Online tracking is a primary concern for Internet users, yet previous research has not found a clear link between the cognitive understanding of tracking and protective actions. We postulate that protective behaviour follows affective evaluation of tracking. We conducted an online study, with N=614 participants, across the UK, Germany and France, to investigate how users feel about third-party tracking and what protective actions they take. We found that most participants' feelings about tracking were negative, described as deeply intrusive - beyond the informational sphere, including feelings of annoyance and anxiety, that predict protective actions. We also observed indications of a `privacy gender gap', where women feel more negatively about tracking, yet are less likely to take protective actions, compared to men. And less UK individuals report negative feelings and protective actions, compared to those from Germany and France. This paper contributes insights into the affective evaluation of privacy threats and how it predicts protective behaviour. It also provides a discussion on the implications of these findings for various stakeholders, make recommendations and outline avenues for future work. | 翻訳日:2023-02-19 14:48:38 公開日:2022-02-09 |
# GEOM:プロパティ予測と分子生成のためのエネルギーアノテート分子構造 GEOM: Energy-annotated molecular conformations for property prediction and molecular generation ( http://arxiv.org/abs/2006.05531v4 ) ライセンス: Link先を確認 | Simon Axelrod, Rafael Gomez-Bombarelli | (参考訳) 機械学習(ml)は多くの分子設計タスクで従来のアプローチを上回っている。
MLモデルは通常、2Dケミカルグラフや1つの3D構造から分子特性を予測するが、どちらの表現も分子にアクセスできる3Dコンフォメータの集合を考慮していない。
コンバータアンサンブルを入力として使用することで特性予測を改善することができるが、正確なコンバータと実験データを含むグラフを含む大規模データセットは存在しない。
ここでは,高度サンプリングと半経験的密度汎関数理論(dft)を用いて,45万以上の分子に対して3700万の分子コンフォメーションを生成する。
Geometric Ensemble Of Molecules (GEOM)データセットには、QM9の133,000種と、生物物理学、生理学、物理化学に関する実験データを含む317,000種が含まれている。
BACE-1阻害データを持つ1,511種のアンサンブルは、暗黙の水溶媒中で高品質なDFT自由エネルギーでラベル付けされ、534個のアンサンブルはさらにDFTで最適化されている。
GEOMは、コンフォーマーアンサンブルから特性を予測するモデルや、3Dコンフォーメーションをサンプリングする生成モデルの開発を支援する。 Machine learning (ML) outperforms traditional approaches in many molecular design tasks. ML models usually predict molecular properties from a 2D chemical graph or a single 3D structure, but neither of these representations accounts for the ensemble of 3D conformers that are accessible to a molecule. Property prediction could be improved by using conformer ensembles as input, but there is no large-scale dataset that contains graphs annotated with accurate conformers and experimental data. Here we use advanced sampling and semi-empirical density functional theory (DFT) to generate 37 million molecular conformations for over 450,000 molecules. The Geometric Ensemble Of Molecules (GEOM) dataset contains conformers for 133,000 species from QM9, and 317,000 species with experimental data related to biophysics, physiology, and physical chemistry. Ensembles of 1,511 species with BACE-1 inhibition data are also labeled with high-quality DFT free energies in an implicit water solvent, and 534 ensembles are further optimized with DFT. GEOM will assist in the development of models that predict properties from conformer ensembles, and generative models that sample 3D conformations. | 翻訳日:2022-11-23 15:47:35 公開日:2022-02-09 |
# 層状深層ネットワークは閉じた重みを持つ Deep Layer-wise Networks Have Closed-Form Weights ( http://arxiv.org/abs/2006.08539v6 ) ライセンス: Link先を確認 | Chieh Wu, Aria Masoomi, Arthur Gretton, Jennifer Dy | (参考訳) 現在、脳がバックプロパゲーション(BP)を行う可能性について神経科学コミュニティ内で議論がある。
脳をよりよく模倣するために、ネットワーク$\textit{one layer at a time}$を"シングルフォワードパス"のみでトレーニングすることは、BPをバイパスする代替として提案されている。
我々は,2つの優れた質問に答えることで,階層型ネットワークの研究を継続する。
まず、$\textit{彼らはクローズドフォームソリューションを持っていますか?
次に、なぜレイヤーを追加するのをやめるタイミングを知っていますか?
この研究は、カーネルのMean Embeddingがネットワーク全体の最適性を達成し、ネットワークを分類するために非常に望ましいカーネルへと収束させるクローズドフォームウェイトであることを証明している。 There is currently a debate within the neuroscience community over the likelihood of the brain performing backpropagation (BP). To better mimic the brain, training a network $\textit{one layer at a time}$ with only a "single forward pass" has been proposed as an alternative to bypass BP; we refer to these networks as "layer-wise" networks. We continue the work on layer-wise networks by answering two outstanding questions. First, $\textit{do they have a closed-form solution?}$ Second, $\textit{how do we know when to stop adding more layers?}$ This work proves that the kernel Mean Embedding is the closed-form weight that achieves the network global optimum while driving these networks to converge towards a highly desirable kernel for classification; we call it the $\textit{Neural Indicator Kernel}$. | 翻訳日:2022-11-21 03:15:22 公開日:2022-02-09 |
# フィサラムに触発されたマルチコモディティフローダイナミクス Physarum-Inspired Multi-Commodity Flow Dynamics ( http://arxiv.org/abs/2009.01498v5 ) ライセンス: Link先を確認 | Vincenzo Bonifaci and Enrico Facca and Frederic Folz and Andreas Karrenbauer and Pavel Kolev and Kurt Mehlhorn and Giovanna Morigi and Golnoosh Shahkarami and Quentin Vermande | (参考訳) 湿式実験では、スライム型Physarum polycephalumが最短経路問題の解法と効率的なネットワークの設計能力を示した。
最短経路問題に対しては、スライムの進化に関する数学的モデルが利用可能であり、コンピュータ実験や数学的解析を通じて、最も短い経路問題を解くことが示されている。
本稿では,ネットワーク設計問題に対するダイナミクスを紹介する。
マルチ商品フロー問題を効率的に支援するネットワーク構築問題として,ネットワーク設計を定式化する。
計算機シミュレーションのダイナミクスを解析的に検討する。
シミュレーションは、ダイナミクスが効率的でエレガントなネットワークを構築することができることを示している。
理論的には、ネットワークのコストとネットワークを経由する要求をルーティングするコストを組み合わせることで、ダイナミクスが目標を最小化することを示している。
また、最適解の代替的特徴付けも与える。 In wet-lab experiments, the slime mold Physarum polycephalum has demonstrated its ability to solve shortest path problems and to design efficient networks. For the shortest path problem, a mathematical model for the evolution of the slime is available and it has been shown in computer experiments and through mathematical analysis that the dynamics solves the shortest path problem. In this paper, we introduce a dynamics for the network design problem. We formulate network design as the problem of constructing a network that efficiently supports a multi-commodity flow problem. We investigate the dynamics in computer simulations and analytically. The simulations show that the dynamics is able to construct efficient and elegant networks. In the theoretical part we show that the dynamics minimizes an objective combining the cost of the network and the cost of routing the demands through the network. We also give alternative characterization of the optimum solution. | 翻訳日:2022-10-22 07:34:42 公開日:2022-02-09 |
# MR画像におけるアンダーサンプル取得の可能性 Sampling possible reconstructions of undersampled acquisitions in MR imaging ( http://arxiv.org/abs/2010.00042v3 ) ライセンス: Link先を確認 | Kerem C. Tezcan, Neerav Karani, Christian F. Baumgartner, Ender Konukoglu | (参考訳) MR取得中にk空間をアンサンプすることは時間を節約するが、結果として不適切な逆転問題が発生し、可能な限り無限の画像集合が得られる。
伝統的に、これは、選択された正規化や事前に従って、このソリューションセットから1つの「ベスト」イメージを検索することで、再構成問題として取り組まれる。
しかし、このアプローチは他の解の可能性を見逃し、従って反転過程の不確実性を無視する。
本稿では,逆転過程における不確かさを捉えるために,取得モデルと選択した条件下で可能な複数の画像を返却する手法を提案する。
この目的のために、我々は低次元の潜伏空間を導入し、k空間における取得データから得られた潜伏ベクトルの後方分布をモデル化し、潜伏空間をサンプリングして対応する画像を得る。
潜在モデルには変分オートエンコーダ,サンプリングにはメトロポリス調整ランジュバンアルゴリズムを用いる。
我々は,Human Connectome Projectと社内で計測されたマルチコイル画像の2つのデータセットを用いて,本手法の評価を行った。
5つの方法と比較する。
提案手法は,現実的な構造変化を示しながら,測定したk空間データに適合する画像を生成することを示す。
さらに, 比較手法と対照的に, 提案手法は期待どおりアンサンプされた位相符号化方向における不確実性が高い。
キーワード:磁気共鳴画像再構成、不確実性推定、逆問題、サンプリング、MCMC、ディープラーニング、教師なし学習。 Undersampling the k-space during MR acquisitions saves time, however results in an ill-posed inversion problem, leading to an infinite set of images as possible solutions. Traditionally, this is tackled as a reconstruction problem by searching for a single "best" image out of this solution set according to some chosen regularization or prior. This approach, however, misses the possibility of other solutions and hence ignores the uncertainty in the inversion process. In this paper, we propose a method that instead returns multiple images which are possible under the acquisition model and the chosen prior to capture the uncertainty in the inversion process. To this end, we introduce a low dimensional latent space and model the posterior distribution of the latent vectors given the acquisition data in k-space, from which we can sample in the latent space and obtain the corresponding images. We use a variational autoencoder for the latent model and the Metropolis adjusted Langevin algorithm for the sampling. We evaluate our method on two datasets; with images from the Human Connectome Project and in-house measured multi-coil images. We compare to five alternative methods. Results indicate that the proposed method produces images that match the measured k-space data better than the alternatives, while showing realistic structural variability. Furthermore, in contrast to the compared methods, the proposed method yields higher uncertainty in the undersampled phase encoding direction, as expected. Keywords: Magnetic Resonance image reconstruction, uncertainty estimation, inverse problems, sampling, MCMC, deep learning, unsupervised learning. | 翻訳日:2022-10-12 23:17:20 公開日:2022-02-09 |
# 心臓血管疾患のパーソナライズド・パステスト : 判別的要約統計学習を用いた近似ベイズ計算 Personalized pathology test for Cardio-vascular disease: Approximate Bayesian computation with discriminative summary statistics learning ( http://arxiv.org/abs/2010.06465v2 ) ライセンス: Link先を確認 | Ritabrata Dutta, Karim Zouaoui-Boudjeltia, Christos Kotsalos, Alexandre Rousseau, Daniel Ribeiro de Sousa, Jean-Marc Desmet, Alain Van Meerhaeghe, Antonietta Mira, Bastien Chopard | (参考訳) 心臓・脳血管疾患(CVD)は我々の社会で大きな問題となっている。
しかし,近年の研究では,血小板活性化の異なる段階や血小板相互作用に関与する分子動力学を考慮せず,個体間変異を考慮できないため,cvdを検出できる病態試験は効果がないことが示された。
本稿では,様々なタイプの患者を最大に識別する統計量を用いた近似ベイズ計算を用いて,生物的に有意なモデルパラメータを推定するための確率的血小板沈着モデルと推論手法を提案する。
健常者および異なる患者タイプで収集されたデータから推定されたパラメーターは、特定の生物学的パラメータを特定するのに役立つ。
この研究は、CVDの検出と治療のためのパーソナライズされた病理検査の先例のない機会を開く。 Cardio/cerebrovascular diseases (CVD) have become one of the major health issue in our societies. But recent studies show that the present pathology tests to detect CVD are ineffectual as they do not consider different stages of platelet activation or the molecular dynamics involved in platelet interactions and are incapable to consider inter-individual variability. Here we propose a stochastic platelet deposition model and an inferential scheme to estimate the biologically meaningful model parameters using approximate Bayesian computation with a summary statistic that maximally discriminates between different types of patients. Inferred parameters from data collected on healthy volunteers and different patient types help us to identify specific biological parameters and hence biological reasoning behind the dysfunction for each type of patients. This work opens up an unprecedented opportunity of personalized pathology test for CVD detection and medical treatment. | 翻訳日:2022-10-08 00:40:46 公開日:2022-02-09 |
# SelfVoxeLO:Voxel-based Deep Neural Networksを用いた自己教師型LiDARオドメトリー SelfVoxeLO: Self-supervised LiDAR Odometry with Voxel-based Deep Neural Networks ( http://arxiv.org/abs/2010.09343v3 ) ライセンス: Link先を確認 | Yan Xu, Zhaoyang Huang, Kwan-Yee Lin, Xinge Zhu, Jianping Shi, Hujun Bao, Guofeng Zhang, Hongsheng Li | (参考訳) 近年の学習に基づくLiDARオドメトリー法は,その競争力を実証している。
しかし、ほとんどの方法はまだ2つの重大な課題に直面している。
1) LiDARデータの2次元投影表現は、点雲から3次元構造を効果的に符号化することはできない。
2) 大量のラベル付きデータのトレーニングの必要性は,これらの手法の適用範囲を制限する。
本稿では,この2つの課題に対処するために,自己教師型LiDARオドメトリー法(SelfVoxeLO)を提案する。
具体的には、生のLiDARデータを直接処理する3D畳み込みネットワークを提案し、3D幾何パターンをよりよく符号化する特徴を抽出する。
ネットワークを自己教師型学習に適合させるため,LiDAR点雲の固有特性を利用する新たな損失関数を設計する。
また、損失関数に不確実性認識機構を組み込んで、移動物体/ノイズの干渉を緩和する。
我々は,KITTIとApollo-SouthBayという2つの大規模データセット上での手法の性能を評価する。
提案手法は,KITTIデータセットの翻訳・回転誤差を27%/32%向上させ,Apollo-SouthBayデータセットでも良好に動作することを示す。
学習データを含むことにより,教師付き手法に匹敵する性能を向上させることができる。 Recent learning-based LiDAR odometry methods have demonstrated their competitiveness. However, most methods still face two substantial challenges: 1) the 2D projection representation of LiDAR data cannot effectively encode 3D structures from the point clouds; 2) the needs for a large amount of labeled data for training limit the application scope of these methods. In this paper, we propose a self-supervised LiDAR odometry method, dubbed SelfVoxeLO, to tackle these two difficulties. Specifically, we propose a 3D convolution network to process the raw LiDAR data directly, which extracts features that better encode the 3D geometric patterns. To suit our network to self-supervised learning, we design several novel loss functions that utilize the inherent properties of LiDAR point clouds. Moreover, an uncertainty-aware mechanism is incorporated in the loss functions to alleviate the interference of moving objects/noises. We evaluate our method's performances on two large-scale datasets, i.e., KITTI and Apollo-SouthBay. Our method outperforms state-of-the-art unsupervised methods by 27%/32% in terms of translational/rotational errors on the KITTI dataset and also performs well on the Apollo-SouthBay dataset. By including more unlabelled training data, our method can further improve performance comparable to the supervised methods. | 翻訳日:2022-10-05 22:51:00 公開日:2022-02-09 |
# (参考訳) Harmony Searchアルゴリズムに基づくクラウドコンピューティングにおけるIoTデータの重複コピーの割り当て Allocating Duplicate Copies for IoT Data in Cloud Computing Based on Harmony Search Algorithm ( http://arxiv.org/abs/2202.13880v1 ) ライセンス: CC BY 4.0 | Younes Jahandideh, A. Mirzaei | (参考訳) モノのインターネット(IoT)は現在、大量のデータを生成しており、クラウドコンピューティングはIoTデータ管理の効率的なソリューションとして導入されています。
クラウドリソース管理者は通常、IoTデータの信頼性を保証するためにレプリケーション戦略を採用する。
このメカニズムはデータアクセス時間を著しく短縮することができ、明らかにデータのレプリカがデータストレージコストを増大させる。
さらに、ミニクラウドのレプリカ割り当てと複製のソートのためにミニクラウドを選択するプロセスはnp-hard問題であると考えられる。
そこで本稿では,クラウドコンピューティング環境におけるIoTデータにレプリカを割り当てることにより,データアクセスコストの低減を図るために,調和探索(HS)アルゴリズムに基づくアプローチを提案する。
HSアルゴリズムは、クラウドコンピューティング環境でデータレプリケーションを行う最適な場所を決定するために提案手法に採用された。
実装結果によると,提案手法は他の手法よりも優れており,データアクセス時間や遅延,エネルギー消費を大幅に低減することができた。 The Internet of things (IoT) generates a plethora of data nowadays, and cloud computing has been introduced as an efficient solution to IoT data management. A cloud resource administrator usually adopts the replication strategy to guarantee the reliability of IoT data. This mechanism can significantly reduce data access time, and evidently, more replicas of data increase the data storage cost. Furthermore, the process of selecting mini clouds for replica allocation and sorting replicas in mini clouds is considered an NP-hard problem. Therefore, this paper proposes an approach based on the harmony search (HS) algorithm to allocate replicas to the IoT data in the cloud computing environment in order to mitigate the data access cost. The HS algorithm was employed in the proposed approach to determine the best location for data replication in the cloud computing environment. According to the implementation results, the proposed approach outperformed the other methods and managed to significantly decrease data access time and delay as well as energy consumption. | 翻訳日:2022-03-06 15:36:00 公開日:2022-02-09 |
# (参考訳) スポーツにおける血液ドーピング検出の改善のためのaiアプローチ AI-based approach for improving the detection of blood doping in sports ( http://arxiv.org/abs/2203.00001v1 ) ライセンス: CC BY 4.0 | Maxx Richard Rahman, Jacob Bejder, Thomas Christian Bonne, Andreas Breenfeldt Andersen, Jes\'us Rodr\'iguez Huertas, Reid Aikin, Nikolai Baastrup Nordsborg and Wolfgang Maa{\ss} | (参考訳) 世界中のスポーツ関係者は、選手が試合のパフォーマンスを改善するために行う不公平な慣行のために、驚くべき課題に直面しています。
ホルモンをベースとした薬物の摂取や血液の輸血により、その強度とトレーニングの結果が増加する。
しかし、これらの症例の検出の現在の直接検査には、コスト要因や医療専門家の可用性などによって制限されている実験室ベースの方法が含まれる。
これにより、間接的なテストを探します。
医療における人工知能への関心が高まる中、意思決定を改善するために血液パラメータに基づくアルゴリズムを提案することが重要である。
本稿では,血液試料中のドーピング物質rhEPOの存在を識別するための統計的および機械学習に基づくアプローチを提案する。 Sports officials around the world are facing incredible challenges due to the unfair means of practices performed by the athletes to improve their performance in the game. It includes the intake of hormonal based drugs or transfusion of blood to increase their strength and the result of their training. However, the current direct test of detection of these cases includes the laboratory-based method, which is limited because of the cost factors, availability of medical experts, etc. This leads us to seek for indirect tests. With the growing interest of Artificial Intelligence in healthcare, it is important to propose an algorithm based on blood parameters to improve decision making. In this paper, we proposed a statistical and machine learning-based approach to identify the presence of doping substance rhEPO in blood samples. | 翻訳日:2022-03-06 15:26:24 公開日:2022-02-09 |
# バッテリー電気自動車の嗜好の理解と変遷 Understanding and Shifting Preferences for Battery Electric Vehicles ( http://arxiv.org/abs/2202.08963v1 ) ライセンス: Link先を確認 | Nikos Arechiga, Francine Chen, Rumen Iliev, Emily Sumner, Scott Carter, Alex Filipowicz, Nayeli Bravo, Monica Van, Kate Glazko, Kalani Murakami, Laurent Denoue, Candice Hogan, Katharine Sieck, Charlene Wu, Kent Lyons | (参考訳) 個人に対するパーソナライズされた介入を特定することは重要なタスクです。
近年の研究では、個々の消費者の人口統計学的背景を考慮しない介入は、実際には、電気自動車に対する反対を強める逆効果を生み出すことが示されている。
本研究では,個人の人口統計に基づく介入を個人化する方法に着目し,消費者の嗜好をバッテリー電気自動車(bev)にシフトさせる。
好みを変えるための介入を提案するモデルを構築する際の制約の1つは、それぞれの介入が後の介入の有効性に影響を与えることである。
これに対し、多くの被験者はそれぞれの介入の有効性を評価する必要がある。
そこで本稿では,バリアやモチベータなど,BEV導入に影響を与えるパーソナライズされた要因を特定することを提案する。
本稿では,これらの要因を予測し,最も頻繁な要因を常に予測するよりも性能がよいことを示す。
次に、最も効果的な介入を学習し、各アプローチに必要な科目数を比較する強化学習(RL)モデルを提案する。 Identifying personalized interventions for an individual is an important task. Recent work has shown that interventions that do not consider the demographic background of individual consumers can, in fact, produce the reverse effect, strengthening opposition to electric vehicles. In this work, we focus on methods for personalizing interventions based on an individual's demographics to shift the preferences of consumers to be more positive towards Battery Electric Vehicles (BEVs). One of the constraints in building models to suggest interventions for shifting preferences is that each intervention can influence the effectiveness of later interventions. This, in turn, requires many subjects to evaluate effectiveness of each possible intervention. To address this, we propose to identify personalized factors influencing BEV adoption, such as barriers and motivators. We present a method for predicting these factors and show that the performance is better than always predicting the most frequent factors. We then present a Reinforcement Learning (RL) model that learns the most effective interventions, and compare the number of subjects required for each approach. | 翻訳日:2022-02-27 17:38:50 公開日:2022-02-09 |
# 在庫目録の高性能自動分類と帰属 High-performance automatic categorization and attribution of inventory catalogs ( http://arxiv.org/abs/2202.08965v1 ) ライセンス: Link先を確認 | Anton Kolonin | (参考訳) 自動テキスト分類のための機械学習技術を適用し,在庫目録データ属性の問題に適用し,精度と性能のトレードオフに対処する最適解を選択する。 Techniques of machine learning for automatic text categorization are applied and adapted for the problem of inventory catalog data attribution, with different approaches explored and optimal solution addressing the tradeoff between accuracy and performance is selected. | 翻訳日:2022-02-27 17:38:15 公開日:2022-02-09 |
# (参考訳) スナップショット圧縮イメージングのための数学的クックブック Mathematical Cookbook for Snapshot Compressive Imaging ( http://arxiv.org/abs/2202.07437v1 ) ライセンス: CC BY 4.0 | Yaping Zhao | (参考訳) 著者は、Snapshot Compressive Imaging (SCI)で、美しくエレガントでユーザーフレンドリーな数学のクックブックを提供する予定だ。
現在、クックブックは、SCIの正規化に基づく最適化アルゴリズムを用いて、導入と従来の最適化で構成されている。
最新リリースは強く推奨されている!
その他の質問、提案、コメントに対しては、著者にメールを自由に送れる。 The author intends to provide you with a beautiful, elegant, user-friendly cookbook for mathematics in Snapshot Compressive Imaging (SCI). Currently, the cookbook is composed of introduction and conventional optimization, using regularization-based optimization algorithms for SCI. The latest releases are strongly recommended! For any other questions, suggestions, or comments, feel free to email the author. | 翻訳日:2022-02-20 16:35:54 公開日:2022-02-09 |
# エネルギー効率の良い音声モデルのためのニューラルアーキテクチャ探索 Neural Architecture Search for Energy Efficient Always-on Audio Models ( http://arxiv.org/abs/2202.05397v1 ) ライセンス: Link先を確認 | Daniel T. Speckhard, Karolis Misiunas, Sagi Perel, Tenghui Zhu, Simon Carlile, Malcolm Slaney | (参考訳) 常時オンオーディオ分類のためのモバイルおよびエッジコンピューティングデバイスは、エネルギー効率のよいニューラルネットワークアーキテクチャを必要とする。
精度,エネルギー効率,メモリ使用量などを最適化するニューラルアーキテクチャサーチ(NAS)を提案する。
検索はブラックボックス最適化サービスのVizierで実行される。
本稿では,粒子群を用いたベイジアン探索と正規化進化探索の両方を用いた探索戦略を提案し,計算負荷を軽減するために早期停止を用いる。
検索は、MobileNetV1/V2実装と同様の精度でAudioSetに基づく音声イベント分類データセットのアーキテクチャを返すが、推論あたりのエネルギーは桁違い少なく、メモリフットプリントもはるかに小さい。 Mobile and edge computing devices for always-on audio classification require energy-efficient neural network architectures. We present a neural architecture search (NAS) that optimizes accuracy, energy efficiency and memory usage. The search is run on Vizier, a black-box optimization service. We present a search strategy that uses both Bayesian and regularized evolutionary search with particle swarms, and employs early-stopping to reduce the computational burden. The search returns architectures for a sound-event classification dataset based upon AudioSet with similar accuracy to MobileNetV1/V2 implementations but with an order of magnitude less energy per inference and a much smaller memory footprint. | 翻訳日:2022-02-14 16:35:25 公開日:2022-02-09 |
# フィードフォワードReLUネットワークの解の理論的探索 Theoretical Exploration of Solutions of Feedforward ReLU networks ( http://arxiv.org/abs/2202.01919v3 ) ライセンス: Link先を確認 | Changcun Huang | (参考訳) 本稿では,フィードフォワードReLUネットワークのメカニズムを,基本ルールを用いて一括線形関数の解を探索することによって解釈することを目的とする。
構築されたソリューションは、エンジニアリングのネットワークアーキテクチャを説明するのに十分普遍的であるべきです。
そのため、理論物理学の方法論を借用して理論を発展させる。
幾何学的背景下では、三層ネットワークと深層ネットワークの両方の解が提示され、解の普遍性はいくつかの方法で保証される。マルチアウトプットのパラメータ共有機構、各レイヤの機能、深層の利用、パラメータの冗長性など、ネットワークアーキテクチャの各コンポーネントを明確に直感的に解釈する。
畳み込みネットワークの最後の3層のサブネットワーク、多層フィードフォワードネットワーク、オートエンコーダのデコーダの3つの典型的なネットワークアーキテクチャについて説明する。
本稿では, フィードフォワードReLUネットワークの理論の基盤として, さらなる研究が期待されている。 This paper aims to interpret the mechanism of feedforward ReLU networks by exploring their solutions for piecewise linear functions through basic rules. The constructed solutions should be universal enough to explain the network architectures of engineering. In order for that, we borrow the methodology of theoretical physics to develop the theories. Some of the consequences of our theories include: Under geometric backgrounds, the solutions of both three-layer networks and deep-layer networks are presented, and the solution universality is ensured by several ways; We give clear and intuitive interpretations of each component of network architectures, such as the parameter-sharing mechanism for multi-output, the function of each layer, the advantage of deep layers, the redundancy of parameters, and so on. We explain three typical network architectures: the subnetwork of last three layers of convolutional networks, multi-layer feedforward networks, and the decoder of autoencoders. This paper is expected to provide a basic foundation of theories of feedforward ReLU networks for further investigations. | 翻訳日:2022-02-13 14:54:16 公開日:2022-02-09 |
# OPP-Miner:順序保存型シーケンシャルパターンマイニング OPP-Miner: Order-preserving sequential pattern mining ( http://arxiv.org/abs/2202.03140v2 ) ライセンス: Link先を確認 | Youxi Wu, Qian Hu, Yan Li, Lei Guo, Xingquan Zhu, Xindong Wu | (参考訳) 時系列 (time series) は、時系列の計測値の集合である。
時系列からパターンを発見することは、ストック分析、疾患検出、天気予報など、多くの領域で有用である。
パターンを発見するために、既存の手法は、しばしば時系列データを名目/記号形式などの別の形式に変換し、次元性を減らす。
さらに,既存の手法は時系列値間の順序関係を主に無視する。
そこで本稿では,順序保存マッチングに着想を得て,時系列データの順序関係に基づくパターンを表現する順序保存シーケンシャルパターン(opp)マイニング手法を提案する。
このような表現の固有の利点は、時系列データの下の値の相対順序で時系列のトレンドを表現することができることである。
時系列の頻繁な傾向を得るため、同じ傾向(同じ相対順序のサブシーケンス)のパターンをマイニングするOPP-Minerアルゴリズムを提案する。
OPP-Minerは、フィルタと検証戦略を用いてサポートを計算し、パターン融合戦略を用いて候補パターンを生成する。
結果集合を圧縮するために,最大 OPP の探索も検討した。
実験では、OPP-Minerは効率的でスケーラブルであるだけでなく、時系列で類似したサブシーケンスを発見することもできる。
また,本研究のケーススタディでは,危機的傾向を同定し,クラスタリング性能を向上させることで,covid-19流行の分析に高い有用性を示す。 A time series is a collection of measurements in chronological order. Discovering patterns from time series is useful in many domains, such as stock analysis, disease detection, and weather forecast. To discover patterns, existing methods often convert time series data into another form, such as nominal/symbolic format, to reduce dimensionality, which inevitably deviates the data values. Moreover, existing methods mainly neglect the order relationships between time series values. To tackle these issues, inspired by order-preserving matching, this paper proposes an Order-Preserving sequential Pattern (OPP) mining method, which represents patterns based on the order relationships of the time series data. An inherent advantage of such representation is that the trend of a time series can be represented by the relative order of the values underneath the time series data. To obtain frequent trends in time series, we propose the OPP-Miner algorithm to mine patterns with the same trend (sub-sequences with the same relative order). OPP-Miner employs the filtration and verification strategies to calculate the support and uses pattern fusion strategy to generate candidate patterns. To compress the result set, we also study finding the maximal OPPs. Experiments validate that OPP-Miner is not only efficient and scalable but can also discover similar sub-sequences in time series. In addition, case studies show that our algorithms have high utility in analyzing the COVID-19 epidemic by identifying critical trends and improve the clustering performance. | 翻訳日:2022-02-13 14:53:18 公開日:2022-02-09 |
# (参考訳) アフィニティ・プロパゲーション・クラスタリング法のマクロ・メソ・マイクロレベルの交通事故クラスタ取得への応用 Application of the Affinity Propagation Clustering Technique to obtain traffic accident clusters at macro, meso, and micro levels ( http://arxiv.org/abs/2202.05175v1 ) ライセンス: CC BY 4.0 | Fagner Sutel de Moura, Christine Tessele Nodari | (参考訳) 事故発生場所を特定する上で,事故グループ化は重要なステップである。
異なる事故分類モードのうち、クラスタリング手法は、宇宙における事故の異なる分布を発見するのに優れた性能を示す。
本研究は,空間内のデータポイント分布の類似性と類似性の基準に基づいて事故をグループ化するアフィニティ伝播クラスタリング(apc)手法を提案する。
APCは、インスタンス間の類似度行列からイベントの分布をよりリアルに表現する。
その結果、代表データサンプルが得られた場合、類似性の選好パラメータがモデルを校正し、所望の特性に応じてクラスタを生成するために必要な性能を提供することがわかった。
さらに、連続パラメータとしての選好パラメータがモデルの収束の校正と制御を容易にすることを示し、より少ない労力でクラスタリングパターンの発見と結果のより深い制御を可能にした。 Accident grouping is a crucial step in identifying accident-prone locations. Among the different accident grouping modes, clustering methods present excellent performance for discovering different distributions of accidents in space. This work introduces the Affinity Propagation Clustering (APC) approach for grouping traffic accidents based on criteria of similarity and dissimilarity between distributions of data points in space. The APC provides more realistic representations of the distribution of events from similarity matrices between instances. The results showed that when representative data samples obtain, the preference parameter of similarity provides the necessary performance to calibrate the model and generate clusters according to the desired characteristics. In addition, the study demonstrates that the preference parameter as a continuous parameter facilitates the calibration and control of the model's convergence, allowing the discovery of clustering patterns with less effort and greater control of the results | 翻訳日:2022-02-13 12:56:30 公開日:2022-02-09 |
# (参考訳) エッジマップを用いたマルチモーダル脳画像登録 Multi-modal unsupervised brain image registration using edge maps ( http://arxiv.org/abs/2202.04647v1 ) ライセンス: CC BY 4.0 | Vasiliki Sideri-Lampretsa, Georgios Kaissis, Daniel Rueckert | (参考訳) Diffomorphic deformable multi-modal image registrationは、異なるモダリティによって取得された画像を同じ座標空間に持ち込むと同時に、変換のトポロジーと可逆性を維持することを目的とした課題である。
最近の研究は、従来の反復登録法よりも計算効率が優れながら、競争力のある登録精度を達成することが示されているため、このタスクのためのディープラーニングアプローチの活用に重点を置いている。
本研究では,画像の勾配等級から得られる補助情報,すなわち訓練中の画像エッジから得られる補助情報を利用する,単純で効果的な教師なし深層学習に基づくマルチモーダル画像登録手法を提案する。
この背景にある直観は、強い勾配を持つ画像位置は、幾何学的制約として機能できる高い情報値の場所である組織の遷移を意味すると仮定されている。
タスクはセグメンテーションマップを使用してトレーニングを実行するのと似ているが、エッジマップはより簡単に取得でき、アノテーションを必要としない。
我々は,マルチモーダル(T1wからT2w)磁気共鳴(MR)脳画像の多モーダル登録を支援する3つの損失関数を用いて,異なる被験者の脳画像の登録状況において,我々のアプローチを評価する。 Diffeomorphic deformable multi-modal image registration is a challenging task which aims to bring images acquired by different modalities to the same coordinate space and at the same time to preserve the topology and the invertibility of the transformation. Recent research has focused on leveraging deep learning approaches for this task as these have been shown to achieve competitive registration accuracy while being computationally more efficient than traditional iterative registration methods. In this work, we propose a simple yet effective unsupervised deep learning-based {\em multi-modal} image registration approach that benefits from auxiliary information coming from the gradient magnitude of the image, i.e. the image edges, during the training. The intuition behind this is that image locations with a strong gradient are assumed to denote a transition of tissues, which are locations of high information value able to act as a geometry constraint. The task is similar to using segmentation maps to drive the training, but the edge maps are easier and faster to acquire and do not require annotations. We evaluate our approach in the context of registering multi-modal (T1w to T2w) magnetic resonance (MR) brain images of different subjects using three different loss functions that are said to assist multi-modal registration, showing that in all cases the auxiliary information leads to better results without compromising the runtime. | 翻訳日:2022-02-13 12:40:45 公開日:2022-02-09 |
# (参考訳) FCM-DNN : Fuzzy C-Means clustering modelによる冠動脈疾患の診断 FCM-DNN: diagnosing coronary artery disease by deep accuracy Fuzzy C-Means clustering model ( http://arxiv.org/abs/2202.04645v1 ) ライセンス: CC BY-SA 4.0 | Javad Hassannataj Joloudari, Hamid Saadatfar, Mohammad GhasemiGol, Roohallah Alizadehsani, Zahra Alizadeh Sani, Fereshteh Hasanzadeh, Edris Hassannataj, Danial Sharifrazi, Zulkefli Mansor | (参考訳) 心臓血管疾患は中高年者において最も困難な疾患の1つであり、死亡率が高い。
冠動脈疾患 (cad) は一般的な心血管疾患として知られている。
CAD診断のための標準的な臨床ツールは血管造影である。
主な課題は危険な副作用と血管造影のコストである。
今日、人工知能に基づく手法の開発は、病気の診断にとって貴重な成果である。
そこで本研究では, 心磁気共鳴画像(CMRI)データセット上でCADを診断するために, ニューラルネットワーク(NN), ディープニューラルネットワーク(DNN), ファジィC平均クラスタリングと深部ニューラルネットワーク(FCM-DNN)を組み合わせた人工知能手法を開発した。
オリジナルのデータセットは2つの異なるアプローチで使われている。
まず、ラベル付きデータセットをNNとDNNに適用し、NNとDNNモデルを作成する。
次に、ラベルを除去し、ラベルなしデータセットをFCMメソッドを介してクラスタ化し、クラスタ化されたデータセットをDNNに送ってFCM-DNNモデルを作成する。
第2のクラスタリング及びモデリングを活用することにより、トレーニングプロセスが改善され、精度が向上する。
その結果、提案したFCM-DNNモデルは、92.18%および99.63%の精度に達するNNモデルと比較して、10倍のクロスバリデーション技術により、健康な被験者に5つのクラスタ、5つのクラスタを指定し、99.91%の精度で最高の性能を達成する。
我々の知る限り、人工知能を用いたCMRIデータセットにおけるCAD診断のための研究は行われていない。
その結果,提案したFCM-DNNモデルが科学・研究センターに有効であることが確認された。 Cardiovascular disease is one of the most challenging diseases in middle-aged and older people, which causes high mortality. Coronary artery disease (CAD) is known as a common cardiovascular disease. A standard clinical tool for diagnosing CAD is angiography. The main challenges are dangerous side effects and high angiography costs. Today, the development of artificial intelligence-based methods is a valuable achievement for diagnosing disease. Hence, in this paper, artificial intelligence methods such as neural network (NN), deep neural network (DNN), and Fuzzy C-Means clustering combined with deep neural network (FCM-DNN) are developed for diagnosing CAD on a cardiac magnetic resonance imaging (CMRI) dataset. The original dataset is used in two different approaches. First, the labeled dataset is applied to the NN and DNN to create the NN and DNN models. Second, the labels are removed, and the unlabeled dataset is clustered via the FCM method, and then, the clustered dataset is fed to the DNN to create the FCM-DNN model. By utilizing the second clustering and modeling, the training process is improved, and consequently, the accuracy is increased. As a result, the proposed FCM-DNN model achieves the best performance with a 99.91% accuracy specifying 10 clusters, i.e., 5 clusters for healthy subjects and 5 clusters for sick subjects, through the 10-fold cross-validation technique compared to the NN and DNN models reaching the accuracies of 92.18% and 99.63%, respectively. To the best of our knowledge, no study has been conducted for CAD diagnosis on the CMRI dataset using artificial intelligence methods. The results confirm that the proposed FCM-DNN model can be helpful for scientific and research centers. | 翻訳日:2022-02-13 12:30:00 公開日:2022-02-09 |
# (参考訳) バッキンガムpiを用いた次元整合学習 Dimensionally Consistent Learning with Buckingham Pi ( http://arxiv.org/abs/2202.04643v1 ) ライセンス: CC BY 4.0 | Joseph Bakarji, Jared Callaham, Steven L. Brunton, J. Nathan Kutz | (参考訳) 制御方程式が存在しない場合、次元解析は物理系における洞察を抽出し対称性を見つけるためのロバストな手法である。
測定変数とパラメータが与えられたとき、バッキンガムのpi定理は解空間にまたがる無次元群の集合を見つける手順を与えるが、この集合は一意ではない。
そこで本稿では, 使用可能な測定データの対称性と自己相似構造を用いて, 最適適合度に応じて, このデータを低次元空間に最も分解する無次元群を探索する手法を提案する。
バッキンガム・パイの定理を制約とする3つのデータ駆動手法を開発した。
(i)非パラメトリック入出力整合関数による制約付き最適化問題。
(ii)入力パラメータ空間を第1層の低次元に投影するディープラーニングアルゴリズム(buckinet)と、
(iii)非線形力学のスパース同定(sindy)に基づく手法で、係数が力学をパラメータ化する無次元方程式を探索する。
本稿では, 回転フープ上のビーズ, 層境界層, レイリー・ブエナード対流の3つの問題に対して, これらの手法の精度, 堅牢性, 計算複雑性について検討する。 In the absence of governing equations, dimensional analysis is a robust technique for extracting insights and finding symmetries in physical systems. Given measurement variables and parameters, the Buckingham Pi theorem provides a procedure for finding a set of dimensionless groups that spans the solution space, although this set is not unique. We propose an automated approach using the symmetric and self-similar structure of available measurement data to discover the dimensionless groups that best collapse this data to a lower dimensional space according to an optimal fit. We develop three data-driven techniques that use the Buckingham Pi theorem as a constraint: (i) a constrained optimization problem with a non-parametric input-output fitting function, (ii) a deep learning algorithm (BuckiNet) that projects the input parameter space to a lower dimension in the first layer, and (iii) a technique based on sparse identification of nonlinear dynamics (SINDy) to discover dimensionless equations whose coefficients parameterize the dynamics. We explore the accuracy, robustness and computational complexity of these methods as applied to three example problems: a bead on a rotating hoop, a laminar boundary layer, and Rayleigh-B\'enard convection. | 翻訳日:2022-02-12 11:04:02 公開日:2022-02-09 |
# (参考訳) 潰瘍性大腸炎重症度推定のためのクラス距離重み付きクロスエントロピー損失 Class Distance Weighted Cross-Entropy Loss for Ulcerative Colitis Severity Estimation ( http://arxiv.org/abs/2202.05167v1 ) ライセンス: CC BY 4.0 | Gorkem Polat, Ilkay Ergenc, Haluk Tarik Kani, Yesim Ozen Alahdab, Ozlen Atug, Alptekin Temizel | (参考訳) 潰瘍性大腸炎の内視鏡的重症度評価には,内視鏡的マヨスコアと潰瘍性大腸炎重症度指標が一般的である。
それらは病気の活動に関連してスコアを割り当てることに基づいており、それはレベルの中でランク付けされ、順序回帰問題となる。
一方で、ほとんどの研究では、順序回帰問題に最適ではないカテゴリ間クロスエントロピー損失関数を用いて、ディープラーニングモデルをトレーニングしている。
本研究では,授業の順序を尊重するクラス距離重み付きクロスエントロピー(CDW-CE)と呼ばれる新しい損失関数を提案する。
実験により、CDW-CEは従来のカテゴリー横断エントロピーと CORN フレームワークよりも優れており、これは順序回帰問題のために設計されている。
さらに、CDW-CEは出力層の変更を一切必要とせず、クラスのアクティベーションマップの可視化技術と互換性がある。 Endoscopic Mayo score and Ulcerative Colitis Endoscopic Index of Severity are commonly used scoring systems for the assessment of endoscopic severity of ulcerative colitis. They are based on assigning a score in relation to the disease activity, which creates a rank among the levels, making it an ordinal regression problem. On the other hand, most studies use categorical cross-entropy loss function, which is not optimal for the ordinal regression problem, to train the deep learning models. In this study, we propose a novel loss function called class distance weighted cross-entropy (CDW-CE) that respects the order of the classes and takes the distance of the classes into account in calculation of cost. Experimental evaluations show that CDW-CE outperforms the conventional categorical cross-entropy and CORN framework, which is designed for the ordinal regression problems. In addition, CDW-CE does not require any modifications at the output layer and is compatible with the class activation map visualization techniques. | 翻訳日:2022-02-12 10:29:21 公開日:2022-02-09 |
# (参考訳) オフラインスキル発見のためのベイズ非パラメトリック Bayesian Nonparametrics for Offline Skill Discovery ( http://arxiv.org/abs/2202.04675v1 ) ライセンス: CC BY 4.0 | Valentin Villecroze, Harry J. Braviner, Panteha Naderian, Chris J. Maddison, Gabriel Loaiza-Ganem | (参考訳) 強化学習におけるスキルまたは低レベルポリシーは、学習をスピードアップし複雑な振る舞いを可能にする時間的に拡張された行動である。
オフライン強化学習と模倣学習における最近の研究は、一連の専門家の軌道からスキル発見のためのいくつかの手法を提案している。
これらの手法は有望であるが、発見するスキルのkは、常に固定ハイパーパラメータであり、環境に関する事前の知識を必要とするか、それを調整するために追加のパラメータ検索が必要である。
まず,変動推論と連続緩和の進歩を活用した,オフラインオプション学習手法(特定のスキルフレームワーク)を提案する。
次に、ベイズ非パラメトリックスとオフラインスキル発見の間の未検討の接続を強調し、モデルの非パラメトリックバージョンを取得する方法を示す。
このバージョンは、動的に変化するオプション数を持つ注意深く構造化された後付けによって扱いやすくなり、kを指定する必要がなくなります。また、我々の非パラメトリック拡張が他のスキルフレームワークにどのように適用できるかを示し、我々の手法が様々な環境にわたって最先端のオフラインスキル学習アルゴリズムを上回ることができることを実証的に示します。
私たちのコードはhttps://github.com/layer6ai-labs/BNPO で利用可能です。 Skills or low-level policies in reinforcement learning are temporally extended actions that can speed up learning and enable complex behaviours. Recent work in offline reinforcement learning and imitation learning has proposed several techniques for skill discovery from a set of expert trajectories. While these methods are promising, the number K of skills to discover is always a fixed hyperparameter, which requires either prior knowledge about the environment or an additional parameter search to tune it. We first propose a method for offline learning of options (a particular skill framework) exploiting advances in variational inference and continuous relaxations. We then highlight an unexplored connection between Bayesian nonparametrics and offline skill discovery, and show how to obtain a nonparametric version of our model. This version is tractable thanks to a carefully structured approximate posterior with a dynamically-changing number of options, removing the need to specify K. We also show how our nonparametric extension can be applied in other skill frameworks, and empirically demonstrate that our method can outperform state-of-the-art offline skill learning algorithms across a variety of environments. Our code is available at https://github.com/layer6ai-labs/BNPO . | 翻訳日:2022-02-12 10:16:34 公開日:2022-02-09 |
# (参考訳) 不確実性下における非線形スペクトル次元の低減 Non-Linear Spectral Dimensionality Reduction Under Uncertainty ( http://arxiv.org/abs/2202.04678v1 ) ライセンス: CC BY 4.0 | Firas Laakom, Jenni Raitoharju, Nikolaos Passalis, Alexandros Iosifidis, and Moncef Gabbouj | (参考訳) 本稿では,不確実性下での非線形次元減少の問題について,理論的およびアルゴリズム的観点から考察する。
実世界のデータは通常、不確実性やアーティファクトの測定を含むため、提案フレームワークの入力空間は、各サンプルに関連する不確実性をモデル化するための確率分布からなる。
我々は、不確実性情報を活用し、KPCA、MDA/KMFAといった従来のアプローチを直接拡張して、元のデータの代わりに確率分布を入力として受け取る、NGEUと呼ばれる新しい次元減少フレームワークを提案する。
提案したNGEUの定式化は,大域的な閉形式解を示し,Radecherの複雑性に基づいて,基礎となる不確実性がフレームワークの一般化能力に理論的にどのように影響するかを分析する。
異なるデータセットに対する実験結果から,提案手法の有効性が示された。 In this paper, we consider the problem of non-linear dimensionality reduction under uncertainty, both from a theoretical and algorithmic perspectives. Since real-world data usually contain measurements with uncertainties and artifacts, the input space in the proposed framework consists of probability distributions to model the uncertainties associated with each sample. We propose a new dimensionality reduction framework, called NGEU, which leverages uncertainty information and directly extends several traditional approaches, e.g., KPCA, MDA/KMFA, to receive as inputs the probability distributions instead of the original data. We show that the proposed NGEU formulation exhibits a global closed-form solution, and we analyze, based on the Rademacher complexity, how the underlying uncertainties theoretically affect the generalization ability of the framework. Empirical results on different datasets show the effectiveness of the proposed framework. | 翻訳日:2022-02-12 09:53:00 公開日:2022-02-09 |
# (参考訳) ジョイント変分多チャネル多相セグメンテーションフレームワーク A Joint Variational Multichannel Multiphase Segmentation Framework ( http://arxiv.org/abs/2202.04680v1 ) ライセンス: CC BY 4.0 | Nadja Gruber, Johannes Schwab, Sebastien Court, Elke Gizewski, Markus Haltmeier | (参考訳) 本稿では,chan-vese能動輪郭モデルに基づく多チャンネル多相画像分割のための変分画像分割フレームワークを提案する。
本手法のコアは,複数の画像の情報を組み合わせたマルチチャネルエネルギー関数を最小化することにより,セグメント化を符号化する変数uを見つけることである。
入力の分解は、マルチチャネルフィルタリングか、あるいは、複数のチャネルで構成されている通常の自然RGBまたは医療画像を用いて行う。
その後、各チャネルの関数を同時に最小化する。
本モデルでは,シャンブル・ポック法のような最適化手法により効率的に解けるような仮定を満たす。
提案したエネルギー関数が大域最小化器を持つことを証明し,ノイズ入力に対する安定性と収束性を示す。
実験結果から,提案手法は単一・複数チャネルのセグメンテーション作業において良好に機能し,自然画像やテクスチャ画像,医用画像などの様々な画像のセグメンテーションに利用することができることがわかった。 In this paper, we propose a variational image segmentation framework for multichannel multiphase image segmentation based on the Chan-Vese active contour model. The core of our method lies in finding a variable u encoding the segmentation, by minimizing a multichannel energy functional that combines the information of multiple images. We create a decomposition of the input, either by multichannel filtering, or simply by using plain natural RGB, or medical images, which already consist of several channels. Subsequently we minimize the proposed functional for each of the channels simultaneously. Our model meets the necessary assumptions such that it can be solved efficiently by optimization techniques like the Chambolle-Pock method. We prove that the proposed energy functional has global minimizers, and show its stability and convergence with respect to noisy inputs. Experimental results show that the proposed method performs well in single- and multichannel segmentation tasks, and can be employed to the segmentation of various types of images, such as natural and texture images as well as medical images. | 翻訳日:2022-02-12 09:30:32 公開日:2022-02-09 |
# (参考訳) スムースオンライン学習は統計学習と同じくらい簡単 Smoothed Online Learning is as Easy as Statistical Learning ( http://arxiv.org/abs/2202.04690v1 ) ライセンス: CC BY 4.0 | Adam Block, Yuval Dagan, Noah Golowich, and Alexander Rakhlin | (参考訳) 現代の学習理論の多くは、データが独立して到達する古典的な \emph{offline} 設定と、逆向きにデータが到着する \emph{online} 設定の2つのレジームに分かれている。
前者モデルは計算的かつ統計的に抽出可能であることが多いが、後者は分布的な仮定を必要としない。
両世界のベストを達成するために、以前の研究は、各サンプルが反対に選択された分布から引き出される滑らかなオンライン設定を提案した。
ホライズンパラメータと滑らか性パラメータの両方にほぼ最適に依存する非パラメトリック関数クラスを学習するミニマックスの後悔に厳密な境界を与える。
さらに、この設定で最初のoracle効率のよいノンレグレットアルゴリズムも提供します。
特に,水平方向への最適な依存を後悔が達成するオラクル効率な不適切なアルゴリズムと,分類設定において最適な水平方向依存を有する1ラウンド当たりのオラクルコールのみを必要とする適切なアルゴリズムを提案する。
どちらのアルゴリズムも、ミニマックスレートよりも逆数の滑らかさパラメータに指数関数的に依存する。
そして、oracle効率の高い上限を多項式因子までマッチさせるような、任意の適切な学習アルゴリズムのoracle複雑性の下限を証明し、滑らかなオンライン学習における統計計算的ギャップの存在を実証する。
最後に,関数クラスが古典的な設定で学習可能な場合,コンテキストがスムーズな方法で到達した場合に,文脈的バンディットに対するオラクル効率のよい非回帰アルゴリズムが存在することを示すために,文脈的バンディット設定に適用する。 Much of modern learning theory has been split between two regimes: the classical \emph{offline} setting, where data arrive independently, and the \emph{online} setting, where data arrive adversarially. While the former model is often both computationally and statistically tractable, the latter requires no distributional assumptions. In an attempt to achieve the best of both worlds, previous work proposed the smooth online setting where each sample is drawn from an adversarially chosen distribution, which is smooth, i.e., it has a bounded density with respect to a fixed dominating measure. We provide tight bounds on the minimax regret of learning a nonparametric function class, with nearly optimal dependence on both the horizon and smoothness parameters. Furthermore, we provide the first oracle-efficient, no-regret algorithms in this setting. In particular, we propose an oracle-efficient improper algorithm whose regret achieves optimal dependence on the horizon and a proper algorithm requiring only a single oracle call per round whose regret has the optimal horizon dependence in the classification setting and is sublinear in general. Both algorithms have exponentially worse dependence on the smoothness parameter of the adversary than the minimax rate. We then prove a lower bound on the oracle complexity of any proper learning algorithm, which matches the oracle-efficient upper bounds up to a polynomial factor, thus demonstrating the existence of a statistical-computational gap in smooth online learning. Finally, we apply our results to the contextual bandit setting to show that if a function class is learnable in the classical setting, then there is an oracle-efficient, no-regret algorithm for contextual bandits in the case that contexts arrive in a smooth manner. | 翻訳日:2022-02-12 08:59:53 公開日:2022-02-09 |
# (参考訳) パンデミック対策支援のためのアクセシビリティとエクイティ向上のためのワクチン配布サイトの導入 Deploying Vaccine Distribution Sites for Improved Accessibility and Equity to Support Pandemic Response ( http://arxiv.org/abs/2202.04705v1 ) ライセンス: CC BY 4.0 | George Li and Ann Li and Madhav Marathe and Aravind Srinivasan and Leonidas Tsepenekas and Anil Vullikanti | (参考訳) 新型コロナウイルス(COVID-19)への対応として、多くの国がSARS-CoV-2の拡散を遅らせるため、社会的距離を義務付け、大規模なグループ集会を禁止している。
これらの社会的介入とワクチンは、SARS CoV-2の拡散を抑える最善の方法である。
ワクチンのアクセシビリティを高めるために、バージニアのような州は全国にワクチンを配布するために移動型ワクチン接種センターを設置している。
これらのサイトをどこに配置するかを選択すると、アクセシビリティとエクイティの2つの重要な要素が考慮される。
我々はこれらの因子を捕捉する組合せ問題を定式化し、これら2つの側面を理論的に保証した効率的なアルゴリズムを開発する。
さらに,本問題の本質的な難易度について検討し,強い難易度を示す。
最後に,実世界のデータを用いて計算実験を行い,本手法の有効性を示す。 In response to COVID-19, many countries have mandated social distancing and banned large group gatherings in order to slow down the spread of SARS-CoV-2. These social interventions along with vaccines remain the best way forward to reduce the spread of SARS CoV-2. In order to increase vaccine accessibility, states such as Virginia have deployed mobile vaccination centers to distribute vaccines across the state. When choosing where to place these sites, there are two important factors to take into account: accessibility and equity. We formulate a combinatorial problem that captures these factors and then develop efficient algorithms with theoretical guarantees on both of these aspects. Furthermore, we study the inherent hardness of the problem, and demonstrate strong impossibility results. Finally, we run computational experiments on real-world data to show the efficacy of our methods. | 翻訳日:2022-02-12 08:58:34 公開日:2022-02-09 |
# (参考訳) 転校qラーニング Transferred Q-learning ( http://arxiv.org/abs/2202.04709v1 ) ライセンス: CC BY 4.0 | Elynn Y. Chen, Michael I. Jordan, Sai Li | (参考訳) 我々は、目標強化学習(RL)タスクのサンプルと、異なるが関連するRLタスクのソースサンプルを用いて、知識伝達を伴うQ$ラーニングを検討する。
オフラインソーススタディを用いて,バッチとオンラインの両方でq$-learningを行う転送学習アルゴリズムを提案する。
提案したQ$-learningアルゴリズムは、教師あり学習のための転写学習(TL)として通常の水平情報収集に加えて、RLタスクの複数のステップに沿って垂直情報カスケードが可能な新しい再ターゲットステップを含む。
我々は、オフラインRL転送における$Q$関数推定の収束の速さと、ある類似性仮定の下でのオフライン-オンラインRL転送における低い後悔境界を示すことにより、RLタスクにおけるTLの最初の理論的正当性を確立する。
合成データと実データの両方から得られた実証的証拠を提示し,提案アルゴリズムと理論的結果を裏付ける。 We consider $Q$-learning with knowledge transfer, using samples from a target reinforcement learning (RL) task as well as source samples from different but related RL tasks. We propose transfer learning algorithms for both batch and online $Q$-learning with offline source studies. The proposed transferred $Q$-learning algorithm contains a novel re-targeting step that enables vertical information-cascading along multiple steps in an RL task, besides the usual horizontal information-gathering as transfer learning (TL) for supervised learning. We establish the first theoretical justifications of TL in RL tasks by showing a faster rate of convergence of the $Q$ function estimation in the offline RL transfer, and a lower regret bound in the offline-to-online RL transfer under certain similarity assumptions. Empirical evidences from both synthetic and real datasets are presented to back up the proposed algorithm and our theoretical results. | 翻訳日:2022-02-12 08:42:26 公開日:2022-02-09 |
# (参考訳) PINs: マルチスケールニューラル表現のためのプログレッシブ・インシシシット・ネットワーク PINs: Progressive Implicit Networks for Multi-Scale Neural Representations ( http://arxiv.org/abs/2202.04713v1 ) ライセンス: CC BY 4.0 | Zoe Landgraf, Alexander Sorkine Hornung, Ricardo Silveira Cabral | (参考訳) 多層パーセプトロン(MLP)は、入力の高次元投影と組み合わせることで、効果的なシーンエンコーダであることが証明されている。
しかし、周波数スペクトルの広いシーンは依然として課題であり、位置符号化のための高周波の選択は低構造領域にノイズをもたらすが、低周波数は詳細領域の適合性の悪い結果をもたらす。
そこで本研究では,周波数符号化のインクリメンタルなセットに階層型MLP構造を露出させる,プログレッシブな位置符号化を提案する。
本モデルでは,周波数帯域幅の広いシーンを正確に再構成し,プログレッシブレベルでのシーン表現を学習する。
アーキテクチャはモジュラーであり、各レベルは連続的な暗黙の表現を符号化し、それぞれの解像度で個別に利用することができる。
複数の2次元および3次元データセットでの実験では、ベースラインと比較して再構成精度、表現能力、トレーニング速度が改善された。 Multi-layer perceptrons (MLP) have proven to be effective scene encoders when combined with higher-dimensional projections of the input, commonly referred to as \textit{positional encoding}. However, scenes with a wide frequency spectrum remain a challenge: choosing high frequencies for positional encoding introduces noise in low structure areas, while low frequencies result in poor fitting of detailed regions. To address this, we propose a progressive positional encoding, exposing a hierarchical MLP structure to incremental sets of frequency encodings. Our model accurately reconstructs scenes with wide frequency bands and learns a scene representation at progressive level of detail \textit{without explicit per-level supervision}. The architecture is modular: each level encodes a continuous implicit representation that can be leveraged separately for its respective resolution, meaning a smaller network for coarser reconstructions. Experiments on several 2D and 3D datasets show improvements in reconstruction accuracy, representational capacity and training speed compared to baselines. | 翻訳日:2022-02-12 08:17:48 公開日:2022-02-09 |
# (参考訳) tamilemo: タミルのためのきめ細かい感情検出データセット TamilEmo: Finegrained Emotion Detection Dataset for Tamil ( http://arxiv.org/abs/2202.04725v1 ) ライセンス: CC BY 4.0 | Charangan Vasantharajan, Sean Benhur, Prasanna Kumar Kumarasen, Rahul Ponnusamy, Sathiyaraj Thangasamy, Ruba Priyadharshini, Thenmozhi Durairaj, Kanchana Sivanraju, Anbukkarasi Sampath, Bharathi Raja Chakravarthi and John Phillip McCrae | (参考訳) テキスト入力からの感情分析は自然言語処理において困難かつ興味深い課題であると考えられている。
しかし、低リソース言語(すなわちタミル語)のデータセットが不足しているため、この領域で高水準の研究を行うことは困難である。
そこで,このラベル付きデータセット(42k以上のタミル・youtubeコメントを手作業でアノテートした最大のデータセットで,31の感情を含むラベル付き)を感情認識に導入する。
このデータセットの目標は、タミルの複数の下流タスクにおける感情検出を改善することである。
また、感情の3つの異なるグループ分け(3クラス、7クラス、31クラス)を作成し、グループ分けの各カテゴリでモデルの性能を評価した。
我々のMURILベースモデルは、3クラスグループデータセット全体で0.60マクロ平均F1スコアを達成した。
7級と31級の群では、ランダムフォレストモデルはそれぞれ0.42と0.29のマクロ平均F1スコアでよく機能した。 Emotional Analysis from textual input has been considered both a challenging and interesting task in Natural Language Processing. However, due to the lack of datasets in low-resource languages (i.e. Tamil), it is difficult to conduct research of high standard in this area. Therefore we introduce this labelled dataset (a largest manually annotated dataset of more than 42k Tamil YouTube comments, labelled for 31 emotions including neutral) for emotion recognition. The goal of this dataset is to improve emotion detection in multiple downstream tasks in Tamil. We have also created three different groupings of our emotions (3-class, 7-class and 31-class) and evaluated the model's performance on each category of the grouping. Our MURIL-base model has achieved a 0.60 macro average F1-score across our 3-class group dataset. With 7-class and 31-class groups, the Random Forest model performed well with a macro average F1-scores of 0.42 and 0.29 respectively. | 翻訳日:2022-02-12 08:15:54 公開日:2022-02-09 |
# (参考訳) 大規模言語モデルを用いた人間類似性判断の予測 Predicting Human Similarity Judgments Using Large Language Models ( http://arxiv.org/abs/2202.04728v1 ) ライセンス: CC BY 4.0 | Raja Marjieh, Ilia Sucholutsky, Theodore R. Sumers, Nori Jacoby, Thomas L. Griffiths | (参考訳) 類似性判断は、心理学、神経科学、機械学習に応用され、精神表現にアクセスするための確立された方法を提供する。
しかし、類似性判定の収集は、自然主義的なデータセットでは違法にコストがかかり、比較の数は刺激の数で2倍に増加する。
この問題に対処する一つの方法は、類似性を予測するためによりアクセスしやすいプロキシに依存する近似手順を構築することである。
本稿では,最近の言語モデルとオンラインリクルートの進歩を活かし,テキスト記述に基づく人間の類似性判断を予測するための効率的なドメイン一般手順を提案する。
直感的には、類似した刺激は類似した記述を誘発し、記述類似性を用いてペアワイズ類似性判定を予測できる。
重要なことに、要求される説明の数は刺激の数とともに直線的にしか増加せず、必要なデータを大幅に削減する。
本手法は, 自然画像の6つのデータセットを用いて検証し, 視覚情報に基づく従来の手法より優れていることを示す。 Similarity judgments provide a well-established method for accessing mental representations, with applications in psychology, neuroscience and machine learning. However, collecting similarity judgments can be prohibitively expensive for naturalistic datasets as the number of comparisons grows quadratically in the number of stimuli. One way to tackle this problem is to construct approximation procedures that rely on more accessible proxies for predicting similarity. Here we leverage recent advances in language models and online recruitment, proposing an efficient domain-general procedure for predicting human similarity judgments based on text descriptions. Intuitively, similar stimuli are likely to evoke similar descriptions, allowing us to use description similarity to predict pairwise similarity judgments. Crucially, the number of descriptions required grows only linearly with the number of stimuli, drastically reducing the amount of data required. We test this procedure on six datasets of naturalistic images and show that our models outperform previous approaches based on visual information. | 翻訳日:2022-02-12 08:03:39 公開日:2022-02-09 |
# (参考訳) FedQAS:フェデレーション学習によるプライバシ対応機械読解 FedQAS: Privacy-aware machine reading comprehension with federated learning ( http://arxiv.org/abs/2202.04742v1 ) ライセンス: CC BY 4.0 | Addi Ait-Mlouk, Sadi Alawadi, Salman Toor, Andreas Hellander | (参考訳) テキストデータの機械読解(MRC)は自然言語理解において重要な課題である。
これは複雑なNLP問題であり、SQuAD(Stanford Question Answering Dataset)とCoQA(Conversational Question Answering)のリリースによって、多くの研究が進められている。
テキストを「理解」する方法をコンピュータに教え、深層学習を用いてその疑問に答えられるようにする試みであると考えられている。
しかし、このNLPタスクには、これまでプライベートテキストデータと知識共有に関する大規模なトレーニングが欠落している。
したがって、FedQASは、大規模なプライベートデータを活用することができるプライバシ保護マシン読取システムであり、これらのデータセットを中央にプールする必要がない。
提案手法はトランスフォーマーモデルと連合学習技術を組み合わせたものである。
このシステムはFEDnフレームワークを使用して開発され、概念実証アライアンスイニシアチブとしてデプロイされる。
FedQASは柔軟で言語に依存しないため、ローカルモデルトレーニングの直感的な参加と実行を可能にしている。
さらに,システムのアーキテクチャと実装について述べるとともに,squadデータセットに基づくリファレンス評価を提供し,データプライバシの問題を克服し,連合学習環境でのアライアンスメンバ間の知識共有を可能にする方法を示す。 Machine reading comprehension (MRC) of text data is one important task in Natural Language Understanding. It is a complex NLP problem with a lot of ongoing research fueled by the release of the Stanford Question Answering Dataset (SQuAD) and Conversational Question Answering (CoQA). It is considered to be an effort to teach computers how to "understand" a text, and then to be able to answer questions about it using deep learning. However, until now large-scale training on private text data and knowledge sharing has been missing for this NLP task. Hence, we present FedQAS, a privacy-preserving machine reading system capable of leveraging large-scale private data without the need to pool those datasets in a central location. The proposed approach combines transformer models and federated learning technologies. The system is developed using the FEDn framework and deployed as a proof-of-concept alliance initiative. FedQAS is flexible, language-agnostic, and allows intuitive participation and execution of local model training. In addition, we present the architecture and implementation of the system, as well as provide a reference evaluation based on the SQUAD dataset, to showcase how it overcomes data privacy issues and enables knowledge sharing between alliance members in a Federated learning setting. | 翻訳日:2022-02-12 07:53:14 公開日:2022-02-09 |
# (参考訳) MMD後ブートストラップを用いたシミュレータモデルに対するロバストベイズ推定 Robust Bayesian Inference for Simulator-based Models via the MMD Posterior Bootstrap ( http://arxiv.org/abs/2202.04744v1 ) ライセンス: CC BY 4.0 | Charita Dellaporta, Jeremias Knoblauch, Theodoros Damoulas, Fran\c{c}ois-Xavier Briol | (参考訳) シミュレータに基づくモデルは、確率が難解であるが合成データのシミュレーションが可能であるモデルである。
それらはしばしば複雑な実世界の現象を記述するために使われ、実際では誤記されることがある。
残念ながら、シミュレーターに対する既存のベイズ的アプローチは、それらの場合、性能が良くないことが知られている。
本稿では,後方ブートストラップと最大平均偏差推定器を用いた新しいアルゴリズムを提案する。
これにより、強い堅牢性を持つ高並列性ベイズ推論アルゴリズムが導かれる。
これは、一般化境界と、我々の後部の頻繁な一貫性と堅牢性の証明を含む詳細な理論的研究によって実証される。
このアプローチは、g-and-kディストリビューションやtoggle-switchモデルなど、さまざまな例で評価される。 Simulator-based models are models for which the likelihood is intractable but simulation of synthetic data is possible. They are often used to describe complex real-world phenomena, and as such can often be misspecified in practice. Unfortunately, existing Bayesian approaches for simulators are known to perform poorly in those cases. In this paper, we propose a novel algorithm based on the posterior bootstrap and maximum mean discrepancy estimators. This leads to a highly-parallelisable Bayesian inference algorithm with strong robustness properties. This is demonstrated through an in-depth theoretical study which includes generalisation bounds and proofs of frequentist consistency and robustness of our posterior. The approach is then assessed on a range of examples including a g-and-k distribution and a toggle-switch model. | 翻訳日:2022-02-12 07:35:28 公開日:2022-02-09 |
# (参考訳) 「これは偽物だ!誤って共有する」:偽ニュース拡散者の意図を評価する "This is Fake! Shared it by Mistake": Assessing the Intent of Fake News Spreaders ( http://arxiv.org/abs/2202.04752v1 ) ライセンス: CC BY 4.0 | Xinyi Zhou, Kai Shu, Vir V. Phoha, Huan Liu, Reza Zafarani | (参考訳) 個人は偽ニュースに誤解され、偽ニュースを知らずに無意識に広めることができる。
この現象は頻繁に観測されているが、研究されていない。
本研究の目的は偽ニュース拡散者の意図を評価することである。
意図的拡散と意図的拡散を区別するために,意図的拡散の心理的説明について検討した。
そこで,本稿では,偽ニュース拡散者の意図を評価するインフルエンスグラフを提案する。
我々の広範な実験は、評価された意図が意図的および意図的でない偽ニュースの拡散を著しく区別できることを示している。
さらに、推定意図は、偽ニュースを検出する現在の技術を大幅に改善することができる。
私たちの知る限りでは、これは偽ニュース拡散における個人の意図をモデル化する最初の仕事です。 Individuals can be misled by fake news and spread it unintentionally without knowing it is false. This phenomenon has been frequently observed but has not been investigated. Our aim in this work is to assess the intent of fake news spreaders. To distinguish between intentional versus unintentional spreading, we study the psychological explanations of unintentional spreading. With this foundation, we then propose an influence graph, using which we assess the intent of fake news spreaders. Our extensive experiments show that the assessed intent can help significantly differentiate between intentional and unintentional fake news spreaders. Furthermore, the estimated intent can significantly improve the current techniques that detect fake news. To our best knowledge, this is the first work to model individuals' intent in fake news spreading. | 翻訳日:2022-02-12 06:49:21 公開日:2022-02-09 |
# (参考訳) 認知制御を用いた連続学習のニューラルネットワークモデル A Neural Network Model of Continual Learning with Cognitive Control ( http://arxiv.org/abs/2202.04773v1 ) ライセンス: CC BY 4.0 | Jacob Russin, Maryam Zolfaghar, Seongmin A. Park, Erie Boorman, Randall C. O'Reilly | (参考訳) ニューラルネットワークは、破滅的な忘れから連続的な学習環境に苦しむ:トライアルがブロックされると、新しい学習は以前のブロックからの学習を上書きできる。
人間はこれらの環境で効果的に学習し、場合によってはブロックの利点も示し、脳がこの問題を克服するためのメカニズムを含んでいることを示唆する。
本稿では,先行研究に基づいて,認知制御機構を備えたニューラルネットワークが,試行が中止された場合の破滅的な忘れ方を示さないことを示す。
また、制御信号にアクティブな保守のバイアスがある場合、インターリーブによるブロックの利点を示し、メンテナンスと制御の強さのトレードオフを示唆する。
ネットワークによって学習されたマップライクな表現の分析は、これらのメカニズムに関する追加の洞察を提供した。
我々の研究は、ニューラルネットワークにおける継続的な学習を支援する認知制御の可能性を強調し、人間の観察したブロックの利点を説明する。 Neural networks struggle in continual learning settings from catastrophic forgetting: when trials are blocked, new learning can overwrite the learning from previous blocks. Humans learn effectively in these settings, in some cases even showing an advantage of blocking, suggesting the brain contains mechanisms to overcome this problem. Here, we build on previous work and show that neural networks equipped with a mechanism for cognitive control do not exhibit catastrophic forgetting when trials are blocked. We further show an advantage of blocking over interleaving when there is a bias for active maintenance in the control signal, implying a tradeoff between maintenance and the strength of control. Analyses of map-like representations learned by the networks provided additional insights into these mechanisms. Our work highlights the potential of cognitive control to aid continual learning in neural networks, and offers an explanation for the advantage of blocking that has been observed in humans. | 翻訳日:2022-02-12 06:14:50 公開日:2022-02-09 |
# 閉ループ型デファーラルパイプラインの設計 Designing Closed Human-in-the-loop Deferral Pipelines ( http://arxiv.org/abs/2202.04718v1 ) ライセンス: Link先を確認 | Vijay Keswani, Matthew Lease, Krishnaram Kenthapadi | (参考訳) ハイブリッドなヒューマンマシン推論フレームワークでは、分類器は人間の意思決定者に不確実性のあるケースを推論することができる。
このような分類器とdeferralモデルの同時トレーニングは、訓練中に真のクラスラベルを得るためのオラクルへのアクセスを前提としていたが、実際にはそのようなオラクルは存在しないことが多い。
それとは対照的に、deferralで使用される同じ誤りのある人間の意思決定者がトレーニングラベルを提供する、"閉じた"意思決定パイプラインを考える。
不完全で偏見のある人の専門家ラベルは、どのようにして公正で正確な推論フレームワークをトレーニングできるのだろうか?
我々の重要な洞察は、弱い事前情報を利用することによって、専門家と一致して、結果として生じる遅延フレームワークの公平さと正確性を保証することができるということです。
本手法の有効性は理論解析と2つの課題の評価の両方によって示される。 In hybrid human-machine deferral frameworks, a classifier can defer uncertain cases to human decision-makers (who are often themselves fallible). Prior work on simultaneous training of such classifier and deferral models has typically assumed access to an oracle during training to obtain true class labels for training samples, but in practice there often is no such oracle. In contrast, we consider a "closed" decision-making pipeline in which the same fallible human decision-makers used in deferral also provide training labels. How can imperfect and biased human expert labels be used to train a fair and accurate deferral framework? Our key insight is that by exploiting weak prior information, we can match experts to input examples to ensure fairness and accuracy of the resulting deferral framework, even when imperfect and biased experts are used in place of ground truth labels. The efficacy of our approach is shown both by theoretical analysis and by evaluation on two tasks. | 翻訳日:2022-02-11 17:04:35 公開日:2022-02-09 |
# Adaptive Regret Guaranteesを用いたオンライン凸最適化のための新しいプロジェクションフリーアルゴリズム New Projection-free Algorithms for Online Convex Optimization with Adaptive Regret Guarantees ( http://arxiv.org/abs/2202.04721v1 ) ライセンス: Link先を確認 | Dan Garber, Ben Kretzu | (参考訳) 我々は、オンライン凸最適化(OCO)のための新しい効率的な \textit{projection-free} アルゴリズムを提案する。
ほとんどの最先端のプロジェクションフリーアルゴリズムは \textit{follow-the-leader} フレームワークに基づいているが、我々のアルゴリズムは根本的に異なり、いわゆる \textit{infeasible projections} を計算するための新しい効率的なアプローチによる \textit{onlinegradient descent} アルゴリズムに基づいている。
結果として、自然に \textit{adaptive regret} 保証、すなわち w.r.t を持つ後悔境界、すなわち、シーケンスの任意の部分インターバルを与える最初のプロジェクションフリーアルゴリズムを得る。
具体的には、実現可能な集合に対する線形最適化オラクル(LOO)の可用性を$T$のシーケンスで仮定すると、我々のアルゴリズムは、LOOへの$O(T^{3/4})$適応的後悔と$O(T^{3/4})$適応的期待的後悔を保証する。
これらの境界は、現在の LOO ベースの射影自由 OCO の後悔境界と一致し、これは \textit{not adapt} である。
また、分離オラクルを通して実現可能な集合にアクセス可能な新しい自然設定も検討する。
我々は,全体$O(T)$を分離オラクルに呼び出し,$O(\sqrt{T})$適応的後悔と$O(T^{3/4})$適応的期待的後悔をそれぞれ全情報および盗賊設定に対して保証するアルゴリズムを提案する。 We present new efficient \textit{projection-free} algorithms for online convex optimization (OCO), where by projection-free we refer to algorithms that avoid computing orthogonal projections onto the feasible set, and instead relay on different and potentially much more efficient oracles. While most state-of-the-art projection-free algorithms are based on the \textit{follow-the-leader} framework, our algorithms are fundamentally different and are based on the \textit{online gradient descent} algorithm with a novel and efficient approach to computing so-called \textit{infeasible projections}. As a consequence, we obtain the first projection-free algorithms which naturally yield \textit{adaptive regret} guarantees, i.e., regret bounds that hold w.r.t. any sub-interval of the sequence. Concretely, when assuming the availability of a linear optimization oracle (LOO) for the feasible set, on a sequence of length $T$, our algorithms guarantee $O(T^{3/4})$ adaptive regret and $O(T^{3/4})$ adaptive expected regret, for the full-information and bandit settings, respectively, using only $O(T)$ calls to the LOO. These bounds match the current state-of-the-art regret bounds for LOO-based projection-free OCO, which are \textit{not adaptive}. We also consider a new natural setting in which the feasible set is accessible through a separation oracle. We present algorithms which, using overall $O(T)$ calls to the separation oracle, guarantee $O(\sqrt{T})$ adaptive regret and $O(T^{3/4})$ adaptive expected regret for the full-information and bandit settings, respectively. | 翻訳日:2022-02-11 17:02:31 公開日:2022-02-09 |
# 非線形力学予測システムのための最適貯水池コンピュータ Optimal reservoir computers for forecasting systems of nonlinear dynamics ( http://arxiv.org/abs/2202.05159v1 ) ライセンス: Link先を確認 | Pauliina K\"arkk\"ainen and Riku Linna | (参考訳) 非線形力学系の予測と解析は多くの応用において重要である。
本稿では,このタスクに適した手法として注目されている機械学習技術である貯水池計算の特性と最適化について検討する。
貯水池にベイズ最適化を体系的に適用することにより,低接続の貯水池はノイズレス・ロレンツとウィルソン・コーワン系を結合した予測において,高接続性よりも優れた性能を示す。
また, 予期せぬ非連結ノード(RUN)の貯水池が, リンクネットワークトポロジの貯水池よりも優れていることを示す。
ノイズの存在下では、連結ノードの貯留層はRUNよりもわずかに良いだけである。
これまでに報告した結果とは対照的に,リンク型貯水池のトポロジーはシステム予測の性能に意味がない。
そこで本研究では,動的システム予測のための最適貯水池コンピュータ(RC)の設計手順について述べる。
この研究は、脳波やMEG信号などの非線形力学系で測定された信号のリアルタイム予測に適用可能な計算効率の高いRCの方法である。 Prediction and analysis of systems of nonlinear dynamics is crucial in many applications. Here, we study characteristics and optimization of reservoir computing, a machine learning technique that has gained attention as a suitable method for this task. By systematically applying Bayesian optimization on reservoirs we show that reservoirs of low connectivity perform better than or as well as those of high connectivity in forecasting noiseless Lorenz and coupled Wilson-Cowan systems. We also show that, unexpectedly, computationally effective reservoirs of unconnected nodes (RUN) outperform reservoirs of linked network topologies in predicting these systems. In the presence of noise, reservoirs of linked nodes perform only slightly better than RUNs. In contrast to previously reported results, we find that the topology of linked reservoirs has no significance in the performance of system prediction. Based on our findings, we give a procedure for designing optimal reservoir computers (RC) for forecasting dynamical systems. This work paves way for computationally effective RCs applicable to real-time prediction of signals measured on systems of nonlinear dynamics such as EEG or MEG signals measured on a brain. | 翻訳日:2022-02-11 17:00:20 公開日:2022-02-09 |
# SHAS:エンドツーエンド音声翻訳のための最適セグメンテーションへのアプローチ SHAS: Approaching optimal Segmentation for End-to-End Speech Translation ( http://arxiv.org/abs/2202.04774v1 ) ライセンス: Link先を確認 | Ioannis Tsiamas, Gerard I. G\'allego, Jos\'e A. R. Fonollosa, Marta R. Costa-juss\`a | (参考訳) 音声翻訳モデルは、TEDトークのような短いセグメントに分けられる長いオーディオを直接処理することはできない。
音声翻訳データセットは、実際のシナリオでは利用できない音声の手動セグメンテーションを提供し、既存のセグメンテーション手法は推論時の翻訳品質を著しく低下させる。
そこで本研究では,手話音声コーパスから最適な音声セグメンテーションを効果的に学習する手法であるsupervised hybrid audio segmentation (shas)を提案する。
まず,事前学習したwav2vec 2.0の音声表現を用いて,セグメント化に含まれるフレームを識別するように分類器を訓練する。
最適分割点は、すべてのセグメントが予め決められた長さ以下になるまで、最小確率のフレームで徐々に分割する確率的分割・探索アルゴリズムによって見出される。
MuST-C と mTEDx の実験により,本手法で生成したセグメントの翻訳が5つの言語対における手動セグメンテーションの品質に近づくことを示した。
すなわち、SHASは手動セグメンテーションのBLEUスコアの95-98%を保持しており、既存の最良のメソッドの87-93%である。
本手法は異なる領域に拡張可能であり,未認識言語で高いゼロショット性能を実現する。 Speech translation models are unable to directly process long audios, like TED talks, which have to be split into shorter segments. Speech translation datasets provide manual segmentations of the audios, which are not available in real-world scenarios, and existing segmentation methods usually significantly reduce translation quality at inference time. To bridge the gap between the manual segmentation of training and the automatic one at inference, we propose Supervised Hybrid Audio Segmentation (SHAS), a method that can effectively learn the optimal segmentation from any manually segmented speech corpus. First, we train a classifier to identify the included frames in a segmentation, using speech representations from a pre-trained wav2vec 2.0. The optimal splitting points are then found by a probabilistic Divide-and-Conquer algorithm that progressively splits at the frame of lowest probability until all segments are below a pre-specified length. Experiments on MuST-C and mTEDx show that the translation of the segments produced by our method approaches the quality of the manual segmentation on 5 languages pairs. Namely, SHAS retains 95-98% of the manual segmentation's BLEU score, compared to the 87-93% of the best existing methods. Our method is additionally generalizable to different domains and achieves high zero-shot performance in unseen languages. | 翻訳日:2022-02-11 16:21:52 公開日:2022-02-09 |
# 顕微鏡映像における細胞追跡のためのグラフニューラルネットワーク Graph Neural Network for Cell Tracking in Microscopy Videos ( http://arxiv.org/abs/2202.04731v1 ) ライセンス: Link先を確認 | Tal Ben-Haim, Tammy Riklin-Raviv | (参考訳) 本稿では,高出力顕微鏡ビデオにおける細胞追跡のための新しいグラフニューラルネットワーク(GNN)を提案する。
タイムラプスシーケンス全体を,ノードとその関連がエッジによって表現される直接グラフとしてモデル化することにより,グラフ内の最大経路を探すことで,セルトラジェクトリの集合全体を抽出する。
これは、エンドツーエンドのディープラーニングフレームワークに組み込まれたいくつかの重要な貢献によって達成される。
ディープメトリック学習アルゴリズムを用いて、異なる生体細胞のインスタンスを区別する細胞特徴ベクトルを抽出し、同じセルインスタンスを組み立てる。
ノードとエッジの特徴ベクトルを相互に更新できる新しいGNNブロック型を導入し、基礎となるメッセージパッシングプロセスを容易にする。
メッセージパッシングの概念は、gnnブロックの数によって範囲が決定されるが、ノードとエッジ間の情報の‘フロー’を連続するフレームで隣人よりもかなり後ろに置くことができるため、基本的な重要性がある。
最後にエッジ分類問題を解き、同定されたアクティブエッジを用いて、セルのトラックと系統木を構築する。
提案手法の強みを,異なる細胞タイプの2次元および3次元データセット,撮像装置,実験条件に適用することによって示す。
私たちのフレームワークは現在の最先端の手法よりも優れています。 We present a novel graph neural network (GNN) approach for cell tracking in high-throughput microscopy videos. By modeling the entire time-lapse sequence as a direct graph where cell instances are represented by its nodes and their associations by its edges, we extract the entire set of cell trajectories by looking for the maximal paths in the graph. This is accomplished by several key contributions incorporated into an end-to-end deep learning framework. We exploit a deep metric learning algorithm to extract cell feature vectors that distinguish between instances of different biological cells and assemble same cell instances. We introduce a new GNN block type which enables a mutual update of node and edge feature vectors, thus facilitating the underlying message passing process. The message passing concept, whose extent is determined by the number of GNN blocks, is of fundamental importance as it enables the `flow' of information between nodes and edges much behind their neighbors in consecutive frames. Finally, we solve an edge classification problem and use the identified active edges to construct the cells' tracks and lineage trees. We demonstrate the strengths of the proposed cell tracking approach by applying it to 2D and 3D datasets of different cell types, imaging setups, and experimental conditions. We show that our framework outperforms most of the current state-of-the-art methods. | 翻訳日:2022-02-11 15:58:48 公開日:2022-02-09 |
# データ不足下の危機領域における微調整分割モデルのサンプリング戦略 Sampling Strategy for Fine-Tuning Segmentation Models to Crisis Area under Scarcity of Data ( http://arxiv.org/abs/2202.04766v1 ) ライセンス: Link先を確認 | Adrianna Janik and Kris Sankaran | (参考訳) 人道的危機対応任務におけるリモートセンシングの使用は確立されており、繰り返し関連することが証明されている。
問題の1つは、金のアノテーションの取得であり、コストと時間を要するため、危機によって影響を受ける新しい地域へのモデル調整はほぼ不可能である。
時間が重要であり、リソースは限られており、環境は常に変化しており、モデルは進化し、新しい状況に適応するための柔軟な方法を提供する必要があります。
私たちが答えたいのは、サンプルの優先順位付けが、注釈付きデータ不足下での他の古典的なサンプリング方法と比較して、微調整のより良い結果をもたらすかどうかである。
本稿では,予測iouスコアのような推定モデルとサンプル特性に基づいて,微調整時のデータ収集を誘導する手法を提案する。
サンプル優先度を計算するための式を2つ提案する。
我々のアプローチは、解釈可能性、表現学習、アクティブラーニングのテクニックをブレンドする。
我々は,人道的応用におけるリモートセンシングのコアユースケースの1つを構築するリモートセンシングアプリケーションにおいて,セマンティックセグメンテーション(U-Net)の深層学習モデルに適用した。
予備的な結果は、データ条件の不足下でセマンティックセグメンテーションモデルをチューニングするためのサンプルの優先順位付けに有用であることを示す。 The use of remote sensing in humanitarian crisis response missions is well-established and has proven relevant repeatedly. One of the problems is obtaining gold annotations as it is costly and time consuming which makes it almost impossible to fine-tune models to new regions affected by the crisis. Where time is critical, resources are limited and environment is constantly changing, models has to evolve and provide flexible ways to adapt to a new situation. The question that we want to answer is if prioritization of samples provide better results in fine-tuning vs other classical sampling methods under annotated data scarcity? We propose a method to guide data collection during fine-tuning, based on estimated model and sample properties, like predicted IOU score. We propose two formulas for calculating sample priority. Our approach blends techniques from interpretability, representation learning and active learning. We have applied our method to a deep learning model for semantic segmentation, U-Net, in a remote sensing application of building detection - one of the core use cases of remote sensing in humanitarian applications. Preliminary results shows utility in prioritization of samples for tuning semantic segmentation models under scarcity of data condition. | 翻訳日:2022-02-11 15:58:07 公開日:2022-02-09 |
# StackGPのシンボリック回帰タスクにおけるアクティブ学習によるパフォーマンス向上 Active Learning Improves Performance on Symbolic RegressionTasks in StackGP ( http://arxiv.org/abs/2202.04708v1 ) ライセンス: Link先を確認 | Nathan Haut, Wolfgang Banzhaf, Bill Punch | (参考訳) 本稿では,stackgpを用いた記号回帰のアクティブ学習手法を提案する。
このアプローチは、stackgpがモデル化するための少数のデータポイントから始まる。
モデルを改善するために、新しいポイントがモデルアンサンブルで測定された予測の不確実性を最大化するデータポイントを漸進的に追加する。
シンボリック回帰はより大きなデータセットで再実行される。
このサイクルは、システムが終了基準を満たすまで続く。
我々はFeynman AIベンチマークを用いて,少ないデータポイントを用いて適切なモデルを見つけるための手法の能力を検証した。
このアプローチは、可能な限り少ないデータポイントを使用して、ドメインの専門知識やデータ変換を使わずに、100個のファインマン方程式の72個の再発見に成功した。 In this paper we introduce an active learning method for symbolic regression using StackGP. The approach begins with a small number of data points for StackGP to model. To improve the model the system incrementally adds a data point such that the new point maximizes prediction uncertainty as measured by the model ensemble. Symbolic regression is re-run with the larger data set. This cycle continues until the system satisfies a termination criterion. We use the Feynman AI benchmark set of equations to examine the ability of our method to find appropriate models using fewer data points. The approach was found to successfully rediscover 72 of the 100 Feynman equations using as few data points as possible, and without use of domain expertise or data translation. | 翻訳日:2022-02-11 15:54:28 公開日:2022-02-09 |
# 統計的推論と対話的可視化を用いた学習表現の概念の発見 Discovering Concepts in Learned Representations using Statistical Inference and Interactive Visualization ( http://arxiv.org/abs/2202.04753v1 ) ライセンス: Link先を確認 | Adrianna Janik and Kris Sankaran | (参考訳) 概念発見は、非深層学習の専門家とモデルエンドユーザーの間のギャップを埋めるために重要である解釈可能性文学におけるオープンな問題の1つである。
現在の定式化の中で、概念はそれらを学習表現空間の方向として定義する。
この定義により、特定の概念が興味あるクラスの分類決定に大きな影響を及ぼすかどうかを評価することができる。
しかし、表現空間は高次元でナビゲートが難しいため、関連する概念を見つけるのは面倒である。
現在のアプローチには、手作りの概念データセットと、それを潜在空間方向に変換することが含まれており、代わりに、潜在空間をクラスタリングすることでプロセスを自動化することができる。
本研究では,複数の仮説テストに基づく意味ある概念のユーザ発見と,インタラクティブな可視化に関する2つのアプローチを提案する。
シミュレーション実験と実データへのデモビジュアルインターフェースを通じて,これらのアプローチの価値と限界について検討する。
全体として、これらの手法は、ユーザーが事前に定義した記述を持たない設定で、プロセスを完全に自動化することなく、関連する概念を発見するための有望な戦略を提供する。 Concept discovery is one of the open problems in the interpretability literature that is important for bridging the gap between non-deep learning experts and model end-users. Among current formulations, concepts defines them by as a direction in a learned representation space. This definition makes it possible to evaluate whether a particular concept significantly influences classification decisions for classes of interest. However, finding relevant concepts is tedious, as representation spaces are high-dimensional and hard to navigate. Current approaches include hand-crafting concept datasets and then converting them to latent space directions; alternatively, the process can be automated by clustering the latent space. In this study, we offer another two approaches to guide user discovery of meaningful concepts, one based on multiple hypothesis testing, and another on interactive visualization. We explore the potential value and limitations of these approaches through simulation experiments and an demo visual interface to real data. Overall, we find that these techniques offer a promising strategy for discovering relevant concepts in settings where users do not have predefined descriptions of them, but without completely automating the process. | 翻訳日:2022-02-11 15:20:39 公開日:2022-02-09 |
# 対称ネットワークの主成分分析のための結合CP分解 A Coupled CP Decomposition for Principal Components Analysis of Symmetric Networks ( http://arxiv.org/abs/2202.04719v1 ) ライセンス: Link先を確認 | Michael Weylandt and George Michailidis | (参考訳) 多くのアプリケーションドメインでは、ネットワークデータのシーケンスを観察する。例えば、ソーシャルメディアプラットフォームにおけるユーザインタラクションの繰り返し測定、時間経過による金融相関ネットワーク、あるいは脳接続のマルチサブジェクト研究などである。
このようなデータを解析する方法の1つは、ネットワークを3階配列またはテンソルに積み重ねることである。
半対称テンソルの新たな分解法に基づいて,シーケンスネットワークデータに対する主成分分析(PCA)フレームワークを提案する。
提案した「結合CP」分解の効率的な計算アルゴリズムを導出し, 対数項までの行列の場合と同じ速度のスパイク共分散モデルを用いて, 提案手法の近似一貫性を確立する。
本フレームワークは,従来のPCAの強みの多くを継承し,主観的ネットワークの特定,意味のある変化点や外れ値の分離,および最も多様なエッジの「可変性ネットワーク」の特徴化など,広範囲の教師なし学習タスクに適している。
最後に, シミュレーションデータおよび政治学・金融経済学の事例について提案の有効性を示す。
主な一貫性の確立に使用される証明技術は驚くほど直線的であり、他の様々な行列やテンソル分解問題で使われる可能性がある。 In a number of application domains, one observes a sequence of network data; for example, repeated measurements between users interactions in social media platforms, financial correlation networks over time, or across subjects, as in multi-subject studies of brain connectivity. One way to analyze such data is by stacking networks into a third-order array or tensor. We propose a principal components analysis (PCA) framework for sequence network data, based on a novel decomposition for semi-symmetric tensors. We derive efficient algorithms for computing our proposed "Coupled CP" decomposition and establish estimation consistency of our approach under an analogue of the spiked covariance model with rates the same as the matrix case up to a logarithmic term. Our framework inherits many of the strengths of classical PCA and is suitable for a wide range of unsupervised learning tasks, including identifying principal networks, isolating meaningful changepoints or outliers across observations, and for characterizing the "variability network" of the most varying edges. Finally, we demonstrate the effectiveness of our proposal on simulated data and on examples from political science and financial economics. The proof techniques used to establish our main consistency results are surprisingly straight-forward and may find use in a variety of other matrix and tensor decomposition problems. | 翻訳日:2022-02-11 15:17:56 公開日:2022-02-09 |
# 最小選択原理によるオンライン学習と輸送 Online Learning to Transport via the Minimal Selection Principle ( http://arxiv.org/abs/2202.04732v1 ) ライセンス: Link先を確認 | Wenxuan Guo, YoonHaeng Hur, Tengyuan Liang, Christopher Ryan | (参考訳) 操作研究におけるロバストな動的資源配分を動機として、決定変数が確率測度であるオンライン学習輸送(OLT)問題(無限次元オブジェクト)を研究する。
オンライン学習,最適移動,偏微分方程式間の関係を最小選択原理(minimum selection principle)という洞察を通じて導き,ambrosio et al. (2005) によるwassersteingradient flow set で研究した。
これにより、標準オンライン学習フレームワークを無限次元設定にシームレスに拡張できます。
我々は,この枠組みに基づいて最小選択探索法(MSoE)と呼ばれる新しい手法を導出し,平均場近似と離散化手法を用いてORT問題を解く。
変位凸設定において、我々のアプローチを裏付ける主要な理論的メッセージは、(最小選択原理を介して)時間とともに輸送コストを最小化し、最適累積後悔上限を保証することである。
アルゴリズム側では,MSoEアルゴリズムは変位凸設定を超えて適用され,動的資源割り当てに共通する非凸設定と実際に関係する最適輸送の数学的理論が成立する。 Motivated by robust dynamic resource allocation in operations research, we study the Online Learning to Transport (OLT) problem where the decision variable is a probability measure, an infinite-dimensional object. We draw connections between online learning, optimal transport, and partial differential equations through an insight called the minimal selection principle, originally studied in the Wasserstein gradient flow setting by Ambrosio et al. (2005). This allows us to extend the standard online learning framework to the infinite-dimensional setting seamlessly. Based on our framework, we derive a novel method called the minimal selection or exploration (MSoE) algorithm to solve OLT problems using mean-field approximation and discretization techniques. In the displacement convex setting, the main theoretical message underpinning our approach is that minimizing transport cost over time (via the minimal selection principle) ensures optimal cumulative regret upper bounds. On the algorithmic side, our MSoE algorithm applies beyond the displacement convex setting, making the mathematical theory of optimal transport practically relevant to non-convex settings common in dynamic resource allocation. | 翻訳日:2022-02-11 15:17:33 公開日:2022-02-09 |
# 深層学習とオプティカルフローを用いた臨床作業負荷と患者活動の推定 Estimation of Clinical Workload and Patient Activity using Deep Learning and Optical Flow ( http://arxiv.org/abs/2202.04748v1 ) ライセンス: Link先を確認 | Thanh Nguyen-Duc, Peter Y Chan, Andrew Tay, David Chen, John Tan Nguyen, Jessica Lyall and Maria De Freitas | (参考訳) 熱画像を用いた非接触モニタリングは、新型コロナウイルス(COVID-19)パンデミック中の発熱や感染を検出するため、病院で患者の劣化を監視するためにますます提案されている。
本報告では, 患者の動きを推定し, 同様の技術的セットアップを用いて臨床作業負荷を観察する新しい手法を提案し, オープンソースの物体検出アルゴリズム(yolov4)と光学フローを組み合わせた。
患者の運動推定は患者の興奮と鎮静を近似し, 作業者の動作は介護者の作業負荷のサーロゲートとして用いた。
集中治療室で録画された患者の映像から32000フレーム以上を臨床労働者が記録した臨床動揺スコアと比較した。 Contactless monitoring using thermal imaging has become increasingly proposed to monitor patient deterioration in hospital, most recently to detect fevers and infections during the COVID-19 pandemic. In this letter, we propose a novel method to estimate patient motion and observe clinical workload using a similar technical setup but combined with open source object detection algorithms (YOLOv4) and optical flow. Patient motion estimation was used to approximate patient agitation and sedation, while worker motion was used as a surrogate for caregiver workload. Performance was illustrated by comparing over 32000 frames from videos of patients recorded in an Intensive Care Unit, to clinical agitation scores recorded by clinical workers. | 翻訳日:2022-02-11 15:14:50 公開日:2022-02-09 |
# 多レベル深層畳み込みエンコーダ・デコーダネットワークを用いた解析的RBCのセマンティックセグメンテーション Semantic Segmentation of Anaemic RBCs Using Multilevel Deep Convolutional Encoder-Decoder Network ( http://arxiv.org/abs/2202.04650v1 ) ライセンス: Link先を確認 | Muhammad Shahzad, Arif Iqbal Umar, Syed Hamad Shirazi, Israr Ahmed Shaikh | (参考訳) 血液画像のピクセルレベル分析は、血液疾患、特に貧血の診断において重要な役割を果たす。
これらの分析は主に、形状、大きさ、正確なピクセル数などの形態的変形の正確な診断に依存している。
従来のセグメンテーションでは、ピクセルレベルの分析では実現不可能なインスタンスやオブジェクトベースのアプローチが採用されている。
畳み込みニューラルネットワーク(cnn)モデルは、深層学習領域における赤血球のセマンティックセグメンテーションのための詳細なピクセルレベルの情報を含む大きなデータセットを必要とした。
本研究では,マルチレベル深層畳み込みエンコーダ・デコーダネットワークと,2つの最先端の健康データと嫌気性rbcデータセットを提案する。
提案したマルチレベルCNNモデルでは,ある層から抽出した画素レベルの意味情報を次の層に渡して関連する特徴を選択する。
この現象は、形態学的解析とともに、健康および貧血-RBC元素のピクセルレベルを正確にカウントするのに役立つ。
実験目的で、我々は最先端のRBCデータセットであるHealthy-RBCとAnaemic-RBCsデータセットを2つ提案した。
各データセットには、1000の画像、地上の真実マスク、関連性、完全血球数(CBC)、パフォーマンス評価のための形態学レポートが含まれている。
提案手法は,IoU,個別トレーニング,検証,テスト精度,グローバルアキュラシーを05倍のトレーニング手順で検出し,地中真理マスクを用いたクロスマッチ解析を用いて評価した。
このモデルは、Healthy-RBCデータセットで0.9856、0.9760、0.9720、Anaemic-RBCデータセットで0.9736、0.9696、0.9591のトレーニング、検証、テストの精度を得た。
提案したモデルのIoUとBFScoreはそれぞれ0.9311、0.9138、0.9032、0.8978である。 Pixel-level analysis of blood images plays a pivotal role in diagnosing blood-related diseases, especially Anaemia. These analyses mainly rely on an accurate diagnosis of morphological deformities like shape, size, and precise pixel counting. In traditional segmentation approaches, instance or object-based approaches have been adopted that are not feasible for pixel-level analysis. The convolutional neural network (CNN) model required a large dataset with detailed pixel-level information for the semantic segmentation of red blood cells in the deep learning domain. In current research work, we address these problems by proposing a multi-level deep convolutional encoder-decoder network along with two state-of-the-art healthy and Anaemic-RBC datasets. The proposed multi-level CNN model preserved pixel-level semantic information extracted in one layer and then passed to the next layer to choose relevant features. This phenomenon helps to precise pixel-level counting of healthy and anaemic-RBC elements along with morphological analysis. For experimental purposes, we proposed two state-of-the-art RBC datasets, i.e., Healthy-RBCs and Anaemic-RBCs dataset. Each dataset contains 1000 images, ground truth masks, relevant, complete blood count (CBC), and morphology reports for performance evaluation. The proposed model results were evaluated using crossmatch analysis with ground truth mask by finding IoU, individual training, validation, testing accuracies, and global accuracies using a 05-fold training procedure. This model got training, validation, and testing accuracies as 0.9856, 0.9760, and 0.9720 on the Healthy-RBC dataset and 0.9736, 0.9696, and 0.9591 on an Anaemic-RBC dataset. The IoU and BFScore of the proposed model were 0.9311, 0.9138, and 0.9032, 0.8978 on healthy and anaemic datasets, respectively. | 翻訳日:2022-02-11 14:48:39 公開日:2022-02-09 |
# 人間はワンショットで学ぶことはできるのか? Can Humans Do Less-Than-One-Shot Learning? ( http://arxiv.org/abs/2202.04670v1 ) ライセンス: Link先を確認 | Maya Malaviya, Ilia Sucholutsky, Kerem Oktar, Thomas L. Griffiths | (参考訳) 少量のデータから学習できることは、人間の知性にとって重要な特徴だが、いかにして小さいのか?
本稿では,従来よりも多くのカテゴリを学べるかどうか(つまり,人間が「一発のショット」を学べるのか?)を問う,極めてデータ量の多い環境での分類を検証できる新しい実験パラダイムを提案する。
このパラダイムを用いて行った実験は、人々がそのような設定で学習できることを明らかにし、基礎となるメカニズムについていくつかの洞察を提供する。
まず、非常に小さなデータから高次元の特徴空間を正確に推測し、表現することができる。
第二に、関係する空間を推測すると、人々はプロトタイプベースの分類(例題に基づく分類とは対照的)の形式を使って分類的推論を行う。
最後に、機械学習可能な応答パターンは、人々がこの種のデータスカース問題に対処するために効率的な帰納バイアスを持つ可能性があることを示している。 Being able to learn from small amounts of data is a key characteristic of human intelligence, but exactly {\em how} small? In this paper, we introduce a novel experimental paradigm that allows us to examine classification in an extremely data-scarce setting, asking whether humans can learn more categories than they have exemplars (i.e., can humans do "less-than-one shot" learning?). An experiment conducted using this paradigm reveals that people are capable of learning in such settings, and provides several insights into underlying mechanisms. First, people can accurately infer and represent high-dimensional feature spaces from very little data. Second, having inferred the relevant spaces, people use a form of prototype-based categorization (as opposed to exemplar-based) to make categorical inferences. Finally, systematic, machine-learnable patterns in responses indicate that people may have efficient inductive biases for dealing with this class of data-scarce problems. | 翻訳日:2022-02-11 14:48:03 公開日:2022-02-09 |
# 粒状化:構造的に粗末な宝くじをめざして Coarsening the Granularity: Towards Structurally Sparse Lottery Tickets ( http://arxiv.org/abs/2202.04736v1 ) ライセンス: Link先を確認 | Tianlong Chen, Xuxi Chen, Xiaolong Ma, Yanzhi Wang, Zhangyang Wang | (参考訳) 宝くじ仮説(lth: lottery ticket hypothesis)は、密集したモデルに非常にスパースなサブネットワーク(すなわち勝利のチケット)が含まれており、完全な正確性に合うように訓練できることを示した。
多くのエキサイティングな努力がなされているにもかかわらず、勝利のチケットはイテレーティブ・マグニチュード・プルーニング(IMP)によって見出され、その結果、プルーニングされたサブネットは非構造化の空間しか持たない。
このギャップは、非常に不規則なスパースパターンがハードウェア上で加速することが難しいため、実際に勝つチケットの魅力を制限する。
一方,unstructured pruning for unstructured pruning in impによる構造的pruningの直接置換は,より厳しい性能を損なう。
本稿では,構造的にばらばらな入賞券を効果的に発見できる最初のポジティブな結果を示す。
中心となる考え方は、各ラウンド(非構造化)impの後に「後処理技術」を付加し、構造的スパーシティの形成を強制することである。
具体的には、まず「再充填」した要素を重要と見なされるいくつかのチャネルに戻すと、非ゼロ要素を「再グループ化」して、柔軟なグループ的な構造パターンを作ります。
我々の特定チャネルおよびグループ単位の構造サブネットが、既存のハードウェアで容易にサポートされ、宝くじに勝つ。
複数のネットワークバックボーンにまたがる多様なデータセットで実施された大規模な実験は、我々の提案を一貫して検証し、LTHのハードウェアアクセラレーションの障害が取り除かれたことを示す。
具体的には、構造的な当選チケットは{64.93%, 64.84%, 64.84%} 実行時間の節約が {36% ~ 80%, 74%, 58%} となり、{cifar, tiny-imagenet, imagenet} と同等の精度を保っている。
コードはhttps://github.com/VITA-Group/Structure-LTHで公開されている。 The lottery ticket hypothesis (LTH) has shown that dense models contain highly sparse subnetworks (i.e., winning tickets) that can be trained in isolation to match full accuracy. Despite many exciting efforts being made, there is one "commonsense" seldomly challenged: a winning ticket is found by iterative magnitude pruning (IMP) and hence the resultant pruned subnetworks have only unstructured sparsity. That gap limits the appeal of winning tickets in practice, since the highly irregular sparse patterns are challenging to accelerate on hardware. Meanwhile, directly substituting structured pruning for unstructured pruning in IMP damages performance more severely and is usually unable to locate winning tickets. In this paper, we demonstrate the first positive result that a structurally sparse winning ticket can be effectively found in general. The core idea is to append "post-processing techniques" after each round of (unstructured) IMP, to enforce the formation of structural sparsity. Specifically, we first "re-fill" pruned elements back in some channels deemed to be important, and then "re-group" non-zero elements to create flexible group-wise structural patterns. Both our identified channel- and group-wise structural subnetworks win the lottery, with substantial inference speedups readily supported by existing hardware. Extensive experiments, conducted on diverse datasets across multiple network backbones, consistently validate our proposal, showing that the hardware acceleration roadblock of LTH is now removed. Specifically, the structural winning tickets obtain up to {64.93%, 64.84%, 64.84%} running time savings at {36% ~ 80%, 74%, 58%} sparsity on {CIFAR, Tiny-ImageNet, ImageNet}, while maintaining comparable accuracy. Codes are available in https://github.com/VITA-Group/Structure-LTH. | 翻訳日:2022-02-11 14:42:58 公開日:2022-02-09 |
# ブラックボックス型問題における高次元不確かさ定量化のための教師なし学習法の検討 A survey of unsupervised learning methods for high-dimensional uncertainty quantification in black-box-type problems ( http://arxiv.org/abs/2202.04648v1 ) ライセンス: Link先を確認 | Katiana Kontolati, Dimitrios Loukrezis, Dimitrios D. Giovanis, Lohit Vandanapu, Michael D. Shields | (参考訳) 複素偏微分方程式(PDE)上の不確実性量子化(UQ)の代理モデルを構成することは、本質的に高次元の$\mathcal{O}(10^{\ge 2})$確率的な入力(例えば、条件、境界条件、初期条件)が大きな課題を引き起こす。
次元の呪いは、構造情報と有意義な性質を保持しながら、入力を低次元部分空間にエンコードする前処理ツールとして使われる、適切な教師なし学習技術で対処できる。
本研究では, 線形および非線形, スペクトル, ブラインドソース分離, 凸および非凸法を含む13次元縮小法について検討し, 得られた埋め込みを用いて多項式カオス展開 (pce) による関心量のマッピングを構築する。
一般に提案されたアプローチを多様体 pce (m-pce) と呼び、そこでは多様体は解析された次元減少法のいずれかから生じる潜在空間に対応する。
ガウス的および非ガウス的ランダム場としてモデル化された様々な複雑性の高次元確率入力を持つ3つの物理系(ブラックボックスとして扱われる)の数値実験を行い、入力データの本質的次元性の影響について検討する。
我々は、教師なし学習手法の利点と限界の両方を実証し、最近提案された高価なディープニューラルネットワークベースのサロゲートを含む文献で提案された代替アルゴリズムと比較して、適切なm-PCEモデルがコスト効率の良いアプローチを提供すると結論付けた。 Constructing surrogate models for uncertainty quantification (UQ) on complex partial differential equations (PDEs) having inherently high-dimensional $\mathcal{O}(10^{\ge 2})$ stochastic inputs (e.g., forcing terms, boundary conditions, initial conditions) poses tremendous challenges. The curse of dimensionality can be addressed with suitable unsupervised learning techniques used as a pre-processing tool to encode inputs onto lower-dimensional subspaces while retaining its structural information and meaningful properties. In this work, we review and investigate thirteen dimension reduction methods including linear and nonlinear, spectral, blind source separation, convex and non-convex methods and utilize the resulting embeddings to construct a mapping to quantities of interest via polynomial chaos expansions (PCE). We refer to the general proposed approach as manifold PCE (m-PCE), where manifold corresponds to the latent space resulting from any of the studied dimension reduction methods. To investigate the capabilities and limitations of these methods we conduct numerical tests for three physics-based systems (treated as black-boxes) having high-dimensional stochastic inputs of varying complexity modeled as both Gaussian and non-Gaussian random fields to investigate the effect of the intrinsic dimensionality of input data. We demonstrate both the advantages and limitations of the unsupervised learning methods and we conclude that a suitable m-PCE model provides a cost-effective approach compared to alternative algorithms proposed in the literature, including recently proposed expensive deep neural network-based surrogates and can be readily applied for high-dimensional UQ in stochastic PDEs. | 翻訳日:2022-02-11 14:39:38 公開日:2022-02-09 |
# 不均一無線ネットワーク上での動的分散モデルトレーニングのための並列逐次学習 Parallel Successive Learning for Dynamic Distributed Model Training over Heterogeneous Wireless Networks ( http://arxiv.org/abs/2202.02947v2 ) ライセンス: Link先を確認 | Seyyedali Hosseinalipour, Su Wang, Nicolo Michelusi, Vaneet Aggarwal, Christopher G. Brinton, David J. Love, Mung Chiang | (参考訳) フェデレートラーニング(FedL)は,一連の無線デバイス上で,反復的なローカルアップデート(デバイス)とグローバルアグリゲーション(サーバ)を通じて,モデルトレーニングを分散する一般的なテクニックとして登場した。
本稿では,FedLアーキテクチャを3次元に拡張した並列逐次学習(PSL)を開発する。
i)デバイス間通信(D2D)を介してデバイス間の分散協調を可能にするネットワーク。
(ii-a)学習:pslは、デバイスで異なるミニバッチサイズを持つ確率的勾配降下イテレーションの異種数を考慮し、(ii-b)データ:pslはデータの到着と出発を伴う動的環境を想定し、ローカルデータセットの分布は時間とともに進化し、モデル/コンセプトドリフトの新しいメトリックを介してキャプチャされる。
(ii-c)
デバイス: PSLは計算能力と通信能力の異なるデバイスを考える。
(iii)近接、デバイス同士の距離とアクセスポイントが異なる。
pslは、資源効率の改善のためにそれらの間にアイドルタイムでグローバルアグリゲーションが実行され、データ分散とモデル分散と局所モデル凝縮をfederに組み込む現実的なシナリオを考察している。
我々の分析は、分散機械学習におけるコールド対ウォームアップモデルの概念とモデル慣性について光を当てている。
次に、ネットワーク対応動的モデルトラッキングを提案し、モデル学習とリソース効率のトレードオフを最適化し、NPハードなシグナミカルプログラミング問題を示す。
最後に, 一般最適化解法を提案することで, この問題を解決した。
数値計算により,グローバルアグリゲーション,モデル/コンセプションドリフト,D2D協調構成の間におけるアイドル時間間の相互依存性が明らかになった。 Federated learning (FedL) has emerged as a popular technique for distributing model training over a set of wireless devices, via iterative local updates (at devices) and global aggregations (at the server). In this paper, we develop parallel successive learning (PSL), which expands the FedL architecture along three dimensions: (i) Network, allowing decentralized cooperation among the devices via device-to-device (D2D) communications. (ii) Heterogeneity, interpreted at three levels: (ii-a) Learning: PSL considers heterogeneous number of stochastic gradient descent iterations with different mini-batch sizes at the devices; (ii-b) Data: PSL presumes a dynamic environment with data arrival and departure, where the distributions of local datasets evolve over time, captured via a new metric for model/concept drift. (ii-c) Device: PSL considers devices with different computation and communication capabilities. (iii) Proximity, where devices have different distances to each other and the access point. PSL considers the realistic scenario where global aggregations are conducted with idle times in-between them for resource efficiency improvements, and incorporates data dispersion and model dispersion with local model condensation into FedL. Our analysis sheds light on the notion of cold vs. warmed up models, and model inertia in distributed machine learning. We then propose network-aware dynamic model tracking to optimize the model learning vs. resource efficiency tradeoff, which we show is an NP-hard signomial programming problem. We finally solve this problem through proposing a general optimization solver. Our numerical results reveal new findings on the interdependencies between the idle times in-between the global aggregations, model/concept drift, and D2D cooperation configuration. | 翻訳日:2022-02-11 13:01:36 公開日:2022-02-09 |
# (参考訳) 最適な変分オートエンコーダを用いた共変量不変表現学習 Covariate-informed Representation Learning with Samplewise Optimal Identifiable Variational Autoencoders ( http://arxiv.org/abs/2202.04206v1 ) ライセンス: CC BY 4.0 | Young-geun Kim, Ying Liu, Xuexin Wei | (参考訳) 最近提案された変分オートエンコーダ (iVAE, Khemakhem et al. (2020)) フレームワークは、データの潜在独立成分を学習するための有望なアプローチを提供する。
識別性は魅力的だが、iVAEの目的関数はエンコーダとデコーダの逆関係を強制しない。
逆関係がなければ、iVAEのエンコーダからの表現は観察を再構成することができない。
この制限を克服するため,共変量インフォームド識別型VAE(CI-iVAE)という新しいアプローチを開発した。
従来のiVAE実装と異なり,本手法は観測のみに条件付き潜伏変数の後方分布を著しく活用する。
その際、目的関数は逆関係を強制し、学習された表現はより多くの観測情報を含む。
さらに、CI-iVAEは元のiVAEの目的関数をより大きなクラスに拡張し、その中の最適な関数を見つけることで、データに適合する。
理論的には、この手法は元のiVAEよりも厳密な証拠(ELBO)を持つ。
本稿では, 各種合成データセットの特徴, 2つのベンチマーク画像データセット(EMNISTとFashion MNIST), および青年期精神保健研究のための大規模脳画像データセットをより確実に学習できることを実証する。 Recently proposed identifiable variational autoencoder (iVAE, Khemakhem et al. (2020)) framework provides a promising approach for learning latent independent components of the data. Although the identifiability is appealing, the objective function of iVAE does not enforce the inverse relation between encoders and decoders. Without the inverse relation, representations from the encoder in iVAE may not reconstruct observations,i.e., representations lose information in observations. To overcome this limitation, we develop a new approach, covariate-informed identifiable VAE (CI-iVAE). Different from previous iVAE implementations, our method critically leverages the posterior distribution of latent variables conditioned only on observations. In doing so, the objective function enforces the inverse relation, and learned representation contains more information of observations. Furthermore, CI-iVAE extends the original iVAE objective function to a larger class and finds the optimal one among them, thus providing a better fit to the data. Theoretically, our method has tighter evidence lower bounds (ELBOs) than the original iVAE. We demonstrate that our approach can more reliably learn features of various synthetic datasets, two benchmark image datasets (EMNIST and Fashion MNIST), and a large-scale brain imaging dataset for adolescent mental health research. | 翻訳日:2022-02-11 02:37:08 公開日:2022-02-09 |
# (参考訳) 因果推論手法の評価 Evaluating Causal Inference Methods ( http://arxiv.org/abs/2202.04208v1 ) ライセンス: CC BY 4.0 | Harsh Parikh, Carlos Varjao, Louise Xu, Eric Tchetgen Tchetgen | (参考訳) 因果推論を描く基本的な課題は、反事実的結果がいかなる単位に対しても完全には観察されないことである。
さらに、観察研究では、治療の割り当てが合理化されそうである。
確率スコア法、確率スコア法、二重頑健な方法など、前処理の共変量による未定条件下での因果推論のための統計手法が数多く出現している。
応用研究者にとって残念なことに、最適に普遍的に実行できる‘one-size-fits-all’因果法は存在しない。
実際、因果的手法は主に手作りシミュレーションデータに基づいて定量的に評価される。
このようなデータ生成手順は、通常、現実のスタイル化されたモデルであるため、限られた価値しか持たない。
それらはトラクタビリティをシンプルにし、現実世界のデータの複雑さを欠いている。
応用研究者にとって、手元のデータに対してどのようにメソッドが機能するかを理解することは重要である。
本研究は,因果推論手法を検証するために,深い生成モデルに基づくフレームワークであるcredenceを導入する。
フレームワークの新規性は、観測されたサンプルの実験的分布に固定された合成データを生成する能力に由来するため、後者とは事実上区別できない。
このアプローチにより、ユーザーは因果効果の形式と大きさの基底真理とバイアスを共変量の関数として定義することができる。
そこで, シミュレーションデータセットを用いて, 観測試料と類似したデータに適用した場合に, 種々の因果推定手法の有効性を評価する。
本研究では,Credenceの因果推定手法の相対的性能を,広範囲なシミュレーション研究と,LalondeとProject STARによる2つの実世界のデータ応用で正確に評価する能力を示す。 The fundamental challenge of drawing causal inference is that counterfactual outcomes are not fully observed for any unit. Furthermore, in observational studies, treatment assignment is likely to be confounded. Many statistical methods have emerged for causal inference under unconfoundedness conditions given pre-treatment covariates, including propensity score-based methods, prognostic score-based methods, and doubly robust methods. Unfortunately for applied researchers, there is no `one-size-fits-all' causal method that can perform optimally universally. In practice, causal methods are primarily evaluated quantitatively on handcrafted simulated data. Such data-generative procedures can be of limited value because they are typically stylized models of reality. They are simplified for tractability and lack the complexities of real-world data. For applied researchers, it is critical to understand how well a method performs for the data at hand. Our work introduces a deep generative model-based framework, Credence, to validate causal inference methods. The framework's novelty stems from its ability to generate synthetic data anchored at the empirical distribution for the observed sample, and therefore virtually indistinguishable from the latter. The approach allows the user to specify ground truth for the form and magnitude of causal effects and confounding bias as functions of covariates. Thus simulated data sets are used to evaluate the potential performance of various causal estimation methods when applied to data similar to the observed sample. We demonstrate Credence's ability to accurately assess the relative performance of causal estimation techniques in an extensive simulation study and two real-world data applications from Lalonde and Project STAR studies. | 翻訳日:2022-02-11 02:04:55 公開日:2022-02-09 |
# (参考訳) 不平衡・雑音データを用いた故障検出と診断 : 回転機械用ハイブリッドフレームワーク Fault Detection and Diagnosis with Imbalanced and Noisy Data: A Hybrid Framework for Rotating Machinery ( http://arxiv.org/abs/2202.04212v1 ) ライセンス: CC BY 4.0 | Masoud Jalayer, Amin Kaboli, Carlotta Orsenigo, Carlo Vercellis | (参考訳) 回転機械製造システムの保守コスト低減には, 故障診断が重要な役割を担っている。
障害検出と診断の多くの実際の応用において、データは不均衡になりがちであり、ある障害クラスのサンプルの数は通常のデータサンプルよりもはるかに少ない。
同時に、産業環境では、加速度計は高いレベルの破壊的な信号に遭遇し、収集されたサンプルはノイズが大きいことが判明した。
その結果、従来のフォールト検出および診断(fdd)フレームワークの多くは、現実の状況に対処する場合の分類性能が低くなる。
この問題に対処するために,(1)未表現の入力サンプル量を増やす生成アルゴリズムの実装,(2)不均衡でノイズの多いデータから学ぶのに強力な分類器の雇用,(3)特徴抽出とデータ拡張を含む効率的なデータ前処理の開発,の3つの主要な解決策が文献に提案されている。
本稿では, 上記3つの成分を併用して, 不均衡状態に対する効果的な信号ベースFDDシステムを実現するハイブリッドフレームワークを提案する。
具体的には、最初にフーリエ変換とウェーブレット変換を用いて故障の特徴を抽出し、信号を完全に利用する。
次にwassersteingenerative adversarial networks(wgan)を使用して合成サンプルを生成し、希少な障害クラスを投入し、トレーニングセットを強化する。
さらに、高い性能を達成するために、畳み込み長短期記憶(CLSTM)と重み付き極学習機械(WELM)を組み合わせた新しい組み合わせを提案する。
開発したフレームワークの有効性を検証するために,不均衡と騒音度が異なるデータセットの設定を行った。
比較結果は、GAN-CLSTM-ELMが他の最先端のFDDフレームワークよりも優れていることを示している。 Fault diagnosis plays an essential role in reducing the maintenance costs of rotating machinery manufacturing systems. In many real applications of fault detection and diagnosis, data tend to be imbalanced, meaning that the number of samples for some fault classes is much less than the normal data samples. At the same time, in an industrial condition, accelerometers encounter high levels of disruptive signals and the collected samples turn out to be heavily noisy. As a consequence, many traditional Fault Detection and Diagnosis (FDD) frameworks get poor classification performances when dealing with real-world circumstances. Three main solutions have been proposed in the literature to cope with this problem: (1) the implementation of generative algorithms to increase the amount of under-represented input samples, (2) the employment of a classifier being powerful to learn from imbalanced and noisy data, (3) the development of an efficient data pre-processing including feature extraction and data augmentation. This paper proposes a hybrid framework which uses the three aforementioned components to achieve an effective signal-based FDD system for imbalanced conditions. Specifically, it first extracts the fault features, using Fourier and wavelet transforms to make full use of the signals. Then, it employs Wasserstein Generative Adversarial Networks (WGAN) to generate synthetic samples to populate the rare fault class and enhance the training set. Moreover, to achieve a higher performance a novel combination of Convolutional Long Short-term Memory (CLSTM) and Weighted Extreme Learning Machine (WELM) is proposed. To verify the effectiveness of the developed framework, different datasets settings on different imbalance severities and noise degrees were used. The comparative results demonstrate that in different scenarios GAN-CLSTM-ELM outperforms the other state-of-the-art FDD frameworks. | 翻訳日:2022-02-11 01:46:19 公開日:2022-02-09 |
# (参考訳) マネージャ対マシン: アルゴリズムはクレジットレーティングで人間の直感を再現するか? Managers versus Machines: Do Algorithms Replicate Human Intuition in Credit Ratings? ( http://arxiv.org/abs/2202.04218v1 ) ライセンス: CC BY 4.0 | Matthew Harding and Gabriel F. R. Vasconcelos | (参考訳) 我々は、大規模な米国商業銀行による商業ローンのリスクを評価する銀行経営者の行動を再現できるかどうかを機械学習技術を用いて調査する。
典型的な銀行はリスクを評価するために既にアルゴリズム的なスコアカードプロセスに依存しているが、銀行のマネージャーは直観と経験に基づいて他の全体的要因を考慮するためにリスクスコアの調整においてかなりの緯度を与えられる。
銀行管理者の行動を再現できる機械学習アルゴリズムを見つけることが可能であることを示す。
アルゴリズムへの入力は、一般的な融資審査プロセスの一部として、銀行のマネージャーが利用できる標準的な財務情報とソフト情報の組み合わせから成り立っている。
また,調整プロセスにおける著しい不均一性の存在を,マネージャと産業間の差異にさかのぼることができることを示す。
本研究は、バンキングに対する機械学習に基づく分析手法の有効性と、金融分野における高スキル雇用への潜在的な課題を浮き彫りにする。 We use machine learning techniques to investigate whether it is possible to replicate the behavior of bank managers who assess the risk of commercial loans made by a large commercial US bank. Even though a typical bank already relies on an algorithmic scorecard process to evaluate risk, bank managers are given significant latitude in adjusting the risk score in order to account for other holistic factors based on their intuition and experience. We show that it is possible to find machine learning algorithms that can replicate the behavior of the bank managers. The input to the algorithms consists of a combination of standard financials and soft information available to bank managers as part of the typical loan review process. We also document the presence of significant heterogeneity in the adjustment process that can be traced to differences across managers and industries. Our results highlight the effectiveness of machine learning based analytic approaches to banking and the potential challenges to high-skill jobs in the financial sector. | 翻訳日:2022-02-11 01:24:26 公開日:2022-02-09 |
# (参考訳) インテリジェントな自律的交差点管理 Intelligent Autonomous Intersection Management ( http://arxiv.org/abs/2202.04224v1 ) ライセンス: CC BY 4.0 | Udesh Gunarathna, Shanika Karunasekara, Renata Borovica-Gajic, Egemen Tanin | (参考訳) コネクテッド自動運転車は、従来の交通信号制御に代わる自動運転交差点管理を実現する。
自律交差点管理は、交差点を通過する衝突のない通行のために交差点に到着する車両の時間と速度の調整を必要とする。
計算複雑性のため、この問題は交差点付近の車両到着時刻が事前に分かっている場合にのみ研究されており、これらの解がリアルタイム展開に適用可能であることを制限している。
リアルタイムの自律的交通交差点管理問題を解決するために,マルチエージェントアーキテクチャとマルチディスカウントQ-ラーニングを用いた新しいRLアルゴリズムを提案する。
マルチディスカウントQ-ラーニングでは,衝突のない速度制御に不可欠な短期目標と長期目標を両立させることにより,マルコフ決定プロセスの簡易かつ効果的な解法を導入する。
実験結果から,rlベースのマルチエージェントソリューションは,交差点通過時の移動時間を最小化することで,最適に近い性能を効率的に達成できることがわかった。 Connected Autonomous Vehicles will make autonomous intersection management a reality replacing traditional traffic signal control. Autonomous intersection management requires time and speed adjustment of vehicles arriving at an intersection for collision-free passing through the intersection. Due to its computational complexity, this problem has been studied only when vehicle arrival times towards the vicinity of the intersection are known beforehand, which limits the applicability of these solutions for real-time deployment. To solve the real-time autonomous traffic intersection management problem, we propose a reinforcement learning (RL) based multiagent architecture and a novel RL algorithm coined multi-discount Q-learning. In multi-discount Q-learning, we introduce a simple yet effective way to solve a Markov Decision Process by preserving both short-term and long-term goals, which is crucial for collision-free speed control. Our empirical results show that our RL-based multiagent solution can achieve near-optimal performance efficiently when minimizing the travel time through an intersection. | 翻訳日:2022-02-11 01:23:29 公開日:2022-02-09 |
# (参考訳) CFDのサブ精度誤差を補正するディープニューラルネットワーク Deep Neural Networks to Correct Sub-Precision Errors in CFD ( http://arxiv.org/abs/2202.04233v1 ) ライセンス: CC BY 4.0 | Akash Haridas, Nagabhushana Rao Vadlamani, Yuki Minamoto | (参考訳) 数値シミュレーションにおける情報の損失は、離散偏微分方程式を解きながら様々な情報源から生じる。
特に、精度関連の誤差は、16ビット浮動小数点演算によるシミュレーションが等価な64ビットシミュレーションと比較される場合、利子数に蓄積される。
ここでは、高精度計算よりもはるかに少ないリソースを必要とする。
最近提案された機械学習(ML)技術は,空間的離散化による誤りの修正に成功している。
本研究では,これらの手法を拡張し,計算流体力学(CFD)シミュレーションを低数値精度で高速化する。
まず,コルモゴロフ強制乱流試験における精度関連誤差の定量化を行った。
その後,畳み込みニューラルネットワークと完全微分可能な数値解法を用いて16ビット演算を行い,密結合型ML-CFDハイブリッド解法を学習する。
16ビットの解法と比較して, ML-CFDハイブリッド解法は, 速度場の誤差蓄積を低減し, 高周波数での運動エネルギースペクトルを改善するのに有効であることを示す。 Loss of information in numerical simulations can arise from various sources while solving discretized partial differential equations. In particular, precision-related errors can accumulate in the quantities of interest when the simulations are performed using low-precision 16-bit floating-point arithmetic compared to an equivalent 64-bit simulation. Here, low-precision computation requires much lower resources than high-precision computation. Several machine learning (ML) techniques proposed recently have been successful in correcting the errors arising from spatial discretization. In this work, we extend these techniques to improve Computational Fluid Dynamics (CFD) simulations performed using low numerical precision. We first quantify the precision related errors accumulated in a Kolmogorov forced turbulence test case. Subsequently, we employ a Convolutional Neural Network together with a fully differentiable numerical solver performing 16-bit arithmetic to learn a tightly-coupled ML-CFD hybrid solver. Compared to the 16-bit solver, we demonstrate the efficacy of the ML-CFD hybrid solver towards reducing the error accumulation in the velocity field and improving the kinetic energy spectrum at higher frequencies. | 翻訳日:2022-02-11 01:06:42 公開日:2022-02-09 |
# (参考訳) 需要応答のためのデータ駆動型オンラインインタラクティブ入札戦略 Data-Driven Online Interactive Bidding Strategy for Demand Response ( http://arxiv.org/abs/2202.04236v1 ) ライセンス: CC BY 4.0 | Kuan-Cheng Lee, Hong-Tzer Yang, and Wenjun Tang | (参考訳) 需要対応(dr)は、将来のグリッドにおける重要なエネルギー資源の1つであり、ピークシェービングのサービスを提供し、短い応答期間と低コストで再生可能エネルギー利用の効率を向上させる。
自動DR、インセンティブDR、緊急DR、需要入札など、さまざまなカテゴリーのDRが確立されている。
しかし、住宅・商業消費者のユーティリティモデルの無意識が現実的な問題となっていることから、電力市場に関わる需要入札アグリゲータに関する研究はごく初期段階にある。
この問題に関して、入札価格と入札金額は、市場と参加者による不確実性を考慮して、2つの必要な決定変数である。
本稿では,スマートメータのデータと機能を用いて,入札と購入の戦略を同時に決定する。
過去の入札経験を学習することで決定を最適化するために,2エージェントの深い決定論的政策勾配法を開発した。
オンライン学習は、トレンドトレースと自己適応を保証するために、日々の最新の入札体験をさらに活用する。
2つの環境シミュレータを用いてモデルの堅牢性を検証する。
その結果、多様な状況に直面した場合、提案モデルは入札ルールをオフライン/オンライン学習し、適切な入札を行うことによって最適な利益を得ることができる。 Demand response (DR), as one of the important energy resources in the future's grid, provides the services of peak shaving, enhancing the efficiency of renewable energy utilization with a short response period, and low cost. Various categories of DR are established, e.g. automated DR, incentive DR, emergency DR, and demand bidding. However, with the practical issue of the unawareness of residential and commercial consumers' utility models, the researches about demand bidding aggregator involved in the electricity market are just at the beginning stage. For this issue, the bidding price and bidding quantity are two required decision variables while considering the uncertainties due to the market and participants. In this paper, we determine the bidding and purchasing strategy simultaneously employing the smart meter data and functions. A two-agent deep deterministic policy gradient method is developed to optimize the decisions through learning historical bidding experiences. The online learning further utilizes the daily newest bidding experience attained to ensure trend tracing and self-adaptation. Two environment simulators are adopted for testifying the robustness of the model. The results prove that when facing diverse situations the proposed model can earn the optimal profit via off/online learning the bidding rules and robustly making the proper bid. | 翻訳日:2022-02-11 00:57:10 公開日:2022-02-09 |
# (参考訳) マルチスケール時空間アプローチによるスモールホルダー灌水検出法 A multiscale spatiotemporal approach for smallholder irrigation detection ( http://arxiv.org/abs/2202.04239v1 ) ライセンス: CC BY 4.0 | Terence Conlon, Christopher Small, Vijay Modi | (参考訳) 本稿では,植生の多元的衛星画像を利用した灌水検出手法を提案する際に,限定的な土壌標識を補足し,関心領域における分類器の適用性を確保する手法を提案する。
MODIS 250m Enhanced Vegetation Index (EVI) の時空間的分析は, 地域規模の植生現象を特徴付け, 農業における補助的ラベル収集を誘導する連続表現学マップの基盤を提供する。
その後、10mSentinel-2画像で観察された乾季の緑化と老化サイクルを使用して、スモールホルダー灌水の自動検出のための分類器群を訓練する。
モデルロバスト性を改善するための戦略として、トレーニングサンプルをランダムにシフトするデータ拡張法や、保持されていない対象領域で最高のパフォーマンスを示す分類器タイプの評価がある。
この手法はエチオピアのハイランズであるtigrayとamharaの2州で小規模の灌水を検出するのに応用されている。
その結果,トランスフォーマーをベースとしたニューラルネットワークアーキテクチャは,非保持領域において最も堅牢な予測性能を実現し,その後にCatBoostランダムフォレストモデルが近づいた。
埋蔵地調査ラベルが保持されている以上、トランスフォーマーベースのモデルでは、非灌水サンプルの96.7%、灌水サンプルの95.9%の精度が達成されている。
導入されたラベル補足法によって独立に収集された標本群より大きい範囲において、非灌流ラベルと灌流ラベルはそれぞれ98.3%と95.5%の精度で予測される。
検出モデルは、TigrayとAmharaの上に展開され、作物の回転パターンと年々灌水された地域の変化を明らかにする。
2020年から2021年にかけて、これら2つの州の灌水面積は約40%減少したと予測されている。 In presenting an irrigation detection methodology that leverages multiscale satellite imagery of vegetation abundance, this paper introduces a process to supplement limited ground-collected labels and ensure classifier applicability in an area of interest. Spatiotemporal analysis of MODIS 250m Enhanced Vegetation Index (EVI) timeseries characterizes native vegetation phenologies at regional scale to provide the basis for a continuous phenology map that guides supplementary label collection over irrigated and non-irrigated agriculture. Subsequently, validated dry season greening and senescence cycles observed in 10m Sentinel-2 imagery are used to train a suite of classifiers for automated detection of potential smallholder irrigation. Strategies to improve model robustness are demonstrated, including a method of data augmentation that randomly shifts training samples; and an assessment of classifier types that produce the best performance in withheld target regions. The methodology is applied to detect smallholder irrigation in two states in the Ethiopian highlands, Tigray and Amhara. Results show that a transformer-based neural network architecture allows for the most robust prediction performance in withheld regions, followed closely by a CatBoost random forest model. Over withheld ground-collection survey labels, the transformer-based model achieves 96.7% accuracy over non-irrigated samples and 95.9% accuracy over irrigated samples. Over a larger set of samples independently collected via the introduced method of label supplementation, non-irrigated and irrigated labels are predicted with 98.3% and 95.5% accuracy, respectively. The detection model is then deployed over Tigray and Amhara, revealing crop rotation patterns and year-over-year irrigated area change. Predictions suggest that irrigated area in these two states has decreased by approximately 40% from 2020 to 2021. | 翻訳日:2022-02-11 00:56:16 公開日:2022-02-09 |
# (参考訳) 不確実性スケール距離をもつアクティブラーニングのための欲望コアセット構成の改善 Improving greedy core-set configurations for active learning with uncertainty-scaled distances ( http://arxiv.org/abs/2202.04251v1 ) ライセンス: CC BY 4.0 | Yuchen Li, Frank Rudzicz | (参考訳) 我々は,CIFAR10/100およびSVHN画像分類において,不確実性の要因と低信頼度構成の探索により,コアセットアルゴリズムの知覚距離を拡大し,サンプル効率を著しく向上させた。
我々は,モデルの不確かさと誤分類の関係を前提に,コアセット損失の収束における確率的二次速度アップによる改善の理由を説明する。 We scale perceived distances of the core-set algorithm by a factor of uncertainty and search for low-confidence configurations, finding significant improvements in sample efficiency across CIFAR10/100 and SVHN image classification, especially in larger acquisition sizes. We show the necessity of our modifications and explain how the improvement is due to a probabilistic quadratic speed-up in the convergence of core-set loss, under assumptions about the relationship of model uncertainty and misclassification. | 翻訳日:2022-02-11 00:54:56 公開日:2022-02-09 |
# (参考訳) GiraffeDet:オブジェクト検出のためのヘビーネックパラダイム GiraffeDet: A Heavy-Neck Paradigm for Object Detection ( http://arxiv.org/abs/2202.04256v1 ) ライセンス: CC BY 4.0 | Yiqi Jiang, Zhiyu Tan, Junyan Wang, Xiuyu Sun, Ming Lin, Hao Li | (参考訳) 従来のオブジェクト検出フレームワークでは、画像認識モデルから継承されたバックボーン本体が深い潜伏特徴を抽出し、ネックモジュールがこれらの潜伏特徴を融合して異なるスケールで情報をキャプチャする。
物体検出の解像度は画像認識よりもはるかに大きいため、バックボーンの計算コストが総推論コストを支配することがしばしばある。
このヘビーバックボーン設計パラダイムは、画像認識モデルをエンドツーエンドのオブジェクト検出に最適化された設計ではなく、オブジェクト検出に転送する歴史的レガシーに起因する。
そこで本研究では,そのようなパラダイムが,オブジェクト検出の準最適モデルにつながることを示す。
そこで本研究では,高速物体検出のためのキリン様ネットワークであるGiraffeDetを提案する。
GiraffeDetは、非常に軽量なバックボーンと非常に深くて大きなネックモジュールを使用し、異なる空間スケール間の密な情報交換と、異なる遅延セマンティクスのレベルを同時に促進する。
この設計パラダイムにより、検出器はネットワークの初期段階でも、高レベル意味情報と低レベル空間情報を同時に優先的に処理することができ、検出タスクにおいてより効果的になる。
複数の人気オブジェクト検出ベンチマークの数値評価により、GiraffeDetはリソース制約の幅広い範囲にわたって、従来のSOTAモデルよりも一貫して優れていることが示されている。 In conventional object detection frameworks, a backbone body inherited from image recognition models extracts deep latent features and then a neck module fuses these latent features to capture information at different scales. As the resolution in object detection is much larger than in image recognition, the computational cost of the backbone often dominates the total inference cost. This heavy-backbone design paradigm is mostly due to the historical legacy when transferring image recognition models to object detection rather than an end-to-end optimized design for object detection. In this work, we show that such paradigm indeed leads to sub-optimal object detection models. To this end, we propose a novel heavy-neck paradigm, GiraffeDet, a giraffe-like network for efficient object detection. The GiraffeDet uses an extremely lightweight backbone and a very deep and large neck module which encourages dense information exchange among different spatial scales as well as different levels of latent semantics simultaneously. This design paradigm allows detectors to process the high-level semantic information and low-level spatial information at the same priority even in the early stage of the network, making it more effective in detection tasks. Numerical evaluations on multiple popular object detection benchmarks show that GiraffeDet consistently outperforms previous SOTA models across a wide spectrum of resource constraints. | 翻訳日:2022-02-11 00:39:58 公開日:2022-02-09 |
# (参考訳) icassp 2022多チャンネル多人数会議転写チャレンジのためのvolcspeechシステム The volcspeech system for the icassp 2022 multi-channel multi-party meeting transcription challenge ( http://arxiv.org/abs/2202.04261v1 ) ライセンス: CC BY 4.0 | Chen Shen, Yi Liu, Wenzhi Fan, Bin Wang, Shixue Wen, Yao Tian, Jun Zhang, Jingsheng Yang, Zejun Ma | (参考訳) 本稿ではICASSP 2022 Multi-channel Multi-party Meeting Transcription (M2MeT) Challengeについて述べる。
トラック1では,クラスタリングに基づく話者ダイアリゼーションシステムに重なり合う音声を扱うためのいくつかのアプローチを提案する。
話者ダイアリゼーションの精度を向上させるために、フロントエンドのデバーベレーションとDOA推定を用いる。
複数チャネルの組み合わせと重複検出を適用し、話者誤りを低減させる。
異なるシステムの結果を融合させるために、修正されたDOVER-Lapも提案されている。
Evalセットで5.79%、Testセットで7.23%の最終DERを達成しました。
トラック2では,コンバータモデルを用いた共同CTCアテンションアーキテクチャを用いたシステムを開発した。
複数話者重複音声認識には直列化出力訓練が適用される。
本稿では,マルチチャネル音声をモデル化し,モデルエンドツーエンドをトレーニングするためのニューラルネットワークフロントエンドモジュールを提案する。
マルチチャネルマルチスピーカE2Eシステムにおけるオーバーフィッティングを軽減するために,様々なデータ拡張手法が用いられている。
トランスフォーマー言語モデル融合は、よりよい性能を達成するために開発されている。
最後のCERはEvalセットで19.2%、Testセットで20.8%である。 This paper describes our submission to ICASSP 2022 Multi-channel Multi-party Meeting Transcription (M2MeT) Challenge. For Track 1, we propose several approaches to empower the clustering-based speaker diarization system to handle overlapped speech. Front-end dereverberation and the direction-of-arrival (DOA) estimation are used to improve the accuracy of speaker diarization. Multi-channel combination and overlap detection are applied to reduce the missed speaker error. A modified DOVER-Lap is also proposed to fuse the results of different systems. We achieve the final DER of 5.79% on the Eval set and 7.23% on the Test set. For Track 2, we develop our system using the Conformer model in a joint CTC-attention architecture. Serialized output training is adopted to multi-speaker overlapped speech recognition. We propose a neural front-end module to model multi-channel audio and train the model end-to-end. Various data augmentation methods are utilized to mitigate over-fitting in the multi-channel multi-speaker E2E system. Transformer language model fusion is developed to achieve better performance. The final CER is 19.2% on the Eval set and 20.8% on the Test set. | 翻訳日:2022-02-11 00:08:00 公開日:2022-02-09 |
# (参考訳) 制約付き確率的多レベル合成最適化のための投影なしアルゴリズム A Projection-free Algorithm for Constrained Stochastic Multi-level Composition Optimization ( http://arxiv.org/abs/2202.04296v1 ) ライセンス: CC BY 4.0 | Tesi Xiao, Krishnakumar Balasubramanian, Saeed Ghadimi | (参考訳) 本稿では,目的関数が$t$関数のネスト合成であり,制約集合が閉凸集合であるような,滑らかな確率的多レベル合成最適化のための投影自由条件勾配型アルゴリズムを提案する。
本アルゴリズムは,特定の標準的不偏性および第二モーメントの仮定を満たす確率的一階オラクルを通して,関数とその勾配の雑音評価へのアクセスを仮定する。
確率的一階オラクルへの呼び出し数と、提案アルゴリズムが要求する線形最小化オラクルが、$\epsilon$-stationary Solutionを得るために、それぞれ$\mathcal{O}_T(\epsilon^{-2})$と$\mathcal{O}_T(\epsilon^{-3})$と$\mathcal{O}_T(\epsilon^{-3})$の順に、$\mathcal{O}_T$が$T$の定数を隠蔽することを示す。
特に、これらの複雑性の依存は、$\epsilon$ と $T$ 上の有界であり、一方を変更することは他方の有界の依存に影響を与えない。
さらに, このアルゴリズムはパラメータフリーであり, 確率的条件付き勾配型アルゴリズムの解析における一般的な手法とは異なり, ミニバッチの順序が収束する必要はない。 We propose a projection-free conditional gradient-type algorithm for smooth stochastic multi-level composition optimization, where the objective function is a nested composition of $T$ functions and the constraint set is a closed convex set. Our algorithm assumes access to noisy evaluations of the functions and their gradients, through a stochastic first-order oracle satisfying certain standard unbiasedness and second moment assumptions. We show that the number of calls to the stochastic first-order oracle and the linear-minimization oracle required by the proposed algorithm, to obtain an $\epsilon$-stationary solution, are of order $\mathcal{O}_T(\epsilon^{-2})$ and $\mathcal{O}_T(\epsilon^{-3})$ respectively, where $\mathcal{O}_T$ hides constants in $T$. Notably, the dependence of these complexity bounds on $\epsilon$ and $T$ are separate in the sense that changing one does not impact the dependence of the bounds on the other. Moreover, our algorithm is parameter-free and does not require any (increasing) order of mini-batches to converge unlike the common practice in the analysis of stochastic conditional gradient-type algorithms. | 翻訳日:2022-02-10 23:56:12 公開日:2022-02-09 |
# (参考訳) 深層学習によるログベース異常検出:どこまで遠いのか? Log-based Anomaly Detection with Deep Learning: How Far Are We? ( http://arxiv.org/abs/2202.04301v1 ) ライセンス: CC BY 4.0 | Van Hoang Le and Hongyu Zhang | (参考訳) ソフトウェア集約システムはトラブルシューティングのためにログを生成する。
近年,ログデータに基づいてシステム異常を自動的に検出する深層学習モデルが多数提案されている。
これらのモデルは通常、非常に高い検出精度を主張する。
例えば、ほとんどのモデルでは、一般的なhdfsデータセットで0.9以上のf-measureを報告している。
本稿では,4つの公開ログデータセット上でシステム異常を検出するための5つの最先端ディープラーニングモデルについて,ログに基づく異常検出の問題点を深く解析する。
実験では,トレーニングデータ選択,データグループ化,クラス分散,データノイズ,早期検出能力など,モデル評価のいくつかの側面に注目した。
以上の結果から,これらすべての側面が評価に重大な影響を及ぼし,研究対象のモデルが必ずしもうまく動作しないことがわかった。
ログベースの異常検出の問題はまだ解決されていない。
また,今後の研究の可能性も示唆した。 Software-intensive systems produce logs for troubleshooting purposes. Recently, many deep learning models have been proposed to automatically detect system anomalies based on log data. These models typically claim very high detection accuracy. For example, most models report an F-measure greater than 0.9 on the commonly-used HDFS dataset. To achieve a profound understanding of how far we are from solving the problem of log-based anomaly detection, in this paper, we conduct an in-depth analysis of five state-of-the-art deep learning-based models for detecting system anomalies on four public log datasets. Our experiments focus on several aspects of model evaluation, including training data selection, data grouping, class distribution, data noise, and early detection ability. Our results point out that all these aspects have significant impact on the evaluation, and that all the studied models do not always work well. The problem of log-based anomaly detection has not been solved yet. Based on our findings, we also suggest possible future work. | 翻訳日:2022-02-10 23:20:51 公開日:2022-02-09 |
# (参考訳) tinym$^2$net: 小型デバイスのためのフレキシブルシステムアルゴリズム共設計マルチモーダル学習フレームワーク TinyM$^2$Net: A Flexible System Algorithm Co-designed Multimodal Learning Framework for Tiny Devices ( http://arxiv.org/abs/2202.04303v1 ) ライセンス: CC BY 4.0 | Hasib-Al Rashid, Pretom Roy Ovi, Aryya Gangopadhyay, Tinoosh Mohsenin | (参考訳) AI(Artificial Intelligence)の出現により、リソースに制約のある小さなデバイスにAIアルゴリズムを実装することで、IoTのアプリケーションドメインを拡大する新たな注目を集めている。
マルチモーダル学習は,画像と音声の両方のイベント分類における印象的な性能のため,最近,その分類タスクで非常に人気がある。
本稿では,資源制約型小型デバイスのためのフレキシブルシステムアルゴリズムによるマルチモーダル学習フレームワークであるtinym$^2$netを提案する。
このフレームワークは、マルチモーダルオーディオ記録からのcovid-19検出と、マルチモーダルイメージとオーディオからのバトルフィールドオブジェクト検出の2つの異なるケーススタディで評価されるように設計されている。
モデルを圧縮して小さなデバイスに実装するために、ネットワークアーキテクチャの最適化と混合精度の量子化を行った(8ビットと4ビットの混合)。
TinyM$^2$Netは、小さなマルチモーダル学習モデルでさえ、任意の非モーダルフレームワークよりも分類性能を向上させることができることを示している。
最も圧縮されたTinyM$^2$Net は 88.4% の COVID-19 検出精度 (ユニモーダルベースモデルより14.5% 改善) と96.8\% の戦場物体検出精度 (3.9% 改善)を達成している。
最後に、我々はraspberry pi 4上で小さな^2$netモデルをテストし、リソースが制約された小さなデバイスにデプロイされたときにどのように機能するかを確認します。 With the emergence of Artificial Intelligence (AI), new attention has been given to implement AI algorithms on resource constrained tiny devices to expand the application domain of IoT. Multimodal Learning has recently become very popular with the classification task due to its impressive performance for both image and audio event classification. This paper presents TinyM$^2$Net -- a flexible system algorithm co-designed multimodal learning framework for resource constrained tiny devices. The framework was designed to be evaluated on two different case-studies: COVID-19 detection from multimodal audio recordings and battle field object detection from multimodal images and audios. In order to compress the model to implement on tiny devices, substantial network architecture optimization and mixed precision quantization were performed (mixed 8-bit and 4-bit). TinyM$^2$Net shows that even a tiny multimodal learning model can improve the classification performance than that of any unimodal frameworks. The most compressed TinyM$^2$Net achieves 88.4% COVID-19 detection accuracy (14.5% improvement from unimodal base model) and 96.8\% battle field object detection accuracy (3.9% improvement from unimodal base model). Finally, we test our TinyM$^2$Net models on a Raspberry Pi 4 to see how they perform when deployed to a resource constrained tiny device. | 翻訳日:2022-02-10 23:00:06 公開日:2022-02-09 |
# (参考訳) オープンドメイン問合せシステムは視覚的知識問合せに答えられるか? Can Open Domain Question Answering Systems Answer Visual Knowledge Questions? ( http://arxiv.org/abs/2202.04306v1 ) ライセンス: CC BY 4.0 | Jiawen Zhang, Abhijit Mishra, Avinesh P.V.S, Siddharth Patwardhan and Sachin Agarwal | (参考訳) 外部知識ビジュアル質問回答(OKVQA)のタスクは、外部知識を用いて画像や画像に関する自然言語質問に答える自動システムを必要とする。
画像中のエンティティを参照する難解な参照句を含む多くの視覚的質問は、"非接地的"な質問として書き直され、既存のテキストベースの質問応答システムによって答えられる。
これにより、視覚的質問応答のための既存のテキストベースのOpen Domain Question Answering (QA) システムの再利用が可能になる。
本研究では,既存のシステムを再利用する潜在的データ効率のアプローチを提案する。
(a)画像解析
(b)質問の書き直し、及び
(c)このような視覚的質問に回答するテキストベースの質問。
その画像(視覚的質問)に関する画像と疑問が与えられた場合、事前に訓練されたオブジェクトとシーン分類器を用いて、まず画像に存在するエンティティを抽出する。
これらの検出されたエンティティを使用して、視覚的な質問をオープンドメインQAシステムで答えられるように書き換えることができる。
本研究では,(1)マスキングとリライトのためのBERTを用いた教師なし手法,(2)適応的リライトと強化学習技術を組み合わせてQAシステムからの暗黙的なフィードバックを利用する弱教師付き手法について検討する。
我々は、利用可能なOKVQAデータセットで戦略を検証し、トレーニングデータの10%しか使用せず、最先端のモデルとの競合性能を得る。 The task of Outside Knowledge Visual Question Answering (OKVQA) requires an automatic system to answer natural language questions about pictures and images using external knowledge. We observe that many visual questions, which contain deictic referential phrases referring to entities in the image, can be rewritten as "non-grounded" questions and can be answered by existing text-based question answering systems. This allows for the reuse of existing text-based Open Domain Question Answering (QA) Systems for visual question answering. In this work, we propose a potentially data-efficient approach that reuses existing systems for (a) image analysis, (b) question rewriting, and (c) text-based question answering to answer such visual questions. Given an image and a question pertaining to that image (a visual question), we first extract the entities present in the image using pre-trained object and scene classifiers. Using these detected entities, the visual questions can be rewritten so as to be answerable by open domain QA systems. We explore two rewriting strategies: (1) an unsupervised method using BERT for masking and rewriting, and (2) a weakly supervised approach that combines adaptive rewriting and reinforcement learning techniques to use the implicit feedback from the QA system. We test our strategies on the publicly available OKVQA dataset and obtain a competitive performance with state-of-the-art models while using only 10% of the training data. | 翻訳日:2022-02-10 22:47:37 公開日:2022-02-09 |
# (参考訳) ARIBA:フェデレートラーニングにおけるバックドア攻撃の精度とロバスト同定を目指して ARIBA: Towards Accurate and Robust Identification of Backdoor Attacks in Federated Learning ( http://arxiv.org/abs/2202.04311v1 ) ライセンス: CC BY 4.0 | Yuxi Mi, Jihong Guan and Shuigeng Zhou | (参考訳) フェデレーション学習の分散性とプライバシ保護特性は、毒殺攻撃、特にバックドア攻撃の脅威になりがちである。
本稿では,フェデレート学習におけるバックドア攻撃を正確かつ確実に識別する新しい手法ARIBAを提案する。
実験により,cnn層のフィルタによってバックドア攻撃が識別可能であることを観察した。
この結果に基づき,事前処理されたフィルタを評価するために教師なし異常検出を行い,クライアント毎の異常スコアを算出した。
そして、最も疑わしい顧客を、異常なスコアで特定します。
ARIBA法は, モデル性能を劣化させることなく, 複数の攻撃に対して効果的かつ堅牢に防御可能であることを示す。 The distributed nature and privacy-preserving characteristics of federated learning make it prone to the threat of poisoning attacks, especially backdoor attacks, where the adversary implants backdoors to misguide the model on certain attacker-chosen sub-tasks. In this paper, we present a novel method ARIBA to accurately and robustly identify backdoor attacks in federated learning. By empirical study, we observe that backdoor attacks are discernible by the filters of CNN layers. Based on this finding, we employ unsupervised anomaly detection to evaluate the pre-processed filters and calculate an anomaly score for each client. We then identify the most suspicious clients according to their anomaly scores. Extensive experiments are conducted, which show that our method ARIBA can effectively and robustly defend against multiple state-of-the-art attacks without degrading model performance. | 翻訳日:2022-02-10 22:35:13 公開日:2022-02-09 |
# (参考訳) pNLP-Mixer: 言語のための効率的なオールMLPアーキテクチャ pNLP-Mixer: an Efficient all-MLP Architecture for Language ( http://arxiv.org/abs/2202.04350v1 ) ライセンス: CC BY 4.0 | Francesco Fusco, Damian Pascual, Peter Staar | (参考訳) 大きな事前学習された言語モデルは自然言語処理(nlp)の状況を大きく変えた。
現在では、アノテーションの数も限られていても、多様なnlpタスクに取り組むためのgo-toフレームワークを表しています。
しかし、これらのモデルを実運用で使用する場合、クラウドでもエッジでも、メモリフットプリントや推論コストのため、依然として課題である。
代替として、効率の良いNLPに関する最近の研究は、小さな重量効率のモデルが、わずかなコストで競争性能に達することを示した。
本稿では,MLP-Mixerアーキテクチャに基づく組込み自由モデルであるpNLP-Mixerを紹介する。
MTOPとMultiATISという2つの多言語意味解析データセットを用いて,本モデルの評価を行った。
MTOPでは、pNLP-Mixerは38倍のパラメータを持つmBERTのパフォーマンスとほぼ一致し、3倍のパラメータを持つ小さなモデル(pQRNN)の最先端性能よりも優れています。
長いシーケンス分類タスク(Hyperpartisan)では、100倍以上のパラメータを持つRoBERTaを事前訓練することなく、pNLP-Mixerを使用できます。 Large pre-trained language models drastically changed the natural language processing(NLP) landscape. Nowadays, they represent the go-to framework to tackle diverse NLP tasks, even with a limited number of annotations. However, using those models in production, either in the cloud or at the edge, remains a challenge due to the memory footprint and/or inference costs. As an alternative, recent work on efficient NLP has shown that small weight-efficient models can reach competitive performance at a fraction of the costs. Here, we introduce pNLP-Mixer, an embbedding-free model based on the MLP-Mixer architecture that achieves high weight-efficiency thanks to a novel linguistically informed projection layer. We evaluate our model on two multi-lingual semantic parsing datasets, MTOP and multiATIS. On MTOP our pNLP-Mixer almost matches the performance of mBERT, which has 38 times more parameters, and outperforms the state-of-the-art of tiny models (pQRNN) with 3 times fewer parameters. On a long-sequence classification task (Hyperpartisan) our pNLP-Mixer without pretraining outperforms RoBERTa, which has 100 times more parameters, demonstrating the potential of this architecture. | 翻訳日:2022-02-10 22:22:20 公開日:2022-02-09 |
# (参考訳) 一般化戦略分類とアライメントインセンティブの事例 Generalized Strategic Classification and the Case of Aligned Incentives ( http://arxiv.org/abs/2202.04357v1 ) ライセンス: CC BY 4.0 | Sagi Levanon and Nir Rosenfeld | (参考訳) 述語機械学習モデルは、企業や機関、組織が人間の選択に頻繁に使われている。
戦略的分類研究 自己関心のあるユーザが自身の機能を戦略的に修正して、望ましい予測結果を得ることができる設定で学習する。
しかし、重要な仕事の前提は、常に「好ましくない」とは「肯定的」という意味であり、これはいくつかのアプリケーション(例えば、ローン承認、大学入学、雇用など)に当てはまるが、ユーザーの興味がどんなものかというかなり狭い見方に還元される。
本研究では,戦略的ユーザ行動に対する説明について,より広い視点から議論し,汎用的戦略的分類の柔軟なモデルを提案し,検討する。
一般化されたモデルでは、現在のモデルの大半を仮定するが、他の新しい設定も含んでいる。
この協調的な設定のために,我々は詳細な分析を行い,効果的かつ効率的な実践的な学習手法を提案する。
既存の学習手法と比較し、その統計的および最適化の利点を示す。
完全に一般化したモデルに戻ると、結果とアプローチが最も一般的なケースにどのように拡張できるかを示します。
我々は、我々のアプローチの有用性を実証的に示す一連の実験で結論付けた。 Predicative machine learning models are frequently being used by companies, institutes and organizations to make choices about humans. Strategic classification studies learning in settings where self-interested users can strategically modify their features to obtain favorable predictive outcomes. A key working assumption, however, is that 'favorable' always means 'positive'; this may be appropriate in some applications (e.g., loan approval, university admissions and hiring), but reduces to a fairly narrow view what user interests can be. In this work we argue for a broader perspective on what accounts for strategic user behavior, and propose and study a flexible model of generalized strategic classification. Our generalized model subsumes most current models, but includes other novel settings; among these, we identify and target one intriguing sub-class of problems in which the interests of users and the system are aligned. For this cooperative setting, we provide an in-depth analysis, and propose a practical learning approach that is effective and efficient. We compare our approach to existing learning methods and show its statistical and optimization benefits. Returning to our fully generalized model, we show how our results and approach can extend to the most general case. We conclude with a set of experiments that empirically demonstrate the utility of our approach. | 翻訳日:2022-02-10 22:04:36 公開日:2022-02-09 |
# (参考訳) 分類の新しい展望:不確かなタスクに限られた資源を最適に割り当てる A new perspective on classification: optimally allocating limited resources to uncertain tasks ( http://arxiv.org/abs/2202.04369v1 ) ライセンス: CC BY 4.0 | Toon Vanderschueren, Bart Baesens, Tim Verdonck, and Wouter Verbeke | (参考訳) ビジネスにおける中心的な問題は、限られたリソースを利用可能な一連のタスクに最適に割り当てることであり、これらのタスクの支払いは本質的に不確実である。
例えば、クレジットカード詐欺検出では、銀行は不正捜査チームにほんの一部しか取引を割り当てることができない。
典型的には、このような問題は分類フレームワークを使って解決され、一連の特徴からタスクの結果を予測することに焦点が当てられる。
リソースは、最も成功する可能性が高いと予測されたタスクに割り当てられる。
しかし,タスクの不確実性に対処するために分類を使うことは,利用可能な能力を考慮していないため,本質的に最適ではない。
そこで我々はまず,この問題を代入問題の一種として捉えた。
次に, 限定的確率的能力が与えられた場合, 割当の期待利益を直接最適化することでランク付けを学習することにより, 新たな解を提案する。
これは、学習において一般的に使用されるメトリクスのクラスである、純割引累積ゲインの特定のインスタンスを最適化することで達成される。
実証的に,本手法は,様々な応用分野やデータセットの分類手法と比較して,高い期待利益と期待精度を達成できることを実証する。
これは統合アプローチの利点を示し、予測モデルを学ぶ際に利用可能なリソースを明確に考慮する。 A central problem in business concerns the optimal allocation of limited resources to a set of available tasks, where the payoff of these tasks is inherently uncertain. In credit card fraud detection, for instance, a bank can only assign a small subset of transactions to their fraud investigations team. Typically, such problems are solved using a classification framework, where the focus is on predicting task outcomes given a set of characteristics. Resources are then allocated to the tasks that are predicted to be the most likely to succeed. However, we argue that using classification to address task uncertainty is inherently suboptimal as it does not take into account the available capacity. Therefore, we first frame the problem as a type of assignment problem. Then, we present a novel solution using learning to rank by directly optimizing the assignment's expected profit given limited, stochastic capacity. This is achieved by optimizing a specific instance of the net discounted cumulative gain, a commonly used class of metrics in learning to rank. Empirically, we demonstrate that our new method achieves higher expected profit and expected precision compared to a classification approach for a wide variety of application areas and data sets. This illustrates the benefit of an integrated approach and of explicitly considering the available resources when learning a predictive model. | 翻訳日:2022-02-10 21:19:38 公開日:2022-02-09 |
# (参考訳) 不規則畳み込みニューラルネットワークによる短期自転車共有需要予測の改善 Improving short-term bike sharing demand forecast through an irregular convolutional neural network ( http://arxiv.org/abs/2202.04376v1 ) ライセンス: CC BY 4.0 | Xinyu Li, Yang Xu, Xiaohu Zhang, Wenzhong Shi, Yang Yue, Qingquan Li | (参考訳) 自転車シェアリングシステム管理における重要な課題として,旅行需要の正確な予測は,利用者の満足度を向上させるために自転車の派遣・移転を容易にする。
近年,自転車利用予測を改善するために,ディープラーニングアルゴリズムが数多く導入されている。
典型的なプラクティスは、コンボリューショナル(CNN)とリカレントニューラルネットワーク(RNN)を統合して、歴史的旅行需要における空間的時間的依存を捉えることである。
典型的なcnnでは、畳み込み操作は「マトリックスフォーマット」都市を横断するカーネルを通して行われ、隣接する都市部で特徴を抽出する。
このプラクティスは、互いに近い領域が予測精度を向上させる有用な情報を提供できると仮定する。
しかし,環境特性の空間的変化や自転車活動に影響を及ぼす旅行行動を考えると,近隣地域の自転車利用は必ずしも類似しているとは限らない。
しかし、はるかに離れた領域は、時間的利用パターンにおいて比較的よく似ている。
本研究は,これら遠隔都市間における隠れた連携を利用するために,不規則畳み込み型長期記憶モデル(irconv+lstm)を提案し,短期自転車シェアリング需要予測を改善する。
このモデルは従来のcnnを不規則な畳み込みアーキテクチャで修正し、"semantic neighbors"間の依存関係を抽出する。
提案モデルは,シンガポールのドックレス自転車シェアリングシステムと,シカゴ,ワシントンD.C.,ニューヨーク,ロンドンにある4つのステーションベースシステムを含む5つの調査サイトでベンチマークモデルを用いて評価された。
IrConv+LSTMは5つの都市で他のベンチマークモデルよりも優れています。
このモデルは、自転車使用量やピーク期間の異なる地域でも優れた性能を発揮する。
その結果,都市における自転車シェアリングシステムの短期的な移動需要予測をさらに改善できることが示唆された。 As an important task for the management of bike sharing systems, accurate forecast of travel demand could facilitate dispatch and relocation of bicycles to improve user satisfaction. In recent years, many deep learning algorithms have been introduced to improve bicycle usage forecast. A typical practice is to integrate convolutional (CNN) and recurrent neural network (RNN) to capture spatial-temporal dependency in historical travel demand. For typical CNN, the convolution operation is conducted through a kernel that moves across a "matrix-format" city to extract features over spatially adjacent urban areas. This practice assumes that areas close to each other could provide useful information that improves prediction accuracy. However, bicycle usage in neighboring areas might not always be similar, given spatial variations in built environment characteristics and travel behavior that affect cycling activities. Yet, areas that are far apart can be relatively more similar in temporal usage patterns. To utilize the hidden linkage among these distant urban areas, the study proposes an irregular convolutional Long-Short Term Memory model (IrConv+LSTM) to improve short-term bike sharing demand forecast. The model modifies traditional CNN with irregular convolutional architecture to extract dependency among "semantic neighbors". The proposed model is evaluated with a set of benchmark models in five study sites, which include one dockless bike sharing system in Singapore, and four station-based systems in Chicago, Washington, D.C., New York, and London. We find that IrConv+LSTM outperforms other benchmark models in the five cities. The model also achieves superior performance in areas with varying levels of bicycle usage and during peak periods. The findings suggest that "thinking beyond spatial neighbors" can further improve short-term travel demand prediction of urban bike sharing systems. | 翻訳日:2022-02-10 21:02:38 公開日:2022-02-09 |
# (参考訳) 生涯マルチエージェントパスフィンディングにおける経験の活用 Leveraging Experience in Lifelong Multi-Agent Pathfinding ( http://arxiv.org/abs/2202.04382v1 ) ライセンス: CC BY 4.0 | Nitzan Madar, Kiril Solovey and Oren Salzman | (参考訳) l-mapf(lifelong multi-agent path finding)では、エージェントのチームが、共有グラフ上でエージェントが訪問する複数の場所からなるタスクストリームを実行し、互いに衝突しないようにする。
L-MAPFは通常、ローリング・水平衝突分解(RHCR)アルゴリズムのように、各エージェントに割り当てられた1つのタスクで複数の連続的なMAPFクエリに分割することで取り組まれる。
したがって、あるクエリに対するソリューションは次のクエリに通知し、エージェントの開始位置とゴール位置に関して類似性をもたらし、あるクエリから次のクエリへの衝突をどのように解決する必要があるかを示す。
したがって、1つのMAPFクエリを解く経験は、次のMAPFクエリを高速化するために使用できる。
この直感にもかかわらず、現在のL-MAPFプランナーは連続するMAPFクエリをゼロから解決する。
本稿では,その構成するMAPFクエリの経験を生かしたexRHCRという,RHCRにインスパイアされた新しいアプローチを提案する。
特にexRHCRは、最先端MAPFソルバであるPBS(Preferity-Based Search)を新たに拡張している。
我々の拡張はexPBSと呼ばれ、以前のMAPFインスタンスでPBSが使用するエージェント間の優先順位で検索を温めることができます。
我々は、exRHCRがL-MAPFをRHCRよりも25%高速に解き、与えられた時間予算に対処できるエージェントの数を増やすことで、与えられたタスクストリームのスループットを最大で16%向上できることを示した。 In Lifelong Multi-Agent Path Finding (L-MAPF) a team of agents performs a stream of tasks consisting of multiple locations to be visited by the agents on a shared graph while avoiding collisions with one another. L-MAPF is typically tackled by partitioning it into multiple consecutive, and hence similar, "one-shot" MAPF queries with a single task assigned to each agent, as in the Rolling-Horizon Collision Resolution (RHCR) algorithm. Thus, a solution to one query informs the next query, which leads to similarity with respect to the agents' start and goal positions, and how collisions need to be resolved from one query to the next. Thus, experience from solving one MAPF query can potentially be used to speedup solving the next one. Despite this intuition, current L-MAPF planners solve consecutive MAPF queries from scratch. In this paper, we introduce a new RHCR-inspired approach called exRHCR, which exploits experience in its constituent MAPF queries. In particular, exRHCR employs a new extension of Priority-Based Search (PBS), a state-of-the-art MAPF solver. Our extension, called exPBS, allows to warm-start the search with the priorities between agents used by PBS in the previous MAPF instances. We demonstrate empirically that exRHCR solves L-MAPF up to 25% faster than RHCR, and allows to increase throughput for given task streams by as much as 3%-16% by increasing the number of agents we can cope with for a given time budget. | 翻訳日:2022-02-10 20:38:12 公開日:2022-02-09 |
# (参考訳) 相対エントロピー規則化による経験的リスク最小化:最適性と感度分析 Empirical Risk Minimization with Relative Entropy Regularization: Optimality and Sensitivity Analysis ( http://arxiv.org/abs/2202.04385v1 ) ライセンス: CC BY 4.0 | Samir M. Perlaza and Gaetan Bisson and I\~naki Esnaola and Alain Jean-Marie and Stefano Rini | (参考訳) 相対エントロピー正則化 (ERM-RER) による経験的リスク最小化問題の最適性と感度について, 基準が確率測度ではなくシグマ有限測度である場合について検討した。
この一般化は、モデルの集合に対する事前知識の組み入れにおいて、より大きな柔軟性を実現する。
この設定では、ERM-RER問題の解によって引き起こされる正規化パラメータ、基準尺度、リスク関数、および経験的リスクの相互作用を特徴付ける。
この特徴付けは、任意に小さな経験的リスクを任意に高い確率で達成する正規化パラメータの存在に必要な十分な条件を与える。
ERM-RER問題の解からの偏差に対する期待される経験的リスクの感度について検討した。
感度は、期待される経験的リスクの上限と下限を提供するために使用される。
さらに, モデルとデータセット間のラウタム情報の平方根によって, 感度の期待値が最大で一定の値に上限づけられていることが示唆された。 The optimality and sensitivity of the empirical risk minimization problem with relative entropy regularization (ERM-RER) are investigated for the case in which the reference is a sigma-finite measure instead of a probability measure. This generalization allows for a larger degree of flexibility in the incorporation of prior knowledge over the set of models. In this setting, the interplay of the regularization parameter, the reference measure, the risk function, and the empirical risk induced by the solution of the ERM-RER problem is characterized. This characterization yields necessary and sufficient conditions for the existence of a regularization parameter that achieves an arbitrarily small empirical risk with arbitrarily high probability. The sensitivity of the expected empirical risk to deviations from the solution of the ERM-RER problem is studied. The sensitivity is then used to provide upper and lower bounds on the expected empirical risk. Moreover, it is shown that the expectation of the sensitivity is upper bounded, up to a constant factor, by the square root of the lautum information between the models and the datasets. | 翻訳日:2022-02-10 20:19:59 公開日:2022-02-09 |
# (参考訳) ベイズニューラルネットワークのためのモデルアーキテクチャ適応 Model Architecture Adaption for Bayesian Neural Networks ( http://arxiv.org/abs/2202.04392v1 ) ライセンス: CC BY 4.0 | Duo Wang, Yiren Zhao, Ilia Shumailov, Robert Mullins | (参考訳) Bayesian Neural Networks (BNN) は、モデル予測の不確実性を定量化する数学的基盤を持つフレームワークを提供するが、トレーニングと推論の両方において計算コストが禁じられている。
本研究では,BNNを精度と不確実性の両方に最適化し,推論遅延を低減した新しいネットワークアーキテクチャ探索(NAS)を提案する。
分布内確率のみを最適化する標準NASとは異なり,提案手法は分布内データと分布外データの両方を用いて不確実性を探索する。
本手法は,ネットワーク内のベイズ層配置の正しい位置を探索することができる。
実験では, 最先端(深層アンサンブル)と比較して, 不確実な定量化能力と精度を示した。
さらに、検索されたモデルは、多くの一般的なbnnベースラインと比べてランタイムのほんの一部しか使用せず、mcdropoutとdeep ensembleと比較して、cifar10データセット上で推論ランタイムコストをそれぞれ2.98 \times$と2.92 \times$に削減した。 Bayesian Neural Networks (BNNs) offer a mathematically grounded framework to quantify the uncertainty of model predictions but come with a prohibitive computation cost for both training and inference. In this work, we show a novel network architecture search (NAS) that optimizes BNNs for both accuracy and uncertainty while having a reduced inference latency. Different from canonical NAS that optimizes solely for in-distribution likelihood, the proposed scheme searches for the uncertainty performance using both in- and out-of-distribution data. Our method is able to search for the correct placement of Bayesian layer(s) in a network. In our experiments, the searched models show comparable uncertainty quantification ability and accuracy compared to the state-of-the-art (deep ensemble). In addition, the searched models use only a fraction of the runtime compared to many popular BNN baselines, reducing the inference runtime cost by $2.98 \times$ and $2.92 \times$ respectively on the CIFAR10 dataset when compared to MCDropout and deep ensemble. | 翻訳日:2022-02-10 20:07:48 公開日:2022-02-09 |
# (参考訳) ニューロイメージングデータ解析のための機械学習に基づく仮説駆動手法 A hypothesis-driven method based on machine learning for neuroimaging data analysis ( http://arxiv.org/abs/2202.04397v1 ) ライセンス: CC BY 4.0 | JM Gorriz, R. Martin-Clemente, C.G. Puntonet, A. Ortiz, J. Ramirez and J. Suckling | (参考訳) サンプルやアクティベーション状態の間の脳画像の空間的パターンを識別するための機械学習(MLE)アプローチの有用性と解釈について、未解決の疑問が残る。
過去数十年間、これらのアプローチは、グループ間推論のための特徴抽出と線形分類タスクへの操作を制限してきた。
この文脈では、統計的推論は画像ラベルをランダムに置換したり、オブジェクト間の変動を考慮したランダム効果モデルを用いて評価される。
これらの多変量MLEに基づく統計パイプラインは、仮説駆動法よりも活性化を検出するのに効果的であるが、数学的エレガンス、解釈の容易さ、ユビキタス一般線形モデル(GLM)の空間的局所性を失った。
近年,設計行列を2進表示行列として表現する場合,従来のglmの推定と不定分類タスクとの接続が実証されている。
本稿では、単変量 GLM と MLE \emph{regressions} の完全接続について検討する。
本研究の目的は, 線形支援ベクトル回帰(SVR)により得られるパラメータに基づいて, GLM を用いた高度統計テスト(SVR-iGLM)を導出することである。
その後、従来のGLMベンチマークに従って統計的重要性を評価するためにランダム場理論(RFT)が用いられる。
実験結果は,各モデル(主にGLMとSVR)から導出されるパラメータ推定が,事前定義された機能的タスクに大きく関係する,異なる設計推定結果をもたらすことを示す。
さらに、マルチサイトイニシアチブの実データを用いて、提案するmleに基づく推論は、統計的パワーと偽陽性の制御を示し、正規glmを上回っている。 There remains an open question about the usefulness and the interpretation of Machine learning (MLE) approaches for discrimination of spatial patterns of brain images between samples or activation states. In the last few decades, these approaches have limited their operation to feature extraction and linear classification tasks for between-group inference. In this context, statistical inference is assessed by randomly permuting image labels or by the use of random effect models that consider between-subject variability. These multivariate MLE-based statistical pipelines, whilst potentially more effective for detecting activations than hypotheses-driven methods, have lost their mathematical elegance, ease of interpretation, and spatial localization of the ubiquitous General linear Model (GLM). Recently, the estimation of the conventional GLM has been demonstrated to be connected to an univariate classification task when the design matrix is expressed as a binary indicator matrix. In this paper we explore the complete connection between the univariate GLM and MLE \emph{regressions}. To this purpose we derive a refined statistical test with the GLM based on the parameters obtained by a linear Support Vector Regression (SVR) in the \emph{inverse} problem (SVR-iGLM). Subsequently, random field theory (RFT) is employed for assessing statistical significance following a conventional GLM benchmark. Experimental results demonstrate how parameter estimations derived from each model (mainly GLM and SVR) result in different experimental design estimates that are significantly related to the predefined functional task. Moreover, using real data from a multisite initiative the proposed MLE-based inference demonstrates statistical power and the control of false positives, outperforming the regular GLM. | 翻訳日:2022-02-10 19:52:37 公開日:2022-02-09 |
# (参考訳) 異論に同意する - 異論による多様性の転換可能性向上 Agree to Disagree: Diversity through Disagreement for Better Transferability ( http://arxiv.org/abs/2202.04414v1 ) ライセンス: CC BY 4.0 | Matteo Pagliardini, Martin Jaggi, Fran\c{c}ois Fleuret, Sai Praneeth Karimireddy | (参考訳) 勾配に基づく学習アルゴリズムは暗黙の単純さバイアスを持ち、学習手順によってサンプリングされる予測器の多様性を制限することができる。
この行動は、訓練されたモデルの伝達可能性を妨げる可能性がある
(i)より単純でスプリアスな機能 -- トレーニングデータには存在するが、テストデータには欠如している -- の学習を好むこと、及び
(ii)予測機能の小さなサブセットのみを活用すること。
このような効果は、テスト分布が列車分布と正確に一致しない場合、特に拡大される -out of distribution (ood) 一般化問題と見なされる。
しかし、トレーニングデータのみを考えると、ある特徴が刺激的であるか、転送可能であるかを評価することは必ずしも不可能である。
代わりに、さまざまな予測機能をキャプチャするモデルの集合を学習することを提唱します。
そこで本研究では,トレーニングデータに対するモデル間の合意を強制するD-BAT(Diversity-By-disAgreement Training)を提案する。
我々は,D-BATが一般化された不一致の概念から自然に現れることを示すとともに,提案手法がショートカット学習を緩和し,不確実性を高め,OOD検出を向上し,伝達性を向上させることを複数の実験で示す。 Gradient-based learning algorithms have an implicit simplicity bias which in effect can limit the diversity of predictors being sampled by the learning procedure. This behavior can hinder the transferability of trained models by (i) favoring the learning of simpler but spurious features -- present in the training data but absent from the test data -- and (ii) by only leveraging a small subset of predictive features. Such an effect is especially magnified when the test distribution does not exactly match the train distribution -- referred to as the Out of Distribution (OOD) generalization problem. However, given only the training data, it is not always possible to apriori assess if a given feature is spurious or transferable. Instead, we advocate for learning an ensemble of models which capture a diverse set of predictive features. Towards this, we propose a new algorithm D-BAT (Diversity-By-disAgreement Training), which enforces agreement among the models on the training data, but disagreement on the OOD data. We show how D-BAT naturally emerges from the notion of generalized discrepancy, as well as demonstrate in multiple experiments how the proposed method can mitigate shortcut-learning, enhance uncertainty and OOD detection, as well as improve transferability. | 翻訳日:2022-02-10 19:37:50 公開日:2022-02-09 |
# (参考訳) マルチモーダル画像スタイル転送のための深い特徴回転 Deep Feature Rotation for Multimodal Image Style Transfer ( http://arxiv.org/abs/2202.04426v1 ) ライセンス: CC BY 4.0 | Son Truong Nguyen, Nguyen Quang Tuyen, Nguyen Hong Phuc | (参考訳) 近年、画像のスタイルをコンテンツターゲットに転送するスタイル転送は、多くの注目を集める研究領域となっている。
スタイル転送に関する広範な研究は、処理のスピードアップや高品質なスタイリッシュ画像の生成を目的としている。
ほとんどのアプローチはコンテンツとスタイルのイメージペアからのみ出力を生成するが、他のいくつかのアプローチでは複雑なアーキテクチャを使用し、一定の数の出力しか生成できない。
本稿では,多種多様な出力を生成するだけでなく,より複雑な方法に比べて効果的なスタイライゼーションを実現しつつ,多彩な特徴回転(dfr)と呼ばれるスタイル特徴の表現方法を提案する。
計算コストを過大に消費することなく,中間的な機能埋め込みを補完する多くの方法の代表的手法である。
また, 異なる回転重みで出力を可視化することで解析を行う。
私たちのコードはhttps://github.com/sonnguyen129/deep-feature-rotationで利用可能です。 Recently, style transfer is a research area that attracts a lot of attention, which transfers the style of an image onto a content target. Extensive research on style transfer has aimed at speeding up processing or generating high-quality stylized images. Most approaches only produce an output from a content and style image pair, while a few others use complex architectures and can only produce a certain number of outputs. In this paper, we propose a simple method for representing style features in many ways called Deep Feature Rotation (DFR), while not only producing diverse outputs but also still achieving effective stylization compared to more complex methods. Our approach is representative of the many ways of augmentation for intermediate feature embedding without consuming too much computational expense. We also analyze our method by visualizing output in different rotation weights. Our code is available at https://github.com/sonnguyen129/deep-feature-rotation. | 翻訳日:2022-02-10 19:16:45 公開日:2022-02-09 |
# (参考訳) 都市景観における被写体誘導昼夜視定位 Object-Guided Day-Night Visual Localization in Urban Scenes ( http://arxiv.org/abs/2202.04445v1 ) ライセンス: CC BY 4.0 | Assia Benbihi, C\'edric Pradalier, Ond\v{r}ej Chum | (参考訳) 局所マッチングの新しい手法に基づくOGuL(Object-Guided Localization)を提案する。
局所的な特徴の直接マッチングは照明の著しい変化に敏感である。
対照的に、物体検出はしばしば照明条件の厳しい変化を生き延びる。
提案手法は,まず意味オブジェクトを検出し,画像間の対応を確立する。
対象対応は平面ホモグラフィの形で画像の局所的な粗いアラインメントを提供する。
これらの相同性は、局所的な特徴のマッチングのガイドとして用いられる。
標準的な都市ローカライゼーションデータセット(Aachen, Extended-CMU-Season, RobotCar-Season)の実験では、OGuLはSIFTと同じくらい単純な局所的特徴でローカライゼーション結果を著しく改善し、その性能は日々のローカライゼーションのために訓練された最先端のCNNベースの手法と競合する。 We introduce Object-Guided Localization (OGuL) based on a novel method of local-feature matching. Direct matching of local features is sensitive to significant changes in illumination. In contrast, object detection often survives severe changes in lighting conditions. The proposed method first detects semantic objects and establishes correspondences of those objects between images. Object correspondences provide local coarse alignment of the images in the form of a planar homography. These homographies are consequently used to guide the matching of local features. Experiments on standard urban localization datasets (Aachen, Extended-CMU-Season, RobotCar-Season) show that OGuL significantly improves localization results with as simple local features as SIFT, and its performance competes with the state-of-the-art CNN-based methods trained for day-to-night localization. | 翻訳日:2022-02-10 19:08:24 公開日:2022-02-09 |
# (参考訳) メリットに基づくnlp技術の融合によるtwitterテキストからの水質の即時フィードバック Merit-based Fusion of NLP Techniques for Instant Feedback on Water Quality from Twitter Text ( http://arxiv.org/abs/2202.04462v1 ) ライセンス: CC BY 4.0 | Khubaib Ahmad, Muhammad Asif Ayub, Kashif Ahmad, Jebran Khan, Nasir Ahmad, Ala Al-Fuqaha | (参考訳) 本稿は,フィードバックの即時源としてのソーシャルメディアの可能性を分析することによって,水質を評価できる重要な環境課題に焦点を当てる。
この研究の主な目的は、水色、匂い、味、関連する病気など、水質の異なる側面を記述した投稿に特に注意を向けて、水質に関連するソーシャルメディア投稿を自動分析して検索することである。
そこで本研究では,異なる事前処理,データ拡張,分類手法を取り入れた新しいフレームワークを提案する。
合計で3つの異なるニューラルネットワーク(NN)アーキテクチャ、すなわち
(i)トランスフォーマー(bert)からの双方向エンコーダ表現
(II)ロバストに最適化されたBERT事前学習手法(XLM-RoBERTa)および
(iii)カスタム長短期記憶モデル(lstm)は、メリットに基づく融合方式に採用されている。
モデルへのメリットに基づく重み付けについては、粒子群最適化(pso)、遺伝的アルゴリズム(ga)、ブルート力(bf)、ネルダーミード、パウエルの最適化法など、いくつかの最適化と探索手法を比較した。
また, BERTモデルを用いて, 最高F1スコア0.81を得る個別モデルの評価を行った。
メリットベースの融合では、BFがF1スコアスコアの0.852を達成して総合的に良い結果が得られる。
また,提案手法の大幅な改善が得られた既存手法との比較を行った。
このような比較的新しいトピックの厳密な分析は、将来の研究のベースラインになると考えています。 This paper focuses on an important environmental challenge; namely, water quality by analyzing the potential of social media as an immediate source of feedback. The main goal of the work is to automatically analyze and retrieve social media posts relevant to water quality with particular attention to posts describing different aspects of water quality, such as watercolor, smell, taste, and related illnesses. To this aim, we propose a novel framework incorporating different preprocessing, data augmentation, and classification techniques. In total, three different Neural Networks (NNs) architectures, namely (i) Bidirectional Encoder Representations from Transformers (BERT), (ii) Robustly Optimized BERT Pre-training Approach (XLM-RoBERTa), and (iii) custom Long short-term memory (LSTM) model, are employed in a merit-based fusion scheme. For merit-based weight assignment to the models, several optimization and search techniques are compared including a Particle Swarm Optimization (PSO), a Genetic Algorithm (GA), Brute Force (BF), Nelder-Mead, and Powell's optimization methods. We also provide an evaluation of the individual models where the highest F1-score of 0.81 is obtained with the BERT model. In merit-based fusion, overall better results are obtained with BF achieving an F1-score score of 0.852. We also provide comparison against existing methods, where a significant improvement for our proposed solutions is obtained. We believe such rigorous analysis of this relatively new topic will provide a baseline for future research. | 翻訳日:2022-02-10 18:55:06 公開日:2022-02-09 |
# (参考訳) 複合語表現を用いた条件ドラム生成 Conditional Drums Generation using Compound Word Representations ( http://arxiv.org/abs/2202.04464v1 ) ライセンス: CC BY 4.0 | Dimos Makris, Guo Zixun, Maximos Kaliakatsos-Papakostas, Dorien Herremans | (参考訳) 自動作曲の分野は近年大きな進歩を遂げており、特にトランスフォーマーベースの建築が発明されている。
音楽を複数の複雑な依存関係を持つイベントのシーケンスと考えるディープラーニングモデルを使用する場合、適切なデータ表現の選択が不可欠である。
本稿では,逐次データのトークン化プロセスである複合語表現にインスパイアされた新しいデータ符号化方式を用いて,条件付きドラム生成の課題に取り組む。
そこで,両方向長短期メモリ(BiLSTM)エンコーダは条件パラメータ(トラックや音楽の属性など)の情報を受信し,トランスフォーマーベースのデコーダは相対的にグローバルな注意を払って生成したドラムシーケンスを生成するシーケンス・ツー・シーケンスアーキテクチャを提案する。
本手法の有効性をいくつかのベースラインと比較するために実験を行った。
定量的評価により,トレーニングコーパスに類似した統計分布と特性を有するドラムシーケンスを生成できることを示した。
これらの特徴にはシンコペーション、圧縮比、対称性などがある。
また, 聴取試験により, ドラム列の音質, 自然さ, コヒーレントさを, 伴奏の「グルーブ」で確認した。 The field of automatic music composition has seen great progress in recent years, specifically with the invention of transformer-based architectures. When using any deep learning model which considers music as a sequence of events with multiple complex dependencies, the selection of a proper data representation is crucial. In this paper, we tackle the task of conditional drums generation using a novel data encoding scheme inspired by the Compound Word representation, a tokenization process of sequential data. Therefore, we present a sequence-to-sequence architecture where a Bidirectional Long short-term memory (BiLSTM) Encoder receives information about the conditioning parameters (i.e., accompanying tracks and musical attributes), while a Transformer-based Decoder with relative global attention produces the generated drum sequences. We conducted experiments to thoroughly compare the effectiveness of our method to several baselines. Quantitative evaluation shows that our model is able to generate drums sequences that have similar statistical distributions and characteristics to the training corpus. These features include syncopation, compression ratio, and symmetry among others. We also verified, through a listening test, that generated drum sequences sound pleasant, natural and coherent while they "groove" with the given accompaniment. | 翻訳日:2022-02-10 18:40:39 公開日:2022-02-09 |
# (参考訳) contextize me -- 強化学習におけるコンテキストのケース Contextualize Me -- The Case for Context in Reinforcement Learning ( http://arxiv.org/abs/2202.04500v1 ) ライセンス: CC BY 4.0 | Carolin Benjamins, Theresa Eimer, Frederik Schubert, Aditya Mohan, Andr\'e Biedenkapp, Bodo Rosenhahn, Frank Hutter, Marius Lindauer | (参考訳) 強化学習(rl)はますます複雑な問題を解決する上で大きな一歩を踏み出したが、多くのアルゴリズムは環境のわずかな変化にも脆弱である。
文脈強化学習(cRL)は、このような変化を原則的にモデル化し、柔軟で正確で解釈可能なタスク仕様と生成を可能にする理論的枠組みを提供する。
したがって、cRL は RL の一般化を研究するための重要な形式化である。
この研究では、理論と実践におけるcRLの解法について論じる。
文脈マルコフ決定過程における理論的に最適な振る舞いは、明示的な文脈情報を必要とする。
さらに,学習中のコンテキスト情報を活用したコンテキストベースのタスク生成を実証的に検討し,状態調整型ポリシアーキテクチャであるcgateを提案する。
そこで本研究では,CARLのcRL拡張に基づく一般化のための最初のベンチマークライブラリを提案する。
要するに、コンテキストは重要です! While Reinforcement Learning (RL) has made great strides towards solving increasingly complicated problems, many algorithms are still brittle to even slight changes in environments. Contextual Reinforcement Learning (cRL) provides a theoretical framework to model such changes in a principled manner, thereby enabling flexible, precise and interpretable task specification and generation. Thus, cRL is an important formalization for studying generalization in RL. In this work, we reason about solving cRL in theory and practice. We show that theoretically optimal behavior in contextual Markov Decision Processes requires explicit context information. In addition, we empirically explore context-based task generation, utilizing context information in training and propose cGate, our state-modulating policy architecture. To this end, we introduce the first benchmark library designed for generalization based on cRL extensions of popular benchmarks, CARL. In short: Context matters! | 翻訳日:2022-02-10 18:27:16 公開日:2022-02-09 |
# (参考訳) 予測感度: 展開された分類器における反事実公平性の連続的監査 Prediction Sensitivity: Continual Audit of Counterfactual Fairness in Deployed Classifiers ( http://arxiv.org/abs/2202.04504v1 ) ライセンス: CC BY 4.0 | Krystal Maughan, Ivoline C. Ngong, Joseph P. Near | (参考訳) aiベースのシステムは私たちの生活の多くの領域にますます影響を与えています。
従来のグループフェアネスメトリクスは個人に対する差別を見逃す可能性があり、デプロイ後に適用するのが困難である。
counterfactual fairnessは、フェアネスの個別化された概念を記述しているが、デプロイ後の評価はさらに困難である。
本稿では,デプロイされた分類器における対実的公正性の連続的な監査手法である予測感度について述べる。
予測感度は、デプロイされたモデルによって行われたすべての予測に対して、この個人が別の人口層グループに属していた場合、この予測が異なるのか、という疑問に答えるのに役立つ。
予測感度は保護された状態と他の特徴の相関を利用しており、予測時に保護された状態情報を必要としない。
実証実験の結果,予測感度は反実的公正さの違反を検出するのに有効であることが示された。 As AI-based systems increasingly impact many areas of our lives, auditing these systems for fairness is an increasingly high-stakes problem. Traditional group fairness metrics can miss discrimination against individuals and are difficult to apply after deployment. Counterfactual fairness describes an individualized notion of fairness but is even more challenging to evaluate after deployment. We present prediction sensitivity, an approach for continual audit of counterfactual fairness in deployed classifiers. Prediction sensitivity helps answer the question: would this prediction have been different, if this individual had belonged to a different demographic group -- for every prediction made by the deployed model. Prediction sensitivity can leverage correlations between protected status and other features and does not require protected status information at prediction time. Our empirical results demonstrate that prediction sensitivity is effective for detecting violations of counterfactual fairness. | 翻訳日:2022-02-10 17:54:25 公開日:2022-02-09 |
# (参考訳) 振幅ニューラルネットワークを用いたハドロンコライダーシミュレーションの最適化 Optimising hadronic collider simulations using amplitude neural networks ( http://arxiv.org/abs/2202.04506v1 ) ライセンス: CC BY 4.0 | Ryan Moodie | (参考訳) コライダー実験における高多重度散乱過程の精密現象論的研究は、重要な理論的課題であり、実験測定において重要な要素である。
機械学習技術は複雑な最終状態のシミュレーションを劇的に最適化する可能性がある。
ニューラルネットワークを用いて行列要素を近似し, グルーオン融合によるループ誘起二光子生成について検討した。
我々はNJet C++ライブラリからの1ループ振幅でニューラルネットワークモデルをトレーニングし、Sherpa Monte Carloイベントジェネレータとインターフェースして、現実的なハドロンコライダーシミュレーションで行列要素を提供する。
標準オブザーバブルをモデルで計算し,従来の手法と比較したところ,分布の整合性は良好であり,シミュレーション時間も30倍に短縮された。 Precision phenomenological studies of high-multiplicity scattering processes at collider experiments present a substantial theoretical challenge and are vitally important ingredients in experimental measurements. Machine learning technology has the potential to dramatically optimise simulations for complicated final states. We investigate the use of neural networks to approximate matrix elements, studying the case of loop-induced diphoton production through gluon fusion. We train neural network models on one-loop amplitudes from the NJet C++ library and interface them with the Sherpa Monte Carlo event generator to provide the matrix element within a realistic hadronic collider simulation. Computing some standard observables with the models and comparing to conventional techniques, we find excellent agreement in the distributions and a reduced total simulation time by a factor of thirty. | 翻訳日:2022-02-10 17:38:42 公開日:2022-02-09 |
# (参考訳) 教師付き学習の無自由lunch定理 The no-free-lunch theorems of supervised learning ( http://arxiv.org/abs/2202.04513v1 ) ライセンス: CC BY 4.0 | Tom F. Sterkenburg, Peter D. Gr\"unwald | (参考訳) no-free-lunch定理は、あらゆる可能な機械学習アルゴリズムが正当性を欠いているという懐疑的な結論を促進する。
しかし、なぜ一部のアルゴリズムは他のアルゴリズムよりも優れているという学習理論が残されているのだろうか?
帰納の哲学と平行して、学習アルゴリズムは純粋にデータ駆動であるという概念を前提としている。
この概念では、全てのアルゴリズムは、正当性を求める固有の帰納バイアスを持つ必要がある。
私たちは、多くの標準学習アルゴリズムはむしろモデルに依存したものとして理解されるべきであると主張している。
ジェネリックアルゴリズム自体は、モデル相対的な正当化を与えることができる。 The no-free-lunch theorems promote a skeptical conclusion that all possible machine learning algorithms equally lack justification. But how could this leave room for a learning theory, that shows that some algorithms are better than others? Drawing parallels to the philosophy of induction, we point out that the no-free-lunch results presuppose a conception of learning algorithms as purely data-driven. On this conception, every algorithm must have an inherent inductive bias, that wants justification. We argue that many standard learning algorithms should rather be understood as model-dependent: in each application they also require for input a model, representing a bias. Generic algorithms themselves, they can be given a model-relative justification. | 翻訳日:2022-02-10 17:30:51 公開日:2022-02-09 |
# (参考訳) エネルギー効率の良い音声強調のための多モードカノニカル関連グラフニューラルネットワーク A Multimodal Canonical-Correlated Graph Neural Network for Energy-Efficient Speech Enhancement ( http://arxiv.org/abs/2202.04528v1 ) ライセンス: CC BY 4.0 | Leandro Aparecido Passos, Jo\~ao Paulo Papa, Amir Hussain, Ahsan Adeel | (参考訳) 本稿では、グラフニューラルネットワークと標準相関解析(CCA-GNN)を統合することで、エネルギー効率の高いAV音声強調のための新しいマルチモーダル自己教師型アーキテクチャを提案する。
これは最先端のCCA-GNNの上に構築されており、同じ入力の強化ビューのペア間の相関を最大化し、非連結な特徴をデコレーションしながら代表埋め込みを学習することを目的としている。
従来のCCA-GNNの鍵となる考え方は、冗長な情報の取得を防止しつつ、拡張不変情報を破棄し、拡張不変情報を保存することである。
提案するAV CCA-GNNモデルは,マルチモーダル表現学習の難しさに対処するために設計されている。
具体的には,同一チャンネルの拡張ビューからの正準相関を最大化し,音声および視覚埋め込みによる正準相関を最大化することにより,文脈的なav音声処理を改善する。
さらに,ノードの近接近傍を計算しながら,特徴空間表現の代わりに先行フレーム列距離を考慮したノードの位置符号化を提案する。
これは、近隣の接続を通じて埋め込みに時間的情報を導入するのに役立つ。
ChiME3データセットを用いて行った実験により、提案したフレームベースのAV CCA-GNNは、時間的文脈における優れた特徴学習を強化し、最先端のCCA-GNNや多層パーセプトロンモデルと比較して、よりエネルギー効率の良い音声再構成を実現することが示された。
提案手法が将来の補助技術やエネルギー効率の高いマルチモーダルデバイスに活用される可能性を示した。 This paper proposes a novel multimodal self-supervised architecture for energy-efficient AV speech enhancement by integrating graph neural networks with canonical correlation analysis (CCA-GNN). This builds on a state-of-the-art CCA-GNN that aims to learn representative embeddings by maximizing the correlation between pairs of augmented views of the same input while decorrelating disconnected features. The key idea of the conventional CCA-GNN involves discarding augmentation-variant information and preserving augmentation-invariant information whilst preventing capturing of redundant information. Our proposed AV CCA-GNN model is designed to deal with the challenging multimodal representation learning context. Specifically, our model improves contextual AV speech processing by maximizing canonical correlation from augmented views of the same channel, as well as canonical correlation from audio and visual embeddings. In addition, we propose a positional encoding of the nodes that considers a prior-frame sequence distance instead of a feature-space representation while computing the node's nearest neighbors. This serves to introduce temporal information in the embeddings through the neighborhood's connectivity. Experiments conducted with the benchmark ChiME3 dataset show that our proposed prior frame-based AV CCA-GNN reinforces better feature learning in the temporal context, leading to more energy-efficient speech reconstruction compared to state-of-the-art CCA-GNN and multi-layer perceptron models. The results demonstrate the potential of our proposed approach for exploitation in future assistive technology and energy-efficient multimodal devices. | 翻訳日:2022-02-10 17:29:47 公開日:2022-02-09 |
# (参考訳) nimble:骨と筋肉を備えた非剛性ハンドモデル NIMBLE: A Non-rigid Hand Model with Bones and Muscles ( http://arxiv.org/abs/2202.04533v1 ) ライセンス: CC BY 4.0 | Yuwei Li, Longwen Zhang, Zesong Qiu, Yingwenqi Jiang, Yuyao Zhang, Nianyi Li, Yuexin Ma, Lan Xu, Jingyi Yu | (参考訳) 新興のメタバースアプリケーションは、人間の手の信頼性、正確性、フォトリアリスティックな複製を要求し、物理的な世界のように洗練された操作を行う。
本物の人間の手は、骨、筋肉、腱、皮膚の間の最も複雑な調整の1つだが、最先端の技術は、手の骨格のみをモデリングすることに集中している。
本稿では,鍵成分の欠如を含む新しいパラメトリックハンドモデルであるNIMBLEについて述べる。
まず,磁気共鳴イメージングハンド(mri-hand)データセットに筋肉,骨,皮膚をアノテートし,データセット内の個々のポーズと被験者にボリュームテンプレートハンドを登録した。
NIMBLEは、三角形のメッシュとして20の骨、四面体メッシュとして7つの筋肉群、皮膚メッシュからなる。
反復的な形状登録とパラメータ学習により、さらに形状ブレンド形状を生成し、ブレンド形状をポーズさせ、継手回帰器を製造する。
NIMBLEをモデリング、レンダリング、視覚的推論タスクに適用する。
内骨と筋肉を解剖学的および運動学的規則に合わせるように強制することにより、NIMBLEは前例のないリアリズムで新しいポーズに3Dの手をアニメーションすることができる。
肌の外観をモデル化するために, 高品質なテクスチャと正常な地図を取得し, しわや手のひら印字をモデル化するフォトメトリックハンドステージを構築した。
最後に、NIMBLEは、リッチデータを合成するか、推論ネットワークで直接微分可能な層として振る舞うことによって、学習ベースの手振りと形状の推定にも役立ちます。 Emerging Metaverse applications demand reliable, accurate, and photorealistic reproductions of human hands to perform sophisticated operations as if in the physical world. While real human hand represents one of the most intricate coordination between bones, muscle, tendon, and skin, state-of-the-art techniques unanimously focus on modeling only the skeleton of the hand. In this paper, we present NIMBLE, a novel parametric hand model that includes the missing key components, bringing 3D hand model to a new level of realism. We first annotate muscles, bones and skins on the recent Magnetic Resonance Imaging hand (MRI-Hand) dataset and then register a volumetric template hand onto individual poses and subjects within the dataset. NIMBLE consists of 20 bones as triangular meshes, 7 muscle groups as tetrahedral meshes, and a skin mesh. Via iterative shape registration and parameter learning, it further produces shape blend shapes, pose blend shapes, and a joint regressor. We demonstrate applying NIMBLE to modeling, rendering, and visual inference tasks. By enforcing the inner bones and muscles to match anatomic and kinematic rules, NIMBLE can animate 3D hands to new poses at unprecedented realism. To model the appearance of skin, we further construct a photometric HandStage to acquire high-quality textures and normal maps to model wrinkles and palm print. Finally, NIMBLE also benefits learning-based hand pose and shape estimation by either synthesizing rich data or acting directly as a differentiable layer in the inference network. | 翻訳日:2022-02-10 17:21:48 公開日:2022-02-09 |
# (参考訳) 一般化田口法と対象ベクトルノルムによる多目的ロバストCNNシステムの最適過パラメータと構造設定 Optimal Hyperparameters and Structure Setting of Multi-Objective Robust CNN Systems via Generalized Taguchi Method and Objective Vector Norm ( http://arxiv.org/abs/2202.04567v1 ) ライセンス: CC BY 4.0 | Sheng-Guo Wang and Shanshan Jiang (The University of North Carolina at Charlotte) | (参考訳) 近年、機械学習(ml)、人工知能(ai)、畳み込みニューラルネットワーク(cnn)は、深層学習構造とcnnとaiシステムの品質と性能を決定する多数のハイパーパラメータを持つ幅広いアプリケーションで大きな進歩を遂げている。
これらのシステムには、多目的MLとAIパフォーマンスのニーズがある。
多目的ロバストな最適cnnシステムのための最適なハイパーパラメータと構造を見つけるための重要な要件がある。
本稿では,多目的頑健なCNNシステムの最適パラメータと構造を目的性能ベクトルノルムを用いて効果的に決定する汎用田口手法を提案する。
提案手法は,CIFAR-10データセットに対する元のResNetを用いたCNN分類システムに適用され,提案手法はCIFAR-10における元のResNetの最適精度を達成するのに極めて有効であることを示す。 Recently, Machine Learning (ML), Artificial Intelligence (AI), and Convolutional Neural Network (CNN) have made huge progress with broad applications, where their systems have deep learning structures and a large number of hyperparameters that determine the quality and performance of the CNNs and AI systems. These systems may have multi-objective ML and AI performance needs. There is a key requirement to find the optimal hyperparameters and structures for multi-objective robust optimal CNN systems. This paper proposes a generalized Taguchi approach to effectively determine the optimal hyperparameters and structure for the multi-objective robust optimal CNN systems via their objective performance vector norm. The proposed approach and methods are applied to a CNN classification system with the original ResNet for CIFAR-10 dataset as a demonstration and validation, which shows the proposed methods are highly effective to achieve an optimal accuracy rate of the original ResNet on CIFAR-10. | 翻訳日:2022-02-10 16:55:39 公開日:2022-02-09 |
# (参考訳) 量子コンピュータにおけるノイズ指紋: 機械学習ソフトウェアツール Noise fingerprints in quantum computers: Machine learning software tools ( http://arxiv.org/abs/2202.04581v1 ) ライセンス: CC BY 4.0 | Stefano Martina, Stefano Gherardini, Lorenzo Buffoni, Filippo Caruso | (参考訳) 本稿では,量子デバイスに影響を及ぼす量子ノイズ源の主な特徴(指紋)を量子コンピュータとして学習することを目的とした,量子古典的機械学習ソフトウェアの高レベル機能について述べる。
具体的には、ソフトウェアアーキテクチャは、同様の技術的仕様を持つ異なる量子デバイスにおけるノイズ指紋を(精度の99%以上)うまく分類するか、単一の量子マシンにおけるノイズ指紋の異なる時間依存性を分類するように設計されている。 In this paper we present the high-level functionalities of a quantum-classical machine learning software, whose purpose is to learn the main features (the fingerprint) of quantum noise sources affecting a quantum device, as a quantum computer. Specifically, the software architecture is designed to classify successfully (more than 99% of accuracy) the noise fingerprints in different quantum devices with similar technical specifications, or distinct time-dependences of a noise fingerprint in single quantum machines. | 翻訳日:2022-02-10 16:44:58 公開日:2022-02-09 |
# 公正なパーソナライズ価格のための規制措置 Regulatory Instruments for Fair Personalized Pricing ( http://arxiv.org/abs/2202.04245v1 ) ライセンス: Link先を確認 | Renzhe Xu, Xingxuan Zhang, Peng Cui, Bo Li, Zheyan Shen, Jiazheng Xu | (参考訳) パーソナライズド価格(パーソナライズドプライス)は、特性や行動に基づいて個々の消費者に異なる価格を課金するビジネス戦略である。
近年,多くの産業で,高粒度消費者データの利用が増加し,一般的に普及している。
パーソナライズされた価格の差別的な性質は、市場効率と株式のバランスをとるための規制政策をどう設計するかという政策立案者や学者の間で熱い議論を引き起こしている。
本稿では、パーソナライズされた価格やその比率の範囲を抑えるための2つの音響政策指標を提案する。
規制制約下での利益を最大化するモノポリーの最適価格戦略と、消費者の余剰、生産者余剰、社会福祉への影響について検討する。
提案した制約が、一様、ロジスティック、指数分布などの共通需要分布の総剰余を犠牲にして、消費者余剰と生産余剰のバランスをとるのに役立つことを理論的に証明する。
シミュレーションと実世界のデータセットの両方の実験は、これらの理論結果の正しさを示している。
我々の発見と洞察は、デジタル時代における独占化ビジネスの規制政策設計に光を当てた。 Personalized pricing is a business strategy to charge different prices to individual consumers based on their characteristics and behaviors. It has become common practice in many industries nowadays due to the availability of a growing amount of high granular consumer data. The discriminatory nature of personalized pricing has triggered heated debates among policymakers and academics on how to design regulation policies to balance market efficiency and equity. In this paper, we propose two sound policy instruments, i.e., capping the range of the personalized prices or their ratios. We investigate the optimal pricing strategy of a profit-maximizing monopoly under both regulatory constraints and the impact of imposing them on consumer surplus, producer surplus, and social welfare. We theoretically prove that both proposed constraints can help balance consumer surplus and producer surplus at the expense of total surplus for common demand distributions, such as uniform, logistic, and exponential distributions. Experiments on both simulation and real-world datasets demonstrate the correctness of these theoretical results. Our findings and insights shed light on regulatory policy design for the increasingly monopolized business in the digital era. | 翻訳日:2022-02-10 16:33:13 公開日:2022-02-09 |
# シナリオ支援型深層強化学習 Scenario-Assisted Deep Reinforcement Learning ( http://arxiv.org/abs/2202.04337v1 ) ライセンス: Link先を確認 | Raz Yerushalmi, Guy Amir, Achiya Elyasaf, David Harel, Guy Katz and Assaf Marron | (参考訳) 深層強化学習は非構造化データからエージェントを訓練するのに非常に有用である。
しかし、製造されたエージェントの不透明さのため、人間のエンジニアが要求するさまざまな要件に確実に準拠することは困難である。
本報告では,強化学習訓練プロセス(特に報奨計算)の強化手法を提案する。これにより,人間技術者が専門家の知識に直接貢献できるようになり,訓練中のエージェントが様々な制約を満たす可能性が高まる。
さらに,シナリオベースモデリングなどの高度なモデル工学手法を用いて,これらの制約を定式化する手法を提案する。
このブラックボックス学習ベースのツールと古典的なモデリングアプローチを組み合わせることで、効率的で効率的なシステムを生み出すことができるが、透明性と保守性も向上する。
提案手法は,インターネット混雑制御領域のケーススタディを用いて評価し,有望な結果を得た。 Deep reinforcement learning has proven remarkably useful in training agents from unstructured data. However, the opacity of the produced agents makes it difficult to ensure that they adhere to various requirements posed by human engineers. In this work-in-progress report, we propose a technique for enhancing the reinforcement learning training process (specifically, its reward calculation), in a way that allows human engineers to directly contribute their expert knowledge, making the agent under training more likely to comply with various relevant constraints. Moreover, our proposed approach allows formulating these constraints using advanced model engineering techniques, such as scenario-based modeling. This mix of black-box learning-based tools with classical modeling approaches could produce systems that are effective and efficient, but are also more transparent and maintainable. We evaluated our technique using a case-study from the domain of internet congestion control, obtaining promising results. | 翻訳日:2022-02-10 16:32:52 公開日:2022-02-09 |
# 深部フィードフォワードニューラルネットワークにおける特徴抽出の局所幾何学的解釈 A Local Geometric Interpretation of Feature Extraction in Deep Feedforward Neural Networks ( http://arxiv.org/abs/2202.04632v1 ) ライセンス: Link先を確認 | Md Kamran Chowdhury Shisher, Tasmeen Zaman Ornee, and Yin Sun | (参考訳) 本稿では,高次元データからディープフィードフォワードニューラルネットワークがどのように低次元特徴を抽出するかを解釈するための局所幾何解析を提案する。
本研究では, 局所幾何学領域において, ニューラルネットワークの一層における最適重みと前層の最適特徴が, この層のベイズ作用によって決定される行列の低ランク近似を構成することを示す。
この結果は
(i)ニューラルネットワークの出力層と隠れ層の両方を分析すること、及び
(ii) 局所的に厳密に増加し、連続的に分化可能なニューロン活性化機能について。
2つの教師付き学習問題 — ニューラルネットワークに基づく最大度分類(ロジスティック回帰)と、ニューラルネットワークに基づく最小平均二乗推定(minimum mean square estimation)です。
これらの理論結果の実験的検証を今後の研究で実施する。 In this paper, we present a local geometric analysis to interpret how deep feedforward neural networks extract low-dimensional features from high-dimensional data. Our study shows that, in a local geometric region, the optimal weight in one layer of the neural network and the optimal feature generated by the previous layer comprise a low-rank approximation of a matrix that is determined by the Bayes action of this layer. This result holds (i) for analyzing both the output layer and the hidden layers of the neural network, and (ii) for neuron activation functions that are locally strictly increasing and continuously differentiable. We use two supervised learning problems to illustrate our results: neural network based maximum likelihood classification (i.e., logistic regression) and neural network based minimum mean square estimation. Experimental validation of these theoretical results will be conducted in our future work. | 翻訳日:2022-02-10 16:32:38 公開日:2022-02-09 |
# 分離可能なミニマックスのシャーパレートとプリマル2次元外部勾配法による有限サム最適化 Sharper Rates for Separable Minimax and Finite Sum Optimization via Primal-Dual Extragradient Methods ( http://arxiv.org/abs/2202.04640v1 ) ライセンス: Link先を確認 | Yujia Jin, Aaron Sidford, Kevin Tian | (参考訳) 最適化問題の基本クラスを改良した高速化アルゴリズムを設計する。
我々のアルゴリズムは, [cst21] によって最近提唱された相対リプシッツネスによる素数-双次超勾配法の解析手法に基づいている。
1)分離可能なミニマックス最適化。
分離可能な minimax 最適化問題 $\min_x \max_y f について検討する。
(x)-g
(y) + h(x,
ここで、$f$ と $g$ は滑らかで強い凸パラメータ $(l^x, \mu^x)$, $(l^y, \mu^y)$ を持ち、$h$ は $(\lambda^{xx}, \lambda^{xy}, \lambda^{yy})$-blockwise 作用素ノルム有界ヘッセンである。
勾配クエリ複雑性 $\tilde{O}\left(\sqrt {\frac{L^{x}}{\mu^{x}}} + \sqrt {\frac{L^{y}}{\mu^{y}}} + \frac{\Lambda^{xx}}{\mu^{x}} + \frac{\Lambda^{xy}}{\sqrt{\mu^{x}\mu^{y}}} + \frac{\Lambda^{yy}}{\mu^{y}}\right)$ のアルゴリズムを提供する。
特に、二重線型カップリングを伴う凸凸凹ミニマックス問題(例えば、二次数)に対して、$\Lambda^{xx} = \Lambda^{yy} = 0$ は[ZHZ19] の下界と一致する。
2)有限和最適化。
有限和最適化問題 $\min_x \frac{1}{n}\sum_{i\in[n]} f_i について検討する。
(x)$、各$f_i$は$l_i$-smoothであり、全体の問題は$\mu$-strongly convexである。
勾配クエリ複雑性 $\tilde{O}\left(n + \sum_{i\in[n]} \sqrt {\frac{L_i}{n\mu}} \right)$ のアルゴリズムを提供する。
特に、滑らか性境界が$\{L_i\}_{i\in[n]}$が一様でないとき、加速されたSVRG[LMH15, FGKS15]とKatyusha[All17]を最大$\sqrt{n}$因子で改善する。
(3)ミニマックス有限和。
我々は,極小和最適化と有限和最適化のアルゴリズムを一般化し,極小和最適化問題の自然系を高速化速度で解き,両結果を対数係数にカプセル化する。 We design accelerated algorithms with improved rates for several fundamental classes of optimization problems. Our algorithms all build upon techniques related to the analysis of primal-dual extragradient methods via relative Lipschitzness proposed recently by [CST21]. (1) Separable minimax optimization. We study separable minimax optimization problems $\min_x \max_y f(x) - g(y) + h(x, y)$, where $f$ and $g$ have smoothness and strong convexity parameters $(L^x, \mu^x)$, $(L^y, \mu^y)$, and $h$ is convex-concave with a $(\Lambda^{xx}, \Lambda^{xy}, \Lambda^{yy})$-blockwise operator norm bounded Hessian. We provide an algorithm with gradient query complexity $\tilde{O}\left(\sqrt{\frac{L^{x}}{\mu^{x}}} + \sqrt{\frac{L^{y}}{\mu^{y}}} + \frac{\Lambda^{xx}}{\mu^{x}} + \frac{\Lambda^{xy}}{\sqrt{\mu^{x}\mu^{y}}} + \frac{\Lambda^{yy}}{\mu^{y}}\right)$. Notably, for convex-concave minimax problems with bilinear coupling (e.g.\ quadratics), where $\Lambda^{xx} = \Lambda^{yy} = 0$, our rate matches a lower bound of [ZHZ19]. (2) Finite sum optimization. We study finite sum optimization problems $\min_x \frac{1}{n}\sum_{i\in[n]} f_i(x)$, where each $f_i$ is $L_i$-smooth and the overall problem is $\mu$-strongly convex. We provide an algorithm with gradient query complexity $\tilde{O}\left(n + \sum_{i\in[n]} \sqrt{\frac{L_i}{n\mu}} \right)$. Notably, when the smoothness bounds $\{L_i\}_{i\in[n]}$ are non-uniform, our rate improves upon accelerated SVRG [LMH15, FGKS15] and Katyusha [All17] by up to a $\sqrt{n}$ factor. (3) Minimax finite sums. We generalize our algorithms for minimax and finite sum optimization to solve a natural family of minimax finite sum optimization problems at an accelerated rate, encapsulating both above results up to a logarithmic factor. | 翻訳日:2022-02-10 16:32:23 公開日:2022-02-09 |
# (参考訳) ガウス過程駆動微分方程式の随伴型推論 Adjoint-aided inference of Gaussian process driven differential equations ( http://arxiv.org/abs/2202.04589v1 ) ライセンス: CC BY 4.0 | Paterne Gahungu, Christopher W Lanyon, Mauricio A Alvarez, Engineer Bainomugisha, Michael Smith, and Richard D. Wilkinson | (参考訳) 線形系は工学や科学において、特に微分方程式として起こる。
多くの場合、システムの強制関数は未知であり、他の未知のパラメータと同様に、システムのノイズの多い観測を用いて強制を推論することに関心がある。
微分方程式において、強制関数は独立変数(典型的には時間と空間)の未知の関数であり、ガウス過程(GP)としてモデル化することができる。
本稿では,gpsとしてモデル化された強制関数を,gpカーネルの切断基底展開を用いて効率的に推算するために,線形系の随伴が利用できることを示す。
我々は,mcmc法で必要となる計算量よりも大幅に少ない場合が多い場合において,切断gpに対する正確な共役ベイズ推論が達成できることを示す。
常微分方程式と偏微分方程式の両方の系へのアプローチを実証し, 合成データによる試験により, 基底展開法が基底ベクトルの極小数の真の強制をうまく近似していることを示す。
最後に、ベイズ最適化を用いて、カーネル長スケールなどの非線形モデルパラメータの点推定を推定する方法を示す。 Linear systems occur throughout engineering and the sciences, most notably as differential equations. In many cases the forcing function for the system is unknown, and interest lies in using noisy observations of the system to infer the forcing, as well as other unknown parameters. In differential equations, the forcing function is an unknown function of the independent variables (typically time and space), and can be modelled as a Gaussian process (GP). In this paper we show how the adjoint of a linear system can be used to efficiently infer forcing functions modelled as GPs, after using a truncated basis expansion of the GP kernel. We show how exact conjugate Bayesian inference for the truncated GP can be achieved, in many cases with substantially lower computation than would be required using MCMC methods. We demonstrate the approach on systems of both ordinary and partial differential equations, and by testing on synthetic data, show that the basis expansion approach approximates well the true forcing with a modest number of basis vectors. Finally, we show how to infer point estimates for the non-linear model parameters, such as the kernel length-scales, using Bayesian optimisation. | 翻訳日:2022-02-10 16:28:35 公開日:2022-02-09 |
# 量子ニューラルネットワークを用いたパラメトリックt-Stochastic Neighbor埋め込み Parametric t-Stochastic Neighbor Embedding With Quantum Neural Network ( http://arxiv.org/abs/2202.04238v1 ) ライセンス: Link先を確認 | Yoshiaki Kawase, Kosuke Mitarai, Keisuke Fujii | (参考訳) t-SNE(t-Stochastic Neighbor Embedding)は、古典的機械学習における非パラメトリックデータ可視化手法である。
これは高次元空間から低次元空間、特に二次元平面へデータをマッピングし、周囲の点間の関係や類似性を維持している。
t-sneでは、低次元データの初期位置をランダムに決定し、低次元データを移動してコスト関数を最小限にすることで可視化を行う。
パラメトリックt-SNEと呼ばれるその変種は、このマッピングにニューラルネットワークを使用する。
本稿では,低次元データ上の高次元量子データの特性を反映するために,パラメトリックt-SNEの量子ニューラルネットワークを提案する。
我々は高次元データの類似性を計算するためにユークリッド距離の代わりに忠実度に基づくメトリクスを使用する。
古典データ(irisデータセット)と量子データ(時間依存ハミルトニアンダイナミクス)の両方を分類タスクとして可視化する。
この方法では, 量子データセットの高次元ヒルベルト空間における表現を, 類似性を保ちながら低次元の量子データセットで表現できるので, 提案手法は, さらなる量子機械学習のための量子データ圧縮にも利用できる。 t-Stochastic Neighbor Embedding (t-SNE) is a non-parametric data visualization method in classical machine learning. It maps the data from the high-dimensional space into a low-dimensional space, especially a two-dimensional plane, while maintaining the relationship, or similarities, between the surrounding points. In t-SNE, the initial position of the low-dimensional data is randomly determined, and the visualization is achieved by moving the low-dimensional data to minimize a cost function. Its variant called parametric t-SNE uses neural networks for this mapping. In this paper, we propose to use quantum neural networks for parametric t-SNE to reflect the characteristics of high-dimensional quantum data on low-dimensional data. We use fidelity-based metrics instead of Euclidean distance in calculating high-dimensional data similarity. We visualize both classical (Iris dataset) and quantum (time-depending Hamiltonian dynamics) data for classification tasks. Since this method allows us to represent a quantum dataset in a higher dimensional Hilbert space by a quantum dataset in a lower dimension while keeping their similarity, the proposed method can also be used to compress quantum data for further quantum machine learning. | 翻訳日:2022-02-10 16:11:27 公開日:2022-02-09 |
# 同時学習型キャッシング Parsimonious Learning-Augmented Caching ( http://arxiv.org/abs/2202.04262v1 ) ライセンス: Link先を確認 | Sungjin Im, Ravi Kumar, Aditya Petety, Manish Purohit | (参考訳) 学習強化アルゴリズム — 従来のアルゴリズムが機械学習予測で拡張されている — は、最悪のケース分析を超えたフレームワークとして登場した。
全体的な目標は、予測が正確で、予測の正確さに関係なく、特定の最悪のケース保証を保持する場合に、ほぼ最適に実行されるアルゴリズムを設計することである。
このフレームワークはキャッシングなどのオンライン問題にうまく適用され、不確実性を軽減するために予測が使用できる。
本稿では,学習補助アルゴリズムが予測を同義に活用できるような設定を提案し,検討する。
学習・学習環境において広範囲に研究されているキャッシング問題について考察し, 予測のサブリニア数のみを用いて, 定量的に類似した結果が得られることを示した。 Learning-augmented algorithms -- in which, traditional algorithms are augmented with machine-learned predictions -- have emerged as a framework to go beyond worst-case analysis. The overarching goal is to design algorithms that perform near-optimally when the predictions are accurate yet retain certain worst-case guarantees irrespective of the accuracy of the predictions. This framework has been successfully applied to online problems such as caching where the predictions can be used to alleviate uncertainties. In this paper we introduce and study the setting in which the learning-augmented algorithm can utilize the predictions parsimoniously. We consider the caching problem -- which has been extensively studied in the learning-augmented setting -- and show that one can achieve quantitatively similar results but only using a sublinear number of predictions. | 翻訳日:2022-02-10 16:11:09 公開日:2022-02-09 |
# MMLN:マルチモーダル診断のためのドメイン知識の活用 MMLN: Leveraging Domain Knowledge for Multimodal Diagnosis ( http://arxiv.org/abs/2202.04266v1 ) ライセンス: Link先を確認 | Haodi Zhang, Chenyu Xu, Peirou Liang, Ke Duan, Hao Ren, Weibin Cheng, Kaishun Wu | (参考訳) 近年の研究では、深層学習モデルが診断予測などの医用イメージングタスクにおいて良好な性能を発揮することが示されている。
モデルの中では、胸部X線(CXR)画像や電子カルテ(EMR)など、さまざまな形式のデータを統合するマルチモーダリティ(multimodality)が流行している。
しかし、既存のほとんどの手法は、理論的なサポートがなく、異なるデータソース間の本質的な関係を無視するモデルフリーな方法でそれらを組み込んでいる。
そこで本研究では,肺疾患診断のための知識駆動型およびデータ駆動型フレームワークを提案する。
ドメイン知識を組み込むことで、機械学習モデルはラベル付きデータへの依存を減らし、解釈性を向上させることができる。
本研究は, 臨床医学ガイドラインに従って診断規則を定式化し, テキストデータから規則の重みを学習する。
最後に、肺疾患の限界確率を推定するために、テキストと画像データからなるマルチモーダル融合を設計する。
病院から収集した実世界のデータセットについて実験を行う。
その結果,提案手法は精度と解釈可能性の観点から,最先端のマルチモーダルベースラインよりも優れていた。 Recent studies show that deep learning models achieve good performance on medical imaging tasks such as diagnosis prediction. Among the models, multimodality has been an emerging trend, integrating different forms of data such as chest X-ray (CXR) images and electronic medical records (EMRs). However, most existing methods incorporate them in a model-free manner, which lacks theoretical support and ignores the intrinsic relations between different data sources. To address this problem, we propose a knowledge-driven and data-driven framework for lung disease diagnosis. By incorporating domain knowledge, machine learning models can reduce the dependence on labeled data and improve interpretability. We formulate diagnosis rules according to authoritative clinical medicine guidelines and learn the weights of rules from text data. Finally, a multimodal fusion consisting of text and image data is designed to infer the marginal probability of lung disease. We conduct experiments on a real-world dataset collected from a hospital. The results show that the proposed method outperforms the state-of-the-art multimodal baselines in terms of accuracy and interpretability. | 翻訳日:2022-02-10 16:10:56 公開日:2022-02-09 |
# 確率勾配法のほぼ確実に収束速度について On Almost Sure Convergence Rates of Stochastic Gradient Methods ( http://arxiv.org/abs/2202.04295v1 ) ライセンス: Link先を確認 | Jun Liu and Ye Yuan | (参考訳) 文献における確率勾配法における収束率解析の大多数は期待の収束に焦点をあてるが、軌跡的にはほぼ確実な収束は確率1に収束することを確実にするために明らかに重要である。
ここでは,確率勾配降下 (sgd), 確率重球 (shb) および確率的ネステロフ加速勾配 (snag) 法について, ほぼ確実に収束する収束率解析を行う。
強凸関数上のこれらの確率的勾配法で得られるほぼ確実に収束する確率は、その最適収束速度に任意に近いことを初めて示す。
非凸目的関数に対しては、二乗勾配ノルムの重み付き平均がほぼ確実にゼロに収束するだけでなく、アルゴリズムの最後の反復も示している。
さらに, 弱凸滑らかな関数に対する確率的勾配法について, 重み付き平均値に対する期待値の収束のみを提供する文献の既存の結果と対照的に, ほぼ確実に収束率解析を行う。 The vast majority of convergence rates analysis for stochastic gradient methods in the literature focus on convergence in expectation, whereas trajectory-wise almost sure convergence is clearly important to ensure that any instantiation of the stochastic algorithms would converge with probability one. Here we provide a unified almost sure convergence rates analysis for stochastic gradient descent (SGD), stochastic heavy-ball (SHB), and stochastic Nesterov's accelerated gradient (SNAG) methods. We show, for the first time, that the almost sure convergence rates obtained for these stochastic gradient methods on strongly convex functions, are arbitrarily close to their optimal convergence rates possible. For non-convex objective functions, we not only show that a weighted average of the squared gradient norms converges to zero almost surely, but also the last iterates of the algorithms. We further provide last-iterate almost sure convergence rates analysis for stochastic gradient methods on weakly convex smooth functions, in contrast with most existing results in the literature that only provide convergence in expectation for a weighted average of the iterates. | 翻訳日:2022-02-10 16:10:40 公開日:2022-02-09 |
# 垂直的フェデレーション学習 - 挑戦,方法論,実験 Vertical Federated Learning: Challenges, Methodologies and Experiments ( http://arxiv.org/abs/2202.04309v1 ) ライセンス: Link先を確認 | Kang Wei, Jun Li, Chuan Ma, Ming Ding, Sha Wei, Fan Wu, Guihai Chen, and Thilina Ranbaduge | (参考訳) 近年,ユーザプライバシに対する懸念が高まりつつも,エンドユーザデバイスの計算能力とセンサ能力の進歩により,フェデレーション学習(FL)は有望な分散機械学習(ML)技術として出現している。
FLの特別なアーキテクチャとして、垂直FL(VFL)は、異なるクライアントからサブモデルを受け入れることでハイパーMLモデルを構築することができる。
これらのサブモデルは、異なる属性を持つ垂直分割データによってローカルに訓練される。
したがって、VFLの設計は従来のFLと根本的に異なるため、新しいユニークな研究課題が持ち上がった。
本稿では,vflの課題を効果的なソリューションで議論し,実生活データセットの実験を行い,これらの課題に光を当てる。
具体的には、まずVFLに関する一般的なフレームワークを提案し、VFLと従来のFLの主な違いを強調する。
次に,vflシステムに根ざした研究課題,すなわちセキュリティとプライバシのリスク,高価な計算と通信コスト,モデル分割による構造的損傷,システムの不均一性について論じる。
その後,上記の課題に対処するためのソリューションを開発し,提案手法の有効性を示すために広範な実験を行う。 Recently, federated learning (FL) has emerged as a promising distributed machine learning (ML) technology, owing to the advancing computational and sensing capacities of end-user devices, however with the increasing concerns on users' privacy. As a special architecture in FL, vertical FL (VFL) is capable of constructing a hyper ML model by embracing sub-models from different clients. These sub-models are trained locally by vertically partitioned data with distinct attributes. Therefore, the design of VFL is fundamentally different from that of conventional FL, raising new and unique research issues. In this paper, we aim to discuss key challenges in VFL with effective solutions, and conduct experiments on real-life datasets to shed light on these issues. Specifically, we first propose a general framework on VFL, and highlight the key differences between VFL and conventional FL. Then, we discuss research challenges rooted in VFL systems under four aspects, i.e., security and privacy risks, expensive computation and communication costs, possible structural damage caused by model splitting, and system heterogeneity. Afterwards, we develop solutions to addressing the aforementioned challenges, and conduct extensive experiments to showcase the effectiveness of our proposed solutions. | 翻訳日:2022-02-10 16:10:19 公開日:2022-02-09 |
# 地理的ニューラルネットワーク重み付き回帰に基づく住宅価格評価モデル:中国深セン市を事例として House Price Valuation Model Based on Geographically Neural Network Weighted Regression: The Case Study of Shenzhen, China ( http://arxiv.org/abs/2202.04358v1 ) ライセンス: Link先を確認 | Zimo Wang, Yicheng Wang, Sensen Wu | (参考訳) 不動産市場の空間的不均一性と相まって、いくつかの伝統的な研究は、住宅価格を推定するために地理重み付け回帰(GWR)を利用した。
しかし、カーネル関数は非線形であり、帯域幅を最適化するために複雑であり、予測能力も改善される可能性がある。
その結果、GNNWR(Geographical Neural Network Weighted Regression)と呼ばれる新しい手法が、ニューラルネットワークの助けを借りて不動産評価の精度を向上させるために応用された。
深セン住宅価格データセットに基づいて、この研究は、GWRが実現しにくい深セン不動産市場で異なる変種の重量分布を顕著に捉えている。
さらに,GNNWRの性能に着目し,その堅牢性と優越性を検証し,10倍のクロスバリデーションで実験プロセスを洗練し,適用範囲を自然と社会の地理空間データに拡張する。
これは住宅価格を評価するための実用的で厳しい方法であり、複雑な社会経済データセットにおけるGNNWRの有効性を実証する。 Confronted with the spatial heterogeneity of real estate market, some traditional research utilized Geographically Weighted Regression (GWR) to estimate the house price. However, its kernel function is non-linear, elusive, and complex to opt bandwidth, the predictive power could also be improved. Consequently, a novel technique, Geographical Neural Network Weighted Regression (GNNWR), has been applied to improve the accuracy of real estate appraisal with the help of neural networks. Based on Shenzhen house price dataset, this work conspicuously captures the weight distribution of different variants at Shenzhen real estate market, which GWR is difficult to materialize. Moreover, we focus on the performance of GNNWR, verify its robustness and superiority, refine the experiment process with 10-fold cross-validation, extend its application area from natural to socioeconomic geospatial data. It's a practical and trenchant way to assess house price, and we demonstrate the effectiveness of GNNWR on a complex socioeconomic dataset. | 翻訳日:2022-02-10 16:09:59 公開日:2022-02-09 |
# 知覚不能バックドアトリガーによる連続学習者の誤記憶形成 False Memory Formation in Continual Learners Through Imperceptible Backdoor Trigger ( http://arxiv.org/abs/2202.04479v1 ) ライセンス: Link先を確認 | Muhammad Umer, Robi Polikar | (参考訳) 本稿では,連続学習モデルに提示される新たな情報を逐次学習することで,新たなセキュリティリスクがもたらされることを示す。知的敵は,トレーニング中にモデルに少量の誤情報を導入して,テスト時に特定のタスクやクラスを意図的に忘れ去らせることにより,そのタスクに関する"偽記憶"を発生させる。
我々は、MNISTの連続学習ベンチマークの変種を用いて、一般的な再生と正規化に基づく連続学習アプローチに「バックドア」攻撃サンプルを注入し、より困難なSVHNとCIFAR 10データセットを用いてモデルを制御する能力を示す。
攻撃モデルのバックドアパターンは、人間の目には影響を受けず、任意の時点で提供でき、関連する可能性のある1つのタスクのトレーニングデータにも追加でき、単一のタスクの全トレーニングデータセットのわずか1対%で達成できます。 In this brief, we show that sequentially learning new information presented to a continual (incremental) learning model introduces new security risks: an intelligent adversary can introduce small amount of misinformation to the model during training to cause deliberate forgetting of a specific task or class at test time, thus creating "false memory" about that task. We demonstrate such an adversary's ability to assume control of the model by injecting "backdoor" attack samples to commonly used generative replay and regularization based continual learning approaches using continual learning benchmark variants of MNIST, as well as the more challenging SVHN and CIFAR 10 datasets. Perhaps most damaging, we show this vulnerability to be very acute and exceptionally effective: the backdoor pattern in our attack model can be imperceptible to human eye, can be provided at any point in time, can be added into the training data of even a single possibly unrelated task and can be achieved with as few as just 1\% of total training dataset of a single task. | 翻訳日:2022-02-10 16:09:38 公開日:2022-02-09 |
# Recurrent Spectral Network (RSN): 離散写像のアトラクションの流域を自動分類するために形成する Recurrent Spectral Network (RSN): shaping the basin of attraction of a discrete map to reach automated classification ( http://arxiv.org/abs/2202.04497v1 ) ライセンス: Link先を確認 | Lorenzo Chicchi, Duccio Fanelli, Lorenzo Giambagli, Lorenzo Buffoni, Timoteo Carletti | (参考訳) 異なるカテゴリに属するアイテムを異なる漸近的アトラクタに向けて操るために、完全に訓練された力学系を利用する新しい分類戦略が導入された。
これらの後者は、処理ネットワーク全体にわたる線形進化を規定する演算子のスペクトル分解を利用して、モデルに組み込まれている。
非線形項は、トランジェントに作用し、離散力学系に初期条件として供給されるデータを分離し、異なるアトラクタの境界を形成する。
このネットワークは、シリアルデータセット処理のためにシーケンシャルにアクティベートできる複数のメモリカーネルを備えることができる。
我々の新しい分類手法であるRecurrent Spectral Network (RSN) は、画像処理訓練のための標準データセットと同様に、図形的な目的のために作成された単純なテストベッドモデルに挑戦することに成功した。 A novel strategy to automated classification is introduced which exploits a fully trained dynamical system to steer items belonging to different categories toward distinct asymptotic attractors. These latter are incorporated into the model by taking advantage of the spectral decomposition of the operator that rules the linear evolution across the processing network. Non-linear terms act for a transient and allow to disentangle the data supplied as initial condition to the discrete dynamical system, shaping the boundaries of different attractors. The network can be equipped with several memory kernels which can be sequentially activated for serial datasets handling. Our novel approach to classification, that we here term Recurrent Spectral Network (RSN), is successfully challenged against a simple test-bed model, created for illustrative purposes, as well as a standard dataset for image processing training. | 翻訳日:2022-02-10 16:09:20 公開日:2022-02-09 |
# 物体検出タスクとしての軽量ジェットの再構成と同定 Lightweight Jet Reconstruction and Identification as an Object Detection Task ( http://arxiv.org/abs/2202.04499v1 ) ライセンス: Link先を確認 | Adrian Alan Pol, Thea Aarrestad, Ekaterina Govorkova, Roi Halily, Anat Klempner, Tal Kopetz, Vladimir Loncar, Jennifer Ngadiuba, Maurizio Pierini, Olya Sirkin, Sioni Summers | (参考訳) 我々は,CERN大型ハドロン衝突型加速器(LHC)で遭遇した端端から端までのジェットの識別と再構成作業に,深部畳み込みブロックに基づく物体検出技術を適用した。
LHCで発生し、カロリーメータとトラッカーセルからなる画像として表される衝突事象は、シングルショット検出ネットワークへの入力として与えられる。
PFJet-SSDと名付けられたこのアルゴリズムは、クラスタジェットへの同時ローカライゼーション、分類、回帰タスクを実行し、特徴を再構築する。
このオールインワンのフィードフォワードパスは、実行時間と従来のルールベースの手法による精度の向上という面で利点がある。
ネットワークのスリム化、均質量子化、および典型的なリアルタイム処理環境のメモリとレイテンシの制約を満たす最適化されたランタイムからさらに利益を得る。
8ビットおよび3進量子化を実験し、その精度と推論レイテンシを単一精度浮動小数点に対してベンチマークした。
3次ネットワークは、その完全精度の等価な性能と密に一致し、最先端のルールベースアルゴリズムより優れていることを示す。
最後に,様々なハードウェアプラットフォームにおける推論遅延を報告し,今後のアプリケーションについて考察する。 We apply object detection techniques based on deep convolutional blocks to end-to-end jet identification and reconstruction tasks encountered at the CERN Large Hadron Collider (LHC). Collision events produced at the LHC and represented as an image composed of calorimeter and tracker cells are given as an input to a Single Shot Detection network. The algorithm, named PFJet-SSD performs simultaneous localization, classification and regression tasks to cluster jets and reconstruct their features. This all-in-one single feed-forward pass gives advantages in terms of execution time and an improved accuracy w.r.t. traditional rule-based methods. A further gain is obtained from network slimming, homogeneous quantization, and optimized runtime for meeting memory and latency constraints of a typical real-time processing environment. We experiment with 8-bit and ternary quantization, benchmarking their accuracy and inference latency against a single-precision floating-point. We show that the ternary network closely matches the performance of its full-precision equivalent and outperforms the state-of-the-art rule-based algorithm. Finally, we report the inference latency on different hardware platforms and discuss future applications. | 翻訳日:2022-02-10 16:09:03 公開日:2022-02-09 |
# 入力スパーシティ時間におけるテンソル製品行列のレバレッジスコアサンプリング Leverage Score Sampling for Tensor Product Matrices in Input Sparsity Time ( http://arxiv.org/abs/2202.04515v1 ) ライセンス: Link先を確認 | David P. Woodruff, Amir Zandieh | (参考訳) ほぼ最適なサンプル数を用いて,$q$-foldカラムワイドテンソル積の$q$-foldカラムワイドテンソル積に対応するGram行列をスペクトル近似するための入力空間時間サンプリングアルゴリズムを提案し,ポリ$(q)$因子によるすべての既知手法を改善した。
さらに、次数-$q$多項式カーネルの特徴行列であるデータセットの$q$-foldセルフテンソル化に関する重要な特別な注意として、この方法のランタイムの主項はデータセットのサイズに比例し、$q$に依存しない。
以前のテクニックは、実行時にpoly$(q)$ Factorのスローダウンを発生させたり、最適以下のターゲット次元を持つために$q$への依存を排除したり、実行時のデータポイントの数に2次に依存する。
我々のサンプリング技術は、データセットの$X$に同時に適用できる$q$部分相関ランダムプロジェクションのコレクションに依存しており、これは、$X$のサイズに依存するが、同時に、それらの$q$-fold Kronecker製品は、カラム内の固定ベクトルのほぼ等距離として機能する。
サンプリング手法は,ガウスカーネルやニューラルタンジェントカーネルなど,多項式以外のカーネルに一般化されていることを示す。 We give an input sparsity time sampling algorithm for spectrally approximating the Gram matrix corresponding to the $q$-fold column-wise tensor product of $q$ matrices using a nearly optimal number of samples, improving upon all previously known methods by poly$(q)$ factors. Furthermore, for the important special care of the $q$-fold self-tensoring of a dataset, which is the feature matrix of the degree-$q$ polynomial kernel, the leading term of our method's runtime is proportional to the size of the dataset and has no dependence on $q$. Previous techniques either incur a poly$(q)$ factor slowdown in their runtime or remove the dependence on $q$ at the expense of having sub-optimal target dimension, and depend quadratically on the number of data-points in their runtime. Our sampling technique relies on a collection of $q$ partially correlated random projections which can be simultaneously applied to a dataset $X$ in total time that only depends on the size of $X$, and at the same time their $q$-fold Kronecker product acts as a near-isometry for any fixed vector in the column span of $X^{\otimes q}$. We show that our sampling methods generalize to other classes of kernels beyond polynomial, such as Gaussian and Neural Tangent kernels. | 翻訳日:2022-02-10 16:08:20 公開日:2022-02-09 |
# 神経せん断拡散 : GNNにおける異所性および過スムージングのトポロジー的展望 Neural Sheaf Diffusion: A Topological Perspective on Heterophily and Oversmoothing in GNNs ( http://arxiv.org/abs/2202.04579v1 ) ライセンス: Link先を確認 | Cristian Bodnar, Francesco Di Giovanni, Benjamin Paul Chamberlain, Pietro Li\`o, Michael M. Bronstein | (参考訳) セルラーシーブはベクトル空間と線型写像をノードとエッジに割り当てることで「幾何学的」構造を持つ。
グラフニューラルネットワーク(GNN)は、自明な下層のグラフを暗黙的に仮定する。
この選択はグラフラプラス作用素の構造、関連する拡散方程式の性質、およびこの方程式を識別する畳み込みモデルの特徴に反映される。
本稿では, セルラーシーフ理論を用いて, グラフの基盤となる形状が, ヘテロ親水性環境におけるGNNの性能と過度な挙動と深く関連していることを示す。
ますます一般的な層階層の階層を考えることで,層拡散過程が無限の時間極限におけるクラスを線形に分離する能力がいかに拡大するかを考察する。
同時に, 層が非自明である場合, 離散パラメトリック拡散過程は, 漸近的挙動よりもgnnよりも制御性が高いことを証明した。
実践面では,層がデータからどのように学べるかを考察する。
得られた層拡散モデルには、古典的グラフ拡散方程式(および対応するGNNモデル)の極限に対処し、異種親和性のある状態が得られる多くの望ましい性質がある。
全体として、我々の研究は、GNNと代数的トポロジーの間の新たな接続を提供し、両方の分野に興味を持つだろう。 Cellular sheaves equip graphs with "geometrical" structure by assigning vector spaces and linear maps to nodes and edges. Graph Neural Networks (GNNs) implicitly assume a graph with a trivial underlying sheaf. This choice is reflected in the structure of the graph Laplacian operator, the properties of the associated diffusion equation, and the characteristics of the convolutional models that discretise this equation. In this paper, we use cellular sheaf theory to show that the underlying geometry of the graph is deeply linked with the performance of GNNs in heterophilic settings and their oversmoothing behaviour. By considering a hierarchy of increasingly general sheaves, we study how the ability of the sheaf diffusion process to achieve linear separation of the classes in the infinite time limit expands. At the same time, we prove that when the sheaf is non-trivial, discretised parametric diffusion processes have greater control than GNNs over their asymptotic behaviour. On the practical side, we study how sheaves can be learned from data. The resulting sheaf diffusion models have many desirable properties that address the limitations of classical graph diffusion equations (and corresponding GNN models) and obtain state-of-the-art results in heterophilic settings. Overall, our work provides new connections between GNNs and algebraic topology and would be of interest to both fields. | 翻訳日:2022-02-10 16:07:53 公開日:2022-02-09 |
# IQCと共正乗算器によるリカレントニューラルネットワークの安定性解析 Stability Analysis of Recurrent Neural Networks by IQC with Copositive Mutipliers ( http://arxiv.org/abs/2202.04592v1 ) ライセンス: Link先を確認 | Yoshio Ebihara and Hayato Waki and Victor Magron and Ngoc Hoang Anh Mai and Dimitri Peaucelle and Sophie Tarbouriech | (参考訳) 本稿では,iqc(integral quadratic constraints)フレームワークを用いて,リカレントニューラルネットワーク(recurrent neural networks,rnns)の安定性解析を行う。
整流線形ユニット(ReLU)は一般にRNNの活性化関数として使用され、ReLUはその入力および出力信号に関する特定の非負性特性を持つ。
したがって、そのような非負性特性を扱う乗算器でIQCに基づく安定性条件を導出できれば有効である。
しかし、そのような非負性(線型)性質は、正の半定値円錐上で定義される既存の乗算器にはほとんど捉えられない。
この困難を回避するために、正の正の半定円錐を正の錐にゆるめ、非負性特性を捉えるために正の乗数を用いる。
IQCの枠組み内では、Zames-Falb乗数やポリトープ有界乗数などの既存の乗数とともに、コ陽性乗数(あるいはその内部近似)を用いることで、コ陽性乗数の導入がより良い(より保守的な)結果をもたらすことを直接的に保証できることを示す。
最後に, iqcに基づく安定条件と共陽性乗算器の有効性を数値例で示す。 This paper is concerned with the stability analysis of the recurrent neural networks (RNNs) by means of the integral quadratic constraint (IQC) framework. The rectified linear unit (ReLU) is typically employed as the activation function of the RNN, and the ReLU has specific nonnegativity properties regarding its input and output signals. Therefore, it is effective if we can derive IQC-based stability conditions with multipliers taking care of such nonnegativity properties. However, such nonnegativity (linear) properties are hardly captured by the existing multipliers defined on the positive semidefinite cone. To get around this difficulty, we loosen the standard positive semidefinite cone to the copositive cone, and employ copositive multipliers to capture the nonnegativity properties. We show that, within the framework of the IQC, we can employ copositive multipliers (or their inner approximation) together with existing multipliers such as Zames-Falb multipliers and polytopic bounding multipliers, and this directly enables us to ensure that the introduction of the copositive multipliers leads to better (no more conservative) results. We finally illustrate the effectiveness of the IQC-based stability conditions with the copositive multipliers by numerical examples. | 翻訳日:2022-02-10 16:07:29 公開日:2022-02-09 |
# リアルタイムイベントベース海洋環境の追跡・検出 Real-Time Event-Based Tracking and Detection for Maritime Environments ( http://arxiv.org/abs/2202.04231v1 ) ライセンス: Link先を確認 | Stephanie Aelmore, Richard C. Ordonez, Shibin Parameswaran, Justin Mauger | (参考訳) イベントカメラは、レイテンシとデータの冗長性を緩和しながら、素早く動くオブジェクトをキャプチャできるため、オブジェクト追跡アプリケーションに最適である。
監視とオブジェクト検出のための既存のイベントベースのクラスタリングと特徴追跡アプローチは、ほとんどのケースでうまく機能するが、海洋環境では不足する。
海上船舶の検知・追跡の応用には,特徴を識別し,その特徴が船によって生成された可能性を示す信頼スコアを出力するプロセスが必要である。
しかし, 海洋環境は, 波動による事象の多数発生傾向, 計算処理の大部分の要求, 偽陽性検出など, 独特な課題を呈している。
冗長なイベントをフィルタリングし、各イベントクラスタの動きを分析することで、波によって生成されたような短命で不規則な特徴を無視しながら、船舶を特定し、追跡することができる。 Event cameras are ideal for object tracking applications due to their ability to capture fast-moving objects while mitigating latency and data redundancy. Existing event-based clustering and feature tracking approaches for surveillance and object detection work well in the majority of cases, but fall short in a maritime environment. Our application of maritime vessel detection and tracking requires a process that can identify features and output a confidence score representing the likelihood that the feature was produced by a vessel, which may trigger a subsequent alert or activate a classification system. However, the maritime environment presents unique challenges such as the tendency of waves to produce the majority of events, demanding the majority of computational processing and producing false positive detections. By filtering redundant events and analyzing the movement of each event cluster, we can identify and track vessels while ignoring shorter lived and erratic features such as those produced by waves. | 翻訳日:2022-02-10 16:07:05 公開日:2022-02-09 |
# (参考訳) オートエンコーダのボトルネック表現における冗長性の低減 Reducing Redundancy in the Bottleneck Representation of the Autoencoders ( http://arxiv.org/abs/2202.04629v1 ) ライセンス: CC BY 4.0 | Firas Laakom, Jenni Raitoharju, Alexandros Iosifidis and Moncef Gabbouj | (参考訳) オートエンコーダ(autoencoder)は教師なしニューラルネットワークの一種であり、次元の縮小、画像圧縮、画像のデノージングなど、さまざまなタスクの解決に使用できる。
AEには2つの目標があります。
(i)エンコーダを用いてネットワークトポロジーのボトルネック時に、元の入力を低次元空間に圧縮する。
(ii)デコーダを用いてボトルネックの表現から入力を再構成する。
エンコーダとデコーダは共に、歪みに基づく損失を最小限に抑え、モデルに、再構成と冗長性の低減に必要な入力データのバリエーションだけを暗黙的に保持させる。
本稿では,ボトルネック表現における特徴冗長性を明示する手法を提案する。
そこで本研究では,エンコーダがより多様でリッチな入力表現を学習させる標準的な再構成損失を補完する,ニューロンの対方向相関に基づく新たな損失項を提案する。
我々は,3つの異なるデータセットを用いた次元削減,MNISTデータセットを用いた画像圧縮,ファッションMNISTを用いた画像デノナイズという,さまざまなタスクにまたがってアプローチを検証した。
実験結果から,提案した損失は標準AE損失よりも常に優れた性能を示すことが示された。 Autoencoders are a type of unsupervised neural networks, which can be used to solve various tasks, e.g., dimensionality reduction, image compression, and image denoising. An AE has two goals: (i) compress the original input to a low-dimensional space at the bottleneck of the network topology using an encoder, (ii) reconstruct the input from the representation at the bottleneck using a decoder. Both encoder and decoder are optimized jointly by minimizing a distortion-based loss which implicitly forces the model to keep only those variations of input data that are required to reconstruct the and to reduce redundancies. In this paper, we propose a scheme to explicitly penalize feature redundancies in the bottleneck representation. To this end, we propose an additional loss term, based on the pair-wise correlation of the neurons, which complements the standard reconstruction loss forcing the encoder to learn a more diverse and richer representation of the input. We tested our approach across different tasks: dimensionality reduction using three different dataset, image compression using the MNIST dataset, and image denoising using fashion MNIST. The experimental results show that the proposed loss leads consistently to superior performance compared to the standard AE loss. | 翻訳日:2022-02-10 16:04:22 公開日:2022-02-09 |
# (参考訳) 最適化における再現性:理論的枠組みと限界 Reproducibility in Optimization: Theoretical Framework and Limits ( http://arxiv.org/abs/2202.04598v1 ) ライセンス: CC BY 4.0 | Kwangjun Ahn, Prateek Jain, Ziwei Ji, Satyen Kale, Praneeth Netrapalli, Gil I. Shamir | (参考訳) 最適化における再現性に関する正式な研究を開始する。
ノイズやエラーが発生しやすい操作,例えば不完全あるいは確率的勾配計算や不完全初期化といった,最適化手順の再現性の定量的尺度を定義した。
次に、滑らか、非滑らか、強凸な目的関数などの凸最適化設定を解析し、各設定における再現性限界の厳密な境界を確立する。
我々の分析では、計算と再現性の間には根本的なトレードオフがあり、再現性を改善するためにはより多くの計算が必要である(そして十分)。 We initiate a formal study of reproducibility in optimization. We define a quantitative measure of reproducibility of optimization procedures in the face of noisy or error-prone operations such as inexact or stochastic gradient computations or inexact initialization. We then analyze several convex optimization settings of interest such as smooth, non-smooth, and strongly-convex objective functions and establish tight bounds on the limits of reproducibility in each setting. Our analysis reveals a fundamental trade-off between computation and reproducibility: more computation is necessary (and sufficient) for better reproducibility. | 翻訳日:2022-02-10 15:44:47 公開日:2022-02-09 |
# ラベルノイズ対策のためのブートストラップ学習 Learning to Bootstrap for Combating Label Noise ( http://arxiv.org/abs/2202.04291v1 ) ライセンス: Link先を確認 | Yuyin Zhou, Xianhang Li, Fengze Liu, Xuxi Chen, Lequan Yu, Cihang Xie, Matthew P. Lungren, Lei Xing | (参考訳) ディープニューラルネットワークは、表現学習のための強力なツールだが、現実の多くのシナリオでよく見られるノイズの多いラベルに簡単に適合できる。
一般的に、騒々しい監視は、ラベルのバリエーション、敵によるラベルの破損などに起因する可能性がある。
このようなラベルノイズに対処するためには、トレーニングインスタンスにカスタマイズされた重みを適用して、破損した例がモデル学習に寄与しないようにするのが一般的なアプローチである。
しかし、そのような学習機構は、データ分布に関する重要な情報を消去し、従って準最適結果をもたらす可能性がある。
破損したインスタンスから有用な情報を活用するために、ネットワーク自身の予測(擬似ラベル)を組み込むことで、新たなトレーニングターゲットをオンザフライで再構築するブートストラップロスがある。
本稿では,インスタンスとラベルの同時重み付けを可能にする,より汎用的な学習可能な損失目標を提案する。
具体的には,実測ラベルと擬似ラベル間のサンプルごとの重み付けを動的に調整し,その重み付けをメタプロセスで効率的に決定する。
従来のインスタンス再重み付け手法と比較して,提案手法は暗黙のレバリングを同時に行うため,ほぼ余分なコストで大幅な改善が得られた。
広範な実験結果から,cifar-10,cifar-100,isic2019,wears 1mなど,複数の自然画像および医用画像ベンチマークデータセットにおける既存手法に対する我々のアプローチの強みが示された。
コードはhttps://github.com/yuyinzhou/L2Bで公開されている。 Deep neural networks are powerful tools for representation learning, but can easily overfit to noisy labels which are prevalent in many real-world scenarios. Generally, noisy supervision could stem from variation among labelers, label corruption by adversaries, etc. To combat such label noises, one popular line of approach is to apply customized weights to the training instances, so that the corrupted examples contribute less to the model learning. However, such learning mechanisms potentially erase important information about the data distribution and therefore yield suboptimal results. To leverage useful information from the corrupted instances, an alternative is the bootstrapping loss, which reconstructs new training targets on-the-fly by incorporating the network's own predictions (i.e., pseudo-labels). In this paper, we propose a more generic learnable loss objective which enables a joint reweighting of instances and labels at once. Specifically, our method dynamically adjusts the per-sample importance weight between the real observed labels and pseudo-labels, where the weights are efficiently determined in a meta process. Compared to the previous instance reweighting methods, our approach concurrently conducts implicit relabeling, and thereby yield substantial improvements with almost no extra cost. Extensive experimental results demonstrated the strengths of our approach over existing methods on multiple natural and medical image benchmark datasets, including CIFAR-10, CIFAR-100, ISIC2019 and Clothing 1M. The code is publicly available at https://github.com/yuyinzhou/L2B. | 翻訳日:2022-02-10 15:43:29 公開日:2022-02-09 |
# 物体検出事前学習のための点レベル領域コントラスト Point-Level Region Contrast for Object Detection Pre-Training ( http://arxiv.org/abs/2202.04639v1 ) ライセンス: Link先を確認 | Yutong Bai, Xinlei Chen, Alexander Kirillov, Alan Yuille, Alexander C. Berg | (参考訳) 本研究では,物体検出作業のための自己指導型事前学習手法である点レベル領域コントラストを提案する。
このアプローチは、検出における2つの重要な要因であるローカライゼーションと認識によって動機付けられる。
正確なローカライゼーションはピクセルレベルのモデルやポイントレベルのモデルを好むが、正しい認識は一般的にオブジェクトのより総合的で領域レベルのビューに依存する。
この視点を事前学習に取り入れることで,各領域の個別点対を直接抽出し,コントラスト学習を行う。
地域ごとの集約表現と比較して入力領域の品質の変化に対して,我々のアプローチはより堅牢であり,トレーニング中のオンライン知識蒸留による初期領域割り当てを暗黙的に改善することができる。
どちらの利点も、教師なし環境で遭遇する不完全な領域を扱う際に重要である。
実験により,複数のタスクやデータセットにまたがる物体の検出とセグメンテーションのための最先端の事前学習手法における点レベル領域のコントラストの改善が示された。
コードは利用可能になる。 In this work we present point-level region contrast, a self-supervised pre-training approach for the task of object detection. This approach is motivated by the two key factors in detection: localization and recognition. While accurate localization favors models that operate at the pixel- or point-level, correct recognition typically relies on a more holistic, region-level view of objects. Incorporating this perspective in pre-training, our approach performs contrastive learning by directly sampling individual point pairs from different regions. Compared to an aggregated representation per region, our approach is more robust to the change in input region quality, and further enables us to implicitly improve initial region assignments via online knowledge distillation during training. Both advantages are important when dealing with imperfect regions encountered in the unsupervised setting. Experiments show point-level region contrast improves on state-of-the-art pre-training methods for object detection and segmentation across multiple tasks and datasets, and we provide extensive ablation studies and visualizations to aid understanding. Code will be made available. | 翻訳日:2022-02-10 15:43:04 公開日:2022-02-09 |
# 製品出荷の最適ボックスサイズ選択のための決定木フレームワーク A decision-tree framework to select optimal box-sizes for product shipments ( http://arxiv.org/abs/2202.04277v1 ) ライセンス: Link先を確認 | Karthik S. Gurumoorthy, Abhiraj Hinge | (参考訳) パッケージ処理施設では、さまざまなサイズの箱を使って製品を出荷している。
箱の寸法が製品寸法よりもはるかに大きい不適切な大きさの箱は、無駄を発生させ、運送コストを不当に増加させる。
nドルの製品ごとに独自でカスタマイズされた箱を作るのは不可能であるため、eコマース企業と直面する基本的な問題は次のとおりである。
本稿では,箱ごとの製品1個を2段階に分けた単価出荷のソリューションを提案する。
(i)各クラスタが特定のサイズの変種で出荷される製品群に対応する長さ、幅、高さの3ドル次元空間におけるクラスタリング問題に還元し、
(ii)これらの$k$クラスタと対応するボックス次元を得るために、計算複雑性が低い効率的なフォワードバックワード決定木ベースのクラスタリング手法をn$と$k$で提示する。
アルゴリズムには複数の構成部品があり、それぞれが高品質なクラスタリングソリューションを実現するために特別に設計されている。
提案手法は,現在のソリューションを捨てることなく,段階的にクラスタを生成するため,後方通過を早期に停止するか,あるいは1回のイテレーションで実行するのと同じくらい,サイズ変種の追加や削除は簡単である。
提案するボックスディメンションを用いて,amazonが1ヶ月間に輸送した単数出荷をシミュレーションし,本手法の有効性を検証した。
既存の箱の寸法を変更して、新しいサイズの変更を加えなくても、出荷量で4.4\%$の削減を達成し、使用されていない空気量スペースを2.2\%$に削減しました。
出荷量と空気量の減少は、さらに4ドル追加の箱を導入すると、10.3\%$と6.1\%$へと大幅に改善された。 In package-handling facilities, boxes of varying sizes are used to ship products. Improperly sized boxes with box dimensions much larger than the product dimensions create wastage and unduly increase the shipping costs. Since it is infeasible to make unique, tailor-made boxes for each of the $N$ products, the fundamental question that confronts e-commerce companies is: How many $K << N$ cuboidal boxes need to manufactured and what should be their dimensions? In this paper, we propose a solution for the single-count shipment containing one product per box in two steps: (i) reduce it to a clustering problem in the $3$ dimensional space of length, width and height where each cluster corresponds to the group of products that will be shipped in a particular size variant, and (ii) present an efficient forward-backward decision tree based clustering method with low computational complexity on $N$ and $K$ to obtain these $K$ clusters and corresponding box dimensions. Our algorithm has multiple constituent parts, each specifically designed to achieve a high-quality clustering solution. As our method generates clusters in an incremental fashion without discarding the present solution, adding or deleting a size variant is as simple as stopping the backward pass early or executing it for one more iteration. We tested the efficacy of our approach by simulating actual single-count shipments that were transported during a month by Amazon using the proposed box dimensions. Even by just modifying the existing box dimensions and not adding a new size variant, we achieved a reduction of $4.4\%$ in the shipment volume, contributing to the decrease in non-utilized, air volume space by $2.2\%$. The reduction in shipment volume and air volume improved significantly to $10.3\%$ and $6.1\%$ when we introduced $4$ additional boxes. | 翻訳日:2022-02-10 15:42:18 公開日:2022-02-09 |
# バンディットフィードバックを用いた最適クラスタリング Optimal Clustering with Bandit Feedback ( http://arxiv.org/abs/2202.04294v1 ) ライセンス: Link先を確認 | Junwen Yang, Zixin Zhong, Vincent Y. F. Tan | (参考訳) 本稿では,バンディットフィードバックを用いたオンラインクラスタリングの問題点について考察する。
一組の腕(またはアイテム)は、未知の様々なグループに分割することができる。
各グループ内では、各腕に関連付けられた観測は、同じ平均ベクトルを持つ同じ分布に従う。
それぞれの時間ステップで、エージェントは腕をクエリまたはプルし、関連する分布から独立した観察を得る。
その後のプルは、前回取得したサンプルだけでなく、前回のものにも依存する。
エージェントのタスクは、最小数のアームプルと、所定の定数$\delta$を超えないエラーの確率で、腕の基本的な分割を明らかにすることである。
提案する問題は、ウイルスの変異のクラスタリングからオンライン市場セグメンテーションまで、数多くの応用を見出した。
本稿では,本課題に期待されるサンプル複雑性について,インスタンス依存情報理論下限を示し,計算効率と漸近的最適アルゴリズム,すなわちbandit online clustering (boc) を設計する。
このアルゴリズムは適応逐次テストのための新しい停止規則を含み、npハード重み付きクラスタリング問題をサブルーチンとして正確に解決する必要性を回避している。
合成および実世界のデータセットの広範なシミュレーションを通して、BOCの性能は漸近的に下界と一致し、非適応ベースラインアルゴリズムを著しく上回ることを示す。 This paper considers the problem of online clustering with bandit feedback. A set of arms (or items) can be partitioned into various groups that are unknown. Within each group, the observations associated to each of the arms follow the same distribution with the same mean vector. At each time step, the agent queries or pulls an arm and obtains an independent observation from the distribution it is associated to. Subsequent pulls depend on previous ones as well as the previously obtained samples. The agent's task is to uncover the underlying partition of the arms with the least number of arm pulls and with a probability of error not exceeding a prescribed constant $\delta$. The problem proposed finds numerous applications from clustering of variants of viruses to online market segmentation. We present an instance-dependent information-theoretic lower bound on the expected sample complexity for this task, and design a computationally efficient and asymptotically optimal algorithm, namely Bandit Online Clustering (BOC). The algorithm includes a novel stopping rule for adaptive sequential testing that circumvents the need to exactly solve any NP-hard weighted clustering problem as its subroutines. We show through extensive simulations on synthetic and real-world datasets that BOC's performance matches the lower bound asymptotically, and significantly outperforms a non-adaptive baseline algorithm. | 翻訳日:2022-02-10 15:40:05 公開日:2022-02-09 |
# 時間外挿における勾配降下の暗黙的バイアスについて On the Implicit Bias of Gradient Descent for Temporal Extrapolation ( http://arxiv.org/abs/2202.04302v1 ) ライセンス: Link先を確認 | Edo Cohen-Karlik, Avichai Ben David, Nadav Cohen and Amir Globerson | (参考訳) リカレントニューラルネットワーク(RNN)を使用する一般的なプラクティスは、トレーニングで見られるものよりも長いシーケンスにモデルを適用することだ。
この「抽出」使用法は、列車とテストの分布が同一であると仮定して保証が提供される従来の統計学習装置から逸脱する。
ここでは、rnnがいつ外挿可能かを理解し、データ生成分布がメモリレスな単純なケースに注目した。
まず、無限のトレーニングデータであっても、完全に補間する(つまり、トレーニングデータに適合する)RNNモデルが存在するが、より長いシーケンスに外挿しないことを示す。
次に、勾配降下がトレーニングに使用される場合、学習は初期化の仮定の下で完全な外挿に収束することを示す。
本研究は,勾配降下の暗黙的バイアスに関する最近の研究を補完するものであり,時間的予測モデル学習における外挿において重要な役割を担っている。 Common practice when using recurrent neural networks (RNNs) is to apply a model to sequences longer than those seen in training. This "extrapolating" usage deviates from the traditional statistical learning setup where guarantees are provided under the assumption that train and test distributions are identical. Here we set out to understand when RNNs can extrapolate, focusing on a simple case where the data generating distribution is memoryless. We first show that even with infinite training data, there exist RNN models that interpolate perfectly (i.e., they fit the training data) yet extrapolate poorly to longer sequences. We then show that if gradient descent is used for training, learning will converge to perfect extrapolation under certain assumption on initialization. Our results complement recent studies on the implicit bias of gradient descent, showing that it plays a key role in extrapolation when learning temporal prediction models. | 翻訳日:2022-02-10 15:39:45 公開日:2022-02-09 |
# 状態のみ分布マッチングによる模倣学習 Imitation Learning by State-Only Distribution Matching ( http://arxiv.org/abs/2202.04332v1 ) ライセンス: Link先を確認 | Damian Boborzi, Christoph-Nikolas Straehle, Jens S. Buchner, Lars Mikelsons | (参考訳) 観察からの模倣学習は、人間の学習と同様の方法で政策学習を記述する。
エージェントの方針は、タスクを実行する専門家を観察して訓練される。
多くの状態限定の模倣学習アプローチは、敵対的模倣学習に基づいているが、主な欠点は、敵対的訓練はしばしば不安定であり、信頼できる収束推定器が欠けていることである。
真の環境報酬が不明で、最高のパフォーマンスモデルの選択に使用できない場合、実際のポリシーパフォーマンスが悪くなる可能性がある。
本稿では,非会話的観察学習手法と,解釈可能な収束と性能指標を提案する。
我々の訓練目的は、非敵対的な方法で最適化可能な政策と専門家状態遷移軌跡間のKLD(Kulback-Leibler divergence)を最小化する。
このような手法は、学習された密度モデルが最適化を導くとき、ロバスト性の向上を示す。
さらに,環境の前方および後方のダイナミクスを推定する付加密度モデルを用いて,修正報酬に基づいて,kld最小化をソフトアクタ批判対象として書き換えることで,サンプル効率をさらに向上させる。
最後に,本手法がよく知られた連続制御環境において有効であることを示すとともに,近年の学習・観測手法と比較して信頼性の高い性能評価を行う。 Imitation Learning from observation describes policy learning in a similar way to human learning. An agent's policy is trained by observing an expert performing a task. While many state-only imitation learning approaches are based on adversarial imitation learning, one main drawback is that adversarial training is often unstable and lacks a reliable convergence estimator. If the true environment reward is unknown and cannot be used to select the best-performing model, this can result in bad real-world policy performance. We propose a non-adversarial learning-from-observations approach, together with an interpretable convergence and performance metric. Our training objective minimizes the Kulback-Leibler divergence (KLD) between the policy and expert state transition trajectories which can be optimized in a non-adversarial fashion. Such methods demonstrate improved robustness when learned density models guide the optimization. We further improve the sample efficiency by rewriting the KLD minimization as the Soft Actor Critic objective based on a modified reward using additional density models that estimate the environment's forward and backward dynamics. Finally, we evaluate the effectiveness of our approach on well-known continuous control environments and show state-of-the-art performance while having a reliable performance estimator compared to several recent learning-from-observation methods. | 翻訳日:2022-02-10 15:39:27 公開日:2022-02-09 |
# 非ロバストネットワークへの勾配収束法 Gradient Methods Provably Converge to Non-Robust Networks ( http://arxiv.org/abs/2202.04347v1 ) ライセンス: Link先を確認 | Gal Vardi, Gilad Yehudai, Ohad Shamir | (参考訳) 膨大な研究にもかかわらず、なぜニューラルネットワークが敵の例の影響を受けやすいのかは不明だ。
本研究では,学習用データセットを正しく分類するロバストなネットワークが存在する場合でも,勾配流を訓練した深さ2$のreluネットワークが非ロバスト(小さな敵である$\ell_2$-perturbation)であることを保証する。
おそらく驚くべきことに、マージン最大化に対するよく知られた暗黙の偏見は、最大マージン問題のKKT条件を満たす全てのネットワークが非ロバストであることを証明することによって、非ロバストネットワークに対する偏見を引き起こす。 Despite a great deal of research, it is still unclear why neural networks are so susceptible to adversarial examples. In this work, we identify natural settings where depth-$2$ ReLU networks trained with gradient flow are provably non-robust (susceptible to small adversarial $\ell_2$-perturbations), even when robust networks that classify the training dataset correctly exist. Perhaps surprisingly, we show that the well-known implicit bias towards margin maximization induces bias towards non-robust networks, by proving that every network which satisfies the KKT conditions of the max-margin problem is non-robust. | 翻訳日:2022-02-10 15:39:08 公開日:2022-02-09 |
# MBCT:個々の不確実性校正のための木に基づく特徴認識バインディング MBCT: Tree-Based Feature-Aware Binning for Individual Uncertainty Calibration ( http://arxiv.org/abs/2202.04348v1 ) ライセンス: Link先を確認 | Siguang Huang, Yunli Wang, Lili Mou, Huayue Zhang, Han Zhu, Chuan Yu, Bo Zheng | (参考訳) ほとんどの機械学習分類器は分類精度のみを気にするが、特定の応用(医学診断、気象予測、計算広告など)では、校正推定と呼ばれる真の確率を予測するためにモデルを必要とする。
従来の研究では、予測器の出力を処理後、ビンニングやスケーリング法などの校正値を得るためのいくつかの校正法を開発した。
スケーリングと比較して、バイナリ法は分布のない理論的保証を持ち、キャリブレーションのためのバイナリ法を好む動機がある。
しかし、既存のバイナリメソッドにはいくつかの欠点がある。
(a)ビンニング方式は、元の予測値のみを考慮し、キャリブレーション性能を制限し、
(b) ビンニングアプローチは非個別であり、ビン内の複数のサンプルを同じ値にマッピングするので、順序に敏感なアプリケーションには適さない。
本稿では,Multiple Boosting Calibration Trees (MBCT) と呼ばれる特徴認識型バイナリフレームワークと,上記の問題に対処するための多視点キャリブレーション損失を提案する。
mbctは特徴のツリー構造によってバイナリスキームを最適化し,木ノードに線形関数を適用し,個々のキャリブレーションを実現する。
MBCTは非単調であり,学習可能なビンニング方式と個々のキャリブレーションにより順序精度を向上させる可能性がある。
異なる分野の3つのデータセットについて総合的な実験を行う。
その結果,本手法はキャリブレーション誤差と順序精度の両方で競合するモデルよりも優れていることがわかった。
また、シミュレーション実験を行い、提案したマルチビューキャリブレーション損失がキャリブレーション誤差のモデル化においてより良い指標であることを正当化する。 Most machine learning classifiers only concern classification accuracy, while certain applications (such as medical diagnosis, meteorological forecasting, and computation advertising) require the model to predict the true probability, known as a calibrated estimate. In previous work, researchers have developed several calibration methods to post-process the outputs of a predictor to obtain calibrated values, such as binning and scaling methods. Compared with scaling, binning methods are shown to have distribution-free theoretical guarantees, which motivates us to prefer binning methods for calibration. However, we notice that existing binning methods have several drawbacks: (a) the binning scheme only considers the original prediction values, thus limiting the calibration performance; and (b) the binning approach is non-individual, mapping multiple samples in a bin to the same value, and thus is not suitable for order-sensitive applications. In this paper, we propose a feature-aware binning framework, called Multiple Boosting Calibration Trees (MBCT), along with a multi-view calibration loss to tackle the above issues. Our MBCT optimizes the binning scheme by the tree structures of features, and adopts a linear function in a tree node to achieve individual calibration. Our MBCT is non-monotonic, and has the potential to improve order accuracy, due to its learnable binning scheme and the individual calibration. We conduct comprehensive experiments on three datasets in different fields. Results show that our method outperforms all competing models in terms of both calibration error and order accuracy. We also conduct simulation experiments, justifying that the proposed multi-view calibration loss is a better metric in modeling calibration error. | 翻訳日:2022-02-10 15:38:56 公開日:2022-02-09 |
# 限定スペクトルデータの説明可能な予測モデル Explainable Predictive Modeling for Limited Spectral Data ( http://arxiv.org/abs/2202.04527v1 ) ライセンス: Link先を確認 | Frantishek Akulich, Hadis Anahideh, Manaf Sheyyab, Dhananjay Ambre | (参考訳) 限定的な観察を持つ高次元ラベル付きデータの特徴選択は、ドメインエキスパートにとって強力な予測モデリングをアクセスしやすく、スケーラブルで、解釈可能なものにするために重要である。
物質と電磁放射の相互作用を記録する分光データは、特に1つのサンプルに多くの情報を保持している。
このような高次元データの取得は複雑な作業であるため、最適な分析ツールを用いて必要な情報を抽出することが重要である。
本稿では,高次元および限られたスペクトルデータの予測結果を解釈するために,最もよく用いられる特徴選択手法について検討し,最近の説明可能なAI技術を適用した。
予測結果の解釈は、mlモデルのドメイン知識への透明性と忠実性を保証するため、ドメインエキスパートにとって有益です。
機器分解能の限界により、分光データの重要な領域をピンポイントすることで、分光計装置の小型化によるデータ収集プロセスを最適化する経路が生成される。
デバイスのサイズと電力の削減とそれゆえコストの削減は、そのようなセンサーから予測システム全体の実世界展開の要件である。
我々は,3つの異なるシナリオを具体的に設計し,mlモデルの評価が,開発手法のリアルタイム実行にロバストであることを確認し,最終結果に対するノイズ源の隠れた影響を明らかにする。 Feature selection of high-dimensional labeled data with limited observations is critical for making powerful predictive modeling accessible, scalable, and interpretable for domain experts. Spectroscopy data, which records the interaction between matter and electromagnetic radiation, particularly holds a lot of information in a single sample. Since acquiring such high-dimensional data is a complex task, it is crucial to exploit the best analytical tools to extract necessary information. In this paper, we investigate the most commonly used feature selection techniques and introduce applying recent explainable AI techniques to interpret the prediction outcomes of high-dimensional and limited spectral data. Interpretation of the prediction outcome is beneficial for the domain experts as it ensures the transparency and faithfulness of the ML models to the domain knowledge. Due to the instrument resolution limitations, pinpointing important regions of the spectroscopy data creates a pathway to optimize the data collection process through the miniaturization of the spectrometer device. Reducing the device size and power and therefore cost is a requirement for the real-world deployment of such a sensor-to-prediction system as a whole. We specifically design three different scenarios to ensure that the evaluation of ML models is robust for the real-time practice of the developed methodologies and to uncover the hidden effect of noise sources on the final outcome. | 翻訳日:2022-02-10 15:38:25 公開日:2022-02-09 |
# 多重校正一様収束境界の探索 An Exploration of Multicalibration Uniform Convergence Bounds ( http://arxiv.org/abs/2202.04530v1 ) ライセンス: Link先を確認 | Harrison Rosenberg, Robi Bhattacharjee, Kassem Fawaz, and Somesh Jha | (参考訳) 最近の研究では、公平な機械学習に必要なサンプルの複雑さが研究されている。
そのようなサンプルの複雑性境界の最も進んだ部分は、与えられた予測クラスに対する多重校正均一収束を解析することによって展開される。
本稿では、経験的リスク最小化(ERM)学習のためのサンプル複雑度を再パラメータ化することにより、多重校正誤差の一様収束境界を求めるフレームワークを提案する。
このフレームワークから,マルチキャリブレーションエラーは,分類器アーキテクチャや基礎となるデータ分散に依存することを実証する。
異なる分類器群に対するマルチキャリブレーション誤差の挙動を実験的に検討する。
この評価結果と多重校正誤差濃度境界との比較を行った。
本研究は,アルゴリズム的公平性とマルチキャリブレーション誤差収束限界の両方について,さらなる視点を提供する。
ERMサンプルの複雑性境界の頻度を考慮すると、機械学習の実践者は、無数の分類器アーキテクチャに対する多重校正誤差の収束挙動を容易に理解することができる。 Recent works have investigated the sample complexity necessary for fair machine learning. The most advanced of such sample complexity bounds are developed by analyzing multicalibration uniform convergence for a given predictor class. We present a framework which yields multicalibration error uniform convergence bounds by reparametrizing sample complexities for Empirical Risk Minimization (ERM) learning. From this framework, we demonstrate that multicalibration error exhibits dependence on the classifier architecture as well as the underlying data distribution. We perform an experimental evaluation to investigate the behavior of multicalibration error for different families of classifiers. We compare the results of this evaluation to multicalibration error concentration bounds. Our investigation provides additional perspective on both algorithmic fairness and multicalibration error convergence bounds. Given the prevalence of ERM sample complexity bounds, our proposed framework enables machine learning practitioners to easily understand the convergence behavior of multicalibration error for a myriad of classifier architectures. | 翻訳日:2022-02-10 15:38:03 公開日:2022-02-09 |
# マルチモーダル類似検索のためのアンカーグラフ構造融合ハッシュ Anchor Graph Structure Fusion Hashing for Cross-Modal Similarity Search ( http://arxiv.org/abs/2202.04327v1 ) ライセンス: Link先を確認 | Lu Wang, Jie Yang, Masoumeh Zareapoor, Zhonglong Zheng | (参考訳) 1)既存のCMHメソッドのほとんどは、グラフをモデルデータ分散の入力として取ります。
これらの手法は,多変量間のグラフ構造の相関を考慮せず,(2)既存cmh法は多変量データ間の融合親和性を考慮せず,(3)既存cmh法は離散制約を緩和して最適化目的を解決し,検索性能を著しく低下させる。
上記の制限を解決するために,新しいアンカーグラフ構造融合ハッシュ(AGSFH)を提案する。
AGSFHは、アダマール積と複数のモードの異なるアンカーグラフからアンカーグラフ構造融合行列を構築し、基礎となるデータ構造の幾何学的性質を完全に活用することができる。
アンカーグラフ構造融合行列に基づいて、agsfhは内在的アンカーグラフを直接学習し、内在的アンカーグラフの構造を適応的に調整し、内在的グラフの成分数がクラスタの数と正確に等しいようにしようとする。
さらに、agsfhはアンカー融合アフィニティを共通の二元ハミング空間に保存する。
さらに、離散最適化フレームワークは、統一バイナリコードを学ぶために設計されている。
3つの公開社会データセットの広範な実験結果がagsfhの優位を示している。 Cross-modal hashing still has some challenges needed to address: (1) most existing CMH methods take graphs as input to model data distribution. These methods omit to consider the correlation of graph structure among multiple modalities; (2) most existing CMH methods ignores considering the fusion affinity among multi-modalities data; (3) most existing CMH methods relax the discrete constraints to solve the optimization objective, significantly degrading the retrieval performance. To solve the above limitations, we propose a novel Anchor Graph Structure Fusion Hashing (AGSFH). AGSFH constructs the anchor graph structure fusion matrix from different anchor graphs of multiple modalities with the Hadamard product, which can fully exploit the geometric property of underlying data structure. Based on the anchor graph structure fusion matrix, AGSFH attempts to directly learn an intrinsic anchor graph, where the structure of the intrinsic anchor graph is adaptively tuned so that the number of components of the intrinsic graph is exactly equal to the number of clusters. Besides, AGSFH preserves the anchor fusion affinity into the common binary Hamming space. Furthermore, a discrete optimization framework is designed to learn the unified binary codes. Extensive experimental results on three public social datasets demonstrate the superiority of AGSFH. | 翻訳日:2022-02-10 15:35:54 公開日:2022-02-09 |
# (参考訳) 深い階層モデルとハミルトンモンテカルロによるデータインプットと取得の欠如 Missing Data Imputation and Acquisition with Deep Hierarchical Models and Hamiltonian Monte Carlo ( http://arxiv.org/abs/2202.04599v1 ) ライセンス: CC BY 4.0 | Ignacio Peis, Chao Ma and Jos\'e Miguel Hern\'andez-Lobato | (参考訳) 変分オートエンコーダ(vaes: variational autoencoder)は、最近、不均一なデータや異常値の特定に非常に成功している。
しかし、この特定のアプリケーション領域内では、既存のVAE法は、潜伏変数の1つの層と厳密なガウス後方近似を用いることで制限される。
これらの制約に対処するため,ハミルトニアンモンテカルロを用いた混合型不完全データのための階層型vaeモデルhh-vaemを提案する。
実験の結果,HH-VAEMはデータ計算の欠如,教師付き学習,特徴の欠如による外乱識別といったタスクにおいて,既存のベースラインよりも優れていた。
最後に,HH-VAEMで特徴を抽出する際の情報ゲインを効率的に計算するためのサンプリングベース手法を提案する。
実験の結果,このサンプリングベースアプローチはガウス近似に基づく代替法よりも優れていることがわかった。 Variational Autoencoders (VAEs) have recently been highly successful at imputing and acquiring heterogeneous missing data and identifying outliers. However, within this specific application domain, existing VAE methods are restricted by using only one layer of latent variables and strictly Gaussian posterior approximations. To address these limitations, we present HH-VAEM, a Hierarchical VAE model for mixed-type incomplete data that uses Hamiltonian Monte Carlo with automatic hyper-parameter tuning for improved approximate inference. Our experiments show that HH-VAEM outperforms existing baselines in the tasks of missing data imputation, supervised learning and outlier identification with missing features. Finally, we also present a sampling-based approach for efficiently computing the information gain when missing features are to be acquired with HH-VAEM. Our experiments show that this sampling-based approach is superior to alternatives based on Gaussian approximations. | 翻訳日:2022-02-10 15:33:42 公開日:2022-02-09 |
# 構成的対人ロバスト性に向けて:複合意味摂動に対する対人訓練の一般化 Towards Compositional Adversarial Robustness: Generalizing Adversarial Training to Composite Semantic Perturbations ( http://arxiv.org/abs/2202.04235v1 ) ライセンス: Link先を確認 | Yun-Yun Tsai, Lei Hsiung, Pin-Yu Chen, Tsung-Yi Ho | (参考訳) $\ell_{p}$-norm のような単一の摂動型の敵対的例に対するモデルロバスト性は広く研究されているが、複数の意味摂動とそれらの構成を含むより現実的なシナリオへの一般化はほとんど未定である。
本稿では,まず,複合逆例を生成する新しい手法を提案する。
本手法は,コンポーネントワイズプロジェクション勾配降下と自動アタックオーダースケジューリングを利用することにより,最適なアタック構成を求めることができる。
次に、モデルのロバスト性が$\ell_{p}$-normから、色相、彩度、輝度、コントラスト、回転の組み合わせといった複合意味的摂動に拡張されるように拡張するために、 \textbf{generalized adversarial training} (\textbf{gat})を提案する。
ImageNetとCIFAR-10データセットの結果は、GATは単一の攻撃だけでなく、複数の攻撃の組み合わせに対しても堅牢であることを示している。
GATはまた、ベースライン $\ell_{\infty}$-norm の有界対向訓練アプローチをかなりの差で上回る。 Model robustness against adversarial examples of single perturbation type such as the $\ell_{p}$-norm has been widely studied, yet its generalization to more realistic scenarios involving multiple semantic perturbations and their composition remains largely unexplored. In this paper, we firstly propose a novel method for generating composite adversarial examples. By utilizing component-wise projected gradient descent and automatic attack-order scheduling, our method can find the optimal attack composition. We then propose \textbf{generalized adversarial training} (\textbf{GAT}) to extend model robustness from $\ell_{p}$-norm to composite semantic perturbations, such as the combination of Hue, Saturation, Brightness, Contrast, and Rotation. The results on ImageNet and CIFAR-10 datasets show that GAT can be robust not only to any single attack but also to any combination of multiple attacks. GAT also outperforms baseline $\ell_{\infty}$-norm bounded adversarial training approaches by a significant margin. | 翻訳日:2022-02-10 15:11:54 公開日:2022-02-09 |
# 自己監督型ポイントクラウド表現学習に必要なコントラストによる蒸留 Distillation with Contrast is All You Need for Self-Supervised Point Cloud Representation Learning ( http://arxiv.org/abs/2202.04241v1 ) ライセンス: Link先を確認 | Kexue Fu and Peng Gao and Renrui Zhang and Hongsheng Li and Yu Qiao and Manning Wang | (参考訳) 本稿では,自己教師付きポイントクラウド表現学習のための単純で汎用的なフレームワークを提案する。
人間は2つのレベルの情報を抽出し、それらの関係を確立することで3D世界を理解する。
1つは対象の大域的形状であり、もう1つはその局所構造である。
しかし、ポイントクラウド表現学習における既存の研究は、特定のネットワークアーキテクチャを使わずに、グローバル形状とローカル-グローバル関係の両方を学ぶ方法を検討した。
人間がどのように世界を理解するかに触発されて、知識蒸留を利用して地球形状情報と地球形状と局所構造の関係を学習する。
同時に,コントラスト学習と知識蒸留を組み合わせることで,教師ネットワークをより良く更新する。
本手法は,線形分類および複数の下流タスクにおける最先端性能を実現する。
特に,我々のフレームワークと組み合わせた場合,既存のバックボーンに匹敵する結果が得られる3Dポイントクラウド特徴抽出用ViTの変種を開発し,アテンションマップの可視化により,グローバルな形状情報と複数の局所構造情報を組み合わせることで,我々のモデルがポイントクラウドを理解していることを示す。
私たちのコードはまもなくリリースされます。 In this paper, we propose a simple and general framework for self-supervised point cloud representation learning. Human beings understand the 3D world by extracting two levels of information and establishing the relationship between them. One is the global shape of an object, and the other is the local structures of it. However, few existing studies in point cloud representation learning explored how to learn both global shapes and local-to-global relationships without a specified network architecture. Inspired by how human beings understand the world, we utilize knowledge distillation to learn both global shape information and the relationship between global shape and local structures. At the same time, we combine contrastive learning with knowledge distillation to make the teacher network be better updated. Our method achieves the state-of-the-art performance on linear classification and multiple other downstream tasks. Especially, we develop a variant of ViT for 3D point cloud feature extraction, which also achieves comparable results with existing backbones when combined with our framework, and visualization of the attention maps show that our model does understand the point cloud by combining the global shape information and multiple local structural information, which is consistent with the inspiration of our representation learning method. Our code will be released soon. | 翻訳日:2022-02-10 15:11:32 公開日:2022-02-09 |
# 身元確認用モーションアウェア変圧器 Motion-Aware Transformer For Occluded Person Re-identification ( http://arxiv.org/abs/2202.04243v1 ) ライセンス: Link先を確認 | Mi Zhou, Hongye Liu, Zhekun Lv, Wei Hong, Xiai Chen | (参考訳) 近年, 人身認証(Re-ID)は, 特に群集状況において, 人や障害物によってしばしば不明瞭化される, 困難な課題である。
本稿では,隠蔽者Re-IDを用いた自己教師型深層学習手法を提案する。
従来の研究とは異なり、さまざまな姿勢の写真から得られる動き情報は、主要な人間の身体成分を識別するのに役立ちます。
まず, 動き認識型トランスフォーマーエンコーダ・デコーダアーキテクチャを用いて, キーポイントのヒートマップと部分分割マップを得る。
次に、アフィン変換モジュールを使用して、キーポイント検出ブランチから動き情報を取得する。
すると、動作情報はセグメンテーションブランチをサポートし、洗練された人間の部分セグメンテーションマップを達成し、人体を合理的なグループに効果的に分割する。
最後に, 背景や咬合障害を回避し, 人体の異なる代表部位を識別する上で, 提案モデルの有効性を示す例もいくつかある。
本手法はoccluded, partial, holisticなど,いくつかの一般的なデータセットにおいて,最先端の結果を一貫して達成する。 Recently, occluded person re-identification(Re-ID) remains a challenging task that people are frequently obscured by other people or obstacles, especially in a crowd massing situation. In this paper, we propose a self-supervised deep learning method to improve the location performance for human parts through occluded person Re-ID. Unlike previous works, we find that motion information derived from the photos of various human postures can help identify major human body components. Firstly, a motion-aware transformer encoder-decoder architecture is designed to obtain keypoints heatmaps and part-segmentation maps. Secondly, an affine transformation module is utilized to acquire motion information from the keypoint detection branch. Then the motion information will support the segmentation branch to achieve refined human part segmentation maps, and effectively divide the human body into reasonable groups. Finally, several cases demonstrate the efficiency of the proposed model in distinguishing different representative parts of the human body, which can avoid the background and occlusion disturbs. Our method consistently achieves state-of-the-art results on several popular datasets, including occluded, partial, and holistic. | 翻訳日:2022-02-10 15:11:10 公開日:2022-02-09 |
# モデル情報のない逆検出 Adversarial Detection without Model Information ( http://arxiv.org/abs/2202.04271v1 ) ライセンス: Link先を確認 | Abhishek Moitra, Youngeun Kim, and Priyadarshini Panda | (参考訳) 従来の最先端の敵検出作業の多くは、基盤となる脆弱性モデルがアクセス可能であることを前提としている。
モデルをトレーニングしたり、そのアウトプットを見ることができる。
しかし、モデル暗号化やモデル情報漏洩などの要因があるため、これは現実的な仮定ではない。
本研究では, 単純なエネルギー関数を用いて, 逆入力と自然入力を区別するモデル独立逆検出法を提案する。
我々は,自然および逆入力に対応するエネルギー分離を高めるために,逐次的な層回りのトレーニングを施した独立検出器を訓練する。
これにより,エネルギー分布に基づく逆検出を行う。
提案手法は, CIFAR10, CIFAR100, TinyImagenetデータセットに対して, 幅広い勾配, スコア, 判定に基づく攻撃に対して, 最先端検出性能(ROC-AUC > 0.9)を実現する。
従来の手法と比較して,本手法は10~100倍の演算数とパラメータを必要とする。
さらに,本検出手法は,異なるデータセットや敵攻撃にまたがって転送可能であることを示す。
再現性のため、補足材料にコードを提供します。 Most prior state-of-the-art adversarial detection works assume that the underlying vulnerable model is accessible, i,e., the model can be trained or its outputs are visible. However, this is not a practical assumption due to factors like model encryption, model information leakage and so on. In this work, we propose a model independent adversarial detection method using a simple energy function to distinguish between adversarial and natural inputs. We train a standalone detector independent of the underlying model, with sequential layer-wise training to increase the energy separation corresponding to natural and adversarial inputs. With this, we perform energy distribution-based adversarial detection. Our method achieves state-of-the-art detection performance (ROC-AUC > 0.9) across a wide range of gradient, score and decision-based adversarial attacks on CIFAR10, CIFAR100 and TinyImagenet datasets. Compared to prior approaches, our method requires ~10-100x less number of operations and parameters for adversarial detection. Further, we show that our detection method is transferable across different datasets and adversarial attacks. For reproducibility, we provide code in the supplementary material. | 翻訳日:2022-02-10 15:10:50 公開日:2022-02-09 |
# (参考訳) 実現可能性と単一政策集中性を備えたオフライン強化学習 Offline Reinforcement Learning with Realizability and Single-policy Concentrability ( http://arxiv.org/abs/2202.04634v1 ) ライセンス: CC0 1.0 | Wenhao Zhan, Baihe Huang, Audrey Huang, Nan Jiang, Jason D. Lee | (参考訳) オフライン強化学習(rl)のためのサンプル効率保証は、しばしば関数クラス(ベルマン完全性など)とデータカバレッジ(例えば、オールポリシー集中性)の両方に強い仮定に依存している。
これらの仮定を緩和する最近の努力にもかかわらず、既存の研究は2つの要因のうちの1つだけを緩和することができ、他の要因に対する強い仮定はそのまま残されている。
重要なオープンな問題として、両方の因子の仮定が弱いサンプル効率のオフラインRLが達成できるだろうか?
本稿では,この疑問に肯定的に答える。
両変数(分散占有率)をオフラインデータに対する密度比関数を用いてモデル化する,MDPの原始双対定式化に基づく単純なアルゴリズムを解析する。
適切な正則化により、このアルゴリズムは、実現可能性と単一政治集中性だけで、多項式のサンプル複雑性を享受できることを示した。
また、オフラインRLに対する原始双対アルゴリズムの性質について、異なる仮定に基づく代替分析を行う。 Sample-efficiency guarantees for offline reinforcement learning (RL) often rely on strong assumptions on both the function classes (e.g., Bellman-completeness) and the data coverage (e.g., all-policy concentrability). Despite the recent efforts on relaxing these assumptions, existing works are only able to relax one of the two factors, leaving the strong assumption on the other factor intact. As an important open problem, can we achieve sample-efficient offline RL with weak assumptions on both factors? In this paper we answer the question in the positive. We analyze a simple algorithm based on the primal-dual formulation of MDPs, where the dual variables (discounted occupancy) are modeled using a density-ratio function against offline data. With proper regularization, we show that the algorithm enjoys polynomial sample complexity, under only realizability and single-policy concentrability. We also provide alternative analyses based on different assumptions to shed light on the nature of primal-dual algorithms for offline RL. | 翻訳日:2022-02-10 15:10:09 公開日:2022-02-09 |
# オフラインデモからのガイダンスを用いたスパース報酬による強化学習 Reinforcement Learning with Sparse Rewards using Guidance from Offline Demonstration ( http://arxiv.org/abs/2202.04628v1 ) ライセンス: Link先を確認 | Desik Rengarajan, Gargi Vaidya, Akshay Sarvesh, Dileep Kalathil, Srinivas Shakkottai | (参考訳) 実世界の強化学習(RL)における大きな課題は、報酬フィードバックの空間性である。
多くの場合、利用可能なものは直感的だがスパースな報酬関数で、タスクが部分的に完了したか完全に完了したかのみを示す。
しかし、綿密な設計、微粒なフィードバックの欠如は、既存のRLアルゴリズムが妥当な時間枠で許容できるポリシーを学習できないことを意味する。
これは、ポリシーが学習できる有用なフィードバックを得る前に実行しなければならない多くの探索アクションが原因です。
そこで本研究では,サブ最適動作ポリシーによって生成されたオフラインデモデータを利用して,オンラインrlを迅速かつ効率的に活用するアルゴリズムを開発することで,この課題を解決する。
提案アルゴリズムはLearning Online with Guidance Offline (LOGO)アルゴリズムと呼ばれ、オフラインのデモデータを用いてポリシー改善ステップと追加のポリシーガイダンスステップをマージする。
キーとなるアイデアは、オフラインデータを模倣しない、というガイダンスを得ることによって、ロゴは、サブオプティマイズである{policy}のやり方でポリシーを定めながら、さらに学習し、最適性に近づくことができる、ということである。
本稿では,本アルゴリズムの理論的解析を行い,各学習エピソードにおける性能改善の限界を低くする。
また、我々のアルゴリズムは、実状態観測の検閲されたバージョンのみを含む、さらに困難な不完全な観測設定にまで拡張する。
我々は,厳密な報酬と検閲された状態を持つ多数のベンチマーク環境において,最先端のアプローチよりもアルゴリズムの優れた性能を示す。
さらに,移動ロボットにロゴを実装して追跡や障害物回避を行い,優れた性能を示すことで,このアプローチの価値を実証する。 A major challenge in real-world reinforcement learning (RL) is the sparsity of reward feedback. Often, what is available is an intuitive but sparse reward function that only indicates whether the task is completed partially or fully. However, the lack of carefully designed, fine grain feedback implies that most existing RL algorithms fail to learn an acceptable policy in a reasonable time frame. This is because of the large number of exploration actions that the policy has to perform before it gets any useful feedback that it can learn from. In this work, we address this challenging problem by developing an algorithm that exploits the offline demonstration data generated by a sub-optimal behavior policy for faster and efficient online RL in such sparse reward settings. The proposed algorithm, which we call the Learning Online with Guidance Offline (LOGO) algorithm, merges a policy improvement step with an additional policy guidance step by using the offline demonstration data. The key idea is that by obtaining guidance from - not imitating - the offline data, LOGO orients its policy in the manner of the sub-optimal {policy}, while yet being able to learn beyond and approach optimality. We provide a theoretical analysis of our algorithm, and provide a lower bound on the performance improvement in each learning episode. We also extend our algorithm to the even more challenging incomplete observation setting, where the demonstration data contains only a censored version of the true state observation. We demonstrate the superior performance of our algorithm over state-of-the-art approaches on a number of benchmark environments with sparse rewards and censored state. Further, we demonstrate the value of our approach via implementing LOGO on a mobile robot for trajectory tracking and obstacle avoidance, where it shows excellent performance. | 翻訳日:2022-02-10 15:08:43 公開日:2022-02-09 |
# シンクホーン不確かさ集合を用いたロバスト仮説テストへのデータ駆動アプローチ A Data-Driven Approach to Robust Hypothesis Testing Using Sinkhorn Uncertainty Sets ( http://arxiv.org/abs/2202.04258v1 ) ライセンス: Link先を確認 | Jie Wang and Yao Xie | (参考訳) 本論文は、Jack Keil Wolf ISIT Student Paper Awardに授与される。
小さなサンプルシナリオの仮説テストは、事実上重要な問題である。
本稿では,実験的分布に着目した分布的不確実性集合上の最悪の場合をシンクホーン距離を用いて探索し,データ駆動方式でロバストな仮説検証問題を検討する。
wassersteinロバストテストと比較すると、より柔軟な検出器を提供するトレーニングサンプルを超えて、最も好ましくない分布がサポートされている。
提案手法の競合性能を検証するため,合成データと実データの両方について様々な数値実験を行った。 This paper is eligible for the Jack Keil Wolf ISIT Student Paper Award. Hypothesis testing for small-sample scenarios is a practically important problem. In this paper, we investigate the robust hypothesis testing problem in a data-driven manner, where we seek the worst-case detector over distributional uncertainty sets centered around the empirical distribution from samples using Sinkhorn distance. Compared with the Wasserstein robust test, the corresponding least favorable distributions are supported beyond the training samples, which provides a more flexible detector. Various numerical experiments are conducted on both synthetic and real datasets to validate the competitive performances of our proposed method. | 翻訳日:2022-02-10 15:07:57 公開日:2022-02-09 |
# 多元性を持つ段階的ドメイン適応のためのコスト効率の高いフレームワーク Cost-effective Framework for Gradual Domain Adaptation with Multifidelity ( http://arxiv.org/abs/2202.04359v1 ) ライセンス: Link先を確認 | Shogo Sagawa and Hideitsu Hino | (参考訳) ドメイン適応では、ソースとターゲットドメインの間に大きな距離がある場合、予測性能は低下する。
段階的なドメイン適応は、中間ドメインにアクセスでき、徐々にソースからターゲットドメインへ移行する、というような問題の解決策の1つである。
従来の研究では,中間領域のサンプル数は十分に多く,ラベル付きデータを必要としない自己学習が可能であった。
中間ドメインへのアクセスが制限されると、自己学習は失敗する。
実際に、中間ドメインにおけるサンプルのコストは様々であり、中間ドメインがターゲットドメインに近づくほど、中間ドメインからサンプルを取得するコストが高くなると考えるのは自然なことである。
コストと精度のトレードオフを解決するために,マルチフィデリティとアクティブドメイン適応を組み合わせたフレームワークを提案する。
提案手法の有効性は,人工データと実世界データの両方を用いた実験により評価した。
コードはhttps://github.com/ssgw320/gdamfで入手できる。 In domain adaptation, when there is a large distance between the source and target domains, the prediction performance will degrade. Gradual domain adaptation is one of the solutions to such an issue, assuming that we have access to intermediate domains, which shift gradually from the source to target domains. In previous works, it was assumed that the number of samples in the intermediate domains is sufficiently large; hence, self-training was possible without the need for labeled data. If access to an intermediate domain is restricted, self-training will fail. Practically, the cost of samples in intermediate domains will vary, and it is natural to consider that the closer an intermediate domain is to the target domain, the higher the cost of obtaining samples from the intermediate domain is. To solve the trade-off between cost and accuracy, we propose a framework that combines multifidelity and active domain adaptation. The effectiveness of the proposed method is evaluated by experiments with both artificial and real-world datasets. Codes are available at https://github.com/ssgw320/gdamf. | 翻訳日:2022-02-10 15:07:47 公開日:2022-02-09 |
# マルコフデータを用いた確率最適化における混合時間適応 Adapting to Mixing Time in Stochastic Optimization with Markovian Data ( http://arxiv.org/abs/2202.04428v1 ) ライセンス: Link先を確認 | Ron Dorfman, Kfir Y. Levy | (参考訳) 我々は、データがマルコフ連鎖から引き出される確率的最適化問題を考える。
この設定の既存の方法は、実世界のアプリケーションでは通常未知の連鎖の混合時間を知ることに依存している。
混合時間に関する知識を必要としない最初の最適化手法を提案するが、凸問題に適用した場合に最適な漸近収束率が得られる。
さらに、我々のアプローチは次のように拡張できることを示す。
(i)マルコフデータを用いた非凸最適化における定常点の探索
(II) 時間差学習における混合時間への依存性が向上し, いずれの場合も, 混合時間には全く依存しない。
本手法は,適応学習法とともに,マルチレベルモンテカルロ勾配推定(MLMC)の新たな組み合わせに依存する。 We consider stochastic optimization problems where data is drawn from a Markov chain. Existing methods for this setting crucially rely on knowing the mixing time of the chain, which in real-world applications is usually unknown. We propose the first optimization method that does not require the knowledge of the mixing time, yet obtains the optimal asymptotic convergence rate when applied to convex problems. We further show that our approach can be extended to: (i) finding stationary points in non-convex optimization with Markovian data, and (ii) obtaining better dependence on the mixing time in temporal difference (TD) learning; in both cases, our method is completely oblivious to the mixing time. Our method relies on a novel combination of multi-level Monte Carlo (MLMC) gradient estimation together with an adaptive learning method. | 翻訳日:2022-02-10 15:07:31 公開日:2022-02-09 |
# 半帯域フィードバックと有限予算をもつ非確率的組合せバンディットにおける最適アームの探索 Finding Optimal Arms in Non-stochastic Combinatorial Bandits with Semi-bandit Feedback and Finite Budget ( http://arxiv.org/abs/2202.04487v1 ) ライセンス: Link先を確認 | Jasmin Brandt, Bj\"orn Haddenhorst, Viktor Bengs, Eyke H\"ullermeier | (参考訳) 本稿では,有限サンプリング予算制約の下で,半帯域フィードバックによる組合せ帯域幅問題について考察する。
アームセットの選択がアクションであり、選択されたセットの各アームに対するフィードバックが受信される。
既存の研究とは異なり、この問題はサブセット依存のフィードバックを持つ非確率的な環境で研究され、すなわち、受信された半帯域フィードバックは、不利な敵によって生成され、また選択されたアームセットに依存する可能性がある。
さらに,数値ベースと選好ベースのケースの両方をカバーする一般的なフィードバックシナリオを検討し,学習者が探そうとする最適アームの認識可能な概念を保証するための健全な理論的枠組みを提案する。
提案手法は,攻撃的から保守的へのアーム除去戦略の全スペクトルをカバーするのに適した汎用アルゴリズムを提案する。
最適なアームを見つけるためのアルゴリズムの十分な予算に関する理論的疑問は、この問題シナリオに対する学習アルゴリズムの下位境界を導出することによって答え、補完される。 We consider the combinatorial bandits problem with semi-bandit feedback under finite sampling budget constraints, in which the learner can carry out its action only for a limited number of times specified by an overall budget. The action is to choose a set of arms, whereupon feedback for each arm in the chosen set is received. Unlike existing works, we study this problem in a non-stochastic setting with subset-dependent feedback, i.e., the semi-bandit feedback received could be generated by an oblivious adversary and also might depend on the chosen set of arms. In addition, we consider a general feedback scenario covering both the numerical-based as well as preference-based case and introduce a sound theoretical framework for this setting guaranteeing sensible notions of optimal arms, which a learner seeks to find. We suggest a generic algorithm suitable to cover the full spectrum of conceivable arm elimination strategies from aggressive to conservative. Theoretical questions about the sufficient and necessary budget of the algorithm to find the best arm are answered and complemented by deriving lower bounds for any learning algorithm for this problem scenario. | 翻訳日:2022-02-10 15:07:20 公開日:2022-02-09 |
# 高次元非凸最適化問題における最適学習速度スケジュール Optimal learning rate schedules in high-dimensional non-convex optimization problems ( http://arxiv.org/abs/2202.04509v1 ) ライセンス: Link先を確認 | St\'ephane d'Ascoli, Maria Refinetti, Giulio Biroli | (参考訳) 学習率のスケジュールは、スピードアップと最適化の改善にユビキタスに使用されている。
多くの異なるポリシーが実証的に導入され、凸設定のための理論的解析が開発されている。
しかし、現実的な多くの問題では、ロスランドスケープは高次元で非凸であり、その結果がほとんどない。
本稿では,この設定における学習率スケジューリングの役割について,学習率を$\eta(t)=t^{-\beta}$とすることで,Langevin最適化に着目した最初の分析的研究を行う。
まず、損失が$N$次元球面(N\rightarrow \infty$)上のガウスランダム関数であるようなモデルを考える。
サドルに収まることなく最適化をスピードアップするためには、一般に$\beta=1$が最適となる凸セットアップとは対照的に、$\beta<1$の減衰率を選択する必要がある。
次に、回復すべきシグナルを問題に追加します。
この設定では、ダイナミクスは2つのフェーズに分解される: \emph{exploration} フェーズは、ダイナミックスが風景の粗い部分を通過し、続いて信号が検出され、ダイナミクスが凸盆地に入る \emph{convergence} フェーズである。
この場合、探索段階では、非凸領域をできるだけ早く脱出するために大きな学習率を維持することが最適であり、その後、凸基準$\beta=1$を使って解に迅速に収束する。
最後に,本研究の結論が,ニューラルネットワークに関わる共通の回帰課題であることを示す。 Learning rate schedules are ubiquitously used to speed up and improve optimisation. Many different policies have been introduced on an empirical basis, and theoretical analyses have been developed for convex settings. However, in many realistic problems the loss-landscape is high-dimensional and non convex -- a case for which results are scarce. In this paper we present a first analytical study of the role of learning rate scheduling in this setting, focusing on Langevin optimization with a learning rate decaying as $\eta(t)=t^{-\beta}$. We begin by considering models where the loss is a Gaussian random function on the $N$-dimensional sphere ($N\rightarrow \infty$), featuring an extensive number of critical points. We find that to speed up optimization without getting stuck in saddles, one must choose a decay rate $\beta<1$, contrary to convex setups where $\beta=1$ is generally optimal. We then add to the problem a signal to be recovered. In this setting, the dynamics decompose into two phases: an \emph{exploration} phase where the dynamics navigates through rough parts of the landscape, followed by a \emph{convergence} phase where the signal is detected and the dynamics enter a convex basin. In this case, it is optimal to keep a large learning rate during the exploration phase to escape the non-convex region as quickly as possible, then use the convex criterion $\beta=1$ to converge rapidly to the solution. Finally, we demonstrate that our conclusions hold in a common regression task involving neural networks. | 翻訳日:2022-02-10 15:07:02 公開日:2022-02-09 |
# 線形確率性モデルに基づく確率的文脈デュエル帯域 Stochastic Contextual Dueling Bandits under Linear Stochastic Transitivity Models ( http://arxiv.org/abs/2202.04593v1 ) ライセンス: Link先を確認 | Viktor Bengs, Aadirupa Saha, Eyke H\"ullermeier | (参考訳) コンテキスト情報を伴うデュエルバンディット問題における後悔の最小化タスクについて考察する。
逐次決定問題の各ラウンドにおいて、学習者は、互いに比較する2つの選択肢(アーム)の文脈依存的な選択を行い、ノイズの多い選好情報としてフィードバックを受け取る。
フィードバックプロセスは文脈化されたユーティリティ(colst)を持つ線形確率的推移モデルによって決定され、学習者のタスクは最善のアーム(最も潜在的なコンテキスト依存のユーティリティを持つ)をデュエルに含めることである。
提案する計算効率のよいアルゴリズムである$\texttt{CoLSTIM}$は,基盤となるCoLSTモデルのコンテキスト依存ユーティリティ推定を用いて,フィードバックプロセスの模倣に基づいて選択する。
それぞれのアームが$d$次元の特徴ベクトルに関連付けられている場合、$\texttt{CoLSTIM}$が$T$学習ラウンドの後に$\tilde O( \sqrt{dT})$を後悔することを示す。
さらに、既存の平均後悔分析を洗練させる弱い後悔に対する低い境界を示すことによって、$\texttt{CoLSTIM}$の最適性を確立する。
本実験は,CoLSTモデルの特殊事例に対する最先端アルゴリズムよりも優れていることを示す。 We consider the regret minimization task in a dueling bandits problem with context information. In every round of the sequential decision problem, the learner makes a context-dependent selection of two choice alternatives (arms) to be compared with each other and receives feedback in the form of noisy preference information. We assume that the feedback process is determined by a linear stochastic transitivity model with contextualized utilities (CoLST), and the learner's task is to include the best arm (with highest latent context-dependent utility) in the duel. We propose a computationally efficient algorithm, $\texttt{CoLSTIM}$, which makes its choice based on imitating the feedback process using perturbed context-dependent utility estimates of the underlying CoLST model. If each arm is associated with a $d$-dimensional feature vector, we show that $\texttt{CoLSTIM}$ achieves a regret of order $\tilde O( \sqrt{dT})$ after $T$ learning rounds. Additionally, we also establish the optimality of $\texttt{CoLSTIM}$ by showing a lower bound for the weak regret that refines the existing average regret analysis. Our experiments demonstrate its superiority over state-of-art algorithms for special cases of CoLST models. | 翻訳日:2022-02-10 15:06:35 公開日:2022-02-09 |
# 事前学習とコントラスト学習による画像差分キャプション Image Difference Captioning with Pre-training and Contrastive Learning ( http://arxiv.org/abs/2202.04298v1 ) ライセンス: Link先を確認 | Linli Yao, Weiying Wang, Qin Jin | (参考訳) 画像差分キャプション(IDC)タスクは、自然言語と類似した2つの画像の視覚的差異を記述することを目的としている。
このタスクの主な課題は2つの側面にある。
1)より強固な視覚と言語連想を必要とする細かな視差
2) 限定的な教師付きデータにつながる手動アノテーションの高コスト化。
これらの課題に対処するため,我々は事前学習パラダイムに従う新しいモデリングフレームワークを提案する。
具体的には,視覚差とテキスト記述を細かなレベルで整列させるために,3つの自己教師付きタスクと対比学習戦略を設計する。
さらに,教師付きidcデータの制限を緩和するために,細粒度画像分類のためのデータなどの付加的なクロスタスク監視情報を活用するデータ拡張戦略を提案する。
CLEVR-ChangeとBirds-to-Wordsの2つのIDCベンチマークデータセットに対する大規模な実験は、提案したモデリングフレームワークの有効性を実証している。
コードとモデルはhttps://github.com/yaolinli/idcでリリースされる。 The Image Difference Captioning (IDC) task aims to describe the visual differences between two similar images with natural language. The major challenges of this task lie in two aspects: 1) fine-grained visual differences that require learning stronger vision and language association and 2) high-cost of manual annotations that leads to limited supervised data. To address these challenges, we propose a new modeling framework following the pre-training-finetuning paradigm. Specifically, we design three self-supervised tasks and contrastive learning strategies to align visual differences and text descriptions at a fine-grained level. Moreover, we propose a data expansion strategy to utilize extra cross-task supervision information, such as data for fine-grained image classification, to alleviate the limitation of available supervised IDC data. Extensive experiments on two IDC benchmark datasets, CLEVR-Change and Birds-to-Words, demonstrate the effectiveness of the proposed modeling framework. The codes and models will be released at https://github.com/yaolinli/IDC. | 翻訳日:2022-02-10 15:05:32 公開日:2022-02-09 |
# オープン複合領域適応セマンティックセマンティックセグメンテーションのための振幅スペクトル変換 Amplitude Spectrum Transformation for Open Compound Domain Adaptive Semantic Segmentation ( http://arxiv.org/abs/2202.04287v1 ) ライセンス: Link先を確認 | Jogendra Nath Kundu, Akshay Kulkarni, Suvaansh Bhambri, Varun Jampani, R. Venkatesh Babu | (参考訳) open compound domain adaptation (ocda) は、単一のラベル付きソースドメインをマルチモーダルな未ラベルのターゲットデータの複合に対して考慮し、新しい未発見領域をより一般化する実用的な適応設定として登場した。
我々は、高密度中間層の特徴のドメイン関連因子とタスク関連因子の整合性の改善がOCDAを大いに役立つと仮定する。
先行技術は、空間CNN出力に対向領域判別器を用いて間接的にこれを試みている。
しかし, 深部CNN特徴のフーリエスペクトルから導出される潜在的特徴は, ドメイン識別とよりトラクタブルなマッピングを持つことがわかった。
そこで我々は,新しい特徴空間 Amplitude Spectrum Transformation (AST) を提案する。
適応中に2つの目的のためにASTオートエンコーダを使用します。
まず、慎重にマイニングされたソースターゲットインスタンスペアは、AST-latentを変更することで、特定のレイヤにおけるクロスドメイン機能スタイリング(AST-Sim)のシミュレーションを行う。
第二に、後層のASTは、潜伏状態を平均プロトタイプに固定することで、ドメイン内容の正規化(AST-Norm)を行う。
単純化した適応手法はクラスタリングフリーであるだけでなく,複雑な逆アライメントも含まない。
我々は,OCDAシーンセグメンテーションベンチマークにおいて,先行技術に対する先行性能を達成する。 Open compound domain adaptation (OCDA) has emerged as a practical adaptation setting which considers a single labeled source domain against a compound of multi-modal unlabeled target data in order to generalize better on novel unseen domains. We hypothesize that an improved disentanglement of domain-related and task-related factors of dense intermediate layer features can greatly aid OCDA. Prior-arts attempt this indirectly by employing adversarial domain discriminators on the spatial CNN output. However, we find that latent features derived from the Fourier-based amplitude spectrum of deep CNN features hold a more tractable mapping with domain discrimination. Motivated by this, we propose a novel feature space Amplitude Spectrum Transformation (AST). During adaptation, we employ the AST auto-encoder for two purposes. First, carefully mined source-target instance pairs undergo a simulation of cross-domain feature stylization (AST-Sim) at a particular layer by altering the AST-latent. Second, AST operating at a later layer is tasked to normalize (AST-Norm) the domain content by fixing its latent to a mean prototype. Our simplified adaptation technique is not only clustering-free but also free from complex adversarial alignment. We achieve leading performance against the prior arts on the OCDA scene segmentation benchmarks. | 翻訳日:2022-02-10 15:05:17 公開日:2022-02-09 |
# 条件付き動作の中間 Conditional Motion In-betweening ( http://arxiv.org/abs/2202.04307v1 ) ライセンス: Link先を確認 | Jihoon Kim, Taehyun Byun, Seungyoun Shin, Jungdam Won, Sungjoon Choi | (参考訳) モーション・イン・インタータリング(mib)は、歩行中の周期的な足踏み運動のような運動の自然性を維持しながら、与えられた開始と目標ポーズの間の中間骨格運動を生成する過程である。
最先端MIB法は、スパースキー目的に与えられた可塑性運動を生成できるが、実用的な応用に必要な意味的文脈を満たす動きを生成するための制御性に欠けることが多い。
我々は、統一モデルを用いて、ポーズやセマンティックなMIBタスクを処理できる手法に焦点を当てる。
また, 滑らかな軌跡上の分布を定義することにより, ポーズ条件付き運動生成の質を向上させる動き増進法を提案する。
提案手法はポーズ予測誤差において既存のmib法を上回り,制御性も向上した。 Motion in-betweening (MIB) is a process of generating intermediate skeletal movement between the given start and target poses while preserving the naturalness of the motion, such as periodic footstep motion while walking. Although state-of-the-art MIB methods are capable of producing plausible motions given sparse key-poses, they often lack the controllability to generate motions satisfying the semantic contexts required in practical applications. We focus on the method that can handle pose or semantic conditioned MIB tasks using a unified model. We also present a motion augmentation method to improve the quality of pose-conditioned motion generation via defining a distribution over smooth trajectories. Our proposed method outperforms the existing state-of-the-art MIB method in pose prediction errors while providing additional controllability. | 翻訳日:2022-02-10 15:04:37 公開日:2022-02-09 |
# 事前学習言語モデル表現の潜在空間クラスタリングによる話題発見 Topic Discovery via Latent Space Clustering of Pretrained Language Model Representations ( http://arxiv.org/abs/2202.04582v1 ) ライセンス: Link先を確認 | Yu Meng, Yunyi Zhang, Jiaxin Huang, Yu Zhang, Jiawei Han | (参考訳) トピックモデルはテキストコーパスからの自動トピック発見のための重要なツールである。
その効果にもかかわらず、トピックモデルは文書内の単語順序情報をモデル化できないこと、外部言語知識を組み込むことの難しさ、難解な後部を近似するための正確かつ効率的な推論方法の欠如など、いくつかの制限に悩まされている。
近年,プレトレーニング言語モデル (PLM) は,テキストの表現が優れているため,様々なタスクに驚くべき性能向上をもたらしている。
興味深いことに、トピックモデルに代わるものとしてトピック発見のためのplmをデプロイする標準的なアプローチは存在していない。
本稿では,トピック発見に PLM 表現を用いる際の課題を分析し,その上で PLM 埋め込みを基盤とした協調型潜在空間学習とクラスタリングフレームワークを提案する。
潜在空間では、トピックワードとドキュメントトピックの分布を共同でモデル化し、発見されたトピックを一貫性のある言葉で解釈し、文書の意義ある要約として機能させる。
提案モデルは,トピック発見のためにPLMがもたらす強力な表現力と言語的特徴を効果的に活用し,概念的にはトピックモデルよりもシンプルである。
異なる領域における2つのベンチマークデータセットにおいて、我々のモデルは強力なトピックモデルよりも一貫性があり多様なトピックを生成し、自動評価と人的評価の両方に基づいて、より優れたトピック指向の文書表現を提供する。 Topic models have been the prominent tools for automatic topic discovery from text corpora. Despite their effectiveness, topic models suffer from several limitations including the inability of modeling word ordering information in documents, the difficulty of incorporating external linguistic knowledge, and the lack of both accurate and efficient inference methods for approximating the intractable posterior. Recently, pretrained language models (PLMs) have brought astonishing performance improvements to a wide variety of tasks due to their superior representations of text. Interestingly, there have not been standard approaches to deploy PLMs for topic discovery as better alternatives to topic models. In this paper, we begin by analyzing the challenges of using PLM representations for topic discovery, and then propose a joint latent space learning and clustering framework built upon PLM embeddings. In the latent space, topic-word and document-topic distributions are jointly modeled so that the discovered topics can be interpreted by coherent and distinctive terms and meanwhile serve as meaningful summaries of the documents. Our model effectively leverages the strong representation power and superb linguistic features brought by PLMs for topic discovery, and is conceptually simpler than topic models. On two benchmark datasets in different domains, our model generates significantly more coherent and diverse topics than strong topic models, and offers better topic-wise document representations, based on both automatic and human evaluations. | 翻訳日:2022-02-10 15:04:20 公開日:2022-02-09 |
# Universal Hopfield Networks: シングルショット連想記憶モデルのための汎用フレームワーク Universal Hopfield Networks: A General Framework for Single-Shot Associative Memory Models ( http://arxiv.org/abs/2202.04557v1 ) ライセンス: Link先を確認 | Beren Millidge, Tommaso Salvatori, Yuhang Song, Thomas Lukasiewicz, Rafal Bogacz | (参考訳) 論文では,連想記憶のニューラルネットワークモデルが多数提案されている。
その中には古典的なホップフィールドネットワーク(HN)、スパース分散メモリ(SDM)、最近では機械学習における自己注意と密接なリンクを持つ現代の連続ホップフィールドネットワーク(MCHN)などがある。
本稿では,このようなメモリネットワークの動作を,類似性,分離,投影という3つの操作の系列として理解するための汎用フレームワークを提案する。
これらのメモリモデルは、類似性と分離関数が異なる一般的なフレームワークのインスタンスとして導出します。
我々は、Krotov et al (2020) の数学的枠組みを拡張し、ニューロン間の二階相互作用しか持たないニューラルネットワーク力学を用いた一般連想記憶モデルを示し、その力学のリアプノフ関数である一般エネルギー関数を導出する。
最後に,本フレームワークを用いて,これらの連想メモリモデルに対して,ドット積類似度測定以外の様々な類似度関数を使用する能力について実証的に検討し,ユークリッドやマンハッタンの距離類似度測定値が多くのタスクにおいて実践的に著しく優れていることを示す。 A large number of neural network models of associative memory have been proposed in the literature. These include the classical Hopfield networks (HNs), sparse distributed memories (SDMs), and more recently the modern continuous Hopfield networks (MCHNs), which possesses close links with self-attention in machine learning. In this paper, we propose a general framework for understanding the operation of such memory networks as a sequence of three operations: similarity, separation, and projection. We derive all these memory models as instances of our general framework with differing similarity and separation functions. We extend the mathematical framework of Krotov et al (2020) to express general associative memory models using neural network dynamics with only second-order interactions between neurons, and derive a general energy function that is a Lyapunov function of the dynamics. Finally, using our framework, we empirically investigate the capacity of using different similarity functions for these associative memory models, beyond the dot product similarity measure, and demonstrate empirically that Euclidean or Manhattan distance similarity metrics perform substantially better in practice on many tasks, enabling a more robust retrieval and higher memory capacity than existing models. | 翻訳日:2022-02-10 15:02:06 公開日:2022-02-09 |
# 2次情報を用いた統計モデルの計算複雑性の向上 Improving Computational Complexity in Statistical Models with Second-Order Information ( http://arxiv.org/abs/2202.04219v1 ) ライセンス: Link先を確認 | Tongzheng Ren and Jiacheng Zhuo and Sujay Sanghavi and Nhat Ho | (参考訳) 統計モデルが特異である場合、すなわち、真のパラメータのフィッシャー情報行列が縮退すると、固定されたステップサイズ勾配降下アルゴリズムは、実パラメータの周りの最終的な統計半径に収束するために、サンプルサイズ$n$の項で多項式数のステップを取る。
計算複雑性をさらに改善するため,最適化アルゴリズムの設計における2次情報の利用を検討する。
具体的には,統計モデルの経験的損失関数のヘッセン行列の最大固有値を用いて,ステップサイズをスケールした勾配降下アルゴリズムの変種であるパラメトリック統計モデルのパラメータ推定のための正規化勾配降下(NormGD)アルゴリズムについて検討する。
集団損失関数、すなわち$n$が無限大になるときの経験的損失関数の極限がすべての方向に均質であるとき、NormGD の反復は$n$の対数的な反復数の後、真のパラメータの周りの最終的な統計的半径に達することを示した。
したがって、固定次元$d$の場合、ノルムGDアルゴリズムは最終的な統計半径に達するために最適な計算複雑性$\mathcal{O}(n)$を達成する。
この計算複雑性は、幾らかの$\tau > 1$に対して$\mathcal{O}(n^{\tau})$の次数である固定ステップサイズ勾配勾配アルゴリズムよりも低く、同じ統計半径に達する。
一般化線形モデルと混合モデルという2つの統計モデルの下での一般理論を示し, 一般理論による予測を実験的に支持する。 It is known that when the statistical models are singular, i.e., the Fisher information matrix at the true parameter is degenerate, the fixed step-size gradient descent algorithm takes polynomial number of steps in terms of the sample size $n$ to converge to a final statistical radius around the true parameter, which can be unsatisfactory for the application. To further improve that computational complexity, we consider the utilization of the second-order information in the design of optimization algorithms. Specifically, we study the normalized gradient descent (NormGD) algorithm for solving parameter estimation in parametric statistical models, which is a variant of gradient descent algorithm whose step size is scaled by the maximum eigenvalue of the Hessian matrix of the empirical loss function of statistical models. When the population loss function, i.e., the limit of the empirical loss function when $n$ goes to infinity, is homogeneous in all directions, we demonstrate that the NormGD iterates reach a final statistical radius around the true parameter after a logarithmic number of iterations in terms of $n$. Therefore, for fixed dimension $d$, the NormGD algorithm achieves the optimal overall computational complexity $\mathcal{O}(n)$ to reach the final statistical radius. This computational complexity is cheaper than that of the fixed step-size gradient descent algorithm, which is of the order $\mathcal{O}(n^{\tau})$ for some $\tau > 1$, to reach the same statistical radius. We illustrate our general theory under two statistical models: generalized linear models and mixture models, and experimental results support our prediction with general theory. | 翻訳日:2022-02-10 15:01:43 公開日:2022-02-09 |
# crat-pred: クリスタルグラフ畳み込みニューラルネットワークとマルチヘッドセルフアテンションによる車両軌道予測 CRAT-Pred: Vehicle Trajectory Prediction with Crystal Graph Convolutional Neural Networks and Multi-Head Self-Attention ( http://arxiv.org/abs/2202.04488v1 ) ライセンス: Link先を確認 | Julian Schmidt, Julian Jordan, Franz Gritschneder, Klaus Dietmayer | (参考訳) 周囲の車両の動きを予測することは、自律走行車にとって不可欠である。
現状の自動車予測モデルは地図情報に大きく依存している。
しかし実際には、この情報は必ずしも利用できない。
そこで我々は,地図情報に頼らずに,車両間の社会的相互作用を効果的にモデル化することを目的としたマルチモーダル・非ラスタライズ型軌道予測モデルcrat-predを提案する。
CRAT-Predは、物質科学の分野から生まれたグラフ畳み込み法を車両の予測に適用し、エッジの特徴を効率的に活用し、マルチヘッドの自己認識と組み合わせることができる。
他のマップフリーアプローチと比較して、モデルパラメータが著しく少ない状態で最先端のパフォーマンスを達成する。
それに加えて, 自己着脱機構が, 計測可能な相互作用スコアを表す重みを用いて, 車両間の社会的相互作用を学習できることを定量的に示す。
ソースコードは公開されている。 Predicting the motion of surrounding vehicles is essential for autonomous vehicles, as it governs their own motion plan. Current state-of-the-art vehicle prediction models heavily rely on map information. In reality, however, this information is not always available. We therefore propose CRAT-Pred, a multi-modal and non-rasterization-based trajectory prediction model, specifically designed to effectively model social interactions between vehicles, without relying on map information. CRAT-Pred applies a graph convolution method originating from the field of material science to vehicle prediction, allowing to efficiently leverage edge features, and combines it with multi-head self-attention. Compared to other map-free approaches, the model achieves state-of-the-art performance with a significantly lower number of model parameters. In addition to that, we quantitatively show that the self-attention mechanism is able to learn social interactions between vehicles, with the weights representing a measurable interaction score. The source code is publicly available. | 翻訳日:2022-02-10 14:59:00 公開日:2022-02-09 |
# ニューラルネットワークを用いた腹腔鏡映像の終端ブラインド品質評価 End-to-End Blind Quality Assessment for Laparoscopic Videos using Neural Networks ( http://arxiv.org/abs/2202.04517v1 ) ライセンス: Link先を確認 | Zohaib Amjad Khan, Azeddine Beghdadi, Mounir Kaaniche, Faouzi Alaya Cheikh and Osama Gharbi | (参考訳) 映像品質評価は医用画像の文脈において重要な意味を持つ課題である。
例えば、腹腔鏡下手術では、取得したビデオデータは、手術性能を阻害するだけでなく、手術ナビゲーションやロボット手術におけるその後のタスクの実行に影響を与える異なる種類の歪みに苦しむ。
そこで本稿では,歪み分類と品質予測のためのニューラルネットワークに基づくアプローチを提案する。
より正確には、Residual Network(ResNet)ベースのアプローチが、まず、同時ランキングと分類タスクのために開発されている。
次に、このアーキテクチャを拡張して、追加のFCNN(Fully Connected Neural Network)を用いて品質予測タスクに適合させる。
アーキテクチャ全体(resnetとfcnnモデル)をトレーニングするために、転送学習とエンドツーエンド学習アプローチを調査した。
腹腔鏡下ビデオ品質データベースを用いて実験を行った結果,従来法や深層学習法と比較して,提案手法の有効性が示された。 Video quality assessment is a challenging problem having a critical significance in the context of medical imaging. For instance, in laparoscopic surgery, the acquired video data suffers from different kinds of distortion that not only hinder surgery performance but also affect the execution of subsequent tasks in surgical navigation and robotic surgeries. For this reason, we propose in this paper neural network-based approaches for distortion classification as well as quality prediction. More precisely, a Residual Network (ResNet) based approach is firstly developed for simultaneous ranking and classification task. Then, this architecture is extended to make it appropriate for the quality prediction task by using an additional Fully Connected Neural Network (FCNN). To train the overall architecture (ResNet and FCNN models), transfer learning and end-to-end learning approaches are investigated. Experimental results, carried out on a new laparoscopic video quality database, have shown the efficiency of the proposed methods compared to recent conventional and deep learning based approaches. | 翻訳日:2022-02-10 14:58:43 公開日:2022-02-09 |
# ニューラル画像圧縮における構造空間の探索 Exploring Structural Sparsity in Neural Image Compression ( http://arxiv.org/abs/2202.04595v1 ) ライセンス: Link先を確認 | Shanzhi Yin, Fanyang Meng, Wen Tan, Chao Li, Youneng Bao, Yongsheng Liang, Wei Liu | (参考訳) ニューラル画像圧縮は従来の手法(JPEG、BPG、WebPなど)に到達または性能が向上した。
しかし、カスケード畳み込み層を持つ洗練されたネットワーク構造は、実用的な配置に大量の計算負荷をもたらす。
本稿では,ニューラル画像圧縮ネットワークにおける構造的空間性について検討し,ハードウェア設計やアルゴリズムを使わずにリアルタイムな高速化を実現する。
本稿では,各畳み込みチャネルの重要性を判断し,訓練中にスパーシティを導入するための,簡易なプラグイン適応バイナリチャネルマスキング(abcm)を提案する。
推論の間、重要でないチャネルは、よりスリムなネットワークと少ない計算を得るために刈り取られる。
提案手法を,異なるエントロピーモデルを持つ3つのニューラル画像圧縮ネットワークに実装し,その有効性と一般化性を検証する。 Neural image compression have reached or out-performed traditional methods (such as JPEG, BPG, WebP). However,their sophisticated network structures with cascaded convolution layers bring heavy computational burden for practical deployment. In this paper, we explore the structural sparsity in neural image compression network to obtain real-time acceleration without any specialized hardware design or algorithm. We propose a simple plug-in adaptive binary channel masking(ABCM) to judge the importance of each convolution channel and introduce sparsity during training. During inference, the unimportant channels are pruned to obtain slimmer network and less computation. We implement our method into three neural image compression networks with different entropy models to verify its effectiveness and generalization, the experiment results show that up to 7x computation reduction and 3x acceleration can be achieved with negligible performance drop. | 翻訳日:2022-02-10 14:58:28 公開日:2022-02-09 |
# Volkswagen Financial Services AGにおけるAIとデータ駆動モビリティ A.I. and Data-Driven Mobility at Volkswagen Financial Services AG ( http://arxiv.org/abs/2202.04411v1 ) ライセンス: Link先を確認 | Shayan Jawed, Mofassir ul Islam Arif, Ahmed Rashed, Kiran Madhusudhanan, Shereen Elsayed, Mohsan Jameel, Alexei Volk, Andre Hintsches, Marlies Kornfeld, Katrin Lange, Lars Schmidt-Thieme | (参考訳) 機械学習は、市販のハードウェアの能力と急速に進歩する研究のために、産業アプリケーションに広く応用されている。
自動車リースサービスのマーケットリーダーであるフォルクスワーゲン・ファイナンシャル・サービス(VWFS)は、既存のプロプライエタリなデータと最新の研究を活用して、既存および新規のビジネスプロセスを強化することを目指している。
情報システムと機械学習ラボ(ISMLL)とVWFSのコラボレーションは、この目標を実現するのに役立ちます。
本稿では,VWFSにおける車両ライフサイクルにおけるデータ駆動型決定を可能にするレコメンデータシステム,オブジェクト検出,予測の分野における手法を提案する。 Machine learning is being widely adapted in industrial applications owing to the capabilities of commercially available hardware and rapidly advancing research. Volkswagen Financial Services (VWFS), as a market leader in vehicle leasing services, aims to leverage existing proprietary data and the latest research to enhance existing and derive new business processes. The collaboration between Information Systems and Machine Learning Lab (ISMLL) and VWFS serves to realize this goal. In this paper, we propose methods in the fields of recommender systems, object detection, and forecasting that enable data-driven decisions for the vehicle life-cycle at VWFS. | 翻訳日:2022-02-10 14:58:10 公開日:2022-02-09 |
# revisiting qmix:gradient entropy regularizationによる識別的クレジット割り当て Revisiting QMIX: Discriminative Credit Assignment by Gradient Entropy Regularization ( http://arxiv.org/abs/2202.04427v1 ) ライセンス: Link先を確認 | Jian Zhao, Yue Zhang, Xunhan Hu, Weixun Wang, Wengang Zhou, Jianye Hao, Jiangcheng Zhu, Houqiang Li | (参考訳) 協力的なマルチエージェントシステムでは、エージェントは共同で行動し、個々の報酬ではなくチーム報酬を受け取る。
個別の報酬信号がない場合、クレジット割り当て機構は、効果的な協力を達成するために、異なるエージェントの貢献を識別するために導入される。
近年、クレジット割り当てを実現するために価値分解パラダイムが広く採用され、qmixは最先端のソリューションとなっている。
本稿では2つの側面からQMIXを再考する。
まず、クレジット割当測定の新しい視点を提案し、QMIXがエージェントへのクレジット割当において限定的な差別性に苦しむことを示す。
第2に,qmixを用いた勾配エントロピー正規化法を提案する。
実験により,学習効率が比較的向上し,パフォーマンスが向上することを示した。 In cooperative multi-agent systems, agents jointly take actions and receive a team reward instead of individual rewards. In the absence of individual reward signals, credit assignment mechanisms are usually introduced to discriminate the contributions of different agents so as to achieve effective cooperation. Recently, the value decomposition paradigm has been widely adopted to realize credit assignment, and QMIX has become the state-of-the-art solution. In this paper, we revisit QMIX from two aspects. First, we propose a new perspective on credit assignment measurement and empirically show that QMIX suffers limited discriminability on the assignment of credits to agents. Second, we propose a gradient entropy regularization with QMIX to realize a discriminative credit assignment, thereby improving the overall performance. The experiments demonstrate that our approach can comparatively improve learning efficiency and achieve better performance. | 翻訳日:2022-02-10 14:57:56 公開日:2022-02-09 |
# HTN計画と実行のためのタスク修飾器 Task Modifiers for HTN Planning and Acting ( http://arxiv.org/abs/2202.04611v1 ) ライセンス: Link先を確認 | Weihang Yuan, Hector Munoz-Avila, Venkatsampath Raja Gogineni, Sravya Kondrakunta, Michael Cox, Lifang He | (参考訳) エージェントが予期せぬイベントに応答して目的を変更する能力は、動的環境において望ましい。
この機能を階層型タスクネットワーク(HTN)計画に適用するために,タスクリストと状態を受け取り,新しいタスクリストを生成する関数であるタスク修飾子(Task modifiers)と呼ばれるパラダイムの拡張を提案する。
我々は、計画と実行がインターリーブされ、外因性イベントを扱う能力が不可欠である特定のタイプの問題に焦点を当てる。
提案手法の有効性を明らかにするため,従来のHTNドメインとは大きく異なるシミュレーションである2つの環境におけるタスク修飾器の実装性能を評価する。 The ability of an agent to change its objectives in response to unexpected events is desirable in dynamic environments. In order to provide this capability to hierarchical task network (HTN) planning, we propose an extension of the paradigm called task modifiers, which are functions that receive a task list and a state and produce a new task list. We focus on a particular type of problems in which planning and execution are interleaved and the ability to handle exogenous events is crucial. To determine the efficacy of this approach, we evaluate the performance of our task modifier implementation in two environments, one of which is a simulation that differs substantially from traditional HTN domains. | 翻訳日:2022-02-10 14:57:41 公開日:2022-02-09 |
# (参考訳) 専門知識の情報統合による精密放射線治療とaiによる臨床意思決定の最適化 Precision Radiotherapy via Information Integration of Expert Human Knowledge and AI Recommendation to Optimize Clinical Decision Making ( http://arxiv.org/abs/2202.04565v1 ) ライセンス: CC BY 4.0 | Wenbo Sun, Dipesh Niraula, Issam El Naqa, Randall K Ten Haken, Ivo D Dinov, Kyle Cuneo, Judy Jin | (参考訳) 精密医療時代においては、治療効果を確保するために、患者固有の情報を多量に考慮し、計画された放射線線量を決定する必要がある精度放射線療法の必要性が高まっている。
既存の人工知能(AI)法は、この利用可能な情報の範囲内で放射線線量処方を推奨することができる。
しかし、医師の治療は、既知の制限や、AI推奨が医師の現在の知識を超えた場合のために、AIの推奨処方薬を完全には信頼できない可能性がある。
本稿では,専門知識をAIレコメンデーションと統合して臨床意思決定を最適化するための体系的手法を提案する。
この目標に向けて、ガウス過程(GP)モデルはディープニューラルネットワーク(DNN)と統合され、医師による治療結果の不確実性の定量化とAIレコメンデーションが、さらに臨床医師の教育とAIモデルのパフォーマンス向上のためのガイドラインとして使用される。
提案法は,非小細胞肺癌患者67ドルの放射線治療中に患者固有の情報と治療結果を収集し,振り返って解析する包括的データセットで実証された。 In the precision medicine era, there is a growing need for precision radiotherapy where the planned radiation dose needs to be optimally determined by considering a myriad of patient-specific information in order to ensure treatment efficacy. Existing artificial-intelligence (AI) methods can recommend radiation dose prescriptions within the scope of this available information. However, treating physicians may not fully entrust the AI's recommended prescriptions due to known limitations or when the AI recommendation may go beyond physicians' current knowledge. This paper lays out a systematic method to integrate expert human knowledge with AI recommendations for optimizing clinical decision making. Towards this goal, Gaussian process (GP) models are integrated with deep neural networks (DNNs) to quantify the uncertainty of the treatment outcomes given by physicians and AI recommendations, respectively, which are further used as a guideline to educate clinical physicians and improve AI models performance. The proposed method is demonstrated in a comprehensive dataset where patient-specific information and treatment outcomes are prospectively collected during radiotherapy of $67$ non-small cell lung cancer patients and retrospectively analyzed. | 翻訳日:2022-02-10 14:55:31 公開日:2022-02-09 |
# 説明による特徴量に着目したロバスト畳み込みニューラルネットワークの学習 Learning Robust Convolutional Neural Networks with Relevant Feature Focusing via Explanations ( http://arxiv.org/abs/2202.04237v1 ) ライセンス: Link先を確認 | Kazuki Adachi, Shin'ya Yamaguchi | (参考訳) 畳み込みニューラルネットワーク(CNN)に基づく既存の画像認識技術は、基本的にトレーニングとテストデータセットがi.d分布からサンプリングされていると仮定する。
しかし、この仮定は、入力画像におけるオブジェクトと背景の共起関係が変化するときに発生する分布シフトのため、現実世界では容易に破られる。
このような分散シフトの下で、cnnは、トレーニングデータからのバックグラウンドなどタスクに関係のない機能に注目し、テストデータの精度を低下させることを学ぶ。
この問題に対処するために、関連する特徴焦点(ReFF)を提案する。
ReFFはタスク関連機能を検出し、説明出力(Grad-CAMなど)を通じてCNNを正規化する。
ReFFはポストホックな説明モジュールで構成されているので、市販のCNNにも容易に適用できる。
さらに、ReFFはトレーニング中に正規化にのみ使用されるため、テスト時に追加の推論コストを必要としない。
我々は、ReFFで訓練されたCNNが対象タスクに関連する機能に注目し、ReFFがテスト時間精度を向上させることを示した。 Existing image recognition techniques based on convolutional neural networks (CNNs) basically assume that the training and test datasets are sampled from i.i.d distributions. However, this assumption is easily broken in the real world because of the distribution shift that occurs when the co-occurrence relations between objects and backgrounds in input images change. Under this type of distribution shift, CNNs learn to focus on features that are not task-relevant, such as backgrounds from the training data, and degrade their accuracy on the test data. To tackle this problem, we propose relevant feature focusing (ReFF). ReFF detects task-relevant features and regularizes CNNs via explanation outputs (e.g., Grad-CAM). Since ReFF is composed of post-hoc explanation modules, it can be easily applied to off-the-shelf CNNs. Furthermore, ReFF requires no additional inference cost at test time because it is only used for regularization while training. We demonstrate that CNNs trained with ReFF focus on features relevant to the target task and that ReFF improves the test-time accuracy. | 翻訳日:2022-02-10 14:23:48 公開日:2022-02-09 |
# 知覚の内部シミュレーションによる意図した行動予測 Predicting the intended action using internal simulation of perception ( http://arxiv.org/abs/2202.04466v1 ) ライセンス: Link先を確認 | Zahra Gharaee | (参考訳) 本稿では,行動パターンベクトルで表される知覚状態の内部シミュレーションによって意図を予測するアーキテクチャを提案する。
この目的のために、アソシエーション自己組織型ニューラルネットワーク(A-SOM)を用いて、骨格に基づく人間の行動の認識とシミュレーションのための階層的認知アーキテクチャを構築する。
3次元動作の3つの異なるデータセットを用いて,動作認識と予測における提案アーキテクチャの能力を評価する。
本稿では,行動パターンベクトルで表される内的擬似知覚状態を適用することにより,全ての実験において認識タスクの性能が向上することを示す。
さらに、知覚の内部シミュレーションは、知覚入力へのアクセスが限られている問題や、連続する知覚シーケンスの将来の予測にも対処している。
システムの性能を自己組織化ニューラルネットワーク(SOM)を用いて類似のアーキテクチャで比較検討した。 This article proposes an architecture, which allows the prediction of intention by internally simulating perceptual states represented by action pattern vectors. To this end, associative self-organising neural networks (A-SOM) is utilised to build a hierarchical cognitive architecture for recognition and simulation of the skeleton based human actions. The abilities of the proposed architecture in recognising and predicting actions is evaluated in experiments using three different datasets of 3D actions. Based on the experiments of this article, applying internally simulated perceptual states represented by action pattern vectors improves the performance of the recognition task in all experiments. Furthermore, internal simulation of perception addresses the problem of having limited access to the sensory input, and also the future prediction of the consecutive perceptual sequences. The performance of the system is compared and discussed with similar architecture using self-organizing neural networks (SOM). | 翻訳日:2022-02-10 14:23:32 公開日:2022-02-09 |
# 野生生物カメラトラッピングにおける距離推定と動物追跡 Distance Estimation and Animal Tracking for Wildlife Camera Trapping ( http://arxiv.org/abs/2202.04613v1 ) ライセンス: Link先を確認 | Peter Johanns, Timm Haucke, Volker Steinhage | (参考訳) 生物多様性の凍結は、例えば生物多様性の低下の原因と保存的介入の有効性を特定するために、動物の密度と豊富さの正確な推定を要求する。
この目的のために、カメラトラップと豊かさ推定法がしばしば用いられる。
カメラと観察された動物の間の必要な距離は、伝統的に、勤勉で完全に手動または半自動的なプロセスによって導かれる。
どちらのアプローチも参照画像素材を必要とするため、取得が難しく、既存のデータセットでは利用できない。
本研究では,単眼深度推定(mde)に基づいてカメラから動物間距離を完全自動推定する手法を提案する。
我々は、距離を推定するために最先端の相対的MDEと新しいアライメント手順を利用する。
トレーニング中に見つからない動物園シナリオデータセットに対するアプローチを評価する。
平均絶対距離推定誤差は0.9864メートルで精度90.3%、リコール63.8%であり、生物多様性研究者に求められる手作業を完全に排除した。
コードは利用可能になります。 The ongoing biodiversity crysis calls for accurate estimation of animal density and abundance to identify, for example, sources of biodiversity decline and effectiveness of conservation interventions. Camera traps together with abundance estimation methods are often employed for this purpose. The necessary distances between camera and observed animal are traditionally derived in a laborious, fully manual or semi-automatic process. Both approaches require reference image material, which is both difficult to acquire and not available for existing datasets. In this study, we propose a fully automatic approach to estimate camera-to-animal distances, based on monocular depth estimation (MDE), and without the need of reference image material. We leverage state-of-the-art relative MDE and a novel alignment procedure to estimate metric distances. We evaluate the approach on a zoo scenario dataset unseen during training. We achieve a mean absolute distance estimation error of only 0.9864 meters at a precision of 90.3% and recall of 63.8%, while completely eliminating the previously required manual effort for biodiversity researchers. The code will be made available. | 翻訳日:2022-02-10 14:21:09 公開日:2022-02-09 |
# 言語モデルを用いた学習データ生成:ゼロショット言語理解に向けて Generating Training Data with Language Models: Towards Zero-Shot Language Understanding ( http://arxiv.org/abs/2202.04538v1 ) ライセンス: Link先を確認 | Yu Meng, Jiaxin Huang, Yu Zhang, Jiawei Han | (参考訳) 事前訓練された言語モデル(PLM)は、様々な自然言語処理タスクにおいて顕著なパフォーマンスを示している:一方向のPLM(例えば、GPT)は、優れたテキスト生成能力でよく知られており、双方向のPLM(例えば、BERT)は、自然言語理解(NLU)タスクにおいて顕著な選択である。
どちらのモデルも望まれる数発の学習性能を達成したが、ゼロショット学習の可能性は過小評価されている。
本稿では,nluタスクの完全なゼロショット学習に,両タイプのplmを用いる簡単な手法を提案する。一方向plmは,双方向plmを微調整するためのトレーニングデータとして使用される,プロンプトによるクラス条件付きテキストを生成する。
With quality training data selected based on the generation probability and regularization techniques (label smoothing and temporal ensembling) applied to the fine-tuning stage for better generalization and stability, our approach demonstrates strong performance across seven classification tasks of the GLUE benchmark (e.g., 72.3/73.8 on MNLI-m/mm and 92.8 on SST-2), significantly outperforming zero-shot prompting methods and achieving even comparable results to strong few-shot approaches using 32 training samples per class. Pretrained language models (PLMs) have demonstrated remarkable performance in various natural language processing tasks: Unidirectional PLMs (e.g., GPT) are well known for their superior text generation capabilities; bidirectional PLMs (e.g., BERT) have been the prominent choice for natural language understanding (NLU) tasks. While both types of models have achieved promising few-shot learning performance, their potential for zero-shot learning has been underexplored. In this paper, we present a simple approach that uses both types of PLMs for fully zero-shot learning of NLU tasks without requiring any task-specific data: A unidirectional PLM generates class-conditioned texts guided by prompts, which are used as the training data for fine-tuning a bidirectional PLM. With quality training data selected based on the generation probability and regularization techniques (label smoothing and temporal ensembling) applied to the fine-tuning stage for better generalization and stability, our approach demonstrates strong performance across seven classification tasks of the GLUE benchmark (e.g., 72.3/73.8 on MNLI-m/mm and 92.8 on SST-2), significantly outperforming zero-shot prompting methods and achieving even comparable results to strong few-shot approaches using 32 training samples per class. | 翻訳日:2022-02-10 14:20:52 公開日:2022-02-09 |
# 文法誘導記号回帰を用いたドメイン知識包摂に対する強化学習アプローチ A Reinforcement Learning Approach to Domain-Knowledge Inclusion Using Grammar Guided Symbolic Regression ( http://arxiv.org/abs/2202.04367v1 ) ライセンス: Link先を確認 | Laure Crochepierre (RTE, LORIA, ORPAILLEUR, UL), Lydia Boudjeloud-Assala (LORIA, ORPAILLEUR, UL), Vincent Barbesant (RTE) | (参考訳) 近年、シンボル回帰は、潜在的に大きなデータ関係の解釈可能なシンボル表現を提供するために広く関心を集めている。
当初、遺伝的アルゴリズムに反し、記号回帰法は様々なDeep Learningベースの代替手段を含んでいる。
しかし、これらの手法は、ドメイン知識をほとんど含んでおらず、既知の方程式や単位のような変数間の物理的関係も考慮していないため、実世界のデータによく当てはまらない。
本稿では,文脈自由文法を強化作用空間として用いるドメイン知識で表現空間を制約する強化型文法誘導記号回帰法(rbg2-sr)を提案する。
我々は,問題の部分的に観察可能なマルコフ決定過程(pomdp)のモデル化を詳述し,最先端手法に対するアプローチをベンチマークする。
また,POMDPの状態定義を解析し,文法に基づく手法と非文法に基づく記号回帰法との比較を行う物理方程式探索ユースケースを提案する。
実験結果から,本手法はベンチマーク上の他の最先端手法と競合し,実世界のシナリオで文法ベースの手法を使うことに関心があることが示唆された。 In recent years, symbolic regression has been of wide interest to provide an interpretable symbolic representation of potentially large data relationships. Initially circled to genetic algorithms, symbolic regression methods now include a variety of Deep Learning based alternatives. However, these methods still do not generalize well to real-world data, mainly because they hardly include domain knowledge nor consider physical relationships between variables such as known equations and units. Regarding these issues, we propose a Reinforcement-Based Grammar-Guided Symbolic Regression (RBG2-SR) method that constrains the representational space with domain-knowledge using context-free grammar as reinforcement action space. We detail a Partially-Observable Markov Decision Process (POMDP) modeling of the problem and benchmark our approach against state-of-the-art methods. We also analyze the POMDP state definition and propose a physical equation search use case on which we compare our approach to grammar-based and non-grammarbased symbolic regression methods. The experiment results show that our method is competitive against other state-of-the-art methods on the benchmarks and offers the best error-complexity trade-off, highlighting the interest of using a grammar-based method in a real-world scenario. | 翻訳日:2022-02-10 14:20:32 公開日:2022-02-09 |
# ゴール条件付き指導学習の再考とオフラインRLとの関係 Rethinking Goal-conditioned Supervised Learning and Its Connection to Offline RL ( http://arxiv.org/abs/2202.04478v1 ) ライセンス: Link先を確認 | Rui Yang, Yiming Lu, Wenzhe Li, Hao Sun, Meng Fang, Yali Du, Xiu Li, Lei Han, Chongjie Zhang | (参考訳) 現在の強化学習(RL)アルゴリズムよりも単純で安定性が高いことから,自己教師付き学習を用いた疎度な報酬による目標条件付きタスクの解決が期待できる。
Goal-Conditioned Supervised Learning (GCSL)と呼ばれる最近の研究は、自己生成した経験を反復的に再現し、新しい学習フレームワークを提供する。
本稿では,目標到達目標の低限界を最適化するGCSLの理論的特性を再検討し,新しいオフライン目標条件付きRLアルゴリズムとしてGCSLを拡張した。
提案手法はWGCSL (Weighted GCSL) と命名され,(1)目標達成のためのディスカウント重量,(2)目標条件の指数的優位重量,(3)最良アドバンテージ重量の3つの部分からなる高度な複合重量を導入する。
理論的には、wgcslは目標条件付きrl目標の等価な下限を最適化し、反復スキームによって単調に改善されたポリシーを生成することが証明されている。
モノトニックなプロパティはいかなる行動ポリシーも保持するので、WGCSLはオンラインとオフラインの両方の設定に適用できる。
オフラインの目標条件付きrl設定でアルゴリズムを評価するために,点領域とシミュレーションロボット領域を含むベンチマークを提供する。
紹介されたベンチマークでは、WGCSLがGCSLと既存の最先端のオフラインメソッドを、完全にオフラインのゴール条件設定で一貫して上回ることを示した。 Solving goal-conditioned tasks with sparse rewards using self-supervised learning is promising because of its simplicity and stability over current reinforcement learning (RL) algorithms. A recent work, called Goal-Conditioned Supervised Learning (GCSL), provides a new learning framework by iteratively relabeling and imitating self-generated experiences. In this paper, we revisit the theoretical property of GCSL -- optimizing a lower bound of the goal reaching objective, and extend GCSL as a novel offline goal-conditioned RL algorithm. The proposed method is named Weighted GCSL (WGCSL), in which we introduce an advanced compound weight consisting of three parts (1) discounted weight for goal relabeling, (2) goal-conditioned exponential advantage weight, and (3) best-advantage weight. Theoretically, WGCSL is proved to optimize an equivalent lower bound of the goal-conditioned RL objective and generates monotonically improved policies via an iterated scheme. The monotonic property holds for any behavior policies, and therefore WGCSL can be applied to both online and offline settings. To evaluate algorithms in the offline goal-conditioned RL setting, we provide a benchmark including a range of point and simulated robot domains. Experiments in the introduced benchmark demonstrate that WGCSL can consistently outperform GCSL and existing state-of-the-art offline methods in the fully offline goal-conditioned setting. | 翻訳日:2022-02-10 14:20:09 公開日:2022-02-09 |
# 最適輸送によるdyadic fairnessの獲得 Obtaining Dyadic Fairness by Optimal Transport ( http://arxiv.org/abs/2202.04520v1 ) ライセンス: Link先を確認 | Moyi Yang, Junjie Sheng, Xiangfeng Wang, Wenyan Liu, Bo Jin, Jun Wang, Hongyuan Zha | (参考訳) フェアネスは機械学習モデルにおいて重要な指標とされている。
様々なタスクに対する公平さの獲得方法を研究する多くの仕事がある。
本稿では,dyadic fairness を用いて測定可能なリンク予測タスクに対するフェアネスの取得について検討する。
そこで本研究では,データ修復と最適輸送を両立させる前処理手法を提案する。
柔軟性と曖昧さを満たしたdyadic fairnessを得るため,dyadic repairingを最適輸送に基づいて条件分布アライメント問題に変換し,提案するアライメントとdyadic fairnessの関係に関する理論的結果を得る。
グラフリンク予測のために, 最適輸送に基づくダイアドフェアネスアルゴリズムを提案する。
提案アルゴリズムは,2つのベンチマークグラフデータセットの他の前処理手法と比較して,公平性を得る上で優れた結果を示す。 Fairness has been taken as a critical metric on machine learning models. Many works studying how to obtain fairness for different tasks emerge. This paper considers obtaining fairness for link prediction tasks, which can be measured by dyadic fairness. We aim to propose a pre-processing methodology to obtain dyadic fairness through data repairing and optimal transport. To obtain dyadic fairness with satisfying flexibility and unambiguity requirements, we transform the dyadic repairing to the conditional distribution alignment problem based on optimal transport and obtain theoretical results on the connection between the proposed alignment and dyadic fairness. The optimal transport-based dyadic fairness algorithm is proposed for graph link prediction. Our proposed algorithm shows superior results on obtaining fairness compared with the other pre-processing methods on two benchmark graph datasets. | 翻訳日:2022-02-10 14:19:42 公開日:2022-02-09 |
# (参考訳) 決定木のためのバックトラックティーブレーキング:デオデータ予測器について Backtrack Tie-Breaking for Decision Trees: A Note on Deodata Predictors ( http://arxiv.org/abs/2202.03865v2 ) ライセンス: CC BY 4.0 | Cristian Alb | (参考訳) 決定木において予測されたクラスまたは結果を選択するためのタイブレーキング手法を提案する。
この方法は、デオデータ予測器に使用される同様の手法の適応である。 A tie-breaking method is proposed for choosing the predicted class, or outcome, in a decision tree. The method is an adaptation of a similar technique used for deodata predictors. | 翻訳日:2022-02-10 13:49:32 公開日:2022-02-09 |
# (参考訳) ゲノミクスにおける遺伝子発現データ解析のための計算学習法の包括的調査 Comprehensive survey of computational learning methods for analysis of gene expression data in genomics ( http://arxiv.org/abs/2202.02958v2 ) ライセンス: CC BY 4.0 | Nikita Bhandari, Rahee Walambe, Ketan Kotecha, Satyajeet Khare | (参考訳) 機械学習を含む計算分析手法は、ゲノム学や医学の分野に大きな影響を与えている。
マイクロアレイ技術やRNAシークエンシングなどの高スループット遺伝子発現解析手法は膨大な量のデータを生成する。
伝統的に、統計的手法は遺伝子発現データの比較分析に用いられる。
しかし、特徴遺伝子の分類と発見のためのより複雑な分析やサンプル観察には高度な計算手法が必要である。
本稿では,表現マイクロアレイデータの解析に用いられる各種統計・計算ツールについて概説する。
これらの手法は, 発現マイクロアレイデータの文脈で論じられているが, RNAシークエンシングや定量プロテオミクスデータセットの解析にも応用できる。
具体的には,不備値(遺伝子発現)の計算方法,特徴遺伝子のスケーリング,次元減少のための特徴の選択と抽出,表現データの学習と解析について論じる。
欠落する値の型と、通常そのインプテーションで使われるメソッドとアプローチについて論じる。
また、データ変換の手法や特徴スケーリングの手法についても論じる。
特徴選択や抽出に用いられる様々なアプローチも検討されている。
最後に、クラス比較、クラス予測、クラス発見を含む学習および分析方法とその評価パラメータについて詳述する。
以上の手法の利点と限界とともに,マイクロアレイ遺伝子発現データの生成プロセスについて述べる。
この詳細なレビューは、ユーザがデータの種類と期待される結果に基づいて適切な方法を選択するのに役立つと信じています。 Computational analysis methods including machine learning have a significant impact in the fields of genomics and medicine. High-throughput gene expression analysis methods such as microarray technology and RNA sequencing produce enormous amounts of data. Traditionally, statistical methods are used for comparative analysis of the gene expression data. However, more complex analysis for classification and discovery of feature genes or sample observations requires sophisticated computational approaches. In this review, we compile various statistical and computational tools used in analysis of expression microarray data. Even though, the methods are discussed in the context of expression microarray data, they can also be applied for the analysis of RNA sequencing or quantitative proteomics datasets. We specifically discuss methods for missing value (gene expression) imputation, feature gene scaling, selection and extraction of features for dimensionality reduction, and learning and analysis of expression data. We discuss the types of missing values and the methods and approaches usually employed in their imputation. We also discuss methods of data transformation and feature scaling viz. normalization and standardization. Various approaches used in feature selection and extraction are also reviewed. Lastly, learning and analysis methods including class comparison, class prediction, and class discovery along with their evaluation parameters are described in detail. We have described the process of generation of a microarray gene expression data along with advantages and limitations of the above-mentioned techniques. We believe that this detailed review will help the users to select appropriate methods based on the type of data and the expected outcome. | 翻訳日:2022-02-10 13:47:46 公開日:2022-02-09 |
# (参考訳) モデルベース強化学習のための報酬評価サブタスク Reward-Respecting Subtasks for Model-Based Reinforcement Learning ( http://arxiv.org/abs/2202.03466v2 ) ライセンス: CC BY 4.0 | Richard S. Sutton and Marlos C. Machado and G. Zacharias Holland and David Szepesvari and Finbarr Timbers and Brian Tanner and Adam White | (参考訳) 人工知能の野心的な目標を達成するために、強化学習は、状態と時間に抽象的な世界のモデルによる計画を含む必要がある。
ディープラーニングは状態抽象化を進歩させたが、時間抽象化の理論はオプションフレームワークに基づいて広範囲に開発されてきたが、実際には計画にはほとんど使われていない。
この理由の1つは、オプションの空間が巨大であり、オプション発見のために提案されたメソッドは、オプションモデルが計画にどのように使用されるかを考慮していない。
オプションは通常、ボトルネック状態に到達する、または報酬以外の感覚信号を最大化するといった補助的なタスクを実行することで発見される。
各サブタスクは、オプションを生成するために解決され、オプションのモデルが学習され、計画プロセスで利用できる。
提案するサブタスクは,従来の問題に対する報酬を無視するのに対して,オプションが停止した時の状態の特徴に基づいて,元の報酬とボーナスを併用するサブタスクを提案する。
このような報酬評価サブタスクから得られるオプションやオプションモデルは、計画に有用である可能性が高く、既存の学習アルゴリズムを使用して、オンラインやオフポリシーで学ぶことができる。
サブタスクを尊重するリワードは、オプションの空間を強く制約し、オプション発見の問題に対する部分解を提供する。
最後に、一般的な値関数を用いて、値、ポリシー、オプション、モデルを学ぶアルゴリズムをどのように統合するかを示す。 To achieve the ambitious goals of artificial intelligence, reinforcement learning must include planning with a model of the world that is abstract in state and time. Deep learning has made progress in state abstraction, but, although the theory of time abstraction has been extensively developed based on the options framework, in practice options have rarely been used in planning. One reason for this is that the space of possible options is immense and the methods previously proposed for option discovery do not take into account how the option models will be used in planning. Options are typically discovered by posing subsidiary tasks such as reaching a bottleneck state, or maximizing a sensory signal other than the reward. Each subtask is solved to produce an option, and then a model of the option is learned and made available to the planning process. The subtasks proposed in most previous work ignore the reward on the original problem, whereas we propose subtasks that use the original reward plus a bonus based on a feature of the state at the time the option stops. We show that options and option models obtained from such reward-respecting subtasks are much more likely to be useful in planning and can be learned online and off-policy using existing learning algorithms. Reward respecting subtasks strongly constrain the space of options and thereby also provide a partial solution to the problem of option discovery. Finally, we show how the algorithms for learning values, policies, options, and models can be unified using general value functions. | 翻訳日:2022-02-10 13:46:42 公開日:2022-02-09 |
# (参考訳) テキスト分類における対実的マルチトークンフェアネス Counterfactual Multi-Token Fairness in Text Classification ( http://arxiv.org/abs/2202.03792v2 ) ライセンス: CC BY 4.0 | Pranay Lohia | (参考訳) 偽造トークンの生成は、一般的に短文で単一の文である1つのトークンだけを摂動することに限定されている。
これらのトークンは、しばしば多くの繊細な属性の1つに関連付けられる。
反事実が生成されると、任意の機密属性に対する機械学習分類モデルの不変性を達成するという目標が限定され、反事実公平性の定式化が狭まる。
本稿では,根の問題を解き,理解のためにより大きな領域を開くことで,これらの限界を克服する。
我々は、機密トークンとその対応する摂動トークンのリソースをキュレートし、年齢、性別、国籍への人種、障害、宗教といった伝統的に使用される機密属性を超えてサポートを拡張しました。
対実生成の概念は、あらゆる形式のテキストや文書に有効なマルチトークンサポートにまで拡張されている。
我々は,複数の機密トークンを摂動することで,偽造語を生成する方法を定義した。
この手法は、シングルトーケン方式よりも大幅な性能向上を示すために概念化され、複数のベンチマークデータセット上で検証されている。
カウンターファクト・ジェネレーションの賛同は、改良されたカウンターファクト・マルチトークン・フェアネスの実現に寄与する。 The counterfactual token generation has been limited to perturbing only a single token in texts that are generally short and single sentences. These tokens are often associated with one of many sensitive attributes. With limited counterfactuals generated, the goal to achieve invariant nature for machine learning classification models towards any sensitive attribute gets bounded, and the formulation of Counterfactual Fairness gets narrowed. In this paper, we overcome these limitations by solving root problems and opening bigger domains for understanding. We have curated a resource of sensitive tokens and their corresponding perturbation tokens, even extending the support beyond traditionally used sensitive attributes like Age, Gender, Race to Nationality, Disability, and Religion. The concept of Counterfactual Generation has been extended to multi-token support valid over all forms of texts and documents. We define the method of generating counterfactuals by perturbing multiple sensitive tokens as Counterfactual Multi-token Generation. The method has been conceptualized to showcase significant performance improvement over single-token methods and validated over multiple benchmark datasets. The emendation in counterfactual generation propagates in achieving improved Counterfactual Multi-token Fairness. | 翻訳日:2022-02-10 13:27:17 公開日:2022-02-09 |
# (参考訳) graphdca -- 実グラフと合成グラフのノード分布比較のためのフレームワーク GraphDCA -- a Framework for Node Distribution Comparison in Real and Synthetic Graphs ( http://arxiv.org/abs/2202.03884v2 ) ライセンス: CC BY 4.0 | Ciwan Ceylan, Petra Poklukar, Hanna Hultin, Alexander Kravchenko, Anastasia Varava, Danica Kragic | (参考訳) 2つのグラフを比較するとき、特にグラフ生成モデルを評価するためによく用いられるグローバルグラフ統計よりも、ノード構造の特徴の分布の方がより有益であると論じる。
そこで我々は,各ノード表現セットのアライメントに基づいて,グラフ間の類似性を評価するフレームワークGraphDCAを提案する。
これらの集合は、グラフデータに拡張したDCA(Delaunay Component Analysis)と呼ばれる、最近提案された表現空間の比較手法を用いて比較される。
本フレームワークを評価するために, 異なる構造パターンを示すグラフのベンチマークデータセットを作成し, 3つのノード構造特徴抽出器を用いて, 類似および異種局所構造を持つグラフを認識することを示す。
次に,3つの実世界のグラフデータセットを評価するためのフレームワークを適用し,段階的なエッジ摂動を用いて,グラフdcaがグローバル統計とは異なり徐々に類似度を減少させていくことを実証する。
最後に、グラフDCAを用いて2つの最先端グラフ生成モデル、NetGANとCellを評価し、これらのモデルが局所的な特徴を適切に再現するためにさらなる改善が必要であると結論づける。 We argue that when comparing two graphs, the distribution of node structural features is more informative than global graph statistics which are often used in practice, especially to evaluate graph generative models. Thus, we present GraphDCA - a framework for evaluating similarity between graphs based on the alignment of their respective node representation sets. The sets are compared using a recently proposed method for comparing representation spaces, called Delaunay Component Analysis (DCA), which we extend to graph data. To evaluate our framework, we generate a benchmark dataset of graphs exhibiting different structural patterns and show, using three node structure feature extractors, that GraphDCA recognizes graphs with both similar and dissimilar local structure. We then apply our framework to evaluate three publicly available real-world graph datasets and demonstrate, using gradual edge perturbations, that GraphDCA satisfyingly captures gradually decreasing similarity, unlike global statistics. Finally, we use GraphDCA to evaluate two state-of-the-art graph generative models, NetGAN and CELL, and conclude that further improvements are needed for these models to adequately reproduce local structural features. | 翻訳日:2022-02-10 13:10:10 公開日:2022-02-09 |
# KENN: 時系列予測の知識を活用したディープニューラルネットワークの実現 KENN: Enhancing Deep Neural Networks by Leveraging Knowledge for Time Series Forecasting ( http://arxiv.org/abs/2202.03903v2 ) ライセンス: Link先を確認 | Muhammad Ali Chattha, Ludger van Elst, Muhammad Imran Malik, Andreas Dengel, Sheraz Ahmed | (参考訳) エンドツーエンドのデータ駆動機械学習手法は、実世界のアプリケーションでは実現できないことが多い、トレーニングデータの質と量という面では、しばしば余分な要件を持っています。
これは特に、災害予測、異常検出、需要予測などの問題が大量の履歴データを持っていない時系列領域において当てはまる。
さらに、トレーニングの過去の例に純粋に依存することは、実行時に非常に重要なドメインである知識を無視し、独自のアドバンテージを持つため、サブ最適である。
本稿では,知識とデータドメインの強みを両立させ,個々の弱点を緩和することを目的とした時系列予測のための知識融合アーキテクチャである知識強化ニューラルネットワーク(KENN)を提案する。
我々は、KENNがフレームワーク全体のデータ依存を減らすだけでなく、純粋に知識とデータ駆動ドメインによって生成されるものよりも優れた予測を生成することで、パフォーマンスを向上させることを示した。
また,kennと最先端予測手法を比較し,50%のデータをトレーニングした場合においても,kennが生成する予測が有意に優れていることを示した。 End-to-end data-driven machine learning methods often have exuberant requirements in terms of quality and quantity of training data which are often impractical to fulfill in real-world applications. This is specifically true in time series domain where problems like disaster prediction, anomaly detection, and demand prediction often do not have a large amount of historical data. Moreover, relying purely on past examples for training can be sub-optimal since in doing so we ignore one very important domain i.e knowledge, which has its own distinct advantages. In this paper, we propose a novel knowledge fusion architecture, Knowledge Enhanced Neural Network (KENN), for time series forecasting that specifically aims towards combining strengths of both knowledge and data domains while mitigating their individual weaknesses. We show that KENN not only reduces data dependency of the overall framework but also improves performance by producing predictions that are better than the ones produced by purely knowledge and data driven domains. We also compare KENN with state-of-the-art forecasting methods and show that predictions produced by KENN are significantly better even when trained on only 50\% of the data. | 翻訳日:2022-02-10 12:46:07 公開日:2022-02-09 |
# エキスパート強化によるロバストハイブリッド学習 Robust Hybrid Learning With Expert Augmentation ( http://arxiv.org/abs/2202.03881v2 ) ライセンス: Link先を確認 | Antoine Wehenkel, Jens Behrmann, Hsiang Hsu, Guillermo Sapiro, Gilles Louppe, J\"orn-Henrik Jacobsen | (参考訳) ハイブリッドモデリングは、データから学んだ機械学習(ML)コンポーネントと組み合わせることで、専門家モデルの誤特定を減らす。
多くのMLアルゴリズムと同様に、ハイブリッドモデルの性能保証はトレーニング分布に限られている。
エキスパートモデルは通常、トレーニング領域外でも有効であるという知見を活用することで、‘textit{expert augmentation}’と呼ばれるハイブリッドデータ拡張戦略を導入することで、この制限を克服します。
ハイブリッドモデリングの確率論的形式化に基づき、専門家の強化が一般化を改善する理由を示す。
最後に, 常微分方程式および偏微分方程式によって記述される力学系をモデル化する一連の制御実験において, 拡張ハイブリッドモデルの実用的効果を検証する。 Hybrid modelling reduces the misspecification of expert models by combining them with machine learning (ML) components learned from data. Like for many ML algorithms, hybrid model performance guarantees are limited to the training distribution. Leveraging the insight that the expert model is usually valid even outside the training domain, we overcome this limitation by introducing a hybrid data augmentation strategy termed \textit{expert augmentation}. Based on a probabilistic formalization of hybrid modelling, we show why expert augmentation improves generalization. Finally, we validate the practical benefits of augmented hybrid models on a set of controlled experiments, modelling dynamical systems described by ordinary and partial differential equations. | 翻訳日:2022-02-10 12:45:48 公開日:2022-02-09 |
# 固定重み付き単層ニューラルネットワークの近似誤差 Approximation error of single hidden layer neural networks with fixed weights ( http://arxiv.org/abs/2202.03289v2 ) ライセンス: Link先を確認 | Vugar Ismailov | (参考訳) 本稿では,2つの固定重みを持つ単一層ニューラルネットワークの近似誤差の明示的な式を提供する。 This paper provides an explicit formula for the approximation error of single hidden layer neural networks with two fixed weights. | 翻訳日:2022-02-10 12:45:37 公開日:2022-02-09 |
# 文字統計を用いた種子単語の選択 Selecting Seed Words for Wordle using Character Statistics ( http://arxiv.org/abs/2202.03457v2 ) ライセンス: Link先を確認 | Nisansa de Silva | (参考訳) 単語推測ゲーム「wordle」は2022年1月に世界的な人気を博した。
ゲームの目的は6回以内に5文字の英語単語を推測することである。
各トライは、あるキャラクタがソリューションの一部であるかどうかを知らせる色を変えるタイルによってプレイヤーにヒントを与え、それがソリューションの一部である場合、それが正しい配置にあるかどうかを判断する。
毎日の単語を解決するための最善の出発語と最善の戦略を見つけるために、多くの試みがなされている。
本研究は,5文字単語の文字統計を用いて,最良3単語を決定する。 Wordle, a word guessing game rose to global popularity in the January of 2022. The goal of the game is to guess a five-letter English word within six tries. Each try provides the player with hints by means of colour changing tiles which inform whether or not a given character is part of the solution as well as, in cases where it is part of the solution, whether or not it is in the correct placement. Numerous attempts have been made to find the best starting word and best strategy to solve the daily wordle. This study uses character statistics of five-letter words to determine the best three starting words. | 翻訳日:2022-02-10 12:45:34 公開日:2022-02-09 |
# 抽象要約に基づく微分可能なN-gram Differentiable N-gram Objective on Abstractive Summarization ( http://arxiv.org/abs/2202.04003v2 ) ライセンス: Link先を確認 | Yunqi Zhu and Wensheng Zhang and Mingjin Zhu | (参考訳) ROUGEは、シーケンス・ツー・シーケンスタスクのn-gramに基づく標準的な自動評価指標であり、クロスエントロピー損失は、ユニグラムレベルで最適化されるニューラルネットワーク言語モデルの重要な目的である。
そこで我々は,n-gramの目標を微分可能とし,訓練基準と評価基準との相違を緩和する。
この目的は一致したサブシーケンスの確率的重みを最大化し、我々の研究の新規性は一致したサブシーケンスの目的重みを等しく保ち、基準系列におけるn-グラムの基底真理数によって一致したサブシーケンスの数を減少させない。
クロスエントロピー損失と提案する目標を共同で最適化し,抽象要約データセットcnn/dmとxsumに対して,適切なルージュスコアの強化を行い,代替n-gram目標を上回った。 ROUGE is a standard automatic evaluation metric based on n-grams for sequence-to-sequence tasks, while cross-entropy loss is an essential objective of neural network language model that optimizes at a unigram level. We present differentiable n-gram objectives, attempting to alleviate the discrepancy between training criterion and evaluating criterion. The objective maximizes the probabilistic weight of matched sub-sequences, and the novelty of our work is the objective weights the matched sub-sequences equally and does not ceil the number of matched sub-sequences by the ground truth count of n-grams in reference sequence. We jointly optimize cross-entropy loss and the proposed objective, providing decent ROUGE score enhancement over abstractive summarization dataset CNN/DM and XSum, outperforming alternative n-gram objectives. | 翻訳日:2022-02-10 12:45:25 公開日:2022-02-09 |
# 自己組織化学習による複雑なデータの推論 Reasoning for Complex Data through Ensemble-based Self-Supervised Learning ( http://arxiv.org/abs/2202.03126v2 ) ライセンス: Link先を確認 | Gabriel Bertocco, Ant\^onio The\'ofilo, Fernanda Andal\'o and Anderson Rocha | (参考訳) 自己教師付き学習は、利用可能なラベル付きデータが少ないか全くない問題を扱う。
最近の研究は、基礎となるクラスが意味的に大きな違いがある場合、印象的な結果を示している。
このテクニックが繁栄する重要なデータセットの1つはimagenetであり、クラス内距離はクラス間距離よりもかなり低い。
しかし、これはいくつかの重要なタスクには当てはまり、クラスがより密接なセマンティクスを持つ場合、一般的な自己教師付き学習手法では識別的特徴を学習できないため、より堅牢な戦略が必要である。
そこで本研究では,異なるクラスからのサンプルが顕著に多様でない場合でも,ラベルなしデータからの学習を可能にする手法を提案する。
本研究では,異なる構成から派生したクラスタを組み合わせ,完全教師なしの方法でデータサンプルのより優れたグループ化を実現する,新しいアンサンブルベースのクラスタリング戦略を活用することで,この問題に対処する。
この戦略により、データセット毎に最適な設定を見つける必要がなくなることなく、異なる密度と高い可変性を持つクラスタが出現し、クラス内の不一致を低減できる。
また、サンプル間の距離を計算するために異なる畳み込みニューラルネットワークも検討する。
コンテキスト分析を行い,それらをグループ化し,補完的情報を取り込むことにより,これらの距離を洗練する。
私たちは、パイプラインを検証するための2つのアプリケーションについて検討しています。
これらは、クラスが意味的に互いに近く、トレーニングとテストセットが不一致のアイデンティティを持つことを考えると、難しいアプリケーションである。
提案手法は異なるモダリティにまたがって頑健であり,ラベル付けや人間の介入なしに完全に教師なしのソリューションで最先端の結果を上回っている。 Self-supervised learning deals with problems that have little or no available labeled data. Recent work has shown impressive results when underlying classes have significant semantic differences. One important dataset in which this technique thrives is ImageNet, as intra-class distances are substantially lower than inter-class distances. However, this is not the case for several critical tasks, and general self-supervised learning methods fail to learn discriminative features when classes have closer semantics, thus requiring more robust strategies. We propose a strategy to tackle this problem, and to enable learning from unlabeled data even when samples from different classes are not prominently diverse. We approach the problem by leveraging a novel ensemble-based clustering strategy where clusters derived from different configurations are combined to generate a better grouping for the data samples in a fully-unsupervised way. This strategy allows clusters with different densities and higher variability to emerge, which in turn reduces intra-class discrepancies, without requiring the burden of finding an optimal configuration per dataset. We also consider different Convolutional Neural Networks to compute distances between samples. We refine these distances by performing context analysis and group them to capture complementary information. We consider two applications to validate our pipeline: Person Re-Identification and Text Authorship Verification. These are challenging applications considering that classes are semantically close to each other and that training and test sets have disjoint identities. Our method is robust across different modalities and outperforms state-of-the-art results with a fully-unsupervised solution without any labeling or human intervention. | 翻訳日:2022-02-10 12:45:07 公開日:2022-02-09 |
# PSSNet:大規模都市メッシュの平面感性セマンティックセグメンテーション PSSNet: Planarity-sensible Semantic Segmentation of Large-scale Urban Meshes ( http://arxiv.org/abs/2202.03209v2 ) ライセンス: Link先を確認 | Weixiao Gao, Liangliang Nan, Bas Boom, Hugo Ledoux | (参考訳) テクスチャメッシュとして表現される3次元都市シーンを解釈する,新しいディープラーニングベースのフレームワークを提案する。
オブジェクト境界が一般的に平面領域の境界と一致するという観測に基づいて、我々のフレームワークは2つのステップでセマンティックセグメンテーションを実現します。
オーバーセグメンテーションステップは、都市景観の平面領域と非平面領域をキャプチャするメッシュセグメントの初期セットを生成する。
その後の分類ステップでは、ノードのセグメントの幾何学的および測光的特徴とエッジのマルチスケールな文脈的特徴をエンコードするグラフを構築する。
最終セマンティックセグメンテーションは、グラフ畳み込みネットワークを用いてセグメントを分類することによって得られる。
大規模セマンティクス都市メッシュベンチマークにおける実験と比較により,提案手法が境界品質と平均iouの点で最先端手法よりも優れていることが示された。
さらに、セマンティックセグメンテーション専用のメッシュオーバーセグメンテーション手法を評価するためのいくつかの新しいメトリクスを導入し、提案したオーバーセグメンテーションアプローチは、すべてのメトリクスで最先端のメソッドよりも優れています。
私たちのソースコードは、論文が受け入れられるとリリースされます。 We introduce a novel deep learning-based framework to interpret 3D urban scenes represented as textured meshes. Based on the observation that object boundaries typically align with the boundaries of planar regions, our framework achieves semantic segmentation in two steps: planarity-sensible over-segmentation followed by semantic classification. The over-segmentation step generates an initial set of mesh segments that capture the planar and non-planar regions of urban scenes. In the subsequent classification step, we construct a graph that encodes geometric and photometric features of the segments in its nodes and multi-scale contextual features in its edges. The final semantic segmentation is obtained by classifying the segments using a graph convolutional network. Experiments and comparisons on a large semantic urban mesh benchmark demonstrate that our approach outperforms the state-of-the-art methods in terms of boundary quality and mean IoU (intersection over union). Besides, we also introduce several new metrics for evaluating mesh over-segmentation methods dedicated for semantic segmentation, and our proposed over-segmentation approach outperforms state-of-the-art methods on all metrics. Our source code will be released when the paper is accepted. | 翻訳日:2022-02-10 12:43:22 公開日:2022-02-09 |
# ほぼ消滅する理想に対する条件勾配 Conditional Gradients for the Approximately Vanishing Ideal ( http://arxiv.org/abs/2202.03349v3 ) ライセンス: Link先を確認 | E. Wirth, S. Pokutta | (参考訳) 点の集合 $X\subseteq \mathbb{R}^n$ の消滅イデアルは、すべての点 $\mathbf{x} \in X$ 上で$0$ と評価され、ジェネレータと呼ばれる多項式の有限集合による効率的な表現を認める多項式の集合である。
データセットのノイズに対処するため,約消滅するイデアルのジェネレータの集合を構築するために,CGAVI(Conditional Gradients A roughly Vanishing Ideal Algorithm)を導入する。
構築されたジェネレータのセットはデータの多項式構造をキャプチャし、例えば教師付き学習のための線形分類器と組み合わせて使用できる特徴マップを生成する。
CGAVIでは、Pairwise Frank-Wolfeアルゴリズム(PFW)を用いて、(制約付き)凸最適化問題を解くことで、ジェネレータの集合を構築する。
中でも、構築されたジェネレータはLASSO一般化境界を継承し、トレーニングだけでなく、サンプル外のデータにも消滅する。
さらに、CGAVI はスパース係数ベクトルを持つ少数の生成子を構成することで、ほぼ消滅するイデアルのコンパクト表現を認める。 The vanishing ideal of a set of points $X\subseteq \mathbb{R}^n$ is the set of polynomials that evaluate to $0$ over all points $\mathbf{x} \in X$ and admits an efficient representation by a finite set of polynomials called generators. To accommodate the noise in the data set, we introduce the Conditional Gradients Approximately Vanishing Ideal algorithm (CGAVI) for the construction of the set of generators of the approximately vanishing ideal. The constructed set of generators captures polynomial structures in data and gives rise to a feature map that can, for example, be used in combination with a linear classifier for supervised learning. In CGAVI, we construct the set of generators by solving specific instances of (constrained) convex optimization problems with the Pairwise Frank-Wolfe algorithm (PFW). Among other things, the constructed generators inherit the LASSO generalization bound and not only vanish on the training but also on out-sample data. Moreover, CGAVI admits a compact representation of the approximately vanishing ideal by constructing few generators with sparse coefficient vectors. | 翻訳日:2022-02-10 12:43:00 公開日:2022-02-09 |
# causpref: 分散推薦のための因果選好学習 CausPref: Causal Preference Learning for Out-of-Distribution Recommendation ( http://arxiv.org/abs/2202.03984v2 ) ライセンス: Link先を確認 | Yue He, Zimu Wang, Peng Cui, Hao Zou, Yafeng Zhang, Qiang Cui, Yong Jiang | (参考訳) 近年の機械学習の進歩的な能力により、リコメンダシステムが著しく発展しているにもかかわらず、現在のリコメンダシステムは、現実的なシナリオにおけるユーザやアイテムの分散シフトに対して、依然として脆弱であり、テスト環境におけるパフォーマンスの急激な低下につながっている。
スパースデータからの暗黙のフィードバックしか利用できない多くの一般的なアプリケーションでは、さらに厳しい。
したがって,様々な環境においてレコメンデーション手法の性能安定性を促進することが重要である。
本稿では,まず,out-of-distribution (ood) 一般化の観点から,暗黙的推奨問題の徹底的な解析を行う。
そこで,本理論解析の指導のもと,causprefと呼ばれる新しい因果選好に基づく推薦フレームワークに推奨特化dag学習者を導入することを提案する。
実世界のデータセットから得られた広範囲な実験結果から、我々のアプローチは、分散設定のタイプにおいて、ベンチマークモデルを大幅に上回っており、その印象的な解釈可能性を示しています。 In spite of the tremendous development of recommender system owing to the progressive capability of machine learning recently, the current recommender system is still vulnerable to the distribution shift of users and items in realistic scenarios, leading to the sharp decline of performance in testing environments. It is even more severe in many common applications where only the implicit feedback from sparse data is available. Hence, it is crucial to promote the performance stability of recommendation method in different environments. In this work, we first make a thorough analysis of implicit recommendation problem from the viewpoint of out-of-distribution (OOD) generalization. Then under the guidance of our theoretical analysis, we propose to incorporate the recommendation-specific DAG learner into a novel causal preference-based recommendation framework named CausPref, mainly consisting of causal learning of invariant user preference and anti-preference negative sampling to deal with implicit feedback. Extensive experimental results from real-world datasets clearly demonstrate that our approach surpasses the benchmark models significantly under types of out-of-distribution settings, and show its impressive interpretability. | 翻訳日:2022-02-10 12:42:38 公開日:2022-02-09 |
# 教師付き変化点検出のためのシンクホーンダイバージェンス学習 Learning Sinkhorn divergences for supervised change point detection ( http://arxiv.org/abs/2202.04000v2 ) ライセンス: Link先を確認 | Nauman Ahad, Eva L. Dyer, Keith B. Hengen, Yao Xie, Mark A. Davenport | (参考訳) 現代の多くのアプリケーションは、複雑なシーケンシャルデータの変化点を検出する必要がある。
変更点検出のための既存のほとんどのメソッドは教師なしであり、結果として、どのような変更を検出したいか、あるいは何らかの変更が無視されるかどうかに関する情報がない。
これにより、しばしば変更検出性能が低下する。
そこで本研究では,スライディングウインドウにおける2つのサンプルテストにおいて,シンクホーンダイバージェンスを用いてオンライン的に変化点を検出できるように,基底距離の学習にtrue change pointインスタンスを用いた新しい変化点検出フレームワークを提案する。
本手法は,高次元変化点検出設定における特徴選択と解釈の両方に有用なスパースメトリックの学習に使用できる。
その結果,提案手法はラベル付き変更点インスタンス数が少ないだけで,既存の教師なし変更点検出手法よりも大幅に変更点検出性能を向上させることができることがわかった。 Many modern applications require detecting change points in complex sequential data. Most existing methods for change point detection are unsupervised and, as a consequence, lack any information regarding what kind of changes we want to detect or if some kinds of changes are safe to ignore. This often results in poor change detection performance. We present a novel change point detection framework that uses true change point instances as supervision for learning a ground metric such that Sinkhorn divergences can be then used in two-sample tests on sliding windows to detect change points in an online manner. Our method can be used to learn a sparse metric which can be useful for both feature selection and interpretation in high-dimensional change point detection settings. Experiments on simulated as well as real world sequences show that our proposed method can substantially improve change point detection performance over existing unsupervised change point detection methods using only few labeled change point instances. | 翻訳日:2022-02-10 12:42:16 公開日:2022-02-09 |
# PrivFair: プライバシー保護フェアネス監査のためのライブラリ PrivFair: a Library for Privacy-Preserving Fairness Auditing ( http://arxiv.org/abs/2202.04058v2 ) ライセンス: Link先を確認 | Sikha Pentyala, David Melanson, Martine De Cock, Golnoosh Farnadi | (参考訳) 機械学習(ML)は、医療、司法、金融など、人々の生活の質に直接影響を及ぼすアプリケーションで顕著になっている。
MLモデルは、性別、人種、障害などのセンシティブな属性に基づいた差別を示す。
mlモデルにバイアスがないかどうかを評価することは、いまだに難しい課題であり、定義上、差別防止法やデータ保護法の対象となる繊細なユーザー特性で行わなければならない。
mlモデルの公正監査のための既存のライブラリは、監査データのプライバシーを保護するメカニズムを提供していません。
MLモデルのプライバシ保護フェアネス監査のためのライブラリであるPrivFairを紹介する。
Secure Multiparty Computation (MPC)の使用により、PrivFairは監査中のモデルの機密性と監査に使用される機密データを保護し、企業が所有する独自分類器が外部調査員からの機密監査データを使用して監査されるシナリオをサポートする。
文書データや画像データを用いたグループフェアネス監査にPrivFairを用いることで,調査員が暗号化されていない方法でデータを公開したり,モデル所有者がモデルパラメータを平文で公開したりすることなく,グループフェアネス監査にPivFairを活用できることを実証する。 Machine learning (ML) has become prominent in applications that directly affect people's quality of life, including in healthcare, justice, and finance. ML models have been found to exhibit discrimination based on sensitive attributes such as gender, race, or disability. Assessing if an ML model is free of bias remains challenging to date, and by definition has to be done with sensitive user characteristics that are subject of anti-discrimination and data protection law. Existing libraries for fairness auditing of ML models offer no mechanism to protect the privacy of the audit data. We present PrivFair, a library for privacy-preserving fairness audits of ML models. Through the use of Secure Multiparty Computation (MPC), PrivFair protects the confidentiality of the model under audit and the sensitive data used for the audit, hence it supports scenarios in which a proprietary classifier owned by a company is audited using sensitive audit data from an external investigator. We demonstrate the use of PrivFair for group fairness auditing with tabular data or image data, without requiring the investigator to disclose their data to anyone in an unencrypted manner, or the model owner to reveal their model parameters to anyone in plaintext. | 翻訳日:2022-02-10 12:41:45 公開日:2022-02-09 |
# チャネル符号化理論を用いた分散テンソル用局所ランダムP族合金符号 Locally Random P-adic Alloy Codes with Channel Coding Theorems for Distributed Coded Tensors ( http://arxiv.org/abs/2202.03469v2 ) ライセンス: Link先を確認 | Pedro Soto, Haibin Guan, Jun Li | (参考訳) テンソル、すなわちマルチリニア関数は、機械学習アルゴリズムの基本的な構築ブロックである。
大規模データセットのトレーニングには,作業者間で計算を分散することが一般的である。
しかし、ストラグラーやその他の障害は、パフォーマンスやトレーニング時間全体に重大な影響を与える可能性がある。
これらの障害を軽減するための新しい戦略は、コード化された計算を使うことである。
我々は,最も可能性の高い事象に注目し,この尺度に最適な分散符号化テンソル演算を新たに構築した,典型的な回復しきい値と呼ばれる新しい分析指標を導入する。
我々は,我々の汎用フレームワークが,他の多くの計算スキームやメトリクスを特別に包含していることを示す。
特に,ノイズの確率が0である場合,典型的な回復しきい値の特別な場合に,回復しきい値とテンソルランクを回復可能であることを証明し,ノイズのない計算をセレンディピタイトな結果としてノイズを一般化する。
純粋に理論的な構成とは程遠いが、これらの定義は実践的なランダムなコード構成、すなわち局所的なランダムなp進合金符号へと導かれる。
amazon ec2で実施した実験を分析し、理論によって予測されるように、実際の多くのベンチマーク計算方式よりも高速で数値的に安定であることを示す。 Tensors, i.e., multi-linear functions, are a fundamental building block of machine learning algorithms. In order to train on large data-sets, it is common practice to distribute the computation amongst workers. However, stragglers and other faults can severely impact the performance and overall training time. A novel strategy to mitigate these failures is the use of coded computation. We introduce a new metric for analysis called the typical recovery threshold, which focuses on the most likely event and provide a novel construction of distributed coded tensor operations which are optimal with this measure. We show that our general framework encompasses many other computational schemes and metrics as a special case. In particular, we prove that the recovery threshold and the tensor rank can be recovered as a special case of the typical recovery threshold when the probability of noise, i.e., a fault, is equal to zero, thereby providing a noisy generalization of noiseless computation as a serendipitous result. Far from being a purely theoretical construction, these definitions lead us to practical random code constructions, i.e., locally random p-adic alloy codes, which are optimal with respect to the measures. We analyze experiments conducted on Amazon EC2 and establish that they are faster and more numerically stable than many other benchmark computation schemes in practice, as is predicted by theory. | 翻訳日:2022-02-10 12:41:23 公開日:2022-02-09 |
# フェアSA:顔認識におけるフェアネスの感度解析 Fair SA: Sensitivity Analysis for Fairness in Face Recognition ( http://arxiv.org/abs/2202.03586v2 ) ライセンス: Link先を確認 | Aparna R. Joshi, Xavier Suau, Nivedha Sivakumar, Luca Zappella and Nicholas Apostoloff | (参考訳) 高影響領域におけるディープラーニングの利用がユビキタス化するにつれ、モデルのレジリエンスを評価することがますます重要である。
そのような大きな影響領域の1つは顔認識であり、現実世界のアプリケーションは、動きのぼかしや高露出といった様々な劣化の影響を受ける画像を含む。
さらに、性別や人種といったさまざまな属性でキャプチャされた画像は、顔認識アルゴリズムの堅牢性にも挑戦することができる。
従来の要約統計では、顔認識モデルの総合的な性能は改善を続けているが、これらの指標はモデルのロバスト性や公平性を直接測定するものではない。
視覚心理物理学感度分析(vpsa)[1]は、データにインクリメンタルな摂動を導入することによって、個々の障害原因を特定する方法を提供する。
しかし、摂動はサブグループに異なる影響を与える可能性がある。
本稿では,VPSAを拡張した汎用フレームワークとして,ロバスト性に基づく新たなフェアネス評価を提案する。
この枠組みにより,摂動によって影響を受ける集団の異なるサブグループに対して,モデルが公平に実行する能力を分析し,対象のロバスト性を測定することにより,サブグループの正確な障害モードを特定できる。
モデルの公平性への注目が高まる中、顔認識をフレームワークのサンプルアプリケーションとして使用し、auc行列を介してモデルの公平性解析をコンパクトに可視化することを提案する。
本研究では,一般的な顔認識モデルの性能を分析し,画像の摂動時に一部のサブグループが不利であることを実証的に示す。 As the use of deep learning in high impact domains becomes ubiquitous, it is increasingly important to assess the resilience of models. One such high impact domain is that of face recognition, with real world applications involving images affected by various degradations, such as motion blur or high exposure. Moreover, images captured across different attributes, such as gender and race, can also challenge the robustness of a face recognition algorithm. While traditional summary statistics suggest that the aggregate performance of face recognition models has continued to improve, these metrics do not directly measure the robustness or fairness of the models. Visual Psychophysics Sensitivity Analysis (VPSA) [1] provides a way to pinpoint the individual causes of failure by way of introducing incremental perturbations in the data. However, perturbations may affect subgroups differently. In this paper, we propose a new fairness evaluation based on robustness in the form of a generic framework that extends VPSA. With this framework, we can analyze the ability of a model to perform fairly for different subgroups of a population affected by perturbations, and pinpoint the exact failure modes for a subgroup by measuring targeted robustness. With the increasing focus on the fairness of models, we use face recognition as an example application of our framework and propose to compactly visualize the fairness analysis of a model via AUC matrices. We analyze the performance of common face recognition models and empirically show that certain subgroups are at a disadvantage when images are perturbed, thereby uncovering trends that were not visible using the model's performance on subgroups without perturbations. | 翻訳日:2022-02-10 12:41:02 公開日:2022-02-09 |
# マスクオートエンコーダの理解方法 How to Understand Masked Autoencoders ( http://arxiv.org/abs/2202.03670v2 ) ライセンス: Link先を確認 | Shuhao Cao, Peng Xu, David A. Clifton | (参考訳) Masked Autoencoders (MAE) Are Scalable Vision Learners (MAE) Are Are Scalable Vision Learners) は、イメージ事前学習の最先端を達成できるだけでなく、視覚面と言語面のオートエンコーディング(BERTスタイル)のギャップを埋めるマイルストーンである、自己教師型学習法に革命をもたらす。
しかし、我々の知る限り、今のところMAEの強力な表現性を説明する理論的視点は存在しない。
本稿では,MAEの数学的理解を提供する統一理論フレームワークを初めて提案する。
具体的には、重複しないドメイン分解設定の下で、積分カーネルを用いたMAEのパッチベースのアテンションアプローチを説明する。
研究コミュニティがMAEの大成功の主な理由をさらに理解するために,我々の枠組みに基づいて5つの質問を行い,演算子理論からの洞察を用いて数学的厳密さに答える。 "Masked Autoencoders (MAE) Are Scalable Vision Learners" revolutionizes the self-supervised learning method in that it not only achieves the state-of-the-art for image pre-training, but is also a milestone that bridges the gap between visual and linguistic masked autoencoding (BERT-style) pre-trainings. However, to our knowledge, to date there are no theoretical perspectives to explain the powerful expressivity of MAE. In this paper, we, for the first time, propose a unified theoretical framework that provides a mathematical understanding for MAE. Specifically, we explain the patch-based attention approaches of MAE using an integral kernel under a non-overlapping domain decomposition setting. To help the research community to further comprehend the main reasons of the great success of MAE, based on our framework, we pose five questions and answer them with mathematical rigor using insights from operator theory. | 翻訳日:2022-02-10 12:40:38 公開日:2022-02-09 |