このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。
公開日が20230222となっている論文です。
Title | Authors | Abstract | 論文公表日・翻訳日 |
---|---|---|---|
# 量子論を超えた重力場の性質に関するno-go定理 A no-go theorem on the nature of the gravitational field beyond quantum theory ( http://arxiv.org/abs/2012.01441v7 ) ライセンス: Link先を確認 | Thomas D. Galley, Flaminia Giacomini, John H. Selby | (参考訳) 近年、量子論と重力の界面をテストするために、大規模量子システムを含むテーブルトップ実験が提案されている。
特に議論の要点は、2つの量子系が重力相互作用によってのみ絡み合っていることを仮定して、重力場の量子の性質について何かを結論付けることができるかどうかである。
通常、この問題は重力相互作用を記述するための特定の物理理論を仮定することで解決されてきたが、絡み合いの観測と互換性のある重力理論の集合を特徴づける体系的なアプローチは提案されていない。
ここでは、重力場の性質の研究に一般化確率論(GPT)の枠組みを導入することで、これを是正する。
この枠組みにより、2つの系間の重力相互作用によって生じる絡み合いの検出に適合する全ての理論を体系的に研究することができる。
以下の文が相容れないことを示すノーゴー定理を証明します。
一 重力が絡み合いを生じさせることができること。
二 重力がシステム間の相互作用を仲介すること。
iii)重力は古典的である。
特にSchr\\odinger-Newton方程式やCollapse Modelsのような他の非線形モデルに関して、各条件の違反を分析する。 Recently, table-top experiments involving massive quantum systems have been proposed to test the interface of quantum theory and gravity. In particular, the crucial point of the debate is whether it is possible to conclude anything on the quantum nature of the gravitational field, provided that two quantum systems become entangled solely due to the gravitational interaction. Typically, this question has been addressed by assuming a specific physical theory to describe the gravitational interaction, but no systematic approach to characterise the set of possible gravitational theories which are compatible with the observation of entanglement has been proposed. Here, we remedy this by introducing the framework of Generalised Probabilistic Theories (GPTs) to the study of the nature of the gravitational field. This framework enables us to systematically study all theories compatible with the detection of entanglement generated via the gravitational interaction between two systems. We prove a no-go theorem stating that the following statements are incompatible: i) gravity is able to generate entanglement; ii) gravity mediates the interaction between the systems; iii) gravity is classical. We analyse the violation of each condition, in particular with respect to alternative non-linear models such as the Schr\"odinger-Newton equation and Collapse Models. | 翻訳日:2023-03-25 04:05:30 公開日:2023-02-22 |
# 自由軸選択によるパラメータ化量子回路の最適化 Optimizing Parameterized Quantum Circuits with Free-Axis Selection ( http://arxiv.org/abs/2104.14875v2 ) ライセンス: Link先を確認 | Hiroshi C. Watanabe and Rudy Raymond and Yu-ya Ohnishi and Eriko Kaminishi and Michihiko Sugawara | (参考訳) Parametrized Quantum Circuits (PQC) を利用する変分量子アルゴリズムは、短期量子デバイスにおける最適化問題に対する量子優位性を実現するための有望なツールである。
彼らのPQCは、従来、所定の軸の周りの単一量子ゲートのパラメタライズされた回転角と、CNOTゲートのような2量子エンタングルゲートから構築されてきた。
本稿では,PQCを1量子回転ゲートの角度と軸の連続パラメトリゼーションにより構築する手法を提案する。
この手法は、回転角が固定された場合、計算オーバーヘッドの少ないPQCから係数を決定できる線形方程式系を解くことにより、回転の最適軸を計算することができる。
この方法は、半回転あるいは$\pi$に固定された回転角を持つ連続パラメータから軸を自由に選択することができる。
簡易自由軸選択法は,kullback-leibler (kl) ダイバージェンスを用いて測定した場合,他の構造最適化法よりも優れた表現性を示す。
また、自由軸選択を持つpqcsは、量子化学および組合せ最適化のためのハミルトンの基底状態の探索により効果的であることを示す。
自由軸選択により、一量子回転軸を指定せずにPQCを設計できるため、PQCの利便性は大幅に向上する可能性がある。 Variational quantum algorithms, which utilize Parametrized Quantum Circuits (PQCs), are promising tools to achieve quantum advantage for optimization problems on near-term quantum devices. Their PQCs have been conventionally constructed from parametrized rotational angles of single-qubit gates around predetermined set of axes, and two-qubit entangling gates, such as CNOT gates. We propose a method to construct a PQC by continuous parametrization of both the angles and the axes of its single-qubit rotation gates. The method is based on the observation that when rotational angles are fixed, optimal axes of rotations can be computed by solving a system of linear equations whose coefficients can be determined from the PQC with small computational overhead. The method can be further simplified to select axes freely from continuous parameters with rotational angles fixed to half rotation or $\pi$. We show the simplified free-axis selection method has better expressibility against other structural optimization methods when measured with Kullback-Leibler (KL) divergence. We also demonstrate PQCs with free-axis selection are more effective to search the ground states of Hamiltonians for quantum chemistry and combinatorial optimization. Because free-axis selection allows designing PQCs without specifying their single-qubit rotational axes, it may significantly improve the handiness of PQCs. | 翻訳日:2023-03-25 03:56:21 公開日:2023-02-22 |
# 逆境界再考:最適なクエリアルゴリズムから最適制御へ The Adversary Bound Revisited: From Optimal Query Algorithms to Optimal Control ( http://arxiv.org/abs/2211.16293v3 ) ライセンス: Link先を確認 | Duyal Yolcu | (参考訳) このノートは"One-Way Ticket to Las Vegas and the Quantum Adversary" (arxiv:2301.02003)を補完している。
逆ユニバーサルアルゴリズムの双対性は,バーナム・サクス=セゲディと同様の視点で,クエリアルゴリズムをユニタリーの列ではなく,実現可能な縮小密度行列の列として定義する。
一般の量子情報オーディエンスにとって、この形式はより高速に理解できるかもしれない: これは"一方向の相対的な$\gamma_{2}$-bound"を定義することを避け、クエリアルゴリズムを明示的に関連付ける。
この証明は、下界(および普遍的なクエリアルゴリズム)が単なるクエリ問題ではなく、最適制御問題のクラスに適用されるため、より一般的なものである。
これに加えて、belovs-yolcuでは、位相推定やスペクトル分析を回避し、ノイズの扱いを制限し、以前の離散時間アルゴリズムと比較してランタイムから$\theta(\log(1/\epsilon))$ factorを削除できるという、より基本的なアルゴリズムと正確性証明について論じるべき利点もある。 This note complements the paper "One-Way Ticket to Las Vegas and the Quantum Adversary" (arxiv:2301.02003). I develop the ideas behind the adversary bound - universal algorithm duality therein in a different form, using the same perspective as Barnum-Saks-Szegedy in which query algorithms are defined as sequences of feasible reduced density matrices rather than sequences of unitaries. This form may be faster to understand for a general quantum information audience: It avoids defining the "unidirectional relative $\gamma_{2}$-bound" and relating it to query algorithms explicitly. This proof is also more general because the lower bound (and universal query algorithm) apply to a class of optimal control problems rather than just query problems. That is in addition to the advantages to be discussed in Belovs-Yolcu, namely the more elementary algorithm and correctness proof that avoids phase estimation and spectral analysis, allows for limited treatment of noise, and removes another $\Theta(\log(1/\epsilon))$ factor from the runtime compared to the previous discrete-time algorithm. | 翻訳日:2023-03-25 03:45:59 公開日:2023-02-22 |
# 記憶運動のための表現テネット Representational Tenets for Memory Athletics ( http://arxiv.org/abs/2303.11944v1 ) ライセンス: Link先を確認 | Kevin Schmidt, Othalia Larue, Ray Kulhanek, Dylan Flaute, Razvan Veliche, Christian Manasseh, Nelson Dellis, Scott Clouse, Jared Culbertson, Steve Rogers | (参考訳) 本稿では,world memory championship grandmaster and co-author nelson dellisの主観レポートに基づいて,メモリコンペティションの準備とコンペティションに使用される方法を含む,世界クラスのメモリコンペティションの現状について述べる。
次に,意識のシミュレート,Situated,Structurely Coherent Qualia(S3Q)理論のレンズを用いて報告された経験を探索し,専門家の記憶性能の境界を理解するための一連の実験を提案する。 We describe the current state of world-class memory competitions, including the methods used to prepare for and compete in memory competitions, based on the subjective report of World Memory Championship Grandmaster and co-author Nelson Dellis. We then explore the reported experiences through the lens of the Simulated, Situated, and Structurally coherent Qualia (S3Q) theory of consciousness, in order to propose a set of experiments to help further understand the boundaries of expert memory performance. | 翻訳日:2023-03-25 03:28:37 公開日:2023-02-22 |
# 量子状態合成と一般単位合成のための漸近最適回路深さ Asymptotically Optimal Circuit Depth for Quantum State Preparation and General Unitary Synthesis ( http://arxiv.org/abs/2108.06150v3 ) ライセンス: Link先を確認 | Xiaoming Sun, Guojing Tian, Shuai Yang, Pei Yuan and Shengyu Zhang | (参考訳) 量子状態準備問題は、与えられた単位ベクトル $v = (v_0,v_1,v_2,\ldots,v_{2^n-1})^T\in \mathbb{C}^{2^n}$ に対して、初期状態 $|0\rangle^{\otimes n}$ から$n$-量子ビット量子状態 $|\psi_v\rangle =\sum_{k=0}^{2^n-1}v_k|k\rangle$ を作成することを目的としている。
この問題は、量子アルゴリズム設計、ハミルトニアンシミュレーション、量子機械学習において基本的な重要性があるが、回路の深さと大きさの複雑さは、漸進量子ビットが利用可能である時でも依然として開いている。
本稿では, 量子回路を$m$の補助量子ビットで効率的に構築し, $|\psi_v\rangle$ in depth $\tilde O\left(\frac{2^n}{m+n}+n\right)$and size $O(2^n)$を同時に作成する。
これらの結果はまた、$m = O(2^n/n)$ acillary qubits を用いて一般的な$n$-qubitユニタリを実装する量子回路に対して、$\Theta(4^n/(m+n))$の深さ複雑性を示唆している。
これは、補助量子ビットのない回路の深さ複雑性を解き、指数的に多くの補助量子ビットを持つ回路の場合、$O(4^n)$から$\tilde \Theta(2^n)$に2次保存を与える。
我々の回路は決定論的であり、状態を準備し、ユニタリを正確に実行し、漸近量子ビットを厳密に利用し、その深さは幅広いパラメータで最適である。
結果は(最適)時間空間のトレードオフ境界と見なすことができ、これは理論上は興味深いだけでなく、多くの量子ビットを用いて短い量子ビットの寿命を補う方法を示すことで、現在の量子ビットの数が離陸し始める傾向にも実質的に関係している。 The Quantum State Preparation problem aims to prepare an $n$-qubit quantum state $|\psi_v\rangle =\sum_{k=0}^{2^n-1}v_k|k\rangle$ from the initial state $|0\rangle^{\otimes n}$, for a given unit vector $v=(v_0,v_1,v_2,\ldots,v_{2^n-1})^T\in \mathbb{C}^{2^n}$ with $\|v\|_2 = 1$. The problem is of fundamental importance in quantum algorithm design, Hamiltonian simulation and quantum machine learning, yet its circuit depth and size complexity remain open when ancillary qubits are available. In this paper, we study efficient constructions of quantum circuits with $m$ ancillary qubits that can prepare $|\psi_v\rangle$ in depth $\tilde O\left(\frac{2^n}{m+n}+n\right)$and size $O(2^n)$, achieving the optimal value for both measures simultaneously. These results also imply a depth complexity of $\Theta(4^n/(m+n))$ for quantum circuits implementing a general $n$-qubit unitary using $m = O(2^n/n)$ ancillary qubits. This resolves the depth complexity for circuits without ancillary qubits, and for circuits with exponentially many ancillary qubits, this gives a quadratic saving from $O(4^n)$ to $\tilde \Theta(2^n)$. Our circuits are deterministic, prepare the state and carry out the unitary precisely, utilize the ancillary qubits tightly and the depths are optimal in a wide range of parameter regime. The results can be viewed as (optimal) time-space tradeoff bounds, which is not only theoretically interesting, but also practically relevant in the current trend that the number of qubits starts to take off, by showing a way to use a large number of qubits to compensate the short qubit lifetime. | 翻訳日:2023-03-18 15:07:41 公開日:2023-02-22 |
# アドレス可能な量子ゲート Addressable quantum gates ( http://arxiv.org/abs/2109.08050v2 ) ライセンス: Link先を確認 | Pablo Arrighi, Christopher Cedzich, Marin Costes, Ulysse R\'emond and Beno\^it Valiron | (参考訳) ゲート間の配線がゲート内のレジスタ内でソフトコードされるように量子計算の回路モデルを拡張する。
これらのレジスタのアドレスは操作され、重ね合わせされる。
これは不定因果順序をキャプチャし、それらの幾何学的レイアウトを明示することを目的としている: 量子スイッチと偏光ビームスプリッターをモデル内で表現する。
この文脈では、我々の主な貢献は匿名性制約の完全な特徴づけである。
実際、アドレスとして使われる名前は、それらが記述する配線を超えたものであってはならない。
これらの量子進化は、名前に非自明に作用することを示した。
我々は "nameblind" 行列の構造を指定する。 We extend the circuit model of quantum computation so that the wiring between gates is soft-coded within registers inside the gates. The addresses in these registers can be manipulated and put into superpositions. This aims at capturing indefinite causal orders and making their geometrical layout explicit: we express the quantum switch and the polarizing beam-splitter within the model. In this context, our main contribution is a full characterization of the anonymity constraints. Indeed, the names used as addresses should not matter beyond the wiring they describe, i.e. quantum evolutions should commute with "renamings". We show that these quantum evolutions can still act non-trivially upon the names. We specify the structure of "nameblind" matrices. | 翻訳日:2023-03-14 22:42:36 公開日:2023-02-22 |
# グリーンプラスチックのepoコードフェストの解決法:深層学習によるグリーンプラスチック関連特許の階層的マルチラベル分類 Solution for the EPO CodeFest on Green Plastics: Hierarchical multi-label classification of patents relating to green plastics using deep learning ( http://arxiv.org/abs/2302.13784v1 ) ライセンス: Link先を確認 | Tingting Qiao, Gonzalo Moro Perez | (参考訳) 本研究の目的は,グリーンプラスチック関連技術開示特許の階層的多ラベル特許分類である。
これは現在分類スキームが存在しない新興分野であり、ラベル付きデータは利用できないため、この課題は特に困難である。
まず,本技術の分類法と,提案する分類法に特許を分類する機械学習モデルを学ぶ方法を提案する。
これを実現するために,ラベルを特許に自動的に割り当てて,教師付き学習環境で分類モデルを学ぶためのラベル付きトレーニングデータセットを作成する戦略を考案した。
トレーニングデータセットを用いて、SciBERT Neural Network(SBNN)モデルとSciBERT Hierarchical Neural Network(SBHNN)モデルという2つの分類モデルを提案する。
どちらのモデルも特徴抽出器としてbertモデルを使用し、その上にニューラルネットワークを分類器として使用する。
我々は,この難解な分類問題に対して,広範囲な実験を行い,一般的な評価指標を報告する。
実験の結果,本手法の有効性を検証し,本モデルがこの問題に対する強力なベンチマークとなることを示す。
また,本モデルが入力文書の高レベルな意味情報を抽出できることを示す訓練されたモデルによって与えられる単語の重要性を可視化することで,モデルを解釈する。
最後に、私たちのソリューションがEPO CodeFestの評価基準をどのように満たしているかを強調し、今後の作業の方向性を概説する。
私たちのコードはhttps://github.com/epo/CF22-Green-Handsで公開されています。 This work aims at hierarchical multi-label patents classification for patents disclosing technologies related to green plastics. This is an emerging field for which there is currently no classification scheme, and hence, no labeled data is available, making this task particularly challenging. We first propose a classification scheme for this technology and a way to learn a machine learning model to classify patents into the proposed classification scheme. To achieve this, we come up with a strategy to automatically assign labels to patents in order to create a labeled training dataset that can be used to learn a classification model in a supervised learning setting. Using said training dataset, we come up with two classification models, a SciBERT Neural Network (SBNN) model and a SciBERT Hierarchical Neural Network (SBHNN) model. Both models use a BERT model as a feature extractor and on top of it, a neural network as a classifier. We carry out extensive experiments and report commonly evaluation metrics for this challenging classification problem. The experiment results verify the validity of our approach and show that our model sets a very strong benchmark for this problem. We also interpret our models by visualizing the word importance given by the trained model, which indicates the model is capable to extract high-level semantic information of input documents. Finally, we highlight how our solution fulfills the evaluation criteria for the EPO CodeFest and we also outline possible directions for future work. Our code has been made available at https://github.com/epo/CF22-Green-Hands | 翻訳日:2023-03-05 05:42:45 公開日:2023-02-22 |
# テンポラルレビューにおけるレビュースペシャリストの役割について On the Role of Reviewer Expertise in Temporal Review Helpfulness Prediction ( http://arxiv.org/abs/2303.00923v1 ) ライセンス: Link先を確認 | Mir Tafseer Nayeem, Davood Rafiei | (参考訳) 顧客による迅速な購入決定と販売における商人の利益を支援するため、Eコマースサービスの成功にはヘルプフルレビューが不可欠だ。
多くのレビューは有益だが、価値がほとんどなく、スパム、過度な評価、予期しない偏見を含むものもある。
大量のレビューとその不均一な品質により、有用なレビューを検出する問題は近年注目を集めている。
有用なレビューを識別する既存の方法は、主にレビューテキストに焦点を当て、レビューを投稿する(1)とレビューを投稿する(2)の2つの重要な要素を無視する。
さらに、補助票は人気が低い商品の不足に悩まされ、最近(コールドスタート)レビューが提出された。
これらの課題に対処するために、レビューアの過去のレビュー履歴とレビューの時間的ダイナミクスから得られたレビューアの専門知識を統合したデータセットを導入し、レビューアセスメントを自動評価するモデルを開発する。
我々は,これらの因子を組み込むことの有効性を実証するために,データセット上で実験を行い,いくつかの既定ベースラインと比較し,改良結果について報告する。 Helpful reviews have been essential for the success of e-commerce services, as they help customers make quick purchase decisions and benefit the merchants in their sales. While many reviews are informative, others provide little value and may contain spam, excessive appraisal, or unexpected biases. With the large volume of reviews and their uneven quality, the problem of detecting helpful reviews has drawn much attention lately. Existing methods for identifying helpful reviews primarily focus on review text and ignore the two key factors of (1) who post the reviews and (2) when the reviews are posted. Moreover, the helpfulness votes suffer from scarcity for less popular products and recently submitted (a.k.a., cold-start) reviews. To address these challenges, we introduce a dataset and develop a model that integrates the reviewer's expertise, derived from the past review history of the reviewers, and the temporal dynamics of the reviews to automatically assess review helpfulness. We conduct experiments on our dataset to demonstrate the effectiveness of incorporating these factors and report improved results compared to several well-established baselines. | 翻訳日:2023-03-05 05:34:38 公開日:2023-02-22 |
# Dish-TS: 時系列予測における分散シフト緩和のための汎用パラダイム Dish-TS: A General Paradigm for Alleviating Distribution Shift in Time Series Forecasting ( http://arxiv.org/abs/2302.14829v1 ) ライセンス: Link先を確認 | Wei Fan, Pengyang Wang, Dongkun Wang, Dongjie Wang, Yuanchun Zhou, Yanjie Fu | (参考訳) 時系列予測(TSF)における分布シフトは、時系列分布の変化を示すものであり、主にTSFモデルの性能を妨げる。
時系列の分布シフトに向けた既存の研究は、分布の定量化や、さらに重要なことに、ルックバックウィンドウと水平窓の間の潜在的なシフトを見落としている。
上記の課題に対処するため、TSFにおける分布シフトを系統的に2つのカテゴリにまとめる。
入力空間としての見返りウィンドウと出力空間としての地平線ウィンドウについて
(i)空間内シフト、入力空間内の分布が時間とともに変化し続けること、及び
(ii)空間間シフト、つまり、分布が入力空間と出力空間の間でシフトされる。
次に,tsfにおける分布シフトを緩和するための汎用ニューラルパラダイムであるdish-tsを紹介する。
具体的には、より優れた分布推定のために、入力シーケンスを学習可能な分布係数にマッピングするニューラルネットワークである係数ネット(CONET)を提案する。
空間内および空間間シフトを緩和するため、Dish-TSをDual-CONETフレームワークとして編成し、入力空間と出力空間の分布を個別に学習する。
さらに、難解なCONET学習のためのより効果的なトレーニング戦略を導入する。
最後に、様々な最先端予測モデルと組み合わせた複数のデータセットに関する広範な実験を行う。
実験の結果、Dish-TSは平均20%以上の改善で継続的に改善している。
コードは利用可能。 The distribution shift in Time Series Forecasting (TSF), indicating series distribution changes over time, largely hinders the performance of TSF models. Existing works towards distribution shift in time series are mostly limited in the quantification of distribution and, more importantly, overlook the potential shift between lookback and horizon windows. To address above challenges, we systematically summarize the distribution shift in TSF into two categories. Regarding lookback windows as input-space and horizon windows as output-space, there exist (i) intra-space shift, that the distribution within the input-space keeps shifted over time, and (ii) inter-space shift, that the distribution is shifted between input-space and output-space. Then we introduce, Dish-TS, a general neural paradigm for alleviating distribution shift in TSF. Specifically, for better distribution estimation, we propose the coefficient net (CONET), which can be any neural architectures, to map input sequences into learnable distribution coefficients. To relieve intra-space and inter-space shift, we organize Dish-TS as a Dual-CONET framework to separately learn the distribution of input- and output-space, which naturally captures the distribution difference of two spaces. In addition, we introduce a more effective training strategy for intractable CONET learning. Finally, we conduct extensive experiments on several datasets coupled with different state-of-the-art forecasting models. Experimental results show Dish-TS consistently boosts them with a more than 20% average improvement. Code is available. | 翻訳日:2023-03-05 05:33:45 公開日:2023-02-22 |
# 深い強結合状態における閉じ込められた原子の量子ラビダイナミクス Quantum Rabi dynamics of trapped atoms far in the deep strong coupling regime ( http://arxiv.org/abs/2112.12488v2 ) ライセンス: Link先を確認 | Johannes Koch, Geram R. Hunanyan, Till Ockenfels, Enrique Rico, Enrique Solano, Martin Weitz | (参考訳) 完全量子化されたバージョンが量子ラビモデルである電磁場と2レベル系のカップリングは、量子物理学の中心的なトピックである。
磁場モード周波数に達するほどに結合強度が大きくなると、深い強結合状態に近づき、真空から励起を生成することができる。
ここでは、光ポテンシャルにおける冷ルビジウム原子のブロッホバンド構造に、2レベル系を符号化した量子ラビモデルの周期的変種を示す。
この方法では, 強結合機構に遠く及ばない場モード周波数の6.5倍のrabi結合強度を達成し, ボソニック場モード励起におけるサブサイクル時間スケールの上昇を観測する。
量子ラビハミルトニアンのカップリング項に基づいて記録された測定では、カップリング項が他の全てのエネルギースケールで支配されるときに期待されるように、2レベル系の小さな周波数分割とより大きな分割の復活に対するダイナミクスの凍結が明らかにされる。
本研究は、未探索のパラメータレジームで量子工学アプリケーションを実現する方法を示す。 The coupling of a two-level system with an electromagnetic field, whose fully quantized version is the quantum Rabi model, is among the central topics of quantum physics. When the coupling strength becomes large enough that the field mode frequency is reached, the deep strong coupling regime is approached, and excitations can be created from the vacuum. Here we demonstrate a periodic variant of the quantum Rabi model in which the two-level system is encoded in the Bloch band structure of cold rubidium atoms in optical potentials. With this method we achieve a Rabi coupling strength of 6.5 times the field mode frequency, which is far in the deep strong coupling regime, and observe a subcycle timescale raise in bosonic field mode excitations. In a measurement recorded in the basis of the coupling term of the quantum Rabi Hamiltonian, a freezing of dynamics is revealed for small frequency splittings of the two-level system, as expected when the coupling term dominates over all other energy scales, and a revival for larger splittings. Our work demonstrates a route to realize quantum-engineering applications in yet unexplored parameter regimes. | 翻訳日:2023-03-03 18:00:43 公開日:2023-02-22 |
# 振幅比とニューラルネットワーク量子状態 Amplitude Ratios and Neural Network Quantum States ( http://arxiv.org/abs/2201.09128v3 ) ライセンス: Link先を確認 | Vojtech Havlicek | (参考訳) ニューラルネットワーク量子状態(NQS)は、ニューラルネットワークによる量子波動関数を表す。
本稿では,[Science, \textbf{355}, 6325, pp. 602-606 (2017)]で定義されたNQSによる波動関数アクセスについて検討し, 分布試験の結果と関連づける。
これにより、NQSの分散テストアルゴリズムが改善される。
また、波動関数アクセスモデルの独立な定義である振幅比アクセスも動機付けている。
従来量子アルゴリズムの非量子化研究で検討されていたサンプル・サンプル・クエリ・アクセスモデルと比較した。
まず,振幅比のアクセスが試料アクセスよりも厳密であることを示す。
第二に、振幅比のアクセスはサンプルやクエリアクセスよりも厳密に弱いが、同時にシミュレーション能力の多くを保っていることを示す。
興味深いことに、計算的な仮定の下でのみそのような分離を示す。
最後に、分散テストアルゴリズムとの接続を使って、有効な波動関数を符号化せず、サンプル化できない3つのノードでnqsを生成する。 Neural Network Quantum States (NQS) represent quantum wavefunctions by artificial neural networks. Here we study the wavefunction access provided by NQS defined in [Science, \textbf{355}, 6325, pp. 602-606 (2017)] and relate it to results from distribution testing. This leads to improved distribution testing algorithms for such NQS. It also motivates an independent definition of a wavefunction access model: the amplitude ratio access. We compare it to sample and sample and query access models, previously considered in the study of dequantization of quantum algorithms. First, we show that the amplitude ratio access is strictly stronger than sample access. Second, we argue that the amplitude ratio access is strictly weaker than sample and query access, but also show that it retains many of its simulation capabilities. Interestingly, we only show such separation under computational assumptions. Lastly, we use the connection to distribution testing algorithms to produce an NQS with just three nodes that does not encode a valid wavefunction and cannot be sampled from. | 翻訳日:2023-02-28 04:14:26 公開日:2023-02-22 |
# 貯留層計算によるカオス力学の再生に及ぼす時間分解能の影響 Effect of temporal resolution on the reproduction of chaotic dynamics via reservoir computing ( http://arxiv.org/abs/2302.10761v2 ) ライセンス: Link先を確認 | Kohei Tsuchiyama, Andr\'e R\"ohm, Takatomo Mihana, Ryoichi Horisaki, Makoto Naruse | (参考訳) 貯水池コンピューティングは、非線形性と短期記憶を持つ貯水池と呼ばれる構造を使用する機械学習パラダイムである。
近年,貯水池コンピューティングは,カオス時系列の自動生成や時系列予測・分類といった新たな機能に拡張されている。
さらに、これまで見つからなかったアトラクションの存在を推測するなど、新たな可能性も示されている。
対照的にサンプリングはそのような機能に強い影響を与える。
サンプリングは、データ入力に外部デジタルシステムを使用するのが通常避けられないため、既存の物理システムをリザーバとして使用する物理リザーバコンピュータでは不可欠である。
本研究は, サンプリングが貯水池計算のカオス時系列を自律的に再生する能力に与える影響を解析する。
予想通り,過大なサンプリングはシステム性能を低下させるが,過大なサンプリングは不適当であることがわかった。
トラクタの局所的および大域的特性を捉える定量的指標に基づいて,サンプリング周波数の適切な窓を特定し,その基礎となるメカニズムについて考察する。 Reservoir computing is a machine learning paradigm that uses a structure called a reservoir, which has nonlinearities and short-term memory. In recent years, reservoir computing has expanded to new functions such as the autonomous generation of chaotic time series, as well as time series prediction and classification. Furthermore, novel possibilities have been demonstrated, such as inferring the existence of previously unseen attractors. Sampling, in contrast, has a strong influence on such functions. Sampling is indispensable in a physical reservoir computer that uses an existing physical system as a reservoir because the use of an external digital system for the data input is usually inevitable. This study analyzes the effect of sampling on the ability of reservoir computing to autonomously regenerate chaotic time series. We found, as expected, that excessively coarse sampling degrades the system performance, but also that excessively dense sampling is unsuitable. Based on quantitative indicators that capture the local and global characteristics of attractors, we identify a suitable window of the sampling frequency and discuss its underlying mechanisms. | 翻訳日:2023-02-26 14:07:16 公開日:2023-02-22 |
# ibmqトランスモン量子ビットのマルコフ雑音モデルフィッティングとパラメータ抽出 Markovian Noise Model Fitting and Parameter Extraction of IBMQ Transmon Qubits ( http://arxiv.org/abs/2202.04474v2 ) ライセンス: Link先を確認 | Dean Brand, Ilya Sinayskiy, Francesco Petruccione | (参考訳) 量子デバイスの設計では、量子状態のコヒーレンスと安定性を理解し、改善するために量子ビットとその環境の相互作用を考慮することが重要である。
これは、量子ビット状態が緩和とデコヒーレンス(decoherence)の過程を通じて急速に崩壊するノイズ中間量子(NISQ)デバイスで特に一般的である。
理想量子状態は、現代のデバイスが常に維持できるとは限らないユニタリダイナミクスに従って進化する。
様々な音源からのノイズの存在により、最高のNISQデバイスはマルコフ力学に従って理想的に進化する。
NISQデバイス、例えばクラウドベースのオープンアクセスIBM Quantum Experience (IBM QE)は、外部ノイズの影響をリセットするために定期的に再校正される。
キャリブレーション情報は、量子デバイスの実験において考慮できる量子ビットダイナミクスに関するデータを提供するために共有される。
近年の文献では、非マルコフ的挙動を示す超伝導量子ビットデバイスが証明されているが、IBMデバイスでは、マルコフ的ノイズモデルの組み込み実装しか存在せず、マルコフ的力学に従ってデバイスが進化することを示している。
本稿では,従来のキャリブレーション実験よりも信頼性の高い簡易なプロセスを通じて,複数のキャリブレーションパラメータを同時に抽出しながら,ベンチマーク実験においてIBMQデバイスのマルコフ的進化を検証する方法を示す。
この方法は、パラメータを抽出する際の量子ビット対間の一貫性を強調し、量子処理ユニット(QPU)全体を一度に評価するよりも計算コストの低いトモグラフィープロセスを提供する。 In the design of quantum devices, it is crucial to account for the interaction between qubits and their environment to understand and improve the coherence and stability of the quantum states. This is especially prevalent in Noisy Intermediate Scale Quantum (NISQ) devices in which the qubit states quickly decay through processes of relaxation and decoherence. Ideal quantum states evolve according to unitary dynamics, which modern devices are not always capable of maintaining. Due to the persistent presence of noise from various sources, the best NISQ devices ideally evolve according to Markovian dynamics. NISQ devices, such as those offered by IBM through its cloud-based open-access IBM Quantum Experience (IBM QE), are regularly re-calibrated to reset the affect of external noise. The calibration information is shared to provide the users with data about the qubit dynamics, which can be considered in the design of experiments on the quantum devices. Recent literature has shown evidence of superconducting qubit devices exhibiting non-Markovian behaviour, while typically in IBM devices there are only built-in implementations of Markovian noise models, implying that the devices evolve according to Markovian dynamics. In this paper, we demonstrate a method of verifying the Markovian evolution of IBMQ devices in benchmark experiments, while extracting multiple calibration parameters simultaneously through a simplified process which is more reliable than typical calibration experiments. This method has the additional benefit of highlighting the consistency among qubit pairs when extracting parameters, which provides a less computationally expensive tomography process than evaluating the entire Quantum Processing Unit (QPU) at once. | 翻訳日:2023-02-26 07:06:49 公開日:2023-02-22 |
# 量子球面符号 Quantum spherical codes ( http://arxiv.org/abs/2302.11593v1 ) ライセンス: Link先を確認 | Shubham P. Jain and Joseph T. Iosue and Alexander Barg and Victor V. Albert | (参考訳) 球面上で定義された量子コードを構築するためのフレームワークを,古典的な球面符号の量子類似体として再キャストする。
我々はこの枠組みをボソニック符号化に適用し、同様のオーバーヘッドを伴いながら、以前の構成より優れている猫符号のマルチモード拡張を得る。
ポリトープをベースとする猫符号は,大きな分離点を持つ点の集合からなり,同時に球面設計として知られる平均集合を形成する。
また、量子球面符号として猫符号とクビットCSS符号の連結を再放送する。 We introduce a framework for constructing quantum codes defined on spheres by recasting such codes as quantum analogues of the classical spherical codes. We apply this framework to bosonic coding, obtaining multimode extensions of the cat codes that can outperform previous constructions while requiring a similar type of overhead. Our polytope-based cat codes consist of sets of points with large separation that at the same time form averaging sets known as spherical designs. We also recast concatenations of qubit CSS codes with cat codes as quantum spherical codes. | 翻訳日:2023-02-24 17:17:17 公開日:2023-02-22 |
# 軌道回転による変分ニューラルネットワークとハードウェア効率の量子状態の表現性向上 Enhancing the Expressivity of Variational Neural, and Hardware-Efficient Quantum States Through Orbital Rotations ( http://arxiv.org/abs/2302.11588v1 ) ライセンス: Link先を確認 | Javier Robledo Moreno, Jeffrey Cohn, Dries Sels, Mario Motta | (参考訳) 変分モンテカルロ(VMC)や変分量子固有解法(VQE)のような変分アプローチは、基底状態の多電子問題に取り組むための強力な手法である。
しばしば、変分状態の族は単粒子基底変換によるハミルトニアンの再パラメトリゼーションの下で不変ではない。
その結果、変分アンザッツによる基底状態波動関数の表現性は、単粒子基底の選択に強く依存する。
本稿では,単一粒子基底の結合最適化と,VMC(ニューラル量子状態を持つ)およびVQE(ハードウェア効率の良い回路を持つ)アプローチの変動状態について検討する。
変動状態パラメータと単一粒子基底の結合最適化は, 種々の化学および凝縮物質系において, 表現力および最適化景観を著しく向上させることを示した。 Variational approaches like variational Monte Carlo (VMC) or the variational quantum eigensolver (VQE), are a powerful technique to tackle the ground state many-electron problem. Often, the family of variational states is not invariant under the reparametrization of the Hamiltonian by single-particle basis transformations. As a consequence, the representability of the ground-state wave function by the variational ansatz strongly dependents on the choice of the single-particle basis. In this manuscript we study the joint optimization of the single-particle basis, together with the variational state in the VMC (with neural quantum states) and VQE (with hardware efficient circuits) approaches. We show that the joint optimization of the single-particle basis with the variational state parameters yields significant improvements in the expressive power and optimization landscape in a variety of chemistry and condensed matter systems. | 翻訳日:2023-02-24 17:17:08 公開日:2023-02-22 |
# キャビティmoir\'e材料:量子光間相互作用による磁気フラストレーションの制御 Cavity Moir\'e Materials: Controlling Magnetic Frustration with Quantum Light-Matter Interaction ( http://arxiv.org/abs/2302.11582v1 ) ライセンス: Link先を確認 | Kanta Masuki and Yuto Ashida | (参考訳) キャビティ量子電磁力学(qed)は単一量子レベルで光と物質の間の相互作用を研究し、量子科学と技術において中心的な役割を果たす。
キャビティqedの概念とmoir\'e材料を組み合わせることで、強い量子光・物質相互作用はフラストレーションの磁気を制御できることを示した。
具体的には,極性ファンデルワールス結晶からなるキャビティに閉じ込められたmoir\'e物質の理論を展開する。
モーアリー平らなバンドの非自明な量子幾何学は電子の電磁的な真空ドレッシングにつながり、単一電子エネルギーの良好な変化を生じさせ、自身を長距離電子ホッピングとして表す。
超薄型ヘキサゴナル窒化ホウ素層を封入した遷移金属ジカルコゲナイドヘテロ二分子層に一般式を適用し,その相図を異なるツイスト角および光・マッター結合強度で予測した。
その結果, キャビティ閉じ込めはmoir\'e材料の磁気フラストレーションを制御でき, 量子スピン液体のような様々なエキゾチックな相を実現できる可能性が示唆された。 Cavity quantum electrodynamics (QED) studies the interaction between light and matter at the single quantum level and has played a central role in quantum science and technology. Combining the idea of cavity QED with moir\'e materials, we theoretically show that strong quantum light-matter interaction provides a way to control frustrated magnetism. Specifically, we develop a theory of moir\'e materials confined in a cavity consisting of thin polar van der Waals crystals. We show that nontrivial quantum geometry of moir\'e flat bands leads to electromagnetic vacuum dressing of electrons, which produces appreciable changes in single-electron energies and manifests itself as long-range electron hoppings. We apply our general formulation to a twisted transition metal dichalcogenide heterobilayer encapsulated by ultrathin hexagonal boron nitride layers and predict its phase diagram at different twist angles and light-matter coupling strengths. Our results indicate that the cavity confinement enables one to control magnetic frustration of moir\'e materials and might allow for realizing various exotic phases such as a quantum spin liquid. | 翻訳日:2023-02-24 17:16:55 公開日:2023-02-22 |
# ヒューリスティックな ans\"atze 状態生成と量子 pcp 予想に関する誘導可能な局所ハミルトン問題 Guidable Local Hamiltonian Problems with Implications to Heuristic Ans\"atze State Preparation and the Quantum PCP Conjecture ( http://arxiv.org/abs/2302.11578v1 ) ライセンス: Link先を確認 | Jordi Weggemans, Marten Folkertsma, Chris Cade | (参考訳) 最近定義されたガイド・ローカル・ハミルトン問題(英語版)の'Merlinized'バージョンを導入し、これを'Guidable Local Hamiltonian'問題と呼ぶ。
ガイドされた問題とは異なり、これらの問題は入力の一部として提供される指針状態ではなく、ある制約を満たすことを約束するものである。
量子回路によって効率的に作成できるものと、我々が古典的に蒸発可能と呼ぶ量子状態のクラスに属するものであり、これは局所観測可能性の期待値を古典的に効率的に計算できる短い古典的記述を持つものである。
誘導状態の両クラスに対する誘導可能な局所ハミルトン問題は、逆多項精度設定では$\mathsf{qcma}$-completeであるが、誘導状態が古典的に回避可能であるとき、あるパラメータレジームでは$\mathsf{np}$ (または$\mathsf{nqp}$) となる。
これらの結果がヒューリスティックAns\atze状態の準備と量子PCP予想に与える影響について論じる。
我々の完全性の結果は、複雑性理論の観点から、古典的ヒューリスティックによって作られた古典的 ans\atze は、量子的位相推定にアクセスできる限り、量子的ヒューリスティックによって作られた量子的 ans\"atze と同じくらい強力であることを示している。
量子PCP予想に関して、我々は
(i)$\mathsf{QCMA}$に対してPCPを定義し、量子還元の下で$\mathsf{NP}$に等しいことを示す。
(ii)ある基底状態の性質を保持する量子ギャップ増幅手順の存在に関するいくつかのno-go結果を示す。
(iii) nlts定理のより強いバージョンと見なすことができる2つの予想を提案する。
最後に、我々の結果の多くは、クラス $\mathsf{MA}$ の同様の結果を得るために直接修正可能であることを示す。 We introduce 'Merlinized' versions of the recently defined Guided Local Hamiltonian problem, which we call 'Guidable Local Hamiltonian' problems. Unlike their guided counterparts, these problems do not have a guiding state provided as a part of the input, but merely come with the promise that one exists and that it satisfies certain constraints. We consider in particular two classes of guiding states: those that can be prepared efficiently by a quantum circuit; and those belonging to a class of quantum states we call classically evaluatable, which have a short classical description from which it is possible to efficiently compute expectation values of local observables classically. We show that guidable local Hamiltonian problems for both classes of guiding states are $\mathsf{QCMA}$-complete in the inverse-polynomial precision setting, but lie within $\mathsf{NP}$ (or $\mathsf{NqP}$) in certain parameter regimes when the guiding state is classically evaluatable. We discuss the implications of these results to heuristic ans\"atze state preparation and the quantum PCP conjecture. Our completeness results show that, from a complexity-theoretic perspective, classical ans\"atze prepared by classical heuristics are just as powerful as quantum ans\"atze prepared by quantum heuristics, so long as one has access to quantum phase estimation. In relation to the quantum PCP conjecture, we (i) define a PCP for $\mathsf{QCMA}$ and show that it is equal to $\mathsf{NP}$ under quantum reductions; (ii) show several no-go results for the existence of quantum gap amplification procedures that preserve certain ground state properties; and (iii) propose two conjectures that can be viewed as stronger versions of the NLTS theorem. Finally, we show that many of our results can be directly modified to obtain similar results for the class $\mathsf{MA}$. | 翻訳日:2023-02-24 17:16:32 公開日:2023-02-22 |
# 時空境界における量子参照フレーム Quantum Reference Frames at the Boundary of Spacetime ( http://arxiv.org/abs/2302.11629v1 ) ライセンス: Link先を確認 | Viktoria Kabel, \v{C}aslav Brukner, Wolfgang Wieland | (参考訳) 摂動理論において、物質に結合された重力の局所位相空間から第二次への解析が与えられる。
有限距離の境界を持つ局所領域で作業することで、物質、クーロンおよび追加境界モードを特定する。
境界モードは微分同相写像と内部ローレンツ回転の両方に対する参照フレームの役割を担う。
量子レベルを通過すると、バルクモードとバウンダリモードをリンクする制約が特定される。
制約は、境界の量子参照場に関してバルク内の量子状態の相対的発展を決定するマルチフィンガードschr\"odinger方程式の形式を取る。 An analysis is given of the local phase space of gravity coupled to matter to second order in perturbation theory. Working in local regions with boundaries at finite distance, we identify matter, Coulomb, and additional boundary modes. The boundary modes take the role of reference frames for both diffeomorphisms and internal Lorentz rotations. Passing to the quantum level, we identify the constraints that link the bulk and boundary modes. The constraints take the form of a multi-fingered Schr\"odinger equation, which determines the relational evolution of the quantum states in the bulk with respect to the quantum reference fields at the boundary. | 翻訳日:2023-02-24 17:07:40 公開日:2023-02-22 |
# 特徴分断集約: スパース対人攻撃に対する高速な認証された防御 Feature Partition Aggregation: A Fast Certified Defense Against a Union of Sparse Adversarial Attacks ( http://arxiv.org/abs/2302.11628v1 ) ライセンス: Link先を確認 | Zayd Hammoudeh and Daniel Lowd | (参考訳) ディープ・ネットワークは多くの種類の敵対的攻撃を受けやすい。
認証された防御はモデルの堅牢性を保証するが、これらの防御のほとんどは単一の攻撃タイプに制限される。
これとは対照的に,本稿では,回避,バックドア,毒殺攻撃といった攻撃型連合に対する認証された防御策として,機能分割アグリゲーション(FPA)を提案する。
具体的には、トレーニングとテスト機能の未知のサブセットを任意に制御する$\ell_0$あるいはスパースアタッカーを検討します。
fpaは、サブモデルが互いに分離した特徴集合で訓練されるアンサンブルを介してロバスト性保証を生成する。
既存の保証されたスパースディフェンスに続いて、FPAの保証をk$の予測に一般化する。
FPAは、より大きく強力な堅牢性を保証するとともに、5,000${\times}$より高速な技術である。 Deep networks are susceptible to numerous types of adversarial attacks. Certified defenses provide guarantees on a model's robustness, but most of these defenses are restricted to a single attack type. In contrast, this paper proposes feature partition aggregation (FPA) - a certified defense against a union of attack types, namely evasion, backdoor, and poisoning attacks. We specifically consider an $\ell_0$ or sparse attacker that arbitrarily controls an unknown subset of the training and test features - even across all instances. FPA generates robustness guarantees via an ensemble whose submodels are trained on disjoint feature sets. Following existing certified sparse defenses, we generalize FPA's guarantees to top-$k$ predictions. FPA significantly outperforms state-of-the-art sparse defenses providing larger and stronger robustness guarantees, while simultaneously being up to 5,000${\times}$ faster. | 翻訳日:2023-02-24 17:07:30 公開日:2023-02-22 |
# 3次元医用画像登録におけるParticle Swarm Optimization : システムレビュー Particle Swarm Optimization in 3D Medical Image Registration: A Systematic Review ( http://arxiv.org/abs/2302.11627v1 ) ライセンス: Link先を確認 | Lucia Ballerini | (参考訳) 医用画像登録は、下層の解剖学的構造を最適に整合させる最適な空間変換を求める。
これらの問題は通常類似度計量の最適化を必要とする。
群知能技術は非常に効率的で効率的な最適化手法である。
粒子群最適化を用いた3次元医用画像登録に関する体系的考察 Medical image registration seeks to find an optimal spatial transformation that best aligns the underlying anatomical structures. These problems usually require the optimization of a similarity metric. Swarm Intelligence techniques are very effective and efficient optimization methods. This systematic review focuses on 3D medical image registration using Particle Swarm Optimization | 翻訳日:2023-02-24 17:07:14 公開日:2023-02-22 |
# ニューロン活動認識可塑性を利用した教師なし3次元物体学習 Unsupervised 3D Object Learning through Neuron Activity aware Plasticity ( http://arxiv.org/abs/2302.11622v1 ) ライセンス: Link先を確認 | Beomseok Kang, Biswadeep Chakraborty, Saibal Mukhopadhyay | (参考訳) 3次元オブジェクト分類のための教師なしディープラーニングモデルを提案する。
一般的なヘビアン学習は、よく知られた教師なしモデルであり、局所的な特徴が失われ、複雑な幾何学的対象を持つタスクのパフォーマンスが低下する。
本稿では,新しい神経活動認識(NeAW)ヘッビアン学習規則(NeAW)を用いた深層ネットワークを提案し,その活動に応じて,ニューロンを動的にヘッビアン学習またはアンチヘッビアン学習によって支配されるように切り替える。
我々は、NeAW Hebbian学習がニューロン活動のバイアスを緩和し、より多くのニューロンが3Dオブジェクトの表現に参加することを解析的に示す。
実験の結果,NeAW Hebbian学習はHebbian学習の他の変種よりも優れており,学習データに制限がある場合,完全に教師付きモデルよりも高い精度を示すことがわかった。 We present an unsupervised deep learning model for 3D object classification. Conventional Hebbian learning, a well-known unsupervised model, suffers from loss of local features leading to reduced performance for tasks with complex geometric objects. We present a deep network with a novel Neuron Activity Aware (NeAW) Hebbian learning rule that dynamically switches the neurons to be governed by Hebbian learning or anti-Hebbian learning, depending on its activity. We analytically show that NeAW Hebbian learning relieves the bias in neuron activity, allowing more neurons to attend to the representation of the 3D objects. Empirical results show that the NeAW Hebbian learning outperforms other variants of Hebbian learning and shows higher accuracy over fully supervised models when training data is limited. | 翻訳日:2023-02-24 17:07:09 公開日:2023-02-22 |
# スパイク効率的な教師なし学習のための不均一神経とシナプスダイナミクス:理論と設計原理 Heterogeneous Neuronal and Synaptic Dynamics for Spike-Efficient Unsupervised Learning: Theory and Design Principles ( http://arxiv.org/abs/2302.11618v1 ) ライセンス: Link先を確認 | Biswadeep Chakraborty and Saibal Mukhopadhyay | (参考訳) 本稿では, 神経・シナプス力学の不均一性により, リカレントスパイキングニューラルネットワーク(RSNN)のスパイク活性が低下し, 予測性能が向上し, スパイク効率(教師なし)学習が可能となることを示す。
ニューロンの結合/相対化ダイナミクスの多様性は、rsnnのより異なる入力パターン(メモリ容量が高い)を学習する能力を改善し、分類と予測性能の向上に繋がることを示した。
さらに,synapsesのspike-timing-dependent-plasticity(stdp)ダイナミクスはスパイキング活性を減少させるが,メモリ容量は維持できることを示した。
解析結果は,スパイキング活性と記憶容量の比として定義される$\mathcal{e}$を改善するために,ニューロンとシナプスの異種性を決定するためにベイズ最適化を用いた異種rsnn設計を動機付けている。
時系列分類および予測タスクにおける実験結果から,hrsnnの最適化は,均質なrsnnと比較して,性能の向上とスパイキング活性の低減に寄与することが示された。 This paper shows that the heterogeneity in neuronal and synaptic dynamics reduces the spiking activity of a Recurrent Spiking Neural Network (RSNN) while improving prediction performance, enabling spike-efficient (unsupervised) learning. We analytically show that the diversity in neurons' integration/relaxation dynamics improves an RSNN's ability to learn more distinct input patterns (higher memory capacity), leading to improved classification and prediction performance. We further prove that heterogeneous Spike-Timing-Dependent-Plasticity (STDP) dynamics of synapses reduce spiking activity but preserve memory capacity. The analytical results motivate Heterogeneous RSNN design using Bayesian optimization to determine heterogeneity in neurons and synapses to improve $\mathcal{E}$, defined as the ratio of spiking activity and memory capacity. The empirical results on time series classification and prediction tasks show that optimized HRSNN increases performance and reduces spiking activity compared to a homogeneous RSNN. | 翻訳日:2023-02-24 17:06:56 公開日:2023-02-22 |
# 一次元におけるコンパクトワニエ関数 Compact Wannier Functions in One Dimension ( http://arxiv.org/abs/2302.11608v1 ) ライセンス: Link先を確認 | Pratik Sathe, Rahul Roy | (参考訳) ワニエ関数は凝縮物物理学などにおいて広く有用である。
一方、トポロジカル物理学は、平面バンドに自然に現れるコンパクトなワニエ型函数の概念に大きく関係している。
本研究では、コンパクトワニエ函数が一次元に存在する必要十分条件を見つけることによって、これらの二つの概念の間の接続を確立する。
本稿では,コンパクトなワニエ関数を持つモデルの徹底的な構成を示し,ワニエ関数が一意的かつ一般に,対応する極大局所化ワニエ関数とは異なることを示す。 Wannier functions have widespread utility in condensed matter physics and beyond. Topological physics on the other hand has largely involved the related notion of compactly supported Wannier-type functions which arise naturally in flat bands. In this work, we establish a connection between these two notions, by finding the necessary and sufficient conditions under which compact Wannier functions exist in one dimension. We present an exhaustive construction of models with compact Wannier functions and show that the Wannier functions are unique and in general, distinct from the corresponding maximally localized Wannier functions. | 翻訳日:2023-02-24 17:06:34 公開日:2023-02-22 |
# 双四元数代数を用いた7自由度ヒト下肢の運動学および動力学モデリング Kinematics and Dynamics Modeling of 7 Degrees of Freedom Human Lower Limb Using Dual Quaternions Algebra ( http://arxiv.org/abs/2302.11605v1 ) ライセンス: Link先を確認 | Zineb Benhmidouch, Saad Moufid, Aissam Ait Omar | (参考訳) デナヴィトとハルテンベルクをベースとしたカルダン、フィック、オイラーの角度の手法は、3次元(3D)空間における端効果体の位置と配向を記述する。
しかし, 協調空間における非現実的姿勢の生成は, 十分に定義された回転順序を課すため, それらの方法の弱点となる。
変換均質な性能を扱う方法は双四元数を用いる。
四元数は多くの分野において回転を表す計算効率のよい方法として証明されてきたが、3D空間の翻訳には対応できない。
双対数は四元数を双四元数に拡張することができる。
3次元空間における7自由度(dof)の下肢の前方・逆運動学および再帰的ニュートン-オイラー力学アルゴリズムに対する高速かつ正確な解法を提供するために,双四元数理論を利用する。 Denavit and Hartenberg based methods as Cardan, Fick and Euler angles describe the position and orientation of an end-effector in Three Dimensional (3D) space. However, the generation of unrealistic human posture in joint space constitutes the weak point to these methods because they impose a well-defined rotations order. A method to handle the transformation homogeneous performance uses the dual quaternions. Quaternions have proven themselves in many fields as providing a computational efficient method to represent a rotation, and yet, they can not deal with the translations in 3D-space. The dual numbers can extend quaternions to dual quaternions. This paper exploits dual quaternions theory to provide a fast and accurate solution to the forward, inverse kinematics and recursive Newton-Euler dynamics algorithm for 7 Degree of Freedom (DOF) human lower limb in 3D-space. | 翻訳日:2023-02-24 17:06:25 公開日:2023-02-22 |
# 知っておくべきことすべては「サム」だ Some Might Say All You Need Is Sum ( http://arxiv.org/abs/2302.11603v1 ) ライセンス: Link先を確認 | Eran Rosenbluth, Jan Toenshoff, Martin Grohe | (参考訳) グラフニューラルネットワーク(gnns)の表現性は、それらが採用する集約関数に依存する。
理論的な研究は、他のすべてのGNNを仮定する Sumアグリゲーション GNN に向けられているが、ある実践的な研究は、Mean と Max を使うことに対する明確な優位性を観察している。
理論的保証の検証は2つの注意事項を識別する。
第一に、それはサイズ制限され、すなわち、特定のGNNのすべてのパワーは、ある最大サイズのグラフに制限される。
より大きなグラフを処理するには、他のGNNなどが必要になる。
第二に、グラフ上の一般函数を近似する力ではなく、非同型グラフを区別する力に関係しており、前者は必ずしも後者を含まない。
GNNのユーザビリティは、特定の最大サイズのグラフに制限されないことが重要である。
したがって,非制限サイズ表現の領域を探索する。
我々は,Mean や Max GNN によって正確に計算できる単純な関数が任意の Sum GNN によって近似できないことを証明した。
一定の制限の下では、すべての平均または最大 GNN は Sum GNN によって近似できるが、それでさえ (Sum, [Mean/Max]) の組み合わせは Sum 単独よりも表現力が高い。
最後に, Sum-GNNのさらなる表現性制限を示す。 The expressivity of Graph Neural Networks (GNNs) is dependent on the aggregation functions they employ. Theoretical works have pointed towards Sum aggregation GNNs subsuming every other GNNs, while certain practical works have observed a clear advantage to using Mean and Max. An examination of the theoretical guarantee identifies two caveats. First, it is size-restricted, that is, the power of every specific GNN is limited to graphs of a certain maximal size. Successfully processing larger graphs may require an other GNN, and so on. Second, it concerns the power to distinguish non-isomorphic graphs, not the power to approximate general functions on graphs, and the former does not necessarily imply the latter. It is important that a GNN's usability will not be limited to graphs of any certain maximal size. Therefore, we explore the realm of unrestricted-size expressivity. We prove that simple functions, which can be computed exactly by Mean or Max GNNs, are inapproximable by any Sum GNN. We prove that under certain restrictions, every Mean or Max GNNs can be approximated by a Sum GNN, but even there, a combination of (Sum, [Mean/Max]) is more expressive than Sum alone. Lastly, we prove further expressivity limitations of Sum-GNNs. | 翻訳日:2023-02-24 17:06:06 公開日:2023-02-22 |
# ホログラフィーからの構造相転移とその臨界ダイナミクス Structural phase transition and its critical dynamics from holography ( http://arxiv.org/abs/2302.11597v1 ) ライセンス: Link先を確認 | Chuan-Yin Xia, Hua-Bi Zeng, Chiang-Mei Chen, Adolfo del Campo | (参考訳) 我々は、AdS$_3$ブラックホール背景で定義される重力格子理論を導入し、例えば閉じ込められたクーロン結晶で観測されるパリティ対称性の自発的な破れを特徴とする線形-ジグザグ構造相転移のホログラフィック双対記述を提供する。
高対称性の線形相から破壊対称性の二重縮退ジグザグ相への遷移は、臨界点を通して隣り合う部位間のカップリングを焼くことで駆動することができる。
平衡相関長と緩和時間の分析は平均場臨界指数を明らかにする。
キンク形成に至る非平衡相転移ダイナミクスを考察する。
キンク密度は、KZM(Kybble-Zurek mechanism)によって記述された遅いクエンチの極限における普遍的なスケーリング法則に従い、KZMの普遍的な分解によって特徴づけられる高速クエンチにおいて変化する。 We introduce a gravitational lattice theory defined in an AdS$_3$ black hole background that provides a holographic dual description of the linear-to-zigzag structural phase transition, characterized by the spontaneous breaking of parity symmetry observed in, e.g., confined Coulomb crystals. The transition from the high-symmetry linear phase to the broken-symmetry doubly-degenerate zigzag phase can be driven by quenching the coupling between adjacent sites through the critical point. An analysis of the equilibrium correlation length and relaxation time reveals mean-field critical exponents. We explore the nonequilibrium phase transition dynamics leading to kink formation. The kink density obeys universal scaling laws in the limit of slow quenches, described by the Kibble-Zurek mechanism (KZM), and at fast quenches, characterized by a universal breakdown of the KZM. | 翻訳日:2023-02-24 17:05:43 公開日:2023-02-22 |
# ディジタル量子コンピュータにおける最適飛行ゲート割り当ての探索 Towards Finding an Optimal Flight Gate Assignment on a Digital Quantum Computer ( http://arxiv.org/abs/2302.11595v1 ) ライセンス: Link先を確認 | Yahui Chai, Lena Funcke, Tobias Hartung, Karl Jansen, Stefan Kuehn, Paolo Stornati, Tobias Stollenwerk | (参考訳) 最適飛行ゲート割り当て問題に対する変分量子固有解器(VQE)の性能について検討する。
この問題は、乗客の移動時間を最小化するために、空港のゲートへの飛行を最適に割り当てることを目的とした組合せ最適化問題である。
この問題を研究するために,デジタル量子コンピュータに適した循環マッピングを用いた量子ビット効率のよいバイナリ符号化を採用する。
この符号化をcvar(conditional value at risk)を集約関数として用いることで,cvar-vqeを古典的にシミュレートすることで,アプローチの性能を体系的に検討する。
その結果,本手法は高い確率で優れた解を求めることができ,本手法は単純VQE手法よりも優れていた。
我々は, エンタングルメントの役割について検討し, エンタングルゲートを持つ「アンゼ」が, 純積状態よりも優れた結果をもたらすことを確認した。
様々な大きさの課題について検討した結果,本研究で検討した手法では,コスト関数数の増加によるよい解を求めることは指数関数的ではないことがわかった。 We investigate the performance of the variational quantum eigensolver (VQE) for the optimal flight gate assignment problem. This problem is a combinatorial optimization problem that aims at finding an optimal assignment of flights to the gates of an airport, in order to minimize the passenger travel time. To study the problem, we adopt a qubit-efficient binary encoding with a cyclic mapping, which is suitable for a digital quantum computer. Using this encoding in conjunction with the Conditional Value at Risk (CVaR) as an aggregation function, we systematically explore the performance of the approach by classically simulating the CVaR-VQE. Our results indicate that the method allows for finding a good solution with high probability, and the method significantly outperforms the naive VQE approach. We examine the role of entanglement for the performance, and find that ans\"atze with entangling gates allow for better results than pure product states. Studying the problem for various sizes, our numerical data show that the scaling of the number of cost function calls for obtaining a good solution is not exponential for the regimes we investigate in this work. | 翻訳日:2023-02-24 17:05:26 公開日:2023-02-22 |
# 分散エネルギー資源のモデリングにおける事前学習モデルの精度と有用性への寄与について On the contribution of pre-trained models to accuracy and utility in modeling distributed energy resources ( http://arxiv.org/abs/2302.11679v1 ) ライセンス: Link先を確認 | Hussain Kazmi and Pierre Pinson | (参考訳) 人気が高まっているにもかかわらず、実世界の動的システムのデータ駆動モデルは大量のデータを必要とする。
しかし、センサーの制限とプライバシー上の懸念のため、このデータは、特にエネルギーなどの領域で常に利用できるわけではない。
同様の文脈で収集されたデータを用いた事前学習モデルは、これらの懸念に対処する大きな可能性を示しており、より低い観測データ費用で予測精度を向上させることができる。
理論的には、負の移動によって生じるリスクのため、この改善はすべてのエージェントに対して均一でも保証されない。
本稿では,複数の分散エネルギー資源のデータを用いて,この点におけるいくつかの重要な疑問に対する予備的知見を調査・報告する。
まず,事前学習モデルによる予測精度の向上について,微調整の有無に関わらず評価する。
事前学習されたモデルは異質なエージェントに対して等しく改善するのだろうか。
これらの質問に答えることで、事前訓練されたモデルの作成、微調整、導入の改善が可能になる。 Despite their growing popularity, data-driven models of real-world dynamical systems require lots of data. However, due to sensing limitations as well as privacy concerns, this data is not always available, especially in domains such as energy. Pre-trained models using data gathered in similar contexts have shown enormous potential in addressing these concerns: they can improve predictive accuracy at a much lower observational data expense. Theoretically, due to the risk posed by negative transfer, this improvement is however neither uniform for all agents nor is it guaranteed. In this paper, using data from several distributed energy resources, we investigate and report preliminary findings on several key questions in this regard. First, we evaluate the improvement in predictive accuracy due to pre-trained models, both with and without fine-tuning. Subsequently, we consider the question of fairness: do pre-trained models create equal improvements for heterogeneous agents, and how does this translate to downstream utility? Answering these questions can help enable improvements in the creation, fine-tuning, and adoption of such pre-trained models. | 翻訳日:2023-02-24 16:59:49 公開日:2023-02-22 |
# PT対称非エルミート二状態系の振動確率 Oscillation probabilities for a PT-symmetric non-Hermitian two-state system ( http://arxiv.org/abs/2302.11666v1 ) ライセンス: Link先を確認 | Jean Alexandre, Madeleine Dale, John Ellis, Robert Mason, Peter Millington | (参考訳) PT対称非エルミート・ハミルトニアンを持つ実効量子理論への関心は高まっているが、遷移行列要素の定式化は実証性と摂動的ユニタリティと一致する。
この手紙はそのような定式化を提供し、相互作用とエネルギー固有状態が同じ正定値の内積に対して正規直交するように状態空間をまたぐ能力に大きく依存している。
中間子とニュートリノの振動への応用について述べる。 There is growing interest in viable quantum theories with PT-symmetric non-Hermitian Hamiltonians, but a formulation of transition matrix elements consistent with positivity and perturbative unitarity has so far proved elusive. This Letter provides such a formulation, which relies crucially on the ability to span the state space in such a way that the interaction and energy eigenstates are orthonormal with respect to the same positive-definite inner product. We mention possible applications to the oscillations of mesons and neutrinos. | 翻訳日:2023-02-24 16:59:31 公開日:2023-02-22 |
# AlpaServe:Deep Learning Servingのためのモデル並列処理を用いた統計的多重化 AlpaServe: Statistical Multiplexing with Model Parallelism for Deep Learning Serving ( http://arxiv.org/abs/2302.11665v1 ) ライセンス: Link先を確認 | Zhuohan Li, Lianmin Zheng, Yinmin Zhong, Vincent Liu, Ying Sheng, Xin Jin, Yanping Huang, Zhifeng Chen, Hao Zhang, Joseph E. Gonzalez, Ion Stoica | (参考訳) モデル並列性は、従来、単一のデバイスのメモリ制限を超えて単一の大きなディープラーニングモデルをスケールする方法と見なされている。
本論文では,1つのモデルが1つのデバイスに収まる場合であっても,複数のモデルを提供する場合,複数のデバイスの統計多重化にモデル並列性を付加することができることを示す。
我々の研究は、モデル並列化によって導入されたオーバーヘッドと、バーストのあるワークロードの存在下でのサービスレイテンシを低減するために統計的多重化を利用する機会との根本的なトレードオフを明らかにします。
我々は,新たなトレードオフ空間を探求し,分散クラスタ全体にわたる大規模ディープラーニングモデルのコレクションを配置および並列化する効率的な戦略を決定する新しいサービスシステムAlpaServeを提案する。
運用ワークロードの評価結果によると、AlpaServeはリクエストを最大10倍高いレートで処理でき、また、99%以上のリクエストでレイテンシ制約内に留まることができる。 Model parallelism is conventionally viewed as a method to scale a single large deep learning model beyond the memory limits of a single device. In this paper, we demonstrate that model parallelism can be additionally used for the statistical multiplexing of multiple devices when serving multiple models, even when a single model can fit into a single device. Our work reveals a fundamental trade-off between the overhead introduced by model parallelism and the opportunity to exploit statistical multiplexing to reduce serving latency in the presence of bursty workloads. We explore the new trade-off space and present a novel serving system, AlpaServe, that determines an efficient strategy for placing and parallelizing collections of large deep learning models across a distributed cluster. Evaluation results on production workloads show that AlpaServe can process requests at up to 10x higher rates or 6x more burstiness while staying within latency constraints for more than 99% of requests. | 翻訳日:2023-02-24 16:59:21 公開日:2023-02-22 |
# セキュアキーリースによる公開鍵暗号化 Public Key Encryption with Secure Key Leasing ( http://arxiv.org/abs/2302.11663v1 ) ライセンス: Link先を確認 | Shweta Agrawal, Fuyuki Kitagawa, Ryo Nishimaki, Shota Yamada, Takashi Yamakawa | (参考訳) セキュア鍵リース(PKE-SKL)を用いた公開鍵暗号の概念を導入する。
この概念は、リース鍵が復号化機能を達成するために復号化鍵のリースをサポートするが、ユーザが返却した量子復号化鍵が有効性テストに合格した場合、復号化能力を失うことを保証している。
私たちの考え方は、Ananth氏とLa Placa氏(Eurocrypt 2021)によって導入されたセキュアなソフトウェアリース(SSL)の概念に似ています。
より詳しくは、我々の敵は海賊ソフトウェアを実行するために正直な評価アルゴリズムを使うことに制限されていない。
1. 定義: セキュアなキーリースを備えたpkeの定義を導入し、セキュリティ概念を形式化します。
2. セキュリティキーリースによるPKEの構築: キーリース攻撃(ICC-KLAセキュリティ)に対する一貫性または一貫性のないセキュリティと呼ばれる新しいセキュリティ概念を満たすPKEスキームを活用することにより、PKE-SKLの構築を提供する。
次に,1-key Ciphertext-Policy Functional Encryption (CPFE) を用いて,任意のIND-CPAセキュアPKEスキームに基づいてCoIC-KLAセキュアPKEスキームを構築する。
3.IDベースの暗号化,属性ベースの暗号化,Secure Key Leasingによる関数型暗号化: IBE(Identity Basedcrypt)や属性ベースの暗号化(ABE),関数型暗号化(FE)といった高度な暗号化スキームにおいて,セキュアな鍵リースの定義を提供する。
次に、上記のPKE-SKLを標準IBE、ABE、FEスキームと組み合わせて構築する。 We introduce the notion of public key encryption with secure key leasing (PKE-SKL). Our notion supports the leasing of decryption keys so that a leased key achieves the decryption functionality but comes with the guarantee that if the quantum decryption key returned by a user passes a validity test, then the user has lost the ability to decrypt. Our notion is similar in spirit to the notion of secure software leasing (SSL) introduced by Ananth and La Placa (Eurocrypt 2021) but captures significantly more general adversarial strategies. In more detail, our adversary is not restricted to use an honest evaluation algorithm to run pirated software. Our results can be summarized as follows: 1. Definitions: We introduce the definition of PKE with secure key leasing and formalize security notions. 2. Constructing PKE with Secure Key Leasing: We provide a construction of PKE-SKL by leveraging a PKE scheme that satisfies a new security notion that we call consistent or inconsistent security against key leasing attacks (CoIC-KLA security). We then construct a CoIC-KLA secure PKE scheme using 1-key Ciphertext-Policy Functional Encryption (CPFE) that in turn can be based on any IND-CPA secure PKE scheme. 3. Identity Based Encryption, Attribute Based Encryption and Functional Encryption with Secure Key Leasing: We provide definitions of secure key leasing in the context of advanced encryption schemes such as identity based encryption (IBE), attribute-based encryption (ABE) and functional encryption (FE). Then we provide constructions by combining the above PKE-SKL with standard IBE, ABE and FE schemes. | 翻訳日:2023-02-24 16:59:04 公開日:2023-02-22 |
# 時系列データに対する情報理論によるパターン解析 Information Theory Inspired Pattern Analysis for Time-series Data ( http://arxiv.org/abs/2302.11654v1 ) ライセンス: Link先を確認 | Yushan Huang, Yuchen Zhao, Alexander Capstick, Francesca Palermo, Hamed Haddadi, Payam Barnaghi | (参考訳) 時系列のパターン分析の現在の方法は、データ内のパターンやトレンドを特定するために、主に統計的特徴や確率的学習や推論手法に依存している。
このような手法は、多変量、多変量、状態変化、騒がしい時系列データに適用するとうまく一般化しない。
これらの問題に対処するために,多変量時系列データのパターンから情報理論に基づく特徴を識別し学習する,高度に一般化した手法を提案する。
提案手法を実証するために,人間行動データのパターン変化を分析した。
確率的状態遷移を持つ応用では、シャノンのマルコフ鎖のエントロピー、マルコフ鎖のエントロピー率、マルコフ鎖のエントロピー生成、マルコフ鎖のフォン・ノイマンエントロピーに基づいて特徴が展開される。
状態モデリングが適用できないアプリケーションには、近似エントロピー、増分エントロピー、分散エントロピー、位相エントロピー、斜面エントロピーを含む5つのエントロピー変種を利用する。
その結果,提案した情報理論に基づく特徴は,モデルパラメータの18.75倍の減少率,F1スコア,平均精度を,ベースラインモデルとより単純なモデル構造と比較して最大23.01\%向上させることがわかった。 Current methods for pattern analysis in time series mainly rely on statistical features or probabilistic learning and inference methods to identify patterns and trends in the data. Such methods do not generalize well when applied to multivariate, multi-source, state-varying, and noisy time-series data. To address these issues, we propose a highly generalizable method that uses information theory-based features to identify and learn from patterns in multivariate time-series data. To demonstrate the proposed approach, we analyze pattern changes in human activity data. For applications with stochastic state transitions, features are developed based on Shannon's entropy of Markov chains, entropy rates of Markov chains, entropy production of Markov chains, and von Neumann entropy of Markov chains. For applications where state modeling is not applicable, we utilize five entropy variants, including approximate entropy, increment entropy, dispersion entropy, phase entropy, and slope entropy. The results show the proposed information theory-based features improve the recall rate, F1 score, and accuracy on average by up to 23.01\% compared with the baseline models and a simpler model structure, with an average reduction of 18.75 times in the number of model parameters. | 翻訳日:2023-02-24 16:58:28 公開日:2023-02-22 |
# Lang2LTL: 自然言語コマンドを一時ロボットタスク仕様に変換する Lang2LTL: Translating Natural Language Commands to Temporal Robot Task Specification ( http://arxiv.org/abs/2302.11649v1 ) ライセンス: Link先を確認 | Jason Xinyu Liu, Ziyi Yang, Ifrah Idrees, Sam Liang, Benjamin Schornstein, Stefanie Tellex, Ankit Shah | (参考訳) 自然言語は、時間的タスクを実行するロボットをプログラムするための強力なモダリティを提供する。
線形時間論理(LTL)は、時間的タスクの形式的記述のための曖昧な意味論を提供する。
しかし、既存の手法では、未知の環境で英語文を同等のLTL式に正確かつ堅牢に翻訳することはできない。
この問題を解決するために我々は,事前訓練された大型言語モデルを利用して自然言語コマンドから参照表現を抽出し,その表現を実世界のランドマークやオブジェクトに接地し,最終的にロボットのltlタスク仕様に変換する,新しいモジュールシステムlang2ltlを提案する。
任意のロボットシステムは、追加のトレーニングなしで自然言語ナビゲーションコマンドを解釈することができ、その位置を追跡し、自由形式のテキストでラベル付けされたランドマーク付きセマンティックマップを持つ。
我々は,openstreetmap (osm) や cleanup world (シミュレートされた家庭環境) といったマルチスケールナビゲーションドメインに一般化する最先端の能力を示す。
Lang2LTLは、以前のSoTAの22倍の1万以上のコマンドからなる新しいコーパスで評価された22のOSM環境において、挑戦的なTLL公式を翻訳する際に平均88.4%の精度を達成する。
OSMデータセット上で最高のLang2LTLモデルを実行すると、CleanUp Worldのコマンドを82.8%の精度で翻訳できる。
提案した包括的評価手法の一環として,2125個のLTL式を表す英語コマンドのラベル付きデータセットを新たに収集した。これは,これまでで最大となるLTL式よりも40倍の,最も多様なLTL式を持つロボットタスクのLTL仕様に対する自然言語コマンドのデータセットとして最大である。
最後にlang2ltlとプランナーを統合し,四足歩行ロボットにラボで作成したアナログ現実環境において多段階のナビゲーションタスクを行うように指示した。 Natural language provides a powerful modality to program robots to perform temporal tasks. Linear temporal logic (LTL) provides unambiguous semantics for formal descriptions of temporal tasks. However, existing approaches cannot accurately and robustly translate English sentences to their equivalent LTL formulas in unseen environments. To address this problem, we propose Lang2LTL, a novel modular system that leverages pretrained large language models to first extract referring expressions from a natural language command, then ground the expressions to real-world landmarks and objects, and finally translate the command into an LTL task specification for the robot. It enables any robotic system to interpret natural language navigation commands without additional training, provided that it tracks its position and has a semantic map with landmarks labeled with free-form text. We demonstrate the state-of-the-art ability to generalize to multi-scale navigation domains such as OpenStreetMap (OSM) and CleanUp World (a simulated household environment). Lang2LTL achieves an average accuracy of 88.4% in translating challenging LTL formulas in 22 unseen OSM environments as evaluated on a new corpus of over 10,000 commands, 22 times better than the previous SoTA. Without modification, the best performing Lang2LTL model on the OSM dataset can translate commands in CleanUp World with 82.8% accuracy. As a part of our proposed comprehensive evaluation procedures, we collected a new labeled dataset of English commands representing 2,125 unique LTL formulas, the largest ever dataset of natural language commands to LTL specifications for robotic tasks with the most diverse LTL formulas, 40 times more than previous largest dataset. Finally, we integrated Lang2LTL with a planner to command a quadruped mobile robot to perform multi-step navigational tasks in an analog real-world environment created in the lab. | 翻訳日:2023-02-24 16:58:04 公開日:2023-02-22 |
# ヘテロフィリーの下でのGNNの評価を批判的に見てみましょう。 A critical look at the evaluation of GNNs under heterophily: are we really making progress? ( http://arxiv.org/abs/2302.11640v1 ) ライセンス: Link先を確認 | Oleg Platonov, Denis Kuznedelev, Michael Diskin, Artem Babenko, Liudmila Prokhorenkova | (参考訳) ノード分類は、グラフニューラルネットワーク(gnn)が最近強い結果を得た古典的なグラフ表現学習タスクである。
しかし、標準GNNはホモフィルグラフ(すなわち、エッジが同じクラスのノードに接続する傾向があるグラフ)に対してのみ有効であるとしばしば信じられている。
この性質を持たないグラフはヘテロ親和性と呼ばれ、一般にそのようなグラフ上で強い性能を達成するために特別な方法が必要であると仮定される。
この研究では、この仮定に挑戦する。
まず, 異種特異的モデルの評価に用いる標準データセットは, 深刻な欠点があり, 信頼性が低い結果が得られた。
これらの欠点の最も重要な点は、datsets squirrelとchameleonに多数の重複ノードが存在することだ。
重複ノードの削除がこれらのデータセット上でのGNN性能に強く影響を与えることを示す。
そこで本研究では,gnnの性能評価の指標として有用であると考えられる様々な特性のヘテロフィラスグラフのセットを提案する。
我々は、標準的なGNNがこれらの異種グラフに対して強い結果を得ることを示す。
私たちのデータセットと実験を再現するためのコードは、https://github.com/yandex-research/heterophilous-graphsで利用可能です。 Node classification is a classical graph representation learning task on which Graph Neural Networks (GNNs) have recently achieved strong results. However, it is often believed that standard GNNs only work well for homophilous graphs, i.e., graphs where edges tend to connect nodes of the same class. Graphs without this property are called heterophilous, and it is typically assumed that specialized methods are required to achieve strong performance on such graphs. In this work, we challenge this assumption. First, we show that the standard datasets used for evaluating heterophily-specific models have serious drawbacks, making results obtained by using them unreliable. The most significant of these drawbacks is the presence of a large number of duplicate nodes in the datsets Squirrel and Chameleon, which leads to train-test data leakage. We show that removing duplicate nodes strongly affects GNN performance on these datasets. Then, we propose a set of heterophilous graphs of varying properties that we believe can serve as a better benchmark for evaluating the performance of GNNs under heterophily. We show that standard GNNs achieve strong results on these heterophilous graphs, almost always outperforming specialized models. Our datasets and the code for reproducing our experiments are available at https://github.com/yandex-research/heterophilous-graphs | 翻訳日:2023-02-24 16:57:32 公開日:2023-02-22 |
# 時間ネットワークのための複雑なモデルアーキテクチャは本当に必要か? Do We Really Need Complicated Model Architectures For Temporal Networks? ( http://arxiv.org/abs/2302.11636v1 ) ライセンス: Link先を確認 | Weilin Cong, Si Zhang, Jian Kang, Baichuan Yuan, Hao Wu, Xin Zhou, Hanghang Tong, Mehrdad Mahdavi | (参考訳) recurrent neural network (rnn) と self-attention mechanism (sam) は時相グラフ学習のための時空間情報を抽出するデファクト手法である。
興味深いことに、RNNとSAMはどちらも良いパフォーマンスをもたらす可能性があるが、実際にはどちらも常に必要ではない。
本稿では,3つのコンポーネントからなる概念的かつ技術的にシンプルなアーキテクチャであるGraphMixerを提案する。(1)多層パーセプトロン(MLP)のみをベースとして情報を要約するリンクエンコーダ,(2)隣接平均プールのみに基づいてノード情報を要約するノードエンコーダ,(3)エンコーダの出力に基づいてリンク予測を行うMLPベースのリンク分類器である。
そのシンプルさにもかかわらず、graphmixerは時間的リンク予測ベンチマークで優れた性能を達成し、より高速な収束とより良い一般化性能を実現している。
これらの結果は、よりシンプルなモデルアーキテクチャの重要性を再考する動機となります。 Recurrent neural network (RNN) and self-attention mechanism (SAM) are the de facto methods to extract spatial-temporal information for temporal graph learning. Interestingly, we found that although both RNN and SAM could lead to a good performance, in practice neither of them is always necessary. In this paper, we propose GraphMixer, a conceptually and technically simple architecture that consists of three components: (1) a link-encoder that is only based on multi-layer perceptrons (MLP) to summarize the information from temporal links, (2) a node-encoder that is only based on neighbor mean-pooling to summarize node information, and (3) an MLP-based link classifier that performs link prediction based on the outputs of the encoders. Despite its simplicity, GraphMixer attains an outstanding performance on temporal link prediction benchmarks with faster convergence and better generalization performance. These results motivate us to rethink the importance of simpler model architecture. | 翻訳日:2023-02-24 16:57:11 公開日:2023-02-22 |
# サプライズバウンドによる効果的な強化学習 Provably Efficient Reinforcement Learning via Surprise Bound ( http://arxiv.org/abs/2302.11634v1 ) ライセンス: Link先を確認 | Hanlin Zhu, Ruosong Wang, Jason D. Lee | (参考訳) 値関数近似は、特に状態空間が(無限に)大きい場合、現代の強化学習(RL)問題において重要である。
価値関数近似の重要性と幅広い適用性にもかかわらず、その理論的理解は、特に一般関数近似の文脈において、経験的成功ほど洗練されていない。
本稿では,一般値関数近似を用いた確率効率の良いRLアルゴリズムを提案する。
値関数がベルマン完全性仮定を満たす関数クラスで近似できるなら、このアルゴリズムは$\widetilde{o}(\text{poly}(\iota h)\sqrt{t})$ regret bound($\iota$がサプライズバウンドとログ被覆数の積、$h$が計画地平線、$k$がエピソード数、$t = hk$がエージェントが環境と相互作用するステップの総数であることを示す。
本アルゴリズムは,線形設定とスパース高次元線形設定の両方に適用することで,合理的な後悔の限界を達成する。
さらに,本アルゴリズムは,それまでのerm問題を$\omega(hk)$で解く必要のあるアルゴリズムに比べてはるかに効率的であり,経験的リスク最小化 (erm) 問題のみを解く必要がある。 Value function approximation is important in modern reinforcement learning (RL) problems especially when the state space is (infinitely) large. Despite the importance and wide applicability of value function approximation, its theoretical understanding is still not as sophisticated as its empirical success, especially in the context of general function approximation. In this paper, we propose a provably efficient RL algorithm (both computationally and statistically) with general value function approximations. We show that if the value functions can be approximated by a function class that satisfies the Bellman-completeness assumption, our algorithm achieves an $\widetilde{O}(\text{poly}(\iota H)\sqrt{T})$ regret bound where $\iota$ is the product of the surprise bound and log-covering numbers, $H$ is the planning horizon, $K$ is the number of episodes and $T = HK$ is the total number of steps the agent interacts with the environment. Our algorithm achieves reasonable regret bounds when applied to both the linear setting and the sparse high-dimensional linear setting. Moreover, our algorithm only needs to solve $O(H\log K)$ empirical risk minimization (ERM) problems, which is far more efficient than previous algorithms that need to solve ERM problems for $\Omega(HK)$ times. | 翻訳日:2023-02-24 16:56:52 公開日:2023-02-22 |
# デコード確率論的シンドローム測定とエントロピーの役割 Decoding probabilistic syndrome measurement and the role of entropy ( http://arxiv.org/abs/2302.11631v1 ) ライセンス: Link先を確認 | Jo\~ao F. Doriguello | (参考訳) 現実的なスタビリザーに基づく量子誤差補正では、実際の物理システムが単純なおもちゃの誤差モデルから逸脱する多くの方法がある。
安定化器の測定は必ずしも決定論的であるとは限らないし、消去エラーに悩まされることもある。
本稿では,確率的安定化器測定モデルに基づくトーリック符号の性能について検討する。
完全に連続したシンドローム抽出モデルであっても、スタスとバレットのエッジ収縮法(物理レビュー a81, 022317 (2010))を用いてデコーダを適度に修正することで、決定論的スタビリザー測定値が2.93\%$であるのに対して、閾値を合理的に1.69\%$で維持することができる。
最後に,デコーダの性能向上のために,誤り構成の退化を考慮したエントロピー要因の役割について検討する。
完全連続安定化器測定の限界において,これらの因子によってさらに得られる利点は,決定論的測定と対照的に無視可能であることがわかった。 In realistic stabiliser-based quantum error correction there are many ways in which real physical systems deviate from simple toy models of error. Stabiliser measurements may not always be deterministic or may suffer from erasure errors, such that they do not supply syndrome outcomes required for error correction. In this paper, we study the performance of the toric code under a model of probabilistic stabiliser measurement. We find that, even under a completely continuous model of syndrome extraction, the threshold can be maintained at reasonably high values of $1.69\%$ by suitably modifying the decoder using the edge-contraction method of Stace and Barrett (Physical Review A 81, 022317 (2010)), compared to a value of $2.93\%$ for deterministic stabiliser measurements. Finally, we study the role of entropic factors which account for degenerate error configurations for improving on the performance of the decoder. We find that in the limit of completely continuous stabiliser measurement any advantage further provided by these factors becomes negligible in contrast to the case of deterministic measurements. | 翻訳日:2023-02-24 16:56:23 公開日:2023-02-22 |
# ACE: 事前制約されたオートコントラストエンコーダによるゼロショット画像から画像への変換 ACE: Zero-Shot Image to Image Translation via Pretrained Auto-Contrastive-Encoder ( http://arxiv.org/abs/2302.11705v1 ) ライセンス: Link先を確認 | Sihan Xu, Zelong Jiang, Ruisi Liu, Kaikai Yang and Zhijie Huang | (参考訳) 画像から画像への変換はコンピュータビジョンの基本課題である。
特定のドメイン固有の特性を持つように、あるドメインから別のドメインの画像に変換する。
ほとんどの先行作業は、ソースドメインからターゲットドメインへのマッピングを学ぶために生成モデルを訓練する。
しかし、ドメイン間のマッピングの学習は、異なるドメインからのデータが品質と量の両方で非常に不均衡になるため、難しい。
そこで本稿では,新しいコントラスト学習フレームワークであるAuto-Contrastive-Encoder(ACE)を用いて,同一データ分布内のサンプルの類似点と相違点を学習し,画像の特徴を抽出する手法を提案する。
ACEは、同じコンテンツ情報と異なるスタイルの摂動を持つサンプル間の類似性としてコンテンツコードを学ぶ。
aceの設計により、初めて画像翻訳タスクをトレーニングすることなく、ゼロショット画像対画像翻訳を実現することができる。
また,学習方法は,異なる領域の画像のスタイル特徴を効果的に学習することができる。
その結果,ゼロショット学習によるマルチモーダル画像翻訳タスクの競争結果が得られた。
さらに,本手法の転校学習における可能性を示す。
微調整により、翻訳画像の品質は目に見えない領域で向上する。
コントラスト学習を使用しても、トレーニングはすべて、バッチサイズが8.0の1つのgpu上で実行できます。 Image-to-image translation is a fundamental task in computer vision. It transforms images from one domain to images in another domain so that they have particular domain-specific characteristics. Most prior works train a generative model to learn the mapping from a source domain to a target domain. However, learning such mapping between domains is challenging because data from different domains can be highly unbalanced in terms of both quality and quantity. To address this problem, we propose a new approach to extract image features by learning the similarities and differences of samples within the same data distribution via a novel contrastive learning framework, which we call Auto-Contrastive-Encoder (ACE). ACE learns the content code as the similarity between samples with the same content information and different style perturbations. The design of ACE enables us to achieve zero-shot image-to-image translation with no training on image translation tasks for the first time. Moreover, our learning method can learn the style features of images on different domains effectively. Consequently, our model achieves competitive results on multimodal image translation tasks with zero-shot learning as well. Additionally, we demonstrate the potential of our method in transfer learning. With fine-tuning, the quality of translated images improves in unseen domains. Even though we use contrastive learning, all of our training can be performed on a single GPU with the batch size of 8. | 翻訳日:2023-02-24 16:48:42 公開日:2023-02-22 |
# ディープフェイク検出における敵対的攻撃の軽減:摂動とAI技術の探索 Mitigating Adversarial Attacks in Deepfake Detection: An Exploration of Perturbation and AI Techniques ( http://arxiv.org/abs/2302.11704v1 ) ライセンス: Link先を確認 | Saminder Dhesi, Laura Fontes, Pedro Machado, Isibor Kennedy Ihianle, Farhad Fassihi Tash, David Ada Adama | (参考訳) ディープラーニングは機械学習の重要な側面だが、さまざまなアプリケーションで見られるような、敵対的な例に対して脆弱なテクニックでもある。
これらの例は人間にも当てはまり、ディープフェイク(英語版)のような偽のメディアが作成され、しばしば世論の形成や世論の評判を損なうのに使われる。
この記事では、クリーンな画像やビデオに加えられた摂動と、dlアルゴリズムをだます能力からなる、逆の例の概念を探求する。
提案手法はDFDCデータセットにおいて精度76.2%の精度を達成した。 Deep learning is a crucial aspect of machine learning, but it also makes these techniques vulnerable to adversarial examples, which can be seen in a variety of applications. These examples can even be targeted at humans, leading to the creation of false media, such as deepfakes, which are often used to shape public opinion and damage the reputation of public figures. This article will explore the concept of adversarial examples, which are comprised of perturbations added to clean images or videos, and their ability to deceive DL algorithms. The proposed approach achieved a precision value of accuracy of 76.2% on the DFDC dataset. | 翻訳日:2023-02-24 16:48:23 公開日:2023-02-22 |
# fAIlureNotes: コンピュータビジョンタスクのためのAIモデルの限界を理解するデザイナを支援する fAIlureNotes: Supporting Designers in Understanding the Limits of AI Models for Computer Vision Tasks ( http://arxiv.org/abs/2302.11703v1 ) ライセンス: Link先を確認 | Steven Moore, Q. Vera Liao, Hariharan Subramonyam | (参考訳) AIモデルで設計するには、ユーザーエクスペリエンス(UX)デザイナはモデルとユーザニーズの適合性を評価する必要がある。
ユーザリサーチに基づいて、プロダクト固有のデータインスタンスとユーザシナリオにおいて、モデルの振る舞いと潜在的な障害をコンテキスト化する必要がある。
しかし、10人のUX専門家とのフォーマティブなインタビューから、モデル制限の積極的な発見は困難であり、時間を要することが明らかになりました。
さらに、設計者はaiとアクセス可能な探索ツールに関する技術的な知識を欠いており、モデルの能力や制限に対する理解に挑戦している。
この作業では、設計プロセスの初期段階において、モデル動作と失敗パターンを設計者が調査するように促すワークフローである、AIに障害駆動設計アプローチを導入しました。
デザイナ中心の障害探索および分析ツールであるfailtnotesの実装は、さまざまなユーザグループやシナリオにわたるモデルの評価と障害の識別を支援する。
UX実践者による評価では、fAIlureNotesは、コンテキスト固有のモデルパフォーマンスを評価する上で、今日のインタラクティブモデルカードよりも優れています。 To design with AI models, user experience (UX) designers must assess the fit between the model and user needs. Based on user research, they need to contextualize the model's behavior and potential failures within their product-specific data instances and user scenarios. However, our formative interviews with ten UX professionals revealed that such a proactive discovery of model limitations is challenging and time-intensive. Furthermore, designers often lack technical knowledge of AI and accessible exploration tools, which challenges their understanding of model capabilities and limitations. In this work, we introduced a failure-driven design approach to AI, a workflow that encourages designers to explore model behavior and failure patterns early in the design process. The implementation of fAIlureNotes, a designer-centered failure exploration and analysis tool, supports designers in evaluating models and identifying failures across diverse user groups and scenarios. Our evaluation with UX practitioners shows that fAIlureNotes outperforms today's interactive model cards in assessing context-specific model performance. | 翻訳日:2023-02-24 16:48:04 公開日:2023-02-22 |
# 宝くじのメニューと2部関税を最大化する学習収益 Learning Revenue Maximizing Menus of Lotteries and Two-Part Tariffs ( http://arxiv.org/abs/2302.11700v1 ) ライセンス: Link先を確認 | Maria-Florina Balcan, Hedyeh Beyhaghi | (参考訳) 本研究では,2つの重要なメカニズム,宝くじのメニュー,および2つの関税の学習可能性について検討する。
宝くじのメニューは、各エントリが各アイテムと価格を割り当てる確率からなるペアであるエントリのリストである。
宝くじのメニュー(英: menus of lotteries)は、決定論的メカニズムを超えて収入を得る上で特に重要なランダム化メカニズムである。
一方、二分関税のメニューは、車や自転車の共有サービスなど、現実世界で一般的に使用される価格体系(前払いと単価1人あたりの料金)である。
本研究では,小売店の高精細度メニューを学習し,購入者の評価データから購入者の評価データにアクセス可能な配当設定と,購入者が一度に1回到着するオンライン設定の両方で購入者の評価データから2つの関税を課す。
私たちの主な貢献は、宝くじのメニューと2部関税のためのオンライン学習アルゴリズムの提案です。
さらに,分散設定の事前作業よりも実行時間を改善するアルゴリズムを提供する。
これらの設定で学習アルゴリズムを導出する際の重要な困難は、関連する収益関数が急激な遷移境界を持っていることである。
このような非構造化関数の学習に関する最近の文献とは対照的に,これらの学習には単純な離散化に基づく手法が十分であることを示す。 We study learnability of two important classes of mechanisms, menus of lotteries and two-part tariffs. A menu of lotteries is a list of entries where each entry is a pair consisting of probabilities of allocating each item and a price. Menus of lotteries is an especially important family of randomized mechanisms that are known to achieve revenue beyond any deterministic mechanism. A menu of two-part tariffs, on the other hand, is a pricing scheme (that consists of an up-front fee and a per unit fee) that is commonly used in the real world, e.g., for car or bike sharing services. We study learning high-revenue menus of lotteries and two-part tariffs from buyer valuation data in both distributional settings, where we have access to buyers' valuation samples up-front, and online settings, where buyers arrive one at a time and no distributional assumption is made about their values. Our main contribution is proposing the first online learning algorithms for menus of lotteries and two-part tariffs with strong regret bound guarantees. Furthermore, we provide algorithms with improved running times over prior work for the distributional settings. The key difficulty when deriving learning algorithms for these settings is that the relevant revenue functions have sharp transition boundaries. In stark contrast with the recent literature on learning such unstructured functions, we show that simple discretization-based techniques are sufficient for learning in these settings. | 翻訳日:2023-02-24 16:47:30 公開日:2023-02-22 |
# 時間的絡み合いエントロピー Timelike entanglement entropy ( http://arxiv.org/abs/2302.11695v1 ) ライセンス: Link先を確認 | Kazuki Doi, Jonathan Harper, Ali Mollabashi, Tadashi Takayanagi, and Yusuke Taki | (参考訳) 我々は、時間的絡み合いエントロピー (EE) と呼ばれる、空間的な境界部分領域を時間的に変化させるウィック回転として、境界理論において見ることのできる情報の新しい複素値測度を定義する。
2次元場の理論における時間的eeの明示的な定義は、cftのレプリカ法の解析的継続と一致する数値計算によって導かれる。
我々は、時間のような EE は、それまで考慮されていた別の測度、擬エントロピーとして正しく解釈されるべきであり、これは還元遷移行列のフォン・ノイマンエントロピーである。
この結果は、擬エントロピーの虚部が、量子交絡から創発空間の概念を一般化する創発時間を記述することを強く示唆している。
ホログラフィック系では、時間的 EE は境界領域に同値な空間と時間的極端曲面の両方の特定の定常結合の総複素値領域として定義する。
検討された例では、最適化手順の明示的な一致と境界CFTにおけるウィック回転の注意深い実装を見出す。
また、ド・ジッター空間における高次元一般化とホログラフィック擬エントロピーとの関係も進行する。 We define a new complex-valued measure of information called the timelike entanglement entropy (EE) which in the boundary theory can be viewed as a Wick rotation that changes a spacelike boundary subregion to a timelike one. An explicit definition of the timelike EE in 2d field theories is provided followed by numerical computations which agree with the analytic continuation of the replica method for CFTs. We argue that timelike EE should be correctly interpreted as another measure previously considered, the pseudo entropy, which is the von Neumann entropy of a reduced transition matrix. Our results strongly imply that the imaginary part of the pseudo entropy describes an emergent time which generalizes the notion of an emergent space from quantum entanglement. For holographic systems we define the timelike EE as the total complex valued area of a particular stationary combination of both space and timelike extremal surfaces which are homologous to the boundary region. For the examples considered we find explicit matching of our optimization procedure and the careful implementation of the Wick rotation in the boundary CFT. We also make progress on higher dimensional generalizations and relations to holographic pseudo entropy in de Sitter space. | 翻訳日:2023-02-24 16:47:01 公開日:2023-02-22 |
# 四角形uav追跡制御系の信頼性強化学習 Trustworthy Reinforcement Learning for Quadrotor UAV Tracking Control Systems ( http://arxiv.org/abs/2302.11694v1 ) ライセンス: Link先を確認 | Yanran Wang and David Boyle | (参考訳) 複雑な動的環境における四重項の同時的かつ信頼性の高い追跡制御は困難である。
抵抗力やモーメントの変動から導かれる空気力学はカオス的であり、正確に識別することは困難であるため、現在の四重項追跡システムは従来の制御手法では単純な「乱」として扱う。
確率モデル予測制御器 (SMPC) を用いて, 未知の空力効果に対する分散強化学習障害推定器を統合した新しいトラジェクタを提案する。
提案手法は空力効果の真の値と推定値の間の不確かさを正確に同定するものである。
単純なアフィン外乱フィードバックは、凸性を保証するために制御パラメータ化に使われ、SMPCと統合する。
ニューラルネットワークの幅と層が増加するにつれて、制約が誤差に反した場合、ConsDREDが少なくとも最適な大域収束率と一定のサブ線形レートを達成することを理論的に保証する。
実用性を示すため,シミュレーションおよび実世界の実験において収束トレーニングを行い,ConsDREDが標準制約RLアプローチに比べてハイパーパラメータ設定に敏感でないことを実証的に検証した。
本システムは,最近の技術と比較して,累積追跡誤差を少なくとも62%改善することを示した。
重要なことは、提案されたフレームワークであるConsDRED-SMPCは、高性能の追求と実用的な実装に対する保守的な制約に従うというトレードオフのバランスをとることである。 Simultaneously accurate and reliable tracking control for quadrotors in complex dynamic environments is challenging. As aerodynamics derived from drag forces and moment variations are chaotic and difficult to precisely identify, most current quadrotor tracking systems treat them as simple `disturbances' in conventional control approaches. We propose a novel, interpretable trajectory tracker integrating a Distributional Reinforcement Learning disturbance estimator for unknown aerodynamic effects with a Stochastic Model Predictive Controller (SMPC). The proposed estimator `Constrained Distributional Reinforced disturbance estimator' (ConsDRED) accurately identifies uncertainties between true and estimated values of aerodynamic effects. Simplified Affine Disturbance Feedback is used for control parameterization to guarantee convexity, which we then integrate with a SMPC. We theoretically guarantee that ConsDRED achieves at least an optimal global convergence rate and a certain sublinear rate if constraints are violated with an error decreases as the width and the layer of neural network increase. To demonstrate practicality, we show convergent training in simulation and real-world experiments, and empirically verify that ConsDRED is less sensitive to hyperparameter settings compared with canonical constrained RL approaches. We demonstrate our system improves accumulative tracking errors by at least 62% compared with the recent art. Importantly, the proposed framework, ConsDRED-SMPC, balances the tradeoff between pursuing high performance and obeying conservative constraints for practical implementations | 翻訳日:2023-02-24 16:46:42 公開日:2023-02-22 |
# MVTrans: 透明オブジェクトのマルチビュー認識 MVTrans: Multi-View Perception of Transparent Objects ( http://arxiv.org/abs/2302.11683v1 ) ライセンス: Link先を確認 | Yi Ru Wang, Yuchi Zhao, Haoping Xu, Saggi Eppel, Alan Aspuru-Guzik, Florian Shkurti, Animesh Garg | (参考訳) 透明物体認識は、家庭や実験室におけるロボット操作などの応用にとって重要な技術である。
既存の方法はRGB-Dまたはステレオ入力を使用して、深度やポーズ推定を含む知覚タスクのサブセットを処理する。
しかし、透明な物体認識は未解決の問題である。
本稿では,RGB-Dセンサから信頼できない深度マップを作成し,ステレオ法を拡張した。
提案手法であるMVTransは,深度推定,セグメンテーション,ポーズ推定など,複数の知覚能力を備えたエンドツーエンドのマルチビューアーキテクチャである。
さらに,rgb-d,ステレオ,マルチビューrgbの3種類のトレーニングネットワークに適した,新しい手続き型フォトリアリスティックデータセット生成パイプラインを構築し,大規模な透明オブジェクト検出データセットsyn-toddを作成した。
プロジェクトサイト: https://ac-rad.github.io/mvtrans/ Transparent object perception is a crucial skill for applications such as robot manipulation in household and laboratory settings. Existing methods utilize RGB-D or stereo inputs to handle a subset of perception tasks including depth and pose estimation. However, transparent object perception remains to be an open problem. In this paper, we forgo the unreliable depth map from RGB-D sensors and extend the stereo based method. Our proposed method, MVTrans, is an end-to-end multi-view architecture with multiple perception capabilities, including depth estimation, segmentation, and pose estimation. Additionally, we establish a novel procedural photo-realistic dataset generation pipeline and create a large-scale transparent object detection dataset, Syn-TODD, which is suitable for training networks with all three modalities, RGB-D, stereo and multi-view RGB. Project Site: https://ac-rad.github.io/MVTrans/ | 翻訳日:2023-02-24 16:46:19 公開日:2023-02-22 |
# 長距離系におけるヒルベルト空間のフラグメンテーション Hilbert space fragmentation in a longer-range system ( http://arxiv.org/abs/2302.11680v1 ) ライセンス: Link先を確認 | Gianluca Francica, Luca Dell'Anna | (参考訳) 一般化フレドキンスピン鎖を記述するスピン1/2多体ハミルトニアンを考慮したヒルベルト空間のフラグメンテーションと多体スカー状態における相互作用範囲の役割について検討した。
ヒルベルト空間の傷跡状態と弱い断片化は、ほぼあらゆる範囲のカップリングに対して生存することを示している。
最後に、ヒルベルト空間のそのような構造が、磁化の局所的持続的振動または非一様定常プロファイルによって特徴づけられる特定の初期状態によって引き起こされる平衡外ダイナミクスに与える影響について検討する。 We study the role of the interaction range on the Hilbert space fragmentation and many-body scar states considering a spin-1/2 many-body Hamiltonian describing a generalized Fredkin spin chain. We show that both scar states and weak fragmentation of the Hilbert space survive for almost any range of the coupling. Finally we investigate the effects of such structures of the Hilbert space on the out-of-equilibrium dynamics, triggered by certain initial states, characterized by either local persistent oscillations or non-uniform stationary profile of the magnetization. | 翻訳日:2023-02-24 16:46:05 公開日:2023-02-22 |
# クロスサイロフェデレーション学習のためのパーソナライズされたプライバシー保護フレームワーク Personalized Privacy-Preserving Framework for Cross-Silo Federated Learning ( http://arxiv.org/abs/2302.12020v1 ) ライセンス: Link先を確認 | Van-Tuan Tran, Huy-Hieu Pham, Kok-Seng Wong | (参考訳) federated learning(fl)は最近、プライベートデータを共有せずにクライアント間で協調的にトレーニングされたdlベースのアプローチを可能にする、有望な分散ディープラーニング(dl)フレームワークとして急成長している。
しかし、中央党が活発で不正である状況では、個々のクライアントのデータは完全に再構築される可能性があり、機密情報が漏洩する可能性が高い。
さらに、FLはクライアント間で非独立で同一に分散された(非IID)データにも悩まされ、ローカルクライアントのデータに対する推論性能が低下する。
本稿では,これらの課題を克服するために,クロスサイロflに重点を置く,パーソナライズされたプライバシ保存連合学習(pppfl)という新しい枠組みを提案する。
具体的には,モデル非依存メタラーニング(MAML)アルゴリズムの安定化版を導入し,DP-GANによって生成されたクライアントの合成データからグローバル初期化を協調的に訓練する。
収束に達した後、グローバル初期化はクライアントによってローカルにプライベートデータに適応される。
MNIST, Fashion-MNIST, CIFAR-10, CIFAR-100など, さまざまなデータセット上で, 提案するフレームワークが複数のFLベースラインより優れていることを実証的に示す。 Federated learning (FL) is recently surging as a promising decentralized deep learning (DL) framework that enables DL-based approaches trained collaboratively across clients without sharing private data. However, in the context of the central party being active and dishonest, the data of individual clients might be perfectly reconstructed, leading to the high possibility of sensitive information being leaked. Moreover, FL also suffers from the nonindependent and identically distributed (non-IID) data among clients, resulting in the degradation in the inference performance on local clients' data. In this paper, we propose a novel framework, namely Personalized Privacy-Preserving Federated Learning (PPPFL), with a concentration on cross-silo FL to overcome these challenges. Specifically, we introduce a stabilized variant of the Model-Agnostic Meta-Learning (MAML) algorithm to collaboratively train a global initialization from clients' synthetic data generated by Differential Private Generative Adversarial Networks (DP-GANs). After reaching convergence, the global initialization will be locally adapted by the clients to their private data. Through extensive experiments, we empirically show that our proposed framework outperforms multiple FL baselines on different datasets, including MNIST, Fashion-MNIST, CIFAR-10, and CIFAR-100. | 翻訳日:2023-02-24 15:08:03 公開日:2023-02-22 |
# 量子フーリエ変換による絡み合い並列化 Entanglement parallelization via quantum Fourier transform ( http://arxiv.org/abs/2302.12015v1 ) ライセンス: Link先を確認 | Mario Mastriani | (参考訳) 本研究では, 量子フーリエ変換(QFT)に基づく, 同じ集合の粒子が互いに絡み合っていて, 異なる集合の粒子は完全に独立であるような, 絡み合った粒子の解離集合の生成を可能にする手法を提案する。
この技法のいくつかの応用は、5(Belem)、7(Oslo)、14(Melbourne)の量子ビットの3つの物理プラットフォーム上に実装されており、これら全てのアプリケーションは将来の量子インターネットへの特定のコミットメントのために特別に選択されている。 In this study, we present a technique based on the quantum Fourier transform (QFT) that allows the generation of disjoint sets of entangled particles, in such a way that particles of the same set are entangled with each other, while particles of different sets are completely independent. Several applications of this technique are implemented on three physical platforms, of 5 (Belem), 7 (Oslo), and 14 (Melbourne) qubits, of the international business machine (IBM Q) quantum experience program, where all these applications were specially selected due to their particular commitment to the future Quantum Internet. | 翻訳日:2023-02-24 15:07:26 公開日:2023-02-22 |
# SVCとMLPのための一般化重み付き損失 A Generalized Weighted Loss for SVC and MLP ( http://arxiv.org/abs/2302.12011v1 ) ライセンス: Link先を確認 | Filippo Portera | (参考訳) 通常、標準アルゴリズムは、回帰タスクの場合、各エラーが真の値と予測との絶対的な差であるような損失を用いる。
本稿では,統合ルーチンの一般化である複数のエラー重み付けスキームを導入する。
支援ベクトル分類のための二項分類モデルと多層パーセプトロンの回帰ネットについて検討した。
結果は、エラーが標準手順よりも悪くなく、数回は良いことを証明している。 Usually standard algorithms employ a loss where each error is the mere absolute difference between the true value and the prediction, in case of a regression task. In the present, we introduce several error weighting schemes that are a generalization of the consolidated routine. We study both a binary classification model for Support Vector Classification and a regression net for Multi-layer Perceptron. Results proves that the error is never worse than the standard procedure and several times it is better. | 翻訳日:2023-02-24 15:07:14 公開日:2023-02-22 |
# dmmg:自己教師付きスケルトンに基づくアクション認識のためのデュアルmin-maxゲーム DMMG: Dual Min-Max Games for Self-Supervised Skeleton-Based Action Recognition ( http://arxiv.org/abs/2302.12007v1 ) ライセンス: Link先を確認 | Shannan Guan, Xin Yu, Wei Huang, Gengfa Fang, Haiyan Lu | (参考訳) 本研究では,新しいDual Min-Max Games (DMMG) を用いた自己教師型スケルトン行動認識手法を提案する。
我々のDMMGは、視点変化 min-max ゲームとエッジ摂動 min-max ゲームからなる。
これら2つのmin-maxゲームは、それぞれスケルトンシーケンスとグラフ構造化ボディジョイントでデータ拡張を行うための逆パラダイムを採用している。
視点変動ミニマックスゲームは,様々な視点からスケルトン列を生成することで,様々なハードコントラストペアを構築することに焦点を当てている。
これらの厳密な対照的なペアは、モデルが代表的なアクション機能を学ぶのに役立つため、下流タスクへのモデル転送が容易になります。
さらに, エッジ摂動ミニマックスゲームは, グラフベースボディージョイント間の接続強度を摂動させることにより, 多様なハードコントラストサンプルを構築することに特化したゲームである。
接続性が強く変化するコントラストペアは、モデルが過剰にフィットするのを防ぎながら、アクションの代表的なジェスチャーのような、異なるアクションの最小限の情報をキャプチャできる。
提案するdmmgを十分に活用することにより,十分な難解なコントラストペアを生成し,ラベル付きスケルトンデータからの識別的行動特徴表現を自己教師付きで実現する。
広範に使われているNTU-RGB+DデータセットとNTU120-RGB+Dデータセットの様々な評価プロトコルにおいて,本手法が優れた結果を得ることを示す。 In this work, we propose a new Dual Min-Max Games (DMMG) based self-supervised skeleton action recognition method by augmenting unlabeled data in a contrastive learning framework. Our DMMG consists of a viewpoint variation min-max game and an edge perturbation min-max game. These two min-max games adopt an adversarial paradigm to perform data augmentation on the skeleton sequences and graph-structured body joints, respectively. Our viewpoint variation min-max game focuses on constructing various hard contrastive pairs by generating skeleton sequences from various viewpoints. These hard contrastive pairs help our model learn representative action features, thus facilitating model transfer to downstream tasks. Moreover, our edge perturbation min-max game specializes in building diverse hard contrastive samples through perturbing connectivity strength among graph-based body joints. The connectivity-strength varying contrastive pairs enable the model to capture minimal sufficient information of different actions, such as representative gestures for an action while preventing the model from overfitting. By fully exploiting the proposed DMMG, we can generate sufficient challenging contrastive pairs and thus achieve discriminative action feature representations from unlabeled skeleton data in a self-supervised manner. Extensive experiments demonstrate that our method achieves superior results under various evaluation protocols on widely-used NTU-RGB+D and NTU120-RGB+D datasets. | 翻訳日:2023-02-24 15:06:55 公開日:2023-02-22 |
# グラフ畳み込みネットワークのためのランダムプロジェクションフォレスト初期化 Random Projection Forest Initialization for Graph Convolutional Networks ( http://arxiv.org/abs/2302.12001v1 ) ライセンス: Link先を確認 | Mashaan Alshammari, John Stavrakakis, Adel F. Ahmed, Masahiro Takatsuka | (参考訳) グラフ畳み込みネットワーク(GCN)は、グラフのような非構造化データにディープラーニングを拡張するための大きなステップであった。
しかし、GCNは、動作する構築されたグラフが必要です。
この問題を解決するために、$k$-nearest neighborのような古典的なグラフは通常GCNを初期化するために使われる。
k$-nnグラフを構築するのは計算効率が良いが、構築されたグラフは学習にはあまり役に立たないかもしれない。
k$-nnグラフでは、点が一定数の辺を持つように制限され、グラフ内のすべての辺は同じ重みを持つ。
グラフを構築し、GCNを初期化する新しい方法を提案する。
ランダム・プロジェクション・フォレスト(rpforest)に基づいている。
rpForestを使えば、さまざまな重要度を示すエッジに様々な重みを割り当てることができ、学習が促進されます。
木数はrpForestのハイパーパラメータである。
このパラメータを適切な範囲に設定するために,スペクトル解析を行った。
実験では、rpForestを使ってGCNを初期化することで、$k$-nnの初期化よりも優れた結果が得られる。 Graph convolutional networks (GCNs) were a great step towards extending deep learning to unstructured data such as graphs. But GCNs still need a constructed graph to work with. To solve this problem, classical graphs such as $k$-nearest neighbor are usually used to initialize the GCN. Although it is computationally efficient to construct $k$-nn graphs, the constructed graph might not be very useful for learning. In a $k$-nn graph, points are restricted to have a fixed number of edges, and all edges in the graph have equal weights. We present a new way to construct the graph and initialize the GCN. It is based on random projection forest (rpForest). rpForest enables us to assign varying weights on edges indicating varying importance, which enhanced the learning. The number of trees is a hyperparameter in rpForest. We performed spectral analysis to help us setting this parameter in the right range. In the experiments, initializing the GCN using rpForest provides better results compared to $k$-nn initialization. | 翻訳日:2023-02-24 15:06:11 公開日:2023-02-22 |
# 簡易グラフ畳み込みのための主軸木を用いたグラフ構築 Graph Construction using Principal Axis Trees for Simple Graph Convolution ( http://arxiv.org/abs/2302.12000v1 ) ライセンス: Link先を確認 | Mashaan Alshammari, John Stavrakakis, Adel F. Ahmed, Masahiro Takatsuka | (参考訳) グラフニューラルネットワーク(GNN)がグラフ学習のお気に入りの方法になりつつある。
深層学習の半教師付き性質を利用して、従来のグラフ学習手法に関連する計算ボトルネックを回避している。
特徴行列 $x$ に加えて、gnn は特徴伝達を実行するために隣接行列 $a$ が必要である。
多くの場合、隣接行列の$A$が欠落している。
我々は,教師なし情報と教師なし情報を用いて隣接行列 $a$ を構成するグラフ構築スキームを提案する。
監督されていない情報は、ポイント周辺を特徴付ける。
我々は教師なし情報のソースとして主軸木(PA-trees)を使用し、そこで同じ葉ノードに落下する点間のエッジを作成しました。
教師付き情報にはペナルティグラフと本質グラフという概念を用いた。
ペナルティグラフは異なるクラスラベルでポイントを接続するが、固有のグラフは同じクラスラベルでポイントを接続する。
PA木を用いて構築したグラフにエッジを削除または付加するために,ペナルティグラフと本質グラフを使用した。
このグラフ構築スキームは2つのよく知られたGNNでテストされた。
1)グラフ畳み込みネットワーク(GCN)と
2) 単純なグラフ畳み込み(SGC)。
実験の結果,より高速でGCNと同等あるいは同等の結果が得られるため,SGCを使用する方がよいことがわかった。
また,GCNおよびSGCに対するオーバースムーシングの効果についても検討した。
過度なスムース化を避けるためには,SGCに対してスムース化のレベルを慎重に選択する必要があることがわかった。 Graph Neural Networks (GNNs) are increasingly becoming the favorite method for graph learning. They exploit the semi-supervised nature of deep learning, and they bypass computational bottlenecks associated with traditional graph learning methods. In addition to the feature matrix $X$, GNNs need an adjacency matrix $A$ to perform feature propagation. In many cases the adjacency matrix $A$ is missing. We introduce a graph construction scheme that construct the adjacency matrix $A$ using unsupervised and supervised information. Unsupervised information characterize the neighborhood around points. We used Principal Axis trees (PA-trees) as a source of unsupervised information, where we create edges between points falling onto the same leaf node. For supervised information, we used the concept of penalty and intrinsic graphs. A penalty graph connects points with different class labels, whereas intrinsic graph connects points with the same class label. We used the penalty and intrinsic graphs to remove or add edges to the graph constructed via PA-tree. This graph construction scheme was tested on two well-known GNNs: 1) Graph Convolutional Network (GCN) and 2) Simple Graph Convolution (SGC). The experiments show that it is better to use SGC because it is faster and delivers better or the same results as GCN. We also test the effect of oversmoothing on both GCN and SGC. We found out that the level of smoothing has to be selected carefully for SGC to avoid oversmoothing. | 翻訳日:2023-02-24 15:05:55 公開日:2023-02-22 |
# 斬新なクラス発見:序論とキーコンセプト Novel Class Discovery: an Introduction and Key Concepts ( http://arxiv.org/abs/2302.12028v1 ) ライセンス: Link先を確認 | Colin Troisemaine and Vincent Lemaire and St\'ephane Gosselin and Alexandre Reiffers-Masson and Joachim Flocon-Cholet and Sandrine Vaton | (参考訳) 新たなクラスディスカバリ(NCD)は、既知のクラスのラベル付きセットと、発見しなければならない異なるクラスのラベル付きセットをトレーニング中に与えられる、成長する分野です。
近年,この問題に対処する多くの手法が提案され,分野が成熟し始めている。
本稿では,最先端のNCD手法に関する包括的調査を行う。
まず、NCD問題を正式に定義し、重要な概念を導入することから始める。
次に、ラベル付き集合からラベル付き集合への知識の伝達方法によって組織されたアプローチの異なるファミリーの概要を示す。
まずラベル付きデータのみから知識を抽出し,ラベルなしデータに適用し,あるいは両データセットを共用的に学習することで,学習を2段階に分けた。
それぞれの家族について、一般的な原則を説明し、いくつかの代表的な方法を詳述する。
次に,NCD作業の増加に触発された新たなタスクについて紹介する。
また,疑似ラベリングや自己教師付き学習,コントラスト学習など,ncdで使用される一般的なツールやテクニックも紹介する。
最後に,NCD問題に精通していない読者が他の近縁領域と区別するために,最も近い研究領域をいくつか要約し,その主な相違点について論じる。 Novel Class Discovery (NCD) is a growing field where we are given during training a labeled set of known classes and an unlabeled set of different classes that must be discovered. In recent years, many methods have been proposed to address this problem, and the field has begun to mature. In this paper, we provide a comprehensive survey of the state-of-the-art NCD methods. We start by formally defining the NCD problem and introducing important notions. We then give an overview of the different families of approaches, organized by the way they transfer knowledge from the labeled set to the unlabeled set. We find that they either learn in two stages, by first extracting knowledge from the labeled data only and then applying it to the unlabeled data, or in one stage by conjointly learning on both sets. For each family, we describe their general principle and detail a few representative methods. Then, we briefly introduce some new related tasks inspired by the increasing number of NCD works. We also present some common tools and techniques used in NCD, such as pseudo labeling, self-supervised learning and contrastive learning. Finally, to help readers unfamiliar with the NCD problem differentiate it from other closely related domains, we summarize some of the closest areas of research and discuss their main differences. | 翻訳日:2023-02-24 14:57:06 公開日:2023-02-22 |
# ChatGPTのロバスト性について:敵対的・アウト・オブ・ディストリビューション的視点 On the Robustness of ChatGPT: An Adversarial and Out-of-distribution Perspective ( http://arxiv.org/abs/2302.12095v1 ) ライセンス: Link先を確認 | Jindong Wang, Xixu Hu, Wenxin Hou, Hao Chen, Runkai Zheng, Yidong Wang, Linyi Yang, Haojun Huang, Wei Ye, Xiubo Geng, Binxin Jiao, Yue Zhang, Xing Xie | (参考訳) ChatGPTはOpenAIが最近リリースしたチャットボットサービスで、ここ数ヶ月で注目を集めている。
ChatGPTの様々な側面の評価は行われているが、その堅牢性、すなわち予期せぬ入力に直面する際の性能は、まだ一般には明らかではない。
ロバストネスは、特に安全クリティカルなアプリケーションにおいて、責任を負うAIにおいて特に懸念される。
本稿では,ChatGPTの強靭性について,敵対的かつアウト・オブ・ディストリビューション(OOD)の観点から徹底的に評価する。
そこで我々は,AdvGLUE と ANLI ベンチマークを用いて,敵対的堅牢性の評価を行い,Flipkart レビューと DDXPlus による OOD 評価を行った。
いくつかの一般的な基礎モデルをベースラインとして選択する。
結果から,ChatGPTは,翻訳タスクにおいて良好に動作しながらも,対数およびOOD分類タスクにおいて一貫した優位性を示すものではないことがわかった。
これは、敵とOODの堅牢性は基礎モデルにとって重要な脅威であることを示している。
さらに,チャットgptは対話関連テキストの理解において驚くべき性能を示し,決定的な回答ではなく,医学的課題に対して非公式な提案を行う傾向がみられた。
最後に,研究の方向性について詳細な議論を行う。 ChatGPT is a recent chatbot service released by OpenAI and is receiving increasing attention over the past few months. While evaluations of various aspects of ChatGPT have been done, its robustness, i.e., the performance when facing unexpected inputs, is still unclear to the public. Robustness is of particular concern in responsible AI, especially for safety-critical applications. In this paper, we conduct a thorough evaluation of the robustness of ChatGPT from the adversarial and out-of-distribution (OOD) perspective. To do so, we employ the AdvGLUE and ANLI benchmarks to assess adversarial robustness and the Flipkart review and DDXPlus medical diagnosis datasets for OOD evaluation. We select several popular foundation models as baselines. Results show that ChatGPT does not show consistent advantages on adversarial and OOD classification tasks, while performing well on translation tasks. This suggests that adversarial and OOD robustness remains a significant threat to foundation models. Moreover, ChatGPT shows astounding performance in understanding dialogue-related texts and we find that it tends to provide informal suggestions for medical tasks instead of definitive answers. Finally, we present in-depth discussions of possible research directions. | 翻訳日:2023-02-24 14:38:43 公開日:2023-02-22 |
# KG-ECO: クエリ書き換えのための知識グラフ強化エンティティ補正 KG-ECO: Knowledge Graph Enhanced Entity Correction for Query Rewriting ( http://arxiv.org/abs/2302.10454v2 ) ライセンス: Link先を確認 | Jinglun Cai, Mingda Li, Ziyan Jiang, Eunah Cho, Zheng Chen, Yang Liu, Xing Fan, Chenlei Guo | (参考訳) クエリ書き換え(QR)は、摩擦を減らすために大規模な対話システムにおいて重要な役割を果たす。
エンティティエラーが発生した場合、対話システムが満足のいく応答を生成するために追加の課題を課す。
本稿では,KG-ECOを提案する。クエリ書き換えのための知識グラフの拡張エンティティコレクション,エンティティスパン検出とエンティティ検索/再ランク機能を備えたエンティティ訂正システム。
モデル性能を向上させるため,我々は知識グラフ(KG)を組み込んで,エンティティ構造情報(グラフニューラルネットワークで符号化されたエンティティ)とテキスト情報(RoBERTaで符号化されたKGエンティティ記述)を提供する。
実験の結果, kg情報を用いずに発話レベルqrとエンティティ補正の2つの基準に対して, 性能向上効果が得られた。
提案システムは,学習においてターゲットエンティティがほとんど見られない場合や,クエリ内のターゲットエンティティと他のコンテキストエンティティとの間にKG関係が存在する場合において,特に有効である。 Query Rewriting (QR) plays a critical role in large-scale dialogue systems for reducing frictions. When there is an entity error, it imposes extra challenges for a dialogue system to produce satisfactory responses. In this work, we propose KG-ECO: Knowledge Graph enhanced Entity COrrection for query rewriting, an entity correction system with corrupt entity span detection and entity retrieval/re-ranking functionalities. To boost the model performance, we incorporate Knowledge Graph (KG) to provide entity structural information (neighboring entities encoded by graph neural networks) and textual information (KG entity descriptions encoded by RoBERTa). Experimental results show that our approach yields a clear performance gain over two baselines: utterance level QR and entity correction without utilizing KG information. The proposed system is particularly effective for few-shot learning cases where target entities are rarely seen in training or there is a KG relation between the target entity and other contextual entities in the query. | 翻訳日:2023-02-24 11:58:46 公開日:2023-02-22 |
# ポジティブかつネガティブなペアワイズフィードバックによるアクティブラーニング Active Learning with Positive and Negative Pairwise Feedback ( http://arxiv.org/abs/2302.10295v2 ) ライセンス: Link先を確認 | Linus Aronsson, Morteza Haghir Chehreghani | (参考訳) 本稿では,オブジェクト間の相互類似性を考慮したクエリによるアクティブクラスタリングのための汎用フレームワークを提案する。
まず、ペアの類似性は任意の正あるいは負の数であり、ユーザ/アノテータが提供するフィードバックのタイプに完全な柔軟性をもたらす。
第二に、対関係の類似性をクエリするプロセスがクラスタリングアルゴリズムから切り離され、クエリ戦略の構築方法の柔軟性が向上する。
第三に、同じペアの類似性に対して複数のクエリを許容することで、クエリはノイズに対して堅牢である(非永続ノイズモデルが仮定される)。
最後に、クラスタの数は、現在知られているペアワイズ類似度に基づいて自動的に識別される。
さらに、このアクティブクラスタリングフレームワークに適した新しいクエリ戦略をいくつか提案し、分析する。
本手法の有効性と提案する問合せ戦略を,いくつかの実験により実証する。 In this paper, we propose a generic framework for active clustering with queries for pairwise similarities between objects. First, the pairwise similarities can be any positive or negative number, yielding full flexibility in the type of feedback that a user/annotator can provide. Second, the process of querying pairwise similarities is separated from the clustering algorithm, leading to more flexibility in how the query strategies can be constructed. Third, the queries are robust to noise by allowing multiple queries for the same pairwise similarity (i.e., a non-persistent noise model is assumed). Finally, the number of clusters is automatically identified based on the currently known pairwise similarities. In addition, we propose and analyze a number of novel query strategies suited to this active clustering framework. We demonstrate the effectiveness of our framework and the proposed query strategies via several experimental studies. | 翻訳日:2023-02-24 11:58:30 公開日:2023-02-22 |
# イベントのシーケンスに基づく交通事故評価におけるイベントエンコーディングと異種度対策の影響 Impact of Event Encoding and Dissimilarity Measures on Traffic Crash Characterization Based on Sequence of Events ( http://arxiv.org/abs/2302.11077v1 ) ライセンス: Link先を確認 | Yu Song, Madhav V. Chitturi, David A. Noyce | (参考訳) クラッシュシークエンス解析は、衝突の特徴付けや安全対策の特定に有用であることが、以前の研究で示されている。
シーケンス解析は非常にドメイン固有であるが、その様々な技術はクラッシュシーケンスへの適応には評価されていない。
本稿では,符号化と異種度測定がクラッシュシーケンス解析およびクラスタリングに与える影響を評価する。
2016-2018年にアメリカ合衆国で発生した高速道路と単車衝突の頻度について調査した。
2つの符号化方式と5つの最適マッチングに基づく異種性尺度をシーケンスクラスタリングの結果を評価して比較した。
5つの相似性尺度を相似性行列の相関関係に基づいて2つのグループに分類した。
ベンチマーククラッシュ分類の合意に基づいて, 最適異種性尺度と符号化方式を同定した。
トランジッションレートに基づく、局所化された最適マッチングの相違点と統合エンコーディング方式は、ベンチマークと最も一致した。
評価の結果,異種度尺度と符号化方式の選択により,シーケンスクラスタリングの結果とクラッシュ特性が決定されることがわかった。
イベントとドメインコンテキストの関係を考慮する異種性尺度は、クラッシュシーケンスクラスタリングでうまく機能する傾向がある。
類似したイベントを統合する符号化スキームは、自然にドメインコンテキストを考慮する。 Crash sequence analysis has been shown in prior studies to be useful for characterizing crashes and identifying safety countermeasures. Sequence analysis is highly domain-specific, but its various techniques have not been evaluated for adaptation to crash sequences. This paper evaluates the impact of encoding and dissimilarity measures on crash sequence analysis and clustering. Sequence data of interstate highway, single-vehicle crashes in the United States, from 2016-2018, were studied. Two encoding schemes and five optimal matching based dissimilarity measures were compared by evaluating the sequence clustering results. The five dissimilarity measures were categorized into two groups based on correlations between dissimilarity matrices. The optimal dissimilarity measure and encoding scheme were identified based on the agreements with a benchmark crash categorization. The transition-rate-based, localized optimal matching dissimilarity and consolidated encoding scheme had the highest agreement with the benchmark. Evaluation results indicate that the selection of dissimilarity measure and encoding scheme determines the results of sequence clustering and crash characterization. A dissimilarity measure that considers the relationships between events and domain context tends to perform well in crash sequence clustering. An encoding scheme that consolidates similar events naturally takes domain context into consideration. | 翻訳日:2023-02-23 16:46:46 公開日:2023-02-22 |
# 部分サンプリングと立方正則化による高速リーマンニュートン型最適化 Faster Riemannian Newton-type Optimization by Subsampling and Cubic Regularization ( http://arxiv.org/abs/2302.11076v1 ) ライセンス: Link先を確認 | Yian Deng, Tingting Mu | (参考訳) この仕事は、制約集合が多様体構造を意味するような制約付き大規模非凸最適化に関するものである。
このような問題を解決することは、多くの基本的な機械学習タスクにおいて重要である。
リーマン最適化の最近の進歩は、多様体上の制約のない最適化アルゴリズムを適用することで、解の便利な回復を可能にした。
しかし、スケールアップし、安定した収束率を維持し、サドルポイントを扱うことは依然として困難である。
本稿では,収束率の向上と計算コストの低減を目的とした2次リーマン最適化アルゴリズムを提案する。
リーマン信頼領域アルゴリズムは、サブサンプリングと立方正則化技術の混合により、鞍点から逃れるために曲率情報を探索する。
提案するアルゴリズムの収束挙動を研究するため,厳密な解析を行う。
また、複数のデータセットを用いて2つの一般的な機械学習タスクに基づいて評価を行う。
提案アルゴリズムは,最先端リーマン最適化アルゴリズムに比べて計算速度と収束挙動が向上した。 This work is on constrained large-scale non-convex optimization where the constraint set implies a manifold structure. Solving such problems is important in a multitude of fundamental machine learning tasks. Recent advances on Riemannian optimization have enabled the convenient recovery of solutions by adapting unconstrained optimization algorithms over manifolds. However, it remains challenging to scale up and meanwhile maintain stable convergence rates and handle saddle points. We propose a new second-order Riemannian optimization algorithm, aiming at improving convergence rate and reducing computational cost. It enhances the Riemannian trust-region algorithm that explores curvature information to escape saddle points through a mixture of subsampling and cubic regularization techniques. We conduct rigorous analysis to study the convergence behavior of the proposed algorithm. We also perform extensive experiments to evaluate it based on two general machine learning tasks using multiple datasets. The proposed algorithm exhibits improved computational speed and convergence behavior compared to a large set of state-of-the-art Riemannian optimization algorithms. | 翻訳日:2023-02-23 16:46:30 公開日:2023-02-22 |
# ラベルノイズの存在下での深層能動的学習 : 調査 Deep Active Learning in the Presence of Label Noise: A Survey ( http://arxiv.org/abs/2302.11075v1 ) ライセンス: Link先を確認 | Moseli Mots'oehli | (参考訳) deep active learningは、事前に定義されたラベル付け予算内でディープラーニングモデルをトレーニングするための強力なツールとして登場した。
これらのモデルは、オフライン環境でトレーニングされたモデルに匹敵するパフォーマンスを達成した。
しかし、深層アクティブラーニングはノイズラベルを含む分類データセットを扱う際に重大な問題に直面している。
本稿では,ラベル雑音の存在下での深層アクティブ学習の現状について考察し,特異なアプローチ,強み,弱みについて述べる。
画像分類タスクにおける視覚トランスフォーマーの最近の成功により、この変換器層とアテンション機構がどのようにして多様性、重要性、不確実性に基づくクエリの選択をラベル付けのためにオラクルに送信できるかを概説する。
さらに,能動的学習環境におけるラベル付けのための高値サンプル選択を支援する良質な画像表現を導出するためのコントラスト学習法を提案する。
また,画像分類のためのラベルノイズの存在下での深層アクティブラーニングのための統合ベンチマークと標準化データセットの作成の必要性を強調する。
レビューは、この分野における今後の研究の道筋を提案することで締めくくっている。 Deep active learning has emerged as a powerful tool for training deep learning models within a predefined labeling budget. These models have achieved performances comparable to those trained in an offline setting. However, deep active learning faces substantial issues when dealing with classification datasets containing noisy labels. In this literature review, we discuss the current state of deep active learning in the presence of label noise, highlighting unique approaches, their strengths, and weaknesses. With the recent success of vision transformers in image classification tasks, we provide a brief overview and consider how the transformer layers and attention mechanisms can be used to enhance diversity, importance, and uncertainty-based selection in queries sent to an oracle for labeling. We further propose exploring contrastive learning methods to derive good image representations that can aid in selecting high-value samples for labeling in an active learning setting. We also highlight the need for creating unified benchmarks and standardized datasets for deep active learning in the presence of label noise for image classification to promote the reproducibility of research. The review concludes by suggesting avenues for future research in this area. | 翻訳日:2023-02-23 16:46:15 公開日:2023-02-22 |
# 新しい自然言語課題の継続的な学習におけるカタストロフィック・フォーミングの防止 Preventing Catastrophic Forgetting in Continual Learning of New Natural Language Tasks ( http://arxiv.org/abs/2302.11074v1 ) ライセンス: Link先を確認 | Sudipta Kar, Giuseppe Castellucci, Simone Filice, Shervin Malmasi, Oleg Rokhlenko | (参考訳) マルチタスク学習(MTL)は、自然言語処理において、1つのモデルで複数の関連するタスクを学習するための標準技術として広く受け入れられている。
MTLモデルのトレーニングには、すべてのタスクのトレーニングデータを同時に取得する必要がある。
システムは通常、時間とともに進化するので(例えば、新しい機能をサポートするために)、既存のMTLモデルに新しいタスクを追加するには、通常、すべてのタスクをスクラッチから再トレーニングする必要がある。
さらに、いくつかのシナリオでは、例えばストレージやプライバシの懸念のために、オリジナルのトレーニングをトレーニングするために使用されるデータが利用できなくなった場合もあります。
本稿では、n+1タスクを解くための新しいタスクに、既に訓練済みのnタスクに関するモデルの知識を蒸留することにより、MTLモデルの能力を漸進的に拡張し、新しいタスクを時間とともに解決する問題にアプローチする。
破滅的な忘れ物を避けるため,従来のタスクと同じ分布からラベルのないデータを活用することを提案する。
公開ベンチマーク実験により, 既に取得した知識(すなわち, 従来のタスクにおける最大20%のパフォーマンス低下防止)を保存し, 段階的に付加されたタスクの良好な性能を得ることにより, 蒸留技術が劇的に向上することが示された。
また,提案手法は,先行音声アシスタントのデータを利用することで,実用的な場面で有益であることを示す。 Multi-Task Learning (MTL) is widely-accepted in Natural Language Processing as a standard technique for learning multiple related tasks in one model. Training an MTL model requires having the training data for all tasks available at the same time. As systems usually evolve over time, (e.g., to support new functionalities), adding a new task to an existing MTL model usually requires retraining the model from scratch on all the tasks and this can be time-consuming and computationally expensive. Moreover, in some scenarios, the data used to train the original training may be no longer available, for example, due to storage or privacy concerns. In this paper, we approach the problem of incrementally expanding MTL models' capability to solve new tasks over time by distilling the knowledge of an already trained model on n tasks into a new one for solving n+1 tasks. To avoid catastrophic forgetting, we propose to exploit unlabeled data from the same distributions of the old tasks. Our experiments on publicly available benchmarks show that such a technique dramatically benefits the distillation by preserving the already acquired knowledge (i.e., preventing up to 20% performance drops on old tasks) while obtaining good performance on the incrementally added tasks. Further, we also show that our approach is beneficial in practical settings by using data from a leading voice assistant. | 翻訳日:2023-02-23 16:45:56 公開日:2023-02-22 |
# 文脈変調によるユニバーサルモルフォロジー制御 Universal Morphology Control via Contextual Modulation ( http://arxiv.org/abs/2302.11070v1 ) ライセンス: Link先を確認 | Zheng Xiong, Jacob Beck, Shimon Whiteson | (参考訳) 異なるロボット形態にまたがる普遍的なポリシーを学ぶことは、継続的制御における学習効率と一般化を大幅に改善することができる。
しかし、最適方針はロボット間で大きく異なり、形態に大きく依存する可能性があるため、マルチタスク強化学習の課題となる。
既存の手法では、グラフニューラルネットワークやトランスフォーマーを使用して、異なる形態の異種状態や行動空間を扱うが、その形態的コンテキストに対するロボットの制御ポリシーの依存性にはほとんど注意を払わない。
本稿では,(1)ロボット間のハードパラメータ共有を強制するのではなく,ハイパーネットワークを用いて形態素依存制御パラメータを生成し,(2)ロボットの異なる手足間の相互作用を調節する形態素依存型アテンション機構を提案する。
実験の結果,多種多様な訓練ロボットの学習性能を向上させるだけでなく,ゼロショット方式による形態素認識を一般化できることが判明した。 Learning a universal policy across different robot morphologies can significantly improve learning efficiency and generalization in continuous control. However, it poses a challenging multi-task reinforcement learning problem, as the optimal policy may be quite different across robots and critically depend on the morphology. Existing methods utilize graph neural networks or transformers to handle heterogeneous state and action spaces across different morphologies, but pay little attention to the dependency of a robot's control policy on its morphology context. In this paper, we propose a hierarchical architecture to better model this dependency via contextual modulation, which includes two key submodules: (1) Instead of enforcing hard parameter sharing across robots, we use hypernetworks to generate morphology-dependent control parameters; (2) We propose a morphology-dependent attention mechanism to modulate the interactions between different limbs in a robot. Experimental results show that our method not only improves learning performance on a diverse set of training robots, but also generalizes better to unseen morphologies in a zero-shot fashion. | 翻訳日:2023-02-23 16:45:30 公開日:2023-02-22 |
# 図形解析による文節付き多モードニューラルネットワーク幾何解法 A Multi-Modal Neural Geometric Solver with Textual Clauses Parsed from Diagram ( http://arxiv.org/abs/2302.11097v1 ) ライセンス: Link先を確認 | Ming-Liang Zhang, Fei Yin, Cheng-Lin Liu | (参考訳) 幾何問題の解法(GPS)は、多モード融合と幾何学的知識応用の能力を必要とする高レベルの数学的推論である。
近年、ニューラルソルバはGPSに大きな可能性を示しているが、図示やモーダル融合では依然として不足している。
本研究では,図を基本文節に変換し,図の特徴を効果的に記述し,マルチモーダル情報を効率的に融合するPGPSNetと呼ばれるニューラルソルバを提案する。
構造的および意味的な事前学習、データ拡張、自己制限デコーディングを組み合わせることで、PGPSNetは幾何学定理と幾何学的表現の豊富な知識が与えられ、幾何学的理解と推論を促進する。
さらに,GPSの研究を容易にするため,PGPS9Kと呼ばれる大規模かつ微細なGPSデータセットを構築し,詳細な図形アノテーションと解釈可能な解プログラムをラベル付けした。
PGPS9Kと既存のデータセットGeometry3Kの実験は、最先端のニューラルソルバよりも、我々の手法の優位性を検証する。
コードとデータセットは間もなく公開される予定だ。 Geometry problem solving (GPS) is a high-level mathematical reasoning requiring the capacities of multi-modal fusion and geometric knowledge application. Recently, neural solvers have shown great potential in GPS but still be short in diagram presentation and modal fusion. In this work, we convert diagrams into basic textual clauses to describe diagram features effectively, and propose a new neural solver called PGPSNet to fuse multi-modal information efficiently. Combining structural and semantic pre-training, data augmentation and self-limited decoding, PGPSNet is endowed with rich knowledge of geometry theorems and geometric representation, and therefore promotes geometric understanding and reasoning. In addition, to facilitate the research of GPS, we build a new large-scale and fine-annotated GPS dataset named PGPS9K, labeled with both fine-grained diagram annotation and interpretable solution program. Experiments on PGPS9K and an existing dataset Geometry3K validate the superiority of our method over the state-of-the-art neural solvers. The code and dataset will be public available soon. | 翻訳日:2023-02-23 16:38:28 公開日:2023-02-22 |
# MM-SFENet:空間的特徴エンコーダネットワークを用いたMRIにおける膀胱癌のマルチタスク局在と分類 MM-SFENet: Multi-scale Multi-task Localization and Classification of Bladder Cancer in MRI with Spatial Feature Encoder Network ( http://arxiv.org/abs/2302.11095v1 ) ライセンス: Link先を確認 | Yu Ren, Guoli Wang, Pingping Wang, Kunmeng Liu, Quanjin Liu, Hongfu Sun, Xiang Li, Benzheng Wei | (参考訳) 背景と目的:膀胱癌は一般的な悪性の膀胱癌であり、筋肉浸潤型と非筋肉浸潤型が2つの主要なサブタイプである。
本稿では,MRIによる膀胱癌浸潤度の自動同定と分類を実現することを目的とする。
方法: 膀胱壁と腫瘍を分断する従来の取り組みとは違って, 膀胱癌の位置と分類のための多目的マルチタスク空間特徴エンコーダネットワーク (MM-SFENet) を, 腫瘍と膀胱壁の空間関係の分類基準に基づいて提案した。
まず, 膀胱壁と腫瘍を識別するために, 残ったブロックを付加したバックボーンを構築し, そして, バックボーンのマルチレベル特徴を符号化して基準を学習する空間特徴エンコーダを設計した。
結果: 多タスク学習ではsmooth-l1ロスをiouロスに置き換え,分類作業の精度を向上させる。
98名の患者から収集した合計1287個のmriを検査した結果, 評価指標としてmapとiouを用いた。
実験結果は 93.34\% と 83.16\% に到達した。
結論: 提案したMM-SFENetが膀胱癌の局在と分類に及ぼす影響を実験的に検証した。
膀胱癌ステージングの効果的な補充診断法を提供することができる。 Background and Objective: Bladder cancer is a common malignant urinary carcinoma, with muscle-invasive and non-muscle-invasive as its two major subtypes. This paper aims to achieve automated bladder cancer invasiveness localization and classification based on MRI. Method: Different from previous efforts that segment bladder wall and tumor, we propose a novel end-to-end multi-scale multi-task spatial feature encoder network (MM-SFENet) for locating and classifying bladder cancer, according to the classification criteria of the spatial relationship between the tumor and bladder wall. First, we built a backbone with residual blocks to distinguish bladder wall and tumor; then, a spatial feature encoder is designed to encode the multi-level features of the backbone to learn the criteria. Results: We substitute Smooth-L1 Loss with IoU Loss for multi-task learning, to improve the accuracy of the classification task. By testing a total of 1287 MRIs collected from 98 patients at the hospital, the mAP and IoU are used as the evaluation metrics. The experimental result could reach 93.34\% and 83.16\% on test set. Conclusions: The experimental result demonstrates the effectiveness of the proposed MM-SFENet on the localization and classification of bladder cancer. It may provide an effective supplementary diagnosis method for bladder cancer staging. | 翻訳日:2023-02-23 16:38:11 公開日:2023-02-22 |
# GTRL: エンティティグループを考慮した時間的知識グラフ表現学習法 GTRL: An Entity Group-Aware Temporal Knowledge Graph Representation Learning Method ( http://arxiv.org/abs/2302.11091v1 ) ライセンス: Link先を確認 | Xing Tang, Ling Chen | (参考訳) 時間的知識グラフ(TKG)表現学習は、イベント予測や質問応答などの下流タスクに不可欠な時間的情報を統合することで、エンティティとイベントタイプを連続した低次元ベクトル空間に埋め込む。
既存の手法では、複数のグラフ畳み込み層を積み重ねて、遠方のエンティティの影響をモデル化する。
問題を緩和するため,近年の研究では,遠隔者の影響のモデル化に寄与する経路を得るために強化学習を取り入れている。
しかしながら、ホップ数が限られているため、これらの研究は遠く離れていて到達不能なエンティティ間の相関を捉えられなかった。
そこで本稿では,グループ対応の時間知識グラフ表現学習手法であるGTRLを提案する。
GTRLは、有限層のみを積み重ねることで、エンティティ間の相関を捉えるためにエンティティグループモデリングを組み込んだ最初の研究である。
具体的には、エンティティからエンティティグループを生成するためにentity group mapperが提案されている。
実体群に基づく暗黙相関エンコーダは、任意の対の実体群間の暗黙的相関を捉えるために導入された。
さらに、階層的なGCNを利用して、エンティティグループグラフとエンティティグラフのメッセージ集約と表現更新を実現する。
最後に、GRUはTKGの時間依存性を捉えるために使用される。
3つの実世界のデータセットに対する大規模な実験は、GTRLがイベント予測タスクにおける最先端のパフォーマンスを達成し、それぞれ13.44%、9.65%、12.15%、15.12%のMRR、Hits@1、Hits@3、Hits@10で最高のベースラインを上回っていることを示している。 Temporal Knowledge Graph (TKG) representation learning embeds entities and event types into a continuous low-dimensional vector space by integrating the temporal information, which is essential for downstream tasks, e.g., event prediction and question answering. Existing methods stack multiple graph convolution layers to model the influence of distant entities, leading to the over-smoothing problem. To alleviate the problem, recent studies infuse reinforcement learning to obtain paths that contribute to modeling the influence of distant entities. However, due to the limited number of hops, these studies fail to capture the correlation between entities that are far apart and even unreachable. To this end, we propose GTRL, an entity Group-aware Temporal knowledge graph Representation Learning method. GTRL is the first work that incorporates the entity group modeling to capture the correlation between entities by stacking only a finite number of layers. Specifically, the entity group mapper is proposed to generate entity groups from entities in a learning way. Based on entity groups, the implicit correlation encoder is introduced to capture implicit correlations between any pairwise entity groups. In addition, the hierarchical GCNs are exploited to accomplish the message aggregation and representation updating on the entity group graph and the entity graph. Finally, GRUs are employed to capture the temporal dependency in TKGs. Extensive experiments on three real-world datasets demonstrate that GTRL achieves the state-of-the-art performances on the event prediction task, outperforming the best baseline by an average of 13.44%, 9.65%, 12.15%, and 15.12% in MRR, Hits@1, Hits@3, and Hits@10, respectively. | 翻訳日:2023-02-23 16:37:45 公開日:2023-02-22 |
# ディープラーニング応用の最近の進歩と自律ナビゲーションの方法 -- 総合的なレビュー Recent Advancements in Deep Learning Applications and Methods for Autonomous Navigation -- A Comprehensive Review ( http://arxiv.org/abs/2302.11089v1 ) ライセンス: Link先を確認 | Arman Asgharpoor Golroudbari and Mohammad Hossein Sabour | (参考訳) 本稿では,障害物検出,シーン認識,経路計画,制御など,自律走行におけるエンド・ツー・エンドのディープラーニングフレームワークの概要を概説する。
本稿では,最近の研究成果を分析し,深層学習手法の実装と評価することで,自律的ナビゲーションと深層学習のギャップを埋めることを目的とする。
移動ロボット、自動運転車、無人航空機の航行の重要性を強調し、環境の複雑さ、不確実性、障害物、動的環境、そして複数のエージェントの経路計画の必要性による課題も認めている。
このレビューは、エンジニアリングデータサイエンスにおけるディープラーニングの急速な成長と革新的なナビゲーション手法の開発を強調している。
この分野に関する最近の学際的な研究について論じ、自律ナビゲーションにおける深層学習手法の限界、課題、および潜在的な成長領域について、簡単な視点を提供する。
最後に,既存および今後の手法,適用性,スケーラビリティ,限界など,さまざまな段階における知見と実践をまとめた。
このレビューは、自律的なナビゲーションとディープラーニングの分野で働く研究者や実践者に貴重なリソースを提供する。 This review paper presents a comprehensive overview of end-to-end deep learning frameworks used in the context of autonomous navigation, including obstacle detection, scene perception, path planning, and control. The paper aims to bridge the gap between autonomous navigation and deep learning by analyzing recent research studies and evaluating the implementation and testing of deep learning methods. It emphasizes the importance of navigation for mobile robots, autonomous vehicles, and unmanned aerial vehicles, while also acknowledging the challenges due to environmental complexity, uncertainty, obstacles, dynamic environments, and the need to plan paths for multiple agents. The review highlights the rapid growth of deep learning in engineering data science and its development of innovative navigation methods. It discusses recent interdisciplinary work related to this field and provides a brief perspective on the limitations, challenges, and potential areas of growth for deep learning methods in autonomous navigation. Finally, the paper summarizes the findings and practices at different stages, correlating existing and future methods, their applicability, scalability, and limitations. The review provides a valuable resource for researchers and practitioners working in the field of autonomous navigation and deep learning. | 翻訳日:2023-02-23 16:37:12 公開日:2023-02-22 |
# レコメンダシステムにおけるユーザの行動モデリングに関する調査 A Survey on User Behavior Modeling in Recommender Systems ( http://arxiv.org/abs/2302.11087v1 ) ライセンス: Link先を確認 | Zhicheng He and Weiwen Liu and Wei Guo and Jiarui Qin and Yingxue Zhang and Yaochen Hu and Ruiming Tang | (参考訳) ユーザの行動モデリング(ubm)は、レコメンダシステムで広く使われているユーザの関心の学習において重要な役割を果たす。
ユーザとアイテム間の重要なインタラクティブなパターンが悪用され、多くのレコメンデーションタスクにおいて魅力的な改善がもたらされている。
本稿では,本研究のトピックを徹底的に調査する。
まず,UBM研究の背景を概観する。
そして,既存のUBM研究の系統分類を,従来のUBM,Long-Sequence UBM,Multi-Type UBM,Side Informationの4つの方向に分類される。
各方向において、代表モデルとその強みと弱みを包括的に議論する。
さらに,既存の UBM ソリューションの適用価値に関する洞察の提供を期待して,UBM 手法の産業的実践について詳述する。
最後に,調査をまとめ,この分野の今後の展望について考察する。 User Behavior Modeling (UBM) plays a critical role in user interest learning, which has been extensively used in recommender systems. Crucial interactive patterns between users and items have been exploited, which brings compelling improvements in many recommendation tasks. In this paper, we attempt to provide a thorough survey of this research topic. We start by reviewing the research background of UBM. Then, we provide a systematic taxonomy of existing UBM research works, which can be categorized into four different directions including Conventional UBM, Long-Sequence UBM, Multi-Type UBM, and UBM with Side Information. Within each direction, representative models and their strengths and weaknesses are comprehensively discussed. Besides, we elaborate on the industrial practices of UBM methods with the hope of providing insights into the application value of existing UBM solutions. Finally, we summarize the survey and discuss the future prospects of this field. | 翻訳日:2023-02-23 16:36:54 公開日:2023-02-22 |
# 学習を最適化するための学習 Learning to Generalize Provably in Learning to Optimize ( http://arxiv.org/abs/2302.11085v1 ) ライセンス: Link先を確認 | Junjie Yang, Tianlong Chen, Mingkang Zhu, Fengxiang He, Dacheng Tao, Yingbin Liang, Zhangyang Wang | (参考訳) 最適化のための学習(l2o)が人気を集め、データ駆動アプローチによる最適化の設計が自動化されている。
しかし、現在のL2O法は、少なくとも2回は一般化性能の低下に悩まされることが多い。
i) L2O 学習オプティマイザを未確認最適化に適用し、損失関数の値(最適化一般化、もしくは「最適化者の一般化可能な学習」)を下げる。
(ii)オプティマイザによって訓練されたオプティマイザ(それ自体は機械学習モデルとして)の非知覚データに対する精度(一般化の最適化、あるいは「一般化のための学習」)の試験性能
近年,最適化の一般化が研究されているが,L2Oコンテキストにおいて最適化の一般化(あるいは一般化の学習)は厳密には研究されていない。
まず,局所エントロピーとヘシアンの間の暗黙的な関係を理論的に確立し,それらの役割を一般化可能な最適化器のハンドクラフト設計において,損失関数のランドスケープ平坦性の等価な指標として統一する。
次に、これらの2つの指標をフラットネス対応正規化器としてL2Oフレームワークに組み込んで、メタトレーニングオプティマイザの一般化を学習し、L2Oメタトレーニングプロセス中にそのような一般化能力を学習し、最適化ロス関数に変換できることを理論的に示す。
複数の高度L2Oモデルの一般化と多種多様な最適化により,提案手法の有効性を一貫して検証した。
私たちのコードは、https://github.com/VITA-Group/Open-L2O/tree/main/Model_Free_L2O/L2O-Entropyで利用可能です。 Learning to optimize (L2O) has gained increasing popularity, which automates the design of optimizers by data-driven approaches. However, current L2O methods often suffer from poor generalization performance in at least two folds: (i) applying the L2O-learned optimizer to unseen optimizees, in terms of lowering their loss function values (optimizer generalization, or ``generalizable learning of optimizers"); and (ii) the test performance of an optimizee (itself as a machine learning model), trained by the optimizer, in terms of the accuracy over unseen data (optimizee generalization, or ``learning to generalize"). While the optimizer generalization has been recently studied, the optimizee generalization (or learning to generalize) has not been rigorously studied in the L2O context, which is the aim of this paper. We first theoretically establish an implicit connection between the local entropy and the Hessian, and hence unify their roles in the handcrafted design of generalizable optimizers as equivalent metrics of the landscape flatness of loss functions. We then propose to incorporate these two metrics as flatness-aware regularizers into the L2O framework in order to meta-train optimizers to learn to generalize, and theoretically show that such generalization ability can be learned during the L2O meta-training process and then transformed to the optimizee loss function. Extensive experiments consistently validate the effectiveness of our proposals with substantially improved generalization on multiple sophisticated L2O models and diverse optimizees. Our code is available at: https://github.com/VITA-Group/Open-L2O/tree/main/Model_Free_L2O/L2O-Entropy. | 翻訳日:2023-02-23 16:36:40 公開日:2023-02-22 |
# 分布正規化:コントラスト学習による視覚モデルのための「感情のない」テスト時間拡張 Distribution Normalization: An "Effortless" Test-Time Augmentation for Contrastively Learned Visual-language Models ( http://arxiv.org/abs/2302.11084v1 ) ライセンス: Link先を確認 | Yifei Zhou, Juntao Ren, Fengyu Li, Ramin Zabih, Ser-Nam Lim | (参考訳) 視覚言語によるコントラスト学習の分野での進歩により、画像とテキストの表現のドット積を取るだけで、多くの下流アプリケーションが効率的に正確に実行できるようになった。
CLIPとして最近提案された最も代表的なアプローチの1つは、その有効性のために急速に普及している。
CLIPは、より堅牢な表現空間を学ぶのに役立つ正と負の両方のサンプルを考慮したInfoNCE損失でトレーニングされている。
しかし,本論文では,ドット製品のダウンストリーム化は最適化目標の0次近似に過ぎず,テスト時間中に情報が失われることを明らかにする。
直感的には、モデルはInfoNCEの損失に基づいて最適化されているので、テスト時間プロシージャも理想的には一致しているはずです。
問題は、推論中に負のサンプル情報のあらゆる類似性を取得する方法にある。
本研究では, 分散正規化(DN)を提案し, テストサンプルのバッチの平均表現を近似し, InfoNCE損失における負のサンプルと類似するものを表現する。
DNは再訓練や微調整を必要とせず、推論中に不注意に適用することができる。
様々な下流タスクに関する大規模な実験は、ドット積よりもDNの明確な優位性を示している。 Advances in the field of visual-language contrastive learning have made it possible for many downstream applications to be carried out efficiently and accurately by simply taking the dot product between image and text representations. One of the most representative approaches proposed recently known as CLIP has quickly garnered widespread adoption due to its effectiveness. CLIP is trained with an InfoNCE loss that takes into account both positive and negative samples to help learn a much more robust representation space. This paper however reveals that the common downstream practice of taking a dot product is only a zeroth-order approximation of the optimization goal, resulting in a loss of information during test-time. Intuitively, since the model has been optimized based on the InfoNCE loss, test-time procedures should ideally also be in alignment. The question lies in how one can retrieve any semblance of negative samples information during inference. We propose Distribution Normalization (DN), where we approximate the mean representation of a batch of test samples and use such a mean to represent what would be analogous to negative samples in the InfoNCE loss. DN requires no retraining or fine-tuning and can be effortlessly applied during inference. Extensive experiments on a wide variety of downstream tasks exhibit a clear advantage of DN over the dot product. | 翻訳日:2023-02-23 16:35:48 公開日:2023-02-22 |
# 擬似決定論的量子回路の難読化 Obfuscation of Pseudo-Deterministic Quantum Circuits ( http://arxiv.org/abs/2302.11083v1 ) ライセンス: Link先を確認 | James Bartusek, Fuyuki Kitagawa, Ryo Nishimaki, and Takashi Yamakawa | (参考訳) 本稿では,古典回路における誤り(QLWE)と量子後仮想ブラックボックス(VBB)の難解性を仮定し,疑似決定論的量子回路の難解化方法を示す。
古典的な量子回路の$Q$の説明を考えると、我々のオブファスケータは任意の入力に対して$Q$を繰り返し評価することができる量子状態$\ket{\widetilde{Q}}$を出力する。
古典回路のvbbオブファシエータを量子後非識別可能性オブファシエータ候補でインスタンス化することで、多項式サイズの疑似決定性量子回路の非識別可能性オブファシエーションの第1候補となる。
特に,本手法はShorのアルゴリズム(SICOMP 1997)を実装するのに十分な性能を持つ回路群に対する,最初の候補オブファスケータである。
提案手法はバルタテックとマラボルタ (ITCS 2022) に従っており、量子計算(CVQC) スキームの古典的検証の検証を妨害することにより、量子回路を難読化する。
我々は、Mahadevの量子完全同型暗号スキーム(FOCS 2018)の評価手順を検証するために使用できる量子 \emph{partitioning} 回路に対して、公に検証可能なCVQCスキームを構築することで、ヌル回路を超えていく。
我々はバルタテック (TCC 2021) の1回限りの安全なスキームを完全再利用可能なスキームにアップグレードし、パブリックデコダブルな \emph{Pauli functional commitment} を通じて実現し、この作業で正式に定義し構成する。
このコミットメントスキームは、受信者の標準とアダマール基底のデコード機能にアクセスできるコミッタに対するバインディングの概念を満たすもので、等価だが衝突耐性のハッシュ関数の文脈で導入されたamos、georgiou、kiayias、zhandry(stoc 2020)の技術に基づいて構築されている。 We show how to obfuscate pseudo-deterministic quantum circuits, assuming the quantum hardness of learning with errors (QLWE) and post-quantum virtual black-box (VBB) obfuscation for classical circuits. Given the classical description of a quantum circuit $Q$, our obfuscator outputs a quantum state $\ket{\widetilde{Q}}$ that can be used to evaluate $Q$ repeatedly on arbitrary inputs. Instantiating the VBB obfuscator for classical circuits with any candidate post-quantum indistinguishability obfuscator gives us the first candidate construction of indistinguishability obfuscation for all polynomial-size pseudo-deterministic quantum circuits. In particular, our scheme is the first candidate obfuscator for a class of circuits that is powerful enough to implement Shor's algorithm (SICOMP 1997). Our approach follows Bartusek and Malavolta (ITCS 2022), who obfuscate \emph{null} quantum circuits by obfuscating the verifier of an appropriate classical verification of quantum computation (CVQC) scheme. We go beyond null circuits by constructing a publicly-verifiable CVQC scheme for quantum \emph{partitioning} circuits, which can be used to verify the evaluation procedure of Mahadev's quantum fully-homomorphic encryption scheme (FOCS 2018). We achieve this by upgrading the one-time secure scheme of Bartusek (TCC 2021) to a fully reusable scheme, via a publicly-decodable \emph{Pauli functional commitment}, which we formally define and construct in this work. This commitment scheme, which satisfies a notion of binding against committers that can access the receiver's standard and Hadamard basis decoding functionalities, is constructed by building on techniques of Amos, Georgiou, Kiayias, and Zhandry (STOC 2020) introduced in the context of equivocal but collision-resistant hash functions. | 翻訳日:2023-02-23 16:35:18 公開日:2023-02-22 |
# BB-GCN:マルチラベル胸部X線認識のためのバイモーダルブリッジグラフ畳み込みネットワーク BB-GCN: A Bi-modal Bridged Graph Convolutional Network for Multi-label Chest X-Ray Recognition ( http://arxiv.org/abs/2302.11082v1 ) ライセンス: Link先を確認 | Guoli Wang, Pingping Wang, Jinyu Cong, Kunmeng Liu, Benzheng Wei | (参考訳) CXR(Multi-label chest X-ray)は、診断と診断を同時に行う。
病理ラベルは相互関係に関する豊富な情報を持っているため,認識性能を向上させるためには,病理ラベル間の共起依存性のモデル化が不可欠である。
しかしながら、以前の方法は、ローカルラベル情報をモデル化することを目的とした状態変数符号化と注意機構に依存しており、ラベル間のグローバルな共起関係の学習を欠いている。
さらに, クロスモーダルベクトル融合におけるアライメント問題やコンパクト性問題を無視して, 画像特徴とラベル埋め込みを大まかに統合し, これらの問題を解決するために, bi-modal bridged graph convolutional network (bb-gcn) モデルを提案する。
このモデルは、主にバックボーンモジュール、病理ラベル共起関係埋め込み(LCE)モジュール、トランスフォーマーブリッジグラフ(TBG)モジュールで構成されている。
具体的には、バックボーンモジュールが画像視覚特徴表現を取得する。
LCEモジュールはグラフを用いて複数のラベル間のグローバルな共起関係をモデル化し、グラフ畳み込みネットワークを用いて推論を学習する。
TBGモジュールは,グループSum法によりよりコンパクトかつ効率的にクロスモーダルベクトルをブリッジし,大規模CXRデータセット(ChestX-Ray14とCheXpert)におけるBB-GCNの有効性を評価した。
提案したLCEモジュールとTBGモジュールはBB-GCNの認識性能を効果的に向上させることができる。
また,マルチラベル胸部X線認識において良好な結果が得られ,高い競争力を持つ一般化性能を示す。 Multi-label chest X-ray (CXR) recognition involves simultaneously diagnosing and identifying multiple labels for different pathologies. Since pathological labels have rich information about their relationship to each other, modeling the co-occurrence dependencies between pathological labels is essential to improve recognition performance. However, previous methods rely on state variable coding and attention mechanisms-oriented to model local label information, and lack learning of global co-occurrence relationships between labels. Furthermore, these methods roughly integrate image features and label embedding, ignoring the alignment and compactness problems in cross-modal vector fusion.To solve these problems, a Bi-modal Bridged Graph Convolutional Network (BB-GCN) model is proposed. This model mainly consists of a backbone module, a pathology Label Co-occurrence relationship Embedding (LCE) module, and a Transformer Bridge Graph (TBG) module. Specifically, the backbone module obtains image visual feature representation. The LCE module utilizes a graph to model the global co-occurrence relationship between multiple labels and employs graph convolutional networks for learning inference. The TBG module bridges the cross-modal vectors more compactly and efficiently through the GroupSum method.We have evaluated the effectiveness of the proposed BB-GCN in two large-scale CXR datasets (ChestX-Ray14 and CheXpert). Our model achieved state-of-the-art performance: the mean AUC scores for the 14 pathologies were 0.835 and 0.813, respectively.The proposed LCE and TBG modules can jointly effectively improve the recognition performance of BB-GCN. Our model also achieves satisfactory results in multi-label chest X-ray recognition and exhibits highly competitive generalization performance. | 翻訳日:2023-02-23 16:34:39 公開日:2023-02-22 |
# 確率予測のための多元時系列の混合構造学習 Learning Mixture Structure on Multi-Source Time Series for Probabilistic Forecasting ( http://arxiv.org/abs/2302.11078v1 ) ライセンス: Link先を確認 | Tian Guo | (参考訳) 多くのデータ駆動アプリケーションでは、異なるソースからデータを集めることが、パフォーマンスを向上させるためにますます望ましい。
本稿では,マルチソース時系列を用いた確率的予測の問題に注目する。
異なる予測関係と適応的組み合わせを多ソース時系列から学習するためのニューラルネットワーク構造に基づく確率モデルを提案する。
対象変数の異なる分布に適用可能な予測および不確実性定量化手法を提案する。
さらに,提案する混合モデルの直接学習中に観測される不均衡および不安定な挙動を考慮し,位相学習法を開発し,理論解析を行う。
実験的な評価では、位相学習によって訓練された混合モデルは、点と確率予測の両方で競合性能を示す。
一方,提案する不確実性条件付き誤差は,混合モデルの不確実性スコアが予測の信頼性指標となる可能性を示唆する。 In many data-driven applications, collecting data from different sources is increasingly desirable for enhancing performance. In this paper, we are interested in the problem of probabilistic forecasting with multi-source time series. We propose a neural mixture structure-based probability model for learning different predictive relations and their adaptive combinations from multi-source time series. We present the prediction and uncertainty quantification methods that apply to different distributions of target variables. Additionally, given the imbalanced and unstable behaviors observed during the direct training of the proposed mixture model, we develop a phased learning method and provide a theoretical analysis. In experimental evaluations, the mixture model trained by the phased learning exhibits competitive performance on both point and probabilistic prediction metrics. Meanwhile, the proposed uncertainty conditioned error suggests the potential of the mixture model's uncertainty score as a reliability indicator of predictions. | 翻訳日:2023-02-23 16:34:05 公開日:2023-02-22 |
# フェアガード:スマートシティにおけるハーネス論理に基づくフェアネスルール Fairguard: Harness Logic-based Fairness Rules in Smart Cities ( http://arxiv.org/abs/2302.11137v1 ) ライセンス: Link先を確認 | Yiqi Zhao, Ziyan An, Xuqing Gao, Ayan Mukhopadhyay, Meiyi Ma | (参考訳) スマートシティは、大規模センサーネットワークからデータを収集、集約、活用する計算予測フレームワークで動作する。
しかし、これらのフレームワークは複数のデータソースとアルゴリズムバイアスの傾向があり、しばしば不公平な予測結果につながる。
そこで本研究では,チャタヌーガの都市データを用いて,時間的・空間的に偏差が持続することを示す。
このようなバイアスの問題を緩和するため,我々は,複雑な時空間領域における適切なスマートシティ政策調整と生成のためのマイクロレベル時相論理に基づくアプローチである \textit{fairguard} を導入する。
Fairguardフレームワークは2つのフェーズから構成される: まず、選択した属性間の相関を最小化することにより、時間論理条件に基づいてデータのバイアスを低減できる静的ジェネレータを開発する。
次に、予測アルゴリズムの公平性を保証するために、予測結果を制御し、論理規則を利用して将来の公平な予測を生成する動的コンポーネントを設計する。
動的フェアガードは、全体的なパフォーマンスへの影響を最小限に抑えながら、実行時に保護されたグループに対する公平性を保証することができる。 Smart cities operate on computational predictive frameworks that collect, aggregate, and utilize data from large-scale sensor networks. However, these frameworks are prone to multiple sources of data and algorithmic bias, which often lead to unfair prediction results. In this work, we first demonstrate that bias persists at a micro-level both temporally and spatially by studying real city data from Chattanooga, TN. To alleviate the issue of such bias, we introduce \textit{Fairguard}, a micro-level temporal logic-based approach for fair smart city policy adjustment and generation in complex temporal-spatial domains. The Fairguard framework consists of two phases: first, we develop a static generator that is able to reduce data bias based on temporal logic conditions by minimizing correlations between selected attributes. Then, to ensure fairness in predictive algorithms, we design a dynamic component to regulate prediction results and generate future fair predictions by harnessing logic rules. Evaluations show that logic-enabled static Fairguard can effectively reduce the biased correlations while dynamic Fairguard can guarantee fairness on protected groups at run-time with minimal impact on overall performance. | 翻訳日:2023-02-23 16:28:15 公開日:2023-02-22 |
# 掘削作業における早期スタックサイン検出のための半監督的アプローチ Semi-Supervised Approach for Early Stuck Sign Detection in Drilling Operations ( http://arxiv.org/abs/2302.11135v1 ) ライセンス: Link先を確認 | Andres Hernandez-Matamoros, Kohei Sugawara, Tatsuya Kaneko, Ryota Wada, Masahiko Ozaki (JAMSTEC, INPEX, JAPEX, and JOGMEC) | (参考訳) 本稿では,リアルタイム定置管予測手法を提案する。
掘削データの挙動が通常の掘削作業から逸脱した場合に,定着管の早期の兆候が明らかになる。
ドリルストリング構成や地質条件による正常度変化の定義。
ここでは、局所化された正常な振る舞いをキャプチャするために、深度領域のデータ表現を採用する。
実掘削データから抽出した正規掘削データに基づいて, オートエンコーダと変分オートエンコーダに基づく複数のモデルを訓練する。
スタッキングインシデント前のデータセットにトレーニングモデルを適用すると、8回のインシデントで大きな復元エラーが見られた。
これらの結果は、以前報告した教師付きアプローチよりも優れたパフォーマンスを示している。
様々なモデルの相互比較は、我々のアプローチの堅牢性を明らかにする。
モデルの性能は、実際の操作において複数のモデルの必要性を示す特徴パラメータに依存する。 A real-time stuck pipe prediction methodology is proposed in this paper. We assume early signs of stuck pipe to be apparent when the drilling data behavior deviates from that from normal drilling operations. The definition of normalcy changes with drill string configuration or geological conditions. Here, a depth-domain data representation is adopted to capture the localized normal behavior. Several models, based on auto-encoder and variational auto-encoders, are trained on regular drilling data extracted from actual drilling data. When the trained model is applied to data sets before stuck incidents, eight incidents showed large reconstruction errors. These results suggest better performance than the previously reported supervised approach. Inter-comparison of various models reveals the robustness of our approach. The model performance depends on the featured parameter suggesting the need for multiple models in actual operation. | 翻訳日:2023-02-23 16:27:55 公開日:2023-02-22 |
# 連続多要素量子秘密共有と量子会議キーアグリーメントの実験的研究 Experimental Demonstration of Sequential Multiparty Quantum Secret Sharing and Quantum Conference Key Agreement ( http://arxiv.org/abs/2302.11133v1 ) ライセンス: Link先を確認 | Shuaishuai Liu, Zhengguo Lu, Pu Wang, Yan Tian, Qing Lu, Xuyang Wang, Yongmin Li | (参考訳) 量子シークレット共有(QSS)と量子会議鍵契約(QCKA)は、将来の量子ネットワークの重要なコンポーネントであるマルチパーティ安全な通信を実現するための効率的な暗号化アプローチを提供する。
我々は,盗聴者や不正者に対してセキュアな,実用的でスケーラブルで検証可能な(k,n)しきい値のqssプロトコルを3つ提示する。
提案したQSSプロトコルは、全プレイヤーのレーザーソースとレーザー位相ロックを作成する各プレイヤーの必要性を排除する。
ディーラーはパラメータ評価を実装し、他のプレイヤーとの協力なしに各プレイヤーの秘密情報を取得することができる。
提案するQSSシステムの安全性を,トロイの木馬攻撃,信頼できない震源強度変動,信頼できない騒音源を用いて検討した。
当社のQSSシステムは汎用的であり、従来の後処理を変更するだけでQCKAプロトコルをサポートし、基盤となるハードウェアアーキテクチャを変更する必要はない。
25 km (55 km) のシングルモードファイバでQSSおよびQCKAプロトコルを実験的に実装し, パルスあたり0.0061 (7.14*10^-4) ビットのキーレートを実現する。
私たちの研究は、将来のqssとqckaの実践的応用への道を開くものです。 Quantum secret sharing (QSS) and quantum conference key agreement (QCKA) provide efficient encryption approaches for realizing multi-party secure communication, which are essential components of future quantum networks. We present three practical, scalable, verifiable (k, n) threshold QSS protocols that are secure against eavesdroppers and dishonest players. The proposed QSS protocols eliminate the need for each player preparing the laser source and laser phase locking of the overall players. The dealer can implement the parameter evaluation and get the secret information of each player without the cooperation from other players. We consider the practical security of the proposed QSS systems with Trojan-horse attack, untrusted source intensity fluctuating and untrusted noisy sources. Our QSS systems are versatile, they can support the QCKA protocol by only modifying the classic post-processing and requiring no changes to the underlying hardware architecture. We experimentally implement the QSS and QCKA protocol with five parties over 25 km (55 km) single mode fibers, and achieve a key rate of 0.0061 (7.14*10^-4) bits per pulse. Our work paves the way for the practical applications of future QSS and QCKA. | 翻訳日:2023-02-23 16:27:44 公開日:2023-02-22 |
# 終端雑音-ロバスト音声分離のためのグラディエント変調による音声強調と分離 Unifying Speech Enhancement and Separation with Gradient Modulation for End-to-End Noise-Robust Speech Separation ( http://arxiv.org/abs/2302.11131v1 ) ライセンス: Link先を確認 | Yuchen Hu, Chen Chen, Heqing Zou, Xionghu Zhong, Eng Siong Chng | (参考訳) ニューラルネットワークに基づく一音節音声分離(SS)の最近の研究は、長周期モデリングの能力の増大により顕著な成功を収めている。
しかし、背景雑音は話者の発声と誤認し、分離した音源を妨害する可能性があるため、現実的な雑音条件下において著しく劣化する。
この問題を軽減するために,音声の強調と分離を勾配変調で統一し,ノイズロス性を改善する新しいネットワークを提案する。
具体的には,音声強調(se)と分離モジュールを組み合わせた統一ネットワークを構築し,マルチタスク学習による最適化を行った。
さらに,雑音の低減に有効な話者情報の抑制を避けるため,SEタスクとSSタスクを最適化視点から調和させる勾配変調(GM)戦略を提案する。
実験の結果,大規模Libri2Mix-およびLibri3Mix-noisyデータセットではSI-SNRiが16.0dBおよび15.8dBであった。
私たちのコードはGitHubで入手可能です。 Recent studies in neural network-based monaural speech separation (SS) have achieved a remarkable success thanks to increasing ability of long sequence modeling. However, they would degrade significantly when put under realistic noisy conditions, as the background noise could be mistaken for speaker's speech and thus interfere with the separated sources. To alleviate this problem, we propose a novel network to unify speech enhancement and separation with gradient modulation to improve noise-robustness. Specifically, we first build a unified network by combining speech enhancement (SE) and separation modules, with multi-task learning for optimization, where SE is supervised by parallel clean mixture to reduce noise for downstream speech separation. Furthermore, in order to avoid suppressing valid speaker information when reducing noise, we propose a gradient modulation (GM) strategy to harmonize the SE and SS tasks from optimization view. Experimental results show that our approach achieves the state-of-the-art on large-scale Libri2Mix- and Libri3Mix-noisy datasets, with SI-SNRi results of 16.0 dB and 15.8 dB respectively. Our code is available at GitHub. | 翻訳日:2023-02-23 16:27:22 公開日:2023-02-22 |
# 結果測定誤差による反事実予測 Counterfactual Prediction Under Outcome Measurement Error ( http://arxiv.org/abs/2302.11121v1 ) ライセンス: Link先を確認 | Luke Guerdan, Amanda Coston, Kenneth Holstein, Zhiwei Steven Wu | (参考訳) 医学、雇用、刑事司法などの領域を越えて、予測モデルは、専門家や政策立案者に不完全な利益を反映するラベルを標的とすることが多い。
例えば、医師の意思決定を知らせるために展開される臨床リスク評価は、しばしば医療費(例えば、コスト、入院)を患者の医療ニーズの代案として予測する。
これらのプロキシは、測定を意図した目標結果と体系的に異なる結果測定誤差を受ける可能性がある。
しかしながら、結果測定誤差を特徴づけ、緩和するための事前モデリングは、モデルによって通知される決定が、しばしば利害の目標結果とその記録されたプロキシに影響を及ぼすリスク軽減の介入として機能するという事実を無視する。
したがって, 測定誤差に対処するには, 結果に対する処理効果の非現実的モデリングが必要である。
本研究では, 結果測定誤差, 治療効果, 選択バイアスを過去の意思決定方針から推定し, モデル信頼性への横断的脅威について検討した。
本研究では,プロキシ測定誤差特性の知識を前提として,これらの課題の複合効果を補正するリスク最小化手法を開発した。
また,治療依存性の測定誤差パラメータを事前に不明な場合に推定する手法を開発した。
提案手法の有効性を理論的に実証するとともに,医療領域や雇用領域で実施されたランダム化制御試験による実世界のデータを用いた実験を行った。
さらに, 結果測定誤差や治療効果を補正するモデルには, 信頼性にかなりの限界があることを示す。
本研究は,意思決定支援のための予測モデルの設計・評価において,モデル妥当性に対する横断的脅威を検討することの重要性を強調する。 Across domains such as medicine, employment, and criminal justice, predictive models often target labels that imperfectly reflect the outcomes of interest to experts and policymakers. For example, clinical risk assessments deployed to inform physician decision-making often predict measures of healthcare utilization (e.g., costs, hospitalization) as a proxy for patient medical need. These proxies can be subject to outcome measurement error when they systematically differ from the target outcome they are intended to measure. However, prior modeling efforts to characterize and mitigate outcome measurement error overlook the fact that the decision being informed by a model often serves as a risk-mitigating intervention that impacts the target outcome of interest and its recorded proxy. Thus, in these settings, addressing measurement error requires counterfactual modeling of treatment effects on outcomes. In this work, we study intersectional threats to model reliability introduced by outcome measurement error, treatment effects, and selection bias from historical decision-making policies. We develop an unbiased risk minimization method which, given knowledge of proxy measurement error properties, corrects for the combined effects of these challenges. We also develop a method for estimating treatment-dependent measurement error parameters when these are unknown in advance. We demonstrate the utility of our approach theoretically and via experiments on real-world data from randomized controlled trials conducted in healthcare and employment domains. As importantly, we demonstrate that models correcting for outcome measurement error or treatment effects alone suffer from considerable reliability limitations. Our work underscores the importance of considering intersectional threats to model validity during the design and evaluation of predictive models for decision support. | 翻訳日:2023-02-23 16:27:00 公開日:2023-02-22 |
# キャビティ内の2レベルおよび4レベル原子間の状態移動と絡み合い State Transfer and Entanglement between Two- and Four-Level Atoms in A Cavity ( http://arxiv.org/abs/2302.11112v1 ) ライセンス: Link先を確認 | Si-Wu Li, Tianfeng Feng, Xiao-Long Hu, Ze-Liang Xiang, Xiaoqi Zhou | (参考訳) 量子情報をホストする大きなヒルベルト空間を持つクイディットは、量子シミュレーションや量子計算など様々な用途で広く利用されているが、クイディットの操作と拡張性は依然として課題に直面している。
本稿では、複数の原子量子ビットから単一の量子ビットへ量子情報を直接的かつ局所的に転送し、その逆を光学空洞内で行う手法を提案する。
qubit-qudit相互作用により, 量子状態を効率的に, 測定独立的に伝達することができる。
さらに、このスキームは非局所の場合にも拡張でき、長距離量子通信を実現するために非対称な粒子数を持つ高次元の極大絡み合い状態を生成することができる。
このような量子ビットとquditの情報インターフェースは、ハイブリッド次元の量子システムに関する将来の研究において、啓蒙的な意味を持つかもしれない。 Qudits with a large Hilbert space to host quantum information are widely utilized in various applications, such as quantum simulation and quantum computation, but the manipulation and scalability of qudits still face challenges. Here, we propose a scheme to directly and locally transfer quantum information from multiple atomic qubits to a single qudit and vice versa in an optical cavity. With the qubit-qudit interaction, our scheme can transfer quantum states efficiently and measurement-independently. In addition, this scheme can be extended to the non-local case, where a high-dimensional maximal entangled state with asymmetric particle numbers can be robustly generated for realizing long-distance quantum communication. Such an information interface for qubits and qudit may have enlightening significance for future research on quantum systems in hybrid dimensions. | 翻訳日:2023-02-23 16:26:34 公開日:2023-02-22 |
# 低レイテンシ説明可能なAIのための積分勾配における不均一補間 Non-Uniform Interpolation in Integrated Gradients for Low-Latency Explainable-AI ( http://arxiv.org/abs/2302.11107v1 ) ライセンス: Link先を確認 | Ashwin Bhat, Arijit Raychowdhury | (参考訳) ディープニューラルネットワーク(DNN)モデルの動作に関する洞察を提供する、説明可能なAI(XAI)メソッドが急増している。
IG(Integrated Gradients)は、モデル出力へのコントリビューションと相反する入力特徴に関連性スコアを属性付けるXAIアルゴリズムである。
しかし、モデルを通過するには複数の前進および後進が必要である。
したがって、単一のフォワードパス推論と比較して、リアルタイムxaiを妨げる説明を生成するための計算上のオーバーヘッドは大きい。
本研究は、ハードウェア対応アルゴリズム最適化によるIGの高速化による上記の問題に対処する。
ベースラインの一様補間を置き換えるIG属性スコアを計算するための,新しい一様補間手法を提案する。
本アルゴリズムは,収束に悪影響を及ぼすことなく,必要な補間ステップを著しく削減する。
事前トレーニングされたInceptionV3モデルを用いたImageNetデータセットの実験では、同値収束のためのGPUシステム上でのパフォーマンスの高速化が実証されている。
これには、非一様補間ステップサイズを計算する前処理段階によって導入された最小の \textit{0.2-3.2}\% 遅延オーバーヘッドが含まれる。 There has been a surge in Explainable-AI (XAI) methods that provide insights into the workings of Deep Neural Network (DNN) models. Integrated Gradients (IG) is a popular XAI algorithm that attributes relevance scores to input features commensurate with their contribution to the model's output. However, it requires multiple forward \& backward passes through the model. Thus, compared to a single forward-pass inference, there is a significant computational overhead to generate the explanation which hinders real-time XAI. This work addresses the aforementioned issue by accelerating IG with a hardware-aware algorithm optimization. We propose a novel non-uniform interpolation scheme to compute the IG attribution scores which replaces the baseline uniform interpolation. Our algorithm significantly reduces the total interpolation steps required without adversely impacting convergence. Experiments on the ImageNet dataset using a pre-trained InceptionV3 model demonstrate \textit{2.6-3.6}$\times$ performance speedup on GPU systems for iso-convergence. This includes the minimal \textit{0.2-3.2}\% latency overhead introduced by the pre-processing stage of computing the non-uniform interpolation step-sizes. | 翻訳日:2023-02-23 16:26:20 公開日:2023-02-22 |
# 乳房質量検出のためのマルチヘッド特徴ピラミッドネットワーク Multi-Head Feature Pyramid Networks for Breast Mass Detection ( http://arxiv.org/abs/2302.11106v1 ) ライセンス: Link先を確認 | Hexiang Zhang, Zhenghua Xu, Dan Yao, Shuo Zhang, Junyang Chen, Thomas Lukasiewicz | (参考訳) X線画像解析は乳癌を診断する主要なツールの1つである。
大量の画像データから塊の位置を迅速かつ正確に検出する能力は、乳癌の病状と死亡率を減少させる鍵となる。
現在、乳房の質量検出の精度を制限している主な要因は、質量箱に不平等な焦点をあてることであり、ネットワークはより小さな質量を犠牲にしすぎている。
本稿では,MHFPN(Multi-head feature pyramid module)を提案し,特徴マップ融合時のターゲットボックスのアンバランスな焦点の問題を解決するとともに,マルチヘッド乳房マス検出ネットワーク(MBMDnet)を設計する。
実験では,SOTA検出ベースラインと比較して,一般的に使用されているINbreastデータセットでは6.58%(AP@50),5.4%(TPR@50),約6~8%(AP@20)の改善がMIASおよびBCS-DBTデータセットでは観測されている。 Analysis of X-ray images is one of the main tools to diagnose breast cancer. The ability to quickly and accurately detect the location of masses from the huge amount of image data is the key to reducing the morbidity and mortality of breast cancer. Currently, the main factor limiting the accuracy of breast mass detection is the unequal focus on the mass boxes, leading the network to focus too much on larger masses at the expense of smaller ones. In the paper, we propose the multi-head feature pyramid module (MHFPN) to solve the problem of unbalanced focus of target boxes during feature map fusion and design a multi-head breast mass detection network (MBMDnet). Experimental studies show that, comparing to the SOTA detection baselines, our method improves by 6.58% (in AP@50) and 5.4% (in TPR@50) on the commonly used INbreast dataset, while about 6-8% improvements (in AP@20) are also observed on the public MIAS and BCS-DBT datasets. | 翻訳日:2023-02-23 16:26:04 公開日:2023-02-22 |
# 顔の毛髪属性学習のための論理的一貫性と記述力 Logical Consistency and Greater Descriptive Power for Facial Hair Attribute Learning ( http://arxiv.org/abs/2302.11102v1 ) ライセンス: Link先を確認 | Haiyu Wu, Grace Bezold, Aman Bhatta, Kevin W. Bowyer | (参考訳) 顔属性の研究は、これまで顔の毛髪の単純な二分属性のみを使用してきた。
我々は、新しい、より記述的な顔の毛髪アノテーションスキームを作成し、新しい顔の毛髪属性データセットFH37Kを作成しました。
顔属性の研究は、論理的な一貫性と完全性も扱っていない。
例えば、以前の研究では、画像はひげのないものとヤギひげ(あごひげの一種)を持つものの両方に分類される。
顔毛属性分類における従来の分類法の検査精度は,分類の論理的一貫性を強制すると有意に低下することが示された。
本稿では,属性間の論理整合性の学習を支援する論理一貫性予測損失lcplossと,関連する属性群間での正の予測を不要にするラベル補償トレーニング戦略を提案する。
FH37Kで訓練された属性分類器を用いて,顔の毛髪が顔の認識精度にどう影響するかを検討した。
その結果, 顔の髪型の違いと類似性は, 顔認識におけるインポスタ, 真の得点分布に重要な影響を及ぼすことがわかった。 Face attribute research has so far used only simple binary attributes for facial hair; e.g., beard / no beard. We have created a new, more descriptive facial hair annotation scheme and applied it to create a new facial hair attribute dataset, FH37K. Face attribute research also so far has not dealt with logical consistency and completeness. For example, in prior research, an image might be classified as both having no beard and also having a goatee (a type of beard). We show that the test accuracy of previous classification methods on facial hair attribute classification drops significantly if logical consistency of classifications is enforced. We propose a logically consistent prediction loss, LCPLoss, to aid learning of logical consistency across attributes, and also a label compensation training strategy to eliminate the problem of no positive prediction across a set of related attributes. Using an attribute classifier trained on FH37K, we investigate how facial hair affects face recognition accuracy, including variation across demographics. Results show that similarity and difference in facial hairstyle have important effects on the impostor and genuine score distributions in face recognition. | 翻訳日:2023-02-23 16:25:43 公開日:2023-02-22 |
# 予測から学ぶ:長期時空間予測のための学習と自己回帰推論 Learning from Predictions: Fusing Training and Autoregressive Inference for Long-Term Spatiotemporal Forecasts ( http://arxiv.org/abs/2302.11101v1 ) ライセンス: Link先を確認 | Pantelis R. Vlachas, Petros Koumoutsakos | (参考訳) リカレントニューラルネットワーク(Recurrent Neural Networks, RNN)は、自然言語処理や乱流流体などの高次元力学系におけるモデリングおよび予測フレームワークの不可欠な部分となっている。
予測精度を向上させるため、予測損失を最小限に抑えるために、BPTT法を用いてRNNを訓練する。
テスト中、RNNは、ネットワークの出力が入力にフィードバックされる自動回帰シナリオでしばしば使用される。
しかし、ネットワークは自身の予測ではなく地上データを受け取るように訓練されたため、これは露出バイアス効果をもたらす可能性がある。
このトレーニングとテストのミスマッチは、状態分布が異なる場合に複合化され、列車とテストの損失を測定する。
これに対処するために、以前の研究では確率的予測を伴う言語処理ネットワークのソリューションを提案している。
そこで本研究では,複雑なシステムを予測するための自己回帰型bpttアルゴリズムを提案する。
以上の結果から,BPTT-SAは畳み込みRNNと畳み込みオートエンコーダRNNの反復的誤り伝播を効果的に低減し,高次元流れの長期予測に有効であることを示す。 Recurrent Neural Networks (RNNs) have become an integral part of modeling and forecasting frameworks in areas like natural language processing and high-dimensional dynamical systems such as turbulent fluid flows. To improve the accuracy of predictions, RNNs are trained using the Backpropagation Through Time (BPTT) method to minimize prediction loss. During testing, RNNs are often used in autoregressive scenarios where the output of the network is fed back into the input. However, this can lead to the exposure bias effect, as the network was trained to receive ground-truth data instead of its own predictions. This mismatch between training and testing is compounded when the state distributions are different, and the train and test losses are measured. To address this, previous studies have proposed solutions for language processing networks with probabilistic predictions. Building on these advances, we propose the Scheduled Autoregressive BPTT (BPTT-SA) algorithm for predicting complex systems. Our results show that BPTT-SA effectively reduces iterative error propagation in Convolutional RNNs and Convolutional Autoencoder RNNs, and demonstrate its capabilities in long-term prediction of high-dimensional fluid flows. | 翻訳日:2023-02-23 16:25:25 公開日:2023-02-22 |
# 六方晶窒化ホウ素のスピン欠陥による量子センシングとイメージング Quantum sensing and imaging with spin defects in hexagonal boron nitride ( http://arxiv.org/abs/2302.11169v1 ) ライセンス: Link先を確認 | Sumukh Vaidya, Xingyu Gao, Saakshi Dikshit, Igor Aharonovich, Tongcang Li | (参考訳) 六方晶窒化ホウ素(hbn)のカラーセンターは、量子応用の新しい波の候補として最近登場した。
hBNの高安定性と2次元(2次元)層構造のおかげで、hBNのカラーセンターは、チップ上のナノフォトニック構造やプラズモン構造に容易に統合できる堅牢な量子エミッタとして機能する。
さらに重要なことに、hBNで最近発見された光学的に対応可能なスピン欠陥は、量子センシング応用のための光子と電子スピンの間の量子インターフェースを提供する。
これまでに最もよく研究されたhBNスピン欠陥(負電荷のホウ素空孔(V_B^-$)スピン欠陥)は、静磁場、スピン変動による磁気ノイズ、温度、ひずみ、核スピン、RF信号などの量子センシングに用いられている。
特に、スピン欠陥を持つhbnナノシートは、2d磁気や他の材料によるファンデルワールス(vdw)ヘテロ構造を形成し、in situ量子センシングやイメージングを行うことができる。
このレビューは、hbnにスピン欠陥を持つナノスケールおよびマイクロスケール量子センシングの急速に発展する分野を要約する。
我々は、hBNスピン欠陥の基礎的性質、量子センシングプロトコル、およびhBNスピン欠陥を用いた量子センシングとイメージングの最近の実験的実証を紹介する。
また,感度向上手法についても論じる。
最後に、hBNスピン欠陥の潜在的な発展と応用を想定する。 Color centers in hexagonal boron nitride (hBN) have recently emerged as promising candidates for a new wave of quantum applications. Thanks to hBN's high stability and 2-dimensional (2D) layered structure, color centers in hBN can serve as robust quantum emitters that can be readily integrated into nanophotonic and plasmonic structures on a chip. More importantly, the recently discovered optically addressable spin defects in hBN provide a quantum interface between photons and electron spins for quantum sensing applications. The most well-studied hBN spin defects so far, the negatively charged boron vacancy ($V_B^-$) spin defects, have been used for quantum sensing of static magnetic fields, magnetic noise due to spin fluctuations, temperature, strain, nuclear spins, RF signals, and beyond. In particular, hBN nanosheets with spin defects can form van der Waals (vdW) heterostructures with 2D magnetic or other materials for in situ quantum sensing and imaging. This review summarizes the rapidly evolving field of nanoscale and microscale quantum sensing with spin defects in hBN. We introduce basic properties of hBN spin defects, quantum sensing protocols, and recent experimental demonstrations of quantum sensing and imaging with hBN spin defects. We also discuss methods to improve their sensitivity. Finally, we envision some potential development and applications of hBN spin defects. | 翻訳日:2023-02-23 16:18:57 公開日:2023-02-22 |
# dng:非ガウス空間上の内在的有向構造を探索する分類体系展開 DNG: Taxonomy Expansion by Exploring the Intrinsic Directed Structure on Non-Gaussian Space ( http://arxiv.org/abs/2302.11165v1 ) ライセンス: Link先を確認 | Songlin Zhai, Weiqing Wang, Yuanfang Li, Yuan Meng | (参考訳) 分類学の拡大は、多数の追加ノード(すなわち「クエリ」)を既存の分類学(すなわち「種」)に組み込むプロセスであり、最も重要なステップはクエリごとに適切な位置を選択することである。
種子の構造を探索することで多大な努力がなされている。
しかし、既存のアプローチは、階層的意味論の貧弱なモデリングと、is-a関係の方向性を捉えない2つの方法で構造情報のマイニングに不足している。
本稿では,各ノードに継承された特徴(構造部分)と漸進的特徴(補足部分)の組合せとして明示的に記述することで,これらの問題に対処する。
具体的には、継承された特徴は「親」ノードに由来し、継承因子によって重み付けされる。
このノード表現では、分類学における意味論の階層構造(つまり「親」から「子」への特徴の継承と蓄積)が具体化できる。
さらに、この表現に基づいて、is-a関係の方向性は、特徴の不可逆的な継承に容易に変換できる。
Darmois-Skitovich Theoremに触発されて、補足的特徴に対する非ガウス的制約により、この可逆性を実装した。
対数様学習の目的をさらに活用して提案したモデル(DNG)を最適化し,非ガウス性も理論的に保証する。
2つの実世界のデータセットの大規模な実験結果は、いくつかの強いベースラインと比較してDNGの優位性を検証する。 Taxonomy expansion is the process of incorporating a large number of additional nodes (i.e., "queries") into an existing taxonomy (i.e., "seed"), with the most important step being the selection of appropriate positions for each query. Enormous efforts have been made by exploring the seed's structure. However, existing approaches are deficient in their mining of structural information in two ways: poor modeling of the hierarchical semantics and failure to capture directionality of is-a relation. This paper seeks to address these issues by explicitly denoting each node as the combination of inherited feature (i.e., structural part) and incremental feature (i.e., supplementary part). Specifically, the inherited feature originates from "parent" nodes and is weighted by an inheritance factor. With this node representation, the hierarchy of semantics in taxonomies (i.e., the inheritance and accumulation of features from "parent" to "child") could be embodied. Additionally, based on this representation, the directionality of is-a relation could be easily translated into the irreversible inheritance of features. Inspired by the Darmois-Skitovich Theorem, we implement this irreversibility by a non-Gaussian constraint on the supplementary feature. A log-likelihood learning objective is further utilized to optimize the proposed model (dubbed DNG), whereby the required non-Gaussianity is also theoretically ensured. Extensive experimental results on two real-world datasets verify the superiority of DNG relative to several strong baselines. | 翻訳日:2023-02-23 16:18:36 公開日:2023-02-22 |
# V1のスパース・幾何学的オートエンコーダモデル Sparse, Geometric Autoencoder Models of V1 ( http://arxiv.org/abs/2302.11162v1 ) ライセンス: Link先を確認 | Jonathan Huml, Abiy Tasissa, Demba Ba | (参考訳) 古典的なスパース符号化モデルは、視覚刺激を、自然画像データで訓練されたときにガボルのような一握りの学習基底関数の線形結合として表現する。
しかし、古典的なスパース符号化によって学習されたGaborライクなフィルタは、十分に調整された単純な細胞受容野(SCRF)プロファイルをはるかに過度に予測する。
その後の多くのモデルでは、スパース辞書学習フレームワークを完全に廃止するか、あるいは未登録のニューラルネットワーク辞書学習アーキテクチャの急増を生かしていない。
これらの更新で欠けている重要なテーマは、より強固な概念である \emph{structured sparsity}である。
本研究では, 潜在表現が暗黙的に, スペクトルクラスタリングのために局所的に整理され, 観察された霊長類データによくマッチする人工ニューロンを得るオートエンコーダアーキテクチャを提案する。
オートエンコーダ対象関数の重み付き$$\ell_1$ (WL)制約はスパースコーディングフレームワークの中核的な概念を維持できるが、将来の作業における差別的階層の観点から、受容的フィールドの微分を記述するための有望な経路も提供する。 The classical sparse coding model represents visual stimuli as a linear combination of a handful of learned basis functions that are Gabor-like when trained on natural image data. However, the Gabor-like filters learned by classical sparse coding far overpredict well-tuned simple cell receptive field (SCRF) profiles. A number of subsequent models have either discarded the sparse dictionary learning framework entirely or have yet to take advantage of the surge in unrolled, neural dictionary learning architectures. A key missing theme of these updates is a stronger notion of \emph{structured sparsity}. We propose an autoencoder architecture whose latent representations are implicitly, locally organized for spectral clustering, which begets artificial neurons better matched to observed primate data. The weighted-$\ell_1$ (WL) constraint in the autoencoder objective function maintains core ideas of the sparse coding framework, yet also offers a promising path to describe the differentiation of receptive fields in terms of a discriminative hierarchy in future work. | 翻訳日:2023-02-23 16:18:10 公開日:2023-02-22 |
# BUAA_BIGSCity:Baidu KDD CUP 2022における風力発電予測のための時空間グラフニューラルネットワーク BUAA_BIGSCity: Spatial-Temporal Graph Neural Network for Wind Power Forecasting in Baidu KDD CUP 2022 ( http://arxiv.org/abs/2302.11159v1 ) ライセンス: Link先を確認 | Jiawei Jiang, Chengkai Han, Jingyuan Wang | (参考訳) 本稿では,Baidu KDD Cup 2022 Space Dynamic Wind Power Forecasting Challengeについて述べる。
風力発電はクリーンエネルギーの急速な成長源である。
グリッドの安定性と供給の安全性には正確な風力予測が不可欠である。
そのため、組織は134基の風力タービンの履歴データを含む風力データセットを提供し、現在の風力予測方法の限界を調べるためにBaidu KDD Cup 2022をローンチする。
評価スコアはRMSE(Root Mean Square Error)とMAE(Mean Absolute Error)の平均値を用いる。
我々は2つの時空間グラフニューラルネットワークモデル、すなわちAGCRNとMTGNNを基本モデルとして採用する。
AGCRNを5倍のクロスバリデーションでトレーニングし、MTGNNをトレーニングと検証セットで直接トレーニングする。
最後に,検証セットの損失値に基づく2つのモデルを最終提案としてアンサンブルする。
我々のチーム \team はテストセットで -45.36026 を達成する。
私たちはGithub(https://github.com/BUAABIGSCity/KDDCUP2022)でコードを公開しています。 In this technical report, we present our solution for the Baidu KDD Cup 2022 Spatial Dynamic Wind Power Forecasting Challenge. Wind power is a rapidly growing source of clean energy. Accurate wind power forecasting is essential for grid stability and the security of supply. Therefore, organizers provide a wind power dataset containing historical data from 134 wind turbines and launch the Baidu KDD Cup 2022 to examine the limitations of current methods for wind power forecasting. The average of RMSE (Root Mean Square Error) and MAE (Mean Absolute Error) is used as the evaluation score. We adopt two spatial-temporal graph neural network models, i.e., AGCRN and MTGNN, as our basic models. We train AGCRN by 5-fold cross-validation and additionally train MTGNN directly on the training and validation sets. Finally, we ensemble the two models based on the loss values of the validation set as our final submission. Using our method, our team \team achieves -45.36026 on the test set. We release our codes on Github (https://github.com/BUAABIGSCity/KDDCUP2022) for reproduction. | 翻訳日:2023-02-23 16:17:49 公開日:2023-02-22 |
# FiNER:ファイナンシャルネーム付きエンティティ認識データセットと弱スーパービジョンモデル FiNER: Financial Named Entity Recognition Dataset and Weak-Supervision Model ( http://arxiv.org/abs/2302.11157v1 ) ライセンス: Link先を確認 | Agam Shah, Ruchit Vithani, Abhinav Gullapalli, Sudheer Chava | (参考訳) 21世紀の注釈付きデータセットの開発は、ディープラーニングのパワーを真に実現するのに役立ちました。
名前付き認識(NER)タスクのために作成されたデータセットのほとんどはドメイン固有ではない。
ファイナンス ドメインはnerタスクに特定の課題を示し、ドメイン固有のデータセットはファイナンス研究の境界を押し上げるのに役立つでしょう。
そこで本研究では,金融分野を対象とした高品質なNERデータセットを開発した。
データセットのベンチマークを設定するために、NERタスクのための弱いスーパービジョンベースのフレームワークを開発し、テストする。
現在の弱いスーパービジョンフレームワークを拡張して、スパンレベルの分類に使用できるようにします。
私たちの弱いフレームワークとデータセットはgithubで公開されています。 The development of annotated datasets over the 21st century has helped us truly realize the power of deep learning. Most of the datasets created for the named-entity-recognition (NER) task are not domain specific. Finance domain presents specific challenges to the NER task and a domain specific dataset would help push the boundaries of finance research. In our work, we develop the first high-quality NER dataset for the finance domain. To set the benchmark for the dataset, we develop and test a weak-supervision-based framework for the NER task. We extend the current weak-supervision framework to make it employable for span-level classification. Our weak-ner framework and the dataset are publicly available on GitHub and Hugging Face. | 翻訳日:2023-02-23 16:17:34 公開日:2023-02-22 |
# オープンドメインビジュアルエンティティ認識 : 数百万のウィキペディアエンティティ認識を目指して Open-domain Visual Entity Recognition: Towards Recognizing Millions of Wikipedia Entities ( http://arxiv.org/abs/2302.11154v1 ) ライセンス: Link先を確認 | Hexiang Hu, Yi Luan, Yang Chen, Urvashi Khandelwal, Mandar Joshi, Kenton Lee, Kristina Toutanova, Ming-Wei Chang | (参考訳) CLIPやPaLIのような大規模マルチモーダル事前学習モデルは、様々な視覚領域やタスクに対して強力な一般化を示す。
しかし、既存の画像分類ベンチマークでは、特定の領域(例えば、屋外画像)や特定のタスク(例えば、植物種を分類するなど)に対する認識を評価し、事前訓練された基礎モデルが普遍的な視覚的認識者であるかどうかを評価するには不十分である。
これに対処するために,open-domain visual entity recognition(oven)というタスクを正式に提示する。
我々はOVEN-Wikiを構築し、14の既存のデータセットを再取得し、すべてのラベルを1つのラベル空間、すなわちWikipediaエンティティを基盤とした。
OVENは、600万の可能なウィキペディアエンティティの中からモデルを選択するよう挑戦し、最大数のラベルを持つ一般的な視覚認識ベンチマークとなる。
最先端の事前学習モデルに関する研究により,大規模ラベル空間に一般化した大きなヘッドルームが明らかになった。
私たちは、微調整中に見たことのないWikipediaのエンティティでも、PaLIベースの自動回帰視覚認識モデルが驚くほどうまく機能していることを示します。
PaLIベースのモデルでは全体的なパフォーマンスが向上する一方、CLIPベースのモデルはテールエンティティを認識するのに優れている。 Large-scale multi-modal pre-training models such as CLIP and PaLI exhibit strong generalization on various visual domains and tasks. However, existing image classification benchmarks often evaluate recognition on a specific domain (e.g., outdoor images) or a specific task (e.g., classifying plant species), which falls short of evaluating whether pre-trained foundational models are universal visual recognizers. To address this, we formally present the task of Open-domain Visual Entity recognitioN (OVEN), where a model need to link an image onto a Wikipedia entity with respect to a text query. We construct OVEN-Wiki by re-purposing 14 existing datasets with all labels grounded onto one single label space: Wikipedia entities. OVEN challenges models to select among six million possible Wikipedia entities, making it a general visual recognition benchmark with the largest number of labels. Our study on state-of-the-art pre-trained models reveals large headroom in generalizing to the massive-scale label space. We show that a PaLI-based auto-regressive visual recognition model performs surprisingly well, even on Wikipedia entities that have never been seen during fine-tuning. We also find existing pretrained models yield different strengths: while PaLI-based models obtain higher overall performance, CLIP-based models are better at recognizing tail entities. | 翻訳日:2023-02-23 16:17:25 公開日:2023-02-22 |
# フェデレーション学習におけるマルチメッセージシャッフルプライバシー Multi-Message Shuffled Privacy in Federated Learning ( http://arxiv.org/abs/2302.11152v1 ) ライセンス: Link先を確認 | Antonious M. Girgis and Suhas Diggavi | (参考訳) 通信制約下での離散的分散最適化について検討する。
最適化にSGDを使用するサーバは、分散平均推定(DME)を用いて、モデル更新のクライアント側局所勾配を集約する。
最近開発されたMMS(Multi-message shuffled)プライバシーフレームワークを用いて,通信効率の良いプライベートDMEを開発する。
提案するdme方式を解析し,(1)においてオープン質問を解決し,シャッフルモデルがセキュアアグリゲーションで得られたトレードオフを改善することができるかどうかを明らかにする。
これはまた、MMSモデルにおけるプライベートベクトル和の最適トレードオフに関するオープンな問題も解決する。
我々は、局所勾配ベクトルの異なる解像度で一様でないプライバシを割り当てる新しいプライバシメカニズムによって実現している。
これらの結果は、プライベート勾配集約を反復的に使用するプライベート分散学習アルゴリズムに保証を与えるために直接適用される。
また,プライベートDMEアルゴリズムの数値評価を行った。 We study differentially private distributed optimization under communication constraints. A server using SGD for optimization aggregates the client-side local gradients for model updates using distributed mean estimation (DME). We develop a communication-efficient private DME, using the recently developed multi-message shuffled (MMS) privacy framework. We analyze our proposed DME scheme to show that it achieves the order-optimal privacy-communication-performance tradeoff resolving an open question in [1], whether the shuffled models can improve the tradeoff obtained in Secure Aggregation. This also resolves an open question on the optimal trade-off for private vector sum in the MMS model. We achieve it through a novel privacy mechanism that non-uniformly allocates privacy at different resolutions of the local gradient vectors. These results are directly applied to give guarantees on private distributed learning algorithms using this for private gradient aggregation iteratively. We also numerically evaluate the private DME algorithms. | 翻訳日:2023-02-23 16:16:59 公開日:2023-02-22 |
# 信号処理と機械学習のための確率的近似 Stochastic Approximation Beyond Gradient for Signal Processing and Machine Learning ( http://arxiv.org/abs/2302.11147v1 ) ライセンス: Link先を確認 | Aymeric Dieuleveut, Gersende Fort, Eric Moulines, Hoi-To Wai | (参考訳) 確率近似(英: stochastic approximation、sa)は、不確実性を伴う大量のデータを扱う必要性から、信号処理や機械学習に大きな影響を与えた古典的なアルゴリズムである。
SAの典型例は、多くの重要な応用の背後にある作業馬である一般的な確率的(部分)漸進的アルゴリズムに関するものである。
あまり知られていない事実として、saスキームは圧縮確率勾配、確率的期待最大化、強化学習アルゴリズムなど非確率的勾配アルゴリズムにも拡張されている。
本論文の目的は,saアルゴリズムの設計指針を提示することで,信号処理と機械学習のオーディエンスに対して,saの非統計的漸進的視点を概観し,紹介することである。
我々の中心的なテーマは、非漸近的および漸近的収束結果を含むsaの既存の理論を統一する一般的な枠組みを提案し、人気のある非確率的勾配アルゴリズムへの応用を示すことである。
我々は,様々な軽度条件を満たすリアプノフ関数のクラスに基づく解析フレームワークを構築した。
Lyapunov関数が滑らか、凸、あるいは強い凸である場合、非確率階数アルゴリズムとシナリオの間の接続を描く。
上記の枠組みを用いて、具体例を用いて非確率階調アルゴリズムの収束特性を説明する。
サンプルの複雑さを改善するための分散低減技術の拡張についても論じる。 Stochastic approximation (SA) is a classical algorithm that has had since the early days a huge impact on signal processing, and nowadays on machine learning, due to the necessity to deal with a large amount of data observed with uncertainties. An exemplar special case of SA pertains to the popular stochastic (sub)gradient algorithm which is the working horse behind many important applications. A lesser-known fact is that the SA scheme also extends to non-stochastic-gradient algorithms such as compressed stochastic gradient, stochastic expectation-maximization, and a number of reinforcement learning algorithms. The aim of this article is to overview and introduce the non-stochastic-gradient perspectives of SA to the signal processing and machine learning audiences through presenting a design guideline of SA algorithms backed by theories. Our central theme is to propose a general framework that unifies existing theories of SA, including its non-asymptotic and asymptotic convergence results, and demonstrate their applications on popular non-stochastic-gradient algorithms. We build our analysis framework based on classes of Lyapunov functions that satisfy a variety of mild conditions. We draw connections between non-stochastic-gradient algorithms and scenarios when the Lyapunov function is smooth, convex, or strongly convex. Using the said framework, we illustrate the convergence properties of the non-stochastic-gradient algorithms using concrete examples. Extensions to the emerging variance reduction techniques for improved sample complexity will also be discussed. | 翻訳日:2023-02-23 16:16:43 公開日:2023-02-22 |
# GASP -- 状態準備のための遺伝的アルゴリズム GASP -- A Genetic Algorithm for State Preparation ( http://arxiv.org/abs/2302.11141v1 ) ライセンス: Link先を確認 | Floyd M. Creevey, Charles D. Hill, Lloyd C. L. Hollenberg | (参考訳) 量子状態の効率的な準備は多くの量子アルゴリズムの実行において重要なステップである。
ノイズの多い中間スケール量子(NISQ)コンピューティングの時代では、量子リソースが不足しているため、物理デバイスに実装できるのは低深さ量子回路のみである。
量子コンピュータを特定の量子状態に初期化するための比較的低深さの量子回路を生成するgasp(genetic algorithm for state prepared)を提案する。
この方法は、R_x、R_y、R_z、CNOTゲートの基底セットと、必要な忠実度にターゲット状態を合成する回路を系統的に生成する遺伝的アルゴリズムを用いる。
GASPは、他の方法よりも低い深さとゲート数で所定の精度でより効率的な回路を生成することができる。
必要な精度の可変性は、高精細回路のエラー蓄積を避けることができるため、実装の全体的な精度を高める。
ノイズを模擬したIBM Qiskitで実装し,物理的IBM量子デバイス上で実装することで,この手法を正確な合成手法に基づく状態初期化手法と直接比較する。
GASPによって達成された結果は、ガウス状態やW状態などの様々な状態において、Qiskitの正確な一般回路合成法よりも優れており、量子回路がこれらの量子状態を生成するのに必要なゲート数を一貫して減少させることを示す。 The efficient preparation of quantum states is an important step in the execution of many quantum algorithms. In the noisy intermediate-scale quantum (NISQ) computing era, this is a significant challenge given quantum resources are scarce and typically only low-depth quantum circuits can be implemented on physical devices. We present a genetic algorithm for state preparation (GASP) which generates relatively low-depth quantum circuits for initialising a quantum computer in a specified quantum state. The method uses a basis set of R_x, R_y, R_z, and CNOT gates and a genetic algorithm to systematically generate circuits to synthesize the target state to the required fidelity. GASP can produce more efficient circuits of a given accuracy with lower depth and gate counts than other methods. This variability of the required accuracy facilitates overall higher accuracy on implementation, as error accumulation in high-depth circuits can be avoided. We directly compare the method to the state initialisation technique based on an exact synthesis technique by implemented in IBM Qiskit simulated with noise and implemented on physical IBM Quantum devices. Results achieved by GASP outperform Qiskit's exact general circuit synthesis method on a variety of states such as Gaussian states and W-states, and consistently show the method reduces the number of gates required for the quantum circuits to generate these quantum states to the required accuracy. | 翻訳日:2023-02-23 16:16:19 公開日:2023-02-22 |
# 複数の可換エルミート行列の関数に対する量子アルゴリズム A Quantum Algorithm for Functions of Multiple Commuting Hermitian Matrices ( http://arxiv.org/abs/2302.11139v1 ) ライセンス: Link先を確認 | Yonah Borns-Weil, Tahsin Saffat, Zachary Stier | (参考訳) 量子信号処理は、入力ベクトルの各固有空間成分がその固有値に従って変換されるエルミート行列による量子固有値変換を可能にする。
本研究では,エルミート行列の交換関数に対する多変量量子固有値変換を導入する。
次に、MQETを解く多項式行列関数を扱うためのフレームワークを提案し、量子コンピュータを用いて正規行列の計算関数を適用する。 Quantum signal processing allows for quantum eigenvalue transformation with Hermitian matrices, in which each eigenspace component of an input vector gets transformed according to its eigenvalue. In this work, we introduce the multivariate quantum eigenvalue transformation for functions of commuting Hermitian matrices. We then present a framework for working with polynomial matrix functions in which we may solve MQET, and give the application of computing functions of normal matrices using a quantum computer. | 翻訳日:2023-02-23 16:15:54 公開日:2023-02-22 |
# 拡張データに有効なラベルは何か?
AutoLabelによるキャリブレーションとロバストネスの改善 What Are Effective Labels for Augmented Data? Improving Calibration and Robustness with AutoLabel ( http://arxiv.org/abs/2302.11188v1 ) ライセンス: Link先を確認 | Yao Qin, Xuezhi Wang, Balaji Lakshminarayanan, Ed H. Chi and Alex Beutel | (参考訳) ニューラルネットワークの精度と一般化性能の両方を改善するために、幅広い研究がデータ拡張アプローチを考案した。
しかし、強化されたデータはクリーンなトレーニングデータから遠く離れており、適切なラベルは明らかになっていない。
それにもかかわらず、既存のほとんどの作業は、単に1ホットラベルを拡張データに使用しています。
本稿では,高歪みデータに対する1ホットラベルの再使用により,ノイズの追加や精度低下,校正のリスクが生じる可能性があることを示す。
これを軽減するために,クリーン分布と拡張分布の間の変換距離に基づいて,ラベルの信頼度を自動的に学習する汎用手法AutoLabelを提案する。
AutoLabelはラベルスムースに構築されており、キャリブレーション性能によって、ホールドアウト検証セット上でガイドされる。
私たちはAutoLabelを、最先端のRandAug、AugMix、敵のトレーニングという3つの異なるデータ拡張テクニックに適用することに成功しました。
CIFAR-10、CIFAR-100、ImageNetの実験では、AutoLabelはモデルのキャリブレーションや精度よりも既存のデータ拡張技術を大幅に改善している。 A wide breadth of research has devised data augmentation approaches that can improve both accuracy and generalization performance for neural networks. However, augmented data can end up being far from the clean training data and what is the appropriate label is less clear. Despite this, most existing work simply uses one-hot labels for augmented data. In this paper, we show re-using one-hot labels for highly distorted data might run the risk of adding noise and degrading accuracy and calibration. To mitigate this, we propose a generic method AutoLabel to automatically learn the confidence in the labels for augmented data, based on the transformation distance between the clean distribution and augmented distribution. AutoLabel is built on label smoothing and is guided by the calibration-performance over a hold-out validation set. We successfully apply AutoLabel to three different data augmentation techniques: the state-of-the-art RandAug, AugMix, and adversarial training. Experiments on CIFAR-10, CIFAR-100 and ImageNet show that AutoLabel significantly improves existing data augmentation techniques over models' calibration and accuracy, especially under distributional shift. | 翻訳日:2023-02-23 16:10:37 公開日:2023-02-22 |
# 最終層移植による脱バイアス蒸留 Debiased Distillation by Transplanting the Last Layer ( http://arxiv.org/abs/2302.11187v1 ) ライセンス: Link先を確認 | Jiwoon Lee, Jaeho Lee | (参考訳) 深いモデルは、処理後でさえも、スプリアス相関の学習に影響を受けやすい。
モデル圧縮のための一般的な後処理技術である知識蒸留を詳しく調べると、教師が嫌がらせを受けたとしても、バイアス付きトレーニングデータによる蒸留が偏見のある学生を生んでいることが分かる。
そこで本研究では,DeTT(Debiasing by Teacher Transplanting)という簡単な知識蒸留アルゴリズムを提案する。
DeTTは、最後の神経網層が脱バイアスにおいて圧倒的に重要な役割を果たすという最近の観察に触発され、教師の最後の層を直接生徒に移植する。
残層は、学生と教師のフィーチャーマップ出力にマッチして蒸留され、サンプルはデータセットバイアスを軽減するために重み付けされる。
重要なことに、dettはバイアス関連属性の広範なアノテーションが利用可能であることには依存していない。
我々の実験を通して、DeTTは学生モデルを脱臭し、最悪のグループ精度で一貫してベースラインを上回ります。 Deep models are susceptible to learning spurious correlations, even during the post-processing. We take a closer look at the knowledge distillation -- a popular post-processing technique for model compression -- and find that distilling with biased training data gives rise to a biased student, even when the teacher is debiased. To address this issue, we propose a simple knowledge distillation algorithm, coined DeTT (Debiasing by Teacher Transplanting). Inspired by a recent observation that the last neural net layer plays an overwhelmingly important role in debiasing, DeTT directly transplants the teacher's last layer to the student. Remaining layers are distilled by matching the feature map outputs of the student and the teacher, where the samples are reweighted to mitigate the dataset bias. Importantly, DeTT does not rely on the availability of extensive annotations on the bias-related attribute, which is typically not available during the post-processing phase. Throughout our experiments, DeTT successfully debiases the student model, consistently outperforming the baselines in terms of the worst-group accuracy. | 翻訳日:2023-02-23 16:10:17 公開日:2023-02-22 |
# UML:多言語ASRのための共通単言語出力層 UML: A Universal Monolingual Output Layer for Multilingual ASR ( http://arxiv.org/abs/2302.11186v1 ) ライセンス: Link先を確認 | Chao Zhang, Bo Li, Tara N. Sainath, Trevor Strohman, Shuo-yiin Chang | (参考訳) ワードピースモデル(wpms)は、最先端の自動音声認識(asr)システムで一般的に使用されるサブワード単位である。
言語間のスクリプトの相違により、多言語 ASR では、多言語 WPM は過度に大きな出力層を持ち、より多くの言語に拡張するという課題をもたらす。
本研究では,このような問題に対処するための共通単言語出力層(UML)を提案する。
1つのwpmのみの出力ノードの代わりに、umlは複数のwpmで各出力ノードを再結合し、言語毎に1つずつ、より小さな単言語出力層を言語間で共有する。
これにより、UMLは入力音声の言語によって各出力ノードの解釈を切り替えることができる。
11言語音声検索における実験結果から,高品質かつ高効率なマルチリンガルストリーミングASRにおけるUMLの有効性が示された。 Word-piece models (WPMs) are commonly used subword units in state-of-the-art end-to-end automatic speech recognition (ASR) systems. For multilingual ASR, due to the differences in written scripts across languages, multilingual WPMs bring the challenges of having overly large output layers and scaling to more languages. In this work, we propose a universal monolingual output layer (UML) to address such problems. Instead of one output node for only one WPM, UML re-associates each output node with multiple WPMs, one for each language, and results in a smaller monolingual output layer shared across languages. Consequently, the UML enables to switch in the interpretation of each output node depending on the language of the input speech. Experimental results on an 11-language voice search task demonstrated the feasibility of using UML for high-quality and high-efficiency multilingual streaming ASR. | 翻訳日:2023-02-23 16:10:00 公開日:2023-02-22 |
# 不等式制約による量子アニール--集合被覆問題 Quantum annealing with inequality constraints: the set cover problem ( http://arxiv.org/abs/2302.11185v1 ) ライセンス: Link先を確認 | Hristo N. Djidjev | (参考訳) 本稿では,量子アニーラの多重不等式制約を持つ集合被覆問題(scp)に対する2つの新しい解法を提案する。
第1の方法は拡張ラグランジアン法を用いて制約を表現し、第2の方法は高階バイナリ最適化(HUBO)を用いる。
D-Wave量子アニールの不等式制約の問題を解くために,両手法がスラック変数を用いた標準的な手法より優れていることを示す。
その結果,拡張ラグランジアン法は多種多様な不等式制約の実装に有効であり,SCP以外の幅広い制約問題に適用可能であることがわかった。
HUBOの定式化はSCPを解く際のラグランジアン法よりも若干優れているが、量子チップへの埋め込み性の観点からはスケーラビリティが低い。
これらの発見は、制約付き最適化問題の解決に量子アニールを用いることに影響を及ぼす可能性がある。 This paper presents two novel approaches for solving the set cover problem (SCP) with multiple inequality constraints on quantum annealers. The first method uses the augmented Lagrangian approach to represent the constraints, while the second method employs a higher-order binary optimization (HUBO) formulation. Our experimental analysis demonstrate that both approaches outperform the standard approach with slack variables for solving problems with inequality constraints on D-Wave quantum annealers. The results show that the augmented Lagrangian method can be successfully used to implement a large number of inequality constraints, making it applicable to a wide range of constrained problems beyond the SCP. The HUBO formulation performs slightly better than the augmented Lagrangian method in solving the SCP, but it is less scalable in terms of embeddability in the quantum chip. These findings could impact the use of quantum annealers for solving constrained optimization problems. | 翻訳日:2023-02-23 16:09:44 公開日:2023-02-22 |
# セグメンテーションに基づく知覚的損失微調整による医用画像超解像用高密度視覚変換器 A residual dense vision transformer for medical image super-resolution with segmentation-based perceptual loss fine-tuning ( http://arxiv.org/abs/2302.11184v1 ) ライセンス: Link先を確認 | Jin Zhu, Guang Yang and Pietro Lio | (参考訳) 超解像度は、追加の取得コストなしで高い空間解像度と画質を達成するための代替手段を提供するため、医療画像において重要な役割を果たす。
過去数十年間、ディープニューラルネットワークの急速な発展により、新しいネットワークアーキテクチャ、損失関数、評価メトリクスにより、超解像性能が向上した。
特に、視覚トランスフォーマーは幅広いコンピュータビジョンタスクを支配しているが、低レベルの医療画像処理タスクに適用する場合、まだ課題が存在する。
本稿では,集中的接続と局所的特徴融合を有する効率的な視覚変換器を提案し,医療的モダリティの効率的な単一画像超解像(sisr)を実現することを目的とした。
さらに,医用画像セグメンテーションの事前知識を取り入れて,手動制御による汎用的な知覚損失を所望の画質向上のために実装した。
4つの公開医用画像データセットの最先端手法と比較して,提案手法は7つのモダリティのうち6つのモダリティで最高のPSNRスコアを得る。
この結果、SwinIRのパラメータは38.%しかなく、$+0.09$ dB PSNRの平均的な改善につながった。
一方、セグメンテーションに基づく知覚的損失は、CNNや視覚変換器を含むSOTA法では、平均で$+0.14$dB PSNRが増加する。
さらに,cnn上での視覚トランスフォーマーの性能向上とネットワークおよび損失関数成分の影響について検討するため,包括的アブレーション研究を行った。 Super-resolution plays an essential role in medical imaging because it provides an alternative way to achieve high spatial resolutions and image quality with no extra acquisition costs. In the past few decades, the rapid development of deep neural networks has promoted super-resolution performance with novel network architectures, loss functions and evaluation metrics. Specifically, vision transformers dominate a broad range of computer vision tasks, but challenges still exist when applying them to low-level medical image processing tasks. This paper proposes an efficient vision transformer with residual dense connections and local feature fusion, aiming to achieve efficient single-image super-resolution (SISR) of medical modalities. Moreover, we implement a general-purpose perceptual loss with manual control for image quality improvements of desired aspects by incorporating prior knowledge of medical image segmentation. Compared with state-of-the-art methods on four public medical image datasets, the proposed method achieves the best PSNR scores of 6 modalities among seven modalities in total. It leads to an average improvement of $+0.09$ dB PSNR with only 38\% parameters of SwinIR. On the other hand, the segmentation-based perceptual loss increases $+0.14$ dB PSNR on average for SOTA methods, including CNNs and vision transformers. Additionally, we conduct comprehensive ablation studies to discuss potential factors for the superior performance of vision transformers over CNNs and the impacts of network and loss function components. | 翻訳日:2023-02-23 16:09:29 公開日:2023-02-22 |
# Combinatorial Thompson Smplingが近似レパートメントに出会ったとき When Combinatorial Thompson Sampling meets Approximation Regret ( http://arxiv.org/abs/2302.11182v1 ) ライセンス: Link先を確認 | Pierre Perrault | (参考訳) 我々は,多腕バンディット問題(cmab)に対する組合せトンプソンサンプリングポリシー(cts)を近似後悔設定で検討した。
ctsには多くの関心が寄せられているが、他のcmabポリシーは、非実効的なオラクルを考えるときに持っていないという欠点がある: いくつかのオラクルにとって、ctsは、(time horizon $t$で線形にスケールする)近似的な後悔が乏しい[wang and chen, 2018]。
CTSが学べるオラクルを識別するためには、研究が必要である。
この研究はKongらによって始められた。
[2021]: 彼らはグリーディオラクルに対するCTSの最初の近似的後悔解析を行い、位数$\mathcal{O}(\log(T)/\Delta^2)$の上限を得る。
本研究の目的は,本研究を強欲なオラクルの単純な場合よりも進めることである。
我々は、近似オラクルの特定の条件の下で得られた CTS に対して、最初の $\mathcal{O}(\log(T)/\Delta)$ approximation regret upperbound を提供する。
そこで我々は,この条件をREDUCE2EXACTと呼び,多くの具体例で満足していることを確認する。
さらに、確率的に引き起こされる腕の設定に拡張することができ、オンラインの影響最大化のようなさらに多くの問題を捉えることができる。 We study the Combinatorial Thompson Sampling policy (CTS) for combinatorial multi-armed bandit problems (CMAB), within an approximation regret setting. Although CTS has attracted a lot of interest, it has a drawback that other usual CMAB policies do not have when considering non-exact oracles: for some oracles, CTS has a poor approximation regret (scaling linearly with the time horizon $T$) [Wang and Chen, 2018]. A study is then necessary to discriminate the oracles on which CTS could learn. This study was started by Kong et al. [2021]: they gave the first approximation regret analysis of CTS for the greedy oracle, obtaining an upper bound of order $\mathcal{O}(\log(T)/\Delta^2)$, where $\Delta$ is some minimal reward gap. In this paper, our objective is to push this study further than the simple case of the greedy oracle. We provide the first $\mathcal{O}(\log(T)/\Delta)$ approximation regret upper bound for CTS, obtained under a specific condition on the approximation oracle, allowing a reduction to the exact oracle analysis. We thus term this condition REDUCE2EXACT, and observe that it is satisfied in many concrete examples. Moreover, it can be extended to the probabilistically triggered arms setting, thus capturing even more problems, such as online influence maximization. | 翻訳日:2023-02-23 16:09:07 公開日:2023-02-22 |
# DISCO: スパース通信による分散推論 DISCO: Distributed Inference with Sparse Communications ( http://arxiv.org/abs/2302.11180v1 ) ライセンス: Link先を確認 | Minghai Qin, Chao Sun, Jaco Hofmann, Dejan Vucinic | (参考訳) ディープニューラルネットワーク(DNN)は多くの現実世界の問題を解決する大きな可能性を持っているが、通常は大量の計算とメモリを必要とする。
メモリ容量の少ない単一のリソース制限デバイスに大規模なDNNモデルをデプロイすることは、非常に困難である。
分散コンピューティングは、単一ノードのメモリ消費を減らし、DNNモデルの推論を高速化するための一般的なアプローチである。
本稿では,各レイヤの推論を複数のノードに分散する「階層モデル並列化」について検討する。
このように、メモリ要求は多くのノードに分散することができ、複数のエッジデバイスを使用して大きなDNNモデルを推論することができる。
各層内の依存性のため、この並列推論の間のノード間のデータ通信は、通信帯域幅が制限された場合にボトルネックとなる可能性がある。
本稿では,分散推論のための DNN モデルをスパース通信 (DISCO) で学習するためのフレームワークを提案する。
ノード間で送信するデータのサブセットを選択する問題をモデル最適化問題に変換し、各レイヤが複数のノード上で推論された場合に、計算と通信の削減の両方を伴うモデルを導出する。
本稿では,画像分類,物体検出,意味セグメンテーション,画像超解像など,cvタスクにおけるdiscoフレームワークの利点を示す。
対応するモデルには、畳み込みやトランスフォーマーといった重要なDNNビルディングブロックが含まれる。
例えば、resnet-50モデルの各レイヤは、データ通信の5倍少ない2つのノードに分散的に推論され、ほぼ半分の計算と1つのノードに半分のメモリが必要となり、元のresnet-50モデルと同等の精度が得られる。
これにより、全体の推論速度が4.7倍になる。 Deep neural networks (DNNs) have great potential to solve many real-world problems, but they usually require an extensive amount of computation and memory. It is of great difficulty to deploy a large DNN model to a single resource-limited device with small memory capacity. Distributed computing is a common approach to reduce single-node memory consumption and to accelerate the inference of DNN models. In this paper, we explore the "within-layer model parallelism", which distributes the inference of each layer into multiple nodes. In this way, the memory requirement can be distributed to many nodes, making it possible to use several edge devices to infer a large DNN model. Due to the dependency within each layer, data communications between nodes during this parallel inference can be a bottleneck when the communication bandwidth is limited. We propose a framework to train DNN models for Distributed Inference with Sparse Communications (DISCO). We convert the problem of selecting which subset of data to transmit between nodes into a model optimization problem, and derive models with both computation and communication reduction when each layer is inferred on multiple nodes. We show the benefit of the DISCO framework on a variety of CV tasks such as image classification, object detection, semantic segmentation, and image super resolution. The corresponding models include important DNN building blocks such as convolutions and transformers. For example, each layer of a ResNet-50 model can be distributively inferred across two nodes with five times less data communications, almost half overall computations and half memory requirement for a single node, and achieve comparable accuracy to the original ResNet-50 model. This also results in 4.7 times overall inference speedup. | 翻訳日:2023-02-23 16:08:38 公開日:2023-02-22 |
# ランダムフーリエ特徴量の誤差推定 Error Estimation for Random Fourier Features ( http://arxiv.org/abs/2302.11174v1 ) ライセンス: Link先を確認 | Junwen Yao, N. Benjamin Erichson, Miles E. Lopes | (参考訳) ランダムフーリエ機能(rff)はカーネルメソッドをスケールアップするための最も広く適用可能なアプローチのひとつです。
基本的に、RFFは、高速なランダム化近似により、大きなカーネル行列上のコスト計算を避けることができる。
しかし,RFFの適用の難しさは,ユーザが実際の近似誤差や,この誤りが下流学習タスクにどのように伝播するかを知らないことである。
これまで、RFFの文献は理論的な誤り境界を用いてこれらの不確実性に対処してきたが、ユーザの視点からすると、そのような結果は一般的に非現実的であり、保守的で、未知の量である。
本稿では,これらの一般的な問題にデータ駆動方式で対処するため,RFF近似の誤差を数値的に推定するブートストラップ手法を開発した。
このアプローチの3つの大きな利点は、(1)エラー推定は問題に固有のものであり、最悪のケース境界の悲観を回避できる。
2) この手法はRFFの異なる用途に対して柔軟であり,下流学習タスクの誤りを推定することもできる。
(3) 本手法は適応計算を可能にし, 粗い初期カーネル近似の誤差を迅速に検査し, どれだけの余分な作業が必要かを予測する。
最後に、これらの利点の全てと引き換えに、誤差推定は控えめな計算コストで得ることができる。 Random Fourier Features (RFF) is among the most popular and broadly applicable approaches for scaling up kernel methods. In essence, RFF allows the user to avoid costly computations on a large kernel matrix via a fast randomized approximation. However, a pervasive difficulty in applying RFF is that the user does not know the actual error of the approximation, or how this error will propagate into downstream learning tasks. Up to now, the RFF literature has primarily dealt with these uncertainties using theoretical error bounds, but from a user's standpoint, such results are typically impractical -- either because they are highly conservative or involve unknown quantities. To tackle these general issues in a data-driven way, this paper develops a bootstrap approach to numerically estimate the errors of RFF approximations. Three key advantages of this approach are: (1) The error estimates are specific to the problem at hand, avoiding the pessimism of worst-case bounds. (2) The approach is flexible with respect to different uses of RFF, and can even estimate errors in downstream learning tasks. (3) The approach enables adaptive computation, so that the user can quickly inspect the error of a rough initial kernel approximation and then predict how much extra work is needed. Lastly, in exchange for all of these benefits, the error estimates can be obtained at a modest computational cost. | 翻訳日:2023-02-23 16:08:09 公開日:2023-02-22 |
# VI-DGP:高次元逆問題の解法における深部生成前の変分推論法 VI-DGP: A variational inference method with deep generative prior for solving high-dimensional inverse problems ( http://arxiv.org/abs/2302.11173v1 ) ライセンス: Link先を確認 | Yingzhi Xia, Qifeng Liao, Jinglai Li | (参考訳) 高次元ベイズ逆問題 (BIP) を変分推論 (VI) 法で解くことは有望であるが、それでも難しい。
主な困難は2つの側面から生じる。
第一にvi法は, 単純かつ解析的な変分分布を用いて後方分布を近似するので, 複雑な空間変動パラメータを実際に推定することは困難である。
第2に、VI法は通常勾配に基づく最適化に依存しており、偏微分方程式(PDE)を含むBIPに適用すると計算コストがかかるか、難解である。
これらの課題に対処するために,高次元後方分布を推定するための新しい近似法を提案する。
このアプローチでは、深層生成モデルを利用して、空間変動パラメータを生成することができる事前モデルを学ぶ。
これにより、複雑なパラメータの代わりに潜在変数に対する後続近似が可能となり、推定精度が向上する。
さらに, 勾配計算を高速化するために, 微分可能な物理制約付きサーロゲートモデルを用いて随伴法を置き換えた。
提案手法は自動微分方式で完全に実装できる。
数値例は不均質媒質中の流れに対する2種類のログ透過性推定を示す。
その結果,提案手法の有効性,精度,高効率性が示された。 Solving high-dimensional Bayesian inverse problems (BIPs) with the variational inference (VI) method is promising but still challenging. The main difficulties arise from two aspects. First, VI methods approximate the posterior distribution using a simple and analytic variational distribution, which makes it difficult to estimate complex spatially-varying parameters in practice. Second, VI methods typically rely on gradient-based optimization, which can be computationally expensive or intractable when applied to BIPs involving partial differential equations (PDEs). To address these challenges, we propose a novel approximation method for estimating the high-dimensional posterior distribution. This approach leverages a deep generative model to learn a prior model capable of generating spatially-varying parameters. This enables posterior approximation over the latent variable instead of the complex parameters, thus improving estimation accuracy. Moreover, to accelerate gradient computation, we employ a differentiable physics-constrained surrogate model to replace the adjoint method. The proposed method can be fully implemented in an automatic differentiation manner. Numerical examples demonstrate two types of log-permeability estimation for flow in heterogeneous media. The results show the validity, accuracy, and high efficiency of the proposed method. | 翻訳日:2023-02-23 16:07:45 公開日:2023-02-22 |
# マッチコメンタリーからの回帰モデルを実装するODIクリケットにおけるバッターの影響 Impact of a Batter in ODI Cricket Implementing Regression Models from Match Commentary ( http://arxiv.org/abs/2302.11172v1 ) ライセンス: Link先を確認 | Ahmad Al Asad, Kazi Nishat Anwar, Ilhum Zia Chowdhury, Akif Azam, Tarif Ashraf, Tanvir Rahman | (参考訳) クリケットは「紳士ゲーム」と呼ばれ、世界的に盛んなスポーツである。
スポーツの競争力の高まりにより、選手とチームマネジメントは彼らのアプローチでよりプロフェッショナルになった。
以前の研究では、個々のパフォーマンスを予測したり、最高のチームを選んだが、打者の可能性を強調しなかった。
一方,本研究は,様々な状況において選手のコントロールを考慮しつつ,選手の影響を評価することを目的としている。
本研究は,プレイヤーがどのような状況でどの程度コントロールしているかを判断し,新たな「エフェクティブラン」を発生させることによって,この影響のあるパフォーマンスの背景にある問題点を理解することを目的とする。
私たちはまず、オープンソースのデータセットから基本的なクリケットデータを収集しましたが、ピッチ、天気、コントロールといった変数は、すべてのマッチで簡単に利用できませんでした。
その結果,一致要約の注釈を分析し,コーパスデータをコンパイルした。
これにより、特定のゲームの天気とピッチ条件に関する洞察が得られました。
さらに,コメンタリーからのボール・バイ・ボール検査により,打者によるショットの制御が決定された。
私たちは2022年2月までのワンデイ・インターナショナルの全キャリアのデータを収集し、Rohit G Sharma、David A Warner、Kene S Williamsonの3人の著名なクリケット選手のデータを収集した。
最後に、データセットを準備するために、データセットをエンコード、スケール、分割して機械学習アルゴリズムをトレーニング、テストしました。
我々は、各プレイヤーのデータに対して、複数の線形回帰(MLR)、ポリノミアル回帰、サポートベクトル回帰(SVR)、決定木回帰、ランダムフォレスト回帰を個別に使用し、プレイヤーがゲームに与える影響を予測する。
多重線形回帰とランダムフォレストはそれぞれ90.16%と87.12%の最適予測精度を与える。 Cricket, "a Gentleman's Game", is a prominent sport rising worldwide. Due to the rising competitiveness of the sport, players and team management have become more professional with their approach. Prior studies predicted individual performance or chose the best team but did not highlight the batter's potential. On the other hand, our research aims to evaluate a player's impact while considering his control in various circumstances. This paper seeks to understand the conundrum behind this impactful performance by determining how much control a player has over the circumstances and generating the "Effective Runs",a new measure we propose. We first gathered the fundamental cricket data from open-source datasets; however, variables like pitch, weather, and control were not readily available for all matches. As a result, we compiled our corpus data by analyzing the commentary of the match summaries. This gave us an insight into the particular game's weather and pitch conditions. Furthermore, ball-by-ball inspection from the commentary led us to determine the control of the shots played by the batter. We collected data for the entire One Day International career, up to February 2022, of 3 prominent cricket players: Rohit G Sharma, David A Warner, and Kane S Williamson. Lastly, to prepare the dataset, we encoded, scaled, and split the dataset to train and test Machine Learning Algorithms. We used Multiple Linear Regression (MLR), Polynomial Regression, Support Vector Regression (SVR), Decision Tree Regression, and Random Forest Regression on each player's data individually to train them and predict the Impact the player will have on the game. Multiple Linear Regression and Random Forest give the best predictions accuracy of 90.16 percent and 87.12 percent, respectively. | 翻訳日:2023-02-23 16:07:25 公開日:2023-02-22 |
# 逆補間による実行可能リコース計画 Feasible Recourse Plan via Diverse Interpolation ( http://arxiv.org/abs/2302.11213v1 ) ライセンス: Link先を確認 | Duy Nguyen, Ngoc Bui, Viet Anh Nguyen | (参考訳) 機械学習アプリケーションでは、アルゴリズムによる決定の説明と実行可能なフィードバックの推奨がますます重要になっている。
近年、ユーザーの好みの広い範囲をカバーするための多様なリコースを見つけることに多大な努力が払われている。
しかし、既存の研究は、リコースがデータ多様体に近くなければならないという要求を無視することが多いため、構築されたリコースはユーザには不便で不満足であるかもしれない。
これらの問題に対処するため,我々はデータ多様体に対して多種多様なアクション可能なリコースを明示的に指示する新しいアプローチを提案する。
まず、多様性と近接性のトレードオフをバランスさせる、望ましいクラスにおける多様なプロトタイプを見つけます。
これらのプロトタイプを見つけるための2つの特定の方法を示す: 決定項過程の最大後方推定を見つけるか、二次二項プログラムを解くかである。
動作可能性の制約を保証するため,ノードがトレーニングサンプルを表現し,エッジが2つのインスタンス間の実行可能な動作を示す動作可能性グラフを構築した。
次に、各プロトタイプに対する実行可能なパスを見つけ、このパスは、計画の各リコースに対する実行可能なアクションを示す。
実験結果から,本手法はデータ多様体に近い一連のリコースを生成し,既存の手法よりも高いコスト・ダイバーシティのトレードオフを実現する。 Explaining algorithmic decisions and recommending actionable feedback is increasingly important for machine learning applications. Recently, significant efforts have been invested in finding a diverse set of recourses to cover the wide spectrum of users' preferences. However, existing works often neglect the requirement that the recourses should be close to the data manifold; hence, the constructed recourses might be implausible and unsatisfying to users. To address these issues, we propose a novel approach that explicitly directs the diverse set of actionable recourses towards the data manifold. We first find a diverse set of prototypes in the favorable class that balances the trade-off between diversity and proximity. We demonstrate two specific methods to find these prototypes: either by finding the maximum a posteriori estimate of a determinantal point process or by solving a quadratic binary program. To ensure the actionability constraints, we construct an actionability graph in which the nodes represent the training samples and the edges indicate the feasible action between two instances. We then find a feasible path to each prototype, and this path demonstrates the feasible actions for each recourse in the plan. The experimental results show that our method produces a set of recourses that are close to the data manifold while delivering a better cost-diversity trade-off than existing approaches. | 翻訳日:2023-02-23 16:00:56 公開日:2023-02-22 |
# 分布ロバストなリコースアクション Distributionally Robust Recourse Action ( http://arxiv.org/abs/2302.11211v1 ) ライセンス: Link先を確認 | Duy Nguyen, Ngoc Bui, Viet Anh Nguyen | (参考訳) recourseアクションは、別の結果を受け取るためにインスタンスを修正できる特定の方法を示すことで、特定のアルゴリズム上の決定を説明することを目的としている。
既存のリコース生成手法は、機械学習モデルが時間とともに変化しないと仮定することが多い。
しかし、この仮定はデータ分散シフトのため常に実行されているわけではなく、この場合、リコースアクションが無効になる可能性がある。
この欠点を克服するために、モデルシフトの混合の下で有効となる確率の高いリコースアクションを生成するDis Distributionally Robust Recourse Action (DiRRAc) フレームワークを提案する。
モデルパラメータの分布の周りに設定された曖昧性に対して最大値がゲルブリッチ距離によって指定されるmin-max最適化問題としてロバスト化リコース設定を定式化する。
次に, min-max の目的に応じて頑健なリコースを求めるために, 予測勾配降下アルゴリズムを提案する。
混合重量の誤特定に対して,我々のDiRRAcフレームワークはヘッジにまで拡張可能であることを示す。
合成と実世界の両方のデータセットを用いた数値実験により,提案手法が最先端のリコース法に対して有効であることを示す。 A recourse action aims to explain a particular algorithmic decision by showing one specific way in which the instance could be modified to receive an alternate outcome. Existing recourse generation methods often assume that the machine learning model does not change over time. However, this assumption does not always hold in practice because of data distribution shifts, and in this case, the recourse action may become invalid. To redress this shortcoming, we propose the Distributionally Robust Recourse Action (DiRRAc) framework, which generates a recourse action that has a high probability of being valid under a mixture of model shifts. We formulate the robustified recourse setup as a min-max optimization problem, where the max problem is specified by Gelbrich distance over an ambiguity set around the distribution of model parameters. Then we suggest a projected gradient descent algorithm to find a robust recourse according to the min-max objective. We show that our DiRRAc framework can be extended to hedge against the misspecification of the mixture weights. Numerical experiments with both synthetic and three real-world datasets demonstrate the benefits of our proposed framework over state-of-the-art recourse methods. | 翻訳日:2023-02-23 16:00:35 公開日:2023-02-22 |
# KS-DETR:検出変圧器の注意学習における知識共有 KS-DETR: Knowledge Sharing in Attention Learning for Detection Transformer ( http://arxiv.org/abs/2302.11208v1 ) ライセンス: Link先を確認 | Kaikai Zhao and Norimichi Ukita | (参考訳) スケールされたドット積の注意は、クエリとキーのスケールされたドット積にソフトマックス関数を適用してウェイトを計算し、ウェイトと値を乗算する。
本研究では,DTRの精度を向上させるために,大規模ドット積注意の学習を改善する方法について検討する。
提案手法は, 地中真理フォアグラウンド・バックグラウンドマスク(GT Fg-Bg Mask)をウェイト/バリュー学習における付加的な手がかりとして用いることにより, より優れたウェイト/バリューを学習できる。
本稿では,第1の注目点が平らなドット積の注意点であり,第2/第3の注意点が(GT Fg-Bg Mask の助けを借りて)高品質な重み/値を生成し,第1の注意点と重みを共有して値/重みの質を向上させる三重みモジュールを提案する。
第2および第3の注意は推論中に取り除かれる。
我々は,本手法を知識分担型DETR (KS-DETR) と呼ぶ。これは知識蒸留(KD)の拡張であり,教師の体重と価値の改善(第2,第3の注意)が,学生(第1の注意)によって模倣されるのではなく,直接的に共有され,教師から生徒へのより効率的な知識伝達を可能にする方法である。
様々なDETRライクな手法の実験では、MS COCOベンチマークのベースライン法よりも一貫した改善が見られた。
コードはhttps://github.com/edocanonymous/KS-DETRで公開されている。 Scaled dot-product attention applies a softmax function on the scaled dot-product of queries and keys to calculate weights and then multiplies the weights and values. In this work, we study how to improve the learning of scaled dot-product attention to improve the accuracy of DETR. Our method is based on the following observations: using ground truth foreground-background mask (GT Fg-Bg Mask) as additional cues in the weights/values learning enables learning much better weights/values; with better weights/values, better values/weights can be learned. We propose a triple-attention module in which the first attention is a plain scaled dot-product attention, the second/third attention generates high-quality weights/values (with the assistance of GT Fg-Bg Mask) and shares the values/weights with the first attention to improve the quality of values/weights. The second and third attentions are removed during inference. We call our method knowledge-sharing DETR (KS-DETR), which is an extension of knowledge distillation (KD) in the way that the improved weights and values of the teachers (the second and third attentions) are directly shared, instead of mimicked, by the student (the first attention) to enable more efficient knowledge transfer from the teachers to the student. Experiments on various DETR-like methods show consistent improvements over the baseline methods on the MS COCO benchmark. Code is available at https://github.com/edocanonymous/KS-DETR. | 翻訳日:2023-02-23 16:00:16 公開日:2023-02-22 |
# ヒストグラムマッチングを用いた多心室・多心室MRIの半監督的セグメンテーション Semi-Supervised Segmentation of Multi-vendor and Multi-center Cardiac MRI using Histogram Matching ( http://arxiv.org/abs/2302.11200v1 ) ライセンス: Link先を確認 | Mahyar Bolhassani, Ilkay Oksuz | (参考訳) 心腔の自動分割は心疾患の診断に必須の課題である。
本稿では,左室,右室,心筋の各領域にラベルなしデータを活用するための半教師付きセグメンテーション設定を提案する。
大規模心筋MRIデータセットに残像U-Netアーキテクチャの強化版を応用した。
ダイス損失を用いたクラス不均衡データ問題に対処するため、教師付きモデルでは、バニラU-Netモデルと比較して、より良いダイススコアを達成することができる。
我々は,他の領域におけるモデルの性能向上のために,ヒストグラムマッチングなどの拡張手法を適用した。
また,大規模ラベル付きデータを必要とせずにセグメンテーション結果を改善するための,シンプルだが効率的な半教師付きセグメンテーション手法を提案する。
最後に,提案モデルの有効性を示すために,STACOM2018とM\&Ms 2020の2つのベンチマークデータセットに適用した。
提案モデルの有効性を定量的に検証した。
左室,右室,心筋の平均サイコロスコアは0.921,0.926,0.891である。 Automatic segmentation of the heart cavity is an essential task for the diagnosis of cardiac diseases. In this paper, we propose a semi-supervised segmentation setup for leveraging unlabeled data to segment Left-ventricle, Right-ventricle, and Myocardium. We utilize an enhanced version of residual U-Net architecture on a large-scale cardiac MRI dataset. Handling the class imbalanced data issue using dice loss, the enhanced supervised model is able to achieve better dice scores in comparison with a vanilla U-Net model. We applied several augmentation techniques including histogram matching to increase the performance of our model in other domains. Also, we introduce a simple but efficient semi-supervised segmentation method to improve segmentation results without the need for large labeled data. Finally, we applied our method on two benchmark datasets, STACOM2018, and M\&Ms 2020 challenges, to show the potency of the proposed model. The effectiveness of our proposed model is demonstrated by the quantitative results. The model achieves average dice scores of 0.921, 0.926, and 0.891 for Left-ventricle, Right-ventricle, and Myocardium respectively. | 翻訳日:2023-02-23 15:59:43 公開日:2023-02-22 |
# マルチドメイン・マルチタスク対話のためのFew-Shot Structured Policy Learning Few-Shot Structured Policy Learning for Multi-Domain and Multi-Task Dialogues ( http://arxiv.org/abs/2302.11199v1 ) ライセンス: Link先を確認 | Thibault Cordier and Tanguy Urvoy and Fabrice Lefevre and Lina M. Rojas-Barahona | (参考訳) 強化学習はタスク指向対話における対話マネージャのモデル化に広く採用されている。
しかし、最先端の対話フレームワークによって提供されるユーザシミュレータは、人間の振る舞いの粗い近似に過ぎない。
少数の人間との相互作用から学ぶ能力は、特にアクション空間が大きいマルチドメインやマルチタスク環境において重要である。
そこで我々は,このような環境における学習時のサンプル効率を向上させるための構造化ポリシーを提案する。
また,人間と模擬専門家の学習の効果も評価した。
私たちがテストしたさまざまなレベルの構造のうち、グラフニューラルネットワーク(gnns)は、50の対話で80%以上の成功率を達成し、専門家から学ぶことで顕著な優位性を示しています。
また、人間の戦略の多様性を捉えることの難しさを示唆する性能低下が観察されたにもかかわらず、人間の専門家から学ぶ場合の優越性も示している。
そこで我々は,対話フレームワークにおける人的データ,シミュレータ,自動評価器のギャップを埋めることに,今後の研究努力を集中させることを提案する。 Reinforcement learning has been widely adopted to model dialogue managers in task-oriented dialogues. However, the user simulator provided by state-of-the-art dialogue frameworks are only rough approximations of human behaviour. The ability to learn from a small number of human interactions is hence crucial, especially on multi-domain and multi-task environments where the action space is large. We therefore propose to use structured policies to improve sample efficiency when learning on these kinds of environments. We also evaluate the impact of learning from human vs simulated experts. Among the different levels of structure that we tested, the graph neural networks (GNNs) show a remarkable superiority by reaching a success rate above 80% with only 50 dialogues, when learning from simulated experts. They also show superiority when learning from human experts, although a performance drop was observed, indicating a possible difficulty in capturing the variability of human strategies. We therefore suggest to concentrate future research efforts on bridging the gap between human data, simulators and automatic evaluators in dialogue frameworks. | 翻訳日:2023-02-23 15:59:25 公開日:2023-02-22 |
# ランダムディザリングを用いた量子化低ランク多変量回帰 Quantized Low-Rank Multivariate Regression with Random Dithering ( http://arxiv.org/abs/2302.11197v1 ) ライセンス: Link先を確認 | Junren Chen, Yueqi Wang, Michael K. Ng | (参考訳) 低ランク多変量回帰(LRMR)は,多応答回帰問題として高相関なタスクと,係数行列上の低ランク優先問題を組み合わせた重要な統計学習モデルである。
本稿では,応答および/または共変量が有限精度に離散化される実測的なLRMRについて検討する。
基礎となる係数行列の推定に焦点をあてる。
任意に小さい誤差を許容できる一貫した推定器を実現するために、ランダムディザリングを伴う一様量子化、すなわち量子化前に適切なランダムノイズをデータに追加する。
特に、一様ディザーと三角形ディザーは、それぞれ応答と共変量に使用される。
量子化データに基づいて、制約付きラッソおよび正規化ラッソ推定器を提案し、非漸近誤差境界を導出する。
ディザリングの助けを借りて、推定子は最小値の最適率を達成する一方、量子化は誤差率の乗算係数をわずかに悪化させる。
さらに, 行列応答を持つ低ランク回帰モデルに結果を拡張した。
合成データや画像復元のシミュレーションによって, 理論的結果と相関し, 実証する。 Low-rank multivariate regression (LRMR) is an important statistical learning model that combines highly correlated tasks as a multiresponse regression problem with low-rank priori on the coefficient matrix. In this paper, we study quantized LRMR, a practical setting where the responses and/or the covariates are discretized to finite precision. We focus on the estimation of the underlying coefficient matrix. To make consistent estimator that could achieve arbitrarily small error possible, we employ uniform quantization with random dithering, i.e., we add appropriate random noise to the data before quantization. Specifically, uniform dither and triangular dither are used for responses and covariates, respectively. Based on the quantized data, we propose the constrained Lasso and regularized Lasso estimators, and derive the non-asymptotic error bounds. With the aid of dithering, the estimators achieve minimax optimal rate, while quantization only slightly worsens the multiplicative factor in the error rate. Moreover, we extend our results to a low-rank regression model with matrix responses. We corroborate and demonstrate our theoretical results via simulations on synthetic data or image restoration. | 翻訳日:2023-02-23 15:59:08 公開日:2023-02-22 |
# 正規化2次元相関法による画像の不変ターゲット検出 Invariant Target Detection in Images through the Normalized 2-D Correlation Technique ( http://arxiv.org/abs/2302.11196v1 ) ライセンス: Link先を確認 | Fatin E. M. Al-Obaidi, Anwar H. Al-Saleh, Shaymaa H. Kafi, Ali J.Karam, Ali A. D. Al-Zuky | (参考訳) 正規化2次元相関法は、回転、翻訳、スケーリングの下で不変性を維持するため、画像中のターゲットを検出する堅牢な方法である。
本稿では,翻訳が画像のターゲット識別に与える影響について検討する。
その結果, 位置や大きさのばらつきがある場合でも, ターゲット検出の精度は高いことがわかった。
その結果,画像と使用目標の類似度は,リサイズ比が増加するにつれて向上することが示唆された。
すべての統計的推定器は、元のターゲットと抽出されたターゲットの間に強い類似性を示す。
全てのシナリオの経過時間は、それぞれ鳥と子供のターゲットの範囲内(44.75-44.85)、(37.48-37.73)であり、相関係数は、鳥と子供のターゲットのそれぞれの範囲内にある値(0.90-0.98)と(0.87-0.93)との安定した関係を示す。 The normalized 2-D correlation technique is a robust method for detecting targets in images due to its ability to remain invariant under rotation, translation, and scaling. This paper examines the impact of translation, and scaling on target identification in images. The results indicate a high level of accuracy in detecting targets, even when they are exhibit variations in location and size. The results indicate that the similarity between the image and the two used targets improves as the resize ratio increases. All statistical estimators demonstrate a strong similarity between the original and extracted targets. The elapsed time for all scenarios falls within the range (44.75-44.85), (37.48-37.73) seconds for bird and children targets respectively, and the correlation coefficient displays stable relationships with values that fall within the range of (0.90-0.98) and (0.87-0.93) for bird and children targets respectively. | 翻訳日:2023-02-23 15:58:48 公開日:2023-02-22 |
# 静的, 時間的, 空間的情報の融合による流出油田の単一井戸生産速度の予測 Prediction of single well production rate in water-flooding oil fields driven by the fusion of static, temporal and spatial information ( http://arxiv.org/abs/2302.11195v1 ) ライセンス: Link先を確認 | Chao Min, Yijia Wang, Huohai Yang and Wei Zhao | (参考訳) 油井の生産速度の予測は非常に困難であり, 油井生産における静的, 時間的, 空間的特性の影響を暗黙的に, 明示的に示すような, 様々な不確実な要因に敏感である。
本研究では, 静的な地質情報, 動的井戸生産履歴, 隣り合う水道井の空間情報とを融合させるために, 新たな機械学習モデルを構築した。
この積み重ねモデルには3つの基本モジュールがあり、異なるタイプのデータから特徴を抽出するエンコーダと見なされている。
ひとつはMulti-Layer Perceptronで、井戸の生産速度に影響を与える可能性のある貯水池の静的な地質特性を分析する。
他の2つはどちらも lstm であり、これはベクトルではなく2つの行列の形で入力を持ち、対象井戸の時間的情報と空間的情報を表す。
2つのモジュールの違いは, 空間情報処理モジュールでは, 浸水応答の時間遅延を考慮した場合, 注入井戸からターゲット井戸への時間遅延を考慮したものである。
さらに, 因果関係の発見の観点から, 積み重ねモデルの優越性を証明するために記号伝達エントロピーを用いた。
提案モデルでは,モデル構造を十分に活用して,データの特徴と専門家の知識を機械学習のプロセスに統合し,予測の精度と一般化能力を大幅に向上できることが理論的に実証されている。 It is very difficult to forecast the production rate of oil wells as the output of a single well is sensitive to various uncertain factors, which implicitly or explicitly show the influence of the static, temporal and spatial properties on the oil well production. In this study, a novel machine learning model is constructed to fuse the static geological information, dynamic well production history, and spatial information of the adjacent water injection wells. There are 3 basic modules in this stacking model, which are regarded as the encoders to extract the features from different types of data. One is Multi-Layer Perceptron, which is to analyze the static geological properties of the reservoir that might influence the well production rate. The other two are both LSTMs, which have the input in the form of two matrices rather than vectors, standing for the temporal and the spatial information of the target well. The difference of the two modules is that in the spatial information processing module we take into consideration the time delay of water flooding response, from the injection well to the target well. In addition, we use Symbolic Transfer Entropy to prove the superiorities of the stacking model from the perspective of Causality Discovery. It is proved theoretically and practically that the presented model can make full use of the model structure to integrate the characteristics of the data and the experts' knowledge into the process of machine learning, greatly improving the accuracy and generalization ability of prediction. | 翻訳日:2023-02-23 15:58:29 公開日:2023-02-22 |
# 計測とフィードバックによる超狭線幅周波数基準 Ultra Narrow Linewidth Frequency Reference via Measurement and Feedback ( http://arxiv.org/abs/2302.11194v1 ) ライセンス: Link先を確認 | Diego Barberena, Robert J. Lewis-Swan, Ana Maria Rey, James K. Thompson | (参考訳) 非常に狭い線幅光源の生成は、現代科学において非常に重要である。
そのような光源の1つが超放射光レーザーであり、これは非コヒーレント光によって駆動される超長寿命双極子同士の相互作用に依存している。
ここでは、光学QEDキャビティ内でそのようなダイポールをコヒーレントに駆動することで、スペクトル的に純粋な光を生成する異なる方法について議論する。
キャビティを出る光は、駆動光と原子遷移の間のゆがみに関する情報を伝達するが、結合した原子空洞系に作用する全ての脱コヒーレンス過程に由来するノイズにも影響される。
これらの効果を計算し、入力光強度と原子-光相互作用強度の値の範囲にわたる周波数推定と安定化の基本的な限界を求め、アルカリ土類原子を用いた最先端のキャビティ実験においてこれらの限界を推定し、良好な運転条件を同定する。
達成可能な線幅は超ラジアントレーザーと同等であることが判明した。 The generation of very narrow linewidth light sources is of great importance in modern science. One such source is the superradiant laser, which relies on collectively interacting ultra long lived dipoles driven by incoherent light. Here we discuss a different way of generating spectrally pure light by coherently driving such dipoles inside an optical QED cavity. The light exiting the cavity carries information about the detuning between the driving light and the atomic transition, but is also affected by the noise originating from all the decoherence processes that act on the combined atom-cavity system. We calculate these effects to obtain fundamental limits for frequency estimation and stabilization across a range of values of input light intensities and atom-light interaction strengths, estimate these limits in state-of-the-art cavity experiments with alkaline-earth atoms and identify favorable operating conditions. We find that the achievable linewidths are comparable to those of the superradiant laser. | 翻訳日:2023-02-23 15:58:02 公開日:2023-02-22 |
# 外部音響アテンションと意味的認識データ拡張によるコンテキストスペル補正の改善 Improving Contextual Spelling Correction by External Acoustics Attention and Semantic Aware Data Augmentation ( http://arxiv.org/abs/2302.11192v1 ) ライセンス: Link先を確認 | Xiaoqiang Wang, Yanqing Liu, Jinyu Li, Sheng Zhao | (参考訳) 我々は以前,コンテキストスペル補正(CSC)を提案し,名前や場所などの文脈情報を用いたエンドツーエンド自動音声認識(ASR)モデルの出力を補正した。
CSCはバイアス問題において妥当な改善を達成しているが、さらなる精度改善には2つの欠点がある。
第一に、稀な領域でのasrモデルのテキストのみの情報制限や弱い性能のため、cscモデルは、発話中にすべてのバイアスフレーズが存在しない場合、類似の発音またはアンチコンテキストの句を訂正できない可能性がある。
第二に、CSCのトレーニングと推論には相違点がある。
トレーニングにおけるバイアスリストはランダムに選択されるが、推論では基底真理句と他の句の間により類似性があるかもしれない。
本稿では,従来のCSCモデルを改善するために,E2Eニューラルトランスデューサを用いたASRシステムにおける文脈バイアス補正のための改良された非自己回帰(NAR)スペル補正モデルを提案する。
第2に、トレーニングフレーズにおける意味認識データ拡張スキーマを設計し、トレーニングと推論のミスマッチを低減し、バイアスの精度をさらに高める。
実験の結果,改良された手法はベースラインASR+Biasingシステムに最大20.3%の相対的な名前リコールゲインを付与し,バイアスリスト名カバレッジ比の異なるCSC法と比較して安定した改善を実現することがわかった。 We previously proposed contextual spelling correction (CSC) to correct the output of end-to-end (E2E) automatic speech recognition (ASR) models with contextual information such as name, place, etc. Although CSC has achieved reasonable improvement in the biasing problem, there are still two drawbacks for further accuracy improvement. First, due to information limitation in text only hypothesis or weak performance of ASR model on rare domains, the CSC model may fail to correct phrases with similar pronunciation or anti-context cases where all biasing phrases are not present in the utterance. Second, there is a discrepancy between the training and inference of CSC. The bias list in training is randomly selected but in inference there may be more similarity between ground truth phrase and other phrases. To solve above limitations, in this paper we propose an improved non-autoregressive (NAR) spelling correction model for contextual biasing in E2E neural transducer-based ASR systems to improve the previous CSC model from two perspectives: Firstly, we incorporate acoustics information with an external attention as well as text hypotheses into CSC to better distinguish target phrase from dissimilar or irrelevant phrases. Secondly, we design a semantic aware data augmentation schema in training phrase to reduce the mismatch between training and inference to further boost the biasing accuracy. Experiments show that the improved method outperforms the baseline ASR+Biasing system by as much as 20.3% relative name recall gain and achieves stable improvement compared to the previous CSC method over different bias list name coverage ratio. | 翻訳日:2023-02-23 15:57:45 公開日:2023-02-22 |
# 質的回帰森林を用いたロバストで説明可能な文脈異常検出 Robust and Explainable Contextual Anomaly Detection using Quantile Regression Forests ( http://arxiv.org/abs/2302.11239v1 ) ライセンス: Link先を確認 | Zhong Li, Matthijs van Leeuwen | (参考訳) 従来の異常検出方法は、全ての特徴を等しく扱うことによって、他のほとんどのオブジェクトから逸脱するオブジェクトを識別することを目的としている。
対照的に、コンテキスト異常検出手法は、特徴を文脈的特徴と行動的特徴に分割することで、類似したオブジェクトのコンテキスト内で他のオブジェクトから逸脱するオブジェクトを検出することを目的としている。
本稿では,依存性に基づく従来の異常検出手法とコンテキスト異常検出手法の接続を開発する。
得られた知見に基づいて,特徴間の依存関係をモデル化するためにQuantile Regression Forestsを用いた,頑健かつ本質的に解釈可能なコンテキスト異常検出手法を提案する。
様々な合成および実世界のデータセットに関する広範囲な実験により,本手法は,精度とロバスト性の観点から文脈異常の同定において,最先端異常検出法よりも優れていることが示された。 Traditional anomaly detection methods aim to identify objects that deviate from most other objects by treating all features equally. In contrast, contextual anomaly detection methods aim to detect objects that deviate from other objects within a context of similar objects by dividing the features into contextual features and behavioral features. In this paper, we develop connections between dependency-based traditional anomaly detection methods and contextual anomaly detection methods. Based on resulting insights, we propose a novel approach to robust and inherently interpretable contextual anomaly detection that uses Quantile Regression Forests to model dependencies between features. Extensive experiments on various synthetic and real-world datasets demonstrate that our method outperforms state-of-the-art anomaly detection methods in identifying contextual anomalies in terms of accuracy and robustness. | 翻訳日:2023-02-23 15:51:17 公開日:2023-02-22 |
# 組み込みシステム用シングルレベルキャッシュメモリにおけるエネルギー消費と実行時間の多目的最適化 Multi-objective optimization of energy consumption and execution time in a single level cache memory for embedded systems ( http://arxiv.org/abs/2302.11236v1 ) ライセンス: Link先を確認 | Josefa D\'iaz \'Alvarez, Jos\'e L. Risco-Mart\'in and J. Manuel Colmenar | (参考訳) 現在の組み込みシステムは特にマルチメディアアプリケーションを実行するように設計されている。
これらのアプリケーションは、性能とエネルギー消費の両方に大きな影響を与える。
どちらのメトリクスも、ターゲットとするアプリケーションの最適なキャッシュ設定を最適化できる。
多目的最適化は、矛盾するメトリクスを独立した方法で最小化するのに役立つ。
本研究では,多目的進化アルゴリズムに基づく最適化手法を提案する。
候補解の有効性を評価するため、最適化アルゴリズムの実行と、いくつかのよく知られたシミュレーションツールを用いた静的なプロファイリング手法を組み合わせる。
その結果、最適化フレームワークはMediabenchアプリケーション向けに最適化されたキャッシュを得ることができることがわかった。
ベースラインキャッシュメモリと比較して, 設計手法は, 実行時間とエネルギー消費のそれぞれ平均64.43\%, 91.69\%に向上した。 Current embedded systems are specifically designed to run multimedia applications. These applications have a big impact on both performance and energy consumption. Both metrics can be optimized selecting the best cache configuration for a target set of applications. Multi-objective optimization may help to minimize both conflicting metrics in an independent manner. In this work, we propose an optimization method that based on Multi-Objective Evolutionary Algorithms, is able to find the best cache configuration for a given set of applications. To evaluate the goodness of candidate solutions, the execution of the optimization algorithm is combined with a static profiling methodology using several well-known simulation tools. Results show that our optimization framework is able to obtain an optimized cache for Mediabench applications. Compared to a baseline cache memory, our design method reaches an average improvement of 64.43\% and 91.69\% in execution time and energy consumption, respectively. | 翻訳日:2023-02-23 15:51:01 公開日:2023-02-22 |
# クラスタ取得:レート歪み理論に基づく効率的な外乱検出 Cluster Purging: Efficient Outlier Detection based on Rate-Distortion Theory ( http://arxiv.org/abs/2302.11234v1 ) ライセンス: Link先を確認 | Maximilian B. Toller and Bernhard C. Geiger and Roman Kern | (参考訳) 速度歪み理論に基づく外れ値検出は、良いデータ圧縮がユニークなシンボルで外れ値をエンコードするという理論に基づいている。
この理論的根拠に基づき,クラスタリングに基づく外乱検出の拡張であるクラスタ・パージを提案する。
この拡張により、クラスタリングの表現性を評価し、個々のユニークなクラスタで最もよく表現されるデータを見つけることができる。
本稿では,パラメータフリーのクラスタ・パージを行うための2つの効率的なアルゴリズムを提案する。一方のアルゴリズムは,表現率推定を制御するパラメータを持ち,教師付きセットアップで調整することができる。
実験により,クラスタのパーシングは生のクラスタリングから検出された異常値により改善し,クラスタのパーシングは最先端の代替手段と強く競合することを示した。 Rate-distortion theory-based outlier detection builds upon the rationale that a good data compression will encode outliers with unique symbols. Based on this rationale, we propose Cluster Purging, which is an extension of clustering-based outlier detection. This extension allows one to assess the representivity of clusterings, and to find data that are best represented by individual unique clusters. We propose two efficient algorithms for performing Cluster Purging, one being parameter-free, while the other algorithm has a parameter that controls representivity estimations, allowing it to be tuned in supervised setups. In an experimental evaluation, we show that Cluster Purging improves upon outliers detected from raw clusterings, and that Cluster Purging competes strongly against state-of-the-art alternatives. | 翻訳日:2023-02-23 15:50:49 公開日:2023-02-22 |
# マルチタスクグラフ表現によるスカース健康記録からの薬剤耐性解析 Drugs Resistance Analysis from Scarce Health Records via Multi-task Graph Representation ( http://arxiv.org/abs/2302.11231v1 ) ライセンス: Link先を確認 | Honglin Shu, Pei Gao, Lingwei Zhu, and Zheng Chen | (参考訳) 臨床医は経験豊富な目で患者の健康記録を見て抗生物質を処方する。
しかし、患者が薬剤耐性を持つ場合、治療は無駄になる可能性がある。
薬剤耐性の決定には、医療記録を構成する分類的または二元的な医療イベントのため、臨床医のヒューリスティックを自動で適用することは困難である。
本稿では,医療イベントとエッジからノードをマッピングしたグラフを,タイムウインドウを指定したイベント間の対応として見ることにより,迅速な臨床介入のための新しい枠組みを提案する。
次に, 情報的特徴を抽出し, 高次元および希薄なグラフから薬剤耐性の自動分析を行うための新しいグラフモデルを提案する。
提案手法は,マルチタスク学習を共通特徴抽出グラフエンコーダに統合し,複数の薬物の同時分析と安定化学習を行う。
尿路感染症患者110,000名以上からなる膨大なデータセットにおいて,提案手法が薬剤耐性予測問題において優れた性能を発揮することを検証した。
さらに, モデル抵抗解析に基づいて, 実験室レベルの試験に類似した自動薬剤推奨も行うことができる。 Clinicians prescribe antibiotics by looking at the patient's health record with an experienced eye. However, the therapy might be rendered futile if the patient has drug resistance. Determining drug resistance requires time-consuming laboratory-level testing while applying clinicians' heuristics in an automated way is difficult due to the categorical or binary medical events that constitute health records. In this paper, we propose a novel framework for rapid clinical intervention by viewing health records as graphs whose nodes are mapped from medical events and edges as correspondence between events in given a time window. A novel graph-based model is then proposed to extract informative features and yield automated drug resistance analysis from those high-dimensional and scarce graphs. The proposed method integrates multi-task learning into a common feature extracting graph encoder for simultaneous analyses of multiple drugs as well as stabilizing learning. On a massive dataset comprising over 110,000 patients with urinary tract infections, we verify the proposed method is capable of attaining superior performance on the drug resistance prediction problem. Furthermore, automated drug recommendations resemblant to laboratory-level testing can also be made based on the model resistance analysis. | 翻訳日:2023-02-23 15:50:34 公開日:2023-02-22 |
# 推薦システムにおける増幅パラドックス The Amplification Paradox in Recommender Systems ( http://arxiv.org/abs/2302.11225v1 ) ライセンス: Link先を確認 | Manoel Horta Ribeiro, Veniamin Veselovsky, Robert West | (参考訳) 推薦システムの自動監査では、盲目的に追従することで、ユーザーはますますパルチザン的、陰謀的、偽のコンテンツに繋がることがわかった。
同時に、実際のユーザトレースを用いた研究では、リコメンダシステムは、極端なコンテンツに対する注意の第一の要因ではないことを示唆している。
本稿では,提案アルゴリズムが極端な内容を好む場合,なぜその消費を推し進めないのか,という明らかなパラドックスを説明する。
推薦システム内の項目に異なるユーティリティを属性付ける単純なエージェントベースモデルを用いて、推奨システムの協調フィルタリング特性と極端なコンテンツのニッチ性は、明らかにパラドックスを解消できることを示す。
その結果,‘algorithmic amplification’のニュアンス的解釈を求め,レコメンダシステム監査におけるコンテンツの有用性のモデル化の重要性を強調した。 Automated audits of recommender systems found that blindly following recommendations leads users to increasingly partisan, conspiratorial, or false content. At the same time, studies using real user traces suggest that recommender systems are not the primary driver of attention toward extreme content; on the contrary, such content is mostly reached through other means, e.g., other websites. In this paper, we explain the following apparent paradox: if the recommendation algorithm favors extreme content, why is it not driving its consumption? With a simple agent-based model where users attribute different utilities to items in the recommender system, we show that the collaborative-filtering nature of recommender systems and the nicheness of extreme content can resolve the apparent paradox: although blindly following recommendations would indeed lead users to niche content, users rarely consume niche content when given the option because it is of low utility to them, which can lead the recommender system to deamplify such content. Our results call for a nuanced interpretation of ``algorithmic amplification'' and highlight the importance of modeling the utility of content to users when auditing recommender systems. | 翻訳日:2023-02-23 15:50:16 公開日:2023-02-22 |
# MADI:クロスドメイン音声認識のためのドメイン間マッチングとドメイン内識別 MADI: Inter-domain Matching and Intra-domain Discrimination for Cross-domain Speech Recognition ( http://arxiv.org/abs/2302.11224v1 ) ライセンス: Link先を確認 | Jiaming Zhou, Shiwan Zhao, Ning Jiang, Guoqing Zhao, Yong Qin | (参考訳) エンドツーエンドの自動音声認識(ASR)は通常、ドメインシフトによって新しいドメインに適用された場合、性能劣化に悩まされる。
unsupervised domain adaptation(uda)は、ソースからターゲットドメインに知識を転送することで、ラベルなしのターゲットドメインのパフォーマンスを改善することを目的としている。
トランスファービリティを改善するため、既存のUDAアプローチは主に、モデル識別性を無視しながら、ソースとターゲットドメインの分布をグローバルおよび/またはローカルにマッチングすることに焦点を当てている。
本稿では、ドメイン間マッチングとドメイン内識別(MADI)によるASRの新しいUDAアプローチを提案し、ドメイン間マッチングによるモデル転送性の向上とドメイン内コントラスト識別による識別性の向上について述べる。
Libri-Adaptデータセットの評価は、我々のアプローチの有効性を示す。
MADIは、クロスデバイスとクロス環境ASRの相対単語誤り率(WER)をそれぞれ17.7%、22.8%削減する。 End-to-end automatic speech recognition (ASR) usually suffers from performance degradation when applied to a new domain due to domain shift. Unsupervised domain adaptation (UDA) aims to improve the performance on the unlabeled target domain by transferring knowledge from the source to the target domain. To improve transferability, existing UDA approaches mainly focus on matching the distributions of the source and target domains globally and/or locally, while ignoring the model discriminability. In this paper, we propose a novel UDA approach for ASR via inter-domain MAtching and intra-domain DIscrimination (MADI), which improves the model transferability by fine-grained inter-domain matching and discriminability by intra-domain contrastive discrimination simultaneously. Evaluations on the Libri-Adapt dataset demonstrate the effectiveness of our approach. MADI reduces the relative word error rate (WER) on cross-device and cross-environment ASR by 17.7% and 22.8%, respectively. | 翻訳日:2023-02-23 15:49:54 公開日:2023-02-22 |
# モンテカルロ木探索による深部生成的記号回帰 Deep Generative Symbolic Regression with Monte-Carlo-Tree-Search ( http://arxiv.org/abs/2302.11223v1 ) ライセンス: Link先を確認 | Pierre-Alexandre Kamienny, Guillaume Lample, Sylvain Lamprier, Marco Virgolin | (参考訳) 記号回帰(SR)は、数値データから記号表現を学習する問題である。
近年、手続き的に生成された合成データセットで訓練されたディープニューラルモデルは、より古典的な遺伝的プログラミング(gp)アルゴリズムと比較して競合性能を示した。
gpと異なり、これらのニューラルアプローチは、コンテキストとして与えられたデータセットから式を生成するように訓練される。
これにより、テスト時に単一のフォワードパスで正確な式を生成することができる。
しかし、通常は検索能力の恩恵を受けないため、アウト・オブ・ディストリビューションデータセットのGPに比べてパフォーマンスは低い。
本稿では,先天的な変異を学習するために事前学習されたコンテキスト認識型ニューラルミュータントモデルを用いて,モンテカルロ木探索法に基づき,両世界のベストを提供する新しい手法を提案し,オンライン形式での成功経験からさらに洗練する。
このアプローチは、有名な \texttt{srbench}ベンチマークで最先端のパフォーマンスを示している。 Symbolic regression (SR) is the problem of learning a symbolic expression from numerical data. Recently, deep neural models trained on procedurally-generated synthetic datasets showed competitive performance compared to more classical Genetic Programming (GP) algorithms. Unlike their GP counterparts, these neural approaches are trained to generate expressions from datasets given as context. This allows them to produce accurate expressions in a single forward pass at test time. However, they usually do not benefit from search abilities, which result in low performance compared to GP on out-of-distribution datasets. In this paper, we propose a novel method which provides the best of both worlds, based on a Monte-Carlo Tree Search procedure using a context-aware neural mutation model, which is initially pre-trained to learn promising mutations, and further refined from successful experiences in an online fashion. The approach demonstrates state-of-the-art performance on the well-known \texttt{SRBench} benchmark. | 翻訳日:2023-02-23 15:49:36 公開日:2023-02-22 |
# 多レベル特徴学習のためのディープカーネル主成分分析 Deep Kernel Principal Component Analysis for Multi-level Feature Learning ( http://arxiv.org/abs/2302.11220v1 ) ライセンス: Link先を確認 | Francesco Tonin, Qinghua Tao, Panagiotis Patrinos, Johan A. K. Suykens | (参考訳) 主成分分析(PCA)とその非線形拡張Kernel PCA(KPCA)は、データ分析と次元減少のために科学や産業で広く利用されている。
現代のディープラーニングツールは経験的な成功を収めていますが、深い主成分分析のためのフレームワークはまだ不足しています。
ここでは、データの最も情報性の高いコンポーネントの複数のレベルを抽出するディープカーネルPCA手法(DKPCA)を開発する。
本手法は,深層主成分と呼ばれる新しい階層変数を効果的に同定し,単純かつ解釈可能な数値最適化により高次元データの主な特性を捉えることができる。
我々は、複数のKPCAレベルの主成分を結合し、理論的には、DKPCAは、カーネルメソッドでは検討されていないが、より情報的な特徴を抽出するためには不可欠である、各レベルの前方および後方の依存関係を創出することを示す。
複数のデータ型に関する様々な実験的評価により、dkpcaは、浅いkpcaと比較して、主成分のばらつきがより少ない、より効率的で不連続な表現を見出した。
提案手法は,大規模データセットとトレーニングサンプルの少ない場合の両方において,入力データのキー生成要因を分離することで,効果的な階層的データ探索を可能にする。
全体として、DKPCAは、異なるレベルで整理されたより情報的な特徴を学習し、データの変動要因を探索し、単純な数学的定式化を維持しながら、高次元データから有用なパターンの抽出を容易にする。 Principal Component Analysis (PCA) and its nonlinear extension Kernel PCA (KPCA) are widely used across science and industry for data analysis and dimensionality reduction. Modern deep learning tools have achieved great empirical success, but a framework for deep principal component analysis is still lacking. Here we develop a deep kernel PCA methodology (DKPCA) to extract multiple levels of the most informative components of the data. Our scheme can effectively identify new hierarchical variables, called deep principal components, capturing the main characteristics of high-dimensional data through a simple and interpretable numerical optimization. We couple the principal components of multiple KPCA levels, theoretically showing that DKPCA creates both forward and backward dependency across levels, which has not been explored in kernel methods and yet is crucial to extract more informative features. Various experimental evaluations on multiple data types show that DKPCA finds more efficient and disentangled representations with higher explained variance in fewer principal components, compared to the shallow KPCA. We demonstrate that our method allows for effective hierarchical data exploration, with the ability to separate the key generative factors of the input data both for large datasets and when few training samples are available. Overall, DKPCA can facilitate the extraction of useful patterns from high-dimensional data by learning more informative features organized in different levels, giving diversified aspects to explore the variation factors in the data, while maintaining a simple mathematical formulation. | 翻訳日:2023-02-23 15:49:22 公開日:2023-02-22 |
# ビデオ局所的ナラティブと視覚と言語を結びつける Connecting Vision and Language with Video Localized Narratives ( http://arxiv.org/abs/2302.11217v1 ) ライセンス: Link先を確認 | Paul Voigtlaender and Soravit Changpinyo and Jordi Pont-Tuset and Radu Soricut and Vittorio Ferrari | (参考訳) 視覚と言語を繋ぐマルチモーダルなビデオアノテーションの新たな形式であるビデオローカライズド・ナラティブスを提案する。
オリジナルのLocalized Narrativesでは、アノテータは画像上にマウスを同時に移動させ、各単語をマウスのトレースセグメントでグラウンドする。
しかし、これはビデオでは難しい。
我々の新しいプロトコルは、アノテータがローカライズド・ナラティブ(Localized Narratives)を使ってビデオのストーリーを語ることを可能にし、複数のアクターが相互に相互作用し、複数の受動的オブジェクトを持つ複雑なイベントをキャプチャする。
ovis、uvo、oopsのデータセットの20kビデオに注釈を付け、合計で1.7mの単語を割り当てた。
このデータに基づいて,ビデオナラティブグラウンドディングとビデオ質問応答タスクのための新しいベンチマークを構築し,強力なベースラインモデルによる参照結果を提供する。
アノテーションはhttps://google.github.io/video-localized-narratives/で利用可能です。 We propose Video Localized Narratives, a new form of multimodal video annotations connecting vision and language. In the original Localized Narratives, annotators speak and move their mouse simultaneously on an image, thus grounding each word with a mouse trace segment. However, this is challenging on a video. Our new protocol empowers annotators to tell the story of a video with Localized Narratives, capturing even complex events involving multiple actors interacting with each other and with several passive objects. We annotated 20k videos of the OVIS, UVO, and Oops datasets, totalling 1.7M words. Based on this data, we also construct new benchmarks for the video narrative grounding and video question-answering tasks, and provide reference results from strong baseline models. Our annotations are available at https://google.github.io/video-localized-narratives/. | 翻訳日:2023-02-23 15:48:56 公開日:2023-02-22 |
# 領域一般化のためのエネルギーベーステストサンプル適応 Energy-Based Test Sample Adaptation for Domain Generalization ( http://arxiv.org/abs/2302.11215v1 ) ライセンス: Link先を確認 | Zehao Xiao, Xiantong Zhen, Shengcai Liao, Cees G. M. Snoek | (参考訳) 本稿では,領域一般化のためのテスト時間におけるエネルギーベースサンプル適応を提案する。
以前の研究がターゲットドメインにモデルを適応する場合、未確認のターゲットサンプルをソース学習モデルに適応させます。
そこで本研究では,サンプル適応のための条件分布とデータ分布を協調的にモデル化するために,ソース領域で訓練された識別エネルギーベースモデルを設計する。
このモデルは、分類器とエネルギー関数を同時に学習するように最適化される。
対象試料をソース分布に適応させるために,確率勾配ランゲヴィンダイナミクスを用いたエネルギー最小化により繰り返し更新する。
さらに,適応中のサンプルのカテゴリ情報を保存するために,エネルギーベースモデルにカテゴリ的潜在変数を導入する。
潜在変数は変分推論によって適応する前に元のサンプルから学習され、サンプル更新を導く条件として固定される。
画像とマイクロブログスレッドの分類のための6つのベンチマーク実験により,提案手法の有効性が示された。 In this paper, we propose energy-based sample adaptation at test time for domain generalization. Where previous works adapt their models to target domains, we adapt the unseen target samples to source-trained models. To this end, we design a discriminative energy-based model, which is trained on source domains to jointly model the conditional distribution for classification and data distribution for sample adaptation. The model is optimized to simultaneously learn a classifier and an energy function. To adapt target samples to source distributions, we iteratively update the samples by energy minimization with stochastic gradient Langevin dynamics. Moreover, to preserve the categorical information in the sample during adaptation, we introduce a categorical latent variable into the energy-based model. The latent variable is learned from the original sample before adaptation by variational inference and fixed as a condition to guide the sample update. Experiments on six benchmarks for classification of images and microblog threads demonstrate the effectiveness of our proposal. | 翻訳日:2023-02-23 15:48:41 公開日:2023-02-22 |
# 次世代車載ネットワークにおけるサービス品質の分散化に向けて Towards Decentralized Predictive Quality of Service in Next-Generation Vehicular Networks ( http://arxiv.org/abs/2302.11268v1 ) ライセンス: Link先を確認 | Filippo Bragato, Tommaso Lotta, Gianmaria Ventura, Matteo Drago, Federico Mason, Marco Giordani, Michele Zorzi | (参考訳) 遠隔運転シナリオの安全性を確保するため、車両と遠隔運転者間の通信は厳格なレイテンシと信頼性要件を満たす必要がある。
この文脈でpqos(predictive quality of service)は、qos(quality of service)の予期せぬ劣化を予測し、それに応じてネットワークが反応することを可能にするツールとして検討された。
本研究では、車両ネットワークにPQoSを実装するための強化学習(RL)エージェントを設計する。
そのため、無線アクセスネットワーク(ran)および/または最終車両に収集されたデータとqos予測に基づいて、低レイテンシおよび信頼性制約下で自動車データを送信するための最適な圧縮レベルを特定することができる。
我々は,集中型,完全分散型,連合型学習など,さまざまな学習手法を検討する。
ns-3シミュレーションを通じて、集中学習は一般的に他のどのソリューションよりも優れているが、分散学習、特にフェデレーション学習は、収束時間と信頼性の間に良いトレードオフをもたらす。 To ensure safety in teleoperated driving scenarios, communication between vehicles and remote drivers must satisfy strict latency and reliability requirements. In this context, Predictive Quality of Service (PQoS) was investigated as a tool to predict unanticipated degradation of the Quality of Service (QoS), and allow the network to react accordingly. In this work, we design a reinforcement learning (RL) agent to implement PQoS in vehicular networks. To do so, based on data gathered at the Radio Access Network (RAN) and/or the end vehicles, as well as QoS predictions, our framework is able to identify the optimal level of compression to send automotive data under low latency and reliability constraints. We consider different learning schemes, including centralized, fully-distributed, and federated learning. We demonstrate via ns-3 simulations that, while centralized learning generally outperforms any other solution, decentralized learning, and especially federated learning, offers a good trade-off between convergence time and reliability, with positive implications in terms of privacy and complexity. | 翻訳日:2023-02-23 15:41:45 公開日:2023-02-22 |
# ハイゼンベルク結合量子ビットに対するスピンエネルギー作用素不等式 A spin-energy operator inequality for Heisenberg-coupled qubits ( http://arxiv.org/abs/2302.11267v1 ) ライセンス: Link先を確認 | Daniel Ranard and C. Jess Riedel | (参考訳) 我々は、コレッジらによって同定された作用素の不等式をわずかに強化し、全スピンを用いて、ハイゼンベルク結合グラフのエネルギーを$s=1/2$スピンとする。
特に、グラフ依存定数 $C$ に対する $\Delta H \ge C \Delta\vec{S}^2$ では、$\Delta H$ は基底状態上のエネルギーであり、$\Delta\vec{S}^2$ はトータルスピン $\vec{S} = \sum_i \vec{\sigma}_i/2$ の平方が最大値を下回る量である。
立方格子の特別な場合において明示定数を得る。
低エネルギー、スピン波理論におけるほぼ非相互作用マグノンの観点から、この境界の解釈を簡潔に議論し、B\"arwinkel et al.によって発見された別の不等式と対比する。 We slightly strengthen an operator inequality identified by Correggi et al. that lower bounds the energy of a Heisenberg-coupled graph of $s=1/2$ spins using the total spin. In particular, $\Delta H \ge C \Delta\vec{S}^2$ for a graph-dependent constant $C$, where $\Delta H$ is the energy above the ground state and $\Delta\vec{S}^2$ is the amount by which the square of the total spin $\vec{S} = \sum_i \vec{\sigma}_i/2$ falls below its maximum possible value. We obtain explicit constants in the special case of a cubic lattice. We briefly discuss the interpretation of this bound in terms of low-energy, approximately non-interacting magnons in spin wave theory and contrast it with another inequality found by B\"arwinkel et al. | 翻訳日:2023-02-23 15:41:28 公開日:2023-02-22 |
# トランスファー学習による全波形インバージョン Transfer Learning Enhanced Full Waveform Inversion ( http://arxiv.org/abs/2302.11259v1 ) ライセンス: Link先を確認 | Stefan Kollmannsberger, Divya Singh and Leon Herrmann | (参考訳) 本稿では,Full Waveform Inversion (FWI) を用いた非破壊検査分野において,ニューラルネットワークを好適に活用する方法を提案する。
提案手法は、隣接最適化内のニューラルネットワークを用いて、ドメイン内の未知の物質分布を識別する。
fwiの効率をさらに高めるために、事前訓練されたニューラルネットワークを使用して、反転の出発点を提供する。
これにより、特定のが一般化可能な設定に対するFull Waveform Inversionのイテレーションの数を減らすことができる。 We propose a way to favorably employ neural networks in the field of non-destructive testing using Full Waveform Inversion (FWI). The presented methodology discretizes the unknown material distribution in the domain with a neural network within an adjoint optimization. To further increase efficiency of the FWI, pretrained neural networks are used to provide a good starting point for the inversion. This reduces the number of iterations in the Full Waveform Inversion for specific, yet generalizable settings. | 翻訳日:2023-02-23 15:41:05 公開日:2023-02-22 |
# イジングモデルにおける作業の準確率分布 Quasiprobability distribution of work in the Ising model ( http://arxiv.org/abs/2302.11255v1 ) ライセンス: Link先を確認 | Gianluca Francica, Luca Dell'Anna | (参考訳) 量子多体系のパラメータをクエンチすることでなされた仕事の統計の完全な理解は、エネルギー基底における初期量子コヒーレンスの存在下ではまだ不足している。
この場合、ワークは準確率分布のクラスで表現できる。
本稿では, 横場におけるIsingモデルの作業準確率を研究することによって, プロセスの真に量子的な特徴を明らかにする。
我々は,熱力学的限界を中心に,グローバルとローカルの両方のクエンチを考える。
大域的クエンチでは、作業のガウス確率分布を持つ対称非コンテキスト表現(部分支配的項を除く)が存在するのに対し、局所クエンチでは、作業の負の4番目のモーメントによって信号される量子的文脈性が得られる。
さらに,量子相転移に関連する普遍的特徴と初期量子コヒーレンスの役割を有用な資源として検討する。 A complete understanding of the statistics of the work done by quenching a parameter of a quantum many-body system is still lacking in the presence of an initial quantum coherence in the energy basis. In this case, the work can be represented by a class of quasiprobability distributions. Here, we try to clarify the genuinely quantum features of the process by studying the work quasiprobability for an Ising model in a transverse field. We consider both a global and a local quench, by focusing mainly on the thermodynamic limit. We find that, while for a global quench there is a symmetric non-contextual representation with a Gaussian probability distribution of work (apart from subdominant terms), for a local quench we can get quantum contextuality as signaled by a negative fourth moment of the work. Furthermore, we examine the universal features related to a quantum phase transition and the role of the initial quantum coherence as useful resource. | 翻訳日:2023-02-23 15:40:58 公開日:2023-02-22 |
# テキスト非依存話者照合のためのモーダル音声・視覚同時学習 Cross-modal Audio-visual Co-learning for Text-independent Speaker Verification ( http://arxiv.org/abs/2302.11254v1 ) ライセンス: Link先を確認 | Meng Liu, Kong Aik Lee, Longbiao Wang, Hanyi Zhang, Chang Zeng, Jianwu Dang | (参考訳) 視覚音声(口唇運動)は、音声生成における共起と同期のため、聴覚音声と高度に関連している。
本稿では,この相関関係を調査し,クロスモーダル音声共学習パラダイムを提案する。
クロスモーダル共学習法の主な動機は、別のモダリティからの知識を活用し、あるモダリティをモデル化することである。
具体的には,2つのクロスモーダルブースタを視聴覚疑似シアム構造に基づいて導入し,モーダリティ変換相関を学習する。
各ブースターの内部では、モダリティアライメントと機能生成の強化のために、max-feature-map組み込みトランスフォーマティブが提案されている。
ネットワークはスクラッチと事前訓練されたモデルの両方で構築されている。
LRSLip3, GridLip, LomGridLip および VoxLip を用いた実験結果から,本手法は独立に訓練された音声のみ, 視覚のみ, ベースライン融合システムに対して, 平均性能を60%, 20%向上させることを示した。 Visual speech (i.e., lip motion) is highly related to auditory speech due to the co-occurrence and synchronization in speech production. This paper investigates this correlation and proposes a cross-modal speech co-learning paradigm. The primary motivation of our cross-modal co-learning method is modeling one modality aided by exploiting knowledge from another modality. Specifically, two cross-modal boosters are introduced based on an audio-visual pseudo-siamese structure to learn the modality-transformed correlation. Inside each booster, a max-feature-map embedded Transformer variant is proposed for modality alignment and enhanced feature generation. The network is co-learned both from scratch and with pretrained models. Experimental results on the LRSLip3, GridLip, LomGridLip, and VoxLip datasets demonstrate that our proposed method achieves 60% and 20% average relative performance improvement over independently trained audio-only/visual-only and baseline fusion systems, respectively. | 翻訳日:2023-02-23 15:40:42 公開日:2023-02-22 |
# 量子測定と平衡:エントロピー最大化による客観的現実の出現 Quantum measurements and equilibration: the emergence of objective reality via entropy maximisation ( http://arxiv.org/abs/2302.11253v1 ) ライセンス: Link先を確認 | Emanuel Schwarzhans, Felix C. Binder, Marcus Huber, Maximilian P. E. Lock | (参考訳) 教科書量子物理学は、可逆ユニタリダイナミクスと可逆的測定の2つのタイプのダイナミクスを特徴としている。
後者は熱力学の法則と矛盾し、実際に測定を構成するものについての議論を引き起こした。
現代の量子統計力学の助けを借りて、量子測定はエントロピーを最大化するために閉じた系の自然な傾向によって駆動されるという仮説を定式化する第一歩を踏み出した。
このパラダイムでは、純粋に一元的な枠組みの中で客観的な測定結果がどのように現れるかを調べ、それを見つける。
(i)標準測定モデルにおける相互作用は、創発的客観性を自発的に特徴付けることができない。
(ii) 理想的な射影測度は不可能であるが、(ハミルトニアンの一形式の)指数関数的に近似することができ、さらに多くの物理系を「オブザーバ」系にまとめることができる。
したがって、量子測定の自己完結型モデルの基礎研究を行い、単純なスキームの改善を提案する。 Textbook quantum physics features two types of dynamics, reversible unitary dynamics and irreversible measurements. The latter stands in conflict with the laws of thermodynamics and has evoked debate on what actually constitutes a measurement. With the help of modern quantum statistical mechanics, we take the first step in formalising the hypothesis that quantum measurements are instead driven by the natural tendency of closed systems to maximize entropy, a notion that we call the Measurement-Equilibration Hypothesis. In this paradigm, we investigate how objective measurement outcomes can emerge within an purely unitary framework, and find that: (i) the interactions used in standard measurement models fail to spontaneously feature emergent objectivity and (ii) while ideal projective measurements are impossible, we can (for a given form of Hamiltonian) approximate them exponentially well as we collect more physical systems together into an ``observer'' system. We thus lay the groundwork for self-contained models of quantum measurement, proposing improvements to our simple scheme. | 翻訳日:2023-02-23 15:40:23 公開日:2023-02-22 |
# 弱教師付き視覚接地改善のための目標に着目して Focusing On Targets For Improving Weakly Supervised Visual Grounding ( http://arxiv.org/abs/2302.11252v1 ) ライセンス: Link先を確認 | Viet-Quoc Pham, Nao Mishima | (参考訳) 弱教師付きビジュアルグラウンドティングは、訓練段階で対象オブジェクトとクエリ間のマッピングが不明な特定の言語クエリに対応する画像内の領域を予測することを目的としている。
state-of-the-artメソッドは視覚言語事前学習モデルを使用してgrad-camからヒートマップを取得し、すべてのクエリワードと画像領域をマッチングし、結合ヒートマップを使用して領域の提案をランク付けする。
本稿では,このアプローチを改善するための2つの単純かつ効率的な方法を提案する。
まず,オブジェクトとシーンレベルのセマンティック表現の両方を学習するようモデルに促す,ターゲット認識型トリミング手法を提案する。
第2に,対象オブジェクトに関連する単語を抽出するために依存関係解析を適用し,それらの単語をヒートマップの組み合わせで強調する。
本稿では,従来のSOTA法であるRefCOCO,RefCOCO+,RefCOCOgを有意差で上回っている。 Weakly supervised visual grounding aims to predict the region in an image that corresponds to a specific linguistic query, where the mapping between the target object and query is unknown in the training stage. The state-of-the-art method uses a vision language pre-training model to acquire heatmaps from Grad-CAM, which matches every query word with an image region, and uses the combined heatmap to rank the region proposals. In this paper, we propose two simple but efficient methods for improving this approach. First, we propose a target-aware cropping approach to encourage the model to learn both object and scene level semantic representations. Second, we apply dependency parsing to extract words related to the target object, and then put emphasis on these words in the heatmap combination. Our method surpasses the previous SOTA methods on RefCOCO, RefCOCO+, and RefCOCOg by a notable margin. | 翻訳日:2023-02-23 15:40:06 公開日:2023-02-22 |
# Lottery Ticket仮説における階層的重要性の検討 Considering Layerwise Importance in the Lottery Ticket Hypothesis ( http://arxiv.org/abs/2302.11244v1 ) ライセンス: Link先を確認 | Benjamin Vandersmissen and Jose Oramas | (参考訳) Lottery Ticket hypothesis (LTH) は、モデルを反復的に訓練し、最も低い大域重量級の接続を除去し、残りの接続を巻き戻すことにより、スパースネットワークを抽出できることを示した。
このグローバル比較は、レイヤ内のコネクション間のコンテキスト情報を除去する。
本稿では、この層分布のいくつかを復元し、LTHを大域重大ではなく重み重み重み重み重み値に一般化する手段について述べる。
繰り返し行われるトレーニングの手順により、異なる重要なメトリクスを適用すると、重複する接続が少なく、異なるパフォーマンスの宝くじが現れる。
これは宝くじがユニークでないことを強く示唆している The Lottery Ticket Hypothesis (LTH) showed that by iteratively training a model, removing connections with the lowest global weight magnitude and rewinding the remaining connections, sparse networks can be extracted. This global comparison removes context information between connections within a layer. Here we study means for recovering some of this layer distributional context and generalise the LTH to consider weight importance values rather than global weight magnitudes. We find that given a repeatable training procedure, applying different importance metrics leads to distinct performant lottery tickets with little overlapping connections. This strongly suggests that lottery tickets are not unique | 翻訳日:2023-02-23 15:39:50 公開日:2023-02-22 |
# 統一クラウド対応離散イベント並列と分散シミュレーションアーキテクチャ A Unified Cloud-Enabled Discrete Event Parallel and Distributed Simulation Architecture ( http://arxiv.org/abs/2302.11242v1 ) ライセンス: Link先を確認 | Jos\'e L. Risco-Mart\'in, Kevin Henares, Saurabh Mittal, Luis F. Almendras and Katzalin Olcoz | (参考訳) 今日のクラウドシミュレーション環境は、リモートアクセシビリティと可変キャパシティ要件のために複雑なシステムをモデル化しシミュレートするために主に使われています。
この点において、モデリングとシミュレーション(M\&S)の計算要求におけるスケーラビリティの問題は、オンデマンドクラウドデプロイメントの弾力性によって対処できる。
しかし、これらの柔軟な原則に従って高性能なクラウドM\&Sフレームワークを実装することは、既存のアーキテクチャの並列化と分散が難しいため、簡単な作業ではない。
実際、並列および分散M\&S開発は別々の方法で進化してきた。
一方、分散アプローチは、ハイレベルアーキテクチャ(HLA)のような標準的な分散フレームワークの定義や、メッセージパッシングインターフェース(MPI)のような分散テクノロジの使用に影響を与えています。
並列のアドホックメソッドブランチとは無関係に、シミュレーション・アズ・ア・サービス(SaaS)の実装に重点を置いた、現在のコンピューティングハードウェアリソースのデプロイメントのレジリエンスによって、進化できる開発はごくわずかである。
本稿では,クラウド上で並列および分散シミュレーションを低労力で展開する上で,基盤となるモデルソースコードを変更することなく,並列および分散M\&Sアーキテクチャを統一化し,特に並列実装において,逐次シミュレーションに対して重要なスピードアップを達成する。
我々のフレームワークは、離散イベントシステム仕様(DEVS)の形式に基づいている。
並列および分散フレームワークのパフォーマンスは、xDEVS M\&Sツール、アプリケーションプログラミングインタフェース(API)、最大8ノードのDEVStoneベンチマークを使用してテストされ、それぞれ15.95\times$と1.84\times$の最大スピードアップが得られる。 Cloud simulation environments today are largely employed to model and simulate complex systems for remote accessibility and variable capacity requirements. In this regard, scalability issues in Modeling and Simulation (M\&S) computational requirements can be tackled through the elasticity of on-demand Cloud deployment. However, implementing a high performance cloud M\&S framework following these elastic principles is not a trivial task as parallelizing and distributing existing architectures is challenging. Indeed, both the parallel and distributed M\&S developments have evolved following separate ways. Parallel solutions has always been focused on ad-hoc solutions, while distributed approaches, on the other hand, have led to the definition of standard distributed frameworks like the High Level Architecture (HLA) or influenced the use of distributed technologies like the Message Passing Interface (MPI). Only a few developments have been able to evolve with the current resilience of computing hardware resources deployment, largely focused on the implementation of Simulation as a Service (SaaS), albeit independently of the parallel ad-hoc methods branch. In this paper, we present a unified parallel and distributed M\&S architecture with enough flexibility to deploy parallel and distributed simulations in the Cloud with a low effort, without modifying the underlying model source code, and reaching important speedups against the sequential simulation, especially in the parallel implementation. Our framework is based on the Discrete Event System Specification (DEVS) formalism. The performance of the parallel and distributed framework is tested using the xDEVS M\&S tool, Application Programming Interface (API) and the DEVStone benchmark with up to eight computing nodes, obtaining maximum speedups of $15.95\times$ and $1.84\times$, respectively. | 翻訳日:2023-02-23 15:39:34 公開日:2023-02-22 |
# DeepCARメソッド: 変更点を持つ時系列データの予測 The DeepCAR Method: Forecasting Time-Series Data That Have Change Points ( http://arxiv.org/abs/2302.11241v1 ) ライセンス: Link先を確認 | Ayla Jungbluth and Johannes Lederer | (参考訳) 時系列予測の多くの方法は、自己回帰、移動平均、指数的滑らか化などの古典統計学で知られている。
DeepARフレームワークは、ディープラーニングに基づいた時系列予測の新しい、最新のアプローチである。
DeepARはすでに非常に有望な結果を示している。
しかし、時系列はしばしば変化点を持ち、DeepARの予測性能を著しく低下させる可能性がある。
本稿では,これらの変化点を検出し,含むことにより,DeepARフレームワークを拡張した。
提案手法は,変化点がない場合には標準のDeepARと同等の性能を示し,変化点がある場合にはかなり優れていることを示す。
より一般的に、バッチサイズは、DeepAR、Transformer、その他の現代的な予測モデルの変化点を扱う効果的な、そして驚くほど単純な方法を提供する。 Many methods for time-series forecasting are known in classical statistics, such as autoregression, moving averages, and exponential smoothing. The DeepAR framework is a novel, recent approach for time-series forecasting based on deep learning. DeepAR has shown very promising results already. However, time series often have change points, which can degrade the DeepAR's prediction performance substantially. This paper extends the DeepAR framework by detecting and including those change points. We show that our method performs as well as standard DeepAR when there are no change points and considerably better when there are change points. More generally, we show that the batch size provides an effective and surprisingly simple way to deal with change points in DeepAR, Transformers, and other modern forecasting models. | 翻訳日:2023-02-23 15:39:04 公開日:2023-02-22 |
# 近似スペクトルクラスタリング密度に基づくノイズデータセットの類似性 Approximate spectral clustering density-based similarity for noisy datasets ( http://arxiv.org/abs/2302.11298v1 ) ライセンス: Link先を確認 | Mashaan Alshammari, Masahiro Takatsuka | (参考訳) スペクトルクラスタリング(sc)の重い計算要求を克服するために近似スペクトルクラスタリング(asc)を開発した。
非凸クラスタを予測するためのSC機能を維持している。
前処理ステップを含むため、ASCはグラフエッジに重みを割り当てるための新しい類似度尺度を定義する。
接続性行列(CONN)は、ASCのグラフを構成するための効率的な類似度尺度である。
これは、2つの頂点の間の重みをベクトル量子化訓練中にそれらに割り当てられた点の数として定義する。
しかし、この関係は無向であり、どの頂点がその辺にもっと貢献しているかは明らかではない。
また、クラスタ間のノイズ密度によって、connを騙すこともできる。
私たちは、エッジへの頂点コントリビューションに関する洞察を得るために、DCONNという名前のCONNの有向バージョンを定義しました。
また,CONNエッジが潜在的なクラスタを強調していることを確認するためのフィルタリング手法も提供した。
実験の結果,CONNは雑音を許容できない場合,フィルタの効率が高いことがわかった。 Approximate spectral clustering (ASC) was developed to overcome heavy computational demands of spectral clustering (SC). It maintains SC ability in predicting non-convex clusters. Since it involves a preprocessing step, ASC defines new similarity measures to assign weights on graph edges. Connectivity matrix (CONN) is an efficient similarity measure to construct graphs for ASC. It defines the weight between two vertices as the number of points assigned to them during vector quantization training. However, this relationship is undirected, where it is not clear which of the vertices is contributing more to that edge. Also, CONN could be tricked by noisy density between clusters. We defined a directed version of CONN, named DCONN, to get insights on vertices contributions to edges. Also, we provided filtering schemes to ensure CONN edges are highlighting potential clusters. Experiments reveal that the proposed filtering was highly efficient when noise cannot be tolerated by CONN. | 翻訳日:2023-02-23 15:33:08 公開日:2023-02-22 |
# 固有ベクトル選択と自己調整$k$を用いた近似スペクトルクラスタリング Approximate spectral clustering with eigenvector selection and self-tuned $k$ ( http://arxiv.org/abs/2302.11297v1 ) ライセンス: Link先を確認 | Mashaan Alshammari, Masahiro Takatsuka | (参考訳) 最近出現したスペクトルクラスタリングは、凸性仮定なしで任意の形状のクラスターを検出することによって、従来のクラスタリング法を超える。
残念なことに、$O(n^3)$の計算複雑性では、$n$が大きければ複数の実アプリケーションでは不可能であった。
これにより、研究者は近似スペクトルクラスタリング(ASC)を提案する。
しかし、ASCの手法のほとんどは、$k$のクラスタ数が知られていると仮定した。
実際には、$k$のマニュアル設定は主観的あるいは時間を要する可能性がある。
提案アルゴリズムは、ASCの2つの重要なステップにおいて、$k$を推定する2つの関連指標を持つ。
1つは埋め込み空間にまたがる固有ベクトルを選択し、もう1つはその空間内のクラスタの数を検出する。
アルゴリズムは成長するニューラルガス(GNG)近似を用い、GNGは入力データトポロジーを保存するのに優れている。
実験では、提案アルゴリズムの効率と、$k$が手動で設定された類似の手法と競合する能力を示す。 The recently emerged spectral clustering surpasses conventional clustering methods by detecting clusters of any shape without the convexity assumption. Unfortunately, with a computational complexity of $O(n^3)$, it was infeasible for multiple real applications, where $n$ could be large. This stimulates researchers to propose the approximate spectral clustering (ASC). However, most of ASC methods assumed that the number of clusters $k$ was known. In practice, manual setting of $k$ could be subjective or time consuming. The proposed algorithm has two relevance metrics for estimating $k$ in two vital steps of ASC. One for selecting the eigenvectors spanning the embedding space, and the other to discover the number of clusters in that space. The algorithm used a growing neural gas (GNG) approximation, GNG is superior in preserving input data topology. The experimental setup demonstrates the efficiency of the proposed algorithm and its ability to compete with similar methods where $k$ was set manually. | 翻訳日:2023-02-23 15:32:56 公開日:2023-02-22 |
# 計算効率の良いスペクトルクラスタリングのための$k$-nearest 近傍グラフの精製 Refining a $k$-nearest neighbor graph for a computationally efficient spectral clustering ( http://arxiv.org/abs/2302.11296v1 ) ライセンス: Link先を確認 | Mashaan Alshammari, John Stavrakakis, Masahiro Takatsuka | (参考訳) スペクトルクラスタリングは、異なる形状のクラスタを探索する能力を持つため、データクラスタリングの一般的な選択肢となった。
しかし、計算要求のため、他のクラスタリング手法よりも必ずしも好まれるとは限らない。
これらの計算要求を回避する効果的な方法の1つは、点(データ代表者)のサブセット上でスペクトルクラスタリングを行い、クラスタリング結果を一般化することであり、これは近似スペクトルクラスタリング(ASC)として知られている。
ASCはサンプリングまたは量子化を使用してデータ代表を選択する。
これにより脆弱になる。
1) 性能の整合性(初期化又は訓練においてランダムなステップを有するため)
2)局所統計損失(データポイントではなくデータ代表者から対の類似性を抽出するため)。
我々は、データポイントを保持し、計算効率を高めるためにエッジ数を積極的に削減する、$k$-nearest 隣のグラフの洗練されたバージョンを提案した。
ローカル統計は、クラスタ内距離に違反しないエッジを保持し、$k$-nearestの隣グラフの他のエッジをすべて無効にするために利用された。
また、クラスタ数を自動的に選択するオプションのステップも導入しました。
提案手法は, 合成および実データを用いた。
ASC法と比較して,提案手法はエッジの大幅な削減にもかかわらず一貫した性能を示した。 Spectral clustering became a popular choice for data clustering for its ability of uncovering clusters of different shapes. However, it is not always preferable over other clustering methods due to its computational demands. One of the effective ways to bypass these computational demands is to perform spectral clustering on a subset of points (data representatives) then generalize the clustering outcome, this is known as approximate spectral clustering (ASC). ASC uses sampling or quantization to select data representatives. This makes it vulnerable to 1) performance inconsistency (since these methods have a random step either in initialization or training), 2) local statistics loss (because the pairwise similarities are extracted from data representatives instead of data points). We proposed a refined version of $k$-nearest neighbor graph, in which we keep data points and aggressively reduce number of edges for computational efficiency. Local statistics were exploited to keep the edges that do not violate the intra-cluster distances and nullify all other edges in the $k$-nearest neighbor graph. We also introduced an optional step to automatically select the number of clusters $C$. The proposed method was tested on synthetic and real datasets. Compared to ASC methods, the proposed method delivered a consistent performance despite significant reduction of edges. | 翻訳日:2023-02-23 15:32:40 公開日:2023-02-22 |
# 森林における公正な相関クラスタリング Fair Correlation Clustering in Forests ( http://arxiv.org/abs/2302.11295v1 ) ライセンス: Link先を確認 | Katrin Casel, Tobias Friedrich, Martin Schirneck, Simon Wietheger | (参考訳) アルゴリズムフェアネスの研究は近年注目を集めている。
これは、機械学習システムの入力データのバイアスが差別的な出力をもたらすという認識に由来する。
クラスタリングタスクについては、Chierichetti、Kumar、Lattanzi、Vassilvitskiiによる公式化(NeurIPS 2017)が最も中心的なフェアネスの概念の1つである。
各クラスタが入力セット全体と同じ感度の属性の表現の分布を持っている場合、クラスタリングは公平であると言われている。
これは、クラスタ化対象のオブジェクトが過度に、あるいは過度に表現すべきでないセンシティブな属性を持つ様々なアプリケーションによって動機付けられている。
本稿では,この公正概念の相関クラスタリングへの適用性について論じる。
結果の公正相関クラスタリング問題に関する既存の文献は、近似アルゴリズムに近似の保証が乏しいか、センシティブな属性の分布を厳しく制限する(しばしば1:1比の2つの表現しか考慮されない)。
私たちの目標は、これら2つの極端の間によりよい結果が期待できるかどうかを理解することです。
この目的のために、このフェアネスの形式が複雑性の観点から扱いやすい繊細な属性の分布を特徴付ける制限付きグラフクラスを考える。
相関クラスタリングの既存の研究は近似アルゴリズムを提供するが、正確な解に注目し、効率的に解けるインスタンスが存在するかどうかを調べる。
相関クラスタリングの不公平なバージョンは、森林では自明だが、公平性を加えると驚くほど豊かになる。
フェア相関クラスタリングがトラクタブルからトラクタブルに変化する森林の分布とタイプについて概説する。
最も驚くべき洞察は、公平な相関クラスタリングの困難さの原因が公平性条件の厳密さではないという事実である。 The study of algorithmic fairness received growing attention recently. This stems from the awareness that bias in the input data for machine learning systems may result in discriminatory outputs. For clustering tasks, one of the most central notions of fairness is the formalization by Chierichetti, Kumar, Lattanzi, and Vassilvitskii [NeurIPS 2017]. A clustering is said to be fair, if each cluster has the same distribution of manifestations of a sensitive attribute as the whole input set. This is motivated by various applications where the objects to be clustered have sensitive attributes that should not be over- or underrepresented. We discuss the applicability of this fairness notion to Correlation Clustering. The existing literature on the resulting Fair Correlation Clustering problem either presents approximation algorithms with poor approximation guarantees or severely limits the possible distributions of the sensitive attribute (often only two manifestations with a 1:1 ratio are considered). Our goal is to understand if there is hope for better results in between these two extremes. To this end, we consider restricted graph classes which allow us to characterize the distributions of sensitive attributes for which this form of fairness is tractable from a complexity point of view. While existing work on Fair Correlation Clustering gives approximation algorithms, we focus on exact solutions and investigate whether there are efficiently solvable instances. The unfair version of Correlation Clustering is trivial on forests, but adding fairness creates a surprisingly rich picture of complexities. We give an overview of the distributions and types of forests where Fair Correlation Clustering turns from tractable to intractable. The most surprising insight to us is the fact that the cause of the hardness of Fair Correlation Clustering is not the strictness of the fairness condition. | 翻訳日:2023-02-23 15:32:20 公開日:2023-02-22 |
# 変分オートエンコーダの無限量子化とガウス性を超えて Distributional Variational AutoEncoder To Infinite Quantiles and Beyond Gaussianity ( http://arxiv.org/abs/2302.11294v1 ) ライセンス: Link先を確認 | SeungHwan An, Jong-June Jeon | (参考訳) ガウス性仮定は、計算に有用であるにもかかわらず、変分オートエンコーダ(VAE)の主な限界として指摘されている。
VAEの分布能力(すなわち分布族の表現力)を向上させるために,その生成モデルに非パラメトリック分布仮定を用いた新しいVAE学習法を提案する。
提案するvaeモデルは, 無限個の条件量子量を推定することにより, 条件累積分布関数を直接推定し, この手法をvaeの分布学習と呼ぶ。
さらに,CRPS (Continuous Rank probability score) の損失を適用して,提案した学習手法を計算的に抽出する。
基礎となるデータセットの分布がどの程度うまく捉えられるかを評価するため,逆変換サンプリングに基づく合成データ生成に本モデルを適用する。
実際の表付きデータセットによる数値結果が議論を裏付ける。 The Gaussianity assumption has been pointed out as the main limitation of the Variational AutoEncoder (VAE) in spite of its usefulness in computation. To improve the distributional capacity (i.e., expressive power of distributional family) of the VAE, we propose a new VAE learning method with a nonparametric distributional assumption on its generative model. By estimating an infinite number of conditional quantiles, our proposed VAE model directly estimates the conditional cumulative distribution function, and we call this approach distributional learning of the VAE. Furthermore, by adopting the continuous ranked probability score (CRPS) loss, our proposed learning method becomes computationally tractable. To evaluate how well the underlying distribution of the dataset is captured, we apply our model for synthetic data generation based on inverse transform sampling. Numerical results with real tabular datasets corroborate our arguments. | 翻訳日:2023-02-23 15:31:49 公開日:2023-02-22 |
# Recon:マルチタスク学習のためのルートからの競合グラディエント削減 Recon: Reducing Conflicting Gradients from the Root for Multi-Task Learning ( http://arxiv.org/abs/2302.11289v1 ) ライセンス: Link先を確認 | Guangyuan Shi, Qimai Li, Wenlong Zhang, Jiaxin Chen, Xiao-Ming Wu | (参考訳) マルチタスク学習の基本的な課題は、異なるタスクが共同で解決されたときに互いに衝突する可能性があり、この現象の原因は最適化中の相反する勾配である。
最近の研究は、いくつかの基準に基づいて直接勾配を変化させることで、矛盾する勾配の影響を緩和しようとする。
しかし,本研究では,'gradient surgery'は相反する勾配の発生を効果的に減少させることができないことが示された。
本稿では,根からの相反する勾配を減少させるために異なるアプローチをとる。
基本的に、各共有ネットワーク層におけるタスク勾配を調査し、高い競合スコアを持つレイヤを選択し、タスク固有のレイヤに変換する。
実験の結果、このような単純な手法は、残余の共有層における矛盾する勾配の発生を大幅に低減し、多くの場合においてモデルパラメータがわずかに増加し、性能が向上することが示された。
本手法は,グラデーション操作法や分岐アーキテクチャ探索法など,様々な最先端手法の改善に容易に適用できる。
ネットワークアーキテクチャ(例: resnet18)が与えられた場合、コンフリクト層を一度だけ検索し、ネットワークを同じまたは異なるデータセット上の異なるメソッドで使用してパフォーマンス改善を行うように変更することができる。
ソースコードはhttps://github.com/moukamisama/reconで入手できる。 A fundamental challenge for multi-task learning is that different tasks may conflict with each other when they are solved jointly, and a cause of this phenomenon is conflicting gradients during optimization. Recent works attempt to mitigate the influence of conflicting gradients by directly altering the gradients based on some criteria. However, our empirical study shows that ``gradient surgery'' cannot effectively reduce the occurrence of conflicting gradients. In this paper, we take a different approach to reduce conflicting gradients from the root. In essence, we investigate the task gradients w.r.t. each shared network layer, select the layers with high conflict scores, and turn them to task-specific layers. Our experiments show that such a simple approach can greatly reduce the occurrence of conflicting gradients in the remaining shared layers and achieve better performance, with only a slight increase in model parameters in many cases. Our approach can be easily applied to improve various state-of-the-art methods including gradient manipulation methods and branched architecture search methods. Given a network architecture (e.g., ResNet18), it only needs to search for the conflict layers once, and the network can be modified to be used with different methods on the same or even different datasets to gain performance improvement. The source code is available at https://github.com/moukamisama/Recon. | 翻訳日:2023-02-23 15:31:35 公開日:2023-02-22 |
# 逐次データのためのニューラルネットワークによる分類規則学習 Neural-based classification rule learning for sequential data ( http://arxiv.org/abs/2302.11286v1 ) ライセンス: Link先を確認 | Marine Collery, Philippe Bonnard, Fran\c{c}ois Fages and Remy Kusters | (参考訳) シーケンシャルデータの分類のための解釈可能なパターンの発見は、ゲノム学から不正検出、あるいはより一般的に解釈可能な意思決定まで、さまざまな分野において重要な意味を持つ。
本稿では,ルールに基づく二項分類のための局所的パターンと大域的パターン(相対的・絶対的時間的依存)の両方を識別する,新しい可微分完全解釈法を提案する。
解釈可能なニューラルネットワークを備えた畳み込みバイナリニューラルネットワークと、動的に強化された間隔に基づくトレーニング戦略で構成される。
合成データセットおよびオープンソースペプチドデータセットに対するアプローチの有効性と有用性を示す。
このエンドツーエンドの微分可能な方法の鍵は、ルールで使われる表現力のあるパターンがルールそのものと共に学習されることです。 Discovering interpretable patterns for classification of sequential data is of key importance for a variety of fields, ranging from genomics to fraud detection or more generally interpretable decision-making. In this paper, we propose a novel differentiable fully interpretable method to discover both local and global patterns (i.e. catching a relative or absolute temporal dependency) for rule-based binary classification. It consists of a convolutional binary neural network with an interpretable neural filter and a training strategy based on dynamically-enforced sparsity. We demonstrate the validity and usefulness of the approach on synthetic datasets and on an open-source peptides dataset. Key to this end-to-end differentiable method is that the expressive patterns used in the rules are learned alongside the rules themselves. | 翻訳日:2023-02-23 15:31:14 公開日:2023-02-22 |
# 陸路における船舶交通監視のための非同期軌道整合型マルチモーダル海洋データフュージョン Asynchronous Trajectory Matching-Based Multimodal Maritime Data Fusion for Vessel Traffic Surveillance in Inland Waterways ( http://arxiv.org/abs/2302.11283v1 ) ライセンス: Link先を確認 | Yu Guo, Ryan Wen Liu, Jingxiang Qu, Yuxu Lu, Fenghua Zhu, Yisheng Lv | (参考訳) 自動識別システム(ais)とビデオカメラは内陸水路における船舶の交通監視に広く利用されている。
AISデータは、船の位置と動きに関する容器のアイデンティティと動的情報を提供することができる。
それとは対照的に、動画データは移動船の視覚的な外観を記述できるが、身元や位置、動きなどの情報を知らない。
船舶の交通監視をさらに改善するためには、AISとビデオデータを融合して、興味のある船舶の視覚的特徴、アイデンティティ、動的情報を同時に捉える必要がある。
しかし、従来のデータ融合メソッドは、非同期メッセージ、欠落データ、ランダムな外れ値など、いくつかの潜在的な制限に容易に悩まされる。
そこで本研究では,まずaisとビデオによる容器軌跡を抽出し,次にdeepsorvfと呼ばれる深層学習可能な非同期軌道マッチング法を提案する。
さらに,AISと映像に基づく動作特徴を組み合わせることで,従来から知識駆動型抗閉塞法により,閉塞条件下での血管追跡の精度と堅牢性を示す。
DeepSORVFの有効性を検証するため、我々はまた、血管検出、追跡、データ融合のための新しいベンチマークデータセット(FVesselと呼ばれる)を構築した。
多くのビデオと、様々な気象条件や場所で収集されたAISデータで構成されている。
実験の結果,本手法は高信頼データ融合と抗閉塞血管追跡を保証できることがわかった。 The automatic identification system (AIS) and video cameras have been widely exploited for vessel traffic surveillance in inland waterways. The AIS data could provide the vessel identity and dynamic information on vessel position and movements. In contrast, the video data could describe the visual appearances of moving vessels, but without knowing the information on identity, position and movements, etc. To further improve vessel traffic surveillance, it becomes necessary to fuse the AIS and video data to simultaneously capture the visual features, identity and dynamic information for the vessels of interest. However, traditional data fusion methods easily suffer from several potential limitations, e.g., asynchronous messages, missing data, random outliers, etc. In this work, we first extract the AIS- and video-based vessel trajectories, and then propose a deep learning-enabled asynchronous trajectory matching method (named DeepSORVF) to fuse the AIS-based vessel information with the corresponding visual targets. In addition, by combining the AIS- and video-based movement features, we also present a prior knowledge-driven anti-occlusion method to yield accurate and robust vessel tracking results under occlusion conditions. To validate the efficacy of our DeepSORVF, we have also constructed a new benchmark dataset (termed FVessel) for vessel detection, tracking, and data fusion. It consists of many videos and the corresponding AIS data collected in various weather conditions and locations. The experimental results have demonstrated that our method is capable of guaranteeing high-reliable data fusion and anti-occlusion vessel tracking. | 翻訳日:2023-02-23 15:31:01 公開日:2023-02-22 |
# plato-2に基づく話題スイッチ対応日本語対話システム Topic-switch adapted Japanese Dialogue System based on PLATO-2 ( http://arxiv.org/abs/2302.11280v1 ) ライセンス: Link先を確認 | Donghuo Zeng, Jianming Wu, Yanan Wang, Kazunori Matsumoto, Gen Hattori, Kazushi Ikeda | (参考訳) PLATO-2のような大規模オープンドメイン対話システムは、英語と中国語の両方で最先端のスコアを獲得した。
しかし、これらの対話システムが日本語でもうまく機能するかどうかは、ほとんど研究されていない。
本研究では,ニュース,テレビ字幕,ウィキペディアコーパスのツリー構造に6億6600万の対話データを含む大規模日本語対話データセットであるダイアロググラフを作成する。
そして,対話グラフを用いてPLATO-2を訓練し,大規模対話システムPLATO-JDSを構築する。
また,トピックスイッチ問題におけるPLATO-JDSの改善のために,トピック識別器で構成されるトピックスウィッチアルゴリズムを導入し,ユーザ入力が以前のトピックと異なる場合に新しいトピックに切り替える。
我々は,4つの指標,すなわちコヒーレンス,情報性,エンゲージメント,人間性に関するモデルを用いて,ユーザエクスペリエンスを評価する。
その結果,提案するPLATO-JDSは,人間のチャット戦略を用いた評価において平均1.500点のスコアを達成し,そのスコアは最大2.000点に近づき,日本語におけるPLATO-2の対話能力の向上を示唆している。
さらに,提案アルゴリズムは平均スコア1.767を達成し,PLATO-JDSを0.267で上回り,システムのユーザエクスペリエンス向上に有効であることを示す。 Large-scale open-domain dialogue systems such as PLATO-2 have achieved state-of-the-art scores in both English and Chinese. However, little work explores whether such dialogue systems also work well in the Japanese language. In this work, we create a large-scale Japanese dialogue dataset, Dialogue-Graph, which contains 1.656 million dialogue data in a tree structure from News, TV subtitles, and Wikipedia corpus. Then, we train PLATO-2 using Dialogue-Graph to build a large-scale Japanese dialogue system, PLATO-JDS. In addition, to improve the PLATO-JDS in the topic switch issue, we introduce a topic-switch algorithm composed of a topic discriminator to switch to a new topic when user input differs from the previous topic. We evaluate the user experience by using our model with respect to four metrics, namely, coherence, informativeness, engagingness, and humanness. As a result, our proposed PLATO-JDS achieves an average score of 1.500 for the human evaluation with human-bot chat strategy, which is close to the maximum score of 2.000 and suggests the high-quality dialogue generation capability of PLATO-2 in Japanese. Furthermore, our proposed topic-switch algorithm achieves an average score of 1.767 and outperforms PLATO-JDS by 0.267, indicating its effectiveness in improving the user experience of our system. | 翻訳日:2023-02-23 15:30:37 公開日:2023-02-22 |
# データ・ツー・テキスト・データのための複数ソースからの学習 Learning from Multiple Sources for Data-to-Text and Text-to-Data ( http://arxiv.org/abs/2302.11269v1 ) ライセンス: Link先を確認 | Song Duong, Alberto Lumbreras, Mike Gartrell, Patrick Gallinari | (参考訳) Data-to-text (D2T) と text-to-data (T2D) は、グラフやテーブルなどの構造化されたデータを流用する2つのタスクである。
これらのタスクは通常別々に処理され、単一のソースから抽出されたコーパスを使用する。
現在のシステムは、D2TやT2Dタスクに微調整された事前訓練された言語モデルを利用している。
このアプローチには2つの主な制限がある。ひとつは、タスクとソース毎に個別のシステムを調整する必要があること、もうひとつは、利用可能なコーパスの不足によって学習が制限されることだ。
本稿では,複数の異種ソースからデータが得られる,より一般的なシナリオについて考察する。
各ソースは、特定のデータフォーマットとセマンティックドメインを持ち、テキストと構造化データの非並列コーパスを提供する。
テキストやデータの複数のソースから派生した多様性を表現できる,アンタングル型スタイルとコンテンツ変数を備えた変分自動エンコーダモデルを提案する。
我々のモデルはD2TとT2Dのタスクを共同で扱うように設計されている。
複数のデータセットでモデルを評価し,複数のソースから学習することで,教師付き単一ソースモデルによるパフォーマンスギャップを解消し,場合によってはそれを上回っていることを示す。 Data-to-text (D2T) and text-to-data (T2D) are dual tasks that convert structured data, such as graphs or tables into fluent text, and vice versa. These tasks are usually handled separately and use corpora extracted from a single source. Current systems leverage pre-trained language models fine-tuned on D2T or T2D tasks. This approach has two main limitations: first, a separate system has to be tuned for each task and source; second, learning is limited by the scarcity of available corpora. This paper considers a more general scenario where data are available from multiple heterogeneous sources. Each source, with its specific data format and semantic domain, provides a non-parallel corpus of text and structured data. We introduce a variational auto-encoder model with disentangled style and content variables that allows us to represent the diversity that stems from multiple sources of text and data. Our model is designed to handle the tasks of D2T and T2D jointly. We evaluate our model on several datasets, and show that by learning from multiple sources, our model closes the performance gap with its supervised single-source counterpart and outperforms it in some cases. | 翻訳日:2023-02-23 15:30:14 公開日:2023-02-22 |
# ディープラーニングの性能向上:畳み込みニューラルネットワークと深層ニューラルネットワークの訓練のための勾配向上アプローチ Boosting the performance of deep learning: A gradient Boosting approach to training convolutional and deep neural network ( http://arxiv.org/abs/2302.11327v1 ) ライセンス: Link先を確認 | Seyedsaman Emami and Gonzalo Mart\'inez-Mu\~noz | (参考訳) ディープラーニングはコンピュータビジョンと画像分類領域に革命をもたらした。
この文脈では、畳み込みニューラルネットワーク(CNN)ベースのアーキテクチャが最も広く適用されているモデルである。
本稿では, GB-CNN と GB-DNN に基づく畳み込みニューラルネットワーク (CNN) とディープニューラルネットワーク (Deep Neural Network) の2つの訓練手順を紹介した。
これらのモデルは、損失関数の勾配や以前のモデルの擬似残差に適合するように訓練されている。
各イテレーションで、提案手法では、前のディープnnモデルの正確なコピーに1つの密層を追加する。
以前のイテレーションでトレーニングされた高密度層の重みは、過度な適合を防ぐために凍結され、モデルが新しい高密度層に適合し、既に学んだ情報を利用して畳み込み層(GB-CNN)を微調整することができる。
異なる2次元画像分類と表付きデータセットの広範な実験を通じて、同じアーキテクチャを持つ標準CNNとDeep-NNの分類精度において優れた性能を示す。 Deep learning has revolutionized the computer vision and image classification domains. In this context Convolutional Neural Networks (CNNs) based architectures are the most widely applied models. In this article, we introduced two procedures for training Convolutional Neural Networks (CNNs) and Deep Neural Network based on Gradient Boosting (GB), namely GB-CNN and GB-DNN. These models are trained to fit the gradient of the loss function or pseudo-residuals of previous models. At each iteration, the proposed method adds one dense layer to an exact copy of the previous deep NN model. The weights of the dense layers trained on previous iterations are frozen to prevent over-fitting, permitting the model to fit the new dense as well as to fine-tune the convolutional layers (for GB-CNN) while still utilizing the information already learned. Through extensive experimentation on different 2D-image classification and tabular datasets, the presented models show superior performance in terms of classification accuracy with respect to standard CNN and Deep-NN with the same architecture. | 翻訳日:2023-02-23 15:24:42 公開日:2023-02-22 |
# Video-SwinUNet: VFSSインスタンス分割のための時空間深層学習フレームワーク Video-SwinUNet: Spatio-temporal Deep Learning Framework for VFSS Instance Segmentation ( http://arxiv.org/abs/2302.11325v1 ) ライセンス: Link先を確認 | Chengxi Zeng, Xinyu Yang, David Smithard, Majid Mirmehdi, Alberto M Gambaruto, Tilo Burghardt | (参考訳) 本稿では,医療ビデオセグメンテーションのためのディープラーニングフレームワークを提案する。
畳み込みニューラルネットワーク(cnn)とトランスフォーマーベースの手法は、その驚くべきセマンティックな特徴エンコーディングとグローバルな情報理解能力によって、医療画像分割タスクにおいて大きなマイルストーンを達成した。
しかし、既存のアプローチのほとんどは、時間次元という医療ビデオデータの健全な側面を無視している。
提案するフレームワークは,隣接フレームから時間次元にまたがる特徴を明示的に抽出し,それを時間的特徴ブレンダに組み込むことにより,高レベルの時空間的特徴をトークン化し,スウィントランスで符号化された強大域的特徴を形成する。
最終的なセグメンテーション結果は、UNetのようなエンコーダデコーダアーキテクチャによって生成される。
このモデルは,vfss2022データセットのセグメンテーションベンチマークを改善し,テストした2つのデータセットに対して0.8986と0.8186のサイス係数を実現した。
本研究は,学習能力の時間的特徴ブレンドスキームとデータセット間転送可能性の有効性も示す。
コードとモデルはhttps://github.com/simonzeng7108/video-swinunetで完全に利用できる。 This paper presents a deep learning framework for medical video segmentation. Convolution neural network (CNN) and transformer-based methods have achieved great milestones in medical image segmentation tasks due to their incredible semantic feature encoding and global information comprehension abilities. However, most existing approaches ignore a salient aspect of medical video data - the temporal dimension. Our proposed framework explicitly extracts features from neighbouring frames across the temporal dimension and incorporates them with a temporal feature blender, which then tokenises the high-level spatio-temporal feature to form a strong global feature encoded via a Swin Transformer. The final segmentation results are produced via a UNet-like encoder-decoder architecture. Our model outperforms other approaches by a significant margin and improves the segmentation benchmarks on the VFSS2022 dataset, achieving a dice coefficient of 0.8986 and 0.8186 for the two datasets tested. Our studies also show the efficacy of the temporal feature blending scheme and cross-dataset transferability of learned capabilities. Code and models are fully available at https://github.com/SimonZeng7108/Video-SwinUNet. | 翻訳日:2023-02-23 15:24:21 公開日:2023-02-22 |
# 量子選択構成相互作用:量子コンピュータによって選択された部分空間におけるハミルトンの古典的対角化 Quantum-Selected Configuration Interaction: classical diagonalization of Hamiltonians in subspaces selected by quantum computers ( http://arxiv.org/abs/2302.11320v1 ) ライセンス: Link先を確認 | Keita Kanno, Masaya Kohda, Ryosuke Imai, Sho Koh, Kosuke Mitarai, Wataru Mizukami, Yuya O. Nakagawa | (参考訳) ノイズ量子デバイス上で多電子ハミルトニアンの基底エネルギーと励起状態エネルギーを計算するためのハイブリッド量子古典アルゴリズムのクラスであるquantum-selected configuration interaction (qsci)を提案する。
量子コンピュータ上で近似基底状態が、変分量子固有解法または他の方法によって準備できると仮定する。
そして、一般に古典計算では難しい計算ベースで状態をサンプリングすることで、基底状態の再現に重要な電子配置を識別することができる。
これらの重要な構成にまたがる部分空間のハミルトニアンは、古典的コンピュータ上で対角化され、基底状態エネルギーと対応する固有ベクトルを出力する。
励起状態エネルギーも同様に得ることができる。
ノイズの多い量子デバイスは部分空間を定義するためにのみ使用され、その結果の基底状態エネルギーはそのような誤差が存在する場合でも変動原理を厳密に満たすため、統計的および物理的誤差に対して堅牢である。
他の様々な作用素の期待値は、部分空間内の明示的な固有ベクトルが知られているため、追加の量子コストなしで得られる固有状態についても推定することができる。
この提案を数値シミュレーションにより検証し、8量子ビット分子ハミルトニアンの量子デバイス上で実証した。
提案アルゴリズムは、数十量子ビットの量子デバイスを利用して、対角化のための高性能な古典計算資源を補助することにより、いくつかの挑戦的な分子に取り組むことが可能である。 We propose quantum-selected configuration interaction (QSCI), a class of hybrid quantum-classical algorithms for calculating the ground- and excited-state energies of many-electron Hamiltonians on noisy quantum devices. Suppose that an approximate ground state can be prepared on a quantum computer either by variational quantum eigensolver or by some other method. Then, by sampling the state in the computational basis, which is hard for classical computation in general, one can identify the electron configurations that are important for reproducing the ground state. The Hamiltonian in the subspace spanned by those important configurations is diagonalized on classical computers to output the ground-state energy and the corresponding eigenvector. The excited-state energies can be obtained similarly. The result is robust against statistical and physical errors because the noisy quantum devices are used only to define the subspace, and the resulting ground-state energy strictly satisfies the variational principle even in the presence of such errors. The expectation values of various other operators can also be estimated for obtained eigenstates with no additional quantum cost, since the explicit eigenvectors in the subspaces are known. We verified our proposal by numerical simulations, and demonstrated it on a quantum device for an 8-qubit molecular Hamiltonian. The proposed algorithms are potentially feasible to tackle some challenging molecules by exploiting quantum devices with several tens of qubits, assisted by high-performance classical computing resources for diagonalization. | 翻訳日:2023-02-23 15:23:59 公開日:2023-02-22 |
# グラフニューラルネットワークによる時変信号の復元 Time-varying Signals Recovery via Graph Neural Networks ( http://arxiv.org/abs/2302.11313v1 ) ライセンス: Link先を確認 | Jhon A. Castro-Correa, Jhony H. Giraldo, Anindya Mondal, Mohsen Badiey, Thierry Bouwmans, Fragkiskos D. Malliaros | (参考訳) 時間変化グラフ信号の回復は、センサネットワークや時系列予測の多くの応用において根本的な問題である。
これらの信号の時空間情報を効果的に捉えることは下流タスクに不可欠である。
従来の研究では、そのようなグラフ信号の時間差の滑らかさを初期仮定として用いていた。
それでも、この滑らかさの仮定は、前者が持たない場合、対応するアプリケーションの性能の低下をもたらす可能性がある。
本研究では,学習モジュールを含めることで,この仮説の要件を緩和する。
時間変動グラフ信号の回復のための時間グラフニューラルネットワーク(TimeGNN)を提案する。
提案アルゴリズムは,平均二乗誤差関数とソボレフスムーズネス演算子からなる特殊損失を持つエンコーダデコーダアーキテクチャを用いており,TimeGNNは実際のデータセットにおける従来の手法と競合する性能を示す。 The recovery of time-varying graph signals is a fundamental problem with numerous applications in sensor networks and forecasting in time series. Effectively capturing the spatio-temporal information in these signals is essential for the downstream tasks. Previous studies have used the smoothness of the temporal differences of such graph signals as an initial assumption. Nevertheless, this smoothness assumption could result in a degradation of performance in the corresponding application when the prior does not hold. In this work, we relax the requirement of this hypothesis by including a learning module. We propose a Time Graph Neural Network (TimeGNN) for the recovery of time-varying graph signals. Our algorithm uses an encoder-decoder architecture with a specialized loss composed of a mean squared error function and a Sobolev smoothness operator.TimeGNN shows competitive performance against previous methods in real datasets. | 翻訳日:2023-02-23 15:23:19 公開日:2023-02-22 |
# 行動近位政策最適化 Behavior Proximal Policy Optimization ( http://arxiv.org/abs/2302.11312v1 ) ライセンス: Link先を確認 | Zifeng Zhuang, Kun Lei, Jinxin Liu, Donglin Wang, Yilang Guo | (参考訳) オフライン強化学習(rl)は、既存のオフ・ポリティカル・アクタ-クリティックな手法が、分散状態-アクションペアの過大評価のために機能しないという、難しい設定である。
したがって、学習したポリシーをオフラインデータセット(または行動ポリシー)に近付けるために、さらに様々な拡張が提案されている。
本稿では,オフライン・モノトニック・ポリシー改善の分析から,オンライン・オン・ポリシィ・アルゴリズムのいくつかが自然にオフライン・rlを解決できるという驚くべき発見を得た。
具体的には、これらのオンラインアルゴリズムの本質的に保守性は、オフラインのRL法が過大評価を克服するために必要なものである。
そこで本研究では,PPOに比較して追加制約や正規化を伴わずにオフラインのRLを解消する振舞いプロキシポリシー最適化(BPPO)を提案する。
D4RLベンチマークの大規模な実験は、この極めて簡潔な手法が最先端のオフラインRLアルゴリズムより優れていることを示している。
実装はhttps://github.com/Dragon-Zhuang/BPPO.comで公開しています。 Offline reinforcement learning (RL) is a challenging setting where existing off-policy actor-critic methods perform poorly due to the overestimation of out-of-distribution state-action pairs. Thus, various additional augmentations are proposed to keep the learned policy close to the offline dataset (or the behavior policy). In this work, starting from the analysis of offline monotonic policy improvement, we get a surprising finding that some online on-policy algorithms are naturally able to solve offline RL. Specifically, the inherent conservatism of these on-policy algorithms is exactly what the offline RL method needs to overcome the overestimation. Based on this, we propose Behavior Proximal Policy Optimization (BPPO), which solves offline RL without any extra constraint or regularization introduced compared to PPO. Extensive experiments on the D4RL benchmark indicate this extremely succinct method outperforms state-of-the-art offline RL algorithms. Our implementation is available at https://github.com/Dragon-Zhuang/BPPO. | 翻訳日:2023-02-23 15:22:58 公開日:2023-02-22 |
# kcbsシナリオにおけるコンカージェンスの観点からの量子コンテキスト性の程度 The Degree of Quantum Contextuality in terms of Concurrence for the KCBS Scenario ( http://arxiv.org/abs/2302.11310v1 ) ライセンス: Link先を確認 | Firat Diker, Zafer Gedik | (参考訳) 量子コンテキスト性(quantum contextity)は、測定の結果が見つかったコンテキストとは独立ではないという事実を説明する重要な概念である。
内在的な特徴、すなわち、絡み合いや空間的分離は必要とされない。
本研究では, 絡み合いが自己絡み合いと呼ばれる本質的性質であることを示す先行研究を再検討する。
この事実を用いて、KCBSシナリオにおける量子的文脈性と共起の関係を明確に示し、これは文脈性を観測する最も単純なアプローチである。
また、所定のコンカレンスに対するKCBSシナリオの最大違反の方程式を導出し、それらの間の線形関係を求める。
この関係を用いて、任意の絡み合いに対して、KCBSとCHSHの不平等の最大値違反がどのように関係しているかを示す。
さらに、最大絡みの特別な場合と、より低い局所境界を発見した非絡みについて論じる。 Quantum contextuality is the key concept which explains the fact that the result of a measurement is not independent of the context in which it is found. It is observed to be an intrinsic feature, i.e., neither entanglement nor spatial separation is required. In this work, we revisit the previous studies which state that entanglement is an intrinsic property called self-entanglement. Using this fact, we explicitly show the correlation between quantum contextuality and concurrence in the KCBS scenario, which is the simplest approach to observing contextuality. We also derive the equation for the maximal violation of the KCBS scenario for a given concurrence and find the linear relation between them. Using this relation, we also show how the maximal violations of the KCBS and CHSH inequalities are related for an arbitrary entanglement. Moreover, we discuss the special cases of maximal entanglement, and non-entanglement for which we have found a lower local bound. | 翻訳日:2023-02-23 15:22:31 公開日:2023-02-22 |
# human motionformer:視覚トランスフォーマーによる人間の動きの伝達 Human MotionFormer: Transferring Human Motions with Vision Transformers ( http://arxiv.org/abs/2302.11306v1 ) ライセンス: Link先を確認 | Hongyu Liu and Xintong Han and ChengBin Jin and Huawei Wei and Zhe Lin and Faqiang Wang and Haoye Dong and Yibing Song and Jia Xu and Qifeng Chen | (参考訳) 人間の動き伝達は、運動合成のためにターゲットの動的人物からソースの静的人物に動きを伝達することを目的としている。
移動運動品質を向上させるためには、大小とも微妙な動きの変化においても、音源と目標運動との正確なマッチングが不可欠である。
本稿では,大域的および局所的な知覚をそれぞれ活用し,大きな動きと微妙な動きのマッチングをそれぞれ捉える階層型vitフレームワークであるhuman motionformerを提案する。
入力特徴を抽出する2つのViTエンコーダ(ターゲットモーションイメージとソースヒューマンイメージ)と、特徴マッチングとモーション転送のためのいくつかのカスケードブロックを備えたViTデコーダで構成される。
各ブロックにおいて、対象の動作特徴をクエリとして、ソースの人物をキーと値として設定し、相互接続マップを計算してグローバル特徴マッチングを行う。
さらに,グローバルなクロスアテンション計算後の局所認識を改善するために,畳み込み層を導入する。
このマッチングプロセスはワーピングとジェネレーションの両方で実装され、モーション転送をガイドする。
トレーニング中、より優れた動作表現のためのワープとジェネレーションブランチの協調制御を可能にするための相互学習損失を提案する。
我々のHuman MotionFormerは、定性的かつ定量的に新しい最先端のパフォーマンスを設定する。
プロジェクトページ: \url{https://github.com/KumapowerLIU/Human-MotionFormer} Human motion transfer aims to transfer motions from a target dynamic person to a source static one for motion synthesis. An accurate matching between the source person and the target motion in both large and subtle motion changes is vital for improving the transferred motion quality. In this paper, we propose Human MotionFormer, a hierarchical ViT framework that leverages global and local perceptions to capture large and subtle motion matching, respectively. It consists of two ViT encoders to extract input features (i.e., a target motion image and a source human image) and a ViT decoder with several cascaded blocks for feature matching and motion transfer. In each block, we set the target motion feature as Query and the source person as Key and Value, calculating the cross-attention maps to conduct a global feature matching. Further, we introduce a convolutional layer to improve the local perception after the global cross-attention computations. This matching process is implemented in both warping and generation branches to guide the motion transfer. During training, we propose a mutual learning loss to enable the co-supervision between warping and generation branches for better motion representations. Experiments show that our Human MotionFormer sets the new state-of-the-art performance both qualitatively and quantitatively. Project page: \url{https://github.com/KumapowerLIU/Human-MotionFormer} | 翻訳日:2023-02-23 15:22:15 公開日:2023-02-22 |
# 立体的姿勢推定のための立体三角測量を意識した視点整合性 View Consistency Aware Holistic Triangulation for 3D Human Pose Estimation ( http://arxiv.org/abs/2302.11301v1 ) ライセンス: Link先を確認 | Xiaoyue Wan, Zhuo Chen, Xu Zhao | (参考訳) 多視点人間のポーズ推定(HPE)の急速な発展は、単眼2D HPEの成熟と3D再構成の幾何学に起因する。
しかし,ビュー一貫性の欠如によるオクルードビューの2次元検出異常や,ポーズコヒーレンスの欠如による3次元評価が課題となっている。
この問題を解決するために、ビュー相関を確立することで2次元結果を洗練するためのマルチビューフュージョンモジュールを導入する。
次に、全体的三角測量を提案し、全体のポーズを全体として推定し、解剖前処理を行い、ポーズコヒーレンスを維持し、信頼性を向上させる。
入力が骨格構造の特徴であるPCAにより解剖学的に抽出され、抽象的から具体的までグローバルな文脈と結合関係を決定できる。
クローズドフォームソリューションの恩恵を受けると、フレームワーク全体がエンドツーエンドでトレーニングされる。
提案手法は,新しい測定基準によって評価される精度と妥当性の両方において,技術状況よりも優れる。 The rapid development of multi-view 3D human pose estimation (HPE) is attributed to the maturation of monocular 2D HPE and the geometry of 3D reconstruction. However, 2D detection outliers in occluded views due to neglect of view consistency, and 3D implausible poses due to lack of pose coherence, remain challenges. To solve this, we introduce a Multi-View Fusion module to refine 2D results by establishing view correlations. Then, Holistic Triangulation is proposed to infer the whole pose as an entirety, and anatomy prior is injected to maintain the pose coherence and improve the plausibility. Anatomy prior is extracted by PCA whose input is skeletal structure features, which can factor out global context and joint-by-joint relationship from abstract to concrete. Benefiting from the closed-form solution, the whole framework is trained end-to-end. Our method outperforms the state of the art in both precision and plausibility which is assessed by a new metric. | 翻訳日:2023-02-23 15:21:50 公開日:2023-02-22 |
# GHZ様状態の双方向量子テレポーテーション Bi-directional quantum teleportation of GHZ-like states ( http://arxiv.org/abs/2302.11300v1 ) ライセンス: Link先を確認 | Leila S. Tabatabaei and Babak Vakili | (参考訳) 本論文では,$n$-qubit状態が同時に2つのユーザ間で双方向に送信できる手法を提案する。
合法的なユーザーであるAliceとBobはそれぞれ$n$-qubit GHZライクな状態であり、相手にテレポートしたいと仮定する。
また、4ビットのクラスター状態は、この双方向量子テレポーテーションの量子チャネルの役割を担っている。
このプロトコルは、まず各ユーザが一連の$\mbox{cnot}$ gatesを通じて、$n$-qubitステートを1つのqubitと約$0$ qubitに変換する方法に基づいている。
そして、ベル状態測定および適切な操作により、一方のキュービット状態が両サイド間のチャネル上で転送される。
送信されたキュービットと補助的な$0$状態に$\mbox{CNOT}$ゲートを再び適用することにより、各ユーザは初期GHZライクな状態を再構築する。
最後に,環境との相互作用によるチャネルの密度マリックスに対する何らかのノイズの影響を調査し,ビットフリップエラーからチャネルを保護する方法を提案する。 In this paper we propose a method through which $n$-qubit states can simultaneously be bi-directionally transmitted between two users. We assume that Alice and Bob, the legitimate users, each have a $n$-qubit GHZ-like state and want to teleport it to the other party. Also, a four-qubit cluster state plays the role of the quantum channel of this bi-directional quantum teleportation. The protocol is based on the method that at first, each user, through a series of $\mbox{CNOT}$ gates, converts the $n$-qubit state into a single qubit and some $0$ qubits. Then, by means of the Bell state measurement and proper operation, the single qubit state is transferred over the channel between the two sides. By re-applying the $\mbox{CNOT}$ gates on the transmitted qubits and auxiliary $0$ states, each user reconstructs the initial GHZ-like state. Finally, we investige the effects of some kind of noises on the density marix of the channel due to its interaction with the environment and present a method to protect the channel against the bit-flip error. | 翻訳日:2023-02-23 15:21:33 公開日:2023-02-22 |
# 一段階物体検出のためのエンド・ツー・エンド半教師付き学習に向けて Towards End-to-end Semi-supervised Learning for One-stage Object Detection ( http://arxiv.org/abs/2302.11299v1 ) ライセンス: Link先を確認 | Gen Luo, Yiyi Zhou, Lei Jin, Xiaoshuai Sun, Rongrong Ji | (参考訳) 半教師付きオブジェクト検出(SSOD)はコンピュータビジョンにおけるホットスポットであり、高価なバウンディングボックスアノテーションの要求を大幅に削減することができる。
大きな成功にもかかわらず、既存の進歩は主にFasterRCNNのような2段階検出ネットワークに焦点を当てている。
本稿では,先進的で人気のある一段検出ネットワークYOLOv5の半教師付き学習に着目した。
Faster-RCNNと比較すると、YOLOv5の実装はずっと複雑であり、YOLOv5で使用される様々なトレーニング技術はSSODのメリットを減少させる。
この課題に加えて、低品質な擬似ラベルとマルチタスク最適化の競合である1段SSODの2つの重要な問題も明らかにした。
これらの課題に対処するために,Multi-view Pseudo-label Refinement (MPR) とDecoupled Semi-supervised Optimization (DSO) の2つの革新的な設計を持つ新しい教師学習レシピであるOneTeacherを提案する。
特に、MPRは、拡張ビューリファインメントとグローバルビューフィルタリングによって擬似ラベルの品質を改善し、DSOは構造的な微調整とタスク固有の擬似ラベルによる共同最適化競合を処理する。
また,既存の SSOD 手法と等価な比較のために共有されている SSOD の利点を最大化するために YOLOv5 の実装を慎重に修正する。
OneTeacherを検証するために,COCOとPascal VOCについて広範な実験を行った。
広範な実験により、OneTeacherは比較した手法よりも優れた性能を達成できるだけでなく、例えば、15.0%の相対APゲインがUnbiased Teacherよりも優れているだけでなく、ワンステージSSODの重要な問題にもうまく対応できることが示された。
ソースコードはhttps://github.com/luogen1996/oneteacher.com/で入手できます。 Semi-supervised object detection (SSOD) is a research hot spot in computer vision, which can greatly reduce the requirement for expensive bounding-box annotations. Despite great success, existing progress mainly focuses on two-stage detection networks like FasterRCNN, while the research on one-stage detectors is often ignored. In this paper, we focus on the semi-supervised learning for the advanced and popular one-stage detection network YOLOv5. Compared with Faster-RCNN, the implementation of YOLOv5 is much more complex, and the various training techniques used in YOLOv5 can also reduce the benefit of SSOD. In addition to this challenge, we also reveal two key issues in one-stage SSOD, which are low-quality pseudo-labeling and multi-task optimization conflict, respectively. To address these issues, we propose a novel teacher-student learning recipe called OneTeacher with two innovative designs, namely Multi-view Pseudo-label Refinement (MPR) and Decoupled Semi-supervised Optimization (DSO). In particular, MPR improves the quality of pseudo-labels via augmented-view refinement and global-view filtering, and DSO handles the joint optimization conflicts via structure tweaks and task-specific pseudo-labeling. In addition, we also carefully revise the implementation of YOLOv5 to maximize the benefits of SSOD, which is also shared with the existing SSOD methods for fair comparison. To validate OneTeacher, we conduct extensive experiments on COCO and Pascal VOC. The extensive experiments show that OneTeacher can not only achieve superior performance than the compared methods, e.g., 15.0% relative AP gains over Unbiased Teacher, but also well handle the key issues in one-stage SSOD. Our source code is available at: https://github.com/luogen1996/OneTeacher. | 翻訳日:2023-02-23 15:21:11 公開日:2023-02-22 |
# 高負荷HDR画像透かしによる塩分検出と量子化指数変調 Saliency detection and quantization index modulation based high payload HDR image watermarking ( http://arxiv.org/abs/2302.11361v1 ) ライセンス: Link先を確認 | Ahmed Khan, Minoru Kuribayashi, KokSheik Wong, Vishnu Monn Baskaran | (参考訳) 高ダイナミックレンジ(HDR)画像は、未認証使用のために悪用されるリスクがあり、インターネット上で急速に流通する。
これらの画像を保護するため,HDR-IW法が提案された。
しかし、標準ダイナミックレンジ(SDR)画像に対する従来のIW法では、競合する要求間のトレードオフのみが同時改善ではなく管理されるという、同じ問題を継承した。
本稿では,新しいサリエンシ検出に基づく独立系HDR-IWを提案し,ロバスト性,非受容性,ペイロード容量を同時に向上させる。
まず、ホスト画像は、提案したサルエントオブジェクト検出モデルを通過して、サリエンシマップを生成し、ホスト画像の前景と背景を分割する。
次に、二項透かしを同じマスクを用いて前景と背景に分割し、ランダムな置換アルゴリズムを用いてスクランブルする。
最後に、量子化インデックス変調を用いて、ウォーターマークセグメントを対応するホストセグメント(選択ビットプレーン)に埋め込む。
実験結果から,提案手法は相反する要件を改善する点で最先端手法よりも優れていることが示唆された。 High-dynamic range (HDR) images are circulated rapidly over the internet with risks of being exploited for unauthenticated usage. To protect these images, some HDR image based watermarking (HDR-IW) methods were put forward. However, they inherited the same problem faced by conventional IW methods for standard dynamic range (SDR) images, where only trade-offs among conflicting requirements are managed instead of simultaneous improvement. In this paper, a novel saliency (eye-catching object) detection based trade-off independent HDR-IW is proposed, to simultaneously improve robustness, imperceptibility and payload capacity. First, the host image goes through our proposed salient object detection model to produce a saliency map, which is, in turn, exploited to segment the foreground and background of the host image. Next, binary watermark is partitioned into the foregrounds and backgrounds using the same mask and scrambled using the random permutation algorithm. Finally, the watermark segments are embedded into the corresponding host segments (i.e., selected bit-plane) using quantized indexed modulation. Experimental results suggest that the proposed work outperforms state-of-the-art methods in terms of improving the conflicting requirements. | 翻訳日:2023-02-23 15:15:03 公開日:2023-02-22 |
# レーダーシステムにおけるphdフィルタリングに基づくトラック前検出戦略のためのポアソン共役前処理 Poisson Conjugate Prior for PHD Filtering based Track-Before-Detect Strategies in Radar Systems ( http://arxiv.org/abs/2302.11356v1 ) ライセンス: Link先を確認 | Haiyi Mao, Cong Peng, Yue Liu, Jinping Tang, Hua Peng and Wei Yi | (参考訳) PHDフィルタを含む低信号対雑音比 (SNR) のシナリオに対して, トラック前検出 (TBD) 戦略を用いた様々なフィルタを開発し, 適用した。
TBD戦略に基づく振幅エコーモデルには,DBT戦略に基づく標準点計測モデルの仮定は適していない。
しかし,DBT-PHDフィルタの測定更新公式は,異なるモデルと未整合仮定に基づいて,既存のTBD-PHDフィルタに機械的に適用される。
本稿では,kullback-leibler 発散最小化基準,有限集合統計理論,厳密ベイズ則に基づいて,tbd-phdフィルタの原理的閉形式解を求める。
さらに,TBD戦略に基づいて,PHDフィルタをポアソンに共役させることを強調した。
次に、SNRの増加に伴ってターゲット数推定のばらつきを処理するために、キャッピング操作を考案する。
さらに, 動的および振幅エコーモデルの逐次モンテカルロ実装がレーダシステムに対して提案されている。
最後に、モンテカルロ実験はレイリーノイズと低SNRシナリオにおいて優れた性能を示す。 A variety of filters with track-before-detect (TBD) strategies have been developed and applied to low signal-to-noise ratio (SNR) scenarios, including the probability hypothesis density (PHD) filter. Assumptions of the standard point measurement model based on detect-before-track (DBT) strategies are not suitable for the amplitude echo model based on TBD strategies. However, based on different models and unmatched assumptions, the measurement update formulas for DBT-PHD filter are just mechanically applied to existing TBD-PHD filters. In this paper, based on the Kullback-Leibler divergence minimization criterion, finite set statistics theory and rigorous Bayes rule, a principled closed-form solution of TBD-PHD filter is derived. Furthermore, we emphasize that PHD filter is conjugated to the Poisson prior based on TBD strategies. Next, a capping operation is devised to handle the divergence of target number estimation as SNR increases. Moreover, the sequential Monte Carlo implementations of dynamic and amplitude echo models are proposed for the radar system. Finally, Monte Carlo experiments exhibit good performance in Rayleigh noise and low SNR scenarios. | 翻訳日:2023-02-23 15:14:44 公開日:2023-02-22 |
# ニューラル制御微分方程式を用いた動的グラフ埋め込みの学習 Learning Dynamic Graph Embeddings with Neural Controlled Differential Equations ( http://arxiv.org/abs/2302.11354v1 ) ライセンス: Link先を確認 | Tiexin Qin and Benjamin Walker and Terry Lyons and Hong Yan and Haoliang Li | (参考訳) 本稿では,時間的相互作用を持つ動的グラフの表現学習に焦点を当てる。
基本的な問題は、グラフ構造とノードがそれぞれ独自のダイナミクスを持ち、それらのブレンドがグラフ上の時間的進化において難解な複雑さを引き起こすことである。
深層ニューラルネットワークにおける物理力学モデルの最近のプロセスから着想を得たグラフニューラル制御微分方程式(GN-CDE)モデル,ニューラルネットワークパラメータ化されたベクトル場と相互作用の導関数w.r.t.時間によるノード埋め込み軌道の連続的動的進化を特徴付ける動的グラフの一般微分モデルを提案する。
提案フレームワークは,セグメントによる積分を伴わないグラフの動的表現,その後のデータによる軌跡の校正機能,観察の欠如に対する堅牢性など,いくつかの望ましい特徴を示す。
動的グラフ表現学習タスクにおける経験的評価は,提案手法がベースラインよりも優れていることを示す。 This paper focuses on representation learning for dynamic graphs with temporal interactions. A fundamental issue is that both the graph structure and the nodes own their own dynamics, and their blending induces intractable complexity in the temporal evolution over graphs. Drawing inspiration from the recent process of physical dynamic models in deep neural networks, we propose Graph Neural Controlled Differential Equation (GN-CDE) model, a generic differential model for dynamic graphs that characterise the continuously dynamic evolution of node embedding trajectories with a neural network parameterised vector field and the derivatives of interactions w.r.t. time. Our framework exhibits several desirable characteristics, including the ability to express dynamics on evolving graphs without integration by segments, the capability to calibrate trajectories with subsequent data, and robustness to missing observations. Empirical evaluation on a range of dynamic graph representation learning tasks demonstrates the superiority of our proposed approach compared to the baselines. | 翻訳日:2023-02-23 15:14:23 公開日:2023-02-22 |
# X-TRA: クロスモーダル検索拡張による胸部X線処理の改善 X-TRA: Improving Chest X-ray Tasks with Cross-Modal Retrieval Augmentation ( http://arxiv.org/abs/2302.11352v1 ) ライセンス: Link先を確認 | Tom van Sonsbeek and Marcel Worring | (参考訳) 医用画像とその文脈を人間で分析する重要な要素は、新しく見られるものを記憶の関連インスタンスに関連付ける能力である。
本稿では,マルチモーダル検索拡張を用いてこれを模倣し,胸部X線解析におけるいくつかの課題に適用する。
類似した画像および/または放射線学のレポートを取得することで、ケースを拡張および規則化し、さらに知識を付加し、事実的知識の整合性を維持します。
この方法は2つの要素からなる。
第一に、ビジョンと言語モダリティは、事前訓練されたCLIPモデルを使用して調整される。
検索対象が、グローバルな視覚的外観ではなく、詳細な疾患関連コンテンツであることを保証するために、疾患クラス情報を用いて微調整を行う。
その後,最先端の検索レベルに達する非パラメトリック検索インデックスを構築する。
この指標を下流タスクで使用し,疾患分類と報告検索のための多頭部注意を通して画像表現を増強する。
検索の強化はこれらのタスクに大きな改善をもたらすことを示す。
我々の下流レポート検索は、医療画像におけるこの方法の道を切り開く専用レポート生成手法と競合することさえ示している。 An important component of human analysis of medical images and their context is the ability to relate newly seen things to related instances in our memory. In this paper we mimic this ability by using multi-modal retrieval augmentation and apply it to several tasks in chest X-ray analysis. By retrieving similar images and/or radiology reports we expand and regularize the case at hand with additional knowledge, while maintaining factual knowledge consistency. The method consists of two components. First, vision and language modalities are aligned using a pre-trained CLIP model. To enforce that the retrieval focus will be on detailed disease-related content instead of global visual appearance it is fine-tuned using disease class information. Subsequently, we construct a non-parametric retrieval index, which reaches state-of-the-art retrieval levels. We use this index in our downstream tasks to augment image representations through multi-head attention for disease classification and report retrieval. We show that retrieval augmentation gives considerable improvements on these tasks. Our downstream report retrieval even shows to be competitive with dedicated report generation methods, paving the path for this method in medical imaging. | 翻訳日:2023-02-23 15:14:07 公開日:2023-02-22 |
# 正規化ニューラルネットワークは人間の洞察を模倣する Regularised neural networks mimic human insight ( http://arxiv.org/abs/2302.11351v1 ) ライセンス: Link先を確認 | Anika T. L\"owe, L\'eo Touzo, Paul S. Muhle-Karbe, Andrew M. Saxe, Christopher Summerfield, Nicolas W. Schuck | (参考訳) 人間は時々、洞察の瞬間に結びついているタスクパフォーマンスの突然の改善を示す。
このような洞察に関連したパフォーマンス改善は、期間の延長が先行し、異常に突然であり、一部の学習者(すべてではないが)にのみ発生するため、特別に見える。
ここでは,勾配降下アルゴリズムを用いて学習したニューラルネットワークにおいて,洞察的行動も発生するかどうかを問う。
人間の学習ダイナミクスと、より効率的に解くための隠れた機会を提供する知覚的意思決定タスクにおける正規化ニューラルネットワークを比較した。
我々は、人間が徐々にではなく、洞察を通してこの規則性を発見する傾向があることを示した。
特に、正規化ゲート変調を持つニューラルネットワークは、人間の洞察の行動特性を密接に模倣し、洞察の遅延、突然性、選択的発生を示す。
ネットワーク学習のダイナミクスの分析によると、洞察的行動は勾配更新に付加されるノイズに決定的に依存しており、最初は正規化(意図的)ゲーティングによって抑制された「サイレント・ナレッジ」が先行していた。
これは、音、注意ゲーティング、正規化の複合的な影響を反映した段階的な学習から、洞察が自然に生まれることを示唆している。 Humans sometimes show sudden improvements in task performance that have been linked to moments of insight. Such insight-related performance improvements appear special because they are preceded by an extended period of impasse, are unusually abrupt, and occur only in some, but not all, learners. Here, we ask whether insight-like behaviour also occurs in artificial neural networks trained with gradient descent algorithms. We compared learning dynamics in humans and regularised neural networks in a perceptual decision task that provided a hidden opportunity which allowed to solve the task more efficiently. We show that humans tend to discover this regularity through insight, rather than gradually. Notably, neural networks with regularised gate modulation closely mimicked behavioural characteristics of human insights, exhibiting delay of insight, suddenness and selective occurrence. Analyses of network learning dynamics revealed that insight-like behaviour crucially depended on noise added to gradient updates, and was preceded by ``silent knowledge'' that is initially suppressed by regularised (attentional) gating. This suggests that insights can arise naturally from gradual learning, where they reflect the combined influences of noise, attentional gating and regularisation. | 翻訳日:2023-02-23 15:13:47 公開日:2023-02-22 |
# ステアブル同変表現学習 Steerable Equivariant Representation Learning ( http://arxiv.org/abs/2302.11349v1 ) ライセンス: Link先を確認 | Sangnie Bhardwaj, Willie McClinton, Tongzhou Wang, Guillaume Lajoie, Chen Sun, Phillip Isola, Dilip Krishnan | (参考訳) 事前訓練された深層画像表現は、転送学習、画像検索、オブジェクト検出による分類などの後処理に有用である。
データ拡張は、教師付き設定と自己管理設定の両方において、堅牢な表現を事前訓練する重要な側面である。
データ拡張は、入力画像変換への埋め込み空間の不変性を明示的にまたは暗黙的に促進する。
この不変性は、これらの特定のデータ拡張の感度に依存する下流タスクへの一般化を減少させる。
本稿では,その代わりにデータ拡張に同変する学習表現の手法を提案する。
この同値性は、ステアブル表現を用いて達成する。
我々の表現は学習線型写像を通して埋め込み空間内で直接操作することができる。
例えば、リニアプローブtop-1の精度を1%から3%に向上させ、imagenet-cの精度を最大3.4%向上させる。
さらに,この表現のステアビリティは,テスト時間拡張のための大幅な高速化(約50倍)を提供し,分散検出のための多数の拡張を適用することで,invariant表現よりもimagenet-cデータセット上でのood aucを大幅に改善することを示した。 Pre-trained deep image representations are useful for post-training tasks such as classification through transfer learning, image retrieval, and object detection. Data augmentations are a crucial aspect of pre-training robust representations in both supervised and self-supervised settings. Data augmentations explicitly or implicitly promote invariance in the embedding space to the input image transformations. This invariance reduces generalization to those downstream tasks which rely on sensitivity to these particular data augmentations. In this paper, we propose a method of learning representations that are instead equivariant to data augmentations. We achieve this equivariance through the use of steerable representations. Our representations can be manipulated directly in embedding space via learned linear maps. We demonstrate that our resulting steerable and equivariant representations lead to better performance on transfer learning and robustness: e.g. we improve linear probe top-1 accuracy by between 1% to 3% for transfer; and ImageNet-C accuracy by upto 3.4%. We further show that the steerability of our representations provides significant speedup (nearly 50x) for test-time augmentations; by applying a large number of augmentations for out-of-distribution detection, we significantly improve OOD AUC on the ImageNet-C dataset over an invariant representation. | 翻訳日:2023-02-23 15:13:27 公開日:2023-02-22 |
# HINormer: グラフ変換器を用いた異種情報ネットワークの表現学習 HINormer: Representation Learning On Heterogeneous Information Networks with Graph Transformer ( http://arxiv.org/abs/2302.11329v1 ) ライセンス: Link先を確認 | Qiheng Mao, Zemin Liu, Chenghao Liu, Jianling Sun | (参考訳) 最近の研究では、メッセージパッシングベースのグラフニューラルネットワーク(gnn)の制限、例えば、限定されたモデル表現性、過剰なスムーシング、過剰スワッシングなどが強調されている。
これらの問題を緩和するために、グラフ全体にわたってメッセージパッシングがより広範なカバレッジに伝達できるパラダイムで機能するグラフトランスフォーマー(GT)が提案されている。
グローバルレンジアテンション機構に基づき、GTは同質グラフ上での表現学習の超能力を示した。
しかし、ヘテロジニアス情報ネットワーク(HIN)におけるGTsの調査は、まだ未公開である。
特に、異質性の存在を考慮して、hinは異なるデータ特性を示し、従って異なる処理を必要とする。
本稿では,このギャップを埋めるために,グラフ変換器を用いたHINの表現学習について検討し,ノード表現学習のための大域集約機構を活かしたHINormerという新しいモデルを提案する。
特に、ローカル構造エンコーダとヘテロジニアス関係エンコーダの2つの主要なモジュールによって、HINormerは、包括的なノード表現のためにHIN上のノードの構造情報とヘテロジニアス情報をキャプチャすることができる。
4つのhinベンチマークデータセットについて広範な実験を行い,提案モデルが最先端モデルを上回ることを実証した。 Recent studies have highlighted the limitations of message-passing based graph neural networks (GNNs), e.g., limited model expressiveness, over-smoothing, over-squashing, etc. To alleviate these issues, Graph Transformers (GTs) have been proposed which work in the paradigm that allows message passing to a larger coverage even across the whole graph. Hinging on the global range attention mechanism, GTs have shown a superpower for representation learning on homogeneous graphs. However, the investigation of GTs on heterogeneous information networks (HINs) is still under-exploited. In particular, on account of the existence of heterogeneity, HINs show distinct data characteristics and thus require different treatment. To bridge this gap, in this paper we investigate the representation learning on HINs with Graph Transformer, and propose a novel model named HINormer, which capitalizes on a larger-range aggregation mechanism for node representation learning. In particular, assisted by two major modules, i.e., a local structure encoder and a heterogeneous relation encoder, HINormer can capture both the structural and heterogeneous information of nodes on HINs for comprehensive node representations. We conduct extensive experiments on four HIN benchmark datasets, which demonstrate that our proposed model can outperform the state-of-the-art. | 翻訳日:2023-02-23 15:12:25 公開日:2023-02-22 |
# PAD: 侵入攻撃に対する原則的敵対的マルウェア検出を目指して PAD: Towards Principled Adversarial Malware Detection Against Evasion Attacks ( http://arxiv.org/abs/2302.11328v1 ) ライセンス: Link先を確認 | Deqiang Li, Shicheng Cui, Yun Li, Jia Xu, Fu Xiao and Shouhuai Xu | (参考訳) 機械学習(ML)技術は、悪意のあるソフトウェア(短期間のマルウェア)の検出を自動化するが、回避攻撃に苦しむ。
多くの研究者は、理論的な保証と防衛効果の両方に欠けるヒューリスティックな方法でこのような攻撃に対抗する。
そこで我々はPAD (Principled Adversarial Malware Detection) と呼ばれる,ロバストな最適化手法の収束を保証する新しい逆トレーニングフレームワークを提案する。
PADは、分散的に離散的な摂動を定量化し、マルウェア検知器を敵から保護する学習可能な凸測定を基礎としている。
防御効果を高めるため,深層ニューラルネットワークに基づく計測とマルウェア検出装置を強化するため,PADをインスタンス化する新たな攻撃法を提案する。
2つのAndroidマルウェアデータセットの実験結果が示す。
(i)提案手法は、最先端の防御を著しく上回っている。
(ii)攻撃がない場合、精度が2.16%以下に低下する一方、83.45%以上の検出精度を有する27件の回避攻撃に対するMLベースのマルウェア検出を強化することができる。
(iii)リアルな敵のマルウェアに対するウイルス感染防止サービスにおいて、多くのアンチマルウェアスキャナーに匹敵する、または匹敵する。 Machine Learning (ML) techniques facilitate automating malicious software (malware for short) detection, but suffer from evasion attacks. Many researchers counter such attacks in heuristic manners short of both theoretical guarantees and defense effectiveness. We hence propose a new adversarial training framework, termed Principled Adversarial Malware Detection (PAD), which encourages convergence guarantees for robust optimization methods. PAD lays on a learnable convex measurement that quantifies distribution-wise discrete perturbations and protects the malware detector from adversaries, by which for smooth detectors, adversarial training can be performed heuristically with theoretical treatments. To promote defense effectiveness, we propose a new mixture of attacks to instantiate PAD for enhancing the deep neural network-based measurement and malware detector. Experimental results on two Android malware datasets demonstrate: (i) the proposed method significantly outperforms the state-of-the-art defenses; (ii) it can harden the ML-based malware detection against 27 evasion attacks with detection accuracies greater than 83.45%, while suffering an accuracy decrease smaller than 2.16% in the absence of attacks; (iii) it matches or outperforms many anti-malware scanners in VirusTotal service against realistic adversarial malware. | 翻訳日:2023-02-23 15:12:01 公開日:2023-02-22 |
# ASSET: 深層学習パラダイムの多重性にまたがるロバストなバックドアデータ検出 ASSET: Robust Backdoor Data Detection Across a Multiplicity of Deep Learning Paradigms ( http://arxiv.org/abs/2302.11408v1 ) ライセンス: Link先を確認 | Minzhou Pan, Yi Zeng, Lingjuan Lyu, Xue Lin and Ruoxi Jia | (参考訳) バックドアデータ検出は、エンドツーエンドの教師あり学習(SL)設定で伝統的に研究されている。
しかし近年,ラベル付きデータの必要性の低さから,自己教師付き学習(SSL)や転送学習(TL)の普及が進んでいる。
これらの新しい設定でバックドア攻撃が成功したことも実証されている。
しかし,様々な学習環境において,既存の検出手法の適用性は十分に理解されていない。
56の攻撃条件を評価することにより,既存の検出手法の性能は異なる攻撃と毒素比で大きく異なり,すべて最先端のクリーンラベル攻撃で失敗することを示す。
さらに、SSLとTLに適用されると、それらは適用不能になるか、大きなパフォーマンス損失を被る。
本稿では,バックドアとクリーンサンプル間の異なるモデル挙動を積極的に誘導し,分離を促進するアクティブ分離(asset)と呼ばれる新しい検出法を提案する。
また,削除すべき不審点数を適応的に選択する手順も提供する。
エンド・ツー・エンドのSL設定において、ASSETは様々な攻撃に対する防御性能の整合性と毒性比の変化に対する堅牢性の点で既存の方法よりも優れており、特に最先端のクリーンラベル攻撃を検出する方法として唯一である。
さらに、アセットの平均検出率はsslとtlの既存の最良の方法よりも69.3%高く33.2%高く、これらの新しいdl設定に対する最初の実用的なバックドア防御を提供する。
我々はこのプロジェクトをオープンソース化し、さらなる開発とエンゲージメントを促進する。 Backdoor data detection is traditionally studied in an end-to-end supervised learning (SL) setting. However, recent years have seen the proliferating adoption of self-supervised learning (SSL) and transfer learning (TL), due to their lesser need for labeled data. Successful backdoor attacks have also been demonstrated in these new settings. However, we lack a thorough understanding of the applicability of existing detection methods across a variety of learning settings. By evaluating 56 attack settings, we show that the performance of most existing detection methods varies significantly across different attacks and poison ratios, and all fail on the state-of-the-art clean-label attack. In addition, they either become inapplicable or suffer large performance losses when applied to SSL and TL. We propose a new detection method called Active Separation via Offset (ASSET), which actively induces different model behaviors between the backdoor and clean samples to promote their separation. We also provide procedures to adaptively select the number of suspicious points to remove. In the end-to-end SL setting, ASSET is superior to existing methods in terms of consistency of defensive performance across different attacks and robustness to changes in poison ratios; in particular, it is the only method that can detect the state-of-the-art clean-label attack. Moreover, ASSET's average detection rates are higher than the best existing methods in SSL and TL, respectively, by 69.3% and 33.2%, thus providing the first practical backdoor defense for these new DL settings. We open-source the project to drive further development and encourage engagement: https://github.com/ruoxi-jia-group/ASSET. | 翻訳日:2023-02-23 15:06:16 公開日:2023-02-22 |
# KGTrust: 知識強化グラフニューラルネットワークによるSIoTの信頼性評価 KGTrust: Evaluating Trustworthiness of SIoT via Knowledge Enhanced Graph Neural Networks ( http://arxiv.org/abs/2302.11396v1 ) ライセンス: Link先を確認 | Zhizhi Yu, Di Jin, Cuiying Huo, Zhiqiang Wang, Xiulong Liu, Heng Qi, Jia Wu, Lingfei Wu | (参考訳) ソーシャル・インターネット・オブ・モノ(siot, social internet of things)は、ソーシャル・ネットワーキングの概念をスマート・オブジェクト(つまりモノ)に注入し、次世代のモノのインターネットへの道を開く、有望で新興のパラダイムである。
しかし、リスクと不確実性のため、解決すべき重要かつ緊急の問題は、SIoT内で信頼性の高い関係、すなわち信頼評価を確立することである。
信頼評価のためのグラフニューラルネットワークは通常、ノードの特徴を理解するために1-hotやnode2vecのような簡単な方法を採用する。
さらに、SIoTの基本構造は通常、異種グラフ構造とペア信頼関係の両方を含む複雑であり、情報伝達時のSIoT信頼特性の保存が困難である。
上記の問題に対処するため,SIoTにおける信頼度向上のための知識強化グラフニューラルネットワーク(KGTrust)を提案する。
具体的には,ユーザのコメント行動とオブジェクト記述に関連する外部構造三重項から有用な知識を抽出し,ユーザやオブジェクトの意味についてより深い知見を得る。
さらに,不均質なグラフ構造,ノード意味論,信頼関係の強化を利用した識別的畳み込み層を導入し,ユーザを信頼者又は信頼者として,情報伝達中のsiot信頼のマルチスペクトル特性を効果的に捉えたノード埋め込みを学習する。
最後に、一対のノード間の信頼関係を推定する信頼予測層を開発する。
3つの公開データセットに対する大規模な実験は、最先端の手法よりもKGTrustの優れたパフォーマンスを示している。 Social Internet of Things (SIoT), a promising and emerging paradigm that injects the notion of social networking into smart objects (i.e., things), paving the way for the next generation of Internet of Things. However, due to the risks and uncertainty, a crucial and urgent problem to be settled is establishing reliable relationships within SIoT, that is, trust evaluation. Graph neural networks for trust evaluation typically adopt a straightforward way such as one-hot or node2vec to comprehend node characteristics, which ignores the valuable semantic knowledge attached to nodes. Moreover, the underlying structure of SIoT is usually complex, including both the heterogeneous graph structure and pairwise trust relationships, which renders hard to preserve the properties of SIoT trust during information propagation. To address these aforementioned problems, we propose a novel knowledge-enhanced graph neural network (KGTrust) for better trust evaluation in SIoT. Specifically, we first extract useful knowledge from users' comment behaviors and external structured triples related to object descriptions, in order to gain a deeper insight into the semantics of users and objects. Furthermore, we introduce a discriminative convolutional layer that utilizes heterogeneous graph structure, node semantics, and augmented trust relationships to learn node embeddings from the perspective of a user as a trustor or a trustee, effectively capturing multi-aspect properties of SIoT trust during information propagation. Finally, a trust prediction layer is developed to estimate the trust relationships between pairwise nodes. Extensive experiments on three public datasets illustrate the superior performance of KGTrust over state-of-the-art methods. | 翻訳日:2023-02-23 15:05:36 公開日:2023-02-22 |
# エンティティレベルテキストガイド画像操作 Entity-Level Text-Guided Image Manipulation ( http://arxiv.org/abs/2302.11383v1 ) ライセンス: Link先を確認 | Yikai Wang, Jianan Wang, Guansong Lu, Hang Xu, Zhenguo Li, Wei Zhang, and Yanwei Fu | (参考訳) 既存のテキストガイド画像操作手法は、画像の外観を変更したり、仮想的あるいは単純なシナリオでいくつかのオブジェクトを編集することを目的としている。
本研究では,実世界の実体レベル(eL-TGIM)におけるテキスト誘導画像操作の新しい課題について検討する。
このタスクは、(1)テキスト記述に一致するエンティティを編集する(2)エンティティ関連領域を保存すること、(3)操作されたエンティティを自然にイメージにマージすることの3つの基本的な要件を課している。
そこで,本稿ではsemaniというエレガントなフレームワークを提案する。エンティティの外観を編集できるだけでなく,テキストガイダンスに対応する新たなエンティティを生成する実世界のイメージの意味操作を実現する。
eL-TGIMを解決するために、SeManiはタスクをセマンティックアライメントフェーズとイメージ操作フェーズの2つのフェーズに分解する。
意味的アライメントフェーズでは、semaniは操作対象のエンティティ関連領域を特定するために意味的アライメントモジュールを組み込んでいる。
画像操作フェーズでは、SeManiは生成モデルを採用し、エンティティ非関連領域に条件付された新しい画像とターゲットテキスト記述を合成する。
本稿では,SeMani-Trans と SeMani-Diff をそれぞれ生成する拡散モデルを用いた離散自己回帰生成と連続デノナイジング生成の2つの人気生成プロセスについて論じ,提案する。
我々は,実データセットであるCUB,オックスフォード,COCOのデータセットを用いて,SeManiがエンティティ関連領域と非関連領域を区別し,ベースライン法と比較してゼロショット方式でより正確で柔軟な操作を行えることを検証する。
私たちのコードとモデルはhttps://github.com/Yikai-Wang/SeMani.comでリリースされます。 Existing text-guided image manipulation methods aim to modify the appearance of the image or to edit a few objects in a virtual or simple scenario, which is far from practical applications. In this work, we study a novel task on text-guided image manipulation on the entity level in the real world (eL-TGIM). The task imposes three basic requirements, (1) to edit the entity consistent with the text descriptions, (2) to preserve the entity-irrelevant regions, and (3) to merge the manipulated entity into the image naturally. To this end, we propose an elegant framework, dubbed as SeMani, forming the Semantic Manipulation of real-world images that can not only edit the appearance of entities but also generate new entities corresponding to the text guidance. To solve eL-TGIM, SeMani decomposes the task into two phases: the semantic alignment phase and the image manipulation phase. In the semantic alignment phase, SeMani incorporates a semantic alignment module to locate the entity-relevant region to be manipulated. In the image manipulation phase, SeMani adopts a generative model to synthesize new images conditioned on the entity-irrelevant regions and target text descriptions. We discuss and propose two popular generation processes that can be utilized in SeMani, the discrete auto-regressive generation with transformers and the continuous denoising generation with diffusion models, yielding SeMani-Trans and SeMani-Diff, respectively. We conduct extensive experiments on the real datasets CUB, Oxford, and COCO datasets to verify that SeMani can distinguish the entity-relevant and -irrelevant regions and achieve more precise and flexible manipulation in a zero-shot manner compared with baseline methods. Our codes and models will be released at https://github.com/Yikai-Wang/SeMani. | 翻訳日:2023-02-23 15:05:09 公開日:2023-02-22 |
# 割引マルコフ決定過程における厳密な政策ミラー降下の最適収束率 Optimal Convergence Rate for Exact Policy Mirror Descent in Discounted Markov Decision Processes ( http://arxiv.org/abs/2302.11381v1 ) ライセンス: Link先を確認 | Emmeran Johnson, Ciara Pike-Burke, Patrick Rebeschini | (参考訳) グラフ型強化学習(値反復とポリシー反復)で使用される古典的アルゴリズムは、割引されたマルコフ決定過程の割引係数$\gamma$で与えられる速度で線形に収束することが示されている。
近年,勾配法の研究への関心が高まっている。
本研究では,古典的強化学習アルゴリズムの次元自由線型$\gamma$-rateが,適応的なステップサイズの下で,非正規化ポリシミラー・ディフレクション(PMD)アルゴリズムの一般ファミリーによって実現可能であることを示す。
また,pmd 法において$\gamma$-rate が最適であることを示す,最下位値のマッチングも提供する。
本研究はpmdの収束に関する新しい視点を提供する。
私たちは、イテレートの単調な改善を確立することよりも、パフォーマンスの違いの補題の使用を回避し、独立した関心を持つ可能性のある単純な分析へと繋がる。
非正規化pmdの非正規化pmdに対する最初の次元フリーな$\varepsilon$-optimalサンプル複雑性を生成モデルで確立し、最もよく知られた結果に基づいて改善する。 The classical algorithms used in tabular reinforcement learning (Value Iteration and Policy Iteration) have been shown to converge linearly with a rate given by the discount factor $\gamma$ of a discounted Markov Decision Process. Recently, there has been an increased interest in the study of gradient based methods. In this work, we show that the dimension-free linear $\gamma$-rate of classical reinforcement learning algorithms can be achieved by a general family of unregularised Policy Mirror Descent (PMD) algorithms under an adaptive step-size. We also provide a matching worst-case lower-bound that demonstrates that the $\gamma$-rate is optimal for PMD methods. Our work offers a novel perspective on the convergence of PMD. We avoid the use of the performance difference lemma beyond establishing the monotonic improvement of the iterates, which leads to a simple analysis that may be of independent interest. We also extend our analysis to the inexact setting and establish the first dimension-free $\varepsilon$-optimal sample complexity for unregularised PMD under a generative model, improving upon the best-known result. | 翻訳日:2023-02-23 15:04:12 公開日:2023-02-22 |
# ストレスと適応: 画像分類のためのディープラーニングにおけるAnna Karenina原則の適用 Stress and Adaptation: Applying Anna Karenina Principle in Deep Learning for Image Classification ( http://arxiv.org/abs/2302.11380v1 ) ライセンス: Link先を確認 | Nesma Mahmoud, Hanna Antson, Jaesik Choi, Osamu Shimmi, Kallol Roy | (参考訳) ディープニューラルネットワークによる画像分類は、高い精度で最先端に到達した。
この成功は、非凸最適化問題の困難を回避できる優れた内部表現機能に起因する。
私たちはこれらの内部表現についてほとんど理解していない。
近年の研究は、これらの深層ネットワークの一般化可能性に関する代替理論と説明に焦点を当てている。
学習中の深層モデルの代替的摂動は,異なる家族への遷移につながる変化を誘発する。
その結果は、ディープラーニングのためのAnna Karenina Principle AKPであり、より一般化可能なモデルであるハッピーファミリーよりも、より一般化可能なモデルであるハッピーファミリーの方が、すべてのハッピーファミリーが同じように見えるLeo Tolstoy dictumに平行して、それぞれの不幸な家族は独自の方法で不幸である。
アンナ・カレニナの原理は、絶滅危惧種のサンゴの表面が厳しい天候にさらされることから、AIDの致命的な病気に苦しむ患者の肺まで、幅広いシステムで見られる。
本稿では,学習中にアクティベーションと損失関数をホットスワッピングすることで,モデルに対する人工摂動を生成した。
本稿では,癌細胞を非がん細胞から分類するモデルを構築した。
一般化された幸福モデルの内部表現が漸近極限において類似していることの理論的証明を与える。
我々の実験は一般化モデルの類似表現を検証する。 Image classification with deep neural networks has reached state-of-art with high accuracy. This success is attributed to good internal representation features that bypasses the difficulties of the non-convex optimization problems. We have little understanding of these internal representations, let alone quantifying them. Recent research efforts have focused on alternative theories and explanations of the generalizability of these deep networks. We propose the alternative perturbation of deep models during their training induces changes that lead to transitions to different families. The result is an Anna Karenina Principle AKP for deep learning, in which less generalizable models unhappy families vary more in their representation than more generalizable models happy families paralleling Leo Tolstoy dictum that all happy families look alike, each unhappy family is unhappy in its own way. Anna Karenina principle has been found in systems in a wide range: from the surface of endangered corals exposed to harsh weather to the lungs of patients suffering from fatal diseases of AIDs. In our paper, we have generated artificial perturbations to our model by hot-swapping the activation and loss functions during the training. In this paper, we build a model to classify cancer cells from non-cancer ones. We give theoretical proof that the internal representations of generalizable happy models are similar in the asymptotic limit. Our experiments verify similar representations of generalizable models. | 翻訳日:2023-02-23 15:03:53 公開日:2023-02-22 |
# 有界パラメータ空間におけるランダウ・ツェナー問題に対する解析的アプローチ Analytic approach to the Landau-Zener problem in bounded parameter space ( http://arxiv.org/abs/2302.11372v1 ) ライセンス: Link先を確認 | Felipe Matus, Jan St\v{r}ele\v{c}ek, Pavel Cejnar | (参考訳) 時間依存ランドウ・ツェナー・ハミルトニアンに対するschr\"{o}dinger方程式の3つの解析解を提示する。
これらは2レベル系の有界パラメータ空間内の特定の有限時間駆動パスに対応する。
これらの経路のうち2つは、一定の速度で、またはエネルギーギャップの減少した領域で減少する変動速度で、避けられたレベルの交差を通り抜け、エネルギーギャップが一定であるように通過をバイパスする。
この解は、初期ハミルトニアンの基底状態から進化する系の励起確率の正確な時間依存性をもたらす。
ランダウ・ゼナーの公式は、回避された交差を通る一定の速度の運転時間内で有効となる近似として現れる。
長い運転時間の間、全ての解は断熱摂動理論の予測に収束する。
励起確率はいくつかの離散時間瞬間で消失する。 Three analytic solutions to the Schr\"{o}dinger equation for the time-dependent Landau-Zener Hamiltonian are presented. They correspond to specific finite-time driving paths in a bounded parameter space of a two-level system. Two of these paths go through the avoided crossing of levels, either with a constant speed or with variable speed that decreases in the region of reduced energy gap, the third path bypasses the crossing such that the energy gap remains constant. The solutions yield exact time dependencies of the excitation probability for the system evolving from the ground state of the initial Hamiltonian. The Landau-Zener formula emerges as an approximation valid within a certain interval of driving times for the constant-speed driving through the avoided crossing. For long driving times, all solutions converge to the prediction of the adiabatic perturbation theory. The excitation probability vanishes at some discrete time instants. | 翻訳日:2023-02-23 15:03:30 公開日:2023-02-22 |
# 言語間イベント検出におけるサブワードプーリング戦略の効果 The Impact of Subword Pooling Strategy for Cross-lingual Event Detection ( http://arxiv.org/abs/2302.11365v1 ) ライセンス: Link先を確認 | Shantanu Agarwal, Steven Fincke, Chris Jenkins, Scott Miller, Elizabeth Boschee | (参考訳) 事前訓練された多言語モデル(例:mBERT、XLM-RoBERTa)は、ゼロショット言語間情報抽出のための最先端技術を大幅に進歩させた。
これらの言語モデルは、単語を小さなサブワードに分割するワードセグメンテーション技術に依存している。
したがって、すべての単語ラベリングタスク(例えば、名前付きエンティティ認識、イベント検出など)は、サブワード表現を入力として、単語全体の表現を出力するプーリング戦略を必要とする。
言語間イベント検出のタスクをモチベーションの例として捉えて,プール戦略の選択が対象言語のパフォーマンスに重大な影響を与えることを示す。
例えば、英語でのトレーニングやアラビア語でのaceタスクでのテストにおけるプーリング戦略によって、パフォーマンスは最大16ドルの絶対値f_{1}$ポイントで変化する。
多様な多言語データセットにおいて、9言語にわたる5つの異なるプール戦略を用いて分析を行う。
構成全体にわたって、単語全体を表す最初のサブワードのみを取るという標準的な戦略は、通常、サブ最適である。
一方,アテンションプーリングは,最適戦略に最善か近しいかによって,言語やデータセットのバリエーションに対して頑健であることを示す。
再現性のため、コードはhttps://github.com/isi-boston/ed-poolingで利用可能です。 Pre-trained multilingual language models (e.g., mBERT, XLM-RoBERTa) have significantly advanced the state-of-the-art for zero-shot cross-lingual information extraction. These language models ubiquitously rely on word segmentation techniques that break a word into smaller constituent subwords. Therefore, all word labeling tasks (e.g. named entity recognition, event detection, etc.), necessitate a pooling strategy that takes the subword representations as input and outputs a representation for the entire word. Taking the task of cross-lingual event detection as a motivating example, we show that the choice of pooling strategy can have a significant impact on the target language performance. For example, the performance varies by up to 16 absolute $f_{1}$ points depending on the pooling strategy when training in English and testing in Arabic on the ACE task. We carry out our analysis with five different pooling strategies across nine languages in diverse multi-lingual datasets. Across configurations, we find that the canonical strategy of taking just the first subword to represent the entire word is usually sub-optimal. On the other hand, we show that attention pooling is robust to language and dataset variations by being either the best or close to the optimal strategy. For reproducibility, we make our code available at https://github.com/isi-boston/ed-pooling. | 翻訳日:2023-02-23 15:03:18 公開日:2023-02-22 |
# 接近位相における小体回転状態の視覚に基づく推定 Vision-Based Estimation of Small Body Rotational State during the Approach Phase ( http://arxiv.org/abs/2302.11364v1 ) ライセンス: Link先を確認 | Paolo Panicucci, J\'er\'emy Lebreton, Roland Brochard, Emmanuel Zenou, and Michel Delpech | (参考訳) 小天体集団の多様性は、宇宙船の到着前に小天体特性の予測を複雑にする。
自律小天体探査の文脈では、軌道挿入と近接操作の前に小天体特性を推定するアルゴリズムを開発することが重要である。
本稿では,接近位相における小体回転状態(すなわち回転中心と回転軸方向)の視覚に基づく推定法について述べる。
このミッションでは、宇宙船は天体の回転を観測し、画像の特徴を追跡する。
特徴トラックはランドマークの円運動の投影であるため、可能な回転軸が計算される。
そして、特徴運動とヒューリスティックアプローチを利用して、可能な候補の中から回転軸解を選択する。
最後に、回転の中心は明るさの中心から推定される。
このアルゴリズムは、2つの異なる小惑星(ベンヌと伊藤川)と3つの異なる照明条件、100以上の異なる回転軸方向を持つ800以上の試験ケースで試験される。
その結果、ほとんどの場合、回転軸は限られた誤差で決定可能であることが示され、提案アルゴリズムは自律小体評価に有用な方法であることが示された。 The heterogeneity of the small body population complicates the prediction of the small body properties before the spacecraft's arrival. In the context of autonomous small body exploration, it is crucial to develop algorithms that estimate the small body characteristics before orbit insertion and close proximity operations. This paper develops a vision-based estimation of the small-body rotational state (i.e., the center of rotation and rotation axis direction) during the approach phase. In this mission phase, the spacecraft observes the celestial body rotating and tracks features in images. As feature tracks are the projection of landmarks' circular movement, the possible rotation axes are computed. Then, the rotation axis solution is chosen among the possible candidates by exploiting feature motion and a heuristic approach. Finally, the center of rotation is estimated from the center of brightness. The algorithm is tested on more than 800 test cases with two different asteroids (i.e., Bennu and Itokawa), three different lighting conditions, and more than 100 different rotation axis orientations. Results show that the rotation axis can be determined with limited error in most cases implying that the proposed algorithm is a valuable method for autonomous small body characterization. | 翻訳日:2023-02-23 15:02:58 公開日:2023-02-22 |
# end-to-end noise-robust音声認識におけるマルチタスク学習のための勾配修正 Gradient Remedy for Multi-Task Learning in End-to-End Noise-Robust Speech Recognition ( http://arxiv.org/abs/2302.11362v1 ) ライセンス: Link先を確認 | Yuchen Hu, Chen Chen, Ruizhe Li, Qiushi Zhu, Eng Siong Chng | (参考訳) 音声強調 (se) は, 下流自動音声認識 (asr) におけるノイズ低減に有効であり, これら2つのタスクを協調的に最適化するためにマルチタスク学習戦略が採用されている。
しかし、SE目標によって学習された強化音声は、必ずしも良好なASR結果をもたらすとは限らない。
最適化の観点からは、SEタスクとASRタスクの勾配が干渉することがあるため、マルチタスク学習が妨げられ、最終的に準最適ASR性能につながる可能性がある。
本稿では,ノイズロスト音声認識におけるタスク勾配間の干渉を,角度と大きさの両面から解消する,グラデーション・レメディエーション(GR)と呼ばれるシンプルなアプローチを提案する。
具体的には,seタスクの勾配をasr勾配に鋭角の動的表面に投影し,それらの衝突を除去し,asr最適化を支援する。
さらに,2つの勾配の大きさを適応的に再スケールすることで,asrタスクがse勾配によってミスされるのを防ぐ。
実験の結果, 提案手法は, ラットおよびchime-4データセットにおいて, 勾配干渉を良好に解決し, 単語誤り率 (wer) を9.3%, 11.1%削減できた。
私たちのコードはGitHubで入手可能です。 Speech enhancement (SE) is proved effective in reducing noise from noisy speech signals for downstream automatic speech recognition (ASR), where multi-task learning strategy is employed to jointly optimize these two tasks. However, the enhanced speech learned by SE objective may not always yield good ASR results. From the optimization view, there sometimes exists interference between the gradients of SE and ASR tasks, which could hinder the multi-task learning and finally lead to sub-optimal ASR performance. In this paper, we propose a simple yet effective approach called gradient remedy (GR) to solve interference between task gradients in noise-robust speech recognition, from perspectives of both angle and magnitude. Specifically, we first project the SE task's gradient onto a dynamic surface that is at acute angle to ASR gradient, in order to remove the conflict between them and assist in ASR optimization. Furthermore, we adaptively rescale the magnitude of two gradients to prevent the dominant ASR task from being misled by SE gradient. Experimental results show that the proposed approach well resolves the gradient interference and achieves relative word error rate (WER) reductions of 9.3% and 11.1% over multi-task learning baseline, on RATS and CHiME-4 datasets, respectively. Our code is available at GitHub. | 翻訳日:2023-02-23 15:02:41 公開日:2023-02-22 |
# 分子力場を用いた微分可能なロタマーサンプリング Differentiable Rotamer Sampling with Molecular Force Fields ( http://arxiv.org/abs/2302.11430v1 ) ライセンス: Link先を確認 | Congzhou M. Sha, Jian Wang, Nikolay V. Dokholyan | (参考訳) 分子動力学は、現代の構造生物学がマクロ分子の構造と機能を探究する主要な計算方法である。
ボルツマン生成器は分子力学の代替として提案されており、時間をかけて分子系の統合を生成ニューラルネットワークの訓練に置き換えている。
このmdへのニューラルネットワークアプローチは、従来のmdよりも高い速度でレアイベントをサンプリングするが、ボルツマン生成器の理論と計算可能性における重要なギャップは、その使用性を大幅に低下させる。
そこで我々は,これらの障壁を克服する数学的基盤を構築し,Boltzmannジェネレータアプローチが,特定の応用におけるタンパク質などの複雑な高分子に対する従来のMDを置き換えるのに十分迅速であることを示し,ニューラルネットワークを用いた分子エネルギー景観の探索のための包括的なツールキットを提供する。 Molecular dynamics is the primary computational method by which modern structural biology explores macromolecule structure and function. Boltzmann generators have been proposed as an alternative to molecular dynamics, by replacing the integration of molecular systems over time with the training of generative neural networks. This neural network approach to MD samples rare events at a higher rate than traditional MD, however critical gaps in the theory and computational feasibility of Boltzmann generators significantly reduce their usability. Here, we develop a mathematical foundation to overcome these barriers; we demonstrate that the Boltzmann generator approach is sufficiently rapid to replace traditional MD for complex macromolecules, such as proteins in specific applications, and we provide a comprehensive toolkit for the exploration of molecular energy landscapes with neural networks. | 翻訳日:2023-02-23 14:56:22 公開日:2023-02-22 |
# 中性子ロイド干渉計のグリーン関数解析 Green's function analysis of the Neutron Lloyd interferometer ( http://arxiv.org/abs/2302.11429v1 ) ライセンス: Link先を確認 | Christian K\"ading, Mario Pitschmann, Hartmut Abele | (参考訳) 中性子光学ロイド干渉計は、粒子や宇宙論の標準モデルを超えて基礎物理学を探究するための強力な実験として機能する。
本稿では,ロイド干渉計の反射鏡がスクリーンに伸びる限界における全グリーン関数解析について述べる。
まず,外部場が存在しないという理論的ケースについて考察する。
その後、重力場が中性子に作用している場合を分析する。
後者のケースは、ロイド干渉計を重力場のプローブとして使うのに必要な理論を提供し、さらに、仮説上の重力のような第5の力を生み出すポテンシャルの種類を考えるための青写真である。 The neutron optical Lloyd interferometer can serve as a potent experiment for probing fundamental physics beyond the standard models of particles and cosmology. In this article, we provide a full Green's function analysis of a Lloyd interferometer in the limit that the reflecting mirror extends to the screen. We consider two distinct situations: first, we will review the theoretical case of no external fields being present. Subsequently, we will analyze the case in which a gravitational field is acting on the neutrons. The latter case provides the theory necessary for using a Lloyd interferometer as a probe of gravitational fields, and, in addition, is a blueprint for considering types of potentials that give rise to hypothetical gravity-like fifth forces. | 翻訳日:2023-02-23 14:56:06 公開日:2023-02-22 |
# 分離損失関数による顔認証の強化 Enhanced Face Authentication With Separate Loss Functions ( http://arxiv.org/abs/2302.11427v1 ) ライセンス: Link先を確認 | Anh-Kiet Duong, Hoang-Lan Nguyen, Toan-Thinh Truong | (参考訳) 本プロジェクトの全体的な目的は、顔認識を用いて携帯電話やアプリケーションをアンロックする際の顔認識システムの提案と開発である。
システムは、顔検出、顔認識、顔のスプーフィング、閉じた目の分類の4つの異なるアーキテクチャを含む。
そこで本研究では,顔認識の課題を最も重要視し,画面の前に立つ人の正体を絶対的精度で決定することが,顔認識システムに必要な課題であると考える。
顔認識問題の発展とともに、反フェイクフェイスの問題も徐々に普及し、等しく重要になっている。
LMCotとDouble Lossの2つの損失関数の提案と開発が目的である。
次に、顔認証プロセスに適用する。 The overall objective of the main project is to propose and develop a system of facial authentication in unlocking phones or applications in phones using facial recognition. The system will include four separate architectures: face detection, face recognition, face spoofing, and classification of closed eyes. In which, we consider the problem of face recognition to be the most important, determining the true identity of the person standing in front of the screen with absolute accuracy is what facial recognition systems need to achieve. Along with the development of the face recognition problem, the problem of the anti-fake face is also gradually becoming popular and equally important. Our goal is to propose and develop two loss functions: LMCot and Double Loss. Then apply them to the face authentication process. | 翻訳日:2023-02-23 14:55:55 公開日:2023-02-22 |
# 短期量子コンピューティングアルゴリズムにおける励起電子状態の測定最適化手法 Measurement optimization techniques for excited electronic states in near-term quantum computing algorithms ( http://arxiv.org/abs/2302.11421v1 ) ライセンス: Link先を確認 | Seonghoon Choi and Artur F. Izmaylov | (参考訳) 変分量子固有解法(VQE)は、電子構造問題を解くための最も一般的な短期量子アルゴリズムの1つである。
しかし、その実用性において、克服する主な課題は量子測定効率を改善することである。
近年、多くの量子計測技術が開発されているが、これらの最先端の計測技術が、励起電子状態を得るためにVQEの拡張でどのように機能するかは不明である。
励起状態 vqe における測定手法の性能評価は、電子ハミルトニアンに加えて複数の観測器の期待値を測定する必要があるため、これらの拡張における測定要求が通常従来の vqe よりもはるかに大きいため重要である。
ここでは、多状態収縮と量子部分空間展開という2つの広く使われている励起状態VQEアルゴリズムに様々な測定手法を適用する。
そして、各測定手法の測定要件を数値的に比較する。
多状態収縮の最良の方法は、測定回数を最小限に抑えるためにハミルトンデータと波動関数情報を利用する方法である。
対照的に、ランダム化測定技術は量子部分空間の膨張に適しており、測定するエネルギースケールがかなり異なる観測可能なものが多い。
それにもかかわらず、各励起状態VQEアルゴリズムの最良の測定手法を考えると、量子部分空間展開よりも多状態収縮において測定が著しく少ない。 The variational quantum eigensolver (VQE) remains one of the most popular near-term quantum algorithms for solving the electronic structure problem. Yet, for its practicality, the main challenge to overcome is improving the quantum measurement efficiency. Numerous quantum measurement techniques have been developed recently, but it is unclear how these state-of-the-art measurement techniques will perform in extensions of VQE for obtaining excited electronic states. Assessing the measurement techniques' performance in the excited state VQE is crucial because the measurement requirements in these extensions are typically much greater than in conventional VQE, as one must measure the expectation value of multiple observables in addition to that of the electronic Hamiltonian. Here, we adapt various measurement techniques to two widely used excited state VQE algorithms: multi-state contraction and quantum subspace expansion. Then, the measurement requirements of each measurement technique are numerically compared. We find that the best methods for multi-state contraction are ones utilizing Hamiltonian data and wavefunction information to minimize the number of measurements. In contrast, randomized measurement techniques are more appropriate for quantum subspace expansion, with many more observables of vastly different energy scales to measure. Nevertheless, when the best possible measurement technique for each excited state VQE algorithm is considered, significantly fewer measurements are required in multi-state contraction than in quantum subspace expansion. | 翻訳日:2023-02-23 14:55:45 公開日:2023-02-22 |
# アライメント拡散schr\"odinger橋 Aligned Diffusion Schr\"odinger Bridges ( http://arxiv.org/abs/2302.11419v1 ) ライセンス: Link先を確認 | Vignesh Ram Somnath, Matteo Pariset, Ya-Ping Hsieh, Maria Rodriguez Martinez, Andreas Krause, Charlotte Bunne | (参考訳) Diffusion Schr\"odinger Bridges (DSB) は、最近、異なる時間点における限界観測を通して確率力学を回復するための強力なフレームワークとして登場した。
多くの応用が成功したにもかかわらず、DSBを解くための既存のアルゴリズムは、多くの生物学的現象で自然に発生する整列データの構造を利用できなかった。
本稿では,データアライメントを尊重しながらDSBを初めて解決する新しいアルゴリズムフレームワークを提案する。
私たちのアプローチは、古典的なschr\"odinger bridge理論とdoobの$h$-transformという2つの数十年のアイデアを組み合わせたものです。
従来の方法と比較すると,本手法はより低分散の訓練手順につながり,原理正規化スキームによりさらに強化される。
これは最終的に、タンパク質ドッキングの硬いタスクや細胞分化プロセスの時間的進化を含む、合成データと実データに関する実験を通して大きな改善をもたらす。 Diffusion Schr\"odinger bridges (DSB) have recently emerged as a powerful framework for recovering stochastic dynamics via their marginal observations at different time points. Despite numerous successful applications, existing algorithms for solving DSBs have so far failed to utilize the structure of aligned data, which naturally arises in many biological phenomena. In this paper, we propose a novel algorithmic framework that, for the first time, solves DSBs while respecting the data alignment. Our approach hinges on a combination of two decades-old ideas: The classical Schr\"odinger bridge theory and Doob's $h$-transform. Compared to prior methods, our approach leads to a simpler training procedure with lower variance, which we further augment with principled regularization schemes. This ultimately leads to sizeable improvements across experiments on synthetic and real data, including the tasks of rigid protein docking and temporal evolution of cellular differentiation processes. | 翻訳日:2023-02-23 14:55:22 公開日:2023-02-22 |
# モデル転送と適応によるフェデレーション高周波フィンガープリント Federated Radio Frequency Fingerprinting with Model Transfer and Adaptation ( http://arxiv.org/abs/2302.11418v1 ) ライセンス: Link先を確認 | Chuanting Zhang, Shuping Dang, Junqing Zhang, Haixia Zhang, Mark A. Beach | (参考訳) 無線周波数(RF)フィンガープリント技術は、製造時に導入されるハードウェアの不完全性を利用して、将来のネットワークで高いセキュアなデバイス認証を可能にする。
この技術はここ数年で大きな注目を集めてきたが、RFフィンガープリントはトレーニングフェーズとテストフェーズの間のチャネル偏差によるデータ分布のドリフトに大きな課題に直面している。
この根本的な課題に対処し、エッジでのモデルトレーニングとテストを支援するために、モデル転送適応(MTA)と呼ばれる新しい戦略を用いた連合RFフィンガープリントアルゴリズムを提案する。
提案手法は,畳み込み層間の密結合をrfフィンガープリントに導入し,学習精度を高め,モデルの複雑さを低減する。
さらに,フェデレート学習の文脈で提案したアルゴリズムを実装し,アルゴリズムの通信を効率的かつプライバシー保護する。
データミスマッチ問題をさらに克服するために,学習したモデルを1つのチャネル条件から転送し,限られた情報量で他のチャネル条件に適応させることにより,環境ドリフト下での高精度な予測を実現する。
実世界のデータセットを用いた実験結果から,提案アルゴリズムはモデル非依存であり,信号非関連であることが示された。
現状のRFフィンガープリンティングアルゴリズムと比較して,提案アルゴリズムは最大15倍の性能で予測性能を大幅に向上させることができる。 The Radio frequency (RF) fingerprinting technique makes highly secure device authentication possible for future networks by exploiting hardware imperfections introduced during manufacturing. Although this technique has received considerable attention over the past few years, RF fingerprinting still faces great challenges of channel-variation-induced data distribution drifts between the training phase and the test phase. To address this fundamental challenge and support model training and testing at the edge, we propose a federated RF fingerprinting algorithm with a novel strategy called model transfer and adaptation (MTA). The proposed algorithm introduces dense connectivity among convolutional layers into RF fingerprinting to enhance learning accuracy and reduce model complexity. Besides, we implement the proposed algorithm in the context of federated learning, making our algorithm communication efficient and privacy-preserved. To further conquer the data mismatch challenge, we transfer the learned model from one channel condition and adapt it to other channel conditions with only a limited amount of information, leading to highly accurate predictions under environmental drifts. Experimental results on real-world datasets demonstrate that the proposed algorithm is model-agnostic and also signal-irrelevant. Compared with state-of-the-art RF fingerprinting algorithms, our algorithm can improve prediction performance considerably with a performance gain of up to 15\%. | 翻訳日:2023-02-23 14:55:06 公開日:2023-02-22 |
# 病理組織像のための構造埋め込み核分類 Structure Embedded Nucleus Classification for Histopathology Images ( http://arxiv.org/abs/2302.11416v1 ) ライセンス: Link先を確認 | Wei Lou, Xiang Wan, Guanbin Li, Xiaoying Lou, Chenghang Li, Feng Gao, Haofeng Li | (参考訳) 核分類は病理組織学画像解析に有用な情報を提供する。
しかし、異なる核種の出現における大きな変化は、核の同定に困難を引き起こす。
ほとんどのニューラルネットワークベースの方法は畳み込みの局所受容場に影響され、核の空間分布や核の不規則な輪郭形状にはあまり注意を払わない。
本稿では、まず、核の輪郭を順番にサンプリングされた点列に変換する新しいポリゴン構造特徴学習機構を提案し、キーポイント間の連続的な変化を集約して学習可能な形状特徴を得るリカレントニューラルネットワークを用いる。
次に,病理像を核をノードとするグラフ構造に変換し,その表現に核の空間分布を埋め込むグラフニューラルネットワークを構築する。
核のカテゴリと周囲の組織パターンの相関を捉えるため、隣接した核間の背景テクスチャとして定義されるエッジの特徴をさらに導入する。
最後に,我々は多角形とグラフ構造学習機構を,核内および核間構造特性を抽出する枠組み全体に組み入れた。
実験の結果,提案手法は最先端手法に比べて大幅な改善が得られた。 Nuclei classification provides valuable information for histopathology image analysis. However, the large variations in the appearance of different nuclei types cause difficulties in identifying nuclei. Most neural network based methods are affected by the local receptive field of convolutions, and pay less attention to the spatial distribution of nuclei or the irregular contour shape of a nucleus. In this paper, we first propose a novel polygon-structure feature learning mechanism that transforms a nucleus contour into a sequence of points sampled in order, and employ a recurrent neural network that aggregates the sequential change in distance between key points to obtain learnable shape features. Next, we convert a histopathology image into a graph structure with nuclei as nodes, and build a graph neural network to embed the spatial distribution of nuclei into their representations. To capture the correlations between the categories of nuclei and their surrounding tissue patterns, we further introduce edge features that are defined as the background textures between adjacent nuclei. Lastly, we integrate both polygon and graph structure learning mechanisms into a whole framework that can extract intra and inter-nucleus structural characteristics for nuclei classification. Experimental results show that the proposed framework achieves significant improvements compared to the state-of-the-art methods. | 翻訳日:2023-02-23 14:54:42 公開日:2023-02-22 |
# 未知のバイアスを媒介する識別・エンファシズパラダイム Delving into Identify-Emphasize Paradigm for Combating Unknown Bias ( http://arxiv.org/abs/2302.11414v1 ) ライセンス: Link先を確認 | Bowen Zhao, Chen Chen, Qian-Wei Wang, Anfeng He, Shu-Tao Xia | (参考訳) データセットのバイアスは、モデルロバスト性と一般化を損なうことで悪名高い。
識別強調パラダイムは、未知のバイアスを扱うのに有効であるように見える。
しかし、A、同定されたバイアス強調サンプルの品質は決して満足できない、B、強調する戦略は最適以下の性能しか生み出さない、という2つの課題に悩まされている。
本稿では, ピアピッキングとエポックアンサンブルの2つの実践的戦略とともに, 同定精度を高める効果的なバイアス強調スコアリング手法(ECS)を提案する。
課題Bについて、勾配寄与統計は、最適化がバイアス整合サンプルに支配されているかどうかを検査するための信頼性のある指標であると指摘する。
そこで,本研究では,学習過程を通じて,偏差整合および偏差整合サンプルの寄与を動的にバランスさせるために,勾配統計を用いた勾配アライメント(GA)を提案する。
さらに,ss(self-supervised)プリテキストタスクをトレーニングに組み込むことにより,単純なショートカットよりもリッチな機能を活用し,より堅牢なモデルを実現する。
様々な環境で複数のデータセットで実験を行い、提案手法が未知のバイアスの影響を軽減し、最先端のパフォーマンスを達成することを実証する。 Dataset biases are notoriously detrimental to model robustness and generalization. The identify-emphasize paradigm appears to be effective in dealing with unknown biases. However, we discover that it is still plagued by two challenges: A, the quality of the identified bias-conflicting samples is far from satisfactory; B, the emphasizing strategies only produce suboptimal performance. In this paper, for challenge A, we propose an effective bias-conflicting scoring method (ECS) to boost the identification accuracy, along with two practical strategies -- peer-picking and epoch-ensemble. For challenge B, we point out that the gradient contribution statistics can be a reliable indicator to inspect whether the optimization is dominated by bias-aligned samples. Then, we propose gradient alignment (GA), which employs gradient statistics to balance the contributions of the mined bias-aligned and bias-conflicting samples dynamically throughout the learning process, forcing models to leverage intrinsic features to make fair decisions. Furthermore, we incorporate self-supervised (SS) pretext tasks into training, which enable models to exploit richer features rather than the simple shortcuts, resulting in more robust models. Experiments are conducted on multiple datasets in various settings, demonstrating that the proposed solution can mitigate the impact of unknown biases and achieve state-of-the-art performance. | 翻訳日:2023-02-23 14:54:22 公開日:2023-02-22 |
# ドメイン反転のための勾配調整ネットワーク Gradient Adjusting Networks for Domain Inversion ( http://arxiv.org/abs/2302.11413v1 ) ライセンス: Link先を確認 | Erez Sheffi, Michael Rotman, Lior Wolf | (参考訳) StyleGAN2はセマンティック編集をサポートする強力な画像生成エンジンであることが実証された。
しかし、実世界像を操作するためには、まず、所望の画像に可能な限り近い画像にデコードされるstyleganの潜在空間において、対応する潜在表現を検索する必要がある。
多くの実世界の画像では、潜在表現は存在せず、生成ネットワークのチューニングが必要となる。
入力潜時表現テンソルと出力画像とのマッピングを比較的無傷に保ちながら、画像の編集をほぼ完璧に行うことができ、かつ、画像の編集もほぼ完全に行えるように、StyleGAN2ジェネレータをチューニングする画像ごとの最適化手法を提案する。
この方法は、ジェネレータの層を変更する一連の浅い更新ネットワーク(Gradient Modification Modules)のワンショットトレーニングに基づいている。
勾配修正モジュールをトレーニングした後、これらのネットワークの1つのアプリケーションから元のパラメータに修正されたジェネレータを取得し、ジェネレータの以前の編集機能を維持する。
我々の実験は、この非常にアクティブな領域における最先端技術よりも大きなパフォーマンス差を示している。
私たちのコードは \url{https://github.com/sheffier/gani} で利用可能です。 StyleGAN2 was demonstrated to be a powerful image generation engine that supports semantic editing. However, in order to manipulate a real-world image, one first needs to be able to retrieve its corresponding latent representation in StyleGAN's latent space that is decoded to an image as close as possible to the desired image. For many real-world images, a latent representation does not exist, which necessitates the tuning of the generator network. We present a per-image optimization method that tunes a StyleGAN2 generator such that it achieves a local edit to the generator's weights, resulting in almost perfect inversion, while still allowing image editing, by keeping the rest of the mapping between an input latent representation tensor and an output image relatively intact. The method is based on a one-shot training of a set of shallow update networks (aka. Gradient Modification Modules) that modify the layers of the generator. After training the Gradient Modification Modules, a modified generator is obtained by a single application of these networks to the original parameters, and the previous editing capabilities of the generator are maintained. Our experiments show a sizable gap in performance over the current state of the art in this very active domain. Our code is available at \url{https://github.com/sheffier/gani}. | 翻訳日:2023-02-23 14:53:54 公開日:2023-02-22 |
# ニューラルNLPのためのデータ拡張 Data Augmentation for Neural NLP ( http://arxiv.org/abs/2302.11412v1 ) ライセンス: Link先を確認 | Domagoj Plu\v{s}\v{c}ec, Jan \v{S}najder | (参考訳) データ不足は、大量のラベル付きデータを持っていないが最先端のモデルを使いたいという言語やタスクで発生する問題です。
このようなモデルは、トレーニングに大量のデータを必要とするディープラーニングモデルであることが多い。
さまざまな機械学習問題に対するデータ取得には、高いラベリングコストが伴う。
データ拡張は、データの不足に取り組むための低コストなアプローチである。
本稿では,自然言語処理における最先端データ拡張手法の概要を述べるとともに,ニューラルモデルとトランスフォーマーモデルに焦点をあてる。
さらに,データ強化の実践的課題,緩和の可能性,今後の研究の方向性についても論じる。 Data scarcity is a problem that occurs in languages and tasks where we do not have large amounts of labeled data but want to use state-of-the-art models. Such models are often deep learning models that require a significant amount of data to train. Acquiring data for various machine learning problems is accompanied by high labeling costs. Data augmentation is a low-cost approach for tackling data scarcity. This paper gives an overview of current state-of-the-art data augmentation methods used for natural language processing, with an emphasis on methods for neural and transformer-based models. Furthermore, it discusses the practical challenges of data augmentation, possible mitigations, and directions for future research. | 翻訳日:2023-02-23 14:53:33 公開日:2023-02-22 |
# グラフニューラルネットワークを用いた電力制約自動調整 Power Constrained Autotuning using Graph Neural Networks ( http://arxiv.org/abs/2302.11467v1 ) ライセンス: Link先を確認 | Akash Dutta, Jee Choi, Ali Jannesari | (参考訳) マルチコアおよびマルチコアプロセッサの最近の進歩は、科学計算アプリケーションの性能を大幅に向上させた。
しかし、多くの複雑なコアの追加は全体の消費電力を増加させ、現代のプロセッサでは電力は一階設計の制約となっている。
単にソフトウェアベースの電力制約を適用することで消費電力を制限できるが、それを盲目的に適用すると、非自明なパフォーマンス低下につながる。
最新のマルチコアプロセッサ上での科学応用の性能,パワー,エネルギー効率の向上という課題に対処するために,グラフニューラルネットワークを用いた自動チューニング手法を提案する。
i) 予め定義された電力制約で実行時のパフォーマンスを最適化し、
(II) エネルギー遅延生成物を最小化することにより、ランタイム性能とエネルギー効率を同時に最適化する。
このアプローチの背後にある重要なアイデアは、並列コード領域をフロー対応コードグラフとしてモデル化し、セマンティックコードと構造コードの両方の特徴をキャプチャすることだ。
提案手法の有効性は,30ドルのベンチマークとプロキシ/ミニアプリケーションに対して,68ドルのOpenMPコード領域で広範な評価を行うことによって実証する。
提案手法では,32コアのskylakeと16$-coreのhaswellプロセッサのデフォルトのopenmp構成と比較して,それぞれ25\%$と13\%$以上の幾何学的平均性能向上を実現する,異なる電力制約下でのopenmp構成を識別する。
さらに、エネルギー遅延製品を最適化する場合、自動チューニングによって選択されたOpenMP構成は、それぞれ同じSkylakeプロセッサとHaswellプロセッサで、デフォルトのOpenMP構成に対して、21 %$と11 %$のパフォーマンス改善と29 %$と18 %$のエネルギー削減の両方を示します。 Recent advances in multi and many-core processors have led to significant improvements in the performance of scientific computing applications. However, the addition of a large number of complex cores have also increased the overall power consumption, and power has become a first-order design constraint in modern processors. While we can limit power consumption by simply applying software-based power constraints, applying them blindly will lead to non-trivial performance degradation. To address the challenge of improving the performance, power, and energy efficiency of scientific applications on modern multi-core processors, we propose a novel Graph Neural Network based auto-tuning approach that (i) optimizes runtime performance at pre-defined power constraints, and (ii) simultaneously optimizes for runtime performance and energy efficiency by minimizing the energy-delay product. The key idea behind this approach lies in modeling parallel code regions as flow-aware code graphs to capture both semantic and structural code features. We demonstrate the efficacy of our approach by conducting an extensive evaluation on $30$ benchmarks and proxy-/mini-applications with $68$ OpenMP code regions. Our approach identifies OpenMP configurations at different power constraints that yield a geometric mean performance improvement of more than $25\%$ and $13\%$ over the default OpenMP configuration on a 32-core Skylake and a $16$-core Haswell processor respectively. In addition, when we optimize for the energy-delay product, the OpenMP configurations selected by our auto-tuner demonstrate both performance improvement of $21\%$ and $11\%$ and energy reduction of $29\%$ and $18\%$ over the default OpenMP configuration at Thermal Design Power for the same Skylake and Haswell processors, respectively. | 翻訳日:2023-02-23 14:48:16 公開日:2023-02-22 |
# フェデレーション学習の進歩:モデル、方法、プライバシ Advancements in Federated Learning: Models, Methods, and Privacy ( http://arxiv.org/abs/2302.11466v1 ) ライセンス: Link先を確認 | Huiming Chen, Huandong Wang, Depeng Jin and Yong Li | (参考訳) フェデレートラーニング(FL)は、プライバシーとセキュリティの問題に対処するための有望なテクニックである。
その主な要素は、機密データをアップロードすることなく、分散クライアント間で協調的にモデルを学ぶことである。
本稿では,開発状況に倣い,理論的・実践的両面からFLの背後にある重要な技術を深く掘り下げる,関連研究の徹底的なレビューを行った。
具体的には,まずflシステムのネットワークトポロジーに基づくflアーキテクチャの既存作品を詳細な解析と要約を用いて分類する。
次に、現在のアプリケーション問題を抽象化し、一般的なテクニックを要約し、アプリケーションの問題をFLベースモデルの一般的なパラダイムに分類する。
さらに,提案するモデルトレーニングのソリューションをflで提供する。
我々は既存のFedOptアルゴリズムを要約し分析し、多くの一階アルゴリズムのアルゴリズム開発原理を深く明らかにし、より一般化されたアルゴリズム設計フレームワークを提案する。
これらのフレームワークに基づいて、FedOptアルゴリズムをインスタンス化した。
プライバシとセキュリティがFLの基本要件であるので、既存の攻撃シナリオと防御方法を提供します。
我々の知る限り、我々は理論的手法をレビューし、理論的アプローチを調査する研究がほとんどないため、戦略を提案する最初の段階の1つである。
本調査は,実世界アプリケーションにflを統合するための高性能,プライバシ保護,セキュアな手法の開発を動機付けることを目標としている。 Federated learning (FL) is a promising technique for addressing the rising privacy and security issues. Its main ingredient is to cooperatively learn the model among the distributed clients without uploading any sensitive data. In this paper, we conducted a thorough review of the related works, following the development context and deeply mining the key technologies behind FL from both theoretical and practical perspectives. Specifically, we first classify the existing works in FL architecture based on the network topology of FL systems with detailed analysis and summarization. Next, we abstract the current application problems, summarize the general techniques and frame the application problems into the general paradigm of FL base models. Moreover, we provide our proposed solutions for model training via FL. We have summarized and analyzed the existing FedOpt algorithms, and deeply revealed the algorithmic development principles of many first-order algorithms in depth, proposing a more generalized algorithm design framework. Based on these frameworks, we have instantiated FedOpt algorithms. As privacy and security is the fundamental requirement in FL, we provide the existing attack scenarios and the defense methods. To the best of our knowledge, we are among the first tier to review the theoretical methodology and propose our strategies since there are very few works surveying the theoretical approaches. Our survey targets motivating the development of high-performance, privacy-preserving, and secure methods to integrate FL into real-world applications. | 翻訳日:2023-02-23 14:47:44 公開日:2023-02-22 |
# フルリファレンス画像品質評価のためのデバイアスドマッピング Debiased Mapping for Full-Reference Image Quality Assessment ( http://arxiv.org/abs/2302.11464v1 ) ライセンス: Link先を確認 | Baoliang Chen, Hanwei Zhu, liingyu Zhu, and Shiqi Wang | (参考訳) 最近の学習に基づくフルリファレンス画像品質評価(fr-iqa)モデルでは、比較のために画像から深い特徴空間へのマッピングが広く採用されている。
古典的な分類タスクと同様に、品質回帰のための理想的な写像空間はクラス間分離性とクラス内コンパクト性の両方を持つべきである。
品質レベルの異なる画像の識別に焦点を当てたクラス間分離性は、既存のモデルで非常に強調されている。
しかし、同一または識別不能な画像の客観的品質のばらつきを小さく維持するクラス内コンパクト性は、研究の注意を逸らし、知覚バイアス対策につながる可能性がある。
本稿では,このようなバイアスは主に特徴が投影され比較される不適切な部分空間に起因していることを明らかにする。
そこで本研究では,特異値分解(SVD)によって形成される深層学習特徴の正規分布に基づくDMM(Debiased Mapping based quality Measure)を開発した。
深層学習の特徴領域におけるSVDは、特異値と射影ベースとを圧倒的に分離し、専用に設計された距離測定による品質推定を容易にする。
異なるIQAデータベースを用いた実験により, 認識バイアスを効率的に軽減できることを示すとともに, 品質予測における優れた性能が本手法の有効性を検証した。
実装は一般公開される予定だ。 Mapping images to deep feature space for comparisons has been wildly adopted in recent learning-based full-reference image quality assessment (FR-IQA) models. Analogous to the classical classification task, the ideal mapping space for quality regression should possess both inter-class separability and intra-class compactness. The inter-class separability that focuses on the discrimination of images with different quality levels has been highly emphasized in existing models. However, the intra-class compactness that maintains small objective quality variance of images with the same or indistinguishable quality escapes the research attention, potentially leading to the perception-biased measures. In this paper, we reveal that such bias is mainly caused by the unsuitable subspace that the features are projected and compared in. To account for this, we develop the Debiased Mapping based quality Measure (DMM), which relies on the orthonormal bases of deep learning features formed by singular value decomposition (SVD). The SVD in deep learning feature domain, which overwhelmingly separates the quality variations with singular values and projection bases, facilitates the quality inference with dedicatedly designed distance measure. Experiments on different IQA databases demonstrate the mapping method is able to mitigate the perception bias efficiently, and the superior performance on quality prediction verifies the effectiveness of our method. The implementation will be publicly available. | 翻訳日:2023-02-23 14:47:22 公開日:2023-02-22 |
# 情景画像におけるsariency guided contrastive learning Saliency Guided Contrastive Learning on Scene Images ( http://arxiv.org/abs/2302.11461v1 ) ライセンス: Link先を確認 | Meilin Chen, Yizhou Wang, Shixiang Tang, Feng Zhu, Haiyang Yang, Lei Bai, Rui Zhao, Donglian Qi, Wanli Ouyang | (参考訳) 自己教師付き学習は、大量のラベルのないデータを活用することを約束する。
しかし、その成功は高度に計算されたデータセット、例えば、人間のクリーニングを必要とするImageNetに大きく依存している。
低精度のシーン画像から表現を直接学習することは、自己教師あり学習をより高いレベルに押し上げる上で不可欠である。
単純で明確な意味情報を含むキュレートされた画像とは異なり、シーンイメージは複雑なシーンや複数のオブジェクトを含むため、より複雑でモザイクである。
実現可能であったにもかかわらず、近年の作品は、シーン画像のオブジェクト表現に対する対照的な学習のための最も差別的な領域の発見をほとんど見落としていた。
本研究は,学習中のモデルの出力から導かれるサリエンシマップを利用して,これらの識別領域を強調し,対照的な学習全体を導く。
特に、塩分マップはまず、その識別領域を正のペアとして収穫し、その後、その塩分スコアによって異なる作物間の対比的損失を和らげる方法を導く。
提案手法は,画像上の自己教師学習の性能を,画像の線形評価において+1.1,+4.3,+2.2の精度で向上させる。
サラマンシーマップに関する我々の洞察が、シーンデータからより汎用的な教師なし表現学習に関する将来の研究を動機付けることを期待している。 Self-supervised learning holds promise in leveraging large numbers of unlabeled data. However, its success heavily relies on the highly-curated dataset, e.g., ImageNet, which still needs human cleaning. Directly learning representations from less-curated scene images is essential for pushing self-supervised learning to a higher level. Different from curated images which include simple and clear semantic information, scene images are more complex and mosaic because they often include complex scenes and multiple objects. Despite being feasible, recent works largely overlooked discovering the most discriminative regions for contrastive learning to object representations in scene images. In this work, we leverage the saliency map derived from the model's output during learning to highlight these discriminative regions and guide the whole contrastive learning. Specifically, the saliency map first guides the method to crop its discriminative regions as positive pairs and then reweighs the contrastive losses among different crops by its saliency scores. Our method significantly improves the performance of self-supervised learning on scene images by +1.1, +4.3, +2.2 Top1 accuracy in ImageNet linear evaluation, Semi-supervised learning with 1% and 10% ImageNet labels, respectively. We hope our insights on saliency maps can motivate future research on more general-purpose unsupervised representation learning from scene data. | 翻訳日:2023-02-23 14:46:57 公開日:2023-02-22 |
# マルチモード6DoF物体追跡のための視覚的外観と幾何学 Fusing Visual Appearance and Geometry for Multi-modality 6DoF Object Tracking ( http://arxiv.org/abs/2302.11458v1 ) ライセンス: Link先を確認 | Manuel Stoiber, Mariam Elsayed, Anne E. Reichert, Florian Steidle, Dongheui Lee, Rudolph Triebel | (参考訳) 高度なロボット操作の多くの応用において、6自由度(6DoF)オブジェクトのポーズ推定が継続的に必要である。
本研究では,視覚的な外観と形状から情報を融合して物体のポーズを推定するマルチモダリティトラッカを開発した。
このアルゴリズムは、幾何学的手法であるICGを拡張し、表面の外観をさらに考慮する。
一般に、オブジェクト表面は、テキスト、グラフィック、パターンの局所的な特徴と、異なる材料や色とのグローバルな差異を含んでいる。
この視覚情報を組み込むために、2つのモダリティを開発する。
局所的な特徴では、キーフレームと現在の画像間の距離を最小化するためにキーポイント機能を使用する。
グローバルな差異のために、対象表面上の複数の領域を考慮した新しい領域アプローチが開発されている。
加えて、外部のジオメトリのモデリングも可能である。
YCB-Video と OPT のデータセットの実験では、我々のアプローチ ICG+ は両方のデータセットで最高性能を示し、従来の手法とディープラーニングベースの手法の両方より優れている。
同時に、アルゴリズムは非常に効率的で、300Hz以上で動作する。
トラッカーのソースコードは公開されています。 In many applications of advanced robotic manipulation, six degrees of freedom (6DoF) object pose estimates are continuously required. In this work, we develop a multi-modality tracker that fuses information from visual appearance and geometry to estimate object poses. The algorithm extends our previous method ICG, which uses geometry, to additionally consider surface appearance. In general, object surfaces contain local characteristics from text, graphics, and patterns, as well as global differences from distinct materials and colors. To incorporate this visual information, two modalities are developed. For local characteristics, keypoint features are used to minimize distances between points from keyframes and the current image. For global differences, a novel region approach is developed that considers multiple regions on the object surface. In addition, it allows the modeling of external geometries. Experiments on the YCB-Video and OPT datasets demonstrate that our approach ICG+ performs best on both datasets, outperforming both conventional and deep learning-based methods. At the same time, the algorithm is highly efficient and runs at more than 300 Hz. The source code of our tracker is publicly available. | 翻訳日:2023-02-23 14:46:33 公開日:2023-02-22 |
# メタバースにおける意味情報マーケティング:学習に基づく契約理論フレームワーク Semantic Information Marketing in The Metaverse: A Learning-Based Contract Theory Framework ( http://arxiv.org/abs/2302.11457v1 ) ライセンス: Link先を確認 | Ismail Lotfi, Dusit Niyato, Sumei Sun, Dong In Kim, Xuemin (Sherman) Shen | (参考訳) 本稿では,仮想サービスプロバイダ (VSP) によるインセンティブ設計の課題に対処し,Metaverse における物理世界のデジタルコピーの作成とレンダリングを支援するために,センシングされたIoTデバイスをそのセンシングデータ販売に採用する。
帯域幅が限られているため,センサIoTデバイスによる配信データを削減するためにセマンティック抽出アルゴリズムを提案する。
それでも、VSPとデータを共有するためにセンサーIoTデバイスを雇用し、構築されたデジタルツインをMetaverseユーザに配信するメカニズムは、有害な選択問題に対して脆弱である。
システムエンティティ間の情報非対称性によって引き起こされる有害選択問題は、異なるエンティティのプライベート情報が多次元である場合に解決が困難になる。
本稿では,新しい反復型契約設計を提案し,マルチエージェント強化学習(MARL)の変種を用いて,モデル付き多次元契約問題の解法を提案する。
提案アルゴリズムの有効性を実証するために,広範囲なシミュレーションを行い,メタバースの契約のいくつかの重要な性能指標を測定した。
その結果,提案する反復契約は,参加者に真に対話するインセンティブを与え,最小の個別合理性 (ir) とインセンティブ相反性 (ic) でvspの利益を最大化できることがわかった。
さらに,提案する学習ベースの反復的契約フレームワークは,インセンティブ機構の悪質な選択問題に対処する上で,参加者の私的情報へのアクセスを制限している。 In this paper, we address the problem of designing incentive mechanisms by a virtual service provider (VSP) to hire sensing IoT devices to sell their sensing data to help creating and rendering the digital copy of the physical world in the Metaverse. Due to the limited bandwidth, we propose to use semantic extraction algorithms to reduce the delivered data by the sensing IoT devices. Nevertheless, mechanisms to hire sensing IoT devices to share their data with the VSP and then deliver the constructed digital twin to the Metaverse users are vulnerable to adverse selection problem. The adverse selection problem, which is caused by information asymmetry between the system entities, becomes harder to solve when the private information of the different entities are multi-dimensional. We propose a novel iterative contract design and use a new variant of multi-agent reinforcement learning (MARL) to solve the modelled multi-dimensional contract problem. To demonstrate the effectiveness of our algorithm, we conduct extensive simulations and measure several key performance metrics of the contract for the Metaverse. Our results show that our designed iterative contract is able to incentivize the participants to interact truthfully, which maximizes the profit of the VSP with minimal individual rationality (IR) and incentive compatibility (IC) violation rates. Furthermore, the proposed learning-based iterative contract framework has limited access to the private information of the participants, which is to the best of our knowledge, the first of its kind in addressing the problem of adverse selection in incentive mechanisms. | 翻訳日:2023-02-23 14:46:14 公開日:2023-02-22 |
# クロネッカー係数の量子的複雑性 Quantum complexity of the Kronecker coefficients ( http://arxiv.org/abs/2302.11454v1 ) ライセンス: Link先を確認 | Sergey Bravyi, Anirban Chowdhury, David Gosset, Vojtech Havlicek, Guanyu Zhu | (参考訳) 対称群のクロネッカー係数がいくつかの組合せ対象の集合を数えているかどうかは長年の疑問である。
本研究では、与えられたクロネッカー係数が、量子コンピュータを用いて効率的に測定できるプロジェクターのランクに比例することを示す。
言い換えると、クロネッカー係数(kronecker coefficient)は、qmaがnpの量子アナログであるqma検証器の受理証人によって与えられるベクトル空間の次元を数える。
これは、クロネッカー係数を与えられた相対誤差内で近似することは、量子多体系の熱的性質を推定する複雑さを捉える量子近似計数問題のある種の自然クラスよりも難しくないことを意味する。
第2の結果は、クロネッカー係数の正の判定がQMAに含まれており、最近のIkenmeyer、Mulmuley、WalterのNP硬度の結果を補完するということである。
対称群の文字表の行和を近似する関連問題に対しても同様の結果が得られる。
最後に,正規化クロネッカー係数を逆多項加算誤差に近似する効率的な量子アルゴリズムについて述べる。 Whether or not the Kronecker coefficients of the symmetric group count some set of combinatorial objects is a longstanding open question. In this work we show that a given Kronecker coefficient is proportional to the rank of a projector that can be measured efficiently using a quantum computer. In other words a Kronecker coefficient counts the dimension of the vector space spanned by the accepting witnesses of a QMA verifier, where QMA is the quantum analogue of NP. This implies that approximating the Kronecker coefficients to within a given relative error is not harder than a certain natural class of quantum approximate counting problems that captures the complexity of estimating thermal properties of quantum many-body systems. A second consequence is that deciding positivity of Kronecker coefficients is contained in QMA, complementing a recent NP-hardness result of Ikenmeyer, Mulmuley and Walter. We obtain similar results for the related problem of approximating row sums of the character table of the symmetric group. Finally, we discuss an efficient quantum algorithm that approximates normalized Kronecker coefficients to inverse-polynomial additive error. | 翻訳日:2023-02-23 14:45:46 公開日:2023-02-22 |
# テレポーテーションと条件付き状態伝達の予測・回帰計測 Prediction-retrodiction measurements for teleportation and conditional state transfer ( http://arxiv.org/abs/2302.11450v1 ) ライセンス: Link先を確認 | Sergey A. Fedorov and Emil Zeuthen | (参考訳) 連続測定により、未来を予測し、量子システムの過去を予測できる。
これらの2つの可能性は徹底的ではなく、いくつかの測定は未来と過去の不確実さを残しているが、それらの関係を確立する。
予測と回帰の重ね合わせとして定式化された連続時間非局所測定の手順を導入し、移動場と相互作用する2つの量子発振器間のテレポーテーションと条件状態伝達の問題に適用する。
状態伝達のために測定される2つの観測可能なものは、初期時のソース発振器と相互作用の最終時刻におけるターゲット発振器との間の位置と運動量差である。
このような測定は、正則量子状態は条件とせず、時間内の反対方向に伝播する成分を含む2回状態である。
提案手法は, ホモダイン検出に基づく状態伝達の忠実度を解析的に決定し, 純粋なビームスプリッタおよび2モードスキューズ型を超えて, 幅広い線形振動子-場相互作用を完璧に行うための戦略を同定する。 Continuous measurements allow predicting the future and retrodicting the past of quantum systems. These two possibilities are not exhaustive, and some measurements leave the future and the past uncertain, yet establish a relation between them; such measurements are non-local in time. We introduce a procedure for continuous time-non-local measurements formulated as a superposition of prediction and retrodiction, and apply it to the problems of teleportation and conditional state transfer between two quantum oscillators interacting with traveling fields. The two observables that need to be measured to transfer a state are the position and momentum differences between the source oscillator at the initial time and the target oscillator at the final time of the interaction. Such measurements do not condition regular quantum states, but two-time states that contain components propagating in opposite directions in time. Our approach enables us to analytically determine the fidelities of the state transfer based on homodyne detection, and to identify strategies for performing the transfer perfectly across a wide range of linear oscillator-field interactions beyond the pure beam-splitter and two-mode-squeezing types. | 翻訳日:2023-02-23 14:45:26 公開日:2023-02-22 |
# 特異値分解に基づくマトリックス手術 Singular value decomposition based matrix surgery ( http://arxiv.org/abs/2302.11446v1 ) ライセンス: Link先を確認 | Jehan Ghafuri, Sabah Jassim | (参考訳) 本稿では,無作為行列の条件数を減らし,制御するための簡単な手法を開発し,良質行列と悪質行列の点雲の持続的ホモロジー(PH)への影響について検討する。
ガウス/ユニフォーム分布を用いてランダムに生成される正方行列に対して、SVD-Surgery法は、(1)特異値分解(SVD)を計算し、(2)より小さい特異値のリストをリスト内のエントリの凸線型結合で変更し、(3)新たな行列をSVDを反転して計算する。
SVD-Surgeryを行列に適用すると、しばしば入力行列と異なる対角係数を持つ。
ランダム正方行列の空間分布は、それらの条件数の分布と相関することが知られている。
したがって、持続的ホモロジー (PH) 調査は、SVD-Surgery がランダムに生成された良条件行列と不条件行列の大規模データセットの点雲およびそれらの逆によって形成される点雲に与える影響を比較することに焦点を当てている。
本研究は, 画像雑音に対する過度な収差低減とロバスト性向上の手段として, 畳み込みフィルタの条件数の観点から, 深層学習(DL)訓練が医用画像に与える影響を安定化したいという願望に動機付けられている。
訓練中の畳み込みフィルタに適用すると、SVD-Surgeryは余分なパラメータを学習することなくDLモデルのスペクトル正則化として機能する。
十分大きな畳み込みフィルタを持ついくつかの点の雲に対して、この単純な戦略はフィルタのノルムを保持し、選択された線形結合パラメータによってその逆のノルムを減少させる。
さらに, この手法は, 行列の調和と安定な位相挙動に対する顕著な改善を示した。 This paper aims to develop a simple procedure to reduce and control the condition number of random matrices, and investigate the effect on the persistent homology (PH) of point clouds of well- and ill-conditioned matrices. For a square matrix generated randomly using Gaussian/Uniform distribution, the SVD-Surgery procedure works by: (1) computing its singular value decomposition (SVD), (2) replacing the diagonal factor by changing a list of the smaller singular values by a convex linear combination of the entries in the list, and (3) compute the new matrix by reversing the SVD. Applying SVD-Surgery on a matrix often results in having different diagonal factor to those of the input matrix. The spatial distribution of random square matrices are known to be correlated to the distribution of their condition numbers. The persistent homology (PH) investigations, therefore, are focused on comparing the effect of SVD-Surgery on point clouds of large datasets of randomly generated well-conditioned and ill-conditioned matrices, as well as that of the point clouds formed by their inverses. This work is motivated by the desire to stabilise the impact of Deep Learning (DL) training on medical images in terms of the condition numbers of their sets of convolution filters as a mean of reducing overfitting and improving robustness against tolerable amounts of image noise. When applied to convolution filters during training, the SVD-Surgery acts as a spectral regularisation of the DL model without the need for learning extra parameters. We shall demonstrate that for several point clouds of sufficiently large convolution filters our simple strategy preserve filters norm and reduces the norm of its inverse depending on the chosen linear combination parameters. Moreover, our approach showed significant improvements towards the well-conditioning of matrices and stable topological behaviour. | 翻訳日:2023-02-23 14:45:07 公開日:2023-02-22 |
# シャプリー値に基づく効率的なデータ評価」についての一考察 A Note on "Towards Efficient Data Valuation Based on the Shapley Value'' ( http://arxiv.org/abs/2302.11431v1 ) ライセンス: Link先を確認 | Jiachen T. Wang, Ruoxi Jia | (参考訳) Shapley値(SV)はデータバリュエーションの有望な方法として登場した。
しかし、svの計算や推定はしばしば計算コストがかかる。
この課題を克服するため、Jia et al. (2019) は '‘Group Testing-based SV estimator'' と呼ばれる高度なSV推定アルゴリズムを提案し、このアルゴリズムは漸近的なサンプルの複雑さを良好に達成した。
本稿では,このSV推定器の分析と設計におけるいくつかの改良点について述べる。
さらに,グループテストに基づくSV推定器は,収集したサンプルを完全に再利用していないことを指摘した。
我々の分析と洞察は、データ評価のための効率的なSV推定アルゴリズムを開発する上での課題の理解に寄与する。 The Shapley value (SV) has emerged as a promising method for data valuation. However, computing or estimating the SV is often computationally expensive. To overcome this challenge, Jia et al. (2019) propose an advanced SV estimation algorithm called ``Group Testing-based SV estimator'' which achieves favorable asymptotic sample complexity. In this technical note, we present several improvements in the analysis and design choices of this SV estimator. Moreover, we point out that the Group Testing-based SV estimator does not fully reuse the collected samples. Our analysis and insights contribute to a better understanding of the challenges in developing efficient SV estimation algorithms for data valuation. | 翻訳日:2023-02-23 14:44:32 公開日:2023-02-22 |
# 量子コヒーレンスのテレポーテーション Teleportation of Quantum Coherence ( http://arxiv.org/abs/2302.11499v1 ) ライセンス: Link先を確認 | Sohail, Arun K Pati, Vijeth Aradhya, Indranil Chakrabarty, Subhasree Patro | (参考訳) 未知の量子状態のコヒーレンスをアリスからボブへ、未知の量子状態のテレポートに必要なものと比較して、より少ない数の古典的ビットを通信することで、テレポートできるかどうかを検討する。
任意の量子ビットに対して1ビットの古典的通信でコヒーレンスを完全テレポーテーションすることは不可能である。
しかし、量子ビットが赤道と極圏から選択された場合、共有資源として最大に絡み合った状態を持つ場合、1つのcbitの情報を転送することで、コヒーレンスのテレポーテーションが可能となる。
資源が最大に絡み合っていない状態であれば、ある成功の可能性で量子コヒーレンスをテレポートすることができる。
コヒーレンスのための一般的なテレポーテーションプロトコルでは、共有資源状態に対応する完全正の写像と、アリスがキュービットと未知の状態で行った共同POVMの合成の観点から、ボブの研究室での最終状態に関するコンパクトな公式を導出する。
この公式の助けを借りて,資源共有状態が最大に絡み合った混合状態である場合のコヒーレンス量と,アリスの研究室における未知の純状態および混合状態のヴェルナー状態について検討する。
特に、ヴェルナー状態が分離可能になったとき、テレポートされたコヒーレンスの量はゼロであり、絡み合いのないコヒーレンスのテレポーテーションの可能性を示している。
また,任意の状態と実行列要素とのコヒーレンスのテレポーテーションは,資源として最大に絡み合った状態の助けを借りて,正確に可能であることを示した。 We investigate whether it is possible to teleport the coherence of an unknown quantum state from Alice to Bob by communicating lesser number of classical bits in comparison to what is required in teleporting an unknown quantum state. We find that we cannot do perfect teleportation of coherence with one bit of classical communication for an arbitrary qubit. However, we find that if the qubit is chosen from equatorial and polar circles, then teleportation of coherence will be possible with transfer of one cbit of information if we have maximally entangled states as a shared resource. In the case of resource being a non maximally entangled state, we can teleport quantum coherence with a certain probability of success. In a general teleportation protocol for coherence, we derive a compact formula for the final state at Bob's lab in terms of composition of the completely positive maps corresponding to the shared resource state and joint POVM performed by Alice on her qubit and the unknown state. With the help of this formula, we investigate the amount of coherence teleported when the resource shared state is the maximally entangled mixed state and Werner state for the unknown pure as well as mixed states state at Alice's lab. In particular, we show that when the Werner state becomes separable then also the amount of teleported coherence is non-zero, implying the possibility of teleportation of coherence without entanglement. We have also shown that teleportation of coherence of an arbitrary state with real matrix elements is exactly possible with the help of maximally entangled state as a resource. | 翻訳日:2023-02-23 14:38:25 公開日:2023-02-22 |
# センチネル-2超解離におけるエイリアスとバンドシフトの役割について On The Role of Alias and Band-Shift for Sentinel-2 Super-Resolution ( http://arxiv.org/abs/2302.11494v1 ) ライセンス: Link先を確認 | Ngoc Long Nguyen, J\'er\'emy Anger, Lara Raad, Bruno Galerne, Gabriele Facciolo | (参考訳) 本研究では,Sentinel-2画像の単一画像超解像(SISR)問題について検討する。
我々は、バンド間シフトとエイリアスというユニークなセンサー仕様のおかげで、ディープラーニングの手法が詳細を再現できることを示した。
単純な$L_1$ロスを使ってモデルをトレーニングすることで、結果は幻覚的な詳細がなくなる。
本研究では,sentinel-2/planetscope画像対のデータセットを構築し,超分解能モデル(sr)の学習と評価を行った。 In this work, we study the problem of single-image super-resolution (SISR) of Sentinel-2 imagery. We show that thanks to its unique sensor specification, namely the inter-band shift and alias, that deep-learning methods are able to recover fine details. By training a model using a simple $L_1$ loss, results are free of hallucinated details. For this study, we build a dataset of pairs of images Sentinel-2/PlanetScope to train and evaluate our super-resolution (SR) model. | 翻訳日:2023-02-23 14:38:02 公開日:2023-02-22 |
# 拡大不変医療画像解析:畳み込みネットワーク, 視覚変換器, トークンミキサーの比較 Magnification Invariant Medical Image Analysis: A Comparison of Convolutional Networks, Vision Transformers, and Token Mixers ( http://arxiv.org/abs/2302.11488v1 ) ライセンス: Link先を確認 | Pranav Jeevan, Nikhil Cherian Kurian and Amit Sethi | (参考訳) 畳み込みニューラルネットワーク(cnns)は医用画像解析に広く用いられているが、画像の倍率化が訓練画像と異なる場合、その性能は低下する。
拡大スケールをまたいで一般化できないcnnは、外部データセットの最適性能を低下させる可能性がある。
本研究は, 各種深層学習アーキテクチャの頑健性を評価することを目的として, トレーニングおよびテスト段階における拡大尺度の異なる乳癌病理像の解析を行う。
本稿では,CNNベースのResNetやMobileNet,自己アテンションベースのVision TransformerやSwin Transformer,FNet,ConvMixer,MLP-Mixer,WaveMixなどのトークン混合モデルなど,複数のディープラーニングアーキテクチャの性能について検討・比較する。
この実験は、乳がんの病理像を様々な倍率レベルで含むBreakHisデータセットを用いて行われた。
我々は,WaveMixの性能がトレーニングデータとテストデータの倍率に不変であることを示し,安定した分類精度を提供する。
これらの評価は、拡大スケールの変化を堅牢に処理し、解剖学的構造にわたるスケール変化が推論結果を妨げないようにする深層学習アーキテクチャの同定に重要である。 Convolution Neural Networks (CNNs) are widely used in medical image analysis, but their performance degrade when the magnification of testing images differ from the training images. The inability of CNNs to generalize across magnification scales can result in sub-optimal performance on external datasets. This study aims to evaluate the robustness of various deep learning architectures in the analysis of breast cancer histopathological images with varying magnification scales at training and testing stages. Here we explore and compare the performance of multiple deep learning architectures, including CNN-based ResNet and MobileNet, self-attention-based Vision Transformers and Swin Transformers, and token-mixing models, such as FNet, ConvMixer, MLP-Mixer, and WaveMix. The experiments are conducted using the BreakHis dataset, which contains breast cancer histopathological images at varying magnification levels. We show that performance of WaveMix is invariant to the magnification of training and testing data and can provide stable and good classification accuracy. These evaluations are critical in identifying deep learning architectures that can robustly handle changes in magnification scale, ensuring that scale changes across anatomical structures do not disturb the inference results. | 翻訳日:2023-02-23 14:37:52 公開日:2023-02-22 |
# フェデレーション・オポチュニスティック・ブロック・ドロップアウトによる大規模産業断層診断モデルの効率的な訓練 Efficient Training of Large-scale Industrial Fault Diagnostic Models through Federated Opportunistic Block Dropout ( http://arxiv.org/abs/2302.11485v1 ) ライセンス: Link先を確認 | Yuanyuan Chen, Zichen Chen, Sheng Guo, Yansong Zhao, Zelei Liu, Pengcheng Wu, Chengyi Yang, Zengxiang Li, Han Yu | (参考訳) 人工知能(ai)を応用した産業事故診断は,産業応用の安全な運用を確保する上で重要である。
複雑な産業システムは、しばしば複数の産業プラント(おそらく異なる企業や子会社に属する)が分散的に収集・保存されているため、協調的故障診断モデルトレーニングは連邦学習(FL)を活用する必要がある。
産業的故障診断モデルの規模は大きいことが多く、そのようなシステム内の通信チャネルはFLモデルトレーニングにのみ使用されないことが多いため、既存のFLモデルトレーニングフレームワークは、複数の機関でそのようなモデルを効率的に訓練することはできない。
本稿では,産業故障診断モデルトレーニングのためのFEDOBD(Federated Opportunistic Block Dropout)アプローチの開発と展開経験について報告する。
大規模モデルをセマンティックブロックに分解し、FL参加者が選択した重要なブロックを定量的にアップロードすることで、モデル性能を維持しながら通信オーバーヘッドを大幅に削減する。
2022年2月にENNグループに配備されて以来、FEDOBDは中国の2つの都市に2つの石炭化学プラントを提供し、工業的故障予測モデルを構築してきた。
これまでのAIエンジンと比較して、トレーニングコミュニケーションのオーバーヘッドを70%以上削減し、モデルパフォーマンスを85%以上のテストF1スコアで維持した。
私たちの知る限り、DropoutベースのFLアプローチが最初に成功しました。 Artificial intelligence (AI)-empowered industrial fault diagnostics is important in ensuring the safe operation of industrial applications. Since complex industrial systems often involve multiple industrial plants (possibly belonging to different companies or subsidiaries) with sensitive data collected and stored in a distributed manner, collaborative fault diagnostic model training often needs to leverage federated learning (FL). As the scale of the industrial fault diagnostic models are often large and communication channels in such systems are often not exclusively used for FL model training, existing deployed FL model training frameworks cannot train such models efficiently across multiple institutions. In this paper, we report our experience developing and deploying the Federated Opportunistic Block Dropout (FEDOBD) approach for industrial fault diagnostic model training. By decomposing large-scale models into semantic blocks and enabling FL participants to opportunistically upload selected important blocks in a quantized manner, it significantly reduces the communication overhead while maintaining model performance. Since its deployment in ENN Group in February 2022, FEDOBD has served two coal chemical plants across two cities in China to build industrial fault prediction models. It helped the company reduce the training communication overhead by over 70% compared to its previous AI Engine, while maintaining model performance at over 85% test F1 score. To our knowledge, it is the first successfully deployed dropout-based FL approach. | 翻訳日:2023-02-23 14:37:28 公開日:2023-02-22 |
# 量子異方性液体の数値解析と量子シミュレーション Numerical and quantum simulation of a quantum disentangled liquid ( http://arxiv.org/abs/2302.11483v1 ) ライセンス: Link先を確認 | E. Abbasgholinejad, S. Raeisi and A. Langari | (参考訳) 光と重粒子からなる量子異方性液体(QDL)の定位波動関数を数値シミュレーションで検討した。
光粒子の最初の測定は、重粒子サブシステムの絡み合いエントロピーの体積則をもたらす。
エントロピーは、システムのサブシステムサイズに対する比率が大きくなるにつれて最大値に達する。
光粒子の初期構成による熱力学的限界からの絡み合いエントロピーの標準偏差は、アンサンブル平均化の中で減少する。
基礎となるQDL状態をシミュレートする量子回路を導入した。
量子シミュレーションの結果は、導入回路がQDL状態を実現することを確認する数値シミュレーションと一致している。 The illustrative wave function for a quantum disentangled liquid (QDL) composed of light and heavy particles is examined within numerical simulations. Initial measurement on light particles gives rise to the volume law of the entanglement entropy of the heavy particles subsystem. The entropy reaches its maximum value as the ratio of the system to subsystem sizes increases. The standard deviation of entanglement entropy from its thermodynamic limit due to the initial configuration of the light particle is diminished within ensemble averaging. We have introduced a quantum circuit to simulate the underlying QDL state. The results of the quantum simulation are in agreement with the numerical simulations which confirms that the introduced circuit realizes a QDL state. | 翻訳日:2023-02-23 14:37:03 公開日:2023-02-22 |
# 変圧器を用いた自律運転のためのセンサ融合:調査 Transformer-Based Sensor Fusion for Autonomous Driving: A Survey ( http://arxiv.org/abs/2302.11481v1 ) ライセンス: Link先を確認 | Apoorv Singh | (参考訳) センサ融合は、自動運転やロボティクスなど、多くの認識システムにおいて重要なトピックである。
dataset leaderboardsによると、トランスフォーマーベースの検出ヘッドとcnnベースの特徴エンコーダは、生のセンサーデータから特徴を抽出するのに最適な3d検出フレームワークの1つとして登場した。
本研究では,近年のトランスフォーマーを用いた3次元物体検出タスクについて,主にセンサフュージョンに着目した詳細な文献調査を行う。
また、ViT(Vision Transformer)の基礎も手短に調べて、読者が簡単に論文をフォローできるようにしています。
さらに,自律運転のためのセンサ融合のための非トランスフォーマーベース非支配的手法についても,短時間で検討した。
結論として,センサフュージョンの傾向を概説し,今後の研究を推し進める。
より更新された概要は、https://github.com/ApoorvRoboticist/Transformers-Sensor-Fusionを参照してください。 Sensor fusion is an essential topic in many perception systems, such as autonomous driving and robotics. Transformers-based detection head and CNN-based feature encoder to extract features from raw sensor-data has emerged as one of the best performing sensor-fusion 3D-detection-framework, according to the dataset leaderboards. In this work we provide an in-depth literature survey of transformer based 3D-object detection task in the recent past, primarily focusing on the sensor fusion. We also briefly go through the Vision transformers (ViT) basics, so that readers can easily follow through the paper. Moreover, we also briefly go through few of the non-transformer based less-dominant methods for sensor fusion for autonomous driving. In conclusion we summarize with sensor-fusion trends to follow and provoke future research. More updated summary can be found at: https://github.com/ApoorvRoboticist/Transformers-Sensor-Fusion | 翻訳日:2023-02-23 14:36:54 公開日:2023-02-22 |
# ドロップエッジと適応:グラフニューラルネットワークの微調整を施した公正性 Drop Edges and Adapt: a Fairness Enforcing Fine-tuning for Graph Neural Networks ( http://arxiv.org/abs/2302.11479v1 ) ライセンス: Link先を確認 | Indro Spinelli, Riccardo Bianchini, Simone Scardapane | (参考訳) 多くの異なるネットワークサイエンスタスクにおける主要なソリューションとしてのグラフ表現学習の台頭は、この一連の手法の公平性への関心の高まりをもたらした。
特にリンク予測は、社会に大きな影響を与える。
しかし、リンク予測アルゴリズムは、特定の人口集団における個人間のリンクを嫌うことにより、ソーシャルネットワークの分離を増加させる傾向にある。
本稿では,微調整戦略を用いたグラフニューラルネットワークの公平性を強化する新しい手法を提案する。
不公平なエッジをドロップし、同時にモデルのパラメータをそれらの修正に適応させます。
リンク予測タスク用に明示的に設計された2つの共分散に基づく制約を導入する。
これらの制約を利用して,新たな"フェア"隣接行列の学習に責任を持つ最適化プロセスを導出する。
DEAの新たな特徴の1つは、微調整に離散的だが学習可能な隣接行列を使うことができることである。
5つの実世界のデータセットに対するアプローチの有効性を実証し、リンク予測タスクの正確性と公平性の両方を改善できることを示す。
また,本研究は,学習中のリンク予測性能を向上させるために,隣接行列の学習アルゴリズムを活用できることを実証する。
最後に、制約と隣接マトリックスのトレーニングの組み合わせが最適なパフォーマンスをもたらすことを示すために、フレームワークの各コンポーネントの関連性を計算します。 The rise of graph representation learning as the primary solution for many different network science tasks led to a surge of interest in the fairness of this family of methods. Link prediction, in particular, has a substantial social impact. However, link prediction algorithms tend to increase the segregation in social networks by disfavoring the links between individuals in specific demographic groups. This paper proposes a novel way to enforce fairness on graph neural networks with a fine-tuning strategy. We Drop the unfair Edges and, simultaneously, we Adapt the model's parameters to those modifications, DEA in short. We introduce two covariance-based constraints designed explicitly for the link prediction task. We use these constraints to guide the optimization process responsible for learning the new "fair" adjacency matrix. One novelty of DEA is that we can use a discrete yet learnable adjacency matrix in our fine-tuning. We demonstrate the effectiveness of our approach on five real-world datasets and show that we can improve both the accuracy and the fairness of the link prediction tasks. In addition, we present an in-depth ablation study demonstrating that our training algorithm for the adjacency matrix can be used to improve link prediction performances during training. Finally, we compute the relevance of each component of our framework to show that the combination of both the constraints and the training of the adjacency matrix leads to optimal performances. | 翻訳日:2023-02-23 14:36:39 公開日:2023-02-22 |
# サブセット選択のための解釈可能な決定的選択モデル An Interpretable Determinantal Choice Model for Subset Selection ( http://arxiv.org/abs/2302.11477v1 ) ライセンス: Link先を確認 | Sander Aarts and David B. Shmoys and Alex Coy | (参考訳) 提供されたセットからアイテムのサブセットをどのように選択するかを理解することは、アソシエーションプランニング、無線ネットワークプランニング、その他多くのアプリケーションにとって重要である。
アイテム間の依存関係をキャプチャする、一見無関係なサブセット選択モデルとして、直観的および解釈可能なランダムユーティリティモデルと、抽出可能な決定点プロセス(DPP)がある。
この論文は2つをつなぐ。
まず、すべての DPP はランダムなユーティリティモデルであることが示される。
次に、両方の世界のベストを享受する決定的選択モデルが特定され、依存が最小の場合にロジスティック回帰を仮定し、依存が最大負の場合にはMNLを示す。
これによりモデルは解釈可能となり、DPPのトラクタビリティは維持される。
シミュレーション研究は、モデルがデータから負の依存関係の連続性を学習できることを検証し、最初の実験データを用いた応用研究は、loraネットワークにおけるワイヤレス干渉に関する新しい洞察を生み出す。 Understanding how subsets of items are chosen from offered sets is critical to assortment planning, wireless network planning, and many other applications. There are two seemingly unrelated subset choice models that capture dependencies between items: intuitive and interpretable random utility models; and tractable determinantal point processes (DPPs). This paper connects the two. First, all DPPs are shown to be random utility models. Next, a determinantal choice model that enjoys the best of both worlds is specified; the model is shown to subsume logistic regression when dependence is minimal, and MNL when dependence is maximally negative. This makes the model interpretable, while retaining the tractability of DPPs. A simulation study verifies that the model can learn a continuum of negative dependencies from data, and an applied study using original experimental data produces novel insights on wireless interference in LoRa networks. | 翻訳日:2023-02-23 14:36:19 公開日:2023-02-22 |
# 校正されていない教師からの校正生の蒸留 Distilling Calibrated Student from an Uncalibrated Teacher ( http://arxiv.org/abs/2302.11472v1 ) ライセンス: Link先を確認 | Ishan Mishra, Sethu Vamsi Krishna, Deepak Mishra | (参考訳) 知識蒸留は、教師ネットワークから情報を伝達することで、比較的大きくて深い、浅い学生ネットワークの性能を向上させるための一般的な手法である。
これらの教師ネットワークは、トレーニング中に教師モデルに校正技術を適用することなく、事前訓練され、しばしば校正されない。
ネットワークのキャリブレーションは、高リスク領域において重要な全ての予測の正しさを測定する。
本稿では,校正されていない教師から校正を受けた生徒の獲得方法について検討する。
我々のアプローチは、知識蒸留を伴うカットアウト、ミックスアップ、カットミクスに限らず、データ拡張技術の融合に依存している。
我々は,従来の知識蒸留を超えてアプローチを拡張し,関係知識蒸留やコントラスト表現蒸留にも適していると考えている。
本研究の新規性は、留学生の精度を損なうことなく、校正された生徒を校正されていない教師モデルから蒸留する枠組みを提供することである。
CIFAR-10, CIFAR-100, CINIC-10, TinyImageNet など, 様々なデータセットに対するアプローチを検証するための広範な実験を行い, 校正された学生モデルを得た。
また, 破損したCIFAR-100Cデータを用いて, 提案手法の頑健な性能評価を行った。 Knowledge distillation is a common technique for improving the performance of a shallow student network by transferring information from a teacher network, which in general, is comparatively large and deep. These teacher networks are pre-trained and often uncalibrated, as no calibration technique is applied to the teacher model while training. Calibration of a network measures the probability of correctness for any of its predictions, which is critical in high-risk domains. In this paper, we study how to obtain a calibrated student from an uncalibrated teacher. Our approach relies on the fusion of the data-augmentation techniques, including but not limited to cutout, mixup, and CutMix, with knowledge distillation. We extend our approach beyond traditional knowledge distillation and find it suitable for Relational Knowledge Distillation and Contrastive Representation Distillation as well. The novelty of the work is that it provides a framework to distill a calibrated student from an uncalibrated teacher model without compromising the accuracy of the distilled student. We perform extensive experiments to validate our approach on various datasets, including CIFAR-10, CIFAR-100, CINIC-10 and TinyImageNet, and obtained calibrated student models. We also observe robust performance of our approach while evaluating it on corrupted CIFAR-100C data. | 翻訳日:2023-02-23 14:36:02 公開日:2023-02-22 |
# 上位位相相の絡み合いエントロピー Entanglement entropy of higher rank topological phases ( http://arxiv.org/abs/2302.11468v1 ) ライセンス: Link先を確認 | Hiromi Ebisu | (参考訳) 本研究では, フラクトン位相に類似した制限モビリティ制約を持つ分数励振を許容する異常な$\mathbb{Z}_N$位相安定化符号の絡み合いエントロピーについて検討する。
従来の位相的に順序付けられた位相における円板幾何学の絡み合いエントロピーのサブリーディング項は、分数励起の量子次元の総数に関係していることは広く知られている。
我々のモデルでは、そのような関係は持たない、すなわち、量子次元の総数はシステムサイズによって異なるが、エンタングルメントエントロピーのサブリード項はシステムサイズに関係なく定数数を取る。
この結果の物理的解釈を、モデルの最も単純な場合に適用する。 We study entanglement entropy of unusual $\mathbb{Z}_N$ topological stabilizer codes which admit fractional excitations with restricted mobility constraint in a manner akin to fracton topological phases. It is widely known that the sub-leading term of the entanglement entropy of a disk geometry in conventional topologically ordered phases is related to the total number of the quantum dimension of the fractional excitations. We show that, in our model, such a relation does not hold, i.e, the total number of the quantum dimension varies depending on the system size, whereas the sub-leading term of the entanglement entropy takes a constant number irrespective to the system size. We give a physical interpretation of this result in the simplest case of the model. | 翻訳日:2023-02-23 14:35:40 公開日:2023-02-22 |
# 深層学習による医用画像分割のためのマスク処理による余剰画素補間の評価 Evaluation of Extra Pixel Interpolation with Mask Processing for Medical Image Segmentation with Deep Learning ( http://arxiv.org/abs/2302.11522v1 ) ライセンス: Link先を確認 | Olivier Rukundo | (参考訳) 本研究では, 深層学習による医用画像分割のためのトレーニングデータセット画像とマスクの補間において, マスク処理による余剰画素補間アルゴリズムと非外部画素補間アルゴリズムとの対比を行った。
筆者は、データセットイメージを補間する余剰画素と、データセットマスクを補間する余剰画素という、異なるアルゴリズムを用いてデータセットイメージとマスクを補間するシナリオについても検討した。
評価の結果、画像とマスクからなるデータセットのトレーニングは、追加画素bicubic補間(bic)を用いて補間され、データセット画像の非extraピクセル近傍補間(nn)またはbicとデータセットマスクのnnのいずれよりもセグメント化精度が向上した。
具体的には、BIC-BICネットワークは8.9578 %(画像サイズ256 x 256)、1.0496 %(画像サイズ384 x 384)、NN-NNネットワークは8.3127 %(画像サイズ256 x 256)、0.2887 %(画像サイズ384 x 384)であった。 In this study, the author evaluated the use of an extra pixel interpolation algorithm with mask processing versus non-extra pixel interpolation algorithm when interpolating training dataset images and masks for medical image segmentation with deep learning. The author also examined scenarios of interpolating dataset images and masks using different algorithms: extra pixel for interpolating dataset images and non-extra pixel for interpolating dataset masks. The evaluation outcomes revealed that training on datasets consisting of images and masks both interpolated using the extra pixel bicubic interpolation (BIC) resulted in better segmentation accuracy compared to using either the non-extra pixel nearest neighbor interpolation (NN) or BIC for dataset images and NN for dataset masks. Specifically, the evaluation revealed that the BIC-BIC network was a 8.9578 % (with image size 256 x 256) and a 1.0496 % (with image size 384 x 384) increase of NN-NN network compared to the NN-BIC network which was a 8.3127 % (with image size 256 x 256) and a 0.2887 % (with image size 384 x 384) increase of NN-NN network. | 翻訳日:2023-02-23 14:29:35 公開日:2023-02-22 |
# インコンテキスト学習はいかにしてチューニングを促進するか? How Does In-Context Learning Help Prompt Tuning? ( http://arxiv.org/abs/2302.11521v1 ) ライセンス: Link先を確認 | Simeng Sun, Yang Liu, Dan Iter, Chenguang Zhu, Mohit Iyyer | (参考訳) 微調整された大きな言語モデルは、急速に拡大するスケールのため、ますます実用的ではない。
これは、プロンプトチューニング(pt)のようなパラメータ効率の良い適応法の使用を動機付け、それ以外は凍結されたモデルに少数のチューニング可能な埋め込みを追加し、追加のトレーニングなしで自然言語でモデルにタスクのデモンストレーションを提供するin-context learning(icl)を使用する。
近年、singhal et al. (2022) は、自然言語のデモンストレーションと学習されたプロンプト埋め込みを結合することにより、ptとiclを結合した 'instruction prompt tuning'' (ipt) を提案している。
これらの手法はすべて異なるタスクで有効であることが証明されているが、相互にどう相互作用するかは未調査のままである。
本稿では,複数のベース言語モデルを用いた5つのテキスト生成タスクにおいて,ICL,PT,PTの有効性を測定することで,文脈内サンプルが即時チューニングをどのように改善するかを実証的に検討する。
我々は,(1) IPT が常に PT を上回っていること,(2) PT は不安定であり,高い分散性を示すこと,(3) IPT と ICL (into IPT) の組み合わせは5つのタスクの分散を一貫して減少させること,(3) PT による特定のソースタスクの学習は,異なるターゲットタスクのコンテキスト内例とペアリングした場合に正の転送を示すこと,などが観察された。
本結果は,与えられたタスクに適したパラメータ効率適応法を選択するための実用的な知見を提供する。 Fine-tuning large language models is becoming ever more impractical due to their rapidly-growing scale. This motivates the use of parameter-efficient adaptation methods such as prompt tuning (PT), which adds a small number of tunable embeddings to an otherwise frozen model, and in-context learning (ICL), in which demonstrations of the task are provided to the model in natural language without any additional training. Recently, Singhal et al. (2022) propose ``instruction prompt tuning'' (IPT), which combines PT with ICL by concatenating a natural language demonstration with learned prompt embeddings. While all of these methods have proven effective on different tasks, how they interact with each other remains unexplored. In this paper, we empirically study when and how in-context examples improve prompt tuning by measuring the effectiveness of ICL, PT, and IPT on five text generation tasks with multiple base language models. We observe that (1) IPT does \emph{not} always outperform PT, and in fact requires the in-context demonstration to be semantically similar to the test input to yield improvements; (2) PT is unstable and exhibits high variance, but combining PT and ICL (into IPT) consistently reduces variance across all five tasks; and (3) prompts learned for a specific source task via PT exhibit positive transfer when paired with in-context examples of a different target task. Our results offer actionable insights on choosing a suitable parameter-efficient adaptation method for a given task. | 翻訳日:2023-02-23 14:29:06 公開日:2023-02-22 |
# 方向刺激法による大規模言語モデルの誘導 Guiding Large Language Models via Directional Stimulus Prompting ( http://arxiv.org/abs/2302.11520v1 ) ライセンス: Link先を確認 | Zekun Li, Baolin Peng, Pengcheng He, Michel Galley, Jianfeng Gao, Xifeng Yan | (参考訳) 我々は、下流タスクにおけるブラックボックス凍結大言語モデル(LLM)のガイダンスを提供するために、チューニング可能な言語モデル(LM)を使用する新しいフレームワーク、Directional Stimulus Promptingを導入する。
各タスクに対して最適なプロンプトを手動または自動で見つける以前の作業とは異なり、我々はポリシーLMをトレーニングし、各入力の「方向刺激」として個別のトークンを生成する。
次に方向刺激を元の入力と組み合わせてLLMに入力し、その生成を所望の目標に向けて導く。
ポリシーLMは、トレーニングできる
1)注釈データからの教師付き学習と
2) オフラインとオンラインの報酬から強化学習を行い, LLMと人間の嗜好の整合性を高める指向性刺激を探究した。
このフレームワークは様々なLMやタスクに柔軟に適用できる。
その有効性を検証するために,本フレームワークを要約および対話応答生成タスクに適用する。
CNN/Daily Mailデータセットから2,000のサンプルでトレーニングされたT5 (780M)は、ROUGE-Avgスコアにおいて、Codex (175B)のパフォーマンスを7.2%改善する。 We introduce a new framework, Directional Stimulus Prompting, that uses a tuneable language model (LM) to provide guidance for the black-box frozen large language model (LLM) on downstream tasks. Unlike prior work that manually or automatically finds the optimal prompt for each task, we train a policy LM to generate discrete tokens as ``directional stimulus'' of each input, which is a hint/cue such as keywords of an article for summarization. The directional stimulus is then combined with the original input and fed into the LLM to guide its generation toward the desired target. The policy LM can be trained through 1) supervised learning from annotated data and 2) reinforcement learning from offline and online rewards to explore directional stimulus that better aligns LLMs with human preferences. This framework is flexibly applicable to various LMs and tasks. To verify its effectiveness, we apply our framework to summarization and dialogue response generation tasks. Experimental results demonstrate that it can significantly improve LLMs' performance with a small collection of training data: a T5 (780M) trained with 2,000 samples from the CNN/Daily Mail dataset improves Codex (175B)'s performance by 7.2% in ROUGE-Avg scores; 500 dialogues boost the combined score by 52.5%, achieving comparable or even better performance than fully trained models on the MultiWOZ dataset. | 翻訳日:2023-02-23 14:28:33 公開日:2023-02-22 |
# 定常状態操作による量子ビット動的写像の古典的容量の改善 Improving classical capacity of qubit dynamical maps through stationary state manipulation ( http://arxiv.org/abs/2302.11519v1 ) ライセンス: Link先を確認 | Katarzyna Siudzi\'nska | (参考訳) 位相共変チャネルの特殊クラスに対するホールボおよび絡み合い支援古典容量の進化を解析した。
特に,チャネルの定常状態を変化させることで,その非ユニタリ性度と密接な関係を保ちながら,これらの容量を向上できることを示す。
チャネルが非ユニタリであれば大きいほど容量は大きくなる。
チャネルパラメータは動的写像、時間局所生成器、メモリカーネルのレベルで混合して設計され、構成法を提案する。
高度に非ユニタリな写像に対しては、ユニタリ写像の絡み合いを補助する古典的容量を超える古典的容量を一時的に増加させる。
これは、非ユニタリ性が量子絡み合いよりも情報遷移の目的のためにより良い量子資源になることを示している。 We analyze the evolution of Holevo and entanglement-assisted classical capacities for a special class of phase-covariant channels. In particular, we show that these capacities can be improved by changing the stationary state of the channel, which is closely related to its non-unitality degree. The more non-unital the channel, the greater its capacity. The channel parameters are engineered through mixtures on the level of dynamical maps, time-local generators, and memory kernels, for which we propose construction methods. For highly non-unital maps, we achieve a temporary increase in the classical capacity that exceeds the entanglement-assisted classical capacity of the unital map. This shows that non-unitality can become a better quantum resource for information transition purposes than quantum entanglement. | 翻訳日:2023-02-23 14:28:03 公開日:2023-02-22 |
# 高精度自動発声検出のための大域的およびパッチ的コントラスト損失 A Global and Patch-wise Contrastive Loss for Accurate Automated Exudate Detection ( http://arxiv.org/abs/2302.11517v1 ) ライセンス: Link先を確認 | Wei Tang, Yinxiao Wang, Kangning Cui, and Raymond H. Chan | (参考訳) 糖尿病網膜症(DR)は、世界中の視覚障害の主要な原因である。
早期診断は糖尿病の治療に必須であり、視力障害の予防に有効である。
医用画像の手動アノテーションは時間的・費用的・主観性に乏しいため、これらの課題に対処するためにいくつかの深層学習セグメンテーションアプローチが提案されている。
しかし、これらのネットワークは、DRに存在するような病変を効果的に分断するほど高度でないバイナリクロスエントロピー(BCE)のような単純な損失関数に頼りがちである。この記事では、グローバルなセグメンテーション損失、パッチワイド密度損失、パッチワイドエッジ認識損失を組み込んだロス関数を提案し、ハードアウトダクトの検出とセグメンテーションにおけるこれらのネットワークの性能を向上させる。
提案する損失関数と最先端ネットワークのbce損失を比較して,パッチ方向のコントラスト損失を組み込んだネットワーク性能の大幅な向上を実証した。 Diabetic retinopathy (DR) is a leading cause of blindness worldwide. Early diagnosis is essential in the treatment of diabetes and can assist in preventing vision impairment. Since manual annotation of medical images is time-consuming, costly, and prone to subjectivity that leads to inconsistent diagnoses, several deep learning segmentation approaches have been proposed to address these challenges. However, these networks often rely on simple loss functions, such as binary cross entropy (BCE), which may not be sophisticated enough to effectively segment lesions such as those present in DR. In this paper, we propose a loss function that incorporates a global segmentation loss, a patch-wise density loss, and a patch-wise edge-aware loss to improve the performance of these networks on the detection and segmentation of hard exudates. Comparing our proposed loss function against the BCE loss on several state-of-the-art networks, our experimental results reveal substantial improvement in network performance achieved by incorporating the patch-wise contrastive loss. | 翻訳日:2023-02-23 14:27:52 公開日:2023-02-22 |
# 不純物と不純物との原子光子相互作用によるハイブリッド非局在性 Hybrid nonlocality via atom photon interactions with and without impurities ( http://arxiv.org/abs/2302.11513v1 ) ライセンス: Link先を確認 | Pritam Halder, Ratul Banerjee, Saptarshi Roy, Aditi Sen De | (参考訳) 有限次元と無限次元のシステムからなるハイブリッド状態からベル統計を得るため、一般化された擬似スピン演算子を用いて連続モードを計測し、有限(2)次元のシステムは通常のポーリ基底で測定するハイブリッド計測スキームを提案する。
これらの測定でベル表現を最大化すると、ハイブリッド非局所性と呼ばれる局所現実主義が破られる。
我々は、原子がジャイネス・カミングス・ハミルトニアンの下で電磁場の単一モードと相互作用する空洞量子力学の現実的な設定における我々の戦略の有用性を実証する。
原子キャビティ結合強度に乱れを組み込むことにより,不完全な状況下でのハイブリッド非局所性の緩衝平均値を動的に計算する。
不規則の場合、ベル統計を決定するために2種類の測定シナリオを導入する。一方の状況では、実験者は相互作用強度に応じて最適な設定を調整できるが、他方のケースでは制御力の欠如がある。
順序づけられた場合の発振挙動とは対照的に、クエンチされた平均的違反は、前者のパラメータ状態において有限値に飽和し、乱れたシステムの利点を浮き彫りにする。
また,wigner negativity と hybrid nonlocality との関係についても検討した。 To obtain Bell statistics from hybrid states composed of finite- and infinite-dimensional systems, we propose a hybrid measurement scheme, in which the continuous mode is measured using the generalized pseudospin operators, while the finite (two)-dimensional system is measured in the usual Pauli basis. Maximizing the Bell expression with these measurements leads to the violations of local realism which is referred to as hybrid nonlocality. We demonstrate the utility of our strategy in a realistic setting of cavity quantum electrodynamics, where an atom interacts with a single mode of an electromagnetic field under the Jaynes-Cummings Hamiltonian. We dynamically compute the quenched averaged value of hybrid nonlocality in imperfect situations by incorporating disorder in the atom-cavity coupling strength. In the disordered case, we introduce two kinds of measurement scenarios to determine the Bell statistics -- in one situation, experimentalists can tune the optimal settings according to the interaction strength while such controlled power is absent in the other case. In contrast to the oscillatory behavior observed in the ordered case, the quenched averaged violation saturates to a finite value in some parameter regimes in the former case, thereby highlighting an advantage of disordered systems. We also examine the connection between Wigner negativity and hybrid nonlocality. | 翻訳日:2023-02-23 14:27:33 公開日:2023-02-22 |
# 医用画像の深部強化学習におけるコアセットを用いた選択的リプレイ圧縮 Selective experience replay compression using coresets for lifelong deep reinforcement learning in medical imaging ( http://arxiv.org/abs/2302.11510v1 ) ライセンス: Link先を確認 | Guangyao Zheng, Samson Zhou, Vladimir Braverman, Michael A. Jacobs, Vishwa S. Parekh | (参考訳) 選択経験リプレイは、生涯学習と深層強化学習を統合するための一般的な戦略である。
Selective Experience Replayは、過去のタスクから選択した経験をリカウントして、破滅的な忘れ物を避けることを目的としている。
さらに、選択的なエクスペリエンスリプレイベースのテクニックはモデル非依存であり、さまざまなモデル間でエクスペリエンスを共有することができる。
しかしながら、これまでのすべてのタスクからの経験を格納することで、選択的な経験を用いた生涯学習は、タスク数の増加に伴って計算コストが非常に高く非現実的になる。
そこで我々は,選択的なエクスペリエンス再生のためのバッファを圧縮する,報酬分布保存コアセット圧縮手法を提案する。
左膝蓋,左腎,右転子,左肺,脾臓の局所化を目的として,脳腫瘍セグメント化(BRATS)データセットのコアセット圧縮技術の評価を行った。
10種類の異なる脳MR画像環境でトレーニングしたコアセット寿命学習モデルでは,10倍の圧縮率で平均画素誤差距離12.93の心室局所化性能が良好であった。
一方、従来の生涯学習モデルは、平均画素距離10.87の心室を局所化した。
同様に、全身mriで訓練されたcoreset生涯学習モデルは、10倍の圧縮コアセット生涯学習モデルと従来の生涯学習モデルとの間に有意差(p=0.28)を示さなかった。
圧縮された10xモデルの平均ピクセル距離は25.30であり、従来の生涯学習モデルでは19.24である。
その結果,coresetベースのerb圧縮方式が,性能低下を伴わずに圧縮できる可能性が示唆された。 Selective experience replay is a popular strategy for integrating lifelong learning with deep reinforcement learning. Selective experience replay aims to recount selected experiences from previous tasks to avoid catastrophic forgetting. Furthermore, selective experience replay based techniques are model agnostic and allow experiences to be shared across different models. However, storing experiences from all previous tasks make lifelong learning using selective experience replay computationally very expensive and impractical as the number of tasks increase. To that end, we propose a reward distribution-preserving coreset compression technique for compressing experience replay buffers stored for selective experience replay. We evaluated the coreset compression technique on the brain tumor segmentation (BRATS) dataset for the task of ventricle localization and on the whole-body MRI for localization of left knee cap, left kidney, right trochanter, left lung, and spleen. The coreset lifelong learning models trained on a sequence of 10 different brain MR imaging environments demonstrated excellent performance localizing the ventricle with a mean pixel error distance of 12.93 for the compression ratio of 10x. In comparison, the conventional lifelong learning model localized the ventricle with a mean pixel distance of 10.87. Similarly, the coreset lifelong learning models trained on whole-body MRI demonstrated no significant difference (p=0.28) between the 10x compressed coreset lifelong learning models and conventional lifelong learning models for all the landmarks. The mean pixel distance for the 10x compressed models across all the landmarks was 25.30, compared to 19.24 for the conventional lifelong learning models. Our results demonstrate that the potential of the coreset-based ERB compression method for compressing experiences without a significant drop in performance. | 翻訳日:2023-02-23 14:27:09 公開日:2023-02-22 |
# 知識グラフの構築:現状と課題 Construction of Knowledge Graphs: State and Challenges ( http://arxiv.org/abs/2302.11509v1 ) ライセンス: Link先を確認 | Marvin Hofer, Daniel Obraczka, Alieh Saeedi, Hanna K\"opcke, Erhard Rahm | (参考訳) 知識グラフ(KG)は、推薦システムや質問応答など多くのアプリケーションの中心にあるため、そのようなKGの構築と継続的な更新を行う汎用パイプラインの必要性が高まっている。
構造化されていない(テキストなど)と構造化されたデータソース(データベースなど)からKGを作成するために必要な個々のステップは、主にワンショット実行においてよく研究されているが、インクリメンタルなKG更新や個々のステップの相互運用は、これまで体系的に研究されることがほとんどない。
本稿ではまず,KGの主要グラフモデルについて論じ,今後のKG構築パイプラインに対する主要な要件を紹介する。
次に、メタデータ管理、オントロジー開発、品質保証といった横断的なトピックを含む高品質なKGを構築するために必要な手順の概要を紹介する。
次に,KG 構築技術の現状を,KG 構築のための最近のツールや戦略と同様に,特定の人気 KG に対して導入された要件に照らして評価する。
最後に、さらなる研究と改善が必要な地域を特定する。 With knowledge graphs (KGs) at the center of numerous applications such as recommender systems and question answering, the need for generalized pipelines to construct and continuously update such KGs is increasing. While the individual steps that are necessary to create KGs from unstructured (e.g. text) and structured data sources (e.g. databases) are mostly well-researched for their one-shot execution, their adoption for incremental KG updates and the interplay of the individual steps have hardly been investigated in a systematic manner so far. In this work, we first discuss the main graph models for KGs and introduce the major requirement for future KG construction pipelines. Next, we provide an overview of the necessary steps to build high-quality KGs, including cross-cutting topics such as metadata management, ontology development, and quality assurance. We then evaluate the state of the art of KG construction w.r.t the introduced requirements for specific popular KGs as well as some recent tools and strategies for KG construction. Finally, we identify areas in need of further research and improvement. | 翻訳日:2023-02-23 14:26:41 公開日:2023-02-22 |
# nsimplex zen:ユークリッド空間とヒルベルト空間に対する新しい次元還元 nSimplex Zen: A Novel Dimensionality Reduction for Euclidean and Hilbert Spaces ( http://arxiv.org/abs/2302.11508v1 ) ライセンス: Link先を確認 | Richard Connor, Lucia Vadicamo | (参考訳) 次元低減技術は、高次元空間から低次元空間への値のマッピングを行う。
その結果、物理メモリを少なくし、より高速な距離計算が可能な空間となる。
これらの技法は、縮小次元空間の必要特性が元の空間に対して許容できる精度を与える場合に広く用いられる。
多くの変換が記述されている。
それらは線形と位相の2つの主要なグループに分類されている。
主成分分析 (PCA) やランダム射影 (RP) のような線形手法は行列に基づくユークリッド空間の低次元への変換を定義する。
多次元スケーリング(MDS)のようなトポロジカルな手法は、近辺関係のような高次的な側面を保存しようと試み、いくつかは非ユークリッド空間に適用できる。
ここでは次元を減少させる新しいトポロジカル手法であるnSimplex Zenを紹介する。
MDSと同様に、元の空間で測定されたペア距離にのみ依存する。
座標ではなく距離を用いることで、コサイン、ジェンセン=シャノン、二次形式距離など、ユークリッド空間と他のヒルベルト空間の両方にこの技術を適用することができる。
ほぼ全ての場合において、高次元空間の幾何学的性質により、新しい手法は、特に極低次元への縮小において、他の手法よりも優れた性質を与える。 Dimensionality reduction techniques map values from a high dimensional space to one with a lower dimension. The result is a space which requires less physical memory and has a faster distance calculation. These techniques are widely used where required properties of the reduced-dimension space give an acceptable accuracy with respect to the original space. Many such transforms have been described. They have been classified in two main groups: linear and topological. Linear methods such as Principal Component Analysis (PCA) and Random Projection (RP) define matrix-based transforms into a lower dimension of Euclidean space. Topological methods such as Multidimensional Scaling (MDS) attempt to preserve higher-level aspects such as the nearest-neighbour relation, and some may be applied to non-Euclidean spaces. Here, we introduce nSimplex Zen, a novel topological method of reducing dimensionality. Like MDS, it relies only upon pairwise distances measured in the original space. The use of distances, rather than coordinates, allows the technique to be applied to both Euclidean and other Hilbert spaces, including those governed by Cosine, Jensen-Shannon and Quadratic Form distances. We show that in almost all cases, due to geometric properties of high-dimensional spaces, our new technique gives better properties than others, especially with reduction to very low dimensions. | 翻訳日:2023-02-23 14:26:23 公開日:2023-02-22 |
# S3I-PointHop:SO(3)-不変点ホップによる3次元点群分類 S3I-PointHop: SO(3)-Invariant PointHop for 3D Point Cloud Classification ( http://arxiv.org/abs/2302.11506v1 ) ライセンス: Link先を確認 | Pranav Kadam, Hardik Prajapati, Min Zhang, Jintang Xue, Shan Liu, C.-C. Jay Kuo | (参考訳) 多くの点クラウド分類法は、データセット内の全ての点クラウドが標準軸とうまく整合していると仮定して開発され、3次元カルト点座標を用いて特徴を学習することができる。
入力点雲が整列していない場合、分類性能は著しく低下する。
本研究では,数学的に透明なポイントホップ(PointHop)と呼ばれるクラウド分類手法に着目し,ポーズの変動による故障の原因を分析し,ポーズ依存モジュールを回転不変モジュールに置き換えることによって問題を解決する。
提案手法はSO(3)-Invariant PointHop(略してS3I-PointHop)と呼ばれる。
また,1つのホップのみと複数の空間アグリゲーション技術を用いて,ポイントホップパイプラインを著しく単純化した。
より空間的な情報を利用するという考えは、新しい。
ModelNet40データセットの実験では、従来のPointHopのようなメソッドよりもS3I-PointHopの方が優れていることが示されている。 Many point cloud classification methods are developed under the assumption that all point clouds in the dataset are well aligned with the canonical axes so that the 3D Cartesian point coordinates can be employed to learn features. When input point clouds are not aligned, the classification performance drops significantly. In this work, we focus on a mathematically transparent point cloud classification method called PointHop, analyze its reason for failure due to pose variations, and solve the problem by replacing its pose dependent modules with rotation invariant counterparts. The proposed method is named SO(3)-Invariant PointHop (or S3I-PointHop in short). We also significantly simplify the PointHop pipeline using only one single hop along with multiple spatial aggregation techniques. The idea of exploiting more spatial information is novel. Experiments on the ModelNet40 dataset demonstrate the superiority of S3I-PointHop over traditional PointHop-like methods. | 翻訳日:2023-02-23 14:26:02 公開日:2023-02-22 |
# 宇宙における超低温原子の限界の探索 Exploring the limits of ultracold atoms in space ( http://arxiv.org/abs/2302.11548v1 ) ライセンス: Link先を確認 | RJ Thompson, D.C. Aveline, Sheng-Wey Chiow, ER Elliott, JR Kellogg, JM Kohel, MS Sbroscia, C. Schneider, JR Williams, N. Lundblad, CA Sackett, D. Stamper-Kurn, and L. Woerner | (参考訳) 既存の宇宙ベースの低温原子実験は、観察時間の改善と、自由に進化するコヒーレント物質波の膨張エネルギーと速度を最小化するための微小重力の有用性を実証している。
本稿では, 微小重力だけでなく, 非常に優れた真空や極低温といった宇宙環境の他の側面も利用して, 超低温原子の限界を拡大する宇宙実験の可能性を探る。
このような実験がいつかプランク質量に近づく質量を持つ量子物体の物理学を探索できる可能性について論じる。 Existing space-based cold atom experiments have demonstrated the utility of microgravity for improvements in observation times and for minimizing the expansion energy and rate of a freely evolving coherent matter wave. In this paper we explore the potential for space-based experiments to extend the limits of ultracold atoms utilizing not just microgravity, but also other aspects of the space environment such as exceptionally good vacuums and extremely cold temperatures. The tantalizing possibility that such experiments may one day be able to probe physics of quantum objects with masses approaching the Plank mass is discussed. | 翻訳日:2023-02-23 14:20:27 公開日:2023-02-22 |
# 2kビットのクロス共振ゲートを実現するCryogenic CMOSコントロールエレクトロニクス Using Cryogenic CMOS Control Electronics To Enable A Two-Qubit Cross-Resonance Gate ( http://arxiv.org/abs/2302.11538v1 ) ライセンス: Link先を確認 | Devin L. Underwood, Joseph A. Glick, Ken Inoue, David J. Frank, John Timmerwilke, Emily Pritchett, Sudipto Chakraborty, Kevin Tien, Mark Yeck, John F. Bulzacchelli, Chris Baks, Pat Rosno, Raphael Robertazzi, Matthew Beck, Rajiv V. Joshi, Dorothy Wisnieff, Daniel Ramirez, Jeff Ruedinger, Scott Lekuch, Brian P. Gaucher and Daniel J. Friedman | (参考訳) CMOS回路からなる量子制御エレクトロニクスは、次世代の量子コンピューティングシステムにとって重要な関心事である。
14nm FinFETで作製したCMOSベースのアプリケーション専用集積回路(ASIC)を用いて、量子ビット制御波形の生成とシーケンスを行い、固定周波数トランスモン間の2ビットクロス共鳴ゲートを実証した。
制御器は希釈冷凍機のT=4K段に熱的に固定され、測定電力は23mW/qubitであった。
出力周波数は4.5から5.5GHzで最大出力は-18dBmである。
RB (Randomized benchmarking) 実験により、シングルキュービットゲートではクリフォード (IPC) あたりの平均命令数は 1.71 であり、2キュービットゲートでは 17.51 IPC であった。
1ゲート当たり$\epsilon_{\text{1q}}$=8e-4、ゲート当たり$\epsilon_\text{2q}$=1.4e-2の1キュービット誤差を示す。
駆動誘起Z回転は回転エコー実験により観測され、この観測はCMOSチップから測定された過剰局所発振器(LO)リークに対する期待量子ビット挙動と一致している。
2ビットモデルハミルトニアンを用いて、スプリアス駆動によるZエラーの影響を数値的に評価し、測定されたRBデータと良好な一致を示した。
モデル化の結果,z誤差はパルス振幅と線形に変化することが示唆された。 Qubit control electronics composed of CMOS circuits are of critical interest for next generation quantum computing systems. A CMOS-based application specific integrated circuit (ASIC) fabricated in 14nm FinFET technology was used to generate and sequence qubit control waveforms and demonstrate a two-qubit cross resonance gate between fixed frequency transmons. The controller was thermally anchored to the T = 4K stage of a dilution refrigerator and the measured power was 23 mW per qubit under active control. The chip generated single--side banded output frequencies between 4.5 and 5.5 GHz with a maximum power output of -18 dBm. Randomized benchmarking (RB) experiments revealed an average number of 1.71 instructions per Clifford (IPC) for single-qubit gates, and 17.51 IPC for two-qubit gates. A single-qubit error per gate of $\epsilon_{\text{1Q}}$=8e-4 and two-qubit error per gate of $\epsilon_\text{2Q}$=1.4e-2 is shown. A drive-induced Z-rotation is observed by way of a rotary echo experiment; this observation is consistent with expected qubit behavior given measured excess local oscillator (LO) leakage from the CMOS chip. The effect of spurious drive induced Z-errors is numerically evaluated with a two-qubit model Hamiltonian, and shown to be in good agreement with measured RB data. The modeling results suggest the Z-error varies linearly with pulse amplitude. | 翻訳日:2023-02-23 14:19:51 公開日:2023-02-22 |
# 損失mach-zehnder干渉計の最適位相測定 Optimal phase measurements in a lossy Mach-Zehnder interferometer ( http://arxiv.org/abs/2302.11535v1 ) ライセンス: Link先を確認 | Wenfeng Huang, Xinyun Liang, Chun-Hua Yuan, Weiping Zhang, Liqing Chen | (参考訳) 本稿では,MZI(Mach-Zehnder Interferometer)における内部損失の有無を2つの位相測定法で検討し,対応する最適条件について述べる。
理論的には、コアパラメータ(反射率、位相差)が最適化されると、2つの手法の位相感度が標準干渉法限界(SIL)の一般化限界に達する。
実験では、位相感度の最適化を検証するため、ビーム分割率と損失を調整可能なMZIを設計した。
差分強度検出に基づいて0.4から0.998までの損失率の感度改善を理論的結果とよく一致した。
片腕が0.998まで低下すると、反射率を最適化することで2.5dBの感度向上が達成され、これは単一強度検出において5.5dBの感度改善に匹敵する。
このような最適位相測定法は、損失干渉法における資源の正しい利用のための実用的な解を提供する。 In this work, we discuss two phase-measurement methods for the Mach-Zehnder interferometer (MZI) in the presence of internal losses and give the corresponding optimum conditions. We find theoretically that when the core parameters (reflectivities, phase difference) are optimized, the phase sensitivity of the two methods can reach a generalized bound on precision: standard interferometric limit (SIL). In the experiment, we design an MZI with adjustable beam splitting ratios and losses to verify phase sensitivity optimization. The sensitivity improvements at loss rates from 0.4 to 0.998 are demonstrated based on difference-intensity detection, matching the theoretical results well. With a loss up to 0.998 in one arm, we achieve a sensitivity improvement of 2.5 dB by optimizing reflectivity, which equates to a 5.5 dB sensitivity improvement in single-intensity detection. Such optimal phase measurement methods provide practical solutions for the correct use of resources in lossy interferometry. | 翻訳日:2023-02-23 14:19:26 公開日:2023-02-22 |
# mongoose: メタラーニングによるパスワイズスムースベイズ最適化 MONGOOSE: Path-wise Smooth Bayesian Optimisation via Meta-learning ( http://arxiv.org/abs/2302.11533v1 ) ライセンス: Link先を確認 | Adam X. Yang, Laurence Aitchison, Henry B. Moss | (参考訳) ベイズ最適化では、実世界の物理システムで発生するブラックボックスの客観的関数を最小化しようとすることが多い。
このようなブラックボックスの客観的関数を評価するコストの主な貢献は、しばしば測定のためのシステムを作成するのに必要な労力である。
我々は, 連続評価間の距離が大きくなると, 準備コストが増加するという共通のシナリオを考える。
この設定では、スムーズな最適化軌道が好まれ、標準ミオピック(すなわち1ステップ最適化)ベイズ最適化法によって生成される跳躍経路が準最適である。
私たちのアルゴリズムであるmongooseは、メタ学習パラメトリックポリシを使用して、スムーズな最適化トラジェクタを生成し、大きな移動コストで関数を最適化する場合、既存の方法よりもパフォーマンスが向上する。 In Bayesian optimisation, we often seek to minimise the black-box objective functions that arise in real-world physical systems. A primary contributor to the cost of evaluating such black-box objective functions is often the effort required to prepare the system for measurement. We consider a common scenario where preparation costs grow as the distance between successive evaluations increases. In this setting, smooth optimisation trajectories are preferred and the jumpy paths produced by the standard myopic (i.e.\ one-step-optimal) Bayesian optimisation methods are sub-optimal. Our algorithm, MONGOOSE, uses a meta-learnt parametric policy to generate smooth optimisation trajectories, achieving performance gains over existing methods when optimising functions with large movement costs. | 翻訳日:2023-02-23 14:19:08 公開日:2023-02-22 |
# モジュール型ディープラーニング Modular Deep Learning ( http://arxiv.org/abs/2302.11529v1 ) ライセンス: Link先を確認 | Jonas Pfeiffer, Sebastian Ruder, Ivan Vuli\'c, Edoardo Maria Ponti | (参考訳) トランスファーラーニングは近年、機械学習の主要なパラダイムとなっている。
下流タスク用に微調整された事前訓練されたモデルは、ラベル付き例を少なくしてより良いパフォーマンスを実現する。
にもかかわらず、負の干渉を起こさずに複数のタスクに特化して、体系的に非同一の分散タスクに一般化するモデルを開発する方法はまだ不明である。
モジュラーディープラーニングは、これらの課題に対する有望な解決策として現れてきた。
このフレームワークでは、計算単位はしばしば自律的なパラメーター効率のモジュールとして実装される。
情報は条件付きでモジュールのサブセットにルーティングされ、その後集約される。
これらの特性は、計算をルーティングから分離し、モジュールをローカルに更新することで、正の転送と体系的な一般化を可能にする。
我々はモジュラーアーキテクチャの調査を行い、科学文献の中で独立に進化したいくつかの研究のスレッドを統一した見解を提供する。
さらに,言語モデルのスケーリング,因果推論,プログラム誘導,強化学習の計画など,モジュール性に関するさまざまな目的についても検討する。
最後に,モジュール性が言語間やモーダル間の知識伝達など,様々な具体的な応用について報告する。
この調査に関連する講演やプロジェクトは、https://www.modulardeeplearning.com/で見ることができる。 Transfer learning has recently become the dominant paradigm of machine learning. Pre-trained models fine-tuned for downstream tasks achieve better performance with fewer labelled examples. Nonetheless, it remains unclear how to develop models that specialise towards multiple tasks without incurring negative interference and that generalise systematically to non-identically distributed tasks. Modular deep learning has emerged as a promising solution to these challenges. In this framework, units of computation are often implemented as autonomous parameter-efficient modules. Information is conditionally routed to a subset of modules and subsequently aggregated. These properties enable positive transfer and systematic generalisation by separating computation from routing and updating modules locally. We offer a survey of modular architectures, providing a unified view over several threads of research that evolved independently in the scientific literature. Moreover, we explore various additional purposes of modularity, including scaling language models, causal inference, programme induction, and planning in reinforcement learning. Finally, we report various concrete applications where modularity has been successfully deployed such as cross-lingual and cross-modal knowledge transfer. Related talks and projects to this survey, are available at https://www.modulardeeplearning.com/. | 翻訳日:2023-02-23 14:18:54 公開日:2023-02-22 |
# 深層学習によるステガナリシス画像の寸法のセキュリティの不変性に関する研究 A study on the invariance in security whatever the dimension of images for the steganalysis by deep-learning ( http://arxiv.org/abs/2302.11527v1 ) ライセンス: Link先を確認 | K\'evin Planolles, Marc Chaumont, Fr\'ed\'eric Comby | (参考訳) 本稿では,畳み込みニューラルネットワークの性能不変性について,より「ワイルド・ステグアナリシス(wild steg analysis)」という文脈で,可変画像サイズと向き合う場合について検討する。
まず,「類似の難易度」と「類似のセキュリティ」を持つデータセットを用いた実験プロトコルの2つのアルゴリズムと定義を提案する。
smart crop 2"アルゴリズムは、さまざまなデータセット間の"類似の難易度"を保証する、ほぼ入れ子状態のイメージデータセット(nnid)の導入を可能にし、dichotomous researchアルゴリズムは"類似したセキュリティ"を可能にする。
第2に,最先端アーキテクチャには不変性がないことを示す。
また、トレーニング画像よりも大きな画像や小さい画像でテストするかどうかによって、行動の違いも示しています。
最後に,本実験に基づいて,最先端アーキテクチャの改善につながる拡張畳み込みの利用を提案する。 In this paper, we study the performance invariance of convolutional neural networks when confronted with variable image sizes in the context of a more "wild steganalysis". First, we propose two algorithms and definitions for a fine experimental protocol with datasets owning "similar difficulty" and "similar security". The "smart crop 2" algorithm allows the introduction of the Nearly Nested Image Datasets (NNID) that ensure "a similar difficulty" between various datasets, and a dichotomous research algorithm allows a "similar security". Second, we show that invariance does not exist in state-of-the-art architectures. We also exhibit a difference in behavior depending on whether we test on images larger or smaller than the training images. Finally, based on the experiments, we propose to use the dilated convolution which leads to an improvement of a state-of-the-art architecture. | 翻訳日:2023-02-23 14:18:38 公開日:2023-02-22 |
# プリコーディング指向MIMO CSIフィードバック設計 Precoding-oriented Massive MIMO CSI Feedback Design ( http://arxiv.org/abs/2302.11526v1 ) ライセンス: Link先を確認 | Fabrizio Carpi and Sivarama Venkatesan and Jinfeng Du and Harish Viswanathan and Siddharth Garg and Elza Erkip | (参考訳) 周波数分割二重化(FDD)システムにおけるMIMOプリコーディングアルゴリズムは、ユーザからの正確なチャネル状態情報(CSI)フィードバックに依存している。
本稿では,CSIフィードバックのオーバーヘッドとユーザによるシステムにおける性能のトレードオフを,達成率の観点から分析する。
提案方式の最終目標は,チャネル実現からビームフォーミング情報(すなわちプリコーディング)を決定することである。
我々は、学習パイロット、ユーザの圧縮機、基地局処理を含むエンドツーエンドのプリコーディング指向のフィードバックアーキテクチャを設計するために、ディープラーニングベースのアプローチを採用する。
最小のフィードバックオーバーヘッドで達成可能なレートの総和を最大化する損失関数を提案する。
シミュレーションの結果,csi圧縮ブロックをプリコーディング処理から分離する従来の手法に比べて,従来のプリコーディング指向手法よりも効率的な解法が得られた。 Downlink massive multiple-input multiple-output (MIMO) precoding algorithms in frequency division duplexing (FDD) systems rely on accurate channel state information (CSI) feedback from users. In this paper, we analyze the tradeoff between the CSI feedback overhead and the performance achieved by the users in systems in terms of achievable rate. The final goal of the proposed system is to determine the beamforming information (i.e., precoding) from channel realizations. We employ a deep learning-based approach to design the end-to-end precoding-oriented feedback architecture, that includes learned pilots, users' compressors, and base station processing. We propose a loss function that maximizes the sum of achievable rates with minimal feedback overhead. Simulation results show that our approach outperforms previous precoding-oriented methods, and provides more efficient solutions with respect to conventional methods that separate the CSI compression blocks from the precoding processing. | 翻訳日:2023-02-23 14:18:23 公開日:2023-02-22 |
# slim u-net:超音波画像分割のための効率的な解剖学的特徴保存u-netアーキテクチャ Slim U-Net: Efficient Anatomical Feature Preserving U-net Architecture for Ultrasound Image Segmentation ( http://arxiv.org/abs/2302.11524v1 ) ライセンス: Link先を確認 | Deepak Raina, Kashish Verma, SH Chandrashekhara, Subir Kumar Saha | (参考訳) 男性の骨盤像UltraSound(US)画像における尿中膀胱(UB)の分画に対するU-Netモデルの適用性を検討した。
米国画像におけるUBのセグメンテーションは、UBの診断に役立つ。
しかし、US画像のUBは任意の形状、不明瞭な境界、非常に大きなオブジェクト間およびオブジェクト内変動を持ち、セグメンテーションは非常に難しい課題である。
この問題に対するSOTA(State-of-the-art)セグメンテーションネットワーク(U-Net)の研究は、ノイズの多いUS画像の形状やスケールの変化により、UBの健全な特性を捉えるのに失敗することが多いことを明らかにする。
また、u-netはトレーニング可能なパラメータが多すぎるため、トレーニング中の計算効率が低くなる。
UBセグメンテーションの課題に対処するために,Slim U-Netを提案する。
Slim U-Netは、U-Netの構造を縮小経路に少ない2次元畳み込み層を用いて再構成することで、UBの健全な特徴を効率的に保存し、拡張経路に保存し、強制することを提案する。
ぼやけた境界を効果的に識別するために,特徴のある関心領域(RoI)の境界における画像の背景領域を含む新しいアノテーション手法を提案する。
さらに,UBの複雑なセグメンテーションにおけるネットワークトレーニングにおける損失関数の組み合わせを提案する。
実験により,Slim U-netはUBセグメンテーションにおいてU-netよりも統計的に優れていることが示された。
Slim U-netはトレーニング可能なパラメータの数を54%、トレーニング時間は57.7%減らし、標準のU-Netに比べてセグメンテーション精度を損なわない。 We investigate the applicability of U-Net based models for segmenting Urinary Bladder (UB) in male pelvic view UltraSound (US) images. The segmentation of UB in the US image aids radiologists in diagnosing the UB. However, UB in US images has arbitrary shapes, indistinct boundaries and considerably large inter- and intra-subject variability, making segmentation a quite challenging task. Our study of the state-of-the-art (SOTA) segmentation network, U-Net, for the problem reveals that it often fails to capture the salient characteristics of UB due to the varying shape and scales of anatomy in the noisy US image. Also, U-net has an excessive number of trainable parameters, reporting poor computational efficiency during training. We propose a Slim U-Net to address the challenges of UB segmentation. Slim U-Net proposes to efficiently preserve the salient features of UB by reshaping the structure of U-Net using a less number of 2D convolution layers in the contracting path, in order to preserve and impose them on expanding path. To effectively distinguish the blurred boundaries, we propose a novel annotation methodology, which includes the background area of the image at the boundary of a marked region of interest (RoI), thereby steering the model's attention towards boundaries. In addition, we suggested a combination of loss functions for network training in the complex segmentation of UB. The experimental results demonstrate that Slim U-net is statistically superior to U-net for UB segmentation. The Slim U-net further decreases the number of trainable parameters and training time by 54% and 57.7%, respectively, compared to the standard U-Net, without compromising the segmentation accuracy. | 翻訳日:2023-02-23 14:18:08 公開日:2023-02-22 |
# Stefan-Boltzmann法則:古典的あるいは量子物理学 The Puzzling of Stefan-Boltzmann Law: Classical or Quantum Physics ( http://arxiv.org/abs/2302.11523v1 ) ライセンス: Link先を確認 | Lino Reggiani and Eleonora Alfinito | (参考訳) シュテファン=ボルツマンの法則は1874年にステファンによって経験的に導出され、1884年にボルツマンが熱力学原理とマクスウェル方程式を含む古典モデルに基づいて理論的に検証した。
一見すると、ボルツマンが仮定した電磁(em)ガスは、古典的正規モードのアンサンブルとして認識され、巨大な理想気体の古典的モデルの拡張のように見える。
したがって、このEMガスに対して、内部総エネルギーである$U$は体積$V$、温度$T$は$U=U(V,T)$として機能し、状態方程式は$U=3PV$で、放射圧は$P$とされた。
さらにボルツマンは、与えられた値が$v$ と $t$ の場合、$u$ と $n$ は有限値であると暗黙的に仮定した。
しかし、古典統計学によれば、これらの仮定は、真空(すなわち、EM源から遠く離れた)では$U$と$N$の値が発散するため、マックスウェル方程式によって正当化されない。
一方、シュテファンの法則のボルツマン導出は、1901年にプランクが発表した量子統計学からの導出とマクロ的に一致している。
したがって、この手紙は、ボルツマンによる暗黙の仮定が量子統計学によって完全に正当化されていることに気付くことで、古典的/量子互換の解を提示する。
さらに、2022年にWang, Casati, Benentiによって行われた黒体の最近の古典シミュレーションの解釈に新たな光を当て、古典物理学と黒体放射に関する投機を誘発する類似のファズリング整合性を発見し、量子力学の理解のために古典物理学の役割を批判的に再考する必要があると主張した。 Stefan-Boltzmann law was empirically deduced by Stefan in 1874 by fitting existing experiments and theoretically validated by Boltzmann in 1884 on the basis of a classical model involving thermodynamics principles and the Maxwell equations. At first sight the electromagnetic (EM) gas assumed by Boltzmann and identifiable as an ensemble of $N$ classical normal-modes, looks like an extension of the classical model of the massive ideal-gas. Accordingly, for this EM gas the internal total energy, $U$, was taken to be function of volume $V$ and temperature $T$ as $U=U(V,T)$, and the equation of state was given by $U=3PV$, with $P$ the radiation pressure. In addition, Boltzmann implicitly assumed that, for given values of $V$ and $T$, $U$ and $N$ would take finite values. However, from one hand these assumptions are not justified by Maxwell equations since, in vacuum (i.e. far from the EM sources), according to classical statistics, the values of $U$and $N$ diverge. From another hand, Boltzmann derivation of Stefan law is found to be macroscopically compatible with its derivation from quantum statistics announced by Planck in 1901. Accordingly, this letter presents a solution of this puzzling classical/quantum compatibility by noticing that the implicit assumption made by Boltzmann is fully justified by quantum statistics. Furthermore, we shed new light on the interpretation of recent classical simulations of a black-body carried out by Wang, Casati, and Benenti in 2022 who found an analogous puzzling compatibility to induce speculations on classical physics and black-body radiation that are claimed to require a critical reconsideration of the role of classical physics for the understanding of quantum mechanics. | 翻訳日:2023-02-23 14:17:34 公開日:2023-02-22 |
# Vid2Avatar:自己監督型シーン分解による野生ビデオからの3次元アバター再構成 Vid2Avatar: 3D Avatar Reconstruction from Videos in the Wild via Self-supervised Scene Decomposition ( http://arxiv.org/abs/2302.11566v1 ) ライセンス: Link先を確認 | Chen Guo, Tianjian Jiang, Xu Chen, Jie Song, Otmar Hilliges | (参考訳) Vid2Avatarは、モノクラー・イン・ザ・ワイルドビデオから人間のアバターを学習する手法である。
単眼ビデオから自然に動く人間の再構築は難しい。
解決するには、人間を任意の背景から正確に分離する必要がある。
さらに、短いビデオシーケンスから詳細な3D表面を再構築する必要があるため、さらに難しい。
これらの課題にも拘わらず,本手法では,大規模な人間のスキャンデータから抽出した根本的監視や先行処理は必要とせず,外部セグメンテーションモジュールにも依存しない。
その代わりに、シーンの人間と背景の両方をモデリングし、2つの別々のニューラルネットワークを介してパラメータ化することで、シーンの分解と表面の再構築を直接3Dで行う。
具体的には、標準空間における時間的に一貫した人間の表現を定義し、背景モデル、標準人の形状とテクスチャ、フレームごとの人間のポーズパラメータを大域的に最適化する。
動的背景と静的背景をきれいに分離し, 詳細な3次元形状復元を行うために, ボリュームレンダリングと新しい目的のための粗細なサンプリング戦略を導入した。
公開データセットにおける提案手法を評価し,先行技術に対する改善を示す。 We present Vid2Avatar, a method to learn human avatars from monocular in-the-wild videos. Reconstructing humans that move naturally from monocular in-the-wild videos is difficult. Solving it requires accurately separating humans from arbitrary backgrounds. Moreover, it requires reconstructing detailed 3D surface from short video sequences, making it even more challenging. Despite these challenges, our method does not require any groundtruth supervision or priors extracted from large datasets of clothed human scans, nor do we rely on any external segmentation modules. Instead, it solves the tasks of scene decomposition and surface reconstruction directly in 3D by modeling both the human and the background in the scene jointly, parameterized via two separate neural fields. Specifically, we define a temporally consistent human representation in canonical space and formulate a global optimization over the background model, the canonical human shape and texture, and per-frame human pose parameters. A coarse-to-fine sampling strategy for volume rendering and novel objectives are introduced for a clean separation of dynamic human and static background, yielding detailed and robust 3D human geometry reconstructions. We evaluate our methods on publicly available datasets and show improvements over prior art. | 翻訳日:2023-02-23 14:11:06 公開日:2023-02-22 |
# 責任と包括的技術枠組み:情報技術の文脈における社会的考察を促進するための形式的枠組み Responsible and Inclusive Technology Framework: A Formative Framework to Promote Societal Considerations in Information Technology Contexts ( http://arxiv.org/abs/2302.11565v1 ) ライセンス: Link先を確認 | Juana Catalina Becerra Sandoval, Vagner Figueredo de Santana, Sara Berger, Lauren Thomas Quigley, Stacy Hobson | (参考訳) 産業における技術開発の実践は、主にビジネス成果に重点を置いており、これは企業利益と技術の実装や利用に影響を受けている人々のニーズや関心との不均衡な権力関係を生み出すリスクである。
これらの慣行とその関連する文化的規範は、直接的、間接的、短期的、さらには長期的なネガティブな影響が人や環境に与える技術の使用をもたらす可能性がある。
本稿では,技術創造と利用の社会的文脈に関する批判的考察,自己,ビジネス,社会的な利害関係者間の力のダイナミクス,過去,現在,未来における様々なコミュニティに対する技術の影響,技術的アーティファクトを文化的価値に組み込む実践的意思決定を指向した,責任と包括性を備えた技術フレームワークであるフォーマティブな枠組みを提案する。
責任と包括性を備えたテクノロジフレームワーク、特にビジネスとビジネスの業界における実装は、より意図的で社会的に根拠のあるプラクティスの触媒となり、責任と原則とプラクティスギャップを橋渡しすることを期待しています。 Technology development practices in industry are often primarily focused on business results, which risks creating unbalanced power relations between corporate interests and the needs or concerns of people who are affected by technology implementation and use. These practices, and their associated cultural norms, may result in uses of technology that have direct, indirect, short-term, and even long-term negative effects on groups of people and/or the environment. This paper contributes a formative framework -- the Responsible and Inclusive Technology Framework -- that orients critical reflection around the social contexts of technology creation and use; the power dynamics between self, business, and societal stakeholders; the impacts of technology on various communities across past, present, and future dimensions; and the practical decisions that imbue technological artifacts with cultural values. We expect that the implementation of the Responsible and Inclusive Technology framework, especially in business-to-business industry settings, will serve as a catalyst for more intentional and socially-grounded practices, thus bridging the responsibility and principles-to-practice gap. | 翻訳日:2023-02-23 14:10:39 公開日:2023-02-22 |
# 自己監視による探査 Exploration by self-supervised exploitation ( http://arxiv.org/abs/2302.11563v1 ) ライセンス: Link先を確認 | Matej Pech\'a\v{c}, Michal Chovanec, Igor Farka\v{s} | (参考訳) 強化学習は意思決定問題を解決し、予め設計された報酬関数に従って、エージェントが環境の中で振る舞うように訓練することができる。
しかし, 環境調査において報酬が小さすぎて, エージェントが報酬に遭遇しない場合, このようなアプローチは非常に問題となる。
このような問題の解決策は、エージェントに本質的なモチベーションを持たせることで、エージェントが外部の報酬に遭遇する可能性がある情報探索を提供するかもしれない。
ノベルティ検出は本質的動機づけ研究の有望な分野の1つである。
本稿では, 蒸留誤差に基づく内部モチベーションアルゴリズムのクラスである自己教師ネットワーク蒸留(SND)について, 対象モデルを自己教師学習を用いて訓練するノベルティ指標として提示する。
この目的のために既存の3つの自己監督手法を適用し, 探索が困難と考えられる10の環境上で実験を行った。
その結果,我々のアプローチは,ベースラインモデルと比較して,同じトレーニング時間に対して,より速い成長と高い外部報酬を達成できることがわかった。 Reinforcement learning can solve decision-making problems and train an agent to behave in an environment according to a predesigned reward function. However, such an approach becomes very problematic if the reward is too sparse and the agent does not come across the reward during the environmental exploration. The solution to such a problem may be in equipping the agent with an intrinsic motivation, which will provide informed exploration, during which the agent is likely to also encounter external reward. Novelty detection is one of the promising branches of intrinsic motivation research. We present Self-supervised Network Distillation (SND), a class of internal motivation algorithms based on the distillation error as a novelty indicator, where the target model is trained using self-supervised learning. We adapted three existing self-supervised methods for this purpose and experimentally tested them on a set of ten environments that are considered difficult to explore. The results show that our approach achieves faster growth and higher external reward for the same training time compared to the baseline models, which implies improved exploration in a very sparse reward environment. | 翻訳日:2023-02-23 14:10:14 公開日:2023-02-22 |
# 顔生成モデルにおけるバイアスの解明 Uncovering Bias in Face Generation Models ( http://arxiv.org/abs/2302.11562v1 ) ライセンス: Link先を確認 | Cristian Mu\~noz, Sara Zannone, Umar Mohammed, Adriano Koshiyama | (参考訳) GANと拡散モデルの最近の進歩により、高解像度の超現実的画像の作成が可能になった。
しかし、これらのモデルは特定の社会集団を誤解し、偏見を呈する可能性がある。
これらのモデルのバイアスを理解することは重要な研究課題であり、特に重要な意思決定をサポートし、マイノリティに影響を与える可能性がある。
この研究の貢献は、3つのアプローチ(ジェネレータ、属性修飾子、後処理バイアス緩和子)におけるバイアスのきめ細かい理解のためのアーキテクチャと埋め込み空間をカバーする新しい分析である。
この研究は、発生者が白人の75%-85%、女性性(すべての訓練されたセロバモデル)の60%-80%、子供や年上の男性を産む確率が低いといった属性の選好を持つすべての社会グループで偏りに苦しむことを示している。
修正子とミミゲータは後処理として動作し、ジェネレータのパフォーマンスを変更する。
例えば、属性チャネルの摂動戦略は埋め込み空間を変更する。
我々は,この変化がグループフェアネスに与える影響を,画像品質とグループ特徴に与える影響を定量化する。
具体的には、Fr'echet Inception Distance (FID)、Face Matching Error、Self-Similarityスコアを使用する。
インタフェースガンでは,1つの属性チャネルの摂動を解析し,画像の公平度分布と品質に与える影響を検討する。
最後に, バイアスを緩和する最も高速かつ計算効率の良い手法である, 処理後バイアス緩和器の解析を行った。
これらの緩和手法はklの発散とfidスコアに類似した結果を示すが、自己相似性スコアはデータ分布の新しいグループに対して異なる特徴集中を示す。
この研究で述べられている弱点と継続的な課題は、公平で偏見のない顔生成モデルを作成するために考慮する必要がある。 Recent advancements in GANs and diffusion models have enabled the creation of high-resolution, hyper-realistic images. However, these models may misrepresent certain social groups and present bias. Understanding bias in these models remains an important research question, especially for tasks that support critical decision-making and could affect minorities. The contribution of this work is a novel analysis covering architectures and embedding spaces for fine-grained understanding of bias over three approaches: generators, attribute modifier, and post-processing bias mitigators. This work shows that generators suffer from bias across all social groups with attribute preferences such as between 75%-85% for whiteness and 60%-80% for the female gender (for all trained CelebA models) and low probabilities of generating children and older men. Modifier and mitigators work as post-processor and change the generator performance. For instance, attribute channel perturbation strategies modify the embedding spaces. We quantify the influence of this change on group fairness by measuring the impact on image quality and group features. Specifically, we use the Fr\'echet Inception Distance (FID), the Face Matching Error and the Self-Similarity score. For Interfacegan, we analyze one and two attribute channel perturbations and examine the effect on the fairness distribution and the quality of the image. Finally, we analyzed the post-processing bias mitigators, which are the fastest and most computationally efficient way to mitigate bias. We find that these mitigation techniques show similar results on KL divergence and FID score, however, self-similarity scores show a different feature concentration on the new groups of the data distribution. The weaknesses and ongoing challenges described in this work must be considered in the pursuit of creating fair and unbiased face generation models. | 翻訳日:2023-02-23 14:09:54 公開日:2023-02-22 |
# マルチビューバングラ手話(MV-BSL)データセットと連続BSL認識 Multi-View Bangla Sign Language(MV-BSL) Dataset and Continuous BSL Recognition ( http://arxiv.org/abs/2302.11559v1 ) ライセンス: Link先を確認 | Md Shamimul Islam, A.J.M. Akhtarujjaman Joha, Md Nur Hossain, Md Mahedi Hasan | (参考訳) 私たちの思考、感情、考えを互いに表現できることは、人間の生存と発展に不可欠です。
住民のかなりの部分は、聴覚がコミュニケーションの主要な手段である環境でのコミュニケーション障害に遭遇し、日常生活に好ましくない影響を及ぼす。
効果的に機能する自律手話認識システムは、この障壁を著しく低減することができる。
そこで本研究では,15のカテゴリで115個の用語と350個の単語からなる多視点バングラ手話データセット(mv-bsl)を提案する。
さらに,手話を介してコミュニケーションする個人のポーズ情報の時間的ダイナミクスをモデル化した,双方向ゲート型リカレントユニット(bi-gru)アーキテクチャを用いたリカレントニューラルネットワーク(rnn)を構築した。
実際の動作情報を捉えながら人の身体の外観や環境情報を無視して、手話パターンの分析に効果的であることが証明された人間のポーズ情報は、最先端の精度で提案モデルをよりシンプルかつ高速に実現している。 Being able to express our thoughts, feelings, and ideas to one another is essential for human survival and development. A considerable portion of the population encounters communication obstacles in environments where hearing is the primary means of communication, leading to unfavorable effects on daily activities. An autonomous sign language recognition system that works effectively can significantly reduce this barrier. To address the issue, we proposed a large scale dataset namely Multi-View Bangla Sign Language dataset (MV- BSL) which consist of 115 glosses and 350 isolated words in 15 different categories. Furthermore, We have built a recurrent neural network (RNN) with attention based bidirectional gated recurrent units (Bi-GRU) architecture that models the temporal dynamics of the pose information of an individual communicating through sign language. Human pose information, which has proven effective in analyzing sign pattern as it ignores people's body appearance and environmental information while capturing the true movement information makes the proposed model simpler and faster with state-of-the-art accuracy. | 翻訳日:2023-02-23 14:09:24 公開日:2023-02-22 |
# k-diag : 画像診断における知識エンハンスド病診断 K-Diag: Knowledge-enhanced Disease Diagnosis in Radiographic Imaging ( http://arxiv.org/abs/2302.11557v1 ) ライセンス: Link先を確認 | Chaoyi Wu, Xiaoman Zhang, Yanfeng Wang, Ya Zhang, Weidi Xie | (参考訳) 本稿では,疾患診断の問題点について考察する。
ラベルを個別に扱う従来の学習パラダイムとは異なり,医用領域知識の指導による視覚表現の訓練を可能にする知識強化フレームワークを提案する。
まず、専門家の知識を明示的に取り入れるために、対照的な学習を通して医学知識グラフの神経表現を学習し、異なる医学概念間の関係を暗黙的に確立することを提案する。
第2に,視覚エンコーダを訓練しながら,知識エンコーダのパラメータを凍結させ,効率的な適応のために一連のプロンプトベクトルを学ぶことを提案する。
第3に,トランスフォーマーを用いたクロスモデルフュージョンのための病問モジュールを導入し,クロスアテンションによる診断を自然に行えるようにした。
提案手法の有効性を検証するため, 異なる解剖構造にまたがる3つのX線画像データセットの徹底的な実験を行い, 本モデルが疾患・フィンディング間の暗黙的な関係を活用可能であることを示す。 In this paper, we consider the problem of disease diagnosis. Unlike the conventional learning paradigm that treats labels independently, we propose a knowledge-enhanced framework, that enables training visual representation with the guidance of medical domain knowledge. In particular, we make the following contributions: First, to explicitly incorporate experts' knowledge, we propose to learn a neural representation for the medical knowledge graph via contrastive learning, implicitly establishing relations between different medical concepts. Second, while training the visual encoder, we keep the parameters of the knowledge encoder frozen and propose to learn a set of prompt vectors for efficient adaptation. Third, we adopt a Transformer-based disease-query module for cross-model fusion, which naturally enables explainable diagnosis results via cross attention. To validate the effectiveness of our proposed framework, we conduct thorough experiments on three x-ray imaging datasets across different anatomy structures, showing our model is able to exploit the implicit relations between diseases/findings, thus is beneficial to the commonly encountered problem in the medical domain, namely, long-tailed and zero-shot recognition, which conventional methods either struggle or completely fail to realize. | 翻訳日:2023-02-23 14:09:05 公開日:2023-02-22 |
# グラフニューラルネットワークのための等変多項式 Equivariant Polynomials for Graph Neural Networks ( http://arxiv.org/abs/2302.11556v1 ) ライセンス: Link先を確認 | Omri Puny, Derek Lim, Bobak T. Kiani, Haggai Maron, Yaron Lipman | (参考訳) グラフニューラルネットワーク(GNN)は本質的に表現力に制限がある。
最近のセミナー作品(Xu et al., 2019; Morris et al., 2019b)は、表現力の尺度としてWeisfeiler-Lehman階層を導入した。
この階層構造は、GNN分析とアーキテクチャ開発に大きな進歩をもたらしたが、いくつかの重大な制限に悩まされている。
これには、モデル改善のための直接的なガイダンスが欠けている複雑な定義と、現在のGNNを研究するには大きすぎるWL階層が含まれる。
本稿では、GNNが等変多項式をある程度計算する能力に基づいて、別の表現力階層を提案する。
最初のステップとして、具体的基礎を導入し、前の結果を著しく一般化することで、すべての同変グラフ多項式の完全な特徴づけを提供する。
各基底要素は特定の多重グラフに対応し、そのグラフデータ入力上の計算はテンソル収縮問題に対応する。
第2に、テンソルの縮約配列を用いてGNNの表現性を評価するアルゴリズムツールを提案し、人気のあるGNNの表現力を算出する。
最後に,この理論に触発された多項式特徴や演算・集約を追加することで,共通gnnアーキテクチャの表現性を高める。
これらの強化されたGNNは、複数のグラフ学習ベンチマークの実験において最先端の結果を示す。 Graph Neural Networks (GNN) are inherently limited in their expressive power. Recent seminal works (Xu et al., 2019; Morris et al., 2019b) introduced the Weisfeiler-Lehman (WL) hierarchy as a measure of expressive power. Although this hierarchy has propelled significant advances in GNN analysis and architecture developments, it suffers from several significant limitations. These include a complex definition that lacks direct guidance for model improvement and a WL hierarchy that is too coarse to study current GNNs. This paper introduces an alternative expressive power hierarchy based on the ability of GNNs to calculate equivariant polynomials of a certain degree. As a first step, we provide a full characterization of all equivariant graph polynomials by introducing a concrete basis, significantly generalizing previous results. Each basis element corresponds to a specific multi-graph, and its computation over some graph data input corresponds to a tensor contraction problem. Second, we propose algorithmic tools for evaluating the expressiveness of GNNs using tensor contraction sequences, and calculate the expressive power of popular GNNs. Finally, we enhance the expressivity of common GNN architectures by adding polynomial features or additional operations / aggregations inspired by our theory. These enhanced GNNs demonstrate state-of-the-art results in experiments across multiple graph learning benchmarks. | 翻訳日:2023-02-23 14:08:43 公開日:2023-02-22 |
# 省エネルギー・再利用・リサイクル:エネルギー拡散モデルとMCMCによる構成生成 Reduce, Reuse, Recycle: Compositional Generation with Energy-Based Diffusion Models and MCMC ( http://arxiv.org/abs/2302.11552v1 ) ライセンス: Link先を確認 | Yilun Du, Conor Durkan, Robin Strudel, Joshua B. Tenenbaum, Sander Dieleman, Rob Fergus, Jascha Sohl-Dickstein, Arnaud Doucet, Will Grathwohl | (参考訳) 導入以来、拡散モデルは急速に多くの領域における生成モデリングへの一般的なアプローチとなっている。
これらは、ログ確率密度関数の時間変化列の勾配を学ぶと解釈できる。
この解釈は、拡散モデルのポストホック制御方法として、分類器ベースおよび分類器フリーガイダンスを動機付けている。
本研究は, 拡散モデルのスコアに基づく解釈を用いてこれらの概念を構築し, 構成生成と指導を伴うタスクの拡散モデルを条件づけ, 修正, 再利用する方法を検討する。
特に, 現状の技術を用いて, ある種の構成が失敗する理由を考察し, 多数の解を提示する。
この失敗の原因はサンプル(モデルではない)であり,MCMCにインスパイアされた新しいサンプルの提案である。
さらに,新しい構成演算子と,より洗練されたメトロポリス補正試料を用いた拡散モデルのエネルギーベースパラメータ化を提案する。
興味深いことに、これらのサンプルは、分類器誘導画像ネットモデリングや合成テキスト・画像生成など、幅広い問題において、構成生成の顕著な改善につながっている。 Since their introduction, diffusion models have quickly become the prevailing approach to generative modeling in many domains. They can be interpreted as learning the gradients of a time-varying sequence of log-probability density functions. This interpretation has motivated classifier-based and classifier-free guidance as methods for post-hoc control of diffusion models. In this work, we build upon these ideas using the score-based interpretation of diffusion models, and explore alternative ways to condition, modify, and reuse diffusion models for tasks involving compositional generation and guidance. In particular, we investigate why certain types of composition fail using current techniques and present a number of solutions. We conclude that the sampler (not the model) is responsible for this failure and propose new samplers, inspired by MCMC, which enable successful compositional generation. Further, we propose an energy-based parameterization of diffusion models which enables the use of new compositional operators and more sophisticated, Metropolis-corrected samplers. Intriguingly we find these samplers lead to notable improvements in compositional generation across a wide set of problems such as classifier-guided ImageNet modeling and compositional text-to-image generation. | 翻訳日:2023-02-23 14:08:09 公開日:2023-02-22 |
# セマンティックな体験によるロボット学習のスケーリング Scaling Robot Learning with Semantically Imagined Experience ( http://arxiv.org/abs/2302.11550v1 ) ライセンス: Link先を確認 | Tianhe Yu, Ted Xiao, Austin Stone, Jonathan Tompson, Anthony Brohan, Su Wang, Jaspiar Singh, Clayton Tan, Dee M, Jodilyn Peralta, Brian Ichter, Karol Hausman, Fei Xia | (参考訳) ロボット学習の最近の進歩は、ロボットが様々な操作タスクを実行し、新しいシナリオに一般化できることを約束している。
この進歩の重要な要因の1つは、モデルのトレーニングに使用されるロボットデータのスケールである。
大規模なデータセットを得るためには、従来のアプローチは、高い人間の関与を必要とするデモや、エンジニアリングに重きを置く自律的なデータ収集スキームに頼っていた。
この問題を軽減するため,コンピュータビジョンや自然言語処理で広く用いられているテキストから画像への基礎モデルを用いて,ロボットデータの追加を必要とせず,ロボット学習のための有意義なデータを得る。
本手法は,セマンティック画像体験を用いたロボット学習(ROSIE)と呼ぶ。
具体的には,アートなテキストから画像への拡散モデルの現状を利用し,テキスト誘導による操作,背景,気晴らしのための様々な未認識オブジェクトを塗り替えることで,既存のロボット操作データセットの上に積極的なデータ拡張を行う。
広範にわたる実世界の実験を通して、この方法で強化されたデータに基づいて訓練された操作ポリシーは、新しいオブジェクトで完全に見えないタスクを解決し、より堅牢に振る舞うことができることを示す。
さらに,拡散型データ拡張によるトレーニングによる成功検出などの高レベルのロボット学習タスクの堅牢性と一般化を向上できることがわかった。
プロジェクトのwebサイトとビデオは diffusion-rosie.github.io で見ることができる。 Recent advances in robot learning have shown promise in enabling robots to perform a variety of manipulation tasks and generalize to novel scenarios. One of the key contributing factors to this progress is the scale of robot data used to train the models. To obtain large-scale datasets, prior approaches have relied on either demonstrations requiring high human involvement or engineering-heavy autonomous data collection schemes, both of which are challenging to scale. To mitigate this issue, we propose an alternative route and leverage text-to-image foundation models widely used in computer vision and natural language processing to obtain meaningful data for robot learning without requiring additional robot data. We term our method Robot Learning with Semantically Imagened Experience (ROSIE). Specifically, we make use of the state of the art text-to-image diffusion models and perform aggressive data augmentation on top of our existing robotic manipulation datasets via inpainting various unseen objects for manipulation, backgrounds, and distractors with text guidance. Through extensive real-world experiments, we show that manipulation policies trained on data augmented this way are able to solve completely unseen tasks with new objects and can behave more robustly w.r.t. novel distractors. In addition, we find that we can improve the robustness and generalization of high-level robot learning tasks such as success detection through training with the diffusion-based data augmentation. The project's website and videos can be found at diffusion-rosie.github.io | 翻訳日:2023-02-23 14:07:51 公開日:2023-02-22 |
# SimFair: 公正なマルチラベル分類のための統一フレームワーク SimFair: A Unified Framework for Fairness-Aware Multi-Label Classification ( http://arxiv.org/abs/2302.09683v2 ) ライセンス: Link先を確認 | Tianci Liu, Haoyu Wang, Yaqing Wang, Xiaoqian Wang, Lu Su, Jing Gao | (参考訳) 近年、機械学習アルゴリズムによる不公平な決定に対する懸念が高まっている。
モデル決定の公平性を改善するために、様々な公平性の概念が提案され、多くの公平性認識手法が開発されている。
しかし、既存の定義や手法のほとんどは単段分類のみに焦点を当てている。
各インスタンスが複数のラベルに関連付けられているマルチラベル分類の公正性はまだ確立されていない。
このギャップを埋めるために,本稿では公平性を考慮したマルチラベル分類について検討する。
まず,2つの人気公正概念であるDP(Demographic Parity)とEOp(Equalized Opportunity)をマルチラベル分類シナリオに拡張することから始める。
系統的な研究を通して、不均一な分散ラベルのため、EOpは通常、少数のインスタンスを持つラベルに対して信頼性の高い推定値を構築することができないことを示す。
次に、Simisity $s$-induced Fairness(s_\gamma$-SimFair)という新しいフレームワークを提案する。
この新しいフレームワークは、特定のラベルグループに対して公平性を推定する際に類似したラベルを持つデータを活用し、DPとEOpを統一することができる。
実世界のデータセットの理論的解析と実験結果は、既存のメソッドである$s_\gamma$-SimFairのマルチラベル分類タスクに対する利点を示している。 Recent years have witnessed increasing concerns towards unfair decisions made by machine learning algorithms. To improve fairness in model decisions, various fairness notions have been proposed and many fairness-aware methods are developed. However, most of existing definitions and methods focus only on single-label classification. Fairness for multi-label classification, where each instance is associated with more than one labels, is still yet to establish. To fill this gap, we study fairness-aware multi-label classification in this paper. We start by extending Demographic Parity (DP) and Equalized Opportunity (EOp), two popular fairness notions, to multi-label classification scenarios. Through a systematic study, we show that on multi-label data, because of unevenly distributed labels, EOp usually fails to construct a reliable estimate on labels with few instances. We then propose a new framework named Similarity $s$-induced Fairness ($s_\gamma$-SimFair). This new framework utilizes data that have similar labels when estimating fairness on a particular label group for better stability, and can unify DP and EOp. Theoretical analysis and experimental results on real-world datasets together demonstrate the advantage of over existing methods $s_\gamma$-SimFair on multi-label classification tasks. | 翻訳日:2023-02-23 12:18:37 公開日:2023-02-22 |
# AI意思決定支援ツールの使用が、タンザニアにおけるドラッグディスペンサーによる批判的思考と過度信頼にどのように影響するかを理解する Understanding how the use of AI decision support tools affect critical thinking and over-reliance on technology by drug dispensers in Tanzania ( http://arxiv.org/abs/2302.09487v2 ) ライセンス: Link先を確認 | Ally Salim Jr, Megan Allen, Kelvin Mariki, Kevin James Masoy and Jafary Liana | (参考訳) 医療におけるAIの使用は、ケアデリバリーを改善し、患者の成果を高めるための提供者の決定を強化するように設計されている。
臨床環境でのデプロイメントでは、プロバイダとAI間のインタラクションは、これらのデジタルツールがより広範な健康的な結果に与える影響を計測し理解するための重要な要素である。
aiアルゴリズムが診断精度が高い場合でも、医療提供者は自らの経験に頼っ、最終的な判断を直感的に行うことが多い。
その他の場合、プロバイダーはAIモデルのアウトプットに必然的に依存しているため、技術への過度な依存が懸念される。
本研究の目的は,提案する臨床症例の鑑別診断において,薬局ディスペンサーがaiを活用した技術をどのように依存しているかを理解することである。
我々は, 薬物ディスペンサーが常に正しい技術にどう反応するかを検討し, 自己の批判的な考えを伴わずにその技術に頼り始めるかどうかを計測した。
私たちは、AIがその決定について説明を提供していない場合でも、ディスペンサーがAIによる決定に頼っていたことを発見した。 The use of AI in healthcare is designed to improve care delivery and augment the decisions of providers to enhance patient outcomes. When deployed in clinical settings, the interaction between providers and AI is a critical component for measuring and understanding the effectiveness of these digital tools on broader health outcomes. Even in cases where AI algorithms have high diagnostic accuracy, healthcare providers often still rely on their experience and sometimes gut feeling to make a final decision. Other times, providers rely unquestioningly on the outputs of the AI models, which leads to a concern about over-reliance on the technology. The purpose of this research was to understand how reliant drug shop dispensers were on AI-powered technologies when determining a differential diagnosis for a presented clinical case vignette. We explored how the drug dispensers responded to technology that is framed as always correct in an attempt to measure whether they begin to rely on it without any critical thought of their own. We found that dispensers relied on the decision made by the AI 25 percent of the time, even when the AI provided no explanation for its decision. | 翻訳日:2023-02-23 12:18:16 公開日:2023-02-22 |
# 階層型情報ネットワークのための新しい人工知能プロトコル The Emerging Artificial Intelligence Protocol for Hierarchical Information Network ( http://arxiv.org/abs/2302.09463v2 ) ライセンス: Link先を確認 | Caesar Wu and Pascal Bouvry | (参考訳) 最近の人工知能の開発により、機械は人間のレベルの知性を達成することができる。
問題解決と意思決定は、人間の知能を測定する2つの精神能力である。
多くの学者が異なるモデルを提案している。
しかし、多レベル抽象化によるai指向階層モデルの構築にはギャップがある。
本研究では,与えられた問題に対して最適かつ説明可能な解を提供する7つの異なるレイヤからなる,AIプロトコルとして知られる新しいモデルを提案する。 The recent development of artificial intelligence enables a machine to achieve a human level of intelligence. Problem-solving and decision-making are two mental abilities to measure human intelligence. Many scholars have proposed different models. However, there is a gap in establishing an AI-oriented hierarchical model with a multilevel abstraction. This study proposes a novel model known as the emerged AI protocol that consists of seven distinct layers capable of providing an optimal and explainable solution for a given problem. | 翻訳日:2023-02-23 12:17:56 公開日:2023-02-22 |
# 機械愛 Machine Love ( http://arxiv.org/abs/2302.09248v2 ) ライセンス: Link先を確認 | Joel Lehman | (参考訳) MLは多くの経済的価値を生み出すが、私たちの多くはソーシャルメディアや他のML駆動アプリケーションと問題のある関係を持っている。
その理由の1つとして、MLは現時点で私たちが望むものを最適化することが多いため、定量化は容易だが、人間の繁栄について科学的に知られているものとは相反する。
ですから、私たちの不十分なモデルを通じて、MLは現在、エキサイティングな可能性をはるかに失っているのです。
人間の繁栄を定義することに合意はないが、心理学、哲学、霊的伝統の様々な観点から見れば、愛はその主要な触媒の1つだと理解されている。
本論は, 機械や人工生命の分野のように, 生命や知性といった誤った概念を慎重に抽象化し, 再認識できるかどうかを, 歴史的に検討する上で, 機械の具現化に有用な愛の具現化概念が存在するかどうかを考察するものである。
本稿では,特にポジティブ心理学と心理療法の研究に触発された,機械愛の候補概念を前進させ,人間が自発的に成長と発達を追求できるような無条件支援を提供する。
概念実証を通じて、機械学習における人間の繁栄のより豊かなモデルの必要性を強調し、肯定的な心理学をMLと組み合わせて機械愛の概念を大まかに実現し、現状の言語モデルが質的なヒューマニズムの原則を具現化し始めていることを示す。
結論として、現時点ではMLは中毒や気遣い、あるいは分断に役立ちますが、別の道が開かれています。 While ML generates much economic value, many of us have problematic relationships with social media and other ML-powered applications. One reason is that ML often optimizes for what we want in the moment, which is easy to quantify but at odds with what is known scientifically about human flourishing. Thus, through its impoverished models of us, ML currently falls far short of its exciting potential, which is for it to help us to reach ours. While there is no consensus on defining human flourishing, from diverse perspectives across psychology, philosophy, and spiritual traditions, love is understood to be one of its primary catalysts. Motivated by this view, this paper explores whether there is a useful conception of love fitting for machines to embody, as historically it has been generative to explore whether a nebulous concept, such as life or intelligence, can be thoughtfully abstracted and reimagined, as in the fields of machine intelligence or artificial life. This paper forwards a candidate conception of machine love, inspired in particular by work in positive psychology and psychotherapy: to provide unconditional support enabling humans to autonomously pursue their own growth and development. Through proof of concept experiments, this paper aims to highlight the need for richer models of human flourishing in ML, provide an example framework through which positive psychology can be combined with ML to realize a rough conception of machine love, and demonstrate that current language models begin to enable embodying qualitative humanistic principles. The conclusion is that though at present ML may often serve to addict, distract, or divide us, an alternative path may be opening up: We may align ML to support our growth, through it helping us to align ourselves towards our highest aspirations. | 翻訳日:2023-02-23 12:17:50 公開日:2023-02-22 |
# 下肢に対するヒト逆運動学法の比較研究 A comparative study of human inverse kinematics techniques for lower limbs ( http://arxiv.org/abs/2302.10769v2 ) ライセンス: Link先を確認 | Zineb Benhmidouch, Saad Moufid, Aissam Ait Omar | (参考訳) 逆キネマティクス (Inverse Kinematics, IK) は活発な研究テーマであり、高速で正確な解を提供するために多くの手法が導入された。
しかし、高い計算コストと非現実的位置の生成は、既存のほとんどのik法において弱点となる。
そこで本研究では,ヒトの足に応用された一般的なIK技術の性能を比較検討した。
計算時間の観点から最も効率的な方法を決定し、関節の動作範囲や関節の快適ゾーンを尊重しつつ、現実的な姿勢で所望の位置に到達することを目的とする。 Inverse Kinematics (IK) has been an active research topic and many methods have been introduced to provide a fast and accurate solution. However, high computational cost and the generation of unrealistic positions constitute the weak points in most existing IK methods. In this paper, a comparative study was established to analyze the performance of popular IK techniques applied to the human leg. The objective is to determine the most efficient method in terms of computation time and to reach the desired position with a realistic human posture while respecting the range of motion and joint comfort zones of every joint. | 翻訳日:2023-02-23 12:09:36 公開日:2023-02-22 |
# 説明可能なAIと法則の調整:欧州の展望 Aligning Explainable AI and the Law: The European Perspective ( http://arxiv.org/abs/2302.10766v2 ) ライセンス: Link先を確認 | Balint Gyevnar and Nick Ferguson | (参考訳) 欧州連合(eu)は、aiシステム、特に医療などのリスクの高い安全クリティカルなアプリケーションで使用されるものを規制する人工知能法を提案した。
法律の論文には透明性と説明可能性に関する詳細な要件がある。
説明可能なAI(XAI)の分野は、これらの要求の多くに対処できる技術を提供している。
しかしながら、XAIが提供するソリューションとAI Actの要件との間には、明確な透明性の定義の欠如など、大きな違いがある。
我々は、これらの違いに対処するために、弁護士とXAI研究者の協力が不可欠であると主張している。
共通基盤を確立するため、XAIとその法的関連性の概要と、AI法及び関連する一般データ保護規則(GDPR)の透明性と説明可能性要件の読解について述べる。
次に、違いが問題を引き起こす可能性のある4つの主要なトピックについて論じる。
具体的には、XAIの法的地位、透明性の定義の欠如、適合性評価に関する問題、データセット関連の透明性にXAIを使用する。
明確化が法律とXAIの学際的な研究を促進し、責任あるイノベーションを促進する持続可能な規制の創出を支援することを願っている。 The European Union has proposed the Artificial Intelligence Act intending to regulate AI systems, especially those used in high-risk, safety-critical applications such as healthcare. Among the Act's articles are detailed requirements for transparency and explainability. The field of explainable AI (XAI) offers technologies that could address many of these requirements. However, there are significant differences between the solutions offered by XAI and the requirements of the AI Act, for instance, the lack of an explicit definition of transparency. We argue that collaboration is essential between lawyers and XAI researchers to address these differences. To establish common ground, we give an overview of XAI and its legal relevance followed by a reading of the transparency and explainability requirements of the AI Act and the related General Data Protection Regulation (GDPR). We then discuss four main topics where the differences could induce issues. Specifically, the legal status of XAI, the lack of a definition of transparency, issues around conformity assessments, and the use of XAI for dataset-related transparency. We hope that increased clarity will promote interdisciplinary research between the law and XAI and support the creation of a sustainable regulation that fosters responsible innovation. | 翻訳日:2023-02-23 12:09:25 公開日:2023-02-22 |
# 変分隆起軟木 Variational Boosted Soft Trees ( http://arxiv.org/abs/2302.10706v2 ) ライセンス: Link先を確認 | Tristan Cinquin, Tammo Rukat, Philipp Schmidt, Martin Wistuba and Artur Bekasov | (参考訳) 決定木に基づくグラディエントブースティングマシン(GBM)は、表データによる回帰と分類タスクにおける最先端の結果を一貫して示し、しばしばディープニューラルネットワークを上回っている。
しかし、これらのモデルは十分に調整された予測の不確実性を提供していないため、リスクの高いアプリケーションでの意思決定への使用が妨げられる。
ベイジアン処理は予測の不確実性校正を改善することが知られているが、以前提案されていたベイジアン gbm 法は計算コストが高いか粗い近似に依存する。
変分推論はベイズニューラルネットワークの実装によく用いられるが、弱い学習者として使われる決定木は微分不可能であるため、gbmsに適用するのは困難である。
本稿では,Irsoyらによって導入された標準決定木と完全に異なる代替手段であるソフト決定木を用いた変分推論を用いたベイズGBMの実装を提案する。
実験により,変動性ソフトツリーと変動性ソフトgbmは,良好な予測性能を維持しつつ,有用な不確実性推定を提供することが示された。
提案モデルでは,7/10の表型回帰データセットにおけるベイズ型gbmと比較して高いテスト可能性を示し,5/10のデータセットにおける分散外検出を改善した。 Gradient boosting machines (GBMs) based on decision trees consistently demonstrate state-of-the-art results on regression and classification tasks with tabular data, often outperforming deep neural networks. However, these models do not provide well-calibrated predictive uncertainties, which prevents their use for decision making in high-risk applications. The Bayesian treatment is known to improve predictive uncertainty calibration, but previously proposed Bayesian GBM methods are either computationally expensive, or resort to crude approximations. Variational inference is often used to implement Bayesian neural networks, but is difficult to apply to GBMs, because the decision trees used as weak learners are non-differentiable. In this paper, we propose to implement Bayesian GBMs using variational inference with soft decision trees, a fully differentiable alternative to standard decision trees introduced by Irsoy et al. Our experiments demonstrate that variational soft trees and variational soft GBMs provide useful uncertainty estimates, while retaining good predictive performance. The proposed models show higher test likelihoods when compared to the state-of-the-art Bayesian GBMs in 7/10 tabular regression datasets and improved out-of-distribution detection in 5/10 datasets. | 翻訳日:2023-02-23 12:09:06 公開日:2023-02-22 |
# HierCat: Facebook Marketplaceの弱監視データから階層的なクエリカテゴリ化 HierCat: Hierarchical Query Categorization from Weakly Supervised Data at Facebook Marketplace ( http://arxiv.org/abs/2302.10527v2 ) ライセンス: Link先を確認 | Yunzhong He, Cong Zhang, Ruoyan Kong, Chaitanya Kulkarni, Qing Liu, Ashish Gandhe, Amit Nithianandan, Arul Prakash | (参考訳) facebook marketplaceのような顧客間eコマースプラットフォームのクエリ分類は、検索意図の曖昧さ、現実世界のデータにおけるノイズ、言語間の不均衡なトレーニングデータなどの理由から難しい。
そのデプロイには、モデリングの進歩をより良い検索結果に関連付けるために、スケーラビリティとダウンストリームの統合における課題も考慮する必要がある。
本稿では,Facebook Marketplaceのクエリ分類システムであるHierCatを紹介する。
hiercatは、デュアルエンコーダアーキテクチャのマルチタスク事前トレーニングと階層的推論ステップを活用することで、これらの課題に対処する。
hiercatはオフライン実験で一般的な手法を上回るだけでなく、ndcgでは1.4%、facebook marketplace searchでは4.3%、オンラインa/bテストでは4.3%も改善している。 Query categorization at customer-to-customer e-commerce platforms like Facebook Marketplace is challenging due to the vagueness of search intent, noise in real-world data, and imbalanced training data across languages. Its deployment also needs to consider challenges in scalability and downstream integration in order to translate modeling advances into better search result relevance. In this paper we present HierCat, the query categorization system at Facebook Marketplace. HierCat addresses these challenges by leveraging multi-task pre-training of dual-encoder architectures with a hierarchical inference step to effectively learn from weakly supervised training data mined from searcher engagement. We show that HierCat not only outperforms popular methods in offline experiments, but also leads to 1.4% improvement in NDCG and 4.3% increase in searcher engagement at Facebook Marketplace Search in online A/B testing. | 翻訳日:2023-02-23 12:08:45 公開日:2023-02-22 |
# USR: 幾何学とセマンティック一貫性による非教師付き3次元衣服と人間の再構築 USR: Unsupervised Separated 3D Garment and Human Reconstruction via Geometry and Semantic Consistency ( http://arxiv.org/abs/2302.10518v2 ) ライセンス: Link先を確認 | Yue Shi, Yuxuan Xiong, Jingyi Chai, Bingbing Ni, Wenjun Zhang | (参考訳) 画像から着飾った人々の復元は、クリエイティブメディアやゲーム業界で有望な応用が盛んに行われている。
しかし、既存の手法のほとんどは3dモデルの監督の下で人体と衣服全体を再構築し、下流の相互作用タスクを阻害し、観察しにくいデータを必要とする。
そこで本研究では,3dモデルを用いずに人体を再構築する非教師付き分離型3d衣服およびヒト再構成モデル(usr)を提案する。
より具体的には,多視点画像のスパースと服装者のジオメトリのマッピングを学ぶために,汎用的な表面認識ニューラルラミアンスフィールドを提案する。
本研究は, セマンティック・信頼誘導分離戦略(SCGS)を導入し, 2次元意味論と3次元幾何学の整合性を活用し, 衣服層の検出, セグメント化, 再構築を行う。
また,スムーズなエッジに対するGeometry Fine-Tune Moduleを提案する。
データセット上での広範囲な実験により,最先端手法との比較により,usrの形状と外観の再現性が向上し,リアルタイムに認識できない人に一般化できることを示した。
また,smpl-dモデルを導入し,衣服と人体の分離モデリングの利点を示し,衣服の交換や仮想試着を可能にした。 Dressed people reconstruction from images is a popular task with promising applications in the creative media and game industry. However, most existing methods reconstruct the human body and garments as a whole with the supervision of 3D models, which hinders the downstream interaction tasks and requires hard-to-obtain data. To address these issues, we propose an unsupervised separated 3D garments and human reconstruction model (USR), which reconstructs the human body and authentic textured clothes in layers without 3D models. More specifically, our method proposes a generalized surface-aware neural radiance field to learn the mapping between sparse multi-view images and geometries of the dressed people. Based on the full geometry, we introduce a Semantic and Confidence Guided Separation strategy (SCGS) to detect, segment, and reconstruct the clothes layer, leveraging the consistency between 2D semantic and 3D geometry. Moreover, we propose a Geometry Fine-tune Module to smooth edges. Extensive experiments on our dataset show that comparing with state-of-the-art methods, USR achieves improvements on both geometry and appearance reconstruction while supporting generalizing to unseen people in real time. Besides, we also introduce SMPL-D model to show the benefit of the separated modeling of clothes and the human body that allows swapping clothes and virtual try-on. | 翻訳日:2023-02-23 12:08:27 公開日:2023-02-22 |
# 拡散確率モデルによるグラフ構造予測 Diffusion Probabilistic Models for Graph-Structured Prediction ( http://arxiv.org/abs/2302.10506v2 ) ライセンス: Link先を確認 | Sungsoo Ahn | (参考訳) 本稿では,ノードワイドあるいはエッジワイドな対象グラフを用いた教師あり学習のためのグラフ構造化予測について検討する。
この問題を解決するために、近年の研究では、グラフニューラルネットワーク(GNN)と条件付きランダムフィールドのような従来の構造化予測アルゴリズムを組み合わせた研究が行われている。
しかし,本研究では,拡散確率モデル(DPM)の最近の成功に基づいて,新たな方向を追求する。
すなわち、DPMを用いてグラフ構造予測を行う新しいフレームワークを提案する。
完全に教師された設定では、我々のDPMは、近くのターゲットの推定値に基づいて、各ターゲット推定を反復的に更新することで、対象の依存関係をキャプチャする。
また、半教師付き環境でDPMをトレーニングするための変動予測最大化アルゴリズムを提案する。
大規模な実験により、我々のフレームワークはインダクティブノードとトランスダクティブノードの分類において、既存のニューラル構造化予測モデルより一貫して優れていることが検証された。
また,アルゴリズム推論タスクのためのフレームワークの競合性能を示す。 This paper studies graph-structured prediction for supervised learning on graphs with node-wise or edge-wise target dependencies. To solve this problem, recent works investigated combining graph neural networks (GNNs) with conventional structured prediction algorithms like conditional random fields. However, in this work, we pursue an alternative direction building on the recent successes of diffusion probabilistic models (DPMs). That is, we propose a new framework using DPMs to make graph-structured predictions. In the fully supervised setting, our DPM captures the target dependencies by iteratively updating each target estimate based on the estimates of nearby targets. We also propose a variational expectation maximization algorithm to train our DPM in the semi-supervised setting. Extensive experiments verify that our framework consistently outperforms existing neural structured prediction models on inductive and transductive node classification. We also demonstrate the competitive performance of our framework for algorithmic reasoning tasks. | 翻訳日:2023-02-23 12:08:03 公開日:2023-02-22 |
# 非保存拡散過程のダイナミクス Dynamics of nonconservative diffusion processes ( http://arxiv.org/abs/2302.10154v2 ) ライセンス: Link先を確認 | P. Garbaczewski, M. \.Zaba | (参考訳) 我々は、非平衡拡散過程の力学が、最小の電磁結合を持つシュル・"{o}ディンガー量子力学のフルユークリッドバージョンと関連している最近の理論フレームワークの長所と短所を分析し、磁場中のブラウン運動の標準理論に対して「磁性」親和性が設定される。
利点は、マルコフ拡散過程の遷移確率密度関数に対する既存の正確な公式が、[Phys. Rev. E 107,014101, (2023)] の非エルミート的設定においてそれらの(単なる形式的な)経路積分に写像できることである。
これは、拡散荷電粒子の電磁摂動という概念を必ずしも具現化していないが、この設定を超えている非保存拡散過程の研究に現れる標準的なブラウン磁気軌跡と潜在的に有用な電磁類似物を識別することができる。 We analyze pros and cons of the recently introduced theoretical framework, within which the dynamics of nonequilibrium diffusion processes is related to the fully Euclidean version of the Schr\"{o}dinger quantum mechanics with a minimal electromagnetic coupling. The arising "magnetic" affinity is set against the standard theory of the Brownian motion in a magnetic field. The benefit is that the existing exact formulas for transition probability density functions of the involved Markovian diffusion processes, can be mapped into their (merely formal) path integral counterparts in the non-Hermitean setting of [Phys. Rev. E 107,014101, (2023)]. This allows to discriminate beween the standard Brownian magnetic lore and potentially useful electromagnetic analogies appearing in the study of nonconservative diffusion processes, which do not necessarily embody the very concept of electromagnetic perturbations of diffusing charged particles, but extend far beyond this setting. | 翻訳日:2023-02-23 12:07:47 公開日:2023-02-22 |
# unsupervised omnimvs: pseudo-stereo supervisorの確立による効率の良い全方位深度推定 Unsupervised OmniMVS: Efficient Omnidirectional Depth Inference via Establishing Pseudo-Stereo Supervision ( http://arxiv.org/abs/2302.09922v2 ) ライセンス: Link先を確認 | Zisong Chen, Chunyu Lin, Lang Nie, Kang Liao, Yao Zhao | (参考訳) 全方位多視点ステレオ(mvs)ビジョンはその超広視野(fov)にとって魅力的であり、マシンは360{\deg} 3d環境を知覚できる。
しかし、既存のソリューションは監督のために高価な深度ラベルを必要とするため、現実のアプリケーションでは実用的ではない。
本稿では,複数の魚眼画像に基づく非教師なし全方位mvsフレームワークを提案する。
そこで我々は,すべての画像を仮想ビューセンターに投影し,2対のバックツーバック魚眼画像から球形状のパノラマ画像を合成する。
2つの360{\deg}画像は、特別なポーズを持つステレオペアを定式化し、光度整合性を利用して教師なしの制約を確立し、これを「擬似ステレオスーパービジョン」と呼ぶ。
さらに,2つの効率的なコンポーネントを用いた推論速度の向上を目的として,効率的な全方位MVSネットワークUn-OmniMVSを提案する。
まず,非局所的なフーリエ特徴と局所的な空間特徴を同時に捉え,特徴表現を明示的に促進する特徴抽出器を提案する。
次に、分散に基づく光コストボリュームをフォワードして計算複雑性を低減する。
実験の結果, 教師なしソリューションの性能は, 実世界のデータにおけるより優れた一般化を伴う最先端(SoTA)教師付き手法と競合することがわかった。 Omnidirectional multi-view stereo (MVS) vision is attractive for its ultra-wide field-of-view (FoV), enabling machines to perceive 360{\deg} 3D surroundings. However, the existing solutions require expensive dense depth labels for supervision, making them impractical in real-world applications. In this paper, we propose the first unsupervised omnidirectional MVS framework based on multiple fisheye images. To this end, we project all images to a virtual view center and composite two panoramic images with spherical geometry from two pairs of back-to-back fisheye images. The two 360{\deg} images formulate a stereo pair with a special pose, and the photometric consistency is leveraged to establish the unsupervised constraint, which we term "Pseudo-Stereo Supervision". In addition, we propose Un-OmniMVS, an efficient unsupervised omnidirectional MVS network, to facilitate the inference speed with two efficient components. First, a novel feature extractor with frequency attention is proposed to simultaneously capture the non-local Fourier features and local spatial features, explicitly facilitating the feature representation. Then, a variance-based light cost volume is put forward to reduce the computational complexity. Experiments exhibit that the performance of our unsupervised solution is competitive to that of the state-of-the-art (SoTA) supervised methods with better generalization in real-world data. | 翻訳日:2023-02-23 12:07:31 公開日:2023-02-22 |
# Composer: 構成可能な条件による創造的で制御可能な画像合成 Composer: Creative and Controllable Image Synthesis with Composable Conditions ( http://arxiv.org/abs/2302.09778v2 ) ライセンス: Link先を確認 | Lianghua Huang, Di Chen, Yu Liu, Yujun Shen, Deli Zhao, Jingren Zhou | (参考訳) ビッグデータで学んだ最近の大規模な生成モデルは、驚くべき画像を合成できるが、制御性は限られている。
この作品は、合成品質とモデルの創造性を維持しつつ、空間レイアウトやパレットのような出力画像の柔軟な制御を可能にする新しい世代パラダイムを提供する。
合成性が中心となるアイデアとして、まずイメージを代表的要因に分解し、次にこれらの要素をすべて入力を再構成する条件として拡散モデルを訓練する。
推論段階では、リッチ中間表現は構成可能な要素として機能し、カスタマイズ可能なコンテンツ生成のための巨大な設計空間(すなわち分解因子の数に指数関数的に比例する)につながる。
私たちがComposerと呼ぶアプローチは、グローバル情報としてのテキスト記述、ローカルガイダンスとしての深度マップとスケッチ、低レベルの詳細のためのカラーヒストグラムなど、さまざまなレベルの条件をサポートしています。
制御性の向上に加えて,composerが汎用的なフレームワークとして機能し,再トレーニングすることなく,幅広い古典的生成タスクを促進できることを確認した。
コードとモデルは利用可能になる。 Recent large-scale generative models learned on big data are capable of synthesizing incredible images yet suffer from limited controllability. This work offers a new generation paradigm that allows flexible control of the output image, such as spatial layout and palette, while maintaining the synthesis quality and model creativity. With compositionality as the core idea, we first decompose an image into representative factors, and then train a diffusion model with all these factors as the conditions to recompose the input. At the inference stage, the rich intermediate representations work as composable elements, leading to a huge design space (i.e., exponentially proportional to the number of decomposed factors) for customizable content creation. It is noteworthy that our approach, which we call Composer, supports various levels of conditions, such as text description as the global information, depth map and sketch as the local guidance, color histogram for low-level details, etc. Besides improving controllability, we confirm that Composer serves as a general framework and facilitates a wide range of classical generative tasks without retraining. Code and models will be made available. | 翻訳日:2023-02-23 12:07:09 公開日:2023-02-22 |