このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20221217となっている論文です。

PDF登録状況(公開日: 20221217)

TitleAuthorsAbstract論文公表日・翻訳日
# レーザー動作におけるパラメトリック共鳴について

On parametric resonance in the laser action ( http://arxiv.org/abs/2208.10179v14 )

ライセンス: Link先を確認
Alexander Komech(参考訳) 我々は、活性分子に対するマクスウェル方程式を$N\sim 10^{20}$ Schr\odinger方程式に結合した固体レーザーに対する自己整合半古典的マクスウェル-シュル・オーディンガー系を考える。 システムは、時間周期のポンプと弱い散逸を含む。 対応する Poincar\'e map $P$ を導入し、適切な定常状態 $Y^0$ で微分 $DP(Y^0)$ を考える。 我々は、 {\it stable laser action} は、対応する乗算器の最大絶対値が十分大きいことを意味する {\it parametric resonance} (pr) に起因すると推測する。 乗数は$dp(y^0)$の固有値として定義される。 PR は定常状態 $Y^0$ を非常に不安定にし、不安定性は {\it coherent laser radiation を維持すると仮定する。 スペクトル spec$\,dp(y^0)$ が単位円 ||\mu|=1$ に対して概対称であることを証明する。 Maxwell-Bloch 系のより詳細な結果が得られる。 対応する Poincar\'e map $P$ を逐次近似により計算する。 乗算器の計算における重要な役割は、全電流の2階近似で生じる n$ の正の項の総和によって表される。 この事実は、全ての活性分子における分子電流の {\it 同期と解釈できるが、これはレーザー作用における {\it 刺激放出の役割と仮に一致する。 和の計算は、我々のアプローチの主な斬新さの1つである確率論に依拠する。 その他の主な小説 i) "hopf representation" における微分 $dp(y^0)$ の計算 二 この表現の正当化 三 差のブロック構造、及び iv) 減速回転の平均化に対する新たな推定値による「回転波近似」の正当性

We consider the selfconsistent semiclassical Maxwell--Schr\"odinger system for the solid state laser which consists of the Maxwell equations coupled to $N\sim 10^{20}$ Schr\"odinger equations for active molecules. The system contains time-periodic pumping and a weak dissipation. We introduce the corresponding Poincar\'e map $P$ and consider the differential $DP(Y^0)$ at suitable stationary state $Y^0$. We conjecture that the {\it stable laser action} is due to the {\it parametric resonance} (PR) which means that the maximal absolute value of the corresponding multipliers is sufficiently large. The multipliers are defined as eigenvalues of $DP(Y^0)$. The PR makes the stationary state $Y^0$ highly unstable, and we suppose that this instability maintains the {\it coherent laser radiation}. We prove that the spectrum Spec$\,DP(Y^0)$ is approximately symmetric with respect to the unit circle $|\mu|=1$ if the dissipation is sufficiently small. More detailed results are obtained for the Maxwell--Bloch system. We calculate the corresponding Poincar\'e map $P$ by successive approximations. The key role in calculation of the multipliers is played by the sum of $N$ positive terms arising in the second-order approximation for the total current. This fact can be interpreted as the {\it synchronization of molecular currents} in all active molecules, which is provisionally in line with the role of {\it stimulated emission} in the laser action. The calculation of the sum relies on probabilistic arguments which is one of main novelties of our approach. Other main novelties are i) the calculation of the differential $DP(Y^0)$ in the "Hopf representation", ii) the justification of this representation, iii) the block structure of the differential, and iv) the justification of the "rotating wave approximation" by a new estimate for the averaging of slow rotations.
翻訳日:2023-01-30 05:11:34 公開日:2022-12-17
# 非線形ランダウ・ツェナー・シュタッケルベルク・マヨラナ問題

Nonlinear Landau-Zener-St\"uckelberg-Majorana problem ( http://arxiv.org/abs/2208.11416v2 )

ライセンス: Link先を確認
Sahel Ashhab, Olga A. Ilinskaya, and Sergey N. Shevchenko(参考訳) Landau-Zener-St\"uckelberg-Majorana (LZSM) 問題では、バイアススイープ率とギャップは時間独立であり、LZSM問題を完全に特徴づけている。 本研究では,2つの特性パラメータのうちの少なくとも1つが回避された交差領域を横断するときに変化する非線形lzsm問題を考える。 この状況は、理想化された線形LZSM問題と比較して、現実的な状況のより正確な記述と考えることができる。 非線形性が線形問題に小さな補正を加える摂動非線形性の場合と、スイープおよび/または最小ギャップ関数が線形LZSM問題と質的に異なる本質非線形性の場合の両方を考慮する。 摂動非線形性の場合,Dykhne-Davis-Pechukas (DDP) 式に基づくLZSM遷移確率の解析式を導出し,標準LZSM式に対する先行補正を考慮に入れた。 導出した近似式と数値シミュレーションの結果を比較し,近似の有効性についてコメントする。 特に、非線形項が、回避された横断の有限の期間を通して線形項と比較して小さい場合、摂動近似が有効である。 また, ddp式の有効性に関する情報も提供する。 文献で扱われた本質的な非線形性の事例のレビューに加えて, ほぼ正方形パルスを記述した本質的に非線形スイープ関数の事例を分析した。

In the standard Landau-Zener-St\"uckelberg-Majorana (LZSM) problem, the bias sweep rate and gap are both time independent and fully characterize the LZSM problem. We consider the nonlinear LZSM problem, in which at least one of the two characteristic parameters varies as the system traverses the avoided crossing region. This situation results in what could be thought of as a more accurate description of any realistic situation as compared to the idealized linear LZSM problem. We consider both the case of perturbative nonlinearities, where the nonlinearity adds small corrections to the linear problem, and the case of essential nonlinearities, where the sweep and/or minimum-gap functions are qualitatively different from those of the linear LZSM problem. In the case of perturbative nonlinearities, we derive analytic expressions for the LZSM transition probability based on the Dykhne-Davis-Pechukas (DDP) formula, taking into account the leading corrections to the standard LZSM formula. We compare the derived approximate expressions with numerical simulation results and comment on the validity of the approximations. In particular, if the nonlinear term is small in comparison to the linear term throughout the finite duration of the avoided crossing traversal, the perturbative approximation is valid. Our results also provide information about the validity of the DDP formula. In addition to reviewing cases of essential nonlinearity treated previously in the literature, we analyze the case of an essentially nonlinear sweep function that describes an almost square pulse.
翻訳日:2023-01-30 00:06:27 公開日:2022-12-17
# 比例代数

Proportional algebras ( http://arxiv.org/abs/2210.01751v2 )

ライセンス: Link先を確認
Christian Anti\'c(参考訳) 本稿では、部分代数、準同型、合同、関手の基本概念が構築されるような公理の適切な集合を満たす 4-項類似比例関係を代数学に与えた。

This paper introduces proportional algebras as algebras endowed a the 4-ary analogical proportion relation satisfying a suitable set of axioms, where the fundamental concepts of subalgebras, homomorphisms, congruences, and functors are constructed.
翻訳日:2023-01-28 08:59:34 公開日:2022-12-17
# アンサンブル学習による投票戦略によるnisqコンピュータの量子分類器性能の向上

Improving Quantum Classifier Performance in NISQ Computers by Voting Strategy from Ensemble Learning ( http://arxiv.org/abs/2210.01656v3 )

ライセンス: Link先を確認
Ruiyang Qin, Zhiding Liang, Jinglei Cheng, Peter Kogge, and Yiyu Shi(参考訳) 量子コンピュータの膨大なポテンシャルと機械学習アプリケーションに必要な計算オーバーヘッドのため、変分量子分類器(VQC)は近年、画像分類において大きな関心を集めている。 VQCの性能は、ノイズに悩まされ、NISQ(Noisy Intermediate-Scale Quantum)コンピュータでは大きなハードルとなっている。 量子ゲートのデコヒーレンスと不一致のために、量子アルゴリズムにおいて大きな誤り率が発生することを忘れてはならない。 従来の研究は、量子ノイズを減らすためにアンサンブル学習を用いていた。 また,古典的アンサンブル学習における単純な平均集計は,vqcの信頼度分布の不均衡のため,nisqコンピュータではうまく機能しない可能性があることを指摘した。 そこで本研究では,アンサンブル量子分類器を複数投票で最適化することを提案する。 MNISTデータセットとIBM量子コンピュータ上で実験を行う。 その結果,提案手法は2クラスと4クラスの分類において,それぞれ16.0%,6.1%を上回り得ることがわかった。

Due to the immense potential of quantum computers and the significant computing overhead required in machine learning applications, the variational quantum classifier (VQC) has received a lot of interest recently for image classification. The performance of VQC is jeopardized by the noise in Noisy Intermediate-Scale Quantum (NISQ) computers, which is a significant hurdle. It is crucial to remember that large error rates occur in quantum algorithms due to quantum decoherence and imprecision of quantum gates. Previous studies have looked towards using ensemble learning in conventional computing to reduce quantum noise. We also point out that the simple average aggregation in classical ensemble learning may not work well for NISQ computers due to the unbalanced confidence distribution in VQC. Therefore, in this study, we suggest that ensemble quantum classifiers be optimized with plurality voting. On the MNIST dataset and IBM quantum computers, experiments are carried out. The results show that the suggested method can outperform state-of-the-art on two- and four-class classifications by up to 16.0% and 6.1% , respectively.
翻訳日:2023-01-23 22:03:01 公開日:2022-12-17
# 失業した移民の優先性? ベルギーにおける訓練の因果機械学習による評価

Priority to unemployed immigrants? A causal machine learning evaluation of training in Belgium ( http://arxiv.org/abs/1912.12864v4 )

ライセンス: Link先を確認
Bart Cockx, Michael Lechner, Joost Bollens(参考訳) ベルギーの失業者の管理データに基づいて, 因果学習推定指標である変成因果樹林を用いて, 各種アグリゲーションレベルでの3つの訓練プログラムの労働市場効果を推定した。 ロックイン期間の後、すべてのプログラムはポジティブな効果を持つが、プログラム間でかなりの不均一性が見られ、失業している。 シミュレーションは、推定された個人の利益を最大化するプログラムに再雇用する'ブラックボックス'のルールが、有効性を大幅に改善することを示している。 浅いポリシーツリーは、この利益の約70%を実現する単純なルールを提供します。

Based on administrative data of unemployed in Belgium, we estimate the labour market effects of three training programmes at various aggregation levels using Modified Causal Forests, a causal machine learning estimator. While all programmes have positive effects after the lock-in period, we find substantial heterogeneity across programmes and unemployed. Simulations show that 'black-box' rules that reassign unemployed to programmes that maximise estimated individual gains can considerably improve effectiveness: up to 20 percent more (less) time spent in (un)employment within a 30 months window. A shallow policy tree delivers a simple rule that realizes about 70 percent of this gain.
翻訳日:2023-01-17 03:00:07 公開日:2022-12-17
# 仮想二ビットゲートによる誤差抑制

Error suppression by a virtual two-qubit gate ( http://arxiv.org/abs/2212.05493v2 )

ライセンス: Link先を確認
Takahiro Yamamoto and Ryutaro Ohira(参考訳) 超伝導量子コンピュータのスパース接続はSWAPゲートの大きな実験的なオーバーヘッドをもたらす。 本研究では,仮想二ビットゲート(VTQG)を誤り抑制手法として利用することを検討する。 VTQGは、単一のキュービットゲートと射影測定のみを使用して、一対の遠いキュービット間の非局所的な操作を可能にする。 ここでは、VTQGをIBM量子コンピュータ上の横フィールドIsingモデルのディジタル量子シミュレーションに適用し、ノイズの多い2量子ビット演算による誤差を抑制する。 本稿では,複数のSWAPゲートの削減により出力状態の忠実度が向上するVTQGの有効利用について述べる。 その結果,VTQGはSWAPゲートの追加による誤差の抑制に有用であることが示唆された。 さらに、VTQGとパルス効率の変換法を組み合わせることにより、エラーのさらなる抑制が観察される。 実験では, 8量子ビットの逆場イジングモデルの量子シミュレーションにおいて, 1桁の精度向上を観測した。

Sparse connectivity of a superconducting quantum computer results in the large experimental overheads of SWAP gates. In this study, we consider employing a virtual two-qubit gate (VTQG) as an error suppression technique. The VTQG enables a non-local operation between a pair of distant qubits using only single qubit gates and projective measurements. Here, we apply the VTQG to the digital quantum simulation of the transverse-field Ising model on an IBM quantum computer to suppress the errors due to the noisy two-qubit operations. We present an effective use of VTQG, where the reduction of multiple SWAP gates results in increasing the fidelity of the output states. The obtained results indicate that the VTQG can be useful for suppressing the errors due to the additional SWAP gates. Additionally, by combining a pulse-efficient transpilation method with the VTQG, further suppression of the errors is observed. In our experiments, we have observed one order of magnitude improvement in accuracy for the quantum simulation of the transverse-field Ising model with 8 qubits.
翻訳日:2023-01-09 13:57:04 公開日:2022-12-17
# グリッド衛星と地球観測降水データの融合のための機械学習アルゴリズムの比較

Comparison of machine learning algorithms for merging gridded satellite and earth-observed precipitation data ( http://arxiv.org/abs/2301.01252v1 )

ライセンス: Link先を確認
Georgia Papacharalampous, Hristos Tyralis, Anastasios Doulamis, Nikolaos Doulamis(参考訳) 格子状衛星降水データセットは、密度の高い大地域をカバーするため、水文科学的な応用に有用である。 しかし、地上測定と一致しないという意味では正確ではない。 精度を改善するための確立された手段は、機械学習アルゴリズムを採用することで修正することである。 この問題は、地上に基づく測定が依存変数の役割を持ち、衛星データが予測変数であり、地形因子(例えば標高)とともに、回帰設定として定義される。 この種の研究のほとんどは、限られた数の機械学習アルゴリズムを含み、小さな領域と限られた期間に行われる。 このようにして得られた成果は局所的に重要であり、より一般的なガイダンスやベストプラクティスを提供していない。 本稿では,米国全土および15年間の衛星降水量データを修正するための8つの最先端機械学習アルゴリズムを比較した。 我々は、ペルシャ人の月次データ(人工ニューラルネットワークを用いたリモートセンシング情報からの予測推定)と、世界史気候ネットワーク月次データベースのバージョン2(ghcnm)の月次地球観測降水データを使用する。 その結果, 極度勾配強化 (xgboost) とランダム林は, 誤差採点関数の精度が最も高いことが示唆された。 ベイズ正規化フィードフォワードニューラルネットワーク、多変量適応多項式スプライン(poly-mars)、勾配ブースティングマシン(gbm)、多変量適応回帰スプライン(mars)、フィードフォワードニューラルネットワーク、線形回帰。

Gridded satellite precipitation datasets are useful in hydrological applications as they cover large regions with high density. However, they are not accurate in the sense that they do not agree with ground-based measurements. An established means for improving their accuracy is to correct them by adopting machine learning algorithms. The problem is defined as a regression setting, in which the ground-based measurements have the role of the dependent variable and the satellite data are the predictor variables, together with topography factors (e.g., elevation). Most studies of this kind involve a limited number of machine learning algorithms, and are conducted at a small region and for a limited time period. Thus, the results obtained through them are of local importance and do not provide more general guidance and best practices. To provide results that are generalizable and to contribute to the delivery of best practices, we here compare eight state-of-the-art machine learning algorithms in correcting satellite precipitation data for the entire contiguous United States and for a 15-year period. We use monthly data from the PERSIANN (Precipitation Estimation from Remotely Sensed Information using Artificial Neural Networks) gridded dataset, together with monthly earth-observed precipitation data from the Global Historical Climatology Network monthly database, version 2 (GHCNm). The results suggest that extreme gradient boosting (XGBoost) and random forests are the most accurate in terms of the squared error scoring function. The remaining algorithms can be ordered as follows from the best to the worst ones: Bayesian regularized feed-forward neural networks, multivariate adaptive polynomial splines (poly-MARS), gradient boosting machines (gbm), multivariate adaptive regression splines (MARS), feed-forward neural networks and linear regression.
翻訳日:2023-01-09 13:38:34 公開日:2022-12-17
# 量子最適制御を用いた量子エンタングル

Qudit entanglers using quantum optimal control ( http://arxiv.org/abs/2212.08799v1 )

ライセンス: Link先を確認
Sivaprasad Omanakuttan, Anupam Mitra, Michael J. Martin and Ivan H Deutsch(参考訳) 量子最適制御における2つの手法を用いて、2つの量子論理ゲートの絡み合い生成について検討する。 連続的なリー代数制御とデジタルリー群制御の両方を利用する。 どちらの場合も鍵は時間依存ハミルトニアンへのアクセスであり、これは群 SU($d^2$) において任意のユニタリ行列を生成することができる。 高度に密着するゲートを作るための効率的なプロトコルを見つける。 この理論のテストとして、アルカリ土類原子の核スピンに強くエンコードされ、磁気と光学で操作されるクアディットのケースを、よく知られたRydbergブロッキングから生じる絡み合い相互作用を用いて研究した。 我々はこれを、核スピン共鳴、テンソルAC-スタークシフト、およびライドバーグドレッシングの組み合わせによって制御された$I=9/2$核スピンに符号化された$d=10$次元のquditに基づくケーススタディに適用し、CPhaseのような任意の対称な2量子ゲートを生成できることを示した。 我々の技術は核スピンに符号化された$2\le d \le10$のクディットエンタングゲートを実装するのに利用できる。 また、リドベルク状態の有限寿命によるデコヒーレンスがCPhaseゲートの生成にどのように影響するかを調べた結果、数値最適化により、$0.9985$, $0.9980$, $0.9942$, $0.9800$ for $d=2$, $d=3$, $d=5$, $d=7$のフィディリティが得られた。 これにより、クォーディットによる量子情報処理、量子シミュレーション、普遍量子計算、量子誤り訂正などの量子情報処理の様々な応用を探索する強力なプラットフォームを提供する。

We study the generation of two-qudit entangling quantum logic gates using two techniques in quantum optimal control. We take advantage of both continuous, Lie-algebraic control and digital, Lie-group control. In both cases, the key is access to a time-dependent Hamiltonian which can generate an arbitrary unitary matrix in the group SU($d^2$). We find efficient protocols for creating high-fidelity entangling gates. As a test of our theory, we study the case of qudits robustly encoded in nuclear spins of alkaline earth atoms and manipulated with magnetic and optical fields, with entangling interactions arising from the well-known Rydberg blockade. We applied this in a case study based on a $d=10$ dimensional qudit encoded in the $I=9/2$ nuclear spin in $^{87}$Sr, controlled through a combination of nuclear spin-resonance, a tensor AC-Stark shift, and Rydberg dressing, which allows us to generate an arbitrary symmetric entangling two-qudit gate such as CPhase. Our techniques can be used to implement qudit entangling gates for any $2\le d \le10$ encoded in the nuclear spin. We also studied how decoherence due to the finite lifetime of the Rydberg states affects the creation of the CPhase gate and found, through numerical optimization, a fidelity of $0.9985$, $0.9980$, $0.9942$, and $0.9800$ for $d=2$, $d=3$, $d=5$, and $d=7$ respectively. This provides a powerful platform to explore the various applications of quantum information processing of qudits including metrological enhancement with qudits, quantum simulation, universal quantum computation, and quantum error correction.
翻訳日:2023-01-09 08:28:12 公開日:2022-12-17
# 光ナノワイヤに結合した偏光単光子によるプラズモニックダイマー

Plasmonic Dimers Enhanced Polarized Single Photon Coupled to Optical Nanowire ( http://arxiv.org/abs/2212.08819v1 )

ライセンス: Link先を確認
Subrat Sahu, Harsh Mishra and Rajan Jha(参考訳) プラズモン励起偏光子を光ナノワイヤ(onw)誘導モードに誘導するシステムを提案する。 量子エミッタ(QEs)の自然放出特性は、金ナノロッドダイマー(GNRD)の存在下で強く強化され、高偏光および明るい単一光子の放出につながることが示されている。 我々は, 高パーセル係数279, 結合効率11%, 単一光子の偏光度(DOP)を, 最適化されたGNRD系にQEを適宜配置することにより, ONWの誘導モードにおいて99.57%と推定した。 提案するハイブリッド量子システムは、ファイバネットワークとインラインになり、量子情報処理や量子暗号応用への扉を開くことができる。

We propose a system for guiding plasmon-enhanced polarized single photons into optical nanowire (ONW) guided modes. It is shown that spontaneous emission properties of quantum emitters (QEs) can be strongly enhanced in the presence of gold nanorod dimer (GNRD) leading to the emission of highly polarized and bright single photons. We have calculated that a high Purcell factor of 279, coupling efficiency of 11 %, and degree of polarization (DOP) of single photons is estimated to be as high as 99.57% in the guided modes of ONW by suitably placing a QE on an optimized location of the GNRD system. This proposed hybrid quantum system can be in-line with fiber networks, opening the door for possible quantum information processing and quantum cryptography applications.
翻訳日:2023-01-09 08:27:35 公開日:2022-12-17
# 有限温度における対ハミルトニアンの量子計算

Quantum computing of the pairing Hamiltonian at finite temperatures ( http://arxiv.org/abs/2212.08862v1 )

ライセンス: Link先を確認
Chongji Jiang and Junchen Pei(参考訳) 有限量子系の熱励起は、相転移の欠如とBCS理論の崩壊のために興味深い。 本研究では, 量子シミュレータと超伝導量子コンピュータを用いて, 4つの粒子を有限温度でペアリングするハミルトニアンについて検討する。 励起状態は変分量子デフレレーション(VQD)によって得られる。 誤差除去法を適用し, 雑音特性の改善を図る。 熱励起のシミュレーションは、0温度で同じ回路を用いて行われ、有限温度BCS法(FT-BCS)法による偽相転移とは対照的に、温度の関数として滑らかな遷移を示す。

Thermal excitations of finite quantum systems are interesting due to the absent of phase transitions and the breakdown of the BCS theory. In this work, we study the pairing hamiltonian with four particles at finite temperatures on a quantum simulator and a superconducting quantum computer. The excited states are obtained by the variational quantum deflation (VQD). The error-mitigation methods are applied to improve the noisy results. The simulation of thermal excitations is performed with the same circuits at zero temperature, which shows a smooth transition as a function of temperatures in contrast to a false phase transition by the finite-temperature BCS (FT-BCS) method.
翻訳日:2023-01-09 08:27:20 公開日:2022-12-17
# 量子コンピュータ上での連続時間量子ウォークの実装

Implementation of Continuous-Time Quantum Walks on Quantum Computers ( http://arxiv.org/abs/2212.08889v1 )

ライセンス: Link先を確認
Renato Portugal and Jalil Khatibi Moqadam(参考訳) 量子ウォーク(quantum walk)は、複雑な量子系をシミュレートし、量子アルゴリズムを構築するのに有用なモデルである。 量子ウォークは量子コンピュータ上で実装される興味深い候補である。 本研究では,3つのグラフクラス(完全グラフ,完全二部グラフ,ハイパーキューブ)上で連続時間量子ウォークに基づく探索アルゴリズムの進化演算子を実装する効率的な回路について述べる。 完全かつ完備な二部グラフのクラスに対して、回路は進化演算子を正確に実装する。 ハイパーキューブのクラスでは、回路は近似進化演算子を実装し、頂点の数が大きければ正確な進化演算子を使う傾向がある。 qiskitシミュレーションにより,低次元超キューブにおいてもマーキングされた頂点を求めることに成功した。

Quantum walk is a useful model to simulate complex quantum systems and to build quantum algorithms; in particular, to develop spatial search algorithms on graphs, which aim to find a marked vertex as quickly as possible. Quantum walks are interesting candidates to be implemented on quantum computers. In this work, we describe efficient circuits that implement the evolution operator of continuous-time quantum-walk-based search algorithms on three graph classes: complete graphs, complete bipartite graphs, and hypercubes. For the class of complete and complete bipartite graphs, the circuits implement the evolution operator exactly. For the class of hypercubes, the circuit implements an approximate evolution operator, which tends to the exact evolution operator when the number of vertices is large. Our Qiskit simulations show that the implementation is successful at finding the marked vertex even for low-dimensional hypercubes.
翻訳日:2023-01-09 07:44:39 公開日:2022-12-17
# HeunB関数の応用

An application of the HeunB function ( http://arxiv.org/abs/2212.08917v1 )

ライセンス: Link先を確認
S.G.Kamath(参考訳) 重力ポテンシャルが組み込まれることで、量子力学的な結果がどう変わるのか? この質問はこの報告を動機付け、ref.1のp.273で問題#12の編集版から回答が決定される。 詳しくは、フークの法則に従う問題における2つの質量系のハミルトニアンから始め、その平衡位置を1次元で振動させ、還元質量に対するシュロディンガー方程式を解き、固有関数としての放物型シリンダー関数を求め、還元ハミルトニアンの固有値を正確に計算する。 有界線形調和振動子の量子力学は、おそらく最初にauluckとkothari[2]によって研究された。 上述のシュロディンガー方程式における重力ポテンシャルの導入は、固有関数を二流の HeunB 関数[3] に変更し、固有値は、その正確な解が HeunB 関数である微分方程式の解に対するエルミート函数の最近の級数展開[4] から決定される。

How does the inclusion of the gravitational potential alter an otherwise exact quantum mechanical result? This question motivates this report, with the answer determined from an edited version of problem #12 on p.273 of Ref.1. To elaborate, we begin with the Hamiltonian associated with the system of two masses in the problem obeying Hooke's law and vibrating about their equilibrium positions in one dimension; the Schrodinger equation for the reduced mass is then solved to obtain the parabolic cylinder functions as eigenfunctions and the eigenvalues of the reduced Hamiltonian are calculated exactly. Parenthetically,the quantum mechanics of a bounded linear harmonic oscillator was perhaps first studied by Auluck and Kothari[2]. The introduction of the gravitational potential in the aforesaid Schrodinger equation alters the eigenfunctions to the biconfluent HeunB function[3]; and the eigenvalues are the determined from a recent series expansion[4] in terms of the Hermite functions for the solution of the differential equation whose exact solution is the aforesaid HeunB function.
翻訳日:2023-01-09 07:44:26 公開日:2022-12-17
# 量子ネットワークのための適応型連続絡み合い生成

Adaptive, Continuous Entanglement Generation for Quantum Networks ( http://arxiv.org/abs/2212.08806v1 )

ライセンス: Link先を確認
Alexander Kolar, Allen Zang, Joaquin Chung, Martin Suchara, Rajkumar Kettimuthu(参考訳) 長距離にわたる量子情報の転送を可能にする量子ネットワークは、通信、計算、セキュリティ、気象学など多くの分野でエキサイティングなメリットと新たな可能性を提供する。 これらのネットワークは、情報伝達のために遠方のノードにおける量子ビット間の絡み合いに依存するが、これらの量子リンクの生成は送信される情報に依存しない。 研究者は、ネットワークノードがユーザのリクエストを受け取る前に絡み合いリンクを生成できる、絡み合いの連続生成のためのスキームを探求している。 本稿では、前回の要求からの情報を用いて、将来の要求が受信される前にランダムに生成された量子リンクの選択をガイドする適応方式を提案する。 このようなスキームが利益をもたらすかもしれないパラメータ空間を分析し、シングルボトルネックおよび自律システムネットワーク上の他の連続スキームよりも最大75%の性能向上を観測する。 また、他のパラメータ選択のスキームをテストし、95%までの継続的なメリットを観察した。 ランダム化された要求キューに対する適応型スキームのパワーを,シングルブートネックトポロジで示す。 また、遅延性能の違いが量子ネットワークのリソースの最適な割り当ての必要性を示唆する量子メモリ割り当てシナリオについても検討する。

Quantum networks, which enable the transfer of quantum information across long distances, promise to provide exciting benefits and new possibilities in many areas including communication, computation, security, and metrology. These networks rely on entanglement between qubits at distant nodes to transmit information; however, creation of these quantum links is not dependent on the information to be transmitted. Researchers have explored schemes for continuous generation of entanglement, where network nodes may generate entanglement links before receiving user requests. In this paper we present an adaptive scheme that uses information from previous requests to better guide the choice of randomly generated quantum links before future requests are received. We analyze parameter spaces where such a scheme may provide benefit and observe an increase in performance of up to 75% over other continuous schemes on single-bottleneck and autonomous systems networks. We also test the scheme for other parameter choices and observe continued benefits of up to 95%. The power of our adaptive scheme on a randomized request queue is demonstrated on a single-bottleneck topology. We also explore quantum memory allocation scenarios, where a difference in latency performance implies the necessity of optimal allocation of resources for quantum networks.
翻訳日:2023-01-09 07:33:45 公開日:2022-12-17
# 吸収型量子メモリ間の絡み合い生成のシミュレーション

Simulation of Entanglement Generation between Absorptive Quantum Memories ( http://arxiv.org/abs/2212.08809v1 )

ライセンス: Link先を確認
Allen Zang, Alexander Kolar, Joaquin Chung, Martin Suchara, Tian Zhong, Rajkumar Kettimuthu(参考訳) 量子絡み合いは量子ネットワークにとって不可欠な資源である。 しかし,遠隔ネットワークノードにおける物理デバイス間の絡み合いの発生は,量子ネットワークの実現に向けた課題である。 本研究では,我々のチームが開発したQUantum Network Communication (SeQUeNCe) のオープンソースシミュレータを用いて,Argonne-Chicago量子ネットワーク上に展開する2つの原子周波数コム(AFC)吸収量子メモリ間の絡み合い発生をシミュレーションする。 本研究では,SeQUeNCeにおける光量子状態の表現を実現し,自然パラメトリックダウンコンバージョン(SPDC)源,AFC吸収量子メモリ,および非数分解光子検出器を用いた測定装置の構築を行った。 これらの展開に基づき,SPDC音源の平均光子数と,平均光子数とメモリモード数の両方で異なる絡み合い発生率を観測した。 また,量子メモリから得られたバイパートライトフォトニック状態に対する有効密度行列のトモグラフィ再構成をシミュレートした。 我々の研究は、SeQUeNCeシミュレータのユーザビリティを拡張し、新しいハードウェアモジュールとFock状態表現により、短期的な量子ネットワークハードウェアとプロトコルのシミュレーションを改善する。

Quantum entanglement is an essential resource for quantum networks. However, the generation of entanglement between physical devices at remote network nodes is a challenging task towards practical implementation of quantum networks. In this work, we use the open-source Simulator of QUantum Network Communication (SeQUeNCe), developed by our team, to simulate entanglement generation between two atomic frequency comb (AFC) absorptive quantum memories to be deployed on the Argonne-Chicago quantum network. We realize the representation of photonic quantum states within truncated Fock spaces in SeQUeNCe and build models for a spontaneous parametric down-conversion (SPDC) source, AFC absorptive quantum memories, and measurement devices with non-number-resolving photon detectors. Based on these developments, we observe varying fidelity with SPDC source mean photon number, and varying entanglement generation rate with both mean photon number and memory mode number. We also simulate tomographic reconstruction of the effective density matrix for the bipartite photonic states retrieved from quantum memories. Our work extends the usability of the SeQUeNCe simulator with new hardware modules and Fock state representation that will improve the simulation of near term quantum network hardware and protocols.
翻訳日:2023-01-09 07:33:26 公開日:2022-12-17
# kビームスプリッターと非効率光子数分解検出装置を用いた大振幅高忠実猫状態の量子工学アルゴリズム

Algorithm of quantum engineering of large-amplitude high-fidelity cat states in setup with k beam splitters and with inefficient photon number resolving detection ( http://arxiv.org/abs/2212.08827v1 )

ライセンス: Link先を確認
Mikhail S. Podoshvedov, Sergey A. Podoshvedov and Sergei P. Kulik(参考訳) 単一モード圧縮真空(SMSV)状態を資源として,大振幅>5高忠実>0.99偶発型シュロディンガー猫状態(SCS)の量子工学アルゴリズムを提案する。 任意の透過率と反射率係数を順次追従するkビームスプリッター(bss)のセットは、光子数分解(pnr)検出器によって同時に測定された測定モードに多光子状態をリダイレクトするハブとして機能する。 多光子状態分割は, キャット状態発生器の成功確率を, 単一PNR検出器での実装と比較して著しく増加させ, 理想的なPNR検出器の要求を小さくすることを示す。 特に、大きな(例えば100)個の光子を減算する場合、すなわち完全値への忠実度を増加させることで成功確率が急激に低下する場合において、非効率的なpnr検出器を用いたスキームにおいて、出力scssの忠実度とその成功確率が互いに衝突している(定量化できる)ことが証明される。 一般に、2つのbssによる初期smsvから最大20光子を減算する戦略は、2つの非効率pnr検出器による振幅<3のscs生成器の出力における忠実性と成功確率の十分高い値を達成するために許容される。

We present an algorithm of quantum engineering of large-amplitude>5 high-fidelity>0.99 even/odd Schrodinger cat states (SCSs) using a single mode squeezed vacuum (SMSV) state as resource. Set of k beam splitters (BSs) with arbitrary transmittance and reflectance coefficients sequentially following each other acts as a hub that redirects a multiphoton state into the measuring modes simultaneously measured by photon number resolving (PNR) detectors. We show that the multiphoton state splitting guarantees significant increase of the success probability of the cat state generator compared to its implementation in a single PNR detector version and imposes less requirements on ideal PNR detectors. We prove that the fidelity of the output SCSs and its success probability are in conflict with each other (which can be quantified) in a scheme with ineffective PNR detectors, especially when subtracting large (say, 100) number of photons, i.e., increasing the fidelity to perfect values leads to a sharp decrease in the success probability. In general, the strategy of subtracting up to 20 photons from initial SMSV in setup with two BSs is acceptable for achieving sufficiently high values of the fidelity and success probability at the output of the generator of the SCSs of amplitude <3 with two inefficient PNR detectors.
翻訳日:2023-01-09 07:33:04 公開日:2022-12-17
# 時系列解析のためのハイブリッド量子特異スペクトル分解

Hybrid Quantum Singular Spectrum Decomposition for Time Series Analysis ( http://arxiv.org/abs/2212.08831v1 )

ライセンス: Link先を確認
Jasper Johannes Postema, Pietro Bonizzi, Gideon Koekoek, Ronald L. Westra, Servaas J.J.M.F. Kokkelmans(参考訳) 古典的なデータ分析は、ビッグデータの時代に難航する計算努力を必要とする。 時系列分析における重要なタスクは、ノイズの多い時系列から物理的意味のある情報を抽出することである。 この目的のために考案された1つのアルゴリズムは特異スペクトル分解(SSD)であり、これは非定常および非線形時系列からの狭帯域成分の抽出を可能にする適応的手法である。 このアルゴリズムの主な計算ボトルネックは特異値分解(SVD)である。 量子コンピューティングは、優れたスケーリング法則によって、この分野のスピードアップを促進することができる。 本稿では,SVDサブルーチンを量子コンピュータに割り当てることで量子SSDを提案する。 近い将来のハイブリッド量子コンピュータにおけるハイブリッドアルゴリズムの実装と性能について検討した。 本研究では、乱数化SVDを用いることで、回路の1つに量子ビット制限を課すことで、可視性を向上させることができることを示す。 本研究では,脳組織に記録された局所場電位のシミュレーションと,重力波を初めて検出したgw150914を用いて,量子ssdを効率的に行う。

Classical data analysis requires computational efforts that become intractable in the age of Big Data. An essential task in time series analysis is the extraction of physically meaningful information from a noisy time series. One algorithm devised for this very purpose is singular spectrum decomposition (SSD), an adaptive method that allows for the extraction of narrow-banded components from non-stationary and non-linear time series. The main computational bottleneck of this algorithm is the singular value decomposition (SVD). Quantum computing could facilitate a speedup in this domain through superior scaling laws. We propose quantum SSD by assigning the SVD subroutine to a quantum computer. The viability for implementation and performance of this hybrid algorithm on a near term hybrid quantum computer is investigated. In this work we show that by employing randomised SVD, we can impose a qubit limit on one of the circuits to improve scalibility. Using this, we efficiently perform quantum SSD on simulations of local field potentials recorded in brain tissue, as well as GW150914, the first detected gravitational wave event.
翻訳日:2023-01-09 07:32:38 公開日:2022-12-17
# 複合輸送ダイバージェンスを用いたガウス混合低減

Gaussian Mixture Reduction with Composite Transportation Divergence ( http://arxiv.org/abs/2002.08410v3 )

ライセンス: Link先を確認
Qiong Zhang, Archer Gong Zhang, Jiahua Chen(参考訳) ガウス混合はほとんどの滑らかな密度関数を近似することができ、下流推論タスクを単純化するために用いられる。 そのため、密度推定、信念伝播、ベイズフィルタの用途で広く用いられている。 これらの応用において、有限ガウス混合は再帰的に更新される密度関数の初期近似を与える。 これらの再帰の課題は、ガウス混合の順序が指数関数的に増加し、推論がすぐに難解になることである。 この難しさを克服するために、高次ガウス混合を低次で近似したガウス混合還元を用いることができる。 クラスタリングベースのアプローチのような既存の手法は、その優れた性能と計算効率で有名である。 しかし、収束性や最適目標が不明である。 最適化に基づくガウス混合還元法を提案する。 数値計算のためのメジャー化最小化アルゴリズムを開発し,その理論収束を一般条件下で確立する。 既存のクラスタリングベース手法の多くが特別な場合であり,最適化ベース手法とクラスタリングベース手法のギャップを橋渡ししている。 この統一フレームワークにより、ユーザーは特定のアプリケーションで優れたパフォーマンスを達成するのに最適なコスト関数を選択できる。 提案手法の効率と有効性を広範な実験により実証する。

Gaussian mixtures can approximate almost any smooth density function and are used to simplify downstream inference tasks. As such, it is widely used in applications in density estimation, belief propagation, and Bayesian filtering. In these applications, a finite Gaussian mixture provides an initial approximation to density functions that are updated recursively. A challenge in these recursions is that the order of the Gaussian mixture increases exponentially, and the inference quickly becomes intractable. To overcome the difficulty, the Gaussian mixture reduction, which approximates a high order Gaussian mixture by one with a lower order, can be used. Existing methods such as the clustering-based approaches are renowned for their satisfactory performance and computationally efficiency. However, they have unknown convergence and optimal targets. We propose a novel optimization-based Gaussian mixture reduction method. We develop a majorization-minimization algorithm for its numerical computation and establish its theoretical convergence under general conditions. We show many existing clustering-based methods are special cases of ours, thus bridging the gap between optimization-based and clustering-based methods. The unified framework allows users to choose the most suitable cost function to achieve superior performance in their specific application. We demonstrate the efficiency and effectiveness of the proposed method through extensive empirical experiments.
翻訳日:2022-12-30 13:16:51 公開日:2022-12-17
# Balanced Split: 不均衡データセットのための新しいトレインテストデータ分割戦略

Balanced Split: A new train-test data splitting strategy for imbalanced datasets ( http://arxiv.org/abs/2212.11116v1 )

ライセンス: Link先を確認
Azal Ahmad Khan(参考訳) スクイード類比の分類データセットは不均衡と呼ばれる。 クラス不均衡は、ほとんどの機械学習分類アルゴリズムがトレーニングデータセット内のすべてのクラスの等式を仮定して構築されているため、問題である。 そのため、クラス不均衡問題に対処するため、多くのアルゴリズムレベルおよびデータレベルアプローチが開発されている。 これらは主にアンサンブル学習とデータ拡張技術を含む。 本稿では,バランス分割と呼ばれる新たなデータ分割戦略により,クラス不均衡問題に対処する方法を示す。 データ分割は、不均衡なデータセットを正しく分類する上で重要な役割を果たす。 提案手法では,データ分割戦略が不利であること,バランスの取れた分割がこれらの課題を解決したことを示す。

Classification data sets with skewed class proportions are called imbalanced. Class imbalance is a problem since most machine learning classification algorithms are built with an assumption of equal representation of all classes in the training dataset. Therefore to counter the class imbalance problem, many algorithm-level and data-level approaches have been developed. These mainly include ensemble learning and data augmentation techniques. This paper shows a new way to counter the class imbalance problem through a new data-splitting strategy called balanced split. Data splitting can play an important role in correctly classifying imbalanced datasets. We show that the commonly used data-splitting strategies have some disadvantages, and our proposed balanced split has solved those problems.
翻訳日:2022-12-22 15:22:06 公開日:2022-12-17
# 複雑系を用いた貯留層計算

Reservoir Computing Using Complex Systems ( http://arxiv.org/abs/2212.11141v1 )

ライセンス: Link先を確認
N. Rasha Shanaz, K. Murali, P. Muruganandam(参考訳) Reservoir Computingは、計算に物理システムを利用するための汎用的な選択肢である、新興の機械学習フレームワークである。 本稿では,単純な電子回路で構成した単一ノード貯留層を計算に利用し,物理貯留層の計算能力を向上させるための利用可能な選択肢について検討する。 貯留層としてのカオス発振器を用いた貯水池計算システムを構築した。 利用可能な2つのハイパーパラメータを選択して、貯水池の最適動作状態を見つけ、結果として2つの貯水池バージョンを得る。 2つの非カオス多項式の近似とロレンツ時系列のカオス軌道という3つの非時間的タスクにおける両貯水池の性能を比較する。 また,貯水池のハイパーパラメータと貯水池の予測能力において,物理系のダイナミクスが直接的に果たす役割を実証する。

Reservoir Computing is an emerging machine learning framework which is a versatile option for utilising physical systems for computation. In this paper, we demonstrate how a single node reservoir, made of a simple electronic circuit, can be employed for computation and explore the available options to improve the computational capability of the physical reservoirs. We build a reservoir computing system using a memristive chaotic oscillator as the reservoir. We choose two of the available hyperparameters to find the optimal working regime for the reservoir, resulting in two reservoir versions. We compare the performance of both the reservoirs in a set of three non-temporal tasks: approximating two non-chaotic polynomials and a chaotic trajectory of the Lorenz time series. We also demonstrate how the dynamics of the physical system plays a direct role in the reservoir's hyperparameters and hence in the reservoir's prediction ability.
翻訳日:2022-12-22 13:44:37 公開日:2022-12-17
# エンドツーエンド学習による参照表現セグメンテーションの完全化と弱化

Fully and Weakly Supervised Referring Expression Segmentation with End-to-End Learning ( http://arxiv.org/abs/2212.10278v1 )

ライセンス: Link先を確認
Hui Li, Mingjie Sun, Jimin Xiao, Eng Gee Lim, and Yao Zhao(参考訳) 対象を所定の言語表現に従ってローカライズし、セグメンテーションすることを目的とした参照表現セグメンテーション(res)が注目されている。 既存の手法では、両方のステップで融合した視覚的特徴と言語的特徴に依存する局所化とセグメンテーションのステップを共同で検討している。 オブジェクトを識別する目的とマスクを生成する目的との衝突は、RES性能を制限すると論じる。 この問題を解決するために, 位置ケネル・セグメンテーションの並列パイプラインを提案し, ローカライゼーションとセグメンテーションのステップを分離し, 相互作用させる。 我々のパイプラインでは、言語情報はセグメント化の視覚的特徴を直接汚染しない。 具体的には、ローカライズステップが参照表現に基づいて画像内の対象オブジェクトをローカライズし、ローカライズステップから得られた視覚カーネルがセグメンテーションステップを誘導する。 このパイプラインでは、ピクセルレベルのセグメンテーションラベルを中央およびコーナーポイントのクリックアノテーションに置き換える、弱い教師付き方法でresをトレーニングすることも可能です。 位置ヘッドは全監督され、クリックアノテーションを監督として訓練され、セグメンテーションヘッドは弱監督されたセグメンテーション損失で訓練される。 resベンチマークデータセット(refcoco、refcoco+、refcocog)をクリックアノテーションでアノテートした。この手法は単純だが驚くほど効果的で、完全かつ弱い教師付き設定で以前のresメソッドを上回っている。 ベンチマークコードとデータセットがリリースされる。

Referring Expression Segmentation (RES), which is aimed at localizing and segmenting the target according to the given language expression, has drawn increasing attention. Existing methods jointly consider the localization and segmentation steps, which rely on the fused visual and linguistic features for both steps. We argue that the conflict between the purpose of identifying an object and generating a mask limits the RES performance. To solve this problem, we propose a parallel position-kernel-segmentation pipeline to better isolate and then interact the localization and segmentation steps. In our pipeline, linguistic information will not directly contaminate the visual feature for segmentation. Specifically, the localization step localizes the target object in the image based on the referring expression, and then the visual kernel obtained from the localization step guides the segmentation step. This pipeline also enables us to train RES in a weakly-supervised way, where the pixel-level segmentation labels are replaced by click annotations on center and corner points. The position head is fully-supervised and trained with the click annotations as supervision, and the segmentation head is trained with weakly-supervised segmentation losses. To validate our framework on a weakly-supervised setting, we annotated three RES benchmark datasets (RefCOCO, RefCOCO+ and RefCOCOg) with click annotations.Our method is simple but surprisingly effective, outperforming all previous state-of-the-art RES methods on fully- and weakly-supervised settings by a large margin. The benchmark code and datasets will be released.
翻訳日:2022-12-21 16:33:16 公開日:2022-12-17
# n量子量子状態トモグラフィーのための計算効率の良いSVTを得るためのSVTの展開

Unrolling SVT to obtain computationally efficient SVT for n-qubit quantum state tomography ( http://arxiv.org/abs/2212.08852v1 )

ライセンス: Link先を確認
Siva Shanmugam, Sheetal Kalyani(参考訳) 量子状態トモグラフィー(quantum state tomography)は、状態の一連の測定値から、トレースされたハーミート正半定値複素行列(Hermitian positive semidefinite complex matrix)によって記述される量子力学系の状態を推定することを目的としている。 既存の研究は、圧縮センシングアプローチを用いて状態を表す密度行列を、真の状態が低いという仮定で、トモグラフィ的に完備な集合に必要なものよりも少ない測定で推定することに集中している。 状態を推定する非常に一般的な方法は、singular value thresholding (svt)アルゴリズムの使用である。 本研究では,Learred Quantum State Tomography (LQST) と呼ばれるSVTの繰り返しをアンロールすることで,n-qubit系の量子状態を推定する機械学習手法を提案する。 単にロールアウトしたSVTは、ネットワークの出力が量子状態に必要な制約を満たすことを保証しないため、必要な制約を満たすために、SVTのイテレーションからアーキテクチャにインスパイアされたカスタムニューラルネットワークを設計し、訓練する。 非常に少ない層を持つLQSTは, 収束に数百回の反復を要するSVTアルゴリズムよりもはるかに忠実に, 密度行列を再構成することを示した。 また、情報的に不完全な雑音測定から量子ベル状態の再構成を実証する。

Quantum state tomography aims to estimate the state of a quantum mechanical system which is described by a trace one, Hermitian positive semidefinite complex matrix, given a set of measurements of the state. Existing works focus on estimating the density matrix that represents the state, using a compressive sensing approach, with only fewer measurements than that required for a tomographically complete set, with the assumption that the true state has a low rank. One very popular method to estimate the state is the use of the Singular Value Thresholding (SVT) algorithm. In this work, we present a machine learning approach to estimate the quantum state of n-qubit systems by unrolling the iterations of SVT which we call Learned Quantum State Tomography (LQST). As merely unrolling SVT may not ensure that the output of the network meets the constraints required for a quantum state, we design and train a custom neural network whose architecture is inspired from the iterations of SVT with additional layers to meet the required constraints. We show that our proposed LQST with very few layers reconstructs the density matrix with much better fidelity than the SVT algorithm which takes many hundreds of iterations to converge. We also demonstrate the reconstruction of the quantum Bell state from an informationally incomplete set of noisy measurements.
翻訳日:2022-12-20 19:02:56 公開日:2022-12-17
# 確率勾配Descentによる確率ニューラルネットワークの学習収束解析

Convergence Analysis for Training Stochastic Neural Networks via Stochastic Gradient Descent ( http://arxiv.org/abs/2212.08924v1 )

ライセンス: Link先を確認
Richard Archibald, Feng Bao, Yanzhao Cao, Hui Sun(参考訳) 本稿では,確率的ニューラルネットワーク(snn)のクラスを学習するための新しいサンプルワイズバックプロパゲーション手法の収束を証明するために,数値解析を行う。 SNNの構造は確率微分方程式(SDE)の離散化として定式化される。 訓練手順をモデル化するために確率的最適制御フレームワークを導入し、snを訓練するためのバックプロパゲーションに相当する確率的最適制御ソルバの効率を向上させるために随伴後方sdeのサンプル回り近似スキームを適用する。 収束解析は、snパラメータの最適化のために凸性仮定なしで導出される。 特に,SNNのトレーニングステップの数は,凸最適化の場合のレイヤー数の2乗に比例すべきであることを示す。 解析結果を検証するために数値解析実験を行い、SNNのトレーニングのためのサンプルワイドバックプロパゲーション法の性能を機械学習のベンチマーク例で検証した。

In this paper, we carry out numerical analysis to prove convergence of a novel sample-wise back-propagation method for training a class of stochastic neural networks (SNNs). The structure of the SNN is formulated as discretization of a stochastic differential equation (SDE). A stochastic optimal control framework is introduced to model the training procedure, and a sample-wise approximation scheme for the adjoint backward SDE is applied to improve the efficiency of the stochastic optimal control solver, which is equivalent to the back-propagation for training the SNN. The convergence analysis is derived with and without convexity assumption for optimization of the SNN parameters. Especially, our analysis indicates that the number of SNN training steps should be proportional to the square of the number of layers in the convex optimization case. Numerical experiments are carried out to validate the analysis results, and the performance of the sample-wise back-propagation method for training SNNs is examined by benchmark machine learning examples.
翻訳日:2022-12-20 19:02:33 公開日:2022-12-17
# 説明人を信頼する: 説明可能な人工知能の教師によるコース設計の検証

Trusting the Explainers: Teacher Validation of Explainable Artificial Intelligence for Course Design ( http://arxiv.org/abs/2212.08955v1 )

ライセンス: Link先を確認
Vinitra Swamy, Sijia Du, Mirko Marras, Tanja K\"aser(参考訳) 学習分析のためのディープラーニングモデルはここ数年で人気が高まっているが、信頼と透明性の欠如により、実際の環境ではまだ広く採用されていない。 本稿では,ブラックボックスニューラルネットワークのための説明可能なAI手法を実装することでこの問題に対処する。 本研究は、オンライン学習とブレンド学習の文脈と、学生の成功予測モデルの使用事例に焦点を当てる。 ペアワイズ学習設計を用いて,コースのペア間の制御された差異を調査できる。 分析では,1つの教育的側面が異なる5つのコースペアと2つの一般的なインスタンスベースの説明可能なAI手法(LIMEとSHAP)を網羅した。 説明と方法の間の距離を定量的に比較する。 次に,大学レベルの教育者に対する26の半構造化インタビューを通じて,lime と shap の説明を検証し,学生の成功に最も寄与すると思われる機能,最も信頼できる説明,これらの洞察を実践可能なコースデザイン決定に転換する方法について検証した。 以上の結果から,どの説明が重要か,また質的に,専門家自身はどの説明がもっとも信頼に値するのかについて意見が一致しないことが示唆された。 すべてのコード、拡張された結果、およびインタビュープロトコルはhttps://github.com/epfl-ml4ed/trusting-explainersで提供される。

Deep learning models for learning analytics have become increasingly popular over the last few years; however, these approaches are still not widely adopted in real-world settings, likely due to a lack of trust and transparency. In this paper, we tackle this issue by implementing explainable AI methods for black-box neural networks. This work focuses on the context of online and blended learning and the use case of student success prediction models. We use a pairwise study design, enabling us to investigate controlled differences between pairs of courses. Our analyses cover five course pairs that differ in one educationally relevant aspect and two popular instance-based explainable AI methods (LIME and SHAP). We quantitatively compare the distances between the explanations across courses and methods. We then validate the explanations of LIME and SHAP with 26 semi-structured interviews of university-level educators regarding which features they believe contribute most to student success, which explanations they trust most, and how they could transform these insights into actionable course design decisions. Our results show that quantitatively, explainers significantly disagree with each other about what is important, and qualitatively, experts themselves do not agree on which explanations are most trustworthy. All code, extended results, and the interview protocol are provided at https://github.com/epfl-ml4ed/trusting-explainers.
翻訳日:2022-12-20 19:02:17 公開日:2022-12-17
# 縦型強化学習を用いたネットワーク型マイクログリッドのサイバーレジリエンス向上

Enhancing Cyber Resilience of Networked Microgrids using Vertical Federated Reinforcement Learning ( http://arxiv.org/abs/2212.08973v1 )

ライセンス: Link先を確認
Sayak Mukherjee, Ramij R. Hossain, Yuan Liu, Wei Du, Veronica Adetola, Sheik M. Mohiuddin, Qiuhua Huang, Tianzhixi Yin, Ankit Singhal(参考訳) 本稿では,ネットワーク型マイクログリッドのサイバーレジリエンスを高めるための新しいfederated reinforcement learning (fed-rl)手法を提案する。 弾力性強化学習(RL)トレーニングを定式化する。 (a)グリッド形成(gfm)インバータの一次制御基準信号に逆作用を注入するエピソディック軌跡を生成し、 b) RLエージェント(またはコントローラ)を訓練して、注入された敵の影響を軽減する。 マルチパーティ所有のネットワークグリッドにおけるデータ共有の問題とプライバシに関する懸念を回避するため、フェデレーション機械学習の側面を導入し、RLエージェントをトレーニングするための新しいFed-RLアルゴリズムを提案する。 この目的のために,分散独立環境を用いた従来の水平フェデレーションrl手法では,ネットワーク型マイクログリッドの結合ダイナミクスを捉えられず,マルチエージェントの縦型フェデレートアルゴリズムであるfederated soft actor-critic (fedsac) アルゴリズムを提案する。 rlエージェントをトレーニングするためのopenai gymインターフェースと互換性のあるgridlab-d/helics共シミュレーションプラットフォームに,マイクログリッドダイナミクスをカプセル化するカスタムシミュレーションセットアップを作成した。 最後に、提案手法を3つの結合マイクログリッドからなるieee 123-busベンチマークテストシステムの数値例で検証する。

This paper presents a novel federated reinforcement learning (Fed-RL) methodology to enhance the cyber resiliency of networked microgrids. We formulate a resilient reinforcement learning (RL) training setup which (a) generates episodic trajectories injecting adversarial actions at primary control reference signals of the grid forming (GFM) inverters and (b) trains the RL agents (or controllers) to alleviate the impact of the injected adversaries. To circumvent data-sharing issues and concerns for proprietary privacy in multi-party-owned networked grids, we bring in the aspects of federated machine learning and propose a novel Fed-RL algorithm to train the RL agents. To this end, the conventional horizontal Fed-RL approaches using decoupled independent environments fail to capture the coupled dynamics in a networked microgrid, which leads us to propose a multi-agent vertically federated variation of actor-critic algorithms, namely federated soft actor-critic (FedSAC) algorithm. We created a customized simulation setup encapsulating microgrid dynamics in the GridLAB-D/HELICS co-simulation platform compatible with the OpenAI Gym interface for training RL agents. Finally, the proposed methodology is validated with numerical examples of modified IEEE 123-bus benchmark test systems consisting of three coupled microgrids.
翻訳日:2022-12-20 19:01:52 公開日:2022-12-17
# オンライン制御実験における大規模アサイン実験

Assign Experiment Variants at Scale in Online Controlled Experiments ( http://arxiv.org/abs/2212.08771v1 )

ライセンス: Link先を確認
Qike Li, Samir Jamkhande, Pavel Kochetkov, Pai Liu(参考訳) オンライン制御実験(A/Bテスト)は、テクノロジー企業における新製品機能の影響を学ぶための金の標準となっている。 ランダム化はA/Bテストから因果関係の推論を可能にする。 ランダム化された割り当ては、エンドユーザを実験バケットにマップし、グループ間のユーザ特性のバランスをとる。 したがって、実験は実験グループ間の結果の相違を製品の特徴とみなすことができる。 テクノロジー企業は大規模にA/Bテストを実行します -- 数千、あるいは数千のA/Bテストを同時に実行します。 大規模化はランダム化にユニークな課題をもたらす。 第一に、実験サービスが毎秒数十万のクエリを受け取るため、ランダム化された割り当ては高速でなければならない。 第二に、変種割り当ては実験ごとに独立でなければならない。 第三に、ユーザーが再訪したり実験を行ったりする際には、割り当ては一貫していなければならない。 本稿では,ランダム割当を検証するための新しい割当アルゴリズムと統計テストを提案する。 その結果, このアルゴリズムは計算速度が速いだけでなく, 偏りのない, 独立な統計条件を満たすことがわかった。

Online controlled experiments (A/B tests) have become the gold standard for learning the impact of new product features in technology companies. Randomization enables the inference of causality from an A/B test. The randomized assignment maps end users to experiment buckets and balances user characteristics between the groups. Therefore, experiments can attribute any outcome differences between the experiment groups to the product feature under experiment. Technology companies run A/B tests at scale -- hundreds if not thousands of A/B tests concurrently, each with millions of users. The large scale poses unique challenges to randomization. First, the randomized assignment must be fast since the experiment service receives hundreds of thousands of queries per second. Second, the variant assignments must be independent between experiments. Third, the assignment must be consistent when users revisit or an experiment enrolls more users. We present a novel assignment algorithm and statistical tests to validate the randomized assignments. Our results demonstrate that not only is this algorithm computationally fast but also satisfies the statistical requirements -- unbiased and independent.
翻訳日:2022-12-20 18:43:05 公開日:2022-12-17
# グラフニューラルネットワークを用いたMANETのトラフィック解析

Analyzing the Traffic of MANETs using Graph Neural Networks ( http://arxiv.org/abs/2212.08923v1 )

ライセンス: Link先を確認
Taha Tekdogan(参考訳) グラフ構造データに対する表現力のおかげで、グラフニューラルネットワーク(gnn)が多くの領域で役割を担っている。 一方,モバイルアドホックネットワーク(MANET)は,ネットワーク技術が5Gレベルに引き上げられ,注目を集めている。 しかし、MANET上でのGNNの効率を評価する研究は存在しない。 本研究では、PyTorch Geometric(PyTorch Geometric)という人気のGNNフレームワークでMANETデータセットを実装し、MANETのトラフィックを分析するためにどのようにGNNを利用するかを示す。 我々は、グラフSAGE(SAG)モデルを用いてデータセット上でエッジ予測タスクを運用し、SAGモデルは2つのノード間のリンクが存在するかどうかを予測しようとする。 我々は、MANETにおけるGNNの性能と効率を測定するために、いくつかの評価指標を解釈する。 SAGモデルは実験で平均82.1の精度を示した。

Graph Neural Networks (GNNs) have been taking role in many areas, thanks to their expressive power on graph-structured data. On the other hand, Mobile Ad-Hoc Networks (MANETs) are gaining attention as network technologies have been taken to the 5G level. However, there is no study that evaluates the efficiency of GNNs on MANETs. In this study, we aim to fill this absence by implementing a MANET dataset in a popular GNN framework, i.e., PyTorch Geometric; and show how GNNs can be utilized to analyze the traffic of MANETs. We operate an edge prediction task on the dataset with GraphSAGE (SAG) model, where SAG model tries to predict whether there is a link between two nodes. We construe several evaluation metrics to measure the performance and efficiency of GNNs on MANETs. SAG model showed 82.1 accuracy on average in the experiments.
翻訳日:2022-12-20 18:42:51 公開日:2022-12-17
# 複合的対話行動のためのカスケード構成残差学習

Cascaded Compositional Residual Learning for Complex Interactive Behaviors ( http://arxiv.org/abs/2212.08954v1 )

ライセンス: Link先を確認
K. Niranjan Kumar and Irfan Essa and Sehoon Ha(参考訳) 現実の自律ミッションは、ドアやスイッチなどの近くの物体とのリッチな相互作用と効果的なナビゲーションを必要とすることが多い。 しかし、そのような複雑な行動は高レベル計画と低レベルモータ制御の両方を含むため、学習が困難である。 本稿では,以前に学習した制御ポリシのライブラリを再活用することにより,合成スキルを学習する新しいフレームワークCCRLを提案する。 本フレームワークは,前提条件を凍結しながら,乗法的ポリシー構成,タスク固有の残留行動,および合成目標情報を同時に学習する。 残留動作を規則化することにより、運動のスタイルをさらに明示的に制御する。 本フレームワークは,障害物回避,物体の押下,テーブルの下をクロールする,ドアを脚で開ける,開閉するなど,基本的な移動から複雑な対話的ナビゲーションに至るまで,さまざまな運動スキルのジョイントレベル制御ポリシを学習する。 提案したCCRLフレームワークは、一貫したスタイルと低い関節トルクを持つポリシーを導いており、追加の微調整をせずに本物のUnitree A1ロボットに転送することに成功している。

Real-world autonomous missions often require rich interaction with nearby objects, such as doors or switches, along with effective navigation. However, such complex behaviors are difficult to learn because they involve both high-level planning and low-level motor control. We present a novel framework, Cascaded Compositional Residual Learning (CCRL), which learns composite skills by recursively leveraging a library of previously learned control policies. Our framework learns multiplicative policy composition, task-specific residual actions, and synthetic goal information simultaneously while freezing the prerequisite policies. We further explicitly control the style of the motion by regularizing residual actions. We show that our framework learns joint-level control policies for a diverse set of motor skills ranging from basic locomotion to complex interactive navigation, including navigating around obstacles, pushing objects, crawling under a table, pushing a door open with its leg, and holding it open while walking through it. The proposed CCRL framework leads to policies with consistent styles and lower joint torques, which we successfully transfer to a real Unitree A1 robot without any additional fine-tuning.
翻訳日:2022-12-20 18:42:35 公開日:2022-12-17
# ロボット評価のための訓練ロボット:政策学習のための事例ベースインタラクティブリワード機能

Training Robots to Evaluate Robots: Example-Based Interactive Reward Functions for Policy Learning ( http://arxiv.org/abs/2212.08961v1 )

ライセンス: Link先を確認
Kun Huang, Edward S. Hu, Dinesh Jayaraman(参考訳) 物理的相互作用は、しばしば容易には明らかでない情報を明らかにするのに役立つ。 例えば、テーブルの脚を引っ張って、それがうまく構築されているかどうかを評価したり、ボトルを逆さまに回して、水密であることを確認したりできます。 そこで本研究では,このような対話的行動を自動的に獲得するロボットを訓練し,ロボットのスキル実行実験の結果を評価することを提案する。 これらの評価は、テーブル脚をしっかりねじるなどの目標スキルを実行するための強化学習ポリシーを訓練するための「インタラクティブ報酬機能」(IRF)として機能する。 さらに、タスクポリシーが完全に訓練された後も、IRFはオンラインタスク実行を改善する検証メカニズムとして機能する。 任意のタスクに対して、我々のIRFは、成功した結果の例のみを使用して便利なトレーニングを行うことができ、その後のタスクポリシーのトレーニングには、それ以上の仕様は必要ない。 シミュレーションにおけるドアロックと重み付けブロックの積み重ね、および実際のロボットのねじ締め付けに関する評価において、IRFは、デモへのアクセスや慎重にエンジニアリングされた報酬により、ベースラインよりも優れたパフォーマンスを実現している。 プロジェクトウェブサイト: https://sites.google.com/view/lirf-corl-2022/

Physical interactions can often help reveal information that is not readily apparent. For example, we may tug at a table leg to evaluate whether it is built well, or turn a water bottle upside down to check that it is watertight. We propose to train robots to acquire such interactive behaviors automatically, for the purpose of evaluating the result of an attempted robotic skill execution. These evaluations in turn serve as "interactive reward functions" (IRFs) for training reinforcement learning policies to perform the target skill, such as screwing the table leg tightly. In addition, even after task policies are fully trained, IRFs can serve as verification mechanisms that improve online task execution. For any given task, our IRFs can be conveniently trained using only examples of successful outcomes, and no further specification is needed to train the task policy thereafter. In our evaluations on door locking and weighted block stacking in simulation, and screw tightening on a real robot, IRFs enable large performance improvements, even outperforming baselines with access to demonstrations or carefully engineered rewards. Project website: https://sites.google.com/view/lirf-corl-2022/
翻訳日:2022-12-20 18:42:15 公開日:2022-12-17
# ポイントゴールナビゲーションにおけるモデルフリーとモデルベース学習インフォームドプランニングの比較

Comparison of Model-Free and Model-Based Learning-Informed Planning for PointGoal Navigation ( http://arxiv.org/abs/2212.08801v1 )

ライセンス: Link先を確認
Yimeng Li, Arnab Debnath, Gregory J. Stein, and Jana Kosecka(参考訳) 近年,未確認環境におけるゴールナビゲーションを指差す学習手法が提案されている。 それらは環境の表現、問題分解、実験的な評価によって異なる。 本研究では,最先端のDeep Reinforcement Learningに基づくアプローチと,ポイントゴールナビゲーション問題に対する部分観測可能なマルコフ決定プロセス(POMDP)を比較した。 本稿では,画像のセマンティックセグメンテーションから構築した屋内シーンのセマンティックマップを用いて,フロンティア特性を推定するコンポーネントを[1]で提案したサブゴールフレームワーク(POMDP)に適応させる。 モデルベースアプローチの周知の完全性に加えて、フロンティアの有益で学習された特性を楽観的なフロンティアベースのプランナーと比較して活用する上で、堅牢で効率的であることを実証する。 また,エンド・ツー・エンドの深層強化学習手法と比較して,そのデータ効率を示す。 本研究では,Habitat Simulator を用いた Matterport3D データセット上で,楽観的なプランナーである ANS と DD-PPO を比較した。 我々は、SOTA DD-PPOアプローチよりも若干パフォーマンスが劣るが、データが少ないことを示す。

In recent years several learning approaches to point goal navigation in previously unseen environments have been proposed. They vary in the representations of the environments, problem decomposition, and experimental evaluation. In this work, we compare the state-of-the-art Deep Reinforcement Learning based approaches with Partially Observable Markov Decision Process (POMDP) formulation of the point goal navigation problem. We adapt the (POMDP) sub-goal framework proposed by [1] and modify the component that estimates frontier properties by using partial semantic maps of indoor scenes built from images' semantic segmentation. In addition to the well-known completeness of the model-based approach, we demonstrate that it is robust and efficient in that it leverages informative, learned properties of the frontiers compared to an optimistic frontier-based planner. We also demonstrate its data efficiency compared to the end-to-end deep reinforcement learning approaches. We compare our results against an optimistic planner, ANS and DD-PPO on Matterport3D dataset using the Habitat Simulator. We show comparable, though slightly worse performance than the SOTA DD-PPO approach, yet with far fewer data.
翻訳日:2022-12-20 18:35:41 公開日:2022-12-17
# 形状認識による関心領域の自動分割

Shape Aware Automatic Region-of-Interest Subdivisions ( http://arxiv.org/abs/2212.08810v1 )

ライセンス: Link先を確認
Timothy L. Kline(参考訳) 様々な分野において、画像の分析は領域を定義し、その固有の特性を測定する。 このような測定には、領域の表面積、曲率、体積、平均グレーと/またはカラースケールなどが含まれる。 さらに、これらの領域のその後の区分も行われることがある。 これらの区分は、さらに微細なスケールで局所的な情報を測定するために使われる。 しかし、単純なグリッドや手作業による編集は、通常、領域を小さな単位に分割するために使われる。 したがって、結果として生じる部分分割は、研究対象領域の実際の形状や特性(グリッド化法)とうまく関係しないか、あるいはユーザの主観性(つまり手動法)に基づいて時間を要するかのいずれかである。 本研究で論じる方法は,領域の一般的な形状情報に基づいて分割単位を抽出する。 本研究は, 心筋血流の経時的および/または空間的不均質性を研究するために, 心筋壁の異所性領域の医用画像解析に本手法を適用した結果である。 この方法は、特定の領域をサブユニットに分けるために、領域内の変動強度やその他の基準が必要ない場合に、関心領域(SROI)を作成することに特に関心がある。

In a wide variety of fields, analysis of images involves defining a region and measuring its inherent properties. Such measurements include a region's surface area, curvature, volume, average gray and/or color scale, and so on. Furthermore, the subsequent subdivision of these regions is sometimes performed. These subdivisions are then used to measure local information, at even finer scales. However, simple griding or manual editing methods are typically used to subdivide a region into smaller units. The resulting subdivisions can therefore either not relate well to the actual shape or property of the region being studied (i.e., gridding methods), or be time consuming and based on user subjectivity (i.e., manual methods). The method discussed in this work extracts subdivisional units based on a region's general shape information. We present the results of applying our method to the medical image analysis of nested regions-of-interest of myocardial wall, where the subdivisions are used to study temporal and/or spatial heterogeneity of myocardial perfusion. This method is of particular interest for creating subdivision regions-of-interest (SROIs) when no variable intensity or other criteria within a region need be used to separate a particular region into subunits.
翻訳日:2022-12-20 18:35:21 公開日:2022-12-17
# AdaTranS: 終端音声翻訳のための境界ベースシンキングに適応する

AdaTranS: Adapting with Boundary-based Shrinking for End-to-End Speech Translation ( http://arxiv.org/abs/2212.08911v1 )

ライセンス: Link先を確認
Xingshan Zeng, Liangyou Li and Qun Liu(参考訳) エンドツーエンドの音声翻訳(ST)におけるデータ不足を緩和するため、音声認識や機械翻訳のためのデータの事前学習が重要である。 しかし、音声とテキストのモーダリティギャップは、stモデルが事前学習したモデルから知識を効率的に継承することを妨げる。 そこで本研究では,音声特徴量に新たな縮小機構を適用し,単語境界を推定することにより,音声特徴量とテキスト特徴量の長さミスマッチを緩和する手法を提案する。 MUST-Cデータセットの実験では、AdaTranSは他の縮小ベースの手法よりもパフォーマンスが向上し、推論速度が向上し、メモリ使用量が削減された。 さらなる実験により、AdaTranSはさらなるアライメント損失を装備でき、さらなる性能向上が期待できる。

To alleviate the data scarcity problem in End-to-end speech translation (ST), pre-training on data for speech recognition and machine translation is considered as an important technique. However, the modality gap between speech and text prevents the ST model from efficiently inheriting knowledge from the pre-trained models. In this work, we propose AdaTranS for end-to-end ST. It adapts the speech features with a new shrinking mechanism to mitigate the length mismatch between speech and text features by predicting word boundaries. Experiments on the MUST-C dataset demonstrate that AdaTranS achieves better performance than the other shrinking-based methods, with higher inference speed and lower memory usage. Further experiments also show that AdaTranS can be equipped with additional alignment losses to further improve performance.
翻訳日:2022-12-20 18:25:44 公開日:2022-12-17
# ニューラルネットワーク翻訳による再ターゲット型デコンパイル

Beyond the C: Retargetable Decompilation using Neural Machine Translation ( http://arxiv.org/abs/2212.08950v1 )

ライセンス: Link先を確認
Iman Hosseini, Brendan Dolan-Gavitt(参考訳) コンパイルプロセスの反転という問題は、コンピュータソフトウェアのリバースエンジニアリングにおいて重要なツールである。 近年,神経機械翻訳による非コンパイル処理の自動化手法が提案されている。 このようなテクニックは、幅広いソースおよびアセンブリ言語をターゲットにする約束を持っているが、これまでは主にCコードをターゲットにしてきた。 本稿では,既存のニューラルデコンパイラは,ソースコードの抽象構文木(AST)を構築するために,トークン化やパーザなどの言語固有のドメイン知識を必要とするコストで高い精度を実現し,新しい言語のサポートのオーバーヘッドを増大させていることを論じる。 我々は、可能な限り、アセンブリとソース言語をプレーンテキストとして扱い、新しい言語に容易に再ターゲティング可能なデコンパイラを構築することができることを示す、異なるトレードオフを探究する。 我々は、c(btc)を超えて、go、fortran、ocaml、c上でのプロトタイプの逆コンパイラを評価し、トークン化やトレーニングデータ選択といったパラメータが逆コンパイルの品質に与える影響を調べ、ドメイン知識が大幅に少ないニューラルネットワークの逆コンパイルにおいて、同等の逆コンパイル結果が得られることを発見した。 トレーニングデータ、トレーニングされた逆コンパイルモデル、そして将来の言語に依存しない逆コンパイルの研究を促進するコードをリリースします。

The problem of reversing the compilation process, decompilation, is an important tool in reverse engineering of computer software. Recently, researchers have proposed using techniques from neural machine translation to automate the process in decompilation. Although such techniques hold the promise of targeting a wider range of source and assembly languages, to date they have primarily targeted C code. In this paper we argue that existing neural decompilers have achieved higher accuracy at the cost of requiring language-specific domain knowledge such as tokenizers and parsers to build an abstract syntax tree (AST) for the source language, which increases the overhead of supporting new languages. We explore a different tradeoff that, to the extent possible, treats the assembly and source languages as plain text, and show that this allows us to build a decompiler that is easily retargetable to new languages. We evaluate our prototype decompiler, Beyond The C (BTC), on Go, Fortran, OCaml, and C, and examine the impact of parameters such as tokenization and training data selection on the quality of decompilation, finding that it achieves comparable decompilation results to prior work in neural decompilation with significantly less domain knowledge. We will release our training data, trained decompilation models, and code to help encourage future research into language-agnostic decompilation.
翻訳日:2022-12-20 18:25:28 公開日:2022-12-17
# 時間変化ネットワークにおける変化点検出のための潜時進化モデル

Latent Evolution Model for Change Point Detection in Time-varying Networks ( http://arxiv.org/abs/2212.08818v1 )

ライセンス: Link先を確認
Yongshun Gong, Xue Dong, Jian Zhang, Meng Chen(参考訳) グラフに基づく変化点検出(cpd)は、時変ネットワークにおける異常なグラフの発見に不必要な役割を果たす。 対象のネットワークと先行するネットワークの間に有意な差があるかどうかを判断し,変化点を検出する手法が提案されているが,ネットワークの自然進化は無視されている。 実際には、ソーシャルネットワーク、トラフィックネットワーク、レーティングネットワークといった現実世界のグラフは、時間とともに常に進化している。 本稿では,この問題を予測課題として扱うとともに,潜在進化モデルを用いた動的グラフの新しいCPD手法を提案する。 本手法は,ネットワークの低次元表現を学習し,これらの学習された潜在表現の進化パターンを同時に捉えることに焦点を当てる。 進化するパターンを有すると、ターゲットネットワークの予測が可能になる。 そして,予測ネットワークと従来のネットワークから抽出した正規グラフパターンとの重要性のバランスをとるトレードオフ戦略を利用して,予測と実際のネットワークを比較して変化点を検出する。 総合データと実世界データの両方で実施した集中実験は,モデルの有効性と優越性を示している。

Graph-based change point detection (CPD) play an irreplaceable role in discovering anomalous graphs in the time-varying network. While several techniques have been proposed to detect change points by identifying whether there is a significant difference between the target network and successive previous ones, they neglect the natural evolution of the network. In practice, real-world graphs such as social networks, traffic networks, and rating networks are constantly evolving over time. Considering this problem, we treat the problem as a prediction task and propose a novel CPD method for dynamic graphs via a latent evolution model. Our method focuses on learning the low-dimensional representations of networks and capturing the evolving patterns of these learned latent representations simultaneously. After having the evolving patterns, a prediction of the target network can be achieved. Then, we can detect the change points by comparing the prediction and the actual network by leveraging a trade-off strategy, which balances the importance between the prediction network and the normal graph pattern extracted from previous networks. Intensive experiments conducted on both synthetic and real-world datasets show the effectiveness and superiority of our model.
翻訳日:2022-12-20 18:16:00 公開日:2022-12-17
# 米国における新型コロナウイルス予報のための排水モニタリングの活用 : 深層学習による研究

Leveraging Wastewater Monitoring for COVID-19 Forecasting in the US: a Deep Learning study ( http://arxiv.org/abs/2212.08798v1 )

ライセンス: Link先を確認
Mehrdad Fazli, Heman Shakeri(参考訳) 2019年末の新型コロナウイルス(COVID-19)の流行は、世界が震え上がり、続く数年で数百万人の命を奪った健康危機の始まりだった。 多くの政府や保健当局は、彼らのコミュニティにおける急速な感染の循環を逮捕できなかった。 長いインキュベーション期間と無症候性症例の多さにより、特に追跡が困難になった。 しかし, 廃水モニタリングは, 日常の確認, 入院, 死亡などの従来の指標に加えて, すぐさま有望なデータ源となった。 廃水ウイルス負荷データの有効性に関するコンセンサスにもかかわらず、新型コロナウイルスの予測を改善するためにウイルス負荷を利用する方法論的アプローチが欠如している。 本稿では,深層学習を用いて1日当たりの感染者数とウイルス負荷データの関係を自動的に把握する手法を提案する。 我々は、グローバルな予測モデルを構築するために、Deep Temporal Convolutional Networks(DeepTCN)とTFT(Temporal Fusion Transformer)モデルを1つトレーニングした。 ウイルス負荷などの社会経済的要因をモデルとの共変量として日常的に確認した症例を補足する。 以上の結果から,TFTはDeepTCNより優れ,ウイルス負荷と日常症例の関連性が良好であることが示唆された。 バイラル負荷でモデルに装着すると予測性能が大幅に向上することを示した。 さらに、ウイルスの負荷は封じ込めと健康指数に次いで第2の予測入力であることが示されている。 本研究は, 廃水ウイルス負荷データ提供時の感染拡散のダイナミクスを捉えるために, 位置非依存型ディープラーニングモデルを訓練することの可能性を明らかにする。

The outburst of COVID-19 in late 2019 was the start of a health crisis that shook the world and took millions of lives in the ensuing years. Many governments and health officials failed to arrest the rapid circulation of infection in their communities. The long incubation period and the large proportion of asymptomatic cases made COVID-19 particularly elusive to track. However, wastewater monitoring soon became a promising data source in addition to conventional indicators such as confirmed daily cases, hospitalizations, and deaths. Despite the consensus on the effectiveness of wastewater viral load data, there is a lack of methodological approaches that leverage viral load to improve COVID-19 forecasting. This paper proposes using deep learning to automatically discover the relationship between daily confirmed cases and viral load data. We trained one Deep Temporal Convolutional Networks (DeepTCN) and one Temporal Fusion Transformer (TFT) model to build a global forecasting model. We supplement the daily confirmed cases with viral loads and other socio-economic factors as covariates to the models. Our results suggest that TFT outperforms DeepTCN and learns a better association between viral load and daily cases. We demonstrated that equipping the models with the viral load improves their forecasting performance significantly. Moreover, viral load is shown to be the second most predictive input, following the containment and health index. Our results reveal the feasibility of training a location-agnostic deep-learning model to capture the dynamics of infection diffusion when wastewater viral load data is provided.
翻訳日:2022-12-20 18:09:57 公開日:2022-12-17
# 視覚強化学習のための事前学習画像エンコーダ

Pre-Trained Image Encoder for Generalizable Visual Reinforcement Learning ( http://arxiv.org/abs/2212.08860v1 )

ライセンス: Link先を確認
Zhecheng Yuan, Zhengrong Xue, Bo Yuan, Xueqian Wang, Yi Wu, Yang Gao, Huazhe Xu(参考訳) 視覚強化学習(RL)では、目に見えない環境に適応できる一般化可能な政策の学習が依然として困難である。 既存のアプローチは、よりよい一般化のためにドメイン内観測の外観を多様化することで、堅牢な表現を得ようとしている。 環境の特定の観測によって制限されたこれらの手法は、多様な現実世界の画像データセットを探索する可能性を無視する。 本稿では,視覚的RLエージェントが市販の視覚表現からどのような恩恵を受けるかを検討する。 驚いたことに、imagenetで事前トレーニングされたresnetモデルの初期レイヤは、visual rlにかなり一般化された表現を提供することができる。 そこで本稿では,ゼロショット方式で未知の視覚シナリオに一般化可能な,シンプルかつ効果的なフレームワークである汎用視覚強化学習(PIE-G)のための事前学習画像エンコーダを提案する。 PIE-Gの有効性を検証するため, DMControl Generalization Benchmark, DMControl Manipulation Tasks, Drawer World, CARLAで大規模な実験を行った。 実証的な証拠は、PIE-Gがサンプル効率を向上し、一般化性能の点で従来の最先端手法を著しく上回っていることを示している。 特にpie-gは、挑戦的なビデオ背景設定で平均55%のパフォーマンス向上を誇っている。 プロジェクトページ: https://sites.google.com/view/pie-g/home.com

Learning generalizable policies that can adapt to unseen environments remains challenging in visual Reinforcement Learning (RL). Existing approaches try to acquire a robust representation via diversifying the appearances of in-domain observations for better generalization. Limited by the specific observations of the environment, these methods ignore the possibility of exploring diverse real-world image datasets. In this paper, we investigate how a visual RL agent would benefit from the off-the-shelf visual representations. Surprisingly, we find that the early layers in an ImageNet pre-trained ResNet model could provide rather generalizable representations for visual RL. Hence, we propose Pre-trained Image Encoder for Generalizable visual reinforcement learning (PIE-G), a simple yet effective framework that can generalize to the unseen visual scenarios in a zero-shot manner. Extensive experiments are conducted on DMControl Generalization Benchmark, DMControl Manipulation Tasks, Drawer World, and CARLA to verify the effectiveness of PIE-G. Empirical evidence suggests PIE-G improves sample efficiency and significantly outperforms previous state-of-the-art methods in terms of generalization performance. In particular, PIE-G boasts a 55% generalization performance gain on average in the challenging video background setting. Project Page: https://sites.google.com/view/pie-g/home.
翻訳日:2022-12-20 18:09:32 公開日:2022-12-17
# フェデレーションハイパーパラメータチューニングにおけるノイズ評価について

On Noisy Evaluation in Federated Hyperparameter Tuning ( http://arxiv.org/abs/2212.08930v1 )

ライセンス: Link先を確認
Kevin Kuo, Pratiksha Thaker, Mikhail Khodak, John Ngyuen, Daniel Jiang, Ameet Talwalkar, Virginia Smith(参考訳) ハイパーパラメータチューニングは、連合学習アプリケーションの成功に不可欠である。 残念なことに、ハイパーパラメータを適切に選択することは、フェデレーションネットワークでは難しい。 スケール,プライバシ,不均一性の問題はチューニングプロセスにノイズを導入し,様々なハイパーパラメータの性能評価を困難にする。 本研究では,フェデレートハイパーパラメータチューニングにおけるノイズ評価の効果について,最初の体系的検討を行った。 まず、クライアントサブサンプリング、データとシステムの不均一性、データプライバシなど、重要なノイズ源を特定し、厳密に調査する。 意外なことに,本研究の結果は,少ないノイズでもチューニング手法に大きく影響しうることを示唆している。 このようなシナリオにおけるノイズ評価に対処するために,公開プロキシデータを利用して評価信号を強化する,シンプルで効果的な手法を提案する。 私たちの研究は、フェデレーションハイパーパラメータチューニングにおける将来の作業のための一般的な課題、ベースライン、ベストプラクティスを確立します。

Hyperparameter tuning is critical to the success of federated learning applications. Unfortunately, appropriately selecting hyperparameters is challenging in federated networks. Issues of scale, privacy, and heterogeneity introduce noise in the tuning process and make it difficult to evaluate the performance of various hyperparameters. In this work, we perform the first systematic study on the effect of noisy evaluation in federated hyperparameter tuning. We first identify and rigorously explore key sources of noise, including client subsampling, data and systems heterogeneity, and data privacy. Surprisingly, our results indicate that even small amounts of noise can significantly impact tuning methods-reducing the performance of state-of-the-art approaches to that of naive baselines. To address noisy evaluation in such scenarios, we propose a simple and effective approach that leverages public proxy data to boost the evaluation signal. Our work establishes general challenges, baselines, and best practices for future work in federated hyperparameter tuning.
翻訳日:2022-12-20 18:09:10 公開日:2022-12-17
# フェデレートラーニングのデータの均一性に向けて

Toward Data Heterogeneity of Federated Learning ( http://arxiv.org/abs/2212.08944v1 )

ライセンス: Link先を確認
Yuchuan Huang, Chen Hu(参考訳) フェデレーション学習は機械学習の一般的なパラダイムである。 理想的には、連合学習は、すべてのクライアントが同様のデータ分散を共有する場合に最も効果的である。 しかし、必ずしも現実の世界ではそうではない。 そのため,ヘテロジニアスデータにおけるフェデレート学習の話題は,学界と産業界の両方からますます注目を浴びている。 このプロジェクトでは、まず、データスキューと量スキューが、最先端のフェデレーション学習アルゴリズムの性能にどのように影響するかを示す広範な実験を行う。 次に,既存のフェデレーション学習アルゴリズムを調整する新しいアルゴリズムfeedmixを提案し,その性能を示す。 既存のFedProxやFedNovaのような最先端のアルゴリズムは、すべてのテストケースで大幅に改善されていない。 しかし、既存のアルゴリズムと新しいアルゴリズムをテストすることによって、クライアントサイドの微調整は、サーバサイドの微調整よりも効果的に思える。

Federated learning is a popular paradigm for machine learning. Ideally, federated learning works best when all clients share a similar data distribution. However, it is not always the case in the real world. Therefore, the topic of federated learning on heterogeneous data has gained more and more effort from both academia and industry. In this project, we first do extensive experiments to show how data skew and quantity skew will affect the performance of state-of-art federated learning algorithms. Then we propose a new algorithm FedMix which adjusts existing federated learning algorithms and we show its performance. We find that existing state-of-art algorithms such as FedProx and FedNova do not have a significant improvement in all testing cases. But by testing the existing and new algorithms, it seems that tweaking the client side is more effective than tweaking the server side.
翻訳日:2022-12-20 18:08:55 公開日:2022-12-17
# 不均一多孔質媒質中の溶質輸送のための周期活性化機能を有する物理インフォームニューラルネットワーク

Physics-informed Neural Networks with Periodic Activation Functions for Solute Transport in Heterogeneous Porous Media ( http://arxiv.org/abs/2212.08965v1 )

ライセンス: Link先を確認
Salah A Faroughi, Pingki Datta, Seyed Kourosh Mahjour, Shirko Faroughi(参考訳) 多孔質媒質中の溶質輸送は、水文地質学、地熱エネルギー、地下CO2貯蔵および様々な化学工学システムにおける幅広い応用に関係している。 不均一多孔質媒体における溶質輸送の複雑さのため、従来の解法は高分解能メッシュ化を必要とするため、計算コストが高い。 本研究では, 深層学習に基づくメッシュフリー手法を適用し, 溶質輸送のシミュレーションを高速化する。 我々は物理インフォームドニューラルネットワーク (PiNN) を用いて, 対流拡散方程式によって支配される同質および異質多孔質媒質中の溶質輸送問題を解く。 大規模なトレーニングデータセットから学習する従来のニューラルネットワークとは異なり、PiNNは強い形式の数学的モデルを利用して、複数の依存または独立したフィールド変数(例えば、圧力と溶質濃度場)を同時に解決する。 本研究では, 周期的活性化関数を用いてpinnを構築し, 複雑な物理信号(圧力)とその導関数(速度)をよりよく表現する。 いくつかのケーススタディは、異なる複雑さを扱うために提案されたPiNNの能力を調べるために設計されている。 テストケース毎に最適なPiNNアーキテクチャを見つけるために,手動ハイパーパラメータチューニング手法が用いられている。 有限要素法を用いて解析的又は数値的に得られた基底真理解に対して,PiNNの予測性能を評価するために,ポイントワイド誤差と平均二乗誤差(MSE)の測定を行った。 以上の結果から,PiNNの予測は,計算複雑性とコストを少なくとも3桁の精度で削減しつつ,基礎的真理解とよく一致していることがわかった。

Solute transport in porous media is relevant to a wide range of applications in hydrogeology, geothermal energy, underground CO2 storage, and a variety of chemical engineering systems. Due to the complexity of solute transport in heterogeneous porous media, traditional solvers require high resolution meshing and are therefore expensive computationally. This study explores the application of a mesh-free method based on deep learning to accelerate the simulation of solute transport. We employ Physics-informed Neural Networks (PiNN) to solve solute transport problems in homogeneous and heterogeneous porous media governed by the advection-dispersion equation. Unlike traditional neural networks that learn from large training datasets, PiNNs only leverage the strong form mathematical models to simultaneously solve for multiple dependent or independent field variables (e.g., pressure and solute concentration fields). In this study, we construct PiNN using a periodic activation function to better represent the complex physical signals (i.e., pressure) and their derivatives (i.e., velocity). Several case studies are designed with the intention of investigating the proposed PiNN's capability to handle different degrees of complexity. A manual hyperparameter tuning method is used to find the best PiNN architecture for each test case. Point-wise error and mean square error (MSE) measures are employed to assess the performance of PiNNs' predictions against the ground truth solutions obtained analytically or numerically using the finite element method. Our findings show that the predictions of PiNN are in good agreement with the ground truth solutions while reducing computational complexity and cost by, at least, three orders of magnitude.
翻訳日:2022-12-20 18:08:43 公開日:2022-12-17
# ニューラルネットワークと木決定モデルに基づくブラジルの病院における臨床劣化予測

Clinical Deterioration Prediction in Brazilian Hospitals Based on Artificial Neural Networks and Tree Decision Models ( http://arxiv.org/abs/2212.08975v1 )

ライセンス: Link先を確認
Hamed Yazdanpanah, Augusto C. M. Silva, Murilo Guedes, Hugo M. P. Morales, Leandro dos S. Coelho, Fernando G. Moro(参考訳) 早期臨床劣化(CD)の認識は、増悪や死亡による生存において極めて重要である。 電子健康記録(EHR)データは、入院患者のCDリスクを測定するために、早期警戒スコア(EWS)で広く利用されている。 近年、EHRのデータは機械学習(ML)モデルで死亡率とCDを予測するために活用されている。 MLモデルは、EWSと比較してCD予測において優れた性能を示している。 ehrsデータは構造化され、表型であるため、従来のmlモデルが一般に適用され、eersデータ上でのニューラルネットワークの性能を評価するための労力が軽減される。 そこで本稿では,極端に強化されたニューラルネットワーク(XBNet)を用いてCDを予測し,その性能をeXtreme Gradient Boosting(XGBoost)モデルとランダムフォレスト(RF)モデルと比較する。 この目的のために、13のブラジルの病院から103,105のサンプルを使用してモデルを生成する。 さらに、主成分分析(PCA)を用いて、採用モデルの性能を向上できるかを検証する。 精度,精度,リコール,f1-score,幾何平均(g-mean)指標を10倍のクロスバリデーションアプローチでcd予測し,mlモデルとews候補の修正早期警告スコア(mews)の性能を評価した。 実験によると、XGBoostモデルはブラジルの病院のデータからCDを予測する最良の結果を得た。

Early recognition of clinical deterioration (CD) has vital importance in patients' survival from exacerbation or death. Electronic health records (EHRs) data have been widely employed in Early Warning Scores (EWS) to measure CD risk in hospitalized patients. Recently, EHRs data have been utilized in Machine Learning (ML) models to predict mortality and CD. The ML models have shown superior performance in CD prediction compared to EWS. Since EHRs data are structured and tabular, conventional ML models are generally applied to them, and less effort is put into evaluating the artificial neural network's performance on EHRs data. Thus, in this article, an extremely boosted neural network (XBNet) is used to predict CD, and its performance is compared to eXtreme Gradient Boosting (XGBoost) and random forest (RF) models. For this purpose, 103,105 samples from thirteen Brazilian hospitals are used to generate the models. Moreover, the principal component analysis (PCA) is employed to verify whether it can improve the adopted models' performance. The performance of ML models and Modified Early Warning Score (MEWS), an EWS candidate, are evaluated in CD prediction regarding the accuracy, precision, recall, F1-score, and geometric mean (G-mean) metrics in a 10-fold cross-validation approach. According to the experiments, the XGBoost model obtained the best results in predicting CD among Brazilian hospitals' data.
翻訳日:2022-12-20 18:08:14 公開日:2022-12-17
# unsupervised dense retrievalはより良いポジティブペアに値する - クエリ抽出と生成によるスケーラブルな拡張

Unsupervised Dense Retrieval Deserves Better Positive Pairs: Scalable Augmentation with Query Extraction and Generation ( http://arxiv.org/abs/2212.08841v1 )

ライセンス: Link先を確認
Rui Meng, Ye Liu, Semih Yavuz, Divyansh Agarwal, Lifu Tu, Ning Yu, Jianguo Zhang, Meghana Bhat, Yingbo Zhou(参考訳) デンス検索はテキスト検索とオープンドメイン質問応答(ODQA)における最先端の結果を得るために大きな進歩を遂げてきた。 しかし、これらの成果の大部分は、大きな注釈付きデータセットの助けを借りて実現可能であり、密集した検索モデルの教師なし学習は未解決の問題のままである。 本研究では,擬似クエリ文書ペアを作成する方法,名前付きクエリ抽出(QExt)と転送クエリ生成(TQGen)の2つのカテゴリを探索し,アノテーションのないスケーラブルな方法で検索者のトレーニングを強化する。 具体的には、QExtは文書構造によって擬似クエリを抽出し、また、TQGenは他のNLPタスク(例えば、要約)のために訓練された生成モデルを使用して擬似クエリを生成する。 大規模実験により、個々の拡張法で訓練された高密度検索器は、複数の強いベースラインと互換性があり、それらの組み合わせによりさらなる改善が得られ、BEIRとODQAの両方のデータセット上で、教師なしの高密度検索の最先端性能を達成する。

Dense retrievers have made significant strides in obtaining state-of-the-art results on text retrieval and open-domain question answering (ODQA). Yet most of these achievements were made possible with the help of large annotated datasets, unsupervised learning for dense retrieval models remains an open problem. In this work, we explore two categories of methods for creating pseudo query-document pairs, named query extraction (QExt) and transferred query generation (TQGen), to augment the retriever training in an annotation-free and scalable manner. Specifically, QExt extracts pseudo queries by document structures or selecting salient random spans, and TQGen utilizes generation models trained for other NLP tasks (e.g., summarization) to produce pseudo queries. Extensive experiments show that dense retrievers trained with individual augmentation methods can perform comparably well with multiple strong baselines, and combining them leads to further improvements, achieving state-of-the-art performance of unsupervised dense retrieval on both BEIR and ODQA datasets.
翻訳日:2022-12-20 17:59:48 公開日:2022-12-17
# ニューラルネットワークのためのレバンス・マーカルトアルゴリズムの改良

Improving Levenberg-Marquardt Algorithm for Neural Networks ( http://arxiv.org/abs/2212.08769v1 )

ライセンス: Link先を確認
Omead Pooladzandi, Yiming Zhou(参考訳) ニューラルネットワークにおける回帰(非線形最小二乗)および分類(一般化されたガウス・ニュートン法)タスクに対するレバンス・マルカルトアルゴリズム(LM)の利用について検討する。 LM法の性能を、SGDやAdamのような他の一般的な一階アルゴリズムや、L-BFGS、Hessian-Free、KFACといった他の二階アルゴリズムと比較する。 さらに,適応運動量,学習速度線探索,昇降段受入を用いて,LM法をさらに高速化する。

We explore the usage of the Levenberg-Marquardt (LM) algorithm for regression (non-linear least squares) and classification (generalized Gauss-Newton methods) tasks in neural networks. We compare the performance of the LM method with other popular first-order algorithms such as SGD and Adam, as well as other second-order algorithms such as L-BFGS , Hessian-Free and KFAC. We further speed up the LM method by using adaptive momentum, learning rate line search, and uphill step acceptance.
翻訳日:2022-12-20 17:57:26 公開日:2022-12-17
# オンザフライユーザ参加によるロバスト手書き文字認識に向けて

Towards Robust Handwritten Text Recognition with On-the-fly User Participation ( http://arxiv.org/abs/2212.08834v1 )

ライセンス: Link先を確認
Ajoy Mondal, Rohit saluja, and C. V. Jawahar(参考訳) 長期OCRサービスは競争力のあるコストでユーザに対して高品質なアウトプットを提供することを目的としている。 ユーザがロードする複雑なデータのために、モデルをアップグレードすることが不可欠である。 サービスプロバイダは、データの複雑さ、可読性、利用可能な予算に基づいて、OCRモデルが失敗するデータを提供するユーザを奨励します。 OCRの作業には、エンドユーザを考慮せずに、標準データセット上でモデルを準備することが含まれる。 本稿では,既存のHindi OCRモデルを15ユーザデータセット上で3回更新する戦略を提案する。 イテレーション毎に4ユーザという予算を修正します。 最初のイテレーションでは、モデルが最初の4ユーザからデータセットを直接トレーニングする。 残りのイテレーションでは、残りのユーザー全員が各ページにページを書き、その後、サービスプロバイダーは人間の読みやすい単語の予測の質に基づいて4つの(新しい)ベストユーザーを選択する。 選択したユーザは、モデルをアップグレードするためにさらに23ページを書きます。 現在のイテレーションで利用可能なデータに基づいて、Curriculum Learning (CL)でモデルをアップグレードし、以前のイテレーションのサブセットと比較します。 アップグレードされたモデルは、23ユーザすべてから1ページの保持されたセットでテストされる。 我々は,CLの効果,ユーザ選択,特に目に見えない書き込みスタイルのデータに対する調査の洞察を提供する。 当社の作業は、サービスプロバイダとエンドユーザのクラウドソーシングシナリオにおいて、長期的なOCRサービスに使用することができます。

Long-term OCR services aim to provide high-quality output to their users at competitive costs. It is essential to upgrade the models because of the complex data loaded by the users. The service providers encourage the users who provide data where the OCR model fails by rewarding them based on data complexity, readability, and available budget. Hitherto, the OCR works include preparing the models on standard datasets without considering the end-users. We propose a strategy of consistently upgrading an existing Handwritten Hindi OCR model three times on the dataset of 15 users. We fix the budget of 4 users for each iteration. For the first iteration, the model directly trains on the dataset from the first four users. For the rest iteration, all remaining users write a page each, which service providers later analyze to select the 4 (new) best users based on the quality of predictions on the human-readable words. Selected users write 23 more pages for upgrading the model. We upgrade the model with Curriculum Learning (CL) on the data available in the current iteration and compare the subset from previous iterations. The upgraded model is tested on a held-out set of one page each from all 23 users. We provide insights into our investigations on the effect of CL, user selection, and especially the data from unseen writing styles. Our work can be used for long-term OCR services in crowd-sourcing scenarios for the service providers and end users.
翻訳日:2022-12-20 17:25:16 公開日:2022-12-17
# 双対領域における画家的イメージ調和

Painterly Image Harmonization in Dual Domains ( http://arxiv.org/abs/2212.08846v1 )

ライセンス: Link先を確認
Junyan Cao, Yan Hong, Li Niu(参考訳) 画像調和は、前景の外観を背景と適合するように調整することにより、視覚的に調和した複合画像を作成することを目的としている。 合成画像が写真前景と画家的背景を有する場合、この課題は画家的イメージ調和と呼ばれる。 このタスクには、時間を要するか、うまく調和した結果を生み出すのに弱い、ごくわずかの作業しかありません。 本研究では,空間領域と周波数領域の両方の複合画像とを調和させるデュアルドメイン生成器とデュアルドメイン判別器からなる,新しい画家的調和ネットワークを提案する。 デュアルドメイン生成器は,空間領域におけるadainモジュールと周波数領域における提案するresfftモジュールとの調和を行う。 二重領域判別器は、各パッチの空間的特徴と周波数特徴に基づいて不調和なパッチを識別し、逆向きにジェネレータの能力を高める。 ベンチマークデータセットの大規模な実験により,本手法の有効性が示された。 私たちのコードとモデルはhttps://github.com/bcmi/PHDNet-Painterly-Image-Harmonizationで公開されています。

Image harmonization aims to produce visually harmonious composite images by adjusting the foreground appearance to be compatible with the background. When the composite image has photographic foreground and painterly background, the task is called painterly image harmonization. There are only few works on this task, which are either time-consuming or weak in generating well-harmonized results. In this work, we propose a novel painterly harmonization network consisting of a dual-domain generator and a dual-domain discriminator, which harmonizes the composite image in both spatial domain and frequency domain. The dual-domain generator performs harmonization by using AdaIn modules in the spatial domain and our proposed ResFFT modules in the frequency domain. The dual-domain discriminator attempts to distinguish the inharmonious patches based on the spatial feature and frequency feature of each patch, which can enhance the ability of generator in an adversarial manner. Extensive experiments on the benchmark dataset show the effectiveness of our method. Our code and model are available at https://github.com/bcmi/PHDNet-Painterly-Image-Harmonization.
翻訳日:2022-12-20 17:24:54 公開日:2022-12-17
# DAG:拡散確率モデルに基づく深度誘導

DAG: Depth-Aware Guidance with Denoising Diffusion Probabilistic Models ( http://arxiv.org/abs/2212.08861v1 )

ライセンス: Link先を確認
Gyeongnyeon Kim, Wooseok Jang, Gyuseong Lee, Susung Hong, Junyoung Seo, Seungryong Kim(参考訳) 近年では拡散モデルの成功により生成モデルが大きく進歩している。 これらのモデルの成功は、しばしば、忠実性と多様性の間のトレードオフの効果的なメカニズムを提供する分類器や分類器フリーメソッドのようなガイダンス技術の使用に起因している。 しかし、これらの手法は生成した画像を幾何学的構成(例えば深度)に気付くように誘導することができないため、特定のレベルの深度認識を必要とする領域への拡散モデルの適用を妨げている。 そこで本研究では,拡散モデルのリッチな中間表現から推定された深さ情報を用いた拡散モデルの新しい指導手法を提案する。 そこで我々はまず,拡散モデルの内部表現を用いたラベル効率の高い深さ推定フレームワークを提案する。 サンプリングフェーズでは,推定深度マップを用いて生成画像のセルフコンディショニングを行うための2つの手法を用いて,第1の手法は擬似ラベルを用い,第2の手法では深度領域拡散を事前に行う。 実験および広範囲のアブレーション実験により, 拡散モデルを幾何的に可算な画像生成へ誘導する手法の有効性が示された。 プロジェクトページはhttps://ku-cvlab.github.io/dag/。

In recent years, generative models have undergone significant advancement due to the success of diffusion models. The success of these models is often attributed to their use of guidance techniques, such as classifier and classifier-free methods, which provides effective mechanisms to trade-off between fidelity and diversity. However, these methods are not capable of guiding a generated image to be aware of its geometric configuration, e.g., depth, which hinders the application of diffusion models to areas that require a certain level of depth awareness. To address this limitation, we propose a novel guidance approach for diffusion models that uses estimated depth information derived from the rich intermediate representations of diffusion models. To do this, we first present a label-efficient depth estimation framework using the internal representations of diffusion models. At the sampling phase, we utilize two guidance techniques to self-condition the generated image using the estimated depth map, the first of which uses pseudo-labeling, and the subsequent one uses a depth-domain diffusion prior. Experiments and extensive ablation studies demonstrate the effectiveness of our method in guiding the diffusion models toward geometrically plausible image generation. Project page is available at https://ku-cvlab.github.io/DAG/.
翻訳日:2022-12-20 17:24:36 公開日:2022-12-17
# Flattening-Net:3Dポイントクラウド解析のためのDeep Regular 2D表現

Flattening-Net: Deep Regular 2D Representation for 3D Point Cloud Analysis ( http://arxiv.org/abs/2212.08892v1 )

ライセンス: Link先を確認
Qijian Zhang, Junhui Hou, Yue Qian, Yiming Zeng, Juyong Zhang, Ying He(参考訳) 点雲は不規則性と非構造性によって特徴づけられ、効率的なデータエクスプロイトと識別的特徴抽出の課題を引き起こす。 本稿では,任意の幾何学とトポロジーの不規則な3d点雲を,画像画素の色で空間点の座標をキャプチャする完全正則な2d点幾何像(pgi)構造として表現する,flattening-netと呼ばれる教師なしのディープニューラルネットワークアーキテクチャを提案する。 \mr{Intuitively, Flattening-Net は局所的に滑らかな3次元から2次元の表面平坦化過程を暗黙的に近似する。 } \mr{As a generic representation modality, PGI は本質的に、基礎となる多様体構造の内在的性質を符号化し、表面的な点特徴集合を促進する。 その可能性を実証するために,pgis上で直接動作する統一学習フレームワークを構築し,分類,セグメンテーション,再構築,アップサンプリングといった特定のタスクネットワークによって駆動される,高レベルおよび低レベルなダウンストリームアプリケーションを実現する。 広範な実験により,現在の競争相手に対して,提案手法が有利に機能することを実証した。 コードとデータはhttps://github.com/keeganhk/flattening-netで公開します。

Point clouds are characterized by irregularity and unstructuredness, which pose challenges in efficient data exploitation and discriminative feature extraction. In this paper, we present an unsupervised deep neural architecture called Flattening-Net to represent irregular 3D point clouds of arbitrary geometry and topology as a completely regular 2D point geometry image (PGI) structure, in which coordinates of spatial points are captured in colors of image pixels. \mr{Intuitively, Flattening-Net implicitly approximates a locally smooth 3D-to-2D surface flattening process while effectively preserving neighborhood consistency.} \mr{As a generic representation modality, PGI inherently encodes the intrinsic property of the underlying manifold structure and facilitates surface-style point feature aggregation.} To demonstrate its potential, we construct a unified learning framework directly operating on PGIs to achieve \mr{diverse types of high-level and low-level} downstream applications driven by specific task networks, including classification, segmentation, reconstruction, and upsampling. Extensive experiments demonstrate that our methods perform favorably against the current state-of-the-art competitors. We will make the code and data publicly available at https://github.com/keeganhk/Flattening-Net.
翻訳日:2022-12-20 17:24:17 公開日:2022-12-17
# 人間の画像生成: 総合的な調査

Human Image Generation: A Comprehensive Survey ( http://arxiv.org/abs/2212.08896v1 )

ライセンス: Link先を確認
Zhen Jia, Zhang Zhang, Liang Wang, Tieniu Tan(参考訳) 画像とビデオの合成は、コンピュータビジョンと機械学習のコミュニティにおいて、その優れた学術的価値と応用価値から、深層生成モデルの発展とともに、華々しい話題となっている。 多くの研究者は、人間像を日常生活で最もよく見られる対象のカテゴリの1つとして合成することに力を入れており、様々な深層生成モデル、タスク設定、アプリケーションに基づいて多くの研究が行われている。 したがって、人間の画像生成におけるこれらの変種手法の概要を概観する必要がある。 本稿では,人間の画像生成技術を3つのパラダイム,すなわちデータ駆動手法,知識誘導手法,ハイブリッド手法に分割する。 それぞれの経路について、最も代表的なモデルと対応するバリエーションが提示され、そこで異なる手法の利点と特徴をモデルアーキテクチャと入出力要求という観点で要約する。 また、文献における主要な公開画像データセットと評価指標についても概説する。 さらに、幅広い応用可能性から、人物認識タスクのためのデータ拡張やファッション顧客のための仮想トライオンという、合成された人間の画像の2つの典型的下流利用をカバーできる。 最後に,人間の画像生成の課題と今後の研究の方向性について考察する。

Image and video synthesis has become a blooming topic in computer vision and machine learning communities along with the developments of deep generative models, due to its great academic and application value. Many researchers have been devoted to synthesizing high-fidelity human images as one of the most commonly seen object categories in daily lives, where a large number of studies are performed based on various deep generative models, task settings and applications. Thus, it is necessary to give a comprehensive overview on these variant methods on human image generation. In this paper, we divide human image generation techniques into three paradigms, i.e., data-driven methods, knowledge-guided methods and hybrid methods. For each route, the most representative models and the corresponding variants are presented, where the advantages and characteristics of different methods are summarized in terms of model architectures and input/output requirements. Besides, the main public human image datasets and evaluation metrics in the literature are also summarized. Furthermore, due to the wide application potentials, two typical downstream usages of synthesized human images are covered, i.e., data augmentation for person recognition tasks and virtual try-on for fashion customers. Finally, we discuss the challenges and potential directions of human image generation to shed light on future research.
翻訳日:2022-12-20 17:23:49 公開日:2022-12-17
# 双曲的階層的コントラストハッシュ

Hyperbolic Hierarchical Contrastive Hashing ( http://arxiv.org/abs/2212.08904v1 )

ライセンス: Link先を確認
Rukai Wei, Yu Liu, Jingkuan Song, Yanzhao Xie and Ke Zhou(参考訳) 実世界のデータセットに自然に存在する階層的セマンティック構造は、データの潜在分布をキャプチャして、検索システムの堅牢なハッシュコードを学ぶのに役立つ。 階層的セマンティック構造は、意味論的に関連するデータを粗いセマンティックスで高レベルの分類群に組み込むことで単純に表現できるが、構造の構築、組込み、利用は教師なしのハッシュ学習にとって難しいままである。 これらの問題に対処するために,HHCH (Hyperbolic Hierarchical Contrastive Hashing) と呼ばれる新しい教師なしハッシュ法を提案する。 双曲空間に階層を埋め込み、超球面空間やユークリッド空間よりも歪みが少ないため、正確な意味表現のために連続ハッシュ符号を双曲空間に埋め込むことを提案する。 さらに、K-Meansアルゴリズムを双曲空間に拡張し、提案した階層的双曲的K-Meansアルゴリズムを用いて階層的意味構造を適応的に構築する。 双曲空間における階層的意味構造を利用するために,階層的インスタンス単位と階層的プロトタイプ単位のコントラスト学習を含む階層的コントラスト学習アルゴリズムを設計した。 4つのベンチマークデータセットの大規模な実験により、提案手法は最先端の教師なしハッシュ法よりも優れていることが示された。 コードはリリースされる。

Hierarchical semantic structures, naturally existing in real-world datasets, can assist in capturing the latent distribution of data to learn robust hash codes for retrieval systems. Although hierarchical semantic structures can be simply expressed by integrating semantically relevant data into a high-level taxon with coarser-grained semantics, the construction, embedding, and exploitation of the structures remain tricky for unsupervised hash learning. To tackle these problems, we propose a novel unsupervised hashing method named Hyperbolic Hierarchical Contrastive Hashing (HHCH). We propose to embed continuous hash codes into hyperbolic space for accurate semantic expression since embedding hierarchies in hyperbolic space generates less distortion than in hyper-sphere space and Euclidean space. In addition, we extend the K-Means algorithm to hyperbolic space and perform the proposed hierarchical hyperbolic K-Means algorithm to construct hierarchical semantic structures adaptively. To exploit the hierarchical semantic structures in hyperbolic space, we designed the hierarchical contrastive learning algorithm, including hierarchical instance-wise and hierarchical prototype-wise contrastive learning. Extensive experiments on four benchmark datasets demonstrate that the proposed method outperforms the state-of-the-art unsupervised hashing methods. Codes will be released.
翻訳日:2022-12-20 17:23:28 公開日:2022-12-17
# ビジョン中心のストリーミング知覚の準備はできているか? ASAPベンチマーク

Are We Ready for Vision-Centric Driving Streaming Perception? The ASAP Benchmark ( http://arxiv.org/abs/2212.08914v1 )

ライセンス: Link先を確認
Xiaofeng Wang, Zheng Zhu, Yunpeng Zhang, Guan Huang, Yun Ye, Wenbo Xu, Ziwei Chen, Xingang Wang(参考訳) 近年、視覚中心の知覚は、3次元検出、セマンティックマップの構築、動き予測、深さ推定など、様々な自律運転タスクで栄えている。 それでも、視覚中心のアプローチのレイテンシは現実的な展開には高すぎる(例えば、ほとんどのカメラベースの3D検出器は300ms以上のランタイムを持つ)。 理想的な研究と現実世界のアプリケーションの間のギャップを埋めるためには、パフォーマンスと効率のトレードオフを定量化する必要がある。 従来、自動運転知覚ベンチマークは、推論時間遅延を無視して、オフライン評価を行う。 この問題を軽減するために,自律運転における視覚中心知覚のオンラインパフォーマンスを評価する最初のベンチマークであるautonomous-driving streaming perception (asap)ベンチマークを提案する。 2Hzの注釈付きnuScenesデータセットに基づいて、まず12Hzの原画像の高フレームレートラベルを生成するアノテーション拡張パイプラインを提案する。 実際の展開を参照して、コンストレインド・コンピューティング(SPUR)評価プロトコルがさらに構築され、12Hzの入力が異なる計算リソースの制約下でのストリーミング評価に使用される。 ASAPベンチマークでは、モデルランクが異なる制約の下で変化することを示し、実際の配置を最適化するための設計選択としてモデル遅延と計算予算を考慮するべきであることを示唆している。 さらに,様々なハードウェアのストリーミング性能を一貫して向上させるカメラベースのストリーミング3d検出のベースラインを確立する。 ASAPプロジェクトページ:https://github.com/JeffWang987/ASAP。

In recent years, vision-centric perception has flourished in various autonomous driving tasks, including 3D detection, semantic map construction, motion forecasting, and depth estimation. Nevertheless, the latency of vision-centric approaches is too high for practical deployment (e.g., most camera-based 3D detectors have a runtime greater than 300ms). To bridge the gap between ideal research and real-world applications, it is necessary to quantify the trade-off between performance and efficiency. Traditionally, autonomous-driving perception benchmarks perform the offline evaluation, neglecting the inference time delay. To mitigate the problem, we propose the Autonomous-driving StreAming Perception (ASAP) benchmark, which is the first benchmark to evaluate the online performance of vision-centric perception in autonomous driving. On the basis of the 2Hz annotated nuScenes dataset, we first propose an annotation-extending pipeline to generate high-frame-rate labels for the 12Hz raw images. Referring to the practical deployment, the Streaming Perception Under constRained-computation (SPUR) evaluation protocol is further constructed, where the 12Hz inputs are utilized for streaming evaluation under the constraints of different computational resources. In the ASAP benchmark, comprehensive experiment results reveal that the model rank alters under different constraints, suggesting that the model latency and computation budget should be considered as design choices to optimize the practical deployment. To facilitate further research, we establish baselines for camera-based streaming 3D detection, which consistently enhance the streaming performance across various hardware. ASAP project page: https://github.com/JeffWang987/ASAP.
翻訳日:2022-12-20 17:23:04 公開日:2022-12-17
# 遠隔での人物認識に関する簡単な調査

A Brief Survey on Person Recognition at a Distance ( http://arxiv.org/abs/2212.08969v1 )

ライセンス: Link先を確認
Chrisopher B. Nalty, Neehar Peri, Joshua Gleason, Carlos D. Castillo, Shuowen Hu, Thirimachos Bourlai, Rama Chellappa(参考訳) 遠隔での人物認識は、ドローンや監視カメラなどの長距離撮像システムによって収集された画像やビデオに現れる個人のアイデンティティを認識することを含む。 近年のディープ畳み込みニューラルネットワーク(DCNN)の進歩にもかかわらず、これは依然として困難である。 長距離カメラで撮影された画像やビデオは、しばしば大気の乱流、ぼやけ、低解像度、制約のないポーズ、照明不足に悩まされる。 本稿では,遠隔地における人物認識の最近の進歩に関する簡単な調査を行う。 特に,マルチスペクトル顔認証,人物再同定,歩行に基づく分析技術における最近の研究について概観する。 さらに,既存のアプローチのメリットと欠点を議論し,遠隔人物認識システムの導入において検討中の課題を特定する。

Person recognition at a distance entails recognizing the identity of an individual appearing in images or videos collected by long-range imaging systems such as drones or surveillance cameras. Despite recent advances in deep convolutional neural networks (DCNNs), this remains challenging. Images or videos collected by long-range cameras often suffer from atmospheric turbulence, blur, low-resolution, unconstrained poses, and poor illumination. In this paper, we provide a brief survey of recent advances in person recognition at a distance. In particular, we review recent work in multi-spectral face verification, person re-identification, and gait-based analysis techniques. Furthermore, we discuss the merits and drawbacks of existing approaches and identify important, yet under explored challenges for deploying remote person recognition systems in-the-wild.
翻訳日:2022-12-20 17:22:38 公開日:2022-12-17
# 2次元画像からの知識蒸留による3次元点雲事前学習

3D Point Cloud Pre-training with Knowledge Distillation from 2D Images ( http://arxiv.org/abs/2212.08974v1 )

ライセンス: Link先を確認
Yuan Yao, Yuanhan Zhang, Zhenfei Yin, Jiebo Luo, Wanli Ouyang, Xiaoshui Huang(参考訳) 最近のトレーニング済みの2Dビジョンモデルの成功は、主に大規模なデータセットから学ぶことに起因する。 しかし、2D画像データセットと比較して、現在の3Dポイントクラウドの事前トレーニングデータは限られている。 この限界を克服するために,2次元表現学習モデル,特にクリップのイメージエンコーダから知識を直接獲得するための3次元点クラウド事前学習モデルのための知識蒸留法を提案する。 具体的には,3dポイントクラウドから概念特徴を抽出し,2d画像から意味情報と比較するクロスアテンション機構を提案する。 このスキームでは,2次元教師モデルに含まれるリッチな情報から,クラウド事前学習モデルを直接学習する。 提案手法は,オブジェクト分類,オブジェクト検出,意味セグメンテーション,部分セグメンテーションなど,下流タスクにおける合成および実世界のデータセットに対する最先端の3次元事前学習法よりも高い精度を実現した。

The recent success of pre-trained 2D vision models is mostly attributable to learning from large-scale datasets. However, compared with 2D image datasets, the current pre-training data of 3D point cloud is limited. To overcome this limitation, we propose a knowledge distillation method for 3D point cloud pre-trained models to acquire knowledge directly from the 2D representation learning model, particularly the image encoder of CLIP, through concept alignment. Specifically, we introduce a cross-attention mechanism to extract concept features from 3D point cloud and compare them with the semantic information from 2D images. In this scheme, the point cloud pre-trained models learn directly from rich information contained in 2D teacher models. Extensive experiments demonstrate that the proposed knowledge distillation scheme achieves higher accuracy than the state-of-the-art 3D pre-training methods for synthetic and real-world datasets on downstream tasks, including object classification, object detection, semantic segmentation, and part segmentation.
翻訳日:2022-12-20 17:22:26 公開日:2022-12-17
# 病理画像における複数インスタンス学習のためのマルチスケール関係グラフ畳み込みネットワーク

Multi-Scale Relational Graph Convolutional Network for Multiple Instance Learning in Histopathology Images ( http://arxiv.org/abs/2212.08781v1 )

ライセンス: Link先を確認
Roozbeh Bazargani, Ladan Fazli, Larry Goldenberg, Martin Gleave, Ali Bashashati, Septimiu Salcudean(参考訳) グラフ畳み込みニューラルネットワークは、自然および病理像に有意な可能性を示している。 しかし、それらの用途は単一の倍率または後期融合による多重化でのみ研究されている。 マルチスケールグラフ畳み込みネットワーク(Multi-Scale Relational Graph Convolutional Network, MS-RGCN)を複数インスタンス学習手法として導入することにより, グラフ畳み込みネットワークと早期融合する。 病理組織学的画像パッチとその隣り合うパッチやパッチとの関係をグラフとしてモデル化する。 異なる拡大埋め込み空間間で情報を渡すために、ノードとエッジタイプに基づいて別々のメッセージパッシングニューラルネットワークを定義する。 前立腺癌病理像を用いて,パッチから抽出した特徴に基づいて分類群を予測する。 また、MS-RGCNと複数の最先端手法を比較し、ソースおよびホールドアウトデータセットの評価を行った。 本手法は, 両データセット, 特に2群, 3群の分類において, 患者管理における臨床上の決定に有意な成績を示す。 アブレーション研究を通じて,MS-RGCNの関連する設計特徴を検証し,その価値を示す。

Graph convolutional neural networks have shown significant potential in natural and histopathology images. However, their use has only been studied in a single magnification or multi-magnification with late fusion. In order to leverage the multi-magnification information and early fusion with graph convolutional networks, we handle different embedding spaces at each magnification by introducing the Multi-Scale Relational Graph Convolutional Network (MS-RGCN) as a multiple instance learning method. We model histopathology image patches and their relation with neighboring patches and patches at other scales (i.e., magnifications) as a graph. To pass the information between different magnification embedding spaces, we define separate message-passing neural networks based on the node and edge type. We experiment on prostate cancer histopathology images to predict the grade groups based on the extracted features from patches. We also compare our MS-RGCN with multiple state-of-the-art methods with evaluations on both source and held-out datasets. Our method outperforms the state-of-the-art on both datasets and especially on the classification of grade groups 2 and 3, which are significant for clinical decisions for patient management. Through an ablation study, we test and show the value of the pertinent design features of the MS-RGCN.
翻訳日:2022-12-20 17:13:44 公開日:2022-12-17
# 動き-出現相乗効果を用いた教師なし映像オブジェクトセグメンテーションの改善

Improving Unsupervised Video Object Segmentation with Motion-Appearance Synergy ( http://arxiv.org/abs/2212.08816v1 )

ライセンス: Link先を確認
Long Lian, Zhirong Wu, Stella X. Yu(参考訳) IMASは、トレーニングや推論において手動のアノテーションを使わずに、主要オブジェクトをビデオに分割する手法である。 教師なしビデオオブジェクトセグメンテーション(UVOS)の従来手法は、セグメンテーションのインプットまたはインスペクションとして動作の有効性を示した。 しかし、運動信号は変形可能な物体や反射のある物体などでは変形的でない、あるいは誤解を招く場合もあり、セグメンテーションが不十分となる。 対照的に、IMASはMotion-Appearance Synergyによる改良UVOSを実現している。 私たちの方法は2つの訓練段階がある。 1) 学習可能な残留経路を通した運動・外観衝突を扱う動作監視対象発見段階 2) 誤解を招く動きの手がかりから学習したモデル誤解を正すために, 低レベルおよび高レベルの外観監督をともなう改良段階を考案した。 さらに,モデル非依存なアノテーションフリーハイパーパラムチューニング手法としてモーション・セマンティクスアライメントを提案する。 人間のアノテーションや手作りハイパーパラム特有のメトリクスで調整された重要なハイパーパラムをチューニングする効果を実証する。 IMASはいくつかのUVOSベンチマークのセグメンテーション品質を大幅に改善する。 例えば、標準のresnetと畳み込みヘッドだけでdavis16ベンチマークで以前のメソッドを8.3%上回った。 将来の研究と応用のためのコードをリリースするつもりです。

We present IMAS, a method that segments the primary objects in videos without manual annotation in training or inference. Previous methods in unsupervised video object segmentation (UVOS) have demonstrated the effectiveness of motion as either input or supervision for segmentation. However, motion signals may be uninformative or even misleading in cases such as deformable objects and objects with reflections, causing unsatisfactory segmentation. In contrast, IMAS achieves Improved UVOS with Motion-Appearance Synergy. Our method has two training stages: 1) a motion-supervised object discovery stage that deals with motion-appearance conflicts through a learnable residual pathway; 2) a refinement stage with both low- and high-level appearance supervision to correct model misconceptions learned from misleading motion cues. Additionally, we propose motion-semantic alignment as a model-agnostic annotation-free hyperparam tuning method. We demonstrate its effectiveness in tuning critical hyperparams previously tuned with human annotation or hand-crafted hyperparam-specific metrics. IMAS greatly improves the segmentation quality on several common UVOS benchmarks. For example, we surpass previous methods by 8.3% on DAVIS16 benchmark with only standard ResNet and convolutional heads. We intend to release our code for future research and applications.
翻訳日:2022-12-20 17:13:24 公開日:2022-12-17
# 映像行動予測のための誘導的注意

Inductive Attention for Video Action Anticipation ( http://arxiv.org/abs/2212.08830v1 )

ライセンス: Link先を確認
Tsung-Ming Tai, Giuseppe Fiameni, Cheng-Kuang Lee, Simon See, Oswald Lanz(参考訳) ビデオ観察に基づく将来の行動を予測することは、ビデオ理解において重要な課題であり、イベントが起こる前に応答時間を必要とする予防システムにおいて有用である。 入力された動作予測は前アクションフレームのみであるため、モデルにはターゲットアクションに関する情報が不十分である。 したがって、既存のアクション認識モデルを使用するソリューションは、サブオプティマイズしかできない。 近年,より長いビデオ・コンテクストを用いて,事前行動間隔で不十分な情報を補うことや,予測問題に対処するために関連した瞬間を検索する自己注意が提案されている。 しかしながら、クエリとしての間接的なビデオ入力機能は、予測目標へのプロキシとしてのみ機能するため、非効率である可能性がある。 そこで本研究では,過去の経験から予測結果を導出するためのクエリとして,事前予測を透過的に利用する誘導型注意モデルを提案する。 本手法は,多対多関係による複数未来の不確かさを自然に考慮する。 大規模エゴセントリックビデオデータセットでは,同じバックボーンを用いた最先端技術よりも一貫して優れた性能を示すだけでなく,より強力なバックボーンを用いる方法と競合するだけでなく,少ないモデルパラメータで優れた効率を示す。

Anticipating future actions based on video observations is an important task in video understanding, which would be useful for some precautionary systems that require response time to react before an event occurs. Since the input in action anticipation is only pre-action frames, models do not have enough information about the target action; moreover, similar pre-action frames may lead to different futures. Consequently, any solution using existing action recognition models can only be suboptimal. Recently, researchers have proposed using a longer video context to remedy the insufficient information in pre-action intervals, as well as the self-attention to query past relevant moments to address the anticipation problem. However, the indirect use of video input features as the query might be inefficient, as it only serves as the proxy to the anticipation goal. To this end, we propose an inductive attention model, which transparently uses prior prediction as the query to derive the anticipation result by induction from past experience. Our method naturally considers the uncertainty of multiple futures via the many-to-many association. On the large-scale egocentric video datasets, our model not only shows consistently better performance than state of the art using the same backbone, and is competitive to the methods that employ a stronger backbone, but also superior efficiency in less model parameters.
翻訳日:2022-12-20 17:13:06 公開日:2022-12-17
# メモリワークロードの正確なオープンセット認識

Accurate Open-set Recognition for Memory Workload ( http://arxiv.org/abs/2212.08817v1 )

ライセンス: Link先を確認
Jun-Gi Jang, Sooyeon Shim, Vladimir Egay, Jeeyong Lee, Jongmin Park, Suhyun Chae, U Kang(参考訳) 既知のメモリワークロードを分類しながら、新しいメモリワークロードを正確に識別する方法? 様々なワークロードを使用してDRAM(Dynamic Random Access Memory)を検証することは、DRAMの品質を保証する重要なタスクである。 このプロセスの重要なコンポーネントは、トレーニングフェーズにない新しいワークロードを検出することを目的とした、オープンセット認識である。 しかし、その重要性にもかかわらず、既存のオープンセット認識手法は、ワークロードシーケンスの特性を活用できないため、精度の面で不満足である。 本稿では,ワークロードシーケンスの特徴を正確に把握するオープンセット認識手法であるAcornを提案する。 Acornは2種類の特徴ベクトルを抽出し、メモリアクセスにおけるシーケンシャルパターンと空間的局所パターンをキャプチャする。 次に、Acornは特徴ベクトルを使用して、サブシーケンスを既知のクラスの1つに正確に分類し、未知のクラスとして識別する。 実験の結果、Acornは最先端の精度を達成し、未知のクラス検出精度を最大37%向上し、既存の手法と同等のクラス分類精度を達成した。

How can we accurately identify new memory workloads while classifying known memory workloads? Verifying DRAM (Dynamic Random Access Memory) using various workloads is an important task to guarantee the quality of DRAM. A crucial component in the process is open-set recognition which aims to detect new workloads not seen in the training phase. Despite its importance, however, existing open-set recognition methods are unsatisfactory in terms of accuracy since they fail to exploit the characteristics of workload sequences. In this paper, we propose Acorn, an accurate open-set recognition method capturing the characteristics of workload sequences. Acorn extracts two types of feature vectors to capture sequential patterns and spatial locality patterns in memory access. Acorn then uses the feature vectors to accurately classify a subsequence into one of the known classes or identify it as the unknown class. Experiments show that Acorn achieves state-of-the-art accuracy, giving up to 37% points higher unknown class detection accuracy while achieving comparable known class classification accuracy than existing methods.
翻訳日:2022-12-20 17:04:58 公開日:2022-12-17
# グラフ学習:包括的調査と今後の方向性

Graph Learning: A Comprehensive Survey and Future Directions ( http://arxiv.org/abs/2212.08966v1 )

ライセンス: Link先を確認
Shaopeng Wei, Yu Zhao(参考訳) グラフ学習は,ノード間の複雑な関係や,ソーシャルネットワークや学術ネットワーク,eコマースネットワークといったグラフのトポロジ的構造を学ぶことを目的としている。 これらの関係は、ノードが非ユークリッド空間に依存し、探索する豊富な情報を含む伝統的な表データと比較する。 グラフ理論からグラフデータマイニングへ発展したグラフ学習は、今や表現学習に力を与えており、テキスト、画像、化学、生物学を含む様々なシナリオで優れたパフォーマンスを達成している。 現実世界の幅広い応用の見通しのため、グラフ学習は機械学習において人気があり、有望な領域となっている。 グラフ学習における様々な問題を解決するために、何千もの研究が提案されており、学術界ではますます注目を集めている。 一部の研究者はこの現象に気づき、グラフ学習に関する素晴らしい調査を終えた。 しかし、彼らは関連する目的や手法、アプリケーションをより論理的な方法でリンクすることに失敗し、現在の十分なシナリオとグラフ学習の急速な拡張による課題をカバーできなかった。

Graph learning aims to learn complex relationships among nodes and the topological structure of graphs, such as social networks, academic networks and e-commerce networks, which are common in the real world. Those relationships make graphs special compared with traditional tabular data in which nodes are dependent on non-Euclidean space and contain rich information to explore. Graph learning developed from graph theory to graph data mining and now is empowered with representation learning, making it achieve great performances in various scenarios, even including text, image, chemistry, and biology. Due to the broad application prospects in the real world, graph learning has become a popular and promising area in machine learning. Thousands of works have been proposed to solve various kinds of problems in graph learning and is appealing more and more attention in academic community, which makes it pivotal to survey previous valuable works. Although some of the researchers have noticed this phenomenon and finished impressive surveys on graph learning. However, they failed to link related objectives, methods and applications in a more logical way and cover current ample scenarios as well as challenging problems due to the rapid expansion of the graph learning.
翻訳日:2022-12-20 17:04:40 公開日:2022-12-17
# ファウンデーションモデルの概要:歴史的・社会技術的焦点

Foundation models in brief: A historical, socio-technical focus ( http://arxiv.org/abs/2212.08967v1 )

ライセンス: Link先を確認
Johannes Schneider(参考訳) モデルサイズとトレーニングデータの幅とサイズの観点からディープラーニングをスケールアップすることで、AI開発の将来において、ファンデーションモデルは破壊的になる可能性がある。 これらのモデルは、自然言語処理やコンピュータビジョンといったドメインの様々なタスクで(しばしばさらなる適応によって)最先端のパフォーマンスを達成する。 In-context learningは、ユーザがクエリを提供することを可能にし、モデルがそのようなクエリでトレーニングされることなく、答えを導出するいくつかの例を提供する。 さらに、モデルの均質化(homogenization)は、AIのパワーとコントロールのシフトにつながる少数の企業によって制御される非常に大きなモデルで、タスク固有の無数のモデルを置き換える可能性がある。 本稿では,基礎モデルの簡単な紹介を行う。 基礎モデルと以前のディープラーニングモデルとを区別し、基礎モデルにつながる機械学習の歴史を提供し、社会技術的側面、すなわち組織的問題とエンドユーザの相互作用についてより深く研究し、将来の研究について議論することで貢献する。

Foundation models can be disruptive for future AI development by scaling up deep learning in terms of model size and training data's breadth and size. These models achieve state-of-the-art performance (often through further adaptation) on a variety of tasks in domains such as natural language processing and computer vision. Foundational models exhibit a novel {emergent behavior}: {In-context learning} enables users to provide a query and a few examples from which a model derives an answer without being trained on such queries. Additionally, {homogenization} of models might replace a myriad of task-specific models with fewer very large models controlled by few corporations leading to a shift in power and control over AI. This paper provides a short introduction to foundation models. It contributes by crafting a crisp distinction between foundation models and prior deep learning models, providing a history of machine learning leading to foundation models, elaborating more on socio-technical aspects, i.e., organizational issues and end-user interaction, and a discussion of future research.
翻訳日:2022-12-20 17:04:22 公開日:2022-12-17
# より良いデータストア、より良い翻訳:最も近いニューラルネットワーク翻訳のための事前学習モデルからデータストアを生成する

Better Datastore, Better Translation: Generating Datastores from Pre-Trained Models for Nearest Neural Machine Translation ( http://arxiv.org/abs/2212.08822v1 )

ライセンス: Link先を確認
Jiahuan Li, Shanbo Cheng, Zewei Sun, Mingxuan Wang, Shujian Huang(参考訳) Nearest Neighbor Machine Translation (kNNMT)は、トークンレベルの近接した近接検索機構を備えた、ニューラルネットワーク翻訳(NMT)の簡易かつ効果的な方法である。 kNNMTの有効性は、取得した隣人の品質に直接依存する。 しかし、元のkNNMTはNMTモデルからの表現に基づいてデータストアを構築するため、NMTモデルが不十分な場合には検索精度が低下し、サブ最適翻訳性能が低下する。 本稿では,kNN-MTにおけるデータストアの事前学習モデルを活用するフレームワークであるPreDを提案する。 事前訓練されたモデルによるより良い表現により、より良い品質のデータストアを構築することができます。 また、NMTモデルと事前学習モデルとの表現ギャップを軽減するために、新しいコントラストアライメント目的を設計し、NMTモデルがより良いデータストアから取得できるようにする。 wmt17英語$\leftrightarrow$ chinese、wmt14英語$\leftrightarrow$ german、iwslt14ドイツ語$\leftrightarrow$ english、iwslt14多言語データセットなど、バイリンガルおよび多言語翻訳ベンチマークの広範な実験を行った。 実験結果はpredの有効性を示す。

Nearest Neighbor Machine Translation (kNNMT) is a simple and effective method of augmenting neural machine translation (NMT) with a token-level nearest neighbor retrieval mechanism. The effectiveness of kNNMT directly depends on the quality of retrieved neighbors. However, original kNNMT builds datastores based on representations from NMT models, which would result in poor retrieval accuracy when NMT models are not good enough, leading to sub-optimal translation performance. In this paper, we propose PRED, a framework that leverages Pre-trained models for Datastores in kNN-MT. Better representations from pre-trained models allow us to build datastores of better quality. We also design a novel contrastive alignment objective to mitigate the representation gap between the NMT model and pre-trained models, enabling the NMT model to retrieve from better datastores. We conduct extensive experiments on both bilingual and multilingual translation benchmarks, including WMT17 English $\leftrightarrow$ Chinese, WMT14 English $\leftrightarrow$ German, IWSLT14 German $\leftrightarrow$ English, and IWSLT14 multilingual datasets. Empirical results demonstrate the effectiveness of PRED.
翻訳日:2022-12-20 16:13:06 公開日:2022-12-17
# HyPe: 隠れ表現摂動による訓練済み言語モデルの微調整

HyPe: Better Pre-trained Language Model Fine-tuning with Hidden Representation Perturbation ( http://arxiv.org/abs/2212.08853v1 )

ライセンス: Link先を確認
Hongyi Yuan, Zheng Yuan, Chuanqi Tan, Fei Huang, Songfang Huang(参考訳) Transformers構造を持つ言語モデルは自然言語処理において優れた性能を示している。 しかし、オーバーフィットや表現の崩壊など、下流タスクで訓練済みの言語モデルを微調整する場合にも問題が発生する。 本稿では,トランスフォーマー層を隠蔽した表現を摂動することで,そのような問題を緩和する,シンプルで効果的な微調整手法であるHyPeを提案する。 入力やパラメータにノイズを追加する以前の作品とは異なり、トランスフォーマー層の隠れた表現はより多様で有意義な言語情報を伝達すると主張している。 したがって、トランスフォーマー層を隠れた表現の摂動に対してより強固なものにすることは、plmのブロックでの微調整をさらに有益である。 我々はGLUEや他の自然言語推論データセットに関する広範な実験と分析を行う。 その結果,HyPeはバニラ微調整より優れ,異なる層からの隠蔽表現の一般化が促進されることがわかった。 さらにHyPeは、無視可能な計算オーバーヘッドを取得し、従来の最先端の微調整技術よりも優れ、互換性がある。

Language models with the Transformers structure have shown great performance in natural language processing. However, there still poses problems when fine-tuning pre-trained language models on downstream tasks, such as over-fitting or representation collapse. In this work, we propose HyPe, a simple yet effective fine-tuning technique to alleviate such problems by perturbing hidden representations of Transformers layers. Unlike previous works that only add noise to inputs or parameters, we argue that the hidden representations of Transformers layers convey more diverse and meaningful language information. Therefore, making the Transformers layers more robust to hidden representation perturbations can further benefit the fine-tuning of PLMs en bloc. We conduct extensive experiments and analyses on GLUE and other natural language inference datasets. Results demonstrate that HyPe outperforms vanilla fine-tuning and enhances generalization of hidden representations from different layers. In addition, HyPe acquires negligible computational overheads, and is better than and compatible with previous state-of-the-art fine-tuning techniques.
翻訳日:2022-12-20 16:12:44 公開日:2022-12-17
# 感性分析改善のためのリッチテキストユーザ生成コンテキストのエクスプロイト

Exploiting Rich Textual User-Product Context for Improving Sentiment Analysis ( http://arxiv.org/abs/2212.08888v1 )

ライセンス: Link先を確認
Chenyang Lyu, Linyi Yang, Yue Zhang, Yvette Graham, Jennifer Foster(参考訳) レビューに関連するユーザ情報と製品情報は感情極性予測に有用である。 このような情報を取り入れた典型的なアプローチは、暗黙的に学習された表現ベクトルとしてユーザや製品のモデリングに重点を置いている。 ほとんどは過去のレビューの可能性を活用していないし、現在モデルアーキテクチャに不要な修正を必要とするものも、ユーザー/製品関連をフルに利用していないものも少なくない。 この作品の貢献は2つあります 一 同一のユーザ/製品に属する歴史レビューを明示的に活用して表現を初期化する方法 二 ユーザ・プロダクト間クロスコンテキストモジュールによるユーザ・製品間のテキスト関連の効率的な取り込み IMDb、Yelp-2013、Yelp-2014ベンチマークの実験は、我々のアプローチがこれまでの最先端よりも大幅に優れていることを示している。 また,エンコーダとしてBERTベースを用いるので,Span-BERTやLongformerと併用する実験も行う。 さらに、トレーニングデータにおける各ユーザ/製品の評価をダウンサンプリングした実験では、低リソース環境でのアプローチの有効性を示す。

User and product information associated with a review is useful for sentiment polarity prediction. Typical approaches incorporating such information focus on modeling users and products as implicitly learned representation vectors. Most do not exploit the potential of historical reviews, or those that currently do require unnecessary modifications to model architecture or do not make full use of user/product associations. The contribution of this work is twofold: i) a method to explicitly employ historical reviews belonging to the same user/product to initialize representations, and ii) efficient incorporation of textual associations between users and products via a user-product cross-context module. Experiments on IMDb, Yelp-2013 and Yelp-2014 benchmarks show that our approach substantially outperforms previous state-of-the-art. Since we employ BERT-base as the encoder, we additionally provide experiments in which our approach performs well with Span-BERT and Longformer. Furthermore, experiments where the reviews of each user/product in the training data are downsampled demonstrate the effectiveness of our approach under a low-resource setting.
翻訳日:2022-12-20 16:12:26 公開日:2022-12-17
# 手動アノテーションによる質問応答性能の向上:コスト,便益,戦略

Improving Question Answering Performance through Manual Annotation: Costs, Benefits and Strategies ( http://arxiv.org/abs/2212.08897v1 )

ライセンス: Link先を確認
Piotr Rybak, Piotr Przyby{\l}a, Maciej Ogrodniczuk(参考訳) 最近提案されたオープンドメイン質問応答システム(OpenQA)は、最先端の性能を達成するために大量のトレーニングデータを必要とする。 しかし、データアノテーションは時間がかかり、取得するのにコストがかかることが知られている。 結果として、適切なデータセットは、少数の言語(主に英語と中国語)でのみ利用できる。 本研究では,OpenQAの最初のポーランド語データセットであるPolQAを紹介し,公開する。 7000の質問、87,525の手作業による証拠文、そして7,097,322の候補文からなるコーパスからなる。 各質問は、その定式化、型、および回答の実体型に基づいて分類される。 このリソースにより,様々なアノテーション選択がqaシステムの性能に与える影響を評価し,アノテーションコストを82%削減しつつ,パス検索性能を10.55 p.p.向上させる効率的なアノテーション戦略を提案する。

Recently proposed systems for open-domain question answering (OpenQA) require large amounts of training data to achieve state-of-the-art performance. However, data annotation is known to be time-consuming and therefore expensive to acquire. As a result, the appropriate datasets are available only for a handful of languages (mainly English and Chinese). In this work, we introduce and publicly release PolQA, the first Polish dataset for OpenQA. It consists of 7,000 questions, 87,525 manually labeled evidence passages, and a corpus of over 7,097,322 candidate passages. Each question is classified according to its formulation, type, as well as entity type of the answer. This resource allows us to evaluate the impact of different annotation choices on the performance of the QA system and propose an efficient annotation strategy that increases the passage retrieval performance by 10.55 p.p. while reducing the annotation cost by 82%.
翻訳日:2022-12-20 16:12:11 公開日:2022-12-17
# 知らないことを知る:テキストからSQLへの曖昧で不可解な質問の扱い

Know What I don't Know: Handling Ambiguous and Unanswerable Questions for Text-to-SQL ( http://arxiv.org/abs/2212.08902v1 )

ライセンス: Link先を確認
Bing Wang, Yan Gao, Zhoujun Li, Jian-Guang Lou(参考訳) テキストからSQLへのタスクは、自然言語の質問をリレーショナルテーブルのコンテキストで対応するSQLクエリに変換することである。 既存のテキストからSQLへのパーサは任意のユーザ質問に対して"楽観的な"SQLクエリを生成します。 この問題を形式化するために,テキスト・トゥ・SQLにおける不明瞭・不確実な事例について予備研究を行い,それらを6つの特徴カテゴリにまとめる。 それに応じて,各カテゴリの背後にある原因を特定し,あいまいで不可解な質問を扱うための要件を提案する。 そこで本研究では,不明瞭なテキストからSQLへの自動生成のための,単純な反実例生成手法を提案する。 さらに,誤り検出,局所化,説明のための弱教師付きモデルdte(detecting-then-explaining)を提案する。 実験の結果,実世界の実例と生成した実例の両方において,本モデルが最良となることがわかった。 今後の研究のためにデータとコードをリリースします。

The task of text-to-SQL is to convert a natural language question to its corresponding SQL query in the context of relational tables. Existing text-to-SQL parsers generate a "plausible" SQL query for an arbitrary user question, thereby failing to correctly handle problematic user questions. To formalize this problem, we conduct a preliminary study on the observed ambiguous and unanswerable cases in text-to-SQL and summarize them into 6 feature categories. Correspondingly, we identify the causes behind each category and propose requirements for handling ambiguous and unanswerable questions. Following this study, we propose a simple yet effective counterfactual example generation approach for the automatic generation of ambiguous and unanswerable text-to-SQL examples. Furthermore, we propose a weakly supervised model DTE (Detecting-Then-Explaining) for error detection, localization, and explanation. Experimental results show that our model achieves the best result on both real-world examples and generated examples compared with various baselines. We will release data and code for future research.
翻訳日:2022-12-20 16:11:56 公開日:2022-12-17
# アクティベーション・プロンプトを用いたニューラルマシン翻訳における制御スタイル

Controlling Styles in Neural Machine Translation with Activation Prompt ( http://arxiv.org/abs/2212.08909v1 )

ライセンス: Link先を確認
Yifan Wang, Zewei Sun, Shanbo Cheng, Weiguo Zheng, Mingxuan Wang(参考訳) ニューラルマシン翻訳(nmt)はその素晴らしい品質のため、広く注目を集めている。 品質以外にも、翻訳スタイルの制御は多くの言語にとって重要な要求である。 これまでの研究は主に形式性の制御と改善に重点を置いている。 しかし、2つの課題に直面している。 1つ目は評価限界である。 スタイルには、レキシスや構文などを含む豊富な情報が含まれている。 しかし、形式のみの研究が盛んである。 2つ目は、新しいスタイルが必要な場合、反復的な微調整に重きを置くことです。 そこで本稿では,ベンチマークとアプローチの点から考察する。 まず、このタスクを再検討し、このタスクの境界を押し上げるために、4つの言語方向のスタイルの複数のカテゴリを含むマルチウェイ型機械翻訳(MSMT)ベンチマークを提案する。 第2に,スタイリングされた単言語コーパスからのプロンプトを抽出し,追加の微調整を必要としないスタイルアクティベーションプロンプト(StyleAP)を提案する。 実験により、StyleAPは翻訳のスタイルを効果的に制御し、優れたパフォーマンスを実現することができた。 すべてのデータとコードはhttps://github.com/IvanWang0730/StyleAP.comで公開されています。

Neural machine translation(NMT) has aroused wide attention due to its impressive quality. Beyond quality, controlling translation styles is also an important demand for many languages. Previous related studies mainly focus on controlling formality and gain some improvements. However, they still face two challenges. The first is the evaluation limitation. Style contains abundant information including lexis, syntax, etc. But only formality is well studied. The second is the heavy reliance on iterative fine-tuning when new styles are required. Correspondingly, this paper contributes in terms of the benchmark and approach. First, we re-visit this task and propose a multiway stylized machine translation (MSMT) benchmark, which includes multiple categories of styles in four language directions to push the boundary of this task. Second, we propose a method named style activation prompt (StyleAP) by retrieving prompts from stylized monolingual corpus, which needs no extra fine-tuning. Experiments show that StyleAP could effectively control the style of translation and achieve remarkable performance. All of our data and code are released at https://github.com/IvanWang0730/StyleAP.
翻訳日:2022-12-20 16:11:38 公開日:2022-12-17
# 計算議論におけるクレーム最適化

Claim Optimization in Computational Argumentation ( http://arxiv.org/abs/2212.08913v1 )

ライセンス: Link先を確認
Gabriella Skitalinskaya, Maximilian Splieth\"over, and Henning Wachsmuth(参考訳) 議論の最適な提供は、人間とaiシステムの両方にとって、あらゆる議論における説得の鍵である。 これは、与えられた議論に関連する明確で流動的な主張を使う必要がある。 先行研究は議論品質の自動評価を広く研究してきた。 しかし、これまでのところ品質改善の方法はない。 私たちの仕事は、このギャップを埋める第一歩です。 本稿では,クレーム最適化の課題として,議論的クレームの書き直しとデリバリの最適化を提案する。 まず,BARTなどのシーケンス・ツー・シーケンスモデルを用いて,文脈情報を考慮した最適化されたクレームの候補セットを生成する。 私たちの重要なアイデアは、生成した候補を異なる品質指標でランク付けし、最適な最適化を見つけることです。 自動評価と人格評価では,英語コーパスの異なる評価基準を上回り,すべてのクレームの60%を改善した(平均16%)。 追従分析の結果、われわれのアプローチはコピー編集以外にも、しばしば詳細なクレームを指定するが、人間よりもエビデンスが少ないことが判明した。 さらに、その能力は、命令テキストのような他のドメインにうまく一般化します。

An optimal delivery of arguments is key to persuasion in any debate, both for humans and for AI systems. This requires the use of clear and fluent claims relevant to the given debate. Prior work has studied the automatic assessment of argument quality extensively. Yet, no approach actually improves the quality so far. Our work is the first step towards filling this gap. We propose the task of claim optimization: to rewrite argumentative claims to optimize their delivery. As an initial approach, we first generate a candidate set of optimized claims using a sequence-to-sequence model, such as BART, while taking into account contextual information. Our key idea is then to rerank generated candidates with respect to different quality metrics to find the best optimization. In automatic and human evaluation, we outperform different reranking baselines on an English corpus, improving 60% of all claims (worsening 16% only). Follow-up analyses reveal that, beyond copy editing, our approach often specifies claims with details, whereas it adds less evidence than humans do. Moreover, its capabilities generalize well to other domains, such as instructional texts.
翻訳日:2022-12-20 16:11:24 公開日:2022-12-17
# クロスタスクとクロスインスタンス高次モデリングを用いた共同情報抽出

Joint Information Extraction with Cross-Task and Cross-Instance High-Order Modeling ( http://arxiv.org/abs/2212.08929v1 )

ライセンス: Link先を確認
Zixia Jia, Zhaohui Yan, Wenjuan Han, Zilong Zheng, Kewei Tu(参考訳) 情報抽出(ie)に関する先行研究は、通常、異なるタスクやインスタンス(例えば、イベントトリガー、エンティティ、ロール、リレーション)を独立して予測するが、それらの相互作用を無視し、非効率をモデル化する。 本研究では,高次クロスタスクとクロスインスタンスの依存関係を統合することで,複数のIEタスクを学習し,予測するIEフレームワークHighIEを紹介する。 具体的には, 等質因子と不均質因子の2つの高次因子をデザインする。 そして、これらの因子を用いて全てのインスタンスのラベルを共同で予測する。 正確な高階推定の難解性問題に対処するために,平均場変分推論法から展開される高階のニューラルデコーダを組み込んだ。 実験の結果,本手法は3つのieタスクにおいてベースラインと先行作業と比較して一貫した改善が得られた。

Prior works on Information Extraction (IE) typically predict different tasks and instances (e.g., event triggers, entities, roles, relations) independently, while neglecting their interactions and leading to model inefficiency. In this work, we introduce a joint IE framework, HighIE, that learns and predicts multiple IE tasks by integrating high-order cross-task and cross-instance dependencies. Specifically, we design two categories of high-order factors: homogeneous factors and heterogeneous factors. Then, these factors are utilized to jointly predict labels of all instances. To address the intractability problem of exact high-order inference, we incorporate a high-order neural decoder that is unfolded from a mean-field variational inference method. The experimental results show that our approach achieves consistent improvements on three IE tasks compared with our baseline and prior work.
翻訳日:2022-12-20 16:11:05 公開日:2022-12-17
# 実世界の会話質問応答における潜在知識と対話コンテキストの活用に向けて

Towards leveraging latent knowledge and Dialogue context for real-world conversational question answering ( http://arxiv.org/abs/2212.08946v1 )

ライセンス: Link先を確認
Shaomu Tan, Denis Paperno(参考訳) 現実世界の多くのシナリオでは、ウィキペディアのような外部知識源が存在しないため、質問応答システムは限られた対話データに潜む内部知識に依存している。 さらに、人間はしばしば、より包括的な情報を求めていくつかの質問をして答えを求める。 ダイアログがより広まると、マシンは質問に答えるために以前の会話ラウンドを参照するように要求される。 本研究では,TFIDFをベースとしたテキスト要約システムにより拡張され,長い会話履歴を書き換えることで,会話ログの潜在知識を活用することを提案する。 本実験では,検索した背景知識を活用し,より優れた回答を生成することができることを示す。 また,コンテクスト要約器は,より簡潔でノイズの少ないコンテクスト情報を導入することで,レトリバーと読み手の両方に有益であることを示す。

In many real-world scenarios, the absence of external knowledge source like Wikipedia restricts question answering systems to rely on latent internal knowledge in limited dialogue data. In addition, humans often seek answers by asking several questions for more comprehensive information. As the dialog becomes more extensive, machines are challenged to refer to previous conversation rounds to answer questions. In this work, we propose to leverage latent knowledge in existing conversation logs via a neural Retrieval-Reading system, enhanced with a TFIDF-based text summarizer refining lengthy conversational history to alleviate the long context issue. Our experiments show that our Retrieval-Reading system can exploit retrieved background knowledge to generate significantly better answers. The results also indicate that our context summarizer significantly helps both the retriever and the reader by introducing more concise and less noisy contextual information.
翻訳日:2022-12-20 16:10:48 公開日:2022-12-17
# 2スケールのグラディエントDescent Ascent Dynamicsが連続ゲームにおける混合ナッシュ平衡を発見:平均的な視点

Two-Scale Gradient Descent Ascent Dynamics Finds Mixed Nash Equilibria of Continuous Games: A Mean-Field Perspective ( http://arxiv.org/abs/2212.08791v1 )

ライセンス: Link先を確認
Yulong Lu(参考訳) 2プレイヤーゼロ和連続ゲームの混合ナッシュ平衡(MNE)を見つけることは、機械学習において重要かつ困難な問題である。 mne を見つけるための標準的なアルゴリズムは、無限の粒子極限において確率測度の空間上の「em平均場勾配上昇」(gda)ダイナミクスをもたらすノイズ勾配降下上昇法である。 本稿では, エントロピー正規化対象のMNEを求めるために, 2次元平均場GDAダイナミクスの収束性について検討する。 より正確には、任意の正の温度(あるいは正則化パラメータ)に対して、相互作用ポテンシャルの凸性や凸性を仮定することなく、2スケールの平均場 GDA が MNE に指数関数的に収束することを示す。 我々の証明の重要な要素は、平均場GDAに沿って指数関数的に散逸する新しいリャプノフ函数の構築である。 さらに平均場gdaダイナミクスのシミュレーションアニーリングについても検討した。 熱処理された平均場GDAは、対数的に減衰する温度スケジュールで元の非正規化対象関数のMNEに収束することを示す。

Finding the mixed Nash equilibria (MNE) of a two-player zero sum continuous game is an important and challenging problem in machine learning. A canonical algorithm to finding the MNE is the noisy gradient descent ascent method which in the infinite particle limit gives rise to the {\em Mean-Field Gradient Descent Ascent} (GDA) dynamics on the space of probability measures. In this paper, we first study the convergence of a two-scale Mean-Field GDA dynamics for finding the MNE of the entropy-regularized objective. More precisely we show that for any fixed positive temperature (or regularization parameter), the two-scale Mean-Field GDA with a {\em finite} scale ratio converges to exponentially to the unique MNE without assuming the convexity or concavity of the interaction potential. The key ingredient of our proof lies in the construction of new Lyapunov functions that dissipate exponentially along the Mean-Field GDA. We further study the simulated annealing of the Mean-Field GDA dynamics. We show that with a temperature schedule that decays logarithmically in time the annealed Mean-Field GDA converges to the MNE of the original unregularized objective function.
翻訳日:2022-12-20 16:04:21 公開日:2022-12-17
# RISE: 要約評価のための検索手法の活用

RISE: Leveraging Retrieval Techniques for Summarization Evaluation ( http://arxiv.org/abs/2212.08775v1 )

ライセンス: Link先を確認
David Uthus and Jianmo Ni(参考訳) 自動生成テキスト要約の評価は難しい課題である。 多くの興味深いアプローチがあったが、それでも人間の評価に欠けている。 本稿では,情報検索技術を活用した要約評価手法RISEを提案する。 RISEは、まず二重エンコーダ検索設定を用いて検索タスクとして訓練され、その後、ゴールド参照要約なしで入力された文書から生成された要約を評価するために利用することができる。 RISEは特に、評価に利用可能な参照サマリを持たない可能性のある新しいデータセットの開発に適している。 我々は,SummEvalベンチマーク(Fabbri et al., 2021)の総合的な実験を行い, RISEが従来の要約評価手法と比較して人間評価と高い相関性を示した。 さらにRISEは、言語間のデータ効率と一般化性も示す。

Evaluating automatically-generated text summaries is a challenging task. While there have been many interesting approaches, they still fall short of human evaluations. We present RISE, a new approach for evaluating summaries by leveraging techniques from information retrieval. RISE is first trained as a retrieval task using a dual-encoder retrieval setup, and can then be subsequently utilized for evaluating a generated summary given an input document, without gold reference summaries. RISE is especially well suited when working on new datasets where one may not have reference summaries available for evaluation. We conduct comprehensive experiments on the SummEval benchmark (Fabbri et al., 2021) and the results show that RISE has higher correlation with human evaluations compared to many past approaches to summarization evaluation. Furthermore, RISE also demonstrates data-efficiency and generalizability across languages.
翻訳日:2022-12-20 16:02:09 公開日:2022-12-17
# 構成的タスク構成による統一表-テキストモデルのクロスタスク一般化の改善

Improving Cross-task Generalization of Unified Table-to-text Models with Compositional Task Configurations ( http://arxiv.org/abs/2212.08780v1 )

ライセンス: Link先を確認
Jifan Chen, Yuhao Zhang, Lan Liu, Rui Dong, Xinchi Chen, Patrick Ng, William Yang Wang, Zhiheng Huang(参考訳) マルチタスク学習によって訓練された単一エンコーダ・デコーダモデル(Xie et al., 2022)を用いて、様々なテーブル・ツー・テキストタスクを統一する大きな進歩があった。 しかし、既存のメソッドは通常、単純なデータセット名をエンコーダのプレフィックスとしてタスク情報をエンコードする。 これはマルチタスク学習の有効性を制限するだけでなく、トレーニング中に見られなかった新しいドメインやタスクにモデルを一般化する能力を阻害する。 本稿では,エンコーダに事前されたプロンプトの集合であるコンポジションタスク構成を提案し,統一モデルのクロスタスク一般化を改善する。 我々は、タスクタイプとその入出力タイプを明示的に指定するためにタスク構成を設計する。 これは、トレーニング中に異なるタスク間で共有知識を学習するだけでなく、新しい入力と出力の組み合わせをゼロショットで適用する新しい構成を組み込むことで、モデルを制御できることを示している。 提案手法は,t5サイズのバックボーンを用いた場合,平均で+0.5および+12.6が向上し,ドメイン内およびゼロショット設定の両方において,unifiedskgベースラインよりも優れることを示す。

There has been great progress in unifying various table-to-text tasks using a single encoder-decoder model trained via multi-task learning (Xie et al., 2022). However, existing methods typically encode task information with a simple dataset name as a prefix to the encoder. This not only limits the effectiveness of multi-task learning, but also hinders the model's ability to generalize to new domains or tasks that were not seen during training, which is crucial for real-world applications. In this paper, we propose compositional task configurations, a set of prompts prepended to the encoder to improve cross-task generalization of unified models. We design the task configurations to explicitly specify the task type, as well as its input and output types. We show that this not only allows the model to better learn shared knowledge across different tasks at training, but also allows us to control the model by composing new configurations that apply novel input-output combinations in a zero-shot manner. We demonstrate via experiments over ten table-to-text tasks that our method outperforms the UnifiedSKG baseline by noticeable margins in both in-domain and zero-shot settings, with average improvements of +0.5 and +12.6 from using a T5-large backbone, respectively.
翻訳日:2022-12-20 16:01:57 公開日:2022-12-17
# テキストからsqlへのパースにおける高品質データの合成の重要性

Importance of Synthesizing High-quality Data for Text-to-SQL Parsing ( http://arxiv.org/abs/2212.08785v1 )

ライセンス: Link先を確認
Yiyun Zhao, Jiarong Jiang, Yiqun Hu, Wuwei Lan, Henry Zhu, Anuj Chauhan, Alexander Li, Lin Pan, Jun Wang, Chung-Wei Hang, Sheng Zhang, Marvin Dong, Joe Lilien, Patrick Ng, Zhiguo Wang, Vittorio Castelli, Bing Xiang(参考訳) 近年、ダウンストリームのテキスト-SQLタスクを改善するために、データの合成への関心が高まっている。 本稿では, 既存の合成データセットを最初に検証し, 拡張合成データを用いた学習において, 一般的なベンチマークでは, 最先端のテキスト対sqlアルゴリズムが改善されないことを発見した。 独立カラムサンプリングによる非論理的SQLクエリと任意のテーブル結合の2つの欠点を観察した。 これらの問題に対処するために,スキーマから重要な関係を取り入れ,強い型付けを課し,スキーマ距離重み付き列サンプリングを行う新しい合成フレームワークを提案する。 また、生成した自然言語質問の品質をさらに向上するために、SQL-to-textタスクの中間表現(IR)も採用しています。 既存の強力なセマンティクスパーサが高品質な合成データに事前調整されている場合、これらのモデルが、spiderの最新のパフォーマンスなど、人気のあるベンチマークでかなり精度が向上していることが実験で示されています。

Recently, there has been increasing interest in synthesizing data to improve downstream text-to-SQL tasks. In this paper, we first examined the existing synthesized datasets and discovered that state-of-the-art text-to-SQL algorithms did not further improve on popular benchmarks when trained with augmented synthetic data. We observed two shortcomings: illogical synthetic SQL queries from independent column sampling and arbitrary table joins. To address these issues, we propose a novel synthesis framework that incorporates key relationships from schema, imposes strong typing, and conducts schema-distance-weighted column sampling. We also adopt an intermediate representation (IR) for the SQL-to-text task to further improve the quality of the generated natural language questions. When existing powerful semantic parsers are pre-finetuned on our high-quality synthesized data, our experiments show that these models have significant accuracy boosts on popular benchmarks, including new state-of-the-art performance on Spider.
翻訳日:2022-12-20 16:01:33 公開日:2022-12-17
# フレキシブルセマンティックマッチングのための関係文埋め込み

Relational Sentence Embedding for Flexible Semantic Matching ( http://arxiv.org/abs/2212.08802v1 )

ライセンス: Link先を確認
Bin Wang, Haizhou Li(参考訳) 文埋め込みの可能性を明らかにするための新たなパラダイムとしてRSE(Relational Sentence Embedding)を提案する。 先行研究は主に、その埋め込み距離に基づいて文間の類似性をモデル化する。 複雑な意味意味が伝達されるため、文対は、含意、パラフレージング、質問応答を含む様々な関係型を持つことができる。 このような関係情報をキャプチャするために、既存の埋め込み手法に挑戦する。 関連する関係埋め込みを学習することで問題に対処する。 具体的には、ソース文に関係性翻訳操作を適用して、予め訓練されたシームズベースのエンコーダで対応する対象文を推測する。 きめ細かい関係性スコアは、学習した埋め込みから計算できる。 テキストの類似性,転送,ドメイン固有のタスクなど,幅広いタスクをカバーする19のデータセットに対して,本手法をベンチマークした。 実験の結果,本手法は文関係のモデル化に有効かつ柔軟であり,最先端文埋め込み手法よりも優れていることがわかった。 https://github.com/BinWang28/RSE

We present Relational Sentence Embedding (RSE), a new paradigm to further discover the potential of sentence embeddings. Prior work mainly models the similarity between sentences based on their embedding distance. Because of the complex semantic meanings conveyed, sentence pairs can have various relation types, including but not limited to entailment, paraphrasing, and question-answer. It poses challenges to existing embedding methods to capture such relational information. We handle the problem by learning associated relational embeddings. Specifically, a relation-wise translation operation is applied to the source sentence to infer the corresponding target sentence with a pre-trained Siamese-based encoder. The fine-grained relational similarity scores can be computed from learned embeddings. We benchmark our method on 19 datasets covering a wide range of tasks, including semantic textual similarity, transfer, and domain-specific tasks. Experimental results show that our method is effective and flexible in modeling sentence relations and outperforms a series of state-of-the-art sentence embedding methods. https://github.com/BinWang28/RSE
翻訳日:2022-12-20 16:01:15 公開日:2022-12-17
# イクブ! 俺が何をしてるか分かるか? 多感覚型iCubロボットにおけるマルチモーダル人間行動認識

iCub! Do you recognize what I am doing?: multimodal human action recognition on multisensory-enabled iCub robot ( http://arxiv.org/abs/2212.08859v1 )

ライセンス: Link先を確認
Kas Kniesmeijer and Murat Kirtay(参考訳) 本研究は,マルチモーダルな人間とロボットの相互作用の文脈における人間の行動を認識するために,多感覚データ(色と深さ)を用いる。 ここでは,20個の物体に4つの異なるツールを用いて,人間パートナーの事前定義された行動を観察するためにicubロボットを用いた。 提案するマルチモーダルアンサンブル学習は、3つのカラーカメラと1つの深度センサの相補的特性を活用し,1つのモダリティで訓練されたモデルと比較して認識精度を向上させる。 提案したモデルは、パートナー固有の適応や文脈的行動理解といった社会的タスクを含むマルチモーダルな行動認識を必要とするiCubロボットに展開可能であることを示唆している。

This study uses multisensory data (i.e., color and depth) to recognize human actions in the context of multimodal human-robot interaction. Here we employed the iCub robot to observe the predefined actions of the human partners by using four different tools on 20 objects. We show that the proposed multimodal ensemble learning leverages complementary characteristics of three color cameras and one depth sensor that improves, in most cases, recognition accuracy compared to the models trained with a single modality. The results indicate that the proposed models can be deployed on the iCub robot that requires multimodal action recognition, including social tasks such as partner-specific adaptation, and contextual behavior understanding, to mention a few.
翻訳日:2022-12-20 15:55:24 公開日:2022-12-17
# 歩行者対応自動運転のためのレベル-k$メタラーニング

Level-$k$ Meta-Learning for Pedestrian-Aware Self-Driving ( http://arxiv.org/abs/2212.08800v1 )

ライセンス: Link先を確認
Haozhe Lei and Quanyan Zhu(参考訳) 自動運転車の課題のひとつは、他の車だけでなく、都市環境の歩行者との対話だ。 交差点での歩行者行動の予測不能は、高い事故率につながる可能性がある。 自動運転車による最初の歩行者死亡事故は、2018年にアリゾナ州テンペの交差点を横断する女性に自動運転車が衝突した際に報告された。 自動運転車が車を制御し、事故を防ぐためのさまざまな歩行者行動に適応できるマシンインテリジェンスを作成する必要がある。 この作品では (a)車と人間のインタラクションのためのレベル-k$メタ強化学習モデルを開発し、そのソリューション概念を定義する。 b)LK-MRL構造をレベル1の自動車シナリオと相互作用するレベル0の歩行者でテストし、トレーニングされたポリシーを複数のベースライン手法と比較し、道路安全におけるその優位性を実証する。 さらに、レベル-k$思考の特性に基づき、レベル-$2$カーシナリオと相互作用する歩行者1ドル分のLK-MRL構造を検証し、LK-MRLが低レベルの思考者に対して最適な反応の戦略を用いて異なるレベルのエージェントを生成することによる強化学習を使用することにより、より高レベルのシナリオを作成できることを示す。

One challenge for self-driving cars is their interactions not only with other vehicles but also with pedestrians in urban environments. The unpredictability of pedestrian behaviors at intersections can lead to a high rate of accidents. The first pedestrian fatality caused by autonomous vehicles was reported in 2018 when a self-driving Uber vehicle struck a woman crossing an intersection in Tempe, Arizona in the nighttime. There is a need for creating machine intelligence that allows autonomous vehicles to control the car and adapt to different pedestrian behaviors to prevent accidents. In this work, (a) We develop a Level-$k$ Meta Reinforcement Learning model for the vehicle-human interactions and define its solution concept; (b) We test our LK-MRL structure in level-$0$ pedestrians interacting with level-$1$ car scenario, compare the trained policy with multiple baseline methods, and demonstrate its advantage in road safety; (c) Furthermore, based on the properties of level-$k$ thinking, we test our LK-MRL structure in level-$1$ pedestrians interacting with level-$2$ car scenario and verify by experimental results that LK-MRL maintains its advantageous with the using of reinforcement learning of producing different level of agents with strategies of the best response of their lower level thinkers, which provides us possible to create higher level scenarios.
翻訳日:2022-12-20 15:52:32 公開日:2022-12-17
# 連続価値推定における時間分解能管理--基本トレードオフ

Managing Temporal Resolution in Continuous Value Estimation: A Fundamental Trade-off ( http://arxiv.org/abs/2212.08949v1 )

ライセンス: Link先を確認
Zichen Zhang, Johannes Kirschner, Junxi Zhang, Francesco Zanini, Alex Ayoub, Masood Dehghan, Dale Schuurmans(参考訳) 強化学習と最適制御におけるデフォルトの仮定は、経験が固定クロックサイクルの離散時間点に到達することである。 しかし、多くのアプリケーションは、時間離散化が固定ではなく、学習アルゴリズムによって管理できる連続システムを含んでいる。 有限水平および無限水平設定におけるLQRシステムのモンテカルロ値推定を解析することにより、値推定における近似と統計的誤差の基本的なトレードオフを明らかにする。 重要なことは、これらの2つのエラーは時間離散化に関して異なる振る舞いをするので、データ予算に依存する時間分解能に最適な選択があることを意味する。 これらの結果は, 時間分解能の適応が有限データからLQRシステムの価値推定品質を向上することを示す。 実験的に,LQRインスタンスと非線形環境の数値シミュレーションにおけるトレードオフを実証する。

A default assumption in reinforcement learning and optimal control is that experience arrives at discrete time points on a fixed clock cycle. Many applications, however, involve continuous systems where the time discretization is not fixed but instead can be managed by a learning algorithm. By analyzing Monte-Carlo value estimation for LQR systems in both finite-horizon and infinite-horizon settings, we uncover a fundamental trade-off between approximation and statistical error in value estimation. Importantly, these two errors behave differently with respect to time discretization, which implies that there is an optimal choice for the temporal resolution that depends on the data budget. These findings show how adapting the temporal resolution can provably improve value estimation quality in LQR systems from finite data. Empirically, we demonstrate the trade-off in numerical simulations of LQR instances and several non-linear environments.
翻訳日:2022-12-20 15:44:30 公開日:2022-12-17
# 高次元特徴選択のための多重フィルタリングを用いた進化的マルチタスクアルゴリズム

An Evolutionary Multitasking Algorithm with Multiple Filtering for High-Dimensional Feature Selection ( http://arxiv.org/abs/2212.08854v1 )

ライセンス: Link先を確認
Lingjie Li, Manlin Xuan, Qiuzhen Lin, Min Jiang, Zhong Ming, Kay Chen Tan(参考訳) 近年、進化的マルチタスキング(EMT)は高次元分類の分野で成功している。 しかし、既存のemt-based feature selection (fs) メソッドにおける複数のタスクの生成は比較的簡単であり、relay-fメソッドのみを使用して、1つのタスクに同様の重要度を持つ関連機能を収集する。 そこで本研究では,複数のタスクを生成するために,まず異なるフィルタリング手法を採用し,次に競合するSwarmオプティマイザを改良し,これらのタスクを知識伝達により効率的に解決する,FSの新しいEMTアルゴリズムを提案する。 まず,無関係な特徴を排除し,複数の低次元FSタスクを生成する複数のフィルタリング手法に基づいて多元化多重タスク生成法を設計する。 このように、単純で関連するタスクを解くための有用な知識を伝達して、元の高次元FSタスクの解を簡素化し、高速化することができる。 そして、これらの関連するfsタスクを同時に解決するために競合スワムオプティマイザを変更し、それらの間に有用な知識を転送する。 提案したEMTに基づくFS法は18の高次元データセット上のいくつかの最先端FS法よりも優れた特徴サブセットが得られることを示す実験結果が多数ある。

Recently, evolutionary multitasking (EMT) has been successfully used in the field of high-dimensional classification. However, the generation of multiple tasks in the existing EMT-based feature selection (FS) methods is relatively simple, using only the Relief-F method to collect related features with similar importance into one task, which cannot provide more diversified tasks for knowledge transfer. Thus, this paper devises a new EMT algorithm for FS in high-dimensional classification, which first adopts different filtering methods to produce multiple tasks and then modifies a competitive swarm optimizer to efficiently solve these related tasks via knowledge transfer. First, a diversified multiple task generation method is designed based on multiple filtering methods, which generates several relevant low-dimensional FS tasks by eliminating irrelevant features. In this way, useful knowledge for solving simple and relevant tasks can be transferred to simplify and speed up the solution of the original high-dimensional FS task. Then, a competitive swarm optimizer is modified to simultaneously solve these relevant FS tasks by transferring useful knowledge among them. Numerous empirical results demonstrate that the proposed EMT-based FS method can obtain a better feature subset than several state-of-the-art FS methods on eighteen high-dimensional datasets.
翻訳日:2022-12-20 15:36:03 公開日:2022-12-17
# ラベル分布スキューを用いた連合学習のためのグローバル分布のモデル化

Modeling Global Distribution for Federated Learning with Label Distribution Skew ( http://arxiv.org/abs/2212.08883v1 )

ライセンス: Link先を確認
Tao Sheng, Chengchao Shen, Yuan Liu, Yeyu Ou, Zhe Qu, Jianxin Wang(参考訳) 連合学習は、分散データソースを接続することで、深いモデルの合同トレーニングを実現し、プライバシリークのリスクを著しく軽減する。 しかし、より一般的な場合、クライアント間のラベルの分布は、 ``label distribution skew'' と呼ばれる異なる。 ラベル分布スキュー問題を考慮せずに従来の連合学習を直接適用することは、グローバルモデルの性能を著しく損なう。 そこで本研究では,ラベル分散スキュー問題による性能劣化を軽減するために,FedMGDという新しいフェデレーション学習手法を提案する。 ローカルデータセットにアクセスせずにグローバルデータ分布をモデル化するグローバル生成逆ネットワークを導入し、プライバシリークなしにデータ分散のグローバル情報を使用してグローバルモデルをトレーニングすることができる。 実験の結果,提案手法はいくつかの公開ベンチマークにおいて,最先端の手法よりも優れていた。 コードは \url{https://github.com/Sheng-T/FedMGD} で入手できる。

Federated learning achieves joint training of deep models by connecting decentralized data sources, which can significantly mitigate the risk of privacy leakage. However, in a more general case, the distributions of labels among clients are different, called ``label distribution skew''. Directly applying conventional federated learning without consideration of label distribution skew issue significantly hurts the performance of the global model. To this end, we propose a novel federated learning method, named FedMGD, to alleviate the performance degradation caused by the label distribution skew issue. It introduces a global Generative Adversarial Network to model the global data distribution without access to local datasets, so the global model can be trained using the global information of data distribution without privacy leakage. The experimental results demonstrate that our proposed method significantly outperforms the state-of-the-art on several public benchmarks. Code is available at \url{https://github.com/Sheng-T/FedMGD}.
翻訳日:2022-12-20 15:27:56 公開日:2022-12-17
# 強化学習のための潜在変数表現

Latent Variable Representation for Reinforcement Learning ( http://arxiv.org/abs/2212.08765v1 )

ライセンス: Link先を確認
Tongzheng Ren, Chenjun Xiao, Tianjun Zhang, Na Li, Zhaoran Wang, Sujay Sanghavi, Dale Schuurmans, Bo Dai(参考訳) モデルに基づく強化学習(RL)において、複雑な遷移ダイナミクスをモデル化する上での表現性から、深潜時変モデルが顕著に成功している。 一方で、理論上、実験上、潜在変数モデルがrlのサンプル効率を改善するために学習、計画、探索をいかに促進できるかは、まだ不明である。 本稿では,状態動作値関数に対する潜在変数モデルの表現ビューを提供し,探索の不確実性に直面した移動可能な変分学習アルゴリズムとオプティミズム/ペシミズム原理の効果的な実装を両立させる。 特に,潜在変数モデルのカーネル埋め込みを組み込んだUPB探索を用いた計算効率の良い計画アルゴリズムを提案する。 理論的には,オンラインおよびオフライン環境で提案手法のサンプル複雑さを確立する。 実験的に、様々なベンチマークで現在の最先端アルゴリズムよりも優れた性能を示す。

Deep latent variable models have achieved significant empirical successes in model-based reinforcement learning (RL) due to their expressiveness in modeling complex transition dynamics. On the other hand, it remains unclear theoretically and empirically how latent variable models may facilitate learning, planning, and exploration to improve the sample efficiency of RL. In this paper, we provide a representation view of the latent variable models for state-action value functions, which allows both tractable variational learning algorithm and effective implementation of the optimism/pessimism principle in the face of uncertainty for exploration. In particular, we propose a computationally efficient planning algorithm with UCB exploration by incorporating kernel embeddings of latent variable models. Theoretically, we establish the sample complexity of the proposed approach in the online and offline settings. Empirically, we demonstrate superior performance over current state-of-the-art algorithms across various benchmarks.
翻訳日:2022-12-20 15:18:19 公開日:2022-12-17
# TCFimt : 複数の治療の観点からの時間的対実予測

TCFimt: Temporal Counterfactual Forecasting from Individual Multiple Treatment Perspective ( http://arxiv.org/abs/2212.08890v1 )

ライセンス: Link先を確認
Pengfei Xi, Guifeng Wang, Zhipeng Hu, Yu Xiong, Mingming Gong, Wei Huang, Runze Wu, Yu Ding, Tangjie Lv, Changjie Fan, Xiangnan Feng(参考訳) 時間的多介入による因果効果の決定は意思決定を支援する。 時間変化バイアス,選択バイアス,複数介入の相互作用によって制限されるため,個々の時間的データからの複数の治療効果のばらつきや推定はいまだに稀である。 これらの課題に対処するために、個別の多重処理の観点からの時間的対実予測(TCFimt)の包括的枠組みを提案する。 TCFimtは、選択と時間変化バイアスを軽減するためにSeq2seqフレームワークの逆タスクを構築し、比較学習ベースのブロックを設計し、混合処理効果を分離した主処理効果と因果相互作用に分解し、推定精度をさらに向上させる。 異なる分野の2つの実世界のデータセットで実験を行うことにより, 特定の治療による将来の成果予測や, 最先端の手法よりも最適な治療型とタイミングの選択において, 良好な性能を示す。

Determining causal effects of temporal multi-intervention assists decision-making. Restricted by time-varying bias, selection bias, and interactions of multiple interventions, the disentanglement and estimation of multiple treatment effects from individual temporal data is still rare. To tackle these challenges, we propose a comprehensive framework of temporal counterfactual forecasting from an individual multiple treatment perspective (TCFimt). TCFimt constructs adversarial tasks in a seq2seq framework to alleviate selection and time-varying bias and designs a contrastive learning-based block to decouple a mixed treatment effect into separated main treatment effects and causal interactions which further improves estimation accuracy. Through implementing experiments on two real-world datasets from distinct fields, the proposed method shows satisfactory performance in predicting future outcomes with specific treatments and in choosing optimal treatment type and timing than state-of-the-art methods.
翻訳日:2022-12-20 15:18:06 公開日:2022-12-17
# 「作れば来る」:ニュース記事における党の選好を検知するニュース保有者の自動識別

'If you build they will come': Automatic Identification of News-Stakeholders to detect Party Preference in News Coverage ( http://arxiv.org/abs/2212.08864v1 )

ライセンス: Link先を確認
Alapan Kuila and Sudeshna Sarkar(参考訳) ニュース記事で言及された様々な利害関係者の報道は、関係するニュース出版社のスラントや極性の検出に大きな影響を及ぼす。 例えば、政府寄りのメディアは、ニュースオーディエンスへのアクセシビリティを高めるために、政府の利害関係者により多くの報道を提供する。 対照的に、反政府報道機関は、対立する利害関係者の見解に注目して、政府の政策の欠点について読者に伝える。 本稿では,ニュース記事からの利害関係者抽出の問題に対処し,ニュース報道に内在する固有のバイアスを決定する。 ニューストピックごとに利害関係者が異なるため、マルチトピックニュースシナリオにおける潜在的な利害関係者の特定は難しい。 本稿では,文脈情報と外部知識の両方を用いて,ニュース記事からトピック固有のステークホルダーを特定する。 また,類似した利害関係者タイプを持つエンティティをグループ化するために,逐次的クラスタリングアルゴリズムを適用した。 我々は、多くの国や国際機関が発行する4つのインド政府の政策に関するニュース記事について、全ての実験を行った。 また,本システムをさらに一般化し,提案モデルが他のニューストピックにも拡張可能であることを示す実験結果を得た。

The coverage of different stakeholders mentioned in the news articles significantly impacts the slant or polarity detection of the concerned news publishers. For instance, the pro-government media outlets would give more coverage to the government stakeholders to increase their accessibility to the news audiences. In contrast, the anti-government news agencies would focus more on the views of the opponent stakeholders to inform the readers about the shortcomings of government policies. In this paper, we address the problem of stakeholder extraction from news articles and thereby determine the inherent bias present in news reporting. Identifying potential stakeholders in multi-topic news scenarios is challenging because each news topic has different stakeholders. The research presented in this paper utilizes both contextual information and external knowledge to identify the topic-specific stakeholders from news articles. We also apply a sequential incremental clustering algorithm to group the entities with similar stakeholder types. We carried out all our experiments on news articles on four Indian government policies published by numerous national and international news agencies. We also further generalize our system, and the experimental results show that the proposed model can be extended to other news topics.
翻訳日:2022-12-20 15:09:27 公開日:2022-12-17
# 信頼できる医療人工知能の文脈依存的説明可能性と検証可能性:幼児期における形態認識モデルの誤分類

Context-dependent Explainability and Contestability for Trustworthy Medical Artificial Intelligence: Misclassification Identification of Morbidity Recognition Models in Preterm Infants ( http://arxiv.org/abs/2212.08821v1 )

ライセンス: Link先を確認
Isil Guzey, Ozlem Ucar, Nukhet Aladag Ciftdemir, Betul Acunas(参考訳) AIの機械学習(ML)モデルは医療における高いパフォーマンスを達成するが、エラーは発生しない。 臨床医に誤ったモデルレコメンデーションを特定する権限を与えることは、医療AIへの信頼を高めるために不可欠である。 説明可能なAI(XAI)は、エンドユーザーをサポートするAI推論を明確にすることで、この要件に対処することを目指している。 バイオメディカルイメージングに関するいくつかの研究は、近年有望な結果を得た。 それでも、表型データを用いたモデルの解決策はまだ臨床医の要求を満たすには不十分である。 本稿では,表データで学習したmlモデルの障害を臨床医が識別するための手法を提案する。 我々は,本手法を3つの主柱で構築した。臨床文脈潜伏空間を活用した特徴集合の分解,グローバル説明の臨床的関連の評価,局所的説明に基づく潜伏空間類似性(lss)である。 感染による早期乳児死亡のmlに基づく認識に関する方法論を実証した。 モデル障害による死亡、生涯障害、抗生物質耐性のリスクは、この領域におけるオープンな研究課題であった。 アプローチによって,2つのモデルの誤分類事例を識別できた。 局所的な説明を文脈化することにより、臨床医に情報的最終決定のための自律性を支援するための実用的な洞察を提供する。

Although machine learning (ML) models of AI achieve high performances in medicine, they are not free of errors. Empowering clinicians to identify incorrect model recommendations is crucial for engendering trust in medical AI. Explainable AI (XAI) aims to address this requirement by clarifying AI reasoning to support the end users. Several studies on biomedical imaging achieved promising results recently. Nevertheless, solutions for models using tabular data are not sufficient to meet the requirements of clinicians yet. This paper proposes a methodology to support clinicians in identifying failures of ML models trained with tabular data. We built our methodology on three main pillars: decomposing the feature set by leveraging clinical context latent space, assessing the clinical association of global explanations, and Latent Space Similarity (LSS) based local explanations. We demonstrated our methodology on ML-based recognition of preterm infant morbidities caused by infection. The risk of mortality, lifelong disability, and antibiotic resistance due to model failures was an open research question in this domain. We achieved to identify misclassification cases of two models with our approach. By contextualizing local explanations, our solution provides clinicians with actionable insights to support their autonomy for informed final decisions.
翻訳日:2022-12-20 15:08:22 公開日:2022-12-17
# FSCNN:高速スパース畳み込みニューラルネットワーク推論システム

FSCNN: A Fast Sparse Convolution Neural Network Inference System ( http://arxiv.org/abs/2212.08815v1 )

ライセンス: Link先を確認
Bo Ji, Tianyi Chen(参考訳) 畳み込みニューラルネットワーク(CNN)は大きな成功を収めているが、通常は高い計算コストと多くの冗長な重みパラメータを伴う。 フラップを減らすため、構造プルーニングは粗い粒度を導入することによって隠れた構造全体を取り除く一般的な方法である。 一方、豊富な刈り取り作業は、代わりに細粒度のスパース(スパースがランダムに分散している)を利用するが、そのスパースモデルは、潜在的なスピードアップのために特別に設計された計算ライブラリを欠いている。 本稿では,圧縮されたCNNの微細粒度を利用した効率的な畳み込みニューラルネットワーク推論システムについて検討し,その前方通過を高速化する。 開発したFSCNNは,特殊設計されたスパースデータ構造,演算子および関連するアルゴリズムに基づいて構築される。 実験により,FSCNNは,VGG16などの一般的なCNNアーキテクチャにおいて,十分な頻度で,標準ディープラーニングライブラリであるPyTorchよりも優れていることを確認した。 しかし、スパース演算子の整合性の問題により、FSCNNは高度に最適化された高密度演算子とは比較にならないことが多い。 したがって、粗粒(構造化)空間は一般的なモデル圧縮の推奨事項である。

Convolution neural networks (CNNs) have achieved remarkable success, but typically accompany high computation cost and numerous redundant weight parameters. To reduce the FLOPs, structure pruning is a popular approach to remove the entire hidden structures via introducing coarse-grained sparsity. Meanwhile, plentiful pruning works leverage fine-grained sparsity instead (sparsity are randomly distributed), whereas their sparse models lack special designed computing library for potential speedup. In this technical report, we study and present an efficient convolution neural network inference system to accelerate its forward pass by utilizing the fine-grained sparsity of compressed CNNs. Our developed FSCNN is established based on a set of specialized designed sparse data structures, operators and associated algorithms. Experimentally, we validate that FSCNN outperforms standard deep learning library PyTorch on popular CNN architectures such as VGG16 if sufficiently high sparsity exhibits. However, due to the contiguity issue of sparse operators, FSCNN is typically not comparable with highly optimized dense operator. Therefore, coarse-grained (structured) sparsity is our recommendation for generic model compression.
翻訳日:2022-12-20 14:59:22 公開日:2022-12-17
# 暗黙的化学空間における多目的進化による分子最適化

Molecule optimization via multi-objective evolutionary in implicit chemical space ( http://arxiv.org/abs/2212.08826v1 )

ライセンス: Link先を確認
Xin Xia, Yansen Su, Chunhou Zheng, Xiangxiang Zeng(参考訳) 機械学習手法は分子最適化プロセスの高速化に用いられている。 しかし、少ないラベル付きデータでいくつかの特性を満たす最適化分子の効率的な探索は、機械学習分子最適化の課題である。 本研究では,化学知識の学習とパレートに基づく多目的進化探索を組み合わせた多目的分子最適化フレームワークであるmomoを提案する。 化学を学ぶために、自己教師付きコーデックを用いて暗黙的な化学空間を構築し、分子の継続表現を取得する。 確立された化学空間を探索するために、MOMOは多目的進化を用いて、複数の望ましい性質を持つ類似分子を包括的かつ効率的に探索する。 4つの多目的特性と類似性最適化タスクにおけるMOMOの性能を実証し、ケーススタディを通してMOMOの探索能力を示す。 また,本手法は3つの目標を同時に最適化する従来の手法よりも優れていた。 その結果,MOMOの最適化能力が示され,リード分子最適化の成功率の向上が示唆された。

Machine learning methods have been used to accelerate the molecule optimization process. However, efficient search for optimized molecules satisfying several properties with scarce labeled data remains a challenge for machine learning molecule optimization. In this study, we propose MOMO, a multi-objective molecule optimization framework to address the challenge by combining learning of chemical knowledge with Pareto-based multi-objective evolutionary search. To learn chemistry, it employs a self-supervised codec to construct an implicit chemical space and acquire the continues representation of molecules. To explore the established chemical space, MOMO uses multi-objective evolution to comprehensively and efficiently search for similar molecules with multiple desirable properties. We demonstrate the high performance of MOMO on four multi-objective property and similarity optimization tasks, and illustrate the search capability of MOMO through case studies. Remarkably, our approach significantly outperforms previous approaches in optimizing three objectives simultaneously. The results show the optimization capability of MOMO, suggesting to improve the success rate of lead molecule optimization.
翻訳日:2022-12-20 14:50:45 公開日:2022-12-17
# クリックによる注釈:医学的セマンティックセグメンテーションのための点強調コントラスト分散法

Annotation by Clicks: A Point-Supervised Contrastive Variance Method for Medical Semantic Segmentation ( http://arxiv.org/abs/2212.08774v1 )

ライセンス: Link先を確認
Qing En, Yuhong Guo(参考訳) 医用画像のセグメンテーション法は、一般的にモデルトレーニングに多くの高密度な注釈付き画像に頼っている。 この負担を軽減するために、より安価なアノテーションでセグメンテーションモデルを訓練するために、弱い監督技術が活用されている。 本稿では,各臓器カテゴリから1ピクセルしか注釈を付けない,医用画像セグメンテーションのための新しい点教師付きコントラスト分散法(PSCV)を提案する。 提案手法では,ラベルなし画素とラベル付き画素の部分クロスエントロピー損失を利用するために,新しいコントラスト分散(cv)損失を用いてベースセグメンテーションネットワークを訓練する。 CV損失関数は、医用画像中の臓器の統計的空間分布特性とその分散分布マップ表現を利用して、ラベルなし画素に対する識別的予測を行うように設計されている。 2つの標準医用画像データセットによる実験結果から,提案手法は点監督医用画像セマンティックセグメンテーションタスクにおいて,最先端の弱教師付き手法よりも優れていることが示された。

Medical image segmentation methods typically rely on numerous dense annotated images for model training, which are notoriously expensive and time-consuming to collect. To alleviate this burden, weakly supervised techniques have been exploited to train segmentation models with less expensive annotations. In this paper, we propose a novel point-supervised contrastive variance method (PSCV) for medical image semantic segmentation, which only requires one pixel-point from each organ category to be annotated. The proposed method trains the base segmentation network by using a novel contrastive variance (CV) loss to exploit the unlabeled pixels and a partial cross-entropy loss on the labeled pixels. The CV loss function is designed to exploit the statistical spatial distribution properties of organs in medical images and their variance distribution map representations to enforce discriminative predictions over the unlabeled pixels. Experimental results on two standard medical image datasets demonstrate that the proposed method outperforms the state-of-the-art weakly supervised methods on point-supervised medical image semantic segmentation tasks.
翻訳日:2022-12-20 14:34:11 公開日:2022-12-17
# 自己組織化マップに基づく2サンプルテスト

Two-sample test based on Self-Organizing Maps ( http://arxiv.org/abs/2212.08960v1 )

ライセンス: Link先を確認
Alejandro \'Alvarez-Ayll\'on, Manuel Palomo-Duarte, Juan-Manuel Dodero(参考訳) 機械学習分類器は2サンプル統計テストとして利用することができる。 各サンプルが異なるラベルに割り当てられ、分類器がそれらを識別するより優れた結果を得ることができると仮定する。 この場合、両方のサンプルは異なる集団に由来すると推測できる。 しかし、ニューラルネットワークのような多くのタイプのモデルは、ユーザにとってブラックボックスとして振る舞う: 両方のサンプルが同じ集団に由来することを拒否できるが、両方のサンプルがどう異なるかについての洞察を与えない。 自己組織化マップは、当初は創発的特性を表示するデータ可視化ツールとして考案された次元縮小であり、分類タスクにも有用である。 これらは分類器として使用できるので、2つのサンプル統計テストとしても使用できる。 しかし、本来の目的は視覚化であるため、洞察を与えることもできる。

Machine-learning classifiers can be leveraged as a two-sample statistical test. Suppose each sample is assigned a different label and that a classifier can obtain a better-than-chance result discriminating them. In this case, we can infer that both samples originate from different populations. However, many types of models, such as neural networks, behave as a black-box for the user: they can reject that both samples originate from the same population, but they do not offer insight into how both samples differ. Self-Organizing Maps are a dimensionality reduction initially devised as a data visualization tool that displays emergent properties, being also useful for classification tasks. Since they can be used as classifiers, they can be used also as a two-sample statistical test. But since their original purpose is visualization, they can also offer insights.
翻訳日:2022-12-20 14:32:49 公開日:2022-12-17
# ビーム探索再ランキングのための簡易ベースライン

A Simple Baseline for Beam Search Reranking ( http://arxiv.org/abs/2212.08926v1 )

ライセンス: Link先を確認
Lior Vassertail, Omer Levy(参考訳) 機械翻訳における格付け法は、共通評価指標(例えばBLEU)と最大可能性学習と復号アルゴリズムの間のギャップを埋めることを目的としている。 以前の作業では、予測されたBLEUスコアに従ってビーム検索候補をリランクするモデルをトレーニングし、巨大なモノリンガルコーパスで事前トレーニングされた大きなモデル上に構築していた。 本研究では,翻訳候補のBLEUスコアを,追加データやパラメータを導入することなく予測するための簡単な手法を検討する。 我々のアプローチは、この領域における今後の研究のために、外部要因から切り離されたクリーンなベースラインとして使用できる。

Reranking methods in machine translation aim to close the gap between common evaluation metrics (e.g. BLEU) and maximum likelihood learning and decoding algorithms. Prior works address this challenge by training models to rerank beam search candidates according to their predicted BLEU scores, building upon large models pretrained on massive monolingual corpora -- a privilege that was never made available to the baseline translation model. In this work, we examine a simple approach for training rerankers to predict translation candidates' BLEU scores without introducing additional data or parameters. Our approach can be used as a clean baseline, decoupled from external factors, for future research in this area.
翻訳日:2022-12-20 14:14:56 公開日:2022-12-17
# DCS-RISR:高効率実世界の超解像のための動的チャネル分割

DCS-RISR: Dynamic Channel Splitting for Efficient Real-world Image Super-Resolution ( http://arxiv.org/abs/2212.07613v2 )

ライセンス: Link先を確認
Junbo Qiao, Shaohui Lin, Yunlun Zhang, Wei Li, Jie Hu, Gaoqi He, Changbo Wang, Zhuangli Ma(参考訳) 実世界の画像超解像(RISR)は、未知の複雑な劣化下でのSR画像の品質向上に焦点を当てている。 既存の方法は、リソース制限されたデバイスへの実用的展開を著しく制限する、さまざまな劣化レベルの低解像度(LR)画像を強化するために、重いSRモデルに依存している。 本稿では,DCS-RISRと呼ばれる高効率リアルタイム画像超解法のための動的チャネル分割方式を提案する。 具体的には、まず光劣化予測ネットワークを導入し、劣化ベクトルを回帰させて実世界の劣化をシミュレートし、そこでチャネル分割ベクトルを効率的なSRモデルの入力として生成する。 そこで,学習可能なオクターブ畳み込みブロックを提案し,各ブロックにおける低周波・高周波特性のチャネル分割スケールを適応的に決定し,低周波特性の大規模化と小型化により計算オーバーヘッドとメモリコストを低減した。 RISRの性能をさらに向上させるために、LRおよびHR部分空間からのパッチの知識を自由計算推論で補うために非局所正規化を用いる。 大規模な実験は、異なるベンチマークデータセットに対するDCS-RISRの有効性を示す。 我々のDCS-RISRは計算/パラメータとPSNR/SSIMの最良のトレードオフを達成するだけでなく、劣化レベルが異なる実世界の画像を効果的に処理する。

Real-world image super-resolution (RISR) has received increased focus for improving the quality of SR images under unknown complex degradation. Existing methods rely on the heavy SR models to enhance low-resolution (LR) images of different degradation levels, which significantly restricts their practical deployments on resource-limited devices. In this paper, we propose a novel Dynamic Channel Splitting scheme for efficient Real-world Image Super-Resolution, termed DCS-RISR. Specifically, we first introduce the light degradation prediction network to regress the degradation vector to simulate the real-world degradations, upon which the channel splitting vector is generated as the input for an efficient SR model. Then, a learnable octave convolution block is proposed to adaptively decide the channel splitting scale for low- and high-frequency features at each block, reducing computation overhead and memory cost by offering the large scale to low-frequency features and the small scale to the high ones. To further improve the RISR performance, Non-local regularization is employed to supplement the knowledge of patches from LR and HR subspace with free-computation inference. Extensive experiments demonstrate the effectiveness of DCS-RISR on different benchmark datasets. Our DCS-RISR not only achieves the best trade-off between computation/parameter and PSNR/SSIM metric, and also effectively handles real-world images with different degradation levels.
翻訳日:2022-12-20 12:03:24 公開日:2022-12-17
# 新しいディープブーストcnnとアンサンブル学習によるiotマルウェア検出

A New Deep Boosted CNN and Ensemble Learning based IoT Malware Detection ( http://arxiv.org/abs/2212.08008v2 )

ライセンス: Link先を確認
Saddam Hussain Khan, Wasi Ullah (Department of Computer Systems Engineering, University of Engineering and Applied Science, Swat, Pakistan)(参考訳) セキュリティ問題は、特に早期検出を必要とするIoT(Internet of Things)環境で、さまざまなタイプのネットワークで脅かされている。 iotはホームオートメーションシステムのようなリアルタイムデバイスのネットワークであり、オープンソースのandroidデバイスで制御することができる。 攻撃者はネットワークにアクセスし、異なる種類のセキュリティ侵害を開始し、ネットワーク制御を侵害する。 そのため,高度なマルウェア攻撃の増加をタイムリーに検出することは,ネットワーク保護の信頼性を確保するための課題である。 本研究では,新しいマルウェア検出フレームワークであるDeep Squeezed-Boosted and Ensemble Learning (DSBEL)を開発し,SB-BR-STM(Squeezed-Boosted Boundary-Region Split-Transform-Merge) CNNとアンサンブル学習を行った。 提案されたs.t.m.ブロックは、多経路拡張畳み込み、境界、および地域操作を用いて、均質で不均一なグローバル悪質パターンを捉えている。 さらに、転送学習とマルチパスベースのスクイーズと初期および最終レベルでの強化により、多種多様な特徴マップを達成し、微小パターンのバリエーションを学習する。 最後に、開発した深層SB-BR-STM CNNから強化された識別特徴を抽出し、アンサンブル分類器(SVM、M.L.P.、AdaboostM1)に提供し、ハイブリッド学習一般化を改善する。 提案手法に対するDSBELフレームワークとSB-BR-STM CNNの性能解析をIOT_Malwareデータセットで評価した。 評価結果は、98.50%の精度、97.12%のF1スコア、91.91%のMCC、95.97%のリコール、98.42%の精度で進行性を示す。 提案するマルウェア分析フレームワークは、悪意のある活動のタイムリーな検出に役立ち、今後の戦略を提案する。

Security issues are threatened in various types of networks, especially in the Internet of Things (IoT) environment that requires early detection. IoT is the network of real-time devices like home automation systems and can be controlled by open-source android devices, which can be an open ground for attackers. Attackers can access the network, initiate a different kind of security breach, and compromises network control. Therefore, timely detecting the increasing number of sophisticated malware attacks is the challenge to ensure the credibility of network protection. In this regard, we have developed a new malware detection framework, Deep Squeezed-Boosted and Ensemble Learning (DSBEL), comprised of novel Squeezed-Boosted Boundary-Region Split-Transform-Merge (SB-BR-STM) CNN and ensemble learning. The proposed S.T.M. block employs multi-path dilated convolutional, Boundary, and regional operations to capture the homogenous and heterogeneous global malicious patterns. Moreover, diverse feature maps are achieved using transfer learning and multi-path-based squeezing and boosting at initial and final levels to learn minute pattern variations. Finally, the boosted discriminative features are extracted from the developed deep SB-BR-STM CNN and provided to the ensemble classifiers (SVM, M.L.P., and AdaboostM1) to improve the hybrid learning generalization. The performance analysis of the proposed DSBEL framework and SB-BR-STM CNN against the existing techniques have been evaluated by the IOT_Malware dataset on standard performance measures. Evaluation results show progressive performance as 98.50% accuracy, 97.12% F1-Score, 91.91% MCC, 95.97 % Recall, and 98.42 % Precision. The proposed malware analysis framework is helpful for the timely detection of malicious activity and suggests future strategies.
翻訳日:2022-12-20 11:59:44 公開日:2022-12-17
# MetaPortrait: パーソナライズされた高速適応によるアイデンティティ保護型トーキングヘッド生成

MetaPortrait: Identity-Preserving Talking Head Generation with Fast Personalized Adaptation ( http://arxiv.org/abs/2212.08062v2 )

ライセンス: Link先を確認
Bowen Zhang, Chenyang Qi, Pan Zhang, Bo Zhang, HsiangTao Wu, Dong Chen, Qifeng Chen, Yong Wang, Fang Wen(参考訳) 本研究では,従来の手法を2つの側面で前進させる,ID保存型音声ヘッド生成フレームワークを提案する。 まず, スパースフローからの補間とは対照的に, 密集したランドマークは, 正確な幾何学的認識フロー場を達成するために重要であると主張する。 第2に,フェース・スワッピング法に触発されて,合成中の音源識別を適応的に融合させることで,画像像のキー特性をよりよく保存する。 提案手法は, 既存のベンチマークにおいて, 従来モデルよりも精度が高いが, さらに実使用に適した発話ヘッド生成を実現するためには, パーソナライズされた微調整が必要である。 しかし、このプロセスは標準ユーザーには不都合な計算的な要求がある。 そこで本研究ではメタラーニング手法を用いた高速適応モデルを提案する。 学習したモデルは、高品質のパーソナライズされたモデルに30秒で適応できる。 最後に,時間的コヒーレンシを確保しつつ細部の改善を図るため,空間的時間的拡張モジュールを提案する。 広範にわたる実験は、ワンショットとパーソナライズされた設定の両方において、芸術の状況に対する我々のアプローチの顕著な優位性を証明している。

In this work, we propose an ID-preserving talking head generation framework, which advances previous methods in two aspects. First, as opposed to interpolating from sparse flow, we claim that dense landmarks are crucial to achieving accurate geometry-aware flow fields. Second, inspired by face-swapping methods, we adaptively fuse the source identity during synthesis, so that the network better preserves the key characteristics of the image portrait. Although the proposed model surpasses prior generation fidelity on established benchmarks, to further make the talking head generation qualified for real usage, personalized fine-tuning is usually needed. However, this process is rather computationally demanding that is unaffordable to standard users. To solve this, we propose a fast adaptation model using a meta-learning approach. The learned model can be adapted to a high-quality personalized model as fast as 30 seconds. Last but not the least, a spatial-temporal enhancement module is proposed to improve the fine details while ensuring temporal coherency. Extensive experiments prove the significant superiority of our approach over the state of the arts in both one-shot and personalized settings.
翻訳日:2022-12-20 11:57:35 公開日:2022-12-17