このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230305となっている論文です。

PDF登録状況(公開日: 20230305)

TitleAuthorsAbstract論文公表日・翻訳日
# 翻訳不変環境における電流

Electric current in a translation invariant environment ( http://arxiv.org/abs/1904.06338v3 )

ライセンス: Link先を確認
Janos Polonyi, Ines Rachid(参考訳) 変換不変な弱結合環境と相互作用する荷電粒子の還元密度行列のマスター方程式を考察する。 電流は系-環境相互作用によって再正規化され、ブレムスシュトラルングの環境の直接的シグネチャとなる。 外部電磁界がなければ一般解が与えられ、波状パケットの拡散とデコヒーレンスが追従される。 密度行列における境界条件の複雑さの増大と重要性を指摘する。

The master equation for the reduced density matrix of a charged particle interacting with a translation invariant weakly coupled environment is considered. The electric current is renormalized by the system-environment interaction, leading to a direct signature of the environment in the bremsstrahlung. The general solution is given in the absence of the external electromagnetic field and the spread and the decoherence of a wave packet are followed. The increased complexity and importance of the boundary conditions for the density matrix are pointed out.
翻訳日:2023-03-25 04:42:17 公開日:2023-03-05
# 原子上の気性電子パケットの弾性散乱

Elastic scattering of Airy electron packets on atoms ( http://arxiv.org/abs/2211.16534v2 )

ライセンス: Link先を確認
D. Grosman, N. Sheremet, I. Pavlov, and D. Karlovets(参考訳) 電子エアリービームの電位場における弾性散乱の問題は、基底状態の水素原子と湯川ポテンシャルに対して考慮される。 散乱確率密度の角依存性は一般に方位非対称であることが示されている。 原子の位置が1つに一致したとき、エアリービームの確率密度の最小値である場合、非対称パターンは4つの分離ピークによって表される。 この挙動は、原子とミニマの相対的な位置が定義される精度に非常に敏感であり、波束の横方向の大きさで測定された位置の不確かさがアジムタル非対称性の観測にどのように影響するかを調べる。 最後に、空間的局所化対象を考察し、ビームパラメータとターゲット中心の位置によって決定される臨界値を超える大きさのターゲットに対してアジムタール非対称性を観測することの難しさについて議論する。

The problem of elastic scattering of electron Airy beams on potential fields is considered for a hydrogen atom in the ground state and for Yukawa potential. It is demonstrated that the angular dependence of the scattering probability density is in general azimuthally asymmetric. When the position of the atom happens to coincide with one the minima of the probability density of the Airy beam the asymmetric pattern is represented by four separated peaks. We show that this behaviour is very sensitive to the precision with which the relative position of the atom and the minima is defined and study how uncertainty in the position measured in terms of the transverse size of the wave-packet affects observation of azimuthal asymmetry. Finally, we consider a spatially localized target and discuss the difficulties of observing the azimuthal asymmetry for targets with sizes that exceed the critical value determined by the beam parameters and the position of the target center.
翻訳日:2023-03-25 03:46:27 公開日:2023-03-05
# サイバーセキュリティフォーラムにおけるスレッド構造予測のためのプロンプト学習

Prompt-Based Learning for Thread Structure Prediction in Cybersecurity Forums ( http://arxiv.org/abs/2303.05400v1 )

ライセンス: Link先を確認
Kazuaki Kashihara, Kuntal Kumar Pal, Chitta Baral, Robert P Trevino(参考訳) 近年のサイバー犯罪は頻度とコストの両方で増加傾向にあるため、データリッチなハッカーフォーラムを利用して、進化を続けるサイバー脅威と戦う新しい方法を開発することが不可欠である。 これらのフォーラム内でのインタラクションの定義は、高度に熟練したユーザを特定し、新たな脅威の予測と将来のサイバー攻撃を改善するため、非常に重要である。 そこで本研究では,Next Paragraph Prediction with Instructional Prompting (NPP-IP) という手法を提案する。 サイバーセキュリティドメインに命令プロンプトアプローチを適用するのは,これが初めてだ。 我々はNPP-IPをRedditデータセットとHacker Forumsデータセットで評価し、実際のハッカーフォーラムのスレッドの投稿とスレッド構造を持ち、既存のメソッドと比較した。 実験により,提案手法は既存の手法よりもスレッド構造を著しく予測でき,フォーラム間インタラクションに基づくより優れたsns予測が可能となった。

With recent trends indicating cyber crimes increasing in both frequency and cost, it is imperative to develop new methods that leverage data-rich hacker forums to assist in combating ever evolving cyber threats. Defining interactions within these forums is critical as it facilitates identifying highly skilled users, which can improve prediction of novel threats and future cyber attacks. We propose a method called Next Paragraph Prediction with Instructional Prompting (NPP-IP) to predict thread structures while grounded on the context around posts. This is the first time to apply an instructional prompting approach to the cybersecurity domain. We evaluate our NPP-IP with the Reddit dataset and Hacker Forums dataset that has posts and thread structures of real hacker forums' threads, and compare our method's performance with existing methods. The experimental evaluation shows that our proposed method can predict the thread structure significantly better than existing methods allowing for better social network prediction based on forum interactions.
翻訳日:2023-03-10 13:55:08 公開日:2023-03-05
# 画像のエネルギーの作り方? デノージングオートエンコーダはエネルギーベースモデルになり得る

How to Construct Energy for Images? Denoising Autoencoder Can Be Energy Based Model ( http://arxiv.org/abs/2303.03887v1 )

ライセンス: Link先を確認
Weili Zeng(参考訳) エネルギーベースのモデルはデータサンプルの非正規化ログ確率をパラメータ化するが、「エネルギー」を構築するためのガイダンスが欠如している。 本稿では,画像エネルギーを「セマンティックエネルギー」と「テクスチャエネルギー」に分解するDenoising-EBMを提案する。 我々は高レベル表現をモデル化するためにdaeの潜在空間における「意味エネルギー」を定義し、雑音化のためのピクセルレベルの再構成誤差を「テクチュアエネルギー」として定義する。 スコアベースモデルにインスパイアされた本モデルでは,最大音量トレーニングにマルチスケールノイズサンプルを用い,スカラーの代わりにベクトルを出力し,最適化時により大きな関数集合を探索する。 トレーニング後、セマンティクスは「セマンティクスエネルギー」を介して高速MCMCによって最初に合成され、続いてセマンティクス画像のピクセルレベルの精細化を行い、「テクスチャエネルギー」に基づいて完璧なサンプルを生成する。 最終的に、私たちのモデルは画像生成においてほとんどのEMMより優れている。 また,Denoising-EBMは分布外検出のためのESMの中で最も優れた性能を示す。

Energy-based models parameterize the unnormalized log-probability of data samples, but there is a lack of guidance on how to construct the "energy". In this paper, we propose a Denoising-EBM which decomposes the image energy into "semantic energy" and "texture energy". We define the "semantic energy" in the latent space of DAE to model the high-level representations, and define the pixel-level reconstruction error for denoising as "texture energy". Inspired by score-based model, our model utilizes multi-scale noisy samples for maximum-likelihood training and it outputs a vector instead of a scalar for exploring a larger set of functions during optimization. After training, the semantics are first synthesized by fast MCMC through "semantic energy", and then the pixel-level refinement of semantic image will be performed to generate perfect samples based on "texture energy". Ultimately, our model can outperform most EBMs in image generation. And we also demonstrate that Denoising-EBM has top performance among EBMs for out-of-distribution detection.
翻訳日:2023-03-08 15:22:58 公開日:2023-03-05
# メキシコの町の子供たちにaiとロボティクスを教える

Teaching AI and Robotics to Children in a Mexican town ( http://arxiv.org/abs/2303.03956v1 )

ライセンス: Link先を確認
Antonio Badillo-Perez, Donato Badillo-Perez, Alex Barco, Rocio Montenegro and Miguel Xochicale(参考訳) 本稿では,低所得国と中所得国の子どもにaiとロボティクスを教えることの課題を検討することを目的としたパイロット研究を行う。 aiとロボティクスを教えるためのメキシコの町の限られた資源は、モンテッソーリ法とオープンソースの教育ロボットによる包括的学習活動の創造によって解決された。 パイロット実験では,参加者10名,男性6名,女性4名(年齢:平均=8,std=$\pm$1.61),授業経験の異なる4名のインストラクターを若者に招待した。 我々は,包括的かつ参加的な4つのカリキュラムの結果を報告する。 我々は,技術者や科学者が仕事で何をするかを理解する上で,参加者の一般合意の増大が与える影響を,工学的態度調査と,第1と第2の教訓からのQuatrtスケールチャートで示した。 このパイロット研究は、低所得から中所得の子どもたちが、AIとロボティクスの基本概念を学び、大人の生活を支配するかもしれないAIとロボティクスの応用の可能性を認識するのに役立つと結論付けた。 将来の仕事は (a)信頼性及び代表的データのための多数の参加者とワークショップを組織する上での財政的・物流的課題をより深く理解すること。 (b)事前試験後調査の設計と統計解析を改善する。 この作業を再現するリソースは \url{https://github.com/air4children/dei-hri2023} にある。

In this paper, we present a pilot study aiming to investigate the challenges of teaching AI and Robotics to children in low- and middle-income countries. Challenges such as the little to none experts and the limited resources in a Mexican town to teach AI and Robotics were addressed with the creation of inclusive learning activities with Montessori method and open-source educational robots. For the pilot study, we invited 14 participants of which 10 were able to attend, 6 male and 4 female of (age in years: mean=8 and std=$\pm$1.61) and four instructors of different teaching experience levels to young audiences. We reported results of a four-lesson curriculum that is both inclusive and engaging. We showed the impact on the increase of general agreement of participants on the understanding of what engineers and scientists do in their jobs, with engineering attitudes surveys and Likert scale charts from the first and the last lesson. We concluded that this pilot study helped children coming from low- to mid-income families to learn fundamental concepts of AI and Robotics and aware them of the potential of AI and Robotics applications which might rule their adult lives. Future work might lead (a) to have better understanding on the financial and logistical challenges to organise a workshop with a major number of participants for reliable and representative data and (b) to improve pretest-posttest survey design and its statistical analysis. The resources to reproduce this work are available at \url{https://github.com/air4children/dei-hri2023}.
翻訳日:2023-03-08 14:56:05 公開日:2023-03-05
# multiplexedgradient descent: バックプロパゲーションのないハードウェアニューラルネットワーク上の現代的なデータセットの高速オンライントレーニング

Multiplexed gradient descent: Fast online training of modern datasets on hardware neural networks without backpropagation ( http://arxiv.org/abs/2303.03986v1 )

ライセンス: Link先を確認
Adam N. McCaughan, Bakhrom G. Oripov, Natesh Ganesh, Sae Woo Nam, Andrew Dienstfrey, Sonia M. Buckley(参考訳) ハードウェアにおけるアナログやデジタルニューラルネットワークの学習を容易にするための勾配降下フレームワークである多重勾配降下(MGD)を提案する。 mgdはハードウェアニューラルネットワークのオンライントレーニングにゼロオーダー最適化技術を使用している。 我々は、CIFAR-10やFashion-MNISTを含む現代の機械学習データセット上でニューラルネットワークをトレーニングする能力を示し、その性能をバックプロパゲーションと比較する。 実際の時間スケールとハードウェアパラメータを仮定すると、これらの最適化技術は、標準gpu上のバックプロパゲーションによるトレーニングのウォールクロック時間よりも、ハードウェアの完全な重み付け更新やデバイス間のバリエーションがある場合でも、新たなハードウェアプラットフォーム上でネットワークをトレーニングできることを示している。 さらに,チップ・イン・ザ・ループ・トレーニングの一部として既存のハードウェアに適用するか,あるいはハードウェアレベルで直接統合するかについても述べる。 MGDフレームワークは非常に柔軟であり、パラメータ更新速度や入力帯域幅の制限といった特定のハードウェア制限を補償するために、その勾配降下処理を最適化することができる。

We present multiplexed gradient descent (MGD), a gradient descent framework designed to easily train analog or digital neural networks in hardware. MGD utilizes zero-order optimization techniques for online training of hardware neural networks. We demonstrate its ability to train neural networks on modern machine learning datasets, including CIFAR-10 and Fashion-MNIST, and compare its performance to backpropagation. Assuming realistic timescales and hardware parameters, our results indicate that these optimization techniques can train a network on emerging hardware platforms orders of magnitude faster than the wall-clock time of training via backpropagation on a standard GPU, even in the presence of imperfect weight updates or device-to-device variations in the hardware. We additionally describe how it can be applied to existing hardware as part of chip-in-the-loop training, or integrated directly at the hardware level. Crucially, the MGD framework is highly flexible, and its gradient descent process can be optimized to compensate for specific hardware limitations such as slow parameter-update speeds or limited input bandwidth.
翻訳日:2023-03-08 14:46:13 公開日:2023-03-05
# 野生におけるセマンティック・アウェア・オクルージョンフィルタ

Semantic-aware Occlusion Filtering Neural Radiance Fields in the Wild ( http://arxiv.org/abs/2303.03966v1 )

ライセンス: Link先を確認
Jaewon Lee, Injae Kim, Hwan Heo, Hyunwoo J. Kim(参考訳) 本稿では,少数の無拘束観光写真からニューラルネットワークのシーン表現を再構成する学習フレームワークを提案する。 各画像には過渡的オククローダが含まれているため、既存手法が多くのトレーニングデータを必要とするような線量場を構築するためには、静的成分と過渡成分を分解する必要がある。 SF-NeRFを導入し、これら2つのコンポーネントを少数の画像で切り離すことを目的としている。 提案手法は,各画素の過渡色とその不透明度を予測するオクルージョンフィルタモジュールを含んでおり,NeRFモデルは静的シーン表現のみを学習することができる。 トレーニング可能な画像エンコーダによって得られる画素ワイドなセマンティック特徴によって導かれる過渡現象を複数のシーンで学習し、過渡物体の事前学習を行う。 さらに, フィルタモジュールの曖昧な分解とノイズ発生を防止する2つの手法を提案する。 本手法は,フォトツーリズムデータセットにおける最先端の新規ビュー合成手法を数ショット設定で上回っていることを示す。

We present a learning framework for reconstructing neural scene representations from a small number of unconstrained tourist photos. Since each image contains transient occluders, decomposing the static and transient components is necessary to construct radiance fields with such in-the-wild photographs where existing methods require a lot of training data. We introduce SF-NeRF, aiming to disentangle those two components with only a few images given, which exploits semantic information without any supervision. The proposed method contains an occlusion filtering module that predicts the transient color and its opacity for each pixel, which enables the NeRF model to solely learn the static scene representation. This filtering module learns the transient phenomena guided by pixel-wise semantic features obtained by a trainable image encoder that can be trained across multiple scenes to learn the prior of transient objects. Furthermore, we present two techniques to prevent ambiguous decomposition and noisy results of the filtering module. We demonstrate that our method outperforms state-of-the-art novel view synthesis methods on Phototourism dataset in a few-shot setting.
翻訳日:2023-03-08 14:44:19 公開日:2023-03-05
# DeepMAD:Deep Convolutional Neural Networkのための数学的アーキテクチャ設計

DeepMAD: Mathematical Architecture Design for Deep Convolutional Neural Network ( http://arxiv.org/abs/2303.02165v1 )

ライセンス: Link先を確認
Xuan Shen, Yaohua Wang, Ming Lin, Yilun Huang, Hao Tang, Xiuyu Sun, Yanzhi Wang(参考訳) ビジョントランスフォーマー(vit)の急速な進歩は、様々なビジョンタスクにおける最先端のパフォーマンスをリフレッシュし、従来のcnnベースのモデルを過大評価した。 これは、CNNの世界における最近の衝撃的な研究の発火であり、純粋なCNNモデルは、注意深く調整されたときにViTモデルと同じくらい優れたパフォーマンスを達成できることを示している。 このような高性能cnnモデルの設計を奨励する一方で、ネットワーク設計の非自明な事前知識を必要とする。 この目的のために、Deep CNN(DeepMAD)のための数学的アーキテクチャ設計(Mathematical Architecture Design for Deep CNN)と呼ばれる新しいフレームワークを提案する。 deepmadでは、cnnネットワークは、その構造パラメータによって表現性と有効性を解析的に定式化できる情報処理システムとしてモデル化される。 次に、これらの構造パラメータを最適化するために制約付き数理計画法(mp)問題を提案する。 MP問題は、メモリフットプリントが小さいCPU上の既製のMPソルバで簡単に解決できる。 さらにDeepMADは純粋に数学的フレームワークであり、ネットワーク設計時にGPUやトレーニングデータを必要としない。 DeepMADの優位性は、複数の大規模コンピュータビジョンベンチマークデータセットで検証されている。 ImageNet-1kでは、従来の畳み込み層のみを使用して、DeepMADは、TinyレベルのConvNeXtやSwinよりも0.7%、トップ1の精度が1.5%高い。

The rapid advances in Vision Transformer (ViT) refresh the state-of-the-art performances in various vision tasks, overshadowing the conventional CNN-based models. This ignites a few recent striking-back research in the CNN world showing that pure CNN models can achieve as good performance as ViT models when carefully tuned. While encouraging, designing such high-performance CNN models is challenging, requiring non-trivial prior knowledge of network design. To this end, a novel framework termed Mathematical Architecture Design for Deep CNN (DeepMAD) is proposed to design high-performance CNN models in a principled way. In DeepMAD, a CNN network is modeled as an information processing system whose expressiveness and effectiveness can be analytically formulated by their structural parameters. Then a constrained mathematical programming (MP) problem is proposed to optimize these structural parameters. The MP problem can be easily solved by off-the-shelf MP solvers on CPUs with a small memory footprint. In addition, DeepMAD is a pure mathematical framework: no GPU or training data is required during network design. The superiority of DeepMAD is validated on multiple large-scale computer vision benchmark datasets. Notably on ImageNet-1k, only using conventional convolutional layers, DeepMAD achieves 0.7% and 1.5% higher top-1 accuracy than ConvNeXt and Swin on Tiny level, and 0.8% and 0.9% higher on Small level.
翻訳日:2023-03-07 21:19:41 公開日:2023-03-05
# ディープニューラルネットワークによるストリーミングアクティブラーニング

Streaming Active Learning with Deep Neural Networks ( http://arxiv.org/abs/2303.02535v1 )

ライセンス: Link先を確認
Akanksha Saran, Safoora Yousefi, Akshay Krishnamurthy, John Langford, Jordan T. Ash(参考訳) アクティブラーニングは、おそらくオンラインラーニング問題として最も自然に提起されている。 しかし、ディープニューラルネットワークによる事前アクティブな学習アプローチでは、事前にデータセット全体へのオフラインアクセスを前提としている。 本稿では、ストリーミング設定におけるディープニューラルネットワークを用いたバッチアクティブ学習のための新しいアルゴリズムであるVeSSALを提案する。 提案手法は,ハンドチューニングハイパーパラメータを必要とせず,所望のクエリレートに適合するために,クエリしたサンプルの不確実性と多様性をトレードオフする。 全体として、深層ニューラルネットワークの適用範囲を、hciや大規模な破壊的データセットに関連するアプリケーションなど、現実的なアクティブラーニングシナリオにまで拡大します。

Active learning is perhaps most naturally posed as an online learning problem. However, prior active learning approaches with deep neural networks assume offline access to the entire dataset ahead of time. This paper proposes VeSSAL, a new algorithm for batch active learning with deep neural networks in streaming settings, which samples groups of points to query for labels at the moment they are encountered. Our approach trades off between uncertainty and diversity of queried samples to match a desired query rate without requiring any hand-tuned hyperparameters. Altogether, we expand the applicability of deep neural networks to realistic active learning scenarios, such as applications relevant to HCI and large, fractured datasets.
翻訳日:2023-03-07 19:11:21 公開日:2023-03-05
# 適応収集データに基づく半パラメトリック推論

Semi-parametric inference based on adaptively collected data ( http://arxiv.org/abs/2303.02534v1 )

ライセンス: Link先を確認
Licong Lin, Koulik Khamaru, Martin J. Wainwright(参考訳) 多くの標準推定器は適応的に収集されたデータに適用されるが、漸近的に正規でないため、信頼区間の構築が複雑になる。 非パラメトリックなニュアンス成分によって汚染された一般化線形回帰モデルのパラメータベクトルを推定する。 データ収集における適応性を考慮した重み付き推定方程式を構築し、関連する推定値が漸近的に正常な条件を提供する。 本研究は漸近正規性保持に必要な「探索可能性」の程度を特徴付ける。 線形汎関数を推定するより単純な問題に対して、より弱い仮定の下で同様の保証を与える。 標準線形バンドイットやスパース一般化バンドイットなど,様々な問題に対する具体的結果を伴う一般理論を示し,シミュレーションによる他の手法との比較を行った。

Many standard estimators, when applied to adaptively collected data, fail to be asymptotically normal, thereby complicating the construction of confidence intervals. We address this challenge in a semi-parametric context: estimating the parameter vector of a generalized linear regression model contaminated by a non-parametric nuisance component. We construct suitably weighted estimating equations that account for adaptivity in data collection, and provide conditions under which the associated estimates are asymptotically normal. Our results characterize the degree of "explorability" required for asymptotic normality to hold. For the simpler problem of estimating a linear functional, we provide similar guarantees under much weaker assumptions. We illustrate our general theory with concrete consequences for various problems, including standard linear bandits and sparse generalized bandits, and compare with other methods via simulation studies.
翻訳日:2023-03-07 19:11:11 公開日:2023-03-05
# プレシジョン:低通信・サンプル複雑性を有する分散制約最小学習

PRECISION: Decentralized Constrained Min-Max Learning with Low Communication and Sample Complexities ( http://arxiv.org/abs/2303.02532v1 )

ライセンス: Link先を確認
Zhuqing Liu, Xin Zhang, Songtao Lu, and Jia Liu(参考訳) 近年、機械学習(ML)の幅広い応用により、min-max最適化問題が注目されている。 しかし、既存のmin-maxソリューション技術のほとんどは、中央サーバによって調整されたシングルマシンまたは分散アルゴリズムである。 本稿では,複数のエージェントがサーバからの調整なしに,非凸凸凸のmin-maxサドル点問題を一括して解決する,ドメイン制約付き学習のための分散 min-max 最適化に着目した。 ドメイン制約を伴う分極最小最適化問題は、マルチエージェントMLフェアネス保証やマルチエージェント強化学習におけるポリシー評価など、多くの重要なMLアプリケーションを支える。 そこで本研究では, 収束率o(1/t)$を保ち, $t$を最大イテレーション数とする精度(近勾配追跡と確率再帰分散低減)というアルゴリズムを提案する。 サンプルの複雑さをさらに軽減するために,適応型バッチサイズ技術を用いてPreCISION$^+$を提案する。 高速な$O(1/T)$収束のPrecisionおよびPrecision$^+$ to an $\epsilon$-stationary point imply $O(\epsilon^{-2})$通信複雑性と$O(m\sqrt{n}\epsilon^{-2})$サンプル複雑性、$m$はエージェントの数、$n$は各エージェントのデータセットのサイズであることを示す。 私たちの知る限りでは、これはドメイン制約のある分散min-max学習においてサンプルと通信の複雑さの両方において、$o(\epsilon^{-2})$を達成する最初の仕事です。 我々の実験も理論結果と一致している。

Recently, min-max optimization problems have received increasing attention due to their wide range of applications in machine learning (ML). However, most existing min-max solution techniques are either single-machine or distributed algorithms coordinated by a central server. In this paper, we focus on the decentralized min-max optimization for learning with domain constraints, where multiple agents collectively solve a nonconvex-strongly-concave min-max saddle point problem without coordination from any server. Decentralized min-max optimization problems with domain constraints underpins many important ML applications, including multi-agent ML fairness assurance, and policy evaluations in multi-agent reinforcement learning. We propose an algorithm called PRECISION (proximal gradient-tracking and stochastic recursive variance reduction) that enjoys a convergence rate of $O(1/T)$, where $T$ is the maximum number of iterations. To further reduce sample complexity, we propose PRECISION$^+$ with an adaptive batch size technique. We show that the fast $O(1/T)$ convergence of PRECISION and PRECISION$^+$ to an $\epsilon$-stationary point imply $O(\epsilon^{-2})$ communication complexity and $O(m\sqrt{n}\epsilon^{-2})$ sample complexity, where $m$ is the number of agents and $n$ is the size of dataset at each agent. To our knowledge, this is the first work that achieves $O(\epsilon^{-2})$ in both sample and communication complexities in decentralized min-max learning with domain constraints. Our experiments also corroborate the theoretical results.
翻訳日:2023-03-07 19:10:58 公開日:2023-03-05
# 視覚的Just-Noticeable差分のための複数歪み型付き包括的データセット

The First Comprehensive Dataset with Multiple Distortion Types for Visual Just-Noticeable Differences ( http://arxiv.org/abs/2303.02562v1 )

ライセンス: Link先を確認
Yaxuan Liu, Jian Jin, Yuan Xue, Weisi Lin(参考訳) 近年、ディープラーニングの発展に伴い、JNDモデリングのためのJust Noticeable difference(JND)データセットが数多く構築されている。 しかし、既存のJNDデータセットは全て圧縮歪みのレベルに基づいてJNDポイントをラベル付けしている。 したがって、そのようなデータセットから学んだJNDモデルは、画像/ビデオ圧縮にのみ使用できる。 知られているように、JNDは人間の視覚システム(HVS)の主要な特徴であり、HVSが許容できる最大の視覚歪みを反映している。 したがって、一般化された jnd モデリングは、より多くの種類の歪み型を考慮すべきである。 JNDモデリングの利点として、25種類の歪みを含む106のソース画像と1,642のJNDマップを含む粗いJND選択による一般化されたJNDデータセットを確立する。 そこで本稿では,既存の画像品質評価(IQA)データセットから,JNDマップを自分自身で生成するのではなく,JND候補として歪んだ画像を選択するための粗いJND候補選択方式を提案する。 そして、クラウドソースされた主観評価を伴うJND候補に対して、詳細なJND選択を行う。

Recently, with the development of deep learning, a number of Just Noticeable Difference (JND) datasets have been built for JND modeling. However, all the existing JND datasets only label the JND points based on the level of compression distortion. Hence, JND models learned from such datasets can only be used for image/video compression. As known, JND is a major characteristic of the human visual system (HVS), which reflects the maximum visual distortion that the HVS can tolerate. Hence, a generalized JND modeling should take more kinds of distortion types into account. To benefit JND modeling, this work establishes a generalized JND dataset with a coarse-to-fine JND selection, which contains 106 source images and 1,642 JND maps, covering 25 distortion types. To this end, we proposed a coarse JND candidate selection scheme to select the distorted images from the existing Image Quality Assessment (IQA) datasets as JND candidates instead of generating JND maps ourselves. Then, a fine JND selection is carried out on the JND candidates with a crowdsourced subjective assessment.
翻訳日:2023-03-07 19:02:28 公開日:2023-03-05
# CAMEL: 曲率強化マニフォールド埋め込みと学習

CAMEL: Curvature-Augmented Manifold Embedding and Learning ( http://arxiv.org/abs/2303.02561v1 )

ライセンス: Link先を確認
Nan Xu, Yongming Liu(参考訳) CAMEL(Curvature-Augmented Manifold Embedding and Learning)と呼ばれる新しい手法が,高次元データ分類,次元縮小,可視化のために提案されている。 CAMEL はリーマン多様体上で定義される位相計量と、その表現性を高めるために距離と曲率の両方に対してユニークなリーマン計量を利用する。 また、リーマン多様体上の一意作用素の滑らかな分割を用いて局所化された直交射影を大域埋め込みに変換し、全体の位相構造と局所的類似性を同時に捉える。 局所直交ベクトルは、クラスターの重要な特性を物理的に解釈する。 したがって、CAMELは低次元埋め込みを提供するだけでなく、この埋め込みの背後にある物理学を解釈する。 CAMELは様々なベンチマークデータセットで評価され、特に高次元データセットにおいて最先端の手法よりも優れていることを示した。 この方法の利点は、高い表現性、解釈可能性、拡張性である。 本稿では,CAMELの総合的な理解のために,リーマン距離と曲率,物理的解釈可能性,ハイパーパラメータ効果,多様体安定性,計算効率について詳細に論じる。 最後に,CAMELの限界と今後の課題について,重要な結論とともに述べる。

A novel method, named Curvature-Augmented Manifold Embedding and Learning (CAMEL), is proposed for high dimensional data classification, dimension reduction, and visualization. CAMEL utilizes a topology metric defined on the Riemannian manifold, and a unique Riemannian metric for both distance and curvature to enhance its expressibility. The method also employs a smooth partition of unity operator on the Riemannian manifold to convert localized orthogonal projection to global embedding, which captures both the overall topological structure and local similarity simultaneously. The local orthogonal vectors provide a physical interpretation of the significant characteristics of clusters. Therefore, CAMEL not only provides a low-dimensional embedding but also interprets the physics behind this embedding. CAMEL has been evaluated on various benchmark datasets and has shown to outperform state-of-the-art methods, especially for high-dimensional datasets. The method's distinct benefits are its high expressibility, interpretability, and scalability. The paper provides a detailed discussion on Riemannian distance and curvature metrics, physical interpretability, hyperparameter effect, manifold stability, and computational efficiency for a holistic understanding of CAMEL. Finally, the paper presents the limitations and future work of CAMEL along with key conclusions.
翻訳日:2023-03-07 19:02:11 公開日:2023-03-05
# Nikiforov-Uvarov法によるポテンシャルの統合について

On Potentials Integrated by Nikiforov-Uvarov Method ( http://arxiv.org/abs/2303.02560v1 )

ライセンス: Link先を確認
Lina Ellis, Ikumi Ellis, Christoph Koutschan, and Sergei K. Suslov(参考訳) 計算機代数系を用いて,nikiforov と uvarov のパラダイムに統合可能な非相対論的・相対論的量子力学の基本ポテンシャルについて考察する。 この考察は、読者が量子物理学の分析方法を研究するのに役立つかもしれない。

We discuss basic potentials of the nonrelativistic and relativistic quantum mechanics that can be integrated in the Nikiforov and Uvarov paradigm with the aid of a computer algebra system. This consideration may help the readers to study analytical methods of quantum physics.
翻訳日:2023-03-07 19:01:50 公開日:2023-03-05
# アンチラーニングによる無許可トレーニングによるバイオメディカルイメージの確保

Securing Biomedical Images from Unauthorized Training with Anti-Learning Perturbation ( http://arxiv.org/abs/2303.02559v1 )

ライセンス: Link先を確認
Yixin Liu, Haohui Ye, Kai Zhang, Lichao Sun(参考訳) より多くの‘無料’データが個々の研究者に貢献の機会を提供するため、オープンソースのバイオメディカルデータの量は医療コミュニティのさまざまな領域の発展に不可欠である。 しかし、不正な第三者による他の商用利用(例えば、aiモデルのトレーニング)によるデータ搾取のリスクのために、機関はデータを一般と共有することをためらうことが多い。 この現象は、医療研究コミュニティ全体の発展を妨げる可能性がある。 そこで本研究では, 生体医学的データを保護するために, 不可避だが不可避なノイズをデータに注入することにより, 生体医学的データを保護するための新しい手法である「未発見バイオメディカルイメージ」を提案する。 本稿では,二段階最適化として問題を定式化し,この問題に対する3種類の反学習摂動生成手法を提案する。 本手法は,研究コミュニティの長期的発展のために,より多くの機関にデータ提供を促すための重要なステップである。

The volume of open-source biomedical data has been essential to the development of various spheres of the healthcare community since more `free' data can provide individual researchers more chances to contribute. However, institutions often hesitate to share their data with the public due to the risk of data exploitation by unauthorized third parties for another commercial usage (e.g., training AI models). This phenomenon might hinder the development of the whole healthcare research community. To address this concern, we propose a novel approach termed `unlearnable biomedical image' for protecting biomedical data by injecting imperceptible but delusive noises into the data, making them unexploitable for AI models. We formulate the problem as a bi-level optimization and propose three kinds of anti-learning perturbation generation approaches to solve the problem. Our method is an important step toward encouraging more institutions to contribute their data for the long-term development of the research community.
翻訳日:2023-03-07 19:01:44 公開日:2023-03-05
# 合成強化学習における最適値関数のバウンダリング

Bounding the Optimal Value Function in Compositional Reinforcement Learning ( http://arxiv.org/abs/2303.02557v1 )

ライセンス: Link先を確認
Jacob Adamczyk and Volodymyr Makarenko and Argenis Arriojas and Stas Tiomkin and Rahul V. Kulkarni(参考訳) 強化学習(RL)の分野では、エージェントは報酬関数でのみ異なる様々な問題を解くことを任務とすることが多い。 新しい報酬関数で未発見の問題を解決するために、よく使われるアプローチは、以前に解決されたタスクの機能的構成を含む。 しかし、そのような機能的合成を用いた以前の研究は主に、極限仮定が正確なゼロショット合成を許容する構成関数の特定の例に焦点を当てていた。 我々の研究はこれらの例を統一し、標準およびエントロピー規則化RLにおける構成性のより一般的なフレームワークを提供する。 関数の幅広いクラスに対して、興味のある複合タスクの最適解は既知の原始的なタスクの解と関連することが分かる。 具体的には, 最適合成値関数とプリミティブタスクの値関数との関係を, 両面不等式で示す。 また,ゼロショットポリシの使用に対する後悔は,このタイプの関数に限定できることを示した。 導出境界は、トレーニング中に不確実性を減らし、エージェントが新しいタスクに迅速に適応できるように、クリッピングアプローチを開発するのに使うことができる。

In the field of reinforcement learning (RL), agents are often tasked with solving a variety of problems differing only in their reward functions. In order to quickly obtain solutions to unseen problems with new reward functions, a popular approach involves functional composition of previously solved tasks. However, previous work using such functional composition has primarily focused on specific instances of composition functions whose limiting assumptions allow for exact zero-shot composition. Our work unifies these examples and provides a more general framework for compositionality in both standard and entropy-regularized RL. We find that, for a broad class of functions, the optimal solution for the composite task of interest can be related to the known primitive task solutions. Specifically, we present double-sided inequalities relating the optimal composite value function to the value functions for the primitive tasks. We also show that the regret of using a zero-shot policy can be bounded for this class of functions. The derived bounds can be used to develop clipping approaches for reducing uncertainty during training, allowing agents to quickly adapt to new tasks.
翻訳日:2023-03-07 19:01:27 公開日:2023-03-05
# 集中確率密度に対する自己強化多項式近似法

Self-reinforced polynomial approximation methods for concentrated probability densities ( http://arxiv.org/abs/2303.02554v1 )

ライセンス: Link先を確認
Tiangang Cui and Sergey Dolgov and Olivier Zahm(参考訳) トランスポートマップ法は、ターゲットの高次元確率変数と参照確率変数を可逆変換を用いて結合できる強力な統計学習ツールを提供する。 本稿では, 一般分離関数に基づく Knothe-Rosenblatt (KR) 再構成を構築するための新しい計算手法を提案する。まず, テンソル積スペクトル多項式と下向き閉スパース指数集合を用いて, 対象の確率変数の密度を近似し, 数値的実装における可逆性を保証する KR 再構成の新たな構成を導入する。 多重線形近似や非線形最適化に基づくKR配置の他の構成と比較すると、新しい構成は重み付き最小二乗近似にのみ依存する。 そこで,最近開発された深部テンソル列車 (Cui and Dolgov, Found. Comput. Math. 22:1863-1922, 2022) に触発されて, 写像の合成を用いて密度近似問題を前処理することにより, スパース多項式の近似力を向上する。 これは、多くの応用でよく見られる高次元および集中確率密度に特に適している。 我々は, 従来構築されていたKRアレンジメント(同じ近似アンサッツに基づく)を, それぞれの新しいKRアレンジメントを構築するための密度近似問題の前処理に用いる, 自己強化KRアレンジメントの合成により, 複雑なターゲット密度を近似する。 提案手法の有効性と, 常微分方程式 (ODE) と偏微分方程式 (PDE) に支配されるいくつかの逆問題に対する合成写像の利用の重要性を示す。

Transport map methods offer a powerful statistical learning tool that can couple a target high-dimensional random variable with some reference random variable using invertible transformations. This paper presents new computational techniques for building the Knothe--Rosenblatt (KR) rearrangement based on general separable functions. We first introduce a new construction of the KR rearrangement -- with guaranteed invertibility in its numerical implementation -- based on approximating the density of the target random variable using tensor-product spectral polynomials and downward closed sparse index sets. Compared to other constructions of KR arrangements based on either multi-linear approximations or nonlinear optimizations, our new construction only relies on a weighted least square approximation procedure. Then, inspired by the recently developed deep tensor trains (Cui and Dolgov, Found. Comput. Math. 22:1863--1922, 2022), we enhance the approximation power of sparse polynomials by preconditioning the density approximation problem using compositions of maps. This is particularly suitable for high-dimensional and concentrated probability densities commonly seen in many applications. We approximate the complicated target density by a composition of self-reinforced KR rearrangements, in which previously constructed KR rearrangements -- based on the same approximation ansatz -- are used to precondition the density approximation problem for building each new KR rearrangement. We demonstrate the efficiency of our proposed methods and the importance of using the composite map on several inverse problems governed by ordinary differential equations (ODEs) and partial differential equations (PDEs).
翻訳日:2023-03-07 19:01:12 公開日:2023-03-05
# 直交グラフからの拡張不能な積基底

Unextendible product bases from orthogonality graphs ( http://arxiv.org/abs/2303.02553v1 )

ライセンス: Link先を確認
Fei Shi, Ge Bai, Xiande Zhang, Qi Zhao, Giulio Chiribella(参考訳) 拡張不可能な積基底(UPB)は、量子エンタングルメントと非局所性の研究において重要な役割を果たす。 有名な疑問は、真に拡張不可能な製品ベース(GUPBs)が存在するかどうか、すなわち、可能なすべての分割に関して拡張不可能な多部製品ベースが存在するかどうかである。 ここでは、直交グラフの観点で UPB と GUPB の特徴づけを提供することにより、この問題に光を当てた。 この接続上に構築したUPBを低次元で構築する手法を開発し,任意のGUPBの大きさの低い境界を導出し,技術状況を大幅に改善する。 さらに、我々の有界を飽和させる最小の GUPB はすべて正規グラフに関連付けられなければならないことを示す。 最後に、極小局所次元の三部系における最小 GUPB の構築に向けた経路について論じる。

Unextendible product bases (UPBs) play a key role in the study of quantum entanglement and nonlocality. A famous open question is whether there exist genuinely unextendible product bases (GUPBs), namely multipartite product bases that are unextendible with respect to every possible bipartition. Here we shed light on this question by providing a characterization of UPBs and GUPBs in terms of orthogonality graphs. Building on this connection, we develop a method for constructing UPBs in low dimensions, and we derive a lower bound on the size of any GUPB, significantly improving over the state of the art. Moreover, we show that every minimal GUPB saturating our bound must be associated to regular graphs. Finally, we discuss a possible path towards the construction of a minimal GUPB in a tripartite system of minimal local dimension.
翻訳日:2023-03-07 19:00:40 公開日:2023-03-05
# 顔深層学習モデル登録における事前学習モデル再利用の実証的研究

An Empirical Study of Pre-Trained Model Reuse in the Hugging Face Deep Learning Model Registry ( http://arxiv.org/abs/2303.02552v1 )

ライセンス: Link先を確認
Wenxin Jiang, Nicholas Synovic, Matt Hyatt, Taylor R. Schorlemmer, Rohan Sethi, Yung-Hsiang Lu, George K. Thiruvathukal, James C. Davis(参考訳) ディープニューラルネットワーク(DNN)は、ソフトウェアシステムのコンポーネントとして採用されている。 最先端のアーキテクチャが複雑化するにつれ、DNNをゼロから作成・専門化するのがますます難しくなっている。 従来のソフトウェアエンジニアリングの道をたどった機械学習エンジニアは、大規模な事前学習モデル(ptm)を再利用し、これらのモデルを下流タスクに微調整し始めた。 従来のソフトウェアパッケージの再利用プラクティスを研究し、ソフトウェア技術者をより良いパッケージメンテナンスと依存性管理へと導く。 事前訓練されたモデルエコシステムの振る舞いを導くための知識の基盤が欠けています。 本研究は,ptmの再利用に関する最初の実証実験である。 私たちは、最も人気のあるPTMエコシステムであるHugging Faceの実践者12人にインタビューして、PTM再利用のプラクティスと課題を学びました。 このデータから, PTM再利用の意思決定過程をモデル化する。 特定されたプラクティスに基づいて,プロヴァンス,再現性,可搬性など,モデルの再利用に有用な属性について述べる。 PTM再利用の3つの課題は、属性の欠如、クレームと実際のパフォーマンスの相違、モデルリスクである。 我々は,これらの課題をHugging Faceエコシステムの体系的な測定で検証した。 我々の研究は、有用な属性と潜在的な攻撃を自動測定することで、ディープラーニングエコシステムの最適化に関する今後の方向性を知らせるとともに、モデルレジストリのインフラストラクチャと標準化に関する将来の研究を展望する。

Deep Neural Networks (DNNs) are being adopted as components in software systems. Creating and specializing DNNs from scratch has grown increasingly difficult as state-of-the-art architectures grow more complex. Following the path of traditional software engineering, machine learning engineers have begun to reuse large-scale pre-trained models (PTMs) and fine-tune these models for downstream tasks. Prior works have studied reuse practices for traditional software packages to guide software engineers towards better package maintenance and dependency management. We lack a similar foundation of knowledge to guide behaviors in pre-trained model ecosystems. In this work, we present the first empirical investigation of PTM reuse. We interviewed 12 practitioners from the most popular PTM ecosystem, Hugging Face, to learn the practices and challenges of PTM reuse. From this data, we model the decision-making process for PTM reuse. Based on the identified practices, we describe useful attributes for model reuse, including provenance, reproducibility, and portability. Three challenges for PTM reuse are missing attributes, discrepancies between claimed and actual performance, and model risks. We substantiate these identified challenges with systematic measurements in the Hugging Face ecosystem. Our work informs future directions on optimizing deep learning ecosystems by automated measuring useful attributes and potential attacks, and envision future research on infrastructure and standardization for model registries.
翻訳日:2023-03-07 19:00:26 公開日:2023-03-05
# 訓練済みの深層ニューラルネットワークの相違:動物信頼性のモデルへの新たな脅威

Discrepancies among Pre-trained Deep Neural Networks: A New Threat to Model Zoo Reliability ( http://arxiv.org/abs/2303.02551v1 )

ライセンス: Link先を確認
Diego Montes, Pongpatapee Peerapatanapokin, Jeff Schultz, Chengjun Gun, Wenxin Jiang, James C. Davis(参考訳) 深層ニューラルネットワーク(DNN)のトレーニングには時間とリソースが要る。 迅速なデプロイメントのプラクティスは、PTNNのコレクションであるモデル動物園からの事前訓練されたディープニューラルネットワーク(PTNN)を使用することである。 PTNNの実装と性能に関する業界標準が欠如しているため、エンジニアはそれをプロダクションシステムに確実に組み込むことはできない。 最初のステップとして、モデル動物園間のPTNN間の潜在的な不一致を発見することで、動物園の信頼性をモデル化する脅威が明らかになる。 先行研究は、深層学習システムにおける既存のばらつきを精度的に示していた。 しかし, モデル動物園からのPTNNの信頼性は明らかにされていない。 この研究は、4つのモデル動物園にわたる36のPTNNの精度、レイテンシ、アーキテクチャの顕著な相違を測定する。 上位10の相違点のうち、精度は1.23%-2.62%、レイテンシは9%-131%である。 また、よく知られたDNNアーキテクチャ(ResNetやAlexNetなど)のアーキテクチャのミスマッチも行います。 この結果から,実証的検証,自動測定ツール,実装のためのベストプラクティスに関する今後の研究が望まれる。

Training deep neural networks (DNNs) takes signifcant time and resources. A practice for expedited deployment is to use pre-trained deep neural networks (PTNNs), often from model zoos -- collections of PTNNs; yet, the reliability of model zoos remains unexamined. In the absence of an industry standard for the implementation and performance of PTNNs, engineers cannot confidently incorporate them into production systems. As a first step, discovering potential discrepancies between PTNNs across model zoos would reveal a threat to model zoo reliability. Prior works indicated existing variances in deep learning systems in terms of accuracy. However, broader measures of reliability for PTNNs from model zoos are unexplored. This work measures notable discrepancies between accuracy, latency, and architecture of 36 PTNNs across four model zoos. Among the top 10 discrepancies, we find differences of 1.23%-2.62% in accuracy and 9%-131% in latency. We also fnd mismatches in architecture for well-known DNN architectures (e.g., ResNet and AlexNet). Our findings call for future works on empirical validation, automated tools for measurement, and best practices for implementation.
翻訳日:2023-03-07 19:00:04 公開日:2023-03-05
# 解釈可能な因果変数と分散神経表現のアライメントの探索

Finding Alignments Between Interpretable Causal Variables and Distributed Neural Representations ( http://arxiv.org/abs/2303.02536v1 )

ライセンス: Link先を確認
Atticus Geiger and Zhengxuan Wu and Christopher Potts and Thomas Icard and Noah D. Goodman(参考訳) 因果抽象は、解釈可能な高レベル因果モデルが低レベルのディープラーニングシステムの忠実な単純化である場合を定義する、説明可能な人工知能のための有望な理論的枠組みである。 しかし、既存の因果的抽象法には2つの大きな制限がある: それらは高レベルモデルと低レベルモデルの整合性に関するブルートフォース探索を必要とし、高レベルモデルの変数は低レベルモデルのニューロンの解離集合と整合することを前提としている。 本稿では,これらの制約を克服する分散アライメント探索(DAS)を提案する。 dasでは、ブリュートフォース探索を行うのではなく、勾配降下を用いた高レベルモデルと低レベルモデルのアライメントを見いだし、非標準基底分布表現の表現を解析することにより、個々のニューロンが複数の異なる役割を担えるようにした。 実験の結果,DASは従来のアプローチが見逃す内部構造を発見できることがわかった。 全体として、DASは因果的抽象解析の過去の障害を取り除き、訓練されたニューラルネットワークの概念構造を見つけることができる。

Causal abstraction is a promising theoretical framework for explainable artificial intelligence that defines when an interpretable high-level causal model is a faithful simplification of a low-level deep learning system. However, existing causal abstraction methods have two major limitations: they require a brute-force search over alignments between the high-level model and the low-level one, and they presuppose that variables in the high-level model will align with disjoint sets of neurons in the low-level one. In this paper, we present distributed alignment search (DAS), which overcomes these limitations. In DAS, we find the alignment between high-level and low-level models using gradient descent rather than conducting a brute-force search, and we allow individual neurons to play multiple distinct roles by analyzing representations in non-standard bases-distributed representations. Our experiments show that DAS can discover internal structure that prior approaches miss. Overall, DAS removes previous obstacles to conducting causal abstraction analyses and allows us to find conceptual structure in trained neural nets.
翻訳日:2023-03-07 18:59:48 公開日:2023-03-05
# レースが観測されない場合の人種格差の推定

Estimating Racial Disparities When Race is Not Observed ( http://arxiv.org/abs/2303.02580v1 )

ライセンス: Link先を確認
Cory McCartan, Jacob Goldin, Daniel E. Ho, Kosuke Imai(参考訳) 医療、金融サービス、投票、その他の状況における人種格差の推定は、行政記録における個人レベルの人種情報の欠如によってしばしば妨げられる。 多くの場合、この法律はそのような情報の収集を禁止し、直接の人種差別を防ぐ。 その結果、多くのアナリストは、個人の名前と住所と国勢調査データを組み合わせて人種を予測するベイジアン改良版ジオコーディング(bisg)を採用した。 BISGはよく分類された人種予測を生成する傾向にあるが、その残差はしばしば利害関係の結果と相関し、人種格差のバイアスのある推定結果をもたらす。 このバイアスを補正する代替の識別戦略を提案する。 提案された戦略は、(観察されていない)人種、居住地、その他の観察された特徴が与えられた結果から苗字が条件的に独立している場合に適用できる。 この識別戦略を活用することで、人種間の格差を高次元の尺度変数として用いて推定する新しいモデル、ベイジアン・インストゥルメンタル・レグレッション・フォー・ディスパリティ・アセスメント(BIRDiE)を導入する。 提案手法はスケーラブルであり,大規模管理データの解析が可能となる。 また、鍵識別仮定の潜在的な違反に対処する方法を示す。 ノースカロライナの有権者ファイルに基づく検証調査では、BIRDiEは党登録における人種差を推定するための標準的なアプローチと比較してエラーを最大84%削減している。 提案手法を実装したオープンソースソフトウェアが利用可能である。

The estimation of racial disparities in health care, financial services, voting, and other contexts is often hampered by the lack of individual-level racial information in administrative records. In many cases, the law prohibits the collection of such information to prevent direct racial discrimination. As a result, many analysts have adopted Bayesian Improved Surname Geocoding (BISG), which combines individual names and addresses with the Census data to predict race. Although BISG tends to produce well-calibrated racial predictions, its residuals are often correlated with the outcomes of interest, yielding biased estimates of racial disparities. We propose an alternative identification strategy that corrects this bias. The proposed strategy is applicable whenever one's surname is conditionally independent of the outcome given their (unobserved) race, residence location, and other observed characteristics. Leveraging this identification strategy, we introduce a new class of models, Bayesian Instrumental Regression for Disparity Estimation (BIRDiE), that estimate racial disparities by using surnames as a high-dimensional instrumental variable for race. Our estimation method is scalable, making it possible to analyze large-scale administrative data. We also show how to address potential violations of the key identification assumptions. A validation study based on the North Carolina voter file shows that BIRDiE reduces error by up to 84% in comparison to the standard approaches for estimating racial differences in party registration. Open-source software is available which implements the proposed methodology.
翻訳日:2023-03-07 18:53:34 公開日:2023-03-05
# 量子コンピューティングの新しい抽象化

New Abstractions for Quantum Computing ( http://arxiv.org/abs/2303.02578v1 )

ライセンス: Link先を確認
Casey Duckering(参考訳) 量子コンピューティングの分野は、新しいハードウェアを構築し、アルゴリズムを評価し、何がベストかを見つけるというエキサイティングな時期にあります。 量子ビット技術が成長し成熟するにつれ、より大きな量子コンピュータシステムの設計とプログラムの準備が整う必要がある。 システム設計の重要な側面は、複雑さを減らし直観を導くための抽象化層である。 古典的なコンピュータシステムは、ハードウェアスタックの層やループのようなプログラミング抽象化など、その歴史の多くの抽象化を構築してきた。 研究者は当初、量子コンピュータシステムを設計する際にほとんど変更を加えることなくこれらの抽象化を移植したが、近年になって最適化と効率の名でいくつかの抽象化が破られた。 量子コンピュータシステムから最も利益を得るためには、新しいあるいは量子化された抽象化が必要である、と我々は主張する。 量子物理学とこの技術に合わせた抽象概念を見つけることで、古い抽象概念を破ることで得られる利点を保ちます。 この論文は、量子コンピュータの設計とプログラムの仕方の核となる3つの抽象化の例によって支持されている:スクラッチスペースとしての第三レベルの論理状態、量子データのための第三の空間次元としてのメモリ、階層的プログラム構造。

The field of quantum computing is at an exciting time where we are constructing novel hardware, evaluating algorithms, and finding out what works best. As qubit technology grows and matures, we need to be ready to design and program larger quantum computer systems. An important aspect of systems design is layered abstractions to reduce complexity and guide intuition. Classical computer systems have built up many abstractions over their history including the layers of the hardware stack and programming abstractions like loops. Researchers initially ported these abstractions with little modification when designing quantum computer systems and only in recent years have some of those abstractions been broken in the name of optimization and efficiency. We argue that new or quantum-tailored abstractions are needed to get the most benefit out of quantum computer systems. We keep the benefits gained through breaking old abstraction by finding abstractions aligned with quantum physics and the technology. This dissertation is supported by three examples of abstractions that could become a core part of how we design and program quantum computers: third-level logical state as scratch space, memory as a third spacial dimension for quantum data, and hierarchical program structure.
翻訳日:2023-03-07 18:53:11 公開日:2023-03-05
# 限定データを用いたプレフィックスチューニングにおけるデータ拡張の有効性

Effectiveness of Data Augmentation for Prefix Tuning with Limited Data ( http://arxiv.org/abs/2303.02577v1 )

ライセンス: Link先を確認
Stephen Obadinma, Hongyu Guo, Xiaodan Zhu(参考訳) 最近の研究は、大規模で凍結した事前訓練された言語モデル(プレフィックスチューニングやPチューニング)で連続的なプロンプトをチューニングすることで、微調整に匹敵するあるいは優れたパフォーマンスが得られることを示した。 それにもかかわらず、低データ体制下での学習を改善するための共通戦略と考えられるデータ拡張の文脈におけるそのような手法の有効性は研究されていない。 本稿では,データ不足下でプレフィックスチューニングを行う場合,EDA,Back Translation,Mixupなどのタスク非依存データ拡張手法について検討する。 データ拡張はプレフィックスチューニングモデルの性能向上に有効であるが,各手法の有効性は変化しており,特に大規模モデルや複雑なタスクにおいて,特定の手法が顕著な性能低下を引き起こす可能性がある。 上記の動作を理解するために,プレフィックスチューニングが文の埋め込みを異なる種類の拡張データから分離する限られた能力を示すことを示す実験を行い,特に高度に変化したデータに対する性能の低下を示す。 また、単純な対照的な損失を加えることで、プレフィックスチューニングの問題を軽減することができ、結果としてデータ性能が向上することを示した。

Recent work has demonstrated that tuning continuous prompts on large, frozen pretrained language models (i.e., prefix tuning or P-tuning) can yield performance that is comparable or superior to fine-tuning. Nevertheless, the effectiveness of such methods under the context of data augmentation, which has been considered a common strategy to improve learning under low data regimes, has not be studied. In this paper, we examine several popular task-agnostic data augmentation techniques, i.e., EDA, Back Translation, and Mixup, when using prefix tuning under data scarcity. We show that data augmentation can be used to boost the performance of prefix tuning models, but the effectiveness of each technique varies and certain methods can lead to a notable degradation in performance, particularly when using larger models and on harder tasks. To help understand the above behaviour, we run experiments which reveal how prefix tuning generally presents a limited ability to separate the sentence embeddings from different classes of augmented data, and displays poorer performance on heavily altered data in particular. We also demonstrate that by adding a simple contrastive loss we can help mitigate such issues for prefix tuning, resulting in an improvement to augmented data performance.
翻訳日:2023-03-07 18:52:52 公開日:2023-03-05
# MITFAS:空中ビデオ行動認識のための相互情報に基づく時間的特徴アライメントとサンプリング

MITFAS: Mutual Information based Temporal Feature Alignment and Sampling for Aerial Video Action Recognition ( http://arxiv.org/abs/2303.02575v1 )

ライセンス: Link先を確認
Ruiqi Xian, Xijun Wang, Dinesh Manocha(参考訳) UAVビデオにおける行動認識のための新しいアプローチを提案する。 我々の定式化は、UAVの移動による閉塞や視点の変化を扱うように設計されている。 我々は、相互情報の概念を用いて、時間領域における人間の行動や動きに対応する領域を計算・調整する。 これにより,動作に関する重要な特徴から認識モデルを学ぶことができる。 また,協調的な相互情報を用いて,uavビデオにおける最も有用なフレームシーケンスを取得する新しいフレームサンプリング手法を提案する。 提案手法をX3Dと統合し,複数のデータセットの性能評価を行った。 実際には、UAV-Human(Li et al., 2021)の最先端手法よりも18.9%の精度向上、Drone-Action(Perera et al., 2019)の7.3%の改善、NEC Drones(Choi et al., 2020)の7.16%の改善を実現している。 私たちは公開時にコードを公開します

We present a novel approach for action recognition in UAV videos. Our formulation is designed to handle occlusion and viewpoint changes caused by the movement of a UAV. We use the concept of mutual information to compute and align the regions corresponding to human action or motion in the temporal domain. This enables our recognition model to learn from the key features associated with the motion. We also propose a novel frame sampling method that uses joint mutual information to acquire the most informative frame sequence in UAV videos. We have integrated our approach with X3D and evaluated the performance on multiple datasets. In practice, we achieve 18.9% improvement in Top-1 accuracy over current state-of-the-art methods on UAV-Human(Li et al., 2021), 7.3% improvement on Drone-Action(Perera et al., 2019), and 7.16% improvement on NEC Drones(Choi et al., 2020). We will release the code at the time of publication
翻訳日:2023-03-07 18:52:31 公開日:2023-03-05
# セルフリー大規模mimoネットワークにおける学習分散電力制御

Learning Decentralized Power Control in Cell-Free Massive MIMO Networks ( http://arxiv.org/abs/2303.02573v1 )

ライセンス: Link先を確認
Daesung Yu, Hoon Lee, Seung-Eun Hong, and Seok-Hwan Park(参考訳) 本稿では,中央プロセッサ(CP)がフロントホール調整を通じてアクセスポイント(AP)を制御する,セルフリーなマルチインプットマルチアウトプット(MIMO)システムのための学習に基づく分散型電力制御手法について検討する。 分散APの伝送方針を決定するためには,ネットワーク全体の協調最適化機構を開発することが不可欠である。 この課題に対処するために、我々は、専用ディープニューラルネットワーク(DNN)モジュールを用いてCPとAPの計算および協調戦略を管理する協調学習(CL)フレームワークを設計する。 汎用学習構造を構築するため,提案したCLは,その前方通過計算がAP数に依存しないよう慎重に設計されている。 この目的のために、同一のDNNモジュールを全てのAPにインストールするパラメータ再利用の概念を採用する。 したがって、特定の構成で訓練された提案CLは任意のAP集団に容易に適用できる。 従来の非協調的アプローチと比較して,提案したCLの利点を検証した。

This paper studies learning-based decentralized power control methods for cell-free massive multiple-input multiple-output (MIMO) systems where a central processor (CP) controls access points (APs) through fronthaul coordination. To determine the transmission policy of distributed APs, it is essential to develop a network-wide collaborative optimization mechanism. To address this challenge, we design a cooperative learning (CL) framework which manages computation and coordination strategies of the CP and APs using dedicated deep neural network (DNN) modules. To build a versatile learning structure, the proposed CL is carefully designed such that its forward pass calculations are independent of the number of APs. To this end, we adopt a parameter reuse concept which installs an identical DNN module at all APs. Consequently, the proposed CL trained at a particular configuration can be readily applied to arbitrary AP populations. Numerical results validate the advantages of the proposed CL over conventional non-cooperative approaches.
翻訳日:2023-03-07 18:52:12 公開日:2023-03-05
# 臨床予測のための時間関連メタラーニング

Time Associated Meta Learning for Clinical Prediction ( http://arxiv.org/abs/2303.02570v1 )

ライセンス: Link先を確認
Hao Liu, Muhan Zhang, Zehao Dong, Lecheng Kong, Yixin Chen, Bradley Fritz, Dacheng Tao, Christopher King(参考訳) Rich Electronic Health Records (EHR)は、機械学習を用いて臨床プロセスを改善する機会を生み出している。 異なる時間軸での同じ患者事象の予測は、全く異なる応用と解釈を持つ可能性があるが、潜在的な時間ウィンドウ内の限られたイベント数では、従来の機械学習アルゴリズムの有効性が損なわれる。 本稿では,複数の時点において効果的な予測を行うための新しい時間関連メタ学習(taml)手法を提案する。 我々は、時間関連疾患予測を、複数の時点における分類課題と見なしている。 このような密接に関連する分類タスクは、モデルに基づくメタ学習の優れた候補である。 タスク分割後の空間的問題に対処するため、TAMLは、時間的情報共有戦略を用いて、陽性サンプルの数を増やし、メタトレーニングフェーズにおける関連する表現型やイベントの予測を含む。 そこで本研究では,複数の臨床データセットにおけるtamlの有効性を実証する。 また、EHRデータに時間関連および時間非依存の少ショット予測を実装するためのMetaEHRパッケージも開発した。

Rich Electronic Health Records (EHR), have created opportunities to improve clinical processes using machine learning methods. Prediction of the same patient events at different time horizons can have very different applications and interpretations; however, limited number of events in each potential time window hurts the effectiveness of conventional machine learning algorithms. We propose a novel time associated meta learning (TAML) method to make effective predictions at multiple future time points. We view time-associated disease prediction as classification tasks at multiple time points. Such closely-related classification tasks are an excellent candidate for model-based meta learning. To address the sparsity problem after task splitting, TAML employs a temporal information sharing strategy to augment the number of positive samples and include the prediction of related phenotypes or events in the meta-training phase. We demonstrate the effectiveness of TAML on multiple clinical datasets, where it consistently outperforms a range of strong baselines. We also develop a MetaEHR package for implementing both time-associated and time-independent few-shot prediction on EHR data.
翻訳日:2023-03-07 18:51:54 公開日:2023-03-05
# relaxed distribution matching によるサブオプティマイズによるオフライン模倣学習

Offline Imitation Learning with Suboptimal Demonstrations via Relaxed Distribution Matching ( http://arxiv.org/abs/2303.02569v1 )

ライセンス: Link先を確認
Lantao Yu, Tianhe Yu, Jiaming Song, Willie Neiswanger, Stefano Ermon(参考訳) オフライン模倣学習(il)は、環境とのインタラクションなしに、事前に収集したデモから実行中のポリシーを学習できることを約束する。 しかし、完全にオフラインで振る舞うには、多くの専門家データが必要である。 この問題に取り組むために,我々はエキスパートデータと補足的な副最適化データに制限のある設定について検討する。 この場合、よく知られた問題は、学習したポリシーとオフラインデータを収集する行動ポリシーの間の分配シフトである。 先行研究は、学習方針と行動方針の定常状態-行動分布間のKLのばらつきを規則化し、この問題を軽減する。 正確な分布マッチングに基づく制約は、特に不完全なオフラインデータが極端に最適である場合、過度に保守的でポリシー学習を妨げる可能性がある。 この問題を解決するため,我々は,明示的なサポート正規化に非対称なf-divergenceを用いるrelaxdiceを提案する。 具体的には、学習した政策を正確に行動ポリシーに適合させる代わりに、定常状態-作用分布間の密度比が一定値に上限付けられた場合、ほとんどペナルティを課さない。 このような定式化がネストされた min-max 最適化問題を引き起こすことに注意。 RelaxDICEはこの課題に対処し、内部最大化問題に対する閉形式解をサポートする。 実験結果から,提案手法は6つの標準連続制御環境において,不完全なデータセットが最適でない22の環境において,平均30%以上の性能向上を達成し,最も優れたオフラインIL法よりも優れていた。

Offline imitation learning (IL) promises the ability to learn performant policies from pre-collected demonstrations without interactions with the environment. However, imitating behaviors fully offline typically requires numerous expert data. To tackle this issue, we study the setting where we have limited expert data and supplementary suboptimal data. In this case, a well-known issue is the distribution shift between the learned policy and the behavior policy that collects the offline data. Prior works mitigate this issue by regularizing the KL divergence between the stationary state-action distributions of the learned policy and the behavior policy. We argue that such constraints based on exact distribution matching can be overly conservative and hamper policy learning, especially when the imperfect offline data is highly suboptimal. To resolve this issue, we present RelaxDICE, which employs an asymmetrically-relaxed f-divergence for explicit support regularization. Specifically, instead of driving the learned policy to exactly match the behavior policy, we impose little penalty whenever the density ratio between their stationary state-action distributions is upper bounded by a constant. Note that such formulation leads to a nested min-max optimization problem, which causes instability in practice. RelaxDICE addresses this challenge by supporting a closed-form solution for the inner maximization problem. Extensive empirical study shows that our method significantly outperforms the best prior offline IL method in six standard continuous control environments with over 30% performance gain on average, across 22 settings where the imperfect dataset is highly suboptimal.
翻訳日:2023-03-07 18:51:39 公開日:2023-03-05
# unlearnable graph: 不正利用からグラフを保護する

Unlearnable Graph: Protecting Graphs from Unauthorized Exploitation ( http://arxiv.org/abs/2303.02568v1 )

ライセンス: Link先を確認
Yixin Liu, Chenrui Fan, Pan Zhou and Lichao Sun(参考訳) さまざまな分野におけるグラフ構造化データの利用が普及している一方で、商用グラフニューラルネットワーク(gnn)モデルのトレーニングにおける個人データの不正利用の可能性への懸念も高まり、プライバシを侵害する可能性がある。 そこで本研究では,未発見のグラフ例を生成する新しい手法を提案する。 Error-Minimizing Structure Poisoning (EMinS) モジュールを使ってグラフに妄想的だが知覚不可能なノイズを注入することにより、グラフを説明不能にすることができる。 特に、グラフデータ内のほとんどの潜在的なエッジで$5\%$だけを変更することで、この方法はcollabデータセット上で${77.33\%}$から${42.47\%}$に精度を下げることに成功した。

While the use of graph-structured data in various fields is becoming increasingly popular, it also raises concerns about the potential unauthorized exploitation of personal data for training commercial graph neural network (GNN) models, which can compromise privacy. To address this issue, we propose a novel method for generating unlearnable graph examples. By injecting delusive but imperceptible noise into graphs using our Error-Minimizing Structural Poisoning (EMinS) module, we are able to make the graphs unexploitable. Notably, by modifying only $5\%$ at most of the potential edges in the graph data, our method successfully decreases the accuracy from ${77.33\%}$ to ${42.47\%}$ on the COLLAB dataset.
翻訳日:2023-03-07 18:51:10 公開日:2023-03-05
# MFAI:補助情報を活用するためのスケーラブルなベイズ行列分解手法

MFAI: A Scalable Bayesian Matrix Factorization Approach to Leveraging Auxiliary Information ( http://arxiv.org/abs/2303.02566v1 )

ライセンス: Link先を確認
Zhiwei Wang, Fa Zhang, Cong Zheng, Xianghong Hu, Mingxuan Cai, Can Yang(参考訳) 様々な状況において、行列分解法は、高データ間隔や低信号-雑音比(SNR)などのデータ品質の低下に悩まされている。 ここでは,データ品質の低下に起因する課題を克服するため,実アプリケーションで大規模に利用できる補助情報を利用した行列分解問題を考察する。 補助情報と主データ行列を結合する単純な線形モデルに主に依存する既存の手法とは異なり、確率行列分解フレームワークに勾配強化木を統合することで、補助情報(MFAI)を効果的に活用することを提案する。 このように、MFAIは、非線形関係を柔軟にモデル化する能力、無関係な特徴に対する堅牢性、補助情報における欠落値など、勾配強化木の有能な特徴を自然に継承する。 MAFIのパラメータは、経験的ベイズフレームワークの下で自動的に決定され、補助情報の利用と過剰適合に対する免疫に適応する。 さらに、MFAIは変分推論を利用して計算効率が高く、大規模データセットに対してスケーラブルである。 我々はシミュレーション研究と実データ解析の総合的な数値結果を通じて,MFAIの利点を実証する。 我々のアプローチは、https://github.com/YangLabHKUST/mfairで利用可能なRパッケージmfairで実装されています。

In various practical situations, matrix factorization methods suffer from poor data quality, such as high data sparsity and low signal-to-noise ratio (SNR). Here we consider a matrix factorization problem by utilizing auxiliary information, which is massively available in real applications, to overcome the challenges caused by poor data quality. Unlike existing methods that mainly rely on simple linear models to combine auxiliary information with the main data matrix, we propose to integrate gradient boosted trees in the probabilistic matrix factorization framework to effectively leverage auxiliary information (MFAI). Thus, MFAI naturally inherits several salient features of gradient boosted trees, such as the capability of flexibly modeling nonlinear relationships, and robustness to irrelevant features and missing values in auxiliary information. The parameters in MAFI can be automatically determined under the empirical Bayes framework, making it adaptive to the utilization of auxiliary information and immune to overfitting. Moreover, MFAI is computationally efficient and scalable to large-scale datasets by exploiting variational inference. We demonstrate the advantages of MFAI through comprehensive numerical results from simulation studies and real data analysis. Our approach is implemented in the R package mfair available at https://github.com/YangLabHKUST/mfair.
翻訳日:2023-03-07 18:50:55 公開日:2023-03-05
# FinXABSA:Aspect-based Sentiment Analysisによる説明可能な財務

FinXABSA:Explainable Finance through Aspect-Based Sentiment Analysis ( http://arxiv.org/abs/2303.02563v1 )

ライセンス: Link先を確認
Keane Ong, Wihan van der Heever, Ranjan Satapathy, Gianmarco Mengaldo and Erik Cambria(参考訳) 本稿では、パーソン相関係数を利用して財務分析における説明可能性を示す新しい手法を提案し、アスペクトベース感情分析と株価の関係を確立する。 提案手法は、財務ニュース記事からアスペクトリストを作成し、各アスペクトに対する感情強度スコアを分析する。 これらのスコアは、ピアソン係数を用いて重要な相関関係を決定する関連企業の株価と比較される。 その結果、提案手法は、感情分析と株価の関係をより詳細に正確に把握し、投資家や金融アナリストが情報的な意思決定を行う上で有用であることが示唆された。 さらに、この方法論は、感情分析結果とその株価への影響を説明する透明で解釈可能な方法を提供する。 本研究は、金融分析における説明可能性の重要性を実証し、側面に基づく感情分析と株価の分析にピアソン係数を利用する可能性を明らかにする。 提案手法は、金融ニュースのセンチメントと株価の複雑な関係を理解するための貴重なツールを提供し、金融市場に対する新たな視点を提供し、情報的投資決定を支援する。

This paper presents a novel approach for explainability in financial analysis by utilizing the Pearson correlation coefficient to establish a relationship between aspect-based sentiment analysis and stock prices. The proposed methodology involves constructing an aspect list from financial news articles and analyzing sentiment intensity scores for each aspect. These scores are then compared to the stock prices for the relevant companies using the Pearson coefficient to determine any significant correlations. The results indicate that the proposed approach provides a more detailed and accurate understanding of the relationship between sentiment analysis and stock prices, which can be useful for investors and financial analysts in making informed decisions. Additionally, this methodology offers a transparent and interpretable way to explain the sentiment analysis results and their impact on stock prices. Overall, the findings of this paper demonstrate the importance of explainability in financial analysis and highlight the potential benefits of utilizing the Pearson coefficient for analyzing aspect-based sentiment analysis and stock prices. The proposed approach offers a valuable tool for understanding the complex relationships between financial news sentiment and stock prices, providing a new perspective on the financial market and aiding in making informed investment decisions.
翻訳日:2023-03-07 18:50:33 公開日:2023-03-05
# トランスクロスタッチによる極限3次元画像回転の推定

Estimating Extreme 3D Image Rotation with Transformer Cross-Attention ( http://arxiv.org/abs/2303.02615v1 )

ライセンス: Link先を確認
Shay Dekel, Yosi Keller(参考訳) 大きな画像と極端な画像の回転の推定は、複数のコンピュータビジョン領域において重要な役割を果たす。 現代のアプローチでは、畳み込みニューラルネットワークを用いて4次元相関体積を計算し、画像対間の相対回転を推定している。 本研究では,cnn特徴マップとトランスフォーマーエンコーダを用いて画像ペアのアクティベーションマップ間のクロスアテンションを計算するクロスアテンションに基づく手法を提案する。 提案手法では、高い注意スコアは回転の視覚的手がかりを符号化する画像領域に関連付けられる。 私たちのアプローチはエンドツーエンドでトレーニング可能で、簡単な回帰損失を最適化します。 一般的に使用されている画像回転データセットやベンチマークに適用した場合、現代の最先端のスキームよりも優れ、これらのデータセットに新たな最先端の精度を確立することが実験的に示されている。 コードを公開しています。

The estimation of large and extreme image rotation plays a key role in multiple computer vision domains, where the rotated images are related by a limited or a non-overlapping field of view. Contemporary approaches apply convolutional neural networks to compute a 4D correlation volume to estimate the relative rotation between image pairs. In this work, we propose a cross-attention-based approach that utilizes CNN feature maps and a Transformer-Encoder, to compute the cross-attention between the activation maps of the image pairs, which is shown to be an improved equivalent of the 4D correlation volume, used in previous works. In the suggested approach, higher attention scores are associated with image regions that encode visual cues of rotation. Our approach is end-to-end trainable and optimizes a simple regression loss. It is experimentally shown to outperform contemporary state-of-the-art schemes when applied to commonly used image rotation datasets and benchmarks, and establishes a new state-of-the-art accuracy on these datasets. We make our code publicly available.
翻訳日:2023-03-07 18:44:41 公開日:2023-03-05
# HyperPose: Attention Hypernetworks を用いたカメラポインターのローカライゼーション

HyperPose: Camera Pose Localization using Attention Hypernetworks ( http://arxiv.org/abs/2303.02610v1 )

ライセンス: Link先を確認
Ron Ferens, Yosi Keller(参考訳) 本研究では,カメラのポーズ定位における注意ハイパーネットワークの利用を提案する。 環境、視点、照明の変化を含む自然のシーンのダイナミックな性質は、現代のローカライズネットワークの精度を制限するトレーニングとテストセットの間に固有のドメインギャップを生み出します。 この問題を克服するために,ハイパーネットワークを統合したカメラポーズレグレッサーを提案する。 推定中、ハイパーネットワークは入力画像に基づいて局在回帰ヘッドの適応重みを生成し、ドメインギャップを効果的に低減する。 また,マルチ層パーセプトロンの代わりにTransformer-Encoderをハイパーネットワークとして用いることで,注目ハイパーネットワークを実現することも提案する。 提案手法は,現代データセットの最先端手法と比較して優れた結果が得られる。 私たちの知る限りでは、ハイパーネットワークをカメラポーズのレグレッションに、Transformer-Encodersをハイパーネットワークとして使用する最初の例です。 コードを公開しています。

In this study, we propose the use of attention hypernetworks in camera pose localization. The dynamic nature of natural scenes, including changes in environment, perspective, and lighting, creates an inherent domain gap between the training and test sets that limits the accuracy of contemporary localization networks. To overcome this issue, we suggest a camera pose regressor that integrates a hypernetwork. During inference, the hypernetwork generates adaptive weights for the localization regression heads based on the input image, effectively reducing the domain gap. We also suggest the use of a Transformer-Encoder as the hypernetwork, instead of the common multilayer perceptron, to derive an attention hypernetwork. The proposed approach achieves superior results compared to state-of-the-art methods on contemporary datasets. To the best of our knowledge, this is the first instance of using hypernetworks in camera pose regression, as well as using Transformer-Encoders as hypernetworks. We make our code publicly available.
翻訳日:2023-03-07 18:44:25 公開日:2023-03-05
# ソーシャルボットとサイバースペース意識の課題

Socialbots and the Challenges of Cyberspace Awareness ( http://arxiv.org/abs/2303.02609v1 )

ライセンス: Link先を確認
Shashank Yadav(参考訳) セキュリティコミュニティは、新たな社会自動化ベースの脅威に対処するため、サイバー空間における状況意識の発達メカニズムと、ソーシャルボットが既存のサイバー状況意識のパラダイムにもたらすガバナンス問題を検討する。 我々は、サイバースペースにおける組織の状況意識は、従来の状況意識の概念とは根本的に異なる現象であり、標準的な実装メカニズムが悪意のある社会自動化のような脅威に照らして、重要なポリシーの注意を必要とする、継続的なデータ交換と知識管理が必要であることを指摘する。 我々は、サイバー空間認識を、構文的、意味的、オペラティックな次元の社会技術的現象として考え、それぞれが社会自動化に基づく脅威の下で悪化する多くのストレスの対象となる。 この論文は、サイバー空間における状況認識のアイデアに貢献し、サイバー脅威環境における社会的かつしばしば普及する自動化に取り組む上での課題を特徴づけている。

As security communities brace for the emerging social automation based threats, we examine the mechanisms of developing situation awareness in cyberspace and the governance issues that socialbots bring into this existing paradigm of cyber situation awareness. We point out that an organisation's situation awareness in cyberspace is a phenomena fundamentally distinct from the original conception of situation awareness, requiring continuous data exchange and knowledge management where the standard implementation mechanisms require significant policy attention in light of threats like malicious social automation. We conceptualise Cyberspace Awareness as a socio-technical phenomena with Syntactic, Semantic, and Operatic dimensions - each subject to a number of stressors which are exacerbated under social automation based threats. The paper contributes to the ideas of situational awareness in cyberspace, and characterises the challenges therein around tackling the increasingly social and often pervasive, automation in cyber threat environments.
翻訳日:2023-03-07 18:44:09 公開日:2023-03-05
# 適応Denoisingを用いたモンテカルロ経路追跡を用いたイベントベースカメラシミュレーション

Event-based Camera Simulation using Monte Carlo Path Tracing with Adaptive Denoising ( http://arxiv.org/abs/2303.02608v1 )

ライセンス: Link先を確認
Yuta Tsuji, Tatsuya Yatagawa, Hiroyuki Kubo, Shigeo Morishima(参考訳) 本稿では, 合成3Dシーンのモンテカルロ経路追跡法を用いて, ノイズの多い入力ビデオからイベントベース映像を得るアルゴリズムを提案する。 動的視覚センサ(DVS)は、事象としての時間輝度変化を検出するため、イベントベースの映像を効率よくレンダリングする問題は、ノイズ輝度値から変化を検出するために沸騰する。 この目的のために,重み付き局所回帰(wlr)に基づくデノイジング法を拡張し,各映像フレームにデノイジンを適用するのではなく,輝度変化を検出する。 具体的には、イベントが検出されたフレームのみにWLRモデルを回帰することで、回帰の計算コストを大幅に削減する。 提案手法は,数個のパストレーシングサンプルから得られるノイズの多いビデオフレームに対して頑健であり,各フレームを識別するアプローチと同等かそれ以上に動作することを示す。

This paper proposes an algorithm for obtaining an event-based video from a noisy input video given by physics-based Monte Carlo path tracing of synthetic 3D scenes. Since the dynamic vision sensor (DVS) detects temporal brightness changes as events, the problem of efficiently rendering event-based video boils down to detecting the changes from noisy brightness values. To this end, we extend a denoising method based on a weighted local regression (WLR) to detect the brightness changes rather than applying denoising to each video frame. Specifically, we regress a WLR model only on frames where an event is detected, which significantly reduces the computational cost of the regression. We show that our efficient method is robust to noisy video frames obtained from a few path-traced samples and performs comparably to or even better than an approach that denoises every frame.
翻訳日:2023-03-07 18:43:43 公開日:2023-03-05
# deformable proposal-aware p2pnet : ポイント監督下での細胞認識のためのユニバーサルネットワーク

Deformable Proposal-Aware P2PNet: A Universal Network for Cell Recognition under Point Supervision ( http://arxiv.org/abs/2303.02602v1 )

ライセンス: Link先を確認
Zhongyi Shui, Sunyi Zheng, Xiaoxuan Yu, Shichuan Zhang, Honglin Li, Jingxiong Li, Lin Yang(参考訳) 病理画像中の細胞をローカライズし,分類することを目的としたポイントベース細胞認識は,デジタル病理画像解析における基本的な課題である。 最近開発されたP2PNet(point-to-point Network)は、中間密度マップ表現に依存する手法に比べて、前例のない精度と効率を実現している。 しかし、P2PNetは単一の特徴マップしかデコードできないため、マルチスケール情報を活用できなかった。 さらに、データプロパティによって決定される事前定義されたポイント提案の分布は、デコード(エンコーダ設計)に特徴マップの解像度を制限する。 そこで本研究では, 変形可能な提案型P2PNet(DPA-P2PNet)を提案する。 提案手法は点提案の座標を用いて,機能拡張のためのマルチスケール領域(ROI)特徴を直接抽出する。 このような設計は、提案の動的分布を利用する可能性も開ける。 さらに,提案品質を向上させるために変形モジュールを考案する。 様々な染色スタイルを持つ4つのデータセットに関する広範囲な実験は、dpa-p2pnetがポイントベースの細胞認識における最先端の手法よりも優れていることを示している。

Point-based cell recognition, which aims to localize and classify cells present in a pathology image, is a fundamental task in digital pathology image analysis. The recently developed point-to-point network (P2PNet) has achieved unprecedented cell recognition accuracy and efficiency compared to methods that rely on intermediate density map representations. However, P2PNet could not leverage multi-scale information since it can only decode a single feature map. Moreover, the distribution of predefined point proposals, which is determined by data properties, restricts the resolution of the feature map to decode, i.e., the encoder design. To lift these limitations, we propose a variant of P2PNet named deformable proposal-aware P2PNet (DPA-P2PNet) in this study. The proposed method uses coordinates of point proposals to directly extract multi-scale region-of-interest (ROI) features for feature enhancement. Such a design also opens up possibilities to exploit dynamic distributions of proposals. We further devise a deformation module to improve the proposal quality. Extensive experiments on four datasets with various staining styles demonstrate that DPA-P2PNet outperforms the state-of-the-art methods on point-based cell recognition, which reveals the high potentiality in assisting pathologist assessments.
翻訳日:2023-03-07 18:43:16 公開日:2023-03-05
# 視覚的質問応答のための知識に基づく反事実クエリ

Knowledge-Based Counterfactual Queries for Visual Question Answering ( http://arxiv.org/abs/2303.02601v1 )

ライセンス: Link先を確認
Theodoti Stoikou, Maria Lymperaiou, Giorgos Stamou(参考訳) VQA(Visual Question Answering)は、視覚と言語と文学における多くの関連する実装を組み合わせた一般的なタスクである。 VQAモデルにおける説明可能性と堅牢性の問題にアプローチする試みはいくつかあるが、モデルに依存しない方法でそのような課題を探索する手段として、反ファクトリクスを用いるものはごくわずかである。 そこで本研究では, vqaモデルの挙動を体系的に説明し, 反事実摂動によるロバスト性を検討する手法を提案する。 そこで我々は,言語的モダリティを対象とする決定論的,最適,制御可能な単語レベルの置換を行うために,構造化知識ベースを利用する。 最後に,VQAモデルの振る舞いを解釈するための知見として,対実応答に基づく局所的・大域的説明を質的に抽出する。 様々な摂動型を実行し、入力された質問の音声の異なる部分をターゲットにすることで、異なる状況下での応答の比較を通じて、モデルの推論に対する洞察を得る。 全体として, モデル意思決定過程におけるバイアス, 予測されたパターン, 予期せぬパターンが, 定量的, 質的にその性能に影響を及ぼす可能性を明らかにする。

Visual Question Answering (VQA) has been a popular task that combines vision and language, with numerous relevant implementations in literature. Even though there are some attempts that approach explainability and robustness issues in VQA models, very few of them employ counterfactuals as a means of probing such challenges in a model-agnostic way. In this work, we propose a systematic method for explaining the behavior and investigating the robustness of VQA models through counterfactual perturbations. For this reason, we exploit structured knowledge bases to perform deterministic, optimal and controllable word-level replacements targeting the linguistic modality, and we then evaluate the model's response against such counterfactual inputs. Finally, we qualitatively extract local and global explanations based on counterfactual responses, which are ultimately proven insightful towards interpreting VQA model behaviors. By performing a variety of perturbation types, targeting different parts of speech of the input question, we gain insights to the reasoning of the model, through the comparison of its responses in different adversarial circumstances. Overall, we reveal possible biases in the decision-making process of the model, as well as expected and unexpected patterns, which impact its performance quantitatively and qualitatively, as indicated by our analysis.
翻訳日:2023-03-07 18:42:41 公開日:2023-03-05
# ストップ・トゥ・リフレクション:古典放射の量子アナログとしての漸近的静動鏡

Stopping to Reflect: Asymptotic Static Moving Mirrors as Quantum Analogs of Classical Radiation ( http://arxiv.org/abs/2303.02600v1 )

ライセンス: Link先を確認
Michael R.R. Good and Eric V. Linder(参考訳) 加速電荷からの放射は古典物理学と量子物理学の交わりとなる基本的な過程である。 放射の時間発展とスペクトルを動的カシミール効果の移動ミラーモデルと類似させることにより、放射される放射の分析を可能にする2つの完全可溶性電子軌道を示す。 これらの古典解は有限エネルギー、直線(非周期)、漸近的にゼロの速度ワールドライン、対応する量子アナログベータボゴリューボ係数である。 そのうちの1つは均一加速とレオナルド・ダ・ヴィンチの水球実験との興味深い関係を持っている。

Radiation from an accelerating charge is a basic process that can serve as an intersection between classical and quantum physics. We present two exactly soluble electron trajectories that permit analysis of the radiation emitted, exploring its time evolution and spectrum by analogy with the moving mirror model of the dynamic Casimir effect. These classical solutions are finite energy, rectilinear (nonperiodic), asymptotically zero velocity worldlines with corresponding quantum analog beta Bogolyubov coefficients. One of them has an interesting connection to uniform acceleration and Leonardo da Vinci's water pitcher experiment.
翻訳日:2023-03-07 18:42:19 公開日:2023-03-05
# 歌声分離のためのハイブリッドYネットアーキテクチャ

Hybrid Y-Net Architecture for Singing Voice Separation ( http://arxiv.org/abs/2303.02599v1 )

ライセンス: Link先を確認
Rashen Fernando, Pamudu Ranasinghe, Udula Ranasinghe, Janaka Wijayakulasooriya, Pantaleon Perera(参考訳) 本稿では、音楽ソース分離を実現するための新しいディープラーニングベースのニューラルネットワークアーキテクチャy-netを提案する。 提案アーキテクチャは、スペクトルと波形の両方の領域から特徴を抽出することで、エンドツーエンドのハイブリッドソース分離を行う。 u-netアーキテクチャにインスパイアされたy-netは、混合信号から発声源を分離するスペクトログラムマスクを予測する。 本研究は,より少ないパラメータで音源分離を行うためのアーキテクチャの有効性を示す。 本研究は全体として,音源分離の精度と効率を向上させるための有望なアプローチを示す。

This research paper presents a novel deep learning-based neural network architecture, named Y-Net, for achieving music source separation. The proposed architecture performs end-to-end hybrid source separation by extracting features from both spectrogram and waveform domains. Inspired by the U-Net architecture, Y-Net predicts a spectrogram mask to separate vocal sources from a mixture signal. Our results demonstrate the effectiveness of the proposed architecture for music source separation with fewer parameters. Overall, our work presents a promising approach for improving the accuracy and efficiency of music source separation.
翻訳日:2023-03-07 18:42:07 公開日:2023-03-05
# ピラミッド流:ピラミッド正規化流を用いた高分解能欠陥造影

PyramidFlow: High-Resolution Defect Contrastive Localization using Pyramid Normalizing Flow ( http://arxiv.org/abs/2303.02595v1 )

ライセンス: Link先を確認
Jiarui Lei, Xiaobo Hu, Yue Wang, Dong Liu(参考訳) 工業加工中は、制御不能な要因による製品に予期せぬ欠陥が生じる可能性がある。 教師なしの手法は欠陥のローカライズに成功しているが、事前訓練されたモデルの通常使用は低解像度出力を生じさせ、視覚性能を損なう。 この問題に対処するために,高分解能欠陥の局所化を可能にする事前学習モデルを持たない,最初の完全正規化フロー法であるPraamidFlowを提案する。 具体的には,事前学習したモデルのようにクラス内分散を減らすために,潜伏テンプレートに基づく欠陥比較ローカライズパラダイムを提案する。 さらに、ピラミッドフローは、多スケールフローとボリューム正規化のためにピラミッド状正規化フローを利用し、一般化を助けている。 MVTecADに関する包括的研究により,提案手法は,BTADの難易度の高いシナリオにおいて,最先端の性能を達成しつつも,外部の先行手法を使用しない同等のアルゴリズムよりも優れていることを示す。

During industrial processing, unforeseen defects may arise in products due to uncontrollable factors. Although unsupervised methods have been successful in defect localization, the usual use of pre-trained models results in low-resolution outputs, which damages visual performance. To address this issue, we propose PyramidFlow, the first fully normalizing flow method without pre-trained models that enables high-resolution defect localization. Specifically, we propose a latent template-based defect contrastive localization paradigm to reduce intra-class variance, as the pre-trained models do. In addition, PyramidFlow utilizes pyramid-like normalizing flows for multi-scale fusing and volume normalization to help generalization. Our comprehensive studies on MVTecAD demonstrate the proposed method outperforms the comparable algorithms that do not use external priors, even achieving state-of-the-art performance in more challenging BTAD scenarios.
翻訳日:2023-03-07 18:42:00 公開日:2023-03-05
# 超解像型ニューラル演算子

Super-Resolution Neural Operator ( http://arxiv.org/abs/2303.02584v1 )

ライセンス: Link先を確認
Min Wei, Xuesong Zhang(参考訳) 本稿では,高分解能画像(HR)を低分解能画像(LR)から任意のスケールで処理可能な,深層演算子学習フレームワークSRNOを提案する。 LR-HR画像対をグリッドサイズに近似した連続関数として扱い、SRNOは対応する関数空間間のマッピングを学習する。 近似理論の観点からは、SRNOはまずLR入力を高次元の潜在表現空間に埋め込み、十分な基底関数を捕捉し、次に暗黙のイメージ関数をカーネル積分機構で反復的に近似し、続いて最終次元縮小ステップで目標座標でのRGB表現を生成する。 SRNOと以前の連続SR作品とを区別する重要な特徴は次のとおりである。 1) 各層における核積分は、空間領域における非局所的性質を持つガレルキン型注意を通して効率よく実装され、したがってグリッドフリー連続体に恩恵を与える。 2)多層アテンションアーキテクチャは動的潜時基底更新を可能にし,sr問題においてlr画像からの高周波情報を「幻覚」する上で重要である。 実験により、SRNOは既存の連続SR法よりも精度と実行時間の両方で優れていることが示された。 私たちのコードはhttps://github.com/2y7c3/Super-Resolution-Neural-Operatorにあります。

We propose Super-resolution Neural Operator (SRNO), a deep operator learning framework that can resolve high-resolution (HR) images at arbitrary scales from the low-resolution (LR) counterparts. Treating the LR-HR image pairs as continuous functions approximated with different grid sizes, SRNO learns the mapping between the corresponding function spaces. From the perspective of approximation theory, SRNO first embeds the LR input into a higher-dimensional latent representation space, trying to capture sufficient basis functions, and then iteratively approximates the implicit image function with a kernel integral mechanism, followed by a final dimensionality reduction step to generate the RGB representation at the target coordinates. The key characteristics distinguishing SRNO from prior continuous SR works are: 1) the kernel integral in each layer is efficiently implemented via the Galerkin-type attention, which possesses non-local properties in the spatial domain and therefore benefits the grid-free continuum; and 2) the multilayer attention architecture allows for the dynamic latent basis update, which is crucial for SR problems to "hallucinate" high-frequency information from the LR image. Experiments show that SRNO outperforms existing continuous SR methods in terms of both accuracy and running time. Our code is at https://github.com/2y7c3/Super-Resolution-Neural-Operator
翻訳日:2023-03-07 18:41:41 公開日:2023-03-05
# ニューラルネットワークの知覚の修正について

On Modifying a Neural Network's Perception ( http://arxiv.org/abs/2303.02655v1 )

ライセンス: Link先を確認
Manuel de Sousa Ribeiro and Jo\~ao Leite(参考訳) ニューラルネットワークは極めて有用なモデルであることが証明されており、人工知能などの分野において、最近の複数のブレークスルーを可能にしている。 しかし、これらのモデルが結果にどのように到達するかを人間が解釈するのがいかに難しいかを考えると、それらは通常ブラックボックスと見なされる。 本研究では,人工ニューラルネットワークが特定の人間定義概念に対してどのような認識をしているかを修正し,ニューラルネットワークモデルの理解やデバッグに役立つ仮説的シナリオの生成を可能にする手法を提案する。 実験的な評価、合成データセットおよびimagenetデータセットにおいて、異なるモデル上で提案手法をテストし、実行された操作がモデルによって適切に解釈されているかどうかを評価し、それらにどう反応するかを分析する。

Artificial neural networks have proven to be extremely useful models that have allowed for multiple recent breakthroughs in the field of Artificial Intelligence and many others. However, they are typically regarded as black boxes, given how difficult it is for humans to interpret how these models reach their results. In this work, we propose a method which allows one to modify what an artificial neural network is perceiving regarding specific human-defined concepts, enabling the generation of hypothetical scenarios that could help understand and even debug the neural network model. Through empirical evaluation, in a synthetic dataset and in the ImageNet dataset, we test the proposed method on different models, assessing whether the performed manipulations are well interpreted by the models, and analyzing how they react to them.
翻訳日:2023-03-07 18:34:48 公開日:2023-03-05
# 非完全除算器を用いたサブレイリー音源識別の実用化試験

Practical tests for sub-Rayleigh source discriminations with imperfect demultiplexers ( http://arxiv.org/abs/2303.02654v1 )

ライセンス: Link先を確認
Konrad Schlichtholz, Tomasz Linowski, Mattia Walschaers, Nicolas Treps, {\L}ukasz Rudnicki and Giacomo Sorelli(参考訳) 1つと2つの密接に分離された光源間の量子最適識別は、光子が単一の反対称モードで検出されるかどうかを単純に監視して、理想的な空間モードの多重化によって達成できる。 しかし、どんなに小さくてもデマルチプレクサの不完全であっても、この単純な統計テストは事実上役に立たない。 我々は、多数の検出された光子の限界で誤差確率が消滅する分離非依存テストのクラスを同定するが、それらは一般的にその限界を超える信頼できない。 そこで本研究では,誤差の最大確率を任意に制御することで,信頼性の高い実験を設計できる簡易な半分離非依存テストを提案する。

Quantum-optimal discrimination between one and two closely separated light sources can be achieved by ideal spatial-mode demultiplexing, simply monitoring whether a photon is detected in a single antisymmetric mode. However, we show that for any, no matter how small, imperfections of the demultiplexer, this simple statistical test becomes practically useless, i.e. as good as flipping a coin. While we identify a class of separation-independent tests with vanishing error probabilities in the limit of large numbers of detected photons, they are generally unreliable beyond that very limit. As a practical alternative, we propose a simple semi-separation-independent test, which provides a method for designing reliable experiments, through arbitrary control over the maximal probability of error.
翻訳日:2023-03-07 18:34:35 公開日:2023-03-05
# 画像キャプションの注意機構を考慮したトランスフォーマーとLSTMネットワークの比較検討

Comparative study of Transformer and LSTM Network with attention mechanism on Image Captioning ( http://arxiv.org/abs/2303.02648v1 )

ライセンス: Link先を確認
Pranav Dandwate, Chaitanya Shahane, Vandana Jagtap, Shridevi C. Karande(参考訳) 現在のジェネレーティブ・インテリジェンス時代におけるグローバル化世界では、手作業のほとんどが自動化され、効率が向上している。 これにより、時間とお金を節約できる。 生成知性の重要な構成要素は、視覚と言語の統合である。 その結果、画像キャプションは興味深い研究領域となった。 研究者たちは、さまざまなディープラーニングアーキテクチャでこの問題を解決しようとしたが、精度は向上したが、結果はまだ標準には至っていない。 本研究は,画像キャプションの標準データセットであるMS-COCOデータセットのアテンションブロックモデルとTransformer と LSTM を比較した。 どちらのモデルもプリトレーニングされたinception-v3 cnnエンコーダを使用して画像の特徴抽出を行った。 両モデルで生成されたキャプションの精度を確認するために,バイリンガル評価アンダースタディスコア(BLEU)を用いる。 注目ブロックモデル,CLIP拡散モデル,M2-Transformerモデル,X-Linear Attentionモデルを含むトランスフォーマーおよびLSTMとともに,その精度について検討した。

In a globalized world at the present epoch of generative intelligence, most of the manual labour tasks are automated with increased efficiency. This can support businesses to save time and money. A crucial component of generative intelligence is the integration of vision and language. Consequently, image captioning become an intriguing area of research. There have been multiple attempts by the researchers to solve this problem with different deep learning architectures, although the accuracy has increased, but the results are still not up to standard. This study buckles down to the comparison of Transformer and LSTM with attention block model on MS-COCO dataset, which is a standard dataset for image captioning. For both the models we have used pretrained Inception-V3 CNN encoder for feature extraction of the images. The Bilingual Evaluation Understudy score (BLEU) is used to checked the accuracy of caption generated by both models. Along with the transformer and LSTM with attention block models,CLIP-diffusion model, M2-Transformer model and the X-Linear Attention model have been discussed with state of the art accuracy.
翻訳日:2023-03-07 18:34:21 公開日:2023-03-05
# ニューラルネットワークのキャリブレーションにおける期待一貫性

Expectation consistency for calibration of neural networks ( http://arxiv.org/abs/2303.02644v1 )

ライセンス: Link先を確認
Lucas Clart\'e, Bruno Loureiro, Florent Krzakala, Lenka Zdeborov\'a(参考訳) その驚くべき性能にもかかわらず、ディープニューラルネットワークは予測の信頼性に対して過剰に最適化される傾向があると報告されている。 したがって、ニューラルネットワークの効率的かつ効率的なキャリブレーション方法を見つけることは、ディープラーニングにおける不確実性定量化を改善するための重要な取り組みである。 本稿では,最終層重みのトレーニング後の再スケーリングを行い,平均検証信頼度と正しいラベルの平均比率とを一致させることにより,予測一貫性(ec)と呼ばれる新しい校正手法を提案する。 まず,ec法が異なるニューラルネットワークアーキテクチャとデータセットにまたがる温度スケーリング(ts)と同様のキャリブレーション性能を実現し,同様の検証サンプルと計算リソースを必要とすることを示した。 しかしながら、ec は西森同一性として知られるベイズ最適性原理に基づく原理的手法であると主張する。 次に,合成環境におけるTSとECの漸近的評価を行い,その性能が目的関数に大きく依存していることを示す。 特に、ECがTSを著しく上回る事例について論じる。

Despite their incredible performance, it is well reported that deep neural networks tend to be overoptimistic about their prediction confidence. Finding effective and efficient calibration methods for neural networks is therefore an important endeavour towards better uncertainty quantification in deep learning. In this manuscript, we introduce a novel calibration technique named expectation consistency (EC), consisting of a post-training rescaling of the last layer weights by enforcing that the average validation confidence coincides with the average proportion of correct labels. First, we show that the EC method achieves similar calibration performance to temperature scaling (TS) across different neural network architectures and data sets, all while requiring similar validation samples and computational resources. However, we argue that EC provides a principled method grounded on a Bayesian optimality principle known as the Nishimori identity. Next, we provide an asymptotic characterization of both TS and EC in a synthetic setting and show that their performance crucially depends on the target function. In particular, we discuss examples where EC significantly outperforms TS.
翻訳日:2023-03-07 18:34:02 公開日:2023-03-05
# cuecan: 制約のない道路の交通標識を識別するためのコンテキスト的注意

CueCAn: Cue Driven Contextual Attention For Identifying Missing Traffic Signs on Unconstrained Roads ( http://arxiv.org/abs/2303.02641v1 )

ライセンス: Link先を確認
Varun Gupta, Anbumani Subramanian, C.V. Jawahar, Rohit Saluja(参考訳) 制限のないアジアの道路はインフラが乏しく、道路全体の安全に影響を与えている。 交通標識の欠如は、こうした道路の通常部分である。 道路の風景画像上で,失明した縁石の位置を推定し,歩行者にとって妥当な地域を推定するために,逸失物検出や非現存物検出が研究されている。 このような手法には、タスク固有の単一オブジェクトキューの分析が含まれる。 本稿では,欠落している物体に対する最初の,かつ最も挑戦的なビデオデータセットについて述べる。 当社では the missing traffic signs video dataset (mtsvd) と呼んでいる。 MTSVDはこれまでの2つの側面から比較すると挑戦的だ 一 交通標識は、一般的にその手掛かりの近傍に存在しないこと。 二 交通標識の手がかりは多様で独特である。 また、mtsvdは初めて公開されたオブジェクトデータセットである。 行方不明の標識を特定するためのモデルをトレーニングするために、私たちはデータセットを10Kの交通標識トラックで補完します。 そこで我々は,モデルエンコーダに組み込んだcue-driven context attention unit (cuecan)を提案する。 まず、エンコーダをトレーニングして、信号機の存在を分類し、次にセグメントモデル全体をエンドツーエンドにトレーニングし、行方不明の信号機をローカライズします。 定量的および定性的な分析により、CueCAnはベースモデルの性能を大幅に改善することが示された。

Unconstrained Asian roads often involve poor infrastructure, affecting overall road safety. Missing traffic signs are a regular part of such roads. Missing or non-existing object detection has been studied for locating missing curbs and estimating reasonable regions for pedestrians on road scene images. Such methods involve analyzing task-specific single object cues. In this paper, we present the first and most challenging video dataset for missing objects, with multiple types of traffic signs for which the cues are visible without the signs in the scenes. We refer to it as the Missing Traffic Signs Video Dataset (MTSVD). MTSVD is challenging compared to the previous works in two aspects i) The traffic signs are generally not present in the vicinity of their cues, ii) The traffic signs cues are diverse and unique. Also, MTSVD is the first publicly available missing object dataset. To train the models for identifying missing signs, we complement our dataset with 10K traffic sign tracks, with 40 percent of the traffic signs having cues visible in the scenes. For identifying missing signs, we propose the Cue-driven Contextual Attention units (CueCAn), which we incorporate in our model encoder. We first train the encoder to classify the presence of traffic sign cues and then train the entire segmentation model end-to-end to localize missing traffic signs. Quantitative and qualitative analysis shows that CueCAn significantly improves the performance of base models.
翻訳日:2023-03-07 18:33:44 公開日:2023-03-05
# Swim: 移動制御タスクのための汎用・高性能・効率的な活性化機能

Swim: A General-Purpose, High-Performing, and Efficient Activation Function for Locomotion Control Tasks ( http://arxiv.org/abs/2303.02640v1 )

ライセンス: Link先を確認
Maryam Abdool and Tony Dear(参考訳) 活性化関数はディープラーニングアルゴリズムの性能において重要な役割を果たす。 特に、スウェーデンのアクティベーション機能は、深い強化学習モデルを含むより深いモデルにおいて、困難なタスクでReLUを上回る傾向にある。 この進歩にもかかわらず、ReLUはSwishよりも効率的であるため、好まれる機能である。 さらに、コンピュータビジョンや自然言語処理の分野とは対照的に、深層強化学習やロボット工学の領域では、swishのような新しいアクティベーション機能を採用する傾向が少なく、代わりにreluのような従来の機能を使い続けている。 これらの課題に対処するため,SwimはSwishの汎用的で効率的かつ高性能な代替品であり,その特性の解析と,報酬獲得と効率の両面から,Swishに対する高性能性の説明を提供する。 より複雑なダイナミクスを示し、ハイパフォーマンスで効率的なアクティベーション関数の恩恵を受けるため、mujocoのロコモーション連続制御タスクでスイムをテストすることに重点を置いています。 また、Swimと組み合わせてTD3アルゴリズムを使用し、ロボットの移動領域の文脈でこの選択を説明する。 スイムは連続制御ロコモーションタスクのための最先端のアクティベーション関数であり、td3を動作フレームワークとして使用することを推奨する。

Activation functions play a significant role in the performance of deep learning algorithms. In particular, the Swish activation function tends to outperform ReLU on deeper models, including deep reinforcement learning models, across challenging tasks. Despite this progress, ReLU is the preferred function partly because it is more efficient than Swish. Furthermore, in contrast to the fields of computer vision and natural language processing, the deep reinforcement learning and robotics domains have seen less inclination to adopt new activation functions, such as Swish, and instead continue to use more traditional functions, like ReLU. To tackle those issues, we propose Swim, a general-purpose, efficient, and high-performing alternative to Swish, and then provide an analysis of its properties as well as an explanation for its high-performance relative to Swish, in terms of both reward-achievement and efficiency. We focus on testing Swim on MuJoCo's locomotion continuous control tasks since they exhibit more complex dynamics and would therefore benefit most from a high-performing and efficient activation function. We also use the TD3 algorithm in conjunction with Swim and explain this choice in the context of the robot locomotion domain. We then conclude that Swim is a state-of-the-art activation function for continuous control locomotion tasks and recommend using it with TD3 as a working framework.
翻訳日:2023-03-07 18:33:23 公開日:2023-03-05
# 最大平均差を用いた半ベイズ的非パラメトリック仮説テストと生成逆数ネットワークへの応用

A Semi-Bayesian Nonparametric Hypothesis Test Using Maximum Mean Discrepancy with Applications in Generative Adversarial Networks ( http://arxiv.org/abs/2303.02637v1 )

ライセンス: Link先を確認
Forough Fazeli-Asl, Michael Minyi Zhang, Lizhen Lin(参考訳) 統計学における古典的な推論問題は、2サンプル仮説テストであり、2つの観測サンプルが同じ分布から引き出されるか、2つの異なる分布から引き出されるかをテストする。 しかし、このテストを実行する標準的な方法は、2つのサンプルデータに対して強い分布仮定を必要とする。 2サンプル仮説テスト問題に対する半ベイズ非パラメトリック(セミBNP)手法を提案する。 まず、新しいBNP最大平均誤差(MMD)測度に基づく仮説を導出する。 次に,提案したテストは,偽の拒絶やnullの受け入れ率を小さくすることで,頻繁なMDDベースの手法よりも優れていることを示す。 最後に,提案手法の応用として,gan(generative adversarial network)フレームワークに提案手法を組み込むことができることを示す。 我々の新しいBNP仮説テストを用いて、この新しいGANアプローチは、生成されたサンプルの多様性の欠如を緩和し、従来の手法と比較してより正確な推論アルゴリズムを生成するのに役立つ。

A classic inferential problem in statistics is the two-sample hypothesis test, where we test whether two samples of observations are either drawn from the same distribution or two distinct distributions. However, standard methods for performing this test require strong distributional assumptions on the two samples of data. We propose a semi-Bayesian nonparametric (semi-BNP) procedure for the two-sample hypothesis testing problem. First, we will derive a novel BNP maximum mean discrepancy (MMD) measure-based hypothesis test. Next, we will show that our proposed test will outperform frequentist MMD-based methods by yielding a smaller false rejection and acceptance rate of the null. Finally, we will show that we can embed our proposed hypothesis testing procedure within a generative adversarial network (GAN) framework as an application of our method. Using our novel BNP hypothesis test, this new GAN approach can help to mitigate the lack of diversity in the generated samples and produce a more accurate inferential algorithm compared to traditional techniques.
翻訳日:2023-03-07 18:32:59 公開日:2023-03-05
# VTQA:エンティティアライメントとクロスメディア推論によるビジュアルテキスト質問回答

VTQA: Visual Text Question Answering via Entity Alignment and Cross-Media Reasoning ( http://arxiv.org/abs/2303.02635v1 )

ライセンス: Link先を確認
Kang Chen, Xiangqian Wu(参考訳) ビジュアル質問回答の理想的な形式は、視覚と言語の共同空間における理解、根拠、推論を必要とし、シーン理解のAIタスクのプロキシとして機能する。 しかしながら、既存のVQAベンチマークのほとんどは、事前に定義されたオプションセットから答えを選ぶだけで、テキストに注意を払わない。 画像テキストペア10124に基づいて,23,781の質問を含むデータセットを新たに提案する。 具体的には、画像とテキスト間のマルチホップ推論を実装し、最後に自然言語を使って質問に答えるために、同じエンティティのマルチメディア表現を調整する必要がある。 この課題の目的は、マルチメディアエンティティアライメント、マルチステップ推論、オープンエンド回答生成が可能なモデルを開発し、ベンチマークすることである。

The ideal form of Visual Question Answering requires understanding, grounding and reasoning in the joint space of vision and language and serves as a proxy for the AI task of scene understanding. However, most existing VQA benchmarks are limited to just picking the answer from a pre-defined set of options and lack attention to text. We present a new challenge with a dataset that contains 23,781 questions based on 10124 image-text pairs. Specifically, the task requires the model to align multimedia representations of the same entity to implement multi-hop reasoning between image and text and finally use natural language to answer the question. The aim of this challenge is to develop and benchmark models that are capable of multimedia entity alignment, multi-step reasoning and open-ended answer generation.
翻訳日:2023-03-07 18:32:45 公開日:2023-03-05
# ディープラーニングに基づく農業のカウンティング手法, データセット, 応用 -- 概観

Deep-Learning-based Counting Methods, Datasets, and Applications in Agriculture -- A Review ( http://arxiv.org/abs/2303.02632v1 )

ライセンス: Link先を確認
Guy Farjon, Liu Huijun, Yael Edan(参考訳) 農業分野における様々な業務において,対象の数が重要な要因であると考えられる。 自動カウントは、収量推定、ストレス検出、疾病予防などに関する農家の判断を改善する。 近年、ディープラーニングは多くの農業関連アプリケーションに適用され、従来の農業対象を数えるためのコンピュータビジョンアルゴリズムを補完している。 本稿では,過去10年間の進歩と農業におけるメソッドカウント技術の現状を,深層学習に焦点をあててレビューする。 カウントアルゴリズム、メトリクス、プラットフォーム、センサーの概観、公開データセットの一覧、カウントに使用されるさまざまなディープラーニングメソッドの詳細な議論などが紹介されている。 最後に、ディープラーニングを用いたオブジェクトカウントにおけるオープンな課題について論じ、研究の新たな方向性と今後の展望を垣間見る。 このレビューは、過去10年間の農業におけるオブジェクトカウントの飛躍的な進歩を明らかにしている。

The number of objects is considered an important factor in a variety of tasks in the agricultural domain. Automated counting can improve farmers decisions regarding yield estimation, stress detection, disease prevention, and more. In recent years, deep learning has been increasingly applied to many agriculture-related applications, complementing conventional computer-vision algorithms for counting agricultural objects. This article reviews progress in the past decade and the state of the art for counting methods in agriculture, focusing on deep-learning methods. It presents an overview of counting algorithms, metrics, platforms, and sensors, a list of all publicly available datasets, and an in-depth discussion of various deep-learning methods used for counting. Finally, it discusses open challenges in object counting using deep learning and gives a glimpse into new directions and future perspectives for counting research. The review reveals a major leap forward in object counting in agriculture in the past decade, led by the penetration of deep learning methods into counting platforms.
翻訳日:2023-03-07 18:32:31 公開日:2023-03-05
# アンサンブル強化学習:調査

Ensemble Reinforcement Learning: A Survey ( http://arxiv.org/abs/2303.02618v1 )

ライセンス: Link先を確認
Yanjie Song, P. N. Suganthan, Witold Pedrycz, Junwei Ou, Yongming He, Yingwu Chen(参考訳) 強化学習(Reinforcement Learning, RL)は多くの科学的および応用問題において最先端のパフォーマンスを達成した。 しかし、いくつかの複雑なタスクは、単一のモデルとアルゴリズムを使うのが難しい。 エンサンブル強化学習(ERL)は,強化学習とアンサンブル学習(EL)を組み合わせることで,複雑なタスクを処理するための重要な手法となっている。 ERLはいくつかのモデルやトレーニングアルゴリズムを組み合わせて問題空間を完全に探索し、強力な一般化特性を持つ。 本研究は,最近の進歩と課題の概要を読者に提供するためのERLに関する総合的な調査である。 背景はまず紹介される。 ERLでうまく適用された戦略を詳細に分析する。 最後に,いくつかのオープンな質問を概説し,今後のERL研究の方向性について論じる。 この調査は、今後の科学研究および工学応用のためのガイドを提供することで、ERLの開発に貢献する。

Reinforcement learning (RL) has achieved state-of-the-art performance in many scientific and applied problems. However, some complex tasks still are difficult to handle using a single model and algorithm. The highly popular ensemble reinforcement learning (ERL) has become an important method to handle complex tasks with the advantage of combining reinforcement learning and ensemble learning (EL). ERL combines several models or training algorithms to fully explore the problem space and has strong generalization characteristics. This study presents a comprehensive survey on ERL to provide the readers with an overview of the recent advances and challenges. The background is introduced first. The strategies successfully applied in ERL are analyzed in detail. Finally, we outline some open questions and conclude by discussing some future research directions of ERL. This survey contributes to ERL development by providing a guide for future scientific research and engineering applications.
翻訳日:2023-03-07 18:32:14 公開日:2023-03-05
# 連続時間ガウス過程運動補償による距離場を用いたイベントビジョンパターン追跡

Continuous-Time Gaussian Process Motion-Compensation for Event-vision Pattern Tracking with Distance Fields ( http://arxiv.org/abs/2303.02672v1 )

ライセンス: Link先を確認
Cedric Le Gentil, Ignacio Alzugaray, Teresa Vidal-Calleja(参考訳) 本研究は,イベントカメラデータにおける動き補償とパターン追跡の問題に対処する。 イベントカメラは、観測強度の変化に応じて、各画素から独立にトリガされたイベントの非同期ストリームを生成する。 このような非伝統的なデータは、従来のビジョンアルゴリズムがこのセンシングモダリティに直接適用されないため、重要な研究課題を呈する。 提案手法では,追跡問題を局所的なse(2)運動補償ステップに分解し,その後に小さな動き補償イベントバッチのホモグラフ登録を行う。 第一成分はガウス過程(GP)理論に依存し、画像平面内の事象の連続占有場をモデル化し、カメラ軌道を共分散カーネル関数に埋め込む。 その際、データのログ周縁確率を最大化することにより、gpハイパーパラメータ学習と同様に軌道推定を行う。 連続占有場は距離場に変換され、ホモグラフィに基づく登録のテンプレートとして使用される。 提案手法を最先端技術に対してベンチマークすることにより,我々のオープンソース実装が高精度な動作補償を行い,実世界のシナリオで高品質なトラックを生成することを示す。

This work addresses the issue of motion compensation and pattern tracking in event camera data. An event camera generates asynchronous streams of events triggered independently by each of the pixels upon changes in the observed intensity. Providing great advantages in low-light and rapid-motion scenarios, such unconventional data present significant research challenges as traditional vision algorithms are not directly applicable to this sensing modality. The proposed method decomposes the tracking problem into a local SE(2) motion-compensation step followed by a homography registration of small motion-compensated event batches. The first component relies on Gaussian Process (GP) theory to model the continuous occupancy field of the events in the image plane and embed the camera trajectory in the covariance kernel function. In doing so, estimating the trajectory is done similarly to GP hyperparameter learning by maximising the log marginal likelihood of the data. The continuous occupancy fields are turned into distance fields and used as templates for homography-based registration. By benchmarking the proposed method against other state-of-the-art techniques, we show that our open-source implementation performs high-accuracy motion compensation and produces high-quality tracks in real-world scenarios.
翻訳日:2023-03-07 18:26:44 公開日:2023-03-05
# 群集流予測モデルに対する一貫した正負の物理的対応可能な逆攻撃

Consistent Valid Physically-Realizable Adversarial Attack against Crowd-flow Prediction Models ( http://arxiv.org/abs/2303.02669v1 )

ライセンス: Link先を確認
Hassan Ali, Muhammad Atif Butt, Fethi Filali, Ala Al-Fuqaha, and Junaid Qadir(参考訳) 近年の研究では、深層学習(DL)モデルは、より効果的な都市計画やスマートシティ管理に使用できる都市全体の群集フローパターンを効果的に学習できることが示されている。 しかし, DLモデルは, 不明瞭な逆境摂動に悪影響を及ぼすことが知られている。 多くの研究がこれらの敵対的摂動を一般に研究しているが、特に深層群流予測モデルの敵対的脆弱性は未解明のままである。 本稿では,複数の脅威設定下でdlベースのクラウドフロー予測モデルの敵対的脆弱性を厳密に解析し,3倍の貢献を行う。 1) 正解率0%の正逆入力(FAR)の検出を可能にするクラウドフロー予測入力の一貫性と妥当性という2つの新しい特性を正式に同定し,CaV検出を提案する。 2) 対人的対人摂動と適応的対人的損失を活用し, CaV-detect 防御を回避するために適応的対人攻撃を提示する。 3) 摂動生成機構における一貫性と妥当性を明示的に導く、一貫性、有効性、物理的に実現可能な逆攻撃であるcvprを提案する。 群集流モデルでは逆方向の摂動に弱いが,CaV-detect が存在する場合,これらの摂動を物理的にシミュレートすることは極めて困難である。 また,CVPR攻撃はFARおよび対向損失指標において適応的に修正された標準攻撃よりもかなり優れていた。 われわれの研究から有用な洞察を得て、将来有望な研究方向性を明らかにする。

Recent works have shown that deep learning (DL) models can effectively learn city-wide crowd-flow patterns, which can be used for more effective urban planning and smart city management. However, DL models have been known to perform poorly on inconspicuous adversarial perturbations. Although many works have studied these adversarial perturbations in general, the adversarial vulnerabilities of deep crowd-flow prediction models in particular have remained largely unexplored. In this paper, we perform a rigorous analysis of the adversarial vulnerabilities of DL-based crowd-flow prediction models under multiple threat settings, making three-fold contributions. (1) We propose CaV-detect by formally identifying two novel properties - Consistency and Validity - of the crowd-flow prediction inputs that enable the detection of standard adversarial inputs with 0% false acceptance rate (FAR). (2) We leverage universal adversarial perturbations and an adaptive adversarial loss to present adaptive adversarial attacks to evade CaV-detect defense. (3) We propose CVPR, a Consistent, Valid and Physically-Realizable adversarial attack, that explicitly inducts the consistency and validity priors in the perturbation generation mechanism. We find out that although the crowd-flow models are vulnerable to adversarial perturbations, it is extremely challenging to simulate these perturbations in physical settings, notably when CaV-detect is in place. We also show that CVPR attack considerably outperforms the adaptively modified standard attacks in FAR and adversarial loss metrics. We conclude with useful insights emerging from our work and highlight promising future research directions.
翻訳日:2023-03-07 18:26:27 公開日:2023-03-05
# IoTにおける異種軽量クライアント集約のための知識強化半教師付きフェデレーションラーニング

Knowledge-Enhanced Semi-Supervised Federated Learning for Aggregating Heterogeneous Lightweight Clients in IoT ( http://arxiv.org/abs/2303.02668v1 )

ライセンス: Link先を確認
Jiaqi Wang, Shenglai Zeng, Zewei Long, Yaqing Wang, Houping Xiao, Fenglong Ma(参考訳) フェデレーション学習(federated learning, fl)は,複数のクライアントがローカルデータを共有せずに,協調的にモデルをトレーニング可能にする。 しかしながら、エンドユーザのIoTデバイスには、収集したデータを自動的にアノテートする機能がないため、クライアント側のラベル不足が問題になる。 flモデルを協調的にトレーニングするには、サーバに格納された少数のラベル付きデータしか使えません。 これは、フェデレーション学習、すなわち、semifl( labels-at-server semi-supervised federated learning)において、新しい、しかし実用的なシナリオである。 最近、いくつかのSemiFLアプローチが提案されているが、モデル設計におけるパーソナライズ問題に焦点を合わせることはできない。 IoT環境は、デバイス計算の制約と通信コストを同時に考慮する必要があるため、SemiFLをより困難にします。 これらの課題に共に取り組むために,我々はpFedKnowという新しいSemiFLフレームワークを提案する。 pFedKnowは、通信コストを削減するためにニューラルネットワークプルーニング技術を使用して、軽量なパーソナライズされたクライアントモデルを生成する。 さらに、事前訓練された大規模モデルを事前知識として取り入れ、パーソナライズされたクライアントモデルの集約をガイドし、フレームワークのパフォーマンスをさらに向上させる。 画像とテキストのデータセットによる実験結果から、提案したpFedKnowは最先端のベースラインを上回り、通信コストを大幅に削減することが示された。 提案されたpFedKnowのソースコードはhttps://github.com/JackqqWang/pfedknow/tree/masterで入手できる。

Federated learning (FL) enables multiple clients to train models collaboratively without sharing local data, which has achieved promising results in different areas, including the Internet of Things (IoT). However, end IoT devices do not have abilities to automatically annotate their collected data, which leads to the label shortage issue at the client side. To collaboratively train an FL model, we can only use a small number of labeled data stored on the server. This is a new yet practical scenario in federated learning, i.e., labels-at-server semi-supervised federated learning (SemiFL). Although several SemiFL approaches have been proposed recently, none of them can focus on the personalization issue in their model design. IoT environments make SemiFL more challenging, as we need to take device computational constraints and communication cost into consideration simultaneously. To tackle these new challenges together, we propose a novel SemiFL framework named pFedKnow. pFedKnow generates lightweight personalized client models via neural network pruning techniques to reduce communication cost. Moreover, it incorporates pretrained large models as prior knowledge to guide the aggregation of personalized client models and further enhance the framework performance. Experiment results on both image and text datasets show that the proposed pFedKnow outperforms state-of-the-art baselines as well as reducing considerable communication cost. The source code of the proposed pFedKnow is available at https://github.com/JackqqWang/pfedknow/tree/master.
翻訳日:2023-03-07 18:25:58 公開日:2023-03-05
# 周波数領域予測によるJPEGの学習損失圧縮

Learned Lossless Compression for JPEG via Frequency-Domain Prediction ( http://arxiv.org/abs/2303.02666v1 )

ライセンス: Link先を確認
Jixiang Luo, Shaohui Li, Wenrui Dai, Chenglin Li, Junni Zou, Hongkai Xiong(参考訳) JPEG画像はさらに圧縮され、大規模な画像データセットの保存と送信が強化される。 既存のRGB画像のロスレス圧縮機は、DCT係数と生画素の差分分布のため、JPEG画像に十分に変換できない。 本稿では,デコードされたDCT係数の分布をエンドツーエンドに最適化し,JPEG画像のロスレス圧縮を学習するための新しいフレームワークを提案する。 周波数領域での学習を可能にするために、DCT係数は暗黙の局所冗長性を利用するためにグループに分割される。 オートエンコーダライクなアーキテクチャは、重み共有ブロックに基づいて設計され、グループ化dct係数のエントロピーモデリングを実現し、プリエントを独立に圧縮する。 周波数領域におけるjpeg画像の学習型ロスレス圧縮を実現する。 実験の結果,jpeg画像のハンドクラフトドコンテクストモデリングを用いた最近のロスレス圧縮機と比較して,提案フレームワークが優れた性能と同等の性能を達成できることがわかった。

JPEG images can be further compressed to enhance the storage and transmission of large-scale image datasets. Existing learned lossless compressors for RGB images cannot be well transferred to JPEG images due to the distinguishing distribution of DCT coefficients and raw pixels. In this paper, we propose a novel framework for learned lossless compression of JPEG images that achieves end-to-end optimized prediction of the distribution of decoded DCT coefficients. To enable learning in the frequency domain, DCT coefficients are partitioned into groups to utilize implicit local redundancy. An autoencoder-like architecture is designed based on the weight-shared blocks to realize entropy modeling of grouped DCT coefficients and independently compress the priors. We attempt to realize learned lossless compression of JPEG images in the frequency domain. Experimental results demonstrate that the proposed framework achieves superior or comparable performance in comparison to most recent lossless compressors with handcrafted context modeling for JPEG images.
翻訳日:2023-03-07 18:25:34 公開日:2023-03-05
# 音響事象分類のための不均一グラフ学習

Heterogeneous Graph Learning for Acoustic Event Classification ( http://arxiv.org/abs/2303.02665v1 )

ライセンス: Link先を確認
Amir Shirian, Mona Ahmadian, Krishna Somandepalli, Tanaya Guha(参考訳) 不均一グラフは、複数の異なるモダリティを含むデータをモデル化するためのコンパクトで効率的でスケーラブルな方法を提供する。 これにより、異種グラフを用いた視聴覚データのモデリングが魅力的な選択肢となる。 しかし、グラフ構造は視聴覚データには自然に現れない。 オーディオヴィジュアルデータのためのグラフは手動で作成され、これは困難かつ準最適である。 本研究では,この問題に対処する。 (i)モーダルエッジに対するパラメトリックグラフ構築戦略の提案、 (ii)交叉端を学ぶこと。 この目的のために,クロスモーダルエッジを学習する新しいモデルであるヘテロジニアスグラフクロスモーダルネットワーク(HGCN)を開発した。 提案モデルはパラメトリックな構成により様々な空間的・時間的スケールに対応できるが,学習可能なクロスモーダルエッジは関連するノードを効果的にモダリティに連結する。 大規模ベンチマークデータセット(audioset)における実験により、我々のモデルは最先端(平均精度0.53)であり、トランスフォーマーモデルや他のグラフベースモデルよりも優れています。

Heterogeneous graphs provide a compact, efficient, and scalable way to model data involving multiple disparate modalities. This makes modeling audiovisual data using heterogeneous graphs an attractive option. However, graph structure does not appear naturally in audiovisual data. Graphs for audiovisual data are constructed manually which is both difficult and sub-optimal. In this work, we address this problem by (i) proposing a parametric graph construction strategy for the intra-modal edges, and (ii) learning the crossmodal edges. To this end, we develop a new model, heterogeneous graph crossmodal network (HGCN) that learns the crossmodal edges. Our proposed model can adapt to various spatial and temporal scales owing to its parametric construction, while the learnable crossmodal edges effectively connect the relevant nodes across modalities. Experiments on a large benchmark dataset (AudioSet) show that our model is state-of-the-art (0.53 mean average precision), outperforming transformer-based models and other graph-based models.
翻訳日:2023-03-07 18:25:18 公開日:2023-03-05
# 並行計画と実行の形式的メタ推論モデル

A Formal Metareasoning Model of Concurrent Planning and Execution ( http://arxiv.org/abs/2303.02664v1 )

ライセンス: Link先を確認
Amihay Elboher, Ava Bensoussan, Erez Karpas, Wheeler Ruml, Shahaf S. Shperberg, Solomon E. Shimony(参考訳) 現実世界で計画し行動するエージェントは、計画どおりに時間が経過するという事実に対処する必要がある。 タイミングが厳しければ、行動する時間になる前に、計画の検索を完了させる時間が不足する可能性がある。 検索が終わる前に実行を強制することで、計画と実行を同時に行うことで検索の時間を得る。 しかしこれは、特にアクションが不可逆である場合、誤ったアクション選択を行うリスクを引き起こす。 この機会とリスクのトレードオフは,本稿で取り上げている問題である。 我々の主な貢献は、この設定を抽象メタ推論問題として正式に定義することである。 抽象的な問題は難解である。 しかし, 多項式時間で解ける特殊ケースを同定し, グリーディ解法を開発し, 探索問題から抽出した事例を検証した結果, 有望な実用性を実現する方法がいくつか見出された。 この作業は、計画と実行を同時に行う、原則付きタイムアウェアエグゼクティブの基盤となる。

Agents that plan and act in the real world must deal with the fact that time passes as they are planning. When timing is tight, there may be insufficient time to complete the search for a plan before it is time to act. By commencing execution before search concludes, one gains time to search by making planning and execution concurrent. However, this incurs the risk of making incorrect action choices, especially if actions are irreversible. This tradeoff between opportunity and risk is the problem addressed in this paper. Our main contribution is to formally define this setting as an abstract metareasoning problem. We find that the abstract problem is intractable. However, we identify special cases that are solvable in polynomial time, develop greedy solution algorithms, and, through tests on instances derived from search problems, find several methods that achieve promising practical performance. This work lays the foundation for a principled time-aware executive that concurrently plans and executes.
翻訳日:2023-03-07 18:25:03 公開日:2023-03-05
# 効率的でロバストな検証を許容するノークローニングとノーハイディングの簡単な定式化

A simple formulation of no-cloning and no-hiding that admits efficient and robust verification ( http://arxiv.org/abs/2303.02662v1 )

ライセンス: Link先を確認
Matthew Girling, Cristina Cirstoiu, David Jennings(参考訳) 不整合性は古典理論とは切り離す量子理論の特徴であり、未知の量子状態のクローンができないことは最も基本的な例の1つである。 ノンハイディング定理は、ブラックホール情報パラドックスの文脈で発生する同様の例であり、ノンクローニングと双対であると見なすことができる。 ここでは、これらの量子理論の基本的特徴のどちらも、効率的な検証が可能であり、状態の準備と測定で生じる誤りに対して堅牢である単一の形式で定式化する。 我々は、量子論において量子チャネルのコヒーレンスを捉える平均的なメリットであるユニタリティの概念を、一般的な物理理論にまで拡張する。 次に、その理論における互換性のあるチャネルに対するユニタリティの許容値に対応する互換ユニタリティペア(cup)集合の概念を導入する。 我々は、CUP集合が物理理論の単純な「フィンガープリント」を構成することを示し、不整合性はそれらを通して研究可能であることを示す。 量子論の非閉/ブロードキャスト定理と非隠れ定理の両方をエンコードする量子CUP集合に関する情報分散制約を導出する。 次に、量子カップ集合を効率的に推定し、最も単純なインスタンスのibmqを用いてシミュレーションを行うランダム化ベンチマークプロトコルを開発した。 最後に、カップ集合と量子ノーゴー定理がベンチマーク量子デバイスに付加的な情報を提供する方法について議論する。

Incompatibility is a feature of quantum theory that sets it apart from classical theory, and the inability to clone an unknown quantum state is one of the most fundamental instances. The no-hiding theorem is another such instance that arises in the context of the black-hole information paradox, and can be viewed as being dual to no-cloning. Here, we formulate both of these fundamental features of quantum theory in a single form that is amenable to efficient verification, and that is robust to errors arising in state preparation and measurements. We extend the notion of unitarity - an average figure of merit that for quantum theory captures the coherence of a quantum channel - to general physical theories. Then, we introduce the notion of compatible unitarity pair (CUP) sets, that correspond to the allowed values of unitarities for compatible channels in the theory. We show that a CUP-set constitutes a simple 'fingerprint' of a physical theory, and that incompatibility can be studied through them. We derive information-disturbance constraints on quantum CUP-sets that encode both the no-cloning/broadcasting and no-hiding theorems of quantum theory. We then develop randomised benchmarking protocols that efficiently estimate quantum CUP-sets and provide simulations using IBMQ of the simplest instance. Finally, we discuss ways in which CUP-sets and quantum no-go theorems could provide additional information to benchmark quantum devices.
翻訳日:2023-03-07 18:24:50 公開日:2023-03-05
# synthaspoof: プライバシフレンドリな合成データに基づく顔提示攻撃検出の開発

SynthASpoof: Developing Face Presentation Attack Detection Based on Privacy-friendly Synthetic Data ( http://arxiv.org/abs/2303.02660v1 )

ライセンス: Link先を確認
Meiling Fang and Marco Huber and Naser Damer(参考訳) 近年,複数の顔PADデータセットが利用可能であることから,顔認識システムによる提示攻撃に対する防御を目的とした顔提示攻撃検出(PAD)が大幅に進歩している。 しかし、すべての利用可能なデータセットは、限られた数の被験者を持つプライバシーと法的に敏感な認証バイオメトリックデータに基づいている。 これらの法的および技術的な課題をターゲットにするため、本研究は大規模パッド開発データセットとしてsynthaspoofと呼ばれる最初の合成ベースのフェイスパッドデータセットを提示する。 synthaspoof中のbonafideサンプルを合成生成し、そのような合成データを提示して攻撃サンプルを収集し、実際の攻撃シナリオでシステムをキャプチャする。 フェースパドの開発にSynthaspoofを用いることが可能であることを示す実験結果を得た。 さらに、ドメイン一般化ツールMixStyleをPADソリューションに組み込むことで、そのようなソリューションの性能を向上させる。 さらに,限られた訓練データの多様性を高め,PAD性能を継続的に向上するために,合成データを利用したサプリメントの有効性を示した。 25,000のボナフィドと78,800の攻撃サンプルを含むSynthASpoofデータセットの実装と事前訓練された重量が公開されている。

Recently, significant progress has been made in face presentation attack detection (PAD), which aims to secure face recognition systems against presentation attacks, owing to the availability of several face PAD datasets. However, all available datasets are based on privacy and legally-sensitive authentic biometric data with a limited number of subjects. To target these legal and technical challenges, this work presents the first synthetic-based face PAD dataset, named SynthASpoof, as a large-scale PAD development dataset. The bona fide samples in SynthASpoof are synthetically generated and the attack samples are collected by presenting such synthetic data to capture systems in a real attack scenario. The experimental results demonstrate the feasibility of using SynthASpoof for the development of face PAD. Moreover, we boost the performance of such a solution by incorporating the domain generalization tool MixStyle into the PAD solutions. Additionally, we showed the viability of using synthetic data as a supplement to enrich the diversity of limited authentic training data and consistently enhance PAD performances. The SynthASpoof dataset, containing 25,000 bona fide and 78,800 attack samples, the implementation, and the pre-trained weights are made publicly available.
翻訳日:2023-03-07 18:24:23 公開日:2023-03-05
# 特権ermの容量制限について

On the Capacity Limits of Privileged ERM ( http://arxiv.org/abs/2303.02658v1 )

ライセンス: Link先を確認
Michal Sharoni and Sivan Sabato(参考訳) 本稿では,Vapnik と Vashist (2009) が提案した,Privileged Information を用いた学習という指導的学習パラダイムについて考察する。 このパラダイムでは、例とラベルに加えて、トレーニング例に対してのみ追加の(優先的な)情報が提供される。 目標は、この情報を使用して結果の分類器の分類精度を向上させることであり、この分類器は、新しいサンプルインスタンスの非特権情報のみを使用してラベルを予測できる。 我々は,pechyony and vapnik (2010a) で提案されている自然特権ermアルゴリズムを用いて,ゼロワン損失を用いた特権学習の理論を考察した。 我々は、この問題によって引き起こされた損失クラスのvc次元に関するその研究でなされた主張に対する反例を示し、その主張は誤りであると結論付ける。 次に、特権付きerm損失クラスのキャパシティの下限と上限の両方を与える正しいvc次元分析を提供する。 さらに、一般化分析により、特権情報の容量が非特権情報の容量と似ているか小さいかない限り、プリビレギンドEMMの最悪の保証は標準の非特権EMMよりも改善できないことを示す。 この結果は、Privleged ERMアプローチの重要な制限を示している。 閉会の議論では、特権情報の容量が大きい場合でも、Privleged ERMが役立つかもしれない別の方法を提案する。

We study the supervised learning paradigm called Learning Using Privileged Information, first suggested by Vapnik and Vashist (2009). In this paradigm, in addition to the examples and labels, additional (privileged) information is provided only for training examples. The goal is to use this information to improve the classification accuracy of the resulting classifier, where this classifier can only use the non-privileged information of new example instances to predict their label. We study the theory of privileged learning with the zero-one loss under the natural Privileged ERM algorithm proposed in Pechyony and Vapnik (2010a). We provide a counter example to a claim made in that work regarding the VC dimension of the loss class induced by this problem; We conclude that the claim is incorrect. We then provide a correct VC dimension analysis which gives both lower and upper bounds on the capacity of the Privileged ERM loss class. We further show, via a generalization analysis, that worst-case guarantees for Privileged ERM cannot improve over standard non-privileged ERM, unless the capacity of the privileged information is similar or smaller to that of the non-privileged information. This result points to an important limitation of the Privileged ERM approach. In our closing discussion, we suggest another way in which Privileged ERM might still be helpful, even when the capacity of the privileged information is large.
翻訳日:2023-03-07 18:24:02 公開日:2023-03-05
# open ranにおけるsparsity-aware intelligent massive random access control--強化学習に基づくアプローチ

Sparsity-Aware Intelligent Massive Random Access Control in Open RAN: A Reinforcement Learning Based Approach ( http://arxiv.org/abs/2303.02657v1 )

ライセンス: Link先を確認
Xiao Tang, Sicong Liu, Xiaojiang Du, Mohsen Guizani(参考訳) 新たなOpen Radio Access Network(O-RAN)におけるデバイスの大量ランダムアクセスは、アクセス制御と管理に大きな課題をもたらす。 アクセス要求のバースト特性をエクスプロイトすることで、SAUD(sparse active user detection)は効率的なアクセス管理を実現するのに有効であるが、非コーディネートな大規模アクセス要求の場合、スパーシティは劣化する可能性がある。 アクセス要求の間隔を動的に保存するために、アクセスクラスバーリング技術を利用した強化学習(RL)支援による閉ループアクセス制御方式を提案し、RLエージェント、すなわち次世代ノードベース(gNB)と環境との連続的な相互作用を通じてRLポリシーを決定する。 提案方式はO-RANの近リアルタイムRANインテリジェントコントローラ(近RT RIC)により実装可能であり,mMTCやuRLLCサービスなどの異種垂直アプリケーション間の高速な切り替えをサポートする。 さらに,高次元かつ連続的な状態と動作空間を持つ複雑な環境を解決するために,深部RL支援SAUDを用いたデータ駆動型SAUDを提案し,リプレイバッファを大規模データ収集に応用した。 アクター批判フレームワークは、戦略学習モジュールを近RT RICに組み込むように定式化されている。 シミュレーションの結果,大規模アクセス要求の異なる異種サービスに対するベンチマーク方式に比べて,提案手法はアクセス効率とユーザ検出精度の両方において優れた性能が得られることがわかった。

Massive random access of devices in the emerging Open Radio Access Network (O-RAN) brings great challenge to the access control and management. Exploiting the bursting nature of the access requests, sparse active user detection (SAUD) is an efficient enabler towards efficient access management, but the sparsity might be deteriorated in case of uncoordinated massive access requests. To dynamically preserve the sparsity of access requests, a reinforcement-learning (RL)-assisted scheme of closed-loop access control utilizing the access class barring technique is proposed, where the RL policy is determined through continuous interaction between the RL agent, i.e., a next generation node base (gNB), and the environment. The proposed scheme can be implemented by the near-real-time RAN intelligent controller (near-RT RIC) in O-RAN, supporting rapid switching between heterogeneous vertical applications, such as mMTC and uRLLC services. Moreover, a data-driven scheme of deep-RL-assisted SAUD is proposed to resolve highly complex environments with continuous and high-dimensional state and action spaces, where a replay buffer is applied for automatic large-scale data collection. An actor-critic framework is formulated to incorporate the strategy-learning modules into the near-RT RIC. Simulation results show that the proposed schemes can achieve superior performance in both access efficiency and user detection accuracy over the benchmark scheme for different heterogeneous services with massive access requests.
翻訳日:2023-03-07 18:23:39 公開日:2023-03-05
# 対称性とランダム化による誤りの簡易化

Simplifying errors by symmetry and randomisation ( http://arxiv.org/abs/2303.02712v1 )

ライセンス: Link先を確認
James Mills, Debasis Sadhukhan and Elham Kashefi(参考訳) 本稿では,ノイズ量子回路の出力に対する誤差の影響を単純化する,一連のコンパイル手法を提案する。 これらは2つの異なる方法でエラーを単純化するために量子回路並列化を適用する。 第一に、誤りの単純化は対称性によって達成され、第二にランダム化によって達成される。 最初は単一のエラーチャネルのケースを解析し、それを複数のエラーチャネルに一般化する。 それぞれの方法について、必要な仮定に従って様々な種類の還元を記述する。 各コンパイル方法の誤差単純化の度合いは, システムサイズの観点から定数, 線形, 指数関数のいずれかであることが示されている。 最後に、いくつかのサンプルアプリケーションと超伝導量子ハードウェア上で動作する実験が提供される。

We present a suite of compilation methods to simplify the effects of errors on the output of a noisy quantum circuit. These apply quantum circuit parallelisation to simplify the errors in two distinct ways. In the first, error simplification is achieved by symmetrisation; and in the second by randomisation. Initially the case of a single error channel is analysed, this is then generalised to multiple error channels. For each method, a number of different types of reduction are described along with their necessary assumptions. The degree of error simplification for each compilation method is shown to be either constant, linear or exponential, in terms of system size. Finally, some example applications are provided, along with experiments run on superconducting quantum hardware.
翻訳日:2023-03-07 18:17:26 公開日:2023-03-05
# FQP 2.0:階層的金融データによる業界動向分析

FQP 2.0: Industry Trend Analysis via Hierarchical Financial Data ( http://arxiv.org/abs/2303.02707v1 )

ライセンス: Link先を確認
Hongyin Zhu(参考訳) 産業全体の傾向を分析することは、健全で安定した経済を維持する上で重要である。 これまでの研究は主に、より正確だが必ずしもリアルタイムではない公式統計を分析してきた。 本稿では,株式市場データを用いた産業動向の分析手法を提案する。 この課題の難しさは、生データは比較的ノイズが多く、統計解析の精度に影響を与えることである。 さらに、産業分析のためのテキストデータは、言語モデルを通じてより理解する必要がある。 そこで我々は,明示的分析と暗黙的分析という2つの観点から,産業トレンド分析の手法を紹介する。 明示的な分析のために、ノイズの影響を低減するために階層的データ(産業および上場企業)分析手法を導入する。 暗黙的な分析のために,GPT-2を事前学習した知識を十分に活用し,産業動向を現在の事情を入力として分析する。 提案手法に基づく実験を行い,良好な産業動向分析結果を得た。

Analyzing trends across industries is critical to maintaining a healthy and stable economy. Previous research has mainly analyzed official statistics, which are more accurate but not necessarily real-time. In this paper, we propose a method for analyzing industry trends using stock market data. The difficulty of this task is that the raw data is relatively noisy, which affects the accuracy of statistical analysis. In addition, textual data for industry analysis needs to be better understood through language models. For this reason, we introduce the method of industry trend analysis from two perspectives of explicit analysis and implicit analysis. For the explicit analysis, we introduce a hierarchical data (industry and listed company) analysis method to reduce the impact of noise. For implicit analysis, we further pre-train GPT-2 to analyze industry trends with current affairs background as input, making full use of the knowledge learned in the pre-training corpus. We conduct experiments based on the proposed method and achieve good industry trend analysis results.
翻訳日:2023-03-07 18:17:16 公開日:2023-03-05
# 超高速プラズモンによる金属ナノキャビティの垂直立位分子からの超放射

Ultrafast Plasmon-mediated Superradiance from Vertically Standing Molecules in Metallic Nanocavities ( http://arxiv.org/abs/2303.02706v1 )

ライセンス: Link先を確認
Yuan Zhang, Yuxin Niu, Shunping Zhang, Yao Zhang, Shi-Lei Su, Guangchao Zheng, Luxia Wang, Gang Chen, Hongxing Xu, Chongxin Shan(参考訳) プラズモンによる金属ナノスフィアの分子の超放射性は10年前に提案された。 しかし、分子の位置決めが実験的に困難であることや、低励起分子の集合速度の増大に対する理論的制限により、その実証はまだ達成されていない。 本報告では、超高速プラズモンによる超ラジアントパルスを、金ナノ粒子オンミラーナノキャビティ内部に垂直に並立するメチレンブルー分子によって観察可能であることを示唆する。 我々のシミュレーションは、このシステムでは分子がプラズモンと自由空間を介するコヒーレントおよび散逸結合を介して相互作用できることを示唆している。 より重要なことは、短距離伝播面プラズモンを介するコヒーレントカップリングは、自由空間場によって媒介される直接双極子-双極子カップリングの大部分をキャンセルし、比較的長距離ギャッププラズモンを介する支配的な散逸結合はピコ秒スケール内で超高速超ラジカルパルスを可能にすることである。 本研究は、プラズモニック環境の工学的手法により、サブ波長のボルンにおける量子エミッタからのリッチな超ラジアント効果を研究する可能性を開くものである。

Plasmon-mediated superradiance for molecules around metallic nanospheres was proposed ten years ago. However, its demonstration has not been achieved yet due to the experimental difficulty of positioning molecules, and the theoretical limitation to the enhanced collective rate of low excited molecules. In this Letter, we propose that the ultrafast plasmon-mediated superradiant pulses can be observed with strongly excited methylene blue molecules standing vertically inside gold nanoparticle-on-mirror nanocavities. Our simulations indicate that in this system the molecules could interact with each other via plasmon- and free-space mediated coherent and dissipative coupling. More importantly, the coherent coupling mediated by short-ranged propagating surface plasmons cancel largely the direct dipole-dipole coupling mediated by the free-space field, and the dominated dissipative coupling mediated by relatively long-ranged gap plasmons enables the ultrafast superradiant pulses within picosecond scale. Our study opens up the possibility of studying the rich superradiant effects from the quantum emitters in a sub-wavelength volumn by engineering the plasmonic environments.
翻訳日:2023-03-07 18:17:03 公開日:2023-03-05
# HairStep:シングルビュー3次元ヘアモデリングのためのストランドマップと深さマップを用いた実写合成

HairStep: Transfer Synthetic to Real Using Strand and Depth Maps for Single-View 3D Hair Modeling ( http://arxiv.org/abs/2303.02700v1 )

ライセンス: Link先を確認
Yujian Zheng, Zirong Jin, Moran Li, Haibin Huang, Chongyang Ma, Shuguang Cui, Xiaoguang Han(参考訳) 本研究では,学習型単一視点3Dヘアモデリングの課題に対処する。 実画像と3Dヘアデータを集めることの難しさから, 合成データを用いて, 実領域の事前知識を提供する手法が主流となっている。 残念ながら、これはドメインギャップの課題をもたらします。 現実的なヘアレンダリングが本質的に困難であるため、既存の手法では、ギャップを埋める入力としてヘアイメージの代わりに方向マップを使用するのが一般的である。 中間表現は不可欠であると考えるが、支配的なフィルタリングに基づく手法を用いた方向マップは不確定なノイズに敏感であり、有能な表現とは程遠い。 そこで本研究では,まずこの問題を提起し,ストランドマップと深さマップからなるヘアステップと呼ばれる新しい中間表現を提案する。 HairStepは正確な3Dヘアモデリングに十分な情報を提供するだけでなく、実際の画像から推測できる。 具体的には、2種類のアノテーションで1,250枚の肖像画画像のデータセットを収集する。 さらに学習フレームワークは、実際の画像をストランドマップと深さマップに転送するように設計されている。 新たなデータセットの付加的なボーナスが3Dヘアモデリングの最初の定量的指標であることに注意が必要だ。 実験の結果, ヘアステップは合成とリアルの領域ギャップを狭くし, 単視点3dヘアリコンストラクションの最先端性能を実現することがわかった。

In this work, we tackle the challenging problem of learning-based single-view 3D hair modeling. Due to the great difficulty of collecting paired real image and 3D hair data, using synthetic data to provide prior knowledge for real domain becomes a leading solution. This unfortunately introduces the challenge of domain gap. Due to the inherent difficulty of realistic hair rendering, existing methods typically use orientation maps instead of hair images as input to bridge the gap. We firmly think an intermediate representation is essential, but we argue that orientation map using the dominant filtering-based methods is sensitive to uncertain noise and far from a competent representation. Thus, we first raise this issue up and propose a novel intermediate representation, termed as HairStep, which consists of a strand map and a depth map. It is found that HairStep not only provides sufficient information for accurate 3D hair modeling, but also is feasible to be inferred from real images. Specifically, we collect a dataset of 1,250 portrait images with two types of annotations. A learning framework is further designed to transfer real images to the strand map and depth map. It is noted that, an extra bonus of our new dataset is the first quantitative metric for 3D hair modeling. Our experiments show that HairStep narrows the domain gap between synthetic and real and achieves state-of-the-art performance on single-view 3D hair reconstruction.
翻訳日:2023-03-07 18:16:40 公開日:2023-03-05
# グラスマン多様体上の二次割り当てによるロバストアフィン特徴マッチング

Robust affine feature matching via quadratic assignment on Grassmannians ( http://arxiv.org/abs/2303.02698v1 )

ライセンス: Link先を確認
Alexander Kolpakov, Michael Werman(参考訳) GraNNI (Grassmannians for Nearest Neighbours Identification) はアフィン登録の問題を解決する新しいアルゴリズムを提案する。 このアルゴリズムは、$\mathbb{R}^n$の$k$-次元平面のグラスマン平面に基づいており、グラスマン多様体の2つの元の間のフロベニウスノルムを最小化する。 Quadratic Assignment Problem (QAP) は、マッチングを見つけるために用いられる。 実験の結果, 従来の手法よりも, 点雲のノイズや点差に頑健であることがわかった。

GraNNI (Grassmannians for Nearest Neighbours Identification) a new algorithm to solve the problem of affine registration is proposed. The algorithm is based on the Grassmannian of $k$--dimensional planes in $\mathbb{R}^n$ and minimizing the Frobenius norm between the two elements of the Grassmannian. The Quadratic Assignment Problem (QAP) is used to find the matching. The results of the experiments show that the algorithm is more robust to noise and point discrepancy in point clouds than previous approaches.
翻訳日:2023-03-07 18:16:15 公開日:2023-03-05
# 多言語ディープラーニングフレームワークにおけるバグの理解

Understanding Bugs in Multi-Language Deep Learning Frameworks ( http://arxiv.org/abs/2303.02695v1 )

ライセンス: Link先を確認
Zengyang Li, Sicheng Wang, Wenshuo Wang, Peng Liang, Ran Mo, Bing Li(参考訳) ディープラーニングフレームワーク(DLF)は、ますます幅広いAIベースのアプリケーションの基盤として機能するため、このインテリジェンス時代にますます重要な役割を担っている。 一方、マルチプログラミング言語(MPL)ソフトウェアシステムとして、DLFは多言語(PL)の使用によるバグに必然的に悩まされている。 したがって、DLFのバグ(特に複数のPLを含むバグ、すなわちMPLバグ)を理解することが最重要であり、DLFの開発におけるバグの予防、検出、解決の基盤を提供することができる。 この目的のために、MXNet、PyTorch、TensorFlowという3つのMPL DLFの1497のバグを手動で分析した。 まず、これらのdlfのバグをバグラベルと特性に応じて12のタイプ(例えば、アルゴリズム設計のバグとメモリのバグ)に分類した。 第二に、さまざまなバグタイプがDLFの開発に与える影響についても検討し、デプロイバグとメモリバグがDLFの開発に最も悪影響を及ぼしていることを発見した。 第3に、mxnet、pytorch、tensorflowのバグの28.6%、31.4%、6.0%がmplバグであることが分かりました。pythonとc/c++のplの組み合わせは、すべてのdlfで92%以上のmplバグを修正するのに最も使われているのです。 最後に、MPLバグ修正のコード変更の複雑さは、3つのDLFのすべてでSPLバグ修正よりもはるかに大きいが、PyTorch MPLバグ修正はSPLバグ修正よりもオープン時間と通信の複雑さが長い。 これらの結果はDLFにおけるバグ管理の洞察を与える。

Deep learning frameworks (DLFs) have been playing an increasingly important role in this intelligence age since they act as a basic infrastructure for an increasingly wide range of AIbased applications. Meanwhile, as multi-programming-language (MPL) software systems, DLFs are inevitably suffering from bugs caused by the use of multiple programming languages (PLs). Hence, it is of paramount significance to understand the bugs (especially the bugs involving multiple PLs, i.e., MPL bugs) of DLFs, which can provide a foundation for preventing, detecting, and resolving bugs in the development of DLFs. To this end, we manually analyzed 1497 bugs in three MPL DLFs, namely MXNet, PyTorch, and TensorFlow. First, we classified bugs in these DLFs into 12 types (e.g., algorithm design bugs and memory bugs) according to their bug labels and characteristics. Second, we further explored the impacts of different bug types on the development of DLFs, and found that deployment bugs and memory bugs negatively impact the development of DLFs in different aspects the most. Third, we found that 28.6%, 31.4%, and 16.0% of bugs in MXNet, PyTorch, and TensorFlow are MPL bugs, respectively; the PL combination of Python and C/C++ is most used in fixing more than 92% MPL bugs in all DLFs. Finally, the code change complexity of MPL bug fixes is significantly greater than that of single-programming-language (SPL) bug fixes in all the three DLFs, while in PyTorch MPL bug fixes have longer open time and greater communication complexity than SPL bug fixes. These results provide insights for bug management in DLFs.
翻訳日:2023-03-07 18:16:05 公開日:2023-03-05
# 映像認識のための深部3次元CNNの時空間エントロピーの最大化

Maximizing Spatio-Temporal Entropy of Deep 3D CNNs for Efficient Video Recognition ( http://arxiv.org/abs/2303.02693v1 )

ライセンス: Link先を確認
Junyan Wang, Zhenhong Sun, Yichen Qian, Dong Gong, Xiuyu Sun, Ming Lin, Maurice Pagnucco, Yang Song(参考訳) 3D畳み込みニューラルネットワーク(CNN)がビデオ認識の主流となっている。 時間的情報を取得するために、シーケンスに沿って3D畳み込みが計算され、立方的に成長し、高価な計算に繋がる。 計算コストを削減するために、従来の手法では、近似や自動探索による3d/2d cnn構造を手作業で設計している。 本研究では,モデル複雑性を考慮した3次元CNNに適した学習自由ニューラルネットワーク探索手法により,効率的な3次元CNNアーキテクチャを自動設計することを提案する。 3次元CNNの表現性を効率的に測定するために,情報システムとして3次元CNNを定式化し,最大エントロピー原理に基づく分析エントロピースコアを導出する。 具体的には,空間的および時間的次元における視覚情報の相違を,特徴マップサイズとカーネルサイズとの相関を動的に活用し,精細化係数を持つ時空間エントロピースコア(STEntr-Score)を提案する。 高効率で表現力のある3D CNNアーキテクチャである、イーエントロピーベースの3D CNN(E3D family)は、ネットワークパラメータを訓練することなく進化的アルゴリズムを用いて、所定の計算予算の下でSTEntr-Scoreを最大化することで効率的に探索することができる。 Something-Something V1\&V2 と Kinetics400 の大規模な実験は、E3D ファミリーが高い計算効率で最先端の性能を達成することを示した。 コードはhttps://github.com/alibaba/lightweight-neural-architecture-searchで入手できる。

3D convolution neural networks (CNNs) have been the prevailing option for video recognition. To capture the temporal information, 3D convolutions are computed along the sequences, leading to cubically growing and expensive computations. To reduce the computational cost, previous methods resort to manually designed 3D/2D CNN structures with approximations or automatic search, which sacrifice the modeling ability or make training time-consuming. In this work, we propose to automatically design efficient 3D CNN architectures via a novel training-free neural architecture search approach tailored for 3D CNNs considering the model complexity. To measure the expressiveness of 3D CNNs efficiently, we formulate a 3D CNN as an information system and derive an analytic entropy score, based on the Maximum Entropy Principle. Specifically, we propose a spatio-temporal entropy score (STEntr-Score) with a refinement factor to handle the discrepancy of visual information in spatial and temporal dimensions, through dynamically leveraging the correlation between the feature map size and kernel size depth-wisely. Highly efficient and expressive 3D CNN architectures, \ie entropy-based 3D CNNs (E3D family), can then be efficiently searched by maximizing the STEntr-Score under a given computational budget, via an evolutionary algorithm without training the network parameters. Extensive experiments on Something-Something V1\&V2 and Kinetics400 demonstrate that the E3D family achieves state-of-the-art performance with higher computational efficiency. Code is available at https://github.com/alibaba/lightweight-neural-architecture-search.
翻訳日:2023-03-07 18:15:36 公開日:2023-03-05
# 非定常パラメトリックバンドに対する重み付け戦略の再検討

Revisiting Weighted Strategy for Non-stationary Parametric Bandits ( http://arxiv.org/abs/2303.02691v1 )

ライセンス: Link先を確認
Jing Wang, Peng Zhao, Zhi-Hua Zhou(参考訳) 非定常パラメトリックバンドが近年注目を集めている。 非定常性を扱うには、スライディングウインドウ、重み付け、再起動戦略の3つの原則がある。 多くの非定常環境は段階的なドリフトパターンを示すため、重み付け戦略は現実の応用に一般的に採用されている。 しかし、以前の理論的研究により、解析はより複雑で、アルゴリズムは計算効率が低く、統計的に最適であることが示された。 本稿では,非定常パラメトリックバンドの重み付け戦略を再考する。 リニアバンディット(LB)では、この望ましくない特徴は不適切な後悔の分析によるものであることが判明し、結果としてアルゴリズムが複雑すぎる。 本稿では,従来の研究と同様の後悔を保ちつつ,ウィンドウ/リスタート型アルゴリズムと同等に効率よく,より単純な重みに基づくアルゴリズムを創出する改良型解析フレームワークを提案する。 さらに,本手法は一般化線形バンドイット (glb) や自己一致バンドイット (scb) など,他のパラメトリックバンドイットの後悔境界の改善にも利用できる。 例えば、$\widetilde{o}(k_\mu^{\frac{5}{4}} c_\mu^{-\frac{3}{4}} d^{\frac{3}{4}} p_t^{\frac{1}{4}}t^{\frac{3}{4}})$ という単純な重み付きglbアルゴリズムを開発し、$\widetilde{o}(k_\mu^{2} c_\mu^{-1}d^{\frac{9}{10}} p_t^{\frac{1}{5}}t^{\frac{4}{5}})$ を以前の作業で限定し、$k_\mu$ と $c_\mu$ が報酬モデルの非線形性を特徴づける。

Non-stationary parametric bandits have attracted much attention recently. There are three principled ways to deal with non-stationarity, including sliding-window, weighted, and restart strategies. As many non-stationary environments exhibit gradual drifting patterns, the weighted strategy is commonly adopted in real-world applications. However, previous theoretical studies show that its analysis is more involved and the algorithms are either computationally less efficient or statistically suboptimal. This paper revisits the weighted strategy for non-stationary parametric bandits. In linear bandits (LB), we discover that this undesirable feature is due to an inadequate regret analysis, which results in an overly complex algorithm design. We propose a refined analysis framework, which simplifies the derivation and importantly produces a simpler weight-based algorithm that is as efficient as window/restart-based algorithms while retaining the same regret as previous studies. Furthermore, our new framework can be used to improve regret bounds of other parametric bandits, including Generalized Linear Bandits (GLB) and Self-Concordant Bandits (SCB). For example, we develop a simple weighted GLB algorithm with an $\widetilde{O}(k_\mu^{\frac{5}{4}} c_\mu^{-\frac{3}{4}} d^{\frac{3}{4}} P_T^{\frac{1}{4}}T^{\frac{3}{4}})$ regret, improving the $\widetilde{O}(k_\mu^{2} c_\mu^{-1}d^{\frac{9}{10}} P_T^{\frac{1}{5}}T^{\frac{4}{5}})$ bound in prior work, where $k_\mu$ and $c_\mu$ characterize the reward model's nonlinearity, $P_T$ measures the non-stationarity, $d$ and $T$ denote the dimension and time horizon.
翻訳日:2023-03-07 18:15:06 公開日:2023-03-05
# Text2Face:マルチモーダルな3D顔モデル

Text2Face: A Multi-Modal 3D Face Model ( http://arxiv.org/abs/2303.02688v1 )

ライセンス: Link先を確認
Will Rowan, Patrik Huber, Nick Pears, Andrew Keeling(参考訳) 本稿では,テキストプロンプトを用いて3次元顔形状を直接かつ完全に定義できる最初の3次元モーファブルモデリング手法を提案する。 マルチモーダル学習による作業に基づいて,フレイムヘッドモデルを共通の画像とテキストの潜在空間に拡張する。 これにより、直接3D形態モデル(3DMM)パラメータ生成が可能となり、テキスト記述からの形状操作が可能となる。 当社の方法であるText2Faceには,すでに自然言語で入力されている警察用フォトフィットの生成など,多くの応用がある。 さらに、スケッチや彫刻、画像に適合するマルチモーダルな3DMM画像を可能にする。

We present the first 3D morphable modelling approach, whereby 3D face shape can be directly and completely defined using a textual prompt. Building on work in multi-modal learning, we extend the FLAME head model to a common image-and-text latent space. This allows for direct 3D Morphable Model (3DMM) parameter generation and therefore shape manipulation from textual descriptions. Our method, Text2Face, has many applications; for example: generating police photofits where the input is already in natural language. It further enables multi-modal 3DMM image fitting to sketches and sculptures, as well as images.
翻訳日:2023-03-07 18:14:15 公開日:2023-03-05
# 多文書要約のための複数文書からの共通性と特異性の両方のマイニング

Mining both Commonality and Specificity from Multiple Documents for Multi-Document Summarization ( http://arxiv.org/abs/2303.02677v1 )

ライセンス: Link先を確認
Bing Ma(参考訳) マルチドキュメント要約タスクでは、設計した要約者がオリジナルの文書の重要な情報をカバーし、コンテンツの多様性を満たす短いテキストを生成する必要がある。 本稿では,階層的な文書クラスタリングに基づく多文書要約手法を提案する。 全文書の共通性を反映した文と、これらの文書のいくつかのサブクラスの特異性を反映した文の両方を抽出して要約を作成し、多文書要約のカバー範囲と多様性の要件を満たす。 DUC'2002-2004データセットの異なる変種アプローチによる比較実験は、文書の共通性と特異性の両方を多文書要約のためにマイニングする効果を証明している。 DUC'2004とMulti-Newsのデータセットを用いた実験により、我々の手法は最先端の教師なしおよび教師なしのアプローチと比較して競争性能が向上することを示した。

The multi-document summarization task requires the designed summarizer to generate a short text that covers the important information of original documents and satisfies content diversity. This paper proposes a multi-document summarization approach based on hierarchical clustering of documents. It utilizes the constructed class tree of documents to extract both the sentences reflecting the commonality of all documents and the sentences reflecting the specificity of some subclasses of these documents for generating a summary, so as to satisfy the coverage and diversity requirements of multi-document summarization. Comparative experiments with different variant approaches on DUC'2002-2004 datasets prove the effectiveness of mining both the commonality and specificity of documents for multi-document summarization. Experiments on DUC'2004 and Multi-News datasets show that our approach achieves competitive performance compared to the state-of-the-art unsupervised and supervised approaches.
翻訳日:2023-03-07 18:14:04 公開日:2023-03-05
# 重みプラニングと特異値分解を用いた組み込みデバイス上でのスケーラブル物体検出

Scalable Object Detection on Embedded Devices Using Weight Pruning and Singular Value Decomposition ( http://arxiv.org/abs/2303.02735v1 )

ライセンス: Link先を確認
Dohyun Ham, Jaeyeop Jeong, June-Kyoo Park, Raehyeon Jeong, Seungmin Jeon, Hyeongjun Jeon, and Yewon Lim(参考訳) 本稿では,重み付けと特異値分解(SVD)を組み合わせた物体検出モデルの最適化手法を提案する。 提案手法は、https://universe.roboflow.com/roboflow-100/street-workから得られたストリートワークイメージのカスタムデータセットで評価された。 データセットは、611のトレーニングイメージ、175の検証イメージ、87のテストイメージで構成される。 最適化されたモデルの性能を、フレームレート、平均精度(map@50)、重量サイズの観点から、オリジナルの最適化されていないモデルと比較した。 その結果, 重量刈り+SVDモデルはフレームレート1.48 FPS, 重量サイズ12.1 MBの0.724 mAP@50(0.717 mAP@50, 1.50 FPS, 12.3 MB)を達成した。 正確なリコール曲線も全てのモデルにプロットされた。 提案手法は,精度,速度,モデルサイズのバランスを保ちながら,オブジェクト検出モデルを効果的に最適化できることを示す。

This paper presents a method for optimizing object detection models by combining weight pruning and singular value decomposition (SVD). The proposed method was evaluated on a custom dataset of street work images obtained from https://universe.roboflow.com/roboflow-100/street-work. The dataset consists of 611 training images, 175 validation images, and 87 test images with 7 classes. We compared the performance of the optimized models with the original unoptimized model in terms of frame rate, mean average precision (mAP@50), and weight size. The results show that the weight pruning + SVD model achieved a 0.724 mAP@50 with a frame rate of 1.48 FPS and a weight size of 12.1 MB, outperforming the original model (0.717 mAP@50, 1.50 FPS, and 12.3 MB). Precision-recall curves were also plotted for all models. Our work demonstrates that the proposed method can effectively optimize object detection models while balancing accuracy, speed, and model size.
翻訳日:2023-03-07 18:07:44 公開日:2023-03-05
# 空間勾配スケーリングによる再パラメータ化

Reparameterization through Spatial Gradient Scaling ( http://arxiv.org/abs/2303.02733v1 )

ライセンス: Link先を確認
Alexander Detkov, Mohammad Salameh, Muhammad Fetrat Qharabagh, Jialin Zhang, Wei Lui, Shangling Jui, Di Niu(参考訳) 再パラメータ化は、トレーニング中に畳み込み層を等価なマルチブランチ構造に変換することによって、ディープニューラルネットワークの一般化を改善することを目的としている。 しかし、再パラメータ化がどのように変化し、ニューラルネットワークの学習プロセスに利益をもたらすかを理解するにはギャップがある。 本稿では,畳み込みネットワークにおける重み間の学習焦点を再分配する空間勾配スケーリング手法を提案する。 空間勾配スケーリングは分岐再パラメータ化と同じ学習ダイナミクスをネットワークの構造的変化を伴わずに達成できることを実証する。 さらに,各畳み込み層について,相互情報を用いて計測した入力特徴マップの空間特性に基づいて動的にスケーリングを学習する解析手法を提案する。 CIFAR-10, CIFAR-100, ImageNetによる実験により, 再パラメータ化構造を探索することなく, 提案手法は, 計算コストの低減を図った。

Reparameterization aims to improve the generalization of deep neural networks by transforming convolutional layers into equivalent multi-branched structures during training. However, there exists a gap in understanding how reparameterization may change and benefit the learning process of neural networks. In this paper, we present a novel spatial gradient scaling method to redistribute learning focus among weights in convolutional networks. We prove that spatial gradient scaling achieves the same learning dynamics as a branched reparameterization yet without introducing structural changes into the network. We further propose an analytical approach that dynamically learns scalings for each convolutional layer based on the spatial characteristics of its input feature map gauged by mutual information. Experiments on CIFAR-10, CIFAR-100, and ImageNet show that without searching for reparameterized structures, our proposed scaling method outperforms the state-of-the-art reparameterization strategies at a lower computational cost.
翻訳日:2023-03-07 18:07:23 公開日:2023-03-05
# 逐次近似クロスバリデーション

Iterative Approximate Cross-Validation ( http://arxiv.org/abs/2303.02732v1 )

ライセンス: Link先を確認
Yuetian Luo and Zhimei Ren and Rina Foygel Barber(参考訳) クロスバリデーション (cross-validation, cv) は予測モデルの評価と選択に最も人気のあるツールの1つである。 しかし、標準CVは折りたたみ数が大きい場合に高い計算コストに悩まされる。 近年,erm(experience risk minimization)フレームワークでは,全データセットでトレーニングされたerm問題の解に基づいてcvを近似する効率的な手法が提案されている。 しかし, 大規模問題においては, 計算資源が限られているか, オーバーフィットを防ぐための早期停止のため, erm問題の厳密な解を得るのが困難である。 本稿では,erm問題を逐次1次アルゴリズムで解いた場合,収束まで実行せずに効率的にcvを近似する新しいパラダイムを提案する。 本手法は,既存のCV近似手法を一般化し,収束を含むアルゴリズムの全軌道に沿って保持する既存のCV近似の保証を拡張する。 最後に,本手法の精度と計算効率を,実験的な研究範囲を通じて概説する。

Cross-validation (CV) is one of the most popular tools for assessing and selecting predictive models. However, standard CV suffers from high computational cost when the number of folds is large. Recently, under the empirical risk minimization (ERM) framework, a line of works proposed efficient methods to approximate CV based on the solution of the ERM problem trained on the full dataset. However, in large-scale problems, it can be hard to obtain the exact solution of the ERM problem, either due to limited computational resources or due to early stopping as a way of preventing overfitting. In this paper, we propose a new paradigm to efficiently approximate CV when the ERM problem is solved via an iterative first-order algorithm, without running until convergence. Our new method extends existing guarantees for CV approximation to hold along the whole trajectory of the algorithm, including at convergence, thus generalizing existing CV approximation methods. Finally, we illustrate the accuracy and computational efficiency of our method through a range of empirical studies.
翻訳日:2023-03-07 18:07:10 公開日:2023-03-05
# 視覚に基づくナビゲーションのための仮想誘導

Vision based Virtual Guidance for Navigation ( http://arxiv.org/abs/2303.02731v1 )

ライセンス: Link先を確認
Hsuan-Kung Yang, Yu-Ying Chen, Tsung-Chih Chiang, Chia-Chuan Hsu, Chun-Chia Huang, Chun-Wei Huang, Jou-Min Liu, Ting-Ru Liu, Tsu-Ching Hsiao, and Chun-Yi Lee(参考訳) 本稿では,エージェントが視覚観察のみに基づいてナビゲーションタスクを実行する中レベルの表現ベースナビゲーションにおける仮想ガイダンスの効果について検討する。 本論文は, エージェントを案内するための距離尺度や数値方向を提供する代わりに, 様々な形態の仮想誘導スキームのナビゲーション性能への影響について検討した。 仮想誘導信号の3つのスキームは、仮想ナビゲーションパス、仮想ウェイポイント、両方の組み合わせである。 実験は、Unityエンジンを搭載した仮想都市を使用して、障害物を避けながらエージェントを訓練した。 その結果,仮想誘導はエージェントに対してより有意義なナビゲーション情報を提供し,経路完成率とナビゲーション効率の面で,より優れた性能が得られることがわかった。 さらに,故障事例と走行軌道を調査するための一連の分析を行い,実世界のシナリオを対象としたパイロット実験を行った。

This paper explores the impact of virtual guidance on mid-level representation-based navigation, where an agent performs navigation tasks based solely on visual observations. Instead of providing distance measures or numerical directions to guide the agent, which may be difficult for it to interpret visually, the paper investigates the potential of different forms of virtual guidance schemes on navigation performance. Three schemes of virtual guidance signals are explored: virtual navigation path, virtual waypoints, and a combination of both. The experiments were conducted using a virtual city built with the Unity engine to train the agents while avoiding obstacles. The results show that virtual guidance provides the agent with more meaningful navigation information and achieves better performance in terms of path completion rates and navigation efficiency. In addition, a set of analyses were provided to investigate the failure cases and the navigated trajectories, and a pilot study was conducted for the real-world scenarios.
翻訳日:2023-03-07 18:06:55 公開日:2023-03-05
# 量子コンピュータを用いた高次元離散時間結晶のシミュレーション

Simulation of Higher Dimensional Discrete Time Crystals on a Quantum Computer ( http://arxiv.org/abs/2303.02727v1 )

ライセンス: Link先を確認
Christopher Sims(参考訳) 位相秩序状態の研究は、量子物質における対称性保護状態への関心が高まっている。 近年、この理論は低温での秩序状態を示す量子多体系に拡張されている。 この例は離散時間結晶(DTC)であり、実際の量子コンピュータや駆動システムで実証されている。 これらの状態は周期的であり、ある程度の障害に対して保護されている。 一般に、DTCは安定な多体局在状態(MBL)と不規則な熱状態の2つの段階に分けられる。 本研究は, DTCを2次元に一般化することにより, 熱雑音の低減, MBL範囲の動作範囲の増大を実証する。

The study of topologically ordered states have given rise to a growing interest in symmetry protected states in quantum matter. Recently, this theory has been extended to quantum many body systems which demonstrate ordered states at low temperature. An example of this is the discrete time crystal (DTC) which has been demonstrated in a real quantum computer and in driven systems. These states are periodic in time and are protected to disorder to a certain extent. In general, DTC can be classified into two phases, the stable many body localization (MBL) state, and the disordered thermal state. This work demonstrates by generalizing DTC to 2 dimensions, there is an decrease in thermal noise and an increase in the operating range of the MBL range in the presence of disorder.
翻訳日:2023-03-07 18:06:40 公開日:2023-03-05
# 連帯強化学習における局所環境中毒攻撃

Local Environment Poisoning Attacks on Federated Reinforcement Learning ( http://arxiv.org/abs/2303.02725v1 )

ライセンス: Link先を確認
Evelyn Ma, Rasoul Etesami, T. Q(参考訳) フェデレーション学習(fl)は、伝統的な強化学習(rl)タスクを解決するための一般的なツールとなっている。 マルチエージェント構造は従来のRLにおけるデータハングリーの主な懸念に対処し、フェデレーション機構は個々のエージェントのデータプライバシを保護する。 しかし、フェデレーション機構は、訓練されたポリシーを誤解させる悪質なエージェントによる中毒にもシステムを公開する。 flの利点にもかかわらず、federated reinforcement learning (frl)の脆弱性はよく研究されていない。 本研究では、FRL中毒を限られた予算で制約された最適化問題として特徴付けるための最初の一般的な枠組みを提案し、ポリシーベースのFRLに適用可能な中毒プロトコルを設計し、一対の私的・公的な評論家を訓練することで、アクタークリティカルなローカルRLアルゴリズムとしてFRLに拡張する。 また、このリスクを軽減するため、FLから受け継いだ従来の防衛戦略についても論じる。 主要なRLアルゴリズムを対象とし,様々なRL OpenAI Gym環境を対象とし,幅広い難易度をカバーした広範囲な実験を行うことにより,毒性の有効性を検証する。 以上の結果から,提案する防衛プロトコルはほとんどの場合成功しているが,複雑な環境下では堅牢ではないことがわかった。 我々の研究は、RLトレーニングにおけるFLの脆弱性に関する新たな洞察を提供し、堅牢なFRLアルゴリズムを設計するためのさらなる課題を提起する。

Federated learning (FL) has become a popular tool for solving traditional Reinforcement Learning (RL) tasks. The multi-agent structure addresses the major concern of data-hungry in traditional RL, while the federated mechanism protects the data privacy of individual agents. However, the federated mechanism also exposes the system to poisoning by malicious agents that can mislead the trained policy. Despite the advantage brought by FL, the vulnerability of Federated Reinforcement Learning (FRL) has not been well-studied before. In this work, we propose the first general framework to characterize FRL poisoning as an optimization problem constrained by a limited budget and design a poisoning protocol that can be applied to policy-based FRL and extended to FRL with actor-critic as a local RL algorithm by training a pair of private and public critics. We also discuss a conventional defense strategy inherited from FL to mitigate this risk. We verify our poisoning effectiveness by conducting extensive experiments targeting mainstream RL algorithms and over various RL OpenAI Gym environments covering a wide range of difficulty levels. Our results show that our proposed defense protocol is successful in most cases but is not robust under complicated environments. Our work provides new insights into the vulnerability of FL in RL training and poses additional challenges for designing robust FRL algorithms.
翻訳日:2023-03-07 18:06:29 公開日:2023-03-05
# 領域ベースサンプリングを用いたアクティブラーニング

Active learning using region-based sampling ( http://arxiv.org/abs/2303.02721v1 )

ライセンス: Link先を確認
Sanjoy Dasgupta and Yoav Freund(参考訳) 距離空間のデータに対する汎用能動学習方式を提案する。 このアルゴリズムは、異なる大きさの地区の集合を維持し、ラベルクエリを使用して、ある特定のラベルに対して強いバイアスを持つ地域を特定する。 本手法では,データに関する仮定に依存しないラベルの複雑性境界を付与し,いくつかのケースでそれらをインスタンス化する。

We present a general-purpose active learning scheme for data in metric spaces. The algorithm maintains a collection of neighborhoods of different sizes and uses label queries to identify those that have a strong bias towards one particular label; when two such neighborhoods intersect and have different labels, the region of overlap is treated as a ``known unknown'' and is a target of future active queries. We give label complexity bounds for this method that do not rely on assumptions about the data and we instantiate them in several cases of interest.
翻訳日:2023-03-07 18:06:07 公開日:2023-03-05
# 読み上げと自発性ttにおける自己教師あり音声表現の比較研究

A Comparative Study of Self-Supervised Speech Representations in Read and Spontaneous TTS ( http://arxiv.org/abs/2303.02719v1 )

ライセンス: Link先を確認
Siyang Wang, Gustav Eje Henter, Joakim Gustafson, \'Eva Sz\'ekely(参考訳) 近年,標準2段階TSの表現媒体としてwav2vec2.0などの自己教師付き学習(SSL)音声表現を,従来から使用されているメルスペクトルの代わりに利用することが検討されている。 しかし、どの音声sslがttsに適しているか、そしてその性能が読み取りと自発的ttsとで異なるかどうかは明らかではない。 本研究の目的は,同じSSLの異なるレイヤを含む複数の音声SSLを,読み取りおよび自発コーパスの2段階のTSでテストし,一定のTSモデルアーキテクチャとトレーニング設定を維持しながら,これらの問題に対処することである。 リスニングテストの結果、12層wav2vec2.0の第9層(asr微調整)は他のsslおよびmel-spectrogramをリードおよび自発ttで上回った。 我々の研究は、音声SSLが現在のTSシステムを簡単に改善できる方法と、TLSの困難な生成タスクにおけるSSLの比較の両方に光を当てています。 オーディオの例はhttps://www.speech.kth.se/tts-demos/ssr_ttsにある。

Recent work has explored using self-supervised learning (SSL) speech representations such as wav2vec2.0 as the representation medium in standard two-stage TTS, in place of conventionally used mel-spectrograms. It is however unclear which speech SSL is the better fit for TTS, and whether or not the performance differs between read and spontaneous TTS, the later of which is arguably more challenging. This study aims at addressing these questions by testing several speech SSLs, including different layers of the same SSL, in two-stage TTS on both read and spontaneous corpora, while maintaining constant TTS model architecture and training settings. Results from listening tests show that the 9th layer of 12-layer wav2vec2.0 (ASR finetuned) outperforms other tested SSLs and mel-spectrogram, in both read and spontaneous TTS. Our work sheds light on both how speech SSL can readily improve current TTS systems, and how SSLs compare in the challenging generative task of TTS. Audio examples can be found at https://www.speech.kth.se/tts-demos/ssr_tts
翻訳日:2023-03-07 18:05:59 公開日:2023-03-05
# 相対的ポエトレストレストによる見えないシーンのローカライズ学習

Learning to Localize in Unseen Scenes with Relative Pose Regressors ( http://arxiv.org/abs/2303.02717v1 )

ライセンス: Link先を確認
Ofer Idan, Yoli Shavit, Yosi Keller(参考訳) 相対ポーズレグレッシャ(rprs)は、相対翻訳と回転をポーズラベル付き参照に推定してカメラをローカライズする。 絶対的なシーンパラメータを学習するシーン座標回帰法や絶対的なポーズ回帰法とは異なり、RPRは(理論的には)見えない環境でローカライズすることができる。 しかし実際には、RPRのパフォーマンスは目に見えない場面で著しく劣化している。 本研究では, rprの一般化を改善するために, グローバル画像記述子ではなく, 機能マップを潜在コードに集約することを提案する。 我々は、結合、投影、注意操作(Transformer Encoders)による集約を実装し、結果の潜時符号から相対的なポーズパラメータを回帰することを学ぶ。 さらに,最近提案されている回転行列の連続表現を用いることにより,一般的に用いられる四元数の制限を緩和する。 現状のRCPと比較すると、室内および屋外のベンチマークにおいて、表示シーンにおける競合性能を維持しながら、見えない環境において、より優れたローカライズが期待できる。 複数の改善を通じて,その発見とアーキテクチャ設計を検証する。 私たちのコードと事前トレーニングされたモデルは公開されています。

Relative pose regressors (RPRs) localize a camera by estimating its relative translation and rotation to a pose-labelled reference. Unlike scene coordinate regression and absolute pose regression methods, which learn absolute scene parameters, RPRs can (theoretically) localize in unseen environments, since they only learn the residual pose between camera pairs. In practice, however, the performance of RPRs is significantly degraded in unseen scenes. In this work, we propose to aggregate paired feature maps into latent codes, instead of operating on global image descriptors, in order to improve the generalization of RPRs. We implement aggregation with concatenation, projection, and attention operations (Transformer Encoders) and learn to regress the relative pose parameters from the resulting latent codes. We further make use of a recently proposed continuous representation of rotation matrices, which alleviates the limitations of the commonly used quaternions. Compared to state-of-the-art RPRs, our model is shown to localize significantly better in unseen environments, across both indoor and outdoor benchmarks, while maintaining competitive performance in seen scenes. We validate our findings and architecture design through multiple ablations. Our code and pretrained models is publicly available.
翻訳日:2023-03-07 18:05:36 公開日:2023-03-05
# バイオメトリックテンプレート保護分野における深層学習の展望

Deep Learning in the Field of Biometric Template Protection: An Overview ( http://arxiv.org/abs/2303.02715v1 )

ライセンス: Link先を確認
Christian Rathgeb, Jascha Kolberg, Andreas Uhl, Christoph Busch(参考訳) 今日、ディープラーニングは最も人気があり、成功した機械学習の形式である。 ディープラーニングは、バイオメトリック認識を含むパターン認識の分野に革命をもたらした。 深層学習を利用した生体計測システムは、人間の性能を超越した、目覚しい認識精度を達成することが示されている。 このようなバイオメトリックのパフォーマンスの進歩とは別に、ディープラーニングの使用は、アルゴリズムの公正性、攻撃に対する脆弱性、テンプレート保護など、さまざまなバイオメトリックの共変量に影響を与えることが報告された。 バイオメトリックテンプレート保護技術は、バイオメトリックスのセキュアでプライバシに保護されたデプロイを可能にするように設計されている。 近年,様々な目的のためにバイオメトリックテンプレート保護システムに深層学習技術が頻繁に適用されている。 本稿では,深層学習の進歩が生体認証テンプレート保護の分野に与える影響について概説する。 バイオメトリックテンプレート保護におけるバイオメトリックのパフォーマンス向上とセキュリティの相互関係を詳述する。 さらに、バイオメトリックテンプレート保護に適した特徴表現を得るためのディープラーニングの利用についても論じる。 生体認証テンプレート保護のさまざまな目標を達成するために深層学習を適用する新しい手法について,深層学習に基づく攻撃とともに検討した。

Today, deep learning represents the most popular and successful form of machine learning. Deep learning has revolutionised the field of pattern recognition, including biometric recognition. Biometric systems utilising deep learning have been shown to achieve auspicious recognition accuracy, surpassing human performance. Apart from said breakthrough advances in terms of biometric performance, the use of deep learning was reported to impact different covariates of biometrics such as algorithmic fairness, vulnerability to attacks, or template protection. Technologies of biometric template protection are designed to enable a secure and privacy-preserving deployment of biometrics. In the recent past, deep learning techniques have been frequently applied in biometric template protection systems for various purposes. This work provides an overview of how advances in deep learning take influence on the field of biometric template protection. The interrelation between improved biometric performance rates and security in biometric template protection is elaborated. Further, the use of deep learning for obtaining feature representations that are suitable for biometric template protection is discussed. Novel methods that apply deep learning to achieve various goals of biometric template protection are surveyed along with deep learning-based attacks.
翻訳日:2023-03-07 18:05:13 公開日:2023-03-05
# 手書きステングラフィ認識のための拡張法の検討

A Study of Augmentation Methods for Handwritten Stenography Recognition ( http://arxiv.org/abs/2303.02761v1 )

ライセンス: Link先を確認
Raphaela Heil, Eva Breznik(参考訳) stenographyにおける手書き文字認識(htr)の性能を制限する要因の1つは、少量のアノテートされたトレーニングデータである。 データ不足の問題を緩和するために、現代のhtr法は、しばしばデータ拡張を用いる。 しかし、ステントグラフィー文字の特異性のため、このような設定はステントグラフィー認識には直接適用できない可能性がある。 本研究では,22の古典的拡張技法について検討し,そのほとんどがラテン文字などの他のスクリプトのHTRによく使われている。 広範な実験により,例えばランダム回転,シフト,スケーリングの範囲を含む拡張群を同定し,ステントグラフィー認識の応用に有用である。 さらに、認識性能の低下につながるいくつかの拡張アプローチが同定される。 我々の結果は統計的仮説テストによって支えられている。 公開されているデータセットとコードベースへのリンクが提供されている。

One of the factors limiting the performance of handwritten text recognition (HTR) for stenography is the small amount of annotated training data. To alleviate the problem of data scarcity, modern HTR methods often employ data augmentation. However, due to specifics of the stenographic script, such settings may not be directly applicable for stenography recognition. In this work, we study 22 classical augmentation techniques, most of which are commonly used for HTR of other scripts, such as Latin handwriting. Through extensive experiments, we identify a group of augmentations, including for example contained ranges of random rotation, shifts and scaling, that are beneficial to the use case of stenography recognition. Furthermore, a number of augmentation approaches, leading to a decrease in recognition performance, are identified. Our results are supported by statistical hypothesis testing. Links to the publicly available dataset and codebase are provided.
翻訳日:2023-03-07 17:58:53 公開日:2023-03-05
# Human-Art: 自然と人工のシーンを包括する人間中心データセット

Human-Art: A Versatile Human-Centric Dataset Bridging Natural and Artificial Scenes ( http://arxiv.org/abs/2303.02760v1 )

ライセンス: Link先を確認
Xuan Ju, Ailing Zeng, Jianan Wang, Qiang Xu, Lei Zhang(参考訳) 人間は古くから様々な形で記録されてきた。 例えば、彫刻や絵画は、カメラの発明以前に人間を描いた主要なメディアであった。 しかしながら、人間のポーズ推定や人間の画像生成のような現在の人間中心のコンピュータビジョンタスクは、現実世界の自然画像のみに焦点を当てている。 彫刻、絵画、漫画などの人工人間は一般的に無視され、既存のモデルはこれらのシナリオで失敗する。 人生の抽象として、芸術は人間を自然と人工の両方の場面に取り入れている。 我々はその利点を生かし、自然と人工のシナリオで関連するタスクをブリッジするためにHuman-Artデータセットを導入します。 具体的には、Human-Artには、5つの自然シナリオと15の人工シナリオから123k以上の人体インスタンスを持つ50万以上の高品質の画像が含まれている。 したがって、様々な下流タスクには包括的で汎用性がある。 また,人間の検出,2次元と3次元のポーズ推定,画像生成,移動移動など,関連する課題の詳細な分析とベースライン結果の豊富なセットも提供する。 挑戦的なデータセットとして、Human-Artが関連する研究の洞察を提供し、新たな研究質問を開くことを願っています。

Humans have long been recorded in a variety of forms since antiquity. For example, sculptures and paintings were the primary media for depicting human beings before the invention of cameras. However, most current human-centric computer vision tasks like human pose estimation and human image generation focus exclusively on natural images in the real world. Artificial humans, such as those in sculptures, paintings, and cartoons, are commonly neglected, making existing models fail in these scenarios. As an abstraction of life, art incorporates humans in both natural and artificial scenes. We take advantage of it and introduce the Human-Art dataset to bridge related tasks in natural and artificial scenarios. Specifically, Human-Art contains 50k high-quality images with over 123k person instances from 5 natural and 15 artificial scenarios, which are annotated with bounding boxes, keypoints, self-contact points, and text information for humans represented in both 2D and 3D. It is, therefore, comprehensive and versatile for various downstream tasks. We also provide a rich set of baseline results and detailed analyses for related tasks, including human detection, 2D and 3D human pose estimation, image generation, and motion transfer. As a challenging dataset, we hope Human-Art can provide insights for relevant research and open up new research questions.
翻訳日:2023-03-07 17:58:42 公開日:2023-03-05
# SemEval-2023 Task 9: tExt 回帰タスクにおけるデータ拡張のための弱層化フレームワーク

WADER at SemEval-2023 Task 9: A Weak-labelling framework for Data augmentation in tExt Regression Tasks ( http://arxiv.org/abs/2303.02758v1 )

ライセンス: Link先を確認
Manan Suri, Aaryak Garg, Divya Chaudhary, Ian Gorton, Bijendra Kumar(参考訳) 親密性は人間関係の重要な要素であり、言語はそれを伝える重要な手段である。 テキスト親密性分析は、異なる文脈における社会的規範を明らかにし、社会情報を理解する計算モデルの能力をテストするためのベンチマークとして機能する。 本稿では,waderと呼ばれるテキスト回帰タスクにおけるデータ拡張のための新しい弱いラベル戦略を提案する。 WADERはデータ不均衡とデータ不足の問題に対処するためにデータ拡張を使用し、言語横断的なゼロショットタスクにおけるデータ拡張の方法を提供する。 最新の事前学習された多言語モデルの性能をwaderを用いてベンチマークし,データバイアス軽減のためのサンプリング手法を解析し,拡張候補を最適に選択する。 その結果,waderはベースラインモデルよりも優れており,テキストレグレッションタスクにおけるデータの不均衡や不足を緩和する方向を示している。

Intimacy is an essential element of human relationships and language is a crucial means of conveying it. Textual intimacy analysis can reveal social norms in different contexts and serve as a benchmark for testing computational models' ability to understand social information. In this paper, we propose a novel weak-labeling strategy for data augmentation in text regression tasks called WADER. WADER uses data augmentation to address the problems of data imbalance and data scarcity and provides a method for data augmentation in cross-lingual, zero-shot tasks. We benchmark the performance of State-of-the-Art pre-trained multilingual language models using WADER and analyze the use of sampling techniques to mitigate bias in data and optimally select augmentation candidates. Our results show that WADER outperforms the baseline model and provides a direction for mitigating data imbalance and scarcity in text regression tasks.
翻訳日:2023-03-07 17:58:21 公開日:2023-03-05
# gaussian process regression modelを用いたぼやけた画像およびブロッキングアーティファクト画像の周波数領域ブラインド品質評価

Frequency-domain Blind Quality Assessment of Blurred and Blocking-artefact Images using Gaussian Process Regression model ( http://arxiv.org/abs/2303.02753v1 )

ライセンス: Link先を確認
Maryam Viqar, Athar A. Moinuddin, Ekram Khan, M. Ghanbari(参考訳) 標準的な画像やビデオコーデックのほとんどはブロックベースであり、圧縮された画像やビデオの圧縮比によって歪みが異なる。 低い割合ではぼやけが観察され、圧縮によってアーティファクトのブロックが増加する。 一般に、遮蔽性を減らすために、画像はローパスフィルタ化され、よりぼやけた状態になる。 また、ボケモード画像では、意図的にぼやけた背景からぼやけたぼやけや、圧縮による大域的なぼやけなど、一般的に見られる。 したがって、このような視覚メディアは、遮蔽とぼやけの歪みの両方に苦しむ。 これに伴い、ノイズは一般に歪みに遭遇する。 品質評価に関する既存の研究の多くは、これらの歪みを個別に定量化している。 本稿では,これらの歪みに苦しむ画像の全体的品質を個別に,かつ共同で測定する手法を提案する。 これは、合計等級として定義される低周波離散周波数変換(DFT)係数の絶対値の和を考えることで達成される。 特徴ベクトルとして、0値の交流係数と、これらの和の最大値100、最小値100を含む特定の和の大きさの範囲に横たわるブロックの数を用いる。 これらの機能は機械学習(ML)ベースのGaussian Process Regression(GPR)モデルに送られ、画質を定量化する。 シミュレーションの結果, ブロック性, ぼかし, ノイズ, それらの組み合わせによって歪んだ画像の品質を推定できることがわかった。 多くの最先端手法と比較して比較的高速で、リアルタイムの品質監視アプリケーションに適している。

Most of the standard image and video codecs are block-based and depending upon the compression ratio the compressed images/videos suffer from different distortions. At low ratios, blurriness is observed and as compression increases blocking artifacts occur. Generally, in order to reduce blockiness, images are low-pass filtered which leads to more blurriness. Also, in bokeh mode images they are commonly seen: blurriness as a result of intentional blurred background while blocking artifact and global blurriness arising due to compression. Therefore, such visual media suffer from both blockiness and blurriness distortions. Along with this, noise is also commonly encountered distortion. Most of the existing works on quality assessment quantify these distortions individually. This paper proposes a methodology to blindly measure overall quality of an image suffering from these distortions, individually as well as jointly. This is achieved by considering the sum of absolute values of low and high-frequency Discrete Frequency Transform (DFT) coefficients defined as sum magnitudes. The number of blocks lying in specific ranges of sum magnitudes including zero-valued AC coefficients and mean of 100 maximum and 100 minimum values of these sum magnitudes are used as feature vectors. These features are then fed to the Machine Learning (ML) based Gaussian Process Regression (GPR) model, which quantifies the image quality. The simulation results show that the proposed method can estimate the quality of images distorted with the blockiness, blurriness, noise and their combinations. It is relatively fast compared to many state-of-art methods, and therefore is suitable for real-time quality monitoring applications.
翻訳日:2023-03-07 17:58:05 公開日:2023-03-05
# 確率勾配降下の騒音モデルの再検討

Revisiting the Noise Model of Stochastic Gradient Descent ( http://arxiv.org/abs/2303.02749v1 )

ライセンス: Link先を確認
Barak Battash and Ofir Lindenbaum(参考訳) 確率勾配雑音(SGN)は,確率勾配降下(SGD)の成功に重要な要因である。 中心極限定理の後、SGN は当初ガウス的としてモデル化され、最近、S\alpha S$ L\'evy 分布を用いて確率勾配雑音がより良く特徴づけられることが示唆されている。 この主張は、以前提案されたガウスノイズモデルに反証され、反証されたと言われている。 本稿では、SGNが重く、S\alpha S$分布によりよりよく表現されているという、固く詳細な経験的証拠を示す。 さらに、深層ニューラルネットワーク(DNN)の異なるパラメータは、トレーニング全体を通して異なるSGN特性を持つと主張する。 局所最小値近傍でのSGDのダイナミクスをより正確に近似するために、L\'evy-driven stochastic differential equation (SDE) に基づく$\mathbb{R}^N$の新たなフレームワークを構築し、DNNの各パラメータを1次元のL\'evyプロセスでモデル化する。 次に、sgnジャンプ強度(周波数と振幅)が学習速度減衰機構(lrdecay)に依存することを示し、さらに、lrdecay効果がステップサイズの減少ではなくsgnの低下に起因する可能性があることを実証的に示す。 本研究では,dnnの平均脱出時間,トラッピング確率,および局所ミニマ近傍のdnnの特性について検討した。 最後に,より重い尾部sgnのパラメータの方向に,訓練過程が盆地から出る可能性が高いことを証明した。 再現性のためにコードを共有します。

The stochastic gradient noise (SGN) is a significant factor in the success of stochastic gradient descent (SGD). Following the central limit theorem, SGN was initially modeled as Gaussian, and lately, it has been suggested that stochastic gradient noise is better characterized using $S\alpha S$ L\'evy distribution. This claim was allegedly refuted and rebounded to the previously suggested Gaussian noise model. This paper presents solid, detailed empirical evidence that SGN is heavy-tailed and better depicted by the $S\alpha S$ distribution. Furthermore, we argue that different parameters in a deep neural network (DNN) hold distinct SGN characteristics throughout training. To more accurately approximate the dynamics of SGD near a local minimum, we construct a novel framework in $\mathbb{R}^N$, based on L\'evy-driven stochastic differential equation (SDE), where one-dimensional L\'evy processes model each parameter in the DNN. Next, we show that SGN jump intensity (frequency and amplitude) depends on the learning rate decay mechanism (LRdecay); furthermore, we demonstrate empirically that the LRdecay effect may stem from the reduction of the SGN and not the decrease in the step size. Based on our analysis, we examine the mean escape time, trapping probability, and more properties of DNNs near local minima. Finally, we prove that the training process will likely exit from the basin in the direction of parameters with heavier tail SGN. We will share our code for reproducibility.
翻訳日:2023-03-07 17:57:41 公開日:2023-03-05
# 植物熱介在物からの多体脱局在

Many-body delocalization from planted thermal inclusion ( http://arxiv.org/abs/2303.02748v1 )

ライセンス: Link先を確認
J. Clayton Peacock and Dries Sels(参考訳) 2つのxxzスピン鎖を取り付けることで1次元乱れスピン系の量子アバランシェを数値的に研究する。 1つの鎖は希少なグリフィス領域、すなわち熱包含を示す低障害を持ち、もう1つは大きな障害、すなわち観測された有限サイズの交叉よりも大きな障害を持つ。 この系のダイナミクスと一様に大きな障害を持つ同一のシステムを比較すると、希少な領域が存在するmbl領域内で指数関数的に遅い熱化(in disorder)の証拠が見つかる。 我々は、長い時間(\sim10^{4}$)に持続する大きな障害領域のバルクにおけるスピン不均衡の崩壊を観察し、スペクトル関数の普遍的な挙動を見つける。

We numerically study quantum avalanches in 1D disordered spin systems by attaching two XXZ spin chains. One chain has low disorder representing a rare Griffith's region, or thermal inclusion, and the second has larger disorder, i.e. disorder larger than the observed finite-size crossover. Comparing dynamics of this system to identical systems with uniformly large disorder, we find evidence for exponentially slow thermalization (in disorder) within the MBL regime when the rare region is present. We observe a decay of the spin imbalance in the bulk of the large disorder region that persists to long times ($\sim10^{4}$) and find a universal behavior of the spectral function.
翻訳日:2023-03-07 17:57:09 公開日:2023-03-05
# オープンフェルミオン鎖における散逸ダイナミクス

Dissipative Dynamics in Open Fermionic Chains ( http://arxiv.org/abs/2303.02747v1 )

ライセンス: Link先を確認
A. I. Karanikas and G. E. Pavlou(参考訳) ファインマン・ヴァーノンのアプローチを平衡外ケルディッシュ・シュウィンガー形式と融合させることにより、開フェルミオン系の時間依存相関関数をすべて適切な汎函数微分を適用することによって直接導出できる還元生成汎関数を構成する。 実例として, 横イジングモデルについて検討し, 系の定常状態における共分散行列を導出し, その臨界挙動について検討する。

By merging the Feynman-Vernon's approach with the out-of-equilibrium Keldysh-Schwinger formalism, we construct the reduced generating functional through which all the time-dependent correlation functions of an open fermionic system can be directly derived by applying the appropriate functional derivatives. As a concrete example, we investigate the transverse Ising model, we derive the covariance matrix at the steady state of the system and we investigate its critical behavior.
翻訳日:2023-03-07 17:56:56 公開日:2023-03-05
# IDA: インフォームドドメイン適応セマンティックセマンティックセグメンテーション

IDA: Informed Domain Adaptive Semantic Segmentation ( http://arxiv.org/abs/2303.02741v1 )

ライセンス: Link先を確認
Zheng Chen, Zhengming Ding, Jason M. Gregory, and Lantao Liu(参考訳) ミックスアップベースのデータ拡張は、教師なしドメイン適応セマンティックセマンティックセグメンテーション(UDA-SS)のための自己学習フレームワークにおいて重要な段階であることが検証された。 既存の自己学習手法は、通常、ランダムサンプリング戦略で人気のある地域ベースの混合手法を採用するが、訓練が進むにつれて、様々な領域における異なる意味論の動的進化を無視する。 UDA-SSの性能を改善するために,クラスレベルのセグメンテーション性能に基づいてデータを混合する自己学習フレームワークであるInformed Domain Adaptation (IDA)モデルを提案する。 IDAモデルでは、クラスレベルのパフォーマンスは期待信頼スコア(ECS)によって追跡される。 次に、異なる領域のデータに対する混合比率を決定するために動的スケジュールを使用する。 その結果,GTA-Vの都市景観への適応では1.1 mIoU,SYTHIAの都市景観への適応では0.9 mIoUの差で,最先端のUDA-SS法よりも優れていることがわかった。

Mixup-based data augmentation has been validated to be a critical stage in the self-training framework for unsupervised domain adaptive semantic segmentation (UDA-SS), which aims to transfer knowledge from a well-annotated (source) domain to an unlabeled (target) domain. Existing self-training methods usually adopt the popular region-based mixup techniques with a random sampling strategy, which unfortunately ignores the dynamic evolution of different semantics across various domains as training proceeds. To improve the UDA-SS performance, we propose an Informed Domain Adaptation (IDA) model, a self-training framework that mixes the data based on class-level segmentation performance, which aims to emphasize small-region semantics during mixup. In our IDA model, the class-level performance is tracked by an expected confidence score (ECS). We then use a dynamic schedule to determine the mixing ratio for data in different domains. Extensive experimental results reveal that our proposed method is able to outperform the state-of-the-art UDA-SS method by a margin of 1.1 mIoU in the adaptation of GTA-V to Cityscapes and of 0.9 mIoU in the adaptation of SYNTHIA to Cityscapes.
翻訳日:2023-03-07 17:56:47 公開日:2023-03-05
# 2プレイヤーゼロサムマルコフゲームにおけるアンカップリングと収束学習

Uncoupled and Convergent Learning in Two-Player Zero-Sum Markov Games ( http://arxiv.org/abs/2303.02738v1 )

ライセンス: Link先を確認
Yang Cai, Haipeng Luo, Chen-Yu Wei, Weiqiang Zheng(参考訳) 非漸近収束率を持つ$uncoupled$、$convergent$、$rational$というアルゴリズムの開発に焦点を絞って、2人のプレイヤーによるゼロサムマルコフゲームにおける学習の問題を再検討する。 我々は、バンド利得をウォームアップとしたステートレス行列ゲームの場合から始め、$\mathcal{O}(t^{-\frac{1}{8}})$ last-iterate convergence rateを示す。 我々の知る限りでは、これはバンディットフィードバックのみにアクセス可能な有限のラストイテレート収束率を得る最初の結果である。 我々はその結果を既約マルコフゲームの場合にまで拡張し、任意の$\varepsilon>0$に対して$\mathcal{O}(t^{-\frac{1}{9+\varepsilon}})$の最終定値収束率を与える。 最後に、力学の仮定なしにマルコフゲームを研究し、$path convergence$ rate を示し、これは定義した収束の新しい概念である $\mathcal{O}(t^{-\frac{1}{10}})$ を示す。 我々のアルゴリズムは[Wei et al., 2021]の同期と事前の知識要件を取り除き、既約マルコフゲームにおいて私たちと同じ目標を追求した。 本アルゴリズムは[chen et al., 2021, cen et al., 2021]と関連しており,エントロピー正規化手法を基礎としている。 しかし、エントロピー値に関するコミュニケーションの必要性を取り除き、アルゴリズムを完全に無結合にしています。

We revisit the problem of learning in two-player zero-sum Markov games, focusing on developing an algorithm that is $uncoupled$, $convergent$, and $rational$, with non-asymptotic convergence rates. We start from the case of stateless matrix game with bandit feedback as a warm-up, showing an $\mathcal{O}(t^{-\frac{1}{8}})$ last-iterate convergence rate. To the best of our knowledge, this is the first result that obtains finite last-iterate convergence rate given access to only bandit feedback. We extend our result to the case of irreducible Markov games, providing a last-iterate convergence rate of $\mathcal{O}(t^{-\frac{1}{9+\varepsilon}})$ for any $\varepsilon>0$. Finally, we study Markov games without any assumptions on the dynamics, and show a $path convergence$ rate, which is a new notion of convergence we defined, of $\mathcal{O}(t^{-\frac{1}{10}})$. Our algorithm removes the synchronization and prior knowledge requirement of [Wei et al., 2021], which pursued the same goals as us for irreducible Markov games. Our algorithm is related to [Chen et al., 2021, Cen et al., 2021] and also builds on the entropy regularization technique. However, we remove their requirement of communications on the entropy values, making our algorithm entirely uncoupled.
翻訳日:2023-03-07 17:56:22 公開日:2023-03-05
# SePaint: 多項拡散による意味地図の描出

SePaint: Semantic Map Inpainting via Multinomial Diffusion ( http://arxiv.org/abs/2303.02737v1 )

ライセンス: Link先を確認
Zheng Chen, Deepak Duggirala, David Crandall, Lei Jiang, Lantao Liu(参考訳) 部分的観測を超える予測は、現在の感知範囲や解像度を超えて周囲について追加情報を提供できるため、未知の環境での移動には不可欠である。 本研究では,セマンティクス・バードズ・アイ・ビューマップのインペインティングについて考察する。 生成的多項拡散に基づく意味データに対する着色モデルであるSePaintを提案する。 セマンティック一貫性を維持するためには、既知の領域の欠落した領域の予測を条件にする必要がある。 逆拡散過程において一段階のルックバック操作を行う新しい,効率的な条件戦略であるLook-Back Condition(LB-Con)を提案する。 これにより、未知部分と既知の部分との調和を強化でき、完成性能が向上します。 提案手法は,様々なロボットアプリケーションで一般的に用いられている補間法よりも優れていることを示す。

Prediction beyond partial observations is crucial for robots to navigate in unknown environments because it can provide extra information regarding the surroundings beyond the current sensing range or resolution. In this work, we consider the inpainting of semantic Bird's-Eye-View maps. We propose SePaint, an inpainting model for semantic data based on generative multinomial diffusion. To maintain semantic consistency, we need to condition the prediction for the missing regions on the known regions. We propose a novel and efficient condition strategy, Look-Back Condition (LB-Con), which performs one-step look-back operations during the reverse diffusion process. By doing so, we are able to strengthen the harmonization between unknown and known parts, leading to better completion performance. We have conducted extensive experiments on different datasets, showing our proposed model outperforms commonly used interpolation methods in various robotic applications.
翻訳日:2023-03-07 17:55:52 公開日:2023-03-05
# 半教師付き分類のためのニューロン被覆指標による神経進化アルゴリズム

Neuroevolutionary algorithms driven by neuron coverage metrics for semi-supervised classification ( http://arxiv.org/abs/2303.02801v1 )

ライセンス: Link先を確認
Roberto Santana, Ivan Hidalgo-Cenalmor, Unai Garciarena, Alexander Mendiburu, Jose Antonio Lozano(参考訳) 一部の機械学習アプリケーションでは、教師付き分類のためのラベル付きインスタンスの可用性は限られているが、ラベルなしインスタンスは豊富である。 半教師付き学習アルゴリズムはこれらのシナリオに対処し、ラベルのない例に含まれる情報を活用する。 本稿では,半教師付き問題に対するニューラルネットワークの進化に関する問題に対処する。 各候補解で符号化されたニューラルネットワークアーキテクチャで計算されたニューロンカバレッジメトリクスを用いて,ラベルなしインスタンスを利用する神経進化的アプローチを提案する。 神経カバレッジメトリクスは、ソフトウェアをテストするために使用されるコードカバレッジメトリクスに似ているが、異なるニューラルネットワークコンポーネントがテストインスタンスによってカバーされている方法の定量化を目的としている。 神経進化的アプローチでは、ラベル付き例で計算された分類精度とラベルなし例を用いて評価したニューロン被覆測定値を組み合わせた適合度関数を定義する。 ラベル付きインスタンスの量が異なる半教師付き問題に対するこれらの関数の影響を評価する。 以上の結果から,神経細胞被覆測定値を用いることで,ラベル付きデータの不足に対する神経進化の感度が低下し,学習した分類器のより強固な一般化に繋がる可能性が示唆された。

In some machine learning applications the availability of labeled instances for supervised classification is limited while unlabeled instances are abundant. Semi-supervised learning algorithms deal with these scenarios and attempt to exploit the information contained in the unlabeled examples. In this paper, we address the question of how to evolve neural networks for semi-supervised problems. We introduce neuroevolutionary approaches that exploit unlabeled instances by using neuron coverage metrics computed on the neural network architecture encoded by each candidate solution. Neuron coverage metrics resemble code coverage metrics used to test software, but are oriented to quantify how the different neural network components are covered by test instances. In our neuroevolutionary approach, we define fitness functions that combine classification accuracy computed on labeled examples and neuron coverage metrics evaluated using unlabeled examples. We assess the impact of these functions on semi-supervised problems with a varying amount of labeled instances. Our results show that the use of neuron coverage metrics helps neuroevolution to become less sensitive to the scarcity of labeled data, and can lead in some cases to a more robust generalization of the learned classifiers.
翻訳日:2023-03-07 17:49:52 公開日:2023-03-05
# 信用販売リスクの分類のための変量量子固有解法

Variational Quantum Eigensolver for Classification in Credit Sales Risk ( http://arxiv.org/abs/2303.02797v1 )

ライセンス: Link先を確認
Joanna Wi\'sniewska, Marek Sawerwain(参考訳) 本研究では,変分量子固有解法(VQE)を用いて分類タスクを実現する。 信用販売の過程で商品を発行する決定状況 - ある時点では、顧客の歴史を債務部の従業員によって分析し、詐欺(二分分類)のリスクにより発行する商品を停止すべきかどうかを確認する。 古典的な機械学習と同様に、データは正規化されるべきである。 データ正規化の2段階のプロセスについて,各観測結果を量子状態として記述する。 VQEアプローチでは、量子回路(いわゆるアンサッツ)のパラメータをトレーニングして、各クラスのパターンステートを出力することができる。 観察はSWAPテストを使用したクラスに分類される。 得られた解はコンパクトであり、(量子レジスタの指数的な容量のため)対数的に増加する量子ビットだけを必要とする。 計算、プロット、比較はすべてpython言語環境で実装され、考案された。 量子分類の個々の例のシミュレーションのソースコードは、ソースコードリポジトリで見ることができる。 この記事で直接使用されるシミュレータのバージョンは、ソースコードのZenodoバージョンにある。

In this work, a classification task is realized by the Variational Quantum Eigensolver (VQE) approach. A decision situation concerns issuing commodities in the process of credit sales -- at some point a client's history may be analyzed by debt department's employee to check if the goods issuing should not be stopped due to the risk of fraud (bivalent classification). As in the classical machine learning, the data should be normalized. We describe the two-step process of data normalization to write each observation as a quantum state. The VQE approach allows training the parameters of a quantum circuit (so-called ansatz) to output pattern-states for each class. Observations are categorized to classes with the use of the SWAP-test. The obtained solution is compact and requires only logarithmically increasing number of qubits (due to the exponential capacity of quantum registers) -- we also present alternative classical solutions which, in fact, are quite complex. All calculations, plots, and comparisons were implemented and conduced in Python language environment. Source codes of the simulations for individual examples of quantum classification can be found in the source code repository. The version of a simulator directly used in the article is in the Zenodo version of the source code.
翻訳日:2023-03-07 17:49:34 公開日:2023-03-05
# CoRTX: リアルタイム説明のためのコントラストフレームワーク

CoRTX: Contrastive Framework for Real-time Explanation ( http://arxiv.org/abs/2303.02794v1 )

ライセンス: Link先を確認
Yu-Neng Chuang, Guanchu Wang, Fan Yang, Quan Zhou, Pushkar Tripathi, Xuanting Cai, Xia Hu(参考訳) 説明可能な機械学習の最近の進歩は、モデル行動の解釈に効果的で忠実なソリューションを提供する。 しかし、多くの説明手法は効率の問題に遭遇し、実際のシナリオでの展開をほとんど制限している。 リアルタイム説明器(rtx)フレームワークは,一方向説明器を学習することにより,モデル説明プロセスを高速化するために提案されている。 既存のRTXフレームワークは通常、教師付き学習パラダイムの下で説明器を構築する。 正確な説明ラベルは、制約のある計算資源と人間の努力が限られているため、通常は取得が困難である。 本研究では、説明指向の表現を学習し、説明ラベルに対する説明者訓練の集中的依存を緩和するContrastive Real-Time eXplanation(CoRTX)フレームワークを提案する。 具体的には、説明の学習のための肯定的および否定的な事例を選択するための合成戦略を設計する。 理論的分析により,提案手法は説明課題の対比学習プロセスに有益であることが示された。 実世界の3つのデータセットに対する実験結果は,提案したCoRTXフレームワークの有効性と有効性を示す。

Recent advancements in explainable machine learning provide effective and faithful solutions for interpreting model behaviors. However, many explanation methods encounter efficiency issues, which largely limit their deployments in practical scenarios. Real-time explainer (RTX) frameworks have thus been proposed to accelerate the model explanation process by learning a one-feed-forward explainer. Existing RTX frameworks typically build the explainer under the supervised learning paradigm, which requires large amounts of explanation labels as the ground truth. Considering that accurate explanation labels are usually hard to obtain due to constrained computational resources and limited human efforts, effective explainer training is still challenging in practice. In this work, we propose a COntrastive Real-Time eXplanation (CoRTX) framework to learn the explanation-oriented representation and relieve the intensive dependence of explainer training on explanation labels. Specifically, we design a synthetic strategy to select positive and negative instances for the learning of explanation. Theoretical analysis show that our selection strategy can benefit the contrastive learning process on explanation tasks. Experimental results on three real-world datasets further demonstrate the efficiency and efficacy of our proposed CoRTX framework.
翻訳日:2023-03-07 17:49:16 公開日:2023-03-05
# 分散ロバスト強化学習のためのサンプル複雑度境界の改善

Improved Sample Complexity Bounds for Distributionally Robust Reinforcement Learning ( http://arxiv.org/abs/2303.02783v1 )

ライセンス: Link先を確認
Zaiyan Xu, Kishan Panaganti, Dileep Kalathil(参考訳) トレーニング環境とテスト環境のパラメータミスマッチに対して堅牢な制御ポリシーを学習することの問題点を考察する。 我々はこれを分布的に頑健な強化学習(DR-RL)問題として定式化し、不確実性集合における環境の最悪の確率モデルに対する値関数を最大化する政策を学習することを目的とする。 我々は,不確実性集合が定義されている名目(訓練)環境の生成モデルにアルゴリズムがアクセス可能な表型エピソディック学習設定に着目した。 本稿では,この問題を,全変分数,カイ二乗数,クルバック・リブラー数,ワッサーシュタイン数という4つの変分数で特定した不確実性集合に対して解くために,ロバスト位相値学習法を提案する。 我々のアルゴリズムは、$\tilde{\mathcal{O}}(|\mathcal{S}|||\mathcal{A}| H^{5})$サンプル複雑性を達成でき、これは既存の結果よりも一様である$|\mathcal{S}|$で、$|\mathcal{S}|$は状態数、$|\mathcal{A}|$は行動数、$H$は水平長である。 また、wassersteinの不確かさ集合に対する最初のサンプル複雑性結果も提供する。 最後に,シミュレーション実験を用いてアルゴリズムの性能を示す。

We consider the problem of learning a control policy that is robust against the parameter mismatches between the training environment and testing environment. We formulate this as a distributionally robust reinforcement learning (DR-RL) problem where the objective is to learn the policy which maximizes the value function against the worst possible stochastic model of the environment in an uncertainty set. We focus on the tabular episodic learning setting where the algorithm has access to a generative model of the nominal (training) environment around which the uncertainty set is defined. We propose the Robust Phased Value Learning (RPVL) algorithm to solve this problem for the uncertainty sets specified by four different divergences: total variation, chi-square, Kullback-Leibler, and Wasserstein. We show that our algorithm achieves $\tilde{\mathcal{O}}(|\mathcal{S}||\mathcal{A}| H^{5})$ sample complexity, which is uniformly better than the existing results by a factor of $|\mathcal{S}|$, where $|\mathcal{S}|$ is number of states, $|\mathcal{A}|$ is the number of actions, and $H$ is the horizon length. We also provide the first-ever sample complexity result for the Wasserstein uncertainty set. Finally, we demonstrate the performance of our algorithm using simulation experiments.
翻訳日:2023-03-07 17:48:58 公開日:2023-03-05
# ランダム行列の近似2-局所化によるカオスからの展開順序

Unveiling Order from Chaos by approximate 2-localization of random matrices ( http://arxiv.org/abs/2303.02782v1 )

ライセンス: Link先を確認
Nicolas Loizeau and Flaviano Morone and Dries Sels(参考訳) 量子多体系は典型的にはテンソル積構造を持つ。 この構造は、2つの独立した事象の確率が確率の積である確率論から受け継いでいる。 したがって、ハミルトニアンのテンソル積構造は、系の自然な分解を独立なより小さなサブシステムへ与える。 特定のハミルトニアンと特定のテンソル積構造を考えると、次のようなことができる: このハミルトニアンが所望のテンソル積構造を持つ基底が存在するか? 特に、任意のハミルトニアンが2-局所形式、すなわちペアワイズ相互作用のみを含む基底が存在するだろうか? ここでは、数値的および解析的な引数を用いて、ジェネリックハミルトニアン(例えば大きなランダム行列)は、概して高い精度で2体相互作用項の線形結合として記述できることを示し、すなわち、ハミルトニアンは慎重に選択された基底で2-局所である。 これらのハミルトン派は摂動に頑健であることを示す。 その結果,カオスから局所性の出現のメカニズムが示唆された。

Quantum many-body systems are typically endowed with a tensor product structure. This structure is inherited from probability theory, where the probability of two independent events is the product of the probabilities. The tensor product structure of a Hamiltonian thus gives a natural decomposition of the system into independent smaller subsystems. Considering a particular Hamiltonian and a particular tensor product structure, one can ask: is there a basis in which this Hamiltonian has this desired tensor product structure? In particular, we ask: is there a basis in which an arbitrary Hamiltonian has a 2-local form, i.e. it contains only pairwise interactions? Here we show, using numerical and analytical arguments, that generic Hamiltonian (e.g. a large random matrix) can approximately be written as a linear combination of two-body interactions terms with high precision; that is the Hamiltonian is 2-local in a carefully chosen basis. We show that these Hamiltonians are robust to perturbations. Taken together, our results suggest a possible mechanism for the emergence of locality from chaos.
翻訳日:2023-03-07 17:48:33 公開日:2023-03-05
# 野生における機械学習モデルのロバスト性、評価、適応

Robustness, Evaluation and Adaptation of Machine Learning Models in the Wild ( http://arxiv.org/abs/2303.02781v1 )

ライセンス: Link先を確認
Vihari Piratla(参考訳) 私たちの目標は、荒野にデプロイされた機械学習(ML)システムの信頼性を改善することです。 テスト例が列車例と似ている場合、MLモデルは極めてよく機能する。 しかし、実世界のアプリケーションはテスト例の任意の分布で実行する必要がある。 現在のMLシステムは、分散シフトのあるテスト例で静かに失敗する可能性がある。 共変量や領域シフトによるmlモデルの信頼性を向上させるために,モデルを実現するアルゴリズムを提案する。 (a)より大きな種類の試験分布に一般化する。 (b)分布シフトによる精度の評価 (c)ターゲット分布に適応する。 ドメインシフトに対するロバスト性を損なう原因と、ドメインロバストモデルをトレーニングするためのアルゴリズムについて検討する。 モデル脆性の鍵となる原因はドメイン過度な適合であり、新しいトレーニングアルゴリズムはドメイン一般仮説を抑え、奨励する。 特定の問題設定のための標準的なトレーニング手法よりも堅牢性を向上させる一方で、MLシステムの性能はドメインシフトとともに大幅に変化します。 開発者や利害関係者はモデル脆弱性や運用範囲の入力を理解することが重要です。 代わりに、性能予測のための事前定義された領域シフトと解釈可能な領域シフトの組み合わせに対して、積極的に精度を推定することを提唱する。 本稿では,ドメインシフトの組合せ空間上でのアドレス推定のためのラベル効率の推定について述べる。 さらに、対象ドメインにおけるモデルのパフォーマンスが低くなると、従来のアプローチでは、対象ドメインのリソースを使用してモデルを適用する。 標準的な適応手法は十分なラベル付きリソースへのアクセスを前提としており、これはデプロイされたモデルでは実用的ではない。 言語アプリケーションに焦点をあてた、ラベルのないデータリソースのみを用いた軽量適応手法の研究を開始する。

Our goal is to improve reliability of Machine Learning (ML) systems deployed in the wild. ML models perform exceedingly well when test examples are similar to train examples. However, real-world applications are required to perform on any distribution of test examples. Current ML systems can fail silently on test examples with distribution shifts. In order to improve reliability of ML models due to covariate or domain shift, we propose algorithms that enable models to: (a) generalize to a larger family of test distributions, (b) evaluate accuracy under distribution shifts, (c) adapt to a target distribution. We study causes of impaired robustness to domain shifts and present algorithms for training domain robust models. A key source of model brittleness is due to domain overfitting, which our new training algorithms suppress and instead encourage domain-general hypotheses. While we improve robustness over standard training methods for certain problem settings, performance of ML systems can still vary drastically with domain shifts. It is crucial for developers and stakeholders to understand model vulnerabilities and operational ranges of input, which could be assessed on the fly during the deployment, albeit at a great cost. Instead, we advocate for proactively estimating accuracy surfaces over any combination of prespecified and interpretable domain shifts for performance forecasting. We present a label-efficient estimation to address estimation over a combinatorial space of domain shifts. Further, when a model's performance on a target domain is found to be poor, traditional approaches adapt the model using the target domain's resources. Standard adaptation methods assume access to sufficient labeled resources, which may be impractical for deployed models. We initiate a study of lightweight adaptation techniques with only unlabeled data resources with a focus on language applications.
翻訳日:2023-03-07 17:48:15 公開日:2023-03-05
# 口腔液滴を分析しマスクの有効性を定量化する低コスト携帯機器

A Low-Cost Portable Apparatus to Analyze Oral Fluid Droplets and Quantify the Efficacy of Masks ( http://arxiv.org/abs/2303.02776v1 )

ライセンス: Link先を確認
Ava Tan Bhowmik(参考訳) 毎年400万人が上気道感染症で死亡している。 マスク着用は病原体を含む液滴の拡散を防ぐために重要である。 しかし,マスク有効性評価のためのほとんどの技術はセットアップが高価であり,操作が複雑である。 本研究は, 口腔液滴の可視化, 追跡, 解析を行う新しい, 低コストで定量的なメソロジーを開発した。 プロジェクトには、セットアップの最適化、データ収集、データ分析、アプリケーション開発の4つのステージがある。 メトロジーは最初、一般的な家庭用材料を用いた概念実証としてダーククローゼットで開発され、その後携帯機器として実装された。 トニックウォーターとuvダークライトチューブライトを選択し、オープンソースソフトウェアを用いた自動分析により、蛍光液滴とエアロゾルの伝播を可視化する。 各種因子の経口液滴生成と伝播の依存性を詳細に研究し,本法を用いて確立した。 さらに, 検出可能な最小の液滴径は, 高度と飛行時間に数学的に相関した。 異なる種類のマスクの有効性を評価し, 布の微細構造と関連付ける。 より小さい細孔と厚い素材のマスクの方が有効であることがわかった。 この技法は、総費用が60ドル未満の材料を使って家庭で簡単に製造でき、低コストで正確なメートル法を可能にしている。

Every year, about 4 million people die from upper respiratory infections. Mask-wearing is crucial in preventing the spread of pathogen-containing droplets, which is the primary cause of these illnesses. However, most techniques for mask efficacy evaluation are expensive to set up and complex to operate. In this work, a novel, low-cost, and quantitative metrology to visualize, track, and analyze orally-generated fluid droplets is developed. The project has four stages: setup optimization, data collection, data analysis, and application development. The metrology was initially developed in a dark closet as a proof of concept using common household materials and was subsequently implemented into a portable apparatus. Tonic water and UV darklight tube lights are selected to visualize fluorescent droplet and aerosol propagation with automated analysis developed using open-source software. The dependencies of oral fluid droplet generation and propagation on various factors are studied in detail and established using this metrology. Additionally, the smallest detectable droplet size was mathematically correlated to height and airborne time. The efficacy of different types of masks is evaluated and associated with fabric microstructures. It is found that masks with smaller-sized pores and thicker material are more effective. This technique can easily be constructed at home using materials that total to a cost of below \$60, thereby enabling a low-cost and accurate metrology.
翻訳日:2023-03-07 17:47:51 公開日:2023-03-05
# SimuQ: アナログコンパイルによる量子シミュレーションのためのドメイン特化言語

SimuQ: A Domain-Specific Language For Quantum Simulation With Analog Compilation ( http://arxiv.org/abs/2303.02775v1 )

ライセンス: Link先を確認
Yuxiang Peng, Jacob Young, Pengyu Liu, Xiaodi Wu(参考訳) ハミルトンシミュレーションは量子コンピューティングの最も有望な応用の1つである。 最近の実験結果は、ノイズ中規模量子(nisq)マシン時代のゲート型ディジタル量子シミュレーションよりも、連続時間アナログ量子シミュレーションの方が有利であることを示唆している。 しかし、そのようなアナログ量子シミュレータのプログラミングは、ハードウェアとソフトウェアの間に統一されたインターフェースが欠如しているため、はるかに難しい。 本稿では,ヘテロジニアスアナログ量子シミュレータへのパルスレベルのコンパイルをサポートする,ハミルトンシミュレーションのための最初のドメイン固有言語simuqの設計と実装を行う。 具体的には、simuqでは、フロントエンドユーザーはハミルトンのモデリング言語でターゲットのハミルトニアン進化を指定でき、アナログシミュレータのプログラミング性はハードウェアプロバイダが設定した抽象アナログ命令と呼ばれる新しい抽象化によって指定される。 ソルバベースのコンパイルを通じて、simuqは、パルス制御超伝導(qiskit pulse)と中性原子(quera bloqade)量子システム、および通常の回路ベースのデジタル量子マシンで実証された、希望するハミルトニアン進化のためのターゲットアナログシミュレータのパルスレベルの命令スケジュールを生成する。 さらに,IBM マシン上でのデジタルコンパイルよりもアナログコンパイルの方が優れていること,仮説マシンの資源推定に SimuQ を用いること,および SimuQ のコンパイルのスケーラビリティテストについても示す。

Hamiltonian simulation is one of the most promising applications of quantum computing. Recent experimental results suggest that continuous-time analog quantum simulation would be advantageous over gate-based digital quantum simulation in the Noisy Intermediate-Size Quantum (NISQ) machine era. However, programming such analog quantum simulators is much more challenging due to the lack of a unified interface between hardware and software, and the only few known examples are all hardware-specific. In this paper, we design and implement SimuQ, the first domain-specific language for Hamiltonian simulation that supports pulse-level compilation to heterogeneous analog quantum simulators. Specifically, in SimuQ, front-end users will specify the target Hamiltonian evolution with a Hamiltonian modeling language, and the programmability of analog simulators is specified through a new abstraction called the abstract analog instruction set by hardware providers. Through a solver-based compilation, SimuQ will generate the pulse-level instruction schedule on the target analog simulator for the desired Hamiltonian evolution, which has been demonstrated on pulse-controlled superconducting (Qiskit Pulse) and neutral-atom (QuEra Bloqade) quantum systems, as well as on normal circuit-based digital quantum machines. Moreover, we also demonstrate the advantage of analog compilation over digital compilation on IBM machines, the use of SimuQ for resource estimation for hypothetical machines, and a scalability test of SimuQ's compilation.
翻訳日:2023-03-07 17:47:32 公開日:2023-03-05
# 分割共形予測における被覆の普遍分布について

On the universal distribution of the coverage in split conformal prediction ( http://arxiv.org/abs/2303.02770v1 )

ライセンス: Link先を確認
Paulo C. Marques F.(参考訳) 分割共形予測フレームワークには、さらに2つの普遍性が確立されている。 交換可能なデータを用いた回帰設定では、将来の観測可能量の有限地平線に対する予測セットのカバレッジの正確な分布と、そのほぼ確実な極限の正確な分布を決定する。 実験結果は有限なトレーニングと校正サンプルに対して保持され,両分布は名目的ミスカバーレベルと校正サンプルサイズのみによって決定される。

Two additional universal properties are established in the split conformal prediction framework. In a regression setting with exchangeable data, we determine the exact distribution of the coverage of prediction sets for a finite horizon of future observables, as well as the exact distribution of its almost sure limit. The results hold for finite training and calibration samples, and both distributions are determined solely by the nominal miscoverage level and the calibration sample size.
翻訳日:2023-03-07 17:47:10 公開日:2023-03-05
# 低温永久磁石を用いた負電荷量子ドット微小キャビティ系の共鳴2レーザースピン状態分光

Resonant two-laser spin-state spectroscopy of a negatively charged quantum dot-microcavity system with a cold permanent magnet ( http://arxiv.org/abs/2303.02763v1 )

ライセンス: Link先を確認
P. Steindl, T. van der Ent, H. van der Meer, J.A. Frey, J. Norman, J.E. Bowers, D. Bouwmeester, W. L\"offler(参考訳) 高効率スピン光子インタフェースは、様々な量子技術に必要な量子ハードウェアの重要な部分である。 自己集合InGaAs量子ドットは、光学的微小キャビティに埋め込まれた場合、ほぼ決定論的スピン光子エンタングルメントとスピンリードアウトを示すことができるが、通常は超伝導磁石を用いて行われる個々のスピン状態に対処するために外部磁場が必要である。 InGaAs量子ドットの電子スピン状態とトリチウム転移のエネルギー縮退を解くのに適した475mTの平面Voigt形状の磁場を5Kで供給するSmCoマグネットの設計について述べる。 この量子ドットは、量子ドットから放出される単一光子の効率的な収集を可能にする複屈折の光マイクロキャビティに埋め込まれている。 単一および2つのレーザー場でトリオン遷移に対処することでスピン状態の操作を示す。 実験データは, 単一および2レーザークロスポーラライズド共鳴蛍光, 複屈折キャビティにおけるパーセル増強, レーザーパワーの変動を対象とするモデルとよく一致した。

A high-efficiency spin-photon interface is an essential piece of quantum hardware necessary for various quantum technologies. Self-assembled InGaAs quantum dots have excellent optical properties, if embedded into an optical micro-cavity they can show near-deterministic spin-photon entanglement and spin readout, but an external magnetic field is required to address the individual spin states, which usually is done using a superconducting magnet. Here, we show a compact cryogenically compatible SmCo magnet design that delivers 475 mT in-plane Voigt geometry magnetic field at 5 K, which is suitable to lift the energy degeneracy of the electron spin states and trion transitions of a single InGaAs quantum dot. This quantum dot is embedded in a birefringent high-finesse optical micro-cavity which enables efficient collection of single photons emitted by the quantum dot. We demonstrate spin-state manipulation by addressing the trion transitions with a single and two laser fields. The experimental data agrees well to our model which covers single- and two-laser cross-polarized resonance fluorescence, Purcell enhancement in a birefringent cavity, and variation of the laser powers.
翻訳日:2023-03-07 17:47:01 公開日:2023-03-05
# lweに基づく確実にセキュアな強力なpuf:構築と実装

A Provably Secure Strong PUF based on LWE: Construction and Implementation ( http://arxiv.org/abs/2303.02802v1 )

ライセンス: Link先を確認
Xiaodan Xi, Ge Li, Ye Wang, Yeonsoo Jeon and Michael Orshansky(参考訳) 我々は、古典コンピュータと量子コンピュータの両方に対するML攻撃に対して証明可能なセキュリティを備えた強力なPUFを構築する。 このセキュリティは、公開鍵暗号システムの復号化関数の暗号的難しさと、整数格子上で定義されたLWE問題の難しさによって保証される。 我々はこの構造を格子PUFと呼ぶ。 物理的に難解な鍵とLWE復号関数ブロックを持つ格子PUFを構築する。 異なるシナリオでのデプロイメントを可能にするために、レイテンシーエリアのトレードオフが異なる設計を示します。 コンパクトな設計では高シリアライズされたLFSRとLWE復号化関数を使用し、遅延最適化設計ではアンロールされたLFSRと並列データパスを使用する。 Spartan 6 FPGA 上で 2^{136}$ Challenge-Response pairs (CRPs) を用いた格子 PUF の設計を試作した。 理論的なセキュリティ保証に加えて、様々な主要なML技術に対する経験的抵抗を評価し、予測誤差は1億ドルのトレーニングCRPの後、49.76 %以上である。 リソース効率の良い設計では、PUFロジックの適切なスライスに45ドル、ファジィ抽出器に351ドルしか必要としない。 レイテンシに最適化された設計は、レイテンシの148倍、PUFハードウェアの利用率を10倍に向上させる。 PUF応答の平均均一性は49.98\%$、平均ユニーク性は50.00\%$、平均信頼性は1.26\%$である。

We construct a strong PUF with provable security against ML attacks on both classical and quantum computers. The security is guaranteed by the cryptographic hardness of learning decryption functions of public-key cryptosystems, and the hardness of the learning-with-errors (LWE) problem defined on integer lattices. We call our construction the lattice PUF. We construct lattice PUF with a physically obfuscated key and an LWE decryption function block. To allow deployments in different scenarios, we demonstrate designs with different latency-area trade-offs. A compact design uses a highly serialized LFSR and LWE decryption function, while a latency-optimized design uses an unrolled LFSR and a parallel datapath. We prototype lattice PUF designs with $2^{136}$ challenge-response pairs (CRPs) on a Spartan 6 FPGA. In addition to theoretical security guarantee, we evaluate empirical resistance to the various leading ML techniques: the prediction error remains above $49.76\%$ after $1$ million training CRPs. The resource-efficient design requires only $45$ slices for the PUF logic proper, and $351$ slices for a fuzzy extractor. The latency-optimized design achieves a $148X$ reduction in latency, at a $10X$ increase in PUF hardware utilization. The mean uniformity of PUF responses is $49.98\%$, the mean uniqueness is $50.00\%$, and the mean reliability is $1.26\%$.
翻訳日:2023-03-07 17:37:41 公開日:2023-03-05