このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230303となっている論文です。

PDF登録状況(公開日: 20230303)

TitleAuthorsAbstract論文公表日・翻訳日
# シャープリー値に基づく効率的なデータ評価に向けて

Towards Efficient Data Valuation Based on the Shapley Value ( http://arxiv.org/abs/1902.10275v4 )

ライセンス: Link先を確認
Ruoxi Jia, David Dao, Boxin Wang, Frances Ann Hubis, Nick Hynes, Nezihe Merve Gurel, Bo Li, Ce Zhang, Dawn Song, Costas Spanos(参考訳) 「私のデータの価値はいくらですか?」という疑問は、組織や個人によって提起されることが多い。 この質問に対する回答は、例えば、複数のデータコントリビューターに公平に利益を分配し、データ漏洩が発生した場合の予測的な補償を決定することができる。 本稿では,協調ゲーム理論を起源とする一般的な価値概念であるshapley値を用いて,データ評価の問題を検討する。 Shapleyの値は、データ値の概念に対して多くのデシダータを満たすユニークなペイオフスキームを定義する。 しかし、Shapleyの値は計算に指数時間を必要とすることが多い。 この課題に対処するために、Shapley値を近似する効率的なアルゴリズムのレパートリーを提案する。 また,様々なベンチマークデータセットにおける各トレーニングインスタンスの値も示す。

"How much is my data worth?" is an increasingly common question posed by organizations and individuals alike. An answer to this question could allow, for instance, fairly distributing profits among multiple data contributors and determining prospective compensation when data breaches happen. In this paper, we study the problem of data valuation by utilizing the Shapley value, a popular notion of value which originated in cooperative game theory. The Shapley value defines a unique payoff scheme that satisfies many desiderata for the notion of data value. However, the Shapley value often requires exponential time to compute. To meet this challenge, we propose a repertoire of efficient algorithms for approximating the Shapley value. We also demonstrate the value of each training instance for various benchmark datasets.
翻訳日:2023-03-25 04:41:20 公開日:2023-03-03
# 深部弱教師付き学習法による組織像の分類と局在化:調査

Deep Weakly-Supervised Learning Methods for Classification and Localization in Histology Images: A Survey ( http://arxiv.org/abs/1909.03354v7 )

ライセンス: Link先を確認
J\'er\^ome Rony, Soufiane Belharbi, Jose Dolz, Ismail Ben Ayed, Luke McCaffrey, Eric Granger(参考訳) 組織学データから癌を診断するためにディープラーニングモデルを使用すると、いくつかの課題が提示される。 これらの画像中の関心領域(ROI)の分類と局所化は、通常画像レベルとピクセルレベルの両方のラベルに依存し、後者は高価なアノテーションプロセスを必要とする。 deep weakly-supervised object localization (wsol)法は、ディープラーニングモデルの低コストトレーニングのための異なる戦略を提供する。 イメージクラスのアノテーションのみを使用して、これらのメソッドをトレーニングしてイメージを分類し、ROIローカライゼーションのためのクラスアクティベーションマップ(CAM)を取得できる。 本稿では,WSOL の最先端 DL 手法について概説する。 本稿では,これらの手法をモデルにおける情報フローに応じてボトムアップとトップダウンに分割する分類法を提案する。 後者は進歩が限られているが、最近のボトムアップメソッドは現在、深いWSOLメソッドでかなり進歩している。 初期の研究は異なる空間プール機能の設計に焦点を当てていた。 しかし、これらの手法はローカライゼーションの精度が限界に達し、CAMの非活性化による大きな制限が明らかにされた。 その後の作業は、この問題を緩和し、完全なオブジェクトを回収することを目的としている。 分類学の代表的な手法を2つの挑戦的組織学データセットの分類と位置推定の精度で評価・比較した。 全体としては、特に自然画像を処理するように設計された汎用的な方法において、ローカライズ性能が低かったことを示している。 組織学データの課題に対処するために設計された手法は良い結果をもたらした。 しかし、すべての方法は偽陽性/陰性の局在性が高い。 CAMのアンダー/オーバーアクティベーション、しきい値への感受性、モデル選択といった、深いWSOLメソッドを組織学に適用するための4つの重要な課題が特定されている。

Using deep learning models to diagnose cancer from histology data presents several challenges. Cancer grading and localization of regions of interest (ROIs) in these images normally relies on both image- and pixel-level labels, the latter requiring a costly annotation process. Deep weakly-supervised object localization (WSOL) methods provide different strategies for low-cost training of deep learning models. Using only image-class annotations, these methods can be trained to classify an image, and yield class activation maps (CAMs) for ROI localization. This paper provides a review of state-of-art DL methods for WSOL. We propose a taxonomy where these methods are divided into bottom-up and top-down methods according to the information flow in models. Although the latter have seen limited progress, recent bottom-up methods are currently driving much progress with deep WSOL methods. Early works focused on designing different spatial pooling functions. However, these methods reached limited localization accuracy, and unveiled a major limitation -- the under-activation of CAMs which leads to high false negative localization. Subsequent works aimed to alleviate this issue and recover complete object. Representative methods from our taxonomy are evaluated and compared in terms of classification and localization accuracy on two challenging histology datasets. Overall, the results indicate poor localization performance, particularly for generic methods that were initially designed to process natural images. Methods designed to address the challenges of histology data yielded good results. However, all methods suffer from high false positive/negative localization. Four key challenges are identified for the application of deep WSOL methods in histology -- under/over activation of CAMs, sensitivity to thresholding, and model selection.
翻訳日:2023-03-25 04:23:11 公開日:2023-03-03
# 遅延時間と非断時校正 強磁場相互作用における多光子過程とトンネル

Delay time and Non-Adiabatic Calibration of the Attoclock. Multiphoton process versus tunneling in strong field interaction ( http://arxiv.org/abs/2005.09938v6 )

ライセンス: Link先を確認
Ossama Kullie and Igor Ivanov(参考訳) attosecond実験におけるトンネル時間の測定は、量子力学におけるトンネル時間、時間の役割に関するホットな議論を引き起こし、レーザーパルスとの相互作用は、多重光子とトンネル(場)イオン化という2つの異なる性質のレジームを含む。 Adiabatic field calibration において、私たち (O.K.) の1人は実際のトンネル時間モデルを開発し、Landsmann et al. (Optica {\bf 1}, 343 2014) の実験データとよく一致することを示した。 本研究では,hofmann et al. (j) の実験データと良好な一致に達した非断熱場校正における実験結果を説明する。 modの。 オプト {\bf 66}, 1052, 2019)。 さらに, 時間依存schr\"odinger方程式の数値積分により, 結果を確認した。 このモデルは多光子およびトンネル電界電離状態の明確な画像を提供するので、魅力的である。 nonadiabatic case (nonadiabatic field calibration) では、イオン化は主に多光子吸収によって駆動される。 驚くべきことに、フィールド強度$F \le F_a$(F_a$は原子場強度)では、常に量子極限$\tau_a$ at F=F_a$の時間遅延を予測する。 adiabatic tunneling the saturation at the limit ($f=f_a$) は有名なハートマン効果やハートマンパラドックスを説明する。

The measurement of the tunneling time in attosecond experiments, termed attoclock, triggered a hot debate about the tunneling time, the role of time in quantum mechanics, where the interaction with the laser pulse involves two regimes of a different character, the multiphoton and the tunneling (field-) ionization. In the adiabatic field calibration, one of us (O. K.) developed in earlier works a real tunneling time model and showed that the model fits well to the experimental data of Landsmann et al. (Optica {\bf 1}, 343 2014). In the present work, it is shown that the model explains the experimental result in the nonadiabatic field calibration, where one reaches a good agreement with the experimental data of Hofmann et al. (J. of Mod. Opt. {\bf 66}, 1052, 2019). Furthermore, we confirm the result with the numerical integration of the time-dependent Schr\"odinger equation. The model is appealing because it offers a clear picture of the multiphoton and tunneling field-ionization regimes. In the nonadiabatic case (the nonadiabatic field calibration), the ionization is mainly driven by multiphoton absorption. Surprisingly, at a field strength $F \le F_a$ ($F_a$ is the atomic field strength) the model always predicts a time delay with respect to the quantum limit $\tau_a$ at $F=F_a$. For an adiabatic tunneling the saturation at the limit ($F=F_a$) explains the well-known Hartman effect or Hartman paradox.
翻訳日:2023-03-25 04:03:22 公開日:2023-03-03
# EZtune: Rで自動ハイパーパラメータチューニングのためのパッケージ

EZtune: A Package for Automated Hyperparameter Tuning in R ( http://arxiv.org/abs/2303.12177v1 )

ライセンス: Link先を確認
Jill Lundell(参考訳) 近年,統計学習モデルの人気が高まっている。 これらのモデルの多くはハイパーパラメータを持ち、モデルの性能を良く調整する必要がある。 これらのパラメータのチューニングは簡単ではありません。 EZtuneはシンプルなユーザインターフェースを備えたRパッケージで、サポートベクターマシン、アダブースト、勾配アップマシン、弾性ネットをチューニングできる。 まず、eztuneがチューニングできるモデルの簡単な概要と、それぞれのハイパーパラメータに関する議論を紹介します。 次に、eztune、caret、tidymodelsの使用の容易さを比較する。 次に、eztune と tidymodels でチューニングされたモデルの精度と計算時間の比較を行う。 我々は、EZtuneがどのように最適な予測力を持つ最終モデルを選択するのに役立つかを実証して結論付けた。 比較の結果,EZtuneがサポートベクターマシンや勾配押し上げマシンをチューニングできることが示され,EZtuneは統計学習モデルやRの初心者にとって使いやすいユーザインターフェースも提供する。

Statistical learning models have been growing in popularity in recent years. Many of these models have hyperparameters that must be tuned for models to perform well. Tuning these parameters is not trivial. EZtune is an R package with a simple user interface that can tune support vector machines, adaboost, gradient boosting machines, and elastic net. We first provide a brief summary of the the models that EZtune can tune, including a discussion of each of their hyperparameters. We then compare the ease of using EZtune, caret, and tidymodels. This is followed with a comparison of the accuracy and computation times for models tuned with EZtune and tidymodels. We conclude with a demonstration of how how EZtune can be used to help select a final model with optimal predictive power. Our comparison shows that EZtune can tune support vector machines and gradient boosting machines with EZtune also provides a user interface that is easy to use for a novice to statistical learning models or R.
翻訳日:2023-03-25 03:17:16 公開日:2023-03-03
# 未完成のアーキテクチャ:人工知能からの視点

Unfinished Architectures: A Perspective from Artificial Intelligence ( http://arxiv.org/abs/2303.12732v1 )

ライセンス: Link先を確認
Elena Merino-G\'omez, Pedro Reviriego, Fernando Moral(参考訳) 未完成の建物は建築の歴史を通じて絶え間ないものであり、完成の機会について激しい議論を巻き起こし、完成部分と整合性のある構成可能性について理論化するためのアリバイを提供した。 人工知能(AI)の開発は、未完成のアーキテクチャの完成の可能性を提案する新たな道を開く。 具体的には、DALL-Eのような最近のツールがテキスト記述でガイドされたイメージを完了できるようになり、アーキテクチャ設計タスクにおけるAIの助けを借りて数えることができる。 本稿では、歴史的寺院の未完成のファサードの完成にこれらの新しいAIツールを使用することについて検討し、建築図学の分野におけるまだ古いスタジアムの分析を行う。

Unfinished buildings are a constant throughout the history of architecture and have given rise to intense debates on the opportuneness of their completion, in addition to offering alibis for theorizing about the compositional possibilities in coherence with the finished parts. The development of Artificial Intelligence (AI) opens new avenues for the proposal of possibilities for the completion of unfinished architectures. Specifically, with the recent appearance of tools such as DALL-E, capable of completing images guided by a textual description, it is possible to count on the help of AI for architectural design tasks. In this article we explore the use of these new AI tools for the completion of unfinished facades of historical temples and analyse the still germinal stadium in the field of architectural graphic composition.
翻訳日:2023-03-25 02:58:55 公開日:2023-03-03
# データ駆動型氷河分類と海洋性メガファナ調査の予測に向けて

Toward Data-Driven Glare Classification and Prediction for Marine Megafauna Survey ( http://arxiv.org/abs/2303.12730v1 )

ライセンス: Link先を確認
Joshua Power, Derek Jacoby, Marc-Antoine Drouin, Guillaume Durand, Yvonne Coady, Julian Meng(参考訳) カナダ北大西洋海域の絶滅危惧種は、統治政策に影響を及ぼす種数の推定のために体系的に調査されている。 政策への影響から、人口の正確性は重要である。 本稿では,データ駆動のグラアモデリングシステムへの基礎を築いており,測量者によるグラアの最小化が期待できる。 測量士は検出関数を使用して、明確に見えない巨大動物集団を推定する。 この研究の目的は、収集された有用な画像を最大化することであり、glareモデルを使用してglareを予測し、glareフリーなデータ収集を最適化する。 このモデルを構築するために、小さなラベル付きデータセットを活用し、半教師付き学習を行う。 大規模データセットには、na\"ive pseudo-labellingアプローチを用いたカスケードランダムフォレストモデルがラベル付けされている。 関心のある特徴をピンポイントするリフレクタンスモデルを使用してデータセットをポップアップさせ、コンテキスト対応機械学習モデルを可能にする。 擬似ラベル付きデータセットは、Multilayer PerceptronとRecurrent Neural Networkの2つのモデルで使用される。 本稿では,データ駆動型ミッションプランニングの基盤となるグラアモデリングシステムを構築し,低表面視認性期間におけるクジラ個体群推定の指標として,調査員が事前にグラアを最小化し,発見機能に依存する調査を減らした。

Critically endangered species in Canadian North Atlantic waters are systematically surveyed to estimate species populations which influence governing policies. Due to its impact on policy, population accuracy is important. This paper lays the foundation towards a data-driven glare modelling system, which will allow surveyors to preemptively minimize glare. Surveyors use a detection function to estimate megafauna populations which are not explicitly seen. A goal of the research is to maximize useful imagery collected, to that end we will use our glare model to predict glare and optimize for glare-free data collection. To build this model, we leverage a small labelled dataset to perform semi-supervised learning. The large dataset is labelled with a Cascading Random Forest Model using a na\"ive pseudo-labelling approach. A reflectance model is used, which pinpoints features of interest, to populate our datasets which allows for context-aware machine learning models. The pseudo-labelled dataset is used on two models: a Multilayer Perceptron and a Recurrent Neural Network. With this paper, we lay the foundation for data-driven mission planning; a glare modelling system which allows surveyors to preemptively minimize glare and reduces survey reliance on the detection function as an estimator of whale populations during periods of poor subsurface visibility.
翻訳日:2023-03-25 02:58:25 公開日:2023-03-03
# 認知負荷分類の新しい特徴としての瞳孔径の時間的定量分布

A temporally quantized distribution of pupil diameters as a new feature for cognitive load classification ( http://arxiv.org/abs/2303.12757v1 )

ライセンス: Link先を確認
Wolfgang Fuhl and Susanne Zabel and Theresa Harbig and Julia Astrid Moldt and Teresa Festl Wiete and Anne Herrmann Werner and Kay Nieselt(参考訳) 本稿では,瞳孔情報に基づいて認知負荷を分類できる新機能を提案する。 この特徴は、視線追跡記録の時間的セグメンテーションから成り立っている。 時間分割の各セグメントについて、瞳孔の大きさの確率分布を計算して記憶する。 これらの確率分布は認知負荷の分類に使うことができる。 この特徴により,眼球追跡データから得られた他の統計値と比較して認知負荷の分類精度が著しく向上した。 瞳孔データから認知的負荷を決定する応用は多様であり、例えば、バーンアウトの事前警告システムへと繋がる可能性がある。 リンク: https://es-cloud.cs.uni-tuebingen.de/8e2ab8c3fdd444e1a135/? p=%2FCognitiveLoadFeature&mode=list

In this paper, we present a new feature that can be used to classify cognitive load based on pupil information. The feature consists of a temporal segmentation of the eye tracking recordings. For each segment of the temporal partition, a probability distribution of pupil size is computed and stored. These probability distributions can then be used to classify the cognitive load. The presented feature significantly improves the classification accuracy of the cognitive load compared to other statistical values obtained from eye tracking data, which represent the state of the art in this field. The applications of determining Cognitive Load from pupil data are numerous and could lead, for example, to pre-warning systems for burnouts. Link: https://es-cloud.cs.uni-tuebingen.de/d/8e2ab8c3fdd444e1a135/?p=%2FCognitiveLoadFeature&mode=list
翻訳日:2023-03-25 02:51:07 公開日:2023-03-03
# 特徴量を用いた関心適応領域

Area of interest adaption using feature importance ( http://arxiv.org/abs/2303.12744v1 )

ライセンス: Link先を確認
Wolfgang Fuhl and Susanne Zabel and Theresa Harbig and Julia Astrid Moldt and Teresa Festl Wiete and Anne Herrmann Werner and Kay Nieselt(参考訳) 本稿では,関心領域(AOI)と関心領域(ROI)にそれぞれ適応する2つのアプローチとアルゴリズムを,視線追跡データの品質と分類タスクに適用する。 最初のアプローチでは、機能の重要性を欲張りの方法で使い、あらゆる方向にAOIを成長または縮小します。 第2のアプローチは、AOIを領域に分割し、成長の方向、すなわち勾配を計算する第一のアプローチの拡張である。 どちらの手法も一般化されたAOIの場合の分類結果を大幅に改善するが、定性解析にも利用できる。 定性的分析では、提示されたアルゴリズムはAOIをデータに適応させることを可能にし、つまり、視線追跡データの誤りや不正確さをよりよく補償することができる。 優れたアプリケーション例としては抽象アートがあり、手動のAOIアノテーションはほとんど不可能であり、データ駆動アプローチは主に初期AOIに使用される。 リンク: https://es-cloud.cs.uni-tuebingen.de/8e2ab8c3fdd444e1a135/? p=%2FAOIGradient&mode=list

In this paper, we present two approaches and algorithms that adapt areas of interest (AOI) or regions of interest (ROI), respectively, to the eye tracking data quality and classification task. The first approach uses feature importance in a greedy way and grows or shrinks AOIs in all directions. The second approach is an extension of the first approach, which divides the AOIs into areas and calculates a direction of growth, i.e. a gradient. Both approaches improve the classification results considerably in the case of generalized AOIs, but can also be used for qualitative analysis. In qualitative analysis, the algorithms presented allow the AOIs to be adapted to the data, which means that errors and inaccuracies in eye tracking data can be better compensated for. A good application example is abstract art, where manual AOIs annotation is hardly possible, and data-driven approaches are mainly used for initial AOIs. Link: https://es-cloud.cs.uni-tuebingen.de/d/8e2ab8c3fdd444e1a135/?p=%2FAOIGradient&mode=list
翻訳日:2023-03-25 02:49:34 公開日:2023-03-03
# 5G UAVシナリオにおける攻撃識別のための深い注意認識:新しいアーキテクチャとエンドツーエンド評価

Deep Attention Recognition for Attack Identification in 5G UAV scenarios: Novel Architecture and End-to-End Evaluation ( http://arxiv.org/abs/2303.12947v1 )

ライセンス: Link先を確認
Joseanne Viana, Hamed Farkhari, Pedro Sebastiao, Luis Miguel Campos, Katerina Koutlia, Biljana Bojovic, Sandra Lagen, Rui Dinis(参考訳) 5Gフレームワークに固有の堅牢なセキュリティ機能にもかかわらず、攻撃者は5G無人航空機(UAV)の動作を妨害し、A2G(Air-to-Ground)リンクにおけるUAV制御通信性能を低下させる方法を見つける。 5G UAV通信インフラは完全には安全ではないという前提のもとに,認証されたUAVに埋め込まれた小さなディープネットワークに基づいて攻撃を識別するソリューションとして,Deep Attention Recognition (DAtR)を提案する。 提案手法では,sinr(signal-to-interference-plus-noise ratio)とrssi(referation signal received power)の2つの可観測パラメータを用いて,ライン・オブ・アイズ(los),nlos(non-line-of-sight),および2つの条件の確率的組み合わせによる攻撃を認識する。 テストされたシナリオでは、複数の攻撃者がランダムな位置に配置され、その力はシミュレーションごとに異なる。 さらに、攻撃検出にさらなる複雑さを課すため、地上のユーザはネットワークに含まれる。 攻撃シナリオにおけるシステム全体のパフォーマンスを改善するために,データ操作と多数決手法に基づく2つのメカニズムによるディープネットワーク決定の補完を提案する。 提案したDeep Networkの性能パラメータを比較した。 例えば、Long Short-Term-Memory (LSTM) と Attention レイヤの全体的な精度、ウィンドウサイズ効果、トレーニングプロセスで部分的なデータしか利用できない場合の精度テストなどである。 最後に,分類精度に関する6つの分類器を用いたディープネットワークのベンチマークを行った。 アルゴリズムの精度は,LoS条件のeXtreme Gradient Boosting (XGB)分類器と比較して4%以上,短距離NLoS条件では3%程度である。 提案したディープネットワークを考えると、他の全ての分類器はXGBよりも精度が低い。

Despite the robust security features inherent in the 5G framework, attackers will still discover ways to disrupt 5G unmanned aerial vehicle (UAV) operations and decrease UAV control communication performance in Air-to-Ground (A2G) links. Operating under the assumption that the 5G UAV communications infrastructure will never be entirely secure, we propose Deep Attention Recognition (DAtR) as a solution to identify attacks based on a small deep network embedded in authenticated UAVs. Our proposed solution uses two observable parameters: the Signal-to-Interference-plus-Noise Ratio (SINR) and the Reference Signal Received Power (RSSI) to recognize attacks under Line-of-Sight (LoS), Non-Line-of-Sight (NLoS), and a probabilistic combination of the two conditions. In the tested scenarios, a number of attackers are located in random positions, while their power is varied in each simulation. Moreover, terrestrial users are included in the network to impose additional complexity on attack detection. To improve the systems overall performance in the attack scenarios, we propose complementing the deep network decision with two mechanisms based on data manipulation and majority voting techniques. We compare several performance parameters in our proposed Deep Network. For example, the impact of Long Short-Term-Memory (LSTM) and Attention layers in terms of their overall accuracy, the window size effect, and test the accuracy when only partial data is available in the training process. Finally, we benchmark our deep network with six widely used classifiers regarding classification accuracy. Our algorithms accuracy exceeds 4% compared with the eXtreme Gradient Boosting (XGB) classifier in LoS condition and around 3% in the short distance NLoS condition. Considering the proposed deep network, all other classifiers present lower accuracy than XGB.
翻訳日:2023-03-25 02:31:23 公開日:2023-03-03
# VALERIAN:野生におけるIMUセンサを用いた人間行動認識のための不変特徴学習

VALERIAN: Invariant Feature Learning for IMU Sensor-based Human Activity Recognition in the Wild ( http://arxiv.org/abs/2303.06048v1 )

ライセンス: Link先を確認
Yujiao Hao, Boyu Wang, Rong Zheng(参考訳) imuセンサーに基づく人間行動認識(har)のための深層ニューラルネットワークモデルは、制御された、十分に調整されたデータセットから訓練される。 しかし、自然主義的な設定から収集されたデータは、しばしば大きなラベルノイズを含む。 本研究では,雑音ラベル付き最先端学習法であるDivideMixの2つの実機HARデータセットについて検討し,ノイズラベルが学習データに与える影響について検討した。 我々の経験的分析によると、様々な被験者の領域ギャップはLNL法が重要な前提に反する原因となり、ニューラルネットワークは初期の訓練の時期においてより単純な(そしてクリーンな)データに適合する傾向にある。 この知見に触発されて,我々は,ウェアラブルセンサを用いたHARの不変特徴学習法であるVALERIANを設計した。 サブジェクト毎にタスク固有のレイヤを分離したマルチタスクモデルをトレーニングすることで、valerianは、サブジェクト間の共有機能表現の恩恵を受けながら、ノイズラベルを個別に扱うことができる。 4つのデータセットでvalerianを評価し,制御された環境で2つ,野生で2つを収集した。

Deep neural network models for IMU sensor-based human activity recognition (HAR) that are trained from controlled, well-curated datasets suffer from poor generalizability in practical deployments. However, data collected from naturalistic settings often contains significant label noise. In this work, we examine two in-the-wild HAR datasets and DivideMix, a state-of-the-art learning with noise labels (LNL) method to understand the extent and impacts of noisy labels in training data. Our empirical analysis reveals that the substantial domain gaps among diverse subjects cause LNL methods to violate a key underlying assumption, namely, neural networks tend to fit simpler (and thus clean) data in early training epochs. Motivated by the insights, we design VALERIAN, an invariant feature learning method for in-the-wild wearable sensor-based HAR. By training a multi-task model with separate task-specific layers for each subject, VALERIAN allows noisy labels to be dealt with individually while benefiting from shared feature representation across subjects. We evaluated VALERIAN on four datasets, two collected in a controlled environment and two in the wild.
翻訳日:2023-03-19 11:56:39 公開日:2023-03-03
# 脳波による視線追跡に一歩近づいた

One step closer to EEG based eye tracking ( http://arxiv.org/abs/2303.06039v1 )

ライセンス: Link先を確認
Wolfgang Fuhl and Susanne Zabel and Theresa Harbig and Julia Astrid Moldt and Teresa Festl Wiete and Anne Herrmann Werner and Kay Nieselt(参考訳) 本稿では,興味領域を適応させる2つのアプローチとアルゴリズムを提案する。本論文では脳波データを用いて視線位置を直接決定できる新しい深層ニューラルネットワーク(dnn)を提案する。 脳波に基づく視線追跡は、視線追跡の分野で新しくて難しい研究トピックであるが、従来の画像処理に匹敵する入力データセットを備えた画像ベースの視線追跡の代替を提供する。 提案したDNNは、EEG信号の空間依存性を利用して、EEG信号の前処理に使用される空間フィルタリングに似た畳み込みを使用する。 これにより、脳波信号からの直接視線判定を3.5cm MAE(平均絶対誤差)と比較して改善するが、画像ベースのアイトラッカーに比べて精度が著しく高いため、残念ながら直接適用できない。 リンク: https://es-cloud.cs.uni-tuebingen.de/8e2ab8c3fdd444e1a135/? p=%2FEEGGaze&mode=list

In this paper, we present two approaches and algorithms that adapt areas of interest We present a new deep neural network (DNN) that can be used to directly determine gaze position using EEG data. EEG-based eye tracking is a new and difficult research topic in the field of eye tracking, but it provides an alternative to image-based eye tracking with an input data set comparable to conventional image processing. The presented DNN exploits spatial dependencies of the EEG signal and uses convolutions similar to spatial filtering, which is used for preprocessing EEG signals. By this, we improve the direct gaze determination from the EEG signal compared to the state of the art by 3.5 cm MAE (Mean absolute error), but unfortunately still do not achieve a directly applicable system, since the inaccuracy is still significantly higher compared to image-based eye trackers. Link: https://es-cloud.cs.uni-tuebingen.de/d/8e2ab8c3fdd444e1a135/?p=%2FEEGGaze&mode=list
翻訳日:2023-03-19 11:56:05 公開日:2023-03-03
# 機械学習に基づく小型空中レーダのデータ保存技術に関する研究

Study on the Data Storage Technology of Mini-Airborne Radar Based on Machine Learning ( http://arxiv.org/abs/2303.07407v1 )

ライセンス: Link先を確認
Haishan Tian, Qiong Yang, Huabing Wang, Jingke Zhang(参考訳) 空中レーダのデータ転送速度は、多くの検出アプリケーションにおいて無線データ転送レートよりもはるかに高いため、搭載されたデータストレージシステムは通常、レーダデータを格納するために使用される。 優れた耐震性能を持つデータストレージシステムは、通常、NAND Flashを記憶媒体として使用しており、特にプラットフォームの小型化の制限下では、データストレージの速度に深刻な影響を及ぼす長期ファイル管理の問題がある。 この問題を解決するために,小型空対空レーダに機械学習に基づくデータストレージ手法を提案する。 ストレージトレーニングモデルは、機械学習に基づいて確立され、様々な種類のレーダーデータを処理できる。 このモデルを用いてファイル管理手法を分類して決定し、レーダデータの保存に適用する。 提案手法の性能を検証するため,小型航空機搭載レーダのデータストレージシステム上で実験を行った。 実験結果から、機械学習に基づく手法は、異なるデータレートやアプリケーションシナリオに適応した様々なデータストレージ手法を構築できることが示された。 ファイル管理時間と実際のデータ書き込み時間との比率は極めて低い。

The data rate of airborne radar is much higher than the wireless data transfer rate in many detection applications, so the onboard data storage systems are usually used to store the radar data. Data storage systems with good seismic performance usually use NAND Flash as storage medium, and there is a widespread problem of long file management time, which seriously affects the data storage speed, especially under the limitation of platform miniaturization. To solve this problem, a data storage method based on machine learning is proposed for mini-airborne radar. The storage training model is established based on machine learning, and could process various kinds of radar data. The file management methods are classified and determined using the model, and then are applied to the storage of radar data. To verify the performance of the proposed method, a test was carried out on the data storage system of a mini-airborne radar. The experimental results show that the method based on machine learning can form various data storage methods adapted to different data rates and application scenarios. The ratio of the file management time to the actual data writing time is extremely low.
翻訳日:2023-03-19 11:48:47 公開日:2023-03-03
# ask and you shall receive (a graph drawing): chatgptのグラフレイアウトアルゴリズムの適用可能性をテストする

Ask and You Shall Receive (a Graph Drawing): Testing ChatGPT's Potential to Apply Graph Layout Algorithms ( http://arxiv.org/abs/2303.08819v1 )

ライセンス: Link先を確認
Sara Di Bartolomeo, Giorgio Severi, Victor Schetinger, Cody Dunne(参考訳) 大規模言語モデル(llm)は最近、嵐で世界を席巻した。 一貫性のあるテキストを生成し、意味のある会話をし、アルゴリズムのステップのような概念と基本的な命令セットを教えることができる。 この文脈では、ChatGPTで実験を行うことにより、グラフ描画アルゴリズムにLLMを適用することに興味がある。 これらのアルゴリズムは、グラフ視覚化の可読性を改善するために使用される。 LLMの確率的性質は、アルゴリズムを正しく実装する上での課題であるが、LLMの膨大なデータから学習し、複雑な操作を適用する能力は、興味深いグラフ描画結果をもたらす可能性があると考えている。 例えば、限られたコーディングバックグラウンドを持つユーザは、シンプルな自然言語を使って効率的なグラフ視覚化を作成できるでしょう。 自然言語仕様は、より広い範囲のユーザに対して、データの可視化をよりアクセスしやすく、ユーザフレンドリにする。 グラフ描画のためのLLMの能力を探ることもまた、LLMの複雑なアルゴリズムの定式化の仕方をより理解するのに役立ちます。 私たちのゴールは、グラフ描画にLLMを使うことのエキサイティングな可能性と、それらがもたらす課題と機会をバランスよく評価することにあります。 結果の再現に必要なすべての補足材料を備えたこの論文の無償コピーはhttps://osf.io/n5rxd/? view_only=f09cbc2621f44074810b7d843f1e12f9

Large language models (LLMs) have recently taken the world by storm. They can generate coherent text, hold meaningful conversations, and be taught concepts and basic sets of instructions - such as the steps of an algorithm. In this context, we are interested in exploring the application of LLMs to graph drawing algorithms by performing experiments on ChatGPT. These algorithms are used to improve the readability of graph visualizations. The probabilistic nature of LLMs presents challenges to implementing algorithms correctly, but we believe that LLMs' ability to learn from vast amounts of data and apply complex operations may lead to interesting graph drawing results. For example, we could enable users with limited coding backgrounds to use simple natural language to create effective graph visualizations. Natural language specification would make data visualization more accessible and user-friendly for a wider range of users. Exploring LLMs' capabilities for graph drawing can also help us better understand how to formulate complex algorithms for LLMs; a type of knowledge that could transfer to other areas of computer science. Overall, our goal is to shed light on the exciting possibilities of using LLMs for graph drawing while providing a balanced assessment of the challenges and opportunities they present. A free copy of this paper with all supplemental materials required to reproduce our results is available on https://osf.io/n5rxd/?view_only=f09cbc2621f44074810b7d843f1e12f9
翻訳日:2023-03-19 11:41:22 公開日:2023-03-03
# Twitter Sentiment Analysis を用いた暗号価格予測

Cryptocurrency Price Prediction using Twitter Sentiment Analysis ( http://arxiv.org/abs/2303.09397v1 )

ライセンス: Link先を確認
Haritha GB and Sahana N.B(参考訳) 暗号通貨エコシステムは多くのソーシャルメディアプラットフォームで議論の中心であり、そのボラティリティとさまざまな意見に倣っている。 twitterは急速にニュースソースやbitcoin議論の媒体として利用されている。 われわれのアルゴリズムは、歴史的価格とツイートの感情を使ってBitcoinの価格を予測する。 本研究では,一連のツイート(トランスフォーマ-ベースニューラルネットワークモデルによる双方向エンコーダ表現)の感情を予測し,予測された感情と過去の暗号通貨価格データ,ツイートボリューム,ユーザのフォロー,ユーザ認証の有無などの指標を用いて,bitcoinの価格(ゲートリカレントユニットを使用)を予測するエンドツーエンドモデルを開発した。 感情予測では、平均絶対パーセンテージ誤差は9.45%、実時間データの平均とテストデータであった。 価格予測の絶対誤差の平均は3.6%だった。

The cryptocurrency ecosystem has been the centre of discussion on many social media platforms, following its noted volatility and varied opinions. Twitter is rapidly being utilised as a news source and a medium for bitcoin discussion. Our algorithm seeks to use historical prices and sentiment of tweets to forecast the price of Bitcoin. In this study, we develop an end-to-end model that can forecast the sentiment of a set of tweets (using a Bidirectional Encoder Representations from Transformers - based Neural Network Model) and forecast the price of Bitcoin (using Gated Recurrent Unit) using the predicted sentiment and other metrics like historical cryptocurrency price data, tweet volume, a user's following, and whether or not a user is verified. The sentiment prediction gave a Mean Absolute Percentage Error of 9.45%, an average of real-time data, and test data. The mean absolute percent error for the price prediction was 3.6%.
翻訳日:2023-03-19 11:29:46 公開日:2023-03-03
# twitterデータにおける社会不安定の早期警告信号

Early Warning Signals of Social Instabilities in Twitter Data ( http://arxiv.org/abs/2303.05401v1 )

ライセンス: Link先を確認
Vahid Shamsaddini, Henry Kirveslahti, Raphael Reinauer, Wallyson Lemes de Oliveira, Matteo Caorsi, Etienne Voutaz(参考訳) このプロジェクトの目標は、ソーシャルメディア上の公開データのみを使用して、暴動、戦争、革命のような社会的に破壊的な出来事の早期警告信号を識別するための新しい手法を作成し、研究することである。 この目的を達成するためには、より標準的なBERTモデルとともにトポロジカルなアプローチを提案する。 実際、トポロジに基づくアルゴリズムは、変形やノイズに対して確実に安定しており、低データレシエーションではうまく機能しているように見える。 一般的なアイデアは、あるツイートがディスラプティブなイベントに関連しているかどうかを予測するバイナリ分類器を構築することだ。 その結果、永続的勾配アプローチは、ディープラーニングに基づく異常検出アルゴリズムよりも安定であり、さらに高性能であることが示された。 私たちはまた、サンプル外のタスクに対する方法論の汎用性をベンチマークし、非常に有望な結果を得た。

The goal of this project is to create and study novel techniques to identify early warning signals for socially disruptive events, like riots, wars, or revolutions using only publicly available data on social media. Such techniques need to be robust enough to work on real-time data: to achieve this goal we propose a topological approach together with more standard BERT models. Indeed, topology-based algorithms, being provably stable against deformations and noise, seem to work well in low-data regimes. The general idea is to build a binary classifier that predicts if a given tweet is related to a disruptive event or not. The results indicate that the persistent-gradient approach is stable and even more performant than deep-learning-based anomaly detection algorithms. We also benchmark the generalisability of the methodology against out-of-samples tasks, with very promising results.
翻訳日:2023-03-12 03:32:22 公開日:2023-03-03
# 非感染性疾患の有病率と主な危険因子--バングラデシュ・ダッカの病院における横断研究

Prevalence and major risk factors of non-communicable diseases: A Hospital-based Cross-Sectional Study in Dhaka, Bangladesh ( http://arxiv.org/abs/2303.04808v1 )

ライセンス: Link先を確認
Mrinmoy Roy, Anica Tasnim Protity, Srabonti Das, Porarthi Dhar(参考訳) 目的:バングラデシュのダッカで栄養指導を求める成人患者を対象に,いくつかの非感染性疾患(NCD)の頻度を判定し,リスク要因を分析した。 結果: 性別, 年齢, 肥満, NCD (DM, CKD, IBS, CVD, CRD, 甲状腺) の関係について検討した。 最も頻度の高いNCDは心血管疾患(CVD)であり,全症例の83.56%にみられた。 CVDは男性より多かった。 その結果、男性参加者は女性よりも血圧分布が高かった。 一方,糖尿病(dm)では,性別による傾向は認められなかった。 CVD,DMともに加齢による進行を認めた。 その結果,中高年者では若年者よりも慢性呼吸器疾患が多かった。 データによると、入院患者5人に1人が肥満だった。 共同調査の結果、人口の31.5%がNCDを1つ、30.1%がNCDを2つ、38.3%がNCDを2つ以上持っていることがわかった。 さらに、糖尿病患者の86.25%が心血管障害を患っていた。 全甲状腺患者にCVDを施行した。 t-testを用いてckdと甲状腺(p-value 0.061)の関係を見いだした。 35歳未満の男性は甲状腺と慢性呼吸器疾患(p値0.018)の間に統計的に有意な関係がある。 また,65歳以上 (p-value 0.038) におけるdmとckdとの関連も見いだした。 さらに,35~35~65歳未満では,ckdと甲状腺 (p < 0.05) との間に有意な相関が認められた。 心臓疾患と慢性呼吸器疾患の統計学的に有意な相互作用を,糖尿病と組み合わせてanova試験を行った。 DMとRTIの組み合わせは,65歳以上の男性患者のCKDにも影響した。

Objective: The study aimed to determine the prevalence of several non-communicable diseases (NCD) and analyze risk factors among adult patients seeking nutritional guidance in Dhaka, Bangladesh. Result: Our study observed the relationships between gender, age groups, obesity, and NCDs (DM, CKD, IBS, CVD, CRD, thyroid). The most frequently reported NCD was cardiovascular issues (CVD), which was present in 83.56% of all participants. CVD was more common in male participants. Consequently, male participants had a higher blood pressure distribution than females. Diabetes mellitus (DM), on the other hand, did not have a gender-based inclination. Both CVD and DM had an age-based progression. Our study showed that chronic respiratory illness was more frequent in middle-aged participants than in younger or elderly individuals. Based on the data, every one in five hospitalized patients was obese. We analyzed the co-morbidities and found that 31.5% of the population has only one NCD, 30.1% has two NCDs, and 38.3% has more than two NCDs. Besides, 86.25% of all diabetic patients had cardiovascular issues. All thyroid patients in our study had CVD. Using a t-test, we found a relationship between CKD and thyroid (p-value 0.061). Males under 35 years have a statistically significant relationship between thyroid and chronic respiratory diseases (p-value 0.018). We also found an association between DM and CKD among patients over 65 (p-value 0.038). Moreover, there has been a statistically significant relationship between CKD and Thyroid (P < 0.05) for those below 35 and 35-65. We used a two-way ANOVA test to find the statistically significant interaction of heart issues and chronic respiratory illness, in combination with diabetes. The combination of DM and RTI also affected CKD in male patients over 65 years old.
翻訳日:2023-03-12 03:31:30 公開日:2023-03-03
# GETNext: 次のPOI勧告のためのトラジェクトリフローマップ強化トランス

GETNext: Trajectory Flow Map Enhanced Transformer for Next POI Recommendation ( http://arxiv.org/abs/2303.04741v1 )

ライセンス: Link先を確認
Song Yang, Jiamou Liu, Kaiqi Zhao(参考訳) 次のPOI勧告は、現在のステータスと過去の情報から、ユーザの今後の動きを予測し、ユーザとサービスプロバイダの両方に大きな価値を提供する。 しかし、様々なデータ傾向を一緒に考える必要があるため、この問題は複雑である。 これには、空間的位置、時間的コンテキスト、ユーザの好みなどが含まれる。 既存の研究の多くは、次のPOI勧告を、他のユーザの協調的なシグナルを省略しつつ、シーケンス予測の問題と見なしている。 そこで本研究では,新しいグラフ拡張トランスフォーマモデル(getnext)とユーザ非依存のグローバル軌道フローマップを提案し,より正確な次回のpoi予測のための広範な協調信号の活用と,その間におけるコールドスタート問題を緩和する。 GETNextは、グローバルな遷移パターン、ユーザの一般的な好み、時空間的コンテキスト、タイムアウェアなカテゴリをトランスフォーマーモデルに組み込んで、ユーザの将来の動きを予測する。 この設計により、我々のモデルは最先端の手法を大きなマージンで上回り、時空間関係の推奨問題におけるコールドスタートの課題にも光を当てる。

Next POI recommendation intends to forecast users' immediate future movements given their current status and historical information, yielding great values for both users and service providers. However, this problem is perceptibly complex because various data trends need to be considered together. This includes the spatial locations, temporal contexts, user's preferences, etc. Most existing studies view the next POI recommendation as a sequence prediction problem while omitting the collaborative signals from other users. Instead, we propose a user-agnostic global trajectory flow map and a novel Graph Enhanced Transformer model (GETNext) to better exploit the extensive collaborative signals for a more accurate next POI prediction, and alleviate the cold start problem in the meantime. GETNext incorporates the global transition patterns, user's general preference, spatio-temporal context, and time-aware category embeddings together into a transformer model to make the prediction of user's future moves. With this design, our model outperforms the state-of-the-art methods with a large margin and also sheds light on the cold start challenges within the spatio-temporal involved recommendation problems.
翻訳日:2023-03-12 03:30:33 公開日:2023-03-03
# 量子干渉の双方向問題に対する可能な解法

A possible solution to the which-way problem of quantum interference ( http://arxiv.org/abs/2111.03203v6 )

ライセンス: Link先を確認
Holger F. Hofmann, Tomonori Matsushita, Shunichi Kuroki, and Masataka Iinuma(参考訳) 干渉パターンの観測は、量子粒子が取る経路に関する情報とは相容れないと一般的に考えられている。 この仮定とは対照的に、二重スリット実験のスリットに印加された小さな分極回転の観測可能な効果は、干渉パターンを検出する前にスリットを通過する個々の粒子が局所分極回転との相互作用により物理的に非局在化されていることを示す。 偏光が直交状態に反転する速度は、各粒子が経験する偏光回転角のゆらぎの直接測定である。 干渉最大値で検出された粒子は、各スリット中の粒子のちょうど半分の存在を示すとともに、最小値に近い粒子は、局所的な回転よりもはるかに大きな偏極回転を経験し、一方のスリットにおける負の存在と他方のスリットにおける1つ以上の存在を示す。

It is commonly assumed that the observation of an interference pattern is incompatible with any information about the path taken by a quantum particle. Here we show that, contrary to this assumption, the experimentally observable effects of small polarization rotations applied in the slits of a double slit experiment indicate that individual particles passing the slits before their detection in the interference pattern are physically delocalized with regard to their interactions with the local polarization rotations. The rate at which the polarization is flipped to the orthogonal state is a direct measure of the fluctuations of the polarization rotation angles experienced by each particle. Particles detected in the interference maxima experience no fluctuations at all, indicating a presence of exactly one half of the particle in each slit, while particles detected close to the minima experience polarization rotations much larger than the local rotations, indicating a negative presence in one of the slits and a presence of more than one in the other.
翻訳日:2023-03-09 02:29:19 公開日:2023-03-03
# ランダムフレーム落下時の決定変換器

Decision Transformer under Random Frame Dropping ( http://arxiv.org/abs/2303.03391v1 )

ライセンス: Link先を確認
Kaizhe Hu, Ray Chen Zheng, Yang Gao, Huazhe Xu(参考訳) 遠隔地におけるエージェントの深層強化学習(DRL)の制御はまだ行われていない。 重要なステップストーンの1つは、破損した通信や誤作動するセンサーからのドロップ情報に対して堅牢なRLアルゴリズムを考案することである。 典型的なRL法は、通常、実際の世界で収集するのに費用がかかり安全でない、かなりのオンラインインタラクションデータを必要とする。 さらに、フレームドロップシナリオに適用する場合は、適度なドロップレートでも不満足に実行する。 これらの問題に対処するために,オンラインインタラクションを伴わないフレームドロップシナリオにおいて,エージェントが堅牢に動作可能なオフラインRLアルゴリズムであるRandom Frame Dropping~(DeFog)を提案する。 DeFogはまず、オフラインデータセットのデータをランダムにマスクアウトし、フレームドロップの時間を入力として明示的に追加する。 その後、マスクレートの高い同一オフラインデータセット上の微調整ステージにより、パフォーマンスがさらに向上する。 実験結果によると、DeFogは90\%のような厳しいフレームドロップ率で強いベースラインを上回り、通常の MuJoCo コントロールベンチマークや Atari 環境では、非フレームドロップ条件で同様のリターンを維持している。 当社のアプローチでは,制限あるいは信頼性の低いデータで実環境のエージェントを制御する,堅牢でデプロイ可能なソリューションを提供しています。

Controlling agents remotely with deep reinforcement learning~(DRL) in the real world is yet to come. One crucial stepping stone is to devise RL algorithms that are robust in the face of dropped information from corrupted communication or malfunctioning sensors. Typical RL methods usually require considerable online interaction data that are costly and unsafe to collect in the real world. Furthermore, when applying to the frame dropping scenarios, they perform unsatisfactorily even with moderate drop rates. To address these issues, we propose Decision Transformer under Random Frame Dropping~(DeFog), an offline RL algorithm that enables agents to act robustly in frame dropping scenarios without online interaction. DeFog first randomly masks out data in the offline datasets and explicitly adds the time span of frame dropping as inputs. After that, a finetuning stage on the same offline dataset with a higher mask rate would further boost the performance. Empirical results show that DeFog outperforms strong baselines under severe frame drop rates like 90\%, while maintaining similar returns under non-frame-dropping conditions in the regular MuJoCo control benchmarks and the Atari environments. Our approach offers a robust and deployable solution for controlling agents in real-world environments with limited or unreliable data.
翻訳日:2023-03-08 17:49:55 公開日:2023-03-03
# 対照的な階層的クラスタリング

Contrastive Hierarchical Clustering ( http://arxiv.org/abs/2303.03389v1 )

ライセンス: Link先を確認
Micha{\l} Znale\'zniak, Przemys{\l}aw Rola, Patryk Kaszuba, Jacek Tabor, Marek \'Smieja(参考訳) ディープクラスタリングは、データセットを予め定義された数のグループに分割するフラットモデルによって支配されている。 最近の手法は、一般的なベンチマークで基底真理と非常に高い類似性を達成しているが、フラットパーティションに含まれる情報は限られている。 本稿では,一般的な画像データに適用可能な,ディープニューラルネットワークに基づく階層的クラスタリングモデルであるcohiclustを提案する。 自己教師付き学習アプローチを採用することで、cohiclustはラベル付きデータにアクセスせずにベースネットワークをバイナリツリーに蒸留する。 階層的クラスタリング構造は、クラスタ間の関係を解析したり、データポイント間の類似性を測定するために使用することができる。 実験では、cohiclustがクラスタの合理的な構造を生成していることが示されています。 さらに,最先端のフラットクラスタリングモデルと比較して,ほとんどの画像データセットにおいて優れたクラスタリング精度が得られる。

Deep clustering has been dominated by flat models, which split a dataset into a predefined number of groups. Although recent methods achieve an extremely high similarity with the ground truth on popular benchmarks, the information contained in the flat partition is limited. In this paper, we introduce CoHiClust, a Contrastive Hierarchical Clustering model based on deep neural networks, which can be applied to typical image data. By employing a self-supervised learning approach, CoHiClust distills the base network into a binary tree without access to any labeled data. The hierarchical clustering structure can be used to analyze the relationship between clusters, as well as to measure the similarity between data points. Experiments demonstrate that CoHiClust generates a reasonable structure of clusters, which is consistent with our intuition and image semantics. Moreover, it obtains superior clustering accuracy on most of the image datasets compared to the state-of-the-art flat clustering models.
翻訳日:2023-03-08 17:49:35 公開日:2023-03-03
# 自閉症予測とバイオマーカー発見のためのマルチモーダルマルチカーネルグラフ学習

Multi-modal Multi-kernel Graph Learning for Autism Prediction and Biomarker Discovery ( http://arxiv.org/abs/2303.03388v1 )

ライセンス: Link先を確認
Junbin Mao, Jin Liu, Hanhe Lin, Hulin Kuang and Yi Pan(参考訳) グラフ学習に基づくマルチモーダル統合と分類は、その複雑さのため、疾患予測において最も難しい障害である。 マルチモーダル統合の問題を解消するための注意機構に基づく最近の研究がいくつか提案されている。 しかし、これらの技術には一定の制限がある。 主にこれらの作業は、重みスコアを使用して機能レベルで明示的に統合することにフォーカスしており、モダリティ間の負の影響を効果的に解決できない。 次に、その大半はグラフ上の異種情報を無視して、グラフの特徴を抽出するために単一サイズのフィルタを使用する。 これらの欠点を克服するために,MMKGL(Multi-modal Multi-Kernel Graph Learning)を提案する。 モダリティ間の負の影響の問題に対して,マルチモーダルグラフ埋め込みモジュールを用いてマルチモーダルグラフを構築する。 静的グラフの従来の手動構成とは異なり、グラフ適応学習により各モーダルに対して個別のグラフを生成し、多グラフ融合埋め込み過程において関数グラフと監督グラフを最適化するために導入する。 次に,マルチカーネルグラフ学習モジュールを用いて,マルチモーダルグラフから異種情報を抽出する。 異なるレベルのマルチモーダルグラフの情報は、異なる受容フィールドサイズを持つ畳み込みカーネルによって集約され、続いて、疾患予測のためのクロスカーネル発見テンソルを生成する。 本手法は,Autism Brain Imaging Data Exchange (ABIDE) データセットを用いて評価し,最先端の手法よりも優れている。 また,自閉症に関連する差別的脳領域を本モデルにより同定し,自閉症の病態研究の指針を提供する。

Multi-modal integration and classification based on graph learning is among the most challenging obstacles in disease prediction due to its complexity. Several recent works on the basis of attentional mechanisms have been proposed to disentangle the problem of multi-modal integration. However, there are certain limitations to these techniques. Primarily, these works focus on explicitly integrating at the feature level using weight scores, which cannot effectively address the negative impact between modalities. Next, a majority of them utilize single-sized filters to extract graph features, ignoring the heterogeneous information over graphs. To overcome these drawbacks, we propose MMKGL (Multi-modal Multi-Kernel Graph Learning). For the problem of negative impact between modalities, we use the multi-modal graph embedding module to construct a multi-modal graph. Different from the traditional manual construction of static graphs, a separate graph is generated for each modality by graph adaptive learning, where a function graph and a supervision graph are introduced for optimiztion during the multi-graph fusion embedding process. We then apply the multi-kernel graph learning module to extract heterogeneous information from the multi-modal graph. The information in the multi-modal graph at different levels is aggregated by convolutional kernels with different receptive field sizes, followed by generating a cross-kernel discovery tensor for disease prediction. Our method is evaluated on the benchmark Autism Brain Imaging Data Exchange (ABIDE) dataset and outperforms the state-of-the-art methods. In addition, discriminative brain regions associated with autism are identified by our model, providing guidance for the study of autism pathology.
翻訳日:2023-03-08 17:49:22 公開日:2023-03-03
# エージェントベース協調ランダム探索によるハイパーパラメータチューニングと大域関数最適化

Agent-based Collaborative Random Search for Hyper-parameter Tuning and Global Function Optimization ( http://arxiv.org/abs/2303.03394v1 )

ライセンス: Link先を確認
Ahmad Esmaeili, Zahra Ghorrati, Eric T. Matson(参考訳) ハイパーパラメータ最適化は、マシンラーニングモデルをトレーニングする上で最も面倒だが重要なステップの1つだ。 この重要なモデル構築段階には、oracleが提案するドメイン固有の手動チューニングガイドラインから、汎用ブラックボックス最適化技術の利用まで、多くの方法がある。 本稿では,機械学習モデル(あるいは一般関数最適化問題)における任意の超パラメータ群(あるいは決定変数)の近似最適値を求めるエージェントに基づく協調手法を提案する。 提案手法は,探索操作を異なる次元で分散するための階層的エージェントベースアーキテクチャを構築し,適応幅に基づくランダムサンプリング手法に基づく協調探索手法を用いて最適な位置を求める。 提案モデルの動作は、特に設計パラメータの変化に対して、機械学習とグローバル関数最適化の両方のアプリケーションで検討され、その性能は、実際に一般的に使用される2つのランダム化チューニング戦略と比較される。 実験結果によると,提案手法は,実験対象の分類,回帰,多次元関数最適化タスク,特に高次元および限られたオンデバイス計算資源の存在において比較手法よりも優れていた。

Hyper-parameter optimization is one of the most tedious yet crucial steps in training machine learning models. There are numerous methods for this vital model-building stage, ranging from domain-specific manual tuning guidelines suggested by the oracles to the utilization of general-purpose black-box optimization techniques. This paper proposes an agent-based collaborative technique for finding near-optimal values for any arbitrary set of hyper-parameters (or decision variables) in a machine learning model (or general function optimization problem). The developed method forms a hierarchical agent-based architecture for the distribution of the searching operations at different dimensions and employs a cooperative searching procedure based on an adaptive width-based random sampling technique to locate the optima. The behavior of the presented model, specifically against the changes in its design parameters, is investigated in both machine learning and global function optimization applications, and its performance is compared with that of two randomized tuning strategies that are commonly used in practice. According to the empirical results, the proposed model outperformed the compared methods in the experimented classification, regression, and multi-dimensional function optimization tasks, notably in a higher number of dimensions and in the presence of limited on-device computational resources.
翻訳日:2023-03-08 17:39:04 公開日:2023-03-03
# 関数可視化のための解釈可能なアーキテクチャニューラルネットワーク

Interpretable Architecture Neural Networks for Function Visualization ( http://arxiv.org/abs/2303.03393v1 )

ライセンス: Link先を確認
Shengtong Zhang, Daniel W. Apley(参考訳) 多くの科学研究分野において、すべての入力変数の効果の観点からブラックボックス関数の理解と可視化は非常に重要である。 既存の可視化ツールは、すべての入力変数の効果を同時に可視化することができない。 他の変数を固定しながら、2dまたは3dプロットで視覚化する入力変数の1つまたは2つを選択できるが、このモデルは単純化され、不完全である。 この欠点を克服するために、解釈可能なアーキテクチャニューラルネットワーク(IANN)を用いて、全ての入力変数の効果を直接かつ同時に可視化する新しい可視化手法を提案する。 本稿では,2つの解釈可能な構造を提案し,それぞれが特定のIANNで便利に表現できることを示す。 また提案手法を実装するためのPythonパッケージも提供する。 追加資料はオンラインで入手できる。

In many scientific research fields, understanding and visualizing a black-box function in terms of the effects of all the input variables is of great importance. Existing visualization tools do not allow one to visualize the effects of all the input variables simultaneously. Although one can select one or two of the input variables to visualize via a 2D or 3D plot while holding other variables fixed, this presents an oversimplified and incomplete picture of the model. To overcome this shortcoming, we present a new visualization approach using an interpretable architecture neural network (IANN) to visualize the effects of all the input variables directly and simultaneously. We propose two interpretable structures, each of which can be conveniently represented by a specific IANN, and we discuss a number of possible extensions. We also provide a Python package to implement our proposed method. The supplemental materials are available online.
翻訳日:2023-03-08 17:38:45 公開日:2023-03-03
# ASHRAE RP-884とASHRAEグローバル・サーマル・コンフォート・データベース(II)による耐熱性向上のための浅層監視学習の開発

Developing the Reliable Shallow Supervised Learning for Thermal Comfort using ASHRAE RP-884 and ASHRAE Global Thermal Comfort Database II ( http://arxiv.org/abs/2303.03873v1 )

ライセンス: Link先を確認
Kanisius Karyono, Badr M. Abdullah, Alison J. Cotgrave, Ana Bras, and Jeff Cullen(参考訳) 熱的快適性のための人工知能(AI)システムデザイナは、現在のユーザから記録された不十分なデータや、信頼性の低いトレーニングデータによる過度な適合に直面している。 本研究は,aiサブシステムを熱的快適にトレーニングするための信頼性の高いデータセットを提案する。 本稿では,ASHRAE RP-884とASHRAE Global Thermal Comfort Database IIを用いて,モノのインターネット(IoT)システムで実装可能な浅層教師あり学習に基づく制御アルゴリズムを提案する。 熱的快適性のためのトレーニングデータはこのデータセットほど信頼性がないが、このデータを直接使用すると過度に適合する可能性がある。 この研究は、教師付き学習プロセスのためのASHRAEデータベースに対して、データフィルタリングと意味データ拡張のためのアルゴリズムを提供する。 熱的快適性決定に関わる心理的側面から、オーバーフィッティングは常に問題となる。 オーバーフィッティングに対する心理学的チャートに基づいてAIシステムをチェックする方法を示す。 また,人体熱快適化に必要なパラメータについて検討した。 この方法は、熱的快適性のための強化学習の開発を支援することができる。

The artificial intelligence (AI) system designer for thermal comfort faces insufficient data recorded from the current user or overfitting due to unreliable training data. This work introduces the reliable data set for training the AI subsystem for thermal comfort. This paper presents the control algorithm based on shallow supervised learning, which is simple enough to be implemented in the Internet of Things (IoT) system for residential usage using ASHRAE RP-884 and ASHRAE Global Thermal Comfort Database II. No training data for thermal comfort is available as reliable as this dataset, but the direct use of this data can lead to overfitting. This work offers the algorithm for data filtering and semantic data augmentation for the ASHRAE database for the supervised learning process. Overfitting always becomes a problem due to the psychological aspect involved in the thermal comfort decision. The method to check the AI system based on the psychrometric chart against overfitting is presented. This paper also assesses the most important parameters needed to achieve human thermal comfort. This method can support the development of reinforced learning for thermal comfort.
翻訳日:2023-03-08 15:21:38 公開日:2023-03-03
# PINNの誤差収束とエンジニアリング誘導型ハイパーパラメータ探索:最適化I-FENN性能に向けて

Error convergence and engineering-guided hyperparameter search of PINNs: towards optimized I-FENN performance ( http://arxiv.org/abs/2303.03918v1 )

ライセンス: Link先を確認
Panos Pantidis, Habiba Eldababy, Christopher Miguel Tagle, Mostafa E. Mobasher(参考訳) 本稿では,PINNコンポーネントの2つの重要な側面,すなわち誤差収束解析とハイパーパラメータ・パフォーマンス関係に着目し,提案したI-FENN手法の性能向上を目指す。 提案手法は,I-FENNの設定に基づいて,そのトピックに関する数学的理論によって導かれる,システム工学指向の数値解析に依存する。 評価の客観性は,様々な誤差測度の最小化,最適化過程によるトレーニング効率,および計算努力の訓練を成功させる性能指標の新規な組み合わせによって達成される。 第1の目的は,ネットワークサイズとトレーニングサンプルサイズに対するpinnトレーニングエラーとグローバルエラーの収束について詳細に検討することである。 本稿では、PINNの設定と実装が利用可能な収束理論に適合していることを証明する2つのエラータイプの一貫した収束挙動を示す。 第2の目的は,予測精度の向上,計算労力の低減,自明な解に到達する確率の最小化を目標とする,ハイパーパラメータのアプリオリ知識の確立である。 L-BFGSの段階では, ひずみ場の高周波数を過大評価する傾向があり, 計算上より要求が大きいことを示す。 一方、深部・狭部PINNはAdam最適化のエポックの間に計算が遅くなり、簡単な解に到達して失敗を訓練する傾向にある。 本分析は,i-fennの性能向上に寄与するいくつかの結果をもたらし,ネットワークエラーの数値的収束に関して,pinn文献の長年のギャップを埋める。 提案手法と結論は、科学と工学における他のMLアプリケーションに直接拡張することができる。

In this paper, we aim at enhancing the performance of our proposed I-FENN approach by focusing on two crucial aspects of its PINN component: the error convergence analysis and the hyperparameter-performance relationship. By building on the I-FENN setup, our methodology relies on systematic engineering-oriented numerical analysis that is guided by the available mathematical theories on the topic. The objectivity of the characterization is achieved through a novel combination of performance metrics that asses the success of minimization of various error measures, the training efficiency through optimization process, and the training computational effort. In the first objective, we investigate in detail the convergence of the PINN training error and the global error against the network size and the training sample size. We demonstrate a consistent converging behavior of the two error types, which proves the conformance of the PINN setup and implementation to the available convergence theories. In the second objective, we aim to establish an a-priori knowledge of the hyperparameters which favor higher predictive accuracy, lower computational effort, and the least chances of arriving at trivial solutions. We show that shallow-and-wide networks tend to overestimate high frequencies of the strain field and they are computationally more demanding in the L-BFGS stage. On the other hand, deep-and-narrow PINNs yield higher errors; they are computationally slower during Adam optimization epochs, and they are more prone to training failure by arriving at trivial solutions. Our analysis leads to several outcomes that contribute to the better performance of I-FENN and fills a long-standing gap in the PINN literature with regards to the numerical convergence of the network errors. The proposed analysis method and conclusions can be directly extended to other ML applications in science and engineering.
翻訳日:2023-03-08 15:15:41 公開日:2023-03-03
# 知識グラフ転送のための構造事前学習とプロンプトチューニング

Structure Pretraining and Prompt Tuning for Knowledge Graph Transfer ( http://arxiv.org/abs/2303.03922v1 )

ライセンス: Link先を確認
Wen Zhang, Yushan Zhu, Mingyang Chen, Yuxia Geng, Yufeng Huang, Yajing Xu, Wenting Song, Huajun Chen(参考訳) 知識グラフ(KG)は多くのタスクにおいて重要なバックグラウンド知識プロバイダである。 KG関連タスクのモデルを設計する場合、キーとなるタスクの1つは、KGから要素の表現を学習し、それらをタスク表現と融合する知識表現と融合(KRF)モジュールを考案することである。 タスク間の融合において考慮すべきKGと視点の違いにより、重複かつアドホックなKRFモジュールの設計がタスク間で行われる。 本稿では,様々なタスクにおいて一様krfモジュールとして機能する知識グラフ事前学習モデルkgトランスフォーマを提案する。 サンプルサブグラフを入力として,KGTransformerを3つの自己教師型タスクで事前訓練する。 本稿では,タスクKGとタスクデータ間の柔軟な相互作用を可能にするために,タスクデータに関する一般的なプロンプトチューニング機構を提案する。 予備訓練したKGTransformerを3つのタスク、トリプル分類、ゼロショット画像分類、質問応答で評価する。 KGTransformerは特別に設計されたタスクモデルよりも優れた結果が得られる。 実験により, 事前学習したKGTransformerは, KG関連タスクにまたがる汎用かつ効果的なKRFモジュールとして, 棚から外れることを正当化した。 コードとデータセットはhttps://github.com/zjukg/kgtransformerで入手できる。

Knowledge graphs (KG) are essential background knowledge providers in many tasks. When designing models for KG-related tasks, one of the key tasks is to devise the Knowledge Representation and Fusion (KRF) module that learns the representation of elements from KGs and fuses them with task representations. While due to the difference of KGs and perspectives to be considered during fusion across tasks, duplicate and ad hoc KRF modules design are conducted among tasks. In this paper, we propose a novel knowledge graph pretraining model KGTransformer that could serve as a uniform KRF module in diverse KG-related tasks. We pretrain KGTransformer with three self-supervised tasks with sampled sub-graphs as input. For utilization, we propose a general prompt-tuning mechanism regarding task data as a triple prompt to allow flexible interactions between task KGs and task data. We evaluate pretrained KGTransformer on three tasks, triple classification, zero-shot image classification, and question answering. KGTransformer consistently achieves better results than specifically designed task models. Through experiments, we justify that the pretrained KGTransformer could be used off the shelf as a general and effective KRF module across KG-related tasks. The code and datasets are available at https://github.com/zjukg/KGTransformer.
翻訳日:2023-03-08 15:02:56 公開日:2023-03-03
# アハラノフ・ボームケージからの相互作用による脱出

Interaction-induced escape from an Aharonov-Bohm cage ( http://arxiv.org/abs/2303.02170v1 )

ライセンス: Link先を確認
Jeronimo G.C. Martinez, Christie S. Chiu, Basil M. Smitham, Andrew A. Houck(参考訳) 量子工学の進歩により、合成凝縮体系の設計、測定、精密制御が可能となった。 超伝導回路のプラットフォームは、様々な格子ジオメトリーを可能にする回路要素の柔軟な接続と、強く相互作用する物理へのアクセスを提供する回路非線形性という2つの機能を提供している。 それとは別に、これらの特徴は曲線空間格子の作成と、強相関位相と1次元鎖と正方格子のダイナミクスの実現を可能にした。 この一連のシミュレーションの欠如は、分散のないフラットバンドのようなユニークなバンド分散を持つ格子への相互作用粒子の同時結合である。 フラットバンド物理学のための理想的なビルディングブロックは、アハラノフ・ボームケージ(Aharonov-Bohm cage)である。 ここでは、アハロノフ・ボームケージを実験的に構築し、全バンドフラット物理学の要点である単一光子の局在を観測する。 相互作用結合した光子対をケージに配置すると、アハラノフ・ボーム・カイジングからの脱出を示す非局在のウォークが現れる。 さらに,ケージの反対側に初期化された2つの粒子に対して,カウジングの変動が持続することがわかった。 これらの結果は、相互作用粒子がアハラノフ-ボームケージを回避し、強い相互作用を持つフラットバンド格子ダイナミクスの研究のために超伝導回路を確立する最初の実験成果である。

Advances in quantum engineering have enabled the design, measurement, and precise control of synthetic condensed matter systems. The platform of superconducting circuits offers two particular capabilities: flexible connectivity of circuit elements that enables a variety of lattice geometries, and circuit nonlinearity that provides access to strongly interacting physics. Separately, these features have allowed for the creation of curved-space lattices and the realization of strongly correlated phases and dynamics in one-dimensional chains and square lattices. Missing in this suite of simulations is the simultaneous integration of interacting particles into lattices with unique band dispersions, such as dispersionless flat bands. An ideal building block for flat-band physics is the Aharonov-Bohm cage: a single plaquette of a lattice whose band structure consists entirely of flat bands. Here, we experimentally construct an Aharonov-Bohm cage and observe the localization of a single photon, the hallmark of all-bands-flat physics. Upon placing an interaction-bound photon pair into the cage, we see a delocalized walk indicating an escape from Aharonov-Bohm caging. We further find that a variation of caging persists for two particles initialized on opposite sites of the cage. These results mark the first experimental work where interacting particles circumvent an Aharonov-Bohm cage and establish superconducting circuits for studies of flat-band-lattice dynamics with strong interactions.
翻訳日:2023-03-07 21:20:25 公開日:2023-03-03
# GML対応知識グラフプラットフォームを目指して

Towards a GML-Enabled Knowledge Graph Platform ( http://arxiv.org/abs/2303.02166v1 )

ライセンス: Link先を確認
Hussein Abdallah, Essam Mansour(参考訳) 本稿では、GML対応SPARQLクエリをサポートするRDFエンジン上のサービスとして、オンデマンドグラフ機械学習(GML)であるKGNetを提案する。 KGNetはタスク固有のサブグラフを識別することで、KG上でGMLモデルのトレーニングを自動化する。 これにより、タスク非関連なKG構造とプロパティを削減し、スケーラビリティと精度を向上させることができる。 KGNetは、KG上でGMLモデルをトレーニングしながら、KGMetaと呼ばれるRDFグラフの形式でトレーニングされたモデルのメタデータを収集し、KGの関連するサブグラフとリンクする。 最後に、トレーニングされたモデルはすべて、SPARQLライクなクエリを通じてアクセス可能である。 私たちはこれをGML対応クエリと呼び、SPARQLMLと呼んでいます。 KGNetは既存のRDFエンジン上にSPARQLMLをサポートし、GMLモデルを使用してKG上でクエリと推論を行う。 KGNetの開発は、タスク固有のサブグラフを識別するためのメタサンプリング、制限時間やメモリ予算などの計算制約を伴うGMLパイプライン自動化、SPARQLMLクエリ最適化など、いくつかの分野で研究機会を提供する。 KGNetはノード分類、リンク予測、セマンティックエンティティマッチングなど、さまざまなGMLタスクをサポートしている。 我々は異なるアプリケーションドメインの2つの実KGを用いてKGNetを評価した。 KGNet全体のトレーニングと比較して、KGNetはトレーニング時間とメモリ使用量を著しく削減し、同等あるいは改善された精度を維持した。 KGNetのソースコードがさらなる研究のために利用可能に

This vision paper proposes KGNet, an on-demand graph machine learning (GML) as a service on top of RDF engines to support GML-enabled SPARQL queries. KGNet automates the training of GML models on a KG by identifying a task-specific subgraph. This helps reduce the task-irrelevant KG structure and properties for better scalability and accuracy. While training a GML model on KG, KGNet collects metadata of trained models in the form of an RDF graph called KGMeta, which is interlinked with the relevant subgraphs in KG. Finally, all trained models are accessible via a SPARQL-like query. We call it a GML-enabled query and refer to it as SPARQLML. KGNet supports SPARQLML on top of existing RDF engines as an interface for querying and inferencing over KGs using GML models. The development of KGNet poses research opportunities in several areas, including meta-sampling for identifying task-specific subgraphs, GML pipeline automation with computational constraints, such as limited time and memory budget, and SPARQLML query optimization. KGNet supports different GML tasks, such as node classification, link prediction, and semantic entity matching. We evaluated KGNet using two real KGs of different application domains. Compared to training on the entire KG, KGNet significantly reduced training time and memory usage while maintaining comparable or improved accuracy. The KGNet source-code is available for further study
翻訳日:2023-03-07 21:20:02 公開日:2023-03-03
# Eryn : ベイズ推論のための多目的サンプリング装置

Eryn : A multi-purpose sampler for Bayesian inference ( http://arxiv.org/abs/2303.02164v1 )

ライセンス: Link先を確認
Nikolaos Karnesis, Michael L. Katz, Natalia Korsakova, Jonathan R. Gair, Nikolaos Stergioulas(参考訳) 近年、ベイズ推論の手法は、検出とキャラクタリゼーションが必要な物理学における多くの異なる問題に広く用いられている。 重力波天文学におけるデータ分析は、そのようなケースの典型例である。 ベイズ推定は、この手法が後続確率分布としてパラメータの表現を提供し、実験測定の精度によって不確かさを知らせるので、非常に成功した。 過去数十年間、様々な問題を解決するために、多くの特定の進歩が提案され、採用されてきた。 本研究では,これらの概念の多くを単一のmcmcパッケージに統合するマルコフ連鎖モンテカルロ(mcmc)アルゴリズムを提案する。 この目的のために、ベイズ推論のためのユーザフレンドリーで多目的なツールボックスである {\tt Eryn} を構築し、単純な推論問題からLISAグローバル適合問題のような超次元MCMCMC法を必要とする大規模モデル変動問題まで、パラメータ推定とモデル選択問題を解くのに利用できる。 本稿では,このサンプルパッケージについて述べるとともに,様々なユースケースでその機能を説明する。

In recent years, methods for Bayesian inference have been widely used in many different problems in physics where detection and characterization are necessary. Data analysis in gravitational-wave astronomy is a prime example of such a case. Bayesian inference has been very successful because this technique provides a representation of the parameters as a posterior probability distribution, with uncertainties informed by the precision of the experimental measurements. During the last couple of decades, many specific advances have been proposed and employed in order to solve a large variety of different problems. In this work, we present a Markov Chain Monte Carlo (MCMC) algorithm that integrates many of those concepts into a single MCMC package. For this purpose, we have built {\tt Eryn}, a user-friendly and multipurpose toolbox for Bayesian inference, which can be utilized for solving parameter estimation and model selection problems, ranging from simple inference questions, to those with large-scale model variation requiring trans-dimensional MCMC methods, like the LISA global fit problem. In this paper, we describe this sampler package and illustrate its capabilities on a variety of use cases.
翻訳日:2023-03-07 21:19:14 公開日:2023-03-03
# 相互作用する2つの極性分子の回転特性:線形、対称、非対称トップ

Rotational properties of two interacting cold polar molecules: linear, symmetric, and asymmetric tops ( http://arxiv.org/abs/2303.02199v1 )

ライセンス: Link先を確認
Felipe Isaule, Robert Bennett, J\"org B. G\"otte(参考訳) 外部直流電界と異方性双極子相互作用の影響下での2つの極性分子の低エネルギースペクトルと双極子モーメントの分極について検討した。 我々は、分子を量子剛性回転子としてモデル化し、それらの回転の自由度を考慮し、線形、対称、非対称トップ分子の選択を考える。 電界の分子間分離と方向を変化させるエネルギースペクトルと双極子の偏光を包括的に検討し、分子の性質が短時間の分離において場の方向に大きく依存していることを発見し、分子回転の計算の重要性を示した。 本結果は, 低温分子の量子計算および分子双極子気体への応用に関する重要な知見を提供する。

We examine the low-energy spectrum and polarisation of the dipole moments of two static polar molecules under the influence of an external dc electric field and their anisotropic dipole-dipole interaction. We model the molecules as quantum rigid rotors to take their rotational degrees of freedom into account, and consider a selection of linear, symmetric and asymmetric top molecules. We provide a comprehensive examination of the energy spectra and polarisation of the dipoles for varying inter-molecular separation and direction of the electric field, and find that the properties of the molecules depend strongly on the field's direction at short separations, showing the importance of accounting for molecular rotation. Our results provide important insight into applications of cold molecules for quantum computation and molecular dipolar gases.
翻訳日:2023-03-07 21:11:51 公開日:2023-03-03
# ソーシャルメディアコーパスにおけるデータ拡張手法の探索

Exploring Data Augmentation Methods on Social Media Corpora ( http://arxiv.org/abs/2303.02198v1 )

ライセンス: Link先を確認
Isabel Garcia Pietri, Kineret Stanley(参考訳) データ拡張はコンピュータビジョンにおいて広く有効であることが証明されている。 自然言語処理(NLP)では、データ拡張は現在も活発な研究領域である。 タスクやモデルアーキテクチャでうまく機能する拡張テクニックは広く受け入れられていません。 本稿では,2つのソーシャルメディアデータセットを用いたテキスト分類におけるデータ拡張手法について検討する。 オーバーサンプリング、簡易データ拡張(Wei and Zou, 2019)、バックトランスレーション(Sennrich et al., 2015)など、一般的なデータ拡張について検討する。 またgreyscalingも検討している。これは比較的未検討のデータ拡張技術で、例でいう形容詞の強度を緩和することを目指している。 最後に、パターン展開トレーニング(pet)(schick et al., 2020)という、数発の学習アプローチを検討する。 実験にはbert transformerアーキテクチャを使用します。 その結果、拡張技術は最小限で一貫性のない改善しか得られないことがわかった。 同義語置換は、いくつかのパフォーマンス改善と形容詞スケールとグレースケーリングの証拠を提供し、さらなる調査が価値のある分野である。 教師付きトレーニングよりも一貫性のある改善が見られた数少ない学習実験では,クラスが容易に分離可能だが,さらなる調査が有望であるように思われる。

Data augmentation has proven widely effective in computer vision. In Natural Language Processing (NLP) data augmentation remains an area of active research. There is no widely accepted augmentation technique that works well across tasks and model architectures. In this paper we explore data augmentation techniques in the context of text classification using two social media datasets. We explore popular varieties of data augmentation, starting with oversampling, Easy Data Augmentation (Wei and Zou, 2019) and Back-Translation (Sennrich et al., 2015). We also consider Greyscaling, a relatively unexplored data augmentation technique that seeks to mitigate the intensity of adjectives in examples. Finally, we consider a few-shot learning approach: Pattern-Exploiting Training (PET) (Schick et al., 2020). For the experiments we use a BERT transformer architecture. Results show that augmentation techniques provide only minimal and inconsistent improvements. Synonym replacement provided evidence of some performance improvement and adjective scales with Grayscaling is an area where further exploration would be valuable. Few-shot learning experiments show consistent improvement over supervised training, and seem very promising when classes are easily separable but further exploration would be valuable.
翻訳日:2023-03-07 21:11:38 公開日:2023-03-03
# R-TOSS:半構造化プルーニングを用いたリアルタイム物体検出フレームワーク

R-TOSS: A Framework for Real-Time Object Detection using Semi-Structured Pruning ( http://arxiv.org/abs/2303.02191v1 )

ライセンス: Link先を確認
Abhishek Balasubramaniam, Febin P Sunny, Sudeep Pasricha(参考訳) 自動運転車で使用される物体検出器は、高いメモリと計算オーバーヘッドを持つ。 本稿では,最先端モデルプルーニング技術の欠点を克服する,r-tossと呼ばれる新しい半構造化プルーニングフレームワークを提案する。 ジェットソンTX2の実験結果によると、R-TOSSはYOLOv5オブジェクト検出器の圧縮速度が4.4倍で、推論時間は2.15倍、エネルギー使用量は57.01%減少している。 R-TOSSはまた、RetinaNet上の2.89倍の圧縮を可能にし、推論時間の1.86倍のスピードアップと56.31%のエネルギー消費を減少させる。 また,最先端のプルーニング技術に比べ,大幅な改善がみられた。

Object detectors used in autonomous vehicles can have high memory and computational overheads. In this paper, we introduce a novel semi-structured pruning framework called R-TOSS that overcomes the shortcomings of state-of-the-art model pruning techniques. Experimental results on the JetsonTX2 show that R-TOSS has a compression rate of 4.4x on the YOLOv5 object detector with a 2.15x speedup in inference time and 57.01% decrease in energy usage. R-TOSS also enables 2.89x compression on RetinaNet with a 1.86x speedup in inference time and 56.31% decrease in energy usage. We also demonstrate significant improvements compared to various state-of-the-art pruning techniques.
翻訳日:2023-03-07 21:11:19 公開日:2023-03-03
# mixvpr: 視覚位置認識のための機能混合

MixVPR: Feature Mixing for Visual Place Recognition ( http://arxiv.org/abs/2303.02190v1 )

ライセンス: Link先を確認
Amar Ali-bey, Brahim Chaib-draa, Philippe Gigu\`ere(参考訳) 視覚位置認識(vpr)は、他のコンピュータビジョンタスクと同様に、モバイルロボットと自動運転の重要な部分である。 コンピュータビジョンのみを用いて、クエリ画像に描かれた場所を識別するプロセスを指す。 大規模では、反復的な構造、天気、照明の変化が真の課題となり、外観は時間とともに劇的に変化する。 これらの課題に取り組むと同時に、レイテンシが問題となる現実のシナリオにおいても、効率的なvprテクニックが実践的に必要となる。 そこで本研究では,事前学習したバックボーンから特徴マップをグローバルな特徴の集合として取り出す,新たな包括的特徴集約手法であるMixVPRを紹介する。 次に、各特徴マップ内の要素間のグローバルな関係を特徴混合のカスケードに組み込んで、NetVLADやTransVPRのように局所的あるいはピラミッド的な集約を不要にする。 複数の大規模ベンチマークで広範な実験を行い,本手法の有効性を示す。 提案手法は,CosPlace や NetVLAD に比べてパラメータ数が半分以下でありながら,既存の手法を大きなマージンで上回っている。 我々は,pits250kテストでは94.6%,mapillaryslsでは88.0%,nordlandでは58.4%という,新記録のhigh recall@1スコアを達成した。 最後に,本手法はpatch-netvlad,transvpr,superglueなどの2段階検索技術よりも桁違いに高速である。 私たちのコードとトレーニングされたモデルは、https://github.com/amaralibey/mixvprで利用可能です。

Visual Place Recognition (VPR) is a crucial part of mobile robotics and autonomous driving as well as other computer vision tasks. It refers to the process of identifying a place depicted in a query image using only computer vision. At large scale, repetitive structures, weather and illumination changes pose a real challenge, as appearances can drastically change over time. Along with tackling these challenges, an efficient VPR technique must also be practical in real-world scenarios where latency matters. To address this, we introduce MixVPR, a new holistic feature aggregation technique that takes feature maps from pre-trained backbones as a set of global features. Then, it incorporates a global relationship between elements in each feature map in a cascade of feature mixing, eliminating the need for local or pyramidal aggregation as done in NetVLAD or TransVPR. We demonstrate the effectiveness of our technique through extensive experiments on multiple large-scale benchmarks. Our method outperforms all existing techniques by a large margin while having less than half the number of parameters compared to CosPlace and NetVLAD. We achieve a new all-time high recall@1 score of 94.6% on Pitts250k-test, 88.0% on MapillarySLS, and more importantly, 58.4% on Nordland. Finally, our method outperforms two-stage retrieval techniques such as Patch-NetVLAD, TransVPR and SuperGLUE all while being orders of magnitude faster. Our code and trained models are available at https://github.com/amaralibey/MixVPR.
翻訳日:2023-03-07 21:11:04 公開日:2023-03-03
# 時間スケール分離による解釈可能な低次モデリング

Interpretable reduced-order modeling with time-scale separation ( http://arxiv.org/abs/2303.02189v1 )

ライセンス: Link先を確認
Sebastian Kaltenbach, Phaedon-Stelios Koutsourelakis and Petros Koumoutsakos(参考訳) 高次元の偏微分方程式(PDE)は計算物理学や工学でよく見られる。 しかし、これらのPDEの解を見つけるには計算コストがかかるため、モデルオーダーの削減が不可欠である。 本稿では,関連する時間スケールの同定を自動化し,トレーニングデータに含まれない異なる初期条件下においても時間内に安定した予測を行うデータ駆動スキームを提案する。 この目的のために、複素空間における潜在力学の時間連続モデルと非線形オートエンコーダアーキテクチャを組み合わせる。 スパースと不規則にサンプリングされたトレーニングデータを容易に含めることができる。 学習された潜在力学は解釈可能であり、関連する異なる時間スケールを明らかにする。 このデータ駆動型スキームは,行列の固有ベクトルに沿って線形 ode の系を分解する独立なプロセスを自動的に学習できることを示す。 これとは別に, 隠れマルコフモデルと(離散化) 倉本-シヴァシンスキー方程式 (ks) における提案フレームワークの適用性を示す。 さらに,予測的不確かさを捉え,決定論的枠組みの結果をさらに改善した確率的バージョンを提案する。

Partial Differential Equations (PDEs) with high dimensionality are commonly encountered in computational physics and engineering. However, finding solutions for these PDEs can be computationally expensive, making model-order reduction crucial. We propose such a data-driven scheme that automates the identification of the time-scales involved and can produce stable predictions forward in time as well as under different initial conditions not included in the training data. To this end, we combine a non-linear autoencoder architecture with a time-continuous model for the latent dynamics in the complex space. It readily allows for the inclusion of sparse and irregularly sampled training data. The learned, latent dynamics are interpretable and reveal the different temporal scales involved. We show that this data-driven scheme can automatically learn the independent processes that decompose a system of linear ODEs along the eigenvectors of the system's matrix. Apart from this, we demonstrate the applicability of the proposed framework in a hidden Markov Model and the (discretized) Kuramoto-Shivashinsky (KS) equation. Additionally, we propose a probabilistic version, which captures predictive uncertainties and further improves upon the results of the deterministic framework.
翻訳日:2023-03-07 21:10:29 公開日:2023-03-03
# 2次元ベーコンソー回路における準対称、スピンガラス秩序、ランダム測定からの臨界

Subsystem symmetry, spin glass order, and criticality from random measurements in a 2D Bacon-Shor circuit ( http://arxiv.org/abs/2303.02187v1 )

ライセンス: Link先を確認
Vaibhav Sharma, Chao-Ming Jian and Erich J Mueller(参考訳) 本研究では,Bacon-Shor誤り訂正符号による2次元計測専用ランダム回路について検討する。 近傍のパウリ XX および ZZ チェック作用素を測る相対確率が変化するため、豊富な位相図が見つかる。 Bacon-Shor符号では、これらのチェックは安定化子と論理演算子の群と可換であり、したがって保存量を表す。 サブシステム対称性として説明され、これらの保存則はX基底とZ基底スピンガラス秩序の間の連続的な相転移をもたらす。 2つの位相は、LXL系の2つのハーフ間の絡み合いエントロピーが、領域法則の対数的違反であるLlnLとしてスケールする臨界点によって分離される。 チェック演算子がサブシステム対称性(およびBacon-Shor符号構造)を破るモデルに一般化する。 確立されたヒューリスティックスと緊張すると、相転移は滑らかな交叉によって置き換えられ、X-およびZ-基底スピンガラスは空間的に共存する。 さらに、位相図の臨界点からサブシステム対称性の線に近づくと、いくつかのスピンガラスオーダーパラメータは不連続に跳躍する。

We study a 2D measurement-only random circuit motivated by the Bacon-Shor error correcting code. We find a rich phase diagram as one varies the relative probabilities of measuring nearest neighbor Pauli XX and ZZ check operators. In the Bacon-Shor code, these checks commute with a group of stabilizer and logical operators, which therefore represent conserved quantities. Described as a subsystem symmetry, these conservation laws lead to a continuous phase transition between an X-basis and Z-basis spin glass order. The two phases are separated by a critical point where the entanglement entropy between two halves of an L X L system scales as L ln L, a logarithmic violation of the area law. We generalize to a model where the check operators break the subsystem symmetries (and the Bacon-Shor code structure). In tension with established heuristics, we find that the phase transition is replaced by a smooth crossover, and the X- and Z-basis spin glass orders spatially coexist. Additionally, if we approach the line of subsystem symmetries away from the critical point in the phase diagram, some spin glass order parameters jump discontinuously
翻訳日:2023-03-07 21:10:02 公開日:2023-03-03
# 因果深層学習

Causal Deep Learning ( http://arxiv.org/abs/2303.02186v1 )

ライセンス: Link先を確認
Jeroen Berrevoets, Krzysztof Kacprzyk, Zhaozhi Qian, Mihaela van der Schaar(参考訳) 因果関係は多くの現実世界の問題を解決する方法を真に変える可能性がある。 しかし、これまでのところ、ほとんどの作業では現実に当てはまらない厳格な仮定が必要だったため、その可能性はほとんど解き放たれています。 この課題に対処し、現実世界の問題を解決するために、私たちは因果関係を考える新しい方法を提案します。 因果的深層学習のための枠組みは,(1)完全あるいは無因果的知識を仮定するよりも不完全な因果的知識を許容する構造的次元,(2)通常無視されるパラメトリック形式を包含するパラメトリック次元,(3)露出時間や時間的構造を明示的に捉えた時間的次元の3次元にまたがる。 これらの次元が組み合わさって、様々な現実世界の問題を(時には不完全な)因果的知識を活用したり、多様な因果的深層学習手法を組み合わせたりすることで前進させることができる。 この新しいフレームワークにより、研究者は既存の作品と体系的に比較できるだけでなく、将来的な研究領域を特定できる。

Causality has the potential to truly transform the way we solve a large number of real-world problems. Yet, so far, its potential remains largely unlocked since most work so far requires strict assumptions which do not hold true in practice. To address this challenge and make progress in solving real-world problems, we propose a new way of thinking about causality - we call this causal deep learning. The framework which we propose for causal deep learning spans three dimensions: (1) a structural dimension, which allows incomplete causal knowledge rather than assuming either full or no causal knowledge; (2) a parametric dimension, which encompasses parametric forms which are typically ignored; and finally, (3) a temporal dimension, which explicitly allows for situations which capture exposure times or temporal structure. Together, these dimensions allow us to make progress on a variety of real-world problems by leveraging (sometimes incomplete) causal knowledge and/or combining diverse causal deep learning methods. This new framework also enables researchers to compare systematically across existing works as well as identify promising research areas which can lead to real-world impact.
翻訳日:2023-03-07 21:09:34 公開日:2023-03-03
# CoRL: システム統合に着目した環境創造と管理

CoRL: Environment Creation and Management Focused on System Integration ( http://arxiv.org/abs/2303.02182v1 )

ライセンス: Link先を確認
Justin D. Merrick, Benjamin K. Heiner, Cameron Long, Brian Stieber, Steve Fierro, Vardaan Gangal, Madison Blake, Joshua Blackburn(参考訳) 既存の強化学習環境ライブラリは、モノリシックな環境クラスを使用し、エージェントの観察やアクション空間を変更するための浅い方法を提供する。 core reinforcement learning library(corl)は、モジュール化され、構成可能で、ハイパーコンフィグレーション可能な環境作成ツールである。 これは、読みやすい設定ファイル、pydantic validator、およびfunctorデザインパターンを使用することで、エージェントの観察、報酬、完了条件を数分で制御できる。 統合経路を使用することで、エージェントを新しいシミュレーション環境で迅速に実装し、迅速な探索を促進し、低忠実度から高忠実度シミュレーションへの移行を可能にする。 ネイティブなマルチエージェント設計とray/rllib(liang et al., 2018)との統合により、エージェントの複雑さと計算能力のスケーラビリティが容易になる。 コードは https://github.com/act3-ace/CoRL で公開されている。

Existing reinforcement learning environment libraries use monolithic environment classes, provide shallow methods for altering agent observation and action spaces, and/or are tied to a specific simulation environment. The Core Reinforcement Learning library (CoRL) is a modular, composable, and hyper-configurable environment creation tool. It allows minute control over agent observations, rewards, and done conditions through the use of easy-to-read configuration files, pydantic validators, and a functor design pattern. Using integration pathways allows agents to be quickly implemented in new simulation environments, encourages rapid exploration, and enables transition of knowledge from low-fidelity to high-fidelity simulations. Natively multi-agent design and integration with Ray/RLLib (Liang et al., 2018) at release allow for easy scalability of agent complexity and computing power. The code is publicly released and available at https://github.com/act3-ace/CoRL.
翻訳日:2023-03-07 21:09:14 公開日:2023-03-03
# 射影単バンドを超える量子幾何学

Quantum geometry beyond projective single bands ( http://arxiv.org/abs/2303.02180v1 )

ライセンス: Link先を確認
Adrien Bouhon, Abigail Timmel, Robert-Jan Slager(参考訳) 過去数年間、トポロジカル絶縁体や半金属の急速な発展により、バンド構造の量子幾何学的特徴に対する関心が復活した。 計量テンソルは単一バンドに対する多くの幾何学的概念と結びついているが、これらの概念をマルチバンドパラダイムに探索することは、新しい分野の関心を約束している。 形式的には、特に退化を特徴とするマルチバンド系は射影空間と関連しており、平帯系の量子幾何学的側面を関連づけることの成功も説明されている。 本稿では,任意の分類空間を表現するためにpl\"ucker埋め込みを含む異なる経路を提案する。$all$ をエンコードする必須のオブジェクトである。このパラダイムにより,プロジェクタやフラットバンド条件を必要としない,容易に管理できるベクトル空間において幾何学的量を直接定量化することができる。 その結果,新しい幾何学的対象を同定し,任意の多バンド系,特に単一フラットバンド極限を超えてメトリクスを定義する方法が確立され,応答理論から量子ボリュームの発見や超流動密度の限界,可能な量子計算まで幅広い文脈に適用可能な汎用ツールが期待できることがわかった。

The past few years have seen a revived interest in quantum geometrical characterizations of band structures due to the rapid development of topological insulators and semi-metals. Although the metric tensor has been connected to many geometrical concepts for single bands, the exploration of these concepts to a multi-band paradigm still promises a new field of interest. Formally, multi-band systems, featuring in particular degeneracies, have been related to projective spaces, explaining also the success of relating quantum geometrical aspects of flat band systems, albeit usually in the single band picture. Here, we propose a different route involving Pl\"ucker embeddings to represent arbitrary classifying spaces, being the essential objects that encode $all$ the relevant topology.This paradigm allows for the quantification of geometrical quantities directly in readily manageable vector spaces that a priori do not involve projectors or the need of flat band conditions. As a result, our findings are shown to pave the way for identifying new geometrical objects and defining metrics in arbitrary multi-band systems, especially beyond the single flatband limit, promising a versatile tool that can be applied in contexts that range from response theories to finding quantum volumes and bounds on superfluid densities as well as possible quantum computations.
翻訳日:2023-03-07 21:08:59 公開日:2023-03-03
# 量子コンピュータ上の高次位相状態の観測

Observation of higher-order topological states on a quantum computer ( http://arxiv.org/abs/2303.02179v1 )

ライセンス: Link先を確認
Jin Ming Koh, Tommy Tai, Ching Hua Lee(参考訳) 超伝導量子プロセッサや超低温原子格子などのプログラム可能な量子シミュレータは、ある日既存の古典的コンピュータを質的に上回る可能性のある創発的な技術が急速に発達していることを示している。 しかし、いくつかのブレークスルーを除けば、現在のノイズの多い中間スケール量子(nisq)デバイスで実行可能な計算応用の範囲は、ゲートエラー、量子デコヒーレンス、高品質の量子ビット数によって依然として著しく制限されている。 本研究では,nisqハードウェアを多次元凝縮体系をシミュレートするのに適したプラットフォームとして位置づける手法を開発した。 量子鎖の指数的に大きなヒルベルト空間を十分に活用することにより、より体系的に量子ゲートに転写できる非局所多体相互作用の観点から高次元モデルを符号化した。 我々は,IBMトランスモンベースの量子コンピュータ上で,最大4次元の高次位相状態を実現することで,我々のアプローチのパワーを実証する。 室内回路の圧縮と誤差軽減技術を用いて, トポロジカルな状態ダイナミクスと保護された中ギャップスペクトルを高精度に測定し, 基準精度の対角化データでベンチマークした。 我々のアプローチで必要となる時間とメモリは、古典的コンピュータの正確な対角化と比較して、システムのサイズと次元に好適にスケールする。

Programmable quantum simulators such as superconducting quantum processors and ultracold atomic lattices represent rapidly developing emergent technology that may one day qualitatively outperform existing classical computers. Yet, apart from a few breakthroughs, the range of viable computational applications with current-day noisy intermediate-scale quantum (NISQ) devices is still significantly limited by gate errors, quantum decoherence and the number of high quality qubits. In this work, we develop an approach that places NISQ hardware as particularly suitable platforms for simulating multi-dimensional condensed matter systems, including lattices beyond three dimensions which are difficult to realize or probe in other settings. By fully exploiting the exponentially large Hilbert space of a quantum chain, we encoded a high-dimensional model in terms of non-local many-body interactions that can further be systematically transcribed into quantum gates. We demonstrate the power of our approach by realizing, on IBM transmon-based quantum computers, higher-order topological states in up to four dimensions, which are exotic phases that have never been realized in any quantum setting. With the aid of in-house circuit compression and error mitigation techniques, we measured the topological state dynamics and their protected midgap spectra to a high degree of accuracy, as benchmarked by reference exact diagonalization data. The time and memory needed with our approach scales favorably with system size and dimensionality compared to exact diagonalization on classical computers.
翻訳日:2023-03-07 21:08:38 公開日:2023-03-03
# NSGA-PINN:物理インフォームドニューラルネットワークトレーニングのための多目的最適化手法

NSGA-PINN: A Multi-Objective Optimization Method for Physics-Informed Neural Network Training ( http://arxiv.org/abs/2303.02219v1 )

ライセンス: Link先を確認
Binghang Lu, Christian B. Moya and Guang Lin(参考訳) 本稿では,物理情報ニューラルネットワーク(PINN)を効果的に学習するための多目的最適化フレームワークNSGA-PINNを提案する。 提案手法は,非支配的ソーティング遺伝的アルゴリズム (NSGA-II) を用いて,従来の確率勾配最適化アルゴリズム (ADAM) を用いて局所最小化を効果的に回避する。 さらに、NSGA-IIアルゴリズムは、物理インフォームドトレーニング中に損失関数に符号化された初期条件と境界条件を満たすことができる。 NSGA-PINNをいくつかの常微分方程式および偏微分方程式問題に適用することにより,本フレームワークの有効性を示す。 特に,提案手法はノイズの多いデータによる逆問題に対処可能であることを示す。

This paper presents NSGA-PINN, a multi-objective optimization framework for effective training of Physics-Informed Neural Networks (PINNs). The proposed framework uses the Non-dominated Sorting Genetic Algorithm (NSGA-II) to enable traditional stochastic gradient optimization algorithms (e.g., ADAM) to escape local minima effectively. Additionally, the NSGA-II algorithm enables satisfying the initial and boundary conditions encoded into the loss function during physics-informed training precisely. We demonstrate the effectiveness of our framework by applying NSGA-PINN to several ordinary and partial differential equation problems. In particular, we show that the proposed framework can handle challenging inverse problems with noisy data.
翻訳日:2023-03-07 21:01:44 公開日:2023-03-03
# 精度・伝達性ニューラルポテンシャルのための非平衡分子のDenoise事前学習

Denoise Pre-training on Non-equilibrium Molecules for Accurate and Transferable Neural Potentials ( http://arxiv.org/abs/2303.02216v1 )

ライセンス: Link先を確認
Yuyang Wang, Changwen Xu, Zijie Li, Amir Barati Farimani(参考訳) 機械学習手法、特に近年の同変グラフニューラルネットワーク(GNN)の進歩は、分子ポテンシャル予測のための高価な初期量子力学(QM)アプローチの代理モデルとして研究されている。 しかしながら、gnnを用いた正確で転送可能なポテンシャルモデルの構築は、qm計算、特に大規模で複雑な分子システムによって、データの品質と量が大幅に制限されるため、依然として困難である。 本研究では,非平衡分子配座の事前学習により,より正確かつ伝達可能なGNNポテンシャル予測を実現することを提案する。 具体的には、サンプル非平衡配向の原子座標に付加されるランダムノイズを予測することにより、GNNを事前訓練する。 複数のベンチマークでの厳密な実験は、事前学習が神経電位の精度を大幅に向上させることを示した。 さらに,提案手法がモデルに依存せず,異なる不変量および同変量gnnの性能を向上させることを示した。 特に,小分子で事前学習したモデルでは,異種分子,荷電分子,生体分子,大型分子を含む多種多様な分子系の微調整による性能向上が期待できる。 これらの結果は、複雑な分子系に対してより一般化可能な神経電位を構築するために、denoise pre-trainingアプローチを活用する可能性を強調している。

Machine learning methods, particularly recent advances in equivariant graph neural networks (GNNs), have been investigated as surrogate models to expensive ab initio quantum mechanics (QM) approaches for molecular potential predictions. However, building accurate and transferable potential models using GNNs remains challenging, as the quality and quantity of data are greatly limited by QM calculations, especially for large and complex molecular systems. In this work, we propose denoise pre-training on non-equilibrium molecular conformations to achieve more accurate and transferable GNN potential predictions. Specifically, GNNs are pre-trained by predicting the random noises added to atomic coordinates of sampled non-equilibrium conformations. Rigorous experiments on multiple benchmarks reveal that pre-training significantly improves the accuracy of neural potentials. Furthermore, we show that the proposed pre-training approach is model-agnostic, as it improves the performance of different invariant and equivariant GNNs. Notably, our models pre-trained on small molecules demonstrate remarkable transferability, improving performance when fine-tuned on diverse molecular systems, including different elements, charged molecules, biomolecules, and larger systems. These results highlight the potential for leveraging denoise pre-training approaches to build more generalizable neural potentials for complex molecular systems.
翻訳日:2023-03-07 21:01:31 公開日:2023-03-03
# 組み込みおよびiotプラットフォームにおける機械学習の敵対的攻撃

Adversarial Attacks on Machine Learning in Embedded and IoT Platforms ( http://arxiv.org/abs/2303.02214v1 )

ライセンス: Link先を確認
Christian Westbrook, Sudeep Pasricha(参考訳) 機械学習(ml)アルゴリズムは、私たちを取り囲む組み込みおよびiotシステムにますます統合され、敵の攻撃に弱い。 これらのMLアルゴリズムをリソース限定の組み込みプラットフォームにデプロイするには、モデル圧縮技術を使用する必要がある。 このようなモデル圧縮技術がMLの対向ロバスト性に及ぼす影響は、重要かつ新たな研究分野である。 本稿では、組み込みシステムに関連する敵攻撃とMLモデル圧縮技術の展望について概説する。 次に、この領域のオープンな問題を議論する前に、敵攻撃とMLモデル圧縮の関係を理解するための取り組みについて述べる。

Machine learning (ML) algorithms are increasingly being integrated into embedded and IoT systems that surround us, and they are vulnerable to adversarial attacks. The deployment of these ML algorithms on resource-limited embedded platforms also requires the use of model compression techniques. The impact of such model compression techniques on adversarial robustness in ML is an important and emerging area of research. This article provides an overview of the landscape of adversarial attacks and ML model compression techniques relevant to embedded systems. We then describe efforts that seek to understand the relationship between adversarial attacks and ML model compression before discussing open problems in this area.
翻訳日:2023-03-07 21:01:08 公開日:2023-03-03
# 連合学習におけるバックドア攻撃と防衛--調査・課題・今後の研究方向

Backdoor Attacks and Defenses in Federated Learning: Survey, Challenges and Future Research Directions ( http://arxiv.org/abs/2303.02213v1 )

ライセンス: Link先を確認
Thuy Dung Nguyen, Tuan Nguyen, Phi Le Nguyen, Hieu H. Pham, Khoa Doan, Kok-Seng Wong(参考訳) Federated Learning(FL)は、個人のプライバシーを損なうことなく分散データを使用することが可能な機械学習(ML)アプローチである。 しかしながら、fl内のクライアント間でデータの異種分散は、オーケストレーションサーバがローカルモデル更新の完全性を検証するのを難しくし、バックドア攻撃を含む様々な脅威に対してflを脆弱にする。 バックドア攻撃は、悪意のあるクライアントからの有害なアップデートを通じて、ターゲットモデルに悪意のある機能を挿入することを含む。 これらの攻撃により、グローバルモデルが特定の入力を誤用し、他のケースでは正常に現れる可能性がある。 バックドア攻撃は、現実世界のディープラーニングアプリケーションに影響を与える可能性があるため、文献において大きな注目を集めている。 しかし、FLの文脈では十分に研究されていない。 本稿では,flにおける現在のバックドア攻撃戦略と防御の包括的調査と,異なるアプローチの包括的分析について述べる。 また、FLの文脈における攻撃・防衛の課題と今後の方向性についても論じる。

Federated learning (FL) is a machine learning (ML) approach that allows the use of distributed data without compromising personal privacy. However, the heterogeneous distribution of data among clients in FL can make it difficult for the orchestration server to validate the integrity of local model updates, making FL vulnerable to various threats, including backdoor attacks. Backdoor attacks involve the insertion of malicious functionality into a targeted model through poisoned updates from malicious clients. These attacks can cause the global model to misbehave on specific inputs while appearing normal in other cases. Backdoor attacks have received significant attention in the literature due to their potential to impact real-world deep learning applications. However, they have not been thoroughly studied in the context of FL. In this survey, we provide a comprehensive survey of current backdoor attack strategies and defenses in FL, including a comprehensive analysis of different approaches. We also discuss the challenges and potential future directions for attacks and defenses in the context of FL.
翻訳日:2023-03-07 21:00:59 公開日:2023-03-03
# 物理的正当化周波数カットオフによる簡易かつ厳密な自然放射率導出

Simple and rigorous spontaneous emission rate derivation with a physically justified frequency cutoff ( http://arxiv.org/abs/2303.02212v1 )

ライセンス: Link先を確認
Wojciech G\'orecki(参考訳) 自然発生率の式を導出する際、典型的な教科書はしばしば物理的に動機づけられるが数学的に不当な(時には矛盾する)近似を用いる。 周波数スペクトル全体に適用される一般的な双極子近似は、導出において発散積分の出現をもたらす。 文献から、原子の有限サイズで正当化された周波数カットオフの導入により、この問題が解決されることが知られている。 実践的な目的のために、Weisskopf-Wigner自然放出式を厳密に再帰できる数学的に単純なカットオフを導入する。 重要なのは、これは計算を容易にする数学的トリックではなく、物理的なシステムの実際の特徴と関係しており、その無視は矛盾を招きます。

In deriving the formula for spontaneous emission rate, typical textbooks often use physically motivated but mathematically unjustified (and sometimes even contradictory) approximations. The commonly used dipole approximation applied to the entire frequency spectrum results in the appearance of divergent integrals in the derivations. It is known from the literature that the introduction of cutoff for frequencies, justified by the finite size of the atom, may solve this problem. For didactic purposes, we introduce a mathematically simple cutoff, which allows for a rigorous rederivation of Weisskopf-Wigner spontaneous emission formula. Importantly, this is not a mathematical trick to make calculations easier but is related to a real feature of the physical system, the neglect of which leads to inconsistency.
翻訳日:2023-03-07 21:00:43 公開日:2023-03-03
# 短期量子コンピュータにおけるフロケ物理の大規模シミュレーション

Large-scale simulations of Floquet physics on near-term quantum computers ( http://arxiv.org/abs/2303.02209v1 )

ライセンス: Link先を確認
Timo Eckstein, Refik Mansuroglu, Piotr Czarnik, Jian-Xin Zhu, Michael J. Hartmann, Lukasz Cincio, Andrew T. Sornborger and Zo\"e Holmes(参考訳) 周期運転の対象となる量子システムは、基本的および技術的両方の現象の集合を示す。 しかし、そのような力学系は平衡系よりも古典的にシミュレートするのが難しい。 本稿では,量子ハードウェア上で高速駆動フロッケ系のダイナミクスをシミュレーションする手法として,量子高周波フロッケシミュレーション(qhiffs)アルゴリズムを提案する。 qhiffs の中心はキック作用素の概念であり、力学が時間に依存しない実効ハミルトニアンによって支配される基礎へとシステム変換する。 これにより、時間に依存しないハミルトニアンシミュレーションの事前手法をフロッケ系のシミュレーションに持ち上げることができる。 bnnni(周期駆動二軸次ネアレスト近傍イジング)モデルを用いたアルゴリズムの事例研究を行った。 このoft-studiedモデルは、量子フラストレーション磁性と臨界性のための自然なテストベッドである。 量子量子量子コンピュータ上で駆動する2次元bnnniモデルの20量子ビットシミュレーションを成功させた。 これはQHiFFSアルゴリズムの誤りの解析と補完する。 我々の研究は、アルゴリズムが計算周波数$\omega$の立方体スケーリングの利点を示すだけでなく、シミュレーション時間$t$での線形スケーリングの利点を示すことを示している。

Quantum systems subject to periodic driving exhibit a diverse set of phenomena both of fundamental and technological interest. However, such dynamical systems are more challenging to simulate classically than their equilibrium counterparts. Here, we introduce the Quantum High Frequency Floquet Simulation (QHiFFS) algorithm as a method for simulating the dynamics of fast-driven Floquet systems on quantum hardware. Central to QHiFFS is the concept of a kick operator which transforms the system into a basis where the dynamics is governed by a time-independent effective Hamiltonian. This allows prior methods for time-independent Hamiltonian simulation to be lifted to the simulation of Floquet systems. We use the periodically driven biaxial next-nearest neighbor Ising (BNNNI) model as a case study to illustrate our algorithm. This oft-studied model is a natural test bed for quantum frustrated magnetism and criticality. We successfully implemented a 20-qubit simulation of the driven two-dimensional BNNNI model on Quantinuum's trapped ion quantum computer. This is complemented with an analysis of QHiFFS algorithmic errors. Our study indicates that the algorithm exhibits not only a cubic scaling advantage in driving frequency $\omega$ but also a linear one in simulation time $t$ compared to Trotterisation, making it an interesting avenue to push towards near-term quantum advantage.
翻訳日:2023-03-07 21:00:29 公開日:2023-03-03
# 軽量・不確かさを意識したコンフォーマル化視覚計測

Lightweight, Uncertainty-Aware Conformalized Visual Odometry ( http://arxiv.org/abs/2303.02207v1 )

ライセンス: Link先を確認
Alex C. Stutts, Danilo Erricolo, Theja Tulabandhula, Amit Ranjan Trivedi(参考訳) データ駆動ビジュアルオドメトリ(vo)は自律エッジロボットにとって重要なサブルーチンであり、この分野の最近の進歩は複雑な環境での高精度なポイント予測を生み出している。 しかし、昆虫サイズのドローンや手術ロボットのような自律エッジロボットデバイスは、voの予測の不確実性を推定する計算効率のよい枠組みを欠いている。 一方、エッジ・ロボティクスはミッションクリティカルなアプリケーション分野に拡大し続けており、モデルの予測の不確実性に対する認識がリスクを意識する意思決定に不可欠になっている。 本稿では,共形推論(CI)を利用してVOの不確実帯を抽出する,新しい,軽量で統計的に堅牢なフレームワークを提案する。 提案手法は,姿勢推定のあらゆる自由度 (dof) における基礎的真理の包含を平均的に保証する,柔軟性,適応性,調整可能な予測間隔を用いた不確実性を表す。 本稿では,多変量不確かさ帯域を推定するための生成深部ニューラルネットワークのアーキテクチャと点(平均)予測について論じる。 また,データ拡張にモンテカルロドロップアウト(MCドロップアウト)を活用するなど,不確実性推定精度を向上させる手法を提案する。 最後に,不確実性認識学習を改善するために,区間スコアとキャリブレーションロスと,従来のトレーニング指標-平均二乗誤差とkl-divergenceを組み合わせた新しいトレーニング損失関数を提案する。 シミュレーションの結果,提案フレームワークは,様々なデータセット,推定モデル,適用ノイズタイプにわたるポーズ推定における真の不確かさを一貫して把握し,その適用可能性を示している。

Data-driven visual odometry (VO) is a critical subroutine for autonomous edge robotics, and recent progress in the field has produced highly accurate point predictions in complex environments. However, emerging autonomous edge robotics devices like insect-scale drones and surgical robots lack a computationally efficient framework to estimate VO's predictive uncertainties. Meanwhile, as edge robotics continue to proliferate into mission-critical application spaces, awareness of model's the predictive uncertainties has become crucial for risk-aware decision-making. This paper addresses this challenge by presenting a novel, lightweight, and statistically robust framework that leverages conformal inference (CI) to extract VO's uncertainty bands. Our approach represents the uncertainties using flexible, adaptable, and adjustable prediction intervals that, on average, guarantee the inclusion of the ground truth across all degrees of freedom (DOF) of pose estimation. We discuss the architectures of generative deep neural networks for estimating multivariate uncertainty bands along with point (mean) prediction. We also present techniques to improve the uncertainty estimation accuracy, such as leveraging Monte Carlo dropout (MC-dropout) for data augmentation. Finally, we propose a novel training loss function that combines interval scoring and calibration loss with traditional training metrics--mean-squared error and KL-divergence--to improve uncertainty-aware learning. Our simulation results demonstrate that the presented framework consistently captures true uncertainty in pose estimations across different datasets, estimation models, and applied noise types, indicating its wide applicability.
翻訳日:2023-03-07 21:00:09 公開日:2023-03-03
# 論理プログラミングと言語モデルを用いた知識グラフに関する質問に答える

Answering Questions Over Knowledge Graphs Using Logic Programming Along with Language Models ( http://arxiv.org/abs/2303.02206v1 )

ライセンス: Link先を確認
Navid Madani, Kenneth Joseph(参考訳) 知識グラフ (KGQA, Question Answering over Knowledge Graphs) は、知識グラフ (KG) 上で自然言語の質問に答えるタスクである。 このタスクは、正しい答えに到達するために、KGの複数のエッジを推論するモデルを必要とする。 本研究では,従来の論理型言語に大型言語モデル(LLM)を組み込むことにより,この問題に対する説明可能な解決策を提供する。 私たちのゴールは、Prologクエリの形式で質問の表現を抽出し、クエリをプログラムで答えることです。 このアプローチの有効性を示すために、MetaQAデータセットを使用し、テストデータセットのすべての質問に対する正しい回答エンティティを見つけることを示す。

Question Answering over Knowledge Graphs (KGQA) is the task of answering natural language questions over a knowledge graph (KG). This task requires a model to reason over multiple edges of the KG to reach the right answer. In this work, we present a method to equip large language models (LLMs) with classic logical programming languages to provide an explainable solution to the problem. Our goal is to extract the representation of the question in the form of a Prolog query, which can then be used to answer the query programmatically. To demonstrate the effectiveness of this approach, we use the MetaQA dataset and show that our method finds the correct answer entities for all the questions in the test dataset.
翻訳日:2023-03-07 20:59:42 公開日:2023-03-03
# ナレッジグラフを用いたlinked data science

Linked Data Science Powered by Knowledge Graphs ( http://arxiv.org/abs/2303.02204v1 )

ライセンス: Link先を確認
Mossad Helali, Shubham Vashisth, Philippe Carrier, Katja Hose, Essam Mansour(参考訳) 近年では、学界だけでなく、特に大量のデータを分析するためにデータサイエンスプラットフォームに投資している企業からも、データサイエンスへの関心が高まっている。 このプロセスでは、データセットやパイプラインスクリプトといった、無数のデータサイエンスアーティファクトが作成されます。 しかし、これらのパイプラインの仕様に暗黙的に含まれている知識や経験(例えば、互換性のあるデータセット、クリーン化ステップ、mlアルゴリズム、パラメータなど)を体系的に活用する試みは、今のところ行われていない。 代わりに、データサイエンティストは、関係のある情報や同僚の体験、試行錯誤、長い探査などを取り戻すために、かなりの時間を費やしています。 そこで本稿では,機械学習を用いてデータサイエンスパイプラインのセマンティクスを抽出し,それを知識グラフに取り込み,さまざまな方法でデータサイエンティストを支援するスケーラブルなシステム(KGLiDS)を提案する。 この抽象化がLinked Data Scienceを実現する鍵となるのは,プラットフォームや企業,機関間で,重要な内部情報を公開することなく,処理対象と処理方法のセマンティクスを重視することなく,パイプラインの本質を共有可能にするからです。 包括的評価では,データ探索ベンチマークとKaggleポータルから抽出された数千のデータセットと13万以上のパイプラインスクリプトを使用し,データセットレコメンデーションやパイプライン分類といった関連するタスクにおいて,KGLiDSが最先端システムを大幅に上回っていることを示す。

In recent years, we have witnessed a growing interest in data science not only from academia but particularly from companies investing in data science platforms to analyze large amounts of data. In this process, a myriad of data science artifacts, such as datasets and pipeline scripts, are created. Yet, there has so far been no systematic attempt to holistically exploit the collected knowledge and experiences that are implicitly contained in the specification of these pipelines, e.g., compatible datasets, cleansing steps, ML algorithms, parameters, etc. Instead, data scientists still spend a considerable amount of their time trying to recover relevant information and experiences from colleagues, trial and error, lengthy exploration, etc. In this paper, we, therefore, propose a scalable system (KGLiDS) that employs machine learning to extract the semantics of data science pipelines and captures them in a knowledge graph, which can then be exploited to assist data scientists in various ways. This abstraction is the key to enabling Linked Data Science since it allows us to share the essence of pipelines between platforms, companies, and institutions without revealing critical internal information and instead focusing on the semantics of what is being processed and how. Our comprehensive evaluation uses thousands of datasets and more than thirteen thousand pipeline scripts extracted from data discovery benchmarks and the Kaggle portal and shows that KGLiDS significantly outperforms state-of-the-art systems on related tasks, such as dataset recommendation and pipeline classification.
翻訳日:2023-03-07 20:59:29 公開日:2023-03-03
# X$3$KD:マルチカメラ3Dオブジェクト検出のためのモーダリティ,タスク,ステージ間の知識蒸留

X$^3$KD: Knowledge Distillation Across Modalities, Tasks and Stages for Multi-Camera 3D Object Detection ( http://arxiv.org/abs/2303.02203v1 )

ライセンス: Link先を確認
Marvin Klingner, Shubhankar Borse, Varun Ravi Kumar, Behnaz Rezaei, Venkatraman Narayanan, Senthil Yogamani, Fatih Porikli(参考訳) 近年の3Dオブジェクト検出技術(3DOD)は,LiDARモデルにおいて極めて強力な結果を得ている。 対照的に、複数のカメラ画像に基づくサラウンドビュー3DODモデルは、視界ビュー(PV)から3次元世界表現への必要な視点変換により、不明瞭な深度情報により、性能が低下する。 本稿では,マルチカメラ用3dodの異なるモード,タスク,ステージにまたがる包括的知識蒸留フレームワークであるx$^3$kdについて紹介する。 具体的には、PV特徴抽出段階におけるインスタンスセグメンテーション教師(X-IS)からのクロスタスク蒸留を提案し、ビュー変換による曖昧なエラーバックプロパゲーションを伴わずに監督する。 変換後,lidarベースの3dod教師に含まれる情報を通じて,マルチカメラ特徴の3次元表現を改善するために,クロスモーダル特徴蒸留(x-fd)と敵対的訓練(x-at)を適用した。 最後に, この教師をクロスモーダル出力蒸留 (X-OD) に利用し, 予測段階での集中管理を行う。 マルチカメラ3DODの異なる段階で知識蒸留を広範囲に行う。 我々の最終X$3$KDモデルは、nuScenesとWaymoデータセットの最先端アプローチより優れ、RADARベースの3DODに一般化します。 ビデオはhttps://youtu.be/1do9DPFmr38。

Recent advances in 3D object detection (3DOD) have obtained remarkably strong results for LiDAR-based models. In contrast, surround-view 3DOD models based on multiple camera images underperform due to the necessary view transformation of features from perspective view (PV) to a 3D world representation which is ambiguous due to missing depth information. This paper introduces X$^3$KD, a comprehensive knowledge distillation framework across different modalities, tasks, and stages for multi-camera 3DOD. Specifically, we propose cross-task distillation from an instance segmentation teacher (X-IS) in the PV feature extraction stage providing supervision without ambiguous error backpropagation through the view transformation. After the transformation, we apply cross-modal feature distillation (X-FD) and adversarial training (X-AT) to improve the 3D world representation of multi-camera features through the information contained in a LiDAR-based 3DOD teacher. Finally, we also employ this teacher for cross-modal output distillation (X-OD), providing dense supervision at the prediction stage. We perform extensive ablations of knowledge distillation at different stages of multi-camera 3DOD. Our final X$^3$KD model outperforms previous state-of-the-art approaches on the nuScenes and Waymo datasets and generalizes to RADAR-based 3DOD. Qualitative results video at https://youtu.be/1do9DPFmr38.
翻訳日:2023-03-07 20:59:00 公開日:2023-03-03
# 認定ロバストニューラルネットワーク:一般化と破壊耐性

Certified Robust Neural Networks: Generalization and Corruption Resistance ( http://arxiv.org/abs/2303.02251v1 )

ライセンス: Link先を確認
Amine Bennouna, Ryan Lucas, Bart Van Parys(参考訳) adversarial trainingは、現代のニューラルネットワークが抱える脆弱性を小さなデータ摂動に軽減することを目的としている。 驚いたことに、オーバーフィッティングは通常のトレーニングにはほとんど欠如しているものの、ニューラルネットワークの敵対的なトレーニングにおいて大きな関心事である。 この特異な ‘robust overfitting'' 現象の理論的証拠を提供する。 その後,理論上および実証的に両立する新たな損失関数を前進させ,データの回避や毒殺攻撃に対する強固性が保証され,一般化が保証されるようにした。 提案手法は, 対向誤差損失の点から総合的ロバスト(HR)訓練によりSOTA性能が向上することを示す。 最後に, 人事訓練は対人訓練の直接的な拡張と解釈でき, 計算負荷が無視できることを示す。

Adversarial training aims to reduce the problematic susceptibility of modern neural networks to small data perturbations. Surprisingly, overfitting is a major concern in adversarial training of neural networks despite being mostly absent in standard training. We provide here theoretical evidence for this peculiar ``robust overfitting'' phenomenon. Subsequently, we advance a novel loss function which we show both theoretically as well as empirically to enjoy a certified level of robustness against data evasion and poisoning attacks while ensuring guaranteed generalization. We indicate through careful numerical experiments that our resulting holistic robust (HR) training procedure yields SOTA performance in terms of adversarial error loss. Finally, we indicate that HR training can be interpreted as a direct extension of adversarial training and comes with a negligible additional computational burden.
翻訳日:2023-03-07 20:52:38 公開日:2023-03-03
# 低リソース医用画像解析のための自己教師あり表現学習の検討

Exploring Self-Supervised Representation Learning For Low-Resource Medical Image Analysis ( http://arxiv.org/abs/2303.02245v1 )

ライセンス: Link先を確認
Soumitri Chattopadhyay, Soham Ganguly, Sreejit Chaudhury, Sayan Nag, Samiran Chattopadhyay(参考訳) 自己教師付き学習(SSL)の成功の大部分は、ラベルのない大規模なデータセットが利用可能であることによるものだ。 しかし、自然画像とは大きく異なる医療画像のような専門領域では、データ可用性の仮定は非現実的で非現実的であり、データそのものはスカンディティであり、特定の予後のタスクのために収集された小さなデータベースに含まれている。 そこで我々は,小規模医用画像データセットにおける自己教師付き学習アルゴリズムの適用性を検討する。 特に,公開アクセス可能な3つの医療画像データセットに対して,最先端SSL手法を4ドルで評価した。 我々の調査によると、ドメイン内の低リソースSSL事前トレーニングは、大規模なデータセット(ImageNetなど)から学習を転送する際の競合的な性能をもたらす。 さらに,大規模画像コーパスにおける事前学習の必要性を回避するためのさらなる研究に資する貴重な洞察を提供するために,経験的知見を広範囲に分析した。 われわれの知る限りでは、これは低リソースの医療データセットの自己超越性を探究する最初の試みである。

The success of self-supervised learning (SSL) has mostly been attributed to the availability of unlabeled yet large-scale datasets. However, in a specialized domain such as medical imaging which is a lot different from natural images, the assumption of data availability is unrealistic and impractical, as the data itself is scanty and found in small databases, collected for specific prognosis tasks. To this end, we seek to investigate the applicability of self-supervised learning algorithms on small-scale medical imaging datasets. In particular, we evaluate $4$ state-of-the-art SSL methods on three publicly accessible \emph{small} medical imaging datasets. Our investigation reveals that in-domain low-resource SSL pre-training can yield competitive performance to transfer learning from large-scale datasets (such as ImageNet). Furthermore, we extensively analyse our empirical findings to provide valuable insights that can motivate for further research towards circumventing the need for pre-training on a large image corpus. To the best of our knowledge, this is the first attempt to holistically explore self-supervision on low-resource medical datasets.
翻訳日:2023-03-07 20:52:26 公開日:2023-03-03
# リカレントニューラルネットワークを用いた動的システムの長期統合のためのニューラルネットワーク学習

Neural Operator Learning for Long-Time Integration in Dynamical Systems with Recurrent Neural Networks ( http://arxiv.org/abs/2303.02243v1 )

ライセンス: Link先を確認
Katarzyna Micha{\l}owska and Somdatta Goswami and George Em Karniadakis and Signe Riemer-S{\o}rensen(参考訳) ディープニューラルネットワークは複雑な力学系をシミュレートする魅力的な代替手段であり、従来の科学計算法と比較すると、推論中に計算コストを削減し、観測データから直接訓練することができる。 しかし、既存のメソッドは正確な外挿はできず、長期間の統合ではエラーの蓄積が起こりやすい。 本稿では、ニューラル演算子とリカレントニューラルネットワークを組み合わせることで、新しい効率的なアーキテクチャを構築することでこの問題に対処する。 新しいハイブリッドモデルは、時間的依存関係をキャプチャする繰り返し構造を提供しながら、オペレータ学習に基づいている。 統合されたフレームワークは解を安定化し、コルテヴェーグ・ド・ブリーズ方程式の補間と外挿の両方の誤差蓄積を低減する。

Deep neural networks are an attractive alternative for simulating complex dynamical systems, as in comparison to traditional scientific computing methods, they offer reduced computational costs during inference and can be trained directly from observational data. Existing methods, however, cannot extrapolate accurately and are prone to error accumulation in long-time integration. Herein, we address this issue by combining neural operators with recurrent neural networks to construct a novel and effective architecture, resulting in superior accuracy compared to the state-of-the-art. The new hybrid model is based on operator learning while offering a recurrent structure to capture temporal dependencies. The integrated framework is shown to stabilize the solution and reduce error accumulation for both interpolation and extrapolation of the Korteweg-de Vries equation.
翻訳日:2023-03-07 20:52:08 公開日:2023-03-03
# TrojText: テストタイムで見えないテキストトロイの木馬のインサーション

TrojText: Test-time Invisible Textual Trojan Insertion ( http://arxiv.org/abs/2303.02242v1 )

ライセンス: Link先を確認
Yepeng Liu, Bo Feng, Qian Lou(参考訳) 自然言語処理(NLP)では、インテリジェントニューロンモデルはテキストトロイの木馬攻撃の影響を受けやすい。 このような攻撃はTrojanモデルが通常の入力に対して正常に振る舞うが、特定のトリガを含む入力に対して悪意のある出力を生成するときに発生する。 目に見えない構文構造トリガーは、検出や防御が難しいため、トロイの木馬攻撃で人気が高まっている。 しかし、これらの攻撃はトロイの木馬の挿入に必要な構文構造を持つ有毒なサンプルを生成するために大量の訓練データを必要とする。 このようなデータを取得することは攻撃者にとって困難であり、構文的な毒のトリガーを生成し、トロイの木馬を挿入するプロセスは時間がかかる。 本稿では,学習データなしでより効率的かつ費用対効果の高いテキスト・トロイの木版攻撃が可能かどうかを判定するTrojTextという手法を提案する。 提案手法はRepresentation-Logit Trojan Insertion (RLI)アルゴリズムと呼ばれ、大規模なトレーニングデータの代わりにより小さなサンプルデータを用いて、望ましい攻撃を実現する。 また,累積勾配ランキング(AGR)とTWP(Trojan Weights Pruning)という2つの手法を導入し,調整パラメータの数と攻撃オーバーヘッドを削減する。 TrojTextアプローチは、3つのNLPモデル(BERT, XLNet, DeBERTa)を用いて、3つのデータセット(AG's News, SST-2, OLID)で評価した。 実験により、TrojTextアプローチは、AGのNewsデータセットのBERTモデルのターゲットクラスにおけるテスト文の98.35\%の分類精度を達成した。 TrojTextのソースコードはhttps://github.com/UCF-ML-Research/TrojTextで入手できる。

In Natural Language Processing (NLP), intelligent neuron models can be susceptible to textual Trojan attacks. Such attacks occur when Trojan models behave normally for standard inputs but generate malicious output for inputs that contain a specific trigger. Syntactic-structure triggers, which are invisible, are becoming more popular for Trojan attacks because they are difficult to detect and defend against. However, these types of attacks require a large corpus of training data to generate poisoned samples with the necessary syntactic structures for Trojan insertion. Obtaining such data can be difficult for attackers, and the process of generating syntactic poisoned triggers and inserting Trojans can be time-consuming. This paper proposes a solution called TrojText, which aims to determine whether invisible textual Trojan attacks can be performed more efficiently and cost-effectively without training data. The proposed approach, called the Representation-Logit Trojan Insertion (RLI) algorithm, uses smaller sampled test data instead of large training data to achieve the desired attack. The paper also introduces two additional techniques, namely the accumulated gradient ranking (AGR) and Trojan Weights Pruning (TWP), to reduce the number of tuned parameters and the attack overhead. The TrojText approach was evaluated on three datasets (AG's News, SST-2, and OLID) using three NLP models (BERT, XLNet, and DeBERTa). The experiments demonstrated that the TrojText approach achieved a 98.35\% classification accuracy for test sentences in the target class on the BERT model for the AG's News dataset. The source code for TrojText is available at https://github.com/UCF-ML-Research/TrojText.
翻訳日:2023-03-07 20:51:56 公開日:2023-03-03
# 組織病理データを用いた不変学習のための最適トランスポートを用いた領域適応

Domain adaptation using optimal transport for invariant learning using histopathology datasets ( http://arxiv.org/abs/2303.02241v1 )

ライセンス: Link先を確認
Kianoush Falahkheirkhah, Alex Lu, David Alvarez-Melis, Grace Huynh(参考訳) 病理組織学は癌を含む多くの疾患の診断に重要である。 これらのプロトコルは通常、顕微鏡の下のスライドを手動で評価する必要があるが、それは時間がかかり、主観的であり、分析を自動化する機械学習への関心がもたらされる。 しかし、計算技術はバッチ効果によって制限され、準備プロトコルやスキャナの相違などの技術的な要因がスライドの外観を変化させ、ある機関で訓練されたモデルを他の機関に一般化する際に失敗する。 本稿では, 組織病理モデルから未発見施設のデータへの一般化を, ラベルや再訓練を必要とせずに改善するドメイン適応法を提案する。 提案手法では,異なる施設の画像が表現空間で識別可能であれば,モデルにペナルティを与える手法を拡張した最適輸送(OT)損失を導入する。 単一サンプルで動作する従来の方法とは異なり、損失は画像のバッチ間の分散的な差異を考慮に入れている。 camelyon17データセットでは、どちらの方法も色分布のグローバルな差異に適応できるが、トレーニング中の癌表現型を確実に分類できるのはot損失のみである。 以上の結果から,OTは総タイルのごく一部とスライドの変動のみを構成する稀な表現型の一般化を改善することが示唆された。

Histopathology is critical for the diagnosis of many diseases, including cancer. These protocols typically require pathologists to manually evaluate slides under a microscope, which is time-consuming and subjective, leading to interest in machine learning to automate analysis. However, computational techniques are limited by batch effects, where technical factors like differences in preparation protocol or scanners can alter the appearance of slides, causing models trained on one institution to fail when generalizing to others. Here, we propose a domain adaptation method that improves the generalization of histopathological models to data from unseen institutions, without the need for labels or retraining in these new settings. Our approach introduces an optimal transport (OT) loss, that extends adversarial methods that penalize models if images from different institutions can be distinguished in their representation space. Unlike previous methods, which operate on single samples, our loss accounts for distributional differences between batches of images. We show that on the Camelyon17 dataset, while both methods can adapt to global differences in color distribution, only our OT loss can reliably classify a cancer phenotype unseen during training. Together, our results suggest that OT improves generalization on rare but critical phenotypes that may only make up a small fraction of the total tiles and variation in a slide.
翻訳日:2023-03-07 20:51:27 公開日:2023-03-03
# 隠れ状態:効率的な強化学習のためのBlending SimとReal Task Elements

Hindsight States: Blending Sim and Real Task Elements for Efficient Reinforcement Learning ( http://arxiv.org/abs/2303.02234v1 )

ライセンス: Link先を確認
Simon Guist, Jan Schneider, Alexander Dittrich, Vincent Berenz, Bernhard Sch\"olkopf, Dieter B\"uchler(参考訳) 強化学習は、少ない労力で大量のデータを生成できる複雑なタスクを解決する大きな可能性を示している。 ロボット工学では、第一原理から導かれた力学モデルに基づいてシミュレーションに基づいてトレーニングデータを生成する。 しかし、例えば複雑なソフトロボットを含むタスクでは、そのようなモデルを考案することがかなり難しい。 強化学習によってますます複雑なシナリオで効果的にトレーニングできることは、ソフトロボットのような複雑なシステムを活用することができる。 ここでは、ダイナミクスの複雑さの不均衡を利用して、よりサンプル効率のよい学習を行う。 私たち (i)タスクを異なるコンポーネントに抽象化する。 (ii)簡単な動力学部品をシミュレーションにオフロードし、 (iii)これらの仮想部品を乗じて、後からより多くのデータを生成する。 新しい手法であるHindsight States (HiS)は、このデータを使用し、トレーニングに最も有用な遷移を選択する。 任意のオフポリシーアルゴリズムで使用することができる。 提案手法をいくつかの課題に対して検証し,HER(Hindsight Experience Replay)アルゴリズムと組み合わせることで,学習効率が向上することを示す。 最後に,身体システム上でのHiSの評価を行い,筋肉ロボットを用いた複雑な卓球タスクの性能向上を示す。 実験のビデオとコードは webdav.tuebingen.mpg.de/his/ で見ることができる。

Reinforcement learning has shown great potential in solving complex tasks when large amounts of data can be generated with little effort. In robotics, one approach to generate training data builds on simulations based on dynamics models derived from first principles. However, for tasks that, for instance, involve complex soft robots, devising such models is substantially more challenging. Being able to train effectively in increasingly complicated scenarios with reinforcement learning enables to take advantage of complex systems such as soft robots. Here, we leverage the imbalance in complexity of the dynamics to learn more sample-efficiently. We (i) abstract the task into distinct components, (ii) off-load the simple dynamics parts into the simulation, and (iii) multiply these virtual parts to generate more data in hindsight. Our new method, Hindsight States (HiS), uses this data and selects the most useful transitions for training. It can be used with an arbitrary off-policy algorithm. We validate our method on several challenging simulated tasks and demonstrate that it improves learning both alone and when combined with an existing hindsight algorithm, Hindsight Experience Replay (HER). Finally, we evaluate HiS on a physical system and show that it boosts performance on a complex table tennis task with a muscular robot. Videos and code of the experiments can be found on webdav.tuebingen.mpg.de/his/.
翻訳日:2023-03-07 20:51:05 公開日:2023-03-03
# ダイヤモンド中の単一スピンの量子クエンチ位相シフトによるスピン浴分極の検出

Detecting spin bath polarization with quantum quench phase shifts of single spins in diamond ( http://arxiv.org/abs/2303.02233v1 )

ライセンス: Link先を確認
Paul C. Jerger, Yu-Xin Wang, Mykyta Onizhuk, Benjamin S. Soloway, Michael T. Solomon, Christopher Egerstrom, F. Joseph Heremans, Giulia Galli, Aashish A. Clerk, and David D. Awschalom(参考訳) シングルキュービットセンシングプロトコルは、キュービットバス結合パラメータを測定するために使用できる。 しかし, 十分に大きなカップリングでは, 検出プロトコル自体が浴槽を乱すため, センサ測定において特性応答が生じると予測される。 ここでは、窒素空洞中心の核スピン浴を偏極初期状態に準備し、NV電子スピン上で位相分解スピンエコー測定を行うことにより、この浴の摂動を量子クエンチ(quantum quench)と呼ぶ。 これらの測定により、浴の初期状態によって決定される時間依存相が明らかになった。 センサ位相とガウススピン浴分極の関係を導出し, 軸方向と横方向の両方の分極成分を再構成する。 この知見を用いて、動的核偏極シーケンスの転送効率を最適化する。 この浴の偏光を直接測定する技術は、高忠実度量子メモリ状態の作成、ナノスケールNMR法の改善、非ガウス量子浴の調査に役立てることができる。

Single-qubit sensing protocols can be used to measure qubit-bath coupling parameters. However, for sufficiently large coupling, the sensing protocol itself perturbs the bath, which is predicted to result in a characteristic response in the sensing measurements. Here, we observe this bath perturbation, also known as a quantum quench, by preparing the nuclear spin bath of a nitrogen-vacancy (NV) center in polarized initial states and performing phase-resolved spin echo measurements on the NV electron spin. These measurements reveal a time-dependent phase determined by the initial state of the bath. We derive the relationship between sensor phase and Gaussian spin bath polarization, and apply it to reconstruct both the axial and transverse polarization components. Using this insight, we optimize the transfer efficiency of our dynamic nuclear polarization sequence. This technique for directly measuring bath polarization may assist in preparing high-fidelity quantum memory states, improving nanoscale NMR methods, and investigating non-Gaussian quantum baths.
翻訳日:2023-03-07 20:50:46 公開日:2023-03-03
# 中国におけるフロアスペース構築 - データセットと学習パイプライン

Building Floorspace in China: A Dataset and Learning Pipeline ( http://arxiv.org/abs/2303.02230v1 )

ライセンス: Link先を確認
Peter Egger, Susie Xi Rao, Sebastiano Papini(参考訳) 本稿では,建築の床面積(建築の足跡と高さ)を計測する最初のマイルストーンと,中国におけるその進化過程について述べる。 そのためには、多くの都市にまたがる長い断面データや時系列データがそのようなフォーマットでしか利用できないため、中粒度の粒度のイメージを構築する必要がある。 第1に、表層領域が建物に覆われているかどうか(占有地の正方形映像)を判断し、第2に、建物の高さを画像から判断する必要がある。 次に、メインデータソースとしてSentinel-1と-2の衛星画像を使用します。 これらのデータの利点は、大きな横断的かつ縦方向のスコープと制限のないアクセシビリティである。 データと結果を生成するアルゴリズムの詳細な説明を提供する。 本研究は,参照データの事前処理ステップ(真理ではないにせよ)と,建物床空間の計測結果を分析した。 また,予備実験結果に基づく都市開発に関する時系列構築の今後の展開についても論じる。

This paper provides the first milestone in measuring the floor space of buildings (that is, building footprint and height) and its evolution over time for China. Doing so requires building on imagery that is of a medium-fine-grained granularity, as longer cross-sections and time series data across many cities are only available in such format. We use a multi-class object segmenter approach to gauge the floor space of buildings in the same framework: first, we determine whether a surface area is covered by buildings (the square footage of occupied land); second, we need to determine the height of buildings from their imagery. We then use Sentinel-1 and -2 satellite images as our main data source. The benefits of these data are their large cross-sectional and longitudinal scope plus their unrestricted accessibility. We provide a detailed description of the algorithms used to generate the data and the results. We analyze the preprocessing steps of reference data (if not ground truth data) and their consequences for measuring the building floor space. We also discuss the future steps in building a time series on urban development based on our preliminary experimental results.
翻訳日:2023-03-07 20:50:27 公開日:2023-03-03
# オンラインシミュレータによる認知モデル選択のための実験設計

Online simulator-based experimental design for cognitive model selection ( http://arxiv.org/abs/2303.02227v1 )

ライセンス: Link先を確認
Alexander Aushev, Aini Putkonen, Gregoire Clarte, Suyog Chandramouli, Luigi Acerbi, Samuel Kaski, Andrew Howes(参考訳) 限定的な実験によるモデル選択の問題は認知科学においてかなりの注目を集めており、実験の役割は計算モデルとして表される理論を区別することである。 この研究は、主に解析的に抽出可能なモデルを用いた最適な実験設計に限られている。 しかし、複雑性を増大させる認知モデルは、難解な可能性を持って、より一般的なものになりつつある。 本稿では,抽出可能な可能性のない計算モデル間を選択可能な実験設計手法BOSMOSを提案する。 データ効率のよい方法で、逐次かつ適応的に情報的実験を生成する。 従来の手法とは対照的に,新しい設計選択のためのシミュレータベースの実用目的と,モデル選択のためのモデル可能性の近似を提案する。 シミュレーション実験により,提案手法は,メモリ保持,シーケンシャル信号検出,リスク選択という3つの認知科学タスクにおいて,既存のlfi代替手法よりも最大2桁少ない時間でモデルを正確に選択できることを実証した。

The problem of model selection with a limited number of experimental trials has received considerable attention in cognitive science, where the role of experiments is to discriminate between theories expressed as computational models. Research on this subject has mostly been restricted to optimal experiment design with analytically tractable models. However, cognitive models of increasing complexity, with intractable likelihoods, are becoming more commonplace. In this paper, we propose BOSMOS: an approach to experimental design that can select between computational models without tractable likelihoods. It does so in a data-efficient manner, by sequentially and adaptively generating informative experiments. In contrast to previous approaches, we introduce a novel simulator-based utility objective for design selection, and a new approximation of the model likelihood for model selection. In simulated experiments, we demonstrate that the proposed BOSMOS technique can accurately select models in up to 2 orders of magnitude less time than existing LFI alternatives for three cognitive science tasks: memory retention, sequential signal detection and risky choice.
翻訳日:2023-03-07 20:50:11 公開日:2023-03-03
# 予測のための特徴選択

Feature Selection for Forecasting ( http://arxiv.org/abs/2303.02223v1 )

ライセンス: Link先を確認
Hakan Pabuccu and Adrian Barbu(参考訳) 本研究では,財務データに対する機械学習アルゴリズムの予測性能向上のための特徴選択の重要性を検討する。 予測には、ニューラルネットワーク(ANN)、畳み込みニューラルネットワーク(CNN)、長期記憶(LSTM)ネットワーク、線形モデルを適用した。 アニーリング(英語版)(fsa)アルゴリズムによる特徴選択は、特定の期間とその遅れを伴う26の技術指標から得られた約1000個の予測器から特徴を選択するために用いられた。 これに加えて、ボータ特徴選択アルゴリズムを基本特徴選択法として適用した。 依存変数は、暗号通貨や異なる株を含む10の金融データセットの日次対数リターンと日次トレンドで構成されていた。 実験の結果,FSAアルゴリズムは問題の種類に関わらず,MLモデルの性能を高めた。 fsaハイブリッド機械学習モデルでは、回帰用データセット10個中10個、分類用データセット10個中8個でパフォーマンスが向上した。 ハイブリッドボリュータモデルはいずれもハイブリッドfsaモデルよりも優れていない。 しかし、borcnnモデルのパフォーマンスは、回帰推定のためのデータセット10のうち4つで最高のモデルに匹敵するものだった。 BOR-LRモデルとBOR-CNNモデルは、分類のための10のデータセットのうち2つで最高のハイブリッドFSAモデルと同等の性能を示した。 FSAは、低次元の入力特徴空間を提供することで、より良い性能指標と計算時間の両方でモデル性能を向上させることが観察された。

This work investigates the importance of feature selection for improving the forecasting performance of machine learning algorithms for financial data. Artificial neural networks (ANN), convolutional neural networks (CNN), long-short term memory (LSTM) networks, as well as linear models were applied for forecasting purposes. The Feature Selection with Annealing (FSA) algorithm was used to select the features from about 1000 possible predictors obtained from 26 technical indicators with specific periods and their lags. In addition to this, the Boruta feature selection algorithm was applied as a baseline feature selection method. The dependent variables consisted of daily logarithmic returns and daily trends of ten financial data sets, including cryptocurrency and different stocks. Experiments indicate that the FSA algorithm increased the performance of ML models regardless of the problem type. The FSA hybrid machine learning models showed better performance in 10 out of 10 data sets for regression and 8 out of 10 data sets for classification. None of the hybrid Boruta models outperformed the hybrid FSA models. However, the BORCNN model performance was comparable to the best model for 4 out of 10 data sets for regression estimates. BOR-LR and BOR-CNN models showed comparable performance with the best hybrid FSA models in 2 out of 10 datasets for classification. FSA was observed to improve the model performance in both better performance metrics as well as a decreased computation time by providing a lower dimensional input feature space.
翻訳日:2023-03-07 20:49:58 公開日:2023-03-03
# ドローンオーケストレータを用いた協調学習

Collaborative Learning with a Drone Orchestrator ( http://arxiv.org/abs/2303.02266v1 )

ライセンス: Link先を確認
Mahnoosh Mahdavimoghadam, Mahdi Boloursaz Mashhadi, Rahim Tafazolli, Walid Saad(参考訳) 本稿では,ドローンによる協調学習の課題について考察する。 このシナリオでは、インテリジェントな無線デバイス群が、ドローンの助けを借りて、共有ニューラルネットワーク(NN)モデルをトレーニングする。 センサーを使って各デバイスは環境からサンプルを記録し、訓練用のローカルデータセットを収集する。 各種デバイスはデータ量やセンサノイズレベルが異なるため、トレーニングデータは極めて均一である。 インテリジェントデバイスは、ローカルデータセット上でNNを反復的にトレーニングし、モデルのパラメータをドローンと交換して集約する。 本システムでは、データの不均一性、センサノイズレベル、通信エラーを考慮して協調学習の収束率を導出し、訓練されたNNの最終精度を最大化するドローン軌道を得る。 提案する軌道最適化手法は,デバイスデータ特性(ローカルデータセットサイズとノイズレベル)と無線チャネル条件の両方を認識し,データ特性やチャネル条件のみを考慮したベースラインと比較して収束率と最終精度を大幅に向上させる。 提案手法は最先端のベースラインと比較して,画像認識タスクとセマンティックセグメンテーションタスクのベンチマークデータセット上でのトレーニングNNの最終精度を平均3.85%,3.54%向上させる。 さらに,提案したフレームワークは,トレーニングの大幅な高速化を実現し,ドローンホバリング時間,通信オーバーヘッド,バッテリ使用量の平均24%と87%の削減を実現している。

In this paper, the problem of drone-assisted collaborative learning is considered. In this scenario, swarm of intelligent wireless devices train a shared neural network (NN) model with the help of a drone. Using its sensors, each device records samples from its environment to gather a local dataset for training. The training data is severely heterogeneous as various devices have different amount of data and sensor noise level. The intelligent devices iteratively train the NN on their local datasets and exchange the model parameters with the drone for aggregation. For this system, the convergence rate of collaborative learning is derived while considering data heterogeneity, sensor noise levels, and communication errors, then, the drone trajectory that maximizes the final accuracy of the trained NN is obtained. The proposed trajectory optimization approach is aware of both the devices data characteristics (i.e., local dataset size and noise level) and their wireless channel conditions, and significantly improves the convergence rate and final accuracy in comparison with baselines that only consider data characteristics or channel conditions. Compared to state-of-the-art baselines, the proposed approach achieves an average 3.85% and 3.54% improvement in the final accuracy of the trained NN on benchmark datasets for image recognition and semantic segmentation tasks, respectively. Moreover, the proposed framework achieves a significant speedup in training, leading to an average 24% and 87% saving in the drone hovering time, communication overhead, and battery usage, respectively for these tasks.
翻訳日:2023-03-07 20:43:04 公開日:2023-03-03
# オフライン強化学習による人間の行動に影響を与える学習

Learning to Influence Human Behavior with Offline Reinforcement Learning ( http://arxiv.org/abs/2303.02265v1 )

ライセンス: Link先を確認
Joey Hong, Anca Dragan, Sergey Levine(参考訳) 現実の世界では、学習エージェントの最も複雑な設定のいくつかは人間との相互作用を伴い、しばしば洗練されたバイアスのために最適で予測不能な振る舞いを示す。 このような設定で人と対話するエージェントは、これらの人々が取るアクションに影響を与える。 この作業の目標は、タスクが展開するにつれて、エージェントがその影響を活用して、協調作業における人間のパフォーマンスを改善することです。 以前の作業とは異なり、オンライントレーニング(高価で安全ではない傾向にある)や、環境の忠実度の高いシミュレータへのアクセスは想定していません。 我々の考えは、これまで観察されたさまざまな人間と人間のインタラクションデータをタスク報酬とラベル付けすることで、オフライン強化学習(RL)は、行動の構成要素を組み合わせて学習し、より望ましい人間の行動につながる行動を明らかにすることができる。 まず、オフラインRLは、データセットに現れない戦略にも拘わらず、多様な準最適相互作用の構成要素を利用することで、人間の行動に影響を与える戦略を学習できることを示す。 さらに, オフラインRLは人間に適応する影響を学習し, 行動が変化しても長期の協調を達成できることを実証した。 提案手法は, 共同ベンチマーク領域において, 実人を対象に評価を行い, 人的性能の向上を実証した。

In the real world, some of the most complex settings for learned agents involve interaction with humans, who often exhibit suboptimal, unpredictable behavior due to sophisticated biases. Agents that interact with people in such settings end up influencing the actions that these people take. Our goal in this work is to enable agents to leverage that influence to improve the human's performance in collaborative tasks, as the task unfolds. Unlike prior work, we do not assume online training with people (which tends to be too expensive and unsafe), nor access to a high fidelity simulator of the environment. Our idea is that by taking a variety of previously observed human-human interaction data and labeling it with the task reward, offline reinforcement learning (RL) can learn to combine components of behavior, and uncover actions that lead to more desirable human actions. First, we show that offline RL can learn strategies to influence and improve human behavior, despite those strategies not appearing in the dataset, by utilizing components of diverse, suboptimal interactions. In addition, we demonstrate that offline RL can learn influence that adapts with humans, thus achieving long-term coordination with them even when their behavior changes. We evaluate our proposed method with real people in the Overcooked collaborative benchmark domain, and demonstrate successful improvement in human performance.
翻訳日:2023-03-07 20:42:40 公開日:2023-03-03
# 局所正規化神経微分方程式: いくつかのブラックボックスは閉じるつもりだった!

Locally Regularized Neural Differential Equations: Some Black Boxes were meant to remain closed! ( http://arxiv.org/abs/2303.02262v1 )

ライセンス: Link先を確認
Avik Pal, Alan Edelman, Chris Rackauckas(参考訳) ニューラル微分方程式のような暗黙的な層深層学習技術は、新しい問題に自動的に適応できるため、重要なモデリングフレームワークとなっている。 神経微分方程式の訓練は、効果的に可算力学系の空間上の探索である。 しかし、適応解法が行うステップの数に依存するため、これらのモデルに対する計算コストの制御は困難である。 従来のほとんどの研究では、予測タイミングの削減に高次手法を使用しており、トレーニング時間を大幅に増加させたり、特定のトレーニングアルゴリズムに依存することにより、トレーニング時間と予測タイミングの両方を削減したりしている。 本稿では,確率的時点における適応微分方程式解法の内部コストヒューリスティックスを用いて,より統合が容易な力学系の学習を指導する。 我々は「ブラックボックスを閉じる」ことで、微分方程式解の勾配計算に任意の随伴手法を用いることができる。 本手法を大域的正則化と比較し,通常の微分方程式 (odes) と確率微分方程式 (sdes) の実装の柔軟性を損なうことなく,同様の性能を得られることを示した。 パフォーマンスとトレーニング時間をトレードオフする2つのサンプリング戦略を開発します。 本手法は関数評価を0.556-0.733xに削減し,予測を1.3-2x高速化する。

Implicit layer deep learning techniques, like Neural Differential Equations, have become an important modeling framework due to their ability to adapt to new problems automatically. Training a neural differential equation is effectively a search over a space of plausible dynamical systems. However, controlling the computational cost for these models is difficult since it relies on the number of steps the adaptive solver takes. Most prior works have used higher-order methods to reduce prediction timings while greatly increasing training time or reducing both training and prediction timings by relying on specific training algorithms, which are harder to use as a drop-in replacement due to strict requirements on automatic differentiation. In this manuscript, we use internal cost heuristics of adaptive differential equation solvers at stochastic time points to guide the training toward learning a dynamical system that is easier to integrate. We "close the black-box" and allow the use of our method with any adjoint technique for gradient calculations of the differential equation solution. We perform experimental studies to compare our method to global regularization to show that we attain similar performance numbers without compromising the flexibility of implementation on ordinary differential equations (ODEs) and stochastic differential equations (SDEs). We develop two sampling strategies to trade off between performance and training time. Our method reduces the number of function evaluations to 0.556-0.733x and accelerates predictions by 1.3-2x.
翻訳日:2023-03-07 20:42:18 公開日:2023-03-03
# フロッケ電子相の光伝導率シグネチャ

Optical Conductivity Signatures of Floquet Electronic Phases ( http://arxiv.org/abs/2303.02261v1 )

ライセンス: Link先を確認
Andrew Cupo, Joshuah T. Heath, Emilio Cobanera, James D. Whitfield, Chandrasekhar Ramanathan, Lorenza Viola(参考訳) 光伝導率測定はフロケ電子相の異なるシグネチャへのアクセスを提供し、理論的には準エネルギーバンド構造によって記述される。 ここでは, 以前に導入したフロケグラフェン系アンチドト格子の実験観測値(Phys. Rev. B 104, 174304 (2021))を特徴付けることに焦点をあてる。 フロッケ線形応答理論に基づいて、縦導電率とホール導電率の実部と虚部をプローブ周波数の関数として計算する。 応答関数におけるピークの数と位置は、異なるフロッケ電子相に特有のものであり、平衡アナログを持たない複数の特性を同定する。 まず、プローブ周波数のいくつかの間隔において、導電率の実部は負となり、これは負のジュール加熱を示す。 つまり、Floquetドライブは、材料がプローブのパワー(ゲイン)を増幅させる。 さらに、平衡時のホール応答がゼロであるのに対し、フロケホール導電率の実部と虚部はゼロではなく、長手成分と同じ大きさである。 最後に、駆動による局在化は、全体の大きさを減少させ、光伝導率信号を平坦化する傾向がある。 実装の観点からは、反ドート格子の大きな利点は、上記の帯域幅の駆動限界は、本質材料に必要なものよりも少なくとも20倍低い光子エネルギーで到達し、マグニチュードの小さな強度でバンド再正規化を可能にすることである。 私たちの研究は、この新素材の反射率データを特定のフロッケ相にマッピングするために必要なツールを提供します。

Optical conductivity measurements may provide access to distinct signatures of Floquet electronic phases, which are described theoretically by their quasienergy band structures. Here, we focus on characterizing experimental observables of the Floquet graphene antidot lattice, which we introduced previously [Phys. Rev. B 104, 174304 (2021)]. On the basis of Floquet linear response theory, the real and imaginary parts of the longitudinal and Hall optical conductivity are computed as a function of probe frequency. We find that the number and positions of peaks in the response function are distinctive of the different Floquet electronic phases, and identify multiple properties with no equilibrium analog. First, for several intervals of probe frequencies, the real part of the conductivity becomes negative, which we argue is indicative of negative Joule heating. That is, the Floquet drive causes the material to amplify the power of the probe (gain). Additionally, while there is zero Hall response at equilibrium, the real and imaginary parts of the Floquet Hall conductivity are non-zero and can be as large as the longitudinal components. Lastly, driving-induced localization tends to reduce the overall magnitude of and to flatten out the optical conductivity signal. From an implementation standpoint, a major advantage of the antidot lattice is that the above-bandwidth driving limit is reached with photon energies that are at least twenty times lower than that required for the intrinsic material, allowing for significant band renormalization at orders-of-magnitude smaller intensities. Our work provides the necessary tools for experimentalists to map reflectance data to particular Floquet phases for this novel material.
翻訳日:2023-03-07 20:41:54 公開日:2023-03-03
# 視覚オブジェクトを推論する学習

Learning to reason over visual objects ( http://arxiv.org/abs/2303.02260v1 )

ライセンス: Link先を確認
Shanka Subhra Mondal, Taylor Webb, Jonathan D. Cohen(参考訳) 人間の知性の中核的な構成要素は、Raven's Progressive Matrices (RPM)のような視覚的推論タスクによって実証された、複雑な高次元知覚データに固有の抽象パターンを識別する能力である。 この能力でAIシステムを設計するという目標を掲げた最近の研究は、ニューラルネットワークがRPMのような問題を解決することができるかどうかを評価することに重点を置いている。 従来の研究では、これらの問題に対する強い性能は、RPM問題形式に特有の帰納的バイアスを組み込むことを必要としており、そのようなモデルがより広範に有用かどうかという疑問が提起されていた。 本研究では,視覚シーンの汎用的処理機構が,抽象的視覚推論の促進にどの程度役立つかを検討した。 対象中心エンコーダとトランスフォーマー推論モジュールのみからなる単純なモデルは,rpmライクな2つのベンチマーク(pgmとi-raven)と,視覚複雑性(clevr-matrices)の高い新しいベンチマーク(clevr-matrices)の両方において最先端の結果を得た。 これらの結果は、オブジェクト中心の処理に対する帰納的バイアスは抽象的視覚的推論の重要な要素であり、問題固有の帰納的バイアスの必要性を暗示している。

A core component of human intelligence is the ability to identify abstract patterns inherent in complex, high-dimensional perceptual data, as exemplified by visual reasoning tasks such as Raven's Progressive Matrices (RPM). Motivated by the goal of designing AI systems with this capacity, recent work has focused on evaluating whether neural networks can learn to solve RPM-like problems. Previous work has generally found that strong performance on these problems requires the incorporation of inductive biases that are specific to the RPM problem format, raising the question of whether such models might be more broadly useful. Here, we investigated the extent to which a general-purpose mechanism for processing visual scenes in terms of objects might help promote abstract visual reasoning. We found that a simple model, consisting only of an object-centric encoder and a transformer reasoning module, achieved state-of-the-art results on both of two challenging RPM-like benchmarks (PGM and I-RAVEN), as well as a novel benchmark with greater visual complexity (CLEVR-Matrices). These results suggest that an inductive bias for object-centric processing may be a key component of abstract visual reasoning, obviating the need for problem-specific inductive biases.
翻訳日:2023-03-07 20:41:26 公開日:2023-03-03
# 移動物体軌道予測を用いた視覚SLAM

A Visual SLAM with Moving Object Trajectory Prediction ( http://arxiv.org/abs/2303.02257v1 )

ライセンス: Link先を確認
Qi Zhang, Siyuan Gou, Wenbin Li(参考訳) 視覚同時ローカライゼーション・マッピング(slam, visual concurrent localization and mapping)は、カメラの軌跡を推定し、視覚データだけで環境マップを作成する能力から、近年注目を集めている。 本研究では,移動物体の軌跡追跡と予測を組み込んだ視覚的SLAMシステムを提案する。 我々は、歩行者が環境をマッピングする限り、その動きを追跡し予測する動きの手がかりを考慮に入れている。 このような統合システムは、シーン内のカメラや他の移動物体のローカライズを解消し、さらに車両の潜在的なナビゲーションを支援するスパースマップを作成する。 実験では,シミュレーションと実世界のKITTIデータセットを総合的に評価し,提案手法の有効性とロバスト性を実証した。

Visual Simultaneous Localization and Mapping (SLAM) has received significant attention in recent years due to its ability to estimate camera trajectory and create an environment map using visual data alone, making a substantial contribution to autonomous driving applications, in particular, a real-world scenario with moving crowds and vehicles. In this work, we propose a visual SLAM system that incorporates moving object trajectory tracking and prediction. We take into account the motion clues of the pedestrians to track and predict their movement, as long as mapping the environment. Such an integrated system solves the localization of the camera and other moving objects in the scene, and further creates a sparse map to support the potential navigation of the vehicle. In the experiment, we demonstrate the effectiveness and robustness of our approach through a comprehensive evaluation on both our simulation and real-world KITTI datasets.
翻訳日:2023-03-07 20:40:59 公開日:2023-03-03
# 有限サンプルを用いた高次元単核ReLUネットワークの学習

Learning High-Dimensional Single-Neuron ReLU Networks with Finite Samples ( http://arxiv.org/abs/2303.02255v1 )

ライセンス: Link先を確認
Jingfeng Wu and Difan Zou and Zixiang Chen and Vladimir Braverman and Quanquan Gu and Sham M. Kakade(参考訳) 本稿では、入力次元がサンプル数を超える過パラメータ化された状態において、1つのReLUニューロンを2乗損失(すなわちReLU回帰)で学習する問題を考察する。 我々は,glm-tron (kakade et al., 2011) と呼ばれるパーセプトロン型アルゴリズムを解析し,その次元フリーリスク上限を高次元のrelu回帰に与えた。 我々のリスク・バウンドは、いくつかの既存の結果を特別のケースとして回収する。 さらに、よく特定された設定では、GLM-tron に対するインスタンスワイドなリスクローバウンドも提供する。 我々の上下のリスク境界は、GLM-tronを通して学習できる高次元ReLU回帰問題の鋭い特徴を与える。 一方,対称なベルヌーイデータを持つrelu回帰に対する確率的勾配降下 (sgd) については,いくつかの否定的な結果が得られた: モデルが十分に特定されているならば,sgdの過剰なリスクは,各問題例において一定の因子を無視するglm-tronのリスクよりも証明可能であり,無音の場合,sgdが期待値の一定のリスクを負う一方で,glm-tronは小さいリスクを達成できる。 これらの結果から,glm-tronはsgdよりも高次元relu回帰に適していることが示唆された。

This paper considers the problem of learning a single ReLU neuron with squared loss (a.k.a., ReLU regression) in the overparameterized regime, where the input dimension can exceed the number of samples. We analyze a Perceptron-type algorithm called GLM-tron (Kakade et al., 2011), and provide its dimension-free risk upper bounds for high-dimensional ReLU regression in both well-specified and misspecified settings. Our risk bounds recover several existing results as special cases. Moreover, in the well-specified setting, we also provide an instance-wise matching risk lower bound for GLM-tron. Our upper and lower risk bounds provide a sharp characterization of the high-dimensional ReLU regression problems that can be learned via GLM-tron. On the other hand, we provide some negative results for stochastic gradient descent (SGD) for ReLU regression with symmetric Bernoulli data: if the model is well-specified, the excess risk of SGD is provably no better than that of GLM-tron ignoring constant factors, for each problem instance; and in the noiseless case, GLM-tron can achieve a small risk while SGD unavoidably suffers from a constant risk in expectation. These results together suggest that GLM-tron might be preferable than SGD for high-dimensional ReLU regression.
翻訳日:2023-03-07 20:40:46 公開日:2023-03-03
# グラディエントノルム認識の最小化は1次平坦性を追求し、一般化を改善する

Gradient Norm Aware Minimization Seeks First-Order Flatness and Improves Generalization ( http://arxiv.org/abs/2303.03108v1 )

ライセンス: Link先を確認
Xingxuan Zhang and Renzhe Xu and Han Yu and Hao Zou and Peng Cui(参考訳) 近年、フラットミニマは一般化とシャープネス認識最小化(sam)の改善に効果的であることが証明されている。 しかし、SAMで議論されている平坦性の現在の定義とそのフォローアップはゼロ階平坦性(摂動半径内の最悪の損失)に限定されている。 摂動半径内に1つの最小または複数のミニマが存在する場合, 一般化誤差の低いミニマを高い一般化誤差で判別するには, ゼロ階平坦性が不十分であることを示す。 そこで我々は,局所的最小点におけるヘッシアンの最大固有値とsamの正規化関数の両方を境界とする摂動半径内の最大勾配ノルムに着目した,一階平坦性を示す。 また,全方向にわたって一様に曲率の小さい最小値を求めるため,GAM(Gradient norm Aware Minimization)と呼ばれる新しいトレーニング手順を提案する。 実験結果から,GAMは様々なデータセットやネットワーク上で,SGDやAdamWといった現在の最適化アルゴリズムで訓練されたモデルの一般化を改善することが示された。 さらに、GAMはSAMがより平坦なミニマムを見つけ、より良い一般化を実現するのに役立つことを示す。

Recently, flat minima are proven to be effective for improving generalization and sharpness-aware minimization (SAM) achieves state-of-the-art performance. Yet the current definition of flatness discussed in SAM and its follow-ups are limited to the zeroth-order flatness (i.e., the worst-case loss within a perturbation radius). We show that the zeroth-order flatness can be insufficient to discriminate minima with low generalization error from those with high generalization error both when there is a single minimum or multiple minima within the given perturbation radius. Thus we present first-order flatness, a stronger measure of flatness focusing on the maximal gradient norm within a perturbation radius which bounds both the maximal eigenvalue of Hessian at local minima and the regularization function of SAM. We also present a novel training procedure named Gradient norm Aware Minimization (GAM) to seek minima with uniformly small curvature across all directions. Experimental results show that GAM improves the generalization of models trained with current optimizers such as SGD and AdamW on various datasets and networks. Furthermore, we show that GAM can help SAM find flatter minima and achieve better generalization.
翻訳日:2023-03-07 16:05:58 公開日:2023-03-03
# モデル圧縮のための回転不変量子化

Rotation Invariant Quantization for Model Compression ( http://arxiv.org/abs/2303.03106v1 )

ライセンス: Link先を確認
Joseph Kampeas, Yury Nahshan, Hanoch Kremer, Gil Lederman, Shira Zaloshinski, Zheng Li and Emir Haleva(参考訳) トレーニング後のニューラルネットワーク(NN)モデル圧縮は、メモリリソースが限られたデバイスに大規模なメモリ消費モデルを展開するための魅力的なアプローチである。 本研究では,nnモデル圧縮のレートゆがみトレードオフについて検討する。 まず,単一パラメータを用いてnnモデル全体の量子化を行い,各層で異なるレート,すなわち混合精度量子化を行う回転不変量子化(riq)手法を提案する。 そして、我々の回転不変アプローチが圧縮の点で最適であることを示す。 我々は、RIQを厳格に評価し、様々なモデルやタスクでその能力を実証する。 例えば、RIQは、事前訓練されたVGG密度モデルとプルーニングモデルにおいて、それぞれ$19.4$と$52.9$の圧縮比を、$<0.4\%の精度劣化で促進する。 コード: \url{https://github.com/ehaleva/RIQ}。

Post-training Neural Network (NN) model compression is an attractive approach for deploying large, memory-consuming models on devices with limited memory resources. In this study, we investigate the rate-distortion tradeoff for NN model compression. First, we suggest a Rotation-Invariant Quantization (RIQ) technique that utilizes a single parameter to quantize the entire NN model, yielding a different rate at each layer, i.e., mixed-precision quantization. Then, we prove that our rotation-invariant approach is optimal in terms of compression. We rigorously evaluate RIQ and demonstrate its capabilities on various models and tasks. For example, RIQ facilitates $\times 19.4$ and $\times 52.9$ compression ratios on pre-trained VGG dense and pruned models, respectively, with $<0.4\%$ accuracy degradation. Code: \url{https://github.com/ehaleva/RIQ}.
翻訳日:2023-03-07 16:05:35 公開日:2023-03-03
# ゼロサム確率ゲームにおけるペイオフベース独立学習の有限サンプル解析

A Finite-Sample Analysis of Payoff-Based Independent Learning in Zero-Sum Stochastic Games ( http://arxiv.org/abs/2303.03100v1 )

ライセンス: Link先を確認
Zaiwei Chen, Kaiqing Zhang, Eric Mazumdar, Asuman Ozdaglar, and Adam Wierman(参考訳) 本研究では,2人プレイのゼロサム確率ゲームについて検討し,doubly smoothed best-response dynamicsと呼ばれる独立学習ダイナミクスの形式を提案し,最良応答ダイナミクスの離散的かつ二重に平滑化した変種をtemporal-difference(td)学習とminimax値反復に統合する。 結果として得られるダイナミクスは、プレイヤー間のペイオフベース、収束、合理的、対称である。 主な結果は有限サンプル保証である。 特に、最初に知られた$\tilde{\mathcal{O}}(1/\epsilon^2)$サンプル複雑性をペイオフベースの独立学習力学に限定し、スムーズなバイアスまで証明する。 確率ゲームが一つの状態(つまり行列ゲーム)しか持たない特別な場合、よりシャープな$\tilde{\mathcal{O}}(1/\epsilon)$サンプル複雑性を提供する。 我々の分析では、結合された複数の反復と確率的反復の進化を捉えるために、新しい結合されたリアプノフドリフトアプローチを用いている。

We study two-player zero-sum stochastic games, and propose a form of independent learning dynamics called Doubly Smoothed Best-Response dynamics, which integrates a discrete and doubly smoothed variant of the best-response dynamics into temporal-difference (TD)-learning and minimax value iteration. The resulting dynamics are payoff-based, convergent, rational, and symmetric among players. Our main results provide finite-sample guarantees. In particular, we prove the first-known $\tilde{\mathcal{O}}(1/\epsilon^2)$ sample complexity bound for payoff-based independent learning dynamics, up to a smoothing bias. In the special case where the stochastic game has only one state (i.e., matrix games), we provide a sharper $\tilde{\mathcal{O}}(1/\epsilon)$ sample complexity. Our analysis uses a novel coupled Lyapunov drift approach to capture the evolution of multiple sets of coupled and stochastic iterates, which might be of independent interest.
翻訳日:2023-03-07 16:04:37 公開日:2023-03-03
# 波動関数の自発的崩壊:離散物理学による検証可能な提案

Spontaneous Collapse of the Wavefunction: A Testable Proposal Motivated by Discrete Physics ( http://arxiv.org/abs/2303.03096v1 )

ライセンス: Link先を確認
Martin J. Leckey and Adrian P. Flitney(参考訳) 波動関数崩壊の新しいメカニズムを含む量子力学の修正版が提案されている。 この崩壊は量子測定問題の解となる。 この修正された量子力学は、全ての物理量が連続ではなく離散であるような完全離散物理学から自然に生じることが示されている。 我々は、この理論を、グラーディ、リミニ、ウェーバー、パールの自然崩壊理論と比較し、新しい理論は波動関数の現実論的解釈によく似ていると主張している。

A modified form of quantum mechanics which includes a new mechanism for wavefunction collapse is proposed. The collapse provides a solution to the quantum measurement problem. This modified quantum mechanics is shown to arise naturally from a fully discrete physics, where all physical quantities are discrete rather than continuous. We compare the theory to the spontaneous collapse theories of Ghirardi, Rimini, Weber and Pearle, and argue that the new theory lends itself well to a realist interpretation of the wavefunction.
翻訳日:2023-03-07 16:04:13 公開日:2023-03-03
# マルコフゲームにおけるナッシュ平衡は線形レートで見つけることができるか?

Can We Find Nash Equilibria at a Linear Rate in Markov Games? ( http://arxiv.org/abs/2303.03095v1 )

ライセンス: Link先を確認
Zhuoqing Song, Jason D. Lee, Zhuoran Yang(参考訳) そこでは,2つの特性を満たすエージェントのポリシー最適化アルゴリズムを設計することを目的として,マルチプレイヤーゼロサム割引マルコフゲームにおける分散学習について検討する。 まず、プレイヤーはそのポリシーを更新するために相手のポリシーを知る必要がない。 第二に、両方のプレイヤーがアルゴリズムを採用すると、それらの共同ポリシーはゲームのナッシュ均衡に収束する。 この目的のために、我々は$\texttt{Homotopy-PO}$と呼ばれるメタアルゴリズムを構築する。 特に、$\texttt{homotopy-po}$は2つの基本アルゴリズム$\texttt{local-fast}$と$\texttt{global-slow}$をホモトピー継続経由で織り込む。 $\texttt{local-fast}$ は局所線形収束を楽しむアルゴリズムであり、$\texttt{global-slow}$ はグローバルに収束するが遅い部分線形速度で収束するアルゴリズムである。 これら2つの基本アルゴリズムを切り替えることで、$\texttt{Global-Slow}$は基本的に ``guide'' として機能し、$\textt{Local-Fast}$が高速収束を楽しむ良質な近傍を特定する。 しかし、そのような近傍の正確な大きさは分かっていないため、2つの基本アルゴリズムを切り替えるために2倍の手法を適用する。 スイッチング方式は微妙に設計されており、アルゴリズムの集約された性能は$\texttt{local-fast}$で駆動される。 さらに、$\texttt{Local-Fast}$ と $\texttt{Global-Slow}$ は、それぞれ独立した関心を持つ楽観的勾配降下/上昇法 (OGDA) の変種によってインスタンス化できることを示す。

We study decentralized learning in two-player zero-sum discounted Markov games where the goal is to design a policy optimization algorithm for either agent satisfying two properties. First, the player does not need to know the policy of the opponent to update its policy. Second, when both players adopt the algorithm, their joint policy converges to a Nash equilibrium of the game. To this end, we construct a meta algorithm, dubbed as $\texttt{Homotopy-PO}$, which provably finds a Nash equilibrium at a global linear rate. In particular, $\texttt{Homotopy-PO}$ interweaves two base algorithms $\texttt{Local-Fast}$ and $\texttt{Global-Slow}$ via homotopy continuation. $\texttt{Local-Fast}$ is an algorithm that enjoys local linear convergence while $\texttt{Global-Slow}$ is an algorithm that converges globally but at a slower sublinear rate. By switching between these two base algorithms, $\texttt{Global-Slow}$ essentially serves as a ``guide'' which identifies a benign neighborhood where $\texttt{Local-Fast}$ enjoys fast convergence. However, since the exact size of such a neighborhood is unknown, we apply a doubling trick to switch between these two base algorithms. The switching scheme is delicately designed so that the aggregated performance of the algorithm is driven by $\texttt{Local-Fast}$. Furthermore, we prove that $\texttt{Local-Fast}$ and $\texttt{Global-Slow}$ can both be instantiated by variants of optimistic gradient descent/ascent (OGDA) method, which is of independent interest.
翻訳日:2023-03-07 16:04:04 公開日:2023-03-03
# 修正D2SBERTと文意図機構を用いた人工知能関連特許のマルチラベル分類

Multi label classification of Artificial Intelligence related patents using Modified D2SBERT and Sentence Attention mechanism ( http://arxiv.org/abs/2303.03165v1 )

ライセンス: Link先を確認
Yongmin Yoo, Tak-Sung Heo, Dongjin Lim, Deaho Seo(参考訳) 特許分類は特許情報管理と特許知識採掘において重要な課題である。 今日の最大の話題である人工知能に関連する特許を分類することは、非常に重要である。 しかし、人工知能関連の特許は複雑な技術と法的用語が混在しているため、分類が非常に難しい。 さらに、現在のアルゴリズムの性能が不十分であるため、手作業による作業がほとんどであり、多くの時間と費用を浪費している。 そこで本稿では,USPTOが発行する人工知能関連特許を自然言語処理技術とディープラーニング手法を用いて分類する手法を提案する。 変形したBERTと文の注意はBERTの限界を克服する。 実験結果は,他の深層学習法と比較して高い性能を示した。

Patent classification is an essential task in patent information management and patent knowledge mining. It is very important to classify patents related to artificial intelligence, which is the biggest topic these days. However, artificial intelligence-related patents are very difficult to classify because it is a mixture of complex technologies and legal terms. Moreover, due to the unsatisfactory performance of current algorithms, it is still mostly done manually, wasting a lot of time and money. Therefore, we present a method for classifying artificial intelligence-related patents published by the USPTO using natural language processing technique and deep learning methodology. We use deformed BERT and sentence attention overcome the limitations of BERT. Our experiment result is highest performance compared to other deep learning methods.
翻訳日:2023-03-07 15:57:11 公開日:2023-03-03
# Afive Computingはファンデーションモデルと汎用AIから生まれるのか? ChatGPTに関する最初の評価

Will Affective Computing Emerge from Foundation Models and General AI? A First Evaluation on ChatGPT ( http://arxiv.org/abs/2303.03186v1 )

ライセンス: Link先を確認
Mostafa M. Amin, Erik Cambria, Bj\"orn W. Schuller(参考訳) chatgptは、多くの自然言語処理タスクで有能なパフォーマンスを示したため、新たな汎用人工知能機能の可能性を示した。 本研究では,ChatGPTの3つの感情的コンピューティング問題,すなわち5つの人格予測,感情分析,自殺傾向検出におけるテキスト分類機能を評価する。 我々は、3つのベースライン、ロバスト言語モデル(RoBERTa-base)、事前訓練された埋め込み(Word2Vec)を持つレガシーワードモデル(BoW)を利用する。 その結果、特定の下流タスクのために訓練されたロバータは一般的に優れた性能を示す。 一方、ChatGPTは十分な結果を提供しており、Word2VecやBoWのベースラインと比較的同等である。 さらにChatGPTは、Word2Vecモデルがノイズによって悪化するノイズデータに対して堅牢性を示す。 以上の結果から,ChatGPTは様々な問題に対して優れた結果が得られる優れた一般モデルであるが,下流タスクの特化モデルほど良いものではないことが示唆された。

ChatGPT has shown the potential of emerging general artificial intelligence capabilities, as it has demonstrated competent performance across many natural language processing tasks. In this work, we evaluate the capabilities of ChatGPT to perform text classification on three affective computing problems, namely, big-five personality prediction, sentiment analysis, and suicide tendency detection. We utilise three baselines, a robust language model (RoBERTa-base), a legacy word model with pretrained embeddings (Word2Vec), and a simple bag-of-words baseline (BoW). Results show that the RoBERTa trained for a specific downstream task generally has a superior performance. On the other hand, ChatGPT provides decent results, and is relatively comparable to the Word2Vec and BoW baselines. ChatGPT further shows robustness against noisy data, where Word2Vec models achieve worse results due to noise. Results indicate that ChatGPT is a good generalist model that is capable of achieving good results across various problems without any specialised training, however, it is not as good as a specialised model for a downstream task.
翻訳日:2023-03-07 15:48:15 公開日:2023-03-03
# 深層学習画像分類における信頼度に基づく構成評価

Evaluation of Confidence-based Ensembling in Deep Learning Image Classification ( http://arxiv.org/abs/2303.03185v1 )

ライセンス: Link先を確認
Rafael Rosales, Peter Popov, Michael Paulitsch(参考訳) ensemblingは、機械学習(ml)モデルのパフォーマンスを改善する手法として成功している。 Conf-EnsembleはBoostingに適応して、モデルのエラーではなくモデルの信頼性に基づいてアンサンブルを作成し、難しいエッジケースをよりよく分類する。 重要なアイデアは、前のモデルで難しい(必ずしも正しく分類されていない)サンプルの連続したモデル専門家を作ることである。 この技術は、小さな特徴空間(約80の機能)を持つバイナリ分類の強化よりも優れた結果をもたらすことが示されている。 本稿では、イメージNetデータセット(1000クラスの224x224x3特徴)を用いて、画像分類のより複雑なタスクにおけるConf-Ensembleアプローチを評価する。 画像分類はAIに基づく知覚にとって重要なベンチマークであり、この手法がMLアンサンブルを使用して安全クリティカルなアプリケーションで使用できるかどうかを評価するのに役立つ。 複雑なマルチラベル分類タスクでは、複雑な入力サンプルの特殊化の期待できる利点は、小さなサンプルセットでは達成できない、すなわち、優れた分類器は、"差分サンプル"の限られたサブセットではうまく訓練できない非常に複雑な特徴分析に依存しているように見える。 本研究では,一連のアンサンブルメンバーに供給されるサンプル数を増やすためのConf-Ensembleの改良を提案する。 当社の調査結果は、このアプローチの限界と、ビッグデータを活用する非自明さに光を当てた。

Ensembling is a successful technique to improve the performance of machine learning (ML) models. Conf-Ensemble is an adaptation to Boosting to create ensembles based on model confidence instead of model errors to better classify difficult edge-cases. The key idea is to create successive model experts for samples that were difficult (not necessarily incorrectly classified) by the preceding model. This technique has been shown to provide better results than boosting in binary-classification with a small feature space (~80 features). In this paper, we evaluate the Conf-Ensemble approach in the much more complex task of image classification with the ImageNet dataset (224x224x3 features with 1000 classes). Image classification is an important benchmark for AI-based perception and thus it helps to assess if this method can be used in safety-critical applications using ML ensembles. Our experiments indicate that in a complex multi-label classification task, the expected benefit of specialization on complex input samples cannot be achieved with a small sample set, i.e., a good classifier seems to rely on very complex feature analysis that cannot be well trained on just a limited subset of "difficult samples". We propose an improvement to Conf-Ensemble to increase the number of samples fed to successive ensemble members, and a three-member Conf-Ensemble using this improvement was able to surpass a single model in accuracy, although the amount is not significant. Our findings shed light on the limits of the approach and the non-triviality of harnessing big data.
翻訳日:2023-03-07 15:47:56 公開日:2023-03-03
# Revisiting Wright: 人工訓練データを用いたラット超音波発声の教師付き分類の改善

Revisiting Wright: Improving supervised classification of rat ultrasonic vocalisations using synthetic training data ( http://arxiv.org/abs/2303.03183v1 )

ライセンス: Link先を確認
K. Jack Scott, Lucinda J. Speers, David K. Bilkey(参考訳) ダクトは超音波発声(USV)を介して通信する。 これらの呼び出しは声道コミュニケーションの発達と機能に関する洞察を与え、神経発達障害のモデルにおける機能障害のバイオマーカーとして有用であることが証明される。 rodent usvは異なるコンポーネントに分類でき、手動の分類は時間がかかるが、ニューラルネットワークの進歩により、高速で正確な識別と分類が可能になった。 ここでは,マウスusvsの解析用に作製したconvolutional neural network (cnn) と vocalmat をラットに適用した。 我々はwright et al. (2010) が以前に提案したスキーマから派生した修正スキーマを分類のために体系化し,vocalmat の適応性能をベンチマーク cnn である deepsqueak と比較した。 さらに,本分類ネットワークのトレーニングデータに合成usvを挿入することにより,トレーニングセット作成に伴う作業負荷を低減する効果を検証した。 提案手法は,コール識別と分類の尺度において,修正されたボーカルマットがベンチマークソフトウェアを上回ったことを示す。 また,合成画像を用いた訓練データの強化により,新たなデータの解析に用いた場合,声質の精度が著しく向上することが判明した。 修正されたライト分類の精度は、実験条件におけるラットのusv分類におけるこのソフトウェアの適用を可能にするのに十分なものであった。 また, トレーニングセットに合成USVコールを挿入すると, 追加の時間コストを伴わず精度が向上することを示した。

Rodents communicate through ultrasonic vocalizations (USVs). These calls are of interest because they provide insight into the development and function of vocal communication, and may prove to be useful as a biomarker for dysfunction in models of neurodevelopmental disorders. Rodent USVs can be categorised into different components and while manual classification is time consuming, advances in neural computing have allowed for fast and accurate identification and classification. Here, we adapt a convolutional neural network (CNN), VocalMat, created for analysing mice USVs, for use with rats. We codify a modified schema, adapted from that previously proposed by Wright et al. (2010), for classification, and compare the performance of our adaptation of VocalMat with a benchmark CNN, DeepSqueak. Additionally, we test the effect of inserting synthetic USVs into the training data of our classification network in order to reduce the workload involved in generating a training set. Our results show that the modified VocalMat outperformed the benchmark software on measures of both call identification, and classification. Additionally, we found that the augmentation of training data with synthetic images resulted in a marked improvement in the accuracy of VocalMat when it was subsequently used to analyse novel data. The resulting accuracy on the modified Wright categorizations was sufficiently high to allow for the application of this software in rat USV classification in laboratory conditions. Our findings also show that inserting synthetic USV calls into the training set leads to improvements in accuracy with little extra time-cost.
翻訳日:2023-03-07 15:47:34 公開日:2023-03-03
# 音声感情分析のための事前学習モデル表現とその雑音に対するロバスト性

Pre-trained Model Representations and their Robustness against Noise for Speech Emotion Analysis ( http://arxiv.org/abs/2303.03177v1 )

ライセンス: Link先を確認
Vikramjit Mitra, Vasudha Kowtha, Hsiang-Yun Sherry Chien, Erdrin Azemi, Carlos Avendano(参考訳) 事前訓練されたモデル表現は、音声認識、自然言語処理、その他の応用において最先端の性能を示している。 変換器からの双方向エンコーダ表現 (BERT) や隠れユニットBERT (HuBERT) のような音声モデルは、音声認識の応用のために語彙的および音響的表現を生成することができる。 音声からアクティベーション,ヴァレンス,支配といった次元的感情を推定するために,事前学習したモデル表現を用いた。 原子価は語彙表現に大きく依存するが、アクティベーションと支配は主に音響情報に依存している。 本研究では,事前学習したモデルからのマルチモーダル融合表現を用いて,最先端の音声感情推定を行い,標準音響および語彙ベースラインと比較して,一致相関係数(CCC)の100%および30%の相対的な改善を示した。 最後に,事前学習したモデル表現の雑音や残響劣化に対するロバスト性について検討し,語彙表現と音響表現の違いに気付いた。 語彙表現は音響表現と比較して歪みに強いことが分かり,マルチモーダルモデルからの知識蒸留が音響モデルにおけるノイズ・ロバスト性の向上に役立つことを示した。

Pre-trained model representations have demonstrated state-of-the-art performance in speech recognition, natural language processing, and other applications. Speech models, such as Bidirectional Encoder Representations from Transformers (BERT) and Hidden units BERT (HuBERT), have enabled generating lexical and acoustic representations to benefit speech recognition applications. We investigated the use of pre-trained model representations for estimating dimensional emotions, such as activation, valence, and dominance, from speech. We observed that while valence may rely heavily on lexical representations, activation and dominance rely mostly on acoustic information. In this work, we used multi-modal fusion representations from pre-trained models to generate state-of-the-art speech emotion estimation, and we showed a 100% and 30% relative improvement in concordance correlation coefficient (CCC) on valence estimation compared to standard acoustic and lexical baselines. Finally, we investigated the robustness of pre-trained model representations against noise and reverberation degradation and noticed that lexical and acoustic representations are impacted differently. We discovered that lexical representations are more robust to distortions compared to acoustic representations, and demonstrated that knowledge distillation from a multi-modal model helps to improve the noise-robustness of acoustic-based models.
翻訳日:2023-03-07 15:46:21 公開日:2023-03-03
# Vectorial Genetic Programming -- 特徴抽出のためのセグメントの最適化

Vectorial Genetic Programming -- Optimizing Segments for Feature Extraction ( http://arxiv.org/abs/2303.03200v1 )

ライセンス: Link先を確認
Philipp Fleck, Stephan Winkler, Michael Kommenda, Michael Affenzeller(参考訳) Vectorial Genetic Programming (Vec-GP) は、ベクトルを正規のスカラー特徴に沿って入力特徴として扱えるようにしてGPを拡張する。 vec-gpはまた、ベクター全体ではなく、ベクターの限られたセグメントのみを集約することを可能にするが、gpが最適化しなければならない新しいパラメータも導入する。 本稿では,アグリゲーション関数のウィンドウ最適化のための最適化問題を定式化する。 ランダムサンプリングとガイドサンプリングを含む様々な戦略が提示され、後者は近似勾配からの情報を活用する。 これらの戦略は単純な最適化アルゴリズムとして適用でき、gp内の特殊突然変異演算子内でcaを適用できる。 その結果, ランダムサンプリング戦略の違いはアルゴリズム全体の性能に大きな影響を与えず, ガイド戦略は局所光学系に定着しにくいことがわかった。 しかし、結果はまた、提示された戦略に勝る効率的なアルゴリズムを発見する可能性も示唆している。

Vectorial Genetic Programming (Vec-GP) extends GP by allowing vectors as input features along regular, scalar features, using them by applying arithmetic operations component-wise or aggregating vectors into scalars by some aggregation function. Vec-GP also allows aggregating vectors only over a limited segment of the vector instead of the whole vector, which offers great potential but also introduces new parameters that GP has to optimize. This paper formalizes an optimization problem to analyze different strategies for optimizing a window for aggregation functions. Different strategies are presented, included random and guided sampling, where the latter leverages information from an approximated gradient. Those strategies can be applied as a simple optimization algorithm, which itself ca be applied inside a specialized mutation operator within GP. The presented results indicate, that the different random sampling strategies do not impact the overall algorithm performance significantly, and that the guided strategies suffer from becoming stuck in local optima. However, results also indicate, that there is still potential in discovering more efficient algorithms that could outperform the presented strategies.
翻訳日:2023-03-07 15:40:54 公開日:2023-03-03
# 順序付き多項二項決定図に対するクエリ学習アルゴリズム

Query Learning Algorithm for Ordered Multi-Terminal Binary Decision Diagrams ( http://arxiv.org/abs/2303.03195v1 )

ライセンス: Link先を確認
Atsuyoshi Nakamura(参考訳) 順序付き二項決定図 (omtbdds) のアルゴリズムを拡張し, 最大n等価値と2n(l\lcei\log_2 m\rceil+3n)のメンバシップクエリを用いて, 順序付き多端二項決定図 (omtbdds) に対するクエリ学習アルゴリズムを提案する。 人工的に生成されたomtbddを用いた実験では,上界の密着性を確認した。 このアルゴリズムを分類問題に適用する可能性も,uci機械学習リポジトリのデータセットを用いた実験で示された。

We propose a query learning algorithm for ordered multi-terminal binary decision diagrams (OMTBDDs) using at most n equivalence and 2n(l\lcei\log_2 m\rceil+ 3n) membership queries by extending the algorithm for ordered binary decision diagrams (OBDDs). Tightness of our upper bounds is checked in our experiments using synthetically generated target OMTBDDs. Possibility of applying our algorithm to classification problems is also indicated in our other experiments using datasets of UCI Machine Learning Repository.
翻訳日:2023-03-07 15:39:46 公開日:2023-03-03
# エンドツーエンド音声認識:サーベイ

End-to-End Speech Recognition: A Survey ( http://arxiv.org/abs/2303.03329v1 )

ライセンス: Link先を確認
Rohit Prabhavalkar, Takaaki Hori, Tara N. Sainath, Ralf Schl\"uter, Shinji Watanabe(参考訳) 音声認識(ASR)研究の過去10年間で、ディープラーニングの導入により、単語誤り率の50%以上を、ディープラーニングのないモデリングと比較して大幅に削減した。 この変遷の後、多くの全神経性asrアーキテクチャが導入された。 いわゆるエンドツーエンド(e2e)モデルは、一般的な機械学習の知識に強く依存する、高度に統合された完全にニューラルネットワークのasrモデルを提供するが、asrドメイン固有のエクスペリエンスには依存しない。 より汎用的なモデルアーキテクチャを伴うディープラーニングの成功と熱狂的な採用により、E2Eモデルは現在では顕著なASRアプローチとなっている。 この調査の目的は、E2E ASRモデルの分類とそれに対応する改善を提供し、それらの特性と古典的隠れマルコフモデル(HMM)に基づくASRアーキテクチャとの関係について議論することである。 E2E ASRのすべての関連する側面は、モデリング、トレーニング、デコーディング、および外部言語モデルの統合、パフォーマンスとデプロイメントの機会に関する議論、そして将来の発展への展望である。

In the last decade of automatic speech recognition (ASR) research, the introduction of deep learning brought considerable reductions in word error rate of more than 50% relative, compared to modeling without deep learning. In the wake of this transition, a number of all-neural ASR architectures were introduced. These so-called end-to-end (E2E) models provide highly integrated, completely neural ASR models, which rely strongly on general machine learning knowledge, learn more consistently from data, while depending less on ASR domain-specific experience. The success and enthusiastic adoption of deep learning accompanied by more generic model architectures lead to E2E models now becoming the prominent ASR approach. The goal of this survey is to provide a taxonomy of E2E ASR models and corresponding improvements, and to discuss their properties and their relation to the classical hidden Markov model (HMM) based ASR architecture. All relevant aspects of E2E ASR are covered in this work: modeling, training, decoding, and external language model integration, accompanied by discussions of performance and deployment opportunities, as well as an outlook into potential future developments.
翻訳日:2023-03-07 15:00:28 公開日:2023-03-03
# マルチエージェント社会選択によるダイナミックフェアネス・アウェア・レコメンデーション

Dynamic fairness-aware recommendation through multi-agent social choice ( http://arxiv.org/abs/2303.00968v2 )

ライセンス: Link先を確認
Amanda Aird, Paresha Farastu, Joshua Sun, Amy Voida, Nicholas Mattei, Robin Burke(参考訳) パーソナライズドレコメンデーションの文脈におけるアルゴリズム的公平性は、分類タスクでよく遭遇する人々とは大きく異なる課題を示している。 分類を研究する研究者は一般に、公正性は保護されたグループと保護されていないグループの間の結果の平等を達成する問題であるとみなし、この基準に基づいてアルゴリズムによる介入を構築した。 私たちは、現実世界のアプリケーション全般、特にパーソナライズドレコメンデーションの文脈における公平性は、より複雑で多面的であり、より一般的なアプローチを必要とすると主張している。 2段階の社会的選択問題として,レコメンダシステムにおけるマルチテイクホルダフェアネスを定式化するモデルを提案する。 特に,公平性問題とパーソナライズド・レコメンデーション規定の両方を統合したアロケーション問題とアグリゲーション問題の新たな組み合わせとしてレコメンデーション・フェアネスを表現し,この定式化に基づく新しいレコメンデーション手法を導出する。 シミュレーションは、フレームワークが動的に複数の公正な関心事を統合する能力を示している。

Algorithmic fairness in the context of personalized recommendation presents significantly different challenges to those commonly encountered in classification tasks. Researchers studying classification have generally considered fairness to be a matter of achieving equality of outcomes between a protected and unprotected group, and built algorithmic interventions on this basis. We argue that fairness in real-world application settings in general, and especially in the context of personalized recommendation, is much more complex and multi-faceted, requiring a more general approach. We propose a model to formalize multistakeholder fairness in recommender systems as a two stage social choice problem. In particular, we express recommendation fairness as a novel combination of an allocation and an aggregation problem, which integrate both fairness concerns and personalized recommendation provisions, and derive new recommendation techniques based on this formulation. Simulations demonstrate the ability of the framework to integrate multiple fairness concerns in a dynamic way.
翻訳日:2023-03-07 12:19:09 公開日:2023-03-03
# 合成次元における超伝導量子干渉デバイス

Atomtronic superconducting quantum interference device in synthetic dimensions ( http://arxiv.org/abs/2303.01655v1 )

ライセンス: Link先を確認
Wenxi Lai, Yu-Quan Ma, Yi-Wen Wei(参考訳) 合成2次元空間における超伝導量子干渉デバイス(squid)の原子トロン対応式を提案する。 この系は、ボース=アインシュタイン凝縮体(BEC)と、外部コヒーレント光に結合した隣接する2つの光学井戸からなる。 さらに, 合成次元における制御可能な原子トロンフラックス量子ビットの可利用性を示す。 クビットの制御パラメータは、コヒーレント原子-光結合に由来する人工磁束によって自然に提供される。 少なくとも2ドルの回路を必要とする従来のSQUIDと比較して、合成次元SQUIDは1ドルの回路でしか実現できない。 これは量子論理ゲートのスケーラビリティと統合機能にとって大きな利点となるはずです。

We propose atomtronic counterpart of superconducting quantum interference device (SQUID) in synthetic $2$-dimensional space. The system is composed of Bose-Einstein condensate (BEC) in two neighboring optical wells which is coupled to an external coherent light. Furthermore, availability of controllable atomtronic flux qubit in the synthetic dimensions is demonstrated with this system. Control parameter for the qubit is naturally provided by artificial magnetic flux originated from the coherent atom-light coupling. Comparing with traditional SQUID which requires at least $2$-dimensional circuits, the synthetic dimensional SQUID can be realized only in $1$-dimensional circuits. It should be a great advantage for the scalability and integration feature of quantum logic gates.
翻訳日:2023-03-06 16:40:26 公開日:2023-03-03
# APIContext2Com: 事前定義されたAPIドキュメンテーションを組み込んだコードコメント生成

APIContext2Com: Code Comment Generation by Incorporating Pre-Defined API Documentation ( http://arxiv.org/abs/2303.01645v1 )

ライセンス: Link先を確認
Ramin Shahbazi, Fatemeh Fard(参考訳) コードコメントはソフトウェアプログラムの理解に非常に役立ち、開発者のソフトウェアのメンテナンスに多大な時間を費やすのにも役立ちます。 コードコメント生成は、コードスニペットによって自然言語でコメントを自動的に予測することを目的としている。 いくつかの研究は、外部知識の統合が生成したコメントの品質に与える影響を調査している。 本研究では,api(pre-defined application programming interface)コンテキストを組み込むことにより,生成されたコメントの有効性を向上させるためのソリューションであるapicontext2comを提案する。 APIコンテキストには、コードスニペット内で使用される事前定義されたAPIの定義と記述が含まれている。 詳細なAPI情報は、コードスニペットの機能を表現しているので、コード要約をより良く生成するのに役立ちます。 異なる複数のエンコーダのセットを持つセック-2-seqエンコーダデコーダニューラルネットワークモデルを導入し、異なる入力をターゲットコメントに効果的に変換する。 非形式的なAPIを除外し、無関係なAPIをフィルタリングできるようにランキング機構も開発されている。 CodeSearchNetのJavaデータセットを用いて,我々のアプローチを評価する。 その結果, BLEU1, BLEU2, BLEU3, BLEU4, METEOR, ROUGE-Lはそれぞれ1.88 (8.24 %), 2.16 (17.58 %), 1.38 (18.3 %), 0.73 (14.17 %), 1.58 (14.98 %), 1.9 (6.92 %)の改善が得られた。 人間による評価とアブレーション研究は、生成されたコメントの品質と、アーキテクチャとランキングAPIの効果を確認する。

Code comments are significantly helpful in comprehending software programs and also aid developers to save a great deal of time in software maintenance. Code comment generation aims to automatically predict comments in natural language given a code snippet. Several works investigate the effect of integrating external knowledge on the quality of generated comments. In this study, we propose a solution, namely APIContext2Com, to improve the effectiveness of generated comments by incorporating the pre-defined Application Programming Interface (API) context. The API context includes the definition and description of the pre-defined APIs that are used within the code snippets. As the detailed API information expresses the functionality of a code snippet, it can be helpful in better generating the code summary. We introduce a seq-2-seq encoder-decoder neural network model with different sets of multiple encoders to effectively transform distinct inputs into target comments. A ranking mechanism is also developed to exclude non-informative APIs, so that we can filter out unrelated APIs. We evaluate our approach using the Java dataset from CodeSearchNet. The findings reveal that the proposed model improves the best baseline by 1.88 (8.24 %), 2.16 (17.58 %), 1.38 (18.3 %), 0.73 (14.17 %), 1.58 (14.98 %) and 1.9 (6.92 %) for BLEU1, BLEU2, BLEU3, BLEU4, METEOR, ROUGE-L respectively. Human evaluation and ablation studies confirm the quality of the generated comments and the effect of architecture and ranking APIs.
翻訳日:2023-03-06 16:40:17 公開日:2023-03-03
# RIOT:低速度IMU測定による再帰的慣性オドメトリー変換器

RIOT: Recursive Inertial Odometry Transformer for Localisation from Low-Cost IMU Measurements ( http://arxiv.org/abs/2303.01641v1 )

ライセンス: Link先を確認
James Brotchie, Wenchao Li, Andrew D. Greentree, Allison Kealy(参考訳) 慣性ローカライゼーションは,外部オブザーバが利用できない状況下でのエゴモーション推定を可能にする重要な手法である。 しかし、低コストの慣性センサーは本質的にバイアスとノイズによって破壊され、非バウンドエラーを引き起こし、位置を正しく統合できない。 伝統的な数学的アプローチは、事前のシステム知識や幾何学的理論に依存し、事前定義されたダイナミクスによって制約される。 ディープラーニングの最近の進歩は、大量のデータと計算能力の増大によって、より包括的な理解を提供するデータ駆動ソリューションを可能にする。 既存の深い慣性オドメトリーの解は、速度などの潜時状態を推定するか、固定されたセンサーの位置や周期的な動きパターンに依存する。 本研究では,従来の状態推定再帰的手法を深層学習領域に適用することを提案する。 本手法は,実測値と地上真理変位データに基づいてトレーニングを行い,再帰を可能とし,運動特性とシステム誤差バイアスとドリフトの両方を学習する。 本稿では,空間的特徴と遠距離依存性の両方を捉えた,不変深部慣性オドメトリのための2つのエンド・ツー・エンドフレームワークを提案する。 我々は、同じデータで同じ方法で訓練されたカスタム2層Gated Recurrent Unitに対するアプローチを評価し、複数の異なるユーザ、デバイス、アクティビティに対してそれぞれのアプローチをテストした。 各ネットワークは、シーケンス長重み付き相対軌道誤差平均$\leq0.4594$mを持ち、モデルの開発に使用する学習プロセスの有効性を強調した。

Inertial localisation is an important technique as it enables ego-motion estimation in conditions where external observers are unavailable. However, low-cost inertial sensors are inherently corrupted by bias and noise, which lead to unbound errors, making straight integration for position intractable. Traditional mathematical approaches are reliant on prior system knowledge, geometric theories and are constrained by predefined dynamics. Recent advances in deep learning, that benefit from ever-increasing volumes of data and computational power, allow for data driven solutions that offer more comprehensive understanding. Existing deep inertial odometry solutions rely on estimating the latent states, such as velocity, or are dependant on fixed sensor positions and periodic motion patterns. In this work we propose taking the traditional state estimation recursive methodology and applying it in the deep learning domain. Our approach, which incorporates the true position priors in the training process, is trained on inertial measurements and ground truth displacement data, allowing recursion and to learn both motion characteristics and systemic error bias and drift. We present two end-to-end frameworks for pose invariant deep inertial odometry that utilise self-attention to capture both spatial features and long-range dependencies in inertial data. We evaluate our approaches against a custom 2-layer Gated Recurrent Unit, trained in the same manner on the same data, and tested each approach on a number of different users, devices and activities. Each network had a sequence length weighted relative trajectory error mean $\leq0.4594$m, highlighting the effectiveness of our learning process used in the development of the models.
翻訳日:2023-03-06 16:39:46 公開日:2023-03-03
# 粒子トラック再構成のための階層型グラフニューラルネットワーク

Hierarchical Graph Neural Networks for Particle Track Reconstruction ( http://arxiv.org/abs/2303.01640v1 )

ライセンス: Link先を確認
Ryan Liu, Paolo Calafiura, Steven Farrell, Xiangyang Ju, Daniel Thomas Murnane, Tuan Minh Pham(参考訳) 階層グラフニューラルネット(HGNN)と呼ばれる粒子追跡のための新しい変種GNNを提案する。 アーキテクチャは、トラックに対応する高レベル表現のセットを作成し、これらのトラックにスペースポイントを割り当て、切断されたスペースポイントを同じトラックに割り当て、複数のトラックで同じスペースポイントを共有することができる。 GMPoolと呼ばれる新しい学習可能なプーリングアルゴリズムを提案し、これらの高レベル表現を「スーパーノード」と呼び、また問題やHGNNを追尾する新しい損失関数を提案する。 従来のMLベースの追跡アルゴリズムと比較して、HGNNはトラッキング効率が向上し、非効率な入力グラフに対する堅牢性が向上し、従来のGNNよりも収束性が向上したことを示す。

We introduce a novel variant of GNN for particle tracking called Hierarchical Graph Neural Network (HGNN). The architecture creates a set of higher-level representations which correspond to tracks and assigns spacepoints to these tracks, allowing disconnected spacepoints to be assigned to the same track, as well as multiple tracks to share the same spacepoint. We propose a novel learnable pooling algorithm called GMPool to generate these higher-level representations called "super-nodes", as well as a new loss function designed for tracking problems and HGNN specifically. On a standard tracking problem, we show that, compared with previous ML-based tracking algorithms, the HGNN has better tracking efficiency performance, better robustness against inefficient input graphs, and better convergence compared with traditional GNNs.
翻訳日:2023-03-06 16:39:16 公開日:2023-03-03
# 低用量歯科用コーンビームCTにおける非線形不良問題

Nonlinear ill-posed problem in low-dose dental cone-beam computed tomography ( http://arxiv.org/abs/2303.01678v1 )

ライセンス: Link先を確認
Hyoung Suk Park and Chang Min Hyun and Jin Keun Seo(参考訳) 本稿では,低線量歯科用コーンビームCT(CBCT)の非線型逆問題に対する数学的構造について述べるとともに,従来の正規化法よりも深層学習による断層画像再構成の利点を説明する。 本報告では, 歯科用CBCTが標準CTより悪用されている理由について述べる。 このような悪影響にもかかわらず, 歯科用CBCTシステムの需要は, コスト競争性と低放射線量により急速に増加している。 次に,金属インプラントにより損傷を受けた歯科用CBCTデータを用いて,歯の形態的構造を正確に復元するための既存の方法の限界について述べる。 さらに,CBCTデータから生成されたパノラマ画像の有用性について検討した。 また,放射線のない口腔内スキャンデータをCBCT画像再構成の先行情報として活用し,金属インプラントによる損傷を補う可能性についても検討した。

This paper describes the mathematical structure of the ill-posed nonlinear inverse problem of low-dose dental cone-beam computed tomography (CBCT) and explains the advantages of a deep learning-based approach to the reconstruction of computed tomography images over conventional regularization methods. This paper explains the underlying reasons why dental CBCT is more ill-posed than standard computed tomography. Despite this severe ill-posedness, the demand for dental CBCT systems is rapidly growing because of their cost competitiveness and low radiation dose. We then describe the limitations of existing methods in the accurate restoration of the morphological structures of teeth using dental CBCT data severely damaged by metal implants. We further discuss the usefulness of panoramic images generated from CBCT data for accurate tooth segmentation. We also discuss the possibility of utilizing radiation-free intra-oral scan data as prior information in CBCT image reconstruction to compensate for the damage to data caused by metal implants.
翻訳日:2023-03-06 16:30:10 公開日:2023-03-03
# 長期安定性を有する10kmファイバリンク上の狭帯域光子対の周波数多重記憶と分布

Frequency-multiplexed storage and distribution of narrowband telecom photon pairs over a 10-km fiber link with long-term system stability ( http://arxiv.org/abs/2303.01677v1 )

ライセンス: Link先を確認
Ko Ito, Takeshi Kondo, Kyoko Mannami, Kazuya Niizeki, Daisuke Yoshida, Kohei Minaguchi, Mingyang Zheng, Xiuping Xie, Feng-Lei Hong, and Tomoyuki Horikiri(参考訳) 長距離で量子状態を送信する能力は、量子インターネットの基本的要件であり、量子リピータに依存している。 量子リピータは、光子エンタングル状態を高速で放出する絡み合った光子源と、一時的に量子状態を保存できる量子記憶を含んでいる。 量子リピータには絡み合い分布率の改善が不可欠であり、多重化はブレークスルーとなることが期待される。 しかし、多重光子源とその多重量子メモリとの結合に関する限られた研究が存在する。 本稿では、周波数多重化2光子源を10km分布後の波長変換により可視波長を受け入れる量子メモリに格納する。 これを実現するため、量子システムは周波数安定化システムとノイズ低減システムによって波長変換を介して接続される。 開発したシステムは42時間以上安定して動作した。 したがって、長期システムの安定性を必要とする様々な物理系からなる量子リピータシステムに適用することができる。

The ability to transmit quantum states over long distances is a fundamental requirement of the quantum internet and is reliant upon quantum repeaters. Quantum repeaters involve entangled photon sources that emit and deliver photonic entangled states at high rates and quantum memories that can temporarily store quantum states. Improvement of the entanglement distribution rate is essential for quantum repeaters, and multiplexing is expected to be a breakthrough. However, limited studies exist on multiplexed photon sources and their coupling with a multiplexed quantum memory. Here, we demonstrate the storing of a frequency-multiplexed two-photon source at telecommunication wavelengths in a quantum memory accepting visible wavelengths via wavelength conversion after 10-km distribution. To achieve this, quantum systems are connected via wavelength conversion with a frequency stabilization system and a noise reduction system. The developed system was stably operated for more than 42 h. Therefore, it can be applied to quantum repeater systems comprising various physical systems requiring long-term system stability.
翻訳日:2023-03-06 16:29:55 公開日:2023-03-03
# オンライン学習のための最適メモリ-レグレットトレードオフ

Near Optimal Memory-Regret Tradeoff for Online Learning ( http://arxiv.org/abs/2303.01673v1 )

ライセンス: Link先を確認
Binghui Peng and Aviad Rubinstein(参考訳) 専門家の問題では、$t$ の日ごとに、エージェントは$n$ ``experts'' のいずれかのアドバイスに従う必要がある。 毎日、各専門家のアドバイスにかかわる損失が明らかにされる。 学習理論の基本的な結果は、エージェントが消滅する後悔、すなわち、その累積損失は、最高の視界の専門家の累積損失の$o(T)$以内である。 エージェントは、すべての専門家を思い出すのに十分なスペースなしでうまく機能できるか? PZ23] で得られたメモリ-リグレットトレードオフを改善し,[SWXZ22] の下位境界にほぼ一致するように, 難解な敵に対する新しいアルゴリズムを与える。 $\bullet$ エージェントが選択した過去の専門家を観察できる適応的な敵も検討する。 この設定では、新しいアルゴリズムと新しい下限を与え、およそ$\sqrt{n}$メモリが必要であり、$o(t)$ regretを得るのに十分であることを示す。

In the experts problem, on each of $T$ days, an agent needs to follow the advice of one of $n$ ``experts''. After each day, the loss associated with each expert's advice is revealed. A fundamental result in learning theory says that the agent can achieve vanishing regret, i.e. their cumulative loss is within $o(T)$ of the cumulative loss of the best-in-hindsight expert. Can the agent perform well without sufficient space to remember all the experts? We extend a nascent line of research on this question in two directions: $\bullet$ We give a new algorithm against the oblivious adversary, improving over the memory-regret tradeoff obtained by [PZ23], and nearly matching the lower bound of [SWXZ22]. $\bullet$ We also consider an adaptive adversary who can observe past experts chosen by the agent. In this setting we give both a new algorithm and a novel lower bound, proving that roughly $\sqrt{n}$ memory is both necessary and sufficient for obtaining $o(T)$ regret.
翻訳日:2023-03-06 16:29:37 公開日:2023-03-03
# タイルネットワーク:全ページ推薦のための最適幾何学レイアウト学習

Tile Networks: Learning Optimal Geometric Layout for Whole-page Recommendation ( http://arxiv.org/abs/2303.01671v1 )

ライセンス: Link先を確認
Shuai Xiao, Zaifan Jiang, Shuang Yang(参考訳) 幾何学空間における最適構成を見つけることは、多くの技術分野において重要な課題である。 現在のアプローチでは、人間のドメインの専門知識に大きく依存するか、スケールアップが困難です。 本稿では,強化学習を用いて,全ページレコメンデーションの構成最適化問題を解くことができることを示す。 提案された \textit{tile networks} は、適切な位置にアイテムを配置することで2次元幾何学的構成を最適化するニューラルネットワークである。 実データセットにおける実証的な結果は、従来の学習法や最近の深層モデルと比較して優れたパフォーマンスを示している。

Finding optimal configurations in a geometric space is a key challenge in many technological disciplines. Current approaches either rely heavily on human domain expertise and are difficult to scale. In this paper we show it is possible to solve configuration optimization problems for whole-page recommendation using reinforcement learning. The proposed \textit{Tile Networks} is a neural architecture that optimizes 2D geometric configurations by arranging items on proper positions. Empirical results on real dataset demonstrate its superior performance compared to traditional learning to rank approaches and recent deep models.
翻訳日:2023-03-06 16:29:17 公開日:2023-03-03
# ファイングラインド視覚認識問題に対する自己改善型表現改善のための共通学習

Learning Common Rationale to Improve Self-Supervised Representation for Fine-Grained Visual Recognition Problems ( http://arxiv.org/abs/2303.01669v1 )

ライセンス: Link先を確認
Yangyang Shu, Anton van den Hengel, Lingqiao Liu(参考訳) 自己教師付き学習(SSL)戦略は、様々な認識タスクにおいて顕著な性能を示した。 しかし,本研究および最近の研究は,SSL目標の最適化に有効な多くの特徴がFGVRの微妙な違いを特徴づけるのに適さないため,細粒度視覚認識(FGVR)の学習効果が低いことを示唆している。 この問題を克服するために,本論文では,インスタンスやクラス間でよく見られる識別的手がかりを識別するための,新たなスクリーニング機構の学習を提案する。 直感的には、共通有理は前景オブジェクトのキー部分からの識別パターンに対応する傾向がある。 既存のSSLプロセスとシームレスに統合できるように、トレーニング済みのオブジェクト部品やサリエンシ検出器を使わずに、SSL目標から誘導されるGradCAMを単純に活用することで、共通の合理性検出器を学習できることが示される。 具体的には、GradCAMを限定的な適合能力のブランチに適合させることで、共通の論理をキャプチャし、あまり一般的でない識別パターンを捨てることができます。 テスト段階では、ブランチは一連の空間重みを生成し、インスタンスを表す特徴を選択的に集約する。 4つの視覚的タスクに対する大規模な実験結果から,提案手法は異なる評価設定において大幅な改善をもたらすことが示された。

Self-supervised learning (SSL) strategies have demonstrated remarkable performance in various recognition tasks. However, both our preliminary investigation and recent studies suggest that they may be less effective in learning representations for fine-grained visual recognition (FGVR) since many features helpful for optimizing SSL objectives are not suitable for characterizing the subtle differences in FGVR. To overcome this issue, we propose learning an additional screening mechanism to identify discriminative clues commonly seen across instances and classes, dubbed as common rationales in this paper. Intuitively, common rationales tend to correspond to the discriminative patterns from the key parts of foreground objects. We show that a common rationale detector can be learned by simply exploiting the GradCAM induced from the SSL objective without using any pre-trained object parts or saliency detectors, making it seamlessly to be integrated with the existing SSL process. Specifically, we fit the GradCAM with a branch with limited fitting capacity, which allows the branch to capture the common rationales and discard the less common discriminative patterns. At the test stage, the branch generates a set of spatial weights to selectively aggregate features representing an instance. Extensive experimental results on four visual tasks demonstrate that the proposed method can lead to a significant improvement in different evaluation settings.
翻訳日:2023-03-06 16:29:08 公開日:2023-03-03
# RePreM:強化学習のためのマスクモデルによる表現事前学習

RePreM: Representation Pre-training with Masked Model for Reinforcement Learning ( http://arxiv.org/abs/2303.01668v1 )

ライセンス: Link先を確認
Yuanying Cai, Chuheng Zhang, Wei Shen, Xuyun Zhang, Wenjie Ruan, Longbo Huang(参考訳) rlにおける最近のシーケンスモデリングの成功と、事前学習のためのマスク言語モデルの使用に触発されて、rlにおける事前学習のためのマスクモデルであるreprem (representation pre-training with masked model)を提案し、エンコーダをトランスフォーマブロックと組み合わせてトレーニングし、軌道上のマスク状態や動作を予測する。 RePreMはRLの既存の表現事前学習法と比較してシンプルだが有効である。 シーケンスモデリングによるアルゴリズムの高度化(データ拡張や複数のモデルの推定など)を回避し、長期のダイナミクスをうまく捉えた表現を生成する。 本研究では,動的予測や伝達学習,サンプル効率のよいRLなど,様々なタスクにおけるRePreMの有効性を示す。 さらに、RePreMはデータセットのサイズ、データセットの品質、エンコーダのスケールによく対応しており、大きなRLモデルに対するその可能性を示している。

Inspired by the recent success of sequence modeling in RL and the use of masked language model for pre-training, we propose a masked model for pre-training in RL, RePreM (Representation Pre-training with Masked Model), which trains the encoder combined with transformer blocks to predict the masked states or actions in a trajectory. RePreM is simple but effective compared to existing representation pre-training methods in RL. It avoids algorithmic sophistication (such as data augmentation or estimating multiple models) with sequence modeling and generates a representation that captures long-term dynamics well. Empirically, we demonstrate the effectiveness of RePreM in various tasks, including dynamic prediction, transfer learning, and sample-efficient RL with both value-based and actor-critic methods. Moreover, we show that RePreM scales well with dataset size, dataset quality, and the scale of the encoder, which indicates its potential towards big RL models.
翻訳日:2023-03-06 16:28:43 公開日:2023-03-03
# Miipher: 自己監督音声とテキスト表現を統合したロバスト音声復元モデル

Miipher: A Robust Speech Restoration Model Integrating Self-Supervised Speech and Text Representations ( http://arxiv.org/abs/2303.01664v1 )

ライセンス: Link先を確認
Yuma Koizumi, Heiga Zen, Shigeki Karita, Yifan Ding, Kohei Yatabe, Nobuyuki Morioka, Yu Zhang, Wei Han, Ankur Bapna, Michiel Bacchiani(参考訳) 音声復元(SR)は、劣化した音声信号を高品質なものに変換するタスクである。 本研究では、Miipherと呼ばれる頑健なSRモデルを提案し、Miipherを新しいSRアプリケーションに適用し、Webから収集した音声サンプルをスタジオ品質に変換することによって、音声生成のための高品質なトレーニングデータ量を増やす。 SRモデルを様々な劣化に対して堅牢にするには 一 入力特徴のためにw2v-BERTから抽出した音声表現及び 2PnG-BERTを介してテキストから抽出したテキスト表現を言語条件付き特徴とする。 Miipherの実験結果 (i)各種オーディオ劣化に対して頑健であり (II) Web から収集した音声サンプルから高品質なテキスト音声(TTS)モデルを訓練することができる。 オーディオサンプルはデモページで公開されている。

Speech restoration (SR) is a task of converting degraded speech signals into high-quality ones. In this study, we propose a robust SR model called Miipher, and apply Miipher to a new SR application: increasing the amount of high-quality training data for speech generation by converting speech samples collected from the Web to studio-quality. To make our SR model robust against various degradation, we use (i) a speech representation extracted from w2v-BERT for the input feature, and (ii) a text representation extracted from transcripts via PnG-BERT as a linguistic conditioning feature. Experiments show that Miipher (i) is robust against various audio degradation and (ii) enable us to train a high-quality text-to-speech (TTS) model from restored speech samples collected from the Web. Audio samples are available at our demo page: google.github.io/df-conformer/miipher/
翻訳日:2023-03-06 16:28:25 公開日:2023-03-03
# アルミニウム-ゲルマニウムプラズモニックフィルタアレイを用いた長波赤外マルチスペクトル画像センサシステム

Longwave infrared multispectral image sensor system using aluminum-germanium plasmonic filter arrays ( http://arxiv.org/abs/2303.01661v1 )

ライセンス: Link先を確認
Noor E Karishma Shaik, Bryce Widdicombe, Dechuan Sun, Sam E John, Dongryeol Ryu, Ampalavanapillai Nirmalathas, Ranjith R Unnithan(参考訳) マルチスペクトルカメラは、電磁スペクトルの様々な波長で画像データを記録し、従来のカメラが捉えない追加情報を取得する。 高分解能画像センサとカラーフィルタ技術が出現し、可視波長のマルチスペクトル撮像器は、この10年で商業的生存率を高めている。 しかし、光材料、フィルタ技術、高分解能センサーが限られたため、LWIR(Longwave Infrared)におけるマルチスペクトルイメージング(LWIR: 8から14ミクロン)はいまだ発展途上である。 LWIRマルチスペクトルカメラの画像は、物体の放射スペクトルを捉え、人間の目が捉えない追加情報を取り出すことができるため、精密農業、林業、医学、および物体識別に重要な応用がある。 本研究では,アルミニウム系プラズモニックフィルタアレイを用いた3波長帯lwirマルチスペクトルイメージセンサを,ゲルマニウムでサンドイッチした光学素子を用いて実験的に実証した。 このマルチスペクトルセンサを実現するため、フィルタアレイを低分解能モノクロ熱センサ上に積み重ねた3Dプリントホイールに統合する。 試作装置はブラックボディを用いてキャリブレーションを行い,その熱出力をコンピュータビジョン法で強化した。 また,最先端の深層学習手法を適用し,空間分解能の向上のためにマルチスペクトル画像の再構成を行った。 本研究は,LWIR領域におけるターゲット信号の検出と,他の高度なスペクトル分析を行うための多目的分光サーモグラフィー技術を示す。

A multispectral camera records image data in various wavelengths across the electromagnetic spectrum to acquire additional information that a conventional camera fails to capture. With the advent of high-resolution image sensors and colour filter technologies, multispectral imagers in the visible wavelengths have become popular with increasing commercial viability in the last decade. However, multispectral imaging in longwave infrared (LWIR: 8 to 14 microns) is still an emerging area due to the limited availability of optical materials, filter technologies, and high-resolution sensors. Images from LWIR multispectral cameras can capture emission spectra of objects to extract additional information that a human eye fails to capture and thus have important applications in precision agriculture, forestry, medicine, and object identification. In this work, we experimentally demonstrate an LWIR multispectral image sensor with three wavelength bands using optical elements made of an aluminum-based plasmonic filter array sandwiched in germanium. To realize the multispectral sensor, the filter arrays are then integrated into a 3D printed wheel stacked on a low-resolution monochrome thermal sensor. Our prototype device is calibrated using a blackbody and its thermal output has been enhanced with computer vision methods. By applying a state-of-the-art deep learning method, we have also reconstructed multispectral images to a better spatial resolution. Scientifically, our work demonstrates a versatile spectral thermography technique for detecting target signatures in the LWIR range and other advanced spectral analyses.
翻訳日:2023-03-06 16:28:13 公開日:2023-03-03
# フィルタ関数の完全機能へのアクセス:細部ノイズと制御感受性解析のためのツール

Accessing the Full Capabilities of Filter Functions: A Tool for Detailed Noise and Control Susceptibility Analysis ( http://arxiv.org/abs/2303.01660v1 )

ライセンス: Link先を確認
Ingvild Hansen, Amanda E. Seedhouse, Andre Saraiva, Andrew S. Dzurak, Chih Hwan Yang(参考訳) 量子制御理論からのフィルタ関数の定式化は、典型的には、シーケンスのフィルタ関数とノイズパワースペクトル密度の重なりを見てパルス列の雑音感受性を決定するために用いられる。 重要なことに、フィルタ関数の正方率をこの方法に用い、そのため方向情報と位相情報が失われる。 本研究では,方向情報や位相情報を含む全フィルタ関数を利用する。 変調を受ける前にフィルタ関数を位相保存で分解することにより、$x$-, $y$-, $z$-rotationへの寄与を別々に検討することができる。 連続駆動システムは低周波ノイズをキャンセルすることで動的デカップリングの形でノイズ保護を行うが、任意の駆動フィールドと同期的に制御パルスを生成することは簡単ではない。 分解フィルタ関数を用いて任意の駆動場下でのシステムの可制御性と雑音感受性を考察し、またフィルタ関数を幾何学的形式主義に関連付ける。

The filter function formalism from quantum control theory is typically used to determine the noise susceptibility of pulse sequences by looking at the overlap between the filter function of the sequence and the noise power spectral density. Importantly, the square modulus of the filter function is used for this method, hence directional and phase information is lost. In this work, we take advantage of the full filter function including directional and phase information. By decomposing the filter function with phase preservation before taking the modulus, we are able to consider the contributions to $x$-, $y$- and $z$-rotation separately. Continuously driven systems provide noise protection in the form of dynamical decoupling by cancelling low-frequency noise, however, generating control pulses synchronously with an arbitrary driving field is not trivial. Using the decomposed filter function we look at the controllability of a system under arbitrary driving fields, as well as the noise susceptibility, and also relate the filter function to the geometric formalism.
翻訳日:2023-03-06 16:27:47 公開日:2023-03-03
# 人物再識別のための特徴補完変換器

Feature Completion Transformer for Occluded Person Re-identification ( http://arxiv.org/abs/2303.01656v1 )

ライセンス: Link先を確認
Tao Wang, Hong Liu, Wenhao Li, Miaoju Ban, Tuanyu Guo and Yidi Li(参考訳) occluded person re-id (re-id) はoccludersの破壊による困難な問題である。 既存の手法のほとんどは、いくつかの事前情報を通して目に見える人体の部分に焦点を当てている。 しかし、補完的な閉塞が発生すると、閉塞領域の特徴がマッチングに干渉し、パフォーマンスに深刻な影響を及ぼす。 そこで,本稿では,オクルード領域を破棄する従来の作品と異なり,特徴空間におけるオクルード部分の意味情報を暗黙的に補完する特徴補完トランスフォーマを提案する。 特にオクルージョンインスタンス拡張(oia)は、全体像上の実および多様なオクルージョン状況をシミュレートするために提案されている。 これらの拡張画像は、トレーニングセット内のオクルージョンサンプルの量を高めるだけでなく、全体像とペアを形成する。 その後、共用エンコーダを用いたデュアルストリームアーキテクチャを提案し、ペア入力からペア識別特徴を学習する。 追加のセマンティクス情報なしでは、オクルード・ホロリスティックな特徴のサンプル-ラベルペアが自動的に作成できる。 次に、学習可能なトークンを用いて、学習可能な領域の特徴を補完する機能補完デコーダ(fcd)を設計、自己生成した特徴から可能な情報を集約する。 最後に,Cross Hard Triplet (CHT) の損失を補間特徴と同一のIDの下での特徴を抽出するギャップを埋めるために提案する。 さらに、生成した完成機能分布を実際の全体的特徴分布に近づけるために、機能補完一貫性(fc$^2$)の損失が導入される。 5つの挑戦的なデータセットに対する大規模な実験は、提案されたFCFormerが優れたパフォーマンスを達成し、隠蔽されたデータセットに対してかなりのマージンで最先端の手法より優れていることを示している。

Occluded person re-identification (Re-ID) is a challenging problem due to the destruction of occluders. Most existing methods focus on visible human body parts through some prior information. However, when complementary occlusions occur, features in occluded regions can interfere with matching, which affects performance severely. In this paper, different from most previous works that discard the occluded region, we propose a Feature Completion Transformer (FCFormer) to implicitly complement the semantic information of occluded parts in the feature space. Specifically, Occlusion Instance Augmentation (OIA) is proposed to simulates real and diverse occlusion situations on the holistic image. These augmented images not only enrich the amount of occlusion samples in the training set, but also form pairs with the holistic images. Subsequently, a dual-stream architecture with a shared encoder is proposed to learn paired discriminative features from pairs of inputs. Without additional semantic information, an occluded-holistic feature sample-label pair can be automatically created. Then, Feature Completion Decoder (FCD) is designed to complement the features of occluded regions by using learnable tokens to aggregate possible information from self-generated occluded features. Finally, we propose the Cross Hard Triplet (CHT) loss to further bridge the gap between complementing features and extracting features under the same ID. In addition, Feature Completion Consistency (FC$^2$) loss is introduced to help the generated completion feature distribution to be closer to the real holistic feature distribution. Extensive experiments over five challenging datasets demonstrate that the proposed FCFormer achieves superior performance and outperforms the state-of-the-art methods by significant margins on occluded datasets.
翻訳日:2023-03-06 16:27:29 公開日:2023-03-03
# 半教師付き逐次変分ベイズフレームワークによるソフトロボットのクロスドメイン移動学習と状態推定

Cross-domain Transfer Learning and State Inference for Soft Robots via a Semi-supervised Sequential Variational Bayes Framework ( http://arxiv.org/abs/2303.01693v1 )

ライセンス: Link先を確認
Shageenderan Sapai, Junn Yong Loo, Ze Yang Ding, Chee Pin Tan, Raphael CW Phan, Vishnu Monn Baskaran, Surya Girinatha Nurzaman(参考訳) 近年、ディープニューラルネットワークのようなデータ駆動モデルは、ソフトロボットのモデリングと状態推論に有望なツールであることが示されている。 しかし、深いモデルが効果的に実行するには、大量のデータが必要であり、特に状態ラベルにおいて、徹底的で質の高いデータ収集が必要である。 このため,ソフトロボットのセンサ化の難しさや非構造環境におけるデータ収集の不便さなど,ソフトロボットシステムのためのラベル付き状態データを得ることが課題となっている。 この課題に対処するために,本研究では,特定のロボット構成に状態ラベルが欠けているソフトロボットにおいて,伝達学習と状態推論のための半教師付き逐次変分ベイズ(DSVB)フレームワークを提案する。 ソフトロボットは、異なるロボット構成下で異なるダイナミクスを示す可能性があるため、複数の構成にまたがる潜在特徴の適応を促進するために、特徴空間移動戦略も組み込まれている。 提案するdsvbは,従来のトランスファー学習手法とは異なり,リカレントニューラルネットワークを用いて,ソフトロボットデータの非線形ダイナミクスと時間コヒーレンスをモデル化する。 提案フレームワークは,空気圧式ソフトロボットフィンガーの複数の設定構成で検証される。 4つの転送シナリオに関する実験結果から, DSVBは, 状態ラベルの欠落の中で, 効率的な転送学習と正確な状態推定を行うことを示した。

Recently, data-driven models such as deep neural networks have shown to be promising tools for modelling and state inference in soft robots. However, voluminous amounts of data are necessary for deep models to perform effectively, which requires exhaustive and quality data collection, particularly of state labels. Consequently, obtaining labelled state data for soft robotic systems is challenged for various reasons, including difficulty in the sensorization of soft robots and the inconvenience of collecting data in unstructured environments. To address this challenge, in this paper, we propose a semi-supervised sequential variational Bayes (DSVB) framework for transfer learning and state inference in soft robots with missing state labels on certain robot configurations. Considering that soft robots may exhibit distinct dynamics under different robot configurations, a feature space transfer strategy is also incorporated to promote the adaptation of latent features across multiple configurations. Unlike existing transfer learning approaches, our proposed DSVB employs a recurrent neural network to model the nonlinear dynamics and temporal coherence in soft robot data. The proposed framework is validated on multiple setup configurations of a pneumatic-based soft robot finger. Experimental results on four transfer scenarios demonstrate that DSVB performs effective transfer learning and accurate state inference amidst missing state labels.
翻訳日:2023-03-06 16:21:42 公開日:2023-03-03
# AIに基づく旅行需要予測モデルにおける公正性向上

Enhancing Fairness in AI-based Travel Demand Forecasting Models ( http://arxiv.org/abs/2303.01692v1 )

ライセンス: Link先を確認
Xiaojian Zhang, Qian Ke, Xilei Zhao(参考訳) 人工知能(AI)と機械学習は、リアルタイムの旅行需要を予測するためにますます採用されている。 これらのAIベースの旅行需要予測モデルは、高精度な予測を生成するが、予測バイアスを生成し、公平性の問題を引き起こす可能性がある。 このようなモデルを意思決定に利用することで、社会的不平等を悪化させる可能性のある輸送政策を開発することができる。 しかし、AIベースの旅行需要予測モデルの公平性問題に対処する研究は限られている。 そこで本研究では,高度に正確かつ公平な旅行需要予測モデルを構築するための新しい手法を提案する。 具体的には、旅行需要予測モデルの損失関数に、予測精度と人種や収入などの保護属性との相関関係を公平性正規化項に追加する。 精度損失項と公正損失項の両方に対してインタラクティブな重み係数を含む。 これにより、旅行需要予測モデルが予測精度と公平性を同時に考慮することができる。 シカゴで実世界のライドソーシングデータを用いて実証分析を行う。 その結果,提案手法は正確さのトレードオフを効果的に解決できることがわかった。 複数の保護属性(例えば、人種、教育、年齢、収入)に対して、わずかな精度低下を犠牲にするだけで、公平性を著しく向上させることができる。 本研究は,交通機関の専門家に対して,公正かつ正確な旅行需要予測を実現するための新しいタイプの意思決定支援ツールを提供する。

Artificial Intelligence (AI) and machine learning have been increasingly adopted for forecasting real-time travel demand. These AI-based travel demand forecasting models, though generate highly-accurate predictions, may produce prediction biases and thus raise fairness issues. Using such models for decision-making, we may develop transportation policies that could exacerbate social inequalities. However, limited studies have been focused on addressing the fairness issues of AI-based travel demand forecasting models. Therefore, in this study, we propose a novel methodology to develop fairness-aware travel demand forecasting models, which are highly accurate and fair. Specifically, we add a fairness regularization term, i.e., the correlation between prediction accuracy and the protected attribute such as race or income, into the loss function of the travel demand forecasting model. We include an interactive weight coefficient to both accuracy loss term and fairness loss term. The travel demand forecasting models can thus simultaneously account for prediction accuracy and fairness. An empirical analysis is conducted using real-world ridesourcing-trip data in Chicago. Results show that our proposed methodology effectively addresses the accuracy-fairness trade-off. It can significantly enhance fairness for multiple protected attributes (i.e., race, education, age and income) by only sacrificing a small accuracy drop. This study provides transportation professionals a new type of decision-support tool to achieve fair and accurate travel demand forecasting.
翻訳日:2023-03-06 16:21:12 公開日:2023-03-03
# 混合量子状態に対するメトリクスの比較:SjoqvistとBures

Comparing metrics for mixed quantum states: Sjoqvist and Bures ( http://arxiv.org/abs/2303.01690v1 )

ライセンス: Link先を確認
Paul M. Alsing, Carlo Cafaro, Orlando Luongo, Cosmo Lupo, Stefano Mancini, Hernando Quevedo(参考訳) 混合量子状態に対して無限に多くの識別性指標が存在することが知られている。 この自由は、量子状態の複雑さや体積のような物理的に意味のある幾何量の計量依存的な解釈をもたらす。 本稿では, 任意の非退化混合量子状態に対するsjoqvist計量とbures計量の関係について, 純粋量子状態のアンサンブルによる密度作用素の分解の概念を用いて, 明示的かつ難解な数学的議論を初めて提示する。 そして、物理学的な観点からこれらの2つのメトリクスの違いの理解を深めるために、平衡状態の量子系を特定する任意の熱量子状態に対する2つのメトリクスの公式表現と、非ゼロ温度での貯水池の比較を行った。 例示目的では、任意に配向した均一なスピン量子ビットと有限温度浴による熱平衡の定常外部磁場を特徴とする単純な物理系において、これら2つの測定値の違いを示す。 最後に、Bures と Sjoqvist のメトリクスを、その単調性の観点から比較する。

It is known there are infinitely many distinguishability metrics for mixed quantum states. This freedom, in turn, leads to metric-dependent interpretations of physically meaningful geometric quantities such as complexity and volume of quantum states. In this paper, we first present an explicit and unabridged mathematical discussion on the relation between the Sjoqvist metric and the Bures metric for arbitrary nondegenerate mixed quantum states, using the notion of decompositions of density operators by means of ensembles of pure quantum states. Then, to enhance our comprehension of the difference between these two metrics from a physics standpoint, we compare the formal expressions of these two metrics for arbitrary thermal quantum states specifying quantum systems in equilibrium with a reservoir at non-zero temperature. For illustrative purposes, we show the difference between these two metrics in the case of a simple physical system characterized by a spin-qubit in an arbitrarily oriented uniform and stationary external magnetic field in thermal equilibrium with a finite-temperature bath. Finally, we compare the Bures and Sjoqvist metrics in terms of their monotonicity property.
翻訳日:2023-03-06 16:20:53 公開日:2023-03-03
# プライバシー保護データ生成のための微分プライベートニューラルネットワークカーネル

Differentially Private Neural Tangent Kernels for Privacy-Preserving Data Generation ( http://arxiv.org/abs/2303.01687v1 )

ライセンス: Link先を確認
Yilin Yang, Kamil Adamczewski, Danica J. Sutherland, Xiaoxiao Li, Mijung Park(参考訳) 差分的にプライベートなデータ生成において、最大平均差(mmd)は特に有用な距離メトリックである: 有限次元の機能で使用される場合、データの分散を一度に要約し、民営化することができる。 このフレームワークにおける重要な質問は、実際のデータ分布と合成データ分布を区別するのに有用な機能と、それが高品質な合成データを生成することができるかどうかである。 この研究は、$\textit{neural tangent kernels (NTKs)}$、より正確には$\textit{empirical}$ NTKs (e-NTKs) の機能の使用を検討する。 おそらく驚くべきことに、トレーニングされていないe-NTK機能の表現力は、公開データを使って事前トレーニングされた知覚機能から得られる機能と同等である。 その結果、いくつかの表や画像のベンチマークデータセットで示されるように、公開データに頼ることなく、他の最先端手法と比較してプライバシーと精度のトレードオフを改善することができる。

Maximum mean discrepancy (MMD) is a particularly useful distance metric for differentially private data generation: when used with finite-dimensional features it allows us to summarize and privatize the data distribution once, which we can repeatedly use during generator training without further privacy loss. An important question in this framework is, then, what features are useful to distinguish between real and synthetic data distributions, and whether those enable us to generate quality synthetic data. This work considers the using the features of $\textit{neural tangent kernels (NTKs)}$, more precisely $\textit{empirical}$ NTKs (e-NTKs). We find that, perhaps surprisingly, the expressiveness of the untrained e-NTK features is comparable to that of the features taken from pre-trained perceptual features using public data. As a result, our method improves the privacy-accuracy trade-off compared to other state-of-the-art methods, without relying on any public data, as demonstrated on several tabular and image benchmark datasets.
翻訳日:2023-03-06 16:20:36 公開日:2023-03-03
# バードアイビューにおける多視点3次元物体検出のための領域一般化に向けて

Towards Domain Generalization for Multi-view 3D Object Detection in Bird-Eye-View ( http://arxiv.org/abs/2303.01686v1 )

ライセンス: Link先を確認
Shuo Wang, Xinhai Zhao, Hai-Ming Xu, Zehui Chen, Dameng Yu, Jiahao Chang, Zhen Yang, Feng Zhao(参考訳) Bird-Eye-View (BEV) における多視点3Dオブジェクト検出 (MV3D-Det) は, 低コストかつ高効率で注目されている。 カメラのみの3dオブジェクト検出のための新しいアルゴリズムは継続的に提案されているが、入力画像の領域がトレーニングの領域と異なる場合、そのほとんどが劇的な性能低下のリスクを負う可能性がある。 本稿ではまず,MV3D-Detタスクにおける領域ギャップの原因を解析する。 共変量シフトの仮定に基づき、このギャップは、深度推定と2次元画像の特徴表現の両方の品質によって決定されるbevの特徴分布に主に依存することがわかった。 本研究では, カメラの内在パラメータ(すなわち焦点距離)から, 距離の予測をスケール不変深さに変換し, 外部パラメータ(すなわちカメラポーズ)の多様性を高めるために動的視点拡張を行うことにより, カメラの内在パラメータ(すなわち焦点距離)から奥行き推定を分離することを提案する。 さらに,複数の疑似ドメインを作成するために焦点長値を修正し,特徴表現をよりドメインに依存しないものにするために,敵対的なトレーニングロスを構築する。 ベルとホイッスルがなければ、我々のアプローチ、すなわちDG-BEVは、ソースドメインの精度を損なうことなく、目に見えないターゲットドメインのパフォーマンス低下を軽減します。 Waymo、nuScenes、Lyftなど、さまざまな公開データセットに関する大規模な実験は、このアプローチの一般化と有効性を示しています。 我々の知る限りでは、MV3D-Detの領域一般化法を探求する最初の体系的研究である。

Multi-view 3D object detection (MV3D-Det) in Bird-Eye-View (BEV) has drawn extensive attention due to its low cost and high efficiency. Although new algorithms for camera-only 3D object detection have been continuously proposed, most of them may risk drastic performance degradation when the domain of input images differs from that of training. In this paper, we first analyze the causes of the domain gap for the MV3D-Det task. Based on the covariate shift assumption, we find that the gap mainly attributes to the feature distribution of BEV, which is determined by the quality of both depth estimation and 2D image's feature representation. To acquire a robust depth prediction, we propose to decouple the depth estimation from the intrinsic parameters of the camera (i.e. the focal length) through converting the prediction of metric depth to that of scale-invariant depth and perform dynamic perspective augmentation to increase the diversity of the extrinsic parameters (i.e. the camera poses) by utilizing homography. Moreover, we modify the focal length values to create multiple pseudo-domains and construct an adversarial training loss to encourage the feature representation to be more domain-agnostic. Without bells and whistles, our approach, namely DG-BEV, successfully alleviates the performance drop on the unseen target domain without impairing the accuracy of the source domain. Extensive experiments on various public datasets, including Waymo, nuScenes, and Lyft, demonstrate the generalization and effectiveness of our approach. To the best of our knowledge, this is the first systematic study to explore a domain generalization method for MV3D-Det.
翻訳日:2023-03-06 16:20:17 公開日:2023-03-03
# 位相のない動作合成のためのマルチスケール制御信号認識トランス

Multi-Scale Control Signal-Aware Transformer for Motion Synthesis without Phase ( http://arxiv.org/abs/2303.01685v1 )

ライセンス: Link先を確認
Lintao Wang, Kun Hu, Lei Bai, Yu Ding, Wanli Ouyang, Zhiyong Wang(参考訳) 深層学習を用いた文字の可制御運動の合成は、複雑な特徴工学を使わずにコンパクトなモデルを学ぶ可能性から、有望なアプローチである。 所望の経路などの弱い制御信号から動的動作を生成するために、既存の手法では、運動の曖昧さを緩和するための位相などの補助情報が必要となり、一般化能力が制限される。 過去のポーズには有用な補助的ヒントがしばしば含まれており、本稿では、位相などの補助情報を明示的に必要とせず、暗黙的に制御可能な動作を合成するための補助情報を検出するために、注意に基づくエンコーダ・デコーダアーキテクチャを備えたマルチスケール制御信号認識変換器(MCS-T)を提案する。 具体的には、マルチスケールスケルトンを用いてキャラクタの過去のポーズの動作パターンを適応的に定式化するエンコーダと、制御信号により駆動されるデコーダとを考案し、符号化された過去の動きパターンにコンテキスト特化してキャラクタの状態をさらに合成し、予測する。 その結果、補助情報を使用しない従来の方法でしばしば発生する低応答性と遅い遷移の問題を緩和するのに役立つ。 本手法の有効性を実証するため,既存の2足歩行データセットの定性的および定量的な実験結果を得た。 特に、MCS-Tは補助情報を用いてメソッドが生成した動作に匹敵する動作をうまく生成することができる。

Synthesizing controllable motion for a character using deep learning has been a promising approach due to its potential to learn a compact model without laborious feature engineering. To produce dynamic motion from weak control signals such as desired paths, existing methods often require auxiliary information such as phases for alleviating motion ambiguity, which limits their generalisation capability. As past poses often contain useful auxiliary hints, in this paper, we propose a task-agnostic deep learning method, namely Multi-scale Control Signal-aware Transformer (MCS-T), with an attention based encoder-decoder architecture to discover the auxiliary information implicitly for synthesizing controllable motion without explicitly requiring auxiliary information such as phase. Specifically, an encoder is devised to adaptively formulate the motion patterns of a character's past poses with multi-scale skeletons, and a decoder driven by control signals to further synthesize and predict the character's state by paying context-specialised attention to the encoded past motion patterns. As a result, it helps alleviate the issues of low responsiveness and slow transition which often happen in conventional methods not using auxiliary information. Both qualitative and quantitative experimental results on an existing biped locomotion dataset, which involves diverse types of motion transitions, demonstrate the effectiveness of our method. In particular, MCS-T is able to successfully generate motions comparable to those generated by the methods using auxiliary information.
翻訳日:2023-03-06 16:19:49 公開日:2023-03-03
# BO-Muse:実験設計を加速するための人間専門家とAIコラボレーションフレームワーク

BO-Muse: A human expert and AI teaming framework for accelerated experimental design ( http://arxiv.org/abs/2303.01684v1 )

ライセンス: Link先を確認
Sunil Gupta, Alistair Shilton, Arun Kumar A V, Shannon Ryan, Majid Abdolshah, Hung Le, Santu Rana, Julian Berk, Mahad Rashid, Svetha Venkatesh(参考訳) 本稿では,高額なブラックボックス関数の最適化のための人間とAIのコラボレーション手法であるBO-Museを紹介する。 専門家の知識を抽出し、それをaiモデルに蒸留する本質的な困難さや、実世界の実験設計における人間の行動の観察に触発されたアルゴリズムは、人間エキスパートが実験プロセスでリードすることを可能にする。 人間の専門家はドメインの専門知識を最大限に活用することができ、一方でAIはミューズの役割を担い、新奇性を注入し、認知的介入によって引き起こされる過度の爆発から人間を破滅させる弱点の領域を探す。 軽微な仮定で、我々のアルゴリズムはAIや人間よりも速い速度でサブ線形に収束することを示す。 本アルゴリズムは合成データを用いて検証し,人間と共に実世界実験を行う。

In this paper we introduce BO-Muse, a new approach to human-AI teaming for the optimization of expensive black-box functions. Inspired by the intrinsic difficulty of extracting expert knowledge and distilling it back into AI models and by observations of human behaviour in real-world experimental design, our algorithm lets the human expert take the lead in the experimental process. The human expert can use their domain expertise to its full potential, while the AI plays the role of a muse, injecting novelty and searching for areas of weakness to break the human out of over-exploitation induced by cognitive entrenchment. With mild assumptions, we show that our algorithm converges sub-linearly, at a rate faster than the AI or human alone. We validate our algorithm using synthetic data and with human experts performing real-world experiments.
翻訳日:2023-03-06 16:19:19 公開日:2023-03-03
# Neural-BO:ディープニューラルネットワークを用いたブラックボックス最適化アルゴリズム

Neural-BO: A Black-box Optimization Algorithm using Deep Neural Networks ( http://arxiv.org/abs/2303.01682v1 )

ライセンス: Link先を確認
Dat Phan-Trong, Hung Tran-The, Sunil Gupta(参考訳) ベイズ最適化(BO)は,関数評価が高価である場合のブラックボックス関数のグローバル最適化に有効な手法である。 これまでのほとんどの研究では、ブラックボックス関数をモデル化するためにガウス的プロセスを使用していたが、ガウス的プロセスにおけるカーネルの使用は、2つの問題をもたらす。 そこで,ニューラルネットワークを用いてブラックボックス関数をモデル化した新しいブラックボックス最適化アルゴリズムを提案する。 本アルゴリズムは予測の不確かさを推定するためにベイズニューラルネットワークを必要としないため,計算上有利である。 我々はNTK理論の進歩を応用して,アルゴリズムの理論的挙動を後悔境界の観点から分析する。 合成および実世界の最適化タスクを用いて実験を行い、既存の手法と比較してアルゴリズムがよりサンプリング効率が高いことを示す。

Bayesian Optimization (BO) is an effective approach for global optimization of black-box functions when function evaluations are expensive. Most prior works use Gaussian processes to model the black-box function, however, the use of kernels in Gaussian processes leads to two problems: first, the kernel-based methods scale poorly with the number of data points and second, kernel methods are usually not effective on complex structured high dimensional data due to curse of dimensionality. Therefore, we propose a novel black-box optimization algorithm where the black-box function is modeled using a neural network. Our algorithm does not need a Bayesian neural network to estimate predictive uncertainty and is therefore computationally favorable. We analyze the theoretical behavior of our algorithm in terms of regret bound using advances in NTK theory showing its efficient convergence. We perform experiments with both synthetic and real-world optimization tasks and show that our algorithm is more sample efficient compared to existing methods.
翻訳日:2023-03-06 16:19:04 公開日:2023-03-03
# 連続画像表現による高密度画素対画素調和

Dense Pixel-to-Pixel Harmonization via Continuous Image Representation ( http://arxiv.org/abs/2303.01681v1 )

ライセンス: Link先を確認
Jianqi Chen, Yilan Zhang, Zhengxia Zou, Keyan Chen, Zhenwei Shi(参考訳) 高分解能(HR)画像調和は、画像合成や画像編集といった現実世界の応用において非常に重要である。 しかし、メモリコストが高いため、既存の高密度画素対ピクセル調和法は主に低解像度(LR)画像の処理に重点を置いている。 いくつかの最近の研究は色から色への変換と組み合わせるが、特定の解像度に制限されているか、手作りの画像フィルターに大きく依存している。 本研究では,暗黙的ニューラル表現(INR)の活用について検討し,インプリシットニューラルネットワーク(HINet)に基づく新しい画像調和法を提案する。 Retinex理論に触発されて、MPPを2つの部分に分離し、合成画像の内容と環境をそれぞれキャプチャする。 低解像度画像優先(LRIP)ネットワークは境界不整合問題を緩和するために設計されており、トレーニングおよび推論プロセスのための新しい設計も提案する。 本手法の有効性を,最先端の手法と比較した実験により検証した。 さらに,提案手法の興味深い実用的応用について検討した。 私たちのコードはhttps://github.com/WindVChen/INR-Harmonization.comで公開されます。

High-resolution (HR) image harmonization is of great significance in real-world applications such as image synthesis and image editing. However, due to the high memory costs, existing dense pixel-to-pixel harmonization methods are mainly focusing on processing low-resolution (LR) images. Some recent works resort to combining with color-to-color transformations but are either limited to certain resolutions or heavily depend on hand-crafted image filters. In this work, we explore leveraging the implicit neural representation (INR) and propose a novel image Harmonization method based on Implicit neural Networks (HINet), which to the best of our knowledge, is the first dense pixel-to-pixel method applicable to HR images without any hand-crafted filter design. Inspired by the Retinex theory, we decouple the MLPs into two parts to respectively capture the content and environment of composite images. A Low-Resolution Image Prior (LRIP) network is designed to alleviate the Boundary Inconsistency problem, and we also propose new designs for the training and inference process. Extensive experiments have demonstrated the effectiveness of our method compared with state-of-the-art methods. Furthermore, some interesting and practical applications of the proposed method are explored. Our code will be available at https://github.com/WindVChen/INR-Harmonization.
翻訳日:2023-03-06 16:18:48 公開日:2023-03-03
# スピン量子ビットと超伝導フラックス量子ビットの熱状態多様体上のburesとsjoqvist計量

Bures and Sjoqvist Metrics over Thermal State Manifolds for Spin Qubits and Superconducting Flux Qubits ( http://arxiv.org/abs/2303.01680v1 )

ライセンス: Link先を確認
Carlo Cafaro, Paul M. Alsing(参考訳) 微分幾何学、統計物理学、量子情報科学の相互作用は近年ますます理論的な関心を集めている。 本稿では,特定のスピン量子ビットおよび超伝導束量子ハミルトニアンモデルに対する熱状態多様体上のburesおよびsjoqvist計量の明示的な解析について述べる。 両ハミルトン模型の逆温度が無限大に近づく場合の漸近的制限の場合、両指標は等しくフビニ・スタディ計量に還元されるが、0温度限界から外れた場合、一般的に2指標は異なる。 特に、超伝導磁束ハミルトニアンモデルの場合、この不一致について論じる。 この2つの計量は、隣接する混合量子状態の非可換性によって特定される非古典的挙動の存在において異なると結論づける。 このような非可換性は、2つの指標によって異なる方法で定量化される。 最後に、量子情報科学に興味を持つ物理システムの臨界および/または複雑な振る舞いを予測する際に、2つのメトリクス間のこの不一致が観測可能な結果をもたらす可能性について簡単に論じる。

The interplay among differential geometry, statistical physics, and quantum information science has been increasingly gaining theoretical interest in recent years. In this paper, we present an explicit analysis of the Bures and Sjoqvist metrics over the manifolds of thermal states for specific spin qubit and the superconducting flux qubit Hamiltonian models. While the two metrics equally reduce to the Fubini-Study metric in the asymptotic limiting case of the inverse temperature approaching infinity for both Hamiltonian models, we observe that the two metrics are generally different when departing from the zero-temperature limit. In particular, we discuss this discrepancy in the case of the superconducting flux Hamiltonian model. We conclude the two metrics differ in the presence of a nonclassical behavior specified by the noncommutativity of neighboring mixed quantum states. Such a noncommutativity, in turn, is quantified by the two metrics in different manners. Finally, we briefly discuss possible observable consequences of this discrepancy between the two metrics when using them to predict critical and/or complex behavior of physical systems of interest in quantum information science.
翻訳日:2023-03-06 16:18:30 公開日:2023-03-03
# グラフニューラルネットワークにおける局所幾何双曲性によるノード固有空間選択

Node-Specific Space Selection via Localized Geometric Hyperbolicity in Graph Neural Networks ( http://arxiv.org/abs/2303.01724v1 )

ライセンス: Link先を確認
See Hian Lee, Feng Ji and Wee Peng Tay(参考訳) 多くのグラフニューラルネットワークはユークリッド空間または双曲空間のグラフ表現を学ぶために開発され、全てのノードの表現は単一の空間に埋め込まれている。 しかし、グラフはグラフの異なる領域において双曲的およびユークリッド幾何学を持つことができる。 したがって、グラフ全体を無関心に一つの空間に埋め込むことは最適ではない。 本稿では,局所双曲性の2つの概念を探索・解析し,その基礎となる局所幾何(gromov)とモデルベース(model-based)を用いて各ノードの埋め込み空間を決定する。 2つの双曲性分布は、計算された幾何双曲性が学習されたモデル双曲性の選択を導くようなワッサーシュタイン計量を用いて整列される。 学習中に共役空間と双曲空間の両方を利用することができ、ノード固有の幾何空間の選択が可能となる。 ノード分類とリンク予測タスクの両方でモデルを評価し、ベースラインモデルと比較して有望な性能を観察する。

Many graph neural networks have been developed to learn graph representations in either Euclidean or hyperbolic space, with all nodes' representations embedded in a single space. However, a graph can have hyperbolic and Euclidean geometries at different regions of the graph. Thus, it is sub-optimal to indifferently embed an entire graph into a single space. In this paper, we explore and analyze two notions of local hyperbolicity, describing the underlying local geometry: geometric (Gromov) and model-based, to determine the preferred space of embedding for each node. The two hyperbolicities' distributions are aligned using the Wasserstein metric such that the calculated geometric hyperbolicity guides the choice of the learned model hyperbolicity. As such our model Joint Space Graph Neural Network (JSGNN) can leverage both Euclidean and hyperbolic spaces during learning by allowing node-specific geometry space selection. We evaluate our model on both node classification and link prediction tasks and observe promising performance compared to baseline models.
翻訳日:2023-03-06 16:12:14 公開日:2023-03-03
# aiによるハイブリッドmimoビームフォーミング

AI-Empowered Hybrid MIMO Beamforming ( http://arxiv.org/abs/2303.01723v1 )

ライセンス: Link先を確認
Nir Shlezinger, Mengyuan Ma, Ortal Lavi, Nhan Thanh Nguyen, Yonina C. Eldar, Markku Juntti(参考訳) mimo(hybrid multi-input multiple-output)は、将来の無線通信をスケーラブルで電力効率の良い方法で実現するための魅力的な技術である。 しかし、ハイブリッドMIMOシステムはアナログやデジタルのビームフォーミングの一部を実装しているため、従来の完全デジタルMIMOに比べてビームパターンの最適化が特に難しい。 その結果、近年、ハイブリッドビームフォーミング設計にデータ支援人工知能(AI)ツールを使うことへの関心が高まっている。 本稿では、リアルタイムハイブリッドビームフォーミング設計を改善するためにデータを活用する候補戦略についてレビューする。 アーキテクチャ上の制約を議論し,ハイブリッドビームフォーミング最適化に伴う核となる課題を特徴付ける。 次に、これらの課題が従来の最適化を通じてどのように扱われるかを示し、異なるAI支援設計アプローチを特定する。 これらは、純粋にデータ駆動のディープラーニングモデルと、AIと古典的最適化を組み合わせるための様々な形態の深層展開技術に大別することができる。 結論として,ハイブリッドmimoシステムにおけるaiの導入に関する今後の研究機会を提案する。

Hybrid multiple-input multiple-output (MIMO) is an attractive technology for realizing extreme massive MIMO systems envisioned for future wireless communications in a scalable and power-efficient manner. However, the fact that hybrid MIMO systems implement part of their beamforming in analog and part in digital makes the optimization of their beampattern notably more challenging compared with conventional fully digital MIMO. Consequently, recent years have witnessed a growing interest in using data-aided artificial intelligence (AI) tools for hybrid beamforming design. This article reviews candidate strategies to leverage data to improve real-time hybrid beamforming design. We discuss the architectural constraints and characterize the core challenges associated with hybrid beamforming optimization. We then present how these challenges are treated via conventional optimization, and identify different AI-aided design approaches. These can be roughly divided into purely data-driven deep learning models and different forms of deep unfolding techniques for combining AI with classical optimization.We provide a systematic comparative study between existing approaches including both numerical evaluations and qualitative measures. We conclude by presenting future research opportunities associated with the incorporation of AI in hybrid MIMO systems.
翻訳日:2023-03-06 16:11:57 公開日:2023-03-03
# ソフトマックス関数の凸境界とロバスト性検証への応用

Convex Bounds on the Softmax Function with Applications to Robustness Verification ( http://arxiv.org/abs/2303.01713v1 )

ライセンス: Link先を確認
Dennis Wei, Haoze Wu, Min Wu, Pin-Yu Chen, Clark Barrett, Eitan Farchi(参考訳) softmax関数は、ニューラルネットワークの出力においてユビキタスなコンポーネントであり、中間層でもますます使われている。 本稿では,ソフトマックス関数上の凸下界と凸上界について,ニューラルネットワークや他のmlモデルの特徴付けのための凸最適化定式化と適合する。 ソフトマックスの自然な指数-相互分解と対数-sum-exp関数の別の分解の両方を用いて境界を導出する。 新しい境界は、変圧器のロバスト性検証に関する以前の研究で得られた線形境界よりも証明可能および/または数値的に厳密である。 境界の有用性の具体例として、これらを変換器の検証や、深いアンサンブルの予測の不確実性推定のロバスト性に適用する。

The softmax function is a ubiquitous component at the output of neural networks and increasingly in intermediate layers as well. This paper provides convex lower bounds and concave upper bounds on the softmax function, which are compatible with convex optimization formulations for characterizing neural networks and other ML models. We derive bounds using both a natural exponential-reciprocal decomposition of the softmax as well as an alternative decomposition in terms of the log-sum-exp function. The new bounds are provably and/or numerically tighter than linear bounds obtained in previous work on robustness verification of transformers. As illustrations of the utility of the bounds, we apply them to verification of transformers as well as of the robustness of predictive uncertainty estimates of deep ensembles.
翻訳日:2023-03-06 16:11:40 公開日:2023-03-03
# NovPhy: オープンワールド環境における物理推論のためのテストベッド

NovPhy: A Testbed for Physical Reasoning in Open-world Environments ( http://arxiv.org/abs/2303.01711v1 )

ライセンス: Link先を確認
Chathura Gamage, Vimukthini Pinto, Cheng Xue, Peng Zhang, Ekaterina Nikonova, Matthew Stephenson, Jochen Renz(参考訳) 物理的環境と相互作用するAIシステムの出現により、これらのAIシステムに物理的推論機能を統合することへの関心が高まっている。 しかし、実際の物理的環境で動作する物理推論能力だけで十分だろうか? 現実の世界では、これまで遭遇したことのない新しい状況に常に直面する。 人間として、我々はこれらの状況にうまく適応する能力がある。 同様に、エージェントは、オープンワールドの物理的環境で適切に動作するために、ノベルティの影響下で機能する能力を持つ必要がある。 このようなAIシステムの開発を容易にするために,エージェントが新規性の存在下で物理的シナリオを推論し,それに応じて行動を取ることを必要とする新しいテストベッド,NovPhyを提案する。 テストベッドは、エージェントが物理シナリオの新規性を検出し、適応するよう要求するタスクで構成されている。 テストベッドでタスクを作成するために、様々なノベルティ空間を表す8つのノベルティを開発し、物理環境でよく遭遇する5つのシナリオに適用する。 テストベッド設計では,異なる物理シナリオに適用された場合の新規性に対する性能と,異なる新規性を適用した場合の物理的シナリオにおける性能の2つの能力を評価する。 我々は,人間,学習エージェント,ヒューリスティックエージェントを用いて徹底的な評価を行う。 評価の結果,人間のパフォーマンスはエージェントのパフォーマンスをはるかに超えることがわかった。 一部のエージェントは、正常なタスクのパフォーマンスが良好であっても、新規性がある場合には著しく悪化し、新規性に適応できるエージェントは通常、人間よりも遅く適応する。 我々は,オープンワールドの物理環境での運用において,人間レベル以上の能力を持つ知的エージェントの開発を促進する。 Testbed Webサイト: https://github.com/phy-q/novphy

Due to the emergence of AI systems that interact with the physical environment, there is an increased interest in incorporating physical reasoning capabilities into those AI systems. But is it enough to only have physical reasoning capabilities to operate in a real physical environment? In the real world, we constantly face novel situations we have not encountered before. As humans, we are competent at successfully adapting to those situations. Similarly, an agent needs to have the ability to function under the impact of novelties in order to properly operate in an open-world physical environment. To facilitate the development of such AI systems, we propose a new testbed, NovPhy, that requires an agent to reason about physical scenarios in the presence of novelties and take actions accordingly. The testbed consists of tasks that require agents to detect and adapt to novelties in physical scenarios. To create tasks in the testbed, we develop eight novelties representing a diverse novelty space and apply them to five commonly encountered scenarios in a physical environment. According to our testbed design, we evaluate two capabilities of an agent: the performance on a novelty when it is applied to different physical scenarios and the performance on a physical scenario when different novelties are applied to it. We conduct a thorough evaluation with human players, learning agents, and heuristic agents. Our evaluation shows that humans' performance is far beyond the agents' performance. Some agents, even with good normal task performance, perform significantly worse when there is a novelty, and the agents that can adapt to novelties typically adapt slower than humans. We promote the development of intelligent agents capable of performing at the human level or above when operating in open-world physical environments. Testbed website: https://github.com/phy-q/novphy
翻訳日:2023-03-06 16:11:30 公開日:2023-03-03
# BayeSeg: 解釈可能な一般化性を持つ医用画像分割のためのベイジアンモデリング

BayeSeg: Bayesian Modeling for Medical Image Segmentation with Interpretable Generalizability ( http://arxiv.org/abs/2303.01710v1 )

ライセンス: Link先を確認
Shangqi Gao and Hangqi Zhou and Yibo Gao and Xiahai Zhuang(参考訳) 多様な医用画像システムから引き起こされたクロスドメイン分布シフトのため、多くのディープラーニングセグメンテーション手法は、実際の適用性を制限する未発見のデータではうまく機能しない。 近年の研究では、ドメイン一般化におけるドメイン不変表現を抽出する利点が示されている。 しかし、ドメイン不変な特徴の解釈性は依然として大きな課題である。 この問題に対処するために,ベイジアンによる画像とラベル統計のモデリングによる解釈可能なベイジアンフレームワーク(ベイジセグ)を提案し,医用画像セグメンテーションのモデル一般化性を向上させる。 具体的には、まず、画像を空間相関変数と空間可変変数に分解し、階層ベイズ前駆者を割り当てて、それぞれドメイン安定形状とドメイン固有外観情報をモデル化させる。 次に,セグメント化を形状のみに関連する局所的滑らかな変数としてモデル化する。 最後に、これらの説明可能な変数の後方分布を推測する変分ベイズ的枠組みを開発する。 このフレームワークはニューラルネットワークで実装されており、ディープベイズセグメンテーション(deep bayesian segmentation)と呼ばれる。 前立腺セグメンテーションと心臓セグメンテーションタスクの定量的および定性的な実験結果から,本手法の有効性が示された。 さらに,後肢の解釈について検討し,さらなるアブレーション研究を通じて一般化能力に影響する要因を分析した。 私たちのコードはhttps://zmiclab.github.io/projects.htmlでリリースされます。

Due to the cross-domain distribution shift aroused from diverse medical imaging systems, many deep learning segmentation methods fail to perform well on unseen data, which limits their real-world applicability. Recent works have shown the benefits of extracting domain-invariant representations on domain generalization. However, the interpretability of domain-invariant features remains a great challenge. To address this problem, we propose an interpretable Bayesian framework (BayeSeg) through Bayesian modeling of image and label statistics to enhance model generalizability for medical image segmentation. Specifically, we first decompose an image into a spatial-correlated variable and a spatial-variant variable, assigning hierarchical Bayesian priors to explicitly force them to model the domain-stable shape and domain-specific appearance information respectively. Then, we model the segmentation as a locally smooth variable only related to the shape. Finally, we develop a variational Bayesian framework to infer the posterior distributions of these explainable variables. The framework is implemented with neural networks, and thus is referred to as deep Bayesian segmentation. Quantitative and qualitative experimental results on prostate segmentation and cardiac segmentation tasks have shown the effectiveness of our proposed method. Moreover, we investigated the interpretability of BayeSeg by explaining the posteriors and analyzed certain factors that affect the generalization ability through further ablation studies. Our code will be released via https://zmiclab.github.io/projects.html, once the manuscript is accepted for publication.
翻訳日:2023-03-06 16:11:04 公開日:2023-03-03
# エキスパートによる学習のためのストリーミングアルゴリズム:決定論的Versus Robust

Streaming Algorithms for Learning with Experts: Deterministic Versus Robust ( http://arxiv.org/abs/2303.01709v1 )

ライセンス: Link先を確認
David P. Woodruff, Fred Zhang, Samson Zhou(参考訳) 専門家によるオンライン学習問題において、アルゴリズムは、毎日(または時間)に予測を行う1組のn$専門家に対して、t$日(または時間)ごとに結果を予測しなければならない。 アルゴリズムは、予測のコストと専門家予測のコストを含む、各日の成果に対するフィードバックを与え、その目標は、特にセットの最高の専門家と比較して、最小のコストで予測を行うことである。 Srinivas、Woodruff、Xu、Zhou(STOC 2022)による最近の研究は、専門家によるオンライン学習の研究をメモリ制約下で導入した。 しかし、しばしば専門家やアルゴリズムによる予測が将来の結果に影響を与え、入力が適応的に選択される。 決定論的アルゴリズムは適応入力に頑健であるが、既存のアルゴリズムはすべてランダム化を使って少数の専門家をサンプリングしている。 本稿では,専門家問題に対する決定論的およびロバストなアルゴリズムについて検討する。 まず、最善のエキスパートが$m$の間違いをしたときの後悔$r$を達成する決定論的アルゴリズムに対して、$\widetilde{\omega}\left(\frac{nm}{rt}\right)$の空間下限を示す。 その結果,プール内の各専門家が誤認するまで専門家のプールを通じて繰り返す自然決定論的アルゴリズムは,多対数因子に最適であることが判明した。 正の面では、$\widetilde{o}\left(\frac{n}{r\sqrt{t}}\right)$空間 for $m=o\left(\frac{r^2 t}{\log^2 n}\right)$を使用する適応入力にロバストなランダム化アルゴリズムを与える。

In the online learning with experts problem, an algorithm must make a prediction about an outcome on each of $T$ days (or times), given a set of $n$ experts who make predictions on each day (or time). The algorithm is given feedback on the outcomes of each day, including the cost of its prediction and the cost of the expert predictions, and the goal is to make a prediction with the minimum cost, specifically compared to the best expert in the set. Recent work by Srinivas, Woodruff, Xu, and Zhou (STOC 2022) introduced the study of the online learning with experts problem under memory constraints. However, often the predictions made by experts or algorithms at some time influence future outcomes, so that the input is adaptively chosen. Whereas deterministic algorithms would be robust to adaptive inputs, existing algorithms all crucially use randomization to sample a small number of experts. In this paper, we study deterministic and robust algorithms for the experts problem. We first show a space lower bound of $\widetilde{\Omega}\left(\frac{nM}{RT}\right)$ for any deterministic algorithm that achieves regret $R$ when the best expert makes $M$ mistakes. Our result shows that the natural deterministic algorithm, which iterates through pools of experts until each expert in the pool has erred, is optimal up to polylogarithmic factors. On the positive side, we give a randomized algorithm that is robust to adaptive inputs that uses $\widetilde{O}\left(\frac{n}{R\sqrt{T}}\right)$ space for $M=O\left(\frac{R^2 T}{\log^2 n}\right)$, thereby showing a smooth space-regret trade-off.
翻訳日:2023-03-06 16:10:41 公開日:2023-03-03
# 半教師型医用画像分類のための時空間構造整合性

Spatio-Temporal Structure Consistency for Semi-supervised Medical Image Classification ( http://arxiv.org/abs/2303.01707v1 )

ライセンス: Link先を確認
Wentao Lei, Lei Liu, Li Liu(参考訳) インテリジェントな医学診断は、正確な注釈付き大規模データセットに基づいて顕著に進歩している。 しかし、専門家によるデータの注釈のコストが著しく高いため、ラベル付き画像は少ない。 利用可能なラベルのないデータを完全に活用するために,新しい時空間構造一貫性(STSC)学習フレームワークを提案する。 具体的には、空間構造整合性と時間構造整合性を組み合わせたグラム行列を導出する。 このグラム行列は、異なるトレーニングサンプルの表現間の構造的類似性をキャプチャする。 空間レベルでは,摂動下の異なる試料間の構造的類似性の一貫性を明示的に強制する。 時間レベルでは、関係グラフの安定な部分構造を掘り出すことにより、異なる訓練イテレーションにおける構造的類似性の一貫性を考える。 2つの医療画像データセット(ISIC 2018 ChallengeとChestX-ray14)の実験では、我々の手法が最先端のSSLメソッドより優れていることが示されている。 さらに,Grad-CAMによるグラム行列と熱マップの広範囲な定性解析を行い,本手法の有効性を検証した。

Intelligent medical diagnosis has shown remarkable progress based on the large-scale datasets with precise annotations. However, fewer labeled images are available due to significantly expensive cost for annotating data by experts. To fully exploit the easily available unlabeled data, we propose a novel Spatio-Temporal Structure Consistent (STSC) learning framework. Specifically, a gram matrix is derived to combine the spatial structure consistency and temporal structure consistency together. This gram matrix captures the structural similarity among the representations of different training samples. At the spatial level, our framework explicitly enforces the consistency of structural similarity among different samples under perturbations. At the temporal level, we consider the consistency of the structural similarity in different training iterations by digging out the stable sub-structures in a relation graph. Experiments on two medical image datasets (i.e., ISIC 2018 challenge and ChestX-ray14) show that our method outperforms state-of-the-art SSL methods. Furthermore, extensive qualitative analysis on the Gram matrices and heatmaps by Grad-CAM are presented to validate the effectiveness of our method.
翻訳日:2023-03-06 16:10:09 公開日:2023-03-03
# フェアネス診断としてのモデル説明の相違

Model Explanation Disparities as a Fairness Diagnostic ( http://arxiv.org/abs/2303.01704v1 )

ライセンス: Link先を確認
Peter W. Chang, Leor Fishman, Seth Neel(参考訳) 近年、機械学習モデルの公正性、特にサブグループに対する偏見の定量化と排除に焦点を当てた研究が盛んに行われている。 1つの顕著な作業は、"リッチな部分群"の概念を導入することによって、単純な離散クラスを超えた部分群の概念を一般化し、これらのリッチな部分群クラスに関して校正されたモデルやエラー率を等化しようとするものである。 大きく直交的に、データセットのサブグループがデータセットの他の部分に対してどのように扱われているかを理解することの重要性が増している。 個々のサブグループにおいて、特定のトレーニング機能がデータセット全体よりも著しく重要(あるいは重要でない)であることを示すことは容易であり、この違いを特徴重要格差(feature importance disparity, fid)と呼ぶ。 しかし、保護された特徴(人種、性別、年齢など)に対する関数の構造化クラスによって定義されるリッチな部分群は指数関数的に多数存在し、特徴的重要性を定義するには多くの方法がある。 本稿では,リッチな部分群空間を効率的に探索し,指定された部分群サイズ内に収まる大きなfidを持つ特徴群/部分群ペアを見つけるための2つのアプローチを考案する。 最初のアプローチでは、分離可能な特徴重要度メトリクスを考慮し、2人のプレイヤーによるゼロサムゲームをモデル化し、制約サイズの高い部分群の計算をコストに敏感な分類問題に還元する。 第二のアプローチは、非分離の重要度を考慮し、ヒューリスティック最適化手法を用いて部分群に収束する。 これらのアプローチは、複数の重要概念を持つ4つの異なるデータセットでテストされ、しばしば桁違いに高いFIDを持つ特徴/サブグループペアを発見し、データセットの信頼性と公平性に関する興味深い議論をもたらした。

In recent years, there has been a flurry of research focusing on the fairness of machine learning models, and in particular on quantifying and eliminating bias against subgroups. One prominent line of work generalizes the notion of subgroups beyond simple discrete classes by introducing the notion of a "rich subgroup," and seeks to train models that are calibrated or equalize error rates with respect to these richer subgroup classes. Largely orthogonally, there has been growing recognition of the importance of understanding how subgroups of the dataset are being treated relative to the rest of the dataset. It can easily be shown that certain training features may be significantly more important (or less important) on a discrete subgroup compared to the whole dataset with this difference being called Feature Importance Disparity (FID). However, there are an exponentially large number of rich subgroups defined by a structured class of functions over protected features (such as race, gender, age, etc.) and there are many ways that feature importance can be defined. In this paper, we develop two approaches to efficiently search the rich subgroup space and find feature/subgroup pairs with large FID that fit within a specified subgroup size. The first approach considers feature importance metrics which are separable and models a two-player, zero-sum game to reduce the computation of subgroups with high FID of constrained size to a cost-sensitive classification problem. The second approach considers non-separable importance metrics and uses heuristic optimization techniques to converge on the subgroups. Both of these approaches were tested on 4 different datasets with multiple importance notions and found feature/subgroup pairs that had high FID, often by orders of magnitude, and yield interesting discussions about the reliability and fairness of the datasets.
翻訳日:2023-03-06 16:09:53 公開日:2023-03-03
# 確率的利益をもつKnapsack問題に対する進化的多目的アルゴリズム

Evolutionary Multi-Objective Algorithms for the Knapsack Problems with Stochastic Profits ( http://arxiv.org/abs/2303.01695v1 )

ライセンス: Link先を確認
Kokila Perera and Aneta Neumann and Frank Neumann(参考訳) 進化的多目的アルゴリズムは、様々な確率的組合せ最適化問題に利用できることが広く示されている。 環境の不確実性を考慮して意思決定を行うことができるため、環境制約最適化は複雑な現実世界のシナリオにおいて重要な役割を果たす。 我々は,クナプサック問題の確率的利益によるバージョンを,解の利益に対する一定の信頼度を保証するために検討する。 本稿では,利益機会制約クナップサック問題の多目的定式化と,要求される特定の信頼度レベルとは独立に動作する3つの多目的適合性評価手法を提案する。 我々は,よく知られた多目的進化アルゴリズムgsemoとnsga-iiを用いてアプローチを評価する。 また,GSEMOにおいて,信頼度に基づいて一定解を定期的に除去することにより,最終個体群の品質を向上するフィルタリング手法を提案する。 我々は,クナップサック項目が固定された不確実性と,期待される利益と正に相関する不確実性を有するような条件下でのいくつかのベンチマークにおけるアプローチの有効性を示す。

Evolutionary multi-objective algorithms have been widely shown to be successful when utilized for a variety of stochastic combinatorial optimization problems. Chance constrained optimization plays an important role in complex real-world scenarios, as it allows decision makers to take into account the uncertainty of the environment. We consider a version of the knapsack problem with stochastic profits to guarantee a certain level of confidence in the profit of the solutions. We introduce the multi-objective formulations of the profit chance constrained knapsack problem and design three bi-objective fitness evaluation methods that work independently of the specific confidence level required. We evaluate our approaches using well-known multi-objective evolutionary algorithms GSEMO and NSGA-II. In addition, we introduce a filtering method for GSEMO that improves the quality of the final population by periodically removing certain solutions from the interim populations based on their confidence level. We show the effectiveness of our approaches on several benchmarks for both settings where the knapsack items have fixed uniform uncertainties and uncertainties that are positively correlated with the expected profit of an item.
翻訳日:2023-03-06 16:09:22 公開日:2023-03-03
# DWFormer: 音声認識のための動的ウィンドウ変換器

DWFormer: Dynamic Window transFormer for Speech Emotion Recognition ( http://arxiv.org/abs/2303.01694v1 )

ライセンス: Link先を確認
Shuaiqi Chen, Xiaofen Xing, Weibin Zhang, Weidong Chen, Xiangmin Xu(参考訳) 音声感情認識は人間とコンピュータの相互作用に不可欠である。 異なる感情を表す時間領域は、局所的に話の異なる部分に散在する。 さらに、重要な情報の時間スケールは、音声セグメント内および音声セグメント間で大きく変化する可能性がある。 この分野ではトランスフォーマーベースのモデルが進歩しているが、既存のモデルは時間スケールの異なる重要な領域を正確に見つけることができなかった。 この問題に対処するために、サンプルを動的にウィンドウに分割することで時間的重要性を活用する新しいアーキテクチャであるDynamic Window TransFormer (DWFormer)を提案する。 時間的重要な情報を局所的にきめ細かな方法で捉えるための自己認識機構がウィンドウ内に適用される。 クロスウィンドウ情報インタラクションは、グローバルコミュニケーションにも考慮されている。 DWFormerはIEMOCAPとMELDデータセットの両方で評価される。 実験結果から,提案手法は従来の最先端手法よりも優れた性能を示した。

Speech emotion recognition is crucial to human-computer interaction. The temporal regions that represent different emotions scatter in different parts of the speech locally. Moreover, the temporal scales of important information may vary over a large range within and across speech segments. Although transformer-based models have made progress in this field, the existing models could not precisely locate important regions at different temporal scales. To address the issue, we propose Dynamic Window transFormer (DWFormer), a new architecture that leverages temporal importance by dynamically splitting samples into windows. Self-attention mechanism is applied within windows for capturing temporal important information locally in a fine-grained way. Cross-window information interaction is also taken into account for global communication. DWFormer is evaluated on both the IEMOCAP and the MELD datasets. Experimental results show that the proposed model achieves better performance than the previous state-of-the-art methods.
翻訳日:2023-03-06 16:09:03 公開日:2023-03-03
# 拡張空間における生成的拡散:完全なレシピ

Generative Diffusions in Augmented Spaces: A Complete Recipe ( http://arxiv.org/abs/2303.01748v1 )

ライセンス: Link先を確認
Kushagra Pandey, Stephan Mandt(参考訳) スコアベース生成モデル(SGM)は様々なタスクに対して最先端の合成結果を得た。 しかし、前方拡散過程の現在の設計空間はほとんど探索されておらず、しばしば物理的直観や仮定の単純化に依存している。 拡張性のあるベイズ型後部サンプリング器の設計から得られた結果を利用して,SGMにおける前部プロセスを構築するための完全なレシピを提示する。 このパラメータ化の特定のインスタンス化として,既存のSGMがいくつか存在することを示す。 さらに,本手法に基づき,物理的位相空間に類似した補助変数を付加した空間においてスコアベースモデリングを行う新しいsgmである位相空間ランジュバン拡散(psld)を構築する。 標準画像合成ベンチマークにおいて,psldは,サンプル品質と速度vs品質のトレードオフにおいて,競合するベースラインを上回っていることを示す。 さらに,PSLDは最先端のSGM (FID: 2.10 on unconditional CIFAR-10 generation) に匹敵するサンプル品質を実現し,さらなる開発のためのSGMバックボーンとして魅力的な代替手段を提供する。 再現性のためにコードとモデルチェックポイントをhttps://github.com/mandt-lab/psldで公開します。

Score-based Generative Models (SGMs) have achieved state-of-the-art synthesis results on diverse tasks. However, the current design space of the forward diffusion process is largely unexplored and often relies on physical intuition or simplifying assumptions. Leveraging results from the design of scalable Bayesian posterior samplers, we present a complete recipe for constructing forward processes in SGMs, all of which are guaranteed to converge to the target distribution of interest. We show that several existing SGMs can be cast as specific instantiations of this parameterization. Furthermore, building on this recipe, we construct a novel SGM: Phase Space Langevin Diffusion (PSLD), which performs score-based modeling in a space augmented with auxiliary variables akin to a physical phase space. We show that PSLD outperforms competing baselines in terms of sample quality and the speed-vs-quality tradeoff across different samplers on various standard image synthesis benchmarks. Moreover, we show that PSLD achieves sample quality comparable to state-of-the-art SGMs (FID: 2.10 on unconditional CIFAR-10 generation), providing an attractive alternative as an SGM backbone for further development. We will publish our code and model checkpoints for reproducibility at https://github.com/mandt-lab/PSLD.
翻訳日:2023-03-06 16:03:26 公開日:2023-03-03
# 逆帯域学習によるキュースケジューリング

Queue Scheduling with Adversarial Bandit Learning ( http://arxiv.org/abs/2303.01745v1 )

ライセンス: Link先を確認
Jiatai Huang, Leana Golubchik, Longbo Huang(参考訳) 本稿では,瞬時ネットワーク条件の知識のない待ち行列システムのスケジューリングについて検討する。 我々は、1ホップのシングルサーバ待ち行列システムについて検討し、それぞれが時刻変動と非定常到着とサービスレートを持つ、$k$のキューからなる。 我々のスケジューリング手法は、各キューの瞬時ネットワーク状態(到着とサービス率)を知らずに、逆帯域学習とリアプノフドリフト最小化の革新的な組み合わせに基づいている。 次に、時間変化が穏やかな条件を満たすランダム化ポリシーのいくつかの(おそらく未知の)シーケンスで安定化可能なシステムを安定化できる2つの新しいアルゴリズムである「texttt{SoftMW} (SoftMaxWeight) と「texttt{SSMW} (Sliding-window SoftMaxWeight)」を提案する。 さらに、到着と出発が決定的に有界ではなく有界な瞬間のみを持つような設定に一般化し、システムの安定化が可能な \texttt{SoftMW+} と \texttt{SSMW+} を提案する。 新しいアルゴリズムの構成要素として、マルチアーム付きバンディットのための古典的な \texttt{exp3.s} (auer et al., 2002) アルゴリズムを拡張して、境界のない大きなフィードバック信号を処理します。

In this paper, we study scheduling of a queueing system with zero knowledge of instantaneous network conditions. We consider a one-hop single-server queueing system consisting of $K$ queues, each with time-varying and non-stationary arrival and service rates. Our scheduling approach builds on an innovative combination of adversarial bandit learning and Lyapunov drift minimization, without knowledge of the instantaneous network state (the arrival and service rates) of each queue. We then present two novel algorithms \texttt{SoftMW} (SoftMaxWeight) and \texttt{SSMW} (Sliding-window SoftMaxWeight), both capable of stabilizing systems that can be stablized by some (possibly unknown) sequence of randomized policies whose time-variation satisfies a mild condition. We further generalize our results to the setting where arrivals and departures only have bounded moments instead of being deterministically bounded and propose \texttt{SoftMW+} and \texttt{SSMW+} that are capable of stabilizing the system. As a building block of our new algorithms, we also extend the classical \texttt{EXP3.S} (Auer et al., 2002) algorithm for multi-armed bandits to handle unboundedly large feedback signals, which can be of independent interest.
翻訳日:2023-03-06 16:03:05 公開日:2023-03-03
# 確率的回転推定のためのso(3)上のラプラスインスパイア分布

A Laplace-inspired Distribution on SO(3) for Probabilistic Rotation Estimation ( http://arxiv.org/abs/2303.01743v1 )

ライセンス: Link先を確認
Yingda Yin, Yang Wang, He Wang, Baoquan Chen(参考訳) 単一のRGB画像から3DoF回転を推定することは重要な問題である。 確率的回転回帰は、予測とともに不確実性情報を表現する利点により、ますます注目を集めている。 gaussian-resembling bingham分布とmatrix fisher分布を用いたモデリングノイズは自然であるが, 2次罰の性質から偏差に敏感であることが示されている。 本稿では,多変量ラプラス分布から着想を得て,so(3)上の新しい回転ラプラス分布を提案する。 回転ラプラス分布は、外れ値の乱れに対して堅牢であり、低エラー領域への勾配を強くし、より良い収束をもたらす。 提案した分布は,確率的および非確率的ベースライン上での回転回帰タスクの最先端性能を実現することを示す。 私たちのプロジェクトページはhttps://pku-epic.github.io/RotationLaplace.comです。

Estimating the 3DoF rotation from a single RGB image is an important yet challenging problem. Probabilistic rotation regression has raised more and more attention with the benefit of expressing uncertainty information along with the prediction. Though modeling noise using Gaussian-resembling Bingham distribution and matrix Fisher distribution is natural, they are shown to be sensitive to outliers for the nature of quadratic punishment to deviations. In this paper, we draw inspiration from multivariate Laplace distribution and propose a novel Rotation Laplace distribution on SO(3). Rotation Laplace distribution is robust to the disturbance of outliers and enforces much gradient to the low-error region, resulting in a better convergence. Our extensive experiments show that our proposed distribution achieves state-of-the-art performance for rotation regression tasks over both probabilistic and non-probabilistic baselines. Our project page is at https://pku-epic.github.io/RotationLaplace.
翻訳日:2023-03-06 16:02:36 公開日:2023-03-03
# NCL:ノイズ強化コントラスト学習を用いたテキストバックドアディフェンス

NCL: Textual Backdoor Defense Using Noise-augmented Contrastive Learning ( http://arxiv.org/abs/2303.01742v1 )

ライセンス: Link先を確認
Shengfang Zhai, Qingni Shen, Xiaoyi Chen, Weilong Wang, Cong Li, Yuejian Fang and Zhonghai Wu(参考訳) 現在、バックドア攻撃はディープラーニングモデルに大きな害を及ぼすため、注目を集めている。 敵は、毒付きデータセットを使用して被害者に無意識に訓練された後、モデルにバックドアを注入させるトレーニングデータを毒する。 しかし、テキストの分野では、既存の作品はバックドア攻撃に対する十分な防御を提供していない。 本稿では,信頼できないデータを用いたモデルのトレーニングにおいて,テキストバックドア攻撃から防御するための雑音提示型コントラスト学習(ncl)フレームワークを提案する。 トリガーとターゲットラベルのマッピングを緩和するために,バックドアトリガーを乱すノイズを適切に追加し,トレーニングデータセットを増強し,コントラスト学習の目的を活かした特徴空間におけるホモロジーサンプルを抽出する。 実験により,3種類のテキストバックドア攻撃を防御する手法の有効性が実証された。

At present, backdoor attacks attract attention as they do great harm to deep learning models. The adversary poisons the training data making the model being injected with a backdoor after being trained unconsciously by victims using the poisoned dataset. In the field of text, however, existing works do not provide sufficient defense against backdoor attacks. In this paper, we propose a Noise-augmented Contrastive Learning (NCL) framework to defend against textual backdoor attacks when training models with untrustworthy data. With the aim of mitigating the mapping between triggers and the target label, we add appropriate noise perturbing possible backdoor triggers, augment the training dataset, and then pull homology samples in the feature space utilizing contrastive learning objective. Experiments demonstrate the effectiveness of our method in defending three types of textual backdoor attacks, outperforming the prior works.
翻訳日:2023-03-06 16:02:20 公開日:2023-03-03
# DeepfakeMAE:Deepfakeビデオ検出のための顔部分一致対応自動エンコーダ

DeepfakeMAE: Facial Part Consistency Aware Masked Autoencoder for Deepfake Video Detection ( http://arxiv.org/abs/2303.01740v1 )

ライセンス: Link先を確認
Juan Hu, Xin Liao, Difei Gao, Satoshi Tsutsui, Zheng Qin, Mike Zheng Shou(参考訳) ディープフェイク技術は悪用され、ディープフェイク検出法の開発に強い研究関心が寄せられている。 ディープフェイクは、しばしば顔の部品をいじってビデオコンテンツを操作する。 しかし、この操作は通常、顔の部分間の一貫性を損なう。例えば、ディープフェイクは笑顔の唇を動揺させるが、目はまだ微笑んでいる。 既存の研究では、特定の顔部分(例えば唇)の矛盾を見つけることを提案したが、新しいディープフェイク技術が検出器が使用する特定の顔部分に焦点を当てた場合、性能は低下する可能性がある。 そこで本研究では,すべての顔部分の成分を有効活用できる新しいディープフェイク検出モデルDeepfakeMAEを提案する。 具体的には,まず,マスク付きオートエンコーダを事前学習し,顔部をランダムにマスキングし,残りの顔部に基づいて欠損領域を再構築することにより,顔部の一貫性を学習する。 さらに,実映像と偽映像の差異を最大化するために,プリトレーニングエンコーダとデコーダをそれぞれ利用するデュアルネットワークを用いた新しいモデルを提案する。 1)予め訓練したエンコーダは、所定の映像の全体情報をキャプチャするために微調整される。 2)DeepfakeMAEの再構成は偽画像よりも実際の顔画像に近いべきであるという動機から,事前訓練したデコーダを用いて実映像と偽動画を区別する。 標準ベンチマーク実験により,DeepfakeMAEは高い有効性を示し,特に従来の最先端手法を平均3.1%のAUCで比較した。

Deepfake techniques have been used maliciously, resulting in strong research interests in developing Deepfake detection methods. Deepfake often manipulates the video content by tampering with some facial parts. However, this manipulation usually breaks the consistency among facial parts, e.g., Deepfake may change smiling lips to upset, but the eyes are still smiling. Existing works propose to spot inconsistency on some specific facial parts (e.g., lips), but they may perform poorly if new Deepfake techniques focus on the specific facial parts used by the detector. Thus, this paper proposes a new Deepfake detection model, DeepfakeMAE, which can utilize the consistencies among all facial parts. Specifically, given a real face image, we first pretrain a masked autoencoder to learn facial part consistency by randomly masking some facial parts and reconstructing missing areas based on the remaining facial parts. Furthermore, to maximize the discrepancy between real and fake videos, we propose a novel model with dual networks that utilize the pretrained encoder and decoder, respectively. 1) The pretrained encoder is finetuned for capturing the overall information of the given video. 2) The pretrained decoder is utilized for distinguishing real and fake videos based on the motivation that DeepfakeMAE's reconstruction should be more similar to a real face image than a fake one. Our extensive experiments on standard benchmarks demonstrate that DeepfakeMAE is highly effective and especially outperforms the previous state-of-the-art method by 3.1% AUC on average in cross-dataset detection.
翻訳日:2023-03-06 16:02:04 公開日:2023-03-03
# 符号のニューラルモデルにおけるディトラクタの検討

Study of Distractors in Neural Models of Code ( http://arxiv.org/abs/2303.01739v1 )

ライセンス: Link先を確認
Md Rafiqul Islam Rabin, Aftab Hussain, Sahil Suneja and Mohammad Amin Alipour(参考訳) 神経モデルの予測に寄与する重要な特徴を見つけることは、説明可能なaiの研究の活発な領域である。 ニューラルモデルは不透明であり、そのような特徴は予測をより深く理解することにつながる。 これとは対照的に,本研究では,モデルの予測に対する信頼度に影響を与えることによって,予測に疑問を呈する特徴という,散逸する特徴の逆の視点を提示する。 気晴らしを理解することは、神経モデルの予測における特徴の関連性の補足的な視点を提供する。 本稿では,その影響とタイプに関する予備的な結果を提供するために,リダクションに基づく手法を適用した。 さまざまなタスク、モデル、コードのデータセットにわたる実験により、トークンの削除が予測におけるモデルの信頼性に重大な影響を与え、トークンのカテゴリがモデルの信頼性に重要な役割を果たすことが明らかになりました。 本研究の目的は,モデルの信頼性に大きな影響を及ぼすトークンを強調し,モデルの透明性を高めることである。

Finding important features that contribute to the prediction of neural models is an active area of research in explainable AI. Neural models are opaque and finding such features sheds light on a better understanding of their predictions. In contrast, in this work, we present an inverse perspective of distractor features: features that cast doubt about the prediction by affecting the model's confidence in its prediction. Understanding distractors provide a complementary view of the features' relevance in the predictions of neural models. In this paper, we apply a reduction-based technique to find distractors and provide our preliminary results of their impacts and types. Our experiments across various tasks, models, and datasets of code reveal that the removal of tokens can have a significant impact on the confidence of models in their predictions and the categories of tokens can also play a vital role in the model's confidence. Our study aims to enhance the transparency of models by emphasizing those tokens that significantly influence the confidence of the models.
翻訳日:2023-03-06 16:01:34 公開日:2023-03-03
# 新しい視点合成のための多面神経放射場

Multi-Plane Neural Radiance Fields for Novel View Synthesis ( http://arxiv.org/abs/2303.01736v1 )

ライセンス: Link先を確認
Youssef Abdelkareem, Shady Shehata, Fakhri Karray(参考訳) 新しいビュー合成は、新しいカメラ視点からシーンのフレームを描画する、長年にわたる問題である。 体積的アプローチは、カメラフラスタムの明示的な3次元表現を通じて咬合をモデル化するソリューションを提供する。 マルチプレーン画像(Multi-plane Images、MPI)は、2.Dのシーン表現に繋がる深さの離散化に苦しむ前面平行面を用いてシーンを表現するボリューム手法である。 別のアプローチは、暗黙の3dシーン表現に依存する。 ニューラルネットワーク(neural radiance field, nerf)は、ニューラルネットワークを用いて、フォトリアリスティックな合成結果を達成するネットワークウェイト内の連続的な3dシーン構造をカプセル化するが、実際には非効率なシーン毎の最適化設定に制限される。 多面体ニューラル・レージアンス・フィールド(MINE)は暗黙的なシーン表現と明示的なシーン表現を組み合わせた扉を開く。 入力画像の特徴を利用してシーン毎の最適化を回避しつつ、特に深度次元における連続的な3次元シーン表現を可能にする。 この領域における現在の文献の主な欠点は、単一視点の入力に制限され、合成能力が狭義の視点範囲に制限されていることである。 本研究では,単視点多面体光放射場の性能,一般化,効率を徹底的に検討する。 さらに,複数のビューを受信して合成結果を改善し,視聴範囲を拡大する新しい多面体NeRFアーキテクチャを提案する。 入力ソースフレームからの機能は、異なる視点から重要な情報を強調するために、提案された注意認識融合モジュールを通じて効果的に融合される。 マルチビューNeRF法やMPI法と比較して,注意に基づく融合の有効性と提案手法の有望性を示す実験を行った。

Novel view synthesis is a long-standing problem that revolves around rendering frames of scenes from novel camera viewpoints. Volumetric approaches provide a solution for modeling occlusions through the explicit 3D representation of the camera frustum. Multi-plane Images (MPI) are volumetric methods that represent the scene using front-parallel planes at distinct depths but suffer from depth discretization leading to a 2.D scene representation. Another line of approach relies on implicit 3D scene representations. Neural Radiance Fields (NeRF) utilize neural networks for encapsulating the continuous 3D scene structure within the network weights achieving photorealistic synthesis results, however, methods are constrained to per-scene optimization settings which are inefficient in practice. Multi-plane Neural Radiance Fields (MINE) open the door for combining implicit and explicit scene representations. It enables continuous 3D scene representations, especially in the depth dimension, while utilizing the input image features to avoid per-scene optimization. The main drawback of the current literature work in this domain is being constrained to single-view input, limiting the synthesis ability to narrow viewpoint ranges. In this work, we thoroughly examine the performance, generalization, and efficiency of single-view multi-plane neural radiance fields. In addition, we propose a new multiplane NeRF architecture that accepts multiple views to improve the synthesis results and expand the viewing range. Features from the input source frames are effectively fused through a proposed attention-aware fusion module to highlight important information from different viewpoints. Experiments show the effectiveness of attention-based fusion and the promising outcomes of our proposed method when compared to multi-view NeRF and MPI techniques.
翻訳日:2023-03-06 16:01:17 公開日:2023-03-03
# AdvART:カモフラージュされた物体検出攻撃の対抗技

AdvART: Adversarial Art for Camouflaged Object Detection Attacks ( http://arxiv.org/abs/2303.01734v1 )

ライセンス: Link先を確認
Amira Guesmi, Ioan Marius Bilasco, Muhammad Shafique, and Ihsen Alouani(参考訳) 現実世界の既存の物理的攻撃の大部分は、生成されたパッチに対して顕著で目を引くパターンをもたらし、それによって人間によって特定・検出可能になった。 この制限を克服するため、近年の研究では、生成的敵ネットワーク(GAN)を用いた自然主義パッチの作成を目的としたいくつかのアプローチが提案されている。 しかし、これらのアプローチは計算集約的であり、必ずしも自然なパターンに収束しない。 本稿では,ganを使わずに自然主義的な対向パッチを体系的に生成する軽量フレームワークを提案する。 提案手法を説明するために, 高い攻撃効率を維持しつつ, 芸術絵画のように見えるパッチを作成した, 対向芸術(AdvART)を生成する。 実際、新しい類似性目標を導入することで最適化問題を再定義する。 具体的には、類似度指標を利用して、最適化された目的関数に追加される類似度損失を構築する。 このコンポーネントは、被害者モデルの損失機能を最大化しながら、事前に定義された芸術的パターンに従うパッチをガイドする。 このパッチは、INRIAデータセットのYOLOv4tiny上での平均精度(mAP)を12.53\%で高い成功率を達成する。

A majority of existing physical attacks in the real world result in conspicuous and eye-catching patterns for generated patches, which made them identifiable/detectable by humans. To overcome this limitation, recent work has proposed several approaches that aim at generating naturalistic patches using generative adversarial networks (GANs), which may not catch human's attention. However, these approaches are computationally intensive and do not always converge to natural looking patterns. In this paper, we propose a novel lightweight framework that systematically generates naturalistic adversarial patches without using GANs. To illustrate the proposed approach, we generate adversarial art (AdvART), which are patches generated to look like artistic paintings while maintaining high attack efficiency. In fact, we redefine the optimization problem by introducing a new similarity objective. Specifically, we leverage similarity metrics to construct a similarity loss that is added to the optimized objective function. This component guides the patch to follow a predefined artistic patterns while maximizing the victim model's loss function. Our patch achieves high success rates with $12.53\%$ mean average precision (mAP) on YOLOv4tiny for INRIA dataset.
翻訳日:2023-03-06 16:00:49 公開日:2023-03-03
# 完全畳み込みデータ記述を用いた一級損傷検出器

One-class Damage Detector Using Fully-Convolutional Data Description for Prognostics ( http://arxiv.org/abs/2303.01732v1 )

ライセンス: Link先を確認
Takato Yasuno, Masahiro Okano, Riku Ogata, Junichiro Fujii(参考訳) インフラストラクチャマネージャは、インフラストラクチャのライフサイクル中にユーザの満足度を確保するために、高い基準を維持することが重要です。 監視カメラと視覚検査は異常な特徴の検出と劣化の発生を自動化するための進歩をもたらした。 しばしば、損傷データ収集に要する時間と繰り返し検査を行う。 一級損傷検出手法は、通常の画像だけでパラメータを最適化できるという利点がある。 同時に、ヒートマップを用いた視覚的説明により、局所的な異常な特徴を理解することができる。 完全畳み込みデータ記述(FCDD)を用いた一級損傷検出のための汎用アプリケーションを提案する。 また,完全畳み込みネットワーク(FCN)の受容場からのガウスアップサンプリングを用いたアップサンプリングに基づくアクティベーションマップを用いて,損傷特性の可視化を行った。 コンクリート損傷と鋼材の腐食を実験的に検証し,その有用性と今後の課題について述べる。

It is important for infrastructure managers to maintain a high standard to ensure user satisfaction during a lifecycle of infrastructures. Surveillance cameras and visual inspections have enabled progress toward automating the detection of anomalous features and assessing the occurrence of the deterioration. Frequently, collecting damage data constraints time consuming and repeated inspections. One-class damage detection approach has a merit that only the normal images enables us to optimize the parameters. Simultaneously, the visual explanation using the heat map enable us to understand the localized anomalous feature. We propose a civil-purpose application to automate one-class damage detection using the fully-convolutional data description (FCDD). We also visualize the explanation of the damage feature using the up-sampling-based activation map with the Gaussian up-sampling from the receptive field of the fully convolutional network (FCN). We demonstrate it in experimental studies: concrete damage and steel corrosion and mention its usefulness and future works.
翻訳日:2023-03-06 16:00:31 公開日:2023-03-03
# 不完全なオンラインデモによるガード付き政策最適化

Guarded Policy Optimization with Imperfect Online Demonstrations ( http://arxiv.org/abs/2303.01728v1 )

ライセンス: Link先を確認
Zhenghai Xue, Zhenghao Peng, Quanyi Li, Zhihan Liu, Bolei Zhou(参考訳) teacher-sudent framework (tsf) は、教師エージェントが学生エージェントのトレーニングを、オンラインデモの参加と提供によって保護する強化学習設定である。 最適と仮定すると、教師方針は学生エージェントの学習過程に介入する完璧なタイミングと能力を持ち、安全保証と探索指導を提供する。 しかし、現実の多くの環境では、高いか、あるいは優れた教師の政策を得ることができない。 本研究では,優れた教師の仮定を緩和し,任意の教師方針を質素あるいは劣悪なパフォーマンスで組み込む新しい手法を開発する。 我々は,ts2cと呼ばれる,軌道に基づく価値推定に基づく教師の介入を組み込んだオフ・ポリシー強化学習アルゴリズムをインスタンス化する。 理論解析により,TS2Cアルゴリズムは教師自身のパフォーマンスに影響されずに,効率的な探索と実質的な安全保証を実現することが検証された。 各種連続制御タスクにおける実験により, 学習コストを低く抑えつつ, 異なるパフォーマンスレベルにおける教員方針を活用できることを示した。 さらに, 学生政策は, 不完全な教員政策を, ホールドアウトテスト環境において, 高蓄積報酬の観点から超越している。 コードはhttps://metadriverse.github.io/TS2Cで入手できる。

The Teacher-Student Framework (TSF) is a reinforcement learning setting where a teacher agent guards the training of a student agent by intervening and providing online demonstrations. Assuming optimal, the teacher policy has the perfect timing and capability to intervene in the learning process of the student agent, providing safety guarantee and exploration guidance. Nevertheless, in many real-world settings it is expensive or even impossible to obtain a well-performing teacher policy. In this work, we relax the assumption of a well-performing teacher and develop a new method that can incorporate arbitrary teacher policies with modest or inferior performance. We instantiate an Off-Policy Reinforcement Learning algorithm, termed Teacher-Student Shared Control (TS2C), which incorporates teacher intervention based on trajectory-based value estimation. Theoretical analysis validates that the proposed TS2C algorithm attains efficient exploration and substantial safety guarantee without being affected by the teacher's own performance. Experiments on various continuous control tasks show that our method can exploit teacher policies at different performance levels while maintaining a low training cost. Moreover, the student policy surpasses the imperfect teacher policy in terms of higher accumulated reward in held-out testing environments. Code is available at https://metadriverse.github.io/TS2C.
翻訳日:2023-03-06 16:00:17 公開日:2023-03-03
# インクリメンタル観測データを用いた連続因果推論

Continual Causal Inference with Incremental Observational Data ( http://arxiv.org/abs/2303.01775v1 )

ライセンス: Link先を確認
Zhixuan Chu, Ruopeng Li, Stephen Rathbun, Sheng Li(参考訳) ビッグデータの時代は、モバイルやソーシャルネットワーク、オンライン広告、ウェブマイニング、医療、教育、公共政策、マーケティングキャンペーンなどの観察データの利用が増加し、因果効果推定の開発が促進されている。 反現実的な結果の欠如や選択バイアスなど、学術分野における課題を克服するための大きな進歩があったが、ほとんどの産業アプリケーションでは非現実的なソース固有および定常的な観測データのみに焦点を当てている。 本稿では, インクリメンタルに利用可能な観測データから因果効果を推定する新たな産業問題を調査し, 拡張性, 適応性, アクセシビリティの3つの評価基準を提案する。 非定常データ分布から漸進的に利用できる観測データを用いて因果効果を推定するための連続因果効果表現学習法を提案する。 全ての観測データにアクセスする代わりに、我々の手法は以前のデータから得られた特徴表現の限られたサブセットのみを格納する。 選択・平衡表現学習,特徴表現蒸留,特徴変換を組み合わせることで,原データの推定能力を損なうことなく,新たなデータに対する継続的な因果効果推定を実現する。 拡張実験は連続因果効果推定の重要性と本手法の有効性を示す。

The era of big data has witnessed an increasing availability of observational data from mobile and social networking, online advertising, web mining, healthcare, education, public policy, marketing campaigns, and so on, which facilitates the development of causal effect estimation. Although significant advances have been made to overcome the challenges in the academic area, such as missing counterfactual outcomes and selection bias, they only focus on source-specific and stationary observational data, which is unrealistic in most industrial applications. In this paper, we investigate a new industrial problem of causal effect estimation from incrementally available observational data and present three new evaluation criteria accordingly, including extensibility, adaptability, and accessibility. We propose a Continual Causal Effect Representation Learning method for estimating causal effects with observational data, which are incrementally available from non-stationary data distributions. Instead of having access to all seen observational data, our method only stores a limited subset of feature representations learned from previous data. Combining selective and balanced representation learning, feature representation distillation, and feature transformation, our method achieves the continual causal effect estimation for new data without compromising the estimation capability for original data. Extensive experiments demonstrate the significance of continual causal effect estimation and the effectiveness of our method.
翻訳日:2023-03-06 15:53:20 公開日:2023-03-03
# 辞書に基づく埋め込みによる高次元組合せ空間上のベイズ最適化

Bayesian Optimization over High-Dimensional Combinatorial Spaces via Dictionary-based Embeddings ( http://arxiv.org/abs/2303.01774v1 )

ライセンス: Link先を確認
Aryan Deshwal, Sebastian Ament, Maximilian Balandat, Eytan Bakshy, Janardhan Rao Doppa, David Eriksson(参考訳) 我々は、多くの科学、工学、mlアプリケーションで発生する高次元組合せ空間上の高価なブラックボックス関数を最適化する問題を考える。 我々はベイズ最適化(BO)を用いて、多数のバイナリパラメータとカテゴリパラメータを効率的に扱う新しい代理モデリング手法を提案する。 鍵となる考え方は、入力空間(辞書)から多くの離散構造を選択し、それらを高次元の組合せ構造に対する順序埋め込みを定義することである。 これにより、既存のガウス過程モデルを連続空間に使うことができる。 二進ウェーブレットに基づく二進空間の辞書を構築する原理的手法を開発し,分類空間に一般化したランダム化構成法を提案する。 辞書ベースの埋め込みの有効性を支持する理論的正当性を提供する。 種々の実世界のベンチマーク実験により,提案手法が最先端BO法に対して有効であることを示す。

We consider the problem of optimizing expensive black-box functions over high-dimensional combinatorial spaces which arises in many science, engineering, and ML applications. We use Bayesian Optimization (BO) and propose a novel surrogate modeling approach for efficiently handling a large number of binary and categorical parameters. The key idea is to select a number of discrete structures from the input space (the dictionary) and use them to define an ordinal embedding for high-dimensional combinatorial structures. This allows us to use existing Gaussian process models for continuous spaces. We develop a principled approach based on binary wavelets to construct dictionaries for binary spaces, and propose a randomized construction method that generalizes to categorical spaces. We provide theoretical justification to support the effectiveness of the dictionary-based embeddings. Our experiments on diverse real-world benchmarks demonstrate the effectiveness of our proposed surrogate modeling approach over state-of-the-art BO methods.
翻訳日:2023-03-06 15:52:59 公開日:2023-03-03
# モデルに基づく強化学習によるエネルギー市場浄化と入札の近似

Approximating Energy Market Clearing and Bidding With Model-Based Reinforcement Learning ( http://arxiv.org/abs/2303.01772v1 )

ライセンス: Link先を確認
Thomas Wolgast and Astrid Nie{\ss}e(参考訳) エネルギー市場は、市場参加者の望ましくない行動にインセンティブを与えることができる。 マルチエージェント強化学習(MARL)は,エネルギー市場参加者の期待行動を決定するための,有望な新しいアプローチである。 しかし、強化学習はシステムとの多くの相互作用を収束させる必要があり、電力系統環境はしばしば市場清算のための最適電力フロー(opf)計算のような広範な計算からなる。 この複雑さに対処するために,我々は,学習したopf近似と明示的な市場ルールを用いて,基本的なmarlアルゴリズムにエネルギー市場のモデルを提供する。 学習されたOPFサロゲートモデルはOPFの明確な解決を完全に不要にする。 我々の実験では、このモデルはトレーニング時間を約1桁削減するが、nash平衡のやや悪い近似のコストがかかることを実証した。 本手法の潜在的な応用は, 市場設計, 市場参加者のより現実的なモデリング, マニピュレーション行動の分析である。

Energy markets can provide incentives for undesired behavior of market participants. Multi-agent Reinforcement learning (MARL) is a promising new approach to determine the expected behavior of energy market participants. However, reinforcement learning requires many interactions with the system to converge, and the power system environment often consists of extensive computations, e.g., optimal power flow (OPF) calculation for market clearing. To tackle this complexity, we provide a model of the energy market to a basic MARL algorithm, in form of a learned OPF approximation and explicit market rules. The learned OPF surrogate model makes an explicit solving of the OPF completely unnecessary. Our experiments demonstrate that the model additionally reduces training time by about one order of magnitude, but at the cost of a slightly worse approximation of the Nash equilibrium. Potential applications of our method are market design, more realistic modeling of market participants, and analysis of manipulative behavior.
翻訳日:2023-03-06 15:52:46 公開日:2023-03-03
# テンソルと深部生成モデルを用いた量子ラジオマップ推定

Quantized Radio Map Estimation Using Tensor and Deep Generative Models ( http://arxiv.org/abs/2303.01770v1 )

ライセンス: Link先を確認
Subash Timilsina, Sagar Shrestha, Xiao Fu(参考訳) スペクトル地図 (SC) は、無線地図推定 (RME) としても知られ、限られたセンサ測定から複数の領域(周波数と空間)の電波パワー伝搬マップを作成することを目的としている。 初期の手法は理論的な支援を欠いていたが、最近の研究は、高次元のマルチドメイン無線信号のブロック終端テンソル分解(BTD)モデルや特定の深部生成モデル(DGM)など、低次元のモデルを用いて、無線マップを確実に復元できることを示した。 しかし、これらの既存の証明可能なSCアプローチは、センサーが実測値(フルレゾリューション)を核融合中心に送ると仮定している。 この研究は、BTDとDGMベースのSCを、非常に量子化されたセンサー測定を使用するシナリオに一般化する量子化されたSCフレームワークを提示する。 gaussian quantizer による最大度推定(mle)に基づくscフレームワークを提案する。 MLE基準を用いた無線地図の復元性は、例えば不完全な無線地図モデリングやノイズ測定のような現実的な条件下で特徴付けられる。 提案手法の有効性を示すためにシミュレーションと実データ実験が用いられる。

Spectrum cartography (SC), also known as radio map estimation (RME), aims at crafting multi-domain (e.g., frequency and space) radio power propagation maps from limited sensor measurements. While early methods often lacked theoretical support, recent works have demonstrated that radio maps can be provably recovered using low-dimensional models -- such as the block-term tensor decomposition (BTD) model and certain deep generative models (DGMs) -- of the high-dimensional multi-domain radio signals. However, these existing provable SC approaches assume that sensors send real-valued (full-resolution) measurements to the fusion center, which is unrealistic. This work puts forth a quantized SC framework that generalizes the BTD and DGM-based SC to scenarios where heavily quantized sensor measurements are used. A maximum likelihood estimation (MLE)-based SC framework under a Gaussian quantizer is proposed. Recoverability of the radio map using the MLE criterion are characterized under realistic conditions, e.g., imperfect radio map modeling and noisy measurements. Simulations and real-data experiments are used to showcase the effectiveness of the proposed approach.
翻訳日:2023-03-06 15:52:30 公開日:2023-03-03
# 協調型マルチエージェント強化学習のためのリスクベース最適探索に向けて

Toward Risk-based Optimistic Exploration for Cooperative Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2303.01768v1 )

ライセンス: Link先を確認
Jihwan Oh, Joonkee Kim, Minchan Jeong, Se-Young Yun(参考訳) 複数のエージェントの挙動が互いに影響するため、マルチエージェントの設定は複雑で予測不可能である。 このような環境不確実性に対処するため、分布出力による不確実性を含む分散強化学習アルゴリズムをマルチエージェント強化学習(MARL)手法に統合し、最先端の性能を実現する。 しかしながら、分配的marlアルゴリズムは、協調戦略を考慮していない従来の$\epsilon$-greedyに依存している。 本稿では,分布のサンプリング領域をシフトすることで協調的に楽観的な行動につながるリスクベースの探索を提案する。 当初は、楽観的な行動である探索のための状態-作用値の上位量子化から期待され、徐々に量子化のサンプリング領域を、利用のために全分布にシフトする。 各エージェントが同じレベルのリスクにさらされることを保証することで、協力的に楽観的な行動を取るように強制することができる。 本手法は,リスクレベルを適切に制御した定量回帰に基づく協調探索を必要とするマルチエージェント環境での顕著な性能を示す。

The multi-agent setting is intricate and unpredictable since the behaviors of multiple agents influence one another. To address this environmental uncertainty, distributional reinforcement learning algorithms that incorporate uncertainty via distributional output have been integrated with multi-agent reinforcement learning (MARL) methods, achieving state-of-the-art performance. However, distributional MARL algorithms still rely on the traditional $\epsilon$-greedy, which does not take cooperative strategy into account. In this paper, we present a risk-based exploration that leads to collaboratively optimistic behavior by shifting the sampling region of distribution. Initially, we take expectations from the upper quantiles of state-action values for exploration, which are optimistic actions, and gradually shift the sampling region of quantiles to the full distribution for exploitation. By ensuring that each agent is exposed to the same level of risk, we can force them to take cooperatively optimistic actions. Our method shows remarkable performance in multi-agent settings requiring cooperative exploration based on quantile regression appropriately controlling the level of risk.
翻訳日:2023-03-06 15:52:08 公開日:2023-03-03
# 物理インフォームドニューラルネットワークのトレーニングのための難解な確率勾配線

Implicit Stochastic Gradient Descent for Training Physics-informed Neural Networks ( http://arxiv.org/abs/2303.01767v1 )

ライセンス: Link先を確認
Ye Li, Song-Can Chen, Sheng-Jun Huang(参考訳) 物理インフォームドニューラルネットワーク(PINN)は、前方および逆微分方程式問題の解法において効果的に実証されているが、近似されるターゲット関数が高周波またはマルチスケールの特徴を示す場合のトレーニング失敗にはいまだに閉じ込められている。 本稿では,暗黙の確率勾配降下法(ISGD)を用いてPINNを訓練し,トレーニングプロセスの安定性を向上させることを提案する。 我々はISGDがPINNの勾配流力学の剛性を克服する方法を、特にマルチスケールソリューションにおける問題に対してヒューリスティックに分析した。 理論的には、大きな隠れノードを持つ2層完全連結ニューラルネットワークでは、ランダム初期化isgdは二次損失関数のグローバル最適解に収束する。 実験の結果、ISGDは実際にうまく機能し、SGDやAdamのような他の勾配に基づく最適化手法と比較できる一方で、勾配降下によるトレーニング力学の数値剛性にも効果的に対処できることが示された。

Physics-informed neural networks (PINNs) have effectively been demonstrated in solving forward and inverse differential equation problems, but they are still trapped in training failures when the target functions to be approximated exhibit high-frequency or multi-scale features. In this paper, we propose to employ implicit stochastic gradient descent (ISGD) method to train PINNs for improving the stability of training process. We heuristically analyze how ISGD overcome stiffness in the gradient flow dynamics of PINNs, especially for problems with multi-scale solutions. We theoretically prove that for two-layer fully connected neural networks with large hidden nodes, randomly initialized ISGD converges to a globally optimal solution for the quadratic loss function. Empirical results demonstrate that ISGD works well in practice and compares favorably to other gradient-based optimization methods such as SGD and Adam, while can also effectively address the numerical stiffness in training dynamics via gradient descent.
翻訳日:2023-03-06 15:51:50 公開日:2023-03-03
# 左右差による身体運動からの多様な3次元ハンドジェスチャ予測

Diverse 3D Hand Gesture Prediction from Body Dynamics by Bilateral Hand Disentanglement ( http://arxiv.org/abs/2303.01765v1 )

ライセンス: Link先を確認
Xingqun Qi, Chen Liu, Muyi Sun, Lincheng Li, Changjie Fan, Xin Yu(参考訳) 上半身のダイナミックスから自然で多様な3Dハンドジェスチャを予測することは、仮想アバター作成において実用的ながら難しい課題である。 それまでの研究は通常、両手の間の非対称な動きを見落とし、総合的な方法で両手を生成する。 本研究では, 身体力学から自然かつ多様な3dハンド予測を実現するために, 2段階の2段階3dハンド生成法を提案する。 第1段階では、2つの手振り枝による自然な手振りを生成する。 両手の非対称な動作や動作を考慮し,身体と手間の空間的相互作用を残留学習によりモデル化する空間-残留記憶(SRM)モジュールを導入する。 2つの手の動きwrtの協調性を高める。 body dynamics は、TMM (Temporal-Motion Memory) モジュールを提供する。 TMMは、身体力学と2つの手の動きの時間的関連を効果的にモデル化することができる。 第2段階は、3dの手の予測は連続的な姿勢を考えると非決定論的であるべきだという洞察に基づいている。 そこで我々は,ステージ1からの初期出力に基づいて,我々の3Dハンド予測をさらに多様化する。 具体的には,グラデーションに基づくマルコフ連鎖モンテカルロ(mcmc)サンプリングによる非決定性ハンドジェスチャを生成するためのプロトティピカルメモリサンプリング戦略(pss)を提案する。 本手法はB2Hデータセットと新たに収集したTED Handsデータセットの最先端モデルよりも優れていることを示す。

Predicting natural and diverse 3D hand gestures from the upper body dynamics is a practical yet challenging task in virtual avatar creation. Previous works usually overlook the asymmetric motions between two hands and generate two hands in a holistic manner, leading to unnatural results. In this work, we introduce a novel bilateral hand disentanglement based two-stage 3D hand generation method to achieve natural and diverse 3D hand prediction from body dynamics. In the first stage, we intend to generate natural hand gestures by two hand-disentanglement branches. Considering the asymmetric gestures and motions of two hands, we introduce a Spatial-Residual Memory (SRM) module to model spatial interaction between the body and each hand by residual learning. To enhance the coordination of two hand motions wrt. body dynamics holistically, we then present a Temporal-Motion Memory (TMM) module. TMM can effectively model the temporal association between body dynamics and two hand motions. The second stage is built upon the insight that 3D hand predictions should be non-deterministic given the sequential body postures. Thus, we further diversify our 3D hand predictions based on the initial output from the stage one. Concretely, we propose a Prototypical-Memory Sampling Strategy (PSS) to generate the non-deterministic hand gestures by gradient-based Markov Chain Monte Carlo (MCMC) sampling. Extensive experiments demonstrate that our method outperforms the state-of-the-art models on the B2H dataset and our newly collected TED Hands dataset.
翻訳日:2023-03-06 15:51:30 公開日:2023-03-03
# オープン量子システム上でGroverの探索アルゴリズムを実装する際の最適忠実度

Optimal fidelity in implementing Grover's search algorithm on open quantum system ( http://arxiv.org/abs/2303.01759v1 )

ライセンス: Link先を確認
Nilanjana Chanda and Rangeet Bhattacharyya(参考訳) 我々は、グローバーの探索アルゴリズムをオープン量子システム上で実装し、忠実性について検討する。 特に,アルゴリズムが探索された状態を提供すると推定できる精度について検討した。 実際、あらゆるシステムは環境に何らかの影響を与えている。 本稿では,最近報告されたゆらぎ制御量子マスター方程式(frqme)を用いて,システムダイナミクスに対する環境影響について述べる。 FRQMEは, システム-環境結合による定常緩和に加えて, 適用駆動がシステム力学の散逸を引き起こすことを示唆している。 その結果、忠実度は駆動誘起散逸項と緩和項の両方に依存することが判明し、それらの間に競合が存在することが判明し、忠実度が最大となる駆動振幅の最適値となる。 探索アルゴリズムの効率的な実装には、この最適駆動振幅の正確な知識が不可欠である。

We investigate the fidelity of Grover's search algorithm by implementing it on an open quantum system. In particular, we study with what accuracy one can estimate that the algorithm would deliver the searched state. In reality, every system has some influence of its environment. We include the environmental effects on the system dynamics by using a recently reported fluctuation-regulated quantum master equation (FRQME). The FRQME indicates that in addition to the regular relaxation due to system-environment coupling, the applied drive also causes dissipation in the system dynamics. As a result, the fidelity is found to depend on both the drive-induced dissipative terms and the relaxation terms and we find that there exists a competition between them, leading to an optimum value of the drive amplitude for which the fidelity becomes maximum. For efficient implementation of the search algorithm, precise knowledge of this optimum drive amplitude is essential.
翻訳日:2023-03-06 15:51:05 公開日:2023-03-03
# SottoVoce:ディープニューラルネットワークを用いた超音波イメージングに基づくサイレント音声対話

SottoVoce: An Ultrasound Imaging-Based Silent Speech Interaction Using Deep Neural Networks ( http://arxiv.org/abs/2303.01758v1 )

ライセンス: Link先を確認
Naoki Kimura, Michinari Kono, and Jun Rekimoto(参考訳) 音声によるデジタルデバイスの利用は急速に拡大している。 しかし、音声インタフェースの応用は依然として制限されている。 例えば、公共の場で話すことは周囲の人々の迷惑になり、秘密情報を発信するべきではない。 環境騒音は音声認識の精度を低下させる。 これらの制約に対処するために,ユーザの無声発話を検出するシステムを提案する。 顎下面に装着した超音波イメージングセンサで観察された内部情報から,提案するシステムは,ユーザの発話音声を使わずに発話内容を認識する。 提案する深層ニューラルネットワークモデルは,超音波画像のシーケンスから音響的特徴を得るために用いられる。 システムによって生成された音声信号が既存のスマートスピーカーを制御できることを確認した。 また,音声認識の精度を向上させるために,ユーザが口頭の動きを調整できることも確認した。

The availability of digital devices operated by voice is expanding rapidly. However, the applications of voice interfaces are still restricted. For example, speaking in public places becomes an annoyance to the surrounding people, and secret information should not be uttered. Environmental noise may reduce the accuracy of speech recognition. To address these limitations, a system to detect a user's unvoiced utterance is proposed. From internal information observed by an ultrasonic imaging sensor attached to the underside of the jaw, our proposed system recognizes the utterance contents without the user's uttering voice. Our proposed deep neural network model is used to obtain acoustic features from a sequence of ultrasound images. We confirmed that audio signals generated by our system can control the existing smart speakers. We also observed that a user can adjust their oral movement to learn and improve the accuracy of their voice recognition.
翻訳日:2023-03-06 15:50:52 公開日:2023-03-03
# 深部運動量多角形schr\"odinger橋

Deep Momentum Multi-Marginal Schr\"odinger Bridge ( http://arxiv.org/abs/2303.01751v1 )

ライセンス: Link先を確認
Tianrong Chen, Guan-Horng Liu, Molei Tao, Evangelos A. Theodorou(参考訳) 粗い時間間隔での分布からのサンプルのみを用いた人口動態の再構築は重要な課題である。 フローベースモデルやschr\"odinger bridgeモデルのような最近のデータ駆動アプローチは魅力的な性能を示しているが、推定されたサンプル軌道は、基礎となる確率性や不必要な剛性を考慮していない。 本稿では,確率系に対するスムーズな測度値スプラインの学習を行う新しい計算フレームワークである$\underline{D}$eep $\underline{M}$omentum Multi-Marginal $\underline{S}$chr\"odinger $\underline{B}$ridge(DMSB)を提案する。 まず、状態空間SBアルゴリズムで使用される拡張平均マッチングの目的を位相空間に拡張する。 次に,高次元データセットに対する効果的な位相空間マッチングトレーニングを可能にするbregman反復に基づくマルチコンストラクション最適化トレーニング手法を慎重に作成する。 その結果得られたトレーニングアルゴリズムは,合成データセットと実世界の単細胞rnaシーケンスデータセットの両方のベースラインを著しく上回っている。

Reconstructing population dynamics using only samples from distributions at coarse time intervals is a crucial challenge. Recent data-driven approaches such as flow-based models or Schr\"odinger Bridge models have demonstrated appealing performance, yet the inferred sample trajectories either fail to account for the underlying stochasticity or are unnecessarily rigid. In this article, we propose $\underline{D}$eep $\underline{M}$omentum Multi-Marginal $\underline{S}$chr\"odinger $\underline{B}$ridge(DMSB), a novel computational framework that learns the smooth measure-valued spline for stochastic systems without violating the position marginal constraints across time. We first extend the scalable mean matching objective used in the state space SB algorithm into the phase space. We next carefully craft a multi-constraint optimization training method based on Bregman Iteration that enables effective phase space means matching training for the high-dimensional dataset. We demonstrate that the resulting training algorithm significantly outperforms baselines on both synthetic datasets and a real-world single-cell RNA sequence dataset.
翻訳日:2023-03-06 15:50:40 公開日:2023-03-03
# page: 会話における感情要因の重み付けのための位置認識グラフモデル

PAGE: A Position-Aware Graph-Based Model for Emotion Cause Entailment in Conversation ( http://arxiv.org/abs/2303.01795v1 )

ライセンス: Link先を確認
Xiaojie Gu, Renze Lou, Lin Sun, Shangxin Li(参考訳) Conversational Causal Emotion Entailment (C2E2)は、会話中のターゲット感情に対応する原因を認識することを目的としたタスクである。 会話における発話の順序は因果推論に影響する。 しかし、現在の位置符号化戦略のほとんどは、発話と話者間の順序関係を無視している。 この問題に対処するため,発話間の因果関係を完全にモデル化し,会話全体を符号化する位置認識グラフを考案した。 包括的実験により,本手法は2つの挑戦的なテストセットに対して常に最先端の性能を達成し,モデルの有効性を実証した。 私たちのソースコードはGithubで公開されています。

Conversational Causal Emotion Entailment (C2E2) is a task that aims at recognizing the causes corresponding to a target emotion in a conversation. The order of utterances in the conversation affects the causal inference. However, most current position encoding strategies ignore the order relation among utterances and speakers. To address the issue, we devise a novel position-aware graph to encode the entire conversation, fully modeling causal relations among utterances. The comprehensive experiments show that our method consistently achieves state-of-the-art performance on two challenging test sets, proving the effectiveness of our model. Our source code is available on Github: https://github.com/XiaojieGu/PAGE.
翻訳日:2023-03-06 15:44:40 公開日:2023-03-03
# チーム日立 - SemEval-2023 Task 3: Exploring cross-lingual multi-task Strategies for Genre and Framing Detection in Online News (英語)

Team Hitachi at SemEval-2023 Task 3: Exploring Cross-lingual Multi-task Strategies for Genre and Framing Detection in Online News ( http://arxiv.org/abs/2303.01794v1 )

ライセンス: Link先を確認
Yuta Koreeda, Ken-ichi Yokote, Hiroaki Ozaki, Atsuki Yamaguchi, Masaya Tsunokake, Yasuhiro Sogawa(参考訳) 本稿では,日立チームのSemEval-2023タスク3への参加について,オンラインニュースにおけるジャンル,フレーミング,説得テクニックを多言語設定で検出する。 タスクのマルチリンガル・マルチタスク特性とトレーニングデータ制限の設定に基づいて,事前学習された言語モデルを低リソース環境下でトレーニングするための異なる戦略を検討した。 広範な実験を通して、私たちは (a)クロスランガル/マルチタスク・トレーニング、及び b)外部バランスの取れたデータセットを収集し、ジャンルやフレーミング検出に役立てることができる。 結果からアンサンブルモデルを構築し,イタリアおよびロシアのジャンル分類サブタスクにおけるマクロ平均F1スコアを達成した。

This paper explains the participation of team Hitachi to SemEval-2023 Task 3 "Detecting the genre, the framing, and the persuasion techniques in online news in a multi-lingual setup." Based on the multilingual, multi-task nature of the task and the setting that training data is limited, we investigated different strategies for training the pretrained language models under low resource settings. Through extensive experiments, we found that (a) cross-lingual/multi-task training, and (b) collecting an external balanced dataset, can benefit the genre and framing detection. We constructed ensemble models from the results and achieved the highest macro-averaged F1 scores in Italian and Russian genre categorization subtasks.
翻訳日:2023-03-06 15:44:29 公開日:2023-03-03
# ドメイン適応手法による機械翻訳における言語関連性の爆発

Exploiting Language Relatedness in Machine Translation Through Domain Adaptation Techniques ( http://arxiv.org/abs/2303.01793v1 )

ライセンス: Link先を確認
Amit Kumar, Rupjyoti Baruah, Ajay Pratap, Mayank Swarnkar and Anil Kumar Singh(参考訳) 機械翻訳(MT)の重要な課題の1つは、大量のデータ、主に並列文整列コーパスの不足である。 評価が資源に富む言語と同じくらい厳密であれば、ニューラルネットワーク翻訳(NMT)と統計機械翻訳(SMT)の両方が、そのような大量のデータで良い結果を得ることができる。 しかし,低リソース言語,特にNMTやSMTにおけるMT出力の品質向上は困難である。 In order to tackle the challenges faced by MT, we present a novel approach of using a scaled similarity score of sentences, especially for related languages based on a 5-gram KenLM language model with Kneser-ney smoothing technique for filtering in-domain data from out-of-domain corpora that boost the translation quality of MT. Furthermore, we employ other domain adaptation techniques such as multi-domain, fine-tuning and iterative back-translation approach to compare our novel approach on the Hindi-Nepali language pair for NMT and SMT. 提案手法は, 複数領域アプローチにおける ~2 BLEU 点, NMT における ~3 BLEU 点, 反復的バックトランスレーション手法における ~2 BLEU 点の増加に成功している。

One of the significant challenges of Machine Translation (MT) is the scarcity of large amounts of data, mainly parallel sentence aligned corpora. If the evaluation is as rigorous as resource-rich languages, both Neural Machine Translation (NMT) and Statistical Machine Translation (SMT) can produce good results with such large amounts of data. However, it is challenging to improve the quality of MT output for low resource languages, especially in NMT and SMT. In order to tackle the challenges faced by MT, we present a novel approach of using a scaled similarity score of sentences, especially for related languages based on a 5-gram KenLM language model with Kneser-ney smoothing technique for filtering in-domain data from out-of-domain corpora that boost the translation quality of MT. Furthermore, we employ other domain adaptation techniques such as multi-domain, fine-tuning and iterative back-translation approach to compare our novel approach on the Hindi-Nepali language pair for NMT and SMT. Our approach succeeds in increasing ~2 BLEU point on multi-domain approach, ~3 BLEU point on fine-tuning for NMT and ~2 BLEU point on iterative back-translation approach.
翻訳日:2023-03-06 15:44:16 公開日:2023-03-03
# 多クラス分類タスクのためのグラフベースエクストリーム特徴選択

Graph-based Extreme Feature Selection for Multi-class Classification Tasks ( http://arxiv.org/abs/2303.01792v1 )

ライセンス: Link先を確認
Shir Friedman, Gonen Singer, Neta Rabin(参考訳) 高次元データセットを処理する場合、共通の前処理ステップは特徴選択である。 フィルタに基づく特徴選択アルゴリズムは、特定の分類法に合わせたものではなく、対象とタスクに関する各特徴の関連性をランク付けする。 本研究は,多クラス分類タスクに適したグラフベースのフィルタ特徴選択手法に焦点をあてる。 分類作業に有用な情報をコードするオリジナルデータのスケッチを作成するために,選択した特徴の数を劇的に削減することを目的としている。 提案するグラフベースアルゴリズムは,Jeffries-Matusita距離を非線形次元還元法,拡散写像と組み合わせて構成する。 特徴除去は、低次元空間における特徴の分布に基づいて行われる。 そして、相補的な分離強度を持つ非常に少数の特徴が選択される。 さらに、低次元埋め込みは特徴空間を可視化することができる。 実験結果は公開データセットに対して提供され、既知のフィルタベースの特徴選択技術と比較される。

When processing high-dimensional datasets, a common pre-processing step is feature selection. Filter-based feature selection algorithms are not tailored to a specific classification method, but rather rank the relevance of each feature with respect to the target and the task. This work focuses on a graph-based, filter feature selection method that is suited for multi-class classifications tasks. We aim to drastically reduce the number of selected features, in order to create a sketch of the original data that codes valuable information for the classification task. The proposed graph-based algorithm is constructed by combing the Jeffries-Matusita distance with a non-linear dimension reduction method, diffusion maps. Feature elimination is performed based on the distribution of the features in the low-dimensional space. Then, a very small number of feature that have complementary separation strengths, are selected. Moreover, the low-dimensional embedding allows to visualize the feature space. Experimental results are provided for public datasets and compared with known filter-based feature selection techniques.
翻訳日:2023-03-06 15:43:54 公開日:2023-03-03
# 自律運転における統一認識のための視覚体験型タスクプロンピング

Visual Exemplar Driven Task-Prompting for Unified Perception in Autonomous Driving ( http://arxiv.org/abs/2303.01788v1 )

ライセンス: Link先を確認
Xiwen Liang, Minzhe Niu, Jianhua Han, Hang Xu, Chunjing Xu, Xiaodan Liang(参考訳) マルチタスク学習は、計算資源と推論時間の両方において、高い効率でタスクを同時に解くための強力なパラダイムとして登場した。 しかし、これらのアルゴリズムは、主に自動運転の範囲内ではなく、異なるタスクのために設計されているため、自動運転におけるマルチタスクメソッドの比較が困難である。 自律運転における現在のマルチタスク学習手法の包括的評価を目的として,大規模運転データセットにおける一般的なマルチタスク手法の性能を広範囲に検討し,対象検出,意味セグメンテーション,ドリブルエリアセグメンテーション,レーン検出の4つの共通認識タスクをカバーする。 我々は,従来のマルチタスク学習手法を異なる共通条件下で詳細に解析し,既存の手法が進行していることを確かめるが,シングルタスクベースラインと比較してまだ大きな性能差がある。 自律運転におけるこのジレンマを緩和するため,我々は,タスク固有のプロンプトを通じて視覚的な例題を導入する効果的なマルチタスクフレームワークve-promptを提案する。 具体的には、境界ボックスと色に基づくマーカーに基づいて視覚的な例を生成し、ターゲットカテゴリの正確な視覚的外観を提供し、パフォーマンスギャップをさらに緩和する。 さらに,トランスコーダと畳み込み層を橋渡しすることにより,自律運転における効率的かつ高精度な統一知覚を実現する。 多様な自動運転データセットBDD100Kの総合的な実験結果は、VE-Promptがマルチタスクベースラインを改善し、シングルタスクモデルをさらに上回ることを示している。

Multi-task learning has emerged as a powerful paradigm to solve a range of tasks simultaneously with good efficiency in both computation resources and inference time. However, these algorithms are designed for different tasks mostly not within the scope of autonomous driving, thus making it hard to compare multi-task methods in autonomous driving. Aiming to enable the comprehensive evaluation of present multi-task learning methods in autonomous driving, we extensively investigate the performance of popular multi-task methods on the large-scale driving dataset, which covers four common perception tasks, i.e., object detection, semantic segmentation, drivable area segmentation, and lane detection. We provide an in-depth analysis of current multi-task learning methods under different common settings and find out that the existing methods make progress but there is still a large performance gap compared with single-task baselines. To alleviate this dilemma in autonomous driving, we present an effective multi-task framework, VE-Prompt, which introduces visual exemplars via task-specific prompting to guide the model toward learning high-quality task-specific representations. Specifically, we generate visual exemplars based on bounding boxes and color-based markers, which provide accurate visual appearances of target categories and further mitigate the performance gap. Furthermore, we bridge transformer-based encoders and convolutional layers for efficient and accurate unified perception in autonomous driving. Comprehensive experimental results on the diverse self-driving dataset BDD100K show that the VE-Prompt improves the multi-task baseline and further surpasses single-task models.
翻訳日:2023-03-06 15:43:43 公開日:2023-03-03
# 不確実性誘導データアソシエーションに基づく3次元多物体追跡

3D Multi-Object Tracking Based on Uncertainty-Guided Data Association ( http://arxiv.org/abs/2303.01786v1 )

ライセンス: Link先を確認
Jiawei He, Chunyun Fu, Xiyang Wang(参考訳) 既存の文献では、追跡・検出フレームワークに基づくほとんどの3次元マルチオブジェクト追跡アルゴリズムは、データアソシエーション段階で類似性計算のために決定論的トラックと検出を用いた。 すなわち、線路や検出に固有の不確実性は見落としている。 本研究では,データ関連のための一般的な決定論的トラックと決定論的検出を廃止し,不確実性を考慮したランダムベクトルとしてトラックと検出をモデル化することを提案する。 そして,Jensen-Shannonの発散に基づいて,トラックと検出という2つの多次元分布の類似性をデータアソシエーションの目的で評価する。 最後に、コスト関数設計にトラックの不確実性のレベルを組み込んで、データアソシエーションプロセスを導出する。 KITTI と nuScenes という2つの典型的なデータセットで比較実験を行い,提案手法が最先端の3D追跡アルゴリズムより優れていることを示した。 コミュニティの利益のために、私たちのコードはhttps://github.com/hejiawei2023/UG3DMOT.comで公開されています。

In the existing literature, most 3D multi-object tracking algorithms based on the tracking-by-detection framework employed deterministic tracks and detections for similarity calculation in the data association stage. Namely, the inherent uncertainties existing in tracks and detections are overlooked. In this work, we discard the commonly used deterministic tracks and deterministic detections for data association, instead, we propose to model tracks and detections as random vectors in which uncertainties are taken into account. Then, based on the Jensen-Shannon divergence, the similarity between two multidimensional distributions, i.e. track and detection, is evaluated for data association purposes. Lastly, the level of track uncertainty is incorporated in our cost function design to guide the data association process. Comparative experiments have been conducted on two typical datasets, KITTI and nuScenes, and the results indicated that our proposed method outperformed the compared state-of-the-art 3D tracking algorithms. For the benefit of the community, our code has been made available at https://github.com/hejiawei2023/UG3DMOT.
翻訳日:2023-03-06 15:43:16 公開日:2023-03-03
# マルチモーダル空間符号化と顔埋め込みによるミーム感情分析

Meme Sentiment Analysis Enhanced with Multimodal Spatial Encoding and Facial Embedding ( http://arxiv.org/abs/2303.01781v1 )

ライセンス: Link先を確認
Muzhaffar Hazman, Susan McKeever, Josephine Griffith(参考訳) インターネットミームは視覚要素間のテキストの相互分散によって特徴づけられる。 最先端のマルチモーダルミーム分類器は、テキストとビジュアル要素が置かれている場所に関連する潜在的な意味にもかかわらず、2つのモダリティをまたいでこれらの要素の相対的な位置を考慮しない。 2つのミーム感情分類データセットに対して,ミームから抽出した視覚物体,顔,テキストクラスタの空間的位置を組み込むことによる性能向上を体系的に示す。 さらに,マルチモーダルミーム分類器において,画像表現のインパクトの高い拡張として顔埋め込みを提案する。 最後に,この空間的情報を組み込むことで,ocr抽出テキストの人間的検証に依存する対応するベースラインを,完全に自動化したアプローチで上回ることができることを示す。

Internet memes are characterised by the interspersing of text amongst visual elements. State-of-the-art multimodal meme classifiers do not account for the relative positions of these elements across the two modalities, despite the latent meaning associated with where text and visual elements are placed. Against two meme sentiment classification datasets, we systematically show performance gains from incorporating the spatial position of visual objects, faces, and text clusters extracted from memes. In addition, we also present facial embedding as an impactful enhancement to image representation in a multimodal meme classifier. Finally, we show that incorporating this spatial information allows our fully automated approaches to outperform their corresponding baselines that rely on additional human validation of OCR-extracted text.
翻訳日:2023-03-06 15:43:00 公開日:2023-03-03
# fedml parrot: 逐次的および階層的トレーニングにおけるヘテロゲニティアウェアスケジューリングによるスケーラブルなフェデレーション学習システム

FedML Parrot: A Scalable Federated Learning System via Heterogeneity-aware Scheduling on Sequential and Hierarchical Training ( http://arxiv.org/abs/2303.01778v1 )

ライセンス: Link先を確認
Zhenheng Tang, Xiaowen Chu, Ryan Yide Ran, Sunwoo Lee, Shaohuai Shi, Yonggang Zhang, Yuxin Wang, Alex Qiaozhong Liang, Salman Avestimehr, Chaoyang He(参考訳) Federated Learning (FL)は、データプライバシを保護しながらマシンラーニングモデルをトレーニングするクライアント間のコラボレーションを可能にする。 既存のFLシミュレーションプラットフォームは、従来の分散トレーニングの観点から設計されており、シミュレーションとプロダクションの間の面倒なコードマイグレーション、低効率、低GPUユーティリティ、高いハードウェア要件を備えた低スケーラビリティ、ステートフルクライアントのシミュレーションが困難である。 本研究では,まずflシミュレーションの課題とボトルネックを解消し,feedml \texttt{parrot} と呼ばれる新しいflシステムを設計する。 ハードウェア上の要件を著しく緩和し、(1)デバイス上での逐次トレーニングクライアント、(2)デバイスとサーバ上でのローカルおよびグローバルアグリゲーションへのオリジナルアグリゲーションの分解、(3)ストラグラー問題の軽減とコンピューティングユーティリティの強化のためのスケジューリングタスク、(4)分散クライアント状態マネージャによる様々なflアルゴリズムのサポートなどにより、ステートフルクライアントとの効率的な大規模fl実験をサポートする。 さらに、当社の汎用apiと通信インターフェース上に構築されたユーザは、コードを変更せずに、シミュレーションを現実世界のデプロイメントにシームレスに変換することができます。 様々なflデータセット上で多様なモデルをトレーニングするための広範な実験を通じて、 \texttt{parrot}を評価し、フレキシブルなgpuデバイスで1000以上のクライアント(ステートフルまたはステートレス)をシミュレートできることを示した。 そして、 \texttt{Parrot} が3つの異なるクラスタにおける同種および異種デバイスとうまく機能することを検証する。 ステートフルクライアントを持つ2つのflアルゴリズムとステートレスクライアントを持つ4つのアルゴリズムをシミュレートし、異なるアルゴリズムに対する \texttt{parrot} の広い適応性を検証する。

Federated Learning (FL) enables collaborations among clients for train machine learning models while protecting their data privacy. Existing FL simulation platforms that are designed from the perspectives of traditional distributed training, suffer from laborious code migration between simulation and production, low efficiency, low GPU utility, low scalability with high hardware requirements and difficulty of simulating stateful clients. In this work, we firstly demystify the challenges and bottlenecks of simulating FL, and design a new FL system named as FedML \texttt{Parrot}. It improves the training efficiency, remarkably relaxes the requirements on the hardware, and supports efficient large-scale FL experiments with stateful clients by: (1) sequential training clients on devices; (2) decomposing original aggregation into local and global aggregation on devices and server respectively; (3) scheduling tasks to mitigate straggler problems and enhance computing utility; (4) distributed client state manager to support various FL algorithms. Besides, built upon our generic APIs and communication interfaces, users can seamlessly transform the simulation into the real-world deployment without modifying codes. We evaluate \texttt{Parrot} through extensive experiments for training diverse models on various FL datasets to demonstrate that \texttt{Parrot} can achieve simulating over 1000 clients (stateful or stateless) with flexible GPU devices setting ($4 \sim 32$) and high GPU utility, 1.2 $\sim$ 4 times faster than FedScale, and 10 $\sim$ 100 times memory saving than FedML. And we verify that \texttt{Parrot} works well with homogeneous and heterogeneous devices in three different clusters. Two FL algorithms with stateful clients and four algorithms with stateless clients are simulated to verify the wide adaptability of \texttt{Parrot} to different algorithms.
翻訳日:2023-03-06 15:42:46 公開日:2023-03-03
# ドメインシフトによる白血球分類のベンチマーク

Benchmarking White Blood Cell Classification Under Domain Shift ( http://arxiv.org/abs/2303.01777v1 )

ライセンス: Link先を確認
Satoshi Tsutsui, Zhengyang Su, Bihan Wen(参考訳) ヒト血液スミアの顕微鏡像における白血球(WBC)のタイプを認識することは、病理学と血液学の分野における基本的な課題である。 これまでの研究はメソッドやデータセットの開発に多大な貢献をしてきたが、他者が容易に参照できるベンチマークやベースラインを調査した論文はほとんどない。 例えば、同じ畳み込みニューラルネットワーク(CNN)モデルの報告された精度において、様々な研究で顕著なばらつきが見られたが、これらの結果を再現するための公開実装は存在しない。 本稿では,WBC認識のためのベンチマークを確立する。 以上の結果から,CNNモデルと類似の撮像条件下でのトレーニングおよびテストにより,精度の高いCNNモデルが得られた。 しかし、異なる条件下でテストすると、パフォーマンスは大幅に低下する。 また,先行研究で広く採用されているresnet分類器は,バッチ正規化による領域シフト下では不当な一般化能力を示す。 この問題を調査し,それを軽減する代替正規化手法を提案する。 完全に再現可能なコードは、github.com/apple2373/wbc-benchmark}} で公開されている。

Recognizing the types of white blood cells (WBCs) in microscopic images of human blood smears is a fundamental task in the fields of pathology and hematology. Although previous studies have made significant contributions to the development of methods and datasets, few papers have investigated benchmarks or baselines that others can easily refer to. For instance, we observed notable variations in the reported accuracies of the same Convolutional Neural Network (CNN) model across different studies, yet no public implementation exists to reproduce these results. In this paper, we establish a benchmark for WBC recognition. Our results indicate that CNN-based models achieve high accuracy when trained and tested under similar imaging conditions. However, their performance drops significantly when tested under different conditions. Moreover, the ResNet classifier, which has been widely employed in previous work, exhibits an unreasonably poor generalization ability under domain shifts due to batch normalization. We investigate this issue and suggest some alternative normalization techniques that can mitigate it. We make fully-reproducible code publicly available\footnote{\url{https://github.com/apple2373/wbc-benchmark}}.
翻訳日:2023-03-06 15:42:04 公開日:2023-03-03
# マイクロ表現認識のための事前情報に基づく分解・再構成学習

Prior Information based Decomposition and Reconstruction Learning for Micro-Expression Recognition ( http://arxiv.org/abs/2303.01776v1 )

ライセンス: Link先を確認
Jinsheng Wei, Haoyu Chen, Guanming Lu, Jingjie Yan, Yue Xie and Guoying Zhao(参考訳) マイクロ表現認識(MER)は、マイクロ表現(ME)が真の感情を推測できるため、研究の関心が高まる。 事前情報は、モデルを誘導し、差別的なME特徴を効果的に学習する。 しかし、ほとんどの作品は、より強固な表現能力を持つ一般的なモデルの研究に焦点を当てており、mesの以前の情報や特性を無視して、総合的な方法でmeの動き情報をアダプティブに集約している。 この問題を解決するために、顔の異なるコンポーネントの動作の関係からMEのカテゴリを推測できるという事前情報に基づいて、この事前情報に適合し、ME運動の特徴を解釈可能な方法で学習できる新しいモデルを設計する。 具体的には,分解・再構成に基づくグラフ表現学習(DeRe-GRL)モデルを提案する。 DeRe-GRLには、アクション分解モジュール(ADM)とリレーショナル再構成モジュール(RRM)の2つのモジュールが含まれている。 顔のキー成分に基づいて、ADMはグラフモデルに基づくバックボーンから抽出された幾何学的運動特徴をいくつかのサブフィーチャーに分割し、これらのサブフィーチャーを複数のアクション特徴にマッピングするマップ行列を学習する。 実験の結果,提案するモジュールの有効性が示され,提案手法は競合性能を実現する。

Micro-expression recognition (MER) draws intensive research interest as micro-expressions (MEs) can infer genuine emotions. Prior information can guide the model to learn discriminative ME features effectively. However, most works focus on researching the general models with a stronger representation ability to adaptively aggregate ME movement information in a holistic way, which may ignore the prior information and properties of MEs. To solve this issue, driven by the prior information that the category of ME can be inferred by the relationship between the actions of facial different components, this work designs a novel model that can conform to this prior information and learn ME movement features in an interpretable way. Specifically, this paper proposes a Decomposition and Reconstruction-based Graph Representation Learning (DeRe-GRL) model to effectively learn high-level ME features. DeRe-GRL includes two modules: Action Decomposition Module (ADM) and Relation Reconstruction Module (RRM), where ADM learns action features of facial key components and RRM explores the relationship between these action features. Based on facial key components, ADM divides the geometric movement features extracted by the graph model-based backbone into several sub-features, and learns the map matrix to map these sub-features into multiple action features; then, RRM learns weights to weight all action features to build the relationship between action features. The experimental results demonstrate the effectiveness of the proposed modules, and the proposed method achieves competitive performance.
翻訳日:2023-03-06 15:41:47 公開日:2023-03-03
# TopSpark: 自律移動エージェント上でのエネルギー効率の高いスパイクニューラルネットワークのタイムステップ最適化手法

TopSpark: A Timestep Optimization Methodology for Energy-Efficient Spiking Neural Networks on Autonomous Mobile Agents ( http://arxiv.org/abs/2303.01826v1 )

ライセンス: Link先を確認
Rachmad Vidya Wicaksana Putra, Muhammad Shafique(参考訳) 自律移動エージェントは、低消費電力/エネルギー効率の機械学習(ml)アルゴリズムが必要であり、移動エージェントは通常バッテリーで駆動されるため、多様な環境に適応しながらmlベースのタスクを完了させる。 これらの要件は、スパース計算による低消費電力/エネルギー処理と、異なる環境に適応するためのバイオインスパイアされた学習メカニズムによる効率的なオンライン学習を提供することにより、スパイキングニューラルネットワーク(SNN)によって満たされる。 最近の研究では、スパイクのシーケンス(時間ステップ)を処理するために各ニューロンの計算時間を短縮することで、snsのエネルギー消費を最適化できることが研究されている。 しかし、最先端技術は、推論のみの固定時間ステップ設定を決定するために集中的な設計探索に依存しており、SNNがトレーニングと推論の両方において更なるエネルギー効率向上を達成するのを妨げている。 これらの技術は、SNNが実行時に効率的なオンライン学習を行うのを防ぐ。 そこで我々は,TopSparkを提案する。TopSparkは適応時間ステップの削減を利用して,トレーニングと推論の両方においてエネルギー効率のよいSNN処理を実現し,その精度を時間ステップの削減なしにSNNの精度に近づける。 TopSparkのアイデアには、異なるタイムステップの精度への影響を分析すること、異なるタイムステップの精度に重大な影響を与えるニューロンパラメータを特定すること、SNNがスパイキングアクティビティを減らして学習と推論を効果的に実行するパラメータ拡張を使用すること、設計要件を満たすための正確性、レイテンシ、エネルギーのトレードオフ戦略の開発が含まれる。 結果は、TopSparkがSNNのレイテンシを3.9倍、トレーニングで3.5倍、ネットワークサイズ、学習ルール、ワークロードで3.3倍削減し、タイムステップの削減なしにSNNの2%以内の精度を維持していることを示している。

Autonomous mobile agents require low-power/energy-efficient machine learning (ML) algorithms to complete their ML-based tasks while adapting to diverse environments, as mobile agents are usually powered by batteries. These requirements can be fulfilled by Spiking Neural Networks (SNNs) as they offer low power/energy processing due to their sparse computations and efficient online learning with bio-inspired learning mechanisms for adapting to different environments. Recent works studied that the energy consumption of SNNs can be optimized by reducing the computation time of each neuron for processing a sequence of spikes (timestep). However, state-of-the-art techniques rely on intensive design searches to determine fixed timestep settings for only inference, thereby hindering SNNs from achieving further energy efficiency gains in both training and inference. These techniques also restrict SNNs from performing efficient online learning at run time. Toward this, we propose TopSpark, a novel methodology that leverages adaptive timestep reduction to enable energy-efficient SNN processing in both training and inference, while keeping its accuracy close to the accuracy of SNNs without timestep reduction. The ideas of TopSpark include analyzing the impact of different timesteps on the accuracy; identifying neuron parameters that have a significant impact on accuracy in different timesteps; employing parameter enhancements that make SNNs effectively perform learning and inference using less spiking activity; and developing a strategy to trade-off accuracy, latency, and energy to meet the design requirements. The results show that, TopSpark saves the SNN latency by 3.9x as well as energy consumption by 3.5x for training and 3.3x for inference on average, across different network sizes, learning rules, and workloads, while maintaining the accuracy within 2% of SNNs without timestep reduction.
翻訳日:2023-03-06 15:36:00 公開日:2023-03-03
# 雑音量子メソロジーのための量子エラー緩和回路群

Quantum-Error-Mitigation Circuit Groups for Noisy Quantum Metrology ( http://arxiv.org/abs/2303.01820v1 )

ライセンス: Link先を確認
Yusuke Hama and Hirofumi Nishi(参考訳) 量子技術は、量子コヒーレンスや量子絡み合いのような量子システムに固有の性質を利用して機能し、科学と工学の特定の問題を解決するために古典的な問題よりも優れていると期待されている。 しかし、量子技術は環境との相互作用(デコヒーレンス)に対して脆弱であり、それらを高精度に利用するためにはデコヒーレンス効果を低減するエラー緩和技術を開発する必要がある。 本研究では,量子ノイズの存在下での量子計測のための量子誤差緩和(qem)プロトコルを解析する。 量子フィッシャー情報(qfi)、理想(エラーフリー)qfi、ノイズ(誤った)qfi、量子エラー緩和qfiの3種類のタイプを分析して、qemプロトコルの有効性を実証し、理想量子メトロロジーに示されるプローブの数に対する量子エラー緩和qfiのスケーリング挙動を解析的および数値的に示す。 我々のQEMプロトコルは量子回路群(すなわちQEM回路群)のアンサンブルで構築されており、任意の種類の初期状態とプローブ系ハミルトニアンに対してノイズの多い量子メートル法に適用できるという利点があり、あらゆる種類の量子デバイスで物理的に実装できる。 さらに、量子エラー緩和QFIは、知覚される物理量のほぼ任意の値に対する理想QFIとほぼ等しい。 提案プロトコルは,量子ノイズの影響下においても高感度な量子メロジを実現するために,量子絡み合わせを資源として利用することができる。

Quantum technologies work by utilizing properties inherent in quantum systems such as quantum coherence and quantum entanglement and are expected to be superior to classical counterparts for solving certain problems in science and engineering. The quantum technologies are, however, fragile against an interaction with an environment (decoherence) and in order to utilize them with high accuracy we need to develop error mitigation techniques which reduce decoherence effects. In this work, we analyze quantum error mitigation (QEM) protocol for quantum metrology in the presence of quantum noise. We demonstrate the effectiveness of our QEM protocol by analyzing three types of quantum Fisher information (QFI), ideal (error-free) QFI, noisy (erroneous) QFI, and quantum-error-mitigated QFI, and show both analytically and numerically that the scaling behaviors of quantum-error-mitigated QFI with respect to the number of probes become resorted to the those exhibited in the ideal quantum metrology. Our QEM protocol is constructed by an ensemble of quantum circuits, namely QEM circuit groups, and has advantages such that it can be applied to noisy quantum metrology for any type of initial state as well as any type of the probe-system Hamiltonian, and it can be physically implemented in any type of quantum device. Furthermore, the quantum-error-mitigated QFI become approximately equal to the ideal QFI for almost any values of physical quantities to be sensed. Our protocol enables us to use quantum entanglement as a resource to perform high-sensitive quantum metrology even under the influence of quantum noise.
翻訳日:2023-03-06 15:35:27 公開日:2023-03-03
# ハイパーパラメータレンズによる機械学習プライバシ/ユーティリティトレードオフの探索

Exploring Machine Learning Privacy/Utility trade-off from a hyperparameters Lens ( http://arxiv.org/abs/2303.01819v1 )

ライセンス: Link先を確認
Ayoub Arous, Amira Guesmi, Muhammad Abdullah Hanif, Ihsen Alouani, and Muhammad Shafique(参考訳) 機械学習(ML)アーキテクチャは、ユーザのデータプライバシの保証が必要な機密データを含む複数のアプリケーションに適用されている。 Differentially Private Stochastic Gradient Descent (DPSGD)は、プライバシー保護モデルをトレーニングするための最先端の手法である。 しかし、DPSGDはある程度の精度の低下により、準最適プライバシー/ユーティリティのトレードオフにつながる。 プライバシーとユーティリティのトレードオフを改善するための新たな根拠を探るため、この作業は疑問を呈する。 (i)モデルのハイパーパラメータがMLモデルのプライバシ保護特性に固有の影響を与えている場合、 (ii) モデルのハイパーパラメータが、微分プライベートモデルのプライバシー/有効性トレードオフに何らかの影響を及ぼす場合。 本稿では,アクティベーション関数の選択,学習率,バッチ正規化の利用など,さまざまなハイパーパラメータの包括的設計空間探索を提案する。 興味深いことに、同じプライバシ保存特性を持つアクティベーション関数としてbounded reluを使用することで、ユーティリティが改善できることがわかりました。 アクティベーション関数をドロップインで置き換えることで,dpsgdの学習手順の基本を変更することなく,mnist (96.02\%), fashionmnist (84.76\%), cifar-10 (44.42\%) の新たな最先端精度を実現する。

Machine Learning (ML) architectures have been applied to several applications that involve sensitive data, where a guarantee of users' data privacy is required. Differentially Private Stochastic Gradient Descent (DPSGD) is the state-of-the-art method to train privacy-preserving models. However, DPSGD comes at a considerable accuracy loss leading to sub-optimal privacy/utility trade-offs. Towards investigating new ground for better privacy-utility trade-off, this work questions; (i) if models' hyperparameters have any inherent impact on ML models' privacy-preserving properties, and (ii) if models' hyperparameters have any impact on the privacy/utility trade-off of differentially private models. We propose a comprehensive design space exploration of different hyperparameters such as the choice of activation functions, the learning rate and the use of batch normalization. Interestingly, we found that utility can be improved by using Bounded RELU as activation functions with the same privacy-preserving characteristics. With a drop-in replacement of the activation function, we achieve new state-of-the-art accuracy on MNIST (96.02\%), FashionMnist (84.76\%), and CIFAR-10 (44.42\%) without any modification of the learning procedure fundamentals of DPSGD.
翻訳日:2023-03-06 15:34:59 公開日:2023-03-03
# セマンティックタイポグラフィのためのワード・アズ・イメージ

Word-As-Image for Semantic Typography ( http://arxiv.org/abs/2303.01818v1 )

ライセンス: Link先を確認
Shir Iluz, Yael Vinker, Amir Hertz, Daniel Berio, Daniel Cohen-Or, Ariel Shamir(参考訳) ワード・アズ・イメージ(word-as-image)は、単語イラストが単語の意味を視覚化し、読みやすさを保ちながら表現する意味的タイポグラフィー技法である。 本稿では,単語・アズ・イメージのイラストを自動生成する手法を提案する。 この課題には、単語の意味的理解と、これらの意味を視覚的に快く妥当な方法で表現する方法の創造的アイデアが必要であるため、非常に難しい。 テキスト概念を視覚的に蒸留する,近年の大規模事前学習言語ビジョンモデルの顕著な能力に頼っている。 セマンティクスを明確に伝えるシンプルで簡潔で白黒のデザインをターゲットにしています。 我々は意図的に文字の色やテクスチャを変えず、装飾を使わない。 本手法では,各文字の輪郭を最適化し,事前学習した安定拡散モデルに導かれる望ましい概念を伝える。 我々は、テキストの正当性とフォントのスタイルの保存を保証するために、追加の損失項を組み込んだ。 多数の例で高い品質と魅力的な結果を示し、代替技術と比較する。

A word-as-image is a semantic typography technique where a word illustration presents a visualization of the meaning of the word, while also preserving its readability. We present a method to create word-as-image illustrations automatically. This task is highly challenging as it requires semantic understanding of the word and a creative idea of where and how to depict these semantics in a visually pleasing and legible manner. We rely on the remarkable ability of recent large pretrained language-vision models to distill textual concepts visually. We target simple, concise, black-and-white designs that convey the semantics clearly. We deliberately do not change the color or texture of the letters and do not use embellishments. Our method optimizes the outline of each letter to convey the desired concept, guided by a pretrained Stable Diffusion model. We incorporate additional loss terms to ensure the legibility of the text and the preservation of the style of the font. We show high quality and engaging results on numerous examples and compare to alternative techniques.
翻訳日:2023-03-06 15:34:36 公開日:2023-03-03
# 対称性解析を用いた非教師なしリサイクルFPGA検出

Unsupervised Recycled FPGA Detection Using Symmetry Analysis ( http://arxiv.org/abs/2303.01807v1 )

ライセンス: Link先を確認
Tanvir Ahmad Tarique, Foisal Ahmed, Maksim Jenihhin, Liakot Ali(参考訳) 近年,半導体サプライチェーンの普及に伴い,再生フィールドプログラマブルゲートアレイ (FPGA) はハードウェアのセキュリティ上の重要な問題となっている。 リングオシレータ(ro)ベースの周波数解析技術は一般的な手法の一つであり、ほとんどの研究で機械学習に基づく検出において既知のフレッシュfpga(kffs)を用いたが、現実的アプローチではない。 本稿では,教師なし異常検出手法を用いて,RO周波数の対称性情報を調べることにより,新しいFPGA検出手法を提案する。 fpgaの対称配列構造のため、fpga上の隣接するいくつかの論理ブロックは、同等のro周波数を持つため、これらのブロックのro周波数を分析して、それらがどの程度類似しているかを決定する。 提案手法は, 直接密度比推定を利用して, リサイクルFPGAを効率よく分類する。 Xilinx Artix-7 FPGAを用いた実験により, 提案手法は, 従来の手法と比較して, x より少ない計算で10個の新しいFPGAからリサイクルFPGAを正確に分類することを示した。

Recently, recycled field-programmable gate arrays (FPGAs) pose a significant hardware security problem due to the proliferation of the semiconductor supply chain. Ring oscillator (RO) based frequency analyzing technique is one of the popular methods, where most studies used the known fresh FPGAs (KFFs) in machine learning-based detection, which is not a realistic approach. In this paper, we present a novel recycled FPGA detection method by examining the symmetry information of the RO frequency using unsupervised anomaly detection method. Due to the symmetrical array structure of the FPGA, some adjacent logic blocks on an FPGA have comparable RO frequencies, hence our method simply analyzes the RO frequencies of those blocks to determine how similar they are. The proposed approach efficiently categorizes recycled FPGAs by utilizing direct density ratio estimation through outliers detection. Experiments using Xilinx Artix-7 FPGAs demonstrate that the proposed method accurately classifies recycled FPGAs from 10 fresh FPGAs by x fewer computations compared with the conventional method.
翻訳日:2023-03-06 15:34:20 公開日:2023-03-03
# 特権情報はいつラベルノイズを取り除くのか?

When does Privileged Information Explain Away Label Noise? ( http://arxiv.org/abs/2303.01806v1 )

ライセンス: Link先を確認
Guillermo Ortiz-Jimenez, Mark Collier, Anant Nawalgaria, Alexander D'Amour, Jesse Berent, Rodolphe Jenatton, Effrosyni Kokiopoulou(参考訳) 特権情報(pi)や、トレーニング中に利用可能だがテスト時ではない機能を活用することは、最近ラベルノイズに対処する効果的な方法であることが示されている。 しかし、その効果の理由はよく理解されていない。 本研究では,PIの特性の違いによるラベルノイズの除去に果たす役割について検討した。 実PI(CIFAR-N/H)と新しい大規模ベンチマークであるImageNet-PIによる複数のデータセットの実験により,ネットワークがノイズの多いデータとクリーンなデータを容易に区別できると同時に,学習ショートカットによってノイズの多いサンプルを記憶できることが確認できた。 興味深いことに、PIがターゲットラベルを予測しすぎると、PIメソッドは非PIベースラインよりもパフォーマンスが悪くなります。 これらの知見に基づいて,最新のPI手法のいくつかの改良を提案し,ラベルノイズに対処する手段としてのPIの可能性を示す。 最後に、ラベルノイズに対処するための既存のno-PI手法と結果のPIアプローチを簡単に組み合わせる方法について述べる。

Leveraging privileged information (PI), or features available during training but not at test time, has recently been shown to be an effective method for addressing label noise. However, the reasons for its effectiveness are not well understood. In this study, we investigate the role played by different properties of the PI in explaining away label noise. Through experiments on multiple datasets with real PI (CIFAR-N/H) and a new large-scale benchmark ImageNet-PI, we find that PI is most helpful when it allows networks to easily distinguish clean from noisy data, while enabling a learning shortcut to memorize the noisy examples. Interestingly, when PI becomes too predictive of the target label, PI methods often perform worse than their no-PI baselines. Based on these findings, we propose several enhancements to the state-of-the-art PI methods and demonstrate the potential of PI as a means of tackling label noise. Finally, we show how we can easily combine the resulting PI approaches with existing no-PI techniques designed to deal with label noise.
翻訳日:2023-03-06 15:34:04 公開日:2023-03-03
# 変分量子アルゴリズムに基づくポテンシャルおよびストークス流の数値解法

A variational quantum algorithm-based numerical method for solving potential and Stokes flows ( http://arxiv.org/abs/2303.01805v1 )

ライセンス: Link先を確認
Yangyang Liu, Zhen Chen, Chang Shu, Patrick Rebentrost, Yaguang Liu, S. C. Chew, B. C. Khoo and Y. D. Cui(参考訳) 本稿では,ポテンシャル問題とストークスフロー問題を解くための変分量子アルゴリズムに基づく数値解法を提案する。 この方法では、ポテンシャルとストークス流の制御方程式は、それぞれラプラス方程式とストークス方程式の形で、速度ポテンシャル、流れ関数、渦性定式化を用いて書くことができる。 次に、有限差分法と一般化差分法(GDQ)を適用し、支配方程式を判別する。 所定の境界条件では、対応する方程式の線形系が得られる。 これらの線形系は変分量子線形解法(VQLS)を用いて解き、電位とストークスフロー問題を等価に解く。 著者の知る限りでは、これは本質的には高次離散化法であるGDQ法をVQLSアルゴリズムに組み込んだ最初の研究である。 GDQ法は、有限差分法よりもはるかに少ない格子点を高い精度で微分を近似するために利用できるため、VQLSアルゴリズムの入力行列のサイズは小さくすることができる。 このようにして計算コストを節約することができる。 本手法の性能は, 円柱まわりの電位流と蓋駆動キャビティ内のストークス流の2つの代表例により包括的に評価される。 VQLS法の適用性と精度を数値計算により検証した。 さらに、その時間複雑性をヒューリスティックスケーリングにより評価し、本手法が量子ビット数と精度で効率的にスケール可能であることを示す。 この研究は、計算流体力学の分野に量子コンピューティングをもたらす。 古典的手法よりも量子的優位性により、工学的関心の大規模流体力学問題の解決に期待できる進歩がもたらされる。

This paper presents a numerical method based on the variational quantum algorithm to solve potential and Stokes flow problems. In this method, the governing equations for potential and Stokes flows can be respectively written in the form of Laplace's equation and Stokes equations using velocity potential, stream function and vorticity formulations. Then the finite difference method and the generalised differential quadrature (GDQ) method are applied to discretize the governing equations. For the prescribed boundary conditions, the corresponding linear systems of equations can be obtained. These linear systems are solved by using the variational quantum linear solver (VQLS), which resolves the potential and Stokes flow problems equivalently. To the best of authors' knowledge, this is the first study that incorporates the GDQ method which is inherently a high-order discretization method with the VQLS algorithm. Since the GDQ method can utilize much fewer grid points than the finite difference method to approximate derivatives with a higher order of accuracy, the size of the input matrix for the VQLS algorithm can be smaller. In this way, the computational cost may be saved. The performance of the present method is comprehensively assessed by two representative examples, namely, the potential flow around a circular cylinder and Stokes flow in a lid-driven cavity. Numerical results validate the applicability and accuracy of the present VQLS-based method. Furthermore, its time complexity is evaluated by the heuristic scaling, which demonstrates that the present method scales efficiently in the number of qubits and the precision. This work brings quantum computing to the field of computational fluid dynamics. By virtue of quantum advantage over classical methods, promising advances in solving large-scale fluid mechanics problems of engineering interest may be prompted.
翻訳日:2023-03-06 15:33:46 公開日:2023-03-03
# すべてのポイントクラウドは完成に適しているのか? 点雲完成のための弱教師付き品質評価ネットワーク

Are All Point Clouds Suitable for Completion? Weakly Supervised Quality Evaluation Network for Point Cloud Completion ( http://arxiv.org/abs/2303.01804v1 )

ライセンス: Link先を確認
Jieqi Shi, Peiliang Li, Xiaozhi Chen and Shaojie Shen(参考訳) ポイントクラウド補完タスクの実践的応用においては、実際のデータ品質はトレーニングに使用されるCADデータセットよりもはるかに悪い。 少量のノイズデータは通常、システム全体の精度に大きな影響を与える。 本稿では,ポイントクラウドをスコア付けし,完成モデルを適用する前にポイントクラウドの品質を判断するための品質評価ネットワークを提案する。 評価手法は, より適切な点群を選定し, 手動によるパラメータ調整を回避できると考えている。 さらに,評価モデルは高速かつ簡便であり,任意のモデルのトレーニングや使用プロセスに直接挿入することで,ポイントクラウドの自動選択と後処理を容易にする。 本論文では,ShapeNetに基づく完全なデータセット構築とモデル評価手法を提案する。 自動運転のための実世界のデータセットkitti上で,検出およびフロー推定タスクを用いてネットワークを検証する。 実験結果から,本モデルは点雲の品質を効果的に識別し,実用的なタスクに役立てることができることが示された。

In the practical application of point cloud completion tasks, real data quality is usually much worse than the CAD datasets used for training. A small amount of noisy data will usually significantly impact the overall system's accuracy. In this paper, we propose a quality evaluation network to score the point clouds and help judge the quality of the point cloud before applying the completion model. We believe our scoring method can help researchers select more appropriate point clouds for subsequent completion and reconstruction and avoid manual parameter adjustment. Moreover, our evaluation model is fast and straightforward and can be directly inserted into any model's training or use process to facilitate the automatic selection and post-processing of point clouds. We propose a complete dataset construction and model evaluation method based on ShapeNet. We verify our network using detection and flow estimation tasks on KITTI, a real-world dataset for autonomous driving. The experimental results show that our model can effectively distinguish the quality of point clouds and help in practical tasks.
翻訳日:2023-03-06 15:33:02 公開日:2023-03-03
# 小物体検出のための信頼駆動バウンディングボックス位置決め

Confidence-driven Bounding Box Localization for Small Object Detection ( http://arxiv.org/abs/2303.01803v1 )

ライセンス: Link先を確認
Huixin Sun, Baochang Zhang, Yanjing Li, Xianbin Cao(参考訳) 汎用オブジェクト検出の進歩にもかかわらず、通常のスケールオブジェクトと比較して小さなオブジェクトを検出する場合のパフォーマンスギャップは残っている。 我々は,既存のバウンディングボックス回帰法が小さな物体に対して歪んだ勾配を生じさせる傾向にあり,正確な位置推定ができないことを初めて観察した。 この問題に対処するために,信頼性駆動型バウンディングボックスローカライゼーション(C-BBL)法を提案する。 C-BBLは連続ラベルをグリッドに量子化し、2ホット基底の真理ラベルを定式化する。 予測において、バウンディングボックスヘッドはグリッド上の信頼分布を生成する。 従来の検出器における境界ボックス回帰パラダイムとは異なり、基底真理と予測信頼分布の相互エントロピーによる分類に基づく局所化目標を導入し、信頼性駆動勾配を生成する。 さらに、C-BBLは、ラベルの分布エントロピーに基づく不確実性損失を記述し、小さなオブジェクトのローカライゼーションにおける不確実性をさらに低減するために予測する。 この手法は3つの物体検出ベンチマークを用いて複数の検出器で評価され、ベースライン検出器を一貫して改善し、最先端の性能を達成する。 また,C-BBLの異なるラベルシステムへの一般化可能性や高分解能検出の有効性を実証し,一般解としての可能性を検証する。

Despite advancements in generic object detection, there remains a performance gap in detecting small objects compared to normal-scale objects. We for the first time observe that existing bounding box regression methods tend to produce distorted gradients for small objects and result in less accurate localization. To address this issue, we present a novel Confidence-driven Bounding Box Localization (C-BBL) method to rectify the gradients. C-BBL quantizes continuous labels into grids and formulates two-hot ground truth labels. In prediction, the bounding box head generates a confidence distribution over the grids. Unlike the bounding box regression paradigms in conventional detectors, we introduce a classification-based localization objective through cross entropy between ground truth and predicted confidence distribution, generating confidence-driven gradients. Additionally, C-BBL describes a uncertainty loss based on distribution entropy in labels and predictions to further reduce the uncertainty in small object localization. The method is evaluated on multiple detectors using three object detection benchmarks and consistently improves baseline detectors, achieving state-of-the-art performance. We also demonstrate the generalizability of C-BBL to different label systems and effectiveness for high resolution detection, which validates its prospect as a general solution.
翻訳日:2023-03-06 15:32:38 公開日:2023-03-03
# 膜流の孤立的な波動ダイナミクスに基づく貯留層計算--概念実証

Reservoir computing based on solitary-like waves dynamics of film flows: a proof of concept ( http://arxiv.org/abs/2303.01801v1 )

ライセンス: Link先を確認
Ivan S. Maksymov and Andrey Pototsky(参考訳) いくつかの理論的研究により、ソリトンは物理計算貯水池として利用でき、デジタルコンピュータ用に設計された機械学習アルゴリズムは非線形力学挙動を示すアナログ物理システムに置き換えられる。 本稿では, 傾斜面上を流れる液膜表面に伝播する孤立型(sl)波を用いた新しい貯留層計算(rc)システムを提案し, 実験的に検証する。 本稿では,SL波RCシステム(SLRC)によるカオス時系列の予測と,メモリキャパシティテストやMackey-Glassモデルテストを含む重要なベンチマークテストに成功していることを示す。

Several theoretical works have shown that solitons -- waves that self-maintain constant shape and velocity as they propagate -- can be used as a physical computational reservoir, a concept where machine learning algorithms designed for digital computers are replaced by analog physical systems that exhibit nonlinear dynamical behaviour. Here we propose and experimentally validate a novel reservoir computing (RC) system that for the first time employs solitary-like (SL) waves propagating on the surface of a liquid film flowing over an inclined surface. We demonstrate the ability of the SL wave RC system (SLRC) to forecast chaotic time series and to successfully pass essential benchmark tests, including a memory capacity test and a Mackey-Glass model test.
翻訳日:2023-03-06 15:32:05 公開日:2023-03-03
# 物体中心予測モデルによる内在的物理概念の発見

Intrinsic Physical Concepts Discovery with Object-Centric Predictive Models ( http://arxiv.org/abs/2303.01869v1 )

ライセンス: Link先を確認
Qu Tang, XiangYu Zhu, Zhen Lei, ZhaoXiang Zhang(参考訳) 抽象的な物理的概念を発見し、人間の知性の中核を観察することで世界がどのように働くかを理解する能力。 この能力の獲得は、教師なしの方法でオブジェクトと関係の観点から環境を合成的に知覚することに基づいている。 最近のアプローチでは、オブジェクト中心の表現を学習し、形、サイズ、位置など、視覚的に観察可能なオブジェクトの概念をキャプチャする。 本稿では,質量や電荷といった内在的な物理的概念を発見し,表現しようとする。 本稿では,異なる抽象レベルで物理概念を推定するシステムである \uppercase{phy}sical \uppercase{c}oncepts \uppercase{i}nference \uppercase{ne}twork (PHYCINE)を紹介する。 PHYCINEの根底にある重要な洞察は、2倍のコモンセンス知識が予測と共に出現し、異なる抽象レベルの物理的概念がボトムアップ方式で推論されるべきである。 経験的評価は、システムによって推定される変数が対応する物理概念の性質に従って動作することを示す。 また,検出された物理概念変数を含むオブジェクト表現が,因果推論タスク,すなわちcomphyの性能向上に役立つことを示す。

The ability to discover abstract physical concepts and understand how they work in the world through observing lies at the core of human intelligence. The acquisition of this ability is based on compositionally perceiving the environment in terms of objects and relations in an unsupervised manner. Recent approaches learn object-centric representations and capture visually observable concepts of objects, e.g., shape, size, and location. In this paper, we take a step forward and try to discover and represent intrinsic physical concepts such as mass and charge. We introduce the \uppercase{phy}sical \uppercase{c}oncepts \uppercase{i}nference \uppercase{ne}twork (PHYCINE), a system that infers physical concepts in different abstract levels without supervision. The key insights underlining PHYCINE are two-fold, commonsense knowledge emerges with prediction, and physical concepts of different abstract levels should be reasoned in a bottom-up fashion. Empirical evaluation demonstrates that variables inferred by our system work in accordance with the properties of the corresponding physical concepts. We also show that object representations containing the discovered physical concepts variables could help achieve better performance in causal reasoning tasks, i.e., ComPhy.
翻訳日:2023-03-06 15:26:32 公開日:2023-03-03
# 位相マヨラ線プローブとしての局所andreevコンダクタンスの非局所性

Nonlocality of local Andreev conductances as a probe for topological Majorana wires ( http://arxiv.org/abs/2303.01867v1 )

ライセンス: Link先を確認
Rodrigo A. Dourado, Poliana H. Penteado, and J. Carlos Egues(参考訳) マヨラナワイヤにおけるゼロバイアス伝導ピークによる位相位相の同定は簡単ではない。 ここでは、この問題を、通常の鉛と結合した現実的な3末端の超伝導(秩序のない)ナノワイヤで解決する。 グリーン関数と散乱行列形式を用いて、非対称トンネル結合左(\Gamma_L$, constant)および右(\Gamma_R$)リードに対するコンダクタンス行列と状態の局所密度(LDOS)を算出する。 自明な位相では、局所コンダクタンスは$\Gamma_R$の変分によって顕著に影響を受けるが、$G_{LL}$は基本的に定数であるが、$G_{RR}$は$\Gamma_R$が減少すると指数的に抑制される。 位相位相(バルク基準)において、$G_{LL}$と$G_{RR}$は全く同じ方法で、すなわち$G_{LL}=G_{RR}$が抑圧される。 この$G_{LL}$の非局所的な抑制は、マヨラナゼロモード(MZM)のハイブリッド化と共にスケールし、ワイヤの左端でゼロエネルギーの周りでLDOSのディップが出現し、MZMを介する局所アンドリーフ反射に影響を及ぼす。 また,局所Andreevプロセスの非局所性とLDOSのゲート制御抑制を利用したMajoranaトランジスタを提案する。 最後に,局所伝導率測定のみに依存するトポロジカルゼロバイアスピークとを区別するプロトコルを提案する。

Identifying topological phases via zero-bias conductance peaks in Majorana wires is not trivial. Here we address this issue in realistic three-terminal proximitized superconducting (disordered) nanowires coupled to normal leads, purportedly capable of hosting (quasi-) zero-energy Majorana modes. By using Green functions and the scattering matrix formalism, we calculate the conductance matrix and the local density of states (LDOS) for asymmetrically tunnel coupled left ($\Gamma_L$, constant) and right ($\Gamma_R$) leads. In the trivial phase, we find that the local conductances are distinctively affected by variations in $\Gamma_R$: while $G_{LL}$ is essentially constant, $G_{RR}$ is exponentially suppressed as $\Gamma_R$ diminishes. In the topological phase (bulk criterion), surprisingly, $G_{LL}$ and $G_{RR}$ are suppressed in the exact same way, i.e., $G_{LL}=G_{RR}$. This nonlocal suppression of $G_{LL}$ scales with the hybridization between the Majorana zero modes (MZMs) and arises from the emergence of a dip in the LDOS around zero energy at the left end of the wire, which in turn affects the MZM-mediated local Andreev reflections. We also present a Majorana transistor exploiting the nonlocality of the local Andreev processes and the gate-controlled suppression of the LDOS. Finally, we propose a protocol for distinguishing trivial from topological zero-bias peaks that rely only on local conductance measurements.
翻訳日:2023-03-06 15:26:08 公開日:2023-03-03
# 拡散モデルは最小分布推定器である

Diffusion Models are Minimax Optimal Distribution Estimators ( http://arxiv.org/abs/2303.01861v1 )

ライセンス: Link先を確認
Kazusato Oko, Shunta Akiyama, Taiji Suzuki(参考訳) 効率的な分布学習は拡散モデリングの画期的な成功の裏にあることは間違いないが、理論上の保証はかなり限られている。 本稿では,よく知られた関数空間に対する拡散モデリングの近似および一般化能力に関する最初の厳密な解析を行う。 本稿では,真の密度関数がベッソフ空間に属し,経験的スコアマッチング損失を適切に最小化すると,生成されたデータ分布は,総変動距離および1次ワッサーシュタイン距離において,ほぼ最小の最適推定率が得られることを示す。 さらに, 拡散モデルが低次元データ分布にどのように適応するかを示すために, 理論を拡張した。 これらの結果は、拡散モデリングの理論的理解と、その検証結果を生成する能力の進歩を期待する。

While efficient distribution learning is no doubt behind the groundbreaking success of diffusion modeling, its theoretical guarantees are quite limited. In this paper, we provide the first rigorous analysis on approximation and generalization abilities of diffusion modeling for well-known function spaces. The highlight of this paper is that when the true density function belongs to the Besov space and the empirical score matching loss is properly minimized, the generated data distribution achieves the nearly minimax optimal estimation rates in the total variation distance and in the Wasserstein distance of order one. Furthermore, we extend our theory to demonstrate how diffusion models adapt to low-dimensional data distributions. We expect these results advance theoretical understandings of diffusion modeling and its ability to generate verisimilar outputs.
翻訳日:2023-03-06 15:25:37 公開日:2023-03-03
# 規則に基づく分布外検出

Rule-based Out-Of-Distribution Detection ( http://arxiv.org/abs/2303.01860v1 )

ライセンス: Link先を確認
Giacomo De Bernardi, Sara Narteni, Enrico Cambiaso, Maurizio Mongelli(参考訳) 分散検出は、マシンラーニングのデプロイメントにおいて最も重要な問題のひとつだ。 データアナリストは、運用中のデータがトレーニングフェーズに準拠していることと、自律的な決定がもはや安全でない方法で環境が変わったかどうかを理解することを保証する必要がある。 論文の方法はeXplainable Artificial Intelligence (XAI)に基づいており、XAIモデルに見られるように、分布内と外部との類似性を識別するために異なるメトリクスを考慮に入れている。 このアプローチは非パラメトリックかつ分布的仮定自由である。 複雑なシナリオ(予測的メンテナンス、車両小隊、サイバーセキュリティにおける隠密チャネル)の検証は、検出の精度とトレーニング運用条件の近接性の両方を裏付ける。

Out-of-distribution detection is one of the most critical issue in the deployment of machine learning. The data analyst must assure that data in operation should be compliant with the training phase as well as understand if the environment has changed in a way that autonomous decisions would not be safe anymore. The method of the paper is based on eXplainable Artificial Intelligence (XAI); it takes into account different metrics to identify any resemblance between in-distribution and out of, as seen by the XAI model. The approach is non-parametric and distributional assumption free. The validation over complex scenarios (predictive maintenance, vehicle platooning, covert channels in cybersecurity) corroborates both precision in detection and evaluation of training-operation conditions proximity.
翻訳日:2023-03-06 15:25:23 公開日:2023-03-03
# POPGym: 部分的に観察可能な強化学習のベンチマーク

POPGym: Benchmarking Partially Observable Reinforcement Learning ( http://arxiv.org/abs/2303.01859v1 )

ライセンス: Link先を確認
Steven Morad, Ryan Kortvelesy, Matteo Bettini, Stephan Liwicki, and Amanda Prorok(参考訳) 実世界のRL(Reinforcement Learning)の応用はしばしば部分的に観測可能であり、メモリを必要とする。 それにもかかわらず、部分的な可観測性は現代のRLベンチマークやライブラリでは無視されている。 本稿では,(1)15個の部分観測可能な環境の多種多様なコレクション,(2)13個のメモリモデルベースラインの実装を含む2部構成のライブラリであるPartially Observable Process Gym(POPGym)を紹介する。 既存の部分観測可能なベンチマークは、3Dビジュアルナビゲーションに固定される傾向があり、計算コストは高く、POMDPは1種類しかない。 対照的に、POPGym環境は多様であり、より小さな観測結果を生成し、メモリ使用を少なくし、コンシューマグレードのGPUで2時間以内に収束することが多い。 我々はRLlibフレームワーク上に高レベルのメモリAPIとメモリベースラインを実装し、様々なトレーニングアルゴリズム、探索戦略、分散トレーニングパラダイムとのプラグアンドプレイ互換性を提供します。 POPGymを用いて、これまでで最大のRLメモリモデルの比較を行う。 POPGymはhttps://github.com/proroklab/popgym.comで入手できる。

Real world applications of Reinforcement Learning (RL) are often partially observable, thus requiring memory. Despite this, partial observability is still largely ignored by contemporary RL benchmarks and libraries. We introduce Partially Observable Process Gym (POPGym), a two-part library containing (1) a diverse collection of 15 partially observable environments, each with multiple difficulties and (2) implementations of 13 memory model baselines -- the most in a single RL library. Existing partially observable benchmarks tend to fixate on 3D visual navigation, which is computationally expensive and only one type of POMDP. In contrast, POPGym environments are diverse, produce smaller observations, use less memory, and often converge within two hours of training on a consumer-grade GPU. We implement our high-level memory API and memory baselines on top of the popular RLlib framework, providing plug-and-play compatibility with various training algorithms, exploration strategies, and distributed training paradigms. Using POPGym, we execute the largest comparison across RL memory models to date. POPGym is available at https://github.com/proroklab/popgym.
翻訳日:2023-03-06 15:25:10 公開日:2023-03-03
# LBCIM:Epsilon-greedy MCTS戦略を用いたロイヤリティに基づく競合影響最大化

LBCIM: Loyalty Based Competitive Influence Maximization with epsilon-greedy MCTS strategy ( http://arxiv.org/abs/2303.01850v1 )

ライセンス: Link先を確認
Malihe Alavi, Farnoush Manavi, Amirhossein Ansari, Ali Hamzeh(参考訳) 競争力の最大化はここ数年研究され、競争環境下での情報拡散の異なる側面をモデル化する様々な枠組みが提案されている。 本研究は、ソーシャルネットワークにおける忠誠を象徴する新たな特徴と、相手がより良い提案をした場合に、当事者に完全に忠誠を誓わないという態度を反映した2つの競技会のための新しいゲームボードを提示する。 この行動は、各党が相手よりも良い提案をすることで人々を惹きつけようとし、さらには野党のファンに心を変えるよう促そうとする、ほとんどの政治的場面で観察される。 ゲームフレームワークの各ステップの最良の動きを特定するため、改良されたモンテカルロ木探索法が開発され、アルゴリズムのシミュレーションステップでそれらを適用するための事前定義されたヒューリスティックスを用いて、現在の状態の子ノードを探索し、ランダムに選択する代わりに、エプシロンを欲しがる方法で最良のものを選択する。 合成および実データセットに対する実験結果は、一般的なMCTS、アルファベータプルーニングによるミニマックスアルゴリズム、ランダムノード、最大しきい値のノード、最小しきい値のノードなど、よく知られたベンチマーク戦略に対する提案戦略の成果を示している。

Competitive influence maximization has been studied for several years, and various frameworks have been proposed to model different aspects of information diffusion under the competitive environment. This work presents a new gameboard for two competing parties with some new features representing loyalty in social networks and reflecting the attitude of not completely being loyal to a party when the opponent offers better suggestions. This behavior can be observed in most political occasions where each party tries to attract people by making better suggestions than the opponent and even seeks to impress the fans of the opposition party to change their minds. In order to identify the best move in each step of the game framework, an improved Monte Carlo tree search is developed, which uses some predefined heuristics to apply them on the simulation step of the algorithm and takes advantage of them to search among child nodes of the current state and pick the best one using an epsilon-greedy way instead of choosing them at random. Experimental results on synthetic and real datasets indicate the outperforming of the proposed strategy against some well-known and benchmark strategies like general MCTS, minimax algorithm with alpha-beta pruning, random nodes, nodes with maximum threshold and nodes with minimum threshold.
翻訳日:2023-03-06 15:24:51 公開日:2023-03-03
# 永久的なセンスキーでフライでワードネットをマッピングする

Mapping Wordnets on the Fly with Permanent Sense Keys ( http://arxiv.org/abs/2303.01847v1 )

ライセンス: Link先を確認
Eric Kafe(参考訳) セマンティックウェブ上の主要なデータベースのほとんどはプリンストンワードネット(PWN)のシノニムセット(シンセット)へのリンクがあり、PWNリリース毎に異なるため、バージョン間で互換性がない。 一方、PWNとより最近のOpen English Wordnet(OEWN)は、この相互運用性問題を解決するために、恒久的な単語センス識別子(センスキー)を提供する。 pwn senseキーを使用するwordnetバージョン間のシンセクタマッピングを自動的に導出するために,線形時間で動作するアルゴリズムを提案する。 これにより、古いWordNetリンクを更新でき、以前のマッピングがない新しい英語Wordnetバージョンとシームレスに相互運用できる。 提案アルゴリズムをオンザフライで適用することにより,従来のPWN 3.0識別子を使用するOpen Multilingual Wordnet(OMW 1.4)をOEWN Edition 2021と組み合わせ,ほぼ完全な精度とリコールが得られる。 それぞれのシンセットオフセットを用いたアプローチの結果と,協調言語間インデックス(ciliバージョン1.0)をシンセット識別子として比較し,シンセットオフセットがcili 1.0よりも優れた性能を示すことを発見した。

Most of the major databases on the semantic web have links to Princeton WordNet (PWN) synonym set (synset) identifiers, which differ for each PWN release, and are thus incompatible between versions. On the other hand, both PWN and the more recent Open English Wordnet (OEWN) provide permanent word sense identifiers (the sense keys), which can solve this interoperability problem. We present an algorithm that runs in linear time, to automatically derive a synset mapping between any pair of Wordnet versions that use PWN sense keys. This allows to update old WordNet links, and seamlessly interoperate with newer English Wordnet versions for which no prior mapping exists. By applying the proposed algorithm on the fly, at load time, we combine the Open Multilingual Wordnet (OMW 1.4, which uses old PWN 3.0 identifiers) with OEWN Edition 2021, and obtain almost perfect precision and recall. We compare the results of our approach using respectively synset offsets, versus the Collaborative InterLingual Index (CILI version 1.0) as synset identifiers, and find that the synset offsets perform better than CILI 1.0 in all cases, except a few ties.
翻訳日:2023-03-06 15:24:25 公開日:2023-03-03
# 記述論理概念のための置換不変組込みの学習

Learning Permutation-Invariant Embeddings for Description Logic Concepts ( http://arxiv.org/abs/2303.01844v1 )

ライセンス: Link先を確認
Caglar Demir, Axel-Cyrille Ngonga Ngomo(参考訳) 概念学習は、背景知識と入力例から記述論理の概念を学ぶことを扱う。 目標は、すべてのポジティブな例をカバーし、否定的な例をカバーしないコンセプトを学ぶことである。 この非自明なタスクはしばしば、無限の準順序空間内の探索問題として定式化される。 現状のモデルはこの問題に対処するためにうまく適用されてきたが、その大規模な応用は、過度な探索による非現実的な実行環境の獲得によって著しく妨げられている。 本稿では,この制限に対する対策を提案する。 我々は,学習問題を多ラベル分類問題として再検討し,事前選択された記述論理概念のF_1$スコア予測に適した例集合に対する置換不変埋め込みを学習するニューラル埋め込みモデル(NERO)を提案する。 このような概念を予測スコアの順にランク付けすることで、いくつかの検索操作、すなわち過剰な探索なしに、可能な目標概念を検出できる。 重要なことに、トップランクの概念は、最も一般的な概念である$\top$から始めるのではなく、概念空間の複数の有利な領域における最先端のシンボルモデルの探索手順を開始するために使われる。 770の学習問題を持つ5つのベンチマークデータセットに対する実験から、NEROは、F_1$スコア、探索された概念の数、総実行時間において、最先端モデルよりもかなり優れていることが強く示唆されている。 このアプローチのオープンソース実装を提供しています。

Concept learning deals with learning description logic concepts from a background knowledge and input examples. The goal is to learn a concept that covers all positive examples, while not covering any negative examples. This non-trivial task is often formulated as a search problem within an infinite quasi-ordered concept space. Although state-of-the-art models have been successfully applied to tackle this problem, their large-scale applications have been severely hindered due to their excessive exploration incurring impractical runtimes. Here, we propose a remedy for this limitation. We reformulate the learning problem as a multi-label classification problem and propose a neural embedding model (NERO) that learns permutation-invariant embeddings for sets of examples tailored towards predicting $F_1$ scores of pre-selected description logic concepts. By ranking such concepts in descending order of predicted scores, a possible goal concept can be detected within few retrieval operations, i.e., no excessive exploration. Importantly, top-ranked concepts can be used to start the search procedure of state-of-the-art symbolic models in multiple advantageous regions of a concept space, rather than starting it in the most general concept $\top$. Our experiments on 5 benchmark datasets with 770 learning problems firmly suggest that NERO significantly (p-value <1%) outperforms the state-of-the-art models in terms of $F_1$ score, the number of explored concepts, and the total runtime. We provide an open-source implementation of our approach.
翻訳日:2023-03-06 15:24:02 公開日:2023-03-03
# 直交多面体射影をもつ無向性神経微分方程式

Anamnesic Neural Differential Equations with Orthogonal Polynomial Projections ( http://arxiv.org/abs/2303.01841v1 )

ライセンス: Link先を確認
Edward De Brouwer and Rahul G. Krishnan(参考訳) ニューラル常微分方程式(Neural ordinary differential equations、Neural ODEs)は、不規則サンプル時系列データから力学系を学習するための有効なフレームワークである。 これらのモデルは、力学系の潜在表現を更新するために任意の時点における新しい観測を使うことができる、基礎となる力学系の連続的な時間潜在表現を提供する。 ニューラルオデムのダイナミクス関数に対する既存のパラメータ化は、時系列に関する大域的な情報を保持できるモデルの能力を制限する;具体的には、観測間の潜在過程の分割的な統合は、以前に観測されたデータポイントの動的パターンのメモリ損失をもたらす可能性がある。 本研究では,潜在連続時間過程を直交多項式に基づく射影としてモデル化するニューラルodeを提案する。 この定式化は長距離メモリを強制し、基礎となる力学系のグローバルな表現を保存する。 提案手法は理論的保証によって裏付けられ, 過去の過去と将来のデータの再構築や下流予測タスクにおいて, 過去の成果よりも優れていることを示す。

Neural ordinary differential equations (Neural ODEs) are an effective framework for learning dynamical systems from irregularly sampled time series data. These models provide a continuous-time latent representation of the underlying dynamical system where new observations at arbitrary time points can be used to update the latent representation of the dynamical system. Existing parameterizations for the dynamics functions of Neural ODEs limit the ability of the model to retain global information about the time series; specifically, a piece-wise integration of the latent process between observations can result in a loss of memory on the dynamic patterns of previously observed data points. We propose PolyODE, a Neural ODE that models the latent continuous-time process as a projection onto a basis of orthogonal polynomials. This formulation enforces long-range memory and preserves a global representation of the underlying dynamical system. Our construction is backed by favourable theoretical guarantees and in a series of experiments, we demonstrate that it outperforms previous works in the reconstruction of past and future data, and in downstream prediction tasks.
翻訳日:2023-03-06 15:23:37 公開日:2023-03-03
# 腎動脈網の完全再建に対するハイブリッドアプローチ

A Hybrid Approach to Full-Scale Reconstruction of Renal Arterial Network ( http://arxiv.org/abs/2303.01837v1 )

ライセンス: Link先を確認
Peidi Xu, Niels-Henrik Holstein-Rathlou, Stinne Byrholdt S{\o}gaard, Carsten Gundlach, Charlotte Mehlin S{\o}rensen, Kenny Erleben, Olga Sosnovtseva, Sune Darkner(参考訳) 腎血管は、資源分布ネットワークとして機能し、腎臓の生理と病態において重要な役割を果たしている。 しかしながら、イメージング技術では、空間分解能と時間分解能の制限により腎血管の構造と機能を評価することができない。 腎機能の現実的なコンピュータシミュレーションを開発し,人工知能に基づく新しい画像診断手法を開発するためには,腎血管の現実的なフルスケールモデルが必要である。 本研究では,大血管の半自動分割と微小ctスキャンによる大脳皮質面積の推定を出発点とし,小血管生成のための大域的構成最適化アルゴリズムを適用し,腎血管ネットワークの主題特異的モデルを構築するためのハイブリッドフレームワークを提案する。 本研究は,ラット腎から得られた再建データと既存の解剖学的データとの統計的対応を,形態学的および血行動態学的パラメータに関して示すものである。

The renal vasculature, acting as a resource distribution network, plays an important role in both the physiology and pathophysiology of the kidney. However, no imaging techniques allow an assessment of the structure and function of the renal vasculature due to limited spatial and temporal resolution. To develop realistic computer simulations of renal function, and to develop new image-based diagnostic methods based on artificial intelligence, it is necessary to have a realistic full-scale model of the renal vasculature. We propose a hybrid framework to build subject-specific models of the renal vascular network by using semi-automated segmentation of large arteries and estimation of cortex area from a micro-CT scan as a starting point, and by adopting the Global Constructive Optimization algorithm for generating smaller vessels. Our results show a statistical correspondence between the reconstructed data and existing anatomical data obtained from a rat kidney with respect to morphometric and hemodynamic parameters.
翻訳日:2023-03-06 15:23:21 公開日:2023-03-03
# LiDAR Sim-to-Real Domain Shiftの定量化:オブジェクト検出器とターゲットレベル点雲の詳細な解析

Quantifying the LiDAR Sim-to-Real Domain Shift: A Detailed Investigation Using Object Detectors and Analyzing Point Clouds at Target-Level ( http://arxiv.org/abs/2303.01899v1 )

ライセンス: Link先を確認
Sebastian Huch, Luca Scalerandi, Esteban Rivera, Markus Lienkamp(参考訳) 自律運転のためのニューラルネットワークに基づくLiDARオブジェクト検出アルゴリズムは、トレーニング、検証、テストのために大量のデータを必要とする。 実世界のデータ収集とラベル付けは時間と費用がかかるため、シミュレーションベースの合成データ生成は有効な代替手段である。 しかしながら、ニューラルネットワークのトレーニングにシミュレーションデータを使用することで、シーンやシナリオ、分布の違いによるトレーニングやテストデータのドメインシフトが発生する。 本研究では,新しいシナリオ識別型実世界とシミュレーションデータセットを用いて訓練されたLiDARオブジェクト検出器を用いて,Sim-to-realドメインシフトを定量化する。 さらに,シミュレーションデータがどのように実世界データに類似しているか,シミュレーションデータで訓練された物体検出器が実世界データでどのように機能するかという疑問に答える。 さらに,ターゲットの3次元境界ボックス内の実世界とシミュレーションされた点雲を比較し,対象レベルの点雲を分析する。 実験の結果,シナリオ単位のデータセットにおいても,領域シフトが顕著であることが確認された。 この領域シフトは、シミュレーションデータで訓練された物体検出器の平均精度を約14%削減する。 さらなる実験により、この領域シフトはシミュレーションに単純なノイズモデルを導入することで低減できることが明らかになった。 さらに,実世界の物理をモデル化する簡単なダウンサンプリング手法は,物体検出器の性能に影響を与えないことを示した。

LiDAR object detection algorithms based on neural networks for autonomous driving require large amounts of data for training, validation, and testing. As real-world data collection and labeling are time-consuming and expensive, simulation-based synthetic data generation is a viable alternative. However, using simulated data for the training of neural networks leads to a domain shift of training and testing data due to differences in scenes, scenarios, and distributions. In this work, we quantify the sim-to-real domain shift by means of LiDAR object detectors trained with a new scenario-identical real-world and simulated dataset. In addition, we answer the questions of how well the simulated data resembles the real-world data and how well object detectors trained on simulated data perform on real-world data. Further, we analyze point clouds at the target-level by comparing real-world and simulated point clouds within the 3D bounding boxes of the targets. Our experiments show that a significant sim-to-real domain shift exists even for our scenario-identical datasets. This domain shift amounts to an average precision reduction of around 14 % for object detectors trained with simulated data. Additional experiments reveal that this domain shift can be lowered by introducing a simple noise model in simulation. We further show that a simple downsampling method to model real-world physics does not influence the performance of the object detectors.
翻訳日:2023-03-06 15:17:37 公開日:2023-03-03
# t360rrd:360度回転矩形テーブル検出用データセット

T360RRD: A dataset for 360 degree rotated rectangular box table detection ( http://arxiv.org/abs/2303.01894v1 )

ライセンス: Link先を確認
Wenxing Hu, Minglei Tong(参考訳) 本章では,回転画像テーブル検出データセットの不足とアノテーションコストの低減に対処するため,回転画像テーブル検出データセットを構築する手法を提案する。 ICDAR2019MTDのテーブル検出データセットに基づいて、表4.1に示すように、DOTAデータセットのアノテーションフォーマットを参照して、TRR360D回転テーブル検出データセットを作成する。 トレーニングセットは600の回転画像と977の注釈付きインスタンスを含み、テストセットは240の回転画像と499の注釈付きインスタンスを含む。 DOTA\_360の評価基準を定義し、このデータセットは将来の研究者がテーブル検出アルゴリズムの研究とテーブル検出技術の開発を促進するために利用できる。 TRR360D回転テーブル検出データセットは、開始点とアノテーションの方向を制約することで作成され、 \url{https://github.com/vansin/TRR360D} で公開されている。

To address the problem of scarcity and high annotation costs of rotated image table detection datasets, this chapter proposes a method for building a rotated image table detection dataset. Based on the ICDAR2019MTD modern table detection dataset, we refer to the annotation format of the DOTA dataset to create the TRR360D rotated table detection dataset, as shown in Table 4.1. The training set contains 600 rotated images and 977 annotated instances, and the test set contains 240 rotated images and 499 annotated instances. The DOTA\_360 evaluation metric is defined, and this dataset is available for future researchers to study rotated table detection algorithms and promote the development of table detection technology. The TRR360D rotated table detection dataset was created by constraining the starting point and annotation direction, and is publicly available at \url{https://github.com/vansin/TRR360D}.
翻訳日:2023-03-06 15:17:13 公開日:2023-03-03
# 原子の超微細基底状態における量子不安定性

Quantum bistability in the hyperfine ground state of atoms ( http://arxiv.org/abs/2303.01893v1 )

ライセンス: Link先を確認
B. G\'abor, D. Nagy, A. Vukics and P. Domokos(参考訳) 一階相転移は自然界においてユビキタスであるが、この概念は曖昧であり、熱平衡から外れた量子系の場合、非常に議論されている。 重要な概念を解明するパラダイム的な例を構築します。 光キャビティ内の原子は、安定な共存相が高い量子純度を持つ量子状態である一階の散逸相転移を示すことができる。 これらの状態には、原子の超微細基底状態と電磁場モードのコヒーレント状態が含まれる。 このスキームは、原子とキャビティフィールド間のカップリングを集合的に強化することで恩恵を受ける。 これにより、量子極限における散逸相転移現象の研究、特に熱力学限界に対する有限サイズのスケーリングを可能にするための、容易に実現可能な実験的スキームを提案する。

First order phase transitions are ubiquitous in nature, however, this notion is ambiguous and highly debated in the case of quantum systems out of thermal equilibrium. We construct a paradigmatic example which allows for elucidating the key concepts. We show that atoms in an optical cavity can manifest a first-order dissipative phase transition where the stable co-existing phases are quantum states with high quantum purity. These states include hyperfine ground states of atoms and coherent states of electromagnetic field modes. The scheme benefits from the collective enhancement of the coupling between the atoms and the cavity field. Thereby we propose a readily feasible experimental scheme to study the dissipative phase transition phenomenology in the quantum limit, allowing for, in particular, performing a finite-size scaling to the thermodynamic limit.
翻訳日:2023-03-06 15:16:56 公開日:2023-03-03
# 熱資源を用いた制御マルコフ量子力学の限界を探る

Exploring the Limits of Controlled Markovian Quantum Dynamics with Thermal Resources ( http://arxiv.org/abs/2303.01891v1 )

ライセンス: Link先を確認
Frederik vom Ende, Emanuel Malvetti, Gunther Dirr, Thomas Schulte-Herbr\"uggen(参考訳) まず、熱力学過程の量子力学的半群の生成元を厳格に分析する。 熱演算における量子写像に対するGKSL生成器の幅広いクラスを特徴付け、マルコフ熱演算の(1パラメータ半群の)任意の無限小生成器がこのクラスに属すると主張する。 一つの量子ビットの場合、それらとその非マルコフ的対象を完全に分類して視覚化する。 第二に、この記述を双線形制御系の枠組みを用いて、熱浴への交換可能なカップリングを伴うコヒーレントに制御可能な量子系の到達可能な集合を特徴づける。 コア問題は、2種類の進化を可能にする標準的単純度に基づくハイブリッド制御システム("toy model")の研究に還元される。 (i)即時の順列及び (ii)$d$-stochastic mapsの1パラメータ半群。 我々は,この玩具モデルの到達可能な集合の上界を一般化し,サーモマジョリゼーションの新しい結果をもたらす。 制御理論のツールを用いて、これらの到達可能な集合と安定化可能な状態の集合を完全に特徴づける。

Our aim is twofold: First, we rigorously analyse the generators of quantum-dynamical semigroups of thermodynamic processes. We characterise a wide class of GKSL-generators for quantum maps within thermal operations and argue that every infinitesimal generator of (a one-parameter semigroup of) Markovian thermal operations belongs to this class. We completely classify and visualise them and their non-Markovian counterparts for the case of a single qubit. Second, we use this description in the framework of bilinear control systems to characterise reachable sets of coherently controllable quantum systems with switchable coupling to a thermal bath. The core problem reduces to studying a hybrid control system ("toy model") on the standard simplex allowing for two types of evolution: (i) instantaneous permutations and (ii) a one-parameter semigroup of $d$-stochastic maps. We generalise upper bounds of the reachable set of this toy model invoking new results on thermomajorisation. Using tools of control theory we fully characterise these reachable sets as well as the set of stabilisable states as exemplified by exact results in qutrit systems.
翻訳日:2023-03-06 15:16:45 公開日:2023-03-03
# 磁気確率シナプスを用いた機械学習

Machine learning using magnetic stochastic synapses ( http://arxiv.org/abs/2303.01886v1 )

ライセンス: Link先を確認
Matthew O. A. Ellis, Alex Welbourne, Stephan J. Kyle, Paul W. Fry, Dan A. Allwood, Thomas J. Hayward and Eleni Vasilaki(参考訳) ニューラルネットワークの印象的なパフォーマンスは、高エネルギー使用とco$_2$排出のコストで達成されている。 磁気システムを候補とする非従来型コンピューティングアーキテクチャは、代替エネルギー効率のよいハードウェアとして可能性を持っているが、その実装において確率的振る舞いなどの課題に直面している。 本稿では, ナノワイヤの磁区壁運動における従来のデトリメント確率効果を利用する方法を提案する。 機能的二分確率合成を勾配学習規則とともに示し,様々な確率系に適用可能な訓練を可能にする。 このルールは、ニューロンの出力分布の平均とばらつきを利用しており、各シナプスの測定数に依存するシナプス確率性とエネルギー効率のトレードオフを見出す。 単一測定の場合、この規則は最小確率で二項合成を行い、強靭性に対する潜在的な性能を犠牲にする。 複数の測定では、シナプス分布は広く、より優れた連続的なシナプスを近似する。 この観察により、所望のパフォーマンスと装置の動作速度とエネルギーコストに応じて設計原則を選択することができる。 物理ハードウェアの性能を検証することで、標準的なニューラルネットワークに匹敵する性能を示す。

The impressive performance of artificial neural networks has come at the cost of high energy usage and CO$_2$ emissions. Unconventional computing architectures, with magnetic systems as a candidate, have potential as alternative energy-efficient hardware, but, still face challenges, such as stochastic behaviour, in implementation. Here, we present a methodology for exploiting the traditionally detrimental stochastic effects in magnetic domain-wall motion in nanowires. We demonstrate functional binary stochastic synapses alongside a gradient learning rule that allows their training with applicability to a range of stochastic systems. The rule, utilising the mean and variance of the neuronal output distribution, finds a trade-off between synaptic stochasticity and energy efficiency depending on the number of measurements of each synapse. For single measurements, the rule results in binary synapses with minimal stochasticity, sacrificing potential performance for robustness. For multiple measurements, synaptic distributions are broad, approximating better-performing continuous synapses. This observation allows us to choose design principles depending on the desired performance and the device's operational speed and energy cost. We verify performance on physical hardware, showing it is comparable to a standard neural network.
翻訳日:2023-03-06 15:16:26 公開日:2023-03-03
# automatch: ディープラーニングアシスタントによるビデオ編集を促進する、大規模なオーディオビートマッチングベンチマーク

AutoMatch: A Large-scale Audio Beat Matching Benchmark for Boosting Deep Learning Assistant Video Editing ( http://arxiv.org/abs/2303.01884v1 )

ライセンス: Link先を確認
Sen Pei, Jingya Yu, Qi Chen, Wozhou He(参考訳) 短いビデオの爆発は、人々のソーシャル化の方法を大きく変え、日々の共有と最新の情報へのアクセスの新しいトレンドを生み出した。 これらのリッチなビデオリソースは、カメラ付きポータブルデバイスの普及の恩恵を受けているが、一方では、多くのビデオクリエーターが貢献する貴重な編集作業とは独立してはならない。 本稿では,背景音楽に基づく適切な遷移時間スタンプを推奨することを目的とした,オーディオビートマッチング(ABM)という,新規で実用的な問題について検討する。 このテクニックは、ビデオ編集中の労働集約的な作業を楽にし、クリエイターがビデオコンテンツのクリエイティビティにもっと集中できるようにエネルギーを節約する。 ABM問題とその評価プロトコルを正式に定義する。 一方、大規模なオーディオデータセット、すなわち87k以上の注釈付きバックグラウンド音楽を備えたAutoMatchは、この新たな研究の方向性を促進するために提示される。 さらに,この課題に取り組むために,beatxと呼ばれる新しいモデルを提案する。 また,ラベルスコープという概念を創造的に提示し,データの不均衡を解消し,学習過程における基礎的真理に対する適応的重みをワンストップで割り当てる。 長い期間にわたって短いビデオプラットフォームが栄えてきたが、このシナリオに関する関連する研究は不十分であり、私たちの知る限り、AutoMatchはオーディオビートマッチング問題に対処する最初の大規模データセットである。 リリースされたデータセットと私たちの競争ベースラインが、この研究のラインにもっと注意を向けてくれることを期待しています。 データセットとコードは公開される予定だ。

The explosion of short videos has dramatically reshaped the manners people socialize, yielding a new trend for daily sharing and access to the latest information. These rich video resources, on the one hand, benefited from the popularization of portable devices with cameras, but on the other, they can not be independent of the valuable editing work contributed by numerous video creators. In this paper, we investigate a novel and practical problem, namely audio beat matching (ABM), which aims to recommend the proper transition time stamps based on the background music. This technique helps to ease the labor-intensive work during video editing, saving energy for creators so that they can focus more on the creativity of video content. We formally define the ABM problem and its evaluation protocol. Meanwhile, a large-scale audio dataset, i.e., the AutoMatch with over 87k finely annotated background music, is presented to facilitate this newly opened research direction. To further lay solid foundations for the following study, we also propose a novel model termed BeatX to tackle this challenging task. Alongside, we creatively present the concept of label scope, which eliminates the data imbalance issues and assigns adaptive weights for the ground truth during the training procedure in one stop. Though plentiful short video platforms have flourished for a long time, the relevant research concerning this scenario is not sufficient, and to the best of our knowledge, AutoMatch is the first large-scale dataset to tackle the audio beat matching problem. We hope the released dataset and our competitive baseline can encourage more attention to this line of research. The dataset and codes will be made publicly available.
翻訳日:2023-03-06 15:16:10 公開日:2023-03-03
# 量子状態合成のための量子マーリン・アーサー証明系

Quantum Merlin-Arthur proof systems for synthesizing quantum states ( http://arxiv.org/abs/2303.01877v1 )

ライセンス: Link先を確認
Hugo Delavenne, Fran\c{c}ois Le Gall, Yupan Liu, and Masayuki Miyamoto(参考訳) 複雑性理論は典型的には古典的な入力と出力を用いて計算問題を解くことの難しさに焦点を当てる。 量子の世界では、異なる複雑性の概念、すなわち量子状態の合成の複雑さを適用することは自然である。 我々は,多項式時間量子検証器を用いて,全能だが信頼できない証明器からの単一量子メッセージの助けを借りて,特定の量子状態を作成することに関心を持つNPクラスである状態QMAについて検討する。 これは最近Rosenthal and Yuen (ITCS 2022)によって導入されたクラス状態QIPのサブクラスであり、証明子と検証子の間の多項式的に多くの相互作用を可能にする。 本研究の主な成果は, 誤差低減などのこのクラスの基本特性(および指数関数的に小さなギャップを持つ変種)と, 多項式時間量子回路(stateBQP)と空間一様多項式空間量子回路(statePSPACE)によって生成される状態, その他の基本状態合成クラスとの関係である。 さらに、状態QCMAは完全完全性の下で閉じていることを示す。 我々の証明技術は、Gily\'en, Su, Low, Wiebe (STOC 2019) によって導入された量子特異値変換と、有界空間で指数的精度を達成するための適応に基づいている。

Complexity theory typically focuses on the difficulty of solving computational problems using classical inputs and outputs, even with a quantum computer. In the quantum world, it is natural to apply a different notion of complexity, namely the complexity of synthesizing quantum states. We investigate a state-synthesizing counterpart of the class NP, referred to as stateQMA, which is concerned with preparing certain quantum states through a polynomial-time quantum verifier with the aid of a single quantum message from an all-powerful but untrusted prover. This is a subclass of the class stateQIP recently introduced by Rosenthal and Yuen (ITCS 2022), which permits polynomially many interactions between the prover and the verifier. Our main result consists of the basic properties of this class (as well as a variant with an exponentially small gap), such as error reduction, and its relationship to other fundamental state synthesizing classes, viz., states generated by uniform polynomial-time quantum circuits (stateBQP) and space-uniform polynomial-space quantum circuits (statePSPACE). Additionally, we demonstrate that stateQCMA is closed under perfect completeness. Our proof techniques are based on the quantum singular value transformation introduced by Gily\'en, Su, Low, and Wiebe (STOC 2019), and its adaption to achieve exponential precision with a bounded space.
翻訳日:2023-03-06 15:15:44 公開日:2023-03-03
# 超相対論的状態におけるトンネル時間に及ぼすスピンの影響

Influence of spin on tunneling times in the super-relativistic regime ( http://arxiv.org/abs/2303.01873v1 )

ライセンス: Link先を確認
Said Lantigua, Jonas Maziero(参考訳) ディラック方程式を用いて記述された相対論的トンネル効果について、著者らは[phys. rev. a 70, 052112 (2004)]において、ポテンシャル障壁内の粒子の蓄積時間とインシデントと反射波関数の相互作用に関連する自己干渉遅延の合計として位相時間(グループ遅延)を決定できる一般的な結果の推論を提示した。 しかし, 相対論的条件で得られた結果は正しいが, 非相対論的限界を考慮した場合の結果にはいくつかの誤りがある。 本稿では、これらの誤りを補正する以外に、上の提案に類似した構成から数学的モデルが導出されるが、ディラック方程式の代替表現に基づく。 この表現は [found. phys. 45, 1586 (2015)] で導入されたものと似ている。 したがって、外部磁場が存在しない場合のトンネル効果の研究におけるこのモデルの適用から、スピンがトンネル時間に与える影響について述べる。 より具体的には、スピンアップおよびスピンダウンした粒子のポテンシャル障壁内におけるハウエル時間と、インシデントに関連する相互作用時間と、スピンアップした粒子の反射波関数の合計としてトンネル時間を求める。

For the relativistic tunneling effect described using Dirac's equation, in [Phys. Rev. A 70, 052112 (2004)] the authors presented the deduction of a general result that allows for the determination of the phase time (group delay) as the sum of the particle dwell time inside a potential barrier and of the self-interference delay associated with the incident and reflected wave functions interaction. However, although their results obtained for the relativistic regime are correct, there are some errors in the results presented when the non-relativistic limit is considered. In this article, besides correcting these errors, a mathematical model is derived through a construction analogous to the proposal mentioned above, but based on an alternative representation for Dirac's equation. This representation is similar to the one introduced in [Found. Phys. 45, 1586 (2015)]. Thus, from the application of this model in the study of the tunneling effect in the absence of an external magnetic field, the influence of spin on the tunneling times is described. More specifically, the tunneling time is obtained as the sum of the dwell times inside the potential barrier for particles with spin up and spin down and the interaction time associated with the incident and reflected wave functions for particles with spin up.
翻訳日:2023-03-06 15:15:16 公開日:2023-03-03
# 注意に基づく気胸分類の解釈性の向上

Attention-based Saliency Maps Improve Interpretability of Pneumothorax Classification ( http://arxiv.org/abs/2303.01871v1 )

ライセンス: Link先を確認
Alessandro Wollek, Robert Graf, Sa\v{s}a \v{C}e\v{c}atka, Nicola Fink, Theresa Willem, Bastian O. Sabel, Tobias Lasser(参考訳) 目的: 胸部X線写真(CXR)の視覚変換器(ViT)の分類性能と, 気胸分類の例を用いて注意ベース唾液価の解釈可能性を検討すること。 材料と方法:本研究では,CheXpert,Chest X-Ray 14,MIMIC CXR,VinBigDataの4つの公開データセットを用いて,肺疾患分類のための微調整を行った。 変圧器のマルチモーダル説明可能性と勾配重み付きクラスアクティベーションマッピング(GradCAM)を用いてサリエンシマップを作成した。 胸部x線14,vinbigdata,sim-acrデータセットにおいて,auc(accepter operating characteristic curve analysis)下の領域を用いて分類性能を評価し,畳み込みニューラルネットワーク(convolutional neural networks,cnns)と比較した。 提案手法は, 正・負の摂動, 感度n, 有効熱比, 構造内再現性, 構造間再現性を用いて評価した。 ユーザ調査では,3人の放射線技師が肺気胸に対するサリエンシマップ付き160個のCXRを分類し,有用性を評価した。 結果: vits は胸部x線14,084 (95% ci: 0.769, 0.912) と vinbigdata の 0.83 (95% ci: 0.760, 0.895) と 0.885 (95% ci: 0.847, 0.861) と siim acr の 0.87 (95% ci: 0.868, 0.882) と比較して,cxr 分類 aucs と同等であった。 どちらのサリエンシーマップ法もモデル内の気胸管に対して強いバイアスを示した。 放射線学者は注意に基づく健康マップの47%、GradCAMの39%が有用であった。 注意ベースの手法はすべてのメトリクスでGradCAMを上回った。 結論:CXR分類におけるCNNと同様の成績を示し,その注意に基づくサリエンシマップは放射線科医やGradCAMより有用であった。

Purpose: To investigate chest radiograph (CXR) classification performance of vision transformers (ViT) and interpretability of attention-based saliency using the example of pneumothorax classification. Materials and Methods: In this retrospective study, ViTs were fine-tuned for lung disease classification using four public data sets: CheXpert, Chest X-Ray 14, MIMIC CXR, and VinBigData. Saliency maps were generated using transformer multimodal explainability and gradient-weighted class activation mapping (GradCAM). Classification performance was evaluated on the Chest X-Ray 14, VinBigData, and SIIM-ACR data sets using the area under the receiver operating characteristic curve analysis (AUC) and compared with convolutional neural networks (CNNs). The explainability methods were evaluated with positive/negative perturbation, sensitivity-n, effective heat ratio, intra-architecture repeatability and interarchitecture reproducibility. In the user study, three radiologists classified 160 CXRs with/without saliency maps for pneumothorax and rated their usefulness. Results: ViTs had comparable CXR classification AUCs compared with state-of-the-art CNNs 0.95 (95% CI: 0.943, 0.950) versus 0.83 (95%, CI 0.826, 0.842) on Chest X-Ray 14, 0.84 (95% CI: 0.769, 0.912) versus 0.83 (95% CI: 0.760, 0.895) on VinBigData, and 0.85 (95% CI: 0.847, 0.861) versus 0.87 (95% CI: 0.868, 0.882) on SIIM ACR. Both saliency map methods unveiled a strong bias toward pneumothorax tubes in the models. Radiologists found 47% of the attention-based saliency maps useful and 39% of GradCAM. The attention-based methods outperformed GradCAM on all metrics. Conclusion: ViTs performed similarly to CNNs in CXR classification, and their attention-based saliency maps were more useful to radiologists and outperformed GradCAM.
翻訳日:2023-03-06 15:14:51 公開日:2023-03-03
# imagenet の敵対的トレーニングの再検討 - 脅威モデル間のアーキテクチャ,トレーニング,一般化

Revisiting Adversarial Training for ImageNet: Architectures, Training and Generalization across Threat Models ( http://arxiv.org/abs/2303.01870v1 )

ライセンス: Link先を確認
Naman D Singh, Francesco Croce, Matthias Hein(参考訳) ResNetアーキテクチャやCIFARのような低解像度データセットのために、敵のトレーニングが広く研究されているが、ImageNetではあまり知られていない。 トランスフォーマーがconvnetよりも堅牢であるかどうかという最近の議論を踏まえて,vitsとconvnextsを比較したimagenetの敵対的トレーニングを再検討する。 大規模な実験は、アーキテクチャの小さな変更、特にPatchStemをConvStemに置き換えること、およびトレーニングスキームが達成された堅牢性に大きな影響を与えることを示している。 これらの変化は、見た $\ell_\infty$-threat モデルにおけるロバスト性を増加させるだけでなく、さらに $\ell_1/\ell_2$-robustness に対する一般化を改善する。 修正されたConvNeXt、ConvNeXt + ConvStemは、モデルパラメータとFLOPの異なる範囲で最も堅牢なモデルを生成する。

While adversarial training has been extensively studied for ResNet architectures and low resolution datasets like CIFAR, much less is known for ImageNet. Given the recent debate about whether transformers are more robust than convnets, we revisit adversarial training on ImageNet comparing ViTs and ConvNeXts. Extensive experiments show that minor changes in architecture, most notably replacing PatchStem with ConvStem, and training scheme have a significant impact on the achieved robustness. These changes not only increase robustness in the seen $\ell_\infty$-threat model, but even more so improve generalization to unseen $\ell_1/\ell_2$-robustness. Our modified ConvNeXt, ConvNeXt + ConvStem, yields the most robust models across different ranges of model parameters and FLOPs.
翻訳日:2023-03-06 15:13:57 公開日:2023-03-03
# 保険請求頻度に対するベイズCARTモデル

Bayesian CART models for insurance claims frequency ( http://arxiv.org/abs/2303.01923v1 )

ライセンス: Link先を確認
Yaojun Zhang, Lanpeng Ji, Georgios Aivaliotis, and Charles Taylor(参考訳) 保険価格モデルの正確性と解釈可能性は、そのリスクを反映した公正かつ透明な保険料を確保するために不可欠である。 近年、分類・回帰木(carts)とそのアンサンブルは、予測性能が良く、比較的容易に解釈できるため、時間文学で人気を集めている。 本稿では,保険価格のベイズカートモデルについて,特にクレーム周波数モデルに着目して紹介する。 さらに,クレーム周波数に使用される共通ポアソン分布と負二項(nb)分布に加えて,不均衡保険請求データから生じる困難に対処するために,ゼロインフレーションポアソン(zip)分布に対するベイズカートを実装した。 そこで本研究では,データ拡張手法を用いた汎用MCMCアルゴリズムを提案する。 また,木モデル選択のための逸脱情報基準(dic)についても紹介する。 提案したモデルでは、政策ステークホルダーをよりリスクグループに分類できる木を識別することができる。 これらのモデルの適用可能性を説明するため、いくつかのシミュレーションと実際の保険データについて論じる。

Accuracy and interpretability of a (non-life) insurance pricing model are essential qualities to ensure fair and transparent premiums for policy-holders, that reflect their risk. In recent years, the classification and regression trees (CARTs) and their ensembles have gained popularity in the actuarial literature, since they offer good prediction performance and are relatively easily interpretable. In this paper, we introduce Bayesian CART models for insurance pricing, with a particular focus on claims frequency modelling. Additionally to the common Poisson and negative binomial (NB) distributions used for claims frequency, we implement Bayesian CART for the zero-inflated Poisson (ZIP) distribution to address the difficulty arising from the imbalanced insurance claims data. To this end, we introduce a general MCMC algorithm using data augmentation methods for posterior tree exploration. We also introduce the deviance information criterion (DIC) for the tree model selection. The proposed models are able to identify trees which can better classify the policy-holders into risk groups. Some simulations and real insurance data will be discussed to illustrate the applicability of these models.
翻訳日:2023-03-06 15:08:07 公開日:2023-03-03
# ロバスト検出結果:医用画像における病理検出指標

Robust Detection Outcome: A Metric for Pathology Detection in Medical Images ( http://arxiv.org/abs/2303.01920v1 )

ライセンス: Link先を確認
Felix Meissen, Philip M\"uller, Georgios Kaissis, Daniel Rueckert(参考訳) 病理診断は医用画像の基本的な課題であり,このタスクを自動実行可能なアルゴリズムの評価が重要である。 しかし、現在の自然画像のオブジェクト検出基準は、病理診断における特定の臨床要件を十分に反映していない。 この問題を解決するために,特に胸部X線画像における病理診断アルゴリズムの評価のための新しい指標であるRoDeO(Robost Detection Outcome)を提案する。 RoDeOは、個々のエラーを直接評価し、現在のメトリクスよりも臨床ニーズを反映する。 chestx-ray8データセットの広範な評価は、既存のデータセットと比較して測定値が優れていることを示している。 コードをhttps://github.com/FeliMe/RoDeOでリリースし、RoDeOをpipパッケージとして公開しました。

Detection of pathologies is a fundamental task in medical imaging and the evaluation of algorithms that can perform this task automatically is crucial. However, current object detection metrics for natural images do not reflect the specific clinical requirements in pathology detection sufficiently. To tackle this problem, we propose Robust Detection Outcome (RoDeO); a novel metric for evaluating algorithms for pathology detection in medical images, especially in chest X-rays. RoDeO evaluates different errors directly and individually, and reflects clinical needs better than current metrics. Extensive evaluation on the ChestX-ray8 dataset shows the superiority of our metrics compared to existing ones. We released the code at https://github.com/FeliMe/RoDeO and published RoDeO as pip package (rodeometric).
翻訳日:2023-03-06 15:07:42 公開日:2023-03-03
# PPCR:医学画像分類のためのピラミッドコンテキスト修正モジュールの学習

PPCR: Learning Pyramid Pixel Context Recalibration Module for Medical Image Classification ( http://arxiv.org/abs/2303.01917v1 )

ライセンス: Link先を確認
Xiaoqing Zhangand Zunjie Xiao and Xiao Wu and Jiansheng Fang and Junyong Shen and Yan Hu and Risa Higashita and Jiang Liu(参考訳) 空間的注意機構は、遠距離依存性のキャプチャによって深層畳み込みニューラルネットワーク(CNN)に広く組み込まれており、コンピュータビジョンの性能を大幅に向上させるが、医療画像では不十分である。 残念ながら、これまでの努力は、長距離の依存関係キャプチャが微妙な病変領域の強調に限界があることに気付かず、多スケールのピクセルコンテキスト情報の可能性を利用してcnnの表現能力を向上させることを怠っている。 本稿では,多スケールの画素コンテキスト情報を利用して画素非依存的に画素位置をアダプティブに再構成する,実用的で軽量なアーキテクチャユニットであるピラミッド画素コンテキストリカバリ(ppcr)モジュールを提案する。 PPCRは、まず、マルチスケールの画素コンテキスト情報を集約するクロスチャネルピラミッドプーリングを設計し、その後、よく設計されたピクセル正規化により、それらの不整合を排除し、最後にピクセルコンテキスト統合による1ピクセルあたりの注目重量を推定する。 PPCRは柔軟に現代のCNNに挿入でき、オーバーヘッドは無視できる。 5つの医用画像データセットとcifarベンチマークに関する広範囲な実験は、最先端の注意手法に対するppcrの優位性と一般化を実証的に示している。 決定過程におけるppcrの固有の挙動を詳細に分析し,cnnの解釈性を改善した。

Spatial attention mechanism has been widely incorporated into deep convolutional neural networks (CNNs) via long-range dependency capturing, significantly lifting the performance in computer vision, but it may perform poorly in medical imaging. Unfortunately, existing efforts are often unaware that long-range dependency capturing has limitations in highlighting subtle lesion regions, neglecting to exploit the potential of multi-scale pixel context information to improve the representational capability of CNNs. In this paper, we propose a practical yet lightweight architectural unit, Pyramid Pixel Context Recalibration (PPCR) module, which exploits multi-scale pixel context information to recalibrate pixel position in a pixel-independent manner adaptively. PPCR first designs a cross-channel pyramid pooling to aggregate multi-scale pixel context information, then eliminates the inconsistency among them by the well-designed pixel normalization, and finally estimates per pixel attention weight via a pixel context integration. PPCR can be flexibly plugged into modern CNNs with negligible overhead. Extensive experiments on five medical image datasets and CIFAR benchmarks empirically demonstrate the superiority and generalization of PPCR over state-of-the-art attention methods. The in-depth analyses explain the inherent behavior of PPCR in the decision-making process, improving the interpretability of CNNs.
翻訳日:2023-03-06 15:07:31 公開日:2023-03-03
# Bespoke: 低コストデプロイメントのためのブロックレベルニューラルネットワーク最適化フレームワーク

Bespoke: A Block-Level Neural Network Optimization Framework for Low-Cost Deployment ( http://arxiv.org/abs/2303.01913v1 )

ライセンス: Link先を確認
Jong-Ryul Lee and Yong-Hyuk Moon(参考訳) ディープラーニングモデルが普及するにつれて、さまざまなデバイス環境にデプロイする必要がある。 ニューラルネットワークを各環境向けに開発・最適化するのは費用がかかるため、複数のターゲット環境に対して効率的にニューラルネットワークを探索するための一連の研究がある。 しかし、このような状況に対する既存の作業は、多くのgpuと高価なコストを必要とする。 そこで我々は,低コストデプロイメントのための新しいニューラルネットワーク最適化フレームワークBespokeを提案する。 私たちのフレームワークは、トレーニング済みのニューラルネットワークまたはオリジナルのモデルから得られる、ランダムに選択された代替品に元のモデルの一部を置き換えることで、軽量なモデルを検索します。 実用的な意味では、bespokeには2つの大きなメリットがある。 ひとつは、ニューラルネットワークの検索空間を設計するのに、ほぼゼロコストを必要とすることだ。 もう1つのメリットは、公開事前訓練されたニューラルネットワークのサブネットワークを利用することだ。 我々はbespokeのメリットを探求する実験を行い,その結果,複数のターゲットに対する効率的なモデルを見出すことができた。

As deep learning models become popular, there is a lot of need for deploying them to diverse device environments. Because it is costly to develop and optimize a neural network for every single environment, there is a line of research to search neural networks for multiple target environments efficiently. However, existing works for such a situation still suffer from requiring many GPUs and expensive costs. Motivated by this, we propose a novel neural network optimization framework named Bespoke for low-cost deployment. Our framework searches for a lightweight model by replacing parts of an original model with randomly selected alternatives, each of which comes from a pretrained neural network or the original model. In the practical sense, Bespoke has two significant merits. One is that it requires near zero cost for designing the search space of neural networks. The other merit is that it exploits the sub-networks of public pretrained neural networks, so the total cost is minimal compared to the existing works. We conduct experiments exploring Bespoke's the merits, and the results show that it finds efficient models for multiple targets with meager cost.
翻訳日:2023-03-06 15:07:08 公開日:2023-03-03
# 遠隔監視による古代中国語単語のセグメンテーションとパート・オブ・スパイチ・タギング

Ancient Chinese Word Segmentation and Part-of-Speech Tagging Using Distant Supervision ( http://arxiv.org/abs/2303.01912v1 )

ライセンス: Link先を確認
Shuo Feng, Piji Li(参考訳) 古代中国語の単語セグメンテーション(WSG)とPOS(part-of-speech tagging)は、古代中国語を研究する上で重要であるが、古代中国語のWSGとPOSタグデータの量はいまだに稀である。 本稿では,パラレルコーパス上の遠隔監視を用いた,古代中国のwsgおよびposタグデータの新たな拡張手法を提案する。 しかし、いまだに誤記・無記名古代の漢語は、遠方の監督によって必然的に残されている。 この問題に対処するために、深層ニューラルネットワークと少量の注釈付きデータによる暗記効果を利用して、多くの知識とわずかなノイズを持つモデルを取得し、このモデルを用いて、古代中国語の文を並列コーパスで再現する。 実験により、学習したモデルが、遠隔監視データと注釈付きデータから生成されたデータより訓練されたモデルより優れていることが示された。 私たちのコードはhttps://github.com/farlit/acdsで利用可能です。

Ancient Chinese word segmentation (WSG) and part-of-speech tagging (POS) are important to study ancient Chinese, but the amount of ancient Chinese WSG and POS tagging data is still rare. In this paper, we propose a novel augmentation method of ancient Chinese WSG and POS tagging data using distant supervision over parallel corpus. However, there are still mislabeled and unlabeled ancient Chinese words inevitably in distant supervision. To address this problem, we take advantage of the memorization effects of deep neural networks and a small amount of annotated data to get a model with much knowledge and a little noise, and then we use this model to relabel the ancient Chinese sentences in parallel corpus. Experiments show that the model trained over the relabeled data outperforms the model trained over the data generated from distant supervision and the annotated data. Our code is available at https://github.com/farlit/ACDS.
翻訳日:2023-03-06 15:06:53 公開日:2023-03-03
# 大規模多言語モデルの翻訳性能の検討:BLOOMの場合

Investigating the Translation Performance of a Large Multilingual Language Model: the Case of BLOOM ( http://arxiv.org/abs/2303.01911v1 )

ライセンス: Link先を確認
Rachel Bawden and Fran\c{c}ois Yvon(参考訳) NLPコミュニティは最近、46の言語をカバーする新しい大きなオープンアクセス多言語言語モデルBLOOM(BigScience et al., 2022)をリリースした。 BLOOMは複数のデータセット(WMT,Flores-101,DiaBLa)と言語ペア(高リソース,低リソース)にまたがって機械翻訳性能を評価することで多言語化能力に重点を置いている。 以上の結果から,0ショット性能は誤生成や誤生成に悩まされるが,数ショット設定では大幅に改善され,多くの言語ペアに対して非常によい結果が得られた。 本稿では, 素早い設計, モデルサイズ, 言語間移動, 帰納的文脈の利用など, 様々な側面について検討する。

The NLP community recently saw the release of a new large open-access multilingual language model, BLOOM (BigScience et al., 2022) covering 46 languages. We focus on BLOOM's multilingual ability by evaluating its machine translation performance across several datasets (WMT, Flores-101 and DiaBLa) and language pairs (high- and low-resourced). Our results show that 0-shot performance suffers from overgeneration and generating in the wrong language, but this is greatly improved in the few-shot setting, with very good results for a number of language pairs. We study several aspects including prompt design, model sizes, cross-lingual transfer and the use of discursive context.
翻訳日:2023-03-06 15:06:35 公開日:2023-03-03
# 量子コンピュータを用いた外国為替準備の最適通貨組成の探索

Finding the Optimal Currency Composition of Foreign Exchange Reserves with a Quantum Computer ( http://arxiv.org/abs/2303.01909v1 )

ライセンス: Link先を確認
Martin Vesely(参考訳) ポートフォリオ最適化はチェコ国立銀行における戦略資産配分の不可分な部分である。 量子コンピューティングはその問題のアルゴリズムを提供する新しい技術だ。 したがって、ポートフォリオ最適化に関する量子コンピュータの能力と限界を検討すべきである。 本稿では,Markowitzモデルに基づく動的ポートフォリオ最適化への量子アルゴリズムの適用に焦点を当てる。 特に、普遍ゲート型量子コンピュータ(QAOA、VQE、Grover適応探索)、単一目的量子アニール、古典的完全分岐および有界解法および古典的ヒューリスティックアルゴリズム(擬似アニールと遺伝的最適化)のアルゴリズムを比較した。 量子アルゴリズムを実行するには、IBM Quantum\textsuperscript{TM} ゲートベースの量子コンピュータを使用する。 また、D-Waveが提供する量子アニールを用いる。 CNBのFXリザーブの最適通貨構成を見つけるためのポートフォリオ最適化を実証する。 この論文の2番目の目標は、金融機関が量子コンピューティングの応用可能性を見つけるのに積極的に取り組んでいるため、中央銀行や他の金融市場規制当局のスタッフに量子最適化アルゴリズムに関する文献を提供することである。

Portfolio optimization is an inseparable part of strategic asset allocation at the Czech National Bank. Quantum computing is a new technology offering algorithms for that problem. The capabilities and limitations of quantum computers with regard to portfolio optimization should therefore be investigated. In this paper, we focus on applications of quantum algorithms to dynamic portfolio optimization based on the Markowitz model. In particular, we compare algorithms for universal gate-based quantum computers (the QAOA, the VQE and Grover adaptive search), single-purpose quantum annealers, the classical exact branch and bound solver and classical heuristic algorithms (simulated annealing and genetic optimization). To run the quantum algorithms we use the IBM Quantum\textsuperscript{TM} gate-based quantum computer. We also employ the quantum annealer offered by D-Wave. We demonstrate portfolio optimization on finding the optimal currency composition of the CNB's FX reserves. A secondary goal of the paper is to provide staff of central banks and other financial market regulators with literature on quantum optimization algorithms, because financial firms are active in finding possible applications of quantum computing.
翻訳日:2023-03-06 15:06:19 公開日:2023-03-03
# 自己教師付きソースドメイン投影とマルチレベルコントラスト学習による汎用セマンティックセマンティックセグメンテーション

Generalized Semantic Segmentation by Self-Supervised Source Domain Projection and Multi-Level Contrastive Learning ( http://arxiv.org/abs/2303.01906v1 )

ライセンス: Link先を確認
Liwei Yang, Xiang Gu, Jian Sun(参考訳) ソースドメインでトレーニングされたディープネットワークは、未取得のターゲットドメインデータでテストされた場合、パフォーマンスが低下する。 モデルの一般化能力を高めるために、既存のドメイン一般化手法のほとんどは、ドメインに敏感な特徴を抑制してドメイン不変特徴を学習する。 それらとは違って,汎用セマンティックセグメンテーションのためのドメイン・プロジェクション・コントラシブ・ラーニング(DPCL)アプローチを提案し,これには自己監督的ソース・ドメイン・プロジェクション(SSDP)とマルチレベル・コントラシブ・ラーニング(MLCL)という2つのモジュールが含まれる。 SSDPは、データをソースドメインに投影することで、ドメインギャップを低減することを目的としており、MLCLは、投影されたデータ上で差別的で一般化可能な機能を学ぶための学習スキームである。 テスト期間中、まずSSDPによってターゲットデータを投影し、ドメインシフトを緩和し、MLCLに基づいて学習セグメンテーションネットワークによってセグメンテーション結果を生成する。 テスト時には、提案した画素対画素のコントラスト損失を最小限に抑え、より優れた結果を得る。 セマンティックセグメンテーションのための大規模な実験は、ベンチマークデータセット上での手法の好適な一般化能力を示す。

Deep networks trained on the source domain show degraded performance when tested on unseen target domain data. To enhance the model's generalization ability, most existing domain generalization methods learn domain invariant features by suppressing domain sensitive features. Different from them, we propose a Domain Projection and Contrastive Learning (DPCL) approach for generalized semantic segmentation, which includes two modules: Self-supervised Source Domain Projection (SSDP) and Multi-level Contrastive Learning (MLCL). SSDP aims to reduce domain gap by projecting data to the source domain, while MLCL is a learning scheme to learn discriminative and generalizable features on the projected data. During test time, we first project the target data by SSDP to mitigate domain shift, then generate the segmentation results by the learned segmentation network based on MLCL. At test time, we can update the projected data by minimizing our proposed pixel-to-pixel contrastive loss to obtain better results. Extensive experiments for semantic segmentation demonstrate the favorable generalization capability of our method on benchmark datasets.
翻訳日:2023-03-06 15:06:01 公開日:2023-03-03
# EcoTTA: 自己蒸留正則化によるメモリ効率の良い連続テスト時間適応

EcoTTA: Memory-Efficient Continual Test-time Adaptation via Self-distilled Regularization ( http://arxiv.org/abs/2303.01904v1 )

ライセンス: Link先を確認
Junha Song, Jungsoo Lee, In So Kweon, Sungha Choi(参考訳) 本稿では,TTA(Continuous Test-Time Adaptance)をメモリ効率良く改善する,シンプルかつ効果的な手法を提案する。 TTAは主にメモリ制限のあるエッジデバイス上で実行されるため、メモリ削減は重要であるが、以前のTTA研究では見過ごされてきた。 加えて、長期的な適応は、しばしば破滅的な忘れとエラーの蓄積をもたらし、現実世界の展開においてTTAの適用を妨げる。 このアプローチは、これらの問題に対処する2つのコンポーネントで構成されています。 まず,凍結したオリジナルネットワークを対象ドメインに適応させる軽量なメタネットワークを提案する。 このアーキテクチャは、バックプロパゲーションに必要な中間活性化のサイズを小さくすることで、メモリ消費を最小化する。 第2に, 新たな自己蒸留正則化は, 凍結した元のネットワークの出力から著しく逸脱しないように, メタネットワークの出力を制御する。 追加のメモリがなければ、この正規化はエラーの蓄積と破滅的な忘れ込みを防止し、長期のテスト時間適応においても安定したパフォーマンスをもたらす。 画像分類やセマンティクスセグメンテーションタスクのベンチマークにおいて,我々の単純かつ効果的な戦略が,他の最先端手法よりも優れていることを実証する。 特に,ResNet-50およびWideResNet-40を用いた提案手法は,最近の最先端手法であるCoTTAよりも86%,80%少ないメモリを消費する。

This paper presents a simple yet effective approach that improves continual test-time adaptation (TTA) in a memory-efficient manner. TTA may primarily be conducted on edge devices with limited memory, so reducing memory is crucial but has been overlooked in previous TTA studies. In addition, long-term adaptation often leads to catastrophic forgetting and error accumulation, which hinders applying TTA in real-world deployments. Our approach consists of two components to address these issues. First, we present lightweight meta networks that can adapt the frozen original networks to the target domain. This novel architecture minimizes memory consumption by decreasing the size of intermediate activations required for backpropagation. Second, our novel self-distilled regularization controls the output of the meta networks not to deviate significantly from the output of the frozen original networks, thereby preserving well-trained knowledge from the source domain. Without additional memory, this regularization prevents error accumulation and catastrophic forgetting, resulting in stable performance even in long-term test-time adaptation. We demonstrate that our simple yet effective strategy outperforms other state-of-the-art methods on various benchmarks for image classification and semantic segmentation tasks. Notably, our proposed method with ResNet-50 and WideResNet-40 takes 86% and 80% less memory than the recent state-of-the-art method, CoTTA.
翻訳日:2023-03-06 15:05:39 公開日:2023-03-03
# 知識に基づく視覚質問応答のための解法を用いた大規模言語モデルの提案

Prompting Large Language Models with Answer Heuristics for Knowledge-based Visual Question Answering ( http://arxiv.org/abs/2303.01903v1 )

ライセンス: Link先を確認
Zhenwei Shao, Zhou Yu, Meng Wang, Jun Yu(参考訳) 知識に基づく視覚的質問応答(VQA)は、質問に答えるために、画像以外の外部知識を必要とする。 初期の研究では、明示的な知識ベース(KB)から必要な知識を抽出し、しばしば問題に無関係な情報を導入し、モデルの性能を制限する。 近年の研究では、大きな言語モデル(GPT-3)を暗黙の知識エンジンとして使用して、回答に必要な知識を取得しようとしている。 これらの手法により得られた励振効果にもかかわらず、入力情報が不十分なため、GPT-3の容量を完全に活性化していない。 本稿では,知識に基づくVQAに対する回答ヒューリスティックスを用いて GPT-3 を誘導する,概念的にシンプルなフレームワークである Prophet を提案する。 具体的には、まず、外部知識のない特定の知識に基づくVQAデータセット上でバニラVQAモデルをトレーニングする。 その後、本モデルから、回答候補と回答認識例の2種類の補解ヒューリスティックを抽出する。 最後に、2種類の解答ヒューリスティックがプロンプトにエンコードされ、GPT-3がそのタスクをより理解し、能力を高める。 預言は、2つの挑戦的な知識ベースのVQAデータセットであるOK-VQAとA-OKVQAにおいて、既存の最先端の手法を著しく上回り、それぞれ61.1%と55.7%のアキュラシーを提供している。

Knowledge-based visual question answering (VQA) requires external knowledge beyond the image to answer the question. Early studies retrieve required knowledge from explicit knowledge bases (KBs), which often introduces irrelevant information to the question, hence restricting the performance of their models. Recent works have sought to use a large language model (i.e., GPT-3) as an implicit knowledge engine to acquire the necessary knowledge for answering. Despite the encouraging results achieved by these methods, we argue that they have not fully activated the capacity of GPT-3 as the provided input information is insufficient. In this paper, we present Prophet -- a conceptually simple framework designed to prompt GPT-3 with answer heuristics for knowledge-based VQA. Specifically, we first train a vanilla VQA model on a specific knowledge-based VQA dataset without external knowledge. After that, we extract two types of complementary answer heuristics from the model: answer candidates and answer-aware examples. Finally, the two types of answer heuristics are encoded into the prompts to enable GPT-3 to better comprehend the task thus enhancing its capacity. Prophet significantly outperforms all existing state-of-the-art methods on two challenging knowledge-based VQA datasets, OK-VQA and A-OKVQA, delivering 61.1% and 55.7% accuracies on their testing sets, respectively.
翻訳日:2023-03-06 15:05:14 公開日:2023-03-03
# 超低消費電力深層学習によるナノクワッドロータ上の単分子相対局在

Ultra-low Power Deep Learning-based Monocular Relative Localization Onboard Nano-quadrotors ( http://arxiv.org/abs/2303.01940v1 )

ライセンス: Link先を確認
Stefano Bonato, Stefano Carlo Lambertenghi, Elia Cereda, Alessandro Giusti, Daniele Palossi(参考訳) 精密相対局在化は群ロボットにとって重要な機能ブロックである。 本研究は、2つのピアナノドロンのディープニューラルネットワーク(dnn)、すなわち40g以下の重みと100mw以下の処理パワーを介して、単眼的な相対的局在に対処する新しい自律的なエンドツーエンドシステムを提案する。 超制約のナノドローンプラットフォームに対処するため,データセット収集から,データセット増量,量子化,システム最適化を含む最終現場展開までの,垂直統合フレームワークを提案する。 実験の結果,DNNは低分解能モノクローム画像のみを用いて最大2mの距離で10cmのターゲットナノドローンを正確に局在させることができることがわかった。 解離試験データセットでは, 平均R2スコアが0.42, 根平均2乗誤差が18cmとなり, 平均現地予測誤差が15cm, 閉ループ制御誤差が17cmとなり, 約60s飛行試験が実施される。 提案システムでは、長時間のトラッキング性能(最大2分連続トラッキング)、予期せぬ環境に展開される一般化能力、搭載した48Hzのリアルタイム推論レートで95mWの電力消費を最小限に抑えることで、その状態を改善する。

Precise relative localization is a crucial functional block for swarm robotics. This work presents a novel autonomous end-to-end system that addresses the monocular relative localization, through deep neural networks (DNNs), of two peer nano-drones, i.e., sub-40g of weight and sub-100mW processing power. To cope with the ultra-constrained nano-drone platform, we propose a vertically-integrated framework, from the dataset collection to the final in-field deployment, including dataset augmentation, quantization, and system optimizations. Experimental results show that our DNN can precisely localize a 10cm-size target nano-drone by employing only low-resolution monochrome images, up to ~2m distance. On a disjoint testing dataset our model yields a mean R2 score of 0.42 and a root mean square error of 18cm, which results in a mean in-field prediction error of 15cm and in a closed-loop control error of 17cm, over a ~60s-flight test. Ultimately, the proposed system improves the State-of-the-Art by showing long-endurance tracking performance (up to 2min continuous tracking), generalization capabilities being deployed in a never-seen-before environment, and requiring a minimal power consumption of 95mW for an onboard real-time inference-rate of 48Hz.
翻訳日:2023-03-06 14:58:14 公開日:2023-03-03
# Transformer と Cycle-Consistent Generative Adversarial Network を用いた網膜画像復元

Retinal Image Restoration using Transformer and Cycle-Consistent Generative Adversarial Network ( http://arxiv.org/abs/2303.01939v1 )

ライセンス: Link先を確認
Alnur Alimanov and Md Baharul Islam(参考訳) 医療画像は様々な疾患の検出と治療に重要な役割を果たしている。 しかし、これらの画像は品質が低すぎるため、効率が低下し、余計な費用がかかり、誤診断さえもする。 そこで,視覚変換器と畳み込みニューラルネットワークを用いた網膜画像強調手法を提案する。 ペアのないデータセットに依存する、サイクル一貫性のある生成型逆ネットワークを構築する。 1つのドメインから別のドメインへ画像を変換する2つのジェネレータ(例えば、低品質から高品質、そしてその逆)で構成され、2つの識別器で敵対的なゲームをプレイする。 発電機は、生成した画像から原画像を予測する識別器のために識別不能な画像を生成する。 ジェネレータは視覚変換器(ViT)エンコーダと畳み込みニューラルネットワーク(CNN)デコーダの組み合わせである。 差別者は伝統的なCNNエンコーダを含む。 得られた改良画像はピーク信号対雑音比(psnr)、構造類似度指数尺度(ssim)、定性的な容器分割などの評価指標を用いて定量的に評価されている。 提案手法は, ボケ, ノイズ, 照明障害, 色歪みの悪影響を低減し, 構造情報や色情報を著しく保存する。 実験の結果,提案手法の優位性を示した。 テストPSNRは、第1データセットは31.138dB、第2データセットは27.798dBである。 SSIM は 0.919 と 0.904 である。

Medical imaging plays a significant role in detecting and treating various diseases. However, these images often happen to be of too poor quality, leading to decreased efficiency, extra expenses, and even incorrect diagnoses. Therefore, we propose a retinal image enhancement method using a vision transformer and convolutional neural network. It builds a cycle-consistent generative adversarial network that relies on unpaired datasets. It consists of two generators that translate images from one domain to another (e.g., low- to high-quality and vice versa), playing an adversarial game with two discriminators. Generators produce indistinguishable images for discriminators that predict the original images from generated ones. Generators are a combination of vision transformer (ViT) encoder and convolutional neural network (CNN) decoder. Discriminators include traditional CNN encoders. The resulting improved images have been tested quantitatively using such evaluation metrics as peak signal-to-noise ratio (PSNR), structural similarity index measure (SSIM), and qualitatively, i.e., vessel segmentation. The proposed method successfully reduces the adverse effects of blurring, noise, illumination disturbances, and color distortions while significantly preserving structural and color information. Experimental results show the superiority of the proposed method. Our testing PSNR is 31.138 dB for the first and 27.798 dB for the second dataset. Testing SSIM is 0.919 and 0.904, respectively.
翻訳日:2023-03-06 14:57:49 公開日:2023-03-03
# 拡散学習を用いたマルチエージェント学習

Multi-Agent Adversarial Training Using Diffusion Learning ( http://arxiv.org/abs/2303.01936v1 )

ライセンス: Link先を確認
Ying Cao, Elsa Rizk, Stefan Vlaski, Ali H. Sayed(参考訳) この研究はグラフ上の敵対的学習に焦点を当てている。 拡散学習を用いたマルチエージェントシステムのための汎用的な逆学習フレームワークを提案する。 本研究では,凸最適化問題に対する提案手法の収束特性を解析し,逆攻撃に対する頑健性を示す。

This work focuses on adversarial learning over graphs. We propose a general adversarial training framework for multi-agent systems using diffusion learning. We analyze the convergence properties of the proposed scheme for convex optimization problems, and illustrate its enhanced robustness to adversarial attacks.
翻訳日:2023-03-06 14:57:25 公開日:2023-03-03
# containing: ネットワーク免疫のためのコミュニティベースのアルゴリズム

CONTAIN: A Community-based Algorithm for Network Immunization ( http://arxiv.org/abs/2303.01934v1 )

ライセンス: Link先を確認
\"Ozgur Coban and Ciprian-Octavian Truic\u{a} and Elena-Simona Apostol(参考訳) ネットワーク分析の分野では、ネットワーク免疫とは、ネットワークに感染しようとする任意の拡散からネットワークを保護することを指す。 本稿では,ソーシャルネットワークにおける有害コンテンツの拡散を考察し,ネットワーク免疫のための新しいCOMmuNiTyアルゴリズムである containingを提案する。 本ソリューションでは,(1)有害なコンテンツスプレッダの検出,(2)スパンダによって誘発されるサブグラフ,すなわちインクルードを用いて,パーティショニングを生成し,免疫化のためのランク付けを行う。 実世界のデータセットで得られた実験結果は、NetShieldやSparseShieldといった最先端のソリューションよりも少ないイテレーションでネットワークを免疫することにより、最先端のアルゴリズムよりもはるかに高速に収束することを示す。

Within the network analysis field, network immunization refers to the task of protecting a network from some arbitrary diffusion that tries to infect it. In this article, we consider the spread of harmful content in social networks, and we propose CONTAIN, a novel COmmuNiTy-based Algorithm for network ImmuNization. Our solution uses the network information to (1) detect harmful content spreaders, and (2) generate partitions and rank them for immunization using the subgraphs induced by each spreader, i.e., employing CONTAIN. The experimental results obtained on real-world datasets show that CONTAIN outperforms state-of-the-art solutions, i.e., NetShield and SparseShield, by immunizing the network in fewer iterations, thus, converging significantly faster than the state-of-the-art algorithms.
翻訳日:2023-03-06 14:57:21 公開日:2023-03-03
# MobileBrick: モバイルデバイスで3Dレコンストラクションを実現するLEGO

MobileBrick: Building LEGO for 3D Reconstruction on Mobile Devices ( http://arxiv.org/abs/2303.01932v1 )

ライセンス: Link先を確認
Kejie Li, Jia-Wang Bian, Robert Castle, Philip H.S. Torr, Victor Adrian Prisacariu(参考訳) 高品質な3次元地下構造は3次元物体再構成評価に不可欠である。 しかし、実際に物体のレプリカを作成することは困難であり、3Dスキャナーによって生成された3D再構成でさえ、評価のバイアスを引き起こす人工物を持っている。 この問題に対処するため,モバイルデバイスを用いた新しいマルチビューRGBDデータセットを導入し,多様な3次元構造を持つ153個のオブジェクトモデルに対して,高精度な3次元地上構造アノテーションを含む。 3d立体構造として知られるレゴ模型を用いて,ハイエンドの3dスキャナを頼らずに正確な3d立体形状を得る。 高解像度のRGB画像とモバイルデバイスで取得した低解像度の深度マップによって提供される明瞭なデータモダリティは、精密な3D幾何学アノテーションと組み合わせることで、将来の高忠実度3D再構成の研究の機会となる。 さらに,提案するデータセット上での3次元再構成アルゴリズムの評価を行った。 プロジェクトページ: http://code.active.vision/MobileBrick/

High-quality 3D ground-truth shapes are critical for 3D object reconstruction evaluation. However, it is difficult to create a replica of an object in reality, and even 3D reconstructions generated by 3D scanners have artefacts that cause biases in evaluation. To address this issue, we introduce a novel multi-view RGBD dataset captured using a mobile device, which includes highly precise 3D ground-truth annotations for 153 object models featuring a diverse set of 3D structures. We obtain precise 3D ground-truth shape without relying on high-end 3D scanners by utilising LEGO models with known geometry as the 3D structures for image capture. The distinct data modality offered by high-resolution RGB images and low-resolution depth maps captured on a mobile device, when combined with precise 3D geometry annotations, presents a unique opportunity for future research on high-fidelity 3D reconstruction. Furthermore, we evaluate a range of 3D reconstruction algorithms on the proposed dataset. Project page: http://code.active.vision/MobileBrick/
翻訳日:2023-03-06 14:57:05 公開日:2023-03-03
# ナノUAVを用いた高精度視覚空間推定のためのディープニューラルネットワークアーキテクチャ探索

Deep Neural Network Architecture Search for Accurate Visual Pose Estimation aboard Nano-UAVs ( http://arxiv.org/abs/2303.01931v1 )

ライセンス: Link先を確認
Elia Cereda, Luca Crupi, Matteo Risso, Alessio Burrello, Luca Benini, Alessandro Giusti, Daniele Jahier Pagliari, Daniele Palossi(参考訳) 小型無人航空機(UAV)は、新興かつトレンドのトピックである。 片方の手のひらほどの大きさのフォームファクターで、大きなロボットに近づかない場所に到達し、人間の周囲で安全に操作することができる。 そのようなロボット(100mW未満)に搭載されたシンプルな電子機器は、特に安価で魅力的だが、高度な知性を実現する上で大きな課題を生んでいる。 本研究では,新しいニューラルネットワーク探索(nas)手法を用いて,複数のパレートオプティカル畳み込みニューラルネットワーク(cnns)を視覚的ポーズ推定タスクとして自動識別する。 我々の研究は、実際のロボット工学アプリケーションがNAS技術を具体的に活用して、小型UAVの特定のハードウェア制約に対してCNNを自動かつ効率的に最適化する方法を実証している。 我々はNAS最適化CNNを複数配置し、27gのクレージーフリーナノUAVに並列超低電力システムオンチップを搭載したクローズドループで運用する。 その結果,現場での制御誤差を32%低減し,実時間で10Hz@10mW,50Hz@90mWの推論速度を実現した。

Miniaturized autonomous unmanned aerial vehicles (UAVs) are an emerging and trending topic. With their form factor as big as the palm of one hand, they can reach spots otherwise inaccessible to bigger robots and safely operate in human surroundings. The simple electronics aboard such robots (sub-100mW) make them particularly cheap and attractive but pose significant challenges in enabling onboard sophisticated intelligence. In this work, we leverage a novel neural architecture search (NAS) technique to automatically identify several Pareto-optimal convolutional neural networks (CNNs) for a visual pose estimation task. Our work demonstrates how real-life and field-tested robotics applications can concretely leverage NAS technologies to automatically and efficiently optimize CNNs for the specific hardware constraints of small UAVs. We deploy several NAS-optimized CNNs and run them in closed-loop aboard a 27-g Crazyflie nano-UAV equipped with a parallel ultra-low power System-on-Chip. Our results improve the State-of-the-Art by reducing the in-field control error of 32% while achieving a real-time onboard inference-rate of ~10Hz@10mW and ~50Hz@90mW.
翻訳日:2023-03-06 14:56:48 公開日:2023-03-03
# ジレンマのツールキット:AI/MLの偏見と公平性の公式を超えて

A toolkit of dilemmas: Beyond debiasing and fairness formulas for responsible AI/ML ( http://arxiv.org/abs/2303.01930v1 )

ライセンス: Link先を確認
Andr\'es Dom\'inguez Hern\'andez and Vassilis Galanos(参考訳) 公正で倫理的なaiへのアプローチは、最近、重要データ研究の新興、主に質的分野の精査の対象となり、このような介入の文脈に対する感受性の欠如と複雑な社会現象に重点が置かれている。 我々はこれらの教訓のいくつかを用いて、責任あるAI/MLの追求に遭遇したジレンマに知らせる三部決定ツールキットを導入する。 これらは a) データ形成問題文とデータ形成問題文との間にある機会ジレンマ (b)スケーラビリティとコンテキスト変更性(過剰なデータと過剰なデータ)のトレードオフ、そして (c)実用的技術的客観主義と社会認識における反射的相対主義との認識論的位置づけ 本稿では,アルゴリズム・データ駆動システムの責任を負うジレンマとの位置的推論と創造的関与を提唱し,公正AI文献に見られる定式的偏見の排除と倫理的運用に関する物語を超越した。

Approaches to fair and ethical AI have recently fell under the scrutiny of the emerging, chiefly qualitative, field of critical data studies, placing emphasis on the lack of sensitivity to context and complex social phenomena of such interventions. We employ some of these lessons to introduce a tripartite decision-making toolkit, informed by dilemmas encountered in the pursuit of responsible AI/ML. These are: (a) the opportunity dilemma between the availability of data shaping problem statements vs problem statements shaping data; (b) the trade-off between scalability and contextualizability (too much data versus too specific data); and (c) the epistemic positioning between the pragmatic technical objectivism and the reflexive relativism in acknowledging the social. This paper advocates for a situated reasoning and creative engagement with the dilemmas surrounding responsible algorithmic/data-driven systems, and going beyond the formulaic bias elimination and ethics operationalization narratives found in the fair-AI literature.
翻訳日:2023-03-06 14:56:29 公開日:2023-03-03
# FairShap: 共有値に基づくアルゴリズムフェアネスのためのデータ再重み付けアプローチ

FairShap: A Data Re-weighting Approach for Algorithmic Fairness based on Shapley Values ( http://arxiv.org/abs/2303.01928v1 )

ライセンス: Link先を確認
Adrian Arnaiz-Rodriguez, Francisco Escolano, Nuria Oliver(参考訳) 本稿では,データ評価による公正なアルゴリズム決定のための,新規かつ解釈可能な事前処理(再重み付け)手法であるFairShapを提案する。 FairShapは、リソースの公平な割り当てを達成するためのゲーム理論からよく知られた数学的フレームワークであるShapley Valueに基づいている。 本手法は,事前定義された公正度尺度に対する各トレーニングデータポイントの貢献度を測定するため,容易に解釈できる。 さまざまなトレーニングシナリオとモデルで、さまざまな性質の最先端データセットに対して、FairShapを実証的に検証します。 提案手法は他の手法よりも優れており、類似した精度のモデルが得られる。 さらに,ヒストグラムと潜在空間可視化を用いて,fairshapの解釈可能性を示す。 この研究は、アルゴリズムの公平性に対する解釈可能でモデルに依存しないアプローチにおいて、有望な方向を示していると考えています。

In this paper, we propose FairShap, a novel and interpretable pre-processing (re-weighting) method for fair algorithmic decision-making through data valuation. FairShap is based on the Shapley Value, a well-known mathematical framework from game theory to achieve a fair allocation of resources. Our approach is easily interpretable, as it measures the contribution of each training data point to a predefined fairness metric. We empirically validate FairShap on several state-of-the-art datasets of different nature, with different training scenarios and models. The proposed approach outperforms other methods, yielding significantly fairer models with similar levels of accuracy. In addition, we illustrate FairShap's interpretability by means of histograms and latent space visualizations. We believe this work represents a promising direction in interpretable, model-agnostic approaches to algorithmic fairness.
翻訳日:2023-03-06 14:56:11 公開日:2023-03-03
# rafen -- ノード埋め込みのための正規化アライメントフレームワーク

RAFEN -- Regularized Alignment Framework for Embeddings of Nodes ( http://arxiv.org/abs/2303.01926v1 )

ライセンス: Link先を確認
Kamil Tagowski, Piotr Bielak, Jakub Binkowski, Tomasz Kajdanowicz(参考訳) ノードの学習表現は、グラフ機械学習研究領域において重要な領域である。 適切に定義されたノード埋め込みモデルは、最終埋め込みにおけるノードの特徴とグラフ構造の両方を反映すべきである。 動的グラフの場合、機能と構造の両方が時間とともに変化するので、この問題はさらに複雑になる。 特定のノードの埋め込みはグラフの進化において同等であり続け、アライメント手順を適用することで達成できる。 このステップは、ノード埋め込みが既に計算された後、既存の作業でしばしば適用された。 本稿では、前述のアライメント項を用いて既存のノード埋め込み手法を拡張できるフレームワーク、RAFENを導入し、トレーニング期間中に同調ノード埋め込みを学習する。 我々は,本フレームワークのいくつかの変種を提案し,実世界の6つのデータセット上での性能を示す。 RAFENは、追加の処理ステップを必要とせずに、既存のアプローチよりも十分なパフォーマンスを達成する。

Learning representations of nodes has been a crucial area of the graph machine learning research area. A well-defined node embedding model should reflect both node features and the graph structure in the final embedding. In the case of dynamic graphs, this problem becomes even more complex as both features and structure may change over time. The embeddings of particular nodes should remain comparable during the evolution of the graph, what can be achieved by applying an alignment procedure. This step was often applied in existing works after the node embedding was already computed. In this paper, we introduce a framework -- RAFEN -- that allows to enrich any existing node embedding method using the aforementioned alignment term and learning aligned node embedding during training time. We propose several variants of our framework and demonstrate its performance on six real-world datasets. RAFEN achieves on-par or better performance than existing approaches without requiring additional processing steps.
翻訳日:2023-03-06 14:55:58 公開日:2023-03-03
# ハミルトニアンガウス過程によるエネルギー保存ダイナミクスの学習

Learning Energy Conserving Dynamics Efficiently with Hamiltonian Gaussian Processes ( http://arxiv.org/abs/2303.01925v1 )

ライセンス: Link先を確認
Magnus Ross, Markus Heinonen(参考訳) ハミルトン力学は自然科学の基盤の1つである。 近年、軌道データから直接フリーフォームでハミルトン系を学ぶことに大きな関心が寄せられている。 従来の手法では、多くの短い低ノイズ軌跡から学習する問題に対処してきたが、モデルの不確実性についての説明は行われていない。 本研究では,効率的な非結合パラメータ化を伴うハミルトン系に対するガウス過程モデルを提案し,短軌跡と長軌跡の両方からロバストな推論を可能にするエネルギー保存シューティング法を提案する。 本手法は,様々なデータ設定におけるハミルトン系学習における成功例を示す。

Hamiltonian mechanics is one of the cornerstones of natural sciences. Recently there has been significant interest in learning Hamiltonian systems in a free-form way directly from trajectory data. Previous methods have tackled the problem of learning from many short, low-noise trajectories, but learning from a small number of long, noisy trajectories, whilst accounting for model uncertainty has not been addressed. In this work, we present a Gaussian process model for Hamiltonian systems with efficient decoupled parameterisation, and introduce an energy-conserving shooting method that allows robust inference from both short and long trajectories. We demonstrate the method's success in learning Hamiltonian systems in various data settings.
翻訳日:2023-03-06 14:55:45 公開日:2023-03-03
# 深部強化学習によるURLLCのためのインテリジェントO-RANトラヒックステアリング

Intelligent O-RAN Traffic Steering for URLLC Through Deep Reinforcement Learning ( http://arxiv.org/abs/2303.01960v1 )

ライセンス: Link先を確認
Ibrahim Tamim, Sam Aleyadeh, Abdallah Shami(参考訳) Next-Generation Networksの目標は、特に高いデータレート、ほぼリアルタイムレイテンシ、ほぼ完璧なサービス品質の提供において、現在のネットワークパラダイムを改善することである。 しかし、既存の無線アクセスネットワーク(RAN)アーキテクチャは、これらの要求を満たすのに十分な柔軟性と知性を持っていない。 Open RAN(O-RAN)は、仮想化されたインテリジェントなRANアーキテクチャを構築するための有望なパラダイムである。 本稿では、機械学習に基づくトラフィックステアリング(TS)方式を提案し、ネットワークの混雑を予測し、O-RANトラフィックを積極的に操り、その回避と待ち行列遅延の低減を図る。 そこで我々は,urllcアプリケーションを実現するために,レイテンシと信頼性の両立に重点を置いた最適化設定を提案する。 提案手法は,naive bayes分類器とdeep q-learningに基づく2層ml戦略からなる。 我々のソリューションは、O-RANのxAppsとして提供される従来のリアクティブTSアプローチに対して評価され、デプロイされたすべてのSFC間で平均15.81パーセントの待ち行列が減少している。

The goal of Next-Generation Networks is to improve upon the current networking paradigm, especially in providing higher data rates, near-real-time latencies, and near-perfect quality of service. However, existing radio access network (RAN) architectures lack sufficient flexibility and intelligence to meet those demands. Open RAN (O-RAN) is a promising paradigm for building a virtualized and intelligent RAN architecture. This paper presents a Machine Learning (ML)-based Traffic Steering (TS) scheme to predict network congestion and then proactively steer O-RAN traffic to avoid it and reduce the expected queuing delay. To achieve this, we propose an optimized setup focusing on safeguarding both latency and reliability to serve URLLC applications. The proposed solution consists of a two-tiered ML strategy based on Naive Bayes Classifier and deep Q-learning. Our solution is evaluated against traditional reactive TS approaches that are offered as xApps in O-RAN and shows an average of 15.81 percent decrease in queuing delay across all deployed SFCs.
翻訳日:2023-03-06 14:49:10 公開日:2023-03-03
# PointCert: 決定論的認証ロバスト性保証によるポイントクラウド分類

PointCert: Point Cloud Classification with Deterministic Certified Robustness Guarantees ( http://arxiv.org/abs/2303.01959v1 )

ライセンス: Link先を確認
Jinghuai Zhang and Jinyuan Jia and Hongbin Liu and Neil Zhenqiang Gong(参考訳) ポイントクラウド分類は、自律運転や拡張現実など、多くのセキュリティクリティカルなアプリケーションにおいて重要なコンポーネントである。 しかし、点雲分類器は反対に摂動する点雲に対して脆弱である。 既存の対向点雲に対する認証された防御は重要な制限を被り、その認証されたロバスト性保証は確率的であり、ある確率で不正確な認証されたロバスト性保証を生成する。 本研究では,任意の点クラウド分類器を決定論的保証付き対向点クラウドに対して確実に堅牢に変換できる一般フレームワークであるPointCertを提案する。 pointcertは、任意の追加、削除、および/または修正されたポイント数がしきい値未満の場合、ポイントクラウドの同じラベルを認証可能に予測する。 さらに, 3つのアプリケーションシナリオにおいて, PointCertの信頼性保証を最適化する複数の手法を提案する。 我々はModelNetおよびScanObjectNNベンチマークデータセット上でPointCertを体系的に評価する。 以上の結果から,PointCertは信頼性保証が確率的であるにもかかわらず,最先端の防衛を著しく上回ることがわかった。

Point cloud classification is an essential component in many security-critical applications such as autonomous driving and augmented reality. However, point cloud classifiers are vulnerable to adversarially perturbed point clouds. Existing certified defenses against adversarial point clouds suffer from a key limitation: their certified robustness guarantees are probabilistic, i.e., they produce an incorrect certified robustness guarantee with some probability. In this work, we propose a general framework, namely PointCert, that can transform an arbitrary point cloud classifier to be certifiably robust against adversarial point clouds with deterministic guarantees. PointCert certifiably predicts the same label for a point cloud when the number of arbitrarily added, deleted, and/or modified points is less than a threshold. Moreover, we propose multiple methods to optimize the certified robustness guarantees of PointCert in three application scenarios. We systematically evaluate PointCert on ModelNet and ScanObjectNN benchmark datasets. Our results show that PointCert substantially outperforms state-of-the-art certified defenses even though their robustness guarantees are probabilistic.
翻訳日:2023-03-06 14:48:52 公開日:2023-03-03
# グローバルヘルスにおける適応的介入のための合成データ生成装置

Synthetic Data Generator for Adaptive Interventions in Global Health ( http://arxiv.org/abs/2303.01954v1 )

ライセンス: Link先を確認
Aditya Rastogi, Juan Francisco Garamendi, Ana Fern\'andez del R\'io, Anna Guitart, Moiz Hassan Khan, Dexian Tang and \'Africa Peri\'a\~nez(参考訳) 人工知能とデジタルヘルスは、世界の健康を変える可能性がある。 しかし、現実的な実運用環境でアルゴリズムをテストし検証するために代表データにアクセスすることは不可欠である。 モバイルヘルス介入の文脈で強化学習アルゴリズムをテストするための,ユーザの行動のオープンソース合成データ生成装置であるHealthSynを紹介する。 ジェネレータはmarkovプロセスを使用してさまざまなユーザアクションを生成し、パーソナライズされた介入(リマインダー、レコメンデーション、インセンティブなど)に対する反応を変えることができる個々のユーザ行動パターンを生成する。 これらのアクションは、HealthKitに含まれるモバイルヘルスアプリケーション機能とオープンソースSDKに特有のML目的のデータスキーマを使用して、実際のログに変換される。 ログはパイプラインに送ってユーザメトリクスを取得することができる。 生成されたデータは、実世界の振る舞いとシミュレーション技術に基づいており、研究におけるMLアルゴリズムの開発とテスト、評価、およびエンドツーエンドのRLベースの介入配信フレームワークを使用することができる。

Artificial Intelligence and digital health have the potential to transform global health. However, having access to representative data to test and validate algorithms in realistic production environments is essential. We introduce HealthSyn, an open-source synthetic data generator of user behavior for testing reinforcement learning algorithms in the context of mobile health interventions. The generator utilizes Markov processes to generate diverse user actions, with individual user behavioral patterns that can change in reaction to personalized interventions (i.e., reminders, recommendations, and incentives). These actions are translated into actual logs using an ML-purposed data schema specific to the mobile health application functionality included with HealthKit, and open-source SDK. The logs can be fed to pipelines to obtain user metrics. The generated data, which is based on real-world behaviors and simulation techniques, can be used to develop, test, and evaluate, both ML algorithms in research and end-to-end operational RL-based intervention delivery frameworks.
翻訳日:2023-03-06 14:48:34 公開日:2023-03-03
# 偏光状態を超えた量子状態試験と量子三角偏差

Quantum state testing beyond the polarizing regime and quantum triangular discrimination ( http://arxiv.org/abs/2303.01952v1 )

ライセンス: Link先を確認
Yupan Liu(参考訳) 複雑性クラスQuantum Statistical Zero-Knowledge ($\mathsf{QSZK}$)は、Watrous (FOCS 2002) が導入した、効率的に準備可能な混合状態(QSDP)のトレース距離に関する量子状態テストの計算困難を捉えている。 しかし、このクラスは、Sahai と Vadhan (JACM, 2003) が示すように、QSDP(偏極補題)の誤差の低減のため、古典的なクラスと同じパラメータ問題に直面している。 本稿では、$\chi^2$分散の対称版である三角偏差の量子アナログを紹介し、量子三角偏差と量子Jensen-Shannon分散(量子相対エントロピーの対称版)の量子状態試験問題について検討する。 これらの新しい$\mathsf{QSZK}$-complete問題により、トレース距離で量子状態をテストするためのパラメータ状態を改善することができる。 さらに、無視可能な誤差を持つトレース距離の量子状態テストは$\mathsf{pp}$であり、エラーのない同じ問題は$\mathsf{bqp}_1$であることが証明される。 これは、QSDP の長さ保存分極が $\mathsf{QSZK}$ が $\mathsf{PP}$ であることを示している。

The complexity class Quantum Statistical Zero-Knowledge ($\mathsf{QSZK}$) captures computational difficulties of quantum state testing with respect to the trace distance for efficiently preparable mixed states (Quantum State Distinguishability Problem, QSDP), as introduced by Watrous (FOCS 2002). However, this class faces the same parameter issue as its classical counterpart, because of error reduction for the QSDP (the polarization lemma), as demonstrated by Sahai and Vadhan (JACM, 2003). In this paper, we introduce quantum analogues of triangular discrimination, which is a symmetric version of the $\chi^2$ divergence, and investigate the quantum state testing problems for quantum triangular discrimination and quantum Jensen-Shannon divergence (a symmetric version of the quantum relative entropy). These new $\mathsf{QSZK}$-complete problems allow us to improve the parameter regime for testing quantum states in trace distance. Additionally, we prove that the quantum state testing for trace distance with negligible errors is in $\mathsf{PP}$ while the same problem without error is in $\mathsf{BQP}_1$. This indicates that the length-preserving polarization for the QSDP implies that $\mathsf{QSZK}$ is in $\mathsf{PP}$.
翻訳日:2023-03-06 14:48:19 公開日:2023-03-03
# 強磁場中におけるスカラー電荷によるツイスト光子の放出

Emission of twisted photons by a scalar charge in a strong magnetic field ( http://arxiv.org/abs/2303.01946v1 )

ライセンス: Link先を確認
D. Karlovets, A. Di Piazza(参考訳) 一定かつ均一な磁場中におけるスカラー荷電粒子による光子の放出について考察する。 光子と外部電荷の両方が検出されるという従来のアプローチとは対照的に、電荷の状態のみが測定され、放出された光子の特性が調査される場合について検討する。 背景磁場は計算において正確に考慮され、電荷は相対論的ランダウ状態によって記述される。 放出された光子状態はねじれたベッセルビームであり、合計角運動量は$\ell-\ell'$であり、ここでは$\ell$と$\ell'$はそれぞれ初期荷電粒子と最後の荷電粒子の角運動量量子数である。 非分極電荷、特に硬x線および\gamma$-ray範囲および臨界および亜臨界磁場において、シュウィンガー値が$h_c = 4.4\times 10^9$ tである場合、非相対論的荷電粒子に対しては$\ell-\ell'\gtrsim 1$、超相対論的粒子に対しては$\ell-\ell' \gg 1$である。 また、ツイスト光子の放射強度は磁場に沿って初期電荷運動量$p_z$で増大し、$|p_z| \sim 10-50\, mc$で飽和し、$m$が電荷の質量であることがわかった。

We consider the emission of a photon by a scalar charged particle in a constant and uniform magnetic field. In contrast to the conventional approach with both photon and outgoing charge being assumed to be detected, we study the case where only the state of the charge is measured and investigate the properties of the emitted photon. The background magnetic field is taken into account exactly in the calculations and the charge is described by relativistic Landau states. It is shown that the emitted photon state represents a twisted Bessel beam, with total angular momentum given by $\ell-\ell'$, where $\ell$ and $\ell'$ are angular momentum quantum numbers of the initial and final charged particle, respectively. The majority of photons emitted by unpolarized charges, especially in the hard X-ray and $\gamma$-ray range and in critical and sub-critical magnetic fields, as compared to the Schwinger value of $H_c = 4.4\times 10^9$ T, turn out to be twisted with $\ell-\ell'\gtrsim 1$ for non-relativistic charged particles and with $\ell-\ell' \gg 1$ for ultra-relativistic ones. Also, it is found that the radiation intensity of the twisted photons grows with the initial charge momentum $p_z$ along the magnetic field and saturates at $|p_z| \sim 10-50\, mc$, with $m$ being the mass of the charge.
翻訳日:2023-03-06 14:47:33 公開日:2023-03-03
# Spring: 高解像度高精細データセットとScene Flow, Optical Flow, Stereoのベンチマーク

Spring: A High-Resolution High-Detail Dataset and Benchmark for Scene Flow, Optical Flow and Stereo ( http://arxiv.org/abs/2303.01943v1 )

ライセンス: Link先を確認
Lukas Mehl, Jenny Schmalfuss, Azin Jahedi, Yaroslava Nalivayko, Andr\'es Bruhn(参考訳) 最近の動きとステレオ推定の手法は前例のない量の詳細を復元するが、これらの高精細な構造は既存のベンチマークや評価手法に十分に反映されていない。 したがって、我々は、シーンフロー、光学フロー、ステレオのための大型、高解像度、高精細、コンピュータ生成ベンチマークをSpring $-$で導入する。 オープンソースのBlender映画"Spring"のレンダリングシーンに基づいて、最先端の視覚効果と地上真実のトレーニングデータを備えた、フォトリアリスティックHDデータセットを提供する。 さらに、結果をアップロード、分析、比較するためのウェブサイトも提供します。 超解像UHD基底真理に基づく新しい評価手法を用いて、Springベンチマークは、微細構造の品質を評価し、異なる画像領域におけるさらなる詳細なパフォーマンス統計を提供する。 地上の真理フレームの数に関して、Springは唯一のシーンフローベンチマークであるKITTI 2015よりも60$\times$大きく、MPIシンテル光フローベンチマークよりも15$\times$大きい。 提案手法の最近の評価結果から,精度が改善の余地を残しているため,細部推定が極めて困難であることが示唆された。 Springベンチマークと対応するデータセットはhttp://spring-benchmark.orgで公開されている。

While recent methods for motion and stereo estimation recover an unprecedented amount of details, such highly detailed structures are neither adequately reflected in the data of existing benchmarks nor their evaluation methodology. Hence, we introduce Spring $-$ a large, high-resolution, high-detail, computer-generated benchmark for scene flow, optical flow, and stereo. Based on rendered scenes from the open-source Blender movie "Spring", it provides photo-realistic HD datasets with state-of-the-art visual effects and ground truth training data. Furthermore, we provide a website to upload, analyze and compare results. Using a novel evaluation methodology based on a super-resolved UHD ground truth, our Spring benchmark can assess the quality of fine structures and provides further detailed performance statistics on different image regions. Regarding the number of ground truth frames, Spring is 60$\times$ larger than the only scene flow benchmark, KITTI 2015, and 15$\times$ larger than the well-established MPI Sintel optical flow benchmark. Initial results for recent methods on our benchmark show that estimating fine details is indeed challenging, as their accuracy leaves significant room for improvement. The Spring benchmark and the corresponding datasets are available at http://spring-benchmark.org.
翻訳日:2023-03-06 14:47:03 公開日:2023-03-03
# 機械学習を用いた公式概念の発見と認識

Discovery and Recognition of Formula Concepts using Machine Learning ( http://arxiv.org/abs/2303.01994v1 )

ライセンス: Link先を確認
Philipp Scharpf and Moritz Schubotz and Howard S. Cohl and Corinna Breitinger and Bela Gipp(参考訳) 科学文献の引用に基づく情報検索法(IR法)は、多くの文献を参照する学術分野において、プラジャリズム検出や文学推薦システムなどのIR応用に有効であることが証明されている。 科学、技術、工学、数学において、研究者はしばしば式記法を通して数学の概念を用いて事前の知識を参照する。 我々の長期目標は、引用に基づくIR法を一般化し、古典的参照と数学的概念の両方に適用することである。 本稿では,式概念発見(fcd)と式概念認識(fcr)の2つのサブタスクを用いた数式概念検索タスクを,数学式がどのように引用し定義するかを提案する。 FCDは、式にバンドルされた等価表現を名付ける「形式的概念」の定義と探索を目的としているが、FCRは、与えられた公式を割り当てられた一意の数学的概念識別子と一致させるように設計されている。 本稿では、FCDおよびFCRタスクに対処するための機械学習に基づくアプローチを提案する。 次に、これらのアプローチを標準化されたテストコレクション(NTCIR arXiv データセット)上で評価する。 FCD法では, 頻繁な公式の等価表現を抽出するための精度が68%, 周辺テキストから式名を抽出するためのリコールが72%であった。 fcd と fcr は数学的文書内の公式の引用を可能にし、意味検索や質問への回答を容易にし、またプラジアリズム検出やレコメンデーションシステムのための文書類似性評価も行う。

Citation-based Information Retrieval (IR) methods for scientific documents have proven effective for IR applications, such as Plagiarism Detection or Literature Recommender Systems in academic disciplines that use many references. In science, technology, engineering, and mathematics, researchers often employ mathematical concepts through formula notation to refer to prior knowledge. Our long-term goal is to generalize citation-based IR methods and apply this generalized method to both classical references and mathematical concepts. In this paper, we suggest how mathematical formulas could be cited and define a Formula Concept Retrieval task with two subtasks: Formula Concept Discovery (FCD) and Formula Concept Recognition (FCR). While FCD aims at the definition and exploration of a 'Formula Concept' that names bundled equivalent representations of a formula, FCR is designed to match a given formula to a prior assigned unique mathematical concept identifier. We present machine learning-based approaches to address the FCD and FCR tasks. We then evaluate these approaches on a standardized test collection (NTCIR arXiv dataset). Our FCD approach yields a precision of 68% for retrieving equivalent representations of frequent formulas and a recall of 72% for extracting the formula name from the surrounding text. FCD and FCR enable the citation of formulas within mathematical documents and facilitate semantic search and question answering as well as document similarity assessments for plagiarism detection or recommender systems.
翻訳日:2023-03-06 14:40:36 公開日:2023-03-03
# 統一知覚:最小限のアノテーションコストで効率的なビデオパオプティックセグメンテーション

Unified Perception: Efficient Video Panoptic Segmentation with Minimal Annotation Costs ( http://arxiv.org/abs/2303.01991v1 )

ライセンス: Link先を確認
Kurt Stolle and Gijs Dubbelman(参考訳) 深度対応ビデオパノプティクスセグメンテーションは、カメラベースのシーン理解への有望なアプローチである。 しかし、現在の最先端の方法には高価なビデオアノテーションが必要であり、画像ベースのものに比べて複雑なトレーニングパイプラインを使用する。 本稿では,映像ベースのトレーニングを必要とせず,最先端のパフォーマンスを実現するUnified Perceptionという新しいアプローチを提案する。 本手法は,画像ベースのネットワークで計算された物体の埋め込みを(再)利用する単純な2段階カスケード追跡アルゴリズムを用いる。 Cityscapes-DVPSデータセットの実験結果から,本手法は57.1のDVPQを達成し,最先端の手法を超越した。 さらに,我々の追跡戦略はkitti-stepにおける長期オブジェクトアソシエーションに有効であることを示し,同じバックボーンネットワークを用いた最先端メソッドのパフォーマンスを上回った59.1のstqを達成した。

Depth-aware video panoptic segmentation is a promising approach to camera based scene understanding. However, the current state-of-the-art methods require costly video annotations and use a complex training pipeline compared to their image-based equivalents. In this paper, we present a new approach titled Unified Perception that achieves state-of-the-art performance without requiring video-based training. Our method employs a simple two-stage cascaded tracking algorithm that (re)uses object embeddings computed in an image-based network. Experimental results on the Cityscapes-DVPS dataset demonstrate that our method achieves an overall DVPQ of 57.1, surpassing state-of-the-art methods. Furthermore, we show that our tracking strategies are effective for long-term object association on KITTI-STEP, achieving an STQ of 59.1 which exceeded the performance of state-of-the-art methods that employ the same backbone network.
翻訳日:2023-03-06 14:40:10 公開日:2023-03-03
# 自己監督型学習の民主化に向けて

Towards Democratizing Joint-Embedding Self-Supervised Learning ( http://arxiv.org/abs/2303.01986v1 )

ライセンス: Link先を確認
Florian Bordes, Randall Balestriero, Pascal Vincent(参考訳) JE-SSL(Joint Embedding Self-Supervised Learning)は、大規模なラベルなしデータを効果的に活用するという約束により、近年急速に発展している。 JE-SSL法の開発は、主に、膨大な計算資源を使用して、下流の分類精度を継続的に向上させ、親の親であるJE-SSL法から受け継いだ洞察と直観に基づいて構築された。 これは、SimCLRが競争力のある精度を得るために非常に大きなミニバッチを必要とするなど、メソッドをまたいで実行された多くの先入観念につながった。 この作業では、不要な制限なしにJE-SSLの潜在能力を解き放ちたいと願って、このような不適切なプリオリのアイデアをいくつか取り除きます。 実際、異なるダウンストリームタスク間でパフォーマンスを慎重に評価し、メソッドのハイパーパラメータを適切に最適化する場合、ほとんどの場合(必ずしもそうでなくても)、これらの広範な誤解が保たないことに気付く。 例えば、1つのイメージパッチを負の例とし、単純なガウスノイズを正のペアの唯一のデータ拡張として用いながら、SimCLRに有用な表現を学習させることが可能であることを示す。 これらの線に沿って、JE-SSLを民主化し、研究者が彼らのメソッドをより広範囲に評価できるように、SSLのための最適化されたPyTorchライブラリを導入する。

Joint Embedding Self-Supervised Learning (JE-SSL) has seen rapid developments in recent years, due to its promise to effectively leverage large unlabeled data. The development of JE-SSL methods was driven primarily by the search for ever increasing downstream classification accuracies, using huge computational resources, and typically built upon insights and intuitions inherited from a close parent JE-SSL method. This has led unwittingly to numerous pre-conceived ideas that carried over across methods e.g. that SimCLR requires very large mini batches to yield competitive accuracies; that strong and computationally slow data augmentations are required. In this work, we debunk several such ill-formed a priori ideas in the hope to unleash the full potential of JE-SSL free of unnecessary limitations. In fact, when carefully evaluating performances across different downstream tasks and properly optimizing hyper-parameters of the methods, we most often -- if not always -- see that these widespread misconceptions do not hold. For example we show that it is possible to train SimCLR to learn useful representations, while using a single image patch as negative example, and simple Gaussian noise as the only data augmentation for the positive pair. Along these lines, in the hope to democratize JE-SSL and to allow researchers to easily make more extensive evaluations of their methods, we introduce an optimized PyTorch library for SSL.
翻訳日:2023-03-06 14:39:53 公開日:2023-03-03
# 量子古典力学におけるラグランジュ軌道と閉包モデル

Lagrangian trajectories and closure models in quantum-classical dynamics ( http://arxiv.org/abs/2303.01975v1 )

ライセンス: Link先を確認
Cesare Tronci, Fran\c{c}ois Gay-Balmaz(参考訳) 完全量子アプローチの計算課題を克服するために、混合量子古典モデルがいくつかの文脈で提案されている。 しかし、平均場近似を超えた現在のモデルは、通常長期にわたる一貫性の問題に悩まされ、場合によってはハイゼンベルクの不確実性原理を無効にする。 ここでは量子古典力学の完全ハミルトン理論を提示し、量子密度と古典密度の正則性を超えた一連の一貫性特性を最初に保証したように見える。 ラグランジアン位相空間パスに基づいて、モデルはカシミール汎函数の無限類と同様に量子古典的なポアンカーイ積分不変量を持つ。 また,エーレンフェスト模型を化学物理学から拡張する軌道閉包スキームを提案する。

Mixed quantum-classical models have been proposed in several contexts to overcome the computational challenges of fully quantum approaches. However, current models beyond mean-field approximations typically suffer from long-standing consistency issues, and, in some cases, invalidate Heisenberg's uncertainty principle. Here, we present a fully Hamiltonian theory of quantum-classical dynamics that appears to be the first to ensure a series of consistency properties, beyond positivity of quantum and classical densities. Based on Lagrangian phase-space paths, the model possesses a quantum-classical Poincar\'e integral invariant as well as infinite classes of Casimir functionals. We also present a trajectory closure scheme that extends the Ehrenfest model from chemical physics.
翻訳日:2023-03-06 14:38:30 公開日:2023-03-03
# 時間エンタングル光子に基づくQKDとその鍵レート約束

QKD Based on Time-Entangled Photons and its Key-Rate Promise ( http://arxiv.org/abs/2303.01973v1 )

ライセンス: Link先を確認
Lara Dolecek and Emina Soljanin(参考訳) 安全な実用システムのためには、量子鍵分布(QKD)は長距離における高い鍵レートを提供する必要がある。 時間的絡み合いに基づくQKDは、他のQKD実装と比較して秘密鍵レートと分配距離を増やすことを約束する。 本稿では、高次元時間ビン絡み合った光子に基づくQKD技術に焦点をあて、QKDプロトコルの主要なステップについて述べる。 情報・符号化理論の観点から、現状を概観する。 特に、単一光子検出器の欠陥によるキーレート損失について論じる。 本稿で提示され議論されているオープンな質問は、情報やコーディング理論者に、未熟な量子アプリケーションへの貢献と影響を与え、将来の量子通信システムに影響を与えることを願っている。

For secure practical systems, quantum key distribution (QKD) must provide high key rates over long distances. Time-entanglement-based QKD promises to increase the secret key rate and distribution distances compared to other QKD implementations. This article describes the major steps in QKD protocols, focusing on the nascent QKD technology based on high-dimensional time-bin entangled photons. We overview state-of-the-art from the information and coding theory perspective. In particular, we discuss the key rate loss due to single-photon detector imperfections. We hope the open questions posed and discussed in this paper will inspire information and coding theorists to contribute to and impact fledgling quantum applications and influence future quantum communication systems.
翻訳日:2023-03-06 14:38:18 公開日:2023-03-03
# 近接量子コンピュータ上のnv中心の非古典的自由誘導減衰に対する適応分割アナログ量子シミュレーション

Adaptively partitioned analog quantum simulation for the nonclassical free induction decay of NV centers on near-term quantum computers ( http://arxiv.org/abs/2303.01970v1 )

ライセンス: Link先を確認
Yun-Hua Kuo and Hong-Bin Chen(参考訳) 制御可能な量子デバイスで量子物理学をシミュレートするというアイデアは、数十年前に提案された。 量子技術の広範な発展により、興味のあるシステムを模倣する人工ハミルトニアンを調整したアナログ量子シミュレーションのような大規模シミュレーションが、精巧な量子実験プラットフォーム上で実装されている。 しかし、大きなノイズと接続性によって生じる制限のため、アナログシミュレーションは短期量子コンピューティングプラットフォームでは一般的には不可能である。 本稿では,短期量子デバイスに対するアナログシミュレーション手法を提案する。 提案手法は, 量子デバイスの性能に基づいて浴槽を複数のグループに適応的に分割することで, 限界を回避する。 我々は,膨大な数の核に結合したダイヤモンドnv$^-$中心における電子スピンの自由誘導減衰をシミュレートし,核スピン偏極による非古典性を調べる。 シミュレーションはIBMQ上の認証デバイスや量子シミュレータと協調して実装される。 この研究は、ノイズの多い短期量子コンピュータ上の大規模物質をシミュレートするための柔軟なアプローチに光を当てる。

The idea of simulating quantum physics with controllable quantum devices had been proposed several decades ago. With the extensive development of quantum technology, large-scale simulation, such as the analog quantum simulation tailoring an artificial Hamiltonian mimicking the system of interest, has been implemented on elaborate quantum experimental platforms. However, due to the limitations caused by the significant noises and the connectivity, analog simulation is generically infeasible on near-term quantum computing platforms. Here we propose an alternative analog simulation approach on near-term quantum devices. Our approach circumvents the limitations by adaptively partitioning the bath into several groups based on the performance of the quantum devices. We apply our approach to simulate the free induction decay of the electron spin in a diamond NV$^-$ center coupled to a huge number of nuclei and investigate the nonclassicality induced by the nuclear spin polarization. The simulation is implemented collaboratively with authentic devices and quantum simulators on IBMQ. This work sheds light on a flexible approach to simulate large-scale materials on noisy near-term quantum computers.
翻訳日:2023-03-06 14:38:07 公開日:2023-03-03
# 古典と量子チャネルの複合的識別

Composite Classical and Quantum Channel Discrimination ( http://arxiv.org/abs/2303.02016v1 )

ライセンス: Link先を確認
Bjarne Bergh, Nilanjana Datta, Robert Salzmann(参考訳) 非対称状態における二元合成チャネルの識別の問題について検討し, 仮説は比較的任意のチャネル集合によって与えられるが, サンプルは同一に分布する必要はない。 量子チャネルの場合、 (i)並列チャネル識別戦略のためのstein指数の特徴と特徴 (ii)適応チャネル識別戦略のためのスタイン指数上の上限 さらに, 古典的チャネルでは, この上界が時折達成可能であり, 並列戦略で可能なものよりも厳密に大きいことを示す。 したがって、単純な仮説とは異なり、古典的なチャネルに対する合成仮説を用いた適応的なチャネル識別戦略の利点がある。 さらに、この利点は、仮説に対応するチャネルの集合が非凸である場合にのみ存在することを示す。 複合i.i.d.設定に限らず,より一般的な処理の結果,従来の複合状態識別結果の一般化も得られた。

We study the problem of binary composite channel discrimination in the asymmetric setting, where the hypotheses are given by fairly arbitrary sets of channels, and samples do not have to be identically distributed. In the case of quantum channels we prove: (i) a characterization of the Stein exponent for parallel channel discrimination strategies and (ii) an upper bound on the Stein exponent for adaptive channel discrimination strategies. We further show that already for classical channels this upper bound can sometimes be achieved and be strictly larger than what is possible with parallel strategies. Hence, there can be an advantage of adaptive channel discrimination strategies with composite hypotheses for classical channels, unlike in the case of simple hypotheses. Moreover, we show that classically this advantage can only exist if the sets of channels corresponding to the hypotheses are non-convex. As a consequence of our more general treatment, which is not limited to the composite i.i.d. setting, we also obtain a generalization of previous composite state discrimination results.
翻訳日:2023-03-06 14:31:33 公開日:2023-03-03
# データ共有における統計プライバシーの概要

Summary Statistic Privacy in Data Sharing ( http://arxiv.org/abs/2303.02014v1 )

ライセンス: Link先を確認
Zinan Lin, Shuaiqi Wang, Vyas Sekar, Giulia Fanti(参考訳) 異なる当事者間のデータ共有は、業界や学界でますます一般的になっている。 データ共有シナリオで発生するプライバシーに関する重要なクラスは、データの基盤となる分散に関するものだ。 例えば、ネットワーク企業からのデータのトラフィック総量は、そのビジネスの規模を明らかにする可能性がある。 残念ながら、既存のプライバシーフレームワーク(例えば、差分プライバシー、匿名化)はそのような懸念に適切に対処していない。 本稿では,これらの要約統計プライバシーを解析・保護するフレームワークであるサマリ統計プライバシーを提案する。 我々は,様々なデータ分布と統計機密に合わせた量子化機構のクラスを提案し,それらのプライバシゆがみトレードオフを分析した。 我々は、一定の条件下での量子化機構のトレードオフと一致する、プライバシーユーティリティトレードオフに対する対応する低い境界を、小さな定数要素まで証明する。 最後に,提案した量子化メカニズムが,現実のデータセット上の代替プライバシメカニズムよりも優れたプライバシー歪みトレードオフを実現することを示す。

Data sharing between different parties has become increasingly common across industry and academia. An important class of privacy concerns that arises in data sharing scenarios regards the underlying distribution of data. For example, the total traffic volume of data from a networking company can reveal the scale of its business, which may be considered a trade secret. Unfortunately, existing privacy frameworks (e.g., differential privacy, anonymization) do not adequately address such concerns. In this paper, we propose summary statistic privacy, a framework for analyzing and protecting these summary statistic privacy concerns. We propose a class of quantization mechanisms that can be tailored to various data distributions and statistical secrets, and analyze their privacy-distortion trade-offs under our framework. We prove corresponding lower bounds on the privacy-utility tradeoff, which match the tradeoffs of the quantization mechanism under certain regimes, up to small constant factors. Finally, we demonstrate that the proposed quantization mechanisms achieve better privacy-distortion tradeoffs than alternative privacy mechanisms on real-world datasets.
翻訳日:2023-03-06 14:31:18 公開日:2023-03-03
# 配電シフト時のモデル性能診断

Diagnosing Model Performance Under Distribution Shift ( http://arxiv.org/abs/2303.02011v1 )

ライセンス: Link先を確認
Tiffany (Tianhui) Cai, Hongseok Namkoong, Steve Yadlowsky(参考訳) 予測モデルは、トレーニングディストリビューションとは異なるターゲットディストリビューションにデプロイされた場合、パフォーマンスが良くない。 このような運用上の障害モードを理解するために,分散シフト分解 (disde) と呼ばれる手法を開発した。 我々の手法は性能低下を用語に分解する 1) 訓練の難易度が高まるが, 頻繁な実例の増加。 2)特徴と成果の関係の変化,及び 3) 訓練中の実例での成績不良や不注意。 これらの用語は、トレーニングとターゲットの間でy \mid x$の条件分布を変化させながら、y \mid x$の条件分布を固定し、y \mid x$の条件分布をx$で変更することで定義される。 これを実現するために、トレーニングとターゲットの両方で共通する値からなる$X$の仮説分布を定義し、$Y \mid X$と予測性能を比較するのが簡単である。 我々はこの仮説分布について再重み付け手法を用いて評価する。 実証的に、我々の方法がどのようにできるかを示す。 1)表型国勢調査データに基づく雇用予測のための配当シフトにおける潜在的なモデリング改善 2) 特定の領域適応手法が衛星画像分類のモデル性能を向上できない理由を説明する。

Prediction models can perform poorly when deployed to target distributions different from the training distribution. To understand these operational failure modes, we develop a method, called DIstribution Shift DEcomposition (DISDE), to attribute a drop in performance to different types of distribution shifts. Our approach decomposes the performance drop into terms for 1) an increase in harder but frequently seen examples from training, 2) changes in the relationship between features and outcomes, and 3) poor performance on examples infrequent or unseen during training. These terms are defined by fixing a distribution on $X$ while varying the conditional distribution of $Y \mid X$ between training and target, or by fixing the conditional distribution of $Y \mid X$ while varying the distribution on $X$. In order to do this, we define a hypothetical distribution on $X$ consisting of values common in both training and target, over which it is easy to compare $Y \mid X$ and thus predictive performance. We estimate performance on this hypothetical distribution via reweighting methods. Empirically, we show how our method can 1) inform potential modeling improvements across distribution shifts for employment prediction on tabular census data, and 2) help to explain why certain domain adaptation methods fail to improve model performance for satellite image classification.
翻訳日:2023-03-06 14:31:02 公開日:2023-03-03
# ハミルトン系におけるhayden-preskill recovery

Hayden-Preskill Recovery in Hamiltonian Systems ( http://arxiv.org/abs/2303.02010v1 )

ライセンス: Link先を確認
Yoshifumi Nakata and Masaki Tezuka(参考訳) 複雑な量子システムを理解するための鍵は、もともとはHayden-Preskillリカバリに関して提案されていた情報スクランブルである。 この現象はランダムなユニタリモデルではよく理解されているが、ハミルトン系ではほとんど扱われない。 本稿では,Sachdev-Ye-Kitaev(SYK)モデルやカオススピン鎖など,時間に依存しないハミルトン系の情報回復について検討する。 Hayden-Preskillリカバリは通常、ハミルトン系において満たされない仮定に依存しているにもかかわらず、情報リカバリは、あるが全てのカオスモデルでは可能であることを示す。 これは、新しい複雑な量子力学の出現の操作的プローブとしての情報回復を強調する。

The key to understanding complex quantum systems is information scrambling originally proposed in relation to the Hayden-Preskill recovery, which refers to localized information being spread over the whole system and being accessible from small subsystems. This phenomenon is well-understood in random unitary models but hardly addressed in Hamiltonian systems. In this Letter, we investigate the information recovery for various time-independent Hamiltonians, including Sachdev-Ye-Kitaev (SYK) models and chaotic spin chains. Despite the fact that the Hayden-Preskill recovery typically relies on the assumption never satisfied in Hamiltonian systems, we show that information recovery is possible in certain, but not all, chaotic models. This highlights the information recovery as an operational probe for the manifestation of novel complex quantum dynamics.
翻訳日:2023-03-06 14:30:43 公開日:2023-03-03
# 短期量子ハードウェアにおける正確な量子化学を実現するAb Initio Transcorrelated Method

Ab Initio Transcorrelated Method enabling accurate Quantum Chemistry on near-term Quantum Hardware ( http://arxiv.org/abs/2303.02007v1 )

ライセンス: Link先を確認
Werner Dobrautz, Igor O. Sokolov, Ke Liao, Pablo L\'opez R\'ios, Martin Rahm, Ali Alavi, Ivano Tavernelli(参考訳) 量子コンピューティングは新しい計算パラダイムとして登場し、量子化学を含むいくつかの研究分野を変革する可能性がある。 しかし、現在のハードウェア制限(コヒーレンス時間制限、ゲート不完全性、接続性制限を含む)は、ほとんどの量子アルゴリズムの直接的な実装を妨げ、よりノイズ耐性のソリューションを要求する。 量子化学において、利用可能な量子ビットとゲート演算の数に制限があるのは、分子軌道ごとに2つの量子ビットを必要とするためである。 本研究では, 波動関数から直接ハミルトニアンへの相関関係を近似することなく, トランスコリニアス(tc)法に基づく明示的に相関したアンサッツを提案し, ノイズの多い近距離量子デバイスで正確な結果を得るのに必要なリソースを削減した。 特に, 正確なトランスコリックス手法により, より浅い回路を実現できるだけでなく, いわゆる基底集合極限への収束性も向上し, より小さな基底集合を実験するための化学的精度内でのエネルギーを提供し, 従ってより少ない量子ビットを与える。 本研究では, 水素二量体と水素化リチウムの実験結果に近い結合長, 解離エネルギー, 振動周波数をそれぞれ4および6キュービットで計算し, 本手法を実証した。 従来の方法では同じ精度で少なくとも10倍の量子ビットを必要とする。

Quantum computing is emerging as a new computational paradigm with the potential to transform several research fields, including quantum chemistry. However, current hardware limitations (including limited coherence times, gate infidelities, and limited connectivity) hamper the straightforward implementation of most quantum algorithms and call for more noise-resilient solutions. In quantum chemistry, the limited number of available qubits and gate operations is particularly restrictive since, for each molecular orbital, one needs, in general, two qubits. In this study, we propose an explicitly correlated Ansatz based on the transcorrelated (TC) approach, which transfers -- without any approximation -- correlation from the wavefunction directly into the Hamiltonian, thus reducing the number of resources needed to achieve accurate results with noisy, near-term quantum devices. In particular, we show that the exact transcorrelated approach not only allows for more shallow circuits but also improves the convergence towards the so-called basis set limit, providing energies within chemical accuracy to experiment with smaller basis sets and, therefore, fewer qubits. We demonstrate our method by computing bond lengths, dissociation energies, and vibrational frequencies close to experimental results for the hydrogen dimer and lithium hydride using just 4 and 6 qubits, respectively. Conventional methods require at least ten times more qubits for the same accuracy.
翻訳日:2023-03-06 14:30:29 公開日:2023-03-03
# zero-shot オブジェクトのカウント

Zero-shot Object Counting ( http://arxiv.org/abs/2303.02001v1 )

ライセンス: Link先を確認
Jingyi Xu, Hieu Le, Vu Nguyen, Viresh Ranjan, and Dimitris Samaras(参考訳) クラスに依存しないオブジェクトカウントは、テスト時に任意のクラスのオブジェクトインスタンスをカウントすることを目的としている。 難しいが、多くの潜在的なアプリケーションを可能にする。 現在の方法は、新しいカテゴリー、特に自律システムでは利用できない入力として、人間に注釈を付けた例を必要とする。 そこで本研究では,テスト期間中にクラス名のみを設定できるゼロショットオブジェクトカウント(zsc)を提案する。 このようなカウントシステムは、ループ内の人間のアノテータを必要とせず、自動的に動作する。 クラス名から始めると、最適なパッチを正確に識別できる手法を提案し、それを例に数えることができる。 具体的には、最初にクラスプロトタイプを構築し、関心のあるオブジェクト、すなわちクラス関連パッチを含む可能性のあるパッチを選択する。 さらに,任意のパッチがカウント例としてどの程度適しているかを定量的に測定できるモデルを提案する。 このモデルをすべての候補パッチに適用することにより、カウントの例として最も適切なパッチを選択することができる。 最近のクラス非依存計数データセットであるfsc-147の実験結果は,本手法の有効性を検証する。 コードはhttps://github.com/cvlab-stonybrook/zero-shot-countingで入手できる。

Class-agnostic object counting aims to count object instances of an arbitrary class at test time. It is challenging but also enables many potential applications. Current methods require human-annotated exemplars as inputs which are often unavailable for novel categories, especially for autonomous systems. Thus, we propose zero-shot object counting (ZSC), a new setting where only the class name is available during test time. Such a counting system does not require human annotators in the loop and can operate automatically. Starting from a class name, we propose a method that can accurately identify the optimal patches which can then be used as counting exemplars. Specifically, we first construct a class prototype to select the patches that are likely to contain the objects of interest, namely class-relevant patches. Furthermore, we introduce a model that can quantitatively measure how suitable an arbitrary patch is as a counting exemplar. By applying this model to all the candidate patches, we can select the most suitable patches as exemplars for counting. Experimental results on a recent class-agnostic counting dataset, FSC-147, validate the effectiveness of our method. Code is available at https://github.com/cvlab-stonybrook/zero-shot-counting
翻訳日:2023-03-06 14:30:05 公開日:2023-03-03
# BSH-Det3D:BEV形状ヒートマップによる3次元物体検出の改善

BSH-Det3D: Improving 3D Object Detection with BEV Shape Heatmap ( http://arxiv.org/abs/2303.02000v1 )

ライセンス: Link先を確認
You Shen, Yunzhou Zhang, Yanmin Wu, Zhenyu Wang, Linghao Yang, Sonya Coleman, Dermot Kerr(参考訳) LiDARに基づく3Dオブジェクト検出の進歩は、自律走行とロボット工学の発展を著しく促進した。 しかし、LiDARセンサーの限界により、物体の形状は隠蔽領域や遠方領域の劣化に悩まされ、3D知覚にとって根本的な課題となる。 既存の方法は、特定の3次元形状を推定し、優れた性能を達成する。 しかし、これらの手法は広範な計算とメモリに依存しており、精度とリアルタイム性能の不均衡を引き起こす。 この課題に対処するために,鳥の視線(BEV)から完全な形状を推定することにより空間的特徴を効果的に向上する,新しいLiDARベースの3次元物体検出モデルBSH-Det3Dを提案する。 具体的には,Pillar-based Shape Completion (PSC) モジュールを設計し,柱が物体形状を含むかどうかの占有確率を予測する。 PSCモジュールは、シーン毎にBEV形状のヒートマップを生成する。 熱マップの統合により,BSH-Det3Dは形状劣化領域に付加的な情報を提供し,高品質な3D提案を生成する。 また,スパース特徴と熱マップと生点を適応的に関連付けるために,注意ベースデンシフィケーション融合モジュール (ADF) を設計する。 ADFモジュールはポイントの利点を統合し、無視できるオーバーヘッドで知識を形作る。 KITTIベンチマークの大規模な実験は、精度と速度の観点から最先端(SOTA)性能を実現し、BSH-Det3Dの効率と柔軟性を実証した。 ソースコードはhttps://github.com/mystorm16/BSH-Det3Dで入手できる。

The progress of LiDAR-based 3D object detection has significantly enhanced developments in autonomous driving and robotics. However, due to the limitations of LiDAR sensors, object shapes suffer from deterioration in occluded and distant areas, which creates a fundamental challenge to 3D perception. Existing methods estimate specific 3D shapes and achieve remarkable performance. However, these methods rely on extensive computation and memory, causing imbalances between accuracy and real-time performance. To tackle this challenge, we propose a novel LiDAR-based 3D object detection model named BSH-Det3D, which applies an effective way to enhance spatial features by estimating complete shapes from a bird's eye view (BEV). Specifically, we design the Pillar-based Shape Completion (PSC) module to predict the probability of occupancy whether a pillar contains object shapes. The PSC module generates a BEV shape heatmap for each scene. After integrating with heatmaps, BSH-Det3D can provide additional information in shape deterioration areas and generate high-quality 3D proposals. We also design an attention-based densification fusion module (ADF) to adaptively associate the sparse features with heatmaps and raw points. The ADF module integrates the advantages of points and shapes knowledge with negligible overheads. Extensive experiments on the KITTI benchmark achieve state-of-the-art (SOTA) performance in terms of accuracy and speed, demonstrating the efficiency and flexibility of BSH-Det3D. The source code is available on https://github.com/mystorm16/BSH-Det3D.
翻訳日:2023-03-06 14:29:48 公開日:2023-03-03
# 部品検索と組立による教師なし3次元形状復元

Unsupervised 3D Shape Reconstruction by Part Retrieval and Assembly ( http://arxiv.org/abs/2303.01999v1 )

ライセンス: Link先を確認
Xianghao Xu, Paul Guerrero, Matthew Fisher, Siddhartha Chaudhuri and Daniel Ritchie(参考訳) プリミティブのセットで3D形状を表現することは、構造の認識を助け、ロボットオブジェクト操作を改善し、3D形状の編集、スタイリゼーション、圧縮を可能にする。 既存の手法では単純なパラメトリックプリミティブを使うか、部品の生成形空間を学ぶ。 パラメトリックプリミティブは粗い近似につながり、学習された部分は分解に対する制御が少なすぎる。 代わりに,ユーザが提供する3Dパーツのライブラリを使って形状を分解し,部品の選択を完全に制御することを提案する。 このライブラリは、所定のカテゴリに適した高品質な幾何学を含むことができ、クリーンな幾何学による意味のある分解をもたらす。 分解のタイプは、ライブラリ内の部品の選択によって制御することもできる。 本手法は,図書館から部品を反復的に抽出し,配置を洗練する自己監督アプローチによって動作する。 本手法は,既存の手法よりも高い再構成精度とより望ましい分解をもたらすことを示す。 さらに,異なる部分ライブラリを用いて同じ形状を再構築することにより,分解をどのように制御できるかを示す。

Representing a 3D shape with a set of primitives can aid perception of structure, improve robotic object manipulation, and enable editing, stylization, and compression of 3D shapes. Existing methods either use simple parametric primitives or learn a generative shape space of parts. Both have limitations: parametric primitives lead to coarse approximations, while learned parts offer too little control over the decomposition. We instead propose to decompose shapes using a library of 3D parts provided by the user, giving full control over the choice of parts. The library can contain parts with high-quality geometry that are suitable for a given category, resulting in meaningful decompositions with clean geometry. The type of decomposition can also be controlled through the choice of parts in the library. Our method works via a self-supervised approach that iteratively retrieves parts from the library and refines their placements. We show that this approach gives higher reconstruction accuracy and more desirable decompositions than existing approaches. Additionally, we show how the decomposition can be controlled through the part library by using different part libraries to reconstruct the same shapes.
翻訳日:2023-03-06 14:29:20 公開日:2023-03-03
# mlteing model: 交渉、評価、文書化モデルとシステム品質

MLTEing Models: Negotiating, Evaluating, and Documenting Model and System Qualities ( http://arxiv.org/abs/2303.01998v1 )

ライセンス: Link先を確認
Katherine R. Maffey, Kyle Dotterrer, Jennifer Niemann, Iain Cruickshank, Grace A. Lewis, Christian K\"astner(参考訳) 多くの組織は、機械学習(ML)と人工知能(AI)システムが本番環境で動作することを保証することを目指しているが、現在、それを行うための密集した方法論を持っていない。 このギャップを埋めるために、MLモデルとシステムを評価するためのフレームワークと実装であるMLTE(Machine Learning Test and Evaluation、通称「メルト」)を提案する。 このフレームワークは最先端の評価技術を、モデル開発者、ソフトウェアエンジニア、システムオーナ、その他のステークホルダを含む学際的なチームのための組織プロセスにコンパイルする。 mlteツールは、モデル要件の表現に使用できるドメイン固有言語、ml評価メトリクスを定義し、生成し、収集するインフラストラクチャ、結果を伝える手段を提供することで、このプロセスをサポートします。

Many organizations seek to ensure that machine learning (ML) and artificial intelligence (AI) systems work as intended in production but currently do not have a cohesive methodology in place to do so. To fill this gap, we propose MLTE (Machine Learning Test and Evaluation, colloquially referred to as "melt"), a framework and implementation to evaluate ML models and systems. The framework compiles state-of-the-art evaluation techniques into an organizational process for interdisciplinary teams, including model developers, software engineers, system owners, and other stakeholders. MLTE tooling supports this process by providing a domain-specific language that teams can use to express model requirements, an infrastructure to define, generate, and collect ML evaluation metrics, and the means to communicate results.
翻訳日:2023-03-06 14:29:02 公開日:2023-03-03
# 手動ロボット制御における把持力の時空間モデリング

Spatiotemporal modeling of grip forces captures proficiency in manual robot control ( http://arxiv.org/abs/2303.01995v1 )

ライセンス: Link先を確認
Rongrong Liu, John M. Wandeto, Florent Nageotte, Philippe Zanne, Michel de Mathelin, Birgitta Dresp-Langley(参考訳) 本稿では,手作業ロボット制御における個々の把持力の変動を人工知能を用いて予測する。 把持力は, ウェアラブル無線センサ技術を用いて, 個人の支配的手と非支配的手において様々な軌跡から記録された。 統計的分析は、完全初心者の数千のグリップ力と、手動ロボット制御の非常に熟練した専門家の、フォアスキル特有の時間的変化をもたらす。 脳にインスパイアされたニューラルネットワークモデルは、教師なしの勝者による自己組織化マップの出力メトリックを使用して、各ユーザの両手から出力されたセンサー上ですべての学習を実行した。 The neural network metric expresses the difference between an input representation and its model representation at any given moment in time t and reliably captures the differences between novice and expert performance in terms of grip force variability.Functionally motivated spatiotemporal analysis of individual average grip forces, computed for time windows of constant size in the output of a restricted amount of task-relevant sensors in the dominant (preferred) hand, reveal finger-specific synergies reflecting robotic task skill. これらの分析は、リアルタイムで把持力モニタリングへ向けて、訓練生のタスクスキルの進化を追跡したり、高感覚不確実性環境における人間のロボットの相互作用における個々の習熟度を識別することにつながる。 特にNOTES (Natural Orifice Transluminal Endoscopic Surgery) やSILS (Single Incision Laparoscopic Surgery) のような単一ポートのアプローチでは、パシモニアス・人工知能(AI)の支援が新しいタイプの手術の結果に寄与する。

This paper builds on our previous work by exploiting Artificial Intelligence to predict individual grip force variability in manual robot control. Grip forces were recorded from various loci in the dominant and non dominant hands of individuals by means of wearable wireless sensor technology. Statistical analyses bring to the fore skill specific temporal variations in thousands of grip forces of a complete novice and a highly proficient expert in manual robot control. A brain inspired neural network model that uses the output metric of a Self Organizing Map with unsupervised winner take all learning was run on the sensor output from both hands of each user. The neural network metric expresses the difference between an input representation and its model representation at any given moment in time t and reliably captures the differences between novice and expert performance in terms of grip force variability.Functionally motivated spatiotemporal analysis of individual average grip forces, computed for time windows of constant size in the output of a restricted amount of task-relevant sensors in the dominant (preferred) hand, reveal finger-specific synergies reflecting robotic task skill. The analyses lead the way towards grip force monitoring in real time to permit tracking task skill evolution in trainees, or identify individual proficiency levels in human robot interaction in environmental contexts of high sensory uncertainty. Parsimonious Artificial Intelligence (AI) assistance will contribute to the outcome of new types of surgery, in particular single-port approaches such as NOTES (Natural Orifice Transluminal Endoscopic Surgery) and SILS (Single Incision Laparoscopic Surgery).
翻訳日:2023-03-06 14:28:48 公開日:2023-03-03
# ガウス混合における半教師付きマルチタスク学習の漸近ベイズリスク

Asymptotic Bayes risk of semi-supervised multitask learning on Gaussian mixture ( http://arxiv.org/abs/2303.02048v1 )

ライセンス: Link先を確認
Minh-Toan Nguyen, Romain Couillet(参考訳) 本稿ではガウス混合モデル(GMM)を用いた半教師付きマルチタスク学習について考察する。 統計物理学の手法を用いて,大規模データセットのシステムにおける各タスクの漸近ベイズリスクを高次元で計算し,学習におけるタスク類似性の役割を分析し,タスクが別々に学習された場合のパフォーマンス向上を評価する。 教師付きの場合、ベイズ最適性能を得るための単純なアルゴリズムを導出する。

The article considers semi-supervised multitask learning on a Gaussian mixture model (GMM). Using methods from statistical physics, we compute the asymptotic Bayes risk of each task in the regime of large datasets in high dimension, from which we analyze the role of task similarity in learning and evaluate the performance gain when tasks are learned together rather than separately. In the supervised case, we derive a simple algorithm that attains the Bayes optimal performance.
翻訳日:2023-03-06 14:22:22 公開日:2023-03-03
# ヒルベルト空間におけるPAC学習の複雑さについて

On the complexity of PAC learning in Hilbert spaces ( http://arxiv.org/abs/2303.02047v1 )

ライセンス: Link先を確認
Sergei Chubanov(参考訳) ヒルベルト空間における凸多面体学習の観点から二項分類の問題を考察し、二項分類の問題を減らすことができる。 有限次元空間における凸多面体学習の問題は文献で十分に研究されている。 我々は、この問題をヒルベルト空間のそれと一般化し、少なくとも 1 〜 \varepsilon$ の分布を正しく分類する多面体学習アルゴリズムを提案し、ここで $\varepsilon$ と $\delta$ が与えられた確率を 1 - \delta とする。 また、圏として、有限次元空間における多面的分類の以前の境界を改善する。

We study the problem of binary classification from the point of view of learning convex polyhedra in Hilbert spaces, to which one can reduce any binary classification problem. The problem of learning convex polyhedra in finite-dimensional spaces is sufficiently well studied in the literature. We generalize this problem to that in a Hilbert space and propose an algorithm for learning a polyhedron which correctly classifies at least $1- \varepsilon$ of the distribution, with a probability of at least $1 - \delta,$ where $\varepsilon$ and $\delta$ are given parameters. Also, as a corollary, we improve some previous bounds for polyhedral classification in finite-dimensional spaces.
翻訳日:2023-03-06 14:22:13 公開日:2023-03-03
# 漁業情報に基づく証拠深層学習による不確実性推定

Uncertainty Estimation by Fisher Information-based Evidential Deep Learning ( http://arxiv.org/abs/2303.02045v1 )

ライセンス: Link先を確認
Danruo Deng, Guangyong Chen, Yang Yu, Furui Liu, Pheng-Ann Heng(参考訳) 不確実性推定は、ディープラーニングを実用アプリケーションで信頼できるものにする重要な要素である。 近年提案された顕在ニューラルネットワークは,ディリクレ分布のパラメータ化の証拠としてネットワークの出力を扱い,不確実性推定において顕著な性能を発揮する。 しかし、高いデータ不確実性サンプルに対して、1ホットラベルに注釈を付けると、これらの誤記されたクラスに対するエビデンス学習プロセスは過度に罰せられ、いまだ妨げられている。 この問題に対処するために,新しい手法である「textit{Fisher Information-based Evidential Deep Learning}」(\mathcal{I}$-EDL)を提案する。 特に,fim(fisher information matrix)を導入することで,各サンプルが持つエビデンスの情報量を測定し,目的の損失項を動的に重み付けし,不確定クラスの表現学習にネットワークをより集中させることができる。 PAC-Bayesian境界を最適化することにより,ネットワークの一般化能力をさらに向上する。 実証実験により,提案手法は複数の不確実性推定タスク,特により難易度の高い数ショット分類設定において,従来のEDL関連アルゴリズムより一貫して優れていた。

Uncertainty estimation is a key factor that makes deep learning reliable in practical applications. Recently proposed evidential neural networks explicitly account for different uncertainties by treating the network's outputs as evidence to parameterize the Dirichlet distribution, and achieve impressive performance in uncertainty estimation. However, for high data uncertainty samples but annotated with the one-hot label, the evidence-learning process for those mislabeled classes is over-penalized and remains hindered. To address this problem, we propose a novel method, \textit{Fisher Information-based Evidential Deep Learning} ($\mathcal{I}$-EDL). In particular, we introduce Fisher Information Matrix (FIM) to measure the informativeness of evidence carried by each sample, according to which we can dynamically reweight the objective loss terms to make the network more focus on the representation learning of uncertain classes. The generalization ability of our network is further improved by optimizing the PAC-Bayesian bound. As demonstrated empirically, our proposed method consistently outperforms traditional EDL-related algorithms in multiple uncertainty estimation tasks, especially in the more challenging few-shot classification settings.
翻訳日:2023-03-06 14:22:01 公開日:2023-03-03
# お気に入りとフラグメント: TikTok上での時間の知覚

Likes and Fragments: Examining Perceptions of Time Spent on TikTok ( http://arxiv.org/abs/2303.02041v1 )

ライセンス: Link先を確認
Angelica Goetzen, Ruizhe Wang, Elissa M. Redmiles, Savvas Zannettou, Oshrat Ayalon(参考訳) 研究者は、人々がデジタルメディアに費やす時間について様々な目的で情報を使用し、身体と精神の健康への影響や注意と学習を理解する。 デジタルメディアに費やされた時間を測定するために、参加者の自己評価は、プラットフォームが人々の時間を直接測定するための外部アクセスを許可しない場合、共通の代替手段である。 しかし、先行研究は、従来のソーシャルメディアプラットフォームに費やされた自己申告時間の正確性や、ソーシャルメディアに費やした時間に対する人々の認識に根ざした認知的要因に関する疑問を提起する。 本研究は,新たなソーシャルプラットフォームであるTikTokを探索することによって,この文献の体系を構築する。 プラットフォームに依存しないTikTokの使用状況(n=255)の測定を行い、ユーザの人口統計やプラットフォームへのエンゲージメントが、プラットフォームに費やす時間や見積の正確性にどのように影響するかを理解する。 我々の研究は、異なるデジタルコンテキストにおける時間推定を理解し、将来のソーシャルメディアの時間推定研究に関係のある新たなエンゲージメント要因を特定するための作業の本体に追加する。

Researchers use information about the amount of time people spend on digital media for a variety of purposes including to understand impacts on physical and mental health as well as attention and learning. To measure time spent on digital media, participants' self-estimation is a common alternative method if the platform does not allow external access to directly measure people's time spent. However, prior work raises questions about the accuracy of self-reports of time spent on traditional social media platforms and questions about the cognitive factors underlying people's perceptions of the time they spend on social media. In this work, we build on this body of literature by exploring a novel social platform: TikTok. We conduct platform-independent measurements of people's self-reported and server-logged TikTok usage (n=255) to understand how users' demographics and platform engagement influence their perceptions of the time they spend on the platform and the accuracy of their estimates. Our work adds to the body of work seeking to understand time estimations in different digital contexts, and identifies new engagement factors that may be relevant in future social media time estimation studies.
翻訳日:2023-03-06 14:21:39 公開日:2023-03-03
# 線形CNNは最も支配的な周波数のみを用いてデータセットの統計的構造を明らかにする

Linear CNNs Discover the Statistical Structure of the Dataset Using Only the Most Dominant Frequencies ( http://arxiv.org/abs/2303.02034v1 )

ライセンス: Link先を確認
Hannah Pinson, Joeri Lenaerts, Vincent Ginis(参考訳) 一般畳み込みニューラルネットワーク(CNN)の内部動作に関する理論的理解は限られている。 本稿では,線形cnnにおける学習理論の形での理解に向けて,新たなステップストーンを提案する。 勾配降下方程式を解析することにより,畳み込みを用いることで,データセット構造とネットワーク構造とのミスマッチが生じることがわかった。 線形CNNは、非線形、段階的な遷移を伴うデータセットの統計構造を発見し、この構造ミスマッチによって発見の速度が変化することを示す。 さらに、このミスマッチは、データセットに存在する異なる構造部分の支配的周波数のみを使用して、線形cnnがこれらの発見に到達する「支配的周波数バイアス」の核心にあることを見出した。 本研究は,CNNの近距離学習や形状よりもテクスチャに依存する傾向など,一般的なCNNの特徴を説明するのに役立つ。

Our theoretical understanding of the inner workings of general convolutional neural networks (CNN) is limited. We here present a new stepping stone towards such understanding in the form of a theory of learning in linear CNNs. By analyzing the gradient descent equations, we discover that using convolutions leads to a mismatch between the dataset structure and the network structure. We show that linear CNNs discover the statistical structure of the dataset with non-linear, stage-like transitions, and that the speed of discovery changes depending on this structural mismatch. Moreover, we find that the mismatch lies at the heart of what we call the 'dominant frequency bias', where linear CNNs arrive at these discoveries using only the dominant frequencies of the different structural parts present in the dataset. Our findings can help explain several characteristics of general CNNs, such as their shortcut learning and their tendency to rely on texture instead of shape.
翻訳日:2023-03-06 14:21:18 公開日:2023-03-03
# 自己教師型学習による単一光子画像超解像

Single-photon Image Super-resolution via Self-supervised Learning ( http://arxiv.org/abs/2303.02033v1 )

ライセンス: Link先を確認
Yiwei Chen, Chen Jiang and Yu Pan(参考訳) SPISR(Single-Photon Image Super-Resolution)は,高分解能光子カウントキューブを高分解能の低分解能キューブから計算画像アルゴリズムにより回収することを目的とする。 実世界のシナリオでは、トレーニングサンプルのペアは、しばしば高価または入手不可能である。 EI(Equivariant Imaging)をボリューム単光子データに拡張することにより、SPISRタスクのための自己教師付き学習フレームワークを提案する。 特に poisson unbiased kullback-leibler risk estimator と equivariance を用いて, 基礎的真理を伴わずに, 騒音測定から学習することができる。 シミュレーションおよび実世界のデータセットに関する包括的実験により,提案手法が教師あり学習と同等の性能を達成し,補間に基づく手法を上回った。

Single-Photon Image Super-Resolution (SPISR) aims to recover a high-resolution volumetric photon counting cube from a noisy low-resolution one by computational imaging algorithms. In real-world scenarios, pairs of training samples are often expensive or impossible to obtain. By extending Equivariant Imaging (EI) to volumetric single-photon data, we propose a self-supervised learning framework for the SPISR task. Particularly, using the Poisson unbiased Kullback-Leibler risk estimator and equivariance, our method is able to learn from noisy measurements without ground truths. Comprehensive experiments on simulated and real-world dataset demonstrate that the proposed method achieves comparable performance with supervised learning and outperforms interpolation-based methods.
翻訳日:2023-03-06 14:21:04 公開日:2023-03-03
# 2段階フロー理論に基づく話題モデリング:bitcoinに関するツイートへの適用

Topic Modeling Based on Two-Step Flow Theory: Application to Tweets about Bitcoin ( http://arxiv.org/abs/2303.02032v1 )

ライセンス: Link先を確認
Aos Mulahuwaish, Matthew Loucks, Basheer Qolomany, and Ala Al-Fuqaha(参考訳) 近年、bitcoinのようなデジタル暗号通貨の人気と価値が爆発的に高まっている。 その新しさから、暗号通貨は揮発性と高い投機性の両方を持つ傾向がある。 これらのコインの有能な性質は、Twitterのようなソーシャルメディアによって促進されている。 しかし、全員の意見が等しく重要という訳ではなく、ほとんどの投稿がほとんど注目されない。 さらに、ほとんどのツイートは人気記事からリツイートされる。 どの意見が重要か、影響力のあるユーザーと非影響力のあるユーザーの違いを判断しなければならない。 この2つのグループを分離し、それらの違いを分析する。 ハイパーテキストによるトピック選択(HITS)アルゴリズムを使用して、影響に基づいてデータセットを分離する。 トピックモデリングは、各グループのスピーチタイプの違いと、どのグループがコミュニティ全体を代表するかを明らかにするために使われる。 私たちは、Bitcoinに関する2つのグループ間の言語と関心の違いと、Twitterの意見リーダーが大多数のユーザーと一致していないことを発見した。 2559人の世論リーダー(ユーザーの0.72%)が権限の80%を占め、大多数(99.28%)が残りの20%が355,139人のユーザーである。

Digital cryptocurrencies such as Bitcoin have exploded in recent years in both popularity and value. By their novelty, cryptocurrencies tend to be both volatile and highly speculative. The capricious nature of these coins is helped facilitated by social media networks such as Twitter. However, not everyone's opinion matters equally, with most posts garnering little to no attention. Additionally, the majority of tweets are retweeted from popular posts. We must determine whose opinion matters and the difference between influential and non-influential users. This study separates these two groups and analyzes the differences between them. It uses Hypertext-induced Topic Selection (HITS) algorithm, which segregates the dataset based on influence. Topic modeling is then employed to uncover differences in each group's speech types and what group may best represent the entire community. We found differences in language and interest between these two groups regarding Bitcoin and that the opinion leaders of Twitter are not aligned with the majority of users. There were 2559 opinion leaders (0.72% of users) who accounted for 80% of the authority and the majority (99.28%) users for the remaining 20% out of a total of 355,139 users.
翻訳日:2023-03-06 14:20:50 公開日:2023-03-03
# 量子決定理論の校正:大きな損失への回避と確率的選択の予測可能性

Calibration of Quantum Decision Theory: Aversion to Large Losses and Predictability of Probabilistic Choices ( http://arxiv.org/abs/2303.02028v1 )

ライセンス: Link先を確認
T. Kovalenko, S. Vincent, V.I. Yukalov, and D. Sornette(参考訳) 本稿では、量子決定理論(QDT)の最初のキャリブレーションを二元的リスク選択のデータセットに提示する。 モデル仮定や調整可能なパラメータを使わずに、最も単純な形式の確率的選択定式化を用いて、実験の2つの繰り返し間の選択反転率を定量的に説明する。 選択反転の予測は、2つのグループに分化することで意思決定者と意思決定者の間に異質性を導入することで洗練される(比率3:1)。 これはqdtの最初の基本的なテネットであり、選択を本質的に確率的プロセスとしてモデル化し、見込みの確率はその有用性と魅力の合計として表現できる。 本稿では,累積予測理論(logit-cpt)の確率的バージョンと,定数絶対リスク回避(cara)関数を持つアトラクション係数を用いて,有用因子をパラメータ化する。 このデータセットと、ネスト仮説のWilksテストによるより多くのQDTパラメータを解析すると、QDTモデルは、集約レベルと個別レベルの両方においてロジット-CPTよりもはるかに優れた性能を示し、最初の実験と予測(第2の‘out-of-sample’イテレーション)に適合すると考えられています。 このアトラクション因子が捉えた特異なQDT効果は、大きな損失を持つ確率に対して、ほとんど(最も関連性があり、振幅が強い)評価可能である。 実験結果の定量的解析は, 予測可能性の固有限界の存在を裏付けるものであり, 選択の固有確率的性質と関連している。 この論文の結果は、人間の意思決定者の選択の予測と、人工知能の運用の組織化の両方に応用できる。

We present the first calibration of quantum decision theory (QDT) to a dataset of binary risky choice. We quantitatively account for the fraction of choice reversals between two repetitions of the experiment, using a probabilistic choice formulation in the simplest form without model assumption or adjustable parameters. The prediction of choice reversal is then refined by introducing heterogeneity between decision makers through their differentiation into two groups: ``majoritarian'' and ``contrarian'' (in proportion 3:1). This supports the first fundamental tenet of QDT, which models choice as an inherent probabilistic process, where the probability of a prospect can be expressed as the sum of its utility and attraction factors. We propose to parameterise the utility factor with a stochastic version of cumulative prospect theory (logit-CPT), and the attraction factor with a constant absolute risk aversion (CARA) function. For this dataset, and penalising the larger number of QDT parameters via the Wilks test of nested hypotheses, the QDT model is found to perform significantly better than logit-CPT at both the aggregate and individual levels, and for all considered fit criteria for the first experiment iteration and for predictions (second ``out-of-sample'' iteration). The distinctive QDT effect captured by the attraction factor is mostly appreciable (i.e., most relevant and strongest in amplitude) for prospects with big losses. Our quantitative analysis of the experimental results supports the existence of an intrinsic limit of predictability, which is associated with the inherent probabilistic nature of choice. The results of the paper can find applications both in the prediction of choice of human decision makers as well as for organizing the operation of artificial intelligence.
翻訳日:2023-03-06 14:20:36 公開日:2023-03-03
# MAEVI:イベントベースのビデオフレーム補間を意識したモーションアウェア

MAEVI: Motion Aware Event-Based Video Frame Interpolation ( http://arxiv.org/abs/2303.02025v1 )

ライセンス: Link先を確認
Ahmet Akman, Onur Selim K{\i}l{\i}\c{c}, A. Ayd{\i}n Alatan(参考訳) イベントベースのカメラの利用は、ビデオフレーム補間ソリューションの視覚的品質を改善することが期待される。 本稿では,映像列内の移動領域境界を利用して全体の補間品質を向上させる学習ベースの手法を提案する。イベントカメラは移動領域を正確に決定できるため,適切な損失関数を用いてこれらの領域を強調することにより,より優れた映像フレーム補間品質を実現することができる。 結果は、テストデータセットに対して1.3ドルdBという、注目すべき平均的な \textit{PSNR} の改善と、ゴーストやぼやけたアーティファクトの少ない視覚的結果の主観的な改善を示している。

Utilization of event-based cameras is expected to improve the visual quality of video frame interpolation solutions. We introduce a learning-based method to exploit moving region boundaries in a video sequence to increase the overall interpolation quality.Event cameras allow us to determine moving areas precisely; and hence, better video frame interpolation quality can be achieved by emphasizing these regions using an appropriate loss function. The results show a notable average \textit{PSNR} improvement of $1.3$ dB for the tested data sets, as well as subjectively more pleasing visual results with less ghosting and blurry artifacts.
翻訳日:2023-03-06 14:19:41 公開日:2023-03-03
# アンサンブルに基づく読み出し関数を用いたグラフレベル表現

Graph-level representations using ensemble-based readout functions ( http://arxiv.org/abs/2303.02023v1 )

ライセンス: Link先を確認
Jakub Binkowski, Albert Sawczyn, Denis Janiak, Piotr Bielak, Tomasz Kajdanowicz(参考訳) グラフ機械学習モデルは、さまざまなアプリケーション領域にうまくデプロイされている。 グラフニューラルネットワーク(GNN)は、表現力のあるノードレベルの表現ベクトルを抽出するエレガントな方法を提供する。 しかし、多くのタスクは、例えば分子応用など、グラフ全体のレベルでの表現を必要とする。 ノードレベルの表現をグラフレベルベクトルに変換するには、いわゆる読み出し関数を適用する必要がある。 本研究では,単純な非学習型モデルや複雑なパラメトリモデルを含む既存の読み出し手法について検討する。 我々は,表現と予測を組み合わせたアンサンブルに基づく読み出し関数の概念を導入する。 実験の結果,このようなアンサンブルは,単純な単一読み出しや,複雑でパラメータ化されたものと同様のパフォーマンスを,モデルの複雑さのほんの一部で実現できることがわかった。

Graph machine learning models have been successfully deployed in a variety of application areas. One of the most prominent types of models - Graph Neural Networks (GNNs) - provides an elegant way of extracting expressive node-level representation vectors, which can be used to solve node-related problems, such as classifying users in a social network. However, many tasks require representations at the level of the whole graph, e.g., molecular applications. In order to convert node-level representations into a graph-level vector, a so-called readout function must be applied. In this work, we study existing readout methods, including simple non-trainable ones, as well as complex, parametrized models. We introduce a concept of ensemble-based readout functions that combine either representations or predictions. Our experiments show that such ensembles allow for better performance than simple single readouts or similar performance as the complex, parametrized ones, but at a fraction of the model complexity.
翻訳日:2023-03-06 14:19:21 公開日:2023-03-03
# QAnonの背後に誰がいるか? 教師付き機械学習による著者帰属

Who could be behind QAnon? Authorship attribution with supervised machine-learning ( http://arxiv.org/abs/2303.02078v1 )

ライセンス: Link先を確認
Florian Cafiero and Jean-Baptiste Camps(参考訳) Q」というニックネームで署名された一連のソーシャルメディア投稿は、最も急進的な支持者の何人かを暴力的かつ違法な行動に導いた「QAnon」と呼ばれる運動を開始した。 q の背後にいる人物を特定するために、q が書いたテキストの言語的性質と、ジャーナリストによる調査によって提供された容疑者のリストとの一致性を評価する。 これらの投稿の著者を特定するには、重大な課題に取り組む必要がある。 Qドロップ」は極めて短いテキストで、文学的なジャンルそのものを構成する形で書かれており、スタイルの非常に特異な特徴がある。 これらのテキストは異なる著者によって書かれており、他の著者は見つけにくいことが多い。 この運動のオンラインエスノロジーは、これら13の潜在的著者によって書かれた十分な資料を収集するために必要であり、教師付き機械学習を用いて、それぞれにスタイリスティックなプロファイルを構築する。 次に、これらの言語プロファイルがいわゆる「QDrops」と一部あるいは全体と一致するかどうかを確認するために、Qの文章の転がり解析を行った。 我々は、2人の異なる個人、Paul F. と Ron W. が Q の言語記号に最も近い一致であり、それらは Q のテキストを逐次書けると結論付けた。 これらの潜在的な著者は、アメリカ政権の高位の人格ではなく、むしろソーシャルメディア活動家である。

A series of social media posts signed under the pseudonym "Q", started a movement known as QAnon, which led some of its most radical supporters to violent and illegal actions. To identify the person(s) behind Q, we evaluate the coincidence between the linguistic properties of the texts written by Q and to those written by a list of suspects provided by journalistic investigation. To identify the authors of these posts, serious challenges have to be addressed. The "Q drops" are very short texts, written in a way that constitute a sort of literary genre in itself, with very peculiar features of style. These texts might have been written by different authors, whose other writings are often hard to find. After an online ethnology of the movement, necessary to collect enough material written by these thirteen potential authors, we use supervised machine learning to build stylistic profiles for each of them. We then performed a rolling analysis on Q's writings, to see if any of those linguistic profiles match the so-called 'QDrops' in part or entirety. We conclude that two different individuals, Paul F. and Ron W., are the closest match to Q's linguistic signature, and they could have successively written Q's texts. These potential authors are not high-ranked personality from the U.S. administration, but rather social media activists.
翻訳日:2023-03-06 14:13:26 公開日:2023-03-03
# 構造グラフを用いた状況グラフ作成のためのグラフベースグローバルロボットのローカライゼーション

Graph-based Global Robot Localization Informing Situational Graphs with Architectural Graphs ( http://arxiv.org/abs/2303.02076v1 )

ライセンス: Link先を確認
Muhammad Shaheer, Jose Andres Millan-Romera, Hriday Bavle, Jose Luis Sanchez-Lopez, Javier Civera, Holger Voos(参考訳) 本稿では,建築計画を用いた脚型ロボットのローカライズ手法を提案する。 この目標に対する具体的な貢献はいくつかあります。 まず,建築計画図を建築図 (a-graph) と呼ぶものに変換する手法を開発した。 ロボットが環境内で動き始めると、その環境について何も知らないと仮定し、その環境のオンライン状況グラフ表現(S-Graph)を推定する。 本研究では,ロボットセンサから推定したSグラフと建築計画から抽出したAグラフを関連付けるために,新しいグラフ間マッチング法を開発した。 ここでの課題は、sグラフが完全なaグラフの部分的なビューを示す可能性があるため、ノードは異種であり、参照フレームが異なることである。 マッチング後、両グラフは整列してマージされ、その結果、インフォームドシデンシャルグラフ (iS-Graph) と表現され、グローバルなロボットのローカライゼーションと、ビル計画からの事前知識の活用が達成される。 実験の結果,我々のパイプラインは複数のLiDAR局所化ベースラインよりもロバスト性が高く,ポーズ誤差も著しく低いことがわかった。

In this paper, we propose a solution for legged robot localization using architectural plans. Our specific contributions towards this goal are several. Firstly, we develop a method for converting the plan of a building into what we denote as an architectural graph (A-Graph). When the robot starts moving in an environment, we assume it has no knowledge about it, and it estimates an online situational graph representation (S-Graph) of its surroundings. We develop a novel graph-to-graph matching method, in order to relate the S-Graph estimated online from the robot sensors and the A-Graph extracted from the building plans. Note the challenge in this, as the S-Graph may show a partial view of the full A-Graph, their nodes are heterogeneous and their reference frames are different. After the matching, both graphs are aligned and merged, resulting in what we denote as an informed Situational Graph (iS-Graph), with which we achieve global robot localization and exploitation of prior knowledge from the building plans. Our experiments show that our pipeline shows a higher robustness and a significantly lower pose error than several LiDAR localization baselines.
翻訳日:2023-03-06 14:13:05 公開日:2023-03-03
# 世界的健康への適応的介入--マラリアの事例研究

Adaptive Interventions for Global Health: A Case Study of Malaria ( http://arxiv.org/abs/2303.02075v1 )

ライセンス: Link先を確認
\'Africa Peri\'a\~nez, Andrew Trister, Madhav Nekkar, Ana Fern\'andez del R\'io and Pedro L. Alonso(参考訳) マラリアは予防、診断、治療が可能であるが、毎年2億件以上の患者と20万件の死亡が報告されている。 マラリアは、特にサハラ以南のアフリカにおいて、低所得国や中所得国で公衆衛生上の懸念が高まっている。 モバイルヘルスアプリケーションを用いて、機械学習に基づく適応的介入は、マラリアの監視と治療の定着を強化し、検査を強化し、提供者スキルとケアの質を計測し、最前線の労働者や患者を支援することで公衆衛生を改善する(例えば、ベッドネットの使用のような能力構築と行動の変化を奨励することによって)。

Malaria can be prevented, diagnosed, and treated; however, every year, there are more than 200 million cases and 200.000 preventable deaths. Malaria remains a pressing public health concern in low- and middle-income countries, especially in sub-Saharan Africa. We describe how by means of mobile health applications, machine-learning-based adaptive interventions can strengthen malaria surveillance and treatment adherence, increase testing, measure provider skills and quality of care, improve public health by supporting front-line workers and patients (e.g., by capacity building and encouraging behavioral changes, like using bed nets), reduce test stockouts in pharmacies and clinics and informing public health for policy intervention.
翻訳日:2023-03-06 14:12:43 公開日:2023-03-03
# 学習者の指導方法: アクティブ・アダプティブ・エキスパートによる模倣学習

How To Guide Your Learner: Imitation Learning with Active Adaptive Expert Involvement ( http://arxiv.org/abs/2303.02073v1 )

ライセンス: Link先を確認
Xu-Hui Liu, Feng Xu, Xinyu Zhang, Tianyuan Liu, Shengyi Jiang, Ruifeng Chen, Zongzhang Zhang, Yang Yu(参考訳) 模倣学習は、明確な報酬信号なしで専門家の行動を模倣することを目的としている。 静的なエキスパートデータセットを使用する受動的模倣学習手法は、通常、複合化エラー、サンプル効率の低下、ハイパーパラメータ感度の上昇に苦しむ。 対照的に、アクティブな模倣学習手法は、制限に対処するために専門家の介入を要求する。 しかし、近年の能動模倣学習法は、理論的保証なしに人間の直感や経験に基づいて設計されている。 本稿では,教師と学生の交流モデルに基づく,教師の指導行動の最高の特定と,生徒の学習プロセスへの積極的な影響を目標とする,新しい実践的模倣学習フレームワークを提案する。 本フレームワークの最適化目的を解決し,adapmenと命名する実践的実装を提案する。 理論的解析により、アダプメンは誤差境界を改善し、穏やかな条件下での複合誤差を避けることができることが示された。 MetaDriveベンチマークとAtari 2600ゲームを用いた実験により,本手法は従来の手法に比べて,専門家の関与やサンプリング手順の総量が少なく,ほぼ専門的な性能を達成できた。 コードはhttps://github.com/liuxhym/AdapMen.comで入手できる。

Imitation learning aims to mimic the behavior of experts without explicit reward signals. Passive imitation learning methods which use static expert datasets typically suffer from compounding error, low sample efficiency, and high hyper-parameter sensitivity. In contrast, active imitation learning methods solicit expert interventions to address the limitations. However, recent active imitation learning methods are designed based on human intuitions or empirical experience without theoretical guarantee. In this paper, we propose a novel active imitation learning framework based on a teacher-student interaction model, in which the teacher's goal is to identify the best teaching behavior and actively affect the student's learning process. By solving the optimization objective of this framework, we propose a practical implementation, naming it AdapMen. Theoretical analysis shows that AdapMen can improve the error bound and avoid compounding error under mild conditions. Experiments on the MetaDrive benchmark and Atari 2600 games validate our theoretical analysis and show that our method achieves near-expert performance with much less expert involvement and total sampling steps than previous methods. The code is available at https://github.com/liuxhym/AdapMen.
翻訳日:2023-03-06 14:12:25 公開日:2023-03-03
# QAOA with $N\cdot p\geq 200$

QAOA with $N\cdot p\geq 200$ ( http://arxiv.org/abs/2303.02064v1 )

ライセンス: Link先を確認
Ruslan Shaydulin and Marco Pistoia(参考訳) ノイズの多い中間スケール量子(onisq)プログラムによるdarpa最適化の中心的な目標の1つは、高い$n\cdot p$を持つハイブリッド量子/古典的最適化アルゴリズムを実装することである。 本稿では,非平面3次元正則グラフの最大カット問題に適用する量子近似最適化アルゴリズム (qaoa) の実行を,量子化h1-1トラップイオン量子プロセッサ上で最大300ドルのn\cdot p$で実証する。 われわれの知る限りでは、これはこれまでのハードウェアで実証された最高額の$N\cdot p$だ。 量子ハードウェアの急速な進歩を実証する。

One of the central goals of the DARPA Optimization with Noisy Intermediate-Scale Quantum (ONISQ) program is to implement a hybrid quantum/classical optimization algorithm with high $N\cdot p$, where $N$ is the number of qubits and $p$ is the number of alternating applications of parameterized quantum operators in the protocol. In this note, we demonstrate the execution of the Quantum Approximate Optimization Algorithm (QAOA) applied to the MaxCut problem on non-planar 3-regular graphs with $N\cdot p$ of up to $300$ on the Quantinuum H1-1 trapped-ion quantum processor. To the best of our knowledge, this is the highest $N\cdot p$ demonstrated on hardware to date. Our demonstration highlights the rapid progress of quantum hardware.
翻訳日:2023-03-06 14:12:05 公開日:2023-03-03
# 交通状態推定のための物理インフォームド深層学習--調査と展望

Physics-Informed Deep Learning For Traffic State Estimation: A Survey and the Outlook ( http://arxiv.org/abs/2303.02063v1 )

ライセンス: Link先を確認
Xuan Di, Rongye Shi, Zhaobin Mo, Yongjie Fu(参考訳) その堅牢な予測能力(純粋な物理ベースのモデルに比較)とサンプル効率のよいトレーニング(純粋なディープラーニングモデルに比較)のために、物理ベースのモデルとディープニューラルネットワーク(dnn)をハイブリッド化するパラダイムである、 physics-informed deep learning(pidl)が科学と工学の分野で急成長している。 PIDLを様々な領域や問題に適用する上で重要な課題のひとつは、物理とDNNを統合する計算グラフの設計にある。 言い換えれば、物理がどのようにDNNにエンコードされ、物理とデータコンポーネントがどのように表現されるかである。 本稿では,pidl計算グラフの多種多様なアーキテクチャ設計と,輸送工学の中心的問題である交通状態推定(traffic state estimation, tse)へのカスタマイズについて述べる。 観測データ,問題タイプ,目標が変化すると,PIDL計算グラフの潜在的なアーキテクチャを実証し,これらを実世界のデータセットを用いて比較する。

For its robust predictive power (compared to pure physics-based models) and sample-efficient training (compared to pure deep learning models), physics-informed deep learning (PIDL), a paradigm hybridizing physics-based models and deep neural networks (DNN), has been booming in science and engineering fields. One key challenge of applying PIDL to various domains and problems lies in the design of a computational graph that integrates physics and DNNs. In other words, how physics are encoded into DNNs and how the physics and data components are represented. In this paper, we provide a variety of architecture designs of PIDL computational graphs and how these structures are customized to traffic state estimation (TSE), a central problem in transportation engineering. When observation data, problem type, and goal vary, we demonstrate potential architectures of PIDL computational graphs and compare these variants using the same real-world dataset.
翻訳日:2023-03-06 14:11:53 公開日:2023-03-03
# 意思決定のためのベルヌーイ線形力学系のスペクトル学習

Spectral learning of Bernoulli linear dynamical systems models for decision-making ( http://arxiv.org/abs/2303.02060v1 )

ライセンス: Link先を確認
Iris R. Stone, Yotam Sagiv, Il Memming Park, Jonathan W. Pillow(参考訳) ベルヌーイ観測による潜在線形力学系は、二分決定や二分スパイク列車のような離散確率過程のような様々な文脈で発生する二分時系列データに基づく時間的ダイナミクスを特定する強力なモデリングフレームワークを提供する。 本稿では,ベルヌーイ潜在線形力学系 (LDS) モデルの高速かつ効率的な適応のためのスペクトル学習法を開発した。 提案手法は,従来の部分空間同定手法を,第1および第2サンプルモーメントの変換を通じてベルヌーイ設定に拡張する。 この結果、局所光学の危険性と、期待最大化(em)アルゴリズムのような反復的フィッティング手順の長い計算時間を回避する堅牢で固定コストの推定器が得られる。 データの制限やデータの統計構造に関する仮定が満たされていない状況では、スペクトル推定がLaplace-EMフィッティングの優れた初期化を提供することを示す。 最後に,感性決定タスクを行うマウスのデータを解析することにより,実世界の環境に有意な利点をもたらすことを示す。

Latent linear dynamical systems with Bernoulli observations provide a powerful modeling framework for identifying the temporal dynamics underlying binary time series data, which arise in a variety of contexts such as binary decision-making and discrete stochastic processes such as binned neural spike trains. Here, we develop a spectral learning method for fast, efficient fitting of Bernoulli latent linear dynamical system (LDS) models. Our approach extends traditional subspace identification methods to the Bernoulli setting via a transformation of the first and second sample moments. This results in a robust, fixed-cost estimator that avoids the hazards of local optima and the long computation time of iterative fitting procedures like the expectation-maximization (EM) algorithm. In regimes where data is limited or assumptions about the statistical structure of the data are not met, we demonstrate that the spectral estimate provides a good initialization for Laplace-EM fitting. Finally, we show that the estimator provides substantial benefits to real world settings by analyzing data from mice performing a sensory decision-making task.
翻訳日:2023-03-06 14:11:34 公開日:2023-03-03
# ガウス帰属関数を用いた3次元物体定位

3D-Aware Object Localization using Gaussian Implicit Occupancy Function ( http://arxiv.org/abs/2303.02058v1 )

ライセンス: Link先を確認
Vincent Gaudilli\`ere, Leo Pauly, Arunkumar Rathinam, Albert Garcia Sanchez, Mohamed Adel Musallam, Djamila Aouada(参考訳) 多くのコンピュータビジョンアプリケーションにとって重要な画像中の対象オブジェクトを自動的にローカライズする。 近年、楕円表現はオブジェクトのローカライゼーションのための軸配置された境界ボックスの代替として認識されている。 本稿では,画像中の物体の3次元楕円体近似の投影である3次元認識楕円体ラベルについて考察する。 このような一般的な楕円形モデルは、粗い既知のターゲットを処理でき、3D対応楕円形検出は、従来の3Dに依存しない境界ボックスラベルよりも、オブジェクトに関する幾何学的な情報を運ぶ。 画像中の物体の占有率を符号化する暗黙のガウス分布のパラメータに幾何楕円パラメータを置き換え,楕円回帰を新たに見ることを提案する。 モデルは、連続的な統計損失関数を用いて、画像画素上でのこの二変量ガウス分布の値の回帰を訓練する。 分散パラメータを抽出するために、新しい非学習可能な微分可能層、E-DSNTを導入する。 また、ターゲットの粗い寸法と相対的なポーズラベルのみを用いて、一貫した3D対応ガウス占有パラメータを容易に生成する方法を述べる。 我々は,3次元認識ガウス空間ラベルを用いた既存の3つの衛星ポーズ推定データセットを拡張し,仮説を検証した。

To automatically localize a target object in an image is crucial for many computer vision applications. Recently ellipse representations have been identified as an alternative to axis-aligned bounding boxes for object localization. This paper considers 3D-aware ellipse labels, i.e., which are projections of a 3D ellipsoidal approximation of the object in the images for 2D target localization. Such generic ellipsoidal models allow for handling coarsely known targets, and 3D-aware ellipse detections carry more geometric information about the object than traditional 3D-agnostic bounding box labels. We propose to have a new look at ellipse regression and replace the geometric ellipse parameters with the parameters of an implicit Gaussian distribution encoding object occupancy in the image. The models are trained to regress the values of this bivariate Gaussian distribution over the image pixels using a continuous statistical loss function. We introduce a novel non-trainable differentiable layer, E-DSNT, to extract the distribution parameters. Also, we describe how to readily generate consistent 3D-aware Gaussian occupancy parameters using only coarse dimensions of the target and relative pose labels. We extend three existing spacecraft pose estimation datasets with 3D-aware Gaussian occupancy labels to validate our hypothesis.
翻訳日:2023-03-06 14:11:17 公開日:2023-03-03
# 知識蒸留による微小細胞像の教師なし深部デジタル染色

Unsupervised Deep Digital Staining For Microscopic Cell Images Via Knowledge Distillation ( http://arxiv.org/abs/2303.02057v1 )

ライセンス: Link先を確認
Ziwang Xu, Lanqing Guo, Shuyan Zhang, Alex C. Kot and Bihan Wen(参考訳) 染色は、高価で時間を要する、労働集約的で、細胞組織に不可逆的な変化をもたらす細胞イメージングや医学的診断に重要である。 近年のディープラーニングの進歩により、教師付きモデルトレーニングによるデジタル染色が可能になった。 しかし,大規模なステンレス・アンスタンスセルイメージペアを実際に入手することは困難であり,監督に完全に整合する必要がある。 本研究では,知識蒸留とgans(generative adversarial network)を用いた,細胞画像のデジタル染色のための教師なしディープラーニングフレームワークを提案する。 教師モデルは、主に明るい視野画像のカラー化のために訓練される。 その後、ハイブリッド非参照損失を有する知識蒸留により染色用学生GANを得る。 提案手法は,より正確な位置と細胞標的の形状を持つステンド画像を生成することができることを示す。 染色における他の教師なし深層生成モデルと比較して, 定性的かつ定量的に, より有望な結果が得られる。

Staining is critical to cell imaging and medical diagnosis, which is expensive, time-consuming, labor-intensive, and causes irreversible changes to cell tissues. Recent advances in deep learning enabled digital staining via supervised model training. However, it is difficult to obtain large-scale stained/unstained cell image pairs in practice, which need to be perfectly aligned with the supervision. In this work, we propose a novel unsupervised deep learning framework for the digital staining of cell images using knowledge distillation and generative adversarial networks (GANs). A teacher model is first trained mainly for the colorization of bright-field images. After that,a student GAN for staining is obtained by knowledge distillation with hybrid non-reference losses. We show that the proposed unsupervised deep staining method can generate stained images with more accurate positions and shapes of the cell targets. Compared with other unsupervised deep generative models for staining, our method achieves much more promising results both qualitatively and quantitatively.
翻訳日:2023-03-06 14:10:58 公開日:2023-03-03
# 量子応用のためのナノスケールにおけるクラマース希土類イオンの光コヒーレンス特性

Optical coherence properties of Kramers' rare-earth ions at the nanoscale for quantum applications ( http://arxiv.org/abs/2303.02054v1 )

ライセンス: Link先を確認
Mohammed K. Alqedra, Chetan Deshmukh, Shuping Liu, Diana Serrano, Sebastian P. Horvath, Safi Rafie-Zinedine, Abdullah Abdelatief, Lars Rippe, Stefan Kr\"oll, Bernardo Casabone, Alban Ferrier, Alexandre Tallaire, Philippe Goldner, Hugues de Riedmatten, and Andreas Walther(参考訳) 希土類(RE)イオンドープナノ材料は、様々な量子技術応用の候補として期待されている。 reイオンのうち、いわゆるクラマーズイオンは、低磁場下でghz帯のスピン遷移を持ち、高帯域幅のマルチモード量子ストレージ、高速量子ビット演算、超伝導回路との相互作用を可能にする。 また、赤外における関連する光学遷移を示す。 特に、Er$^{3+}$は通信帯域の光遷移を持ち、Nd$^{3+}$は890nmに近い高エミッションレート遷移を示す。 本稿では,これらの材料を量子技術で利用することに関連する分光特性を測定する。 不均質な線幅は er$^{3+}$ に対して 10.7 ghz であり、nd$^{3+}$ に対して 8.2 ghz であり、励起状態の寿命 t$_1$ は er$^{3+}$ に対して 13.68 ms であり、nd$^{3+}$ に対して 540$\mu$s である。 両試料の温度に対する均一線幅の依存性について検討し、最も狭い線幅は3Kで測定されたEr$^{3+$の379 kHz (T$_2$ = 839 ns)、1.6Kで測定されたNd$^{3+$の62 kHz (T$_2$ = 5.14 $\mu$s)である。 この結果を踏まえ,単一量子状態読み出しとフーリエ制限付き単一光子源の2つの応用について検討した。

Rare-earth (RE) ion doped nano-materials are promising candidates for a range of quantum technology applications. Among RE ions, the so-called Kramers' ions possess spin transitions in the GHz range at low magnetic fields, which allows for high-bandwidth multimode quantum storage, fast qubit operations as well as interfacing with superconducting circuits. They also present relevant optical transitions in the infrared. In particular, Er$^{3+}$ has an optical transition in the telecom band, while Nd$^{3+}$ presents a high-emission-rate transition close to 890 nm. In this paper, we measure spectroscopic properties that are of relevance to using these materials in quantum technology applications. We find the inhomogeneous linewidth to be 10.7 GHz for Er$^{3+}$ and 8.2 GHz for Nd$^{3+}$, and the excited state lifetime T$_1$ to be 13.68 ms for Er$^{3+}$ and 540 $\mu$s for Nd$^{3+}$. We study the dependence of homogeneous linewidth on temperature for both samples, with the narrowest linewidth being 379 kHz (T$_2$ = 839 ns) for Er$^{3+}$ measured at 3 K, and 62 kHz (T$_2$ = 5.14 $\mu$s) for Nd$^{3+}$ measured at 1.6 K. Further, we investigate time-dependent homogeneous linewidth broadening due to spectral diffusion and the dependence of homogeneous linewidth on magnetic field, in order to get additional clarity of mechanisms that can influence the coherence time. In light of our results, we discuss two applications: single qubit-state readout and a Fourier-limited single photon source.
翻訳日:2023-03-06 14:10:45 公開日:2023-03-03
# 日光自由空間量子鍵分布の理想的な波長

The ideal wavelength for daylight free-space quantum key distribution ( http://arxiv.org/abs/2303.02106v1 )

ライセンス: Link先を確認
Mostafa Abasifard, Chanaprom Cholsuk, Roberto G. Pousa, Anand Kumar, Ashkan Zand, Thomas Riel, Daniel K. L. Oi, Tobias Vogl(参考訳) 量子鍵分布(QKD)は近年,実証実験から市販システムまで成熟している。 主なボトルネックの1つは、指数的な信号減衰によるファイバーネットワークの通信距離の制限である。 大陸間距離の橋渡しには、大気上で量子信号を伝達する低軌道衛星を用いることができる。 しかし、これらの自由空間リンクは、日光が量子状態を測定するために使われる検出器を飽和させるため、夜間にしか動作できない。 連続的な可用性と高いデータレートを備えたグローバル量子インターネットにおけるQKDの適用には、日中操作が必要である。 本研究では,様々な量子光源に対する衛星対地量子チャネルをモデル化し,環境条件下で自由空間qkdの最適波長を同定する。 日中の量子通信はフラウンホーファー線または近赤外線スペクトル内で可能であり、太陽からの固有背景は両立できるほど低い。 最高機密鍵レートは、Ca IIフラウンホーファー線で達成可能である。 また, 六方晶窒化ホウ素の色中心をマイクロ共振器に結合した単一光子源を提案する。 我々の結果は屋上から屋根までのシナリオにも適用でき、そのため近未来の量子ネットワークに関係している。

Quantum key distribution (QKD) has matured in recent years from laboratory proof-of-principle demonstrations to commercially available systems. One of the major bottlenecks is the limited communication distance in fiber networks due to the exponential signal damping. To bridge intercontinental distances, low Earth orbit satellites transmitting the quantum signals over the atmosphere can be used. These free-space links, however, can only operate during the night, as the sunlight otherwise saturates the detectors used to measure the quantum states. For applying QKD in a global quantum internet with continuous availability and high data rates, operation during daylight is required. In this work, we model a satellite-to-ground quantum channel for different quantum light sources to identify the optimal wavelength for free-space QKD in ambient conditions. Daylight quantum communication is possible within the Fraunhofer lines or in the near-infrared spectrum, where the intrinsic background from the sun is comparably low. The highest secret key rate is achievable at the Ca II Fraunhofer line. We also propose a true single photon source based on a color center in hexagonal boron nitride coupled to a microresonator that can implement such a scheme. Our results can also be applied in roof-to-roof scenarios and are therefore relevant for near-future quantum networks.
翻訳日:2023-03-06 14:03:21 公開日:2023-03-03
# AI応用のための構成可能なカロリーメータシミュレーション

Configurable calorimeter simulation for AI applications ( http://arxiv.org/abs/2303.02101v1 )

ライセンス: Link先を確認
Francesco Armando Di Bello, Anton Charkin-Gorbulin, Kyle Cranmer, Etienne Dreyer, Sanmay Ganguly, Eilam Gross, Lukas Heinrich, Lorenzo Santi, Marumi Kado, Nilotpal Kakati, Patrick Rieck, Matteo Tusoni(参考訳) AI(COCOA)アプリケーションのための構成可能なカロリーメータシミュレーションを, \textsc{Geant4}ツールキットに基づいて提示し, \textsc{Pythia}イベントジェネレータとインターフェースする。 このオープンソースプロジェクトは、再構成、高速シミュレーション、低レベル解析などの現実的な粒子シャワー記述に依存する高エネルギー物理学における機械学習アルゴリズムの開発を支援することを目的としている。 概エルメティック幾何学の粒度や材料などの仕様はユーザ設定可能である。 このツールは、トポロジカルクラスタリング、jetアルゴリズム、最も近いneighborsグラフ構築を含む単純なイベント処理で補完される。 また、Phoenixイベント表示ソフトウェアを使用してイベントを視覚化する。

A configurable calorimeter simulation for AI (COCOA) applications is presented, based on the \textsc{Geant4} toolkit and interfaced with the \textsc{Pythia} event generator. This open-source project is aimed to support the development of machine learning algorithms in high energy physics that rely on realistic particle shower descriptions, such as reconstruction, fast simulation, and low-level analysis. Specifications such as the granularity and material of its nearly hermetic geometry are user-configurable. The tool is supplemented with simple event processing including topological clustering, jet algorithms, and a nearest-neighbors graph construction. Formatting is also provided to visualise events using the Phoenix event display software.
翻訳日:2023-03-06 14:03:03 公開日:2023-03-03
# コアセットを用いたcnnとトランスフォーマーのデータ効率トレーニング : 安定性の観点から

Data-Efficient Training of CNNs and Transformers with Coresets: A Stability Perspective ( http://arxiv.org/abs/2303.02095v1 )

ライセンス: Link先を確認
Animesh Gupta, Irtiza Hassan, Dilip K. Prasad, Deepak K. Gupta(参考訳) コアセットの選択は、cnnのトレーニング時間を短縮するための最も効果的な方法の1つだが、コアセットのサイズやデータセットやモデルの選択によって結果モデルがどのように振る舞うかは、限定的である。 さらに、最近のトランスフォーマティブベースのモデルへのパラダイムシフトを考えると、コアセットの選択がパフォーマンスにどのように影響するかはまだ疑問の余地がある。 コアセット選択法を広く受け入れるためには,同様の疑問がいくつかあるが,本論文ではそのいくつかに答えようとしている。 本稿では,cnnとトランスフォーマーの異なるコアセット選択法について,体系的なベンチマーク設定を行い,厳密な比較を行う。 本研究は, ある状況下では, SOTA選択法と比較して, サブセットのランダム選択がより堅牢で安定であることを明らかにする。 データの様々なクラスにまたがる一様部分集合サンプリングという従来の概念が適切な選択ではないことを実証する。 むしろ、各クラスのデータ分散の複雑さに基づいて、サンプルを適応的に選択する必要がある。 トランスフォーマーは一般的に大規模なデータセットで事前トレーニングされており、特定のターゲットデータセットに対して、非常に小さなコアセットサイズでパフォーマンスを安定させるのに役立ちます。 さらに、事前トレーニングが行われていない場合や、非自然な画像(医療データなど)で事前トレーニングされたトランスフォーマーモデルを使用する場合、CNNは、非常に小さなコアセットサイズでトランスフォーマーを一般化する傾向にあることを示す。 最後に、適切な事前学習がない場合、CNNは画像内の空間的に離れたオブジェクト間のセマンティックコヒーレンスを学習し、コアセットサイズのほとんどすべての選択においてトランスフォーマーよりも優れていることを示した。

Coreset selection is among the most effective ways to reduce the training time of CNNs, however, only limited is known on how the resultant models will behave under variations of the coreset size, and choice of datasets and models. Moreover, given the recent paradigm shift towards transformer-based models, it is still an open question how coreset selection would impact their performance. There are several similar intriguing questions that need to be answered for a wide acceptance of coreset selection methods, and this paper attempts to answer some of these. We present a systematic benchmarking setup and perform a rigorous comparison of different coreset selection methods on CNNs and transformers. Our investigation reveals that under certain circumstances, random selection of subsets is more robust and stable when compared with the SOTA selection methods. We demonstrate that the conventional concept of uniform subset sampling across the various classes of the data is not the appropriate choice. Rather samples should be adaptively chosen based on the complexity of the data distribution for each class. Transformers are generally pretrained on large datasets, and we show that for certain target datasets, it helps to keep their performance stable at even very small coreset sizes. We further show that when no pretraining is done or when the pretrained transformer models are used with non-natural images (e.g. medical data), CNNs tend to generalize better than transformers at even very small coreset sizes. Lastly, we demonstrate that in the absence of the right pretraining, CNNs are better at learning the semantic coherence between spatially distant objects within an image, and these tend to outperform transformers at almost all choices of the coreset size.
翻訳日:2023-03-06 14:02:51 公開日:2023-03-03
# 病理とシーケンス条件付き安定拡散を用いたbi-parametric prostate mr画像合成

Bi-parametric prostate MR image synthesis using pathology and sequence-conditioned stable diffusion ( http://arxiv.org/abs/2303.02094v1 )

ライセンス: Link先を確認
Shaheer U. Saeed, Tom Syer, Wen Yan, Qianye Yang, Mark Emberton, Shonit Punwani, Matthew J. Clarkson, Dean C. Barratt, Yipeng Hu(参考訳) 本稿では,T2重み付きMR画像から拡散重み付きMR画像を生成するために,テキスト上で条件付けされた多列前立腺MR画像の合成機構を提案し,病変の有無とシーケンスを制御し,画像に条件付けされたペアのバイパラメトリック画像を生成する。 提案手法は,ペアデータ生成のためのイメージベースコンディショニングを提案することで,最近の安定拡散モデルを利用して構築する。 前立腺癌疑診患者の2次元画像スライスを用いて本法の有効性を検証した。 合成画像のリアリズムは、実像と偽像を識別するためのブラインド専門家による評価によって検証され、4年間の尿路MRの読影経験を持つ放射線学者は、全検査シーケンス(50%の確率)で59.4%の精度しか達成できない。 そこで, 臨床医は実画像と合成画像の両方に対して同じように行うことができ, 実画像と合成画像の病変識別精度に2.9パーセントの点差があり, 放射線学的訓練目的の可能性が示された。 さらに, 実画像のみによる訓練ではなく, 合成データによって拡張された実データを用いて訓練した場合, 病変同定を訓練した機械学習モデルの方が優れた性能(76.2%対70.4%, 統計的に有意な改善)を示した。

We propose an image synthesis mechanism for multi-sequence prostate MR images conditioned on text, to control lesion presence and sequence, as well as to generate paired bi-parametric images conditioned on images e.g. for generating diffusion-weighted MR from T2-weighted MR for paired data, which are two challenging tasks in pathological image synthesis. Our proposed mechanism utilises and builds upon the recent stable diffusion model by proposing image-based conditioning for paired data generation. We validate our method using 2D image slices from real suspected prostate cancer patients. The realism of the synthesised images is validated by means of a blind expert evaluation for identifying real versus fake images, where a radiologist with 4 years experience reading urological MR only achieves 59.4% accuracy across all tested sequences (where chance is 50%). For the first time, we evaluate the realism of the generated pathology by blind expert identification of the presence of suspected lesions, where we find that the clinician performs similarly for both real and synthesised images, with a 2.9 percentage point difference in lesion identification accuracy between real and synthesised images, demonstrating the potentials in radiological training purposes. Furthermore, we also show that a machine learning model, trained for lesion identification, shows better performance (76.2% vs 70.4%, statistically significant improvement) when trained with real data augmented by synthesised data as opposed to training with only real images, demonstrating usefulness for model training.
翻訳日:2023-03-06 14:02:23 公開日:2023-03-03
# 適応型表面微細化によるnerfからの繊細なテクスチャメッシュの回収

Delicate Textured Mesh Recovery from NeRF via Adaptive Surface Refinement ( http://arxiv.org/abs/2303.02091v1 )

ライセンス: Link先を確認
Jiaxiang Tang, Hang Zhou, Xiaokang Chen, Tianshu Hu, Errui Ding, Jingdong Wang, Gang Zeng(参考訳) ニューラル・ラジアンス・フィールド(NeRF)は画像に基づく3D再構成において画期的なブレークスルーとなっている。 しかし、その暗黙的なボリューム表現は広く採用されている多角形メッシュとは大きく異なり、一般的な3dソフトウェアやハードウェアのサポートが欠如しており、レンダリングや操作が非効率になっている。 この制限を克服するために、画像からテクスチャ化された表面メッシュを生成する新しいフレームワークを提案する。 我々のアプローチは、NeRFを用いて幾何学とビュー依存分解外観を効率的に初期化することから始まる。 その後、粗いメッシュを抽出し、再投影されたレンダリングエラーに基づいて頂点位置と顔密度を適応的に調整する反復曲面精錬アルゴリズムを開発する。 ジオメトリと共同で外観を洗練し、テクスチャ画像に変換してリアルタイムレンダリングします。 広範な実験により,この手法が優れたメッシュ品質と競合的なレンダリング品質を実現することを実証した。

Neural Radiance Fields (NeRF) have constituted a remarkable breakthrough in image-based 3D reconstruction. However, their implicit volumetric representations differ significantly from the widely-adopted polygonal meshes and lack support from common 3D software and hardware, making their rendering and manipulation inefficient. To overcome this limitation, we present a novel framework that generates textured surface meshes from images. Our approach begins by efficiently initializing the geometry and view-dependency decomposed appearance with a NeRF. Subsequently, a coarse mesh is extracted, and an iterative surface refining algorithm is developed to adaptively adjust both vertex positions and face density based on re-projected rendering errors. We jointly refine the appearance with geometry and bake it into texture images for real-time rendering. Extensive experiments demonstrate that our method achieves superior mesh quality and competitive rendering quality.
翻訳日:2023-03-06 14:01:54 公開日:2023-03-03
# 数量子配列における長持続的反相関

Long persistent anticorrelations in few-qubit arrays ( http://arxiv.org/abs/2303.02085v1 )

ライセンス: Link先を確認
Danil Kornovan, Alexander Poddubny, and Alexander Poshakinsky(参考訳) 一般電磁環境における2レベル原子配列に散在する光子間のアンチバンチングを実現する機構を理論的に検討する。 私たちの目標は、個々の原子の自発的放出寿命よりもはるかに長い時間持続するアンチバンチングです。 このような持続的なアンチバンチングのメカニズムを2つ挙げる。 1つは原子配列のサブラジアント状態に基づいており、もう1つはサブラジアント状態を必要としない。 我々は,自由空間の配列と導波路に結合した配列に基づいて,最適化されたアンチバンチを持つ配列パラメータの具体例を2つ提案した。

We consider theoretically the mechanisms to realize antibunching between the photons scattered on the array of two-level atoms in a general electromagnetic environment. Our goal is the antibunching that persists for the times much longer than the spontaneous emission lifetime of an individual atom. We identify two mechanisms for such persistent antibunching. The first one is based on subradiant states of the atomic array, and the second one does not require any subradiant states. We provided two specific examples of array parameters with optimized antibunching, based on an array in a free space and an array coupled to a waveguide.
翻訳日:2023-03-06 14:01:40 公開日:2023-03-03
# 単一スピン-7/2quditにおけるフォールトトレラント量子ビット符号化

Fault-tolerant qubit encoding in single spin-7/2 qudit ( http://arxiv.org/abs/2303.02084v1 )

ライセンス: Link先を確認
Sumin Lim, Junjie Liu, and Arzhang Ardavan(参考訳) 誤り訂正プロトコルの実装は、実用的な量子情報技術の発展における中心的な課題である。 近年、ハーモニック振動子やクォーディットのような多層量子資源は、空間的にコンパクトな方法でヒルベルト空間次元を追加する可能性を提供するため、この文脈に関心を寄せている。 ここでは、論理量子ビットエンコーディングを単一の物理スピン-7/2 qudit上で特定し、等価に有効な量子ビットベースのプロトコルよりもはるかに少ない量子リソースを使用して、x$, $y$, $z$の1次誤り訂正を提供する。 我々のエンコーディングは分子電子-原子核量子スピン系に効率的に実装することができる。

The implementation of error correction protocols is a central challenge in the development of practical quantum information technologies. Recently, multi-level quantum resources such as harmonic oscillators and qudits have attracted interest in this context because they offer the possibility of additional Hilbert space dimensions in a spatially compact way. Here we identify a logical qubit encoding on a single physical spin-7/2 qudit which provides first order $X$, $Y$ and $Z$ error correction, using significantly fewer quantum resources than the equivalently effective qubit-based protocols. Our encoding may be efficiently implemented in molecular electron-nuclear quantum spin systems.
翻訳日:2023-03-06 14:01:30 公開日:2023-03-03
# H$_2$, N$_2$, CH$_4$における陽電子散乱と消滅の多体理論計算

Many-Body Theory Calculations of Positron Scattering and Annihilation in H$_2$, N$_2$ and CH$_4$ ( http://arxiv.org/abs/2303.02083v1 )

ライセンス: Link先を確認
C. M. Rawlins, J. Hofierka, B. Cunningham, C. H. Patterson and D. G. Green(参考訳) 最近開発された陽電子分子結合理論(J. Hofierka et al., Nature, 606, 688 (2022))とシフトした擬状態法(A. R. Swann and G. F. Gribakin, Phys. A 101, 022702 (2020))とを組み合わさって、陽電子散乱と小分子の消滅率(H$_2$, N$_2$, CH$_4$)を計算する。 陽電子-分子相関の重要な効果は線引きされる。 この手法は、最も単純な(H$_2$のみの計算が実験と一致している)目標から、高品質な計算が得られていない大きな目標まで、全ての目標に対する消滅率に対して一様に良い結果を与える。

The recently developed ab initio many-body theory of positron molecule binding [J. Hofierka et al., Nature, 606, 688 (2022)] is combined with the shifted pseudostates method [A. R. Swann and G. F. Gribakin, Phys. Rev. A 101, 022702 (2020)] to calculate positron scattering and annihilation rates on small molecules, namely H$_2$, N$_2$ and CH$_4$. The important effects of positron-molecule correlations are delineated. The method provides uniformly good results for annihilation rates on all the targets, from the simplest (H$_2$, for which only a sole previous calculation agrees with experiment), to larger targets, where high-quality calculations have not been available.
翻訳日:2023-03-06 14:01:19 公開日:2023-03-03
# 不釣り合いなモザイク

Unproportional mosaicing ( http://arxiv.org/abs/2303.02081v1 )

ライセンス: Link先を確認
Vojtech Molek, Petr Hurtik, Pavel Vlasanek, David Adamczyk(参考訳) データシフトは、トレーニングに使用されるデータ分散と、現実世界で遭遇するデータ分散のギャップである。 データ拡張は、新しいデータサンプルの生成、データの多様性の向上、データ空間のカバレッジ向上によってギャップを狭めるのに役立つ。 新たなデータ拡張としてunproportional mosaicing (unprop)を提案する。 我々の拡張は、画像をランダムに様々なサイズのブロックに分割し、ブロックサイズを維持しながらコンテンツ(ピクセル)を交換する。 提案手法は,他の技術拡張と組み合わせた場合の誤差率を低くする。

Data shift is a gap between data distribution used for training and data distribution encountered in the real-world. Data augmentations help narrow the gap by generating new data samples, increasing data variability, and data space coverage. We present a new data augmentation: Unproportional mosaicing (Unprop). Our augmentation randomly splits an image into various-sized blocks and swaps its content (pixels) while maintaining block sizes. Our method achieves a lower error rate when combined with other state-of-the-art augmentations.
翻訳日:2023-03-06 14:00:56 公開日:2023-03-03
# 嘘の絡み合いって どれだけ難しいの? 非局所性の複雑性理論的考察と量子計算のデリゲートへの応用

How hard is it to fake entanglement? A complexity theoretic view of nonlocality and its applications to delegating quantum computation ( http://arxiv.org/abs/2303.02080v1 )

ライセンス: Link先を確認
Khashayar Barooti, Grzegorz G{\l}uch, Marc-Olivier Renou(参考訳) すべての絡み合った状態とすべての分離可能な状態とを運用的に区別することは可能か? これは量子情報における長年の疑問である。 より具体的には、2つの非コミュニケーション当事者が古典的に検証者と相互作用することを仮定すると、検証者は以下の2つのケースを区別できる。 (i)当事者は、絡み合った国にアクセスすることができる。 (ii) 分離可能な状態のみにアクセスする(ローカルな隠れ変数モデル)。 本研究では、状態非局所性の計算バージョンを定義し、すべての絡み合った状態がそのような非局所性を示すならば、$\mathtt{BQP} \neq \mathtt{PP}$であることを示す。 驚くべきことに、この結果が量子計算(dqc)の1ラウンドのデリゲーションが存在する場合、$\mathtt{bqp} \neq \mathtt{pp}$ であることを示す。 このことは、そのようなDQCの存在に必要な複雑性理論的な仮定を与える。 我々の証明手法は、局所隠れ変数モデルの複雑さに対して上界を証明し、DQCのより強い下界を与えるフレームワークを本質的に構築する。

Is it possible to operationally distinguish every entangled state from all separable states? This is a long-standing open question in quantum information. More concretely, assuming that two non-communicating parties interact classically with a verifier, can the verifier distinguish the following two cases: (i) the parties have access to an entangled state, (ii) they have access to a separable state only (a local hidden variable model). In this work, we define a computational version of state non-locality, and show that if every entangled state exhibits such non-locality then $\mathtt{BQP} \neq \mathtt{PP}$. Surprisingly, we demonstrate how this result implies that if a one-round delegation of quantum computation (DQC) exists then $\mathtt{BQP} \neq \mathtt{PP}$. This gives a necessary complexity-theoretic assumption needed for the existence of such DQC. Our proof technique essentially builds a framework that allows one to give stronger lower-bounds for DQC by proving upper-bounds for the complexity of local-hidden-variable models.
翻訳日:2023-03-06 14:00:49 公開日:2023-03-03
# 大N理論の絡み合いエントロピー

Entanglement Entropy of Large-N Theories ( http://arxiv.org/abs/2303.02130v1 )

ライセンス: Link先を確認
Siqi Shao and Yashar Komijani(参考訳) 強い相関の強い量子系の大規模なクラスは、2点関数を決定する自己整合方程式とともに場の2次作用によってある大N極限で記述することができる。 レプリカ手法とシフトした松原周波数の概念を用いてフォン・ノイマンとR'enyiエンタングルメントエントロピーを計算し、そのような系を一般化する。 驚くべきことに、フォン・ノイマンエントロピーは平衡スペクトル関数 w/o 分割から計算できるが、r\'enyiエントロピーは相互作用の場合のスペクトルを再計算する必要がある。 本手法の柔軟性をデコヒーレンスの存在下での2点問題の例と様々な結合sachdev-ye-kitaevモデルに適用して実証する。

A large class of strongly correlated quantum systems can be described in certain large-N limits by quadratic in field actions along with self-consistency equations that determine the two-point functions. We use the replica approach and the notion of shifted Matsubara frequency to compute von Neumann and R\'enyi entanglement entropies for generic bi-partitioning of such systems. Remarkably, the von Neumann entropy can be computed from equilibrium spectral functions w/o partitioning, while the R\'enyi entropy requires re-calculating the spectrum in the interacting case. We demonstrate the flexibility of the method by applying it to examples of a two-site problem in presence of decoherence, and various coupled Sachdev-Ye-Kitaev models.
翻訳日:2023-03-06 13:54:34 公開日:2023-03-03
# TRUSformer:注意と自己監督による微小超音波前立腺癌検出の改善

TRUSformer: Improving Prostate Cancer Detection from Micro-Ultrasound Using Attention and Self-Supervision ( http://arxiv.org/abs/2303.02128v1 )

ライセンス: Link先を確認
Mahdi Gilany, Paul Wilson, Andrea Perera-Ortega, Amoon Jamzad, Minh Nguyen Nhat To, Fahimeh Fooladgar, Brian Wodlinger, Purang Abolmaesumi, Parvin Mousavi(参考訳) 超音波による前立腺がん検出のための従来の機械学習手法の大部分が、前立腺組織生検(生検コア)に対応する大きな針の跡にある超音波信号の小さな領域(ROI)を分類している。 これらのROIスケールモデルは、生検コアの病理組織学的結果がROI内の癌分布を近似しているため、弱いラベル付けに苦しむ。 ROIスケールモデルは、病理学者によって通常考慮される文脈情報、つまり、周囲の組織に関する情報やがんを識別する際の大規模な傾向を考慮しない。 我々は,roi-scale と biopsy core-scale のアプローチを用いて,がん検出を改善することを目指している。 方法:我々のマルチスケールアプローチは (i)小規模roisの特徴抽出のための自己教師付き学習を用いた「roiスケール」モデル (II)針トレース領域の複数のROIから抽出された特徴の集合を処理し、対応するコアの組織型を予測する「コアスケール」トランスフォーマーモデル。 注意マップは副産物として、ROIスケールでがんを局在させることができる。 本手法は,前立腺生検を施行した578例のマイクロ超音波のデータセットを用いて解析し,本モデルとベースラインモデルおよび他の文献における大規模研究との比較を行った。 結果と結論: このモデルはroiスケールのみのモデルと比較して一貫性があり、実質的な性能改善を示す。 80.3%のAUROCを達成しており、ROIスケールの分類よりも統計的に顕著な改善である。 また,他の画像モダリティを用いた前立腺癌検出法との比較を行った。 私たちのコードはwww.github.com/med-i-lab/TRUSFormerで公開されています

A large body of previous machine learning methods for ultrasound-based prostate cancer detection classify small regions of interest (ROIs) of ultrasound signals that lie within a larger needle trace corresponding to a prostate tissue biopsy (called biopsy core). These ROI-scale models suffer from weak labeling as histopathology results available for biopsy cores only approximate the distribution of cancer in the ROIs. ROI-scale models do not take advantage of contextual information that are normally considered by pathologists, i.e. they do not consider information about surrounding tissue and larger-scale trends when identifying cancer. We aim to improve cancer detection by taking a multi-scale, i.e. ROI-scale and biopsy core-scale, approach. Methods: Our multi-scale approach combines (i) an "ROI-scale" model trained using self-supervised learning to extract features from small ROIs and (ii) a "core-scale" transformer model that processes a collection of extracted features from multiple ROIs in the needle trace region to predict the tissue type of the corresponding core. Attention maps, as a byproduct, allow us to localize cancer at the ROI scale. We analyze this method using a dataset of micro-ultrasound acquired from 578 patients who underwent prostate biopsy, and compare our model to baseline models and other large-scale studies in the literature. Results and Conclusions: Our model shows consistent and substantial performance improvements compared to ROI-scale-only models. It achieves 80.3% AUROC, a statistically significant improvement over ROI-scale classification. We also compare our method to large studies on prostate cancer detection, using other imaging modalities. Our code is publicly available at www.github.com/med-i-lab/TRUSFormer
翻訳日:2023-03-06 13:54:19 公開日:2023-03-03
# 重ね合わせ測定によるベル不等式

Bell inequalities with overlapping measurements ( http://arxiv.org/abs/2303.02127v1 )

ライセンス: Link先を確認
Mois\'es Bermejo Mor\'an, Alejandro Pozas-Kerstjens and Felix Huber(参考訳) パーティが複数のサブシステムにアクセスできる場合、どの非局所的相関が得られるか? ここでは、異なるパーティの測定が重複しうるベルの不等式について検討し、マルチパーティイトシステムにおける相関に関する新たな見解を提供する。 考慮されたシナリオはヒルベルト空間次元、重なり合い、対称性に関して興味深い振る舞いを示す。

Which nonlocal correlations can be obtained, when a party has access to more than one subsystem? Here we study Bell inequalities where measurements of different parties can have overlap, providing a new view on correlations in multipartite systems. The scenarios considered show an interesting behaviour with respect to Hilbert space dimension, overlap, and symmetry.
翻訳日:2023-03-06 13:53:50 公開日:2023-03-03
# Imaginary Timeによるスペクトルギャップ

Spectral Gaps via Imaginary Time ( http://arxiv.org/abs/2303.02124v1 )

ライセンス: Link先を確認
Jacob M. Leamer, Alicia B. Magann, Andrew D. Baczewski, Gerard McCaul, Denys I. Bondar(参考訳) スペクトルギャップは物理学における多くのオープンな問題において中心的な重要性を担っている。 本研究では,2つの期待値の単純な比率からハミルトニアンのスペクトルギャップを評価する手法を提案する。 原則として、初期状態が基底状態と第一励起状態の両方でサポートされていることが唯一の要件である。 数値シミュレーションによるFermi-HubbardおよびTransverse Field Isingモデルに対するこのアプローチを実証する。

The spectral gap occupies a role of central importance in many open problems in physics. We present an approach for evaluating the spectral gap of a Hamiltonian from a simple ratio of two expectation values, both of which are evaluated using a quantum state that is evolved in imaginary time. In principle, the only requirement is that the initial state is supported on both the ground and first excited states. We demonstrate this approach for the Fermi-Hubbard and transverse field Ising models through numerical simulation.
翻訳日:2023-03-06 13:53:44 公開日:2023-03-03
# 幾何学的深層学習による骨格点表現

Skeletal Point Representations with Geometric Deep Learning ( http://arxiv.org/abs/2303.02123v1 )

ライセンス: Link先を確認
Ninad Khargonkar, Beatriz Paniagua, Jared Vicory(参考訳) 骨格化は、物体の内部と外部の両方をモデル化する一般的な形状解析技術である。 既存のテンプレートに基づく解剖学的構造からの骨格モデルの計算は、時間を要する手作業である。 近年,3次元形状からの骨格抽出に学習に基づく手法が用いられている。 本研究では,物体の骨格構造を計算するための新しい幾何学用語を提案する。 結果は従来のs-repと似ているが、より早く製造される。 実臨床データを用いた評価の結果, 学習モデルは正確な骨格表現を予測でき, s-repを弱い監督として用いることで, 幾何学的損失の影響を示す。

Skeletonization has been a popular shape analysis technique that models both the interior and exterior of an object. Existing template-based calculations of skeletal models from anatomical structures are a time-consuming manual process. Recently, learning-based methods have been used to extract skeletons from 3D shapes. In this work, we propose novel additional geometric terms for calculating skeletal structures of objects. The results are similar to traditional fitted s-reps but but are produced much more quickly. Evaluation on real clinical data shows that the learned model predicts accurate skeletal representations and shows the impact of proposed geometric losses along with using s-reps as weak supervision.
翻訳日:2023-03-06 13:53:37 公開日:2023-03-03
# 混合スパース線形回帰における統計計算的トレードオフ

Statistical-Computational Tradeoffs in Mixed Sparse Linear Regression ( http://arxiv.org/abs/2303.02118v1 )

ライセンス: Link先を確認
Gabriel Arpino and Ramji Venkataramanan(参考訳) 2つの成分による混合スパース線形回帰の問題を考えると、2つの実$k$スパース信号 $\beta_1, \beta_2$ が$n$の非ラベリングノイズ線型測定から回収される。 スパーシティは次元において部分線型であることが許され、加法ノイズは分散 $\sigma^2$ を持つ独立ガウスであると仮定される。 以前の研究によると、この問題は$\frac{k}{snr^2}$-to-$\frac{k^2}{snr^2}$ 統計計算から計算へのギャップに苦しんでおり、スパースpcaやロバストスパース平均推定のような計算上困難な他の高次元推論問題に似ている。 低次多項式の手法によりこの問題に対するより広範な計算障壁の存在を確立するが、この問題は非常に狭い対称パラメータ状態においてのみ計算的に困難であることを示す。 この難易度における任意のランダム化アルゴリズムに対して,サンプル複雑性$n$と実行時の間のスムーズな情報計算トレードオフを同定する。 単純な還元により、サンプル複雑性 $n = \tilde{o}(k^2)$ でスパース位相検索における正確な支持回復を解決するために計算障壁が存在するという新しい厳密な証拠が得られる。 第2の貢献は, 難解な狭い状況以外では, サンプル数と正方根の時間と(非混合)スパース線形回帰に必要なサンプルの複雑さを一致させて, 関連する混合回帰検出問題を$O(np)$で解く, という単純なしきい値決定アルゴリズムを解析することである。 この結果の特別な場合として,この単純なアルゴリズムは,分散線形回帰法において,完全符号付きサポートリカバリを解くためのアルゴリズム群の中で,順序最適であることを示す。

We consider the problem of mixed sparse linear regression with two components, where two real $k$-sparse signals $\beta_1, \beta_2$ are to be recovered from $n$ unlabelled noisy linear measurements. The sparsity is allowed to be sublinear in the dimension, and additive noise is assumed to be independent Gaussian with variance $\sigma^2$. Prior work has shown that the problem suffers from a $\frac{k}{SNR^2}$-to-$\frac{k^2}{SNR^2}$ statistical-to-computational gap, resembling other computationally challenging high-dimensional inference problems such as Sparse PCA and Robust Sparse Mean Estimation; here $SNR$ is the signal-to-noise ratio. We establish the existence of a more extensive computational barrier for this problem through the method of low-degree polynomials, but show that the problem is computationally hard only in a very narrow symmetric parameter regime. We identify a smooth information-computation tradeoff between the sample complexity $n$ and runtime for any randomized algorithm in this hard regime. Via a simple reduction, this provides novel rigorous evidence for the existence of a computational barrier to solving exact support recovery in sparse phase retrieval with sample complexity $n = \tilde{o}(k^2)$. Our second contribution is to analyze a simple thresholding algorithm which, outside of the narrow regime where the problem is hard, solves the associated mixed regression detection problem in $O(np)$ time with square-root the number of samples and matches the sample complexity required for (non-mixed) sparse linear regression; this allows the recovery problem to be subsequently solved by state-of-the-art techniques from the dense case. As a special case of our results, we show that this simple algorithm is order-optimal among a large family of algorithms in solving exact signed support recovery in sparse linear regression.
翻訳日:2023-03-06 13:53:27 公開日:2023-03-03
# 自然のコスト関数 : 行動の最小化による物理シミュレーション

Nature's Cost Function: Simulating Physics by Minimizing the Action ( http://arxiv.org/abs/2303.02115v1 )

ライセンス: Link先を確認
Tim Strang, Isabella Caruso, Sam Greydanus(参考訳) 物理学では、コスト関数のように振舞うアクションと呼ばれるスカラー関数が存在する。 最小化されると、物理的システムが空間と時間を通して取る経路を表す「最小作用の経路」が得られる。 この関数は理論物理学において不可欠であり、様々な問題に対する運動方程式を得るために解析的に最小化される。 本稿では,作用を解析的に最小化する代わりに,それを離散化し,勾配降下によって直接最小化する手法を提案する。 我々は,この手法を用いて6種類の物理系に対するダイナミクスを得るとともに,それらが接地力学とほぼ同一であることを示す。 制約のないエネルギー効果などの障害モードについて検討し,対処方法を示す。 最後に、離散化作用を用いて、単純だが新しい量子シミュレーションを構築する。

In physics, there is a scalar function called the action which behaves like a cost function. When minimized, it yields the "path of least action" which represents the path a physical system will take through space and time. This function is crucial in theoretical physics and is usually minimized analytically to obtain equations of motion for various problems. In this paper, we propose a different approach: instead of minimizing the action analytically, we discretize it and then minimize it directly with gradient descent. We use this approach to obtain dynamics for six different physical systems and show that they are nearly identical to ground-truth dynamics. We discuss failure modes such as the unconstrained energy effect and show how to address them. Finally, we use the discretized action to construct a simple but novel quantum simulation.
翻訳日:2023-03-06 13:52:49 公開日:2023-03-03
# 凸プログラミングによる複数自己回帰過程のラグ選択と安定パラメータの推定

Lag selection and estimation of stable parameters for multiple autoregressive processes through convex programming ( http://arxiv.org/abs/2303.02114v1 )

ライセンス: Link先を確認
Somnath Chakraborty and Johannes Lederer and Rainer von Sachs(参考訳) 様々な応用に動機づけられた高次元時系列は、研究の活発な話題となっている。 特に、既知のラグを持つ個々の安定自己回帰過程に対するいくつかの方法と有限サンプル理論が最近利用可能になっている。 代わりに、未知の遅延を共有する複数の安定した自己回帰プロセスを考えます。 異なるプロセスにまたがる情報を用いて、同時にラグを選択し、パラメータを推定します。 推定過程が安定であることを証明するとともに,我々の設定において既知の速度を上回り得る予測誤差の率を確立する。 遅延選択と安定性に関する私たちの洞察は、個々の自己回帰的プロセスの場合にも興味深いものです。

Motivated by a variety of applications, high-dimensional time series have become an active topic of research. In particular, several methods and finite-sample theories for individual stable autoregressive processes with known lag have become available very recently. We, instead, consider multiple stable autoregressive processes that share an unknown lag. We use information across the different processes to simultaneously select the lag and estimate the parameters. We prove that the estimated process is stable, and we establish rates for the forecasting error that can outmatch the known rate in our setting. Our insights on the lag selection and the stability are also of interest for the case of individual autoregressive processes.
翻訳日:2023-03-06 13:52:38 公開日:2023-03-03
# Deep Learning-based Denoising Methodの客観的タスクベース評価の必要性:心筋血流SPECTにおける検討

Need for Objective Task-based Evaluation of Deep Learning-Based Denoising Methods: A Study in the Context of Myocardial Perfusion SPECT ( http://arxiv.org/abs/2303.02110v1 )

ライセンス: Link先を確認
Zitong Yu, Md Ashequr Rahman, Richard Laforest, Thomas H. Schindler, Robert J. Gropler, Richard L. Wahl, Barry A. Siegel, Abhinav K. Jha(参考訳) 人工知能に基づく手法は核医学に大きな関心を呼んだ。 関心のある領域は、低用量、より短い取得時間、あるいは両方で取得した画像を識別するためのディープラーニング(DL)ベースのアプローチである。 これらのアプローチの客観的評価は臨床応用に不可欠である。 dlに基づく核医学画像の脱ノイズ化手法は、一般的にrmseやssimのような忠実度に基づく評価(foms)を用いて評価されている。 しかし,これらの画像は臨床的タスクのために取得され,それらのタスクのパフォーマンスに基づいて評価されるべきである。 本研究の目的は,(1)fomによる評価が客観的な臨床課題に基づく評価と一致しているか,(2)信号検出課題に対する脱音の影響を理論的に決定するための分析を行うこと,(3)dlに基づく方法を評価するための仮想臨床試験(vcts)の有用性を示すことである。 心筋灌流SPECT(MPS)画像の診断にDL法を応用したVCTを施行した。 人為的チャネルを持つモデル観測者を用いて,MPS画像の灌流欠陥検出性能を定量化したFoMsとAUCを用いて,DLベースデノナイジングの効果を評価した。 忠実度をベースとしたFoMでは,DL法を併用することで性能が著しく向上した。 しかし,ROC分析ではデノナイジングは改善せず,実際は検出タスク性能が劣化することが多かった。 その結果、dlに基づく分別手法の客観的タスクベース評価の必要性が高まった。 さらに,本研究では,VCTを用いて評価を行うメカニズムについて述べる。 最後に,提案手法の限定的な性能の理由を理論的に明らかにした。

Artificial intelligence-based methods have generated substantial interest in nuclear medicine. An area of significant interest has been using deep-learning (DL)-based approaches for denoising images acquired with lower doses, shorter acquisition times, or both. Objective evaluation of these approaches is essential for clinical application. DL-based approaches for denoising nuclear-medicine images have typically been evaluated using fidelity-based figures of merit (FoMs) such as RMSE and SSIM. However, these images are acquired for clinical tasks and thus should be evaluated based on their performance in these tasks. Our objectives were to (1) investigate whether evaluation with these FoMs is consistent with objective clinical-task-based evaluation; (2) provide a theoretical analysis for determining the impact of denoising on signal-detection tasks; (3) demonstrate the utility of virtual clinical trials (VCTs) to evaluate DL-based methods. A VCT to evaluate a DL-based method for denoising myocardial perfusion SPECT (MPS) images was conducted. The impact of DL-based denoising was evaluated using fidelity-based FoMs and AUC, which quantified performance on detecting perfusion defects in MPS images as obtained using a model observer with anthropomorphic channels. Based on fidelity-based FoMs, denoising using the considered DL-based method led to significantly superior performance. However, based on ROC analysis, denoising did not improve, and in fact, often degraded detection-task performance. The results motivate the need for objective task-based evaluation of DL-based denoising approaches. Further, this study shows how VCTs provide a mechanism to conduct such evaluations using VCTs. Finally, our theoretical treatment reveals insights into the reasons for the limited performance of the denoising approach.
翻訳日:2023-03-06 13:52:28 公開日:2023-03-03
# 量子ベンチマークの標準戦略を定義する

Defining Standard Strategies for Quantum Benchmarks ( http://arxiv.org/abs/2303.02108v1 )

ライセンス: Link先を確認
Mirko Amico, Helena Zhang, Petar Jurcevic, Lev S. Bishop, Paul Nation, Andrew Wack, and David C. McKay(参考訳) 量子コンピュータのサイズと範囲が大きくなるにつれて、パフォーマンスをベンチマークする方法が重要になる。 ここでは、任意のベンチマークが従うべき特徴 - ランダム化、明確に定義された、全体論的、デバイス独立 - のセットを定義し、ベンチマークと診断を区別する。 私たちは、ベンチマークにおける明確なルールの例として量子ボリューム(qv)[1]を使い、refのように、異なる成功統計を使用する意味を示す。 [2]. ベンチマーク最適化の問題点、それらの最適化がいつ適切か、どのように報告するべきかについて論じる。 高い精度の観測可能値を得る能力には指数的なオーバーヘッドが伴うため、パフォーマンス評価において省略されることが多いため、ベンチマーク結果の解釈には量子エラー軽減技術の使用が特に重要である。 最後に、アプリケーション指向およびミラーベンチマーク技術を用いて、強調された最適化原理を実証し、スケーラブルなミラー量子ボリュームベンチマークを導入する。 我々は、ベンチマーク結果を改善するための単純な最適化の重要性を解明し、これらの省略が比較において重要な違いをもたらすことに留意する。 例えば、ミラーランダム化ベンチマークの実行時には、動的デカップリングを含む26量子ビット回路上で、キュービット当たりのエラーを2%から1%に削減する。

As quantum computers grow in size and scope, a question of great importance is how best to benchmark performance. Here we define a set of characteristics that any benchmark should follow -- randomized, well-defined, holistic, device independent -- and make a distinction between benchmarks and diagnostics. We use Quantum Volume (QV) [1] as an example case for clear rules in benchmarking, illustrating the implications for using different success statistics, as in Ref. [2]. We discuss the issue of benchmark optimizations, detail when those optimizations are appropriate, and how they should be reported. Reporting the use of quantum error mitigation techniques is especially critical for interpreting benchmarking results, as their ability to yield highly accurate observables comes with exponential overhead, which is often omitted in performance evaluations. Finally, we use application-oriented and mirror benchmarking techniques to demonstrate some of the highlighted optimization principles, and introduce a scalable mirror quantum volume benchmark. We elucidate the importance of simple optimizations for improving benchmarking results, and note that such omissions can make a critical difference in comparisons. For example, when running mirror randomized benchmarking, we observe a reduction in error per qubit from 2% to 1% on a 26-qubit circuit with the inclusion of dynamic decoupling.
翻訳日:2023-03-06 13:51:58 公開日:2023-03-03
# 視覚知覚のためのテキストと画像の拡散モデル

Unleashing Text-to-Image Diffusion Models for Visual Perception ( http://arxiv.org/abs/2303.02153v1 )

ライセンス: Link先を確認
Wenliang Zhao, Yongming Rao, Zuyan Liu, Benlin Liu, Jie Zhou, Jiwen Lu(参考訳) 拡散モデル(DM)は、生成モデルの新たなトレンドとなり、条件合成の強力な能力を示している。 これらのうち、大規模画像-テキストペアで事前訓練されたテキスト-画像拡散モデルは、カスタマイズ可能なプロンプトによって高度に制御可能である。 低レベルの属性と詳細に焦点を当てた無条件生成モデルとは異なり、テキストから画像への拡散モデルは視覚言語の事前学習により高レベルな知識を含んでいる。 本稿では,事前学習されたテキスト・画像拡散モデルの視覚知覚タスクにおける意味情報を利用する新しいフレームワークであるVPD(Visual Perception with a Pre-trained Diffusion model)を提案する。 拡散ベースのパイプラインで事前トレーニングされたデノーミングオートエンコーダを使用する代わりに、単にバックボーンとして使用し、学習した知識を最大限に活用する方法を研究することを目的としています。 具体的には,適切なテキスト入力を付加したデコーダを推奨し,アダプタでテキスト機能を洗練することにより,事前学習されたステージへのアライメントが向上し,テキストプロンプトと視覚コンテンツの対話性が向上する。 また,視覚的特徴とテキスト的特徴の相互注意マップを用いて,明示的なガイダンスを提案する。 他の事前学習法と比較して,提案したVPDを用いて,視覚言語による事前学習拡散モデルが下流の視覚知覚タスクに迅速に適応できることを示す。 セマンティックセグメンテーション, 画像セグメンテーション, 深度推定に関する大規模な実験により, 提案手法の有効性が示された。 特に、VPDはNYUv2深度推定で0.254 RMSE、RefCO-val参照画像セグメンテーションで73.3%のoIoUを獲得し、2つのベンチマークで新しい記録を確立した。 コードはhttps://github.com/wl-zhao/VPDで入手できる。

Diffusion models (DMs) have become the new trend of generative models and have demonstrated a powerful ability of conditional synthesis. Among those, text-to-image diffusion models pre-trained on large-scale image-text pairs are highly controllable by customizable prompts. Unlike the unconditional generative models that focus on low-level attributes and details, text-to-image diffusion models contain more high-level knowledge thanks to the vision-language pre-training. In this paper, we propose VPD (Visual Perception with a pre-trained Diffusion model), a new framework that exploits the semantic information of a pre-trained text-to-image diffusion model in visual perception tasks. Instead of using the pre-trained denoising autoencoder in a diffusion-based pipeline, we simply use it as a backbone and aim to study how to take full advantage of the learned knowledge. Specifically, we prompt the denoising decoder with proper textual inputs and refine the text features with an adapter, leading to a better alignment to the pre-trained stage and making the visual contents interact with the text prompts. We also propose to utilize the cross-attention maps between the visual features and the text features to provide explicit guidance. Compared with other pre-training methods, we show that vision-language pre-trained diffusion models can be faster adapted to downstream visual perception tasks using the proposed VPD. Extensive experiments on semantic segmentation, referring image segmentation and depth estimation demonstrates the effectiveness of our method. Notably, VPD attains 0.254 RMSE on NYUv2 depth estimation and 73.3% oIoU on RefCOCO-val referring image segmentation, establishing new records on these two benchmarks. Code is available at https://github.com/wl-zhao/VPD
翻訳日:2023-03-06 13:45:52 公開日:2023-03-03
# プロンプト、生成、キャッシュ: 基礎モデルのカスケードは、強力な少数ショット学習者を作る

Prompt, Generate, then Cache: Cascade of Foundation Models makes Strong Few-shot Learners ( http://arxiv.org/abs/2303.02151v1 )

ライセンス: Link先を確認
Renrui Zhang, Xiangfei Hu, Bohao Li, Siyuan Huang, Hanqiu Deng, Hongsheng Li, Yu Qiao, Peng Gao(参考訳) 低データ環境における視覚認識は、限られたトレーニングサンプルから一般化された表現を学ぶためにディープニューラルネットワークを必要とする。 最近、CLIPベースの手法は、対照的な言語イメージ事前トレーニングの恩恵を受け、有望な数ショットのパフォーマンスを示している。 そして、より多様な事前学習の知識をカスケードして、数発の表現学習をさらに支援できるかを問う。 本稿では,様々な事前学習パラダイムの様々な事前知識を組み込んだ基礎モデルであるcafoを提案する。 私たちのCaFoには、CLIPの言語コントラスト知識、DINOの視覚コントラスト知識、DALL-Eの視覚生成知識、GPT-3の言語生成知識が含まれています。 具体的には、CaFoは'Prompt, Generate, then Cache'で動作する。 まず、GPT-3を利用してテキスト入力を生成し、CLIPにリッチな下流言語意味論を与える。 そして、DALL-Eを介して合成画像を生成し、数発のトレーニングデータを拡張する。 最後に,CLIPとDINOの予測を適応的にブレンドする学習可能なキャッシュモデルを提案する。 このようなコラボレーションによって、CaFoは、さまざまな事前トレーニングメソッドの可能性を完全に解き放ち、数ショットの分類のために最先端の処理を実行するように統一することができる。 コードはhttps://github.com/ZrrSkywalker/CaFoで入手できる。

Visual recognition in low-data regimes requires deep neural networks to learn generalized representations from limited training samples. Recently, CLIP-based methods have shown promising few-shot performance benefited from the contrastive language-image pre-training. We then question, if the more diverse pre-training knowledge can be cascaded to further assist few-shot representation learning. In this paper, we propose CaFo, a Cascade of Foundation models that incorporates diverse prior knowledge of various pre-training paradigms for better few-shot learning. Our CaFo incorporates CLIP's language-contrastive knowledge, DINO's vision-contrastive knowledge, DALL-E's vision-generative knowledge, and GPT-3's language-generative knowledge. Specifically, CaFo works by 'Prompt, Generate, then Cache'. Firstly, we leverage GPT-3 to produce textual inputs for prompting CLIP with rich downstream linguistic semantics. Then, we generate synthetic images via DALL-E to expand the few-shot training data without any manpower. At last, we introduce a learnable cache model to adaptively blend the predictions from CLIP and DINO. By such collaboration, CaFo can fully unleash the potential of different pre-training methods and unify them to perform state-of-the-art for few-shot classification. Code is available at https://github.com/ZrrSkywalker/CaFo.
翻訳日:2023-03-06 13:45:20 公開日:2023-03-03
# 有限温度場理論のための経路積分形式とキラル電流の生成

Path integral formalism for finite-temperature field theory and generation of chiral currents ( http://arxiv.org/abs/2303.02145v1 )

ライセンス: Link先を確認
Yurii A. Sitenko(参考訳) 有限温度場理論に経路積分形式を用いることで、量子キラルフェルミオン系で生成される持続ベクトルと軸流が見つかる。 フェルミオン質量によるキラル対称性の明示的な違反の役割が解明される。 任意の滑らかな磁場のバックラウンドにおける量子フェルミオン系の場合、キラル磁気効果はキラル分離効果と等しく同じ基底上に置換されることを示す。 どちらの効果も、キラル対称性が質量に反した場合は変化しない。

With the use of the path integral formalism for finite-temperature field theory, I find the persisting vector and axial currents that are generated in quantum chiral fermionic systems. The role of the explicit violation of chiral symmetry by fermion mass is elucidated. For the case of quantum fermionic systems in the backround of an arbitrary smooth magnetic field, I show that the chiral magnetic effect is substantiated on equally the same footing as the chiral separation effect is. Both effects remain unaltered if chiral symmetry is violated by mass.
翻訳日:2023-03-06 13:44:56 公開日:2023-03-03
# 表面電極トラップへのバリウムイオンのアブレーション負荷

Ablation loading of barium ions into a surface electrode trap ( http://arxiv.org/abs/2303.02143v1 )

ライセンス: Link先を確認
X. Shi, S. L. Todaro, G. L. Mintzer, C. D. Bruzewicz, J. Chiaverini, I. L. Chuang(参考訳) トラップイオン量子情報処理は、例えば自然存在量や放射能の低いため、少量しか利用できない同位体に符号化された量子ビットの恩恵を受けることができる。 レーザーアブレーションは、中性原子やイオンを低体積ターゲットから制御する方法を提供するが、エネルギーアブレーション生成物は小さなイオン-電極距離、ミクロンスケール、マイクロファブリケードトラップにおいて、イオンアレイの高速かつ高忠実な操作に対処することが困難である。 本研究では, 異なる大きさの表面電極トラップへのアブレーションによるイオン負荷について検討し, イオン負荷確率を有効トラップ体積や他のトラップパラメータの関数として記述するモデルを検証する。 730$\mu$mと50$\mu$mの極低温表面電極トラップにおけるアブレーションバリウムと光イオン化バリウムの負荷を実演した。 我々の載荷成功確率は予測分析モデルと一致し、量子コンピューティング、シミュレーション、センシングに対する限定量子種の閉じ込めに関する洞察を提供する。

Trapped-ion quantum information processing may benefit from qubits encoded in isotopes that are practically available in only small quantities, e.g. due to low natural abundance or radioactivity. Laser ablation provides a method of controllably liberating neutral atoms or ions from low-volume targets, but energetic ablation products can be difficult to confine in the small ion-electrode distance, micron-scale, microfabricated traps amenable to high-speed, high-fidelity manipulation of ion arrays. Here we investigate ablation-based ion loading into surface-electrode traps of different sizes to test a model describing ion loading probability as a function of effective trap volume and other trap parameters. We demonstrate loading of ablated and photoionized barium in two cryogenic surface-electrode traps with 730 $\mu$m and 50 $\mu$m ion-electrode distances. Our loading success probability agrees with a predictive analytical model, providing insight for the confinement of limited-quantity species of interest for quantum computing, simulation, and sensing.
翻訳日:2023-03-06 13:44:48 公開日:2023-03-03
# sparsityは泣くかもしれない: 失敗(現在の)スパースニューラルネットワークを一緒に失敗させよう!

Sparsity May Cry: Let Us Fail (Current) Sparse Neural Networks Together! ( http://arxiv.org/abs/2303.02141v1 )

ライセンス: Link先を確認
Shiwei Liu, Tianlong Chen, Zhenyu Zhang, Xuxi Chen, Tianjin Huang, Ajay Jaiswal, Zhangyang Wang(参考訳) スパースニューラルネットワーク(SNN)は、大規模モデルにおける一貫したパラメータカウントの計算量とメモリフットプリントの増加により、大きな注目を集めている。 最近のSNNも同様に一般化され、多くの有利な利点(例えば、低複雑性、高スケーラビリティ、ロバスト性)を備えており、時に元の高密度ネットワークよりも優れている。 より洗練されたスパースアルゴリズムの開発に焦点が当てられているため、これらのアルゴリズムの有効性を評価する包括的なベンチマークは見過ごされている。 慎重に構築された評価ベンチマークがなければ、ほとんどの場合、スパースアルゴリズムは、かなり単純で単純なタスク(CIFAR、ImageNet、GLUEなど)に対して評価される。 SMC-Bench(Sparsity May Cry) Benchmark)は、10個のデータセットで慎重に計算された4つのタスクの集合であり、ドメイン固有で洗練された知識を広範囲に捉えている。 最も代表的なスパースアルゴリズムの体系的な評価は、重要な曖昧な観察を明らかにした: 最先端のマグニチュードおよび/または勾配に基づくスパースアルゴリズムは、アウトオブボックスで適用した場合にsmc-benchで実行できないように見える。 これらのよく考えられた多様なタスクを取り入れることで、SMC-Benchはよりスケーラブルで一般化可能なスパースアルゴリズムの開発を奨励するように設計されている。

Sparse Neural Networks (SNNs) have received voluminous attention predominantly due to growing computational and memory footprints of consistently exploding parameter count in large-scale models. Similar to their dense counterparts, recent SNNs generalize just as well and are equipped with numerous favorable benefits (e.g., low complexity, high scalability, and robustness), sometimes even better than the original dense networks. As research effort is focused on developing increasingly sophisticated sparse algorithms, it is startling that a comprehensive benchmark to evaluate the effectiveness of these algorithms has been highly overlooked. In absence of a carefully crafted evaluation benchmark, most if not all, sparse algorithms are evaluated against fairly simple and naive tasks (eg. CIFAR, ImageNet, GLUE, etc.), which can potentially camouflage many advantages as well unexpected predicaments of SNNs. In pursuit of a more general evaluation and unveiling the true potential of sparse algorithms, we introduce "Sparsity May Cry" Benchmark (SMC-Bench), a collection of carefully-curated 4 diverse tasks with 10 datasets, that accounts for capturing a wide range of domain-specific and sophisticated knowledge. Our systemic evaluation of the most representative sparse algorithms reveals an important obscured observation: the state-of-the-art magnitude- and/or gradient-based sparse algorithms seemingly fail to perform on SMC-Bench when applied out-of-the-box, sometimes at significantly trivial sparsity as low as 5%. By incorporating these well-thought and diverse tasks, SMC-Bench is designed to favor and encourage the development of more scalable and generalizable sparse algorithms.
翻訳日:2023-03-06 13:44:28 公開日:2023-03-03
# 仮説プラニング性能保証によるpomdp計画を考慮したデータアソシエーション

Data Association Aware POMDP Planning with Hypothesis Pruning Performance Guarantees ( http://arxiv.org/abs/2303.02139v1 )

ライセンス: Link先を確認
Moran Barenboim, Idan Lev-Yehudi and Vadim Indelman(参考訳) 現実世界で活動する自律エージェントは、部分的に観測可能なマルコフ決定プロセス(POMDP)としてモデル化される部分観測可能性を扱う必要がある。 しかし、従来のPOMDPモデルは、完全に観測可能なデータアソシエーションとして知られる観測源の完全な知識の仮定に依存している。 この制限に対処するために、各コンポーネントが異なるデータアソシエーション仮説に対応する信念混合として表される複数のデータアソシエーション仮説を維持する計画アルゴリズムを提案する。 しかし、この方法では仮説の数が指数関数的に増加し、計算オーバーヘッドが大きくなる可能性がある。 この課題を克服するため,我々は,あいまいなデータアソシエーションを用いたプランニング手法を提案する。 我々の重要な貢献は、仮説の完全な集合に基づく値関数と仮説のプルーニングされた部分集合に基づく値関数の境界を導出することであり、計算効率と性能のトレードオフを確立することができる。 これらの境界を遡及的に刈り取るヒューリスティックの証明に利用できることを実証し、損失に対する事前定義された限界を確保するために、どの仮説をプルーンにするかを決定する新しいアプローチを提案する。 シミュレーション環境でのアプローチを評価し,曖昧なデータ関連を持つマルチモーダル信念の処理におけるその効果を実証する。

Autonomous agents that operate in the real world must often deal with partial observability, which is commonly modeled as partially observable Markov decision processes (POMDPs). However, traditional POMDP models rely on the assumption of complete knowledge of the observation source, known as fully observable data association. To address this limitation, we propose a planning algorithm that maintains multiple data association hypotheses, represented as a belief mixture, where each component corresponds to a different data association hypothesis. However, this method can lead to an exponential growth in the number of hypotheses, resulting in significant computational overhead. To overcome this challenge, we introduce a pruning-based approach for planning with ambiguous data associations. Our key contribution is to derive bounds between the value function based on the complete set of hypotheses and the value function based on a pruned-subset of the hypotheses, enabling us to establish a trade-off between computational efficiency and performance. We demonstrate how these bounds can both be used to certify any pruning heuristic in retrospect and propose a novel approach to determine which hypotheses to prune in order to ensure a predefined limit on the loss. We evaluate our approach in simulated environments and demonstrate its efficacy in handling multi-modal belief hypotheses with ambiguous data associations.
翻訳日:2023-03-06 13:43:58 公開日:2023-03-03
# 量子ユーティリティ -- 実用的な量子優位性の定義と評価

Quantum utility -- definition and assessment of a practical quantum advantage ( http://arxiv.org/abs/2303.02138v1 )

ライセンス: Link先を確認
Nils Herrmann, Daanish Arya, Marcus W. Doherty, Angus Mingare, Jason C. Pillay, Florian Preis, Stefan Prestel(参考訳) 量子コンピューティングの性能を水平に測定するいくつかのベンチマークが提案されている。 エンドユーザの視点(例えばアプリケーション指向のベンチマーク)に注目する向きもあるが、量子プロセッサの物理的フットプリントを考慮した実際の産業価値は議論されていない。 異なるユースケースには、サイズ、重量、電力消費量、データプライバシの要求が異なるが、忠実性、速度、問題サイズ、正確性といった一定のしきい値を超える必要がある。 本稿では,これらの特性を量子ユーティリティの概念に取り入れることを目的としており,量子優位性 – より速く,より正確か,より少ないエネルギー要求 – が,同じ大きさ,重み,コストの古典的マシン上で実現される様々なアプリケーションにおいて,量子コンピュータの有効性と実用性を示す。 量子ユーティリティを次々に追求するために、アプリケーション即応レベル(arls)として構成されるレベルベースの分類スキームと、拡張された分類ラベルが導入される。 これらは、量子化学、量子シミュレーション、量子機械学習、データ分析といった分野の異なる量子応用に実証的に適用される。

Several benchmarks have been proposed to holistically measure quantum computing performance. While some have focused on the end user's perspective (e.g., in application-oriented benchmarks), the real industrial value taking into account the physical footprint of the quantum processor are not discussed. Different use-cases come with different requirements for size, weight, power consumption, or data privacy while demanding to surpass certain thresholds of fidelity, speed, problem size, or precision. This paper aims to incorporate these characteristics into a concept coined quantum utility, which demonstrates the effectiveness and practicality of quantum computers for various applications where quantum advantage -- defined as either being faster, more accurate, or demanding less energy -- is achieved over a classical machine of similar size, weight, and cost. To successively pursue quantum utility, a level-based classification scheme -- constituted as application readiness levels (ARLs) -- as well as extended classification labels are introduced. These are demonstratively applied to different quantum applications from the fields of quantum chemistry, quantum simulation, quantum machine learning, and data analysis followed by a brief discussion.
翻訳日:2023-03-06 13:43:32 公開日:2023-03-03
# 時間的論理的対実的経験リプレイ

Eventual Discounting Temporal Logic Counterfactual Experience Replay ( http://arxiv.org/abs/2303.02135v1 )

ライセンス: Link先を確認
Cameron Voloshin, Abhinav Verma, Yisong Yue(参考訳) 線形時間論理(LTL)は、スカラー報酬関数で記述するのが困難なポリシー最適化のためのタスクを単純化する方法を提供する。 しかし、標準の RL フレームワークは、最大 LTL を満たすポリシーを見つけるには筋が通らない。 この論文には2つの貢献がある。 まず,LTL仕様を満たすポリシーを最も達成可能な確率で見つけることができるような,結果割引と呼ばれる手法を用いて,新しい値関数ベースのプロキシを開発する。 第2に,ltl仕様を満足する異なる方法で,反事実推論を通じてオンポリティシーロールアウトからオフポリティシーデータを生成する新しい経験リプレイ法を開発した。 実験は, 離散状態と連続状態の両方で実施し, 反実経験リプレイ手法の有効性を確認した。

Linear temporal logic (LTL) offers a simplified way of specifying tasks for policy optimization that may otherwise be difficult to describe with scalar reward functions. However, the standard RL framework can be too myopic to find maximally LTL satisfying policies. This paper makes two contributions. First, we develop a new value-function based proxy, using a technique we call eventual discounting, under which one can find policies that satisfy the LTL specification with highest achievable probability. Second, we develop a new experience replay method for generating off-policy data from on-policy rollouts via counterfactual reasoning on different ways of satisfying the LTL specification. Our experiments, conducted in both discrete and continuous state-action spaces, confirm the effectiveness of our counterfactual experience replay approach.
翻訳日:2023-03-06 13:43:14 公開日:2023-03-03
# スイム変圧器を用いた深度6DoFオブジェクトポス推定

Depth-based 6DoF Object Pose Estimation using Swin Transformer ( http://arxiv.org/abs/2303.02133v1 )

ライセンス: Link先を確認
Zhujun Li and Ioannis Stamos(参考訳) オブジェクトの6Dポーズを正確に推定することは、ロボットの把握、自律運転、拡張現実など、多くのアプリケーションにとって不可欠である。 しかし、この作業は照明条件の悪さやテクスチャのない物体を扱う場合、より困難になる。 この問題に対処するため、奥行き画像はシーンの外観にばらつきがなく、重要な幾何学的特徴を暗黙的に取り入れることによって、ますます人気を集めている。 しかし, ポーズ推定の性能向上に深度情報を完全に活用することは, 困難かつ未解明の課題である。 そこで本研究では,奥行き画像からの幾何情報のみを用いて正確な6次元ポーズ推定を行う,swindeposeという新しいフレームワークを提案する。 swindeposeはまず、深度画像で定義された各正常ベクトルとカメラ座標系内の3つの座標軸との間の角度を算出する。 結果として得られる角度はイメージに形成され、Swin Transformerを使って符号化される。 さらに、RandLA-Netを用いてポイントクラウドから表現を学習する。 得られた画像とポイントクラウドの埋め込みは連結され、セマンティックセグメンテーションモジュールと3dキーポイントローカライゼーションモジュールに供給される。 最後に,ターゲットオブジェクトの予測意味マスクと3dキーポイントに基づいて,最小2乗法を用いて6dポーズを推定する。 LineModおよびOcclusion LineModデータセットの実験において、SwinDePoseは深度画像を用いた6Dオブジェクトのポーズ推定のための既存の最先端手法よりも優れている。 これは我々のアプローチの有効性を示し、実際のシナリオにおけるパフォーマンス向上の可能性を強調します。 私たちのコードはhttps://github.com/zhujunli 1993/SwinDePose.orgにある。

Accurately estimating the 6D pose of objects is crucial for many applications, such as robotic grasping, autonomous driving, and augmented reality. However, this task becomes more challenging in poor lighting conditions or when dealing with textureless objects. To address this issue, depth images are becoming an increasingly popular choice due to their invariance to a scene's appearance and the implicit incorporation of essential geometric characteristics. However, fully leveraging depth information to improve the performance of pose estimation remains a difficult and under-investigated problem. To tackle this challenge, we propose a novel framework called SwinDePose, that uses only geometric information from depth images to achieve accurate 6D pose estimation. SwinDePose first calculates the angles between each normal vector defined in a depth image and the three coordinate axes in the camera coordinate system. The resulting angles are then formed into an image, which is encoded using Swin Transformer. Additionally, we apply RandLA-Net to learn the representations from point clouds. The resulting image and point clouds embeddings are concatenated and fed into a semantic segmentation module and a 3D keypoints localization module. Finally, we estimate 6D poses using a least-square fitting approach based on the target object's predicted semantic mask and 3D keypoints. In experiments on the LineMod and Occlusion LineMod datasets, SwinDePose outperforms existing state-of-the-art methods for 6D object pose estimation using depth images. This demonstrates the effectiveness of our approach and highlights its potential for improving performance in real-world scenarios. Our code is at https://github.com/zhujunli1993/SwinDePose.
翻訳日:2023-03-06 13:43:02 公開日:2023-03-03
# 時空効率の低い量子状態と応用

Spacetime-Efficient Low-Depth Quantum State Preparation with Applications ( http://arxiv.org/abs/2303.02131v1 )

ライセンス: Link先を確認
Kaiwen Gui, Alexander M. Dalzell, Alessandro Achille, Martin Suchara, Frederic T. Chong(参考訳) 任意の量子状態を生成するための新しい決定論的手法を提案し,従来よりも漸近的に少ない量子資源を必要とすることを示した。 私たちのプロトコルがcnotと任意のシングルキュービットゲートにコンパイルされると、深さ$o(\log(n))$と時空割当(いくつかのアンシラキュービットがプロトコル全体に対してアクティブである必要はないという事実をしばしば考慮しているメトリクス)$o(n)$が作成されます。 $\{\mathrm{H,S,T,CNOT}\}$ gate setにコンパイルされると、任意の状態がエラーまで準備される。$\epsilon$ in depth $O(\log(N/\epsilon))$と時空アロケーション$O(N\log(\log(N)/\epsilon))$で、それぞれ$O(\log(N)\log(N/\epsilon))$と$O(N\log(N/\epsilon))$。 我々は、このプロトコルの時空割り当てを減らして、定数要素のアンシラオーバーヘッドしか持たない多くの解離状態の迅速な準備を可能にする方法について説明する。$O(N)$ ancilla qubitsは、$O(w + \log(N))$ではなく$O(w)$$$$$$の積状態を作成するために、$O(w\log(N))$で効率的に再利用される。 量子機械学習,ハミルトニアンシミュレーション,方程式の線形系の解法など,この能力が役立ついくつかの応用について紹介する。 プロトコルの量子回路記述と詳細な擬似コードを提供する。

We propose a novel deterministic method for preparing arbitrary quantum states, and we show that it requires asymptotically fewer quantum resources than previous methods. When our protocol is compiled into CNOT and arbitrary single-qubit gates, it prepares an $N$-dimensional state in depth $O(\log(N))$ and spacetime allocation (a metric that accounts for the fact that oftentimes some ancilla qubits need not be active for the entire protocol) $O(N)$, which are both optimal and not simultaneously achieved by previous methods. When compiled into the $\{\mathrm{H,S,T,CNOT}\}$ gate set, it prepares an arbitrary state up to error $\epsilon$ in depth $O(\log(N/\epsilon))$ and spacetime allocation $O(N\log(\log(N)/\epsilon))$, improving over $O(\log(N)\log(N/\epsilon))$ and $O(N\log(N/\epsilon))$, respectively. We illustrate how the reduced spacetime allocation of our protocol enables rapid preparation of many disjoint states with only constant-factor ancilla overhead -- $O(N)$ ancilla qubits are reused efficiently to prepare a product state of $w$ $N$-dimensional states in depth $O(w + \log(N))$ rather than $O(w\log(N))$, achieving effectively constant depth per state. We highlight several applications where this ability would be useful, including quantum machine learning, Hamiltonian simulation, and solving linear systems of equations. We provide quantum circuit descriptions of our protocol along with detailed pseudocode.
翻訳日:2023-03-06 13:42:33 公開日:2023-03-03
# u(1)対称性を持つ量子スピンモデルの回転子/スピン波理論

Rotor/spin-wave theory for quantum spin models with U(1) symmetry ( http://arxiv.org/abs/2303.00380v2 )

ライセンス: Link先を確認
Tommaso Roscilde, Tommaso Comparin, Fabio Mezzacapo(参考訳) 熱力学極限における連続な$U(1)$対称性を自発的に破る有限サイズの格子量子スピンモデルの静的および動的性質は、凝縮物質から量子シミュレーションまで、幅広い物理系において中心的な重要性を持つ。 このような系はゴールドストーン励起枝によって特徴づけられ、線形化アプローチにおける理論的な処理が有限サイズ系のばらつきを引き起こすゼロモードで終端し、対称性の破れの仮定が熱力学の極限から不定義であることを明らかにする。 この研究において、すべての非線形性が考慮されると、ゼロモードは、熱力学的極限における対称性の破れを示す系で期待されるアンダーソン状態の塔に関連するu(1)量子ローターと正確に一致することが示される。 有限モーメントモードは、人口が弱ければ、代わりに安全に線形化(スピン波理論で扱われる)でき、ゼロモードから効果的に分離できる。 この図はローターとスピン波の変数の近似的な分離をもたらし、基底状態と低エネルギー物理学の正しい記述を可能にする。 最も重要なことは、線形化アプローチが失敗するゼロモードに支配される量子クエンチに従う有限サイズの非平衡ダイナミクスの定量的な処理を提供することである。 パワーロー減衰相互作用を持つ2$d$ xxモデルに着目し、偏りのない量子モンテカルロ結果と正確な対角化の平衡予測と、時間依存変分モンテカルロとの非平衡結果を比較した。 この合意はすべての相互作用範囲で顕著であり、より長い範囲を改善する。 我々のローター/スピン波理論は、スピン波理論とその平衡あるいはそれから離れる有限サイズ系への拡張の成功戦略を定義する。

The static and dynamics properties of finite-size lattice quantum spin models which spontaneously break a continuous $U(1)$ symmetry in the thermodynamic limit are of central importance for a wide variety of physical systems, from condensed matter to quantum simulation. Such systems are characterized by a Goldstone excitation branch, terminating in a zero mode whose theoretical treatment within a linearized approach leads to divergencies on finite-size systems, revealing that the assumption of symmetry breaking is ill-defined away from the thermodynamic limit. In this work we show that, once all its non-linearities are taken into account, the zero mode corresponds exactly to a U(1) quantum rotor, related to the Anderson tower of states expected in systems showing symmetry breaking in the thermodynamic limit. The finite-momentum modes, when weakly populated, can be instead safely linearized (namely treated within spin-wave theory) and effectively decoupled from the zero mode. This picture leads to an approximate separation of variables between rotor and spin-wave ones, which allows for a correct description of the ground-state and low-energy physics. Most importantly, it offers a quantitative treatment of the finite-size non-equilibrium dynamics -- following a quantum quench -- dominated by the zero mode, for which a linearized approach fails. Focusing on the 2$d$ XX model with power-law decaying interactions, we compare our equilibrium predictions with unbiased quantum Monte Carlo results and exact diagonalization; and our non-equilibrium results with time-dependent variational Monte Carlo. The agreement is remarkable for all interaction ranges, and it improves the longer the range. Our rotor/spin-wave theory defines a successful strategy for the application of spin-wave theory and its extensions to finite-size systems at equilibrium or away from it.
翻訳日:2023-03-06 11:50:52 公開日:2023-03-03
# フォトニック結晶導波路に結合した2つの量子ドットの独立電気制御

Independent electrical control of two quantum dots coupled through a photonic-crystal waveguide ( http://arxiv.org/abs/2303.00345v2 )

ライセンス: Link先を確認
Xiao-Liu Chu, Camille Papon, Nikolai Bart, Andreas D. Wieck, Arne Ludwig, Leonardo Midolo, Nir Rotenberg, Peter Lodahl(参考訳) 単一光子レベルでの効率的な光・物質相互作用は、新しいフォトニック量子技術において極めて重要である。 基本的課題は複数の量子エミッタに一度に対処することであり、固体プラットフォームの固有の不均一性はそれぞれのエミッタの個別のチューニングを必要とする。 本稿では,光性結晶導波路に効率よく結合し,局所電気スターク場を適用して個別に制御可能な2つの半導体量子ドットエミッタの実現について述べる。 導波路への2つのエミッタの結合を調べるため、共振透過スペクトルと蛍光スペクトルを示す。 1つの量子ドットからの単一光子ストリームを利用して、導波路から16$\mu$m離れた第2の量子ドットで分光を行う。 さらに、パワー依存共鳴伝送測定により、エミッタ間のコヒーレント結合のシグネチャが明らかにされる。 我々の研究は、固体決定性光子エミッタに本質的に欠落しているマルチエミッタ集団結合を実現するためのスケーラブルな経路を提供する。

Efficient light-matter interaction at the single-photon level is of fundamental importance in emerging photonic quantum technology. A fundamental challenge is addressing multiple quantum emitters at once, as intrinsic inhomogeneities of solid-state platforms require individual tuning of each emitter. We present the realization of two semiconductor quantum dot emitters that are efficiently coupled to a photonic-crystal waveguide and individually controllable by applying a local electric Stark field. We present resonant transmission and fluorescence spectra in order to probe the coupling of the two emitters to the waveguide. We exploit the single-photon stream from one quantum dot to perform spectroscopy on the second quantum dot positioned 16$\mu$m away in the waveguide. Furthermore, power-dependent resonant transmission measurements reveals signatures of coherent coupling between the emitters. Our work provides a scalable route to realizing multi-emitter collective coupling, which has inherently been missing for solid-state deterministic photon emitters.
翻訳日:2023-03-06 11:50:20 公開日:2023-03-03
# TimeMAE: 切り離されたマスクオートエンコーダによる時系列の自己監督表現

TimeMAE: Self-Supervised Representations of Time Series with Decoupled Masked Autoencoders ( http://arxiv.org/abs/2303.00320v2 )

ライセンス: Link先を確認
Mingyue Cheng, Qi Liu, Zhiding Liu, Hao Zhang, Rujiao Zhang, Enhong Chen(参考訳) 自己教師付き事前学習による深層学習に基づく時系列モデルの表現能力の向上は,時系列分類においてますます普及している。 時系列データに対する自己教師付きモデルの開発には多くの努力が払われてきたが、sparse point-wise 入力ユニット上の一方向符号化のみのため、現在の手法では最適な時系列表現を学習するには不十分である。 本稿では,トランスフォーマーネットワークに基づく転送可能時系列表現を学習するための,新しい自己教師付きパラダイムであるtimemaeを提案する。 TimeMAEの特徴は、各時系列をウィンドウスライシングパーティショニングを介して非重複サブシリーズのシーケンスに処理し、続いて局所化されたサブシリーズのセマンティックユニットに対するランダムマスキング戦略である。 このような単純で効果的な設定は、1つの石で3羽の鳥を殺すこと、すなわち、2方向の符号化方式で時系列の豊かな文脈表現を学ぶこと、2基本的な意味単位の情報密度を高めること、3トランスフォーマーネットワークを用いた時系列の表現を効率的にエンコーディングすることに役立つ。 にもかかわらず、そのような新しい定式化モデリングパラダイムに対して再構成タスクを実行するのは簡単ではない。 新たに注入されたマスク埋め込みによって生じる不一致問題を解決するために,2つの異なるエンコーダモジュールを用いて,可視(未表示)位置の表現を学習する非結合オートエンコーダアーキテクチャを設計する。 さらに,2種類の情報的目標を構築し,それに対応する課題を遂行する。 1つは、各マスキング領域にコードワードを割り当てるトークン化モジュールを作成し、マスキングコードワード分類(MCC)タスクを効果的に完了させることである。

Enhancing the expressive capacity of deep learning-based time series models with self-supervised pre-training has become ever-increasingly prevalent in time series classification. Even though numerous efforts have been devoted to developing self-supervised models for time series data, we argue that the current methods are not sufficient to learn optimal time series representations due to solely unidirectional encoding over sparse point-wise input units. In this work, we propose TimeMAE, a novel self-supervised paradigm for learning transferrable time series representations based on transformer networks. The distinct characteristics of the TimeMAE lie in processing each time series into a sequence of non-overlapping sub-series via window-slicing partitioning, followed by random masking strategies over the semantic units of localized sub-series. Such a simple yet effective setting can help us achieve the goal of killing three birds with one stone, i.e., (1) learning enriched contextual representations of time series with a bidirectional encoding scheme; (2) increasing the information density of basic semantic units; (3) efficiently encoding representations of time series using transformer networks. Nevertheless, it is a non-trivial to perform reconstructing task over such a novel formulated modeling paradigm. To solve the discrepancy issue incurred by newly injected masked embeddings, we design a decoupled autoencoder architecture, which learns the representations of visible (unmasked) positions and masked ones with two different encoder modules, respectively. Furthermore, we construct two types of informative targets to accomplish the corresponding pretext tasks. One is to create a tokenizer module that assigns a codeword to each masked region, allowing the masked codeword classification (MCC) task to be completed effectively...
翻訳日:2023-03-06 11:50:03 公開日:2023-03-03
# 視覚ナビゲーションのためのRenderable Neural Radiance Map

Renderable Neural Radiance Map for Visual Navigation ( http://arxiv.org/abs/2303.00304v2 )

ライセンス: Link先を確認
Obin Kwon, Jeongho Park, Songhwai Oh(参考訳) 本研究では,3d環境全体の視覚情報を含むように設計された,描画可能な神経放射マップ(rnr-map)である視覚ナビゲーションのための新しいタイプのマップを提案する。 RNR-Mapはグリッド形式であり、各ピクセルの遅延符号で構成されている。 これらの潜在コードは画像観察から埋め込まれており、カメラのポーズによって画像レンダリングを可能にするニューラル・ラミアンス・フィールドに変換できる。 記録された潜伏符号には環境に関する情報が暗黙的に含まれており、RNR-Mapは視覚的に記述される。 RNR-Mapのこのビジュアル情報は、視覚的なローカライゼーションとナビゲーションに有用なガイドラインである。 RNRマップを効果的に活用するローカライズおよびナビゲーションフレームワークを開発する。 提案するカメラトラッキング,視覚的位置決め,画像ゴールナビゲーションのフレームワークを評価する。 実験結果から,RNR-Mapベースのローカライゼーションフレームワークは,他のベースラインと比較して高速かつ競合的な精度で,単一のクエリ画像に基づいて目標位置を見つけることができることがわかった。 また、このローカライゼーションフレームワークは環境変化に対して堅牢であり、異なる環境からのクエリイメージが与えられる場合に最も視覚的に類似した場所を見つける。 提案したナビゲーションフレームワークは,既存の画像ゴールナビゲーション手法よりも,音韻法やアクティベーションノイズの下で,困難なシナリオにおいて優れている。 ナビゲーションフレームワークはNRNSデータセットの湾曲したシナリオで65.7%の成功率を示しており、現在の最先端よりも18.6%改善されている。

We propose a novel type of map for visual navigation, a renderable neural radiance map (RNR-Map), which is designed to contain the overall visual information of a 3D environment. The RNR-Map has a grid form and consists of latent codes at each pixel. These latent codes are embedded from image observations, and can be converted to the neural radiance field which enables image rendering given a camera pose. The recorded latent codes implicitly contain visual information about the environment, which makes the RNR-Map visually descriptive. This visual information in RNR-Map can be a useful guideline for visual localization and navigation. We develop localization and navigation frameworks that can effectively utilize the RNR-Map. We evaluate the proposed frameworks on camera tracking, visual localization, and image-goal navigation. Experimental results show that the RNR-Map-based localization framework can find the target location based on a single query image with fast speed and competitive accuracy compared to other baselines. Also, this localization framework is robust to environmental changes, and even finds the most visually similar places when a query image from a different environment is given. The proposed navigation framework outperforms the existing image-goal navigation methods in difficult scenarios, under odometry and actuation noises. The navigation framework shows 65.7% success rate in curved scenarios of the NRNS dataset, which is an improvement of 18.6% over the current state-of-the-art.
翻訳日:2023-03-06 11:49:31 公開日:2023-03-03
# 敵対的コントラスト学習におけるデータ強化の効果の再考

Rethinking the Effect of Data Augmentation in Adversarial Contrastive Learning ( http://arxiv.org/abs/2303.01289v2 )

ライセンス: Link先を確認
Rundong Luo, Yifei Wang, Yisen Wang(参考訳) 近年の研究では, 自己指導型学習が, 対人訓練(AT)と統合された場合, 顕著な堅牢性を実現することが示されている。 しかし, 教師付きAT(sup-AT)と自己監督型AT(self-AT)との堅牢性ギャップは依然として大きい。 この観察に動機づけられ、既存のセルフアット法を再検討し、自己アットの堅牢性に影響を与える固有のジレンマを発見する: 強いデータ拡張または弱いデータ拡張は自己アットに有害であり、中間強度はギャップを橋渡しするのに不十分である。 このジレンマを解決するために,DYNACL(Dynamic Adversarial Contrastive Learning)というシンプルな治療法を提案する。 特に,強い増補から弱い増補へと徐々にアニールし,双方の極端な事例から恩恵を受ける増補スケジュールを提案する。 さらに、下流タスクに適応するために、高速な後処理ステージを採用しています。 CIFAR-10データセットにおいて、DYNACLはAuto-Attackの下で8.84%の最先端の自己ATロバスト性を向上でき、バニラ監督型対人訓練を初めて上回る結果となった。 私たちのコードは \url{https://github.com/PKU-ML/DYNACL} で利用可能です。

Recent works have shown that self-supervised learning can achieve remarkable robustness when integrated with adversarial training (AT). However, the robustness gap between supervised AT (sup-AT) and self-supervised AT (self-AT) remains significant. Motivated by this observation, we revisit existing self-AT methods and discover an inherent dilemma that affects self-AT robustness: either strong or weak data augmentations are harmful to self-AT, and a medium strength is insufficient to bridge the gap. To resolve this dilemma, we propose a simple remedy named DYNACL (Dynamic Adversarial Contrastive Learning). In particular, we propose an augmentation schedule that gradually anneals from a strong augmentation to a weak one to benefit from both extreme cases. Besides, we adopt a fast post-processing stage for adapting it to downstream tasks. Through extensive experiments, we show that DYNACL can improve state-of-the-art self-AT robustness by 8.84% under Auto-Attack on the CIFAR-10 dataset, and can even outperform vanilla supervised adversarial training for the first time. Our code is available at \url{https://github.com/PKU-ML/DYNACL}.
翻訳日:2023-03-06 11:41:26 公開日:2023-03-03
# 半教師付きセマンティックセグメンテーションのための衝突型クロスビュー整合性

Conflict-Based Cross-View Consistency for Semi-Supervised Semantic Segmentation ( http://arxiv.org/abs/2303.01276v2 )

ライセンス: Link先を確認
Zicheng Wang, Zhen Zhao, Luping Zhou, Dong Xu, Xiaoxia Xing, Xiangyu Kong(参考訳) 半教師付きセマンティックセグメンテーションは、大規模な完全注釈付きトレーニングデータの要求を効果的に活用することで、研究の関心が高まっている。 現在の手法は、しばしば擬似ラベルプロセスからの確認バイアスに苦しむが、これは共学習フレームワークによって軽減される。 現在のco-training-based semi-supervised semantic segmentationメソッドは、異なるサブネットが互いに崩壊しないように手作りの摂動に依存しているが、これらの人工摂動は最適な解を導くことはできない。 本研究では,半教師付きセマンティクスセグメンテーションのための2分岐コトレーニングフレームワークに基づく,コンフリクトベースのクロスビュー一貫性(ccvc)手法を提案する。 本研究の目的は,2つのサブネットに無関係な視点から情報的特徴を学習させることである。 特に,2つのサブネットが特徴差損失を導入して同一入力から異なる特徴を学習することを奨励する新たなクロスビュー整合性(CVC)戦略を提案し,これらの特徴は入力の一貫性のある予測スコアを生成することが期待されている。 CVC戦略は、2つのサブネットが崩壊するのを防ぐのに役立つ。 さらに,コンフリクトベースの擬似ラベリング(CPL)手法を提案し,モデルが競合予測からより有用な情報を学ぶことを保証し,安定したトレーニングプロセスを実現する。 我々はPASCAL VOC 2012とCityscapesで広く使われているベンチマークデータセットに対して,新しい半教師付きセマンティックセマンティックセマンティックセマンティクスアプローチを検証する。

Semi-supervised semantic segmentation has recently gained increasing research interest as it can reduce the requirement for large-scale fully-annotated training data by effectively exploiting large amounts of unlabelled data. The current methods often suffer from the confirmation bias from the pseudo-labelling process, which can be alleviated by the co-training framework. The current co-training-based semi-supervised semantic segmentation methods rely on hand-crafted perturbations to prevent the different sub-nets from collapsing into each other, but these artificial perturbations cannot lead to the optimal solution. In this work, we propose a new conflict-based cross-view consistency (CCVC) method based on a two-branch co-training framework for semi-supervised semantic segmentation. Our work aims at enforcing the two sub-nets to learn informative features from irrelevant views. In particular, we first propose a new cross-view consistency (CVC) strategy that encourages the two sub-nets to learn distinct features from the same input by introducing a feature discrepancy loss, while these distinct features are expected to generate consistent prediction scores of the input. The CVC strategy helps to prevent the two sub-nets from stepping into the collapse. In addition, we further propose a conflict-based pseudo-labelling (CPL) method to guarantee the model will learn more useful information from conflicting predictions, which will lead to a stable training process. We validate our new semi-supervised semantic segmentation approach on the widely used benchmark datasets PASCAL VOC 2012 and Cityscapes, where our method achieves new state-of-the-art performance.
翻訳日:2023-03-06 11:41:05 公開日:2023-03-03
# アルツハイマー病に対するEvidence-empowered Transfer Learning

Evidence-empowered Transfer Learning for Alzheimer's Disease ( http://arxiv.org/abs/2303.01105v2 )

ライセンス: Link先を確認
Kai Tzu-iunn Ong, Hana Kim, Minjin Kim, Jinseong Jang, Beomseok Sohn, Yoon Seong Choi, Dosik Hwang, Seong Jae Hwang, Jinyoung Yeo(参考訳) 転送学習は、アルツハイマー病(AD)の分野でのデータ不足を緩和するために広く利用されている。 従来の転写学習は、自然画像分類のようなAD非関連タスクで訓練された再利用モデルに依存している。 しかし、非医療的源と対象の医療領域の相違により、しばしば負の移動を引き起こす。 そこで我々はAD診断にエビデンスを応用した転写学習を提案する。 従来の手法とは違って,付加的なMRIデータを必要としないAD関連補助タスク,すなわち形態変化予測を利用する。 この補助課題において、診断モデルはMRIスキャンにおける形態的特徴から明らかかつ伝達可能な知識を学習する。 実験の結果,モデルキャパシティによらず検出性能の向上に有効であるだけでなく,データ効率と信頼性も向上した。

Transfer learning has been widely utilized to mitigate the data scarcity problem in the field of Alzheimer's disease (AD). Conventional transfer learning relies on re-using models trained on AD-irrelevant tasks such as natural image classification. However, it often leads to negative transfer due to the discrepancy between the non-medical source and target medical domains. To address this, we present evidence-empowered transfer learning for AD diagnosis. Unlike conventional approaches, we leverage an AD-relevant auxiliary task, namely morphological change prediction, without requiring additional MRI data. In this auxiliary task, the diagnosis model learns the evidential and transferable knowledge from morphological features in MRI scans. Experimental results demonstrate that our framework is not only effective in improving detection performance regardless of model capacity, but also more data-efficient and faithful.
翻訳日:2023-03-06 11:40:36 公開日:2023-03-03
# Google USM:100言語を超えて自動音声認識をスケール

Google USM: Scaling Automatic Speech Recognition Beyond 100 Languages ( http://arxiv.org/abs/2303.01037v2 )

ライセンス: Link先を確認
Yu Zhang, Wei Han, James Qin, Yongqiang Wang, Ankur Bapna, Zhehuai Chen, Nanxin Chen, Bo Li, Vera Axelrod, Gary Wang, Zhong Meng, Ke Hu, Andrew Rosenberg, Rohit Prabhavalkar, Daniel S. Park, Parisa Haghani, Jason Riesa, Ginger Perng, Hagen Soltau, Trevor Strohman, Bhuvana Ramabhadran, Tara Sainath, Pedro Moreno, Chung-Cheng Chiu, Johan Schalkwyk, Fran\c{c}oise Beaufays, Yonghui Wu(参考訳) 我々は,100以上の言語で自動音声認識(asr)を行う単一大規模モデルであるuniversal speech model (usm)を提案する。 これは300以上の言語にまたがる1200万時間(M)の大規模ラベル付き多言語データセットでモデルのエンコーダを事前トレーニングし、より小さなラベル付きデータセットで微調整することで達成される。 我々は,多言語事前学習とランダム投影量子化と音声-テキスト・モダリティマッチングを用いて,下流多言語ASRおよび音声-テキスト翻訳タスクの最先端性能を実現する。 また,Whisperモデルでは,ラベル付きトレーニングセットを1/7の規模で使用しても,ドメイン内およびドメイン外音声認識タスクにおいて,同等あるいは優れた性能を示すことを示す。

We introduce the Universal Speech Model (USM), a single large model that performs automatic speech recognition (ASR) across 100+ languages. This is achieved by pre-training the encoder of the model on a large unlabeled multilingual dataset of 12 million (M) hours spanning over 300 languages, and fine-tuning on a smaller labeled dataset. We use multilingual pre-training with random-projection quantization and speech-text modality matching to achieve state-of-the-art performance on downstream multilingual ASR and speech-to-text translation tasks. We also demonstrate that despite using a labeled training set 1/7-th the size of that used for the Whisper model, our model exhibits comparable or better performance on both in-domain and out-of-domain speech recognition tasks across many languages.
翻訳日:2023-03-06 11:40:25 公開日:2023-03-03
# グラフニューラルネットワークの潜在構造と複数特徴を考慮した注意型グラフ畳み込み

Attention-based Graph Convolution Fusing Latent Structures and Multiple Features for Graph Neural Networks ( http://arxiv.org/abs/2303.00944v2 )

ライセンス: Link先を確認
Yang Li and Yuichi Tanaka(参考訳) 本稿では,グラフニューラルネットワーク(GNN)のための注意型空間グラフ畳み込み(AGC)を提案する。 既存のAGCはノードワイズ機能のみに焦点をあて、注意重みを計算する際に1種類の注意関数を利用する。 代わりに、AGCの表現力を改善するための2つの方法を提案する。 1)高次元空間における構造情報と 2)重みを計算する際の複数の注意機能。 第1の方法は、高次元空間におけるグラフの局所構造表現を計算する。 第2の方法は、1つのAGCで同時に複数の注意関数を利用する。 どちらのアプローチも組み合わせることができる。 また,ポイントクラウドの分類と,提案するagcに基づくポイントクラウド内のポイントラベルの予測のためのgnnを提案する。 実験の結果,提案したGNNは既存手法よりも優れた性能を示した。 私たちのコードはhttps://github.com/liyang-tuat/SFAGCで公開されています。

We present an attention-based spatial graph convolution (AGC) for graph neural networks (GNNs). Existing AGCs focus on only using node-wise features and utilizing one type of attention function when calculating attention weights. Instead, we propose two methods to improve the representational power of AGCs by utilizing 1) structural information in a high-dimensional space and 2) multiple attention functions when calculating their weights. The first method computes a local structure representation of a graph in a high-dimensional space. The second method utilizes multiple attention functions simultaneously in one AGC. Both approaches can be combined. We also propose a GNN for the classification of point clouds and that for the prediction of point labels in a point cloud based on the proposed AGC. According to experiments, the proposed GNNs perform better than existing methods. Our codes open at https://github.com/liyang-tuat/SFAGC.
翻訳日:2023-03-06 11:40:07 公開日:2023-03-03
# 接触力場の触覚測定によるすべり検出の学習とそのエントロピー

Learning to Detect Slip through Tactile Measures of the Contact Force Field and its Entropy ( http://arxiv.org/abs/2303.00935v2 )

ライセンス: Link先を確認
Xiaohai Hu, Aparajit Venkatesh, Guiliang Zheng, and Xu Chen(参考訳) 物体の把持と操作におけるすべりの検出は,物体ハンドリングにおいて重要な役割を果たす。 既存のソリューションは主に視覚情報に依存して、把握のための戦略を考案する。 それでも、人間の習熟度を達成し、不慣れな物体の一貫した把握と操作を達成するためには、人工触覚センサーの導入がロボットシステムにおいて必要となっている。 本研究では,リアルタイムにスリップを連続的に検出する新しい物理モデルとデータ駆動手法を提案する。 光学式触覚センサーであるGelSight Miniは、触覚を読み取るためのグリップに装着されている。 本研究は,スリップイベント時の触覚センサ読み取りの不均一性を活用し,特徴を発達させ,スリップ検出を分類問題として定式化する。 提案手法を評価するため, 異なる負荷条件, テクスチャ, 材料条件下で10個の共通オブジェクト上で複数のデータ駆動モデルをテストする。 その結果,最高の分類アルゴリズムでは平均99%の精度が得られた。 本稿では,リアルタイムスリップ検出・防止アルゴリズムを実装した動的ロボットマニピュレーションタスクにおける本手法の適用例を示す。

Detection of slip during object grasping and manipulation plays a vital role in object handling. Existing solutions largely depend on visual information to devise a strategy for grasping. Nonetheless, in order to achieve proficiency akin to humans and achieve consistent grasping and manipulation of unfamiliar objects, the incorporation of artificial tactile sensing has become a necessity in robotic systems. In this work, we propose a novel physics-informed, data-driven method to detect slip continuously in real time. The GelSight Mini, an optical tactile sensor, is mounted on custom grippers to acquire tactile readings. Our work leverages the inhomogeneity of tactile sensor readings during slip events to develop distinctive features and formulates slip detection as a classification problem. To evaluate our approach, we test multiple data-driven models on 10 common objects under different loading conditions, textures, and materials. Our results show that the best classification algorithm achieves an average accuracy of 99%. We demonstrate the application of this work in a dynamic robotic manipulation task in which real-time slip detection and prevention algorithm is implemented.
翻訳日:2023-03-06 11:39:56 公開日:2023-03-03
# サイバーセキュリティにおけるアクティブラーニングの実践: 改ざんメールにおける異常検出

Implementing Active Learning in Cybersecurity: Detecting Anomalies in Redacted Emails ( http://arxiv.org/abs/2303.00870v2 )

ライセンス: Link先を確認
Mu-Huan Chung, Lu Wang, Sharon Li, Yuhong Yang, Calvin Giang, Khilan Jerath, Abhay Raman, David Lie, Mark Chignell(参考訳) 電子メール異常検出の研究は、通常、業界設定で発生するデータの種類を適切に反映しない特殊なデータセットに依存している。 当社の研究では、大手金融サービス会社において、プライバシーに関する懸念が、電子メールや添付ファイルの詳細(主題の見出しと添付ファイル名があったが)のボディの検査を妨げました。 これにより、改ざんされたメールのラベリングがより困難になった。 もうひとつの難題は、大量の電子メールと、機械学習(ML)を必須とするリソースの不足が組み合わさって、MLモデルのより効率的な人的トレーニングの必要性も生み出していることだ。 MLモデルの人間のトレーニングをより効率的にする手段として、アクティブラーニング(AL)が提案されている。 しかし、アクティブラーニング手法の実装は、潜在的な人間アナリストの不確実性による人間中心のai課題であり、ラベル付け作業は、ラベル付けの誤りが極めて悪影響をもたらすサイバーセキュリティドメイン(あるいは医療、航空など)のような領域においてさらに複雑になる可能性がある。 本稿では,この文脈で能動学習を実践するための異なる手法の有用性を比較し,メールの異常検出に能動学習を適用した研究結果について述べる。 異なるal戦略とそのモデル性能への影響を評価した。 また、専門家がレーベルに持つ信頼度の評価がalにどのように影響するかについても検討する。 その結果,al方法論とモデル支援メール異常スクリーニングにおける専門家の役割について考察した。

Research on email anomaly detection has typically relied on specially prepared datasets that may not adequately reflect the type of data that occurs in industry settings. In our research, at a major financial services company, privacy concerns prevented inspection of the bodies of emails and attachment details (although subject headings and attachment filenames were available). This made labeling possible anomalies in the resulting redacted emails more difficult. Another source of difficulty is the high volume of emails combined with the scarcity of resources making machine learning (ML) a necessity, but also creating a need for more efficient human training of ML models. Active learning (AL) has been proposed as a way to make human training of ML models more efficient. However, the implementation of Active Learning methods is a human-centered AI challenge due to potential human analyst uncertainty, and the labeling task can be further complicated in domains such as the cybersecurity domain (or healthcare, aviation, etc.) where mistakes in labeling can have highly adverse consequences. In this paper we present research results concerning the application of Active Learning to anomaly detection in redacted emails, comparing the utility of different methods for implementing active learning in this context. We evaluate different AL strategies and their impact on resulting model performance. We also examine how ratings of confidence that experts have in their labels can inform AL. The results obtained are discussed in terms of their implications for AL methodology and for the role of experts in model-assisted email anomaly screening.
翻訳日:2023-03-06 11:39:39 公開日:2023-03-03
# ラプラス方程式を組み込んだ深層学習フレームワークを用いた皮質灰白質の深部硫黄分画の改善

Improved Segmentation of Deep Sulci in Cortical Gray Matter Using a Deep Learning Framework Incorporating Laplace's Equation ( http://arxiv.org/abs/2303.00795v2 )

ライセンス: Link先を確認
Sadhana Ravikumar, Ranjit Ittyerah, Sydney Lim, Long Xie, Sandhitsu Das, Pulkit Khandelwal, Laura E.M. Wisse, Madigan L. Bedard, John L. Robinson, Terry Schuck, Murray Grossman, John Q. Trojanowski, Edward B. Lee, M. Dylan Tisdall, Karthik Prabhakaran, John A. Detre, David J. Irwin, Winifred Trotman, Gabor Mizsei, Emilio Artacho-P\'erula, Maria Mercedes I\~niguez de Onzono Martin, Maria del Mar Arroyo Jim\'enez, Monica Mu\~noz, Francisco Javier Molina Romero, Maria del Pilar Marcos Rabal, Sandra Cebada-S\'anchez, Jos\'e Carlos Delgado Gonz\'alez, Carlos de la Rosa-Prieto, Marta C\'orcoles Parada, David A. Wolk, Ricardo Insausti, Paul A. Yushkevich(参考訳) 自動大脳皮質セグメンテーションのためのツールを開発する際には,幾何的に有効な形態計測値を計算するために,位相的に正しいセグメンテーションを生成する能力が重要である。 実際には、正確な皮質セグメンテーションは、画像アーティファクトと、大脳皮質自体の非常に複雑な解剖によって挑戦される。 そこで本研究では,学習過程中に皮質の形状に関する事前知識をネットワークに組み込む,新しい深層学習に基づく皮質セグメンテーション手法を提案する。 ラプラス方程式を大脳皮質に適用した損失関数を設計し、密に折り畳まれたサッチ間の未解決境界を局所的に解析する。 ヒトの側頭葉標本の生体外MRIデータセットを用いて,本手法が定量的および定性的にベースラインセグメンテーションネットワークより優れていることを示す。

When developing tools for automated cortical segmentation, the ability to produce topologically correct segmentations is important in order to compute geometrically valid morphometry measures. In practice, accurate cortical segmentation is challenged by image artifacts and the highly convoluted anatomy of the cortex itself. To address this, we propose a novel deep learning-based cortical segmentation method in which prior knowledge about the geometry of the cortex is incorporated into the network during the training process. We design a loss function which uses the theory of Laplace's equation applied to the cortex to locally penalize unresolved boundaries between tightly folded sulci. Using an ex vivo MRI dataset of human medial temporal lobe specimens, we demonstrate that our approach outperforms baseline segmentation networks, both quantitatively and qualitatively.
翻訳日:2023-03-06 11:39:16 公開日:2023-03-03