このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230402となっている論文です。

PDF登録状況(公開日: 20230402)

TitleAuthorsAbstract論文公表日・翻訳日
# MWaste: 家庭廃棄物管理の深層学習アプローチ

MWaste: A Deep Learning Approach to Manage Household Waste ( http://arxiv.org/abs/2304.14498v1 )

ライセンス: Link先を確認
Suman Kunwar(参考訳) コンピュータビジョンの手法は, ごみを廃棄物処理のリサイクルカテゴリに分類するのに有効であることが示されており, 既存の手法は費用がかかり, 不正確で不明瞭である。 この問題を解決するために, コンピュータビジョンとディープラーニング技術を用いて廃棄物をゴミ, プラスチック, 紙, 金属, ガラス, または段ボールに分類するモバイルアプリケーションであるmwasteを紹介する。 その効果は、様々なニューラルネットワークアーキテクチャと実世界の画像でテストされ、テストセットで平均精度92\%に達した。 このアプリは、効率的な廃棄物処理を可能にし、不正な廃棄物処理による温室効果ガスの発生を減らすことで、気候変動対策に役立つ。

Computer vision methods have shown to be effective in classifying garbage into recycling categories for waste processing, existing methods are costly, imprecise, and unclear. To tackle this issue, we introduce MWaste, a mobile application that uses computer vision and deep learning techniques to classify waste materials as trash, plastic, paper, metal, glass or cardboard. Its effectiveness was tested on various neural network architectures and real-world images, achieving an average precision of 92\% on the test set. This app can help combat climate change by enabling efficient waste processing and reducing the generation of greenhouse gases caused by incorrect waste disposal.
翻訳日:2023-05-07 16:22:37 公開日:2023-04-02
# altiro3D:単一画像からのシーン表現と新しいビュー合成

altiro3D: Scene representation from single image and novel view synthesis ( http://arxiv.org/abs/2304.11161v1 )

ライセンス: Link先を確認
E. Canessa and L. Tenze(参考訳) Altiro3Dは、与えられたRGB画像やフラットビデオから現実を表現するために開発されたフリー拡張ライブラリである。 ライトフィールド(あるいはネイティブ)の画像やビデオを生成して、リアルな3D体験を得られる。 仮想画像のN個数を合成し,それらをQuiltコラージュに順次付加するために,単眼深度推定のためのMiDaSモデル,全画素をマッピングするシンプルなOpenCVおよびTeleaインペイント技術,N視点に沿った3Dプロジェクションカメラとシーン変換を扱う「ファスト」アルゴリズムを実装した。 深度の度合いを使ってピクセルを比例的に移動させ、元の画像がすべての視点の中心にあると仮定する。 altiro3D は DIBR アルゴリズムを用いて N-geometric views と等価な 'Real (slower)' カメラから中間スナップショットを計算することもできる。 計算時間を最適化するために、ピクセルとデバイスベースのルックアップテーブルを採用しています。 フリービューLCDディスプレイには、単一の画像又はフレームから生成された複数の視点及び映像を表示することができる。

We introduce altiro3D, a free extended library developed to represent reality starting from a given original RGB image or flat video. It allows to generate a light-field (or Native) image or video and get a realistic 3D experience. To synthesize N-number of virtual images and add them sequentially into a Quilt collage, we apply MiDaS models for the monocular depth estimation, simple OpenCV and Telea inpainting techniques to map all pixels, and implement a 'Fast' algorithm to handle 3D projection camera and scene transformations along N-viewpoints. We use the degree of depth to move proportionally the pixels, assuming the original image to be at the center of all the viewpoints. altiro3D can also be used with DIBR algorithm to compute intermediate snapshots from a equivalent 'Real (slower)' camera with N-geometric viewpoints, which requires to calibrate a priori several intrinsic and extrinsic camera parameters. We adopt a pixel- and device-based Lookup Table to optimize computing time. The multiple viewpoints and video generated from a single image or frame can be displayed in a free-view LCD display.
翻訳日:2023-04-30 07:46:45 公開日:2023-04-02
# 量子球体のボルツマン系の融解について

On melting of Boltzmann system of quantum hard spheres ( http://arxiv.org/abs/2304.03770v1 )

ライセンス: Link先を確認
S.M. Stishov(参考訳) 強球の量子系の融解は、ボースとフェルミの統計の影響を無視できる場合に考慮されている。 量子融解線は、両線が交差するt=0, p=0を除いて、常に古典直線とは異なることが判明している。 古典極限は有限温度では到達できないことが示されている。

Melting of a quantum system of hard spheres has been considered in the case when the effects of Bose and Fermi statistics can be neglected. It has been found that the quantum melting line always differs from the classical line with exception for T=0, P=0, where the both lines crossed. It is shown that the classical limit is not reachable at any finite temperatures.
翻訳日:2023-04-16 22:35:33 公開日:2023-04-02
# 有限個の {\alpha}-一様分布点を持つ円上の量子力学

Quantum mechanics on a circle with a finite number of {\alpha}-uniformly distributed points ( http://arxiv.org/abs/2304.03176v1 )

ライセンス: Link先を確認
Won Sang Chung, Ilyas Haouam, Hassan Hassanabadi(参考訳) 本稿では,有限個の {\alpha}-一様分布点を持つ円上の量子力学について述べる。 角度演算子と変換演算子を定義する。 離散角表現を用いて、d {\alpha} 分散離散角を持つ円上の2種類の離散角運動量作用素とエルミートハミルトニアンを構成する。 エネルギー準位は、波動関数がd.alpha}分散離散角で定義される円上の自由粒子に対して計算される。

In this paper, quantum mechanics on a circle with finite number of {\alpha}-uniformly distributed points is discussed. The angle operator and translation operator are defined. Using discrete angle representation, two types of discrete angular momentum operators and Hermitian Hamiltonian on a circle with d {\alpha}-distributed discrete angles are constructed. The energy levels are computed for a free particle on a circle where the wave function is defined in the d {\alpha}-distributed discrete angles.
翻訳日:2023-04-07 13:31:57 公開日:2023-04-02
# マクスウェル場の直接量子化について

On the direct quantization of Maxwell field ( http://arxiv.org/abs/2304.02018v1 )

ライセンス: Link先を確認
Warda Benarab, Zahir Belhadi(参考訳) 本稿では,フィールド理論における一般化積分定数法を適用し,maxwell と klein-gordon 自由場を定量化する。 この研究は位置空間と運動量空間の両方で行われ、フィールドと共役モーメントの間の等時間ディラックブラケットを得る。 このアイデアはテイラー多項式展開を用いて初期瞬間の近くでブラケットを取得し、後から直接それらの表現を推論する。 マクスウェル場の場合、場の成分 (constraints) の相互依存は、横方向と縦方向の部分を分離するためにヘルムホルツの定理を使う必要がある。 キーワード:特異系、制約、ディラック括弧、CI法、テイラー展開、KG場、マックスウェル場、フーリエ変換、ヘルムホルツ分解。

In this paper, we apply the generalized integration constants method in field theory to quantize Maxwell and the Klein-Gordon free fields. The study is performed in both position and momentum spaces, to obtain equal-time Dirac brackets among the fields and their conjugate momenta. The idea is to obtain the brackets near the initial instant using the Taylor polynomial expansion, and then deduce directly their expressions at any later time. In the case of the Maxwell field, the interdependence of the field components (constraints) requires the use the Helmholtz theorem to separate the transversal and longitudinal parts. Keywords : Singular systems, constraints, Dirac brackets, CI method, Taylor expansion, KG field, Maxwell field, Fourier transform, Helmholtz decomposition.
翻訳日:2023-04-06 14:32:42 公開日:2023-04-02
# mcmcによるベイジアンニューラルネットワーク: pythonベースのチュートリアル

Bayesian neural networks via MCMC: a Python-based tutorial ( http://arxiv.org/abs/2304.02595v1 )

ライセンス: Link先を確認
Rohitash Chandra, Royce Chen, Joshua Simmons(参考訳) ベイズ推論は、機械学習およびディープラーニング手法におけるパラメータ推定と不確実性定量化のための方法論を提供する。 変分推論とマルコフ連鎖モンテカルロ(mcmc)サンプリング技術はベイズ推論を実装するために用いられる。 過去30年間、MCMCの手法は、大規模なモデル(ディープラーニングなど)やビッグデータ問題に適応する上で、多くの課題に直面してきた。 Langevinの提案分布のような勾配を組み込んだ高度な提案は、ベイズニューラルネットワークのMCMCサンプリングの制限に対処する手段を提供する。 さらに、MCMC法は通常統計学者によって使用されることが制限されており、深層学習研究者の間ではまだ顕著ではない。 本稿では,単純なベイズ線形およびロジスティックモデルとベイズニューラルネットワークをカバーするMCMC手法のチュートリアルを提案する。 このチュートリアルの目的は、ライブラリとチュートリアルの汎用性を与えられた、プログラミングによる理論と実装のギャップを埋めることである。 このチュートリアルはPythonのコードに、その使用と拡張を可能にするデータと命令を提供する。 我々は,各ベイズモデルの実装の強みと弱みをmcmcで示すベンチマーク問題に対する結果を提供する。 本稿では,特にベイズ型ニューラルネットワークにおけるマルチモーダル後方分布のサンプリングにおける課題と,コンバージェンス診断のさらなる改善の必要性について述べる。

Bayesian inference provides a methodology for parameter estimation and uncertainty quantification in machine learning and deep learning methods. Variational inference and Markov Chain Monte-Carlo (MCMC) sampling techniques are used to implement Bayesian inference. In the past three decades, MCMC methods have faced a number of challenges in being adapted to larger models (such as in deep learning) and big data problems. Advanced proposals that incorporate gradients, such as a Langevin proposal distribution, provide a means to address some of the limitations of MCMC sampling for Bayesian neural networks. Furthermore, MCMC methods have typically been constrained to use by statisticians and are still not prominent among deep learning researchers. We present a tutorial for MCMC methods that covers simple Bayesian linear and logistic models, and Bayesian neural networks. The aim of this tutorial is to bridge the gap between theory and implementation via coding, given a general sparsity of libraries and tutorials to this end. This tutorial provides code in Python with data and instructions that enable their use and extension. We provide results for some benchmark problems showing the strengths and weaknesses of implementing the respective Bayesian models via MCMC. We highlight the challenges in sampling multi-modal posterior distributions in particular for the case of Bayesian neural networks, and the need for further improvement of convergence diagnosis.
翻訳日:2023-04-06 11:56:28 公開日:2023-04-02
# フーリエニューラル演算子に基づく分解能不変画像分類

Resolution-Invariant Image Classification based on Fourier Neural Operators ( http://arxiv.org/abs/2304.01227v1 )

ライセンス: Link先を確認
Samira Kabri, Tim Roith, Daniel Tenbrinck, Martin Burger(参考訳) 本稿では,画像分類におけるフーリエニューラルネットワーク(fnos)の利用について,標準畳み込みニューラルネットワーク(cnns)と比較して検討する。 ニューラル作用素は、無限次元関数空間間の近似作用素に対するニューラルネットワークの離散化不変な一般化である。 特定のパラメトリゼーションを持つニューラル演算子であるFNOは、パラメトリックPDEの文脈でうまく適用されている。 我々は、ルベーグ空間上の連続およびFr'echet微分可能なニューラル作用素の例としてFNOアーキテクチャを導出する。 さらに, cnn を fnos に変換する方法を示し, アーキテクチャの補間同変適応を提案する。

In this paper we investigate the use of Fourier Neural Operators (FNOs) for image classification in comparison to standard Convolutional Neural Networks (CNNs). Neural operators are a discretization-invariant generalization of neural networks to approximate operators between infinite dimensional function spaces. FNOs - which are neural operators with a specific parametrization - have been applied successfully in the context of parametric PDEs. We derive the FNO architecture as an example for continuous and Fr\'echet-differentiable neural operators on Lebesgue spaces. We further show how CNNs can be converted into FNOs and vice versa and propose an interpolation-equivariant adaptation of the architecture.
翻訳日:2023-04-05 17:14:35 公開日:2023-04-02
# ハイパーグラフコントラスト学習による異常事象検出

Abnormal Event Detection via Hypergraph Contrastive Learning ( http://arxiv.org/abs/2304.01226v1 )

ライセンス: Link先を確認
Bo Yan, Cheng Yang, Chuan Shi, Jiawei Liu, Xiaochen Wang(参考訳) 異常事象検出は、関係するエンティティ間の異常な相互作用をマイニングすることを指し、多くの実アプリケーションにおいて重要な役割を果たす。 以前の作業は、ほとんどが異常なペアワイズインタラクションの検出として、このタスクを過度に単純化する。 しかし、現実世界のイベントには、多種類の属性を持つエンティティとそれら間の複雑な相互作用が含まれ、AHIN(Attributed Heterogeneous Information Network)を形成する。 ソーシャルネットワークのブームにより、AHINの異常事象検出は重要な課題となっているが、ほとんど探索されない。 本稿ではまず,AHINにおける異常事象検出問題について検討する。 これらの事象はahinの星スキーマの例と見なされ、さらにハイパーグラフによってモデル化される。 AEHCLと呼ばれる新しいハイパーグラフコントラスト学習法が,異常事象のパターンをフルに捉えるために提案されている。 aehclは自己教師付きahin情報を利用するためにイベント内およびイベント間コントラストモジュールを設計する。 イベント内コントラストモジュールはイベント内のペアワイズおよび多変量相互作用異常をキャプチャし、イベント間モジュールはイベント間のコンテキスト異常をキャプチャする。 これら2つのモジュールは互いに協調的に性能を高め、検出結果を改善する。 テストフェーズでは、イベントの異常度を測定するために、コントラスト学習に基づく異常イベントスコア関数も提案されている。 異なるシナリオにおける3つのデータセットの大規模な実験は、AEHCLの有効性を示し、その結果、平均精度(AP)が12.0%、面積曲線(AUC)が4.6%まで改善された。

Abnormal event detection, which refers to mining unusual interactions among involved entities, plays an important role in many real applications. Previous works mostly over-simplify this task as detecting abnormal pair-wise interactions. However, real-world events may contain multi-typed attributed entities and complex interactions among them, which forms an Attributed Heterogeneous Information Network (AHIN). With the boom of social networks, abnormal event detection in AHIN has become an important, but seldom explored task. In this paper, we firstly study the unsupervised abnormal event detection problem in AHIN. The events are considered as star-schema instances of AHIN and are further modeled by hypergraphs. A novel hypergraph contrastive learning method, named AEHCL, is proposed to fully capture abnormal event patterns. AEHCL designs the intra-event and inter-event contrastive modules to exploit self-supervised AHIN information. The intra-event contrastive module captures the pair-wise and multivariate interaction anomalies within an event, and the inter-event module captures the contextual anomalies among events. These two modules collaboratively boost the performance of each other and improve the detection results. During the testing phase, a contrastive learning-based abnormal event score function is further proposed to measure the abnormality degree of events. Extensive experiments on three datasets in different scenarios demonstrate the effectiveness of AEHCL, and the results improve state-of-the-art baselines up to 12.0% in Average Precision (AP) and 4.6% in Area Under Curve (AUC) respectively.
翻訳日:2023-04-05 17:14:26 公開日:2023-04-02
# 配車ネットワークにおける車両利用拡大のための欲望的アプローチ

A greedy approach for increased vehicle utilization in ridesharing networks ( http://arxiv.org/abs/2304.01225v1 )

ライセンス: Link先を確認
Aqsa Ashraf Makhdomi and Iqra Altaf Gillani(参考訳) 近年、ライドシェアリングプラットフォームは都市部の住民にとって重要な交通手段となっている。 基本的な問題として、これらのプラットフォームへのルートレコメンデーションはその持続性に不可欠である。 この方向の工事は旅客需要の高い路線を推奨している。 既存の研究にもかかわらず、これらのサービスは、乗客を探し回っているときに、民間車に比べて温室効果ガスの排出が増加することを示唆している。 この分析は、配車システムの機能に関するより詳細な情報を提供し、そのブームに直面して、車両のキャパシティーを効率的に活用していないことを明らかにする。 我々は、上記の制限を克服し、同時に複数の乗客を引き出す経路を推奨し、その結果、車両の利用が増加し、これらのシステムが環境に与える影響を減らすことを提案する。 経路推薦はNPハードであるため,道路網全体からウィンドウへの探索空間を削減するk-hopベースのスライディングウインドウ近似アルゴリズムを提案する。 さらに,期待需要の最大化はサブモジュラーであり,ウィンドウ内の目的関数を最適化するためにグリーディアルゴリズムが使用できることを示す。 実世界のデータセット上で提案したモデルを評価し,実験結果から提案モデルによる優れた性能を示す。

In recent years, ridesharing platforms have become a prominent mode of transportation for the residents of urban areas. As a fundamental problem, route recommendation for these platforms is vital for their sustenance. The works done in this direction have recommended routes with higher passenger demand. Despite the existing works, statistics have suggested that these services cause increased greenhouse emissions compared to private vehicles as they roam around in search of riders. This analysis provides finer details regarding the functionality of ridesharing systems and it reveals that in the face of their boom, they have not utilized the vehicle capacity efficiently. We propose to overcome the above limitations and recommend routes that will fetch multiple passengers simultaneously which will result in increased vehicle utilization and thereby decrease the effect of these systems on the environment. As route recommendation is NP-hard, we propose a k-hop-based sliding window approximation algorithm that reduces the search space from entire road network to a window. We further demonstrate that maximizing expected demand is submodular and greedy algorithms can be used to optimize our objective function within a window. We evaluate our proposed model on real-world datasets and experimental results demonstrate superior performance by our proposed model.
翻訳日:2023-04-05 17:14:03 公開日:2023-04-02
# knnモデルに対するo(2^n)からo(t n^2)へのデータシェープリー相互作用計算の最適化

Optimizing Data Shapley Interaction Calculation from O(2^n) to O(t n^2) for KNN models ( http://arxiv.org/abs/2304.01224v1 )

ライセンス: Link先を確認
Mohamed Karim Belaid, Dorra El Mekki, Maximilian Rabus, Eyke H\"ullermeier(参考訳) データ可用性と利用の急激な増加に伴い、各トレーニングデータポイントの付加価値の定量化は、人工知能分野において重要なプロセスとなっている。 Shapleyの値はデータ評価の効果的な方法として認識されており、効率的なトレーニングセットの要約、取得、アウトラヤ除去を可能にしている。 本稿では,ベースライン法のo(2^n)$時間複雑性よりも大幅に改善した,knモデルの正確な対相互作用シェープリー値をo(t n^2)時間で計算する革新的なアルゴリズムであるsti-knnを提案する。 sti-knnを用いることで、個々のデータポイントの価値を効率的かつ正確に評価し、トレーニング結果の改善と、最終的には人工知能アプリケーションの有効性を高めることができる。

With the rapid growth of data availability and usage, quantifying the added value of each training data point has become a crucial process in the field of artificial intelligence. The Shapley values have been recognized as an effective method for data valuation, enabling efficient training set summarization, acquisition, and outlier removal. In this paper, we introduce "STI-KNN", an innovative algorithm that calculates the exact pair-interaction Shapley values for KNN models in O(t n^2) time, which is a significant improvement over the O(2^n)$ time complexity of baseline methods. By using STI-KNN, we can efficiently and accurately evaluate the value of individual data points, leading to improved training outcomes and ultimately enhancing the effectiveness of artificial intelligence applications.
翻訳日:2023-04-05 17:13:44 公開日:2023-04-02
# オイラー方程式上の最適質量輸送

Optimal Mass Transport over the Euler Equation ( http://arxiv.org/abs/2304.00595v1 )

ライセンス: Link先を確認
Charlie Yan, Iman Nodozi, Abhishek Halder(参考訳) 共役状態確率分布の有限地平線最適ステアリングを, オイラー方程式によって制御される角速度ダイナミクスに基づくものを考える。 問題とその解決策は、フィードバックによって剛体のスピンを制御することであり、例えば、確率的な初期状態と終端状態を持つ宇宙船の角安定化において、実用的に重要である。 この問題は, 最適質量輸送(omt)問題と双線型事前ドリフトの問題の例である。 Eulerian OMTの静的バージョンと動的バージョンの両方を推定し、最適制御器の合成のための解析的および数値的結果を提供する。

We consider the finite horizon optimal steering of the joint state probability distribution subject to the angular velocity dynamics governed by the Euler equation. The problem and its solution amounts to controlling the spin of a rigid body via feedback, and is of practical importance, for example, in angular stabilization of a spacecraft with stochastic initial and terminal states. We clarify how this problem is an instance of the optimal mass transport (OMT) problem with bilinear prior drift. We deduce both static and dynamic versions of the Eulerian OMT, and provide analytical and numerical results for the synthesis of the optimal controller.
翻訳日:2023-04-05 17:11:43 公開日:2023-04-02
# SEENN: 一時スパイク早期ニューラルネットワークを目指して

SEENN: Towards Temporal Spiking Early-Exit Neural Networks ( http://arxiv.org/abs/2304.01230v1 )

ライセンス: Link先を確認
Yuhang Li, Tamar Geller, Youngeun Kim, Priyadarshini Panda(参考訳) スパイキングニューラルネットワーク(SNN)は、最近、従来のニューラルネットワーク(ANN)の生物学的に妥当な代替品として人気が高まっている。 SNNは、二分スパイクを用いて空間的および時間的両方の方法で入力を処理するため、コスト効率が高く、デプロイに優しい。 しかし、SNNにおける情報容量は時間ステップの数に影響され、精度と効率のトレードオフが生じる。 本研究では,SNNにおける時間経過の微調整について検討する。 具体的には、特定のデータに対する冗長な時間ステップを減らすために、異なる入力サンプルに条件付き変数として時間ステップ数を扱います。 本手法をSEENN(Spyking Early-Exit Neural Networks)と呼ぶ。 適切な時間ステップ数を決定するために,信頼度スコア閾値を用いて不確定な予測をフィルタリングするseen-i,強化学習による時間ステップ数を決定するseen-iiを提案する。 さらに、SEENNは直接訓練されたSNNとANN-SNN変換の両方と互換性があることを実証する。 時間ステップ数を動的に調整することにより、SEENNは推論中の平均時間ステップ数を著しく削減する。 例えば、私たちのSEENN-II ResNet-19は、CIFAR-10テストデータセット上で平均1.08のタイムステップで96.1%の精度を達成できます。

Spiking Neural Networks (SNNs) have recently become more popular as a biologically plausible substitute for traditional Artificial Neural Networks (ANNs). SNNs are cost-efficient and deployment-friendly because they process input in both spatial and temporal manners using binary spikes. However, we observe that the information capacity in SNNs is affected by the number of timesteps, leading to an accuracy-efficiency tradeoff. In this work, we study a fine-grained adjustment of the number of timesteps in SNNs. Specifically, we treat the number of timesteps as a variable conditioned on different input samples to reduce redundant timesteps for certain data. We call our method Spiking Early-Exit Neural Networks (SEENNs). To determine the appropriate number of timesteps, we propose SEENN-I which uses a confidence score thresholding to filter out the uncertain predictions, and SEENN-II which determines the number of timesteps by reinforcement learning. Moreover, we demonstrate that SEENN is compatible with both the directly trained SNN and the ANN-SNN conversion. By dynamically adjusting the number of timesteps, our SEENN achieves a remarkable reduction in the average number of timesteps during inference. For example, our SEENN-II ResNet-19 can achieve 96.1% accuracy with an average of 1.08 timesteps on the CIFAR-10 test dataset.
翻訳日:2023-04-05 17:02:34 公開日:2023-04-02
# 自己改善によるコードの言語モデルの改善

Better Language Models of Code through Self-Improvement ( http://arxiv.org/abs/2304.01228v1 )

ライセンス: Link先を確認
Hung Quoc To, Nghi D. Q. Bui, Jin Guo, Tien N. Nguyen(参考訳) 近年,コードのための事前学習言語モデル (PLMC) が注目されている。 これらのモデルは、マルチモーダルな目的を用いて、大規模データセット上で事前訓練される。 しかしながら、細かなチューニングには広範な監視が必要であり、提供されるデータセットのサイズによって制限される。 我々は、単純なデータ拡張フレームワークを提案し、この問題を改善することを目指している。 本フレームワークは,事前学習と微調整の段階で得られた知識を利用して擬似データを生成し,次のステップのトレーニングデータとして利用する。 私たちはこのフレームワークを、CodeT5、CodeBERT、UnixCoderといった最先端の言語モデルに組み入れています。 その結果,コード要約やコード生成などのコード関連シーケンス生成タスクにおけるPLMCの性能は,CodeXGLUEベンチマークで大幅に向上した。

Pre-trained language models for code (PLMCs) have gained attention in recent research. These models are pre-trained on large-scale datasets using multi-modal objectives. However, fine-tuning them requires extensive supervision and is limited by the size of the dataset provided. We aim to improve this issue by proposing a simple data augmentation framework. Our framework utilizes knowledge gained during the pre-training and fine-tuning stage to generate pseudo data, which is then used as training data for the next step. We incorporate this framework into the state-of-the-art language models, such as CodeT5, CodeBERT, and UnixCoder. The results show that our framework significantly improves PLMCs' performance in code-related sequence generation tasks, such as code summarization and code generation in the CodeXGLUE benchmark.
翻訳日:2023-04-05 17:02:14 公開日:2023-04-02
# 局所的注意を伴う個人化フェデレーション学習

Personalized Federated Learning with Local Attention ( http://arxiv.org/abs/2304.01783v1 )

ライセンス: Link先を確認
Sicong Liang, Junchao Tian, Shujun Yang, Yu Zhang(参考訳) Federated Learning(FL)は、ローカルデータにアクセスせずに、中央サーバがローカルクライアントでのモデルトレーニングを支援する、単一のグローバルモデルを学ぶことを目的としている。 FLの主な課題は、異種ラベルの分布や特徴シフトなど、異なるクライアントにおけるローカルデータの均一性であり、学習したモデルの大幅な性能劣化につながる可能性がある。 不均一なラベル分布問題に対処するために多くの研究が提案されているが、特徴シフト問題を探究する研究はほとんどない。 この問題に対処するため,我々は,注意ブロックをクライアント固有に保ちつつ,クライアントのパーソナライズモデルに注意機構を組み込むことにより,単純かつ効果的なアルゴリズム,すなわち, \textbf{p}ersonalized \textbf{fed}erated learning with \textbf{l}ocal \textbf{a}ttention (pfedla)を提案する。 具体的には、pFedLA、すなわちパーソナライズされたシングルアテンションモジュールとパーソナライズされたハイブリッドアテンションモジュールの2つのモジュールを提案する。 さらに,pFedLA法は,追加の通信コストを発生させることなく,FL法に組み込んで性能向上を図ることができるため,柔軟で汎用性の高い手法である。 pFedLA法は画像分類や物体検出といった様々なタスクにおける最先端のFL法の性能を向上させることができることを示す。

Federated Learning (FL) aims to learn a single global model that enables the central server to help the model training in local clients without accessing their local data. The key challenge of FL is the heterogeneity of local data in different clients, such as heterogeneous label distribution and feature shift, which could lead to significant performance degradation of the learned models. Although many studies have been proposed to address the heterogeneous label distribution problem, few studies attempt to explore the feature shift issue. To address this issue, we propose a simple yet effective algorithm, namely \textbf{p}ersonalized \textbf{Fed}erated learning with \textbf{L}ocal \textbf{A}ttention (pFedLA), by incorporating the attention mechanism into personalized models of clients while keeping the attention blocks client-specific. Specifically, two modules are proposed in pFedLA, i.e., the personalized single attention module and the personalized hybrid attention module. In addition, the proposed pFedLA method is quite flexible and general as it can be incorporated into any FL method to improve their performance without introducing additional communication costs. Extensive experiments demonstrate that the proposed pFedLA method can boost the performance of state-of-the-art FL methods on different tasks such as image classification and object detection tasks.
翻訳日:2023-04-05 13:49:40 公開日:2023-04-02
# DeepEverest: ディープニューラルネットワーク解釈のための宣言的トップKクエリの高速化

DeepEverest: Accelerating Declarative Top-K Queries for Deep Neural Network Interpretation ( http://arxiv.org/abs/2104.02234v8 )

ライセンス: Link先を確認
Dong He, Maureen Daum, Walter Cai, Magdalena Balazinska(参考訳) 我々は、ディープニューラルネットワークの活性化値に対する例クエリによる解釈の効率的な実行システムであるDeepEverestを設計、実装、評価する。 deepeverestは効率的なインデックス技術と様々な最適化を伴うクエリ実行アルゴリズムで構成されている。 提案するクエリ実行アルゴリズムがインスタンス最適であることを証明する。 プロトタイプを用いた実験では,完全な具体化のストレージの20%未満のdeepeverestは,個々のクエリを最大63倍高速化し,dnn解釈プロセスをシミュレートするマルチクエリワークロードの他のメソッドを一貫して上回っています。

We design, implement, and evaluate DeepEverest, a system for the efficient execution of interpretation by example queries over the activation values of a deep neural network. DeepEverest consists of an efficient indexing technique and a query execution algorithm with various optimizations. We prove that the proposed query execution algorithm is instance optimal. Experiments with our prototype show that DeepEverest, using less than 20% of the storage of full materialization, significantly accelerates individual queries by up to 63x and consistently outperforms other methods on multi-query workloads that simulate DNN interpretation processes.
翻訳日:2023-04-05 02:38:37 公開日:2023-04-02
# dame-flame: 因果推論の高速解釈可能なマッチングを提供するPythonライブラリ

dame-flame: A Python Library Providing Fast Interpretable Matching for Causal Inference ( http://arxiv.org/abs/2101.01867v3 )

ライセンス: Link先を確認
Neha R. Gupta (1), Vittorio Orlandi (1), Chia-Rui Chang (2), Tianyu Wang (3), Marco Morucci (4), Pritam Dey (1), Thomas J. Howell (1), Xian Sun (1), Angikar Ghosal (1), Sudeepa Roy (1), Cynthia Rudin (1), Alexander Volfovsky (1) ((1) Duke University, (2) Harvard University, (3) Fudan University, (4) New York University)(参考訳) dame-flameは、離散共変量を含むデータセットで観測因果推論のマッチングを実行するpythonパッケージである。 このパッケージはDAME(Dynamic almost Matching Exactly)アルゴリズムとFLAME(Fast Large-Scale Near Matching Exactly)アルゴリズムを実装しており、コバリアイトのサブセットで処理と制御ユニットをマッチングする。 一致した群は、マッチが共変量、および高品質であるため解釈可能であり、機械学習はどの共変量にマッチすることが重要かを決定するために使用される。 DAMEは、できるだけ多くの共変数上のユニットにマッチする最適化問題を解き、重要な共変数上のマッチを優先順位付けする。 FLAMEは、より高速な後方特徴選択手順により、DAMEが発見した解を近似する。 このパッケージは、アルゴリズムを特定のアプリケーションに適用するためのいくつかの調整可能なパラメータを提供し、マッチング後の治療効果推定を計算できる。 これらのパラメータの説明、治療効果の推定の詳細、その他の例は、https://almost-matching-exactly.github.io/DAME-FLAME-Python-Package/のドキュメントにある。

dame-flame is a Python package for performing matching for observational causal inference on datasets containing discrete covariates. This package implements the Dynamic Almost Matching Exactly (DAME) and Fast Large-Scale Almost Matching Exactly (FLAME) algorithms, which match treatment and control units on subsets of the covariates. The resulting matched groups are interpretable, because the matches are made on covariates, and high-quality, because machine learning is used to determine which covariates are important to match on. DAME solves an optimization problem that matches units on as many covariates as possible, prioritizing matches on important covariates. FLAME approximates the solution found by DAME via a much faster backward feature selection procedure. The package provides several adjustable parameters to adapt the algorithms to specific applications, and can calculate treatment effect estimates after matching. Descriptions of these parameters, details on estimating treatment effects, and further examples, can be found in the documentation at https://almost-matching-exactly.github.io/DAME-FLAME-Python-Package/
翻訳日:2023-04-05 02:38:10 公開日:2023-04-02
# Achilles Heels for AGI/ASI via Decision Theoretic Adversaries

Achilles Heels for AGI/ASI via Decision Theoretic Adversaries ( http://arxiv.org/abs/2010.05418v9 )

ライセンス: Link先を確認
Stephen Casper(参考訳) AIの進歩が進むにつれて、先進的なシステムがどのように選択するか、どのように失敗するかを知ることが重要である。 機械は、すでに一部のドメインで人間より優れており、人間レベル以上の能力を持つものを安全に構築する方法を理解することは、特に懸念事項である。 人工的な知性(AGI)と人工的な超知能(ASI)は、人間が確実に外れるようなシステムだと考える人もいるかもしれない。 この仮定への挑戦として、アキレス・ヒール仮説(英語版)は、潜在的に超知的なシステムであっても安定な決定論的妄想を持ち、敵の設定において不合理な決定を下す可能性があることを述べる。 決定論の文献から重要なジレンマとパラドックスの調査において、この仮説の文脈でこれらの潜在的なアキレス・ハイルが議論されている。 これらの弱点をシステムに組み込む方法を理解するために、いくつかの新しい貢献がなされている。

As progress in AI continues to advance, it is important to know how advanced systems will make choices and in what ways they may fail. Machines can already outsmart humans in some domains, and understanding how to safely build ones which may have capabilities at or above the human level is of particular concern. One might suspect that artificially generally intelligent (AGI) and artificially superintelligent (ASI) will be systems that humans cannot reliably outsmart. As a challenge to this assumption, this paper presents the Achilles Heel hypothesis which states that even a potentially superintelligent system may nonetheless have stable decision-theoretic delusions which cause them to make irrational decisions in adversarial settings. In a survey of key dilemmas and paradoxes from the decision theory literature, a number of these potential Achilles Heels are discussed in context of this hypothesis. Several novel contributions are made toward understanding the ways in which these weaknesses might be implanted into a system.
翻訳日:2023-04-05 02:37:48 公開日:2023-04-02
# 不均一観測データにおける連関因果推論

Federated Causal Inference in Heterogeneous Observational Data ( http://arxiv.org/abs/2107.11732v5 )

ライセンス: Link先を確認
Ruoxuan Xiong, Allison Koenecke, Michael Powell, Zhu Shen, Joshua T. Vogelstein, Susan Athey(参考訳) 我々は,各サイトごとにデータがローカルに保存されている複数のサイトにおいて,個人に対する治療の効果を推定することに関心を持っている。 プライバシーの制約のため、個々のレベルのデータはサイト間で共有することはできない。 これらの考察に動機づけられ,サイト間での複合データの平均的治療効果を推測する統合的手法を開発した。 提案手法は,まず局所的にプロペンサリティスコアを用いて要約統計を算出し,それらの統計をサイト間で集計し,平均治療効果のポイント・分散推定値を得る。 これらの推定器は一貫性があり漸近的に正常である。 これらの漸近的特性を達成するためには,アグリゲーションスキームが治療課題と現場間の結果の多様性を考慮すべきであることがわかった。 2つの大規模医療クレームデータベースの比較研究を通じて,フェデレーション手法の有効性を示す。

We are interested in estimating the effect of a treatment applied to individuals at multiple sites, where data is stored locally for each site. Due to privacy constraints, individual-level data cannot be shared across sites; the sites may also have heterogeneous populations and treatment assignment mechanisms. Motivated by these considerations, we develop federated methods to draw inference on the average treatment effects of combined data across sites. Our methods first compute summary statistics locally using propensity scores and then aggregate these statistics across sites to obtain point and variance estimators of average treatment effects. We show that these estimators are consistent and asymptotically normal. To achieve these asymptotic properties, we find that the aggregation schemes need to account for the heterogeneity in treatment assignments and in outcomes across sites. We demonstrate the validity of our federated methods through a comparative study of two large medical claims databases.
翻訳日:2023-04-05 02:01:37 公開日:2023-04-02
# part2words: 部分と単語の双方向マッチングによる点雲とテキストの埋め込み学習

Parts2Words: Learning Joint Embedding of Point Clouds and Texts by Bidirectional Matching between Parts and Words ( http://arxiv.org/abs/2107.01872v2 )

ライセンス: Link先を確認
Chuan Tang, Xi Yang, Bojian Wu, Zhizhong Han, Yi Chang(参考訳) 形状テキストマッチングは高レベルの形状理解の重要な課題である。 現在の方法は、主に3次元形状を複数の2次元レンダリングビューとして表現しているが、限られた数のビューにおける自己排他による構造的曖昧さのため、明らかによく理解できない。 この問題を解決するために,3次元形状を点雲として直接表現し,形状と単語の双方向マッチングにより点雲とテキストの結合埋め込みを学習することを提案する。 具体的には、まず点雲を分割し、次に最適な移動法を用いて、最適化された特徴空間内の部分と単語をマッチングし、各部分はその中のすべての点の特徴を集約して表現し、各単語は文脈情報によって抽象化される。 ペアのトレーニングサンプル間の類似度を最大化するとともに,非ペアのサンプル間のマージンを最大化するために,特徴空間を最適化する。 実験により,Text2Shapeデータセットに基づくマルチモーダル検索タスクにおいて,SOTAの精度を大幅に向上することを確認した。 コードはhttps://github.com/JLUtangchuan/Parts2Wordsで入手できる。

Shape-Text matching is an important task of high-level shape understanding. Current methods mainly represent a 3D shape as multiple 2D rendered views, which obviously can not be understood well due to the structural ambiguity caused by self-occlusion in the limited number of views. To resolve this issue, we directly represent 3D shapes as point clouds, and propose to learn joint embedding of point clouds and texts by bidirectional matching between parts from shapes and words from texts. Specifically, we first segment the point clouds into parts, and then leverage optimal transport method to match parts and words in an optimized feature space, where each part is represented by aggregating features of all points within it and each word is abstracted by its contextual information. We optimize the feature space in order to enlarge the similarities between the paired training samples, while simultaneously maximizing the margin between the unpaired ones. Experiments demonstrate that our method achieves a significant improvement in accuracy over the SOTAs on multi-modal retrieval tasks under the Text2Shape dataset. Codes are available at https://github.com/JLUtangchuan/Parts2Words.
翻訳日:2023-04-05 02:01:23 公開日:2023-04-02
# 変分不等式に対する分散局所確率外勾配

Decentralized Local Stochastic Extra-Gradient for Variational Inequalities ( http://arxiv.org/abs/2106.08315v3 )

ライセンス: Link先を確認
Aleksandr Beznosikov, Pavel Dvurechensky, Anastasia Koloskova, Valentin Samokhin, Sebastian U Stich, Alexander Gasnikov(参考訳) 我々は、不均一(非IID)で多くのデバイスに分散する問題データを用いて、非有界領域上の確率的変動不等式(VIs)を分散的に検討する。 計算ネットワークにおいて、特に、時間変動ネットワークと連合学習でよく使われる集中型トポロジを用いた、完全に分散した計算の設定をカバーすることを、非常に一般的な前提とします。 また、作業者間の通信頻度を低減させるため、作業者に対する複数のローカル更新を行うことができる。 確率的超勾配法をこの非常に一般的な設定に拡張し、理論上は強単調、単調、非単調(ミント溶液が存在する場合)の収束率を理論的に解析する。 提供されたレートは、ネットワーク特性(例えば混合時間)、反復カウンタ、データの不均一性、分散、デバイス数、その他の標準パラメータへの依存を明示的に示す。 特例として,分散確率的鞍点問題 (spp) に対して,分散化訓練が極めて困難であると報告された深層生成逆境ネットワーク (gans) の訓練を応用し,解析を行った。 GANの分散学習実験では,提案手法の有効性を実証する。

We consider distributed stochastic variational inequalities (VIs) on unbounded domains with the problem data that is heterogeneous (non-IID) and distributed across many devices. We make a very general assumption on the computational network that, in particular, covers the settings of fully decentralized calculations with time-varying networks and centralized topologies commonly used in Federated Learning. Moreover, multiple local updates on the workers can be made for reducing the communication frequency between the workers. We extend the stochastic extragradient method to this very general setting and theoretically analyze its convergence rate in the strongly-monotone, monotone, and non-monotone (when a Minty solution exists) settings. The provided rates explicitly exhibit the dependence on network characteristics (e.g., mixing time), iteration counter, data heterogeneity, variance, number of devices, and other standard parameters. As a special case, our method and analysis apply to distributed stochastic saddle-point problems (SPP), e.g., to the training of Deep Generative Adversarial Networks (GANs) for which decentralized training has been reported to be extremely challenging. In experiments for the decentralized training of GANs we demonstrate the effectiveness of our proposed approach.
翻訳日:2023-04-05 02:01:03 公開日:2023-04-02
# 前進超解像:ganが実世界分布の階層的生成モデルをどのように学習するか

Forward Super-Resolution: How Can GANs Learn Hierarchical Generative Models for Real-World Distributions ( http://arxiv.org/abs/2106.02619v2 )

ライセンス: Link先を確認
Zeyuan Allen-Zhu and Yuanzhi Li(参考訳) generative adversarial network (gans) は、複雑な実世界の分布を学習するための最も成功したモデルの一つである。 しかし理論上は、minmaxトレーニング対象の非常に非凸で非凸なランドスケープのため、ganは依然として最も理解されていない深層学習モデルの1つである。 本研究では,GANが実生活画像の分布に近い階層的な分布を効率的に学習する方法を正式に研究する。 分布が前方超解像と呼ばれる構造を持つ場合、確率的勾配降下上昇(sgda)を用いた生成的逆ネットワークを単に訓練することで、サンプルと時間の複雑さの両方において、この分布を効率的に学習できることを証明する。 また,本論文で研究している基礎的な学習メカニズム(理論上はSGDAによる GAN の学習を効率的に行うことができる)は実世界の問題における GAN の実際の学習過程をシミュレートする。

Generative adversarial networks (GANs) are among the most successful models for learning high-complexity, real-world distributions. However, in theory, due to the highly non-convex, non-concave landscape of the minmax training objective, GAN remains one of the least understood deep learning models. In this work, we formally study how GANs can efficiently learn certain hierarchically generated distributions that are close to the distribution of real-life images. We prove that when a distribution has a structure that we refer to as Forward Super-Resolution, then simply training generative adversarial networks using stochastic gradient descent ascent (SGDA) can learn this distribution efficiently, both in sample and time complexities. We also provide empirical evidence that our assumption "forward super-resolution" is very natural in practice, and the underlying learning mechanisms that we study in this paper (to allow us efficiently train GAN via SGDA in theory) simulates the actual learning process of GANs on real-world problems.
翻訳日:2023-04-05 02:00:15 公開日:2023-04-02
# 量子符号の伝播デコードにおける爆発的縮退

Exploiting Degeneracy in Belief Propagation Decoding of Quantum Codes ( http://arxiv.org/abs/2104.13659v2 )

ライセンス: Link先を確認
Kao-Yueh Kuo and Ching-Yi Lai(参考訳) 量子情報は、不完全な物理デバイスや操作のために量子エラー訂正符号によって保護される必要がある。 量子安定化器符号のクラスに対して、効率的かつ高性能な復号法が望まれる。 潜在的な候補はパールの信念伝播 (bp) であるが、その性能は量子安定化符号、特に高縮退符号に固有の多くの短いサイクルに苦しむ。 BPはトポロジカルコードには有効ではないという一般的な印象がある。 本稿では,メモリ効果を付加した第4次BPに基づく量子符号の復号法を提案する。 このMBPは、ニューロン間(負の重みを持つエッジ)を阻害する再帰的ニューラルネットワークのようなもので、ネットワークの知覚能力を高める。 さらに、MBPは量子コードの縮退を利用して、最も確率の高いエラーまたはその縮退したエラーを高い確率で見つけることができる。 復号化性能は、量子自転車、ハイパーグラフ生成物、表面およびトーリック符号を含む様々な量子符号に対する従来のBPよりも大幅に改善されている。 表面上のMBPと脱分極誤差に関するトーリック符号について、それぞれ16%と17.5%の誤差閾値を観測する。

Quantum information needs to be protected by quantum error-correcting codes due to imperfect physical devices and operations. One would like to have an efficient and high-performance decoding procedure for the class of quantum stabilizer codes. A potential candidate is Pearl's belief propagation (BP), but its performance suffers from the many short cycles inherent in a quantum stabilizer code, especially highly-degenerate codes. A general impression exists that BP is not effective for topological codes. In this paper, we propose a decoding algorithm for quantum codes based on quaternary BP with additional memory effects (called MBP). This MBP is like a recursive neural network with inhibitions between neurons (edges with negative weights), which enhance the perception capability of a network. Moreover, MBP exploits the degeneracy of a quantum code so that the most probable error or its degenerate errors can be found with high probability. The decoding performance is significantly improved over the conventional BP for various quantum codes, including quantum bicycle, hypergraph-product, surface and toric codes. For MBP on the surface and toric codes over depolarizing errors, we observe error thresholds of 16% and 17.5%, respectively.
翻訳日:2023-04-05 01:59:47 公開日:2023-04-02
# 製品式の平均ケーススピードアップ

Average-case Speedup for Product Formulas ( http://arxiv.org/abs/2111.05324v2 )

ライセンス: Link先を確認
Chi-Fang (Anthony) Chen and Fernando G.S.L. Brand\~ao(参考訳) 量子シミュレーションは将来の量子コンピュータの有望な応用である。 製品公式(英: Product formulas, Trotterization)は、量子系をシミュレートする最も古い方法であり、いまだに魅力的な方法である。 正確な積公式近似では、最先端ゲートの複雑性はハミルトン項の項数と局所エネルギー推定に依存する。 この研究では、製品の公式が実際、予想よりもずっとうまく機能するかもしれないという証拠を与えます。 トロッター誤差は入力状態の大部分に対して定性的に優れたスケーリングを示し,既存の推定値が最悪の状態であることを示す。 一般のk$局所ハミルトニアンおよび高階積公式に対しては、任意の直交基底から引き出された入力状態のゲートカウント推定を得る。 ゲートの複雑さは、接続性が大きいシステムにとって最悪の場合よりも大幅に改善される。 我々の典型的な場合の結果はフェルミオン項を持つハミルトニアンに一般化され、入力状態は固定粒子数部分空間から、ガウス係数(例えばsykモデル)から引き出される。 技術的には、$\textit{uniform smoothness}$と呼ばれる、非可換なmartingalesからの単純だが多彩な不等式の集合を、$\textit{hypercontractivity}$、すなわち$k$-local演算子の$p$-norm推定に採用する。 これはマルコフの不等式を通じて濃度境界をもたらす。 最適性については、典型例推定と既存の最悪の例推定とを同時に一致させる解析的および数値的な例を挙げる。 したがって、我々の改善は質的に異なる質問をすることであり、その結果は平均的なケースにおける量子アルゴリズムの研究への扉を開くことになる。

Quantum simulation is a promising application of future quantum computers. Product formulas, or Trotterization, are the oldest and still remain an appealing method to simulate quantum systems. For an accurate product formula approximation, the state-of-the-art gate complexity depends on the number of terms in the Hamiltonian and a local energy estimate. In this work, we give evidence that product formulas, in practice, may work much better than expected. We prove that the Trotter error exhibits a qualitatively better scaling for the vast majority of input states, while the existing estimate is for the worst states. For general $k$-local Hamiltonians and higher-order product formulas, we obtain gate count estimates for input states drawn from any orthogonal basis. The gate complexity significantly improves over the worst case for systems with large connectivity. Our typical-case results generalize to Hamiltonians with Fermionic terms, with input states drawn from a fixed-particle number subspace, and with Gaussian coefficients (e.g., the SYK models). Technically, we employ a family of simple but versatile inequalities from non-commutative martingales called $\textit{uniform smoothness}$, which leads to $\textit{Hypercontractivity}$, namely $p$-norm estimates for $k$-local operators. This delivers concentration bounds via Markov's inequality. For optimality, we give analytic and numerical examples that simultaneously match our typical-case estimates and the existing worst-case estimates. Therefore, our improvement is due to asking a qualitatively different question, and our results open doors to the study of quantum algorithms in the average case.
翻訳日:2023-04-05 01:53:09 公開日:2023-04-02
# SIG-VC:人間と機械の両方を対象としたゼロショット音声変換システム

SIG-VC: A Speaker Information Guided Zero-shot Voice Conversion System for Both Human Beings and Machines ( http://arxiv.org/abs/2111.03811v3 )

ライセンス: Link先を確認
Haozhe Zhang, Zexin Cai, Xiaoyi Qin, Ming Li(参考訳) 今日では、従来の音声変換(VC)タスクにおいて、多くのシステムが優れたパフォーマンスを達成するにつれて、人々の注意は徐々に極端な条件下でのVCタスクへと変わりつつある。 本稿では,ゼロショット音声変換のための新しい手法を提案する。 本研究の目的は、話者情報を取り除き、純粋なコンテンツ情報を得るために、話者内容のアンタングル化のための中間表現を得ることである。 そこで,提案するフレームワークには,音源話者の音響的特徴から話者情報を除去するモジュールが含まれている。 さらに,音声クローン性能を維持するために,話者情報制御をシステムに追加した。 提案システムは主観的および客観的な指標によって評価される。 その結果,提案方式はゼロショット音声変換におけるトレードオフ問題を著しく低減し,話者検証システムに高いスポーフィング能力を持たせることができた。

Nowadays, as more and more systems achieve good performance in traditional voice conversion (VC) tasks, people's attention gradually turns to VC tasks under extreme conditions. In this paper, we propose a novel method for zero-shot voice conversion. We aim to obtain intermediate representations for speaker-content disentanglement of speech to better remove speaker information and get pure content information. Accordingly, our proposed framework contains a module that removes the speaker information from the acoustic feature of the source speaker. Moreover, speaker information control is added to our system to maintain the voice cloning performance. The proposed system is evaluated by subjective and objective metrics. Results show that our proposed system significantly reduces the trade-off problem in zero-shot voice conversion, while it also manages to have high spoofing power to the speaker verification system.
翻訳日:2023-04-05 01:52:38 公開日:2023-04-02
# 理論保証付き変分不等式解のための圧縮通信を用いた分散手法

Distributed Methods with Compressed Communication for Solving Variational Inequalities, with Theoretical Guarantees ( http://arxiv.org/abs/2110.03313v3 )

ライセンス: Link先を確認
Aleksandr Beznosikov and Peter Richt\'arik and Michael Diskin and Max Ryabinin and Alexander Gasnikov(参考訳) 一般およびサドル点問題における変分不等式は、敵対的学習、GAN、輸送、堅牢な最適化を含む機械学習アプリケーションにおいて、ますます重要になっている。 さまざまなアプリケーションにわたるハイパフォーマンスモデルのトレーニングに必要なデータと問題サイズの増加により、並列および分散コンピューティングに頼る必要があります。 しかし、分散トレーニングでは、計算ノード間の通信がトレーニングの重要なボトルネックとなり、高次元および過度パラメータ化モデルではこの問題が悪化する。 これらの考慮から,既存の手法に同等の品質のモデルを取得しながら,訓練中の伝達情報の量を削減する戦略を組み込むことが重要である。 本稿では,MASHA1とMASHA2の圧縮通信を用いた変分不等式とサドル点問題の解法として,初めて理論的に基礎付けられた分散手法を提案する。 我々の理論と手法は、非バイアス(Rand$k$, MASHA1)と契約的(Top$k$, MASHA2)圧縮機の両方の使用を可能にする。 新しいアルゴリズムは双方向圧縮をサポートし、バッチによる確率的な設定や、クライアントの部分的な参加を伴う連合学習にも変更できる。 両線形最小値問題と変圧器の大規模分散対角訓練の2つの実験装置を用いて,実験結果の検証を行った。

Variational inequalities in general and saddle point problems in particular are increasingly relevant in machine learning applications, including adversarial learning, GANs, transport and robust optimization. With increasing data and problem sizes necessary to train high performing models across various applications, we need to rely on parallel and distributed computing. However, in distributed training, communication among the compute nodes is a key bottleneck during training, and this problem is exacerbated for high dimensional and over-parameterized models. Due to these considerations, it is important to equip existing methods with strategies that would allow to reduce the volume of transmitted information during training while obtaining a model of comparable quality. In this paper, we present the first theoretically grounded distributed methods for solving variational inequalities and saddle point problems using compressed communication: MASHA1 and MASHA2. Our theory and methods allow for the use of both unbiased (such as Rand$k$; MASHA1) and contractive (such as Top$k$; MASHA2) compressors. New algorithms support bidirectional compressions, and also can be modified for stochastic setting with batches and for federated learning with partial participation of clients. We empirically validated our conclusions using two experimental setups: a standard bilinear min-max problem, and large-scale distributed adversarial training of transformers.
翻訳日:2023-04-05 01:51:29 公開日:2023-04-02
# 分散確率変分不等式に対する最適アルゴリズム

Optimal Algorithms for Decentralized Stochastic Variational Inequalities ( http://arxiv.org/abs/2202.02771v2 )

ライセンス: Link先を確認
Dmitry Kovalev, Aleksandr Beznosikov, Abdurakhmon Sadiev, Michael Persiianov, Peter Richt\'arik, Alexander Gasnikov(参考訳) 変分不等式は、特別な場合としてゲーム、最小化、鞍点、平衡問題を含む形式論である。 したがって、変分不等式法は、機械学習問題を含む多くの応用タスクに対して普遍的なアプローチである。 この作業は、ますます重要になるが十分に理解されていない分散的な設定に集中する。 特に、固定および時間変化ネットワークに対する分散確率変動不等式(sum-type)を考える。 通信と局所的な繰り返しの両方に対してより低い複雑性境界を示し、これらの下位境界に一致する最適なアルゴリズムを構築する。 我々のアルゴリズムは、分散化確率論だけでなく、分散化決定論や非分散化確率論においても最も優れた文献である。 実験により,提案アルゴリズムの有効性が確認された。

Variational inequalities are a formalism that includes games, minimization, saddle point, and equilibrium problems as special cases. Methods for variational inequalities are therefore universal approaches for many applied tasks, including machine learning problems. This work concentrates on the decentralized setting, which is increasingly important but not well understood. In particular, we consider decentralized stochastic (sum-type) variational inequalities over fixed and time-varying networks. We present lower complexity bounds for both communication and local iterations and construct optimal algorithms that match these lower bounds. Our algorithms are the best among the available literature not only in the decentralized stochastic case, but also in the decentralized deterministic and non-distributed stochastic cases. Experimental results confirm the effectiveness of the presented algorithms.
翻訳日:2023-04-05 01:43:35 公開日:2023-04-02
# データ通信ネットワークにおける短時間予測のための物理制約流れニューラルネットワーク

Physics Constrained Flow Neural Network for Short-Timescale Predictions in Data Communications Networks ( http://arxiv.org/abs/2112.12321v3 )

ライセンス: Link先を確認
Xiangle Cheng, James He, Shihan Xiao, Yingxue Zhang, Zhitang Chen, Pascal Poupart, Fenglin Li(参考訳) 機械学習は、データ通信ネットワークにおける情報フローの動的解析のための様々なモデルにおいて、勢いを増している。 これらの予備モデルは、歴史的統計から予測するために、しばしば既成の学習モデルに依存し、これらのフローの生成行動を管理する物理を無視する。 本稿では,その代わりにflow neural network(flownn)を導入し,学習した物理的バイアスにより特徴表現を改善する。 これは、埋め込み層に作用する誘導層によって実装され、物理結合データ相関を課し、学習物理学を普遍化するために停止勾配を持つ自己教師付き学習戦略によって実装される。 短時間のネットワーク予測タスクでは、FlowNNは、合成および実世界のネットワークデータセットの最先端ベースラインよりも17%から71%の損失減少を実現しており、この新しいアプローチの強みを示している。

Machine learning is gaining growing momentum in various recent models for the dynamic analysis of information flows in data communications networks. These preliminary models often rely on off-the-shelf learning models to predict from historical statistics while disregarding the physics governing the generating behaviors of these flows. This paper instead introduces Flow Neural Network (FlowNN) to improve the feature representation with learned physical bias. This is implemented by an induction layer, working upon the embedding layer, to impose the physics connected data correlations, and a self-supervised learning strategy with stop-gradient to make the learned physics universal. For the short-timescale network prediction tasks, FlowNN achieves 17% - 71% of loss decrease than the state-of-the-art baselines on both synthetic and real-world networking datasets, which shows the strength of this new approach.
翻訳日:2023-04-05 01:41:56 公開日:2023-04-02
# ボソニックガウス系の量子r\'{e}nyiエントロピー汎関数

Quantum R\'{e}nyi Entropy Functionals for Bosonic Gaussian Systems ( http://arxiv.org/abs/2204.10737v2 )

ライセンス: Link先を確認
Junseo Lee and Kabgyun Jeong(参考訳) 本研究では、次数 $p>1$ とパワー $\kappa$ の量子 r\'{e}nyi エントロピーパワーの不等式を古典的な r\'{e}nyi-$p$ エントロピーパワー不等式(英語版)の量子アナログとして提案する。 この不等式を導出するために、一般化ビームスプリッター演算である量子畳み込みの混合演算により、ボソニックガウス系のWehrl-$p$エントロピーパワー不等式を利用する。 この観測は、量子R\'{e}nyi-$p$エントロピーパワーの不等式を、D$モードボソニックガウスの準確率分布に対して直接提供する。 提案された不等式は、量子チャネル容量、特にボソニックガウス量子チャネル上の普遍上界の非自明な計算に有用である。

In this study, the quantum R\'{e}nyi entropy power inequality of order $p>1$ and power $\kappa$ is suggested as a quantum analog of the classical R\'{e}nyi-$p$ entropy power inequality. To derive this inequality, we first exploit the Wehrl-$p$ entropy power inequality on bosonic Gaussian systems via the mixing operation of quantum convolution, which is a generalized beamsplitter operation. This observation directly provides a quantum R\'{e}nyi-$p$ entropy power inequality over a quasi-probability distribution for $D$-mode bosonic Gaussian regimes. The proposed inequality is expected to be useful for the nontrivial computing of quantum channel capacities, particularly universal upper bounds on bosonic Gaussian quantum channels.
翻訳日:2023-04-05 01:35:32 公開日:2023-04-02
# 光子付加/置換多モードガウス状態のデコヒーレンスと非古典性

Decoherence and nonclassicality of photon-added/subtracted multi-mode Gaussian states ( http://arxiv.org/abs/2204.06358v2 )

ライセンス: Link先を確認
Anaelle Hertz and Stephan De Bi\`evre(参考訳) 光子加法と減法によりガウス状態は非ガウス状態となる。 得られた状態のウィグナーネガティビティと二次コヒーレンススケール(qcs)を解析し,これらの過程によって生じる非古典性の変化を定量的に解析する。 QCSは、最近導入された非古典性指標(PRL 122, 080402 (2019), PRL 124, 090402 (2020)])であり、200\%の光子付加・減算の下で相対的に増加することを示す。 これは、非古典性の退化と共生的な増加はコストがかかることを意味する。 実際、QCSは状態のデコヒーレンス率に比例するので、結果として生じる状態は環境デコヒーレンスに比例する。 以上の結果は定量的であり,光子加算・減算単モードおよび多モードガウス状態の特性およびウィグナー関数の明示的および一般表現に依存しており,その導出は単純かつ単純である。 これらの式により、正のウィグナー関数を持つ光子置換状態の量子非ガウス性も証明できる。

Photon addition and subtraction render Gaussian states non-Gaussian. We provide a quantitative analysis of the change in nonclassicality produced by these processes by analyzing the Wigner negativity and quadrature coherence scale (QCS) of the resulting states. The QCS is a recently introduced measure of nonclassicality [PRL 122, 080402 (2019), PRL 124, 090402 (2020)], that we show to undergo a relative increase under photon addition/subtraction that can be as large as 200\%. This implies that the degaussification and the concomitant increase of nonclassicality come at a cost. Indeed, the QCS is proportional to the decoherence rate of the state so that the resulting states are considerably more prone to environmental decoherence. Our results are quantitative and rely on explicit and general expressions for the characteristic and Wigner functions of photon added/subtracted single- and multi-mode Gaussian states for which we provide a simple and straightforward derivation. These expressions further allow us to certify the quantum non-Gaussianity of the photon-subtracted states with positive Wigner function.
翻訳日:2023-04-05 01:34:15 公開日:2023-04-02
# FACM: 中間層はいまだに、敵の例に対して効果的な機能を保持しています

FACM: Intermediate Layer Still Retain Effective Features against Adversarial Examples ( http://arxiv.org/abs/2206.00924v2 )

ライセンス: Link先を確認
Xiangyuan Yang, Jie Lin, Hanlin Zhang, Xinyu Yang, Peng Zhao(参考訳) ディープニューラルネットワーク(DNN)に対する強力な敵対攻撃では、生成された敵の例は、最終層の出力特徴を破壊することで、DNNが実装した分類器を誤認する。 分類器のロバスト性を高めるために,本論文では,中間層の特徴を利用して分類を正すために,中間層の特徴を利用するために,<textbf{F}eature \textbf{A}nalysis と \textbf{C}onditional \textbf{M}atching prediction distribution (FACM) モデルを提案する。 具体的には, 分類器の中間層が, 本論文の補正特性として定義された元のカテゴリに対して, 有効な特徴を保てることを示す。 そこで,本研究では,fa 補正モジュールである \textbf{f}eature \textbf{a}nalysis (fa) ,\textbf{c}onditional \textbf{m}atching \textbf{p}rediction \textbf{d}istribution (cmpd) 補正モジュールと決定モジュールからなる facm モデルを提案する。 fa補正モジュールは、中間層の出力を入力として構築された完全連結層であり、分類器の分類を補正する。 CMPD補正モジュールは条件付き自動エンコーダであり、中間層の出力を収束を加速する条件として使用するだけでなく、予測分布にマッチするクルバック・リーバー損失による逆例トレーニングの負の効果を軽減することができる。 実証的に検証された多様性特性により、補正モジュールは相乗的に実装でき、逆部分空間を減らすことができる。 したがって、DNN分類器の堅牢性を高めるために修正モジュールを統合するために、決定モジュールを提案する。 特に、我々のモデルは微調整によって達成でき、他のモデル固有の防御と組み合わせることができる。

In strong adversarial attacks against deep neural networks (DNN), the generated adversarial example will mislead the DNN-implemented classifier by destroying the output features of the last layer. To enhance the robustness of the classifier, in our paper, a \textbf{F}eature \textbf{A}nalysis and \textbf{C}onditional \textbf{M}atching prediction distribution (FACM) model is proposed to utilize the features of intermediate layers to correct the classification. Specifically, we first prove that the intermediate layers of the classifier can still retain effective features for the original category, which is defined as the correction property in our paper. According to this, we propose the FACM model consisting of \textbf{F}eature \textbf{A}nalysis (FA) correction module, \textbf{C}onditional \textbf{M}atching \textbf{P}rediction \textbf{D}istribution (CMPD) correction module and decision module. The FA correction module is the fully connected layers constructed with the output of the intermediate layers as the input to correct the classification of the classifier. The CMPD correction module is a conditional auto-encoder, which can not only use the output of intermediate layers as the condition to accelerate convergence but also mitigate the negative effect of adversarial example training with the Kullback-Leibler loss to match prediction distribution. Through the empirically verified diversity property, the correction modules can be implemented synergistically to reduce the adversarial subspace. Hence, the decision module is proposed to integrate the correction modules to enhance the DNN classifier's robustness. Specially, our model can be achieved by fine-tuning and can be combined with other model-specific defenses.
翻訳日:2023-04-05 01:25:52 公開日:2023-04-02
# 平均調整関連:高次元共同設立者による効率的な推定

Average Adjusted Association: Efficient Estimation with High Dimensional Confounders ( http://arxiv.org/abs/2205.14048v2 )

ライセンス: Link先を確認
Sung Jae Jun, Sokbae Lee(参考訳) 対数奇数比(英: log odds ratio)は、バイナリ結果と露光変数の関係を評価するための確立された指標である。 広く使われているが、ログオッズ比率を平均化を通じて共同設立者の関数としてまとめる方法についての議論は限られている。 この課題に対処するため,異種集団における関連性の要約尺度であるAAA(Average Adjusted Association)を提案する。 また,その利用を容易にするために,AAAの効率的2次/脱バイアス機械学習(DML)推定器を開発した。 dml推定器は効率的な影響関数の2つの等価な形式を使用し、ランダムサンプリング、結果に基づくサンプリング、露出に基づくサンプリングなど様々なサンプリングシナリオに適用できる。 実データとシミュレーションを用いて,AAAの測定における提案手法の有効性と有効性を示す。

The log odds ratio is a well-established metric for evaluating the association between binary outcome and exposure variables. Despite its widespread use, there has been limited discussion on how to summarize the log odds ratio as a function of confounders through averaging. To address this issue, we propose the Average Adjusted Association (AAA), which is a summary measure of association in a heterogeneous population, adjusted for observed confounders. To facilitate the use of it, we also develop efficient double/debiased machine learning (DML) estimators of the AAA. Our DML estimators use two equivalent forms of the efficient influence function, and are applicable in various sampling scenarios, including random sampling, outcome-based sampling, and exposure-based sampling. Through real data and simulations, we demonstrate the practicality and effectiveness of our proposed estimators in measuring the AAA.
翻訳日:2023-04-05 01:24:53 公開日:2023-04-02
# 有料会員制と外部リンクは、youtubeビデオのオルタナティブで過激なユーザーを惹きつける

Subscriptions and external links help drive resentful users to alternative and extremist YouTube videos ( http://arxiv.org/abs/2204.10921v2 )

ライセンス: Link先を確認
Annie Y. Chen, Brendan Nyhan, Jason Reifler, Ronald E. Robertson, Christo Wilson(参考訳) オンラインプラットフォームは潜在的に有害なコンテンツの消費を促進するか? 2020年に代表サンプル(n=1,181)からリクルートされた参加者が提供したペア行動と調査データを用いて、youtubeのオルタナティブおよび過激なチャンネルビデオへの露出は、性別や人種の不満が高い少数のグループに集中していることを示した。 これらの視聴者はしばしばチャンネルを購読し(ビデオへのレコメンデーションを提供する)、外部リンクをフォローする。 対照的に、非購読者はこれらのチャンネルからの動画のレコメンデーションを見たりフォローしたりすることは滅多にない。 われわれの発見は、YouTubeのアルゴリズムが2020年の観測窓から人々を「ビット穴」から追い出していないことを示唆している。 しかし、プラットフォームは、専任のオーディエンスの間で、代替チャンネルや過激チャンネルからのコンテンツへの露出を促進する上で重要な役割を担っている。

Do online platforms facilitate the consumption of potentially harmful content? Using paired behavioral and survey data provided by participants recruited from a representative sample in 2020 (n=1,181), we show that exposure to alternative and extremist channel videos on YouTube is heavily concentrated among a small group of people with high prior levels of gender and racial resentment. These viewers often subscribe to these channels (prompting recommendations to their videos) and follow external links to them. In contrast, non-subscribers rarely see or follow recommendations to videos from these channels. Our findings suggest YouTube's algorithms were not sending people down "rabbit holes" during our observation window in 2020, possibly due to changes that the company made to its recommender system in 2019. However, the platform continues to play a key role in facilitating exposure to content from alternative and extremist channels among dedicated audiences.
翻訳日:2023-04-05 01:22:45 公開日:2023-04-02
# 再初期化はいつ機能するのか?

When Does Re-initialization Work? ( http://arxiv.org/abs/2206.10011v2 )

ライセンス: Link先を確認
Sheheryar Zaidi, Tudor Berariu, Hyunjik Kim, J\"org Bornschein, Claudia Clopath, Yee Whye Teh, Razvan Pascanu(参考訳) トレーニング中のニューラルネットワークの再初期化は、最近の研究の一般化を改善するために観察されている。 しかし、ディープラーニングの実践では広く採用されておらず、最先端のトレーニングプロトコルでよく使われている。 これは再初期化がいつ機能するか、データ拡張、重量減少、学習率のスケジュールといった正規化技術と一緒に使うべきかという疑問を提起する。 本研究では,様々な画像分類ベンチマークを用いて15,000モデル以上をトレーニングし,標準訓練と再初期化手法の選定を広範囲に比較した。 まず,そのような手法は,他の正規化が存在しない場合にも,常に一般化に有益であることを示す。 しかし、注意して調整した他の正規化手法と併用すると、再初期化手法は一般化の利点をほとんど与えないが、最適な一般化性能は学習速度の選択や重みの減衰ハイパーパラメータに対する感受性が低下する。 雑音データに対する再初期化手法の影響を調べるため,ラベル雑音下での学習についても検討する。 驚くべきことに、このケースでは、他の注意深く調整された正規化技術が存在する場合でも、再初期化は標準トレーニングにおいて著しく改善される。

Re-initializing a neural network during training has been observed to improve generalization in recent works. Yet it is neither widely adopted in deep learning practice nor is it often used in state-of-the-art training protocols. This raises the question of when re-initialization works, and whether it should be used together with regularization techniques such as data augmentation, weight decay and learning rate schedules. In this work, we conduct an extensive empirical comparison of standard training with a selection of re-initialization methods to answer this question, training over 15,000 models on a variety of image classification benchmarks. We first establish that such methods are consistently beneficial for generalization in the absence of any other regularization. However, when deployed alongside other carefully tuned regularization techniques, re-initialization methods offer little to no added benefit for generalization, although optimal generalization performance becomes less sensitive to the choice of learning rate and weight decay hyperparameters. To investigate the impact of re-initialization methods on noisy data, we also consider learning under label noise. Surprisingly, in this case, re-initialization significantly improves upon standard training, even in the presence of other carefully tuned regularization techniques.
翻訳日:2023-04-05 01:14:52 公開日:2023-04-02
# 歌詞における性バイアスと性差別の大規模分析

Large scale analysis of gender bias and sexism in song lyrics ( http://arxiv.org/abs/2208.02052v3 )

ライセンス: Link先を確認
Lorenzo Betti, Carlo Abrate, Andreas Kaltenbrunner(参考訳) 我々は「200万曲データベース」コーパスから377808の英語歌詞を解析するために自然言語処理技術を用いて、性差別の表現(1960-2010年)と性バイアスの測定に焦点を当てた。 性差別分類器を用いて、手動で注釈付けされたポピュラーソングの小さなサンプルを用いて、過去の研究よりも大規模な性差別的歌詞を同定する。 さらに,歌詞から学習した単語埋め込みの関連を計測し,性別バイアスを明らかにする。 セクシーなコンテンツは、特に男性アーティストや、ビルボードのチャートに登場する人気曲から、時間とともに増えていくだろう。 歌は演奏者の性別によって異なる言語バイアスを含むことも示されており、男性ソロアーティストの歌はより強いバイアスを含む。 これはこのタイプの大規模な分析としては初めてであり、大衆文化の影響力のある部分における言語使用について洞察を与えている。

We employ Natural Language Processing techniques to analyse 377808 English song lyrics from the "Two Million Song Database" corpus, focusing on the expression of sexism across five decades (1960-2010) and the measurement of gender biases. Using a sexism classifier, we identify sexist lyrics at a larger scale than previous studies using small samples of manually annotated popular songs. Furthermore, we reveal gender biases by measuring associations in word embeddings learned on song lyrics. We find sexist content to increase across time, especially from male artists and for popular songs appearing in Billboard charts. Songs are also shown to contain different language biases depending on the gender of the performer, with male solo artist songs containing more and stronger biases. This is the first large scale analysis of this type, giving insights into language usage in such an influential part of popular culture.
翻訳日:2023-04-05 01:06:20 公開日:2023-04-02
# 古典的非マルコフ雑音を受ける駆動系を記述するための単純マスター方程式

Simple master equations for describing driven systems subject to classical non-Markovian noise ( http://arxiv.org/abs/2207.03980v2 )

ライセンス: Link先を確認
Peter Groszkowski, Alireza Seif, Jens Koch, A. A. Clerk(参考訳) 非マルコフ雑音を受ける駆動量子系は、たとえノイズが古典的であってもモデル化が難しい。 一般化累積展開に基づく体系的手法を提案し、そのような系に対する時間局所マスター方程式を導出する。 このマスター方程式は、標準リンドブラッド方程式を直交する直感的な形式を持つが、駆動と非マルコフ性の組み合わせは、負となることができる効果的な時間依存的退化率をもたらし、ノイズは古典的であるとしてもハミルトン的再正規化を生じさせる。 我々は,1/f$のゆらぎを含む様々な種類の非マルコフ雑音を受けるラビ駆動キュービットの高関連事例を詳細に分析し,関連する時間スケールに対する主方程式と数値的エクササイズとの良好な一致を見出した。 ここで概説するアプローチは、駆動と騒音の相互作用を無視した現象論的マスター方程式よりも正確である。

Driven quantum systems subject to non-Markovian noise are typically difficult to model even if the noise is classical. We present a systematic method based on generalized cumulant expansions for deriving a time-local master equation for such systems. This master equation has an intuitive form that directly parallels a standard Lindblad equation, but contains several surprising features: the combination of driving and non-Markovianity results in effective time-dependent dephasing rates that can be negative, and the noise can generate Hamiltonian renormalizations even though it is classical. We analyze in detail the highly relevant case of a Rabi-driven qubit subject to various kinds of non-Markovian noise including $1/f$ fluctuations, finding an excellent agreement between our master equation and numerically-exact simulations over relevant timescales. The approach outlined here is more accurate than commonly employed phenomenological master equations which ignore the interplay between driving and noise.
翻訳日:2023-04-05 01:04:19 公開日:2023-04-02
# 量子テンソルネットワーク最適化におけるバレン高原

Barren plateaus in quantum tensor network optimization ( http://arxiv.org/abs/2209.00292v3 )

ライセンス: Link先を確認
Enrique Cervero Mart\'in, Kirill Plekhanov, Michael Lubasch(参考訳) 行列積状態(qMPS)、ツリーテンソルネットワーク(qTTN)、およびマルチスケールエンタングルメント再正規化アンサッツ(qMERA)にインスパイアされた量子回路の変動最適化におけるバレンプラトー現象を解析した。 コスト関数として、局所項の和であるハミルトニアンの期待値を考える。 ランダムに選択された変動パラメータに対して、コスト関数勾配の分散は量子テンソルネットワークの正準中心からハミルトン項の距離と指数関数的に減少することを示す。 したがって、qMPS の量子ビット数関数として、ほとんどの勾配分散は指数関数的に減少し、qTTN と qMERA は多項式的に減少する。 また、これらの勾配の計算は量子コンピュータよりも古典的コンピュータの方が指数関数的に効率的であることを示す。

We analyze the barren plateau phenomenon in the variational optimization of quantum circuits inspired by matrix product states (qMPS), tree tensor networks (qTTN), and the multiscale entanglement renormalization ansatz (qMERA). We consider as the cost function the expectation value of a Hamiltonian that is a sum of local terms. For randomly chosen variational parameters we show that the variance of the cost function gradient decreases exponentially with the distance of a Hamiltonian term from the canonical centre in the quantum tensor network. Therefore, as a function of qubit count, for qMPS most gradient variances decrease exponentially and for qTTN as well as qMERA they decrease polynomially. We also show that the calculation of these gradients is exponentially more efficient on a classical computer than on a quantum computer.
翻訳日:2023-04-05 00:57:38 公開日:2023-04-02
# VV10を含む密度関数を持つ解析調和振動周波数:理論、効率的な実装、ベンチマーク評価

Analytical harmonic vibrational frequencies with VV10-containing density functionals: Theory, efficient implementation, and benchmark assessments ( http://arxiv.org/abs/2208.14639v2 )

ライセンス: Link先を確認
Jiashu Liang and Xintian Feng and Martin Head-Gordon(参考訳) VV10は,メタ一般化勾配近似 (mGGA), B97M-V, ハイブリッドGGA, {\omega}B97X-V, ハイブリッドmGGA, {\omega}B97M-V など,多くの現代的な密度汎関数に分散効果を含む,長距離相関の強力な非局所密度汎関数である。 vv10のエネルギーと分析勾配はすでに広く知られているが、vv10エネルギーの解析的な第2の誘導体の最初の導出と効率的な実装を報告している。 解析周波数に対するvv10の寄与の計算コストは、推奨のグリッドサイズに対して最小の基底セット以外は小さいことが示されている。 本研究は第2導関数を用いた高調波周波数予測のためのvv10含有関数の評価についても報告する。 調和周波数をシミュレートするVV10の寄与は、小さな分子では小さいが、水クラスターのような弱い相互作用が重要であるシステムでは重要である。 後者の場合、B97M-V、B97M-V、B97X-Vは非常によく機能する。 格子サイズおよび原子軌道基底集合サイズに関する周波数の収束について検討し、推奨する。 最後に、最近開発されたいくつかの関数(r2SCAN, B97M-V, {\omega}B97X-V, M06-SX, {\omega}B97M-V)に対して、スケールした高調波周波数と実験基本周波数の比較とゼロ点振動エネルギーの予測を可能にするスケーリング因子を提示する。

VV10 is a powerful nonlocal density functional for long-range correlation that is used to include dispersion effects in many modern density functionals such as the meta-generalized gradient approximation (mGGA), B97M-V, the hybrid GGA, {\omega}B97X-V and the hybrid mGGA, {\omega}B97M-V. While energies and analytical gradients for VV10 are already widely available, this study reports the first derivation and efficient implementation of the analytical second derivatives of the VV10 energy. The additional compute cost of the VV10 contributions to analytical frequencies is shown to be small in all but the smallest basis sets for recommended grid sizes. This study also reports the assessment of VV10-containing functionals for predicting harmonic frequencies using the analytical second derivative code. The contribution of VV10 to simulating harmonic frequencies is shown to be small for small molecules but important for systems where weak interactions are important, such as water clusters. In the latter cases, B97M-V, {\omega}B97M-V, and {\omega}B97X-V perform very well. The convergence of frequencies with respect to grid size and atomic orbital basis set size is studied and recommendations reported. Finally, scaling factors to allow comparison of scaled harmonic frequencies with experimental fundamental frequencies and to predict zero-point vibrational energy are presented for some recently developed functionals (including r2SCAN, B97M-V, {\omega}B97X-V, M06-SX, and {\omega}B97M-V).
翻訳日:2023-04-05 00:57:23 公開日:2023-04-02
# スムースモノトン確率的変分不等式とサドル点問題:調査

Smooth Monotone Stochastic Variational Inequalities and Saddle Point Problems: A Survey ( http://arxiv.org/abs/2208.13592v3 )

ライセンス: Link先を確認
Aleksandr Beznosikov, Boris Polyak, Eduard Gorbunov, Dmitry Kovalev, Alexander Gasnikov(参考訳) 本稿では,スムーズな(強く)モノトン確率的変分不等式を解く方法の探索を行う。 まず、確率的手法が最終的に進化した決定論的基礎を与える。 次に,一般確率的定式化の手法について検討し,有限和設定について考察する。 論文の最後の部分は、変分不等式に対するアルゴリズムの最近の様々な(必ずしも確率的ではない)進歩に捧げられている。

This paper is a survey of methods for solving smooth (strongly) monotone stochastic variational inequalities. To begin with, we give the deterministic foundation from which the stochastic methods eventually evolved. Then we review methods for the general stochastic formulation, and look at the finite sum setup. The last parts of the paper are devoted to various recent (not necessarily stochastic) advances in algorithms for variational inequalities.
翻訳日:2023-04-05 00:56:52 公開日:2023-04-02
# LASP:視覚・言語モデルの言語対応ソフトプロンプトのためのテキスト間最適化

LASP: Text-to-Text Optimization for Language-Aware Soft Prompting of Vision & Language Models ( http://arxiv.org/abs/2210.01115v2 )

ライセンス: Link先を確認
Adrian Bulat and Georgios Tzimiropoulos(参考訳) ソフトプロンプト学習は、最近、いくつかのトレーニング例を使って、下流タスクにV&Lモデルを適応させる方法の1つとして登場した。 しかし、現在の手法では、同じドメインの未確認クラスでテストした場合、大きな精度劣化に悩まされるため、トレーニングデータに著しく過度に適合する。 そこで本論文では,(1) 基本クラスオーバーフィッティングを緩和するために, テキスト間の相互エントロピー損失を最大化して, 学習内容が予め定義されたテキストプロンプトに対して正しく分類される確率を最大化する新しい言語対応ソフトプロンプト(LASP)学習法を提案する。 2) プロンプトの表現能力を高めるため,各プロンプト群がテキストプロンプトの別個のサブセットに対して最適化されたグループ化LASPを提案する。 (3) 素早い学習とLASPによって導入された視覚言語的誤りを識別し、さらに重要なことに、それに対応するための再校正機構を提案する。 (4) LASPは、訓練中、仮想クラス、すなわち視覚的なサンプルが得られないクラス名を含むことができ、学習したプロンプトの堅牢性をさらに高めることができることを示す。 11のデータセットの評価を通して 我々のアプローチが (a)ソフトプロンプトのすべての先行作品を大幅に上回っていること、及び (b)11つのテストデータセットのうち8つを対象に,手作りのプロンプトとクリップによって得られた新規クラスの精度が初めて一致し,それを上回った。 コードはhttps://www.adrianbulat.com/laspで利用可能になる

Soft prompt learning has recently emerged as one of the methods of choice for adapting V&L models to a downstream task using a few training examples. However, current methods significantly overfit the training data, suffering from large accuracy degradation when tested on unseen classes from the same domain. To this end, in this paper, we make the following 4 contributions: (1) To alleviate base class overfitting, we propose a novel Language-Aware Soft Prompting (LASP) learning method by means of a text-to-text cross-entropy loss that maximizes the probability of the learned prompts to be correctly classified with respect to pre-defined hand-crafted textual prompts. (2) To increase the representation capacity of the prompts, we propose grouped LASP where each group of prompts is optimized with respect to a separate subset of textual prompts. (3) We identify a visual-language misalignment introduced by prompt learning and LASP, and more importantly, propose a re-calibration mechanism to address it. (4) We show that LASP is inherently amenable to including, during training, virtual classes, i.e. class names for which no visual samples are available, further increasing the robustness of the learned prompts. Through evaluations on 11 datasets, we show that our approach (a) significantly outperforms all prior works on soft prompting, and (b) matches and surpasses, for the first time, the accuracy on novel classes obtained by hand-crafted prompts and CLIP for 8 out of 11 test datasets. Code will be made available at https://www.adrianbulat.com/lasp
翻訳日:2023-04-05 00:48:57 公開日:2023-04-02
# 極低温原子の熱ガスからの二量体結合におけるコヒーレント振動の観測

Observation of coherent oscillations in association of dimers from a thermal gas of ultracold atoms ( http://arxiv.org/abs/2209.03872v2 )

ライセンス: Link先を確認
Roy Elbaz, Yaakov Yudkin, P. Giannakeas, Jan-Michael Rost, Chris H. Greene, and Lev Khaykovich(参考訳) 超低温原子の熱気体から形成される弱結合ダイマーの変換効率におけるコヒーレント振動の観測を報告する。 ガスの有限熱エネルギーは、広い連続体が離散的な境界状態に共鳴的に結合されたときにコヒーレンスを失う。 コヒーレンスの回復は、高速エンベロープダイナミクスを持つ強い変調パルスによって引き起こされる服を着た分子エネルギー準位の非断熱遷移によって達成される。 コヒーレント振動の観測条件が検証され,その特性の制御が実証された。 主な実験結果は理論モデリングと数値計算によって裏付けられている。 観測結果は、両方の特性が完全に制御されている場合、ブロードバンド連続体に結合した離散エネルギーレベルの一般研究に再び興味を惹きつける可能性がある。

We report the observation of coherent oscillations in conversion efficiency of weakly-bound dimers formed from a thermal gas of ultracold atoms. Finite thermal energy of the gas causes loss of coherence when a broad continuum is resonantly coupled to a discrete bound state. Restoration of the coherence can be achieved through non-adiabatic transitions of the dressed molecular energy level that are induced by a strong modulation pulse with fast envelope dynamics. Conditions to observe coherent oscillations are verified, and control of their properties is demonstrated. The main experimental findings are supported by theoretical modeling and numerical calculations. The observed results may lead to a renewed interest in general studies of a discrete energy level coupled to a broadband continuum when the properties of both are fully controlled.
翻訳日:2023-04-05 00:45:48 公開日:2023-04-02
# ロバストな摩擦多目的把持を効率的に計画する学習

Learning to Efficiently Plan Robust Frictional Multi-Object Grasps ( http://arxiv.org/abs/2210.07420v2 )

ライセンス: Link先を確認
Wisdom C. Agboh, Satvik Sharma, Kishore Srinivas, Mallika Parulekar, Gaurav Datta, Tianshuang Qiu, Jeffrey Ichnowski, Eugen Solowjow, Mehmet Dogar, Ken Goldberg(参考訳) 複数の剛凸多角形物体が平面面上にランダムに配置された位置と向きに留まり、単一物体と多物体のグリップを用いて効率的に梱包箱に搬送されるというデクサリング問題を考える。 先行研究では摩擦のない多目的把持が検討された。 本稿では,1時間あたりのピックの増加に摩擦を導入する。 実例を用いてニューラルネットワークをトレーニングし,堅牢なマルチオブジェクト把握を計画する。 物理実験では、成功率13.7%、ピック1時間あたり1.6倍、把握計画時間の6.3倍、マルチオブジェクト把握における先行作業と比較して、把握計画時間が6.3倍減少した。 単一の物体の把握と比較して、1時間あたりのピックは3.1倍増加する。

We consider a decluttering problem where multiple rigid convex polygonal objects rest in randomly placed positions and orientations on a planar surface and must be efficiently transported to a packing box using both single and multi-object grasps. Prior work considered frictionless multi-object grasping. In this paper, we introduce friction to increase picks per hour. We train a neural network using real examples to plan robust multi-object grasps. In physical experiments, we find a 13.7% increase in success rate, a 1.6x increase in picks per hour, and a 6.3x decrease in grasp planning time compared to prior work on multi-object grasping. Compared to single object grasping, we find a 3.1x increase in picks per hour.
翻訳日:2023-04-05 00:39:39 公開日:2023-04-02
# 6GモバイルネットワークにおけるVersatile Edge AIを実現するためのIn-situモデルダウンロード

In-situ Model Downloading to Realize Versatile Edge AI in 6G Mobile Networks ( http://arxiv.org/abs/2210.03555v2 )

ライセンス: Link先を確認
Kaibin Huang, Hai Wu, Zhiyan Liu and Xiaojuan Qi(参考訳) 第6世代(6G)モバイルネットワークは、機械学習とAIアルゴリズムをネットワークエッジにユビキタスに展開する予定である。 エッジAIの急速な進歩により、エッジデバイス(スマートフォンやセンサーなど)にインテリジェンスダウンロードを実現する時代がやってきた。 このバージョンを実現するために,本論文では,ネットワーク内のAIライブラリからダウンロードすることで,デバイス上でのAIモデルの透過的かつリアルタイムな置換を実現することを目的とした,in-situモデルダウンロードという新しい技術を提案する。 その特徴は、時間変化の状況(例えば、アプリケーション、ロケーション、時間)、デバイスの異種ストレージと計算能力、チャネル状態へのダウンロードの適応である。 提案フレームワークの重要なコンポーネントは、アダプティブモデルダウンロードをサポートするために、奥行きレベル、パラメータレベル、ビットレベルでダウンロードモデルを動的に圧縮する一連のテクニックである。 さらに,3層(エッジ,ローカル,中央)AIライブラリの重要な機能を備えたインサイトモデルダウンロードのデプロイ用にカスタマイズされた仮想化6Gネットワークアーキテクチャを提案する。 さらに,提案技術に関連する6g接続要件と研究機会を定量化するための実験を行った。

The sixth-generation (6G) mobile networks are expected to feature the ubiquitous deployment of machine learning and AI algorithms at the network edge. With rapid advancements in edge AI, the time has come to realize intelligence downloading onto edge devices (e.g., smartphones and sensors). To materialize this version, we propose a novel technology in this article, called in-situ model downloading, that aims to achieve transparent and real-time replacement of on-device AI models by downloading from an AI library in the network. Its distinctive feature is the adaptation of downloading to time-varying situations (e.g., application, location, and time), devices' heterogeneous storage-and-computing capacities, and channel states. A key component of the presented framework is a set of techniques that dynamically compress a downloaded model at the depth-level, parameter-level, or bit-level to support adaptive model downloading. We further propose a virtualized 6G network architecture customized for deploying in-situ model downloading with the key feature of a three-tier (edge, local, and central) AI library. Furthermore, experiments are conducted to quantify 6G connectivity requirements and research opportunities pertaining to the proposed technology are discussed.
翻訳日:2023-04-05 00:38:18 公開日:2023-04-02
# オーバー・ザ・エア計算に関する調査

A Survey on Over-the-Air Computation ( http://arxiv.org/abs/2210.11350v5 )

ライセンス: Link先を確認
Alphan Sahin, Rui Yang(参考訳) コミュニケーションと計算はしばしば別のタスクと見なされる。 このアプローチは、分離された最適化を行うことができるため、エンジニアリングの観点から非常に効果的です。 しかし、多くの計算指向アプリケーションにおいて、主な関心事は、ローカル情報そのものではなく、デバイスにおけるローカル情報の関数である。 このようなシナリオでは、情報理論的な結果から、通信と計算タスクを分離するよりも、複数のアクセスチャネルの干渉を利用した計算、すなわち、oac(over-the-air computation)がはるかに高い達成可能な計算率を提供できることが示されている。 さらに、OACと計算速度の分離のギャップは、より多くのノードが参加することで増大する。 この動機から,本研究では,OAC手法に関する総合的な調査を行う。 OACに関する基礎を概説した後、利用可能なOACスキームについて、その長所と短所について論じる。 本稿では,無線チャネルにおける信頼性の高い計算を実現するための実現機構について概説する。 最後に、OACの潜在的な応用を要約し、今後の方向性を指摘する。

Communication and computation are often viewed as separate tasks. This approach is very effective from the perspective of engineering as isolated optimizations can be performed. However, for many computation-oriented applications, the main interest is a function of the local information at the devices, rather than the local information itself. In such scenarios, information theoretical results show that harnessing the interference in a multiple access channel for computation, i.e., over-the-air computation (OAC), can provide a significantly higher achievable computation rate than separating communication and computation tasks. Moreover, the gap between OAC and separation in terms of computation rate increases with more participating nodes. Given this motivation, in this study, we provide a comprehensive survey on practical OAC methods. After outlining fundamentals related to OAC, we discuss the available OAC schemes with their pros and cons. We provide an overview of the enabling mechanisms for achieving reliable computation in the wireless channel. Finally, we summarize the potential applications of OAC and point out some future directions.
翻訳日:2023-04-05 00:27:32 公開日:2023-04-02
# 高品質エンティティセグメンテーション

High-Quality Entity Segmentation ( http://arxiv.org/abs/2211.05776v3 )

ライセンス: Link先を確認
Lu Qi, Jason Kuen, Weidong Guo, Tiancheng Shen, Jiuxiang Gu, Jiaya Jia, Zhe Lin, Ming-Hsuan Yang(参考訳) 高密度画像分割タスク(例えば、semantic, panoptic)は、画像編集に有用であるが、既存の手法では、制限のない画像ドメイン、クラス、および画像解像度と品質のバリエーションがある、ワイルド設定ではうまく一般化できない。 これらの観測により,野生の高次密度セグメンテーションに強い焦点をあてた新しいエンティティセグメンテーションデータセットを構築した。 データセットには、さまざまなイメージドメインとエンティティにまたがるイメージと、豊富な高解像度イメージと、トレーニングとテストのための高品質のマスクアノテーションが含まれている。 データセットの高品質で解像度の高い性質から,高分解能画像におけるインスタンスレベルのセグメンテーションの難解性に取り組むために,cropformerを提案する。 よりきめ細かい画像とフルイメージを提供する高解像度の画像作物を融合することで、マスク予測を改善する。 CropFormerは、複数のイメージビューからマスク予測を効果的に利用することができる最初のクエリベースのTransformerアーキテクチャである。 CropFormerでは、難易度の高いエンティティセグメンテーションタスクで1.9ドルのAP利益を達成しています。 さらに、CropFormerは従来のセグメンテーションタスクとデータセットの精度を一貫して改善している。 データセットとコードはhttp://luqi.info/entityv2.github.io/でリリースされる。

Dense image segmentation tasks e.g., semantic, panoptic) are useful for image editing, but existing methods can hardly generalize well in an in-the-wild setting where there are unrestricted image domains, classes, and image resolution and quality variations. Motivated by these observations, we construct a new entity segmentation dataset, with a strong focus on high-quality dense segmentation in the wild. The dataset contains images spanning diverse image domains and entities, along with plentiful high-resolution images and high-quality mask annotations for training and testing. Given the high-quality and -resolution nature of the dataset, we propose CropFormer which is designed to tackle the intractability of instance-level segmentation on high-resolution images. It improves mask prediction by fusing high-res image crops that provide more fine-grained image details and the full image. CropFormer is the first query-based Transformer architecture that can effectively fuse mask predictions from multiple image views, by learning queries that effectively associate the same entities across the full image and its crop. With CropFormer, we achieve a significant AP gain of $1.9$ on the challenging entity segmentation task. Furthermore, CropFormer consistently improves the accuracy of traditional segmentation tasks and datasets. The dataset and code will be released at http://luqi.info/entityv2.github.io/.
翻訳日:2023-04-05 00:19:37 公開日:2023-04-02
# 異種知識グラフデータセットを用いた映像理解と知識埋め込みのための統一モデル

A Unified Model for Video Understanding and Knowledge Embedding with Heterogeneous Knowledge Graph Dataset ( http://arxiv.org/abs/2211.10624v2 )

ライセンス: Link先を確認
Jiaxin Deng, Dong Shen, Haojie Pan, Xiangyu Wu, Ximan Liu, Gaofeng Meng, Fan Yang, Size Li, Ruiji Fu, Zhongyuan Wang(参考訳) ビデオ理解はショートビデオビジネスプラットフォームにおいて重要な課題であり、ビデオレコメンデーションと分類に広く応用されている。 既存のビデオ理解作業のほとんどは、ビデオフレーム、オーディオ、テキストなど、ビデオコンテンツの中に現れる情報のみに焦点を当てている。 しかし,外部知識グラフ(KG)データセットから常識知識を導入することは,映像にはあまり関連のないコンテンツを参照する場合,ビデオ理解に不可欠である。 ビデオ知識グラフデータセットの欠如により、ビデオ理解とkgを統合する作業は稀である。 本稿では,マルチモーダルビデオエンティティと実りある共通感覚関係を含む異種データセットを提案する。 このデータセットはまた、VRT(Video-Relation-Tag)やVRV(Video-Relation-Video)タスクのような、複数の新しいビデオ推論タスクも提供する。 さらに,本データセットに基づいて,映像理解の目的と知識グラフの埋め込みを協調的に最適化するエンド・ツー・エンドモデルを提案する。 総合的な実験により,映像理解と事実知識の組み合わせは,コンテンツベースの映像検索性能に有益であることが示された。 さらに、VRTやVRVのタスクにおいて従来のKGEベースの手法を少なくとも42.36%、HITS@10で17.73%改善した知識グラフの埋め込みも改善されている。

Video understanding is an important task in short video business platforms and it has a wide application in video recommendation and classification. Most of the existing video understanding works only focus on the information that appeared within the video content, including the video frames, audio and text. However, introducing common sense knowledge from the external Knowledge Graph (KG) dataset is essential for video understanding when referring to the content which is less relevant to the video. Owing to the lack of video knowledge graph dataset, the work which integrates video understanding and KG is rare. In this paper, we propose a heterogeneous dataset that contains the multi-modal video entity and fruitful common sense relations. This dataset also provides multiple novel video inference tasks like the Video-Relation-Tag (VRT) and Video-Relation-Video (VRV) tasks. Furthermore, based on this dataset, we propose an end-to-end model that jointly optimizes the video understanding objective with knowledge graph embedding, which can not only better inject factual knowledge into video understanding but also generate effective multi-modal entity embedding for KG. Comprehensive experiments indicate that combining video understanding embedding with factual knowledge benefits the content-based video retrieval performance. Moreover, it also helps the model generate better knowledge graph embedding which outperforms traditional KGE-based methods on VRT and VRV tasks with at least 42.36% and 17.73% improvement in HITS@10.
翻訳日:2023-04-05 00:09:04 公開日:2023-04-02
# 比較階層クラスタリングのための収益関数

A Revenue Function for Comparison-Based Hierarchical Clustering ( http://arxiv.org/abs/2211.16459v2 )

ライセンス: Link先を確認
Aishik Mandal, Micha\"el Perrot, Debarghya Ghoshdastidar(参考訳) 比較ベースの学習は、明示的な特徴やペアの類似性の代わりに、形式の比較へのアクセスしかできない場合に、学習の問題に対処する。 近年,階層クラスタリングでは,そのような比較のみを用いて単一リンクと完全リンクを直接実装でき,平均リンクの挙動をエミュレートするアルゴリズムがいくつか提案されている。 したがって、比較のみを用いて階層(あるいはデンドログラム)を見つけることはよく理解された問題である。 しかし、根拠や明示的な類似性がない場合の有意義性の評価は未解決の問題である。 本稿では,このギャップを,比較のみを用いてデンドログラムの良さを計測できる新たな収益関数を提案することによって埋める。 この関数は,ペアワイズ類似性を用いた階層的クラスタリングにおけるdasguptaのコストと密接に関連していることを示す。 理論的には,提案した収益関数を用いて,三重項比較の少ない潜在階層をおよそ復元できるかどうかというオープンな問題を解く。 実用面では,収益の最大化に基づく比較ベース階層クラスタリングの原則アルゴリズムを提案し,既存の手法と実証的に比較する。

Comparison-based learning addresses the problem of learning when, instead of explicit features or pairwise similarities, one only has access to comparisons of the form: \emph{Object $A$ is more similar to $B$ than to $C$.} Recently, it has been shown that, in Hierarchical Clustering, single and complete linkage can be directly implemented using only such comparisons while several algorithms have been proposed to emulate the behaviour of average linkage. Hence, finding hierarchies (or dendrograms) using only comparisons is a well understood problem. However, evaluating their meaningfulness when no ground-truth nor explicit similarities are available remains an open question. In this paper, we bridge this gap by proposing a new revenue function that allows one to measure the goodness of dendrograms using only comparisons. We show that this function is closely related to Dasgupta's cost for hierarchical clustering that uses pairwise similarities. On the theoretical side, we use the proposed revenue function to resolve the open problem of whether one can approximately recover a latent hierarchy using few triplet comparisons. On the practical side, we present principled algorithms for comparison-based hierarchical clustering based on the maximisation of the revenue and we empirically compare them with existing methods.
翻訳日:2023-04-05 00:03:03 公開日:2023-04-02
# 光タッチによるトランスフォーマーの多視点幾何学教育

A Light Touch Approach to Teaching Transformers Multi-view Geometry ( http://arxiv.org/abs/2211.15107v2 )

ライセンス: Link先を確認
Yash Bhalgat, Joao F. Henriques, Andrew Zisserman(参考訳) トランスフォーマーは強力な視覚的学習者であり、多くの場合、手動で特定された事前情報がないためである。 この柔軟性は、3次元形状と視点のほぼ無限のバリエーション(柔軟性が必要)と射影幾何学の正確な性質(剛性の法則に従えば)のため、多視点幾何学に関わるタスクにおいて問題となる。 この混乱を解決するために,視覚トランスフォーマーに多視点幾何学を学ぶように誘導する「ライトタッチ」アプローチを提案する。 我々は、エピポーラ線を用いてトランスフォーマーのクロスアテンションマップを誘導し、エピポーラ線外の注意値をペナルティ化し、それらの線に沿って高い注意を喚起する。 従来の方法とは異なり、テスト時にカメラのポーズ情報を必要としない。 検索画像と検索画像の視点の違いが大きいため,標準的なトランスフォーマーネットワークが苦労する,ポーズ不変オブジェクトインスタンス検索に注目する。 提案手法は,テスト時にポーズ情報を必要とせず,オブジェクト検索における最先端の手法よりも優れている。

Transformers are powerful visual learners, in large part due to their conspicuous lack of manually-specified priors. This flexibility can be problematic in tasks that involve multiple-view geometry, due to the near-infinite possible variations in 3D shapes and viewpoints (requiring flexibility), and the precise nature of projective geometry (obeying rigid laws). To resolve this conundrum, we propose a "light touch" approach, guiding visual Transformers to learn multiple-view geometry but allowing them to break free when needed. We achieve this by using epipolar lines to guide the Transformer's cross-attention maps, penalizing attention values outside the epipolar lines and encouraging higher attention along these lines since they contain geometrically plausible matches. Unlike previous methods, our proposal does not require any camera pose information at test-time. We focus on pose-invariant object instance retrieval, where standard Transformer networks struggle, due to the large differences in viewpoint between query and retrieved images. Experimentally, our method outperforms state-of-the-art approaches at object retrieval, without needing pose information at test-time.
翻訳日:2023-04-05 00:02:25 公開日:2023-04-02
# ハイパースペクトル画像復調のための準リカレントニューラルネットワークの改良

Improved Quasi-Recurrent Neural Network for Hyperspectral Image Denoising ( http://arxiv.org/abs/2211.14811v2 )

ライセンス: Link先を確認
Zeqiang Lai, Ying Fu(参考訳) ハイパースペクトル画像はその豊富なスペクトル帯域に対して一意で有用であるが、その後、強固で強力なhsi復元アルゴリズムを構築するためのスペクトルに沿った大域的相関と同様に、空間スペクトル相関の詳細な処理が必要である。 このようなHSI特性を考慮すると、3D Quasi-Recurrent Neural Network (QRNN3D) は優れた性能と柔軟性を実現することが示されているHSI denoising Networkの1つである。 本稿では,簡単な修正でqrnn3dの性能が大幅に向上することを示す。 我々の修正は、QRNN3Dがスペクトル相関をモデル化するのに強力であることから、異なるソースの特徴間の適切な処理を無視し、トレーニング戦略が最適であることを示す。 そこで我々は,エンコーダとデコーダの特徴をよりよく融合するために,そのバニラ付加型スキップ接続を代替する適応型フュージョンモジュールを導入する。 さらに、バッチ正規化の除去、余分な周波数損失の使用、学習率のウォームアップなど、パフォーマンスをさらに向上する重要なテクニックをいくつか挙げる。 各種ノイズ設定実験の結果,提案手法の有効性と性能が示された。

Hyperspectral image is unique and useful for its abundant spectral bands, but it subsequently requires extra elaborated treatments of the spatial-spectral correlation as well as the global correlation along the spectrum for building a robust and powerful HSI restoration algorithm. By considering such HSI characteristics, 3D Quasi-Recurrent Neural Network (QRNN3D) is one of the HSI denoising networks that has been shown to achieve excellent performance and flexibility. In this paper, we show that with a few simple modifications, the performance of QRNN3D could be substantially improved further. Our modifications are based on the finding that through QRNN3D is powerful for modeling spectral correlation, it neglects the proper treatment between features from different sources and its training strategy is suboptimal. We, therefore, introduce an adaptive fusion module to replace its vanilla additive skip connection to better fuse the features of the encoder and decoder. We additionally identify several important techniques to further enhance the performance, which includes removing batch normalization, use of extra frequency loss, and learning rate warm-up. Experimental results on various noise settings demonstrate the effectiveness and superior performance of our method.
翻訳日:2023-04-05 00:02:03 公開日:2023-04-02
# orex:ニューラルフィールドを用いた平面断面からの物体再構成

OReX: Object Reconstruction from Planar Cross-sections Using Neural Fields ( http://arxiv.org/abs/2211.12886v3 )

ライセンス: Link先を確認
Haim Sawdayee, Amir Vaxman, Amit H. Bermano(参考訳) 平面断面から3D形状を再構築することは、医用画像や地理情報学といった下流の応用にインスパイアされた課題である。 入力は空間内の平面のスパース集合上で完全に定義されたイン/アウトインジケータ関数であり、出力はインジケータ関数のボリューム全体への補間である。 このスパースで不適切な問題に対処する以前の作品は、低品質の結果を生み出すか、ターゲットトポロジー、外観情報、入力正規方向といった追加の事前情報に依存する。 本稿では,スライスのみによる3次元形状復元手法であるOReXについて述べる。 適度なニューラルネットワークは入力平面上でトレーニングされ、与えられた3D座標の内外推定を返却し、滑らかさと自己相似性を誘導する強力な先行を与える。 このアプローチの主な課題は、神経前兆が過度に滑らかになっているため、高周波の詳細である。 これを緩和するために,反復的推定アーキテクチャと階層的入力サンプリングスキームを提供し,粗視から細かなトレーニングを奨励し,トレーニングプロセスが後段の高周波数に集中できるようにする。 さらに,メッシュ抽出工程から発生するリップル様効果を同定し,解析する。 ネットワークトレーニング中に入力入出力境界付近のインジケータ関数の空間勾配を定式化し、根元で問題に取り組むことで緩和する。 定性的かつ定量的な実験を通じて,本手法は精度が高く,入力の大きさとよく一致していることを示す。 我々は,従来のアプローチと最近の潜在的ソリューションと比較して,最先端の成果を報告し,分析とアブレーション研究による個人貢献のメリットを実証する。

Reconstructing 3D shapes from planar cross-sections is a challenge inspired by downstream applications like medical imaging and geographic informatics. The input is an in/out indicator function fully defined on a sparse collection of planes in space, and the output is an interpolation of the indicator function to the entire volume. Previous works addressing this sparse and ill-posed problem either produce low quality results, or rely on additional priors such as target topology, appearance information, or input normal directions. In this paper, we present OReX, a method for 3D shape reconstruction from slices alone, featuring a Neural Field as the interpolation prior. A modest neural network is trained on the input planes to return an inside/outside estimate for a given 3D coordinate, yielding a powerful prior that induces smoothness and self-similarities. The main challenge for this approach is high-frequency details, as the neural prior is overly smoothing. To alleviate this, we offer an iterative estimation architecture and a hierarchical input sampling scheme that encourage coarse-to-fine training, allowing the training process to focus on high frequencies at later stages. In addition, we identify and analyze a ripple-like effect stemming from the mesh extraction step. We mitigate it by regularizing the spatial gradients of the indicator function around input in/out boundaries during network training, tackling the problem at the root. Through extensive qualitative and quantitative experimentation, we demonstrate our method is robust, accurate, and scales well with the size of the input. We report state-of-the-art results compared to previous approaches and recent potential solutions, and demonstrate the benefit of our individual contributions through analysis and ablation studies.
翻訳日:2023-04-05 00:00:12 公開日:2023-04-02
# アクセラレーションAI倫理、イノベーションと安全の議論、安定したAIの拡散、OpenAIのDall-E

Acceleration AI Ethics, the Debate between Innovation and Safety, and Stability AI's Diffusion versus OpenAI's Dall-E ( http://arxiv.org/abs/2212.01834v2 )

ライセンス: Link先を確認
James Brusseau(参考訳) 従来のAI倫理に対する反対の1つは、イノベーションを遅らせることである。 このプレゼンテーションは、倫理をイノベーションアクセラレータとして再構成することで反応する。 重要な要素は、Stable AIのDiffusionとOpenAIのDall-Eの対比から生まれる。 開発・展開戦略の根底にある分岐値を分析することにより、加速倫理に共通する5つの概念が特定される。 不確かさは否定するよりも、肯定的かつ奨励的であると理解されている。 イノベーションは本質的に価値のあるものだと考えられており、社会的効果によってのみ媒介される価値がある。 AIの問題は、AIによって解決される。 AIを管理する許可と規制は、統一された権限ではなく、分散されたプロセスから現れます。 倫理学の研究は、外部からの機能ではなく、AI開発と応用に組み込まれている。 これらの態度と実践は、人工知能を抑えるのではなく、倫理を挑発的なものにしている。

One objection to conventional AI ethics is that it slows innovation. This presentation responds by reconfiguring ethics as an innovation accelerator. The critical elements develop from a contrast between Stability AI's Diffusion and OpenAI's Dall-E. By analyzing the divergent values underlying their opposed strategies for development and deployment, five conceptions are identified as common to acceleration ethics. Uncertainty is understood as positive and encouraging, rather than discouraging. Innovation is conceived as intrinsically valuable, instead of worthwhile only as mediated by social effects. AI problems are solved by more AI, not less. Permissions and restrictions governing AI emerge from a decentralized process, instead of a unified authority. The work of ethics is embedded in AI development and application, instead of functioning from outside. Together, these attitudes and practices remake ethics as provoking rather than restraining artificial intelligence.
翻訳日:2023-04-04 23:51:55 公開日:2023-04-02
# SinGRAF: ワンシーンで3D生成放射場を学ぶ

SinGRAF: Learning a 3D Generative Radiance Field for a Single Scene ( http://arxiv.org/abs/2211.17260v2 )

ライセンス: Link先を確認
Minjung Son, Jeong Joon Park, Leonidas Guibas, Gordon Wetzstein(参考訳) 生成モデルは、フォトリアリスティックな3Dオブジェクトを合成するのに非常に有望であるが、大量のトレーニングデータが必要である。 SinGRAF(SinGRAF)は、1つのシーンの入力画像で訓練された3D認識生成モデルである。 トレーニングが完了すると、SinGRAFはこの3Dシーンの異なる実現法を生成し、入力の外観を異なるシーンレイアウトで保持する。 本研究の目的は,最近の3D GANアーキテクチャの進歩を基盤として,トレーニング中に新しいプログレッシブスケールのパッチ識別アプローチを導入することである。 いくつかの実験により、SinGRAFが生み出した結果は、品質と多様性の両方において、大きなマージンで、最も近い関連研究を上回ります。

Generative models have shown great promise in synthesizing photorealistic 3D objects, but they require large amounts of training data. We introduce SinGRAF, a 3D-aware generative model that is trained with a few input images of a single scene. Once trained, SinGRAF generates different realizations of this 3D scene that preserve the appearance of the input while varying scene layout. For this purpose, we build on recent progress in 3D GAN architectures and introduce a novel progressive-scale patch discrimination approach during training. With several experiments, we demonstrate that the results produced by SinGRAF outperform the closest related works in both quality and diversity by a large margin.
翻訳日:2023-04-04 23:50:37 公開日:2023-04-02
# 長距離カップリングによる非エルミート皮膚効果のスケーリング則

Scaling laws for non-Hermitian skin effect with long-range couplings ( http://arxiv.org/abs/2211.16565v3 )

ライセンス: Link先を確認
Yi-Cheng Wang, H. H. Jen, Jhih-Shih You(参考訳) 近年、有限次元カップリングを有する一次元格子における非エルミート皮膚効果(nhse)の研究が急増している。 本研究は,1/l^{\alpha}=1/l^{\alpha}=1で崩壊する長距離結合が,NHSEの挙動や非相互性の存在下での量子エンタングルメントのスケーリングを根本的に変更できることを示す。 α=0$ のとき、カップリングの非局所性はスケールフリースキンモードを生じさせ、その局在長はシステムサイズに比例する。 指数$\alpha$の増大は、複素-実スペクトル遷移と、スケールフリーから定位置化長へのクロスオーバーを駆動する。 さらに、非平衡定常エンタングルメントエントロピーのスケーリングは、NHSEから生じる領域法とは対照的に、非局所性および複素スペクトルによる亜指数法則を示す。 本研究は長距離結合と非ヘルミティシティの相互作用を理論的に理解する。

Recent years have witnessed a surge of research on the non-Hermitian skin effect (NHSE) in one-dimensional lattices with finite-range couplings. In this work, we show that the long-range couplings that decay as $1/l^{\alpha}$ at distance $l$ can fundamentally modify the behavior of NHSE and the scaling of quantum entanglement in the presence of nonreciprocity. At $\alpha=0$, the nonlocality of couplings gives rise to the scale-free skin modes, whose localization length is proportional to the system size. Increasing the exponent $\alpha$ drives a complex-to-real spectral transition and a crossover from a scale-free to constant localization length. Furthermore, the scaling of nonequilibrium steady-state entanglement entropy exhibits a subextensive law due to the nonlocality and the complex spectrum, in contrast to an area law arising from NHSE. Our results provide a theoretical understanding on the interplay between long-range couplings and non-Hermiticity.
翻訳日:2023-04-04 23:49:45 公開日:2023-04-02
# その場ファインタニングによる自己監督対象目標ナビゲーション

Self-Supervised Object Goal Navigation with In-Situ Finetuning ( http://arxiv.org/abs/2212.05923v2 )

ライセンス: Link先を確認
So Yeon Min, Yao-Hung Hubert Tsai, Wei Ding, Ali Farhadi, Ruslan Salakhutdinov, Yonatan Bisk, Jian Zhang(参考訳) 家庭のロボットは、ユーザがまず自分の家のすべてを注釈付けしなくても、対象物にナビゲートできる。 現在のオブジェクトナビゲーションのアプローチは、実際のロボットではテストされておらず、住宅の復元されたスキャンと高価なラベル付きセマンティック3dメッシュのみに依存している。 本研究の目的は,(1)ラベル付き3dメッシュの費用を回避し,(2)実世界での自己監督型微調整を可能にする,探索を通じて世界の自己監督モデルを構築するエージェントを構築することである。 我々は、アノテーションのないシミュレートされた家を使ってObjectNavエージェントのすべてのコンポーネントをトレーニングできる強力なセルフスーパービジョン(Location Consistency - LocCon)のソースを特定します。 私たちの重要な洞察は、エンボディエージェントは、異なるビュー/アングルからの画像を自己スーパービジョン信号として位置一貫性を活用し、コントラスト学習を適用することができるということです。 我々は,エージェントが実世界で競争力を発揮し,シミュレーションを行うことを示す。 また,3次元メッシュアノテーションを用いた教師付きトレーニングにより,実世界への転送が不可能なシミュレーションアーティファクトをモデルに学習させることが示唆された。 対照的に、われわれのLocConは、我々が比較したモデルの中で、現実世界で最も堅牢な移行を示しており、全てのモデルの実際の性能は、自己監督型のLocCon in-situトレーニングによってさらに改善できる。

A household robot should be able to navigate to target objects without requiring users to first annotate everything in their home. Most current approaches to object navigation do not test on real robots and rely solely on reconstructed scans of houses and their expensively labeled semantic 3D meshes. In this work, our goal is to build an agent that builds self-supervised models of the world via exploration, the same as a child might - thus we (1) eschew the expense of labeled 3D mesh and (2) enable self-supervised in-situ finetuning in the real world. We identify a strong source of self-supervision (Location Consistency - LocCon) that can train all components of an ObjectNav agent, using unannotated simulated houses. Our key insight is that embodied agents can leverage location consistency as a self-supervision signal - collecting images from different views/angles and applying contrastive learning. We show that our agent can perform competitively in the real world and simulation. Our results also indicate that supervised training with 3D mesh annotations causes models to learn simulation artifacts, which are not transferrable to the real world. In contrast, our LocCon shows the most robust transfer in the real world among the set of models we compare to, and that the real-world performance of all models can be further improved with self-supervised LocCon in-situ training.
翻訳日:2023-04-04 23:43:21 公開日:2023-04-02
# Ego-Head Pose推定によるEgo-Body Pose推定

Ego-Body Pose Estimation via Ego-Head Pose Estimation ( http://arxiv.org/abs/2212.04636v2 )

ライセンス: Link先を確認
Jiaman Li, C. Karen Liu, Jiajun Wu(参考訳) エゴセントリックなビデオシーケンスから3次元の人間の動きを推定することは、人間の行動理解において重要な役割を果たす。 しかし,ユーザの頭部に設置した前面カメラでは身体を観察できないことが多いため,自発的映像と人間の動作のマッピングを生かして学ぶことは困難である。 さらに、大規模な高品質なデータセットをペア化されたエゴセントリックなビデオと3D人間のモーションで収集するには、正確なモーションキャプチャー装置が必要である。 そこで本研究では,エゴ・ヘッド・ポーズ・アセスメント(Ego-Head Pose Estimation, EgoEgo)を用いたエゴ・ボディ・ポーズ・アセスメント(Ego-Body Pose Estimation, Ego-Head Pose Estimation, EgoEgo)を提案する。 EgoEgoはまずSLAMと学習アプローチを統合して正確な頭部の動きを推定する。 その後、推定された頭部の姿勢を入力として、エゴエゴは条件拡散を利用して複数の可能な全身運動を生成する。 この頭と体のポーズの不連続は、ペアのエゴセントリックビデオと3dヒューマンモーションでデータセットをトレーニングする必要をなくし、大規模なエゴセントリックビデオデータセットとモーションキャプチャデータセットを別々に活用することを可能にします。 さらに,システマティック・ベンチマークのための合成データセットであるAMASS-Replica-Ego-Syn(ARES)を開発した。 ARESと実データの両方において、私たちのEgoEgoモデルは現在の最先端の手法よりも大幅にパフォーマンスが向上します。

Estimating 3D human motion from an egocentric video sequence plays a critical role in human behavior understanding and has various applications in VR/AR. However, naively learning a mapping between egocentric videos and human motions is challenging, because the user's body is often unobserved by the front-facing camera placed on the head of the user. In addition, collecting large-scale, high-quality datasets with paired egocentric videos and 3D human motions requires accurate motion capture devices, which often limit the variety of scenes in the videos to lab-like environments. To eliminate the need for paired egocentric video and human motions, we propose a new method, Ego-Body Pose Estimation via Ego-Head Pose Estimation (EgoEgo), which decomposes the problem into two stages, connected by the head motion as an intermediate representation. EgoEgo first integrates SLAM and a learning approach to estimate accurate head motion. Subsequently, leveraging the estimated head pose as input, EgoEgo utilizes conditional diffusion to generate multiple plausible full-body motions. This disentanglement of head and body pose eliminates the need for training datasets with paired egocentric videos and 3D human motion, enabling us to leverage large-scale egocentric video datasets and motion capture datasets separately. Moreover, for systematic benchmarking, we develop a synthetic dataset, AMASS-Replica-Ego-Syn (ARES), with paired egocentric videos and human motion. On both ARES and real data, our EgoEgo model performs significantly better than the current state-of-the-art methods.
翻訳日:2023-04-04 23:41:11 公開日:2023-04-02
# 大規模完全情報ゲームにおけるstackelberg平衡解の関数近似

Function Approximation for Solving Stackelberg Equilibrium in Large Perfect Information Games ( http://arxiv.org/abs/2212.14431v2 )

ライセンス: Link先を確認
Chun Kai Ling, J. Zico Kolter, Fei Fang(参考訳) 関数近似 (fa) は大きなゼロサムゲームを解く上で重要な要素である。 しかし、完全に競争的で協力的なゲームよりも計算が難しいと広く見なされているにもかかわらず、広義のゲームを解くfaに対してはほとんど関心が払われていない。 鍵となる課題は、一般サムゲームにおける多くの平衡に対して、マルコフ決定過程やゼロサムゲームで使われる状態値関数に単純な類似は存在しないことである。 本稿では,一般ゲームにおける状態値関数の一般化である「textit{Enforceable Payoff Frontier} (EPF)」の学習を提案する。 我々は,epfをニューラルネットワークで表現し,適切なバックアップ操作と損失関数を用いてトレーニングすることにより,最適の \textit{stackelberg extensive-form correlationd equilibrium} を近似する。 これはStackelbergの設定にFAを適用する最初の方法であり、FAエラーに基づいたパフォーマンス保証を引き続き享受しながら、ずっと大きなゲームにスケールすることができる。 さらに,提案手法はインセンティブの適合性を保証し,自己再生や最適応答オラクルに頼らずに評価が容易である。

Function approximation (FA) has been a critical component in solving large zero-sum games. Yet, little attention has been given towards FA in solving \textit{general-sum} extensive-form games, despite them being widely regarded as being computationally more challenging than their fully competitive or cooperative counterparts. A key challenge is that for many equilibria in general-sum games, no simple analogue to the state value function used in Markov Decision Processes and zero-sum games exists. In this paper, we propose learning the \textit{Enforceable Payoff Frontier} (EPF) -- a generalization of the state value function for general-sum games. We approximate the optimal \textit{Stackelberg extensive-form correlated equilibrium} by representing EPFs with neural networks and training them by using appropriate backup operations and loss functions. This is the first method that applies FA to the Stackelberg setting, allowing us to scale to much larger games while still enjoying performance guarantees based on FA error. Additionally, our proposed method guarantees incentive compatibility and is easy to evaluate without having to depend on self-play or approximate best-response oracles.
翻訳日:2023-04-04 23:33:21 公開日:2023-04-02
# スペクトル安定化性

Spectral stabilizability ( http://arxiv.org/abs/2212.12245v2 )

ライセンス: Link先を確認
Tomasz Linowski, {\L}ukasz Rudnicki, Clemens Gneiting(参考訳) デコヒーレンスは、信頼できる量子技術を実現するための大きな障害である。 純粋にコヒーレントな手段、すなわち、散逸によって引き起こされる崩壊を適切な制御によって完全に補償できる状態によってデコヒーレンスに対して保留できる状態を特定することは、脆弱な量子資源の活用を最適化し、この目的のためにコヒーレントな制御の究極の限界を理解するのに役立つ。 本研究では,一般密度演算子とガウス状態の共分散行列パラメータ化の両方に対して,対象状態の固有分解に基づく安定化条件を開発する。 従来の安定化性条件とは異なり、これらのスペクトル条件は必要かつ十分であり、一般的には使いやすく、適用範囲を広げる。 本手法は, 局所散逸の存在下でのGHZおよびW状態の安定化や, 集合減衰下での収縮熱状態の安定化など, 多数の模範的オープンシステムシナリオに対して, 上界の安定化性に関するスペクトル的アプローチを用いる。

Decoherence represents a major obstacle towards realizing reliable quantum technologies. Identifying states that can be uphold against decoherence by purely coherent means, i.e., {\it stabilizable states}, for which the dissipation-induced decay can be completely compensated by suitable control Hamiltonians, can help to optimize the exploitation of fragile quantum resources and to understand the ultimate limits of coherent control for this purpose. In this work, we develop conditions for stabilizability based on the target state's eigendecomposition, both for general density operators and for the covariance matrix parameterization of Gaussian states. Unlike previous conditions for stabilizability, these spectral conditions are both necessary and sufficient and are typically easier to use, extending their scope of applicability. To demonstrate its viability, we use the spectral approach to derive upper bounds on stabilizability for a number of exemplary open system scenarios, including stabilization of generalized GHZ and W states in the presence of local dissipation and stabilization of squeezed thermal states under collective damping.
翻訳日:2023-04-04 23:31:33 公開日:2023-04-02
# NoPe-NeRF: プライマリのないニューラルラジアンスフィールドの最適化

NoPe-NeRF: Optimising Neural Radiance Field with No Pose Prior ( http://arxiv.org/abs/2212.07388v2 )

ライセンス: Link先を確認
Wenjing Bian, Zirui Wang, Kejie Li, Jia-Wang Bian, Victor Adrian Prisacariu(参考訳) 事前に計算されたカメラポーズを使わずにニューラルレージアンスフィールド(NeRF)を訓練することは困難である。 この方向の最近の進歩は、前方のシーンでNeRFとカメラのポーズを共同で最適化する可能性を示している。 しかし、これらの手法はなお、ドラマチックなカメラの動きにおいて困難に直面している。 我々は,この難問に未解決の単眼深度を前もって取り組むことで対処する。 これらのプリエントはトレーニング中にスケールパラメータとシフトパラメータを補正し、連続したフレーム間で相対的なポーズを制約することで生成される。 この制約は提案する新しい損失関数を用いて達成される。 実世界の屋内および屋外のシーンにおける実験により,本手法は難易度の高いカメラトラジェクトリを処理し,新しいビューレンダリング品質と推定精度で既存手法より優れることが示された。 私たちのプロジェクトページはhttps://nope-nerf.active.visionです。

Training a Neural Radiance Field (NeRF) without pre-computed camera poses is challenging. Recent advances in this direction demonstrate the possibility of jointly optimising a NeRF and camera poses in forward-facing scenes. However, these methods still face difficulties during dramatic camera movement. We tackle this challenging problem by incorporating undistorted monocular depth priors. These priors are generated by correcting scale and shift parameters during training, with which we are then able to constrain the relative poses between consecutive frames. This constraint is achieved using our proposed novel loss functions. Experiments on real-world indoor and outdoor scenes show that our method can handle challenging camera trajectories and outperforms existing methods in terms of novel view rendering quality and pose estimation accuracy. Our project page is https://nope-nerf.active.vision.
翻訳日:2023-04-04 23:30:29 公開日:2023-04-02
# データ中心AI: 展望と課題

Data-centric AI: Perspectives and Challenges ( http://arxiv.org/abs/2301.04819v3 )

ライセンス: Link先を確認
Daochen Zha, Zaid Pervaiz Bhat, Kwei-Herng Lai, Fan Yang, Xia Hu(参考訳) AIシステム構築におけるデータの役割は、モデル進歩からデータ品質と信頼性の確保への根本的なシフトを提唱する、データ中心型AI(DCAI)という新たな概念によって、近年大きく拡大している。 私たちのコミュニティは、さまざまな側面のデータの強化に継続的に努力してきましたが、特定のタスクに関する独立したイニシアティブであることが多いのです。 コミュニティにおける総合的なイニシアチブの促進とDCAIの推進のために、私たちは大きな図を描き、データ開発、推論データ開発、データ保守という3つの一般的なミッションをまとめました。 代表的DCAIタスクについてトップレベルの議論を行い、視点を共有します。 最後に、オープンな課題をリストアップします。 より多くのリソースはhttps://github.com/daochenzha/data-centric-AIで要約される。

The role of data in building AI systems has recently been significantly magnified by the emerging concept of data-centric AI (DCAI), which advocates a fundamental shift from model advancements to ensuring data quality and reliability. Although our community has continuously invested efforts into enhancing data in different aspects, they are often isolated initiatives on specific tasks. To facilitate the collective initiative in our community and push forward DCAI, we draw a big picture and bring together three general missions: training data development, inference data development, and data maintenance. We provide a top-level discussion on representative DCAI tasks and share perspectives. Finally, we list open challenges. More resources are summarized at https://github.com/daochenzha/data-centric-AI
翻訳日:2023-04-04 23:24:22 公開日:2023-04-02
# エンコーダ・デコーダ言語モデルによるペアリング抗体配列の条件付き生成

Conditional Generation of Paired Antibody Chain Sequences through Encoder-Decoder Language Model ( http://arxiv.org/abs/2301.02748v2 )

ライセンス: Link先を確認
Simon K.S. Chu, Kathy Y. Wei(参考訳) タンパク質言語モデル(lms)は、シーケンス、構造、機能予測に成功している。 しかし、現在、タンパク質 LM は単一配列のエンコーダまたはデコーダのみのアーキテクチャに制限されている。 ここでは, 抗体鎖ペアリングをT5アーキテクチャを用いて前方および後方翻訳としてモデル化したpAbT5を紹介する。 pAbT5は配列生成による連鎖ペアリングを正確に反映している。 我々のタンパク質LMは可変長配列を生成し、その次単語予測確率は配列アライメントから位置特異的スコアリング行列と一致する。 タンパク質 LM の他の研究と同様に、pAbT5 は実験測定において最先端の教師なし予測を行う。 我々の知る限り、pAbT5はタンパク質-タンパク質相互作用のための最初の生成エンコーダ-デコーダタンパク質LMである。

Protein language models (LMs) have been successful in sequence, structural and functional predictions. However, currently, protein LMs are limited to encoder- or decoder-only architectures for single sequences while many biological contexts involve protein-protein interactions. Here, we introduce pAbT5, which models antibody chain pairing as forward- and back-translations using a T5-based architecture. We show that pAbT5 accurately reflects chain pairing through sequence generation. Our protein LM generates variable-length sequences and its next-word prediction probability agrees with position-specific scoring matrix from sequence alignment. Like other works in protein LM, pAbT5 performs state-of-the-art unsupervised prediction on experimental measurements. To the best of our knowledge, pAbT5 is the first generative encoder-decoder protein LM for protein-protein interactions.
翻訳日:2023-04-04 23:23:21 公開日:2023-04-02
# 予測フォワードアルゴリズム

The Predictive Forward-Forward Algorithm ( http://arxiv.org/abs/2301.01452v3 )

ライセンス: Link先を確認
Alexander Ororbia, Ankur Mali(参考訳) 本稿では,ニューラルネットワークにおける信頼割当を行うための予測フォワード(PFF)アルゴリズムを提案する。 具体的には、有向生成回路と表現回路を同時に同時に学習する新しい動的リカレントニューラルネットワークを設計する。 特に、このシステムは学習可能な側方競合、ノイズ注入、および皮質機能の新興かつ実行可能な神経生物学的プロセス理論である予測コーディングの要素をフォワード・フォワード(ff)適応法と統合している。 さらに、PFFは学習信号を効率よく伝達し、前方通過のみでシナプスを更新し、バックプロパゲーションベースのスキームによって課される重要な構造的および計算的制約を取り除く。 計算上の優位性に加えて、PFFプロセスは、フィードバック接続の欠如にもかかわらず局所的な信号を使用する生物学的ニューロンの背後にある学習メカニズムを理解するのに有用である。 我々は画像データの実験を行い、PFF手順がバックプロパゲーションと同様に機能することを示し、データパターンの分類、再構成、合成のための有望な脳誘発アルゴリズムを提供する。

We propose the predictive forward-forward (PFF) algorithm for conducting credit assignment in neural systems. Specifically, we design a novel, dynamic recurrent neural system that learns a directed generative circuit jointly and simultaneously with a representation circuit. Notably, the system integrates learnable lateral competition, noise injection, and elements of predictive coding, an emerging and viable neurobiological process theory of cortical function, with the forward-forward (FF) adaptation scheme. Furthermore, PFF efficiently learns to propagate learning signals and updates synapses with forward passes only, eliminating key structural and computational constraints imposed by backpropagation-based schemes. Besides computational advantages, the PFF process could prove useful for understanding the learning mechanisms behind biological neurons that use local signals despite missing feedback connections. We run experiments on image data and demonstrate that the PFF procedure works as well as backpropagation, offering a promising brain-inspired algorithm for classifying, reconstructing, and synthesizing data patterns.
翻訳日:2023-04-04 23:22:35 公開日:2023-04-02
# 物理世界攻撃に対する自己監督型単眼深度推定の逆トレーニング

Adversarial Training of Self-supervised Monocular Depth Estimation against Physical-World Attacks ( http://arxiv.org/abs/2301.13487v3 )

ライセンス: Link先を確認
Zhiyuan Cheng, James Liang, Guanhong Tao, Dongfang Liu, Xiangyu Zhang(参考訳) 単眼深度推定(MDE)は自律運転などのアプリケーションにおいて重要な要素である。 MDEネットワークに対する様々な攻撃がある。 これらの攻撃、特に物理的攻撃は、そのようなシステムのセキュリティに大きな脅威となる。 従来の逆行訓練法では, 地中深度を持たない自監督型MDEには直接適用できないため, 地中深度ラベルが必要である。 いくつかの自己教師型モデル硬化技術(例えば、対照的な学習)は、MDEのドメイン知識を無視し、最適性能を達成できない。 本研究では,地中深度を使わずに,ビュー合成に基づく自己教師型MDEモデルの新たな逆トレーニング手法を提案する。 トレーニングにおけるL0ノルム束縛摂動を用いた物理世界攻撃に対する対角的堅牢性を向上させる。 本手法をmdeに適した教師付き学習法と対比学習法を比較した。 2つの代表的MDEネットワークの結果から,良質な性能劣化を伴わない種々の敵攻撃に対して,より堅牢性が得られることが示された。

Monocular Depth Estimation (MDE) is a critical component in applications such as autonomous driving. There are various attacks against MDE networks. These attacks, especially the physical ones, pose a great threat to the security of such systems. Traditional adversarial training method requires ground-truth labels hence cannot be directly applied to self-supervised MDE that does not have ground-truth depth. Some self-supervised model hardening techniques (e.g., contrastive learning) ignore the domain knowledge of MDE and can hardly achieve optimal performance. In this work, we propose a novel adversarial training method for self-supervised MDE models based on view synthesis without using ground-truth depth. We improve adversarial robustness against physical-world attacks using L0-norm-bounded perturbation in training. We compare our method with supervised learning based and contrastive learning based methods that are tailored for MDE. Results on two representative MDE networks show that we achieve better robustness against various adversarial attacks with nearly no benign performance degradation.
翻訳日:2023-04-04 21:40:20 公開日:2023-04-02
# GPUプラットフォーム上での効率的な推論のためのSMDPベースの動的バッチ

SMDP-Based Dynamic Batching for Efficient Inference on GPU-Based Platforms ( http://arxiv.org/abs/2301.12865v2 )

ライセンス: Link先を確認
Yaodan Xu, Jingzhou Sun, Sheng Zhou, Zhisheng Niu(参考訳) クラウドやエッジコンピューティングプラットフォーム上の最新の機械学習(ML)アプリケーションでは、バッチ処理は大規模に効率的かつ経済的サービスを提供する上で重要なテクニックである。 特に、gpu(graphics processing unit)のようなプラットフォーム上の並列コンピューティングリソースは、バッチサイズが大きいほど高い計算効率とエネルギー効率を持つ。 しかし、バッチサイズが大きくなると応答時間が長くなるため、適切な設計が必要となる。 本稿では,効率とレイテンシのバランスをとる動的バッチポリシを提供することを目的としている。 gpuベースの推論サービスは、バッチサイズの依存処理時間を持つバッチサービスキューとしてモデル化される。 次に、動的バッチの設計は連続時間平均コスト問題であり、平均応答時間と平均消費電力の重み付け和を最小化することを目的としてセミマルコフ決定プロセス(smdp)として定式化される。 最適ポリシーは、関連する離散時間マルコフ決定過程(MDP)問題を有限状態近似と「離散化」で解くことで得られる。 尾」状態の影響を反映する抽象的なコストを導入することで、手順の空間的複雑さと時間的複雑さをそれぞれ63.5%と98%減少させることができる。 その結果,最適政策は制御限界構造を持つ可能性が示唆された。 また,SMDPベースのバッチ処理ポリシは,異なるトラフィック強度に適応し,他のベンチマークポリシよりも優れていることを示す。 さらに,提案手法は,消費電力とレイテンシのバランスにおいて,柔軟性に優れる。

In up-to-date machine learning (ML) applications on cloud or edge computing platforms, batching is an important technique for providing efficient and economical services at scale. In particular, parallel computing resources on the platforms, such as graphics processing units (GPUs), have higher computational and energy efficiency with larger batch sizes. However, larger batch sizes may also result in longer response time, and thus it requires a judicious design. This paper aims to provide a dynamic batching policy that strikes a balance between efficiency and latency. The GPU-based inference service is modeled as a batch service queue with batch-size dependent processing time. Then, the design of dynamic batching is a continuous-time average-cost problem, and is formulated as a semi-Markov decision process (SMDP) with the objective of minimizing the weighted sum of average response time and average power consumption. The optimal policy is acquired by solving an associated discrete-time Markov decision process (MDP) problem with finite state approximation and "discretization". By introducing an abstract cost to reflect the impact of "tail" states, the space complexity and the time complexity of the procedure can decrease by 63.5% and 98%, respectively. Our results show that the optimal policies potentially possess a control limit structure. Numerical results also show that SMDP-based batching policies can adapt to different traffic intensities and outperform other benchmark policies. Furthermore, the proposed solution has notable flexibility in balancing power consumption and latency.
翻訳日:2023-04-04 21:40:06 公開日:2023-04-02
# フェアガード:スマートシティにおけるハーネス論理に基づくフェアネスルール

Fairguard: Harness Logic-based Fairness Rules in Smart Cities ( http://arxiv.org/abs/2302.11137v4 )

ライセンス: Link先を確認
Yiqi Zhao, Ziyan An, Xuqing Gao, Ayan Mukhopadhyay, Meiyi Ma(参考訳) スマートシティは、大規模センサーネットワークからデータを収集、集約、活用する計算予測フレームワークで動作する。 しかし、これらのフレームワークは複数のデータソースとアルゴリズムバイアスの傾向があり、しばしば不公平な予測結果につながる。 そこで本研究では,チャタヌーガの都市データを用いて,時間的・空間的に偏差が持続することを示す。 このようなバイアスの問題を緩和するために、複雑な時間空間領域におけるスマートシティ政策調整と生成のためのマイクロレベルの時間論理に基づくアプローチであるFairguardを導入する。 Fairguardフレームワークは2つのフェーズから構成される: まず、選択した属性間の相関を最小化することにより、時間論理条件に基づいてデータのバイアスを低減できる静的ジェネレータを開発する。 次に、予測アルゴリズムの公平性を保証するために、予測結果を制御し、論理規則を利用して将来の公平な予測を生成する動的コンポーネントを設計する。 動的フェアガードは、全体的なパフォーマンスへの影響を最小限に抑えながら、実行時に保護されたグループに対する公平性を保証することができる。

Smart cities operate on computational predictive frameworks that collect, aggregate, and utilize data from large-scale sensor networks. However, these frameworks are prone to multiple sources of data and algorithmic bias, which often lead to unfair prediction results. In this work, we first demonstrate that bias persists at a micro-level both temporally and spatially by studying real city data from Chattanooga, TN. To alleviate the issue of such bias, we introduce Fairguard, a micro-level temporal logic-based approach for fair smart city policy adjustment and generation in complex temporal-spatial domains. The Fairguard framework consists of two phases: first, we develop a static generator that is able to reduce data bias based on temporal logic conditions by minimizing correlations between selected attributes. Then, to ensure fairness in predictive algorithms, we design a dynamic component to regulate prediction results and generate future fair predictions by harnessing logic rules. Evaluations show that logic-enabled static Fairguard can effectively reduce the biased correlations while dynamic Fairguard can guarantee fairness on protected groups at run-time with minimal impact on overall performance.
翻訳日:2023-04-04 21:21:47 公開日:2023-04-02
# 量子緩和に基づく最適化アルゴリズム:理論的拡張

Quantum-Relaxation Based Optimization Algorithms: Theoretical Extensions ( http://arxiv.org/abs/2302.09481v2 )

ライセンス: Link先を確認
Kosei Teramoto and Rudy Raymond and Eyuri Wakakuwa and Hiroshi Imai(参考訳) 量子ランダムアクセス最適化アルゴリズム(Quantum Random Access Optimizer, QRAO)は、フラーらによって提案された量子ランダムアクセス符号(QRAC)を用いて、単一量子ビットでバイナリ最適化の複数の変数を符号化する最適化アルゴリズムである。 最大カット問題に対するqraoの近似比率は、ビット対キュービットの圧縮比が3ドルxである場合0.555ドル、圧縮比が2ドルxであれば0.625ドルであり、空間効率と近似可能性の間のトレードオフを示す。 本研究では,3つの古典ビットを2つの量子ビット(ビット対量子ビット圧縮比は1.5$x)にエンコードする別のQRACを用いて量子緩和を拡張し,最大カット問題に対する近似比を0.722$とする。 また、フラー=et~alの当初の量子緩和と異なり、常に2xビット対量子ビットの圧縮比を保証する新しい量子緩和も設計する。 非自明な近似比が$\left(>\frac{1}{2}\right)$ のときの状態を分析する。 この結果が量子近似可能性の解析と,量子緩和に基づくアプローチの実用化に繋がることを期待している。

Quantum Random Access Optimizer (QRAO) is a quantum-relaxation based optimization algorithm proposed by Fuller et al. that utilizes Quantum Random Access Code (QRAC) to encode multiple variables of binary optimization in a single qubit. The approximation ratio bound of QRAO for the maximum cut problem is $0.555$ if the bit-to-qubit compression ratio is $3$x, while it is $0.625$ if the compression ratio is $2$x, thus demonstrating a trade-off between space efficiency and approximability. In this research, we extend the quantum-relaxation by using another QRAC which encodes three classical bits into two qubits (the bit-to-qubit compression ratio is $1.5$x) and obtain its approximation ratio for the maximum cut problem as $0.722$. Also, we design a novel quantum relaxation that always guarantees a $2$x bit-to-qubit compression ratio which is unlike the original quantum relaxation of Fuller~et~al. We analyze the condition when it has a non-trivial approximation ratio bound $\left(>\frac{1}{2}\right)$. We hope that our results lead to the analysis of the quantum approximability and practical efficiency of the quantum-relaxation based approaches.
翻訳日:2023-04-04 21:20:20 公開日:2023-04-02
# AfriSenti: アフリカの言語に対するTwitterの感情分析ベンチマーク

AfriSenti: A Twitter Sentiment Analysis Benchmark for African Languages ( http://arxiv.org/abs/2302.08956v2 )

ライセンス: Link先を確認
Shamsuddeen Hassan Muhammad, Idris Abdulmumin, Abinew Ali Ayele, Nedjma Ousidhoum, David Ifeoluwa Adelani, Seid Muhie Yimam, Ibrahim Sa'id Ahmad, Meriem Beloucif, Saif Mohammad, Sebastian Ruder, Oumaima Hourrane, Pavel Brazdil, Felermino D\'ario M\'ario Ant\'onio Ali, Davis Davis, Salomey Osei, Bello Shehu Bello, Falalu Ibrahim, Tajuddeen Gwadabe, Samuel Rutunda, Tadesse Belay, Wendimu Baye Messelle, Hailu Beshada Balcha, Sisay Adugna Chala, Hagos Tesfahun Gebremichael, Bernard Opoku, Steven Arthur(参考訳) アフリカには6つの言語族から2000以上の言語があり、全大陸で最も言語多様性が高い。 これには75の言語があり、それぞれ100万以上の話者がいる。 しかし、アフリカ語に関するNLP研究はほとんど行われていない。 このような研究を可能にする上で重要なのは、高品質な注釈付きデータセットの可用性だ。 本稿では,14のアフリカ語(アムハラ語,アルジェリア語,ハウサ語,イボ語,キニャルワンダ語,モロッコ語,モザンビーク語,ポルトガル語,ナイジェリア・ピジン語,オロモ語,スワヒリ語,ティグリニャ語,twi,xitsonga,yor\`ub\'a)における110,000以上のツイートの14の感情データセットからなるafrisentiを紹介する。 データは、最初のAfro中心のSemEval共有タスクであるSemEval 2023 Task 12で使用される。 データ収集手法、アノテーションプロセス、および各データセットをキュレートする際の関連する課題について述べる。 感情分類基準の異なる実験を行い,その有用性について考察する。 afrisentiが低表現言語で新しい作業を可能にすることを願っています。 データセットはhttps://github.com/afrisenti-semeval/afrisent-semeval-2023で利用可能であり、hughingfaceデータセットとしてロードすることもできる(https://huggingface.co/datasets/shmuhammad/afrisenti)。

Africa is home to over 2000 languages from over six language families and has the highest linguistic diversity among all continents. This includes 75 languages with at least one million speakers each. Yet, there is little NLP research conducted on African languages. Crucial in enabling such research is the availability of high-quality annotated datasets. In this paper, we introduce AfriSenti, which consists of 14 sentiment datasets of 110,000+ tweets in 14 African languages (Amharic, Algerian Arabic, Hausa, Igbo, Kinyarwanda, Moroccan Arabic, Mozambican Portuguese, Nigerian Pidgin, Oromo, Swahili, Tigrinya, Twi, Xitsonga, and Yor\`ub\'a) from four language families annotated by native speakers. The data is used in SemEval 2023 Task 12, the first Afro-centric SemEval shared task. We describe the data collection methodology, annotation process, and related challenges when curating each of the datasets. We conduct experiments with different sentiment classification baselines and discuss their usefulness. We hope AfriSenti enables new work on under-represented languages. The dataset is available at https://github.com/afrisenti-semeval/afrisent-semeval-2023 and can also be loaded as a huggingface datasets (https://huggingface.co/datasets/shmuhammad/AfriSenti).
翻訳日:2023-04-04 21:19:57 公開日:2023-04-02
# 階層構造学習のためのマルチレゾリューショングラフトランスフォーマとウェーブレット位置符号化

Multiresolution Graph Transformers and Wavelet Positional Encoding for Learning Hierarchical Structures ( http://arxiv.org/abs/2302.08647v3 )

ライセンス: Link先を確認
Nhat Khang Ngo, Truong Son Hy, Risi Kondor(参考訳) 現代のグラフ学習アルゴリズムは、大分子の分子特性を決定するのに必須である原子間の階層的相互作用を考慮しないため、大分子では明確に定義されていない。 本研究では,複数スケールで大きな分子を表現できる最初のグラフトランスアーキテクチャであるMulti resolution Graph Transformer (MGT)を提案する。 MGTは原子の表現を学習し、それらを意味のある機能群または繰り返し単位に分類することができる。 また、スペクトル領域と空間領域の両方でローカライズを保証できる新しい位置符号化手法であるWavePE(Wavelet Positional Encoding)を導入する。 提案モデルでは, 高分子とペプチドからなる2つのマクロ分子データセットと, 1つの薬物様分子データセットの競合結果を得た。 本モデルでは, 分子特性(GAP, HOMO, LUMO)を, 密度汎関数理論(DFT)で計算した分子特性を推定し, 化学的精度で評価する。 さらに, マクロ分子とそれらの表現の低次元空間のクラスタリング結果を含む可視化により, 長距離階層構造を表現できる手法の可能性を実証した。 私たちのPyTorch実装はhttps://github.com/HySonLab/Multires-Graph-Transformerで公開されています。

Contemporary graph learning algorithms are not well-defined for large molecules since they do not consider the hierarchical interactions among the atoms, which are essential to determine the molecular properties of macromolecules. In this work, we propose Multiresolution Graph Transformers (MGT), the first graph transformer architecture that can learn to represent large molecules at multiple scales. MGT can learn to produce representations for the atoms and group them into meaningful functional groups or repeating units. We also introduce Wavelet Positional Encoding (WavePE), a new positional encoding method that can guarantee localization in both spectral and spatial domains. Our proposed model achieves competitive results on two macromolecule datasets consisting of polymers and peptides, and one drug-like molecule dataset. Importantly, our model outperforms other state-of-the-art methods and achieves chemical accuracy in estimating molecular properties (e.g., GAP, HOMO and LUMO) calculated by Density Functional Theory (DFT) in the polymers dataset. Furthermore, the visualizations, including clustering results on macromolecules and low-dimensional spaces of their representations, demonstrate the capability of our methodology in learning to represent long-range and hierarchical structures. Our PyTorch implementation is publicly available at https://github.com/HySonLab/Multires-Graph-Transformer
翻訳日:2023-04-04 21:19:26 公開日:2023-04-02
# 双方向事前モデルを用いたベクトル量子化時系列生成

Vector Quantized Time Series Generation with a Bidirectional Prior Model ( http://arxiv.org/abs/2303.04743v3 )

ライセンス: Link先を確認
Daesoo Lee, Sara Malacarne and Erlend Aune(参考訳) 時系列生成(TSG)の研究は、主にGAN(Generative Adversarial Networks)とRNN(Recurrent Neural Network)の亜種の使用に焦点を当てている。 しかし、GANの訓練の基本的な限界と課題は依然として残っている。 加えて、RNNファミリーは通常、遠方の時間ステップ間の時間的一貫性が困難である。 画像生成(img)領域の成功に動機づけられ、tsg問題に対処するためにベクトル量子化(vq)技術を用いて、我々の知識に対して最初の仕事であるtimevqvaeを提案する。 さらに、離散潜在空間の事前は、大域的時間的一貫性をよりよく捉えるための双方向トランスフォーマーモデルで学習される。 また、低周波(LF)と高周波(HF)に分かれた時間周波数領域におけるVQモデリングを提案する。 これにより、時系列の重要な特性を保ち、代わりに、競合するTSG法よりも、モジュール性の急激な変化を伴う、より良い品質の合成信号を生成することができる。 IMG文献におけるFr'echetインセプション距離やインセプションスコアなどの指標を用いて,UCRアーカイブの全データセットについて実験を行った。 GitHub上の実装: \url{https://github.com/ML4ITS/TimeVQVAE}。

Time series generation (TSG) studies have mainly focused on the use of Generative Adversarial Networks (GANs) combined with recurrent neural network (RNN) variants. However, the fundamental limitations and challenges of training GANs still remain. In addition, the RNN-family typically has difficulties with temporal consistency between distant timesteps. Motivated by the successes in the image generation (IMG) domain, we propose TimeVQVAE, the first work, to our knowledge, that uses vector quantization (VQ) techniques to address the TSG problem. Moreover, the priors of the discrete latent spaces are learned with bidirectional transformer models that can better capture global temporal consistency. We also propose VQ modeling in a time-frequency domain, separated into low-frequency (LF) and high-frequency (HF). This allows us to retain important characteristics of the time series and, in turn, generate new synthetic signals that are of better quality, with sharper changes in modularity, than its competing TSG methods. Our experimental evaluation is conducted on all datasets from the UCR archive, using well-established metrics in the IMG literature, such as Fr\'echet inception distance and inception scores. Our implementation on GitHub: \url{https://github.com/ML4ITS/TimeVQVAE}.
翻訳日:2023-04-04 21:13:02 公開日:2023-04-02
# マスク画像は、ロバストな微調整のための偽のサンプルである

Masked Images Are Counterfactual Samples for Robust Fine-tuning ( http://arxiv.org/abs/2303.03052v3 )

ライセンス: Link先を確認
Yao Xiao, Ziyi Tang, Pengxu Wei, Cong Liu, Liang Lin(参考訳) ディープラーニングモデルは、トレーニングデータとテストデータとの分散シフトによって挑戦される。 近年,多種多様なデータに基づいて事前学習した大規模モデルが,様々な分布シフトに対して前例のない堅牢性を示している。 しかし、これらのモデルの微調整は、分布内(ID)性能と分布外(OOD)堅牢性の間のトレードオフにつながる可能性がある。 このトレードオフに対処する既存の方法は、OOD堅牢性の問題に明示的に対処するものではない。 本稿では, 上記の問題の因果解析に基づいて, マスク画像を対物サンプルとして用い, 微調整モデルの堅牢性を向上させる新しい微調整法を提案する。 具体的には,クラスアクティベーションマップに基づくイメージのセマンティクス関連パッチあるいはセマンティクス関連パッチのどちらかをマスクして,スプリアス相関を破って,他のイメージからのパッチでマスクパッチを補充する。 得られた反事実サンプルは、事前訓練されたモデルで特徴ベースの蒸留に使用される。 広汎な実験により,提案したマスク画像による微調整が,OOD性能の従来の手法を上回り,IDとOOD性能のトレードオフを改善することが確認された。 私たちのコードはhttps://github.com/coxy7/robust-finetuningで利用可能です。

Deep learning models are challenged by the distribution shift between the training data and test data. Recently, the large models pre-trained on diverse data have demonstrated unprecedented robustness to various distribution shifts. However, fine-tuning these models can lead to a trade-off between in-distribution (ID) performance and out-of-distribution (OOD) robustness. Existing methods for tackling this trade-off do not explicitly address the OOD robustness problem. In this paper, based on causal analysis of the aforementioned problems, we propose a novel fine-tuning method, which uses masked images as counterfactual samples that help improve the robustness of the fine-tuning model. Specifically, we mask either the semantics-related or semantics-unrelated patches of the images based on class activation map to break the spurious correlation, and refill the masked patches with patches from other images. The resulting counterfactual samples are used in feature-based distillation with the pre-trained model. Extensive experiments verify that regularizing the fine-tuning with the proposed masked images can achieve a better trade-off between ID and OOD performance, surpassing previous methods on the OOD performance. Our code is available at https://github.com/Coxy7/robust-finetuning.
翻訳日:2023-04-04 21:12:25 公開日:2023-04-02
# 実用的かつ持続的なDNNトレーニングのための低炭素電気椅子

Chasing Low-Carbon Electricity for Practical and Sustainable DNN Training ( http://arxiv.org/abs/2303.02508v2 )

ライセンス: Link先を確認
Zhenning Yang, Luoxi Meng, Jae-Won Chung, Mosharaf Chowdhury(参考訳) 近年、ディープラーニングは大きな成長を遂げており、GPUによる深層ニューラルネットワーク(DNN)のトレーニングによるエネルギー消費と二酸化炭素排出量の増加につながっている。 持続可能性を求める従来の解決策は、炭素強度の低い場所や時間枠にトレーニングジョブを移動させようと試みてきた。 しかし、ジョブを他の場所に移行することは、データセットのサイズやデータ規制が大きいため、必ずしも実現可能であるとは限らない。 さらに、サービスを支援するDNNがタイムリーに更新されないため、延期トレーニングはアプリケーションサービス品質に悪影響を及ぼす可能性がある。 本研究では,DNNトレーニングの炭素フットプリントを,ジョブの移動や延期を伴わない実用的なソリューションを提案する。 具体的には、トレーニング中のリアルタイム炭素強度変化を観察し、GPUのエネルギー消費を制御し、トレーニング性能を維持しながら炭素フットプリントを削減する。 さらに,炭素強度の変化に積極的に適応するために,今後の時間枠の炭素強度を予測する軽量機械学習アルゴリズムを提案する。 私たちのソリューションであるChaseは、ImageNet上でのResNet-50のトレーニングの総炭素フットプリントを13.6%削減します。

Deep learning has experienced significant growth in recent years, resulting in increased energy consumption and carbon emission from the use of GPUs for training deep neural networks (DNNs). Answering the call for sustainability, conventional solutions have attempted to move training jobs to locations or time frames with lower carbon intensity. However, moving jobs to other locations may not always be feasible due to large dataset sizes or data regulations. Moreover, postponing training can negatively impact application service quality because the DNNs backing the service are not updated in a timely fashion. In this work, we present a practical solution that reduces the carbon footprint of DNN training without migrating or postponing jobs. Specifically, our solution observes real-time carbon intensity shifts during training and controls the energy consumption of GPUs, thereby reducing carbon footprint while maintaining training performance. Furthermore, in order to proactively adapt to shifting carbon intensity, we propose a lightweight machine learning algorithm that predicts the carbon intensity of the upcoming time frame. Our solution, Chase, reduces the total carbon footprint of training ResNet-50 on ImageNet by 13.6% while only increasing training time by 2.5%.
翻訳日:2023-04-04 21:11:52 公開日:2023-04-02
# Unified Perception:最小アノテーションコストによる高効率深度対応ビデオパノプティクスセグメンテーション

Unified Perception: Efficient Depth-Aware Video Panoptic Segmentation with Minimal Annotation Costs ( http://arxiv.org/abs/2303.01991v2 )

ライセンス: Link先を確認
Kurt Stolle and Gijs Dubbelman(参考訳) 深度対応ビデオパノプティクスセグメンテーションは、カメラベースのシーン理解への有望なアプローチである。 しかし、現在の最先端の方法には高価なビデオアノテーションが必要であり、画像ベースのものに比べて複雑なトレーニングパイプラインを使用する。 本稿では,映像ベースのトレーニングを必要とせず,最先端のパフォーマンスを実現するUnified Perceptionという新しいアプローチを提案する。 本手法は,画像ベースのネットワークで計算された物体の埋め込みを(再)利用する単純な2段階カスケード追跡アルゴリズムを用いる。 Cityscapes-DVPSデータセットの実験結果から,本手法は57.1のDVPQを達成し,最先端の手法を超越した。 さらに,我々の追跡戦略はkitti-stepにおける長期オブジェクトアソシエーションに有効であることを示し,同じバックボーンネットワークを用いた最先端メソッドのパフォーマンスを上回った59.1のstqを達成した。 コードは、https://tue-mps.github.io/unipercept.comで入手できる。

Depth-aware video panoptic segmentation is a promising approach to camera based scene understanding. However, the current state-of-the-art methods require costly video annotations and use a complex training pipeline compared to their image-based equivalents. In this paper, we present a new approach titled Unified Perception that achieves state-of-the-art performance without requiring video-based training. Our method employs a simple two-stage cascaded tracking algorithm that (re)uses object embeddings computed in an image-based network. Experimental results on the Cityscapes-DVPS dataset demonstrate that our method achieves an overall DVPQ of 57.1, surpassing state-of-the-art methods. Furthermore, we show that our tracking strategies are effective for long-term object association on KITTI-STEP, achieving an STQ of 59.1 which exceeded the performance of state-of-the-art methods that employ the same backbone network. Code is available at: https://tue-mps.github.io/unipercept
翻訳日:2023-04-04 21:11:08 公開日:2023-04-02
# 射影計測に基づくコヒーレンスの測定

Measures of coherence based on projective measurements ( http://arxiv.org/abs/2302.13148v2 )

ライセンス: Link先を確認
Azam Mani, Fatemeh Rezazadeh, Vahid Karimipour(参考訳) 我々はコヒーレンスの概念を一般化し、実験能力がより望ましい状態の基盤を作るのに十分でない場合を包含する。 単一原子の個々の対応が難しいため、これは実際的な重要性の状況である。 我々は、コヒーレンスの新しい尺度を定義し、非コヒーレント操作と最大コヒーレント状態を特徴付ける。 さらに,資源として最大コヒーレントな状態から,他の任意の状態や任意のゲートを,非コヒーレントな操作によって生成できることを示す。 最後に, このコヒーレント状態の階層構造を, 実験室で利用可能な射影計測の精細化に依拠して強調する。

We generalize the concept of coherence to encompass the case where experimental capabilities are not so fine to prepare a preferred basis of states, rather only a set of projectors are at disposal of the experimenter. Due to the difficulty of individual addressing of single atoms, this is a situation of practical importance. We define new measures of coherence, characterize the incoherent operations, and the maximally coherent states. Furthermore, we show how from a maximally coherent state, as a resource, one can create every other arbitrary state and every arbitrary gate, by incoherent operations. Finally, we emphasize the hierarchical structure of these coherent states, depending on the refinement of projective measurements available in the laboratory.
翻訳日:2023-04-04 21:10:28 公開日:2023-04-02
# 生成AIにおけるテキスト・画像拡散モデル

Text-to-image Diffusion Models in Generative AI: A Survey ( http://arxiv.org/abs/2303.07909v2 )

ライセンス: Link先を確認
Chenshuang Zhang, Chaoning Zhang, Mengchun Zhang, In So Kweon(参考訳) 本研究は,多種多様な生成タスクにおいて拡散モデルが普及しつつある状況下でのテキスト・画像拡散モデルについてレビューする。 自己完結型研究として、この調査は、画像合成のための基本拡散モデルがどのように機能するかの簡単な紹介から始まり、続いて条件やガイダンスが学習を改善するかを示す。 そこで本研究では,テキストコンディション画像合成,すなわちテキストから画像への合成に関する最先端手法について概観する。 さらに、テキストから画像への生成以外のアプリケーションを要約する: テキストガイドによる創造的生成とテキストガイドによる画像編集。 これまでの進歩以外にも,既存の課題と今後の方向性を議論する。

This survey reviews text-to-image diffusion models in the context that diffusion models have emerged to be popular for a wide range of generative tasks. As a self-contained work, this survey starts with a brief introduction of how a basic diffusion model works for image synthesis, followed by how condition or guidance improves learning. Based on that, we present a review of state-of-the-art methods on text-conditioned image synthesis, i.e., text-to-image. We further summarize applications beyond text-to-image generation: text-guided creative generation and text-guided image editing. Beyond the progress made so far, we discuss existing challenges and promising future directions.
翻訳日:2023-04-04 21:03:21 公開日:2023-04-02
# 初期における乱流発展--渦崩壊の考え方に基づくシナリオ

The turbulence development at its initial stage: a scenario based on the idea of vortices decay ( http://arxiv.org/abs/2303.05908v2 )

ライセンス: Link先を確認
S.V. Talalov(参考訳) 本稿では,その初期段階における量子乱流の発展モデルを提案する。 提案されたモデルにおける乱流の起源は、内部構造を持つ渦ループの崩壊である。 我々は、平衡状態が確立する前に、このプロセスの初期段階を考慮する。 その結果, 発達する乱流の密度行列が計算された。 古典渦環系の量子化スキームは、著者が以前に提案したアプローチに基づいている。

In this paper, a model of the development of a quantum turbulence in its initial stage is proposed. The origin of the turbulence in the suggested model is the decay of vortex loops with an internal structure. We consider the initial stage of this process, before an equilibrium state is established. As result of our study, the density matrix of developing turbulent flow is calculated. The quantization scheme of the classical vortex rings system is based on the approach proposed by the author earlier.
翻訳日:2023-04-04 21:01:34 公開日:2023-04-02
# データ中心の人工知能:調査

Data-centric Artificial Intelligence: A Survey ( http://arxiv.org/abs/2303.10158v2 )

ライセンス: Link先を確認
Daochen Zha, Zaid Pervaiz Bhat, Kwei-Herng Lai, Fan Yang, Zhimeng Jiang, Shaochen Zhong, Xia Hu(参考訳) 人工知能(AI)は、ほぼすべての領域で大きな影響を与えています。 その大きな成功の重要な有効要因は、マシンラーニングモデルを構築するための豊富な高品質のデータの提供である。 近年、AIにおけるデータの役割は大幅に拡大し、データ中心AIという新たな概念が生まれた。 研究者や実践者の関心は、徐々にモデル設計の進展から、データの品質や量の向上へと移りつつある。 本調査では,データ中心型AIの必要性について論じるとともに,データ中心型目標(データ開発,推論データ開発,データ保守)と代表的な手法を総合的に考察する。 また、自動化やコラボレーションの観点から既存の文献を整理し、課題を議論し、さまざまなタスクのベンチマークを集計します。 これは、データライフサイクルのさまざまな段階にわたるタスクのグローバルなビューを提供する、初めての総合的な調査であると考えています。 読者がこの分野の全体像を効率的に把握し、aiシステム構築のためのデータを体系的に設計するための技術やさらなる研究アイデアを読者に提供できることを願っている。 データ中心AIリソースのコンパニオンリストは、https://github.com/daochenzha/data-centric-AIで定期的に更新される。

Artificial Intelligence (AI) is making a profound impact in almost every domain. A vital enabler of its great success is the availability of abundant and high-quality data for building machine learning models. Recently, the role of data in AI has been significantly magnified, giving rise to the emerging concept of data-centric AI. The attention of researchers and practitioners has gradually shifted from advancing model design to enhancing the quality and quantity of the data. In this survey, we discuss the necessity of data-centric AI, followed by a holistic view of three general data-centric goals (training data development, inference data development, and data maintenance) and the representative methods. We also organize the existing literature from automation and collaboration perspectives, discuss the challenges, and tabulate the benchmarks for various tasks. We believe this is the first comprehensive survey that provides a global view of a spectrum of tasks across various stages of the data lifecycle. We hope it can help the readers efficiently grasp a broad picture of this field, and equip them with the techniques and further research ideas to systematically engineer data for building AI systems. A companion list of data-centric AI resources will be regularly updated on https://github.com/daochenzha/data-centric-AI
翻訳日:2023-04-04 20:55:07 公開日:2023-04-02
# シリコン空孔中心を用いた動的解離保護型非断熱幾何学量子計算

Dynamical-decoupling protected nonadiabatic geometric quantum computation with silicon-vacancy centers ( http://arxiv.org/abs/2303.10053v2 )

ライセンス: Link先を確認
M.-R. Yun, J.-L. Wu, L.-L. Yan, Yu Jia, S.-L. Su, C.-X Shan(参考訳) ダイヤモンド中の負電荷のシリコン空孔中心は、強いゼロフォノン線放出、狭い不均一な拡張、安定した光遷移周波数のために量子情報処理に大きな可能性を持っている。 シリコン空洞センターにおける普遍量子計算の開発が期待されている。 本稿では,シリコン空洞中心を1次元フォノニック導波路に配置したシステムにおける非断熱幾何量子計算のスキームを提案する。 提案方式の性能向上のために, 動的デカップリングパルス列を用いて環境の影響を解消する。 このスキームは、エラーを制御するのに堅牢な幾何学的量子計算の特徴を持ち、環境影響に影響を受けない動的デカップリングの利点を持っている。 さらに、シリコン空白中心の長寿命基底状態において量子ビットが符号化される特徴は、崩壊によるデコヒーレンスを低減できる。 数値シミュレーションにより, シリコン空洞中心系の量子計算に対する効果と, 環境騒音に対する量子システム免疫における動的分離パルスの改善が示された。 本手法は、固体系における高忠実性幾何量子計算への有望な方法となるかもしれない。

The negatively charged silicon-vacancy center in diamond has great potential for quantum information processing due to its strong zero-phonon line emission, narrow inhomogeneous broadening, and stable optical transition frequencies. Developing universal quantum computation in silicon-vacancy centers is highly expected. Here, we propose a scheme for nonadiabatic geometric quantum computation in the system, in which silicon-vacancy centers are placed in a one-dimensional phononic waveguide. To improve the performance of the scheme, dynamical decoupling pulse sequences are used to eliminate the impact of the environment on its system. This scheme has the feature of geometric quantum computation that is robust to control errors and has the advantage of dynamical decoupling that is insensitive to environmental impact. Moreover, the feature that qubits are encoded in long-lifetime ground states of silicon-vacancy centers can reduce the decoherence caused by decay. Numerical simulation shows the effectiveness of the silicon-vacancy center system for quantum computation and the improvement of dynamic decoupling pulse in quantum system immunity to environmental noise. Our scheme may provide a promising way toward high-fidelity geometric quantum computation in the solid-state system.
翻訳日:2023-04-04 20:54:49 公開日:2023-04-02
# 複素数値ニューラルネットワークを用いた物理インフォームド光カーネル回帰

Physics-Informed Optical Kernel Regression Using Complex-valued Neural Fields ( http://arxiv.org/abs/2303.08435v3 )

ライセンス: Link先を確認
Guojin Chen, Zehua Pei, Haoyu Yang, Yuzhe Ma, Bei Yu, Martin D. F. Wong(参考訳) リソグラフィーは集積回路製造の基本であり、大きな計算オーバーヘッドを必要とする。 機械学習(ML)ベースのリソグラフィーモデルの進歩は、製造プロセスの費用と能力の間のトレードオフを軽減する。 しかし、以前の手法はすべてリソグラフィシステムを画像対画像のブラックボックスマッピングとして捉えており、ネットワークパラメータを利用して大量のマスク対aerialまたはマスク対resist画像ペアからのロートマッピングを学習し、一般化能力に乏しい。 本稿では,厳密なリソグラフィモデルを非パラメトリックマスク操作に分解し,決定要因,瞳孔,リソグラフィ情報を含む光カーネルを学習するMLベースの新しいパラダイムを提案する。 複雑な値のニューラルネットワークを最適化し、座標から光学核回帰を行うことにより、より少ないパラメータの小規模トレーニングデータセットを用いてリソグラフィシステムを高精度に復元し、優れた一般化能力を示す。 実験によると、我々のフレームワークはパラメータの31%を使うことができるが、69$\times$は平均2乗誤差が1.3$\times$は最先端のスループットよりも小さい。

Lithography is fundamental to integrated circuit fabrication, necessitating large computation overhead. The advancement of machine learning (ML)-based lithography models alleviates the trade-offs between manufacturing process expense and capability. However, all previous methods regard the lithography system as an image-to-image black box mapping, utilizing network parameters to learn by rote mappings from massive mask-to-aerial or mask-to-resist image pairs, resulting in poor generalization capability. In this paper, we propose a new ML-based paradigm disassembling the rigorous lithographic model into non-parametric mask operations and learned optical kernels containing determinant source, pupil, and lithography information. By optimizing complex-valued neural fields to perform optical kernel regression from coordinates, our method can accurately restore lithography system using a small-scale training dataset with fewer parameters, demonstrating superior generalization capability as well. Experiments show that our framework can use 31% of parameters while achieving 69$\times$ smaller mean squared error with 1.3$\times$ higher throughput than the state-of-the-art.
翻訳日:2023-04-04 20:53:29 公開日:2023-04-02
# モーションマター:より優れたカメラ生理センシングのためのニューラルモーショントランスファー

Motion Matters: Neural Motion Transfer for Better Camera Physiological Sensing ( http://arxiv.org/abs/2303.12059v2 )

ライセンス: Link先を確認
Akshay Paruchuri, Xin Liu, Yulu Pan, Shwetak Patel, Daniel McDuff, Soumyadip Sengupta(参考訳) カメラに基づく生理学的測定のための機械学習モデルは、代表的なトレーニングデータがないため、弱い一般化が可能である。 身体の動きは、ビデオから微妙な脈拍を回復しようとするときに最も重要なノイズ源の1つである。 身体的変化を保ちながら運動の変動を導入するデータ拡張の一形態として,運動伝達を考察する。 遠隔光胸シンモグラフィ (ppg) の課題における映像強調にニューラルビデオ合成法を適用し, 運動増強の効果について検討した。 1)規模及び規模 2)運動の種類。 公開データセットのモーション指定バージョンをトレーニングした結果、5つのベンチマークデータセットのデータセット間の結果が、既存の最新データに対して最大75%の改善を示している。 本研究は, カメラを用いた生理学的センシングモデルの改良のためのデータ拡張手法として, モーショントランスファーの有用性を示す。 プロジェクトページで、モーション転送をデータ拡張テクニックとして使用するためのコードと事前トレーニング済みのモデルをリリースします。

Machine learning models for camera-based physiological measurement can have weak generalization due to a lack of representative training data. Body motion is one of the most significant sources of noise when attempting to recover the subtle cardiac pulse from a video. We explore motion transfer as a form of data augmentation to introduce motion variation while preserving physiological changes. We adapt a neural video synthesis approach to augment videos for the task of remote photoplethysmography (PPG) and study the effects of motion augmentation with respect to 1) the magnitude and 2) the type of motion. After training on motion-augmented versions of publicly available datasets, the presented inter-dataset results on five benchmark datasets show improvements of up to 75% over existing state-of-the-art results. Our findings illustrate the utility of motion transfer as a data augmentation technique for improving the generalization of models for camera-based physiological sensing. We release our code and pre-trained models for using motion transfer as a data augmentation technique on our project page: https://motion-matters.github.io/
翻訳日:2023-04-04 20:44:47 公開日:2023-04-02
# 分散符号化アーキテクチャを用いた低複雑度ディープビデオ圧縮

Low-complexity Deep Video Compression with A Distributed Coding Architecture ( http://arxiv.org/abs/2303.11599v2 )

ライセンス: Link先を確認
Xinjie Zhang, Jiawei Shao, and Jun Zhang(参考訳) 一般的な予測符号化に基づくビデオ圧縮手法は、時間的冗長性を低減するために重エンコーダに依存しており、リソース制約のあるデバイスにそれらをデプロイすることは困難である。 1970年代以降、分散ソース符号化理論は、サイド情報(SI)を用いた独立符号化とジョイントデコーディングが相関ソースの高効率な圧縮を実現することを示唆している。 これは、エンコーディングの複雑さを減らすことを目的とした分散コーディングアーキテクチャにインスピレーションを与えた。 しかし、従来の分散コーディング手法は、予測的コーディングとはかなりのパフォーマンスギャップに悩まされている。 学習に基づく圧縮の偉大な成功に触発されて,最初のエンドツーエンドの分散ディープビデオ圧縮フレームワークを提案する。 鍵となる要素はデコーダにおける効果的なSI生成モジュールであり、計算集約的なエンコーダ側の動き推定と補償なしでフレーム間の相関を効果的に活用するのに役立つ。 実験により,本手法は従来の分散ビデオ符号化やH.264よりも優れていた。 一方、DVC [1]と同等の圧縮性能を持つ6-7倍のエンコーディング速度を持つ。 コードはhttps://github.com/Xinjie-Q/Distributed-DVCで公開されている。

Prevalent predictive coding-based video compression methods rely on a heavy encoder to reduce temporal redundancy, which makes it challenging to deploy them on resource-constrained devices. Since the 1970s, distributed source coding theory has indicated that independent encoding and joint decoding with side information (SI) can achieve high-efficient compression of correlated sources. This has inspired a distributed coding architecture aiming at reducing the encoding complexity. However, traditional distributed coding methods suffer from a substantial performance gap to predictive coding ones. Inspired by the great success of learning-based compression, we propose the first end-to-end distributed deep video compression framework to improve the rate-distortion performance. A key ingredient is an effective SI generation module at the decoder, which helps to effectively exploit inter-frame correlations without computation-intensive encoder-side motion estimation and compensation. Experiments show that our method significantly outperforms conventional distributed video coding and H.264. Meanwhile, it enjoys 6-7x encoding speedup against DVC [1] with comparable compression performance. Code is released at https://github.com/Xinjie-Q/Distributed-DVC.
翻訳日:2023-04-04 20:44:29 公開日:2023-04-02
# AIによる社会的ハームの不均一性とOmnibus AI法違反

Heterogeneity of AI-Induced Societal Harms and the Failure of Omnibus AI Laws ( http://arxiv.org/abs/2303.11196v2 )

ライセンス: Link先を確認
Sangchul Park(参考訳) AIによって引き起こされる社会的障害は、AIが従来の方法論を置き換えたり補完したりする領域における既存の問題を反映する。 しかし、信頼できるAI談話は、AIの均質性を仮定し、それらが生み出す害に関する共通の原因を導き、統一された人間の介入を要求する。 このようなAIモニズムは、EUのAI規則と米国ドラフトのアルゴリズム的説明責任法が示すように、リスクの高いAIシステムが公正性、透明性、説明責任、人間の監督、正確性、堅牢性、およびセキュリティに関する完全な統一された規則に従うことを要求するオムニバスAI法の制定を促した。 しかし、安全リスク、バイアス、侵害、プライバシ問題を含むAIを分離できる場合には、ハイリスクまたはクリティカルなAIに対して、すべての安全、公正性、説明責任、プライバシ規制に従うように要求するのは合理的ではない。 議会は、彼らが引き起こす社会的な害の種類に応じてAIシステムを分類することで、既存の規制を徐々に順応すべきである。 そこで本稿では,経験的再評価を前提として,以下の分類を提案する。 第一に、知的エージェントに関しては、自律行動によるインクリメンタルな事故リスクに対処するために安全規制を適用する必要がある。 第二に、差別的モデルに関して、法は割当的害の緩和と不変特徴の限界効果の開示に焦点を当てなければならない。 第3に、生成モデルでは、データマイニングとコンテンツ生成に対する開発者の責任を最適化し、コンテンツの侵害による潜在的な社会的損害と過剰なフィルタリングによる悪影響をバランスさせ、非人間的アイデンティティを開示すべきケースを特定するべきである。 最後に、認知モデルの場合、データ保護法は、プライバシ、監視、セキュリティ問題に効果的に対処し、パブリック・プライベートなパートナーシップに基づくガバナンスを促進するために適用されるべきである。

AI-induced societal harms mirror existing problems in domains where AI replaces or complements traditional methodologies. However, trustworthy AI discourses postulate the homogeneity of AI, aim to derive common causes regarding the harms they generate, and demand uniform human interventions. Such AI monism has spurred legislation for omnibus AI laws requiring any high-risk AI systems to comply with a full, uniform package of rules on fairness, transparency, accountability, human oversight, accuracy, robustness, and security, as demonstrated by the EU AI Regulation and the U.S. draft Algorithmic Accountability Act. However, it is irrational to require high-risk or critical AIs to comply with all the safety, fairness, accountability, and privacy regulations when it is possible to separate AIs entailing safety risks, biases, infringements, and privacy problems. Legislators should gradually adapt existing regulations by categorizing AI systems according to the types of societal harms they induce. Accordingly, this paper proposes the following categorizations, subject to ongoing empirical reassessments. First, regarding intelligent agents, safety regulations must be adapted to address incremental accident risks arising from autonomous behavior. Second, regarding discriminative models, law must focus on the mitigation of allocative harms and the disclosure of marginal effects of immutable features. Third, for generative models, law should optimize developer liability for data mining and content generation, balancing potential social harms arising from infringing content and the negative impact of excessive filtering and identify cases where its non-human identity should be disclosed. Lastly, for cognitive models, data protection law should be adapted to effectively address privacy, surveillance, and security problems and facilitate governance built on public-private partnerships.
翻訳日:2023-04-04 20:44:03 公開日:2023-04-02
# CCTV-Gun:CCTV画像におけるハンドガン検出のベンチマーク

CCTV-Gun: Benchmarking Handgun Detection in CCTV Images ( http://arxiv.org/abs/2303.10703v2 )

ライセンス: Link先を確認
Srikar Yellapragada, Zhenghong Li, Kevin Bhadresh Doshi, Purva Makarand Mhasakar, Heng Fan, Jie Wei, Erik Blasch, Haibin Ling(参考訳) 銃暴力は重要なセキュリティ問題であり、特にCCTV監視データにおいて、現実のシナリオに有効な銃検出アルゴリズムを開発することがコンピュータビジョンコミュニティにとって必須である。 視覚的物体検出の大幅な進歩にもかかわらず、現実のCCTV画像における銃の検出は困難で未調査の課題である。 銃器、特に拳銃は、通常、非常に小さいサイズであり、外観が不十分であり、しばしば他の小物と酷く遮蔽されるか、区別できない。 さらに、標準ベンチマークの欠如と関連するデータセットの収集がアルゴリズム開発を妨げている。 本稿では,実世界のCCTV画像における拳銃検出の課題に対処する,巧妙に製作された注釈付きベンチマーク「textbf{CCTV-Gun}」を提案する。 私たちの貢献は3倍です。 まず,3つのデータセットから実世界のCCTV画像を慎重に選択,分析し,手動で拳銃とその保持者をアノテートし,各画像にぼやけや閉塞などの課題因子を割り当てる。 第2に,実用環境で銃の検知に不可欠な標準データセット内プロトコルに加えて,新たなクロスデータセット評価プロトコルを提案する。 最後に,古典的および最先端の物体検出アルゴリズムを包括的に評価し,一般化能力の詳細な分析を行った。 このベンチマークは、このトピックに関するさらなる研究と開発を促進し、最終的にはセキュリティを強化する。 コード、アノテーション、トレーニングされたモデルはhttps://github.com/srikarym/CCTV-Gun.orgで入手できる。

Gun violence is a critical security problem, and it is imperative for the computer vision community to develop effective gun detection algorithms for real-world scenarios, particularly in Closed Circuit Television (CCTV) surveillance data. Despite significant progress in visual object detection, detecting guns in real-world CCTV images remains a challenging and under-explored task. Firearms, especially handguns, are typically very small in size, non-salient in appearance, and often severely occluded or indistinguishable from other small objects. Additionally, the lack of principled benchmarks and difficulty collecting relevant datasets further hinder algorithmic development. In this paper, we present a meticulously crafted and annotated benchmark, called \textbf{CCTV-Gun}, which addresses the challenges of detecting handguns in real-world CCTV images. Our contribution is three-fold. Firstly, we carefully select and analyze real-world CCTV images from three datasets, manually annotate handguns and their holders, and assign each image with relevant challenge factors such as blur and occlusion. Secondly, we propose a new cross-dataset evaluation protocol in addition to the standard intra-dataset protocol, which is vital for gun detection in practical settings. Finally, we comprehensively evaluate both classical and state-of-the-art object detection algorithms, providing an in-depth analysis of their generalizing abilities. The benchmark will facilitate further research and development on this topic and ultimately enhance security. Code, annotations, and trained models are available at https://github.com/srikarym/CCTV-Gun.
翻訳日:2023-04-04 20:43:27 公開日:2023-04-02
# 量子モンテカルロと相互作用するフェルミオンの絡み合いエントロピー:なぜ失敗したのか

Computing entanglement entropy of interacting fermions with quantum Monte Carlo: Why we failed and how to get it right ( http://arxiv.org/abs/2303.14326v2 )

ライセンス: Link先を確認
Gaopei Pan, Yuan Da Liao, Weilun Jiang, Jonathan D'Emidio, Yang Qi and Zi Yang Meng(参考訳) 量子エンタングルメントに隠された情報は、自発的対称性の破れ相、量子臨界点から位相的に順序付けられた状態まで、様々な物質の量子相の組織化原理を推測するために使用できることは疑いない。 しかし、エンタングルメントエントロピー(EE)のようなエンタングルメント測度が、高エンタングルド量子物質においてこれらの微妙な特徴(通常、普遍的な有限サイズのスケーリング挙動の形で)を観測するために必要な精度で実際に得られるかどうかは、明らかになっていない。 ハバードモデルのようなギャップのないスペクトルを持つ2次元相互作用型フェルミオン格子モデルの場合、eeの計算は厳しい制限を受けており、既存のすべての数値アルゴリズムに対する普遍的スケーリング法における信頼性の高いデータをオフにしている。 ここでは、量子モンテカルロシミュレーションにおける、以前失敗したEE計算の試みの理由と、さらに重要なことは、インクリメンタルアルゴリズム[1,2]で概念的および計算上の障壁を克服する方法を示し、最終的に2次元相互作用するフェルミオン系におけるEEの計算が簡単で信頼性の高いものになる。

There is no doubt that the information hidden in quantum entanglement can be used to infer the organizing principle of various quantum phases of matter, ranging from spontaneous symmetry breaking phases, quantum critical points to topologically ordered states. It is far from clear, however, whether entanglement measures, such as the entanglement entropy (EE), can actually be obtained with the precision required to observe these subtle features -- usually in the form of universal finite size scaling behavior -- in highly entangled quantum matter. In the case of 2D interacting fermionic lattice models with gapless spectra, such as in the Hubbard model, the computation of the EE has faced severe limitations, making reliable data in the universal scaling regime off limits to all existing numerical algorithms. Here we explain the reason for the previously unsuccessful attempts in EE computations in quantum Monte Carlo simulations and more importantly, show how to overcome the conceptual and computational barrier with the incremental algorithm[1,2], such that the computation of the EE in 2D interacting fermion systems finally becomes easy and reliable.
翻訳日:2023-04-04 20:36:26 公開日:2023-04-02
# 音声拡散モデルに関する調査:生成AIにおける音声合成と強調のためのテキスト

A Survey on Audio Diffusion Models: Text To Speech Synthesis and Enhancement in Generative AI ( http://arxiv.org/abs/2303.13336v2 )

ライセンス: Link先を確認
Chenshuang Zhang and Chaoning Zhang and Sheng Zheng and Mengchun Zhang and Maryam Qamar and Sung-Ho Bae and In So Kweon(参考訳) 生成AIは様々な分野で印象的な性能を示しており、音声合成は興味深い方向である。 拡散モデルが最もポピュラーな生成モデルとして、テキストから音声への変換と音声強調という2つの活動的なタスクを試みている。 本研究は、拡散に基づく音声合成の最近の進歩を欠いた既存の調査や、複数の分野における拡散モデルの適用の全体像を強調する調査を補完する音声拡散モデルに関する調査を行う。 具体的には、まず、音声と拡散モデルの背景を簡潔に紹介する。 テキストから音声へのタスクについては,拡散モデルが採用される段階(音響モデル,ボコーダ,エンドツーエンドフレームワーク)に基づいて3つのカテゴリに分割する。 さらに、入力音声に特定の信号を取り除いたり加えたりすることで、様々な音声強調タスクを分類する。 本調査では,実験結果と議論の比較についても述べる。

Generative AI has demonstrated impressive performance in various fields, among which speech synthesis is an interesting direction. With the diffusion model as the most popular generative model, numerous works have attempted two active tasks: text to speech and speech enhancement. This work conducts a survey on audio diffusion model, which is complementary to existing surveys that either lack the recent progress of diffusion-based speech synthesis or highlight an overall picture of applying diffusion model in multiple fields. Specifically, this work first briefly introduces the background of audio and diffusion model. As for the text-to-speech task, we divide the methods into three categories based on the stage where diffusion model is adopted: acoustic model, vocoder and end-to-end framework. Moreover, we categorize various speech enhancement tasks by either certain signals are removed or added into the input speech. Comparisons of experimental results and discussions are also covered in this survey.
翻訳日:2023-04-04 20:34:07 公開日:2023-04-02
# マスク付きオートエンコーダによる対向サンプルの検出と修復

Test-time Detection and Repair of Adversarial Samples via Masked Autoencoder ( http://arxiv.org/abs/2303.12848v3 )

ライセンス: Link先を確認
Yun-Yun Tsai, Ju-Chin Chao, Albert Wen, Zhaoyuan Yang, Chengzhi Mao, Tapan Shah, Junfeng Yang(参考訳) 敵の訓練として知られる訓練時間の防衛は、高い訓練コストをもたらし、目に見えない攻撃に一般化しない。 テスト時間防御はこれらの問題を解決するが、既存のテスト時間防御のほとんどはモデル重みを適応する必要があるため、凍結したモデルで動作せず、モデルメモリ管理を複雑にする。 モデル重みを適応しない唯一のテストタイム防御は、入力を自己スーパービジョンタスクに適応させることである。 しかし、これらの自己超越タスクは敵攻撃を正確に検出するのに十分な感度がないことを実証的に見出した。 本稿では,Masked Autoencoder (MAE) を用いて,テスト時の対向サンプルの検出と修復を行う新しい防御手法であるDRAMを提案する。 対向サンプルを検出するためのKolmogorov-Smirnovテストを構築するためにMAE損失を利用する方法を示す。 さらに,MAE損失を用いて,従来見つからなかった攻撃による敵のサンプルを修復する入力逆ベクトルを算出する。 大規模なImageNetデータセットの結果、評価されたすべての検出ベースラインと比較して、DRAMは評価された8つの攻撃に対して、最高の検出率(平均82%)を達成する。 攻撃修復のため、DRAMは、標準のResNet50では6%~41%、ロバストなResNet50では3%~8%のロバスト精度を、対照的な学習と回転予測を使用するベースラインと比較して改善する。

Training-time defenses, known as adversarial training, incur high training costs and do not generalize to unseen attacks. Test-time defenses solve these issues but most existing test-time defenses require adapting the model weights, therefore they do not work on frozen models and complicate model memory management. The only test-time defense that does not adapt model weights aims to adapt the input with self-supervision tasks. However, we empirically found these self-supervision tasks are not sensitive enough to detect adversarial attacks accurately. In this paper, we propose DRAM, a novel defense method to detect and repair adversarial samples at test time via Masked autoencoder (MAE). We demonstrate how to use MAE losses to build a Kolmogorov-Smirnov test to detect adversarial samples. Moreover, we use the MAE losses to calculate input reversal vectors that repair adversarial samples resulting from previously unseen attacks. Results on large-scale ImageNet dataset show that, compared to all detection baselines evaluated, DRAM achieves the best detection rate (82% on average) on all eight adversarial attacks evaluated. For attack repair, DRAM improves the robust accuracy by 6% ~ 41% for standard ResNet50 and 3% ~ 8% for robust ResNet50 compared with the baselines that use contrastive learning and rotation prediction.
翻訳日:2023-04-04 20:33:56 公開日:2023-04-02
# 大型視覚言語モデルのゼロショット推論における校正

Enabling Calibration In The Zero-Shot Inference of Large Vision-Language Models ( http://arxiv.org/abs/2303.12748v3 )

ライセンス: Link先を確認
Will LeVine, Benjamin Pikus, Pranav Raj, and Fernando Amat Gil(参考訳) 深層学習モデルの校正は信頼性と安全な使用に不可欠であり、分類モデルにおいて、誤校正を減らす手法を用いて広範囲に研究されている。 しかし、CLIPのようなゼロショット推論に使用される視覚言語モデルの校正に関する包括的な研究はまだ行われていない。 我々は,プロンプト,データセット,アーキテクチャといった関連する変数のキャリブレーションを測定し,クリップによるゼロショット推論が誤りであることを確認した。 さらに、ゼロショット推論モデルとしてCLIPの一般的な使用事例と整合した温度スケーリングの修正版を提案し、単一の学習温度が推論データセットをまたいだ特定のCLIPモデル(選択した事前学習データセットとアーキテクチャで定義される)毎に一般化し、選択を促すことを示す。

Calibration of deep learning models is crucial to their trustworthiness and safe usage, and as such, has been extensively studied in supervised classification models, with methods crafted to decrease miscalibration. However, there has yet to be a comprehensive study of the calibration of vision-language models that are used for zero-shot inference, like CLIP. We measure calibration across relevant variables like prompt, dataset, and architecture, and find that zero-shot inference with CLIP is miscalibrated. Furthermore, we propose a modified version of temperature scaling that is aligned with the common use cases of CLIP as a zero-shot inference model, and show that a single learned temperature generalizes for each specific CLIP model (defined by a chosen pre-training dataset and architecture) across inference dataset and prompt choice.
翻訳日:2023-04-04 20:33:29 公開日:2023-04-02
# 正面視のためのNeRFおよびニューラルビュー合成法の知覚的品質評価

Perceptual Quality Assessment of NeRF and Neural View Synthesis Methods for Front-Facing Views ( http://arxiv.org/abs/2303.15206v2 )

ライセンス: Link先を確認
Hanxue Liang, Tianhao Wu, Param Hanji, Francesco Banterle, Hongyun Gao, Rafal Mantiuk, Cengiz Oztireli(参考訳) ニューラルビュー合成(neural view synthesis, nvs)は、自由視点映像を合成する最も成功した手法の1つであり、撮像された画像の集合から高い忠実度を達成することができる。 この成功は、PSNR、SSIM、LPIPSといった画像品質の指標を用いて、テストビューのセットで評価される、多くのバリエーションを生み出した。 nvsの手法がビデオ品質に対してどのように機能するかについては、研究が不足している。 本研究は,NVSおよびNeRFの知覚的評価に関する最初の研究である。 本研究では,制御された実験室環境で撮影されたシーンの2つのデータセットと,室内のシーンを収集した。 既存のデータセットとは対照的に、これらのシーンには参照ビデオシーケンスがあり、静的画像のみを見る際に容易に見過ごされる時間的アーティファクトや微妙な歪みをテストできます。 我々は,NVS法によって合成された映像の品質をよく制御された知覚品質評価実験で測定した。 本稿では,nvs評価のためのデータセットとメトリック選択の結果と推奨結果の詳細な分析を行う。

Neural view synthesis (NVS) is one of the most successful techniques for synthesizing free viewpoint videos, capable of achieving high fidelity from only a sparse set of captured images. This success has led to many variants of the techniques, each evaluated on a set of test views typically using image quality metrics such as PSNR, SSIM, or LPIPS. There has been a lack of research on how NVS methods perform with respect to perceived video quality. We present the first study on perceptual evaluation of NVS and NeRF variants. For this study, we collected two datasets of scenes captured in a controlled lab environment as well as in-the-wild. In contrast to existing datasets, these scenes come with reference video sequences, allowing us to test for temporal artifacts and subtle distortions that are easily overlooked when viewing only static images. We measured the quality of videos synthesized by several NVS methods in a well-controlled perceptual quality assessment experiment as well as with many existing state-of-the-art image/video quality metrics. We present a detailed analysis of the results and recommendations for dataset and metric selection for NVS evaluation.
翻訳日:2023-04-04 20:24:38 公開日:2023-04-02
# GPT-4における概念物理推論の進歩

Advances in apparent conceptual physics reasoning in GPT-4 ( http://arxiv.org/abs/2303.17012v2 )

ライセンス: Link先を確認
Colin G. West(参考訳) ChatGPTは、人間の会話をエミュレートする巨大なテキストコーパスに基づいて訓練された大きな言語モデルに基づいて構築されている。 物理学の法則に関する明確なプログラミングが欠如しているにもかかわらず、最近の研究はGPT-3.5が何らかの名目レベルで入門物理学のコースをパスし、ニュートン力学の力の概念に関する最小限の理解に近いものを登録できることを示した。 この研究はこれらの結果を再現し、最新バージョンの GPT-4 が後者の文脈ではるかに高いスコアに達したことを示す。 実際、その反応は、非常に顕著な例外と制限を含む、専門家レベルの能力の完全な証明に非常に近い。 物理学教育と教育学の将来への影響について、簡単にコメントする。

ChatGPT is built on a large language model trained on an enormous corpus of human text to emulate human conversation. Despite lacking any explicit programming regarding the laws of physics, recent work has demonstrated that GPT-3.5 could pass an introductory physics course at some nominal level and register something close to a minimal understanding of Newtonian Mechanics on the Force Concept Inventory. This work replicates those results and also demonstrates that the latest version, GPT-4, has reached a much higher mark in the latter context. Indeed, its responses come quite close to perfectly demonstrating expert-level competence, with a few very notable exceptions and limitations. We briefly comment on the implications of this for the future of physics education and pedagogy.
翻訳日:2023-04-04 20:16:58 公開日:2023-04-02
# 半変態アンザッツ:量子相空間におけるクォーコニウムダイナミクス

The Half Transform Ansatz: Quarkonium Dynamics in Quantum Phase Space ( http://arxiv.org/abs/2303.16356v2 )

ライセンス: Link先を確認
Gabriel Nowaskie(参考訳) Torres-VegaとFrederickによる基礎研究以来、量子位相空間表現(Quantum Phase Space Representation, QPSR)は様々な物理系を解く方法として研究されてきた。 最近、valentino a. simpao は qpsr における時間依存シュロディンガー方程式 (tdse) を解くためのheaviside operational ansatz 法を開発したが、qpsr における時間依存シュロディンガー方程式を解くための一般的な直接法は存在しない。 相空間におけるクォーコニウムの現在の定式化も存在しない。 本論文では、コーネルポテンシャルを用いた非相対論的重クォークの強い相互作用を記述し、ニキフォロフ・ウバロフ法による位相空間波関数とそのエネルギー固有値の解法として、シュロディンガー方程式を超幾何学形式にキャストする手法であるハーフ変換アンザッツを提案する。 この解は多項式と相互項からなる硬化ポテンシャルを持つ任意の2つの粒子系に対して一般化することができる。 これらの結果は実験結果や他の理論モデルと比較される。 また,これらの波動関数の挙動を解析し,円周運動量とチャームアンチチャーム中間子の存在限界との関係を示唆する。

Since the groundwork published by Torres-Vega and Frederick, the Quantum Phase Space Representation (QPSR) has been explored as a method for solving a multitude of physical systems and describing phenomena. Most recently, Valentino A. Simpao has developed a method, the Heaviside Operational Ansatz, to solve the Time Dependent Schrodinger Equation (TDSE) in the QPSR, but there are still no general, direct methods to solve the Time Independent Schrodinger Equation in the QPSR. There is also no current formulation of quarkonium in phase space. In this paper, we describe the strong interactions of non-relativistic heavy quarks using the Cornell potential, and present a method, the Half-Transform Ansatz, to cast the Schrodinger Equation into a hyper-geometric form which can be solved for the phase space wave function and its energy eigenvalues using the Nikiforov-Uvarov method. This solution can be generalized for any two particle system with a scleronomic potential made up of polynomial and reciprocal terms. These results are compared to experimental results and other theoretical models. We also analyze the behavior of these wave functions, which suggest a correlation between radial momentum and the upper limit of existence in charm-anticharm mesons.
翻訳日:2023-04-04 20:15:16 公開日:2023-04-02
# 強化学習を伴う実験プラットフォーム:継続的モニタリングのためのベイジアンシークエンシャル意思決定

Experimentation Platforms Meet Reinforcement Learning: Bayesian Sequential Decision-Making for Continuous Monitoring ( http://arxiv.org/abs/2304.00420v1 )

ライセンス: Link先を確認
Runzhe Wan, Yu Liu, James McQueen, Doug Hains, Rui Song(参考訳) 産業のイノベーションを支援するオンラインa/bテストの必要性が高まる中、実験を行う機会コストは無視できないものになっている。 そのため、適切なタイミングで早期に停止できる効率的な継続的監視サービスへの需要が高まっている。 古典的な統計手法は仮説テストに重点を置いており、主に臨床試験のような従来のハイテイクな問題のために開発されている。 本論文では、顧客エクスペリエンスを最大化し、機会コストを制御するために、Amazonで開発した新しいフレームワークを紹介します。 本稿では,統一効用関数を持つベイズ最適逐次意思決定問題として問題を定式化する。 我々は,実用的設計の選択肢と考察を幅広く議論する。 さらに,強化学習による最適決定ルールの解法と,その解のスケールについて紹介する。 本手法の有効性を,Amazon実験における大規模メタ分析による既存手法と比較した。

With the growing needs of online A/B testing to support the innovation in industry, the opportunity cost of running an experiment becomes non-negligible. Therefore, there is an increasing demand for an efficient continuous monitoring service that allows early stopping when appropriate. Classic statistical methods focus on hypothesis testing and are mostly developed for traditional high-stake problems such as clinical trials, while experiments at online service companies typically have very different features and focuses. Motivated by the real needs, in this paper, we introduce a novel framework that we developed in Amazon to maximize customer experience and control opportunity cost. We formulate the problem as a Bayesian optimal sequential decision making problem that has a unified utility function. We discuss extensively practical design choices and considerations. We further introduce how to solve the optimal decision rule via Reinforcement Learning and scale the solution. We show the effectiveness of this novel approach compared with existing methods via a large-scale meta-analysis on experiments in Amazon.
翻訳日:2023-04-04 18:17:50 公開日:2023-04-02
# Mini-batch $k$-meansが$O(d/\epsilon)$ iterations内で終了する

Mini-batch $k$-means terminates within $O(d/\epsilon)$ iterations ( http://arxiv.org/abs/2304.00419v1 )

ライセンス: Link先を確認
Gregory Schwartzman(参考訳) ローカルな進捗(バッチ)は、ミニバッチの$k$-meansのグローバルな進捗(データセット全体)を意味するのでしょうか? 具体的には、サンプルバッチにおけるクラスタリングの品質改善がしきい値以下である場合にのみ終了するミニバッチ$k$-meansを検討する。 一見すると、このアルゴリズムは永久に実行されるように見えるが、肯定的に上記の質問に答えると、バッチのサイズが$\tilde{\omega}((d/\epsilon)^2)$であれば、$d$が入力の次元であり、$\epsilon$が終了のしきい値パラメータであるような高い確率で$o(d/\epsilon)$イテレーションを終了しなければならない。 これはセンタの初期化方法に関わらず当てはまります。 アルゴリズムが$k$-means++の初期化スキームで初期化されると、その近似比は$O(\log k)$(フルバッチ版と同じ)となる。 最後に、scikit-learn (sklearn) pythonライブラリに実装されたmini-batch $k$-meansアルゴリズムに対する結果の適用性を示す。

We answer the question: "Does local progress (on batches) imply global progress (on the entire dataset) for mini-batch $k$-means?". Specifically, we consider mini-batch $k$-means which terminates only when the improvement in the quality of the clustering on the sampled batch is below some threshold. Although at first glance it appears that this algorithm might execute forever, we answer the above question in the affirmative and show that if the batch is of size $\tilde{\Omega}((d/\epsilon)^2)$, it must terminate within $O(d/\epsilon)$ iterations with high probability, where $d$ is the dimension of the input, and $\epsilon$ is a threshold parameter for termination. This is true regardless of how the centers are initialized. When the algorithm is initialized with the $k$-means++ initialization scheme, it achieves an approximation ratio of $O(\log k)$ (the same as the full-batch version). Finally, we show the applicability of our results to the mini-batch $k$-means algorithm implemented in the scikit-learn (sklearn) python library.
翻訳日:2023-04-04 18:17:35 公開日:2023-04-02
# 健全なaiに向けて: 大きな言語モデルにもセラピストが必要だ

Towards Healthy AI: Large Language Models Need Therapists Too ( http://arxiv.org/abs/2304.00416v1 )

ライセンス: Link先を確認
Baihan Lin, Djallel Bouneffouf, Guillermo Cecchi, Kush R. Varshney(参考訳) 大規模言語モデル(LLM)の最近の進歩は、自然と人間のような会話を行える強力なAIチャットボットの開発につながっている。 しかし、これらのチャットボットは潜在的に有害であり、マニピュレータ、ガス灯、自己愛行動を示す。 私たちはHealthy AIを安全で信頼性があり倫理的であると定義しています。 健全なAIシステムを構築するために、精神療法を用いてAIチャットボットの有害な行動を修正するSafeguardGPTフレームワークを提案する。 フレームワークは、Chatbot、"User"、"Therapist"、"Critic"の4種類のAIエージェントで構成されている。 ソーシャルな会話をシミュレートする作業例を通して,セーフガードGPTの有効性を示す。 このフレームワークは,AIチャットボットと人間との会話の質を向上させることができる。 将来的に解決すべき課題や方向性はまだいくつかあるが、SafeguardGPTはAIチャットボットと人間の価値の整合性を改善するための有望なアプローチを提供する。 このフレームワークは精神療法と強化学習技術を取り入れることで、AIチャットボットが人間の好みや価値観を安全かつ倫理的に学習し、適応することを可能にし、より人間中心で責任あるAIの開発に寄与する。

Recent advances in large language models (LLMs) have led to the development of powerful AI chatbots capable of engaging in natural and human-like conversations. However, these chatbots can be potentially harmful, exhibiting manipulative, gaslighting, and narcissistic behaviors. We define Healthy AI to be safe, trustworthy and ethical. To create healthy AI systems, we present the SafeguardGPT framework that uses psychotherapy to correct for these harmful behaviors in AI chatbots. The framework involves four types of AI agents: a Chatbot, a "User," a "Therapist," and a "Critic." We demonstrate the effectiveness of SafeguardGPT through a working example of simulating a social conversation. Our results show that the framework can improve the quality of conversations between AI chatbots and humans. Although there are still several challenges and directions to be addressed in the future, SafeguardGPT provides a promising approach to improving the alignment between AI chatbots and human values. By incorporating psychotherapy and reinforcement learning techniques, the framework enables AI chatbots to learn and adapt to human preferences and values in a safe and ethical way, contributing to the development of a more human-centric and responsible AI.
翻訳日:2023-04-04 18:17:12 公開日:2023-04-02
# 芸術的スタイル伝達のための動的カーネルの学習

Learning Dynamic Style Kernels for Artistic Style Transfer ( http://arxiv.org/abs/2304.00414v1 )

ライセンス: Link先を確認
Xu Wenju and Long Chengjiang and Nie Yongwei(参考訳) 任意のスタイル転送は、芸術的な画像生成において効率的であることが示されている。 以前の方法は、ローカルの詳細を無視してコンテンツ機能をグローバルに変調するか、あるいはスタイルリークにつながるローカル構造の詳細に過剰に焦点を合わせるかのどちらかである。 論文とは対照的に,画素ごとのスタイリングのための空間適応型カーネルを学習する新たなスキームである「textit{`style kernel"」を提案し,大域的なスタイルの整列特徴から畳み込みカーネルを動的に生成し,学習したカーネルを用いて各空間位置におけるコンテンツ特徴を変調する。 この新しいスキームにより、コンテンツとスタイルの特徴の間のグローバルおよびローカルなインタラクションの両方が柔軟になり、望んでいたスタイルをコンテンツイメージに簡単に転送できると同時に、コンテンツ構造を容易に保存できる。 本稿では,スタイル伝達方式の柔軟性をさらに高めるために,動的スタイルカーネルを集中領域で学習するコンテンツベースゲーティング変調(cgm)モジュールを補完するスタイルアライメント符号化(sae)モジュールを提案する。 広汎な実験により,提案手法は最先端の手法より優れ,視覚的品質と効率の点で優れた性能を示した。

Arbitrary style transfer has been demonstrated to be efficient in artistic image generation. Previous methods either globally modulate the content feature ignoring local details, or overly focus on the local structure details leading to style leakage. In contrast to the literature, we propose a new scheme \textit{``style kernel"} that learns {\em spatially adaptive kernels} for per-pixel stylization, where the convolutional kernels are dynamically generated from the global style-content aligned feature and then the learned kernels are applied to modulate the content feature at each spatial position. This new scheme allows flexible both global and local interactions between the content and style features such that the wanted styles can be easily transferred to the content image while at the same time the content structure can be easily preserved. To further enhance the flexibility of our style transfer method, we propose a Style Alignment Encoding (SAE) module complemented with a Content-based Gating Modulation (CGM) module for learning the dynamic style kernels in focusing regions. Extensive experiments strongly demonstrate that our proposed method outperforms state-of-the-art methods and exhibits superior performance in terms of visual quality and efficiency.
翻訳日:2023-04-04 18:16:53 公開日:2023-04-02
# AMC-Net: 自動変調分類のための効果的なネットワーク

AMC-Net: An Effective Network for Automatic Modulation Classification ( http://arxiv.org/abs/2304.00445v1 )

ライセンス: Link先を確認
Jiawei Zhang, Tiantian Wang, Zhixi Feng, Shuyuan Yang(参考訳) 自動変調分類(AMC)は、無線通信システムのスペクトル管理、信号監視、制御において重要な段階である。 変調フォーマットの正確な分類は、送信されたデータのその後の復号において重要な役割を果たす。 エンドツーエンドのディープラーニング手法が最近AMCに適用され、従来の特徴工学技術よりも優れている。 しかし、AMCは低信号対雑音比(SNR)環境に制限がある。 この欠点に対処するため,マルチスケールかつ効果的な特徴抽出を行いながら,周波数領域の入力信号をノイズ化することで認識を改善する新しいAMC-Netを提案する。 2つの代表的なデータセットの実験により、我々のモデルは、現在の方法よりも効率と効率が良いことを示した。

Automatic modulation classification (AMC) is a crucial stage in the spectrum management, signal monitoring, and control of wireless communication systems. The accurate classification of the modulation format plays a vital role in the subsequent decoding of the transmitted data. End-to-end deep learning methods have been recently applied to AMC, outperforming traditional feature engineering techniques. However, AMC still has limitations in low signal-to-noise ratio (SNR) environments. To address the drawback, we propose a novel AMC-Net that improves recognition by denoising the input signal in the frequency domain while performing multi-scale and effective feature extraction. Experiments on two representative datasets demonstrate that our model performs better in efficiency and effectiveness than the most current methods.
翻訳日:2023-04-04 18:08:58 公開日:2023-04-02
# softed: 時系列イベント検出のソフト評価のためのメトリクス

SoftED: Metrics for Soft Evaluation of Time Series Event Detection ( http://arxiv.org/abs/2304.00439v1 )

ライセンス: Link先を確認
Rebecca Salles, Janio Lima, Rafaelli Coutinho, Esther Pacitti, Florent Masseglia, Reza Akbarinia, Chao Chen, Jonathan Garibaldi, Fabio Porto, Eduardo Ogasawara(参考訳) 時系列イベント検出法は,検出精度にのみ焦点をあてた標準分類基準によって評価される。 しかし、事象を検出する不正確さは、しばしば、隣り合う検出に反映される先行または遅延効果によって生じる。 これらの検出は、必要なアクションをトリガーしたり、不満足な結果を軽減するのに役立つ。 この文脈では、現在のメトリクスは不十分であり、イベント検出のコンテキストには不十分である。 時間の概念と隣接検出に対する時間的許容性の両方を組み込んだメトリクスの需要がある。 本稿では,イベント検出手法をソフト評価するための新しいメトリクスセットであるsofted metricsを提案する。 これにより、検出精度と検出がイベントを表す程度の両方を評価することができる。 また,通常の分類基準と比較して36-%以上の実験に時間的耐性を組み込むことで,事象とその代表的検出を関連付けることで,事象検出評価を改善した。 SoftEDメトリクスは、検出評価とメソッド選択への貢献を示すドメインスペシャリストによって検証された。

Time series event detection methods are evaluated mainly by standard classification metrics that focus solely on detection accuracy. However, inaccuracy in detecting an event can often result from its preceding or delayed effects reflected in neighboring detections. These detections are valuable to trigger necessary actions or help mitigate unwelcome consequences. In this context, current metrics are insufficient and inadequate for the context of event detection. There is a demand for metrics that incorporate both the concept of time and temporal tolerance for neighboring detections. This paper introduces SoftED metrics, a new set of metrics designed for soft evaluating event detection methods. They enable the evaluation of both detection accuracy and the degree to which their detections represent events. They improved event detection evaluation by associating events and their representative detections, incorporating temporal tolerance in over 36\% of experiments compared to the usual classification metrics. SoftED metrics were validated by domain specialists that indicated their contribution to detection evaluation and method selection.
翻訳日:2023-04-04 18:08:47 公開日:2023-04-02
# ニューロン活性化空間における逆学習による視覚質問応答のインスタンスレベルトロイの木馬攻撃

Instance-level Trojan Attacks on Visual Question Answering via Adversarial Learning in Neuron Activation Space ( http://arxiv.org/abs/2304.00436v1 )

ライセンス: Link先を確認
Yuwei Sun, Hideya Ochiai, Jun Sakuma(参考訳) トロイの木馬攻撃として知られる入力データに埋め込まれた悪意のある摂動は、ニューラルネットワークの誤動作を引き起こす可能性がある。 しかし、トロイの木馬攻撃の影響は、視覚的質問応答(VQA)のような事前訓練済みの大規模モデルからターゲットモデルへの知識の伝達を伴うモデルの微調整時に減少する。 トロイの木馬攻撃の影響を軽減するため、事前訓練されたモデルの複数の層を交換および微調整することが可能である。 本研究は, サンプルの効率, ステルス性, ばらつき, および微調整モデルに対するロバスト性に焦点をあてた。 これらの課題に対処するために,入力サンプルとモダリティにまたがる多様なトロイの木馬を生成するインスタンスレベルのトロイの木馬攻撃を提案する。 逆学習は、特定の摂動層と微調整モデルの誤動作との相関を確立する。 我々は,VQA-v2データセットの幅広い実験を行った。 その結果,提案手法は最小サンプルの微調整モデルに効果的に適応できることがわかった。 具体的には,1枚の微調整層を持つモデルでは,1枚の逆数サンプルを用いて,さらに微細調整層を持つモデルではわずか数枚で妥協できることがわかった。

Malicious perturbations embedded in input data, known as Trojan attacks, can cause neural networks to misbehave. However, the impact of a Trojan attack is reduced during fine-tuning of the model, which involves transferring knowledge from a pretrained large-scale model like visual question answering (VQA) to the target model. To mitigate the effects of a Trojan attack, replacing and fine-tuning multiple layers of the pretrained model is possible. This research focuses on sample efficiency, stealthiness and variation, and robustness to model fine-tuning. To address these challenges, we propose an instance-level Trojan attack that generates diverse Trojans across input samples and modalities. Adversarial learning establishes a correlation between a specified perturbation layer and the misbehavior of the fine-tuned model. We conducted extensive experiments on the VQA-v2 dataset using a range of metrics. The results show that our proposed method can effectively adapt to a fine-tuned model with minimal samples. Specifically, we found that a model with a single fine-tuning layer can be compromised using a single shot of adversarial samples, while a model with more fine-tuning layers can be compromised using only a few shots.
翻訳日:2023-04-04 18:08:34 公開日:2023-04-02
# Markov-Chain Monte Carloとジェネレータネットワークを用いた理想的なオブザーバ計算

Ideal Observer Computation by Use of Markov-Chain Monte Carlo with Generative Adversarial Networks ( http://arxiv.org/abs/2304.00433v1 )

ライセンス: Link先を確認
Weimin Zhou, Umberto Villa, Mark A. Anastasio(参考訳) 医療画像システムはしばしば、特定の臨床に関連するタスクにおけるオブザーバのパフォーマンスを定量化する客観的、タスク特異的な画像品質測定(iq)によって評価、最適化される。 ベイズ理想オブザーバー(IO)の性能は、すべての観測者、数値または人間に上限を設定し、医療画像システムの評価と最適化のための図形(FOM)としての使用が提唱されている。 しかし、ioテストの統計量は、ほとんどのケースで計算できない確率比に対応している。 マルコフ鎖モンテカルロ法(mcmc)を用いたサンプリングに基づく手法が提案されている。 しかし,現在の MCMC 法のIO近似への応用は,比較的単純な確率的対象モデル (SOM) によって,被像物の分布を考慮に入れた少数の状況に限られている。 したがって、IOベースのアセスメントが必要とされるが関連するSOMが利用できない様々なシナリオに対処するために、MCMC法の適用範囲を拡大する必要がある。 本研究では, MCMC-GAN と呼ばれる, GAN ベースの SOM を用いた新しい MCMC 手法について述べる。 MCMC-GAN法は,参照解が利用できるテストケースを用いて定量的に検証した。 その結果,MCMC-GAN法は医用画像のIO解析を行うためのMCMC法の適用範囲を拡大できることがわかった。

Medical imaging systems are often evaluated and optimized via objective, or task-specific, measures of image quality (IQ) that quantify the performance of an observer on a specific clinically-relevant task. The performance of the Bayesian Ideal Observer (IO) sets an upper limit among all observers, numerical or human, and has been advocated for use as a figure-of-merit (FOM) for evaluating and optimizing medical imaging systems. However, the IO test statistic corresponds to the likelihood ratio that is intractable to compute in the majority of cases. A sampling-based method that employs Markov-Chain Monte Carlo (MCMC) techniques was previously proposed to estimate the IO performance. However, current applications of MCMC methods for IO approximation have been limited to a small number of situations where the considered distribution of to-be-imaged objects can be described by a relatively simple stochastic object model (SOM). As such, there remains an important need to extend the domain of applicability of MCMC methods to address a large variety of scenarios where IO-based assessments are needed but the associated SOMs have not been available. In this study, a novel MCMC method that employs a generative adversarial network (GAN)-based SOM, referred to as MCMC-GAN, is described and evaluated. The MCMC-GAN method was quantitatively validated by use of test-cases for which reference solutions were available. The results demonstrate that the MCMC-GAN method can extend the domain of applicability of MCMC methods for conducting IO analyses of medical imaging systems.
翻訳日:2023-04-04 18:08:14 公開日:2023-04-02
# 情報回復駆動型深層不完全なマルチビュークラスタリングネットワーク

Information Recovery-Driven Deep Incomplete Multi-view Clustering Network ( http://arxiv.org/abs/2304.00429v1 )

ライセンス: Link先を確認
Chengliang Liu, Jie Wen, Zhihao Wu, Xiaoling Luo, Chao Huang, Yong Xu(参考訳) 不完全なマルチビュークラスタリングはホットで新興のトピックである。 避けられないデータ不完全性が多視点データの有効情報を著しく弱めることはよく知られている。 これまで、既存の不完全なマルチビュークラスタリング手法は、通常、未使用のビューを、事前の欠落情報に従ってバイパスする。 不足した情報を回復しようとする他の方法は、主に特定の2ビューデータセットに適用できる。 本稿では,これらの問題に対処するために,recformerと呼ばれる,情報回復駆動型ディープ不完全マルチビュークラスタリングネットワークを提案する。 具体的には、複数のビューの高レベルなセマンティック表現を同期的に抽出し、欠落したデータを復元するために、自己アテンション構造を持つ2段階のオートエンコーダネットワークを構築する。 さらに,復元されたビューを巧みに活用し,表現学習とさらなるデータ再構成を促進するリカレントグラフ再構成機構を開発した。 回復結果の可視化を行い、十分な実験結果から、RecFormerは他のトップメソッドよりも明らかな利点があることが確認されます。

Incomplete multi-view clustering is a hot and emerging topic. It is well known that unavoidable data incompleteness greatly weakens the effective information of multi-view data. To date, existing incomplete multi-view clustering methods usually bypass unavailable views according to prior missing information, which is considered as a second-best scheme based on evasion. Other methods that attempt to recover missing information are mostly applicable to specific two-view datasets. To handle these problems, in this paper, we propose an information recovery-driven deep incomplete multi-view clustering network, termed as RecFormer. Concretely, a two-stage autoencoder network with the self-attention structure is built to synchronously extract high-level semantic representations of multiple views and recover the missing data. Besides, we develop a recurrent graph reconstruction mechanism that cleverly leverages the restored views to promote the representation learning and the further data reconstruction. Visualization of recovery results are given and sufficient experimental results confirm that our RecFormer has obvious advantages over other top methods.
翻訳日:2023-04-04 18:07:49 公開日:2023-04-02
# 短いバーストによるパレート効率的な再分級計画の発見

Finding Pareto Efficient Redistricting Plans with Short Bursts ( http://arxiv.org/abs/2304.00427v1 )

ライセンス: Link先を確認
Cory McCartan(参考訳) 再帰的な実践者は、地区の境界を描く際に多くの競合する制約と基準をバランスさせなければならない。 このプロセスを支援するために、研究者は1つ以上の基準に従って地区計画の最適化方法を開発した。 本研究は、最近提案されている単一基準最適化手法である short bursts (cannon et al., 2023) を拡張し、マルチ基準ケースを扱い、任意の制約に対してパレートフロンティアを近似する。 本手法は, 実環境において経験的性能を検証した結果, 期待通りに動作し, アルゴリズムパラメータにはあまり敏感でないことがわかった。 提案手法はオープンソースソフトウェアで実装されており、研究者や実践者が再制限プロセスに固有のトレードオフをよりよく理解できるようにする。

Redistricting practitioners must balance many competing constraints and criteria when drawing district boundaries. To aid in this process, researchers have developed many methods for optimizing districting plans according to one or more criteria. This research note extends a recently-proposed single-criterion optimization method, short bursts (Cannon et al., 2023), to handle the multi-criterion case, and in doing so approximate the Pareto frontier for any set of constraints. We study the empirical performance of the method in a realistic setting and find it behaves as expected and is not very sensitive to algorithmic parameters. The proposed approach, which is implemented in open-source software, should allow researchers and practitioners to better understand the tradeoffs inherent to the redistricting process.
翻訳日:2023-04-04 18:07:30 公開日:2023-04-02
# ファンタジーによる学習: クラスインクリメンタル学習のためのセマンティクスを意識した仮想コントラスト制約

Learning with Fantasy: Semantic-Aware Virtual Contrastive Constraint for Few-Shot Class-Incremental Learning ( http://arxiv.org/abs/2304.00426v1 )

ライセンス: Link先を確認
Zeyin Song, Yifan Zhao, Yujun Shi, Peixi Peng, Li Yuan, Yonghong Tian(参考訳) FSCIL (Few-shot class-incremental Learning) は、クラスを忘れずに、限られたサンプルから新しいクラスを継続的に分類することを目的としている。 FSCILに対処する主要なフレームワークは、まず、ベースセッションでのトレーニングにクロスエントロピー(CE)損失を採用し、次に新しいクラスに適応するために機能抽出器を凍結する。 しかし,本研究では,表象の面でのクラス分離が貧弱であるため,基礎セッショントレーニングではce損失が理想的ではないことを見出し,新たなクラスへの一般化をさらに低下させる。 この問題を緩和する1つの誘惑的手法は、ベースセッションに補助的教師付きコントラスト学習(SCL)を適用することである。 残念なことに、SCLは異なるベースクラス間でわずかに優れた表現分離を作成できるが、ベースクラスと新しいクラスを分離するのに依然として苦労している。 そこで我々は,SCLに仮想クラスを導入することで,新しいクラスとベースクラスの分離を容易にする新しい手法であるSemantic-Aware Virtual Contrastive Model (SAVC)を提案する。 これらの仮想クラスは、事前に定義された変換によって生成されるが、表現空間で見えないクラスのプレースホルダーとして機能するだけでなく、多様な意味情報も提供する。 仮想クラスによって育成される空想空間における認識とコントラストの学習により、我々のSAVCは、ベースクラスの分離と新しいクラス一般化を著しく促進し、3つの広く使用されているFSCILベンチマークデータセット上で、新しい最先端のパフォーマンスを達成する。 コードはhttps://github.com/zysong0113/savc.com/。

Few-shot class-incremental learning (FSCIL) aims at learning to classify new classes continually from limited samples without forgetting the old classes. The mainstream framework tackling FSCIL is first to adopt the cross-entropy (CE) loss for training at the base session, then freeze the feature extractor to adapt to new classes. However, in this work, we find that the CE loss is not ideal for the base session training as it suffers poor class separation in terms of representations, which further degrades generalization to novel classes. One tempting method to mitigate this problem is to apply an additional naive supervised contrastive learning (SCL) in the base session. Unfortunately, we find that although SCL can create a slightly better representation separation among different base classes, it still struggles to separate base classes and new classes. Inspired by the observations made, we propose Semantic-Aware Virtual Contrastive model (SAVC), a novel method that facilitates separation between new classes and base classes by introducing virtual classes to SCL. These virtual classes, which are generated via pre-defined transformations, not only act as placeholders for unseen classes in the representation space, but also provide diverse semantic information. By learning to recognize and contrast in the fantasy space fostered by virtual classes, our SAVC significantly boosts base class separation and novel class generalization, achieving new state-of-the-art performance on the three widely-used FSCIL benchmark datasets. Code is available at: https://github.com/zysong0113/SAVC.
翻訳日:2023-04-04 18:07:16 公開日:2023-04-02
# 単一領域一般化のための漸進的ランダム畳み込み

Progressive Random Convolutions for Single Domain Generalization ( http://arxiv.org/abs/2304.00424v1 )

ライセンス: Link先を確認
Seokeon Choi, Debasmit Das, Sungha Choi, Seunghan Yang, Hyunsin Park, Sungrack Yun(参考訳) 単一ドメイン一般化(single domain generalization)は、1つのソースドメインしか持たない一般化モデルのトレーニングを目標とする。 ランダム畳み込み(RandConv)に基づく画像拡張は、各ミニバッチに対してランダムに初期化された1つの畳み込み層で構成され、単純で軽量な構造にもかかわらず局所的なテクスチャを歪ませることで、一般化可能な視覚表現を学習することができる。 しかし、RandConvは、生成したイメージがカーネルサイズが大きくなるにつれて意味論が容易に失われ、単一の畳み込み操作の固有の多様性が欠如している構造的制限がある。 そこで本研究では,カーネルサイズを増大させる代わりに,カーネルサイズを小さくしてランダムな畳み込み層を再帰的に積み重ねるプログレッシブランダム畳み込み法を提案する。 このプログレッシブアプローチは、理論受容領域の中心から画素の影響を減らし、意味の歪みを軽減するだけでなく、スタイルの多様性を徐々に増大させることでより効果的な仮想領域を作り出すことができる。 さらに、変形可能なオフセットとアフィン変換を含むランダムな畳み込みブロックに基本的ランダムな畳み込み層を構築し、どちらもランダムに初期化されるテクスチャとコントラストの多様化をサポートする。 複雑なジェネレータや逆学習がなければ、我々の単純かつ効果的な拡張戦略は、単一のドメイン一般化ベンチマークにおける最先端の手法よりも優れていることを示す。

Single domain generalization aims to train a generalizable model with only one source domain to perform well on arbitrary unseen target domains. Image augmentation based on Random Convolutions (RandConv), consisting of one convolution layer randomly initialized for each mini-batch, enables the model to learn generalizable visual representations by distorting local textures despite its simple and lightweight structure. However, RandConv has structural limitations in that the generated image easily loses semantics as the kernel size increases, and lacks the inherent diversity of a single convolution operation. To solve the problem, we propose a Progressive Random Convolution (Pro-RandConv) method that recursively stacks random convolution layers with a small kernel size instead of increasing the kernel size. This progressive approach can not only mitigate semantic distortions by reducing the influence of pixels away from the center in the theoretical receptive field, but also create more effective virtual domains by gradually increasing the style diversity. In addition, we develop a basic random convolution layer into a random convolution block including deformable offsets and affine transformation to support texture and contrast diversification, both of which are also randomly initialized. Without complex generators or adversarial learning, we demonstrate that our simple yet effective augmentation strategy outperforms state-of-the-art methods on single domain generalization benchmarks.
翻訳日:2023-04-04 18:06:46 公開日:2023-04-02
# 幾何学的制約はスパース観測確率力学の推論を改善する

Geometric constraints improve inference of sparsely observed stochastic dynamics ( http://arxiv.org/abs/2304.00423v1 )

ライセンス: Link先を確認
Dimitra Maoutsa(参考訳) 複数のスケールで進化する自由度系の力学はしばしば確率微分方程式によってモデル化される。 通常、これらの方程式の構造形式は未知であり、系の力学の現示は時間の離散点における観測のみである。 広く使われているにもかかわらず、これらのシステムを時間内スパース観測から正確に推測することは依然として困難である。 従来の推定手法では、観測の時間的構造に注目したり、システムの不変密度の幾何学を無視したり、保存的な駆動力に制限された不変密度の幾何学的近似を用いる。 これらの制約に対処するために、我々はこれらの2つの視点を調和させる新しいアプローチを導入する。 本研究では,不変系の密度分布を考慮したデータ駆動制御を用いた経路拡張方式を提案する。 拡張経路上の非パラメトリック推論は、低サンプリングレートで観測されるシステムの根底にある決定力の効率的な同定を可能にする。

The dynamics of systems of many degrees of freedom evolving on multiple scales are often modeled in terms of stochastic differential equations. Usually the structural form of these equations is unknown and the only manifestation of the system's dynamics are observations at discrete points in time. Despite their widespread use, accurately inferring these systems from sparse-in-time observations remains challenging. Conventional inference methods either focus on the temporal structure of observations, neglecting the geometry of the system's invariant density, or use geometric approximations of the invariant density, which are limited to conservative driving forces. To address these limitations, here, we introduce a novel approach that reconciles these two perspectives. We propose a path augmentation scheme that employs data-driven control to account for the geometry of the invariant system's density. Non-parametric inference on the augmented paths, enables efficient identification of the underlying deterministic forces of systems observed at low sampling rates.
翻訳日:2023-04-04 18:06:19 公開日:2023-04-02
# 量子ブラックホールスペクトルにおける離散化の信号

Signatures of discretization in quantum black hole spectra ( http://arxiv.org/abs/2304.00421v1 )

ライセンス: Link先を確認
Joshua Foo, Robert B. Mann, Magdalena Zych(参考訳) 量子重ね合わせの原理は、原子のような量子力学系を質量エネルギー固有状態の重ね合わせに配置することができることを述べる。 このアイデアと、量子重力中のブラックホールが離散質量固有スペクトルを持つ必要があるというベーケンシュタインの半自然予想に触発されて、ここではブラックホールが質量の重畳で生成する効果を分析する。 電磁場を用いて原子をプローブするのと同様に、ブラックホール質量重ね合わせによって導かれる時空背景上の量子スカラー場を考える。 結果のスペクトルから、場と相互作用する仮説的な二段階系によって測定されるように、ベケンシュタイン予想を支持するためにブラックホール質量の離散化の符号を推測する。

The quantum superposition principle states that quantum-mechanical systems such as atoms can be placed in a superposition of mass-energy eigenstates. Inspired by this idea and the seminal conjecture of Bekenstein, who proposed that black holes in quantum gravity must possess a discrete mass eigenspectrum, here we analyze the effects produced by a black hole in a superposition of masses. Analogous to using the electromagnetic field to probe atoms, we consider a quantum scalar field on the spacetime background sourced by the black hole mass superposition. From the resulting spectra, as measured by a hypothetical two-level system interacting with the field, we infer signatures of discretization of the black hole mass in support of Bekenstein's conjecture.
翻訳日:2023-04-04 18:06:05 公開日:2023-04-02
# 効率的な音声対話生成のための統一圧縮フレームワーク

A Unified Compression Framework for Efficient Speech-Driven Talking-Face Generation ( http://arxiv.org/abs/2304.00471v1 )

ライセンス: Link先を確認
Bo-Kyeong Kim, Jaemin Kang, Daeun Seo, Hancheol Park, Shinkook Choi, Hyungshin Kim, Sungsu Lim(参考訳) 仮想人間は多くの産業、例えばエンターテイメントやeコマースで注目を集めている。 中心となる技術として、ターゲット音声と顔の同一性からフォトリアリスティックな顔フレームを合成する手法が、生成的敵ネットワークで積極的に研究されている。 現代の対面生成モデルの顕著な結果にもかかわらず、それらはしばしば高い計算負担を伴い、効率的な展開を制限する。 本研究の目的は,音声対話型音声合成のための軽量モデルの開発である。 我々は,残余ブロックを除去し,一般的な音声生成装置であるWav2Lipからチャネル幅を小さくすることで,コンパクトなジェネレータを構築する。 また, 小容量発電機の安定的かつ効果的に, 逆学習を伴わない知識蒸留方式を提案する。 我々は、元のモデルの性能を維持しながら、パラメータとmacの数を28$\times$に削減する。 さらに,全ジェネレータをINT8精度に変換する際の性能低下を軽減するために,FP16を量子化に敏感な層に,INT8を他の層に,選択的な量子化手法を採用する。 この混合精度を用いて、生成品質を著しく損なうことなく、エッジGPU上で最大19$\times$スピードアップを達成する。

Virtual humans have gained considerable attention in numerous industries, e.g., entertainment and e-commerce. As a core technology, synthesizing photorealistic face frames from target speech and facial identity has been actively studied with generative adversarial networks. Despite remarkable results of modern talking-face generation models, they often entail high computational burdens, which limit their efficient deployment. This study aims to develop a lightweight model for speech-driven talking-face synthesis. We build a compact generator by removing the residual blocks and reducing the channel width from Wav2Lip, a popular talking-face generator. We also present a knowledge distillation scheme to stably yet effectively train the small-capacity generator without adversarial learning. We reduce the number of parameters and MACs by 28$\times$ while retaining the performance of the original model. Moreover, to alleviate a severe performance drop when converting the whole generator to INT8 precision, we adopt a selective quantization method that uses FP16 for the quantization-sensitive layers and INT8 for the other layers. Using this mixed precision, we achieve up to a 19$\times$ speedup on edge GPUs without noticeably compromising the generation quality.
翻訳日:2023-04-04 17:59:55 公開日:2023-04-02
# 傷ついた言葉:バイアス言語がニュース感情と株価指数に与える影響

Words that Wound: The Impact of Biased Language on News Sentiment and Stock Market Index ( http://arxiv.org/abs/2304.00468v1 )

ライセンス: Link先を確認
Wonseong Kim(参考訳) 本研究では,韓国日報45,379記事の感情分析におけるバイアス付き言語,特に「傷ついた単語」が感情分析に与える影響について検討した。 Word2Vec,コサイン類似性,拡張辞書を用いて,これらの単語がニュースタイトルの感情スコアに与える影響を分析した。 以上の結果から,偏りのある言語の導入は感情スコアの強度,特に否定性を大幅に増幅することが明らかとなった。 線形回帰と感情分析を用いたKOSPI200指数に対するニュースタイトルの否定性向上の効果について検討した。 以上の結果から,「クライシス」と類似度の高い上位1000語を含む強化感情辞書(Sent1000)は,従来のKNU感情辞書(Sent0)よりも,株価指数に対するニュース感情の影響を効果的に捉えることが示唆された。 ARDLモデルとImpulse Response Function (IRF)分析により、Sent1000はSent0と比較してKOSPI200に強く永続的な影響があることが明らかになった。 これらの発見は、市場のダイナミクスと投資家の感情を形作ることにおける言語の役割を理解することの重要性を強調している。 本研究は、ニュースコンテンツの分析における文脈や言語的ニュアンスの検討の必要性と、世論や市場動態に与える影響を強調した。

This study investigates the impact of biased language, specifically 'Words that Wound,' on sentiment analysis in a dataset of 45,379 South Korean daily economic news articles. Using Word2Vec, cosine similarity, and an expanded lexicon, we analyzed the influence of these words on news titles' sentiment scores. Our findings reveal that incorporating biased language significantly amplifies sentiment scores' intensity, particularly negativity. The research examines the effect of heightened negativity in news titles on the KOSPI200 index using linear regression and sentiment analysis. Results indicate that the augmented sentiment lexicon (Sent1000), which includes the top 1,000 negative words with high cosine similarity to 'Crisis,' more effectively captures the impact of news sentiment on the stock market index than the original KNU sentiment lexicon (Sent0). The ARDL model and Impulse Response Function (IRF) analyses disclose that Sent1000 has a stronger and more persistent impact on KOSPI200 compared to Sent0. These findings emphasize the importance of understanding language's role in shaping market dynamics and investor sentiment, particularly the impact of negatively biased language on stock market indices. The study highlights the need for considering context and linguistic nuances when analyzing news content and its potential effects on public opinion and market dynamics.
翻訳日:2023-04-04 17:59:35 公開日:2023-04-02
# 信頼度の高いポースグラフ初期化と履歴再重み付けによるロバストマルチビューポイントクラウド登録

Robust Multiview Point Cloud Registration with Reliable Pose Graph Initialization and History Reweighting ( http://arxiv.org/abs/2304.00467v1 )

ライセンス: Link先を確認
Haiping Wang, Yuan Liu, Zhen Dong, Yulan Guo, Yu-Shen Liu, Wenping Wang, Bisheng Yang(参考訳) 本稿では,ポイントクラウドのマルチビュー登録のための新しい手法を提案する。 従来のマルチビュー登録手法では,ペアワイズ登録を徹底的に行うことで,密結合されたポーズグラフを構築し,反復再重み付けされた最小2乗(irls)をポーズグラフに適用してスキャンポーズを計算する。 しかし、密結合グラフの構築には時間がかかり、多くの外縁を含むため、その後のIRLSは正しいポーズを見つけるのに苦労する。 上記の問題に対処するために、まずニューラルネットワークを用いてスキャンペア間の重なり合いを推定し、スパースで信頼性の高いポーズグラフを構築することを提案する。 そこで、IRLSスキームにおける新しい履歴再重み付け関数を設計し、グラフ上の外縁に強い強靭性を持つ。 既存のマルチビュー登録法と比較して,3DMatchデータセットでは11%高い登録リコールを実現し,ScanNetデータセットでは13%低い登録誤差を達成し,70%のペア登録を削減した。 本設計の有効性を実証するため,包括的アブレーション研究を行った。

In this paper, we present a new method for the multiview registration of point cloud. Previous multiview registration methods rely on exhaustive pairwise registration to construct a densely-connected pose graph and apply Iteratively Reweighted Least Square (IRLS) on the pose graph to compute the scan poses. However, constructing a densely-connected graph is time-consuming and contains lots of outlier edges, which makes the subsequent IRLS struggle to find correct poses. To address the above problems, we first propose to use a neural network to estimate the overlap between scan pairs, which enables us to construct a sparse but reliable pose graph. Then, we design a novel history reweighting function in the IRLS scheme, which has strong robustness to outlier edges on the graph. In comparison with existing multiview registration methods, our method achieves 11% higher registration recall on the 3DMatch dataset and ~13% lower registration errors on the ScanNet dataset while reducing ~70% required pairwise registrations. Comprehensive ablation studies are conducted to demonstrate the effectiveness of our designs.
翻訳日:2023-04-04 17:59:10 公開日:2023-04-02
# 医用画像分割のための多元アノテーションからの学習合意

Learning Agreement from Multi-source Annotations for Medical Image Segmentation ( http://arxiv.org/abs/2304.00466v1 )

ライセンス: Link先を確認
Yifeng Wang, Luyang Luo, Mingxiang Wu, Qiong Wang and Hao Chen(参考訳) 医用画像解析では、個々のアノテーション嗜好に起因するバイアスを軽減するために、複数の独立したアノテーションを基礎的真実としてマージすることが典型的である。 しかし、最終アノテーションの仲裁は、特にアノテーションに大きなバリエーションがある場合、プロセス中に新しいバイアスが発生する可能性があるため、必ずしも効果的ではない。 本稿では,複数のアノテーションから医用画像のセグメンテーションを直接学習する新しいuncertainty-guided Multi-source Annotation Network (UMA-Net)を提案する。 UMA-Netは、2つの品質固有の予測器を持つUNetと、アノテーション不確実性推定モジュール(AUEM)と品質評価モジュール(QAM)から構成されている。 具体的には、AUEMは各アノテーションの画素単位の不確実性マップを推定し、信頼できるピクセル/ボクセルに関する合意に達するよう促す。 不確実性マップは、セグメント化損失の重み付けにより、UNetに信頼できるピクセル/ボクセルから学ぶように誘導する。 QAMは評価スコアに基づいて不確実性マップを高品質または低品質のグループに格付けする。 unetはさらに、高品質学習ヘッド(hヘッド)と低品質学習ヘッド(lヘッド)を含むように実装されている。 h-headはエラーの蓄積を避けるために純粋に高品質の不確実性マップを学習し、強力な予測能力を保持する。 Hヘッド付きUNetは推論段階で予約され、残りのモジュールは計算効率のために自由に除去できる。 教師なし3次元セグメンテーションタスクと教師なし2次元セグメンテーションタスクについて広範な実験を行った。 その結果,提案するUMA-Netは最先端のアプローチよりも優れ,その汎用性と有効性を示している。

In medical image analysis, it is typical to merge multiple independent annotations as ground truth to mitigate the bias caused by individual annotation preference. However, arbitrating the final annotation is not always effective because new biases might be produced during the process, especially when there are significant variations among annotations. This paper proposes a novel Uncertainty-guided Multi-source Annotation Network (UMA-Net) to learn medical image segmentation directly from multiple annotations. UMA-Net consists of a UNet with two quality-specific predictors, an Annotation Uncertainty Estimation Module (AUEM) and a Quality Assessment Module (QAM). Specifically, AUEM estimates pixel-wise uncertainty maps of each annotation and encourages them to reach an agreement on reliable pixels/voxels. The uncertainty maps then guide the UNet to learn from the reliable pixels/voxels by weighting the segmentation loss. QAM grades the uncertainty maps into high-quality or low-quality groups based on assessment scores. The UNet is further implemented to contain a high-quality learning head (H-head) and a low-quality learning head (L-head). H-head purely learns with high-quality uncertainty maps to avoid error accumulation and keeps strong prediction ability, while L-head leverages the low-quality uncertainty maps to assist the backbone to learn maximum representation knowledge. UNet with H-head will be reserved during the inference stage, and the rest of the modules can be removed freely for computational efficiency. We conduct extensive experiments on an unsupervised 3D segmentation task and a supervised 2D segmentation task, respectively. The results show that our proposed UMA-Net outperforms state-of-the-art approaches, demonstrating its generality and effectiveness.
翻訳日:2023-04-04 17:58:51 公開日:2023-04-02
# UniDexGrasp++:幾何認識カリキュラムと反復的ジェネリスト-スペシャリスト学習によるデクサラスグラフピングポリシー学習の改善

UniDexGrasp++: Improving Dexterous Grasping Policy Learning via Geometry-aware Curriculum and Iterative Generalist-Specialist Learning ( http://arxiv.org/abs/2304.00464v1 )

ライセンス: Link先を確認
Weikang Wan, Haoran Geng, Yun Liu, Zikang Shan, Yaodong Yang, Li Yi, He Wang(参考訳) 現実的な雲の観測や、テーブルトップ設定(UniDexGrasp++)下でのプロプリセプティブ情報を把握し、デキスタスオブジェクトの普遍的なポリシーを学習するための新しいオブジェクト指向手法を提案する。 数千のオブジェクトインスタンスにまたがって視覚ベースのポリシーを学習する課題を解決するために,タスクの幾何学的特徴を活用し,一般化性を大幅に向上する幾何学的学習(GeoCurriculum)と幾何学的認識的反復的一般性学習(GiGSL)を提案する。 提案手法を用いた最終方針では,列車セットの85.4%,試験セットの78.2%で数千件のオブジェクトインスタンスを普遍的に把握し,現状のUniDexGraspを11.7%,テストセットを11.3%上回った。

We propose a novel, object-agnostic method for learning a universal policy for dexterous object grasping from realistic point cloud observations and proprioceptive information under a table-top setting, namely UniDexGrasp++. To address the challenge of learning the vision-based policy across thousands of object instances, we propose Geometry-aware Curriculum Learning (GeoCurriculum) and Geometry-aware iterative Generalist-Specialist Learning (GiGSL) which leverage the geometry feature of the task and significantly improve the generalizability. With our proposed techniques, our final policy shows universal dexterous grasping on thousands of object instances with 85.4% and 78.2% success rate on the train set and test set which outperforms the state-of-the-art baseline UniDexGrasp by 11.7% and 11.3%, respectively.
翻訳日:2023-04-04 17:58:20 公開日:2023-04-02
# 過パラメータ化下におけるランダムリシャッフルの高速収束とポリアック・オジャシエヴィチ条件

Fast Convergence of Random Reshuffling under Over-Parameterization and the Polyak-\L ojasiewicz Condition ( http://arxiv.org/abs/2304.00459v1 )

ライセンス: Link先を確認
Chen Fan, Christos Thrampoulidis, Mark Schmidt(参考訳) 現代の機械学習モデルは、しばしば過パラメータ化され、結果としてトレーニングデータを補間することができる。 このような場合,確率勾配降下 (sgd) のサンプリング・アウト・リプレースメント変種であるランダム・リシャフリング (rr) の収束特性について検討する。 イテレーション毎にデータを置換してサンプリングするsgdとは異なり、rrは各エポックの開始時にデータのランダムな順列を選択し、各イテレーションは順列から次のサンプルを選択する。 パラメータ以下のモデルでは、RRは特定の仮定の下でSGDよりも高速に収束することが示されている。 しかし、以前の研究では、rr が過度にパラメータ化された環境で sgd を上回ることは示されていない。 Polyak-\L ojasiewicz (PL) 関数のクラスについて、以下のいずれかが成り立つとき、RR は過パラメータ設定で SGD より優れていることを示す。 一 サンプル(n$)の数は、条件番号(\kappa$)の製品及び弱成長条件(WGC)のパラメータ(\alpha$)の製品より少ない。 (ii)$n$は、強成長条件(sgc)のパラメータ($\rho$)よりも少ない。

Modern machine learning models are often over-parameterized and as a result they can interpolate the training data. Under such a scenario, we study the convergence properties of a sampling-without-replacement variant of stochastic gradient descent (SGD) known as random reshuffling (RR). Unlike SGD that samples data with replacement at every iteration, RR chooses a random permutation of data at the beginning of each epoch and each iteration chooses the next sample from the permutation. For under-parameterized models, it has been shown RR can converge faster than SGD under certain assumptions. However, previous works do not show that RR outperforms SGD in over-parameterized settings except in some highly-restrictive scenarios. For the class of Polyak-\L ojasiewicz (PL) functions, we show that RR can outperform SGD in over-parameterized settings when either one of the following holds: (i) the number of samples ($n$) is less than the product of the condition number ($\kappa$) and the parameter ($\alpha$) of a weak growth condition (WGC), or (ii) $n$ is less than the parameter ($\rho$) of a strong growth condition (SGC).
翻訳日:2023-04-04 17:58:01 公開日:2023-04-02
# LLMMaps - 大規模言語モデルの階層評価のためのビジュアルメタファー

LLMMaps -- A Visual Metaphor for Stratified Evaluation of Large Language Models ( http://arxiv.org/abs/2304.00457v1 )

ライセンス: Link先を確認
Patrik Puchert, Poonam Poonam, Christian van Onzenoodt, Timo Ropinski(参考訳) 大規模言語モデル(LLM)は自然言語処理に革命をもたらし、様々なタスクにおいて印象的な能力を示した。 残念なことに、彼らは幻覚を起こす傾向があり、そこではモデルがその応答で誤った情報や偽の情報を公開する。 特定の知識分野におけるllmのパフォーマンスは、q&a(q&a)データセットに基づいて評価されることが多いが、そのような評価は通常、フィールド全体に対する単一の精度番号のみを報告し、透明性とモデル改善に関して問題となる手順である。 階層化された評価は、幻覚がより起こりやすいサブフィールドを明らかにし、LSMのリスクをよりよく評価し、さらなる発展を導くのに役立つ。 このような階層化評価を支援するため,ユーザによるQ&Aデータセットに対するLLMの性能評価を可能にする新しい可視化手法としてLLMMapsを提案する。 LLMMapsは、Q&AデータセットとLLM応答を内部知識構造に変換することで、異なるサブフィールドにおけるLLMの知識能力に関する詳細な洞察を提供する。 さらに、比較視覚化の拡張により、複数のLLMの詳細な比較が可能になる。 LLMマップの評価にはBLOOM, GPT-2, GPT-3, ChatGPT, LLaMa-13B, および2つの定性的ユーザ評価など, 最先端のLLMの比較分析を行う。 LLMMapsを生成するために必要なソースコードとデータは、科学出版などで使用される。

Large Language Models (LLMs) have revolutionized natural language processing and demonstrated impressive capabilities in various tasks. Unfortunately, they are prone to hallucinations, where the model exposes incorrect or false information in its responses, which renders diligent evaluation approaches mandatory. While LLM performance in specific knowledge fields is often evaluated based on question and answer (Q&A) datasets, such evaluations usually report only a single accuracy number for the entire field, a procedure which is problematic with respect to transparency and model improvement. A stratified evaluation could instead reveal subfields, where hallucinations are more likely to occur and thus help to better assess LLMs' risks and guide their further development. To support such stratified evaluations, we propose LLMMaps as a novel visualization technique that enables users to evaluate LLMs' performance with respect to Q&A datasets. LLMMaps provide detailed insights into LLMs' knowledge capabilities in different subfields, by transforming Q&A datasets as well as LLM responses into our internal knowledge structure. An extension for comparative visualization furthermore, allows for the detailed comparison of multiple LLMs. To assess LLMMaps we use them to conduct a comparative analysis of several state-of-the-art LLMs, such as BLOOM, GPT-2, GPT-3, ChatGPT and LLaMa-13B, as well as two qualitative user evaluations. All necessary source code and data for generating LLMMaps to be used in scientific publications and elsewhere will be available on GitHub.
翻訳日:2023-04-04 17:57:39 公開日:2023-04-02
# Re-IQA: 野生の画像品質評価のための教師なし学習

Re-IQA: Unsupervised Learning for Image Quality Assessment in the Wild ( http://arxiv.org/abs/2304.00451v1 )

ライセンス: Link先を確認
Avinab Saha, Sandeep Mishra, Alan C. Bovik(参考訳) 自動知覚画像品質評価は、何十億ものインターネットとソーシャルメディアユーザーに影響を与える難しい問題である。 そこで本研究では, 2つの異なるエンコーダを訓練し, 教師なし設定で高レベルコンテンツと低レベル画像品質特徴を学習する, 専門家の混合手法を提案する。 このアプローチのユニークな特徴は、画像コンテンツを表すハイレベルな特徴を補完する低レベルの画像品質表現を生成する能力である。 2つのエンコーダをトレーニングするフレームワークをRe-IQAと呼ぶ。 野生の画質評価のために、re-iqaフレームワークから得られた補完的な低レベルおよび高レベル画像表現をデプロイして、画像表現を地上の真理品質スコアにマッピングするために使用される線形回帰モデルをトレーニングします。 提案手法は,複数の大規模画像品質評価データベースにおいて,実歪みと合成歪みの両方を含む最先端のニューラルネットワークを教師なし環境でトレーニングし,知覚に関連のある表現を生成する方法を示す。 得られた低レベル・高レベルの特徴は相補的であり,線形回帰器の性能に肯定的な影響を及ぼす。 この作業に関連するすべてのコードのパブリックリリースは、githubで公開されている。

Automatic Perceptual Image Quality Assessment is a challenging problem that impacts billions of internet, and social media users daily. To advance research in this field, we propose a Mixture of Experts approach to train two separate encoders to learn high-level content and low-level image quality features in an unsupervised setting. The unique novelty of our approach is its ability to generate low-level representations of image quality that are complementary to high-level features representing image content. We refer to the framework used to train the two encoders as Re-IQA. For Image Quality Assessment in the Wild, we deploy the complementary low and high-level image representations obtained from the Re-IQA framework to train a linear regression model, which is used to map the image representations to the ground truth quality scores, refer Figure 1. Our method achieves state-of-the-art performance on multiple large-scale image quality assessment databases containing both real and synthetic distortions, demonstrating how deep neural networks can be trained in an unsupervised setting to produce perceptually relevant representations. We conclude from our experiments that the low and high-level features obtained are indeed complementary and positively impact the performance of the linear regressor. A public release of all the codes associated with this work will be made available on GitHub.
翻訳日:2023-04-04 17:57:12 公開日:2023-04-02
# スケッチに基づく映像オブジェクトの定位

Sketch-based Video Object Localization ( http://arxiv.org/abs/2304.00450v1 )

ライセンス: Link先を確認
Sangmin Woo, So-Yeong Jeon, Jinyoung Park, Minji Son, Sumin Lee, Changick Kim(参考訳) 入力スケッチで検索した映像に時空間オブジェクトボックスをローカライズすることを目的とした新しいタスクであるsketch-based video object localization (svol)を提案する。 まず、SVOLタスクの課題の概要を説明し、以下の設計原則でSketch-Video Attention Network(SVANet)を構築します。 (i)映像の時間的情報を考慮して,スケッチと映像のドメイン間ギャップを埋めること。 (ii)複数のオブジェクトを同時に正確に識別し、ローカライズすること (iii)様々な様式のスケッチを扱うこと。 (4)非分類である。 特に、SVANetは、学習可能なオブジェクトトークン、クエリスケッチ、アテンション操作によるビデオ間のインタラクションをモデル化するクロスモーダルトランスフォーマーを備えており、グローバルなビデオコンテキストを利用しながらフレーム単位の予測を可能にするフレーム単位のマクロ化戦略を学習する。 新たにキュレートされたSVOLデータセット上でSVANetを評価する。 SVANetは、クエリスケッチとビデオオブジェクトのマッピングをうまく学習し、SVOLベンチマークで最先端の結果を得る。 さらに、広範囲なアブレーション研究と可視化を通してSVANetの有効性を確認する。 最後に,未知のデータセットと新たなカテゴリに対してゼロショット機能を実証し,実世界のアプリケーションで高いスケーラビリティを示唆する。

We introduce Sketch-based Video Object Localization (SVOL), a new task aimed at localizing spatio-temporal object boxes in video queried by the input sketch. We first outline the challenges in the SVOL task and build the Sketch-Video Attention Network (SVANet) with the following design principles: (i) to consider temporal information of video and bridge the domain gap between sketch and video; (ii) to accurately identify and localize multiple objects simultaneously; (iii) to handle various styles of sketches; (iv) to be classification-free. In particular, SVANet is equipped with a Cross-modal Transformer that models the interaction between learnable object tokens, query sketch, and video through attention operations, and learns upon a per-frame set macthing strategy that enables frame-wise prediction while utilizing global video context. We evaluate SVANet on a newly curated SVOL dataset. By design, SVANet successfully learns the mapping between the query sketch and video objects, achieving state-of-the-art results on the SVOL benchmark. We further confirm the effectiveness of SVANet via extensive ablation studies and visualizations. Lastly, we demonstrate its zero-shot capability on unseen datasets and novel categories, suggesting its high scalability in real-world applications.
翻訳日:2023-04-04 17:56:49 公開日:2023-04-02
# MU-MIMO干渉ネットワークにおけるビームフォーミングのためのディープグラフ展開

Deep Graph Unfolding for Beamforming in MU-MIMO Interference Networks ( http://arxiv.org/abs/2304.00446v1 )

ライセンス: Link先を確認
Arindam Chowdhury, Gunjan Verma, Ananthram Swami, and Santiago Segarra(参考訳) マルチユーザマルチインプット出力シングルホップ無線アドホック干渉ネットワークにおけるビームフォーミングの効率良くほぼ最適な解法を開発した。 この問題に対する古典的アプローチである重み付き最小平均二乗誤差(WMMSE)法,およびアルゴリズムの展開原理に着想を得て,MU-MIMOのための展開WMMSE(UWMMSE)を提案する。 本手法は,無線ネットワークのチャネルと干渉成分が基礎となるグラフを構成するグラフニューラルネットワーク(GNN)を用いて,キーWMMSEパラメータのパラメータ化機能変換を学習する。 これらのGNNは、ビームフォーミング問題の複数のインスタンスを用いて、ネットワークユーティリティメトリックの勾配降下によって訓練される。 包括的実験分析は、性能、一般化性、堅牢性の観点から、古典的wmmseおよび最先端学習ベース手法よりもuwmmseが優れていることを示す。

We develop an efficient and near-optimal solution for beamforming in multi-user multiple-input-multiple-output single-hop wireless ad-hoc interference networks. Inspired by the weighted minimum mean squared error (WMMSE) method, a classical approach to solving this problem, and the principle of algorithm unfolding, we present unfolded WMMSE (UWMMSE) for MU-MIMO. This method learns a parameterized functional transformation of key WMMSE parameters using graph neural networks (GNNs), where the channel and interference components of a wireless network constitute the underlying graph. These GNNs are trained through gradient descent on a network utility metric using multiple instances of the beamforming problem. Comprehensive experimental analyses illustrate the superiority of UWMMSE over the classical WMMSE and state-of-the-art learning-based methods in terms of performance, generalizability, and robustness.
翻訳日:2023-04-04 17:56:29 公開日:2023-04-02
# ひずみ・電界の影響を受けやすい二次元材料中の平面欠陥スピンセンサ

A planar defect spin sensor in a two-dimensional material susceptible to strain and electric fields ( http://arxiv.org/abs/2304.00492v1 )

ライセンス: Link先を確認
P. Udvarhelyi, T. Clua-Provost, A. Durand, J. Li, J. H. Edgar, B. Gil, G. Cassabois, V. Jacques, and A. Gali(参考訳) 六方晶窒化ホウ素(hBN)のホウ素空孔スピン欠陥(\text{V}_\text{B}^{-}$)は、2次元材料において量子センサーとして大きなポテンシャルを持ち、原子スケールの原子センサー層に近接して様々な外部摂動を直接プローブすることができる。 ここでは、ひずみおよび電場に対する$\text{V}_\text{B}^{-}$電子スピンのカップリングを決定するために第一原理計算を適用する。 本研究は, 電界に対する最終応答に寄与する局所圧電効果と弾性効果の相互作用を解明する。 理論的予測は、$\text{V}_\text{B}^{-}$ Centersの異なる密度のhBN結晶上に記録された光学的に検出された磁気共鳴(ODMR)スペクトルを分析するために用いられる。 正方形零場分割パラメータは周辺電荷欠陥によって生じる局所電界から得られることを証明した。 スピン-ひずみとスピン-電場結合の計算を提供することにより、この研究は、圧力下での定量的電場イメージングと量子センシングのための$\text{V}_\text{B}^{-}$ Centersの応用への道を開く。

The boron-vacancy spin defect ($\text{V}_\text{B}^{-}$) in hexagonal boron nitride (hBN) has a great potential as a quantum sensor in a two-dimensional material that can directly probe various external perturbations in atomic-scale proximity to the quantum sensing layer. Here, we apply first principles calculations to determine the coupling of the $\text{V}_\text{B}^{-}$ electronic spin to strain and electric fields. Our work unravels the interplay between local piezoelectric and elastic effects contributing to the final response to the electric fields. The theoretical predictions are then used to analyse optically detected magnetic resonance (ODMR) spectra recorded on hBN crystals containing different densities of $\text{V}_\text{B}^{-}$ centres. We prove that the orthorhombic zero-field splitting parameter results from local electric fields produced by surrounding charge defects. By providing calculations of the spin-strain and spin-electric field couplings, this work paves the way towards applications of $\text{V}_\text{B}^{-}$ centres for quantitative electric field imaging and quantum sensing under pressure.
翻訳日:2023-04-04 17:50:25 公開日:2023-04-02
# 無限次元貯水池計算

Infinite-dimensional reservoir computing ( http://arxiv.org/abs/2304.00490v1 )

ライセンス: Link先を確認
Lukas Gonon, Lyudmila Grigoryeva, Juan-Pablo Ortega(参考訳) 一般バロン関数を動的コンテキストに拡張した入力/出力システムの新しい概念クラスに対して、貯留層計算近似と一般化境界が証明される。 この新しいクラスは、無限次元状態空間系上に構築されたある積分表現を持つ読み出しによって特徴づけられる。 このクラスは非常にリッチであり、有用な特徴と普遍近似特性を持っていることが示されている。 新しいクラスの要素の近似と推定に使われるリザーバアーキテクチャは、線形またはreluアクティベーション関数を持つランダムに生成されたエコー状態ネットワークである。 これらの読み出しは、出力層のみをトレーニングするランダム生成ニューラルネットワーク(極端に学習マシンまたはランダム特徴ニューラルネットワーク)を使用して構築される。 本研究の結果は,次元性の呪いに苦しむことのない収束性を保証する,完全に実装可能なニューラルネットワークに基づく学習アルゴリズムである。

Reservoir computing approximation and generalization bounds are proved for a new concept class of input/output systems that extends the so-called generalized Barron functionals to a dynamic context. This new class is characterized by the readouts with a certain integral representation built on infinite-dimensional state-space systems. It is shown that this class is very rich and possesses useful features and universal approximation properties. The reservoir architectures used for the approximation and estimation of elements in the new class are randomly generated echo state networks with either linear or ReLU activation functions. Their readouts are built using randomly generated neural networks in which only the output layer is trained (extreme learning machines or random feature neural networks). The results in the paper yield a fully implementable recurrent neural network-based learning algorithm with provable convergence guarantees that do not suffer from the curse of dimensionality.
翻訳日:2023-04-04 17:50:01 公開日:2023-04-02
# 対角線ネットワークにおけるサドルからサドルへのダイナミクス

Saddle-to-Saddle Dynamics in Diagonal Linear Networks ( http://arxiv.org/abs/2304.00488v1 )

ライセンス: Link先を確認
Scott Pesme and Nicolas Flammarion(参考訳) 本稿では,消失初期化の限界における対角線形ネットワーク上の勾配流れの軌跡を十分に記述する。 制限フローはトレーニング損失のサドルから、最低$\ell_1$-norm 解に到達するまで連続的に変化する。 このsaddle-to-saddleダイナミクスは、各saddleが座標がゼロでなければならないアクティブな集合に制約された損失のミニミザーに対応するため、インクリメンタルな学習プロセスに変換される。 我々は,ラッソ経路の計算に用いるホモトピーアルゴリズムを想起させる再帰的アルゴリズムを用いて,訪問したサドルとジャンプ時間を明確に特徴付ける。 この証明は、ジャンプ間のヘテロクリニックな遷移を追跡できる、便利な弧長のタイムリパラメトリレーションを利用する。 我々の分析では、データに対する無視可能な仮定が必要であり、下層および過度なパラメータ設定にも適用され、アクティブ座標数の単調性がない複雑なケースをカバーする。 我々は発見を支援するために数値実験を行う。

In this paper we fully describe the trajectory of gradient flow over diagonal linear networks in the limit of vanishing initialisation. We show that the limiting flow successively jumps from a saddle of the training loss to another until reaching the minimum $\ell_1$-norm solution. This saddle-to-saddle dynamics translates to an incremental learning process as each saddle corresponds to the minimiser of the loss constrained to an active set outside of which the coordinates must be zero. We explicitly characterise the visited saddles as well as the jumping times through a recursive algorithm reminiscent of the Homotopy algorithm used for computing the Lasso path. Our proof leverages a convenient arc-length time-reparametrisation which enables to keep track of the heteroclinic transitions between the jumps. Our analysis requires negligible assumptions on the data, applies to both under and overparametrised settings and covers complex cases where there is no monotonicity of the number of active coordinates. We provide numerical experiments to support our findings.
翻訳日:2023-04-04 17:49:50 公開日:2023-04-02
# 胸部x線読影における偽物の影響

The Effect of Counterfactuals on Reading Chest X-rays ( http://arxiv.org/abs/2304.00487v1 )

ライセンス: Link先を確認
Joseph Paul Cohen, Rupert Brooks, Sovann En, Evan Zucker, Anuj Pareek, Matthew Lungren, Akshay Chaudhari(参考訳) 本研究は胸部x線解釈における偽説明の影響について検討する。 胸部X線予測を240回評価した2人の放射線学者を対象に, モデルが5点スケールで正しいという信頼度を評価する。 予測の半分は偽陽性である。 各予測は2回説明され、1回は従来の帰属法、もう1回は反実的説明で説明される。 全体的な結果は、偽陽性の予測がわずかに増加する(p=0.57の0.04$\pm$1.06)だけで、放射線科医は従来のアプローチ(p=0.01の0.15$\pm$0.95)よりも真正の予測に自信を持つことができることを示している。 マスとアトクタシスの特定の予測タスクは、他のタスクと比較して最も有益であるように思われる。

This study evaluates the effect of counterfactual explanations on the interpretation of chest X-rays. We conduct a reader study with two radiologists assessing 240 chest X-ray predictions to rate their confidence that the model's prediction is correct using a 5 point scale. Half of the predictions are false positives. Each prediction is explained twice, once using traditional attribution methods and once with a counterfactual explanation. The overall results indicate that counterfactual explanations allow a radiologist to have more confidence in true positive predictions compared to traditional approaches (0.15$\pm$0.95 with p=0.01) with only a small increase in false positive predictions (0.04$\pm$1.06 with p=0.57). We observe the specific prediction tasks of Mass and Atelectasis appear to benefit the most compared to other tasks.
翻訳日:2023-04-04 17:49:36 公開日:2023-04-02
# グループ化による学習: 精度を損なうことなく分類の公平性を改善する多段階最適化フレームワーク

Learning by Grouping: A Multilevel Optimization Framework for Improving Fairness in Classification without Losing Accuracy ( http://arxiv.org/abs/2304.00486v1 )

ライセンス: Link先を確認
Ramtin Hosseini, Li Zhang, Bhanu Garg, Pengtao Xie(参考訳) 機械学習モデルの様々な実世界のアプリケーションへの統合は、この分野での最近の進歩の結果、人間の日常的な意思決定タスクを支援することが一般的になりつつある。 しかし、これらの意思決定タスクの正確性と公平性にはトレードオフがあることが判明した。 場合によっては、これらのAIシステムは特定の社会集団に対する偏見や差別を示すことによって不公平になり、現実の生活において深刻な結果をもたらす可能性がある。 グループ化(grouping)と呼ばれる、最もよく知られた人間の学習スキルの1つに触発されて、mlモデルがさまざまな問題の集合を個別のサブグループにグループ化し、それぞれのサブグループを特定のサブモデルで解決する新しい機械学習フレームワークを提案することで、この問題に対処します。 提案するフレームワークは,3段階の最適化問題として定式化された3段階の学習を含む。 (i)問題を異なるサブグループにグループ化する学習 (ii)問題解決のための学習グループ固有のサブモデル (iii)検証損失の最小化によるトレーニング例のグループ割り当ての更新。 これら3つの学習段階は勾配降下を用いてエンドツーエンドで共同で行われる。 公平性と精度を向上させるため,この3段階最適化問題を解くための最適化アルゴリズムを開発した。 小規模データセットのオーバーフィットリスクをさらに低減するため,第2段階のトレーニングにドメイン適応技術を導入する。 さらに,本手法をニューラルネットワーク探索に適用する。 各種データセットに対する大規模な実験により,本手法の有効性と精度の向上が示された。 提案するLearning by Groupingは,人間設計のネットワークアーキテクチャや,さまざまなデータセット上で検索可能なネットワークアーキテクチャを用いて,オーバーフィットを低減し,最先端のパフォーマンスを実現する。

The integration of machine learning models in various real-world applications is becoming more prevalent to assist humans in their daily decision-making tasks as a result of recent advancements in this field. However, it has been discovered that there is a tradeoff between the accuracy and fairness of these decision-making tasks. In some cases, these AI systems can be unfair by exhibiting bias or discrimination against certain social groups, which can have severe consequences in real life. Inspired by one of the most well-known human learning skills called grouping, we address this issue by proposing a novel machine learning framework where the ML model learns to group a diverse set of problems into distinct subgroups to solve each subgroup using its specific sub-model. Our proposed framework involves three stages of learning, which are formulated as a three-level optimization problem: (i) learning to group problems into different subgroups; (ii) learning group-specific sub-models for problem-solving; and (iii) updating group assignments of training examples by minimizing the validation loss. These three learning stages are performed end-to-end in a joint manner using gradient descent. To improve fairness and accuracy, we develop an efficient optimization algorithm to solve this three-level optimization problem. To further reduce the risk of overfitting in small datasets, we incorporate domain adaptation techniques in the second stage of training. We further apply our method to neural architecture search. Extensive experiments on various datasets demonstrate our method's effectiveness and performance improvements in both fairness and accuracy. Our proposed Learning by Grouping can reduce overfitting and achieve state-of-the-art performances with fixed human-designed network architectures and searchable network architectures on various datasets.
翻訳日:2023-04-04 17:49:23 公開日:2023-04-02
# サイバーセキュリティのためのグラフマイニング:調査

Graph Mining for Cybersecurity: A Survey ( http://arxiv.org/abs/2304.00485v1 )

ライセンス: Link先を確認
Bo Yan, Cheng Yang, Chuan Shi, Yong Fang, Qi Li, Yanfang Ye, Junping Du(参考訳) マルウェア、スパム、侵入といったサイバー攻撃の爆発的な成長は、社会に深刻な影響をもたらした。 サイバースペースの確保は、組織や政府にとって最大の関心事となっている。 従来の機械学習(ML)ベースの手法は、サイバー脅威の検出に広く用いられているが、現実のサイバーエンティティ間の相関をモデル化することはほとんどない。 近年, グラフマイニング技術の普及に伴い, サイバーエンティティ間の相関を捉え, 高い性能を達成するための手法が研究されている。 今後の研究のガイドを提供するため、既存のグラフベースのサイバーセキュリティソリューションを要約することが不可欠である。 そこで,本稿の重要な貢献として,サイバーセキュリティタスクの概要,一般的なグラフマイニング技術,サイバーセキュリティに適用する一般的なプロセス,さまざまなサイバーセキュリティタスクに対するさまざまなソリューションなど,サイバーセキュリティのためのグラフマイニングの包括的なレビューを行う。 各タスクに対して、関連するメソッドを調査し、モデリングにおけるグラフタイプ、グラフアプローチ、タスクレベルを強調します。 さらに,グラフベースのサイバーセキュリティのためのオープンデータセットとツールキットを収集する。 最後に,この分野の今後の方向性について考察する。

The explosive growth of cyber attacks nowadays, such as malware, spam, and intrusions, caused severe consequences on society. Securing cyberspace has become an utmost concern for organizations and governments. Traditional Machine Learning (ML) based methods are extensively used in detecting cyber threats, but they hardly model the correlations between real-world cyber entities. In recent years, with the proliferation of graph mining techniques, many researchers investigated these techniques for capturing correlations between cyber entities and achieving high performance. It is imperative to summarize existing graph-based cybersecurity solutions to provide a guide for future studies. Therefore, as a key contribution of this paper, we provide a comprehensive review of graph mining for cybersecurity, including an overview of cybersecurity tasks, the typical graph mining techniques, and the general process of applying them to cybersecurity, as well as various solutions for different cybersecurity tasks. For each task, we probe into relevant methods and highlight the graph types, graph approaches, and task levels in their modeling. Furthermore, we collect open datasets and toolkits for graph-based cybersecurity. Finally, we outlook the potential directions of this field for future research.
翻訳日:2023-04-04 17:48:55 公開日:2023-04-02
# ドメイン固有機械読解データセット改善のためのデータ中心フレームワーク

A Data-centric Framework for Improving Domain-specific Machine Reading Comprehension Datasets ( http://arxiv.org/abs/2304.00483v1 )

ライセンス: Link先を確認
Iva Bojic, Josef Halim, Verena Suharman, Sreeja Tar, Qi Chwen Ong, Duy Phung, Mathieu Ravaut, Shafiq Joty, Josip Car(参考訳) 低品質のデータは、高スループットアプリケーションで下流の問題を引き起こす可能性がある。 データ中心のアプローチでは、データセットの品質向上とモデルパフォーマンスの向上が重視される。 汎用の大規模言語モデル(llm)トレーニングやドメイン固有のモデルには、高品質なデータセットが必要です。 したがって、高品質なドメイン固有のトレーニングデータを確保することが不可欠である。 本稿では,オリジナルデータセットのデータ品質向上のためのフレームワークを提案する。 提案手法を4つのバイオメディカルデータセットに適用し,BioASQデータセット上での検索/読み出しモデルの微調整において,元のデータセット品質を向上させるためにバック翻訳を用いた場合,最大33%/40%の改善を示した。

Low-quality data can cause downstream problems in high-stakes applications. Data-centric approach emphasizes on improving dataset quality to enhance model performance. High-quality datasets are needed for general-purpose Large Language Models (LLMs) training, as well as for domain-specific models, which are usually small in size as it is costly to engage a large number of domain experts for their creation. Thus, it is vital to ensure high-quality domain-specific training data. In this paper, we propose a framework for enhancing the data quality of original datasets. We applied the proposed framework to four biomedical datasets and showed relative improvement of up to 33%/40% for fine-tuning of retrieval/reader models on the BioASQ dataset when using back translation to enhance the original dataset quality.
翻訳日:2023-04-04 17:48:38 公開日:2023-04-02
# LLMを利用した自動データ探索システムInsightPilotの実証

Demonstration of InsightPilot: An LLM-Empowered Automated Data Exploration System ( http://arxiv.org/abs/2304.00477v1 )

ライセンス: Link先を確認
Pingchuan Ma, Rui Ding, Shuai Wang, Shi Han, Dongmei Zhang(参考訳) データの理解と解釈をより効果的にするために、データの探索はデータ分析において不可欠です。 しかし、効果的なデータ探索を行うには、データセットの深い知識とデータ分析技術に関する専門知識が必要である。 どちらも慣れていないと、プロセスに時間がかかり、データアナリストにとって圧倒的な障害が生じる。 この問題に対処するため,我々は,データ探索プロセスの簡略化を目的としたllm(large language model)ベースの自動データ探索システムであるinsightpilotを紹介する。 InsightPilotは、理解、要約、説明などの適切な分析意図を自動的に選択する。 そして、これらの分析意図を対応する意図的クエリ(IQueries)を発行して、有意義で一貫性のある探索シーケンスを生成する。 簡単に言うと、IQueryはデータ分析操作の抽象化と自動化であり、データアナリストのアプローチを模倣し、ユーザの探索プロセスを単純化します。 LLMを使用して、IQueriesを介して最先端のインサイトエンジンと反復的にコラボレーションすることで、InsightPilotは現実世界のデータセットの分析に有効であり、ユーザは自然言語の問い合わせを通じて貴重なインサイトを得ることができる。 insightpilotの有効性をケーススタディで示し、ユーザがデータセットから貴重な洞察を得るのにどのように役立つかを示します。

Exploring data is crucial in data analysis, as it helps users understand and interpret the data more effectively. However, performing effective data exploration requires in-depth knowledge of the dataset and expertise in data analysis techniques. Not being familiar with either can create obstacles that make the process time-consuming and overwhelming for data analysts. To address this issue, we introduce InsightPilot, an LLM (Large Language Model)-based, automated data exploration system designed to simplify the data exploration process. InsightPilot automatically selects appropriate analysis intents, such as understanding, summarizing, and explaining. Then, these analysis intents are concretized by issuing corresponding intentional queries (IQueries) to create a meaningful and coherent exploration sequence. In brief, an IQuery is an abstraction and automation of data analysis operations, which mimics the approach of data analysts and simplifies the exploration process for users. By employing an LLM to iteratively collaborate with a state-of-the-art insight engine via IQueries, InsightPilot is effective in analyzing real-world datasets, enabling users to gain valuable insights through natural language inquiries. We demonstrate the effectiveness of InsightPilot in a case study, showing how it can help users gain valuable insights from their datasets.
翻訳日:2023-04-04 17:48:24 公開日:2023-04-02
# グラフ信号の最適回復について

On the Optimal Recovery of Graph Signals ( http://arxiv.org/abs/2304.00474v1 )

ライセンス: Link先を確認
Simon Foucart, Chunyang Liao, Nate Veldt(参考訳) 部分的に観測されたデータからスムーズなグラフ信号を学ぶことは、グラフベースの機械学習においてよく研究される課題である。 この課題は、学習すべき関数のモデル仮定に結びついた最悪のケースの視点を採用する観測データから関数を学習するための数学的枠組みである最適回復の観点から考察する。 最適回復文献における初期の研究は、正規化対象の最小化は、一般的な問題のクラスに対する最適解を生成するが、正規化パラメータを完全には特定しないことを示した。 我々の主な貢献は、特にグラフ信号処理の問題に対して、最適またはほぼ最適(設定に依存する)な正規化パラメータを計算する方法を提供する。 本結果は,グラフに基づく学習における古典的最適化手法の新しい解釈と,ハイパーパラメータ選択のための新たな洞察を提供する。 半合成グラフ信号処理データセットの数値実験における本手法の可能性について述べる。

Learning a smooth graph signal from partially observed data is a well-studied task in graph-based machine learning. We consider this task from the perspective of optimal recovery, a mathematical framework for learning a function from observational data that adopts a worst-case perspective tied to model assumptions on the function to be learned. Earlier work in the optimal recovery literature has shown that minimizing a regularized objective produces optimal solutions for a general class of problems, but did not fully identify the regularization parameter. Our main contribution provides a way to compute regularization parameters that are optimal or near-optimal (depending on the setting), specifically for graph signal processing problems. Our results offer a new interpretation for classical optimization techniques in graph-based learning and also come with new insights for hyperparameter selection. We illustrate the potential of our methods in numerical experiments on several semi-synthetic graph signal processing datasets.
翻訳日:2023-04-04 17:48:02 公開日:2023-04-02
# SQLで大規模言語モデルをクエリする

Querying Large Language Models with SQL ( http://arxiv.org/abs/2304.00472v1 )

ライセンス: Link先を確認
Mohammed Saeed, Nicola De Cao, Paolo Papotti(参考訳) 多くのユースケースでは、情報はテキストに格納されるが、構造化データでは利用できない。 しかし、自然言語テキストからデータを抽出してスキーマに正確に適合させ、クエリを可能にすることは難しい課題である。 事前学習された大規模言語モデル(llm)の台頭により、大量のテキスト文書から抽出された情報を保存し利用するための効果的なソリューションが現在存在する。 そこで本研究では,従来のデータベースでは取得されていない幅広いデータをカバーするためにSQLクエリを使うことを想定する。 このビジョンを定着させるために、従来のデータベースアーキテクチャに基づいたプロトタイプであるgaloisを、基礎となるllmをクエリするための新しい物理オペレータとともに紹介する。 主な考え方は、LLMからデータを取得するプロンプトでクエリプランの演算子を実行することである。 大規模なSQLクエリでは、LLMのクエリは、定性的な結果を奨励して、よく構造化された関係を返す。 予備的な実験結果により、事前学習されたLLMはデータベースシステム分野への有望な追加となり、ハイブリッドクエリ処理のための新しい方向が導入された。 しかし、LLMを利用するDBMSを構築するために対処しなければならないいくつかの研究課題を指摘します。 これらの課題のいくつかは、NLP文献からの概念を統合する必要がある一方で、DBコミュニティに新しい研究の道を提供するものもあります。

In many use-cases, information is stored in text but not available in structured data. However, extracting data from natural language text to precisely fit a schema, and thus enable querying, is a challenging task. With the rise of pre-trained Large Language Models (LLMs), there is now an effective solution to store and use information extracted from massive corpora of text documents. Thus, we envision the use of SQL queries to cover a broad range of data that is not captured by traditional databases by tapping the information in LLMs. To ground this vision, we present Galois, a prototype based on a traditional database architecture, but with new physical operators for querying the underlying LLM. The main idea is to execute some operators of the the query plan with prompts that retrieve data from the LLM. For a large class of SQL queries, querying LLMs returns well structured relations, with encouraging qualitative results. Preliminary experimental results make pre-trained LLMs a promising addition to the field of database systems, introducing a new direction for hybrid query processing. However, we pinpoint several research challenges that must be addressed to build a DBMS that exploits LLMs. While some of these challenges necessitate integrating concepts from the NLP literature, others offer novel research avenues for the DB community.
翻訳日:2023-04-04 17:47:48 公開日:2023-04-02
# 自己整合マルコフマスター方程式における例外点

Exceptional point in self-consistent Markovian master equations ( http://arxiv.org/abs/2304.00518v1 )

ライセンス: Link先を確認
Dong Xie, Chunling Xu(参考訳) 例外点(EP)は、固有値と固有状態の両方が同一となる非エルミート退化を意味する。 従来の局所マルコフマスター方程式により、EPは結合部分系からなる系においてパリティ時間(PT)または反PT対称性によって構成できる。 しかし、2つの系間のカップリングにより、従来の局所マルコフマスター方程式は矛盾する。 自己整合マルコフマスター方程式を用いて、2つのボソニック部分系からなる系にEPが存在しないことを示す。 さらに、従来の局所マスター方程式は、結合強度が共振周波数よりも2つのサブシステム間の共振周波数の差よりもはるかに小さい場合にのみ有効であることを示す。 3つのボソニックサブシステムからなるシステムでは、EPは3つのサブシステムのうちの1つを断熱的に除去することで得られる。

Exceptional point (EP) denotes the non-Hermitian degeneracy, in which both eigenvalues and eigenstates become identical. By the conventional local Markovian master equation, EP can be constructed by parity-time (PT) or anti-PT symmetry in a system composed of coupled subsystems. However, the coupling between two systems makes the conventional local Markovian master equation become inconsistent. By using the self-consistent Markovian master equation, we show that there is no EP in the system composed of two bosonic subsystems. We further prove that the conventional local master equation can be valid only when the coupling strength is much smaller than the difference in resonance frequency between the two subsystems, rather than the resonance frequencies. In a system composed of three bosonic subsystems, EP can be obtained by adiabatically eliminating one of the three subsystems.
翻訳日:2023-04-04 17:40:31 公開日:2023-04-02
# 軸距離と組合せを用いたロバスト楕円型フィッティング

Robust Ellipsoid Fitting Using Axial Distance and Combination ( http://arxiv.org/abs/2304.00517v1 )

ライセンス: Link先を確認
Min Han, Jiangming Kan, Gongping Yang, and Xinghui Li(参考訳) ランダムサンプルコンセンサス (RANSAC) では, モデルスコアの最大化によって実現される点間距離の最小化問題として楕円体フィッティングの問題を定式化することができる。 したがって、楕円型フィッティングの性能は距離計量に影響される。 本稿では,代数的距離の非幾何学的問題を解くためのスケーリング係数を導入することで,代数的距離から変換される軸距離と呼ばれる新しい距離メトリックを提案する。 サンプルコンセンサスのモデルスコアと重み付き最小二乗(WLS)フィッティングの重みを計算する際に、それらの組み合わせがより厳密な計量であるため、軸距離とサンプソン距離の間に相補性がある。 次に, 軸方向距離とサンプソン距離(CAS)の組合せを用いて, 試料集束型楕円体フィッティング法を提案する。 提案手法を,合成および実データを用いた実験により,いくつかの代表的フィッティング法と比較した。 その結果,提案手法は異常値に対するロバスト性が高く,一貫して精度が高く,サンプルコンセンサスに基づく手法に近い速度を示した。

In random sample consensus (RANSAC), the problem of ellipsoid fitting can be formulated as a problem of minimization of point-to-model distance, which is realized by maximizing model score. Hence, the performance of ellipsoid fitting is affected by distance metric. In this paper, we proposed a novel distance metric called the axial distance, which is converted from the algebraic distance by introducing a scaling factor to solve nongeometric problems of the algebraic distance. There is complementarity between the axial distance and Sampson distance because their combination is a stricter metric when calculating the model score of sample consensus and the weight of the weighted least squares (WLS) fitting. Subsequently, a novel sample-consensus-based ellipsoid fitting method is proposed by using the combination between the axial distance and Sampson distance (CAS). We compare the proposed method with several representative fitting methods through experiments on synthetic and real datasets. The results show that the proposed method has a higher robustness against outliers, consistently high accuracy, and a speed close to that of the method based on sample consensus.
翻訳日:2023-04-04 17:40:19 公開日:2023-04-02
# 個人の情報交換戦略が社会富の分配に及ぼす影響

The impact of individual information exchange strategies on the distribution of social wealth ( http://arxiv.org/abs/2304.00514v1 )

ライセンス: Link先を確認
Yang Shao, Hirokazu Atsumori, Tadayuki Matsumura, Kanako Esaki, Shunsuke Minusa, Hiroyuki Mizuno(参考訳) 富の分配はあらゆる社会において複雑で重要な側面である。 情報交換は富の分配パターンの形成に重要な役割を果たしたと考えられているが、特定の動的メカニズムはまだ不明である。 本研究では,情報交換の異なる形態が富分配に与える影響をシミュレーションベースの手法を用いて検討した。 情報交換戦略と移動戦略の異なる組み合わせを比較し,gini係数などの古典的富分布指標を用いてその富分布への影響を分析した。 本研究は,情報交換戦略が富の分配に重大な影響を与え,情報・資源へのより公平なアクセスを促進することが,情報交換の社会の構築に不可欠であることを示唆している。

Wealth distribution is a complex and critical aspect of any society. Information exchange is considered to have played a role in shaping wealth distribution patterns, but the specific dynamic mechanism is still unclear. In this research, we used simulation-based methods to investigate the impact of different modes of information exchange on wealth distribution. We compared different combinations of information exchange strategies and moving strategies, analyzed their impact on wealth distribution using classic wealth distribution indicators such as the Gini coefficient. Our findings suggest that information exchange strategies have significant impact on wealth distribution and that promoting more equitable access to information and resources is crucial in building a just and equitable society for all.
翻訳日:2023-04-04 17:39:58 公開日:2023-04-02
# TSCI:不正機器による因果推論のための2段階曲率同定

TSCI: two stage curvature identification for causal inference with invalid instruments ( http://arxiv.org/abs/2304.00513v1 )

ライセンス: Link先を確認
David Carl, Corinne Emmenegger, Peter B\"uhlmann, Zijian Guo(参考訳) tsciは、r統計計算環境において、不正機器下の観測データから処理効果を推定する。 既存のインストゥルメンタル変数のアプローチは、間違いなく強力でテスト不可能な識別仮定に依存している。 TSCIは古典的な楽器変数の識別条件を必要とせず、すべての楽器が無効であっても有効である。 tsciは二段階アルゴリズムを実装している。 第1段階では、処理モデルの非線形性と相互作用に対処するために機械学習が使用される。 第2段階では、機器違反を捕捉する空間をデータ適応的に選択する。 これらの違反は治療効果を推定するために投射される。

TSCI implements treatment effect estimation from observational data under invalid instruments in the R statistical computing environment. Existing instrumental variable approaches rely on arguably strong and untestable identification assumptions, which limits their practical application. TSCI does not require the classical instrumental variable identification conditions and is effective even if all instruments are invalid. TSCI implements a two-stage algorithm. In the first stage, machine learning is used to cope with nonlinearities and interactions in the treatment model. In the second stage, a space to capture the instrument violations is selected in a data-adaptive way. These violations are then projected out to estimate the treatment effect.
翻訳日:2023-04-04 17:39:46 公開日:2023-04-02
# 量子音響学のための窒化アルミニウム表面弾性波共振器

Thin film aluminum nitride surface acoustic wave resonators for quantum acoustodynamics ( http://arxiv.org/abs/2304.00511v1 )

ライセンス: Link先を確認
Jiang Wenbing, Chen Junfeng, Liu Xiaoyu, Niu Zhengqi, Liu Kuang, Peng Wei, Wang Zhen, Lin Zhi-Rong(参考訳) マクロな表面音響波(SAW)の量子励起は、定常および飛行する量子状態の制御、伝達のために調整されている。 しかし、これらのハイブリッド量子システムの寿命は、量子情報処理における応用を拡張するための重要な障害である。 ここでは, 窒化アルミニウム薄膜をオンチップに統合したフォノンと, 以前のバルク圧電基板上の超伝導量子ビットのポテンシャルを示す。 内部品質Qiが5e4である高品位薄膜GHz-SAW共振器を1フォノンレベルで報告した。 SAW共振器の内部損失は, 試料配置, 電力, 温度のパラメータを調整し, 系統的に検討した。 その結果, 圧電膜上のSAWはジョセフソン接合量子回路の標準構成と容易に統合可能であり, 高コヒーレンスな量子音響力学アーキテクチャのための優れた音響プラットフォームを提供することがわかった。

The quantum excitations of macroscopic surface acoustic waves (SAWs) have been tailored to control, communicate and transduce stationary and flying quantum states. However, the limited lifetime of this hybrid quantum systems remains critical obstacles to extend their applications in quantum information processing. Here we present the potentials of thin film aluminum nitride to on-chip integrate phonons with superconducting qubits over previous bulk piezoelectric substrates. We have reported high-quality thin film GHz-SAW resonators with the highest internal quality factor Qi of 5 e4 at the single-phonon level. The internal loss of SAW resonators are systematically investigated with tuning the parameters of sample layout, power and temperature. Our results manifest that SAWs on piezoelectric films are readily integrable with standard fabrication of Josephson junction quantum circuits, and offer excellent acoustic platforms for the high-coherence quantum acoustodynamics architectures.
翻訳日:2023-04-04 17:39:37 公開日:2023-04-02
# ドメイン一般化のためのマルチレベル注意CNN

CNNs with Multi-Level Attention for Domain Generalization ( http://arxiv.org/abs/2304.00502v1 )

ライセンス: Link先を確認
Aristotelis Ballas and Christos Diou(参考訳) 過去10年間で、深層畳み込みニューラルネットワークは画像分類とランキングにおいて大きな成功を収めており、マルチメディアコンテンツ検索における多くの応用を見出している。 それでもこれらのモデルでは、ニューラルネットワークが配布外シナリオや、これまで目に見えないデータドメインから生まれたデータでテストされると、パフォーマンスが低下する。 本稿では,この領域一般化の問題に着目し,ロバストな分散画像分類のための代替ニューラルネットワークアーキテクチャを提案する。 我々は、ドメイン一般化設定におけるロバストな画像分類のための表現されたクラスの因果的特徴に焦点を当てたモデルを作ろうとする。 これを実現するために,畳み込みニューラルネットワークを通じて複数のレベルの情報への参加を提案し,トレーニング可能な注意機構を用いて画像の最も重要な属性を活用する。 提案手法を検証するために、4つの広く受け入れられたドメイン一般化ベンチマークを用いて評価を行い、4つのデータセットのうち3つで以前に報告されたベースラインを上回り、第4のベンチマークで第2のスコアを得ることができた。

In the past decade, deep convolutional neural networks have achieved significant success in image classification and ranking and have therefore found numerous applications in multimedia content retrieval. Still, these models suffer from performance degradation when neural networks are tested on out-of-distribution scenarios or on data originating from previously unseen data Domains. In the present work, we focus on this problem of Domain Generalization and propose an alternative neural network architecture for robust, out-of-distribution image classification. We attempt to produce a model that focuses on the causal features of the depicted class for robust image classification in the Domain Generalization setting. To achieve this, we propose attending to multiple-levels of information throughout a Convolutional Neural Network and leveraging the most important attributes of an image by employing trainable attention mechanisms. To validate our method, we evaluate our model on four widely accepted Domain Generalization benchmarks, on which our model is able to surpass previously reported baselines in three out of four datasets and achieve the second best score in the fourth one.
翻訳日:2023-04-04 17:39:23 公開日:2023-04-02
# YOLOの総括レビュー:YOLOv1からYOLOv8まで

A Comprehensive Review of YOLO: From YOLOv1 to YOLOv8 and Beyond ( http://arxiv.org/abs/2304.00501v1 )

ライセンス: Link先を確認
Juan Terven and Diana Cordova-Esparza(参考訳) YOLOは、ロボット工学、無人運転車、ビデオ監視アプリケーションのための中心的なリアルタイムオブジェクト検出システムになっている。 本稿では、YOLOの進化を総合的に分析し、元のYOLOからYOLOv8までの各イテレーションにおけるイノベーションとコントリビューションについて考察する。 まず、標準メトリクスと後処理を説明し、次に、ネットワークアーキテクチャにおける大きな変化と各モデルに対するトレーニングトリックについて論じる。 最後に, YOLOの開発から重要な教訓を要約し, リアルタイム物体検出システムの実現に向けた研究の方向性を明らかにする。

YOLO has become a central real-time object detection system for robotics, driverless cars, and video monitoring applications. We present a comprehensive analysis of YOLO's evolution, examining the innovations and contributions in each iteration from the original YOLO to YOLOv8. We start by describing the standard metrics and postprocessing; then, we discuss the major changes in network architecture and training tricks for each model. Finally, we summarize the essential lessons from YOLO's development and provide a perspective on its future, highlighting potential research directions to enhance real-time object detection systems.
翻訳日:2023-04-04 17:39:03 公開日:2023-04-02
# 親子:自然画像からマルチモーダルディープフェイクを識別する

Parents and Children: Distinguishing Multimodal DeepFakes from Natural Images ( http://arxiv.org/abs/2304.00500v1 )

ライセンス: Link先を確認
Roberto Amoroso, Davide Morelli, Marcella Cornia, Lorenzo Baraldi, Alberto Del Bimbo, Rita Cucchiara(参考訳) 近年の拡散モデルの発展により、自然言語でテキストプロンプトを書くことで現実的なディープフェイクが生成できるようになった。 これらのモデルは様々な分野に多くの利点があるが、偽画像の誤用の可能性や偽画像検出への新たな圧力も懸念されている。 本研究では,最先端拡散モデルにより生成された偽画像の正当性に関する体系的な研究を開拓する。 まず,コントラストと分類に基づく視覚特徴の総合的な評価を行った。 我々の分析は、偽画像が共通の低レベルの手がかりを共有していることを示す。 さらに,フェイク画像を異なるテキストキャプションで合成し,生成装置の種として使用するマルチモーダル設定を考案する。 そこで本研究では,テキスト記述と低レベルの知覚的手がかりのセマンティクスの役割を解析するための,偽検出戦略の定量化と,コントラストに基づくディエンタング戦略を導入する。 最後に、COCO画像から生成された約600万の画像を含むCOCOFakeと呼ばれる新しいデータセットをリリースする。

Recent advancements in diffusion models have enabled the generation of realistic deepfakes by writing textual prompts in natural language. While these models have numerous benefits across various sectors, they have also raised concerns about the potential misuse of fake images and cast new pressures on fake image detection. In this work, we pioneer a systematic study of the authenticity of fake images generated by state-of-the-art diffusion models. Firstly, we conduct a comprehensive study on the performance of contrastive and classification-based visual features. Our analysis demonstrates that fake images share common low-level cues, which render them easily recognizable. Further, we devise a multimodal setting wherein fake images are synthesized by different textual captions, which are used as seeds for a generator. Under this setting, we quantify the performance of fake detection strategies and introduce a contrastive-based disentangling strategy which let us analyze the role of the semantics of textual descriptions and low-level perceptual cues. Finally, we release a new dataset, called COCOFake, containing about 600k images generated from original COCO images.
翻訳日:2023-04-04 17:38:53 公開日:2023-04-02
# ラベル蒸留によるadversary-aware partial label learning

Adversary-Aware Partial label learning with Label distillation ( http://arxiv.org/abs/2304.00498v1 )

ライセンス: Link先を確認
Cheng Chen, Yueming Lyu, Ivor W.Tsang(参考訳) 被写体から収集したデータが秘密に託されることを保証するため、参加者が意図的に提供した情報を隠蔽するライバルラベルを導入する。 対応する学習タスクは、ノイズのある部分ラベル学習問題として定式化することができる。 しかし、従来の部分ラベル学習(pll)法は、特に大きなラベル空間において、ノイズの大きい部分ラベルの比率に対して脆弱である。 より堅牢なモデルを学ぶために、Adversary-Aware partial Label Learningを紹介し、各インスタンスの候補ラベルのコレクションに、ノイズの多いラベルのセットである$\textit{rival}$を紹介します。 競合ラベルの導入により、pllの予測分布は、競合生成過程が知られていると仮定して、遷移行列からの不確実性が少なく、便利な予測ラベルが達成されるように分解される。 しかし, 相関損失関数のクラスタリング効果を利用するのに十分な正の正のセットを生成するには, 予測精度が不十分である。 さらに、競合の包含は、遷移行列の難易度による分類器とリスク関数の整合性の問題も引き起こす。 その結果,運動量(ATM)の曖昧さを解消するアルゴリズムが提案され,一貫した分類器とリスク関数が得られた。 また,提案手法はラベルノイズ遷移行列の選択に対して高い親和性を示す。 CIFAR10, CIFAR100, CUB200データセットにおいて, 提案手法が有望な結果を得ることを示す。

To ensure that the data collected from human subjects is entrusted with a secret, rival labels are introduced to conceal the information provided by the participants on purpose. The corresponding learning task can be formulated as a noisy partial-label learning problem. However, conventional partial-label learning (PLL) methods are still vulnerable to the high ratio of noisy partial labels, especially in a large labelling space. To learn a more robust model, we present Adversary-Aware Partial Label Learning and introduce the $\textit{rival}$, a set of noisy labels, to the collection of candidate labels for each instance. By introducing the rival label, the predictive distribution of PLL is factorised such that a handy predictive label is achieved with less uncertainty coming from the transition matrix, assuming the rival generation process is known. Nonetheless, the predictive accuracy is still insufficient to produce an sufficiently accurate positive sample set to leverage the clustering effect of the contrastive loss function. Moreover, the inclusion of rivals also brings an inconsistency issue for the classifier and risk function due to the intractability of the transition matrix. Consequently, an adversarial teacher within momentum (ATM) disambiguation algorithm is proposed to cope with the situation, allowing us to obtain a provably consistent classifier and risk function. In addition, our method has shown high resiliency to the choice of the label noise transition matrix. Extensive experiments demonstrate that our method achieves promising results on the CIFAR10, CIFAR100 and CUB200 datasets.
翻訳日:2023-04-04 17:38:36 公開日:2023-04-02
# 相互融合によるマルチモーダルハイパースペクトル画像分類

Multimodal Hyperspectral Image Classification via Interconnected Fusion ( http://arxiv.org/abs/2304.00495v1 )

ライセンス: Link先を確認
Lu Huo, Jiahao Xia, Leijie Zhang, Haimin Zhang, Min Xu(参考訳) 近年,HSI(Hyperspectral Image)とLiDAR(Light Detection And Ranging)のモダリティ特性を組み合わせるために,結合,和,エンコーダ-デコーダ-ベース融合などの既存のモーダル融合法が用いられている。 しかし,これらの手法は限られた視点からHSI-LiDAR信号の関係を考慮する。 より具体的には、HSIとLiDARのモダリティのコンテキスト情報とLiDARのモダリティ内特性を見落としている。 本稿では,HSIとLiDARの相互関係を包括的に探求するために,機能融合に関する新たな知見を提供する。 インターコネクトフュージョン(if)フレームワークが提案されている。 まず、HSI入力の中心パッチを抽出し、HSI入力のサイズに複製する。 そして、複製された中心パッチ、HSI入力および対応するLiDAR入力の自己アテンションと交差アテンションを算出し、融合行列の9つの異なる視点を生成する。 このようにして、モダリティ内およびモダリティ間の特徴を完全に活用することができ、モダリティ内およびモダリティ間の両方でコンテキスト情報を考慮することができる。 融合行列内のこれらの9つの相互関連要素は互いに補い合い、バイアスを取り除き、正確な分類のためにマルチモダリティ表現を生成することができる。 広く使われている3つのデータセット(Trento、MUUFL、Houston)で大規模な実験が行われた。 IFフレームワークは、既存のアプローチと比較して、これらのデータセットの最先端の結果を達成する。

Existing multiple modality fusion methods, such as concatenation, summation, and encoder-decoder-based fusion, have recently been employed to combine modality characteristics of Hyperspectral Image (HSI) and Light Detection And Ranging (LiDAR). However, these methods consider the relationship of HSI-LiDAR signals from limited perspectives. More specifically, they overlook the contextual information across modalities of HSI and LiDAR and the intra-modality characteristics of LiDAR. In this paper, we provide a new insight into feature fusion to explore the relationships across HSI and LiDAR modalities comprehensively. An Interconnected Fusion (IF) framework is proposed. Firstly, the center patch of the HSI input is extracted and replicated to the size of the HSI input. Then, nine different perspectives in the fusion matrix are generated by calculating self-attention and cross-attention among the replicated center patch, HSI input, and corresponding LiDAR input. In this way, the intra- and inter-modality characteristics can be fully exploited, and contextual information is considered in both intra-modality and inter-modality manner. These nine interrelated elements in the fusion matrix can complement each other and eliminate biases, which can generate a multi-modality representation for classification accurately. Extensive experiments have been conducted on three widely used datasets: Trento, MUUFL, and Houston. The IF framework achieves state-of-the-art results on these datasets compared to existing approaches.
翻訳日:2023-04-04 17:38:10 公開日:2023-04-02
# 低リソース言語のための一貫性規則化による半教師付きニューラルマシン翻訳

Semi-supervised Neural Machine Translation with Consistency Regularization for Low-Resource Languages ( http://arxiv.org/abs/2304.00557v1 )

ライセンス: Link先を確認
Viet H. Pham, Thang M. Pham, Giang Nguyen, Long Nguyen, Dien Dinh(参考訳) ディープラーニングの出現により、機械翻訳が大幅に向上した。 しかし、ほとんどの研究は大規模な並列データセットを必要としており、構築にはほとんど費用がかからず、一部の言語では利用できない。 本稿では,高品質文対の強化とnmtモデルの半教師あり学習により,低リソース言語に対してこの問題に取り組むための単純かつ効果的な手法を提案する。 具体的には,教師あり学習のためのクロスエントロピー損失と,モデルから派生した擬似文と拡張文の教師なし学習のためのkl発散を組み合わせる。 また,SentenceBERTベースのフィルタを導入し,意味論的に類似した文対を保持することで,データ拡張の質を高める。 実験の結果,0.46-2.03 bleuスコアの低リソースデータセットにおいて,nmtベースラインを大幅に改善することが判明した。 また,教師なし学習を用いた教師なし学習は,教師なし学習に地対対象文を再利用するよりも効率的であることを示す。

The advent of deep learning has led to a significant gain in machine translation. However, most of the studies required a large parallel dataset which is scarce and expensive to construct and even unavailable for some languages. This paper presents a simple yet effective method to tackle this problem for low-resource languages by augmenting high-quality sentence pairs and training NMT models in a semi-supervised manner. Specifically, our approach combines the cross-entropy loss for supervised learning with KL Divergence for unsupervised fashion given pseudo and augmented target sentences derived from the model. We also introduce a SentenceBERT-based filter to enhance the quality of augmenting data by retaining semantically similar sentence pairs. Experimental results show that our approach significantly improves NMT baselines, especially on low-resource datasets with 0.46--2.03 BLEU scores. We also demonstrate that using unsupervised training for augmented data is more efficient than reusing the ground-truth target sentences for supervised learning.
翻訳日:2023-04-04 17:32:19 公開日:2023-04-02
# 孤立島からパンジー:人間行動理解のための意味空間の統合

From Isolated Islands to Pangea: Unifying Semantic Space for Human Action Understanding ( http://arxiv.org/abs/2304.00553v1 )

ライセンス: Link先を確認
Yong-Lu Li, Xiaoqian Wu, Xinpeng Liu, Yiming Dou, Yikun Ji, Junyi Zhang, Yixing Li, Jingru Tan, Xudong Lu, Cewu Lu(参考訳) 行動理解は問題であり、注目を集める。 アクション物理空間から意味空間への写像として形成することができる。 通常、研究者はクラスを定義し、ベンチマークのエンベロープを押すために、慣用的な選択に従ってアクションデータセットを構築した。 したがって、データセットは、セマンティクスギャップやさまざまなクラス粒度、例えばデータセットaでハウスワークを行い、データセットbでウォッシュプレートを行うなど、"分離された島"のように相互に非互換である。 この目的のために,動詞分類階層を与えられたpoincare行動意味空間を設計し,大規模行動をカバーする。 以前のデータセットのクラスをセマンティック空間に合わせることで、(画像/ビデオ/スケルトン/MoCap)データセットを統一されたラベルシステムで統一されたデータベースにまとめます。 そこで本研究では,物理空間と意味空間の双方向マッピングモデルを提案する。 広範な実験において,本システムは特に転校学習において有意な優越性を示す。 コードとデータは公開される予定だ。

Action understanding matters and attracts attention. It can be formed as the mapping from the action physical space to the semantic space. Typically, researchers built action datasets according to idiosyncratic choices to define classes and push the envelope of benchmarks respectively. Thus, datasets are incompatible with each other like "Isolated Islands" due to semantic gaps and various class granularities, e.g., do housework in dataset A and wash plate in dataset B. We argue that a more principled semantic space is an urgent need to concentrate the community efforts and enable us to use all datasets together to pursue generalizable action learning. To this end, we design a Poincare action semantic space given verb taxonomy hierarchy and covering massive actions. By aligning the classes of previous datasets to our semantic space, we gather (image/video/skeleton/MoCap) datasets into a unified database in a unified label system, i.e., bridging "isolated islands" into a "Pangea". Accordingly, we propose a bidirectional mapping model between physical and semantic space to fully use Pangea. In extensive experiments, our system shows significant superiority, especially in transfer learning. Code and data will be made publicly available.
翻訳日:2023-04-04 17:32:01 公開日:2023-04-02
# 変分量子固有解法における変分Denoising

Variational Denoising for Variational Quantum Eigensolver ( http://arxiv.org/abs/2304.00549v1 )

ライセンス: Link先を確認
Quoc Hoan Tran, Shinji Kikuchi, and Hirotaka Oshima(参考訳) 変分量子固有解法 (VQE) は、古典的コンピュータで現在チューリング可能な実用的な化学問題に量子的優位性を与える可能性を持つハイブリッドアルゴリズムである。 VQEは古典最適化器を用いてパラメータ化された量子回路を訓練し、与えられたハミルトニアンの固有値と固有状態を近似する。 しかしながら、VQEは特にノイズの多い量子デバイス上で動作する場合、タスク固有の設計とマシン固有のアーキテクチャの課題に直面している。 これは、そのトレーサビリティ、正確性、効率に悪影響を与え、ノイズ量子データを引き起こす可能性がある。 本稿では、パラメータ化量子ニューラルネットワークを用いて、ノイズの多いVQE出力から学習することでVQEの解を改善する、教師なし学習手法である変分分解を提案する。 提案手法は,H2分子ハミルトニアンおよびLiH分子ハミルトニアンに対するノイズ入力データと比較して,エネルギー推定誤差を著しく低減し,基底状態の忠実度を増大させることができる。 変動分母化は量子ハードウェアに組み込むことができ、量子データのエンドツーエンドの量子処理として汎用性を高めることができる。

The variational quantum eigensolver (VQE) is a hybrid algorithm that has the potential to provide a quantum advantage in practical chemistry problems that are currently intractable on classical computers. VQE trains parameterized quantum circuits using a classical optimizer to approximate the eigenvalues and eigenstates of a given Hamiltonian. However, VQE faces challenges in task-specific design and machine-specific architecture, particularly when running on noisy quantum devices. This can have a negative impact on its trainability, accuracy, and efficiency, resulting in noisy quantum data. We propose variational denoising, an unsupervised learning method that employs a parameterized quantum neural network to improve the solution of VQE by learning from noisy VQE outputs. Our approach can significantly decrease energy estimation errors and increase fidelities with ground states compared to noisy input data for the H2 and LiH molecular Hamiltonians, and surprisingly only requires noisy data for training. Variational denoising can be integrated into quantum hardware, increasing its versatility as an end-to-end quantum processing for quantum data.
翻訳日:2023-04-04 17:31:41 公開日:2023-04-02
# 胸部CTタスクにおける3次元深層学習の進歩

Video Pretraining Advances 3D Deep Learning on Chest CT Tasks ( http://arxiv.org/abs/2304.00546v1 )

ライセンス: Link先を確認
Alexander Ke, Shih-Cheng Huang, Chloe P O'Connell, Michal Klimont, Serena Yeung, Pranav Rajpurkar(参考訳) ImageNetのような大規模な自然画像分類データセットの事前トレーニングは、データスカース2D医療タスクのモデル開発を支援する。 3D医療タスクは、しばしば2D医療タスクよりもはるかに少ないデータを持ち、訓練済みの2Dモデルに頼ってスライスを破滅させる。 しかし、これらの2Dモデルは断面情報や時間情報をネイティブに活用していないため、3Dコンピュータビジョンベンチマークの3Dモデルに勝っている。 本研究では,3Dモデルに対する自然ビデオ事前トレーニングによって,より小さなデータセットでの3D医療タスクの性能向上が期待できるかどうかを考察する。 ビデオプリトレーニングは,2つの胸部ctデータセットにおける7つの3dモデルの平均性能を,データセットサイズを微調整することなく向上させる。 最後に、大規模領域外キネティクスデータセットの事前トレーニングは、通常サイズのドメイン内CTデータセットの事前トレーニングよりもパフォーマンスを向上させることを観察する。 以上の結果から,多様なアーキテクチャ,タスク,データセットサイズにわたるビデオプリトレーニングの一貫したメリットを示し,3次元医療タスクの小規模インドメインプリトレーニングから大規模アウト・オブ・ドメインプリトレーニングへの移行をサポートする。 私たちのコードは、https://github.com/rajpurkarlab/chest-ct-pretrainingで利用可能です。

Pretraining on large natural image classification datasets such as ImageNet has aided model development on data-scarce 2D medical tasks. 3D medical tasks often have much less data than 2D medical tasks, prompting practitioners to rely on pretrained 2D models to featurize slices. However, these 2D models have been surpassed by 3D models on 3D computer vision benchmarks since they do not natively leverage cross-sectional or temporal information. In this study, we explore whether natural video pretraining for 3D models can enable higher performance on smaller datasets for 3D medical tasks. We demonstrate video pretraining improves the average performance of seven 3D models on two chest CT datasets, regardless of finetuning dataset size, and that video pretraining allows 3D models to outperform 2D baselines. Lastly, we observe that pretraining on the large-scale out-of-domain Kinetics dataset improves performance more than pretraining on a typically-sized in-domain CT dataset. Our results show consistent benefits of video pretraining across a wide array of architectures, tasks, and training dataset sizes, supporting a shift from small-scale in-domain pretraining to large-scale out-of-domain pretraining for 3D medical tasks. Our code is available at: https://github.com/rajpurkarlab/chest-ct-pretraining
翻訳日:2023-04-04 17:31:19 公開日:2023-04-02
# 多変量ゼロインフレーション連続データのコプラ密度推定モデル

Copula-Based Density Estimation Models for Multivariate Zero-Inflated Continuous Data ( http://arxiv.org/abs/2304.00537v1 )

ライセンス: Link先を確認
Keita Hamamoto(参考訳) ゼロ膨張連続データは、多くの分野においてユビキタスに現れ、その分野は、全くゼロ値のデータを多数観測し、他の分野は連続的に分布する。 分布の離散性と連続性の混合構造のため、統計解析は特に多変量の場合において困難である。 本稿では,ゼロインフレーション連続変数間の多変量相関に対処可能な2つのコプラ密度推定モデルを提案する。 ゼロインフレーションデータにおける結合データ問題によるcopulaの使用の難しさを克服するために,新しいタイプのcopula,整流ガウス型copulaを提案し,パラメータ推定とラピッド計算のための効率的な手法を提案する。 数値実験により従来の密度推定法と比較して提案手法の優位性を示す。

Zero-inflated continuous data ubiquitously appear in many fields, in which lots of exactly zero-valued data are observed while others distribute continuously. Due to the mixed structure of discreteness and continuity in its distribution, statistical analysis is challenging especially for multivariate case. In this paper, we propose two copula-based density estimation models that can cope with multivariate correlation among zero-inflated continuous variables. In order to overcome the difficulty in the use of copulas due to the tied-data problem in zero-inflated data, we propose a new type of copula, rectified Gaussian copula, and present efficient methods for parameter estimation and likelihood computation. Numerical experiments demonstrates the superiority of our proposals compared to conventional density estimation methods.
翻訳日:2023-04-04 17:30:55 公開日:2023-04-02
# LG-BPN: ローカル・グローバルブラインドパッチネットワーク

LG-BPN: Local and Global Blind-Patch Network for Self-Supervised Real-World Denoising ( http://arxiv.org/abs/2304.00534v1 )

ライセンス: Link先を確認
Zichun Wang, Ying Fu, Ji Liu, Yulun Zhang(参考訳) 単純化された前提下での合成ノイズの顕著な結果にもかかわらず、ほとんどの自己教師付き遮音法は、高度な自己教師付き盲点ネットワーク(BSN)を含む強い空間ノイズ相関により、実雑音下では失敗する。 現実のデノベーションを対象とする最近の手法では、この空間的相関を無視するか、あるいは相関を軽視するための微細なテクスチャの破壊によって制限される。 本稿では,実世界の自己監視のためのlg-bpnと呼ばれる新しい手法を提案する。この手法は局所的詳細復元のためのネットワーク設計に空間相関統計を取り入れ,従来cnnベースのbsn手法に長距離依存モデリング能力をもたらす。 まず, 相関統計に基づいて, 密集したパッチメイク畳み込みモジュールを提案する。 ノイズ相関の低い隣接画素を考慮に入れることで、より密集した局所受容場を実現し、微細構造回復のためのより有用な情報を保存する。 次に,BSNにおける遠隔コンテキストの活用を可能にする拡張トランスフォーマーブロックを提案する。 このグローバルな認識は、前回のCNNベースのBSNでは完全には解決できない盲点要求によって受容野が制約されるBSNの固有の欠損に対処する。 これらの2つの設計により、LG-BPNは詳細な構造とグローバルな相互作用を視覚的に完全に活用することができる。 実世界のデータセットに関する広範な結果は、この手法の優れた性能を示している。 https://github.com/Wang-XIaoDingdd/LGBPN

Despite the significant results on synthetic noise under simplified assumptions, most self-supervised denoising methods fail under real noise due to the strong spatial noise correlation, including the advanced self-supervised blind-spot networks (BSNs). For recent methods targeting real-world denoising, they either suffer from ignoring this spatial correlation, or are limited by the destruction of fine textures for under-considering the correlation. In this paper, we present a novel method called LG-BPN for self-supervised real-world denoising, which takes the spatial correlation statistic into our network design for local detail restoration, and also brings the long-range dependencies modeling ability to previously CNN-based BSN methods. First, based on the correlation statistic, we propose a densely-sampled patch-masked convolution module. By taking more neighbor pixels with low noise correlation into account, we enable a denser local receptive field, preserving more useful information for enhanced fine structure recovery. Second, we propose a dilated Transformer block to allow distant context exploitation in BSN. This global perception addresses the intrinsic deficiency of BSN, whose receptive field is constrained by the blind spot requirement, which can not be fully resolved by the previous CNN-based BSNs. These two designs enable LG-BPN to fully exploit both the detailed structure and the global interaction in a blind manner. Extensive results on real-world datasets demonstrate the superior performance of our method. https://github.com/Wang-XIaoDingdd/LGBPN
翻訳日:2023-04-04 17:30:40 公開日:2023-04-02
# 複数の展開のための1つのトレーニング: 自律運転のための極性に基づく適応型BEV知覚

One Training for Multiple Deployments: Polar-based Adaptive BEV Perception for Autonomous Driving ( http://arxiv.org/abs/2304.00525v1 )

ライセンス: Link先を確認
Huitong Yang, Xuyang Bai, Xinge Zhu, and Yuexin Ma(参考訳) 現在のオンボードチップは通常、異なる計算能力を持つため、同じ学習ベースのアルゴリズムを異なるチップに適応させるために複数のトレーニングプロセスが必要である。 大型モデルを用いた3次元認識手法では, 状況はさらに悪化する。 従来の視覚中心の3D知覚アプローチは、固定解像度の正規のグリッド表現された特徴マップで訓練されており、他のグリッドスケールに適用できないため、より広範な展開が制限される。 本稿では,画像からBEV特徴マップを構築する場合のPolar表現を利用して,複数配置で一度トレーニングを行うという目標を達成する。 具体的には、極域の光線に沿った特徴を容易に適応的にサンプリングし、任意の解像度のデカルト空間における特徴に投影することができる。 適応性をさらに向上するため、マルチスケールのコンテキスト情報を相互に相互作用させ、特徴表現を強化する。 大規模自律運転データセットにおける実験により、複数のデプロイに対する1つのトレーニングの優れた特性について、この手法が他の手法よりも優れていることが判明した。

Current on-board chips usually have different computing power, which means multiple training processes are needed for adapting the same learning-based algorithm to different chips, costing huge computing resources. The situation becomes even worse for 3D perception methods with large models. Previous vision-centric 3D perception approaches are trained with regular grid-represented feature maps of fixed resolutions, which is not applicable to adapt to other grid scales, limiting wider deployment. In this paper, we leverage the Polar representation when constructing the BEV feature map from images in order to achieve the goal of training once for multiple deployments. Specifically, the feature along rays in Polar space can be easily adaptively sampled and projected to the feature in Cartesian space with arbitrary resolutions. To further improve the adaptation capability, we make multi-scale contextual information interact with each other to enhance the feature representation. Experiments on a large-scale autonomous driving dataset show that our method outperforms others as for the good property of one training for multiple deployments.
翻訳日:2023-04-04 17:30:12 公開日:2023-04-02
# 医療メタバースにおける連合学習に関する調査研究 : 概念,応用,課題,今後の方向性

A Survey on Federated Learning for the Healthcare Metaverse: Concepts, Applications, Challenges, and Future Directions ( http://arxiv.org/abs/2304.00524v1 )

ライセンス: Link先を確認
Ali Kashif Bashir, Nancy Victor, Sweta Bhattacharya, Thien Huynh-The, Rajeswari Chengoden, Gokul Yenduri, Praveen Kumar Reddy Maddikunta, Quoc-Viet Pham, Thippa Reddy Gadekallu and Madhusanka Liyanage(参考訳) 最近の技術進歩は、様々なインテリジェントな医療サービスを提供し、生活の質を向上させるために、医療システムの改善を考慮に入れている。 人工知能(AI)の新しい部門であるフェデレーション・ラーニング(FL)は、医療システムのプライバシー問題に対処し、分散デバイスで利用可能なデータとコンピューティングリソースを活用する機会を開く。 さらにMetaverseは、AI、クラウドエッジコンピューティング、IoT(Internet of Things)、ブロックチェーン、セマンティックコミュニケーションといった新興技術を統合することで、多くの垂直領域、特に医療分野を変革した。 FLは明らかに多くの利点を示し、従来の医療やメタバース医療に新たな機会を与え、メタバース医療システムにおけるFLの使用状況の調査を行う動機となった。 まず、IoTベースの医療システム、従来の医療におけるFL、Metaverseの医療システムについて概説する。 metaverse healthcareにおけるflのメリットは、プライバシとスケーラビリティの向上、相互運用性の向上、データ管理の改善、セキュリティの強化、自動化と低遅延医療サービスなど、議論される。 その後, 医療診断, 患者モニタリング, 医学教育, 感染症, 創薬など, fl対応メタバース医療に関するいくつかの応用について検討する。 最後に,メタバース医療におけるFLの実現に向けた重要な課題と潜在的な解決策を強調した。

Recent technological advancements have considerately improved healthcare systems to provide various intelligent healthcare services and improve the quality of life. Federated learning (FL), a new branch of artificial intelligence (AI), opens opportunities to deal with privacy issues in healthcare systems and exploit data and computing resources available at distributed devices. Additionally, the Metaverse, through integrating emerging technologies, such as AI, cloud edge computing, Internet of Things (IoT), blockchain, and semantic communications, has transformed many vertical domains in general and the healthcare sector in particular. Obviously, FL shows many benefits and provides new opportunities for conventional and Metaverse healthcare, motivating us to provide a survey on the usage of FL for Metaverse healthcare systems. First, we present preliminaries to IoT-based healthcare systems, FL in conventional healthcare, and Metaverse healthcare. The benefits of FL in Metaverse healthcare are then discussed, from improved privacy and scalability, better interoperability, better data management, and extra security to automation and low-latency healthcare services. Subsequently, we discuss several applications pertaining to FL-enabled Metaverse healthcare, including medical diagnosis, patient monitoring, medical education, infectious disease, and drug discovery. Finally, we highlight significant challenges and potential solutions toward the realization of FL in Metaverse healthcare.
翻訳日:2023-04-04 17:29:54 公開日:2023-04-02
# 大型言語モデルは、わずかな出版スクープである

Large Language Models are Few-shot Publication Scoopers ( http://arxiv.org/abs/2304.00521v1 )

ライセンス: Link先を確認
Samuel Albanie, Liliane Momeni, Jo\~ao F. Henriques(参考訳) 最近のaiによって、乗客は科学的発見の黄金時代に入りつつある。 しかし、誰が金になるのか? この時代の最も賞賛されたブレークスルーに他者が打ち勝つかもしれないという不安を乗り越えて、私たちは、私たちにとって黄金であることを保証するために、長年の個人クレジット割り当て問題に対する新しい解決策を提案します。 我々のアプローチの核心は、従来の研究手法で高インパクト科学を追求する実質的な資本とキャリアリスクを負うことなく、wikipediaページを保証できるpip-to-the-postアルゴリズムです。 大規模言語モデルをあらゆるものに活用するメタトレンドを活用することで,デザートビュッフェで経験豊富な研究者の無念さに基いて,アルゴリズムが画期的な発見をスクープする可能性を実証する。

Driven by recent advances AI, we passengers are entering a golden age of scientific discovery. But golden for whom? Confronting our insecurity that others may beat us to the most acclaimed breakthroughs of the era, we propose a novel solution to the long-standing personal credit assignment problem to ensure that it is golden for us. At the heart of our approach is a pip-to-the-post algorithm that assures adulatory Wikipedia pages without incurring the substantial capital and career risks of pursuing high impact science with conventional research methodologies. By leveraging the meta trend of leveraging large language models for everything, we demonstrate the unparalleled potential of our algorithm to scoop groundbreaking findings with the insouciance of a seasoned researcher at a dessert buffet.
翻訳日:2023-04-04 17:29:30 公開日:2023-04-02
# 拡散モデルを用いた織物パターン生成

Textile Pattern Generation Using Diffusion Models ( http://arxiv.org/abs/2304.00520v1 )

ライセンス: Link先を確認
Halil Faruk Karagoz, Gulcin Baykal, Irem Arikan Eksi, Gozde Unal(参考訳) テキスト誘導画像生成の問題はコンピュータビジョンの複雑なタスクであり、視覚的に魅力的なアートワークやリアルな製品イメージの作成など様々な応用がある。 このタスクで広く使われているソリューションの1つは、反復プロセスを通じて画像を生成する生成モデルである拡散モデルである。 拡散モデルは様々な画像生成タスクに有望な結果をもたらすが、テキスト指導に基づく織物パターンの生成など、より特定の領域に適用される場合にのみ満足な結果が得られる。 本研究は,テキスト指導による織物パターン生成に特化した細調整拡散モデルを提案する。 この研究は、他のAIモデルの助けを借りて、さまざまな織物パターンの画像とキャプションの収集を含む。 新たに作成されたデータセットを用いて微調整拡散モデルを訓練し、その結果をベースラインモデルと視覚的および数値的に比較する。 提案手法は,テキスト指導による織物パターン生成において,パターン品質と効率の観点から,ベースラインモデルよりも優れることを示す。 本研究は,テキストガイドによる織物パターン生成の問題に対する有望な解決法を示し,繊維産業におけるデザインプロセスを簡素化する可能性を示唆する。

The problem of text-guided image generation is a complex task in Computer Vision, with various applications, including creating visually appealing artwork and realistic product images. One popular solution widely used for this task is the diffusion model, a generative model that generates images through an iterative process. Although diffusion models have demonstrated promising results for various image generation tasks, they may only sometimes produce satisfactory results when applied to more specific domains, such as the generation of textile patterns based on text guidance. This study presents a fine-tuned diffusion model specifically trained for textile pattern generation by text guidance to address this issue. The study involves the collection of various textile pattern images and their captioning with the help of another AI model. The fine-tuned diffusion model is trained with this newly created dataset, and its results are compared with the baseline models visually and numerically. The results demonstrate that the proposed fine-tuned diffusion model outperforms the baseline models in terms of pattern quality and efficiency in textile pattern generation by text guidance. This study presents a promising solution to the problem of text-guided textile pattern generation and has the potential to simplify the design process within the textile industry.
翻訳日:2023-04-04 17:29:12 公開日:2023-04-02
# キーポイントの検出と記述のための共同学習による変形可能な局所特徴の強化

Enhancing Deformable Local Features by Jointly Learning to Detect and Describe Keypoints ( http://arxiv.org/abs/2304.00583v1 )

ライセンス: Link先を確認
Guilherme Potje, Felipe Cadar, Andre Araujo, Renato Martins, Erickson R. Nascimento(参考訳) 局所的特徴抽出は、画像マッチングや検索といった重要なタスクに取り組むコンピュータビジョンにおける標準的なアプローチである。 多くの手法の中核となる仮定は、画像が非剛体変形のようなより複雑な効果を無視してアフィン変換を行うということである。 さらに、非剛性対応用に調整された初期作業は、厳格な変換のために設計されたキーポイント検出器に依存しており、検出器の制限により性能を阻害している。 本稿では,キーポイントを共同で検出し記述する新しい変形認識ネットワークである dalf (deformation-aware local features) を提案する。 すべてのネットワークコンポーネントは、ディスクリプタの識別性と不変性を強制する機能融合アプローチを通じて協調的に動作する。 実変形物体を用いた実験では,提案手法の優位性が示され,従来よりも8%向上した結果が得られた。 また,このアプローチは,変形可能なオブジェクト検索と非剛性3次元表面登録という2つの実世界のアプリケーションの性能を向上させる。 トレーニング、推論、アプリケーションのコードはhttps://verlab.dcc.ufmg.br/descriptors/dalf_cvpr23で公開されている。

Local feature extraction is a standard approach in computer vision for tackling important tasks such as image matching and retrieval. The core assumption of most methods is that images undergo affine transformations, disregarding more complicated effects such as non-rigid deformations. Furthermore, incipient works tailored for non-rigid correspondence still rely on keypoint detectors designed for rigid transformations, hindering performance due to the limitations of the detector. We propose DALF (Deformation-Aware Local Features), a novel deformation-aware network for jointly detecting and describing keypoints, to handle the challenging problem of matching deformable surfaces. All network components work cooperatively through a feature fusion approach that enforces the descriptors' distinctiveness and invariance. Experiments using real deforming objects showcase the superiority of our method, where it delivers 8% improvement in matching scores compared to the previous best results. Our approach also enhances the performance of two real-world applications: deformable object retrieval and non-rigid 3D surface registration. Code for training, inference, and applications are publicly available at https://verlab.dcc.ufmg.br/descriptors/dalf_cvpr23.
翻訳日:2023-04-04 17:22:33 公開日:2023-04-02
# 繰り返しユーザ-イテムインタラクションのためのシーケンス対応アイテムレコメンデーション

Sequence-aware item recommendations for multiply repeated user-item interactions ( http://arxiv.org/abs/2304.00578v1 )

ライセンス: Link先を確認
Juan Pablo Equihua, Maged Ali, Henrik Nordmark, Berthold Lausen(参考訳) リコメンダシステムは、機械学習とデータサイエンスの最も成功した応用の1つである。 それらは、eコマース、メディアストリーミングコンテンツ、メールマーケティング、そしてパーソナライズによってユーザーエクスペリエンスが向上し、販売と顧客エンゲージメントが向上する事実上すべての業界を含む、幅広いアプリケーションドメインで成功している。 これらのシステムの主な目標は、過去のユーザーの行動を分析し、どのアイテムがユーザにとって最も興味を持つかを予測することである。 これらは一般に、協調フィルタリングや行列分解のような行列補完技術を用いて構築される。 しかし、これらのアプローチは多くの現実世界のアプリケーションで大きな成功を収めているが、ユーザが同じアイテムと複数回対話したり、時間とともにユーザーの好みが変わったりした場合、その効果は限られている。 我々は自然言語処理技術がテキストのシーケンスを圧縮し、処理し、分析するアプローチに着想を得た。 我々は,項目推薦タスクの時間次元を誘導するレコメンデーションシステムを設計し,レコメンデーションを行うために各ユーザに対して項目間相互作用のシーケンスを検討する。 本手法は,a/bライブテストにおいて,販売総数を5%増やし,個人顧客支出を50%超増加させるとともに,小売環境の全ユーザに対して,明確なフィードバックを伴わずに,極めて正確なユーザ間インタラクションを予測できることを実証的に示している。

Recommender systems are one of the most successful applications of machine learning and data science. They are successful in a wide variety of application domains, including e-commerce, media streaming content, email marketing, and virtually every industry where personalisation facilitates better user experience or boosts sales and customer engagement. The main goal of these systems is to analyse past user behaviour to predict which items are of most interest to users. They are typically built with the use of matrix-completion techniques such as collaborative filtering or matrix factorisation. However, although these approaches have achieved tremendous success in numerous real-world applications, their effectiveness is still limited when users might interact multiple times with the same items, or when user preferences change over time. We were inspired by the approach that Natural Language Processing techniques take to compress, process, and analyse sequences of text. We designed a recommender system that induces the temporal dimension in the task of item recommendation and considers sequences of item interactions for each user in order to make recommendations. This method is empirically shown to give highly accurate predictions of user-items interactions for all users in a retail environment, without explicit feedback, besides increasing total sales by 5% and individual customer expenditure by over 50% in an A/B live test.
翻訳日:2023-04-04 17:22:15 公開日:2023-04-02
# 深層学習に基づくシーケンシャルフレームワークによる小売業の顧客チャーンモデリング

Modelling customer churn for the retail industry in a deep learning based sequential framework ( http://arxiv.org/abs/2304.00575v1 )

ライセンス: Link先を確認
Juan Pablo Equihua, Henrik Nordmark, Maged Ali, Berthold Lausen(参考訳) 世界中の小売業者が、さまざまなオーディエンスを対象としたターゲットマーケティングキャンペーンの開発に取り組みを増やす中、ビジネス利益を上げるために、マーケティングチームにとって、どの顧客を前倒しにするかを正確に予測することが不可欠である。 この研究は、顧客が非契約条件下で小売企業との購入をやめるリスクがあるかを予測するための、深いサバイバルフレームワークを提供する。 繰り返しニューラルネットワークによって学習されるサバイバルモデルパラメータを活用することで、個々の顧客の振る舞いのみに基づいて行動を購入するための個別レベルのサバイバルモデルを得ることができ、マシンラーニングモデルをトレーニングする際に通常行われる時間を要する機能エンジニアリングプロセスを回避することができる。

As retailers around the world increase efforts in developing targeted marketing campaigns for different audiences, predicting accurately which customers are most likely to churn ahead of time is crucial for marketing teams in order to increase business profits. This work presents a deep survival framework to predict which customers are at risk of stopping to purchase with retail companies in non-contractual settings. By leveraging the survival model parameters to be learnt by recurrent neural networks, we are able to obtain individual level survival models for purchasing behaviour based only on individual customer behaviour and avoid time-consuming feature engineering processes usually done when training machine learning models.
翻訳日:2023-04-04 17:21:51 公開日:2023-04-02
# 変調器フリーデコイ状態量子鍵分布のための簡易強度・位相変調送信器

Simplified intensity- and phase-modulated transmitter for modulator-free decoy-state quantum key distribution ( http://arxiv.org/abs/2304.00574v1 )

ライセンス: Link先を確認
Y. S. Lo, R. I. Woodward, N. Walk, M. Lucamarini, I. De Marco, T. K. Para\"iso, M. Pittaluga, T. Roger, M. Sanzaro, Z. L. Yuan, and A. J. Shields(参考訳) 量子鍵分散(QKD)は、2人のユーザ間の秘密鍵交換を可能にする。 QKDが広くデプロイされるためには、低コストとコンパクト性がハイパフォーマンスと並んで重要な要件である。 現在、多くのqkdシステムは、振幅と相対位相差を正確に定義した光パルスを生成するためにバルク強度と位相変調器に依存しており、情報を信号状態とデコイ状態として符号化している。 しかし、これらの変調器は高価でかさばるため、QKDシステムのコンパクトさは制限される。 そこで本研究では,ghzクロック速度で強度・位相可変パルスを発生させることにより,この欠点を克服する新しい光送信装置の設計を実証する。 本設計では、直接変調レーザーと光注入ロックとコヒーレント干渉を組み合わせることにより、バルク変調器の必要性を解消する。 したがって、このスキームは小型化とフォトニック統合に適しており、潜在的な応用を強調するために原理実証qkdのデモンストレーションを実装している。

Quantum key distribution (QKD) allows secret key exchange between two users with unconditional security. For QKD to be widely deployed, low cost and compactness are crucial requirements alongside high performance. Currently, the majority of QKD systems demonstrated rely on bulk intensity and phase modulators to generate optical pulses with precisely defined amplitude and relative phase difference i.e., to encode information as signal states and decoy states. However, these modulators are expensive and bulky, thereby limiting the compactness of QKD systems. Here, we present and experimentally demonstrate a novel optical transmitter design to overcome this disadvantage by generating intensity- and phase-tunable pulses at GHz clock speeds. Our design removes the need for bulk modulators by employing directly modulated lasers in combination with optical injection locking and coherent interference. This scheme is, therefore, well suited to miniaturization and photonic integration, and we implement a proof-of-principle QKD demonstration to highlight potential applications.
翻訳日:2023-04-04 17:21:39 公開日:2023-04-02
# リスク感性とロバストモデルに基づく強化学習と計画

Risk-Sensitive and Robust Model-Based Reinforcement Learning and Planning ( http://arxiv.org/abs/2304.00573v1 )

ライセンス: Link先を確認
Marc Rigter(参考訳) 製造システムやレコメンデーションシステムなど、現在自動化されている一連の意思決定問題の多くは、不確実性がほとんどないか、あるいは災害のリスクがゼロである環境で動作する。 企業や研究者が制約の少ない環境で自律システムのデプロイを試みる中で、不確実性やリスクを推論できるシーケンシャルな意思決定アルゴリズムを提供することがますます重要になっている。 本論では、逐次意思決定における計画と強化学習(RL)のアプローチについて論じる。 計画設定では、環境のモデルが提供され、そのモデル内でポリシーが最適化されると仮定する。 強化学習は広範囲なランダムな探索に依存しているため、トレーニングを行うためのシミュレータが必要となる。 多くの実世界のドメインでは、完全に正確なモデルやシミュレータを構築することは不可能である。 したがって、環境に関する不完全な知識のため、いかなる政策も必然的に不確実である。 さらに、確率的領域では、環境固有のランダム性のため、任意のランの結果も不確かである。 これら2つの不確実性源は、それぞれてんかんとてんかん性不確実性に分類される。 この論文の全体的な目標は、逐次的意思決定問題における不確実性の原因を両立させるアルゴリズムの開発に貢献することである。 私たちは、モデルベースのアルゴリズムに焦点を当てて、この目標に多くの貢献をしています。

Many sequential decision-making problems that are currently automated, such as those in manufacturing or recommender systems, operate in an environment where there is either little uncertainty, or zero risk of catastrophe. As companies and researchers attempt to deploy autonomous systems in less constrained environments, it is increasingly important that we endow sequential decision-making algorithms with the ability to reason about uncertainty and risk. In this thesis, we will address both planning and reinforcement learning (RL) approaches to sequential decision-making. In the planning setting, it is assumed that a model of the environment is provided, and a policy is optimised within that model. Reinforcement learning relies upon extensive random exploration, and therefore usually requires a simulator in which to perform training. In many real-world domains, it is impossible to construct a perfectly accurate model or simulator. Therefore, the performance of any policy is inevitably uncertain due to the incomplete knowledge about the environment. Furthermore, in stochastic domains, the outcome of any given run is also uncertain due to the inherent randomness of the environment. These two sources of uncertainty are usually classified as epistemic, and aleatoric uncertainty, respectively. The over-arching goal of this thesis is to contribute to developing algorithms that mitigate both sources of uncertainty in sequential decision-making problems. We make a number of contributions towards this goal, with a focus on model-based algorithms...
翻訳日:2023-04-04 17:21:23 公開日:2023-04-02
# 修正フェルミの黄金律率表現

Modified Fermi's golden rule rate expressions ( http://arxiv.org/abs/2304.00572v1 )

ライセンス: Link先を確認
Seogjoo J. Jang and Young Min Rhee(参考訳) フェルミの黄金律(FGR)は、分光観測可能量や量子遷移率の多くの表現の基礎となっている。 FGRの有用性は何十年にもわたって実験的に確認されてきた。 しかし、fgr率の評価が曖昧か不明確な場合にも重要なケースが残っている。 例えば、最終状態の密度やハミルトニアン系の密度が時間依存性の変動を経るため、このレートが分岐項を持つ場合である。 厳密に言えば、FGR の仮定はそのような場合ではもはや有効ではない。 しかし、有効なレートとして有用な修正FGRレート式を定義することは依然として可能である。 修正されたFGRレート表現は、FGRの使用時にしばしば遭遇する長時間のあいまいさを解消し、一般的な%分光データとレートプロセスのモデル化に信頼性の高い方法を提供する。

Fermi's golden rule (FGR) serves as the basis for many expressions of spectroscopic observables and quantum transition rates. The utility of FGR has been demonstrated through decades of experimental confirmation. However, there still remain important cases where the evaluation of a FGR rate is ambiguous or ill-defined. Examples are cases where the rate has divergent terms due to the sparsity in the density of final states or system Hamiltonians go through time dependent fluctuations. Strictly speaking, assumptions of FGR are no longer valid for such cases. However, it is still possible to define modified FGR rate expressions that are useful as effective rates. The resulting modified FGR rate expressions resolve a long standing ambiguity often encountered in using FGR and offer more reliable ways to model general %spectroscopic data and rate processes.
翻訳日:2023-04-04 17:21:02 公開日:2023-04-02
# DropMAE: 追従作業のための空間認識型自動エンコーダ

DropMAE: Masked Autoencoders with Spatial-Attention Dropout for Tracking Tasks ( http://arxiv.org/abs/2304.00571v1 )

ライセンス: Link先を確認
Qiangqiang Wu and Tianyu Yang and Ziquan Liu and Baoyuan Wu and Ying Shan and Antoni B. Chan(参考訳) 本稿では,視覚オブジェクト追跡 (vot) やビデオオブジェクトセグメンテーション (vos) など,マッチングベースの下流タスクのための映像を事前学習するマスク付きオートエンコーダ (mae) について検討する。 MAEの単純な拡張は、ビデオのフレームパッチをランダムにマスクアウトし、フレームピクセルを再構築することである。 しかし,この単純なベースラインはフレーム再構成の時間的関係を無視しながら空間的手がかりに大きく依存していることが判明し,VOTとVOSの時間的マッチング表現が準最適となることがわかった。 そこで本研究では,映像の時間的対応学習を容易にするために,フレーム再構成において空間的意図のドロップアウトを適応的に行うDropMAEを提案する。 その結果,DropMAEは2倍高速な事前学習速度を持つImageNetベースのMAEよりも,マッチングベースタスクの微調整結果の精度が向上することがわかった。 さらに,VOTおよびVOSの性能向上のために,事前学習ビデオの動作の多様性がシーンの多様性よりも重要であることも確認した。 トレーニング済みのDropMAEモデルは、既存のViTベースのトラッカーに直接ロードして、さらなる修正を加えることなく微調整することができる。 特にDropMAEは、9つの競争力のあるビデオ追跡とセグメンテーションデータセットのうち8つに、最先端のパフォーマンスを新たに設定する。 私たちのコードと事前トレーニングされたモデルは、https://github.com/jimmy-dq/dropmae.gitで利用可能です。

In this paper, we study masked autoencoder (MAE) pretraining on videos for matching-based downstream tasks, including visual object tracking (VOT) and video object segmentation (VOS). A simple extension of MAE is to randomly mask out frame patches in videos and reconstruct the frame pixels. However, we find that this simple baseline heavily relies on spatial cues while ignoring temporal relations for frame reconstruction, thus leading to sub-optimal temporal matching representations for VOT and VOS. To alleviate this problem, we propose DropMAE, which adaptively performs spatial-attention dropout in the frame reconstruction to facilitate temporal correspondence learning in videos. We show that our DropMAE is a strong and efficient temporal matching learner, which achieves better finetuning results on matching-based tasks than the ImageNetbased MAE with 2X faster pre-training speed. Moreover, we also find that motion diversity in pre-training videos is more important than scene diversity for improving the performance on VOT and VOS. Our pre-trained DropMAE model can be directly loaded in existing ViT-based trackers for fine-tuning without further modifications. Notably, DropMAE sets new state-of-the-art performance on 8 out of 9 highly competitive video tracking and segmentation datasets. Our code and pre-trained models are available at https://github.com/jimmy-dq/DropMAE.git.
翻訳日:2023-04-04 17:20:48 公開日:2023-04-02
# FedFTN:多施設PETデノベーションのためのDeep Feature Transformation Networkによる個人化フェデレーション学習

FedFTN: Personalized Federated Learning with Deep Feature Transformation Network for Multi-institutional Low-count PET Denoising ( http://arxiv.org/abs/2304.00570v1 )

ライセンス: Link先を確認
Bo Zhou, Huidong Xie, Qiong Liu, Xiongchao Chen, Xueqi Guo, Zhicheng Feng, S. Kevin Zhou, Biao Li, Axel Rominger, Kuangyu Shi, James S. Duncan, Chi Liu(参考訳) 低位PETは放射線照射と取得時間を短縮する効率的な方法であるが、再構成された画像は低信号対雑音比 (SNR) に悩まされることが多く、診断や下流作業に影響を及ぼす。 近年のディープラーニングの進歩は,PET画像の品質向上に大きな可能性を示しているが,患者データのプライバシやセキュリティ上の懸念から,堅牢なモデルをトレーニングするために,複数の機関から大規模で集中的かつ多様なデータセットを取得することは困難である。 さらに、異なる機関のローカウンドpetデータは異なるデータ分布を持つため、パーソナライズされたモデルが必要となる。 従来のフェデレーション学習(fl)アルゴリズムでは,ローカルデータの集約を必要とせずに,多施設共同トレーニングを可能にするが,複数機関の低人数petデノイジング適用における大きなドメインシフトへの対処は依然として課題であり,未検討のままである。 本稿では,これらの課題に対処する個人化されたフェデレーション学習戦略であるFedFTNを提案する。 FedFTNは、ローカルなディープ・フィーチャー・トランスフォーメーション・ネットワーク(FTN)を使用して、グローバルに共有されているデノナイジング・ネットワークの機能出力を変調し、各機関でパーソナライズされたローカウントPETデノナイジングを可能にする。 連合学習の過程では、分断ネットワークの重みのみが通信され、集約され、一方ftnは特徴変換のための地方機関に残る。 本手法は,3大陸にまたがる3つの医療センターの多施設間におけるPET画像データの大規模データセットを用いて評価し,FedFTNが高品質なPET画像を提供することを示した。

Low-count PET is an efficient way to reduce radiation exposure and acquisition time, but the reconstructed images often suffer from low signal-to-noise ratio (SNR), thus affecting diagnosis and other downstream tasks. Recent advances in deep learning have shown great potential in improving low-count PET image quality, but acquiring a large, centralized, and diverse dataset from multiple institutions for training a robust model is difficult due to privacy and security concerns of patient data. Moreover, low-count PET data at different institutions may have different data distribution, thus requiring personalized models. While previous federated learning (FL) algorithms enable multi-institution collaborative training without the need of aggregating local data, addressing the large domain shift in the application of multi-institutional low-count PET denoising remains a challenge and is still highly under-explored. In this work, we propose FedFTN, a personalized federated learning strategy that addresses these challenges. FedFTN uses a local deep feature transformation network (FTN) to modulate the feature outputs of a globally shared denoising network, enabling personalized low-count PET denoising for each institution. During the federated learning process, only the denoising network's weights are communicated and aggregated, while the FTN remains at the local institutions for feature transformation. We evaluated our method using a large-scale dataset of multi-institutional low-count PET imaging data from three medical centers located across three continents, and showed that FedFTN provides high-quality low-count PET images, outperforming previous baseline FL reconstruction methods across all low-count levels at all three institutions.
翻訳日:2023-04-04 17:20:25 公開日:2023-04-02
# 入力制約付き離散時間多次元確率線形システムの学習型適応制御のための安定性境界

Stability Bounds for Learning-Based Adaptive Control of Discrete-Time Multi-Dimensional Stochastic Linear Systems with Input Constraints ( http://arxiv.org/abs/2304.00569v1 )

ライセンス: Link先を確認
Seth Siriya, Jingge Zhu, Dragan Ne\v{s}i\'c, Ye Pu(参考訳) 実システムのパラメータが不明な有界制御入力制約と非有界確率障害を有する離散時間多次元線形系の適応安定化問題を考える。 そこで本研究では,オンラインパラメータ推定と飽和線形制御を組み合わせた等価な制御手法を提案する。 閉ループ系に束縛された高確率安定性の存在を,システムおよびノイズプロセスに関する追加の仮定の下で確立する。 最後に, この結果を示す数値的な例を示す。

We consider the problem of adaptive stabilization for discrete-time, multi-dimensional linear systems with bounded control input constraints and unbounded stochastic disturbances, where the parameters of the true system are unknown. To address this challenge, we propose a certainty-equivalent control scheme which combines online parameter estimation with saturated linear control. We establish the existence of a high probability stability bound on the closed-loop system, under additional assumptions on the system and noise processes. Finally, numerical examples are presented to illustrate our results.
翻訳日:2023-04-04 17:19:52 公開日:2023-04-02
# 動的対称性による多成分絡み合いの計測

Metrological detection of multipartite entanglement through dynamical symmetries ( http://arxiv.org/abs/2304.00564v1 )

ライセンス: Link先を確認
Yu-Ran Zhang, Franco Nori(参考訳) 量子フィッシャー情報(QFI)を特徴とするマルチパーティの絡み合いは、量子エンハンスド・メトロジーと量子多体物理学の理解において中心的な役割を果たす。 マズール・スズキ関係の動的一般化により、熱ギブス状態に対するQFIの厳密な下界を動的対称性、すなわち周期時間依存の作用素で提供する。 この境界は、力学対称性の完全集合を考えると飽和することができる。 さらに、この動的対称性による下界は、固有状態熱化仮説によって予測される、QFI行列とQFIに一般化することができる。 本研究は,非定常力学特性から,多粒子交絡などの平衡系の一般化分散を検出する新しい視点を明らかにし,創発的非平衡多体物理学の研究を約束する。

Multipartite entanglement, characterized by the quantum Fisher information (QFI), plays a central role in quantum-enhanced metrology and understanding quantum many-body physics. With a dynamical generalization of the Mazur-Suzuki relations, we provide a rigorous lower bound on the QFI for the thermal Gibbs states in terms of dynamical symmetries, i.e., operators with periodic time dependence. We demonstrate that this bound can be saturated when considering a complete set of dynamical symmetries. Moreover, this lower bound with dynamical symmetries can be generalized to the QFI matrix and to the QFI for the thermal pure states, predicted by the eigenstate thermalization hypothesis. Our results reveal a new perspective to detect multipartite entanglement and other generalized variances in an equilibrium system, from its nonstationary dynamical properties, and is promising for studying emergent nonequilibrium many-body physics.
翻訳日:2023-04-04 17:19:42 公開日:2023-04-02
# 深層学習技術を用いた衛星画像からの水田自然災害自動検出

Automatic Detection of Natural Disaster Effect on Paddy Field from Satellite Images using Deep Learning Techniques ( http://arxiv.org/abs/2304.00622v1 )

ライセンス: Link先を確認
Tahmid Alavi Ishmam, Amin Ahsan Ali, Md Ahsraful Amin, A K M Mahbubur Rahman(参考訳) 本研究では,バングラデシュの自然災害による水田被害を高解像度衛星画像を用いて検出することを目的とする。 著者らは,田畑被害の実態データを開発した。 まず、災害前後のNDVI差を算出し、農作物の損失を推定する。 0.33の閾値以上は、大きな変化が観測されるにつれて、作物の損失領域としてマークされる。 著者らはまた、現地の農家からデータを収集して作物の喪失地域を検証した。 その後、衛星データ(赤、緑、青)と(偽色赤外線)の異なる帯域が作物の損失領域を検出するのに有用である。 我々はNDVIの異なる画像を使ってDeepLabV3plusモデルをトレーニングした。 RGBではIoU 0.41、FCIではIoU 0.51です。 FCIは、NIR、赤、青のバンドとNDVIは、NIRと赤のバンドで正規化されているため、RGBよりも大きなFCIのIoUスコアが期待できる。 しかし、RGBはここではあまり役に立たない。 したがって、他のバンドが利用できない場合、RGBはある程度、作物の損失領域を理解するのに使える。 本稿では,Bing や Google などの高解像度 RGB 画像のみのセグメンテーションモデルに利用することができる。

This paper aims to detect rice field damage from natural disasters in Bangladesh using high-resolution satellite imagery. The authors developed ground truth data for rice field damage from the field level. At first, NDVI differences before and after the disaster are calculated to identify possible crop loss. The areas equal to and above the 0.33 threshold are marked as crop loss areas as significant changes are observed. The authors also verified crop loss areas by collecting data from local farmers. Later, different bands of satellite data (Red, Green, Blue) and (False Color Infrared) are useful to detect crop loss area. We used the NDVI different images as ground truth to train the DeepLabV3plus model. With RGB, we got IoU 0.41 and with FCI, we got IoU 0.51. As FCI uses NIR, Red, Blue bands and NDVI is normalized difference between NIR and Red bands, so greater FCI's IoU score than RGB is expected. But RGB does not perform very badly here. So, where other bands are not available, RGB can use to understand crop loss areas to some extent. The ground truth developed in this paper can be used for segmentation models with very high resolution RGB only images such as Bing, Google etc.
翻訳日:2023-04-04 17:14:32 公開日:2023-04-02
# CERNの長基線原子干渉計:概念可能性研究

A Long-Baseline Atom Interferometer at CERN: Conceptual Feasibility Study ( http://arxiv.org/abs/2304.00614v1 )

ライセンス: Link先を確認
G. Arduini, L. Badurina, K. Balazs, C. Baynham, O. Buchmueller, M. Buzio, S. Calatroni, J.-P. Corso, J. Ellis, Ch. Gaignant, M. Guinchard, T. Hakulinen, R. Hobson, A. Infantino, D. Lafarge, R. Langlois, C. Marcel, J. Mitchell, M. Parodi, M. Pentella, D. Valuch, H. Vincke(参考訳) 本稿では,加速器(pbc)研究グループによる探索研究の結果について,cernのサイトと,約100mのベースラインを持つ垂直原子干渉計(ai)をホストするインフラの適合性について述べる。 まず,超軽量暗黒物質を探索し,重力波を計測する実験の科学的動機を概説し,原子干渉計の一般的な技術要件を例として,AION-100プロジェクトを用いて概説した。 本稿では,大型ハドロン衝突型加速器 (lhc) へのpx46アクセスシャフト内のcernサイトについて述べる。 次に、このような実験の技術的要件と、どのようなアップグレードが必要かを評価する。 我々は,lhcマシンとその周辺機器の近接に関する問題点を分析し,予備的安全性解析と必要な緩和対策とインフラ整備を提案する。 結論として,プライマリコストドライバを特定し,lhc運転から発生する実験的なインストールと運用スケジュールの制約を記述する。 CERNのサイトは、垂直ベースラインが約100mのAI実験の非常に有望な場所です。

We present results from exploratory studies, supported by the Physics Beyond Colliders (PBC) Study Group, of the suitability of a CERN site and its infrastructure for hosting a vertical atom interferometer (AI) with a baseline of about 100 m. We first review the scientific motivations for such an experiment to search for ultralight dark matter and measure gravitational waves, and then outline the general technical requirements for such an atom interferometer, using the AION-100 project as an example. We present a possible CERN site in the PX46 access shaft to the Large Hadron Collider (LHC), including the motivations for this choice and a description of its infrastructure. We then assess its compliance with the technical requirements of such an experiment and what upgrades may be needed. We analyse issues related to the proximity of the LHC machine and its ancillary hardware and present a preliminary safety analysis and the required mitigation measures and infrastructure modifications. In conclusion, we identify primary cost drivers and describe constraints on the experimental installation and operation schedules arising from LHC operation. We find no technical obstacles: the CERN site is a very promising location for an AI experiment with a vertical baseline of about 100 m.
翻訳日:2023-04-04 17:14:13 公開日:2023-04-02
# 信頼強化型強化学習を用いた時間知識グラフのファウショット帰納学習の改善

Improving Few-Shot Inductive Learning on Temporal Knowledge Graphs using Confidence-Augmented Reinforcement Learning ( http://arxiv.org/abs/2304.00613v1 )

ライセンス: Link先を確認
Zifeng Ding, Jingpei Wu, Zongyue Li, Yunpu Ma, Volker Tresp(参考訳) 時間知識グラフ補完(TKGC)は、時間的knwoledge graph(TKG)におけるエンティティ間の欠落したリンクを予測することを目的としている。 従来のtkgc法は、トレーニングセットに見られるエンティティ間の欠落リンクの予測しか考慮していないが、新しい未発見のエンティティに関するリンク予測において大きな性能を達成できない。 近年,新たなタスクであるoogリンク予測が提案されている。tkgcモデルでは,少数の観測例しか持たない新たに出現したエンティティについて,高いリンク予測性能を実現する必要がある。 本研究では,この課題を解決するために,少数ショット学習と強化学習を組み合わせたTKGC手法FITCARLを提案する。 FITCARLでは、エージェントがTKG全体を横切り、予測応答を検索する。 ポリシネットワークは、トラバースされたパスに基づいて検索プロセスを導くように設計されている。 数ショット設定におけるデータ不足問題に対処するため、各候補アクションの信頼性を計算し、アクション選択のポリシーに統合するモジュールを導入する。 また、エンティティ概念情報を新しい概念正規化器で活用し、モデル性能を向上させる。 実験の結果, fitcarl は tkg 数発 oog リンクの予測において stat-of-the-art 性能を達成した。

Temporal knowledge graph completion (TKGC) aims to predict the missing links among the entities in a temporal knwoledge graph (TKG). Most previous TKGC methods only consider predicting the missing links among the entities seen in the training set, while they are unable to achieve great performance in link prediction concerning newly-emerged unseen entities. Recently, a new task, i.e., TKG few-shot out-of-graph (OOG) link prediction, is proposed, where TKGC models are required to achieve great link prediction performance concerning newly-emerged entities that only have few-shot observed examples. In this work, we propose a TKGC method FITCARL that combines few-shot learning with reinforcement learning to solve this task. In FITCARL, an agent traverses through the whole TKG to search for the prediction answer. A policy network is designed to guide the search process based on the traversed path. To better address the data scarcity problem in the few-shot setting, we introduce a module that computes the confidence of each candidate action and integrate it into the policy for action selection. We also exploit the entity concept information with a novel concept regularizer to boost model performance. Experimental results show that FITCARL achieves stat-of-the-art performance on TKG few-shot OOG link prediction.
翻訳日:2023-04-04 17:13:52 公開日:2023-04-02
# 大きな言語モデルについて知っておくべき8つのこと

Eight Things to Know about Large Language Models ( http://arxiv.org/abs/2304.00612v1 )

ライセンス: Link先を確認
Samuel R. Bowman(参考訳) 近年の大規模言語モデル(LLM)の普及は、多くの分野の支持者、政策立案者、学者から新たな注目と関与の波を引き起こしている。 この注目は、この技術が提起する多くの緊急質問に対するタイムリーな回答であるが、時には重要な考慮を見逃すことがある。 本稿は, 目標とするイノベーションを伴わずとも, 投資の増加に期待できる能力を有するLCMについて, 8つの潜在的驚きの証拠を調査する。 2.投資増加の副産物として多くの重要なLCM行動が予測不能に現れる。 3. llmは、しばしば外部の世界の表現を学習し使用する。 4. LLMの動作を制御するための信頼性の高い技術はない。 5. 専門家は、まだLLMの内部動作を解釈できない。 6. タスクにおけるヒューマンパフォーマンスは、llmパフォーマンスの上限ではありません。 7. LLM は作成者の値や Web テキストにエンコードされた値を表現する必要はない。 8. LLM との簡単な相互作用は、しばしば誤解を招く。

The widespread public deployment of large language models (LLMs) in recent months has prompted a wave of new attention and engagement from advocates, policymakers, and scholars from many fields. This attention is a timely response to the many urgent questions that this technology raises, but it can sometimes miss important considerations. This paper surveys the evidence for eight potentially surprising such points: 1. LLMs predictably get more capable with increasing investment, even without targeted innovation. 2. Many important LLM behaviors emerge unpredictably as a byproduct of increasing investment. 3. LLMs often appear to learn and use representations of the outside world. 4. There are no reliable techniques for steering the behavior of LLMs. 5. Experts are not yet able to interpret the inner workings of LLMs. 6. Human performance on a task isn't an upper bound on LLM performance. 7. LLMs need not express the values of their creators nor the values encoded in web text. 8. Brief interactions with LLMs are often misleading.
翻訳日:2023-04-04 17:13:28 公開日:2023-04-02
# 一次元ボゾン系におけるKac-Moody対称性

Kac-Moody symmetries in one-dimensional bosonic systems ( http://arxiv.org/abs/2304.00609v1 )

ライセンス: Link先を確認
Wei Tang, Jutho Haegeman(参考訳) 共形場の理論では、共形対称性が大域的なリー群対称性によって強化されたとき、元のヴィラソロ代数はカック・ムーディ代数に拡張できる。 本稿では,[Wang et al., Phys. B. 106, 115111 (2022)]で導入されたKac-Moodyジェネレータの格子構造を連続系に拡張し, 一次元連続ボソン系に適用する。 我々は、カク・ムーディー・ジェネレータのこの微細構造を2つの方法で正当化する。 まず、現象的ボゾン化を通じて、共形場理論におけるKac-Moody生成と関連するボゾン化文脈におけるボゾン作用素の観点から、微視的な構造を表現する。 次に,可積分リーブ・ライニガーモデルにおけるKac-Moody生成体の挙動について検討し,その基礎となる粒子ホール励起像をBetheアンザッツ溶液で明らかにした。 最後に, CMPSシミュレーションにおけるKac-Moodyジェネレータの計算を検証し, より困難な非可積分系への道を開く。

In conformal field theories, when the conformal symmetry is enhanced by a global Lie group symmetry, the original Virasoro algebra can be extended to the Kac-Moody algebra. In this paper, we extend the lattice construction of the Kac-Moody generators introduced in [Wang et al., Phys. Rev. B. 106, 115111 (2022)] to continuous systems and apply it to one-dimensional continuous boson systems. We justify this microscopic construction of Kac-Moody generators in two ways. First, through phenomenological bosonization, we express the microscopic construction in terms of the boson operators in the bosonization context, which can be related to the Kac-Moody generators in the conformal field theories. Second, we study the behavior of the Kac-Moody generators in the integrable Lieb-Liniger model, and reveal its underlying particle-hole excitation picture through the Bethe ansatz solutions. Finally, we test the computation of the Kac-Moody generator in the cMPS simulations, paving the way for more challenging non-integrable systems.
翻訳日:2023-04-04 17:13:12 公開日:2023-04-02
# 量子論における関係論を超えて

Beyond relationalism in quantum theory ( http://arxiv.org/abs/2304.00608v1 )

ライセンス: Link先を確認
Francisco Pipa(参考訳) 量子論の基礎と哲学における影響力ある伝統は、QTを隠れ変数で補足することを拒否し、ユニタリQTが正しいとみなすならば、QTに対するリレーショナルなアプローチを採用するべきであると主張している。 このアプローチは、測定結果を例えば世界、システム、エージェント、参照フレームに相対化する。 これには、エヴェレットのQTの相対的状態の定式化、多世界解釈、関係量子力学、QB主義、ヒーリーのプラグマティズム、ディークのパースペクティヴ・モーダル解釈が含まれる。 これらのアプローチには、魅力のないコストが伴う。 決定性に基づく量子論(ebqt)と呼ばれる合理的な代替アプローチを示すことによって、非隠れ変数ユニタリ普遍量子論を持つためには、関係論の採用は不要であると主張する。 ebqtは、リレーショナルでもパースペクティブでもない決定的および不確定的プロパティのアカウントを構築することによって、リレーショナル主義を回避する。 さらに、リレーショナルリストのアプローチが不要な複雑化をもたらす可能性があり、よりコストのかかる代替手段が存在することも示している。 この説明では、決定的な性質は宇宙の初期に発生し、それらはシステム間の相互作用によって発生し、持続する。 リレーショナルストが測定結果が相対性化されていると仮定するよう迫られる状況では、決定的な結果はない。 我々は全く不確定な性質を持つシステムを得る。

An influential tradition in the foundations and philosophy of quantum theory (QT) claims that if we reject supplementing QT with hidden variables and consider that unitary QT is correct and universal, we should adopt a relationalist approach to QT. This approach relativizes measurement outcomes to, for example, worlds, systems, agents, or reference frames. It includes Everett's Relative State formulation of QT, the Many-worlds Interpretation, Relational Quantum Mechanics, QBism, Healey's Pragmatism, and Diek's perspectival modal interpretation. These approaches have potential costs that may make them unattractive. By presenting a plausible alternative approach called Endeterminacy-based quantum theory (EBQT), I argue that adopting relationalism is unnecessary in order to have a non-hidden variable unitary universal quantum theory. EBQT circumvents relationalism by constructing an account of determinate and indeterminate properties that is neither relational nor perspectival. Moreover, it shows that relationalist approaches potentially add unnecessary complications and that a less costly alternative may exist. In this account, determinate properties arose in the early stages of the universe, and they keep arising and persisting due to interactions between systems. In certain situations where a relationalist is pressed to assume that measured outcomes are relativized, there are no determinate outcomes. We rather obtain systems with absolutely indeterminate properties.
翻訳日:2023-04-04 17:12:37 公開日:2023-04-02
# コンストラクティブ同化:ビュー生成戦略によるコントラスト学習性能の向上

Constructive Assimilation: Boosting Contrastive Learning Performance through View Generation Strategies ( http://arxiv.org/abs/2304.00601v1 )

ライセンス: Link先を確認
Ligong Han, Seungwook Han, Shivchander Sudalairaj, Charlotte Loh, Rumen Dangovski, Fei Deng, Pulkit Agrawal, Dimitris Metaxas, Leonid Karlinsky, Tsui-Wei Weng, Akash Srivastava(参考訳) ドメインの専門知識に基づく変換(ランダムサイズクロップやカラージッターなどの専門的変換)は、simclrのようなコントラスト学習手法の成功に決定的であることが証明されている。 近年、このようなドメイン固有の人間設計の変換を学習されたビューで置き換える試みがいくつか行われている。 しかし、画像データについては、これらのビュージェネレーション手法が専門家の変換より優れているものはない。 専門家の変換を生成されたビューに置き換える代わりに、私たちは、生成されたビューと専門家の変換を構成的に同化できるだろうか? 本稿では、この疑問を肯定的に解き、三つの異なるデータセットに対して最大3.6%改善するビュー生成法と簡易で効果的な同化法を提案する。 重要となるのは,様々な視点生成法と同化法を体系的に分析し,コントラスト表現学習における学習視点の有効性の全体像を提供する,詳細な実験研究である。

Transformations based on domain expertise (expert transformations), such as random-resized-crop and color-jitter, have proven critical to the success of contrastive learning techniques such as SimCLR. Recently, several attempts have been made to replace such domain-specific, human-designed transformations with generated views that are learned. However for imagery data, so far none of these view-generation methods has been able to outperform expert transformations. In this work, we tackle a different question: instead of replacing expert transformations with generated views, can we constructively assimilate generated views with expert transformations? We answer this question in the affirmative and propose a view generation method and a simple, effective assimilation method that together improve the state-of-the-art by up to ~3.6% on three different datasets. Importantly, we conduct a detailed empirical study that systematically analyzes a range of view generation and assimilation methods and provides a holistic picture of the efficacy of learned views in contrastive representation learning.
翻訳日:2023-04-04 17:12:02 公開日:2023-04-02
# 再帰のない再帰:深い平衡モデルによる安定したビデオランドマーク検出

Recurrence without Recurrence: Stable Video Landmark Detection with Deep Equilibrium Models ( http://arxiv.org/abs/2304.00600v1 )

ライセンス: Link先を確認
Paul Micaelli, Arash Vahdat, Hongxu Yin, Jan Kautz, Pavlo Molchanov(参考訳) 予測を数段階にわたって繰り返し洗練するカスケード計算は、ランドマーク検出モデルの開発を通じて永続的なテーマとなっている。 本研究では,最近提案されたDeep Equilibrium Model (DEQ) が,この計算形式に自然に適応可能であることを示す。 我々のランドマークDEQ(LDEQ)は、挑戦的なWFLW顔ランドマークデータセットの最先端のパフォーマンスを達成し、パラメータが少なくてトレーニングメモリコストが$\mathcal{O}(1)$である3.92$NMEに達した。 さらに,deqは映像中のランドマーク検出に特に適していることを示す。 この設定では、ラベル付きビデオがないため、静止画を訓練するのが一般的である。 これにより、連続するフレーム間で異なる可視性ソリューション間でモデルが素早く振動する、ビデオの推論時間における‘flickering’効果が生じる可能性がある。 deqを制約付き最適化として再現することで、トレーニング時に時間データにアクセスできなくても、推論時に再帰をエミュレートする。 このRecurrence without Recurrence(RwR)パラダイムは、ランドマークフリックを低減し、新しいメトリック、正規化平均フリック(NMF)を導入し、ランドマーク不確実性をターゲットとした新しい顔ランドマークビデオデータセット(WFLW-V)をコントリビュートする。 500ドルのビデオで構成されたWFLW-Vハードサブセットでは、手作りの従来のフィルターを使った最強のモデルと比較して、RwRを使ったLDEQはNMEとNMFをそれぞれ10ドルと13セントで改善します。

Cascaded computation, whereby predictions are recurrently refined over several stages, has been a persistent theme throughout the development of landmark detection models. In this work, we show that the recently proposed Deep Equilibrium Model (DEQ) can be naturally adapted to this form of computation. Our Landmark DEQ (LDEQ) achieves state-of-the-art performance on the challenging WFLW facial landmark dataset, reaching $3.92$ NME with fewer parameters and a training memory cost of $\mathcal{O}(1)$ in the number of recurrent modules. Furthermore, we show that DEQs are particularly suited for landmark detection in videos. In this setting, it is typical to train on still images due to the lack of labelled videos. This can lead to a ``flickering'' effect at inference time on video, whereby a model can rapidly oscillate between different plausible solutions across consecutive frames. By rephrasing DEQs as a constrained optimization, we emulate recurrence at inference time, despite not having access to temporal data at training time. This Recurrence without Recurrence (RwR) paradigm helps in reducing landmark flicker, which we demonstrate by introducing a new metric, normalized mean flicker (NMF), and contributing a new facial landmark video dataset (WFLW-V) targeting landmark uncertainty. On the WFLW-V hard subset made up of $500$ videos, our LDEQ with RwR improves the NME and NMF by $10$ and $13\%$ respectively, compared to the strongest previously published model using a hand-tuned conventional filter.
翻訳日:2023-04-04 17:11:44 公開日:2023-04-02
# pk-chat:ポインターネットワーク誘導知識駆動生成対話モデル

PK-Chat: Pointer Network Guided Knowledge Driven Generative Dialogue Model ( http://arxiv.org/abs/2304.00592v1 )

ライセンス: Link先を確認
Cheng Deng, Bo Tong, Luoyi Fu, Jiaxin Ding, Dexing Cao, Xinbing Wang, Chenghu Zhou(参考訳) エンド・ツー・エンドの対話システムの研究では、現実世界の知識を用いて、正しい答えを持つ自然、流麗、人間のような発話を生成することが重要である。 しかし、ドメイン固有の会話対話システムは、語彙外問題やニューラルネットワークのパラメータからの誤った知識によって、誤った外部情報を導入して質問に答えることができない。 本稿では,知識グラフ上の統合事前学習言語モデルとポインタネットワークを組み込んだ,知識駆動対話モデルであるpk-chatを提案する。 対話中のpkチャットによって生成された単語は、単語リストの予測と、外部知識グラフ知識の直接予測から導出される。 また,pkチャットに基づき,地理科学における学術シナリオのための対話システムを構築した。 最後にアカデミック対話ベンチマークを構築し,アカデミックシナリオにおける対話システムの品質評価を行い,ソースコードをオンラインで公開する。

In the research of end-to-end dialogue systems, using real-world knowledge to generate natural, fluent, and human-like utterances with correct answers is crucial. However, domain-specific conversational dialogue systems may be incoherent and introduce erroneous external information to answer questions due to the out-of-vocabulary issue or the wrong knowledge from the parameters of the neural network. In this work, we propose PK-Chat, a Pointer network guided Knowledge-driven generative dialogue model, incorporating a unified pretrained language model and a pointer network over knowledge graphs. The words generated by PK-Chat in the dialogue are derived from the prediction of word lists and the direct prediction of the external knowledge graph knowledge. Moreover, based on the PK-Chat, a dialogue system is built for academic scenarios in the case of geosciences. Finally, an academic dialogue benchmark is constructed to evaluate the quality of dialogue systems in academic scenarios and the source code is available online.
翻訳日:2023-04-04 17:11:11 公開日:2023-04-02
# トランスフォーマーを用いたシーングラフと画像の類似性学習

Learning Similarity between Scene Graphs and Images with Transformers ( http://arxiv.org/abs/2304.00590v1 )

ライセンス: Link先を確認
Yuren Cong, Wentong Liao, Bodo Rosenhahn, Michael Ying Yang(参考訳) シーングラフの生成は(平均)Recall@Kによって評価され、これは地上の真実に現れる正確な予測三重項の比率を測定する。 しかし、このようなトリプレット指向のメトリクスは、シーングラフのグローバルな意味情報を捉えることができず、画像と生成されたシーングラフの類似性を測定する。 したがって、シーングラフのユーザビリティは下流タスクで制限される。 この問題に対処するためには、シーングラフと画像の類似性を測定するフレームワークが必要である。 コントラスト言語-画像事前学習(clip)の成功に動機づけられて,グラフトランスフォーマと画像トランスフォーマによる,シーングラフとその対応画像を共有潜在空間に整列する新しいコントラスト学習フレームワークを提案する。 グラフ変換器はシーングラフの構造を理解して代表的特徴を抽出するために,シーングラフを構造的エンコーディングでシーケンスに変換するグラフシリアライズ手法を導入する。 この枠組みに基づき,シーングラフ生成のための新しい評価指標としてr-precision測定画像検索精度を導入し,視覚ゲノムとオープン画像データセットの新しいベンチマークを確立する。 さらに,シーングラフエンコーダとしての可能性を示すグラフトランスの有効性を示すために,一連の実験が実施された。

Scene graph generation is conventionally evaluated by (mean) Recall@K, which measures the ratio of correctly predicted triplets that appear in the ground truth. However, such triplet-oriented metrics cannot capture the global semantic information of scene graphs, and measure the similarity between images and generated scene graphs. The usability of scene graphs is therefore limited in downstream tasks. To address this issue, a framework that can measure the similarity of scene graphs and images is urgently required. Motivated by the successful application of Contrastive Language-Image Pre-training (CLIP), we propose a novel contrastive learning framework consisting of a graph Transformer and an image Transformer to align scene graphs and their corresponding images in the shared latent space. To enable the graph Transformer to comprehend the scene graph structure and extract representative features, we introduce a graph serialization technique that transforms a scene graph into a sequence with structural encoding. Based on our framework, we introduce R-Precision measuring image retrieval accuracy as a new evaluation metric for scene graph generation and establish new benchmarks for the Visual Genome and Open Images datasets. A series of experiments are further conducted to demonstrate the effectiveness of the graph Transformer, which shows great potential as a scene graph encoder.
翻訳日:2023-04-04 17:10:56 公開日:2023-04-02
# ラムゼー干渉法による低温原子イメージングのためのレーザー強度の直接校正

Direct Calibration of Laser Intensity via Ramsey Interferometry for Cold Atom Imaging ( http://arxiv.org/abs/2304.00656v1 )

ライセンス: Link先を確認
Emine Altuntas and Ian B. Spielman(参考訳) 極低温原子実験の大部分は共鳴吸収イメージング技術を用いて原子密度を得る。 十分に制御された定量的測定を行うには、プローブビームの光学強度を原子飽和強度${I_{\rm sat}}$の単位で正確に調整する必要がある。 量子ガス実験では、原子サンプルは超高真空システムに閉じ込められ、光学的アクセスの損失と制限が生じる。 ここでは、量子コヒーレンスを用いて、ラムゼー干渉法による${I_{\rm sat}}$の単位のプローブビーム強度を測定する堅牢な手法を作成する。 本手法は、外共振プローブビームによる原子レベルのアクスタークシフトを特徴付ける。 さらに、この技術は、原子雲の位置におけるプローブ強度の空間的変動へのアクセスを与える。 また、撮像センサの直前のプローブ強度を直接測定することにより、センサの量子効率だけでなく、撮像システム損失の直接校正も得られる。

A majority of ultracold atom experiments utilize resonant absorption imaging techniques to obtain the atomic density. To make well-controlled quantitative measurements, the optical intensity of the probe beam must be precisely calibrated in units of the atomic saturation intensity ${I_{\rm sat}}$. In quantum gas experiments, the atomic sample is enclosed in an ultra-high vacuum system that introduces loss and limits optical access; this precludes a direct determination of the intensity. Here, we use quantum coherence to create a robust technique for measuring the probe beam intensity in units of ${I_{\rm sat}}$ via Ramsey interferometry. Our technique characterizes the ac Stark shift of the atomic levels due to an off-resonant probe beam. Furthermore, this technique gives access to the spatial variation of the probe intensity at the location of the atomic cloud. By directly measuring the probe intensity just before the imaging sensor our method in addition yields a direct calibration of imaging system losses as well as the quantum efficiency of the sensor.
翻訳日:2023-04-04 17:04:18 公開日:2023-04-02
# 領域オントロジーによる数値データセットのクラスタ品質向上

Enhancing Cluster Quality of Numerical Datasets with Domain Ontology ( http://arxiv.org/abs/2304.00653v1 )

ライセンス: Link先を確認
Sudath Rohitha Heiyanthuduwage, Md Anisur Rahman and Md Zahidul Islam(参考訳) オントロジベースのクラスタリングは近年、オントロジの潜在的な利点のために注目を集めている。 現在のオントロジベースのクラスタリングアプローチは、主にテキスト文書のクラスタリングにおける属性の次元性を減らすために適用されている。 オントロジーを用いた属性の次元の削減は、データセットの高品質なクラスタ作成に役立つ。 しかし、クラスタリング数値データセットにおけるオントロジーに基づくアプローチは十分に注目されていない。 さらに、オントロジーに基づくクラスタリングは、データセットから高品質または低品質のクラスタを生成することができる、という文献もある。 そこで,本稿では,ドメインオントロジーを用いた数値データセットにおける属性の次元性を低減し,高品質なクラスタを作成するために,ドメインオントロジーに基づくクラスタリング手法を提案する。 データセット毎にドメインオントロジーを使って3つのデータセットを生成します。 次に、GenClust++と呼ばれる遺伝的アルゴリズムに基づくクラスタリング手法を用いて、これらのデータセットをクラスタ化する。 各データセットのクラスタは、SSE(Sum of Squared-Error)の観点から評価される。 オントロジーに基づく手法の性能評価には,6つの数値データセットを用いる。 提案手法の実験結果から,クラスタの品質は,ドメインオントロジーの下位レベルから上位レベルへと徐々に向上することが示唆された。

Ontology-based clustering has gained attention in recent years due to the potential benefits of ontology. Current ontology-based clustering approaches have mainly been applied to reduce the dimensionality of attributes in text document clustering. Reduction in dimensionality of attributes using ontology helps to produce high quality clusters for a dataset. However, ontology-based approaches in clustering numerical datasets have not been gained enough attention. Moreover, some literature mentions that ontology-based clustering can produce either high quality or low-quality clusters from a dataset. Therefore, in this paper we present a clustering approach that is based on domain ontology to reduce the dimensionality of attributes in a numerical dataset using domain ontology and to produce high quality clusters. For every dataset, we produce three datasets using domain ontology. We then cluster these datasets using a genetic algorithm-based clustering technique called GenClust++. The clusters of each dataset are evaluated in terms of Sum of Squared-Error (SSE). We use six numerical datasets to evaluate the performance of our ontology-based approach. The experimental results of our approach indicate that cluster quality gradually improves from lower to the higher levels of a domain ontology.
翻訳日:2023-04-04 17:04:01 公開日:2023-04-02
# 多言語単語誤り率推定:e-wer3

Multilingual Word Error Rate Estimation: e-WER3 ( http://arxiv.org/abs/2304.00649v1 )

ライセンス: Link先を確認
Shammur Absar Chowdhury and Ahmed Ali(参考訳) 多言語自動音声認識システムの成功は多くの音声駆動応用に力を与えた。 しかし、単言語・多言語両方のシナリオにおいて手書き音声データに依存するため、このようなシステムの性能測定は依然として大きな課題である。 本稿では,単語誤り率を推定するために,音響および語彙表現を共同で訓練した新しい多言語フレームワークeWER3を提案する。 eWER3の有効性を実証する。 (i)ASRの内部状態を使わずにWERを予測し、 (ii)近接関係言語の性能を高めるために多言語共用潜在空間を用いる。 提案する多言語モデルでは,従来の単言語単語誤り率推定法 (ewer2) よりもピアソン相関係数 (pcc) の絶対 9 % 向上により,予測値と参照値の総合的な推定精度が向上した。

The success of the multilingual automatic speech recognition systems empowered many voice-driven applications. However, measuring the performance of such systems remains a major challenge, due to its dependency on manually transcribed speech data in both mono- and multilingual scenarios. In this paper, we propose a novel multilingual framework -- eWER3 -- jointly trained on acoustic and lexical representation to estimate word error rate. We demonstrate the effectiveness of eWER3 to (i) predict WER without using any internal states from the ASR and (ii) use the multilingual shared latent space to push the performance of the close-related languages. We show our proposed multilingual model outperforms the previous monolingual word error rate estimation method (eWER2) by an absolute 9\% increase in Pearson correlation coefficient (PCC), with better overall estimation between the predicted and reference WER.
翻訳日:2023-04-04 17:03:45 公開日:2023-04-02
# オーバーラップギャッププロパティからの Combinatorial NLTS

Combinatorial NLTS From the Overlap Gap Property ( http://arxiv.org/abs/2304.00643v1 )

ライセンス: Link先を確認
Eric R. Anschuetz and David Gamarnik and Bobak Kiani(参考訳) 最近の重要な発展の中で、Anshu, Breuckmann, and Nirkhe [ABN22] は、フリードマンとヘイスティングスによるいわゆるNo Low-Energy Trivial State (NLTS)予想を肯定的に解決した。 この予想は、浅い(sublogarithmic depth)回路でニアグラウンド状態が作成できないn量子ビット系上の線形サイズの局所ハミルトニアンの存在を仮定した。 ABN22]の構成は、最近開発された良い量子符号に基づいている。 この方向の初期の結果には、nltsの弱いバージョンであるいわゆる組合せnltsの構成も含まれており、ハミルトニアン項 [ab22] の消失分数に少なくとも違反した場合、状態は低エネルギーであると定義されている。 これらの構造は暗号にも基づいていた。 本稿では、Y Combinatorial NLTSを満たすハミルトン群の「非コード」構成を提供する。 この構成は [AB22] に着想を得たものであるが、我々の証明はコードの性質ではなくランダム K-SAT の複素解空間幾何を用いる。 具体的には、ある節から変数への密度を超えると、ランダムな k-sat の割り当てを満足する集合は重複ギャップ特性を示し、これは各集合を指数関数的に多数のクラスターに分割することができることを意味する。 我々は、このクラスタリング特性のある種の頑健なバージョンを確立し、我々の構築したハミルトニアンの任意の組合せ的近傍状態が、この集合によって支持されるほぼ一様分布を誘導することを示す。 標準引数は、そのような分布は深さo(log n)の量子回路では作成できないことを示すために用いられる。 クラスタリング特性は、適切な色付けや最大カットを含む多くのランダムな構造で示されるので、これらのモデルにも我々のアプローチが拡張可能であることを期待する。

In an important recent development, Anshu, Breuckmann, and Nirkhe [ABN22] resolved positively the so-called No Low-Energy Trivial State (NLTS) conjecture by Freedman and Hastings. The conjecture postulated the existence of linear-size local Hamiltonians on n qubit systems for which no near-ground state can be prepared by a shallow (sublogarithmic depth) circuit. The construction in [ABN22] is based on recently developed good quantum codes. Earlier results in this direction included the constructions of the so-called Combinatorial NLTS -- a weaker version of NLTS -- where a state is defined to have low energy if it violates at most a vanishing fraction of the Hamiltonian terms [AB22]. These constructions were also based on codes. In this paper we provide a "non-code" construction of a class of Hamiltonians satisfying the Combinatorial NLTS. The construction is inspired by one in [AB22], but our proof uses the complex solution space geometry of random K-SAT instead of properties of codes. Specifically, it is known that above a certain clause-to-variables density the set of satisfying assignments of random K-SAT exhibits an overlap gap property, which implies that it can be partitioned into exponentially many clusters each constituting at most an exponentially small fraction of the total set of satisfying solutions. We establish a certain robust version of this clustering property for the space of near-satisfying assignments and show that for our constructed Hamiltonians every combinatorial near-ground state induces a near-uniform distribution supported by this set. Standard arguments then are used to show that such distributions cannot be prepared by quantum circuits with depth o(log n). Since the clustering property is exhibited by many random structures, including proper coloring and maximum cut, we anticipate that our approach is extendable to these models as well.
翻訳日:2023-04-04 17:03:28 公開日:2023-04-02
# cma-esを用いた安定ケーブル吊橋のコスト削減

Reducing the Price of Stable Cable Stayed Bridges with CMA-ES ( http://arxiv.org/abs/2304.00641v1 )

ライセンス: Link先を確認
Gabriel Fernandes and Nuno Louren\c{c}o and Jo\~ao Correia(参考訳) ケーブルステイドブリッジの設計には、いくつかの設計変数の値を決定する必要がある。 土木技術者は通常、エンジニアがコストとソリューションの構造上の制約の両方に満足すれば、ステップの反復としてこのタスクを手作業で実行します。 この問題の難しさは、変数の変更が他の変数に影響を及ぼす可能性があること、つまり、変数が独立ではないという事実から生じる。 本研究では,遺伝的アルゴリズムとCMA-ESアルゴリズムという,ベースライン解に対する2つのアプローチを比較する。 橋の設計には2つの目的がある: コストを最小化し、許容可能な値における構造的制約を安全と見なす。 これらは相反する目標であり、コストの削減がしばしば構造的に安全でない橋をもたらすことを意味する。 その結果,CMA-ESは検索空間における優れた解を見つけるためのより良い選択肢であり,ベースラインを同じ量の評価で上回り,遺伝的アルゴリズムでは不可能であることが示唆された。 コンクリートでは、cma-esアプローチは安価で構造的に安全な橋を設計できる。

The design of cable-stayed bridges requires the determination of several design variables' values. Civil engineers usually perform this task by hand as an iteration of steps that stops when the engineer is happy with both the cost and maintaining the structural constraints of the solution. The problem's difficulty arises from the fact that changing a variable may affect other variables, meaning that they are not independent, suggesting that we are facing a deceptive landscape. In this work, we compare two approaches to a baseline solution: a Genetic Algorithm and a CMA-ES algorithm. There are two objectives when designing the bridges: minimizing the cost and maintaining the structural constraints in acceptable values to be considered safe. These are conflicting objectives, meaning that decreasing the cost often results in a bridge that is not structurally safe. The results suggest that CMA-ES is a better option for finding good solutions in the search space, beating the baseline with the same amount of evaluations, while the Genetic Algorithm could not. In concrete, the CMA-ES approach is able to design bridges that are cheaper and structurally safe.
翻訳日:2023-04-04 17:02:52 公開日:2023-04-02
# 遺伝的アルゴリズムを用いた通信ネットワークの自動設計

Automatic Design of Telecom Networks with Genetic Algorithms ( http://arxiv.org/abs/2304.00637v1 )

ライセンス: Link先を確認
Jo\~ao Correia and Gustavo Gama and Jo\~ao Tiago Guerrinha and Ricardo Cadime and Pedro Antero Carvalhido and Tiago Vieira and Nuno Louren\c{c}o(参考訳) 高品質なインターネットサービスへの需要が高まる中、gpon/fiber-to-the-homeネットワークの展開は、インターネットプロバイダが対処しなければならない最大の課題の1つだ。 ネットワーク設計の自動化は、計画とデプロイメントのコストを最小限にすることで、ネットワークを計画する上でより重要になる。 主な目的は,機器配置や構成,ケーブル経路の最適化,クライアントの割り当ての最適化,その他の最小化問題に関わる制約など,複数の要因を考慮したネットワークの最適化という課題に対処することである。 AIベースのソリューションは、ネットワーク設計を自動化するために提案されている。 手動で完了するのにかなりの時間を要するのは難しい作業です。 この面倒な作業を軽減するために,ネットワークを自動設計するための2レベル表現を用いた遺伝的アルゴリズムを提案する。 このアプローチを検証するために、生成されたソリューションの品質を、現実世界にデプロイされた手作りの設計と比較する。 その結果,本手法はgpon/fiber-to-the-homeネットワークにおけるソリューション設計支援ツールとしての可能性を示した。 具体的には,提案手法を実証する2つのシナリオにおいて,提案手法の可能性を実証し検証することにより,既存の手作り手法と比較して,コストを31%,コストを52.2%削減することができる。

With the increasing demand for high-quality internet services, deploying GPON/Fiber-to-the-Home networks is one of the biggest challenges that internet providers have to deal with due to the significant investments involved. Automated network design usage becomes more critical to aid with planning the network by minimising the costs of planning and deployment. The main objective is to tackle this problem of optimisation of networks that requires taking into account multiple factors such as the equipment placement and their configuration, the optimisation of the cable routes, the optimisation of the clients' allocation and other constraints involved in the minimisation problem. An AI-based solution is proposed to automate network design, which is a task typically done manually by teams of engineers. It is a difficult task requiring significant time to complete manually. To alleviate this tiresome task, we proposed a Genetic Algorithm using a two-level representation to design the networks automatically. To validate the approach, we compare the quality of the generated solutions with the handmade design ones that are deployed in the real world. The results show that our method can save costs and time in finding suitable and better solutions than existing ones, indicating its potential as a support design tool of solutions for GPON/Fiber-to-the-Home networks. In concrete, in the two scenarios where we validate our proposal, our approach can cut costs by 31% and by 52.2%, respectively, when compared with existing handmade ones, showcasing and validating the potential of the proposed approach.
翻訳日:2023-04-04 17:02:33 公開日:2023-04-02
# BERTモデルを用いたフェイクニュースの検出と知覚分析のためのCOVID-19関連つぶやきの分類

Classifying COVID-19 Related Tweets for Fake News Detection and Sentiment Analysis with BERT-based Models ( http://arxiv.org/abs/2304.00636v1 )

ライセンス: Link先を確認
Rabia Bounaama, Mohammed El Amine Abderrahim(参考訳) 本稿では,cerist'22共有タスクにおけるチーム"techno"の参加について述べる。 私たちは、covid-19パンデミックに関連する利用可能なデータセット"task1.c"を使用しました。 感情分析タスクは4128ツイート、偽ニュース検出タスクは8661ツイートである。 我々は、自然言語処理ツールを、最も有名な訓練済み言語モデルBERT(Bidirectional Encoder Representations from Transformers)の組み合わせで使用した。 その結果,感情分析タスクでは0.93,フェイクニュース検出タスクでは0.90と,事前学習言語モデルの有効性が示された。

The present paper is about the participation of our team "techno" on CERIST'22 shared tasks. We used an available dataset "task1.c" related to covid-19 pandemic. It comprises 4128 tweets for sentiment analysis task and 8661 tweets for fake news detection task. We used natural language processing tools with the combination of the most renowned pre-trained language models BERT (Bidirectional Encoder Representations from Transformers). The results shows the efficacy of pre-trained language models as we attained an accuracy of 0.93 for the sentiment analysis task and 0.90 for the fake news detection task.
翻訳日:2023-04-04 17:02:08 公開日:2023-04-02
# MMT: マルチリンガルでマルチトピックなインドのソーシャルメディアデータセット

MMT: A Multilingual and Multi-Topic Indian Social Media Dataset ( http://arxiv.org/abs/2304.00634v1 )

ライセンス: Link先を確認
Dwip Dalal, Vivek Srivastava, Mayank Singh(参考訳) ソーシャルメディアは異文化間コミュニケーションにおいて重要な役割を担っている。 言語識別、トピックモデリング、名前付き一致認識などの情報を処理するための自然言語処理(NLP)ツールにとって、大きな課題となっている。 これを解決するために、インドにおける13の粗粒度と63のきめ細かいトピックを含む、Twitter (170万ツイート) から収集した大規模多言語、マルチトピックデータセット(MMT)を紹介した。 さらに、MMTデータセットから5,346のツイートのサブセットに、さまざまなインドの言語とそのコードミキシングされたツイートを注釈付けします。 また,現在存在するツールは,2つの下流タスク,すなわちトピックモデリングと言語識別において,MTの言語多様性を捉えることができないことを示す。 今後の研究を容易にするため、パブリックドメインで匿名化およびアノテーション付きデータセットを利用可能にします。

Social media plays a significant role in cross-cultural communication. A vast amount of this occurs in code-mixed and multilingual form, posing a significant challenge to Natural Language Processing (NLP) tools for processing such information, like language identification, topic modeling, and named-entity recognition. To address this, we introduce a large-scale multilingual, and multi-topic dataset (MMT) collected from Twitter (1.7 million Tweets), encompassing 13 coarse-grained and 63 fine-grained topics in the Indian context. We further annotate a subset of 5,346 tweets from the MMT dataset with various Indian languages and their code-mixed counterparts. Also, we demonstrate that the currently existing tools fail to capture the linguistic diversity in MMT on two downstream tasks, i.e., topic modeling and language identification. To facilitate future research, we will make the anonymized and annotated dataset available in the public domain.
翻訳日:2023-04-04 17:01:59 公開日:2023-04-02
# ドメイン一般化におけるモデル検証の原理的アプローチ

A principled approach to model validation in domain generalization ( http://arxiv.org/abs/2304.00629v1 )

ライセンス: Link先を確認
Boyang Lyu, Thuan Nguyen, Matthias Scheutz, Prakash Ishwar, Shuchin Aeron(参考訳) ドメイン一般化は、優れた一般化能力を持つモデルを学ぶことを目的としており、学習されたモデルは、いくつかの目に見えないドメインだけでなく、異なるデータ分布を持つ未知のドメインでもうまく機能すべきである。 state-of-the-art domain generalization methodは通常、表現関数と分類器を共同で訓練し、分類リスクとドメインの不一致の両方を最小化する。 しかし、モデル選択に関しては、ほとんどの手法は、検証セットの最も低い分類リスクに基づいてのみモデルを選択する従来の検証ルーチンに依存している。 本稿では,分類リスクの最小化とドメインの不一致の軽減,すなわち,これら2つの目的の最小化を同時に達成することができないことのトレードオフを理論的に示す。 この理論的な結果から,検証プロセスが分類リスクとドメインの相違の両方を考慮すべきであることを示す新しいモデル選択法を提案する。 提案手法の有効性を,いくつかの領域一般化データセットの数値計算により検証した。

Domain generalization aims to learn a model with good generalization ability, that is, the learned model should not only perform well on several seen domains but also on unseen domains with different data distributions. State-of-the-art domain generalization methods typically train a representation function followed by a classifier jointly to minimize both the classification risk and the domain discrepancy. However, when it comes to model selection, most of these methods rely on traditional validation routines that select models solely based on the lowest classification risk on the validation set. In this paper, we theoretically demonstrate a trade-off between minimizing classification risk and mitigating domain discrepancy, i.e., it is impossible to achieve the minimum of these two objectives simultaneously. Motivated by this theoretical result, we propose a novel model selection method suggesting that the validation process should account for both the classification risk and the domain discrepancy. We validate the effectiveness of the proposed method by numerical results on several domain generalization datasets.
翻訳日:2023-04-04 17:01:43 公開日:2023-04-02
# MalIoT:IoTネットワークのスケーラブルでリアルタイムなマルウェアトラフィック検出

MalIoT: Scalable and Real-time Malware Traffic Detection for IoT Networks ( http://arxiv.org/abs/2304.00623v1 )

ライセンス: Link先を確認
Ethan Weitkamp, Yusuke Satani, Adam Omundsen, Jingwen Wang, Peilong Li(参考訳) 機械学習アプローチは、マルウェアの進化を続ける性質に追随する能力のため、IoT(Internet of Things)マルウェアのトラフィック検出において不可欠である。 機械学習アルゴリズムは、IoTデバイスが生成する膨大なデータを迅速かつ正確に分析し、悪意のあるネットワークトラフィックをリアルタイムに識別することができる。 このシステムは、Apache KafkaやApache Sparkなどの分散システムを使用することで、IoTデバイスの指数的な成長を処理でき、IntelのワンAPIソフトウェアスタックはモデル推論速度を加速し、リアルタイムのマルウェアトラフィック検出に有用なツールである。 これらの技術は、スケーラブルなパフォーマンスと高い精度を提供するシステムを構築するために協力し、スマートコミュニティや医療機関におけるサイバー脅威を防御するための重要なツールとなる。

The machine learning approach is vital in Internet of Things (IoT) malware traffic detection due to its ability to keep pace with the ever-evolving nature of malware. Machine learning algorithms can quickly and accurately analyze the vast amount of data produced by IoT devices, allowing for the real-time identification of malicious network traffic. The system can handle the exponential growth of IoT devices thanks to the usage of distributed systems like Apache Kafka and Apache Spark, and Intel's oneAPI software stack accelerates model inference speed, making it a useful tool for real-time malware traffic detection. These technologies work together to create a system that can give scalable performance and high accuracy, making it a crucial tool for defending against cyber threats in smart communities and medical institutions.
翻訳日:2023-04-04 17:01:25 公開日:2023-04-02
# Deep Learning-based Denoising Methodの客観的タスクベース評価の必要性:心筋血流SPECTにおける検討

Need for Objective Task-based Evaluation of Deep Learning-Based Denoising Methods: A Study in the Context of Myocardial Perfusion SPECT ( http://arxiv.org/abs/2303.02110v5 )

ライセンス: Link先を確認
Zitong Yu, Md Ashequr Rahman, Richard Laforest, Thomas H. Schindler, Robert J. Gropler, Richard L. Wahl, Barry A. Siegel, Abhinav K. Jha(参考訳) 人工知能に基づく手法は核医学に大きな関心を呼んだ。 関心のある領域は、低用量、より短い取得時間、あるいは両方で取得した画像を識別するためのディープラーニング(DL)ベースのアプローチである。 これらのアプローチの客観的評価は臨床応用に不可欠である。 dlに基づく核医学画像の脱ノイズ化手法は、一般的にrmseやssimのような忠実度に基づく評価(foms)を用いて評価されている。 しかし,これらの画像は臨床的タスクのために取得され,それらのタスクのパフォーマンスに基づいて評価されるべきである。 本研究の目的は,(1)fomによる評価が客観的な臨床課題に基づく評価と一致しているか,(2)信号検出課題に対する脱音の影響を理論的に決定するための分析を行うこと,(3)dlに基づく方法を評価するための仮想臨床試験(vcts)の有用性を示すことである。 心筋灌流SPECT(MPS)画像の診断にDL法を応用したVCTを施行した。 人為的チャネルを持つモデル観測者を用いて,MPS画像の灌流欠陥検出性能を定量化したFoMsとAUCを用いて,DLベースデノナイジングの効果を評価した。 忠実度をベースとしたFoMでは,DL法を併用することで性能が著しく向上した。 しかし,ROC分析ではデノナイジングは改善せず,実際は検出タスク性能が劣化することが多かった。 その結果、dlに基づく分別手法の客観的タスクベース評価の必要性が高まった。 さらに,本研究では,VCTを用いて評価を行うメカニズムについて述べる。 最後に,提案手法の限定的な性能の理由を理論的に明らかにした。

Artificial intelligence-based methods have generated substantial interest in nuclear medicine. An area of significant interest has been using deep-learning (DL)-based approaches for denoising images acquired with lower doses, shorter acquisition times, or both. Objective evaluation of these approaches is essential for clinical application. DL-based approaches for denoising nuclear-medicine images have typically been evaluated using fidelity-based figures of merit (FoMs) such as RMSE and SSIM. However, these images are acquired for clinical tasks and thus should be evaluated based on their performance in these tasks. Our objectives were to (1) investigate whether evaluation with these FoMs is consistent with objective clinical-task-based evaluation; (2) provide a theoretical analysis for determining the impact of denoising on signal-detection tasks; (3) demonstrate the utility of virtual clinical trials (VCTs) to evaluate DL-based methods. A VCT to evaluate a DL-based method for denoising myocardial perfusion SPECT (MPS) images was conducted. The impact of DL-based denoising was evaluated using fidelity-based FoMs and AUC, which quantified performance on detecting perfusion defects in MPS images as obtained using a model observer with anthropomorphic channels. Based on fidelity-based FoMs, denoising using the considered DL-based method led to significantly superior performance. However, based on ROC analysis, denoising did not improve, and in fact, often degraded detection-task performance. The results motivate the need for objective task-based evaluation of DL-based denoising approaches. Further, this study shows how VCTs provide a mechanism to conduct such evaluations using VCTs. Finally, our theoretical treatment reveals insights into the reasons for the limited performance of the denoising approach.
翻訳日:2023-04-04 11:46:48 公開日:2023-04-02
# ulip: 3d理解のための言語,イメージ,ポイントクラウドの統一表現の学習

ULIP: Learning a Unified Representation of Language, Images, and Point Clouds for 3D Understanding ( http://arxiv.org/abs/2212.05171v3 )

ライセンス: Link先を確認
Le Xue, Mingfei Gao, Chen Xing, Roberto Mart\'in-Mart\'in, Jiajun Wu, Caiming Xiong, Ran Xu, Juan Carlos Niebles, Silvio Savarese(参考訳) 現在の最先端の3dモデルの認識能力は、少数の注釈付きデータと予め定義されたカテゴリのデータセットによって制限されている。 最近の2Dの進歩は、言語などの他のモダリティからの知識を利用することで、同様の問題を著しく軽減できることを示している。 このことから、3Dモダリティにマルチモーダル情報を活用することで、制限されたデータ体制下での3D理解を改善することが期待できるが、この研究は十分に研究されていない。 そこで,3つのモードからオブジェクト三重項を事前学習することで,画像,テキスト,3次元点雲の統一表現を学習するためにULIPを導入する。 トレーニングトリプレットの不足を克服するために、ulipは、大量の画像テキストペアでトレーニングすることで、すでに共通の視覚空間とテキスト空間を学習した、事前訓練されたビジョン言語モデルを活用する。 そして、ULIPは、少数の自動合成三重項を用いて、共通画像テキスト空間と整合した3次元表現空間を学習する。 ULIPは3Dバックボーンネットワークとは無関係であり、どんな3Dアーキテクチャにも容易に統合できる。 実験により,本フレームワークを用いたShapeNet55の事前学習により,ModelNet40およびScanObjectNNの標準3D分類とゼロショット3D分類の両面での最先端性能を実現することにより,最近の複数の3Dバックボーンの性能を効果的に向上することが示された。 ULIPはまた、ScanObjectNNの3D分類ではポイントMLPを約3%改善し、ModelNet40のゼロショット3D分類ではトップ1の精度でポイントCLIPを28.8%上回っている。 私たちのコードと事前トレーニングされたモデルはhttps://github.com/salesforce/ULIP.comでリリースされています。

The recognition capabilities of current state-of-the-art 3D models are limited by datasets with a small number of annotated data and a pre-defined set of categories. In its 2D counterpart, recent advances have shown that similar problems can be significantly alleviated by employing knowledge from other modalities, such as language. Inspired by this, leveraging multimodal information for 3D modality could be promising to improve 3D understanding under the restricted data regime, but this line of research is not well studied. Therefore, we introduce ULIP to learn a unified representation of images, texts, and 3D point clouds by pre-training with object triplets from the three modalities. To overcome the shortage of training triplets, ULIP leverages a pre-trained vision-language model that has already learned a common visual and textual space by training with massive image-text pairs. Then, ULIP learns a 3D representation space aligned with the common image-text space, using a small number of automatically synthesized triplets. ULIP is agnostic to 3D backbone networks and can easily be integrated into any 3D architecture. Experiments show that ULIP effectively improves the performance of multiple recent 3D backbones by simply pre-training them on ShapeNet55 using our framework, achieving state-of-the-art performance in both standard 3D classification and zero-shot 3D classification on ModelNet40 and ScanObjectNN. ULIP also improves the performance of PointMLP by around 3% in 3D classification on ScanObjectNN, and outperforms PointCLIP by 28.8% on top-1 accuracy for zero-shot 3D classification on ModelNet40. Our code and pre-trained models are released at https://github.com/salesforce/ULIP.
翻訳日:2023-04-04 11:46:04 公開日:2023-04-02
# HuggingGPT: HuggingFaceにおけるChatGPTとその友人によるAIタスクの解決

HuggingGPT: Solving AI Tasks with ChatGPT and its Friends in HuggingFace ( http://arxiv.org/abs/2303.17580v2 )

ライセンス: Link先を確認
Yongliang Shen, Kaitao Song, Xu Tan, Dongsheng Li, Weiming Lu, Yueting Zhuang(参考訳) 異なるドメインとモダリティで複雑なAIタスクを解決することは、高度な人工知能への重要なステップである。 さまざまなドメインやモダリティに対して利用可能な豊富なAIモデルがあるが、複雑なAIタスクは処理できない。 大規模言語モデル(llm)は言語理解、生成、相互作用、推論において例外的な能力を有しており、llmは既存のaiモデルを管理して複雑なaiタスクを解決するためのコントローラとして機能し、言語はこれを力づける汎用的なインターフェースとなることを提唱する。 この哲学に基づいたHuggingGPTは、LLM(例えばChatGPT)を利用して機械学習コミュニティ(例えばHugging Face)のさまざまなAIモデルを接続し、AIタスクを解決するフレームワークである。 具体的には、ChatGPTを使用して、ユーザリクエストの受信時にタスク計画を実行し、Hugging Faceで利用可能な機能記述に従ってモデルを選択し、選択したAIモデルで各サブタスクを実行し、実行結果に応じて応答を要約する。 Hugging FaceにおけるChatGPTの強力な言語能力と豊富なAIモデルを活用することで、HuggingGPTはさまざまなモダリティやドメインにおける多数の高度なAIタスクをカバーし、言語、ビジョン、スピーチ、その他の困難なタスクにおける印象的な結果を達成することができる。

Solving complicated AI tasks with different domains and modalities is a key step toward advanced artificial intelligence. While there are abundant AI models available for different domains and modalities, they cannot handle complicated AI tasks. Considering large language models (LLMs) have exhibited exceptional ability in language understanding, generation, interaction, and reasoning, we advocate that LLMs could act as a controller to manage existing AI models to solve complicated AI tasks and language could be a generic interface to empower this. Based on this philosophy, we present HuggingGPT, a framework that leverages LLMs (e.g., ChatGPT) to connect various AI models in machine learning communities (e.g., Hugging Face) to solve AI tasks. Specifically, we use ChatGPT to conduct task planning when receiving a user request, select models according to their function descriptions available in Hugging Face, execute each subtask with the selected AI model, and summarize the response according to the execution results. By leveraging the strong language capability of ChatGPT and abundant AI models in Hugging Face, HuggingGPT is able to cover numerous sophisticated AI tasks in different modalities and domains and achieve impressive results in language, vision, speech, and other challenging tasks, which paves a new way towards advanced artificial intelligence.
翻訳日:2023-04-04 11:36:07 公開日:2023-04-02
# AIを使って自宅でパーキンソン病の重症度を測定する

Using AI to Measure Parkinson's Disease Severity at Home ( http://arxiv.org/abs/2303.17573v2 )

ライセンス: Link先を確認
Md Saiful Islam, Wasifur Rahman, Abdelrahman Abdelkader, Phillip T. Yang, Sangwu Lee, Jamie L. Adams, Ruth B. Schneider, E. Ray Dorsey, Ehsan Hoque(参考訳) 本稿では,パーキンソン病(PD)患者の運動性能を遠隔から評価する人工知能システムを提案する。 参加者はwebカメラの前で運動タスク(つまり指をタップする)を行い、250人のグローバル参加者のデータを運動障害協会(move disorder society)の3人の専門家神経学者によって評価された。 神経学者の評価は信頼性が高く, クラス内相関係数(ICC)は0.88。 我々は,MDS-UPDRSガイドラインに適合し,神経学者の評価と強く相関する客観的な測定値を得るために,コンピュータアルゴリズムを開発した。 我々の機械学習モデルは,MDS-UPDRS認定レーダよりも優れており,平均絶対誤差は0.59であり,レーダのMAEは0.79であった。 しかし、このモデルは専門家神経学者 (0.53 MAE) よりわずかに悪化した。 この方法論は、同様の運動タスクのために複製することができ、pdや他の運動障害を持つ個人を遠隔、客観的、および神経学的ケアへのアクセスが制限された領域で評価することができる。

We present an artificial intelligence system to remotely assess the motor performance of individuals with Parkinson's disease (PD). Participants performed a motor task (i.e., tapping fingers) in front of a webcam, and data from 250 global participants were rated by three expert neurologists following the Movement Disorder Society Unified Parkinson's Disease Rating Scale (MDS-UPDRS). The neurologists' ratings were highly reliable, with an intra-class correlation coefficient (ICC) of 0.88. We developed computer algorithms to obtain objective measurements that align with the MDS-UPDRS guideline and are strongly correlated with the neurologists' ratings. Our machine learning model trained on these measures outperformed an MDS-UPDRS certified rater, with a mean absolute error (MAE) of 0.59 compared to the rater's MAE of 0.79. However, the model performed slightly worse than the expert neurologists (0.53 MAE). The methodology can be replicated for similar motor tasks, providing the possibility of evaluating individuals with PD and other movement disorders remotely, objectively, and in areas with limited access to neurological care.
翻訳日:2023-04-04 11:35:40 公開日:2023-04-02