このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。
公開日が20230426となっている論文です。
Title | Authors | Abstract | 論文公表日・翻訳日 |
---|---|---|---|
# 被曝リスク最小化による対人学習のランク付けのための安全な配置 Safe Deployment for Counterfactual Learning to Rank with Exposure-Based Risk Minimization ( http://arxiv.org/abs/2305.01522v1 ) ライセンス: Link先を確認 | Shashank Gupta, Harrie Oosterhuis and Maarten de Rijke | (参考訳) CLTR ( Counterfactual Learning to rank) は、位置バイアスの補正に LTR 固有の IPS 適応である、露光に基づく逆確率スコア (IPS) に依存する。
IPSはバイアスのない一貫した見積もりを提供するが、しばしば高い分散に悩まされる。
特にクリックデータが少ない場合、この分散はCLTRに準最適ランキングの振る舞いを学習させる。
その結果、既存のCLTRメソッドは、モデルをナビゲート的にデプロイすることで、非常にネガティブなユーザエクスペリエンスをもたらす可能性があるため、大きなリスクをもたらします。
安全配置を理論的に保証した新しいリスク対応cltr法を提案する。
LTRのIPS推定に新しいリスク正規化の概念を適用した。
リスク規則化は,学習モデルのランク付け行動と与えられた安全モデルのミスマッチを罰する。
これにより、IPS推定に高い不確実性がある場合、学習されたランキングモデルが信頼されたモデルに近づき、デプロイメント中のリスクを大幅に低減する。
提案手法の有効性を実験的に検証し,データが少ない場合,かつ収束時の高い性能を維持しつつ,初期劣化の回避に有効であることを示す。
CLTRの分野では,新しいリスク最小化手法により,CLTRメソッドをより安全な方法で適用することが可能となり,従来の手法に付随するリスクの多くを軽減できる。 Counterfactual learning to rank (CLTR) relies on exposure-based inverse propensity scoring (IPS), a LTR-specific adaptation of IPS to correct for position bias. While IPS can provide unbiased and consistent estimates, it often suffers from high variance. Especially when little click data is available, this variance can cause CLTR to learn sub-optimal ranking behavior. Consequently, existing CLTR methods bring significant risks with them, as naively deploying their models can result in very negative user experiences. We introduce a novel risk-aware CLTR method with theoretical guarantees for safe deployment. We apply a novel exposure-based concept of risk regularization to IPS estimation for LTR. Our risk regularization penalizes the mismatch between the ranking behavior of a learned model and a given safe model. Thereby, it ensures that learned ranking models stay close to a trusted model, when there is high uncertainty in IPS estimation, which greatly reduces the risks during deployment. Our experimental results demonstrate the efficacy of our proposed method, which is effective at avoiding initial periods of bad performance when little data is available, while also maintaining high performance at convergence. For the CLTR field, our novel exposure-based risk minimization method enables practitioners to adopt CLTR methods in a safer manner that mitigates many of the risks attached to previous methods. | 翻訳日:2023-05-07 16:04:52 公開日:2023-04-26 |
# ResNet-50を用いた耐雑音性GPUによる年代推定 Noise-Tolerance GPU-based Age Estimation Using ResNet-50 ( http://arxiv.org/abs/2305.00848v1 ) ライセンス: Link先を確認 | Mahtab Taheri, Mahdi Taheri, and Amirhossein Hadjahmadi | (参考訳) 人間の顔には、個人のアイデンティティ、性別、年齢、民族など、重要で理解可能な情報が含まれている。
近年では、顔の重要な特徴の一つとして年齢が研究されている。
年齢推定システムは、顔画像の提示と年齢特性の抽出と、これらの特徴に基づいて正確な年齢または年齢群の検出の2つのモジュールの組み合わせからなる。
これまでのところ、年齢推定には様々なアルゴリズムが提案されており、それぞれに長所と短所がある。
本研究では,utkfaceデータセット上に深い残留ニューラルネットワークを実装した。
我々は,様々な年齢推定アルゴリズムの最先端実装と比較し,その実装を検証し,最近の作業と比較した限界誤差検証指標の1つとしてmaeを28.3%改善し,実装したalexnetと比較して71.39%改善した。
その結果,提案手法の耐雑音性を正当化する入力データに15dbの雑音を注入する場合(通常の環境騒音の5倍),実装ネットワークの性能劣化が1.5%未満であることが判明した。 The human face contains important and understandable information such as personal identity, gender, age, and ethnicity. In recent years, a person's age has been studied as one of the important features of the face. The age estimation system consists of a combination of two modules, the presentation of the face image and the extraction of age characteristics, and then the detection of the exact age or age group based on these characteristics. So far, various algorithms have been presented for age estimation, each of which has advantages and disadvantages. In this work, we implemented a deep residual neural network on the UTKFace data set. We validated our implementation by comparing it with the state-of-the-art implementations of different age estimation algorithms and the results show 28.3% improvement in MAE as one of the critical error validation metrics compared to the recent works and also 71.39% MAE improvements compared to the implemented AlexNet. In the end, we show that the performance degradation of our implemented network is lower than 1.5% when injecting 15 dB noise to the input data (5 times more than the normal environmental noise) which justifies the noise tolerance of our proposed method. | 翻訳日:2023-05-07 16:02:14 公開日:2023-04-26 |
# SSTM:多フレーム光フロー推定のための時空間リカレント変圧器 SSTM: Spatiotemporal Recurrent Transformers for Multi-frame Optical Flow Estimation ( http://arxiv.org/abs/2304.14418v1 ) ライセンス: Link先を確認 | Fisseha Admasu Ferede, Madhusudhanan Balasubramanian | (参考訳) 光流量推定アルゴリズムの現在における重要な限界の2つは、外接領域および外接領域における不正確な光流量推定である。
最近の最先端光フロー推定アルゴリズムは、連続した画像対ごとに連続的に光フローを推定する2フレーム法である。
このアプローチは良好なフロー推定を与えるが、主にシーン内の移動要素に関する限られた局所的な証拠のため、閉鎖領域における光学フローの一般化には失敗する。
本研究では,複数フレーム画像列から2つ以上の連続する光フローを並列に推定する学習型光フロー推定手法を提案する。
我々の仮説は、2フレーム以上の長いシーケンスからの時間的シーンのダイナミクスを理解することで、より大きな時空間領域におけるピクセルの依存性を特徴づけ、複雑な動きパターンを一般化し、閉鎖領域における光学的フロー推定の精度を向上させることができるというものである。
本稿では,sstms(multi-frame based optical flow estimation)のための学習型時空間リカレントトランスを提案する。
本手法は3次元畳み込みGated Recurrent Units(3D-ConvGRUs)と時空間変圧器を用いて,シーン内の時空間運動力学と大域的依存性を学習し,一般化された光フロー推定を提供する。
実世界および合成データセットにおける最近の最先端の2フレーム法と多フレーム法と比較すると, SSTMの性能は有界領域と外界領域で有意に高かった。
公開されたすべての最先端のマルチフレームメソッドの中で、SSTMはSintel FinalとKITTI2015ベンチマークデータセットで最先端の結果を得た。 Inaccurate optical flow estimates in and near occluded regions, and out-of-boundary regions are two of the current significant limitations of optical flow estimation algorithms. Recent state-of-the-art optical flow estimation algorithms are two-frame based methods where optical flow is estimated sequentially for each consecutive image pair in a sequence. While this approach gives good flow estimates, it fails to generalize optical flows in occluded regions mainly due to limited local evidence regarding moving elements in a scene. In this work, we propose a learning-based multi-frame optical flow estimation method that estimates two or more consecutive optical flows in parallel from multi-frame image sequences. Our underlying hypothesis is that by understanding temporal scene dynamics from longer sequences with more than two frames, we can characterize pixel-wise dependencies in a larger spatiotemporal domain, generalize complex motion patterns and thereby improve the accuracy of optical flow estimates in occluded regions. We present learning-based spatiotemporal recurrent transformers for multi-frame based optical flow estimation (SSTMs). Our method utilizes 3D Convolutional Gated Recurrent Units (3D-ConvGRUs) and spatiotemporal transformers to learn recurrent space-time motion dynamics and global dependencies in the scene and provide a generalized optical flow estimation. When compared with recent state-of-the-art two-frame and multi-frame methods on real world and synthetic datasets, performance of the SSTMs were significantly higher in occluded and out-of-boundary regions. Among all published state-of-the-art multi-frame methods, SSTM achieved state-of the-art results on the Sintel Final and KITTI2015 benchmark datasets. | 翻訳日:2023-05-01 16:24:21 公開日:2023-04-26 |
# 均一暗号を用いたE2Eセキュア予測のための大規模CNNの高感度チューニング Sensitive Tuning of Large Scale CNNs for E2E Secure Prediction using Homomorphic Encryption ( http://arxiv.org/abs/2304.14836v1 ) ライセンス: Link先を確認 | Moran Baruch, Nir Drucker, Gilad Ezov, Eyal Kushnir, Jenny Lerner, Omri Soceanu and Itamar Zimerman | (参考訳) プライバシを保存する機械学習ソリューションは最近大きな注目を集めている。
有望な研究トレンドの1つは、暗号化データ上で計算を実行する方法である準同型暗号化(he)の使用である。
このアプローチの大きな課題のひとつは、HEフレンドリー、暗号化、暗号化されていないディープCNNを適切な精度でトレーニングすることだ。
本稿では,ヒューフレンドリーなモデルのための新しいトレーニング手法を提案し,resnetやconvnextなど,基本的かつ現代的なcnnで実証する。
トレーニング後、HELayers SDKを使用して暗号化されたサンプルを実行し、望ましい結果が得られることを証明し、モデルを評価する。
ImageNetデータセット上でGPU上で動作する場合、我々のResNet-18/50/101実装は、それぞれ7分31分と57分しかかかりません。
さらに,HEの下でのアクティベーション関数とスキップ接続の扱いについて,いくつかの知見を示す。
最後に、HEフレンドリーなCLIPモデルを用いて、セキュアなゼロショット予測を行う方法を前例のない方法で実証した。 Privacy-preserving machine learning solutions have recently gained significant attention. One promising research trend is using Homomorphic Encryption (HE), a method for performing computation over encrypted data. One major challenge in this approach is training HE-friendly, encrypted or unencrypted, deep CNNs with decent accuracy. We propose a novel training method for HE-friendly models, and demonstrate it on fundamental and modern CNNs, such as ResNet and ConvNeXt. After training, we evaluate our models by running encrypted samples using HELayers SDK and proving that they yield the desired results. When running on a GPU over the ImageNet dataset, our ResNet-18/50/101 implementations take only 7, 31 and 57 minutes, respectively, which shows that this solution is practical. Furthermore, we present several insights on handling the activation functions and skip-connections under HE. Finally, we demonstrate in an unprecedented way how to perform secure zero-shot prediction using a CLIP model that we adapted to be HE-friendly. | 翻訳日:2023-05-01 14:12:05 公開日:2023-04-26 |
# クリフォード代数における中心電荷異常のオクタニオンと量子重力 Octonions and Quantum Gravity through the Central Charge Anomaly in the Clifford Algebra ( http://arxiv.org/abs/2304.14830v1 ) ライセンス: Link先を確認 | Lucas Kocia Kovalsky | (参考訳) 我々は、AdS$_3$等距離/量子ビット双対性を含む量子重力の理論を導出する。
この理論は、均質なads$_3$時空等長群の包絡代数の超代数的一般化(英語版)(superalgebra generalization)に基づいている。
最初の3つの四元数生成器は$\hbar$-quantized ads$_3$ embedded spacetime に対応し、残りの4つの四元数生成器は$g$-quantized embedded $2+2$ minkowski spacetime に対応する。
複素化クリフォード代数への単射の後の四元環の式は、中心電荷異常を伴う2次元共形作用素積の拡大を生じさせ、その結果、面積法則$\hbar G$がホログラフィックの原理を満足し、「時間の幅」を定義する。
この関係により、埋め込みの超対称性および共形破壊$\mathcal O(G)$変換を通じて理論を拡張し、dS$_3$およびdS$_4$時空を生成し、明示的な機構でブラックホール情報パラドックスへの分解を導くことができる。
弦理論とは異なり、この理論は背景独立であり、我々の局所 dS$_4$ 時空が最大の可能性であることを示す。 We derive a theory of quantum gravity containing an AdS$_3$ isometry/qubit duality. The theory is based on a superalgebra generalization of the enveloping algebra of the homogeneous AdS$_3$ spacetime isometry group and is isomorphic to the complexified octonion algebra through canonical quantization. Its first three quaternion generators correspond to an $\hbar$-quantized AdS$_3$ embedded spacetime and its remaining four non-quaternion generators to a $G$-quantized embedding $2+2$ Minkowski spacetime. The quaternion algebra's expression after a monomorphism into the complexified Clifford algebra produces a two-dimensional conformal operator product expansion with a central charge anomaly, which results in an area-law $\hbar G$ scaling satisfying the holographic principle and defines an "arrow of time". This relationship allows us to extend the theory through supersymmetry- and conformal-breaking $\mathcal O(G)$ transformations of the embedding to produce dS$_3$ and dS$_4$ spacetimes and derive a resolution to the black hole information paradox with an explicit mechanism. Unlike string theory, the theory is background-independent and suggests that our local dS$_4$ spacetime is the largest possible. | 翻訳日:2023-05-01 14:10:41 公開日:2023-04-26 |
# 量子トンネルを用いた2種類の閉回路のモード決定 Determination of the modes in two types of closed circuits with quantum tunneling ( http://arxiv.org/abs/2304.14910v1 ) ライセンス: Link先を確認 | Mark J. Hagmann | (参考訳) 他の者は、半無限前バリア領域のインシデントと反射波、正方形バリア内の2つの対向波、半無限後バリア領域の透過波を必要とすることにより、自由空間に正方形ポテンシャル障壁を持つ1次元モデルに対するシュル=オディンガー方程式を解いた。
ここでは、バリアが遮断して閉回路を形成する有限長のプリバリア領域をモデル化する。
我々は、このモデルの両端で波動関数とその導関数が連続であるという境界条件を用いて、等質行列方程式を得る。
したがって、行列式は非自明な解に対してゼロでなければならない。
以下の4つのパラメータのうちの1つを除く1つは特定され、残りの1つは、(1)電子エネルギー、(2)バリア長、(3)バリア高さ、(4)バリア長の0に決定因子をもたらすように変化する。
正方障壁を持つ解は、4パラメータ空間の非交差S字の集合である。
三角障壁を持つ解は、2-piラジアンの整数倍として伝播定数とプリバリア領域の長さの積を持つ。
静的解のみを考えるが、この方法は準静的条件下での時間依存のケースに適用できる。
プロトタイプの設計とテストのために提案される。 Others have solved the Schr\"odinger equation for a one-dimensional model having a square potential barrier in free-space by requiring an incident and a reflected wave in the semi-infinite pre-barrier region, two opposing waves in the square barrier, and a transmitted wave in the semi-infinite post-barrier region. Now we model a pre-barrier region having finite length that is shunted by the barrier to form a closed circuit. We use the boundary condition that the wavefunction and its derivative are continuous at the both ends of this model to obtain a homogeneous matrix equation. Thus, the determinant must be zero for a non-trivial solution. All but one of the following four parameters are specified and the remaining one is varied to bring the determinant to zero for a solution: (1) the electron energy, (2) the barrier length, (3) the barrier height, and (4) the pre-barrier length. The solutions with a square barrier are sets of non-intersecting S-shaped lines in the four-parameter space. The solutions with a triangular barrier have the product of the propagation constant and the length of the pre-barrier region as integer multiples of two-pi radians. Only static solutions are considered, but this method could be applied to time-dependent cases under quasistatic conditions. Suggestions are given for the design and testing of prototypes. | 翻訳日:2023-05-01 13:53:40 公開日:2023-04-26 |
# ピーク時緊急車両案内のためのエッジ支援型スマート交通管理・信号システム An Edge Assisted Robust Smart Traffic Management and Signalling System for Guiding Emergency Vehicles During Peak Hours ( http://arxiv.org/abs/2304.14924v1 ) ライセンス: Link先を確認 | Shuvadeep Masanta, Ramyashree Pramanik, Sourav Ghosh, Tanmay Bhattacharya | (参考訳) 交通渋滞は、インドや他の国々の多くの都市で避けられない状況である。
これは大きな懸念事項である。
道路上の自動車の数が急上昇し、古いインフラ、事故、歩行者の交通、交通規則違反が続き、交通状況の悪化に拍車をかけた。
このような交通状況の悪化を考えると、自動検出と信号システムの必要性は極めて高い。
ビデオ分析や赤外線センサー、ワイヤレスセンサーといった交通管理や信号システムにも、すでにさまざまな技術が使われている。
これらの方法の主な問題は、非常にコストがかかり、高いメンテナンスが必要であることである。
本稿では,渋滞度に基づいて緊急車両を誘導し,交通を管理する3段階システムを提案する。
第1フェーズでは、キャプチャされた画像を処理し、混雑度を検出するために使用されるインデックス値を算出する。
特定の道路のインデックス値は、その道路の幅と、その道路の画像をカメラが撮影する長さに依存する。
システムの設定中にパラメータ(長さと幅)の入力を受け取らなければなりません。
第2フェーズでは、システムは車線内に緊急車両が存在するかどうかをチェックする。
第3フェーズでは、エッジサーバで処理及び意思決定部全体を行う。
提案モデルは頑健であり, 霧, 霧, 風などの気象条件を考慮に入れている。
低照度でも非常に効率的に機能する。
edge serverは戦略的に配置されたサーバで、低レイテンシとより良い接続性を提供します。
このトラフィック管理システムにおけるエッジ技術の使用は,クラウドサーバの負荷を低減し,中間エッジサーバの処理によりレイテンシと帯域幅が減少するため,リアルタイムに信頼性が向上する。 Congestion in traffic is an unavoidable circumstance in many cities in India and other countries. It is an issue of major concern. The steep rise in the number of automobiles on the roads followed by old infrastructure, accidents, pedestrian traffic, and traffic rule violations all add to challenging traffic conditions. Given these poor conditions of traffic, there is a critical need for automatically detecting and signaling systems. There are already various technologies that are used for traffic management and signaling systems like video analysis, infrared sensors, and wireless sensors. The main issue with these methods is they are very costly and high maintenance is required. In this paper, we have proposed a three-phase system that can guide emergency vehicles and manage traffic based on the degree of congestion. In the first phase, the system processes the captured images and calculates the Index value which is used to discover the degree of congestion. The Index value of a particular road depends on its width and the length up to which the camera captures images of that road. We have to take input for the parameters (length and width) while setting up the system. In the second phase, the system checks whether there are any emergency vehicles present or not in any lane. In the third phase, the whole processing and decision-making part is performed at the edge server. The proposed model is robust and it takes into consideration adverse weather conditions such as hazy, foggy, and windy. It works very efficiently in low light conditions also. The edge server is a strategically placed server that provides us with low latency and better connectivity. Using Edge technology in this traffic management system reduces the strain on cloud servers and the system becomes more reliable in real-time because the latency and bandwidth get reduced due to processing at the intermediate edge server. | 翻訳日:2023-05-01 13:42:15 公開日:2023-04-26 |
# 解釈可能性誘導によるドライバの眠気検知のための脳波チャンネル選択フレームワーク An EEG Channel Selection Framework for Driver Drowsiness Detection via Interpretability Guidance ( http://arxiv.org/abs/2304.14920v1 ) ライセンス: Link先を確認 | Xinliang Zhou, Dan Lin, Ziyu Jia, Jiaping Xiao, Chenyu Liu, Liming Zhai and Yang Liu | (参考訳) 眠気運転は運転安全性に重大な影響を及ぼし、運転者の眠気検出に緊急の需要が生じる。
脳波(EEG)信号は精神疲労状態を正確に反映できるため、眠気モニタリングにおいて広く研究されている。
しかし、生のEEGデータは本質的に騒々しく冗長であり、単一のチャネルのEEGデータまたはモデルトレーニングにフルチャネルのEEGデータだけを使用する既存の作業によって無視され、ドライバの眠気検出のパフォーマンスが制限される。
本稿では,運転者の眠気検知タスクのための解釈可能性誘導型チャネル選択(ICS)フレームワークを初めて提案する。
具体的には、2段階のトレーニング戦略をデザインし,解釈可能性の指導により,重要な貢献チャネルを段階的に選択する。
まず,教師ネットワークをフルヘッドチャネル脳波データを用いて第1段階で訓練する。
次に、学習した教師モデルにクラスアクティベーションマッピング(CAM)を適用して、ハイコントリビュートなEEGチャネルを強調し、さらに、トップNコントリビュートなEEGチャネルを選択するためのチャネル投票方式を提案する。
最後に、運転者の眠気検出のための第2段階において、脳波データの選択チャネルを用いて学生ネットワークを訓練する。
実験は公開データセットに基づいて設計され,本手法は高い適用性を有し,クロスサブジェクトドライバの眠気検出性能を著しく向上できることを示す。 Drowsy driving has a crucial influence on driving safety, creating an urgent demand for driver drowsiness detection. Electroencephalogram (EEG) signal can accurately reflect the mental fatigue state and thus has been widely studied in drowsiness monitoring. However, the raw EEG data is inherently noisy and redundant, which is neglected by existing works that just use single-channel EEG data or full-head channel EEG data for model training, resulting in limited performance of driver drowsiness detection. In this paper, we are the first to propose an Interpretability-guided Channel Selection (ICS) framework for the driver drowsiness detection task. Specifically, we design a two-stage training strategy to progressively select the key contributing channels with the guidance of interpretability. We first train a teacher network in the first stage using full-head channel EEG data. Then we apply the class activation mapping (CAM) to the trained teacher model to highlight the high-contributing EEG channels and further propose a channel voting scheme to select the top N contributing EEG channels. Finally, we train a student network with the selected channels of EEG data in the second stage for driver drowsiness detection. Experiments are designed on a public dataset, and the results demonstrate that our method is highly applicable and can significantly improve the performance of cross-subject driver drowsiness detection. | 翻訳日:2023-05-01 13:41:32 公開日:2023-04-26 |
# scatterformer: 患者に依存しないエピレプチフォーム放電のマルチスペクトル検出のための局所不変散乱トランスフォーマ ScatterFormer: Locally-Invariant Scattering Transformer for Patient-Independent Multispectral Detection of Epileptiform Discharges ( http://arxiv.org/abs/2304.14919v1 ) ライセンス: Link先を確認 | Ruizhe Zheng, Jun Li, Yi Wang, Tian Luo, Yuguo Yu | (参考訳) 脳波(cEEG)の視覚スペクトルによるてんかん活動の患者非依存的検出はてんかんの診断に広く用いられている。
しかしながら、被験者、チャネル、時間点の微妙な変動のため、正確な検出は依然として大きな課題である。
したがって、高頻度のテクスチャ情報に関連付けられた脳波パターンの細粒度で判別的な特徴の把握は未解決である。
本研究では,微妙な特徴に特に注意を払う不変散乱変換に基づく階層的変圧器である散乱変圧器(散乱変圧器)を提案する。
特に、不等角化周波数認識注意(faa)により、トランスフォーマは臨床的に有益な高周波成分を捉えることができ、多チャンネル脳波信号の視覚的符号化に基づく新しい臨床説明性を提供する。
エピレプチフォーム検出の2つのタスクに対する評価は,本手法の有効性を示す。
ローランドてんかん患者におけるAUCROCの中央値と精度は98.14%,96.39%であった。
新生児発作検出ベンチマークでは、平均的なAUCROCで最先端の9%を上回っている。 Patient-independent detection of epileptic activities based on visual spectral representation of continuous EEG (cEEG) has been widely used for diagnosing epilepsy. However, precise detection remains a considerable challenge due to subtle variabilities across subjects, channels and time points. Thus, capturing fine-grained, discriminative features of EEG patterns, which is associated with high-frequency textural information, is yet to be resolved. In this work, we propose Scattering Transformer (ScatterFormer), an invariant scattering transform-based hierarchical Transformer that specifically pays attention to subtle features. In particular, the disentangled frequency-aware attention (FAA) enables the Transformer to capture clinically informative high-frequency components, offering a novel clinical explainability based on visual encoding of multichannel EEG signals. Evaluations on two distinct tasks of epileptiform detection demonstrate the effectiveness our method. Our proposed model achieves median AUCROC and accuracy of 98.14%, 96.39% in patients with Rolandic epilepsy. On a neonatal seizure detection benchmark, it outperforms the state-of-the-art by 9% in terms of average AUCROC. | 翻訳日:2023-05-01 13:41:06 公開日:2023-04-26 |
# ウェアラブルデータの自己教師付き表現を用いたヒューマンアクティビティ認識 Human Activity Recognition Using Self-Supervised Representations of Wearable Data ( http://arxiv.org/abs/2304.14912v1 ) ライセンス: Link先を確認 | Maximilien Burq and Niranjan Sridhar | (参考訳) 身体運動センサを用いた人体行動認識(HAR)の自動化と高精度化により,複数治療領域にわたる臨床所見を提供するデイリーライビング(ADL)の実践的かつ費用対効果の高い遠隔監視が可能となった。
ヒトの活動認識(HAR)のための正確なアルゴリズムの開発は、大規模な実世界のラベル付きデータセットの欠如によって妨げられている。
さらに、アルゴリズムはプロトタイプとなる特定のセンサーを超えることはめったになく、加速度計ベースのHARが可能であるかどうかという議論を呼んだ[Tong et al., 2020]。
ここでは、トレーニング中に見えない実世界のデータセットで評価した場合、高い性能を有する6クラスHARモデルを開発する。
我々のモデルは、大規模なラベル付きデータセットで学習した凍結自己教師表現と、時間的平滑化を伴う浅い多層パーセプトロンに基づいている。
このモデルは、capture24データセット($\kappa= 0.86$)で、データ内の最先端のパフォーマンスを得る。
アウト・オブ・ディストリビューション(OOD)のパフォーマンスは$\kappa = 0.7$であり、表現とパーセプトロンモデルの両方が異なるセンサーのデータに基づいてトレーニングされている。
この研究は、デバイスに依存しないHARモデルへの重要なステップであり、HAR分野におけるモデル評価の標準化に寄与する。 Automated and accurate human activity recognition (HAR) using body-worn sensors enables practical and cost efficient remote monitoring of Activity of DailyLiving (ADL), which are shown to provide clinical insights across multiple therapeutic areas. Development of accurate algorithms for human activity recognition(HAR) is hindered by the lack of large real-world labeled datasets. Furthermore, algorithms seldom work beyond the specific sensor on which they are prototyped, prompting debate about whether accelerometer-based HAR is even possible [Tong et al., 2020]. Here we develop a 6-class HAR model with strong performance when evaluated on real-world datasets not seen during training. Our model is based on a frozen self-supervised representation learned on a large unlabeled dataset, combined with a shallow multi-layer perceptron with temporal smoothing. The model obtains in-dataset state-of-the art performance on the Capture24 dataset ($\kappa= 0.86$). Out-of-distribution (OOD) performance is $\kappa = 0.7$, with both the representation and the perceptron models being trained on data from a different sensor. This work represents a key step towards device-agnostic HAR models, which can help contribute to increased standardization of model evaluation in the HAR field. | 翻訳日:2023-05-01 13:40:31 公開日:2023-04-26 |
# 制約付きマルチエージェント強化学習のための原始双対アルゴリズムの解釈 Interpreting Primal-Dual Algorithms for Constrained Multiagent Reinforcement Learning ( http://arxiv.org/abs/2211.16069v3 ) ライセンス: Link先を確認 | Daniel Tabas, Ahmed S. Zamzam, Baosen Zhang | (参考訳) 制約付きマルチエージェント強化学習(C-MARL)は、MARLアルゴリズムがエネルギーシステムからドローン群まで、現実世界のシステムに新しい応用を見出すにつれ、重要性が高まっている。
ほとんどのc-marlアルゴリズムは、報酬に付加されるペナルティ関数を通じて制約を強制するために原始的アプローチを用いる。
本稿では,このペナルティ項がmarl問題に及ぼす影響について検討する。
まず,制約関数をペナルティとして使用する標準的な慣行が,安全性の弱い概念につながることを示す。
しかし、ペナルティ項に簡単な修正を加えることで、有意義な確率的制約(リスクのチャンスと条件値)を課すことができる。
次に, ペナルティ項が値関数に与える影響を定量化し, 改良された値推定法を明らかにする。
本稿では,制約付きマルチエージェント・アドバンスト・アクター・アトラクション(C-MAA2C)アルゴリズムを提案する。
単純な制約付きマルチエージェント環境におけるシミュレーションは、確率的制約の観点からの原始双対法の再解釈が有効であること、提案する値推定が安全な合同政策への収束を促進することを裏付ける。 Constrained multiagent reinforcement learning (C-MARL) is gaining importance as MARL algorithms find new applications in real-world systems ranging from energy systems to drone swarms. Most C-MARL algorithms use a primal-dual approach to enforce constraints through a penalty function added to the reward. In this paper, we study the structural effects of this penalty term on the MARL problem. First, we show that the standard practice of using the constraint function as the penalty leads to a weak notion of safety. However, by making simple modifications to the penalty term, we can enforce meaningful probabilistic (chance and conditional value at risk) constraints. Second, we quantify the effect of the penalty term on the value function, uncovering an improved value estimation procedure. We use these insights to propose a constrained multiagent advantage actor critic (C-MAA2C) algorithm. Simulations in a simple constrained multiagent environment affirm that our reinterpretation of the primal-dual method in terms of probabilistic constraints is effective, and that our proposed value estimate accelerates convergence to a safe joint policy. | 翻訳日:2023-04-28 21:55:25 公開日:2023-04-26 |
# 生成的深層学習による量子アニーラを用いた平衡スピングラスシミュレーション Accelerating equilibrium spin-glass simulations using quantum annealers via generative deep learning ( http://arxiv.org/abs/2210.11288v2 ) ライセンス: Link先を確認 | Giuseppe Scriva, Emanuele Costa, Benjamin McNaughton, Sebastiano Pilati | (参考訳) D-Wave Systems Inc.によって商用化された量子アニールのような断熱型量子コンピュータは、組合せ最適化問題に常用される。
本稿では, 平衡マルコフ連鎖モンテカルロシミュレーションを用いて, 低温でも有限温度でも計算に難渋するスピングラスモデルの高速化について述べる。
これは、D-Wave量子アニールによって生成されたデータに基づいて生成ニューラルネットワークをトレーニングし、それを使用してメトロポリス・ハスティングスアルゴリズムのスマートな提案を生成することで達成される。
特に、単一スピンフリップとニューラルプロポーザル、D-Waveと古典モンテカルロのトレーニングデータを組み合わせたハイブリッドスキームについて検討する。
ハイブリッドアルゴリズムは1つのスピンフリップメトロポリス・ハスティングスアルゴリズムより優れている。
これは相関時間の観点からは平行テンパリングと競合しており、より短い平衡時間という大きな利点がある。 Adiabatic quantum computers, such as the quantum annealers commercialized by D-Wave Systems Inc., are routinely used to tackle combinatorial optimization problems. In this article, we show how to exploit them to accelerate equilibrium Markov chain Monte Carlo simulations of computationally challenging spin-glass models at low but finite temperatures. This is achieved by training generative neural networks on data produced by a D-Wave quantum annealer, and then using them to generate smart proposals for the Metropolis-Hastings algorithm. In particular, we explore hybrid schemes by combining single spin-flip and neural proposals, as well as D-Wave and classical Monte Carlo training data. The hybrid algorithm outperforms the single spin-flip Metropolis-Hastings algorithm. It is competitive with parallel tempering in terms of correlation times, with the significant benefit of a much shorter equilibration time. | 翻訳日:2023-04-28 21:55:05 公開日:2023-04-26 |
# ゆるやかな後悔を伴うレスレスブレイディットに対するウィトル指数の学習について On learning Whittle index policy for restless bandits with scalable regret ( http://arxiv.org/abs/2202.03463v2 ) ライセンス: Link先を確認 | Nima Akbarzadeh, Aditya Mahajan | (参考訳) 強化学習は、システムモデルが不明なときにデータに基づいて、優れたリソース割り当てとスケジューリングポリシーを学ぶための魅力的なアプローチである。
しかし、ほとんどのrlアルゴリズムの累積後悔は$\tilde o(\mathsf{s} \sqrt{\mathsf{a} t})$であり、ここで$\mathsf{s}$は状態空間の大きさ、$\mathsf{a}$はアクション空間のサイズ、$t$は地平線、$\tilde{o}(\cdot)$記法は対数項を隠す。
状態空間の大きさに線形依存するため、これらの後悔の限界はリソースの割り当てやスケジューリングの問題に対して非常に大きい。
本稿では,このような問題に対してスケーラブルなモデルベースrlアルゴリズムを提案する。
特に,restless banditモデルについて検討し,モデルの基盤構造に適応したトンプソンサンプリングに基づく学習アルゴリズムを提案する。
本稿では,Whittleインデックスポリシーに対する提案アルゴリズムの後悔の2つの特徴について述べる。
まず、n$のアームと最大$m$のアクティベーションを持つレストレスのバンディットに対して、後悔は、報酬モデルによって$\tilde{o}(mn\sqrt{t})$または$\tilde{o}(n^2 \sqrt{t})$となる。
第二に、追加の技術的仮定の下で、後悔は$\tilde{O}(n^{1.5} \sqrt{T})$または$\tilde{O}(\max\{m\sqrt{n}, n\} \sqrt{T})$としてスケールすることを示す。
本稿では,アルゴリズムの有意な特徴を示す数値例を示す。 Reinforcement learning is an attractive approach to learn good resource allocation and scheduling policies based on data when the system model is unknown. However, the cumulative regret of most RL algorithms scales as $\tilde O(\mathsf{S} \sqrt{\mathsf{A} T})$, where $\mathsf{S}$ is the size of the state space, $\mathsf{A}$ is the size of the action space, $T$ is the horizon, and the $\tilde{O}(\cdot)$ notation hides logarithmic terms. Due to the linear dependence on the size of the state space, these regret bounds are prohibitively large for resource allocation and scheduling problems. In this paper, we present a model-based RL algorithm for such problems which has scalable regret. In particular, we consider a restless bandit model, and propose a Thompson-sampling based learning algorithm which is tuned to the underlying structure of the model. We present two characterizations of the regret of the proposed algorithm with respect to the Whittle index policy. First, we show that for a restless bandit with $n$ arms and at most $m$ activations at each time, the regret scales either as $\tilde{O}(mn\sqrt{T})$ or $\tilde{O}(n^2 \sqrt{T})$ depending on the reward model. Second, under an additional technical assumption, we show that the regret scales as $\tilde{O}(n^{1.5} \sqrt{T})$ or $\tilde{O}(\max\{m\sqrt{n}, n\} \sqrt{T})$. We present numerical examples to illustrate the salient features of the algorithm. | 翻訳日:2023-04-28 21:54:36 公開日:2023-04-26 |
# アンサンブルとベイズスパースモデル発見における不確実性推定の収束 Convergence of uncertainty estimates in Ensemble and Bayesian sparse model discovery ( http://arxiv.org/abs/2301.12649v2 ) ライセンス: Link先を確認 | L. Mars Gao, Urban Fasel, Steven L. Brunton, J. Nathan Kutz | (参考訳) スパースモデル同定はデータからの非線形動的システム発見を可能にする。
しかしながら、スパースモデル同定のための偽発見の制御は、特に低データと高ノイズの限界において困難である。
本稿では,ノイズに対する正確性とロバスト性の観点から経験的成功を示す,アンサンブルスパースモデルの発見に関する理論的研究を行う。
特に,ブートストラップに基づくシーケンシャルしきい値最小二乗推定器の解析を行う。
このブートストラップに基づくアンサンブル手法は,誤差率の指数収束率で,確率的に正しい可変選択を行うことができることを示す。
さらに,アンサンブルスパースモデル探索法は,MCMCによる高価なベイズの不確実性定量化法と比較して,計算効率のよい不確実性推定を行うことができることを示した。
合成スパース線形回帰とスパースモデルの発見に関する様々な数値研究において、収束特性と不確かさの定量化との関係を実証する。
ブートストラップに基づくシーケンシャルしきい値最小二乗法は, LASSO, しきい値最小二乗法, ブートストラップ最小二乗法に比べ, スパース変数選択性能が向上することを示した。
スパースモデル発見実験において、ブートストラップに基づくシーケンシャルしきい値最小二乗法により、実値を中心とするデルタ測度とサンプルサイズの増加に収束し、妥当な不確かさの定量化が可能になることを示した。
最後に,ブートストラップ型シーケンシャルしきい値最小二乗法におけるノイズのシフトとスパーシティレベル下でのハイパーパラメータ選択に対するロバスト性の改善を,他のスパース回帰法と比較して強調する。 Sparse model identification enables nonlinear dynamical system discovery from data. However, the control of false discoveries for sparse model identification is challenging, especially in the low-data and high-noise limit. In this paper, we perform a theoretical study on ensemble sparse model discovery, which shows empirical success in terms of accuracy and robustness to noise. In particular, we analyse the bootstrapping-based sequential thresholding least-squares estimator. We show that this bootstrapping-based ensembling technique can perform a provably correct variable selection procedure with an exponential convergence rate of the error rate. In addition, we show that the ensemble sparse model discovery method can perform computationally efficient uncertainty estimation, compared to expensive Bayesian uncertainty quantification methods via MCMC. We demonstrate the convergence properties and connection to uncertainty quantification in various numerical studies on synthetic sparse linear regression and sparse model discovery. The experiments on sparse linear regression support that the bootstrapping-based sequential thresholding least-squares method has better performance for sparse variable selection compared to LASSO, thresholding least-squares, and bootstrapping-based LASSO. In the sparse model discovery experiment, we show that the bootstrapping-based sequential thresholding least-squares method can provide valid uncertainty quantification, converging to a delta measure centered around the true value with increased sample sizes. Finally, we highlight the improved robustness to hyperparameter selection under shifting noise and sparsity levels of the bootstrapping-based sequential thresholding least-squares method compared to other sparse regression methods. | 翻訳日:2023-04-28 21:44:46 公開日:2023-04-26 |
# 障害と長距離結合の存在における位相位相 Topological phases in the presence of disorder and longer-range couplings ( http://arxiv.org/abs/2212.07454v2 ) ライセンス: Link先を確認 | Gianluca Francica, Edoardo Maria Tiburzi, Luca Dell'Anna | (参考訳) 1次元超伝導体の相図に及ぼす乱れとカップリング範囲の組合せ効果について検討した。
ホッピングとペアリングという用語が多くのサイトを兼ねる,Kitaev 連鎖の拡張版を考える。
マヨラナゼロモードの存在条件を導出することにより、その範囲とオンサイト障害が、エッジに局在するマヨラナモードの出現によって特徴づけられるトポロジカル位相を大きく向上させることができることを示した。
我々は離散分布と連続性障害分布の両方を考える。
さらに,トポロジカル領域をさらに拡大する可能性がある相関障害の役割について考察する。
最後に、純粋に長距離な状態と障害の存在下では、エッジモードの空間的崩壊は代数的あるいは指数的であり、最終的には障害がないような局所化長が変化する。 We study the combined effects of disorder and range of the couplings on the phase diagram of one-dimensional topological superconductors. We consider an extended version of the Kitaev chain where hopping and pairing terms couple many sites. Deriving the conditions for the existence of Majorana zero modes, we show that either the range and the on-site disorder can greatly enhance the topological phases characterized by the appearance of one or many Majorana modes localized at the edges. We consider both a discrete and a continuous disorder distribution. Moreover we discuss the role of correlated disorder which might further widen the topological regions. Finally we show that in the purely long-range regime and in the presence of disorder, the spatial decay of the edge modes remains either algebraic or exponential, with eventually a modified localization length, as in the absence of disorder. | 翻訳日:2023-04-28 21:43:30 公開日:2023-04-26 |
# UAVリモートセンシングにおける深層学習の展望 A Review on Deep Learning in UAV Remote Sensing ( http://arxiv.org/abs/2101.10861v3 ) ライセンス: Link先を確認 | Lucas Prado Osco, Jos\'e Marcato Junior, Ana Paula Marques Ramos, L\'ucio Andr\'e de Castro Jorge, Sarah Narges Fatholahi, Jonathan de Andrade Silva, Edson Takashi Matsubara, Hemerson Pistori, Wesley Nunes Gon\c{c}alves, Jonathan Li | (参考訳) Deep Neural Networks(DNN)は、印象的な能力でデータから表現を学び、画像、時系列、自然言語、オーディオ、ビデオなどの処理に重要なブレークスルーをもたらした。
リモートセンシング分野では,DNNアルゴリズムの応用に関する調査と文献の改訂が,そのサブフィールドで生成された情報の量を要約するために行われている。
近年,無人航空機(UAV)の応用が空中センシング研究を支配している。
しかし,「深層学習」と「UAVリモートセンシング」を併用した文献改訂はまだ行われていない。
本研究の動機は,UAV画像に適用されたディープラーニング(DL)の基礎を包括的にレビューすることであった。
本稿では,UAV取得データを用いた最近の応用における分類・回帰手法について述べる。
そのために、国際科学雑誌データベースに掲載された合計232の論文が調査された。
得られた資料を収集し, 応用, センサ, 技術に関する特性評価を行った。
本稿では,有望な結果をDLが提示し,UAV画像データに関連するタスクを処理できる可能性について述べる。
最後に,UAVリモートセンシング分野における顕著なDLパスについて解説し,今後の展望を提案する。
我々のリビジョンは、リモートセンシングの様々なサブフィールドにおけるDNNアルゴリズムによるUAVベースの画像応用の最先端を紹介、解説、要約し、環境、都市、農業の文脈でグループ化するためのフレンドリーなアプローチで構成されている。 Deep Neural Networks (DNNs) learn representation from data with an impressive capability, and brought important breakthroughs for processing images, time-series, natural language, audio, video, and many others. In the remote sensing field, surveys and literature revisions specifically involving DNNs algorithms' applications have been conducted in an attempt to summarize the amount of information produced in its subfields. Recently, Unmanned Aerial Vehicles (UAV) based applications have dominated aerial sensing research. However, a literature revision that combines both "deep learning" and "UAV remote sensing" thematics has not yet been conducted. The motivation for our work was to present a comprehensive review of the fundamentals of Deep Learning (DL) applied in UAV-based imagery. We focused mainly on describing classification and regression techniques used in recent applications with UAV-acquired data. For that, a total of 232 papers published in international scientific journal databases was examined. We gathered the published material and evaluated their characteristics regarding application, sensor, and technique used. We relate how DL presents promising results and has the potential for processing tasks associated with UAV-based image data. Lastly, we project future perspectives, commentating on prominent DL paths to be explored in the UAV remote sensing field. Our revision consists of a friendly-approach to introduce, commentate, and summarize the state-of-the-art in UAV-based image applications with DNNs algorithms in diverse subfields of remote sensing, grouping it in the environmental, urban, and agricultural contexts. | 翻訳日:2023-04-28 17:52:54 公開日:2023-04-26 |
# 分散ドリフト下における確率最適化 Stochastic Optimization under Distributional Drift ( http://arxiv.org/abs/2108.07356v3 ) ライセンス: Link先を確認 | Joshua Cutler, Dmitriy Drusvyatskiy, Zaid Harchaoui | (参考訳) 我々は、時間と決定変数自体に共同で依存する可能性のある未知の確率力学に基づいて進化している凸関数を最小化する問題を考察する。
このような問題は、機械学習や信号処理の文献において、概念ドリフト、確率追跡、実行的予測といった名前で数多く発生している。
我々は,確率的アルゴリズムの予測と高い確率の両方で有効な境界に焦点をあて,平均化を繰り返す新しい非漸近収束保証を提供する。
効率評価の結果, 最適化誤差, 勾配雑音, 時間ドリフトの寄与を明らかに分離した。
特に,近位確率勾配法の追従効率がステップ減衰スケジュールから著しく向上する低ドリフト-ノイズ方式を同定した。
数値実験で結果が分かる。 We consider the problem of minimizing a convex function that is evolving according to unknown and possibly stochastic dynamics, which may depend jointly on time and on the decision variable itself. Such problems abound in the machine learning and signal processing literature, under the names of concept drift, stochastic tracking, and performative prediction. We provide novel non-asymptotic convergence guarantees for stochastic algorithms with iterate averaging, focusing on bounds valid both in expectation and with high probability. The efficiency estimates we obtain clearly decouple the contributions of optimization error, gradient noise, and time drift. Notably, we identify a low drift-to-noise regime in which the tracking efficiency of the proximal stochastic gradient method benefits significantly from a step decay schedule. Numerical experiments illustrate our results. | 翻訳日:2023-04-28 17:42:43 公開日:2023-04-26 |
# 言語抽象化と事前学習表現による意味探索 Semantic Exploration from Language Abstractions and Pretrained Representations ( http://arxiv.org/abs/2204.05080v3 ) ライセンス: Link先を確認 | Allison C. Tam, Neil C. Rabinowitz, Andrew K. Lampinen, Nicholas A. Roy, Stephanie C. Y. Chan, DJ Strouse, Jane X. Wang, Andrea Banino, Felix Hill | (参考訳) 効果的な探索は強化学習(RL)における課題である。
新規性に基づく探索法は、連続的な部分観測可能な3D環境のような高次元状態空間で苦しむことができる。
自然言語によって形作られた学習表現で見られる意味論的意味のある状態抽象化を用いて、新規性を定義することで、この課題に対処する。
特に、自然画像キャプションデータセットに基づいて、視覚言語表現を評価する。
これらの事前訓練された表現は、意味のあるタスク関連探索を促進し、3次元シミュレーション環境の性能を向上させる。
我々はまた、事前訓練されたモデル、言語オラクル、およびいくつかのアブレーションからの表現の使用の影響を考慮して、言語が探索に有用な抽象化を提供する理由と方法を特徴付ける。
当社のアプローチのメリットは,2つの非常に異なるタスク領域 – 日常的なオブジェクトの識別と操作を強調するものと,拡張的な世界におけるナビゲーション探索を必要とするもの – で実証しています。
以上より,言語表現を用いることで,課題環境における様々なアルゴリズムやエージェントの探索が向上することが示唆された。 Effective exploration is a challenge in reinforcement learning (RL). Novelty-based exploration methods can suffer in high-dimensional state spaces, such as continuous partially-observable 3D environments. We address this challenge by defining novelty using semantically meaningful state abstractions, which can be found in learned representations shaped by natural language. In particular, we evaluate vision-language representations, pretrained on natural image captioning datasets. We show that these pretrained representations drive meaningful, task-relevant exploration and improve performance on 3D simulated environments. We also characterize why and how language provides useful abstractions for exploration by considering the impacts of using representations from a pretrained model, a language oracle, and several ablations. We demonstrate the benefits of our approach in two very different task domains -- one that stresses the identification and manipulation of everyday objects, and one that requires navigational exploration in an expansive world. Our results suggest that using language-shaped representations could improve exploration for various algorithms and agents in challenging environments. | 翻訳日:2023-04-28 17:32:56 公開日:2023-04-26 |
# grips: 大きな言語モデルを促すためのグラデーションフリーで編集ベースの命令検索 GrIPS: Gradient-free, Edit-based Instruction Search for Prompting Large Language Models ( http://arxiv.org/abs/2203.07281v2 ) ライセンス: Link先を確認 | Archiki Prasad, Peter Hase, Xiang Zhou, Mohit Bansal | (参考訳) プロンプトでの自然言語命令の提供は、ゼロショット設定で大規模言語モデルのタスクパフォーマンスを改善するための有用な新しいパラダイムである。
最近の作業は、手動の書き換えやグラデーションベースのチューニングによって、このようなプロンプトを改善することを目的としている。
しかし、手作業による書き直しは時間を要するため主観的な解釈が必要であり、勾配ベースのチューニングは大きなモデルでは極めて計算量が必要であり、apiベースのモデルでは実現不可能である。
本研究では,大規模言語モデルのタスク命令を改善するために,グラデーションフリーな編集ベースの検索手法であるgrips(gradient-free instructional prompt search)を提案する。
GrIPSは人間用に設計された命令を受け取り、APIベースのチューニングを可能にしながら、改善された編集されたプロンプトを自動的に返します。
InstructGPTモデルにより、GrIPSはNatural Instructionsデータセット(OPT、BLOOM、FLAN-T5)から8つの分類タスクに対して、平均タスク性能を最大4.30ポイント改善する。
命令のみのプロンプトと命令+kショットの例プロンプトの改善が見られます。
特にGrIPSは、利用可能な計算とデータ予算を管理しながら、手書きの書き直しと純粋にサンプルベースのプロンプトより優れている。
さらに、GrIPSの性能は、特定の勾配に基づくチューニング手法に匹敵する。
質的には、編集が命令をシンプルにし、時には一貫性を欠くが正確性は向上することを示している。
私たちのコードは、https://github.com/archiki/GrIPSで利用可能です。 Providing natural language instructions in prompts is a useful new paradigm for improving task performance of large language models in a zero-shot setting. Recent work has aimed to improve such prompts via manual rewriting or gradient-based tuning. However, manual rewriting is time-consuming and requires subjective interpretation, while gradient-based tuning can be extremely computationally demanding for large models and may not be feasible for API-based models. In this work, we introduce Gradient-free Instructional Prompt Search (GrIPS), a gradient-free, edit-based search approach for improving task instructions for large language models. GrIPS takes in instructions designed for humans and automatically returns an improved, edited prompt, while allowing for API-based tuning. With InstructGPT models, GrIPS improves the average task performance by up to 4.30 percentage points on eight classification tasks from the Natural Instructions dataset (with similar improvements for OPT, BLOOM, and FLAN-T5). We see improvements for both instruction-only prompts and instruction + k-shot examples prompts. Notably, GrIPS outperforms manual rewriting and purely example-based prompts while controlling for the available compute and data budget. Further, performance of GrIPS is comparable to select gradient-based tuning approaches. Qualitatively, we show our edits can simplify instructions and at times make them incoherent but nonetheless improve accuracy. Our code is available at: https://github.com/archiki/GrIPS | 翻訳日:2023-04-28 17:32:12 公開日:2023-04-26 |
# T-RECX:早期eXitを用いたTiny-Resource効率的な畳み込みニューラルネットワーク T-RECX: Tiny-Resource Efficient Convolutional neural networks with early-eXit ( http://arxiv.org/abs/2207.06613v2 ) ライセンス: Link先を確認 | Nikhil P Ghanathe, Steve Wilton | (参考訳) ミリワット規模のエッジデバイス(tinyML)に機械学習(ML)をデプロイすることは、最近のMLとIoT(Internet of Things)のブレークスルーによって人気を集めている。
多くの小さなML研究は、KBサイズの小型デバイスに収まるコンパクトモデルの精度(およびモデル容量)を交換するモデル圧縮技術に焦点を当てている。
本稿では,早期出口中間分類器の追加により,そのようなモデルをどのように拡張できるかを示す。
中間分類器がその予測に十分な信頼性を示した場合、ネットワークは早期に終了し、時間的にかなりの節約となる。
初期のエグジット分類器は以前の研究で提案されていたが、これらの提案は大規模ネットワークにフォーカスしており、tinymlアプリケーションではそのテクニックが最適/非現実的になっている。
本手法は小型cnnモデルに特化している。
また,早期出口で学習した表現を活用することで,ネットワーク再考の効果を緩和する手法を提案する。
画像分類,キーワードスポッティング,視覚覚醒単語検出のためのベンチマークスイートMLPerfの3つのCNN上でのT-RecXを評価する。
我々の結果は、T-RecXが
1)ベースラインネットワークの精度を向上させる。
2) FLOPSを平均31.58%削減し, 全モデルで1%の精度で評価した。
さらに,提案手法は,評価対象の小型CNNにおいて,従来よりも常に優れていた。 Deploying Machine learning (ML) on milliwatt-scale edge devices (tinyML) is gaining popularity due to recent breakthroughs in ML and Internet of Things (IoT). Most tinyML research focuses on model compression techniques that trade accuracy (and model capacity) for compact models to fit into the KB-sized tiny-edge devices. In this paper, we show how such models can be enhanced by the addition of an early exit intermediate classifier. If the intermediate classifier exhibits sufficient confidence in its prediction, the network exits early thereby, resulting in considerable savings in time. Although early exit classifiers have been proposed in previous work, these previous proposals focus on large networks, making their techniques suboptimal/impractical for tinyML applications. Our technique is optimized specifically for tiny-CNN sized models. In addition, we present a method to alleviate the effect of network overthinking by leveraging the representations learned by the early exit. We evaluate T-RecX on three CNNs from the MLPerf tiny benchmark suite for image classification, keyword spotting and visual wake word detection tasks. Our results show that T-RecX 1) improves the accuracy of baseline network, 2) achieves 31.58% average reduction in FLOPS in exchange for one percent accuracy across all evaluated models. Furthermore, we show that our methods consistently outperform popular prior works on the tiny-CNNs we evaluate. | 翻訳日:2023-04-28 17:25:08 公開日:2023-04-26 |
# 並列性トレードオフ:ログ精度変換器の限界 The Parallelism Tradeoff: Limitations of Log-Precision Transformers ( http://arxiv.org/abs/2207.00729v4 ) ライセンス: Link先を確認 | William Merrill and Ashish Sabharwal | (参考訳) 現代のNLPにおける全知性にもかかわらず、トランスフォーマーニューラルネットの計算能力を特徴づけることは、興味深い疑問である。
入力トークン数で算術精度が対数的である変換器(入力において空間線形で計算可能なフィードフォワードネット)は、定数深さの対数空間一様しきい値回路でシミュレートできることを示す。
これは、複雑性理論の既知の結果を用いた変圧器のパワーに関する洞察を与える。
例えば、$\mathsf L \neq \mathsf P$ (つまり、すべてのポリ時間問題は対数空間で解決できるわけではない) の場合、変換器は任意の文脈自由文法における線形等式を正確に解けない。
我々の結果はトランスアーキテクチャの高並列化性から直感的に現れる。
したがって、我々は基本的な並列性トレードオフの概念を投機的に導入する: トランスフォーマーのように並列化可能なモデルアーキテクチャは、それに似た制限に従う。
大規模モデルのトレーニングには並列性が重要だから,スケーリングパラダイムの潜在的な弱点を示唆するものだ。 Despite their omnipresence in modern NLP, characterizing the computational power of transformer neural nets remains an interesting open question. We prove that transformers whose arithmetic precision is logarithmic in the number of input tokens (and whose feedforward nets are computable using space linear in their input) can be simulated by constant-depth logspace-uniform threshold circuits. This provides insight on the power of transformers using known results in complexity theory. For example, if $\mathsf L \neq \mathsf P$ (i.e., not all poly-time problems can be solved using logarithmic space), then transformers cannot even accurately solve linear equalities or check membership in an arbitrary context-free grammar with empty productions. Our result intuitively emerges from the transformer architecture's high parallelizability. We thus speculatively introduce the idea of a fundamental parallelism tradeoff: any model architecture as parallelizable as the transformer will obey limitations similar to it. Since parallelism is key to training models at massive scale, this suggests a potential inherent weakness of the scaling paradigm. | 翻訳日:2023-04-28 17:24:42 公開日:2023-04-26 |
# センター・フィーチャー・フュージョン:センター・ベース・オブジェクトの選択的マルチセンサー・フュージョン Center Feature Fusion: Selective Multi-Sensor Fusion of Center-based Objects ( http://arxiv.org/abs/2209.12880v2 ) ライセンス: Link先を確認 | Philip Jacobson, Yiyang Zhou, Wei Zhan, Masayoshi Tomizuka, Ming C. Wu | (参考訳) カメラとLiDARのマルチモーダル融合の活用は、自動運転車のための正確で堅牢な3Dオブジェクト検出システムを構築する上で欠かせないものとなっている。
最近まで、ポイントデコレーションのアプローチでは、カメラ機能でポイントクラウドが強化され、この分野では主要なアプローチであった。
しかし、これらの手法はカメラの高解像度画像を利用できない。
鳥眼視(BEV)領域にカメラ機能を投影する最近の研究も提案されているが、背景情報のみを含む数百万ピクセルを投影する必要がある。
本研究では,カメラとlidarストリームの両方でセンタベースの検出ネットワークを活用し,関連する物体の位置を識別するアプローチセンタ機能融合(cff)を提案する。
次に、画像中の全数のごく一部であるオブジェクト位置に関連する画素の特徴の位置を特定するために、中心に基づく検出を行う。
これらはBEVフレームに投影され、融合される。
nuScenesデータセットでは、LiDARのみのベースラインを4.9%のmAPで上回り、他の融合法よりも100倍も少ない特徴を持つ。 Leveraging multi-modal fusion, especially between camera and LiDAR, has become essential for building accurate and robust 3D object detection systems for autonomous vehicles. Until recently, point decorating approaches, in which point clouds are augmented with camera features, have been the dominant approach in the field. However, these approaches fail to utilize the higher resolution images from cameras. Recent works projecting camera features to the bird's-eye-view (BEV) space for fusion have also been proposed, however they require projecting millions of pixels, most of which only contain background information. In this work, we propose a novel approach Center Feature Fusion (CFF), in which we leverage center-based detection networks in both the camera and LiDAR streams to identify relevant object locations. We then use the center-based detection to identify the locations of pixel features relevant to object locations, a small fraction of the total number in the image. These are then projected and fused in the BEV frame. On the nuScenes dataset, we outperform the LiDAR-only baseline by 4.9% mAP while fusing up to 100x fewer features than other fusion methods. | 翻訳日:2023-04-28 17:13:59 公開日:2023-04-26 |
# 3次元分子グラフのための幾何完全パーセプトロンネットワーク Geometry-Complete Perceptron Networks for 3D Molecular Graphs ( http://arxiv.org/abs/2211.02504v4 ) ライセンス: Link先を確認 | Alex Morehead, Jianlin Cheng | (参考訳) 幾何学的深層学習の分野は、革新的で強力なグラフニューラルネットワークアーキテクチャの開発に大きな影響を与えた。
コンピュータビジョンや計算生物学のような分野は、そのような方法論の進歩から大きな恩恵を受けており、タンパク質構造予測や設計といった科学分野において画期的な進歩をもたらした。
本研究では3次元分子グラフ表現学習用に設計された新しい幾何完全SE(3)等価グラフニューラルネットワークであるGCPNetを紹介する。
Rigorous experiments across four distinct geometric tasks demonstrate that GCPNet's predictions (1) for protein-ligand binding affinity achieve a statistically significant correlation of 0.608, more than 5% greater than current state-of-the-art methods; (2) for protein structure ranking achieve statistically significant target-local and dataset-global correlations of 0.616 and 0.871, respectively; (3) for Newtownian many-body systems modeling achieve a task-averaged mean squared error less than 0.01, more than 15% better than current methods; and (4) for molecular chirality recognition achieve a state-of-the-art prediction accuracy of 98.7%, better than any other machine learning method to date.
新しいモデルをトレーニングしたり、結果を再現するためのソースコード、データ、命令は、https://github.com/bioinfomachinelearning/gcpnetで無料で利用できます。 The field of geometric deep learning has had a profound impact on the development of innovative and powerful graph neural network architectures. Disciplines such as computer vision and computational biology have benefited significantly from such methodological advances, which has led to breakthroughs in scientific domains such as protein structure prediction and design. In this work, we introduce GCPNet, a new geometry-complete, SE(3)-equivariant graph neural network designed for 3D molecular graph representation learning. Rigorous experiments across four distinct geometric tasks demonstrate that GCPNet's predictions (1) for protein-ligand binding affinity achieve a statistically significant correlation of 0.608, more than 5% greater than current state-of-the-art methods; (2) for protein structure ranking achieve statistically significant target-local and dataset-global correlations of 0.616 and 0.871, respectively; (3) for Newtownian many-body systems modeling achieve a task-averaged mean squared error less than 0.01, more than 15% better than current methods; and (4) for molecular chirality recognition achieve a state-of-the-art prediction accuracy of 98.7%, better than any other machine learning method to date. The source code, data, and instructions to train new models or reproduce our results are freely available at https://github.com/BioinfoMachineLearning/GCPNet. | 翻訳日:2023-04-28 17:07:08 公開日:2023-04-26 |
# 時空古典影による入浴非マルコビアン性からのクロストークのフィルタリング Filtering crosstalk from bath non-Markovianity via spacetime classical shadows ( http://arxiv.org/abs/2210.15333v2 ) ライセンス: Link先を確認 | Gregory A. L. White, Kavan Modi, Charles D. Hill | (参考訳) 開システムの観点からは、近くの浴槽や隣接するキュービットによる非マルコフ効果は動的に等価である。
しかし、考慮すべき概念的な違いがある:隣のキュービットを制御できる。
非マルコフ量子過程トモグラフィーの最近の進歩と古典影の枠組みを組み合わせることで時空間的量子相関を特徴付ける。
ここでの可観測性はシステムに適用される操作であり、自由操作は最大偏極チャネルである。
これを因果切断として、時間的相関の先駆者を狭めるために因果経路を系統的に消去する。
この応用の一つはクロストークの効果を除去し、到達不能な浴槽から非マルコビアン性のみをプローブすることである。
また、共通の環境から格子全体に時空間的に相関するノイズを拡散するレンズを提供する。
両者の例を合成データで示す。
古典影のスケーリングにより、任意の数の隣接する量子ビットを余分なコストで消去することができる。
したがって,本手法は全対一のインタラクションであっても,システムに対して効率的かつ快適である。 From an open system perspective non-Markovian effects due to a nearby bath or neighbouring qubits are dynamically equivalent. However, there is a conceptual distinction to account for: neighbouring qubits may be controlled. We combine recent advances in non-Markovian quantum process tomography with the framework of classical shadows to characterise spatiotemporal quantum correlations. Observables here constitute operations applied to the system, where the free operation is the maximally depolarising channel. Using this as a causal break, we systematically erase causal pathways to narrow down the progenitors of temporal correlations. We show that one application of this is to filter out the effects of crosstalk and probe only non-Markovianity from an inaccessible bath. It also provides a lens on spatiotemporally spreading correlated noise throughout a lattice from common environments. We demonstrate both examples on synthetic data. Owing to the scaling of classical shadows, we can erase arbitrarily many neighbouring qubits at no extra cost. Our procedure is thus efficient and amenable to systems even with all-to-all interactions. | 翻訳日:2023-04-28 17:05:35 公開日:2023-04-26 |
# 潜在マルコフ決定過程に対する水平自由・可変依存強化学習 Horizon-Free and Variance-Dependent Reinforcement Learning for Latent Markov Decision Processes ( http://arxiv.org/abs/2210.11604v2 ) ライセンス: Link先を確認 | Runlong Zhou, Ruosong Wang, Simon S. Du | (参考訳) 潜在マルコフ決定過程(lmdps)における強化学習(rl)に対する後悔の最小化について検討した。
我々は,モデル最適化と値最適化の両手法でインスタンス化できる新しいモデルベースアルゴリズムフレームワークを設計する。
我々は$\widetilde{O}\left(\sqrt{M \Gamma S A K}\right)$ regret bound where $M$ is the number of contexts, $S$ is the number of state, $A$ is the number of actions, $K$ is the number of episodes, $\Gamma \le S$ is the maximum transition degree of any state-action pair。
後悔のバウンドは計画の地平線と対数的にしかスケールしないので、lmdpに対して最初の(ほぼ)地平線なしの後悔となる。
証明の鍵となるのは、再帰に基づく手法によって慎重に拘束されるアルファベクトルの総分散の分析である。
我々は、新しい $\omega\left(\sqrt{m s a k}\right)$ regret lower bound with $\gamma = 2$ で正の結果を補完する。
我々の下位境界は、理論計算機科学の対称性技術に基づく新しいハードインスタンスの構成と引数に依存しており、どちらも既存のMDPの下位境界証明と技術的に異なるため、独立した関心を持つことができる。 We study regret minimization for reinforcement learning (RL) in Latent Markov Decision Processes (LMDPs) with context in hindsight. We design a novel model-based algorithmic framework which can be instantiated with both a model-optimistic and a value-optimistic solver. We prove an $\widetilde{O}\left(\sqrt{M \Gamma S A K}\right)$ regret bound where $M$ is the number of contexts, $S$ is the number of states, $A$ is the number of actions, $K$ is the number of episodes, and $\Gamma \le S$ is the maximum transition degree of any state-action pair. The regret bound only scales logarithmically with the planning horizon, thus yielding the first (nearly) horizon-free regret bound for LMDP. Key in our proof is an analysis of the total variance of alpha vectors, which is carefully bounded by a recursion-based technique. We complement our positive result with a novel $\Omega\left(\sqrt{M S A K}\right)$ regret lower bound with $\Gamma = 2$, which shows our upper bound minimax optimal when $\Gamma$ is a constant. Our lower bound relies on new constructions of hard instances and an argument based on the symmetrization technique from theoretical computer science, both of which are technically different from existing lower bound proof for MDPs, and thus can be of independent interest. | 翻訳日:2023-04-28 17:04:40 公開日:2023-04-26 |
# レコメンダシステムのための地域政策改善 Local Policy Improvement for Recommender Systems ( http://arxiv.org/abs/2212.11431v2 ) ライセンス: Link先を確認 | Dawen Liang, Nikos Vlassis | (参考訳) 推薦システムは、過去のインタラクションに基づいて、ユーザが次に対話するアイテムを予測する。
問題はしばしば教師付き学習によって解決されるが、近年の進歩は報酬(例えばユーザエンゲージメント)の政策最適化へと移行している。
後者の課題のひとつは、以前デプロイされたポリシーから収集されたデータによってのみ、新しいポリシーをトレーニングできることです。
この問題に対処する従来の方法は、重要サンプリング補正によるものであるが、実用的な制限が伴っている。
地方政策改善の代替策として、非政治的修正を伴わないアプローチを提案する。
提案手法は,データから推定し易く,密度比(重要サンプリング補正に現れるものなど)を含まない,目標ポリシの期待値の低い領域を計算し,最適化する。
この局所的な政策改善パラダイムはレコメンデーションシステムに理想的であり、以前の方針は一般的に適切な品質であり、ポリシーは頻繁に更新される。
本手法を逐次レコメンデーション環境で適用するための実証的証拠と実践的レシピを提供する。 Recommender systems predict what items a user will interact with next, based on their past interactions. The problem is often approached through supervised learning, but recent advancements have shifted towards policy optimization of rewards (e.g., user engagement). One challenge with the latter is policy mismatch: we are only able to train a new policy given data collected from a previously-deployed policy. The conventional way to address this problem is through importance sampling correction, but this comes with practical limitations. We suggest an alternative approach of local policy improvement without off-policy correction. Our method computes and optimizes a lower bound of expected reward of the target policy, which is easy to estimate from data and does not involve density ratios (such as those appearing in importance sampling correction). This local policy improvement paradigm is ideal for recommender systems, as previous policies are typically of decent quality and policies are updated frequently. We provide empirical evidence and practical recipes for applying our technique in a sequential recommendation setting. | 翻訳日:2023-04-28 16:56:32 公開日:2023-04-26 |
# ベイズ物理学インフォームドニューラルネットワークによる野火のデータの同化と時空間モデリング Bayesian Physics Informed Neural Networks for Data Assimilation and Spatio-Temporal Modelling of Wildfires ( http://arxiv.org/abs/2212.00970v2 ) ライセンス: Link先を確認 | Joel Janek Dabrowski, Daniel Edward Pagendam, James Hilton, Conrad Sanderson, Daniel MacKinlay, Carolyn Huston, Andrew Bolt, Petra Kuhnert | (参考訳) 本研究では,物理インフォームドニューラルネットワーク(PINN)を山火事前モデリング問題に適用する。
ピンを使ってレベルセット方程式を解き、それはレベルセット関数のゼロレベル集合を通じて火前部をモデル化する偏微分方程式である。
その結果は、時空間領域を通じて伝播する火前部をシミュレートするピンである。
本研究は,風向などの外因性強制変数が極端に変化した場合に,本文献で広く用いられている最適化コスト関数が,モデル化された火災面における時間的連続性を維持できないPINNを生じることを示す。
そこで我々は,これらの極端な変化の下で時間的連続性を改善する最適化コスト関数の新たな追加を提案する。
さらに, PINN内のデータ同化を行う手法を開発し, PINN予測が火災現場の観測に向けられるようにした。
最後に,本手法をベイズPINN (B-PINN) に取り入れ,火災予報における不確実な定量化を実現する。
これは、標準解法であるレベルセット法が自然にデータ同化や不確実性定量化の能力を提供していないため重要である。
我々の新しい手法により,B-PINNは実世界のデータに対して,高品質な不確実性定量化を伴う正確な予測を行うことができることを示す。 We apply the Physics Informed Neural Network (PINN) to the problem of wildfire fire-front modelling. We use the PINN to solve the level-set equation, which is a partial differential equation that models a fire-front through the zero-level-set of a level-set function. The result is a PINN that simulates a fire-front as it propagates through the spatio-temporal domain. We show that popular optimisation cost functions used in the literature can result in PINNs that fail to maintain temporal continuity in modelled fire-fronts when there are extreme changes in exogenous forcing variables such as wind direction. We thus propose novel additions to the optimisation cost function that improves temporal continuity under these extreme changes. Furthermore, we develop an approach to perform data assimilation within the PINN such that the PINN predictions are drawn towards observations of the fire-front. Finally, we incorporate our novel approaches into a Bayesian PINN (B-PINN) to provide uncertainty quantification in the fire-front predictions. This is significant as the standard solver, the level-set method, does not naturally offer the capability for data assimilation and uncertainty quantification. Our results show that, with our novel approaches, the B-PINN can produce accurate predictions with high quality uncertainty quantification on real-world data. | 翻訳日:2023-04-28 16:54:56 公開日:2023-04-26 |
# pids: 3次元点雲のコネクテッドポイントインタラクション・ディメンション探索 PIDS: Joint Point Interaction-Dimension Search for 3D Point Cloud ( http://arxiv.org/abs/2211.15759v2 ) ライセンス: Link先を確認 | Tunhou Zhang, Mingyuan Ma, Feng Yan, Hai Li, Yiran Chen | (参考訳) 点の相互作用と次元は、階層的3dモデルを提供する点作用素を設計する上で重要な軸である。
しかし、この2つの軸は異質であり、完全な探査は困難である。
既存のワークスクラフトポイント演算子を1軸下に置き、3Dモデルのすべての部分でクラフトスクラフト演算子を再利用する。
これは、3次元点雲の様々な幾何学的・密度を活用し、点相互作用と次元をより良く結合する機会を見下ろす。
本研究では,点間相互作用と点次元を共同で探索し,点クラウドデータのセマンティックセグメンテーションを提供する新しいパラダイムであるPIDSを確立する。
我々は多目的点相互作用と点次元を共同で検討する大規模な探索空間を確立する。
これは様々な幾何学・密度を考慮した点演算子をサポートする。
ヘテロジニアスな検索コンポーネントを持つ拡張された検索空間は、候補モデルのより優れたランキングを求める。
そこで我々は,予測器をベースとしたニューラルアーキテクチャ探索(NAS)を活用して探索空間の探索を改良し,それ以前の特徴に基づいて,一意のエンコーディングを異種検索コンポーネントに割り当てることで予測品質を向上させる。
本研究では,2つのセマンティックセグメンテーション・ベンチマークを用いてPIDSが作成したネットワークを徹底的に評価し,SemanticKITTIとS3DISの3Dモデルに対して約1%のmIOU改善を示した。 The interaction and dimension of points are two important axes in designing point operators to serve hierarchical 3D models. Yet, these two axes are heterogeneous and challenging to fully explore. Existing works craft point operator under a single axis and reuse the crafted operator in all parts of 3D models. This overlooks the opportunity to better combine point interactions and dimensions by exploiting varying geometry/density of 3D point clouds. In this work, we establish PIDS, a novel paradigm to jointly explore point interactions and point dimensions to serve semantic segmentation on point cloud data. We establish a large search space to jointly consider versatile point interactions and point dimensions. This supports point operators with various geometry/density considerations. The enlarged search space with heterogeneous search components calls for a better ranking of candidate models. To achieve this, we improve the search space exploration by leveraging predictor-based Neural Architecture Search (NAS), and enhance the quality of prediction by assigning unique encoding to heterogeneous search components based on their priors. We thoroughly evaluate the networks crafted by PIDS on two semantic segmentation benchmarks, showing ~1% mIOU improvement on SemanticKITTI and S3DIS over state-of-the-art 3D models. | 翻訳日:2023-04-28 16:54:35 公開日:2023-04-26 |
# 有限パルスによる2光子励起は量子ドットによって放出される純脱落誘起光子の劣化を解き放つ Two-photon excitation with finite pulses unlocks pure dephasing-induced degradation of entangled photons emitted by quantum dots ( http://arxiv.org/abs/2301.10820v2 ) ライセンス: Link先を確認 | Tim Seidelmann, Thomas K. Bracht, Barbara Ursula Lehner, Christian Schimpf, Michael Cosacchi, Moritz Cygorek, Alexei Vagov, Armando Rastelli, Doris E. Reiter, Vollrath Martin Axt | (参考訳) 半導体量子ドットは、特に偏光-絡み合った光子対を生成するためのプラットフォームとして出現している。
しかし,近年,最先端実験で用いられている2光子励起方式は,どの経路情報を導入することで達成可能な絡み合いの程度を制限できることが実証された。
本研究では,2光子励起と長手音響フォノンの強い量子ドットから放出される光子対への影響について検討した。
フォノンによる純脱落とフォノンによる一光子過程による消滅温度の限界下においても、フォノンはより多くのエンタングルメントを減少させ、再励起確率を増大させる。
また、コンカージェンスによって測定される絡み合いの度合いは、エキソトニックな微細構造分割が無く、より高い電子状態が到達できない場合でも、温度および/またはパルス持続時間の増加とともに減少する。
さらに、有限微細構造分割の場合、フォノンは異なるレーザ偏光に対する共起の差を大きくする。 Semiconductor quantum dots have emerged as an especially promising platform for the generation of polarization-entangled photon pairs. However, it was demonstrated recently that the two-photon excitation scheme employed in state-of-the-art experiments limits the achievable degree of entanglement by introducing which-path information. In this work, the combined impact of two-photon excitation and longitudinal acoustic phonons on photon pairs emitted by strongly-confining quantum dots is investigated. It is found that phonons further reduce the achievable degree of entanglement even in the limit of vanishing temperature due to phonon-induced pure dephasing and phonon-assisted one-photon processes, which increase the re-excitation probability. In addition, the degree of entanglement, as measured by the concurrence, decreases with rising temperature and/or pulse duration, even if the excitonic fine-structure splitting is absent and when higher electronic states are out of reach. Furthermore, in the case of finite fine-structure splittings, phonons enlarge the discrepancy in concurrence for different laser polarizations. | 翻訳日:2023-04-28 16:46:01 公開日:2023-04-26 |
# 表層水中における水文汚染物質輸送の追跡のためのグラフベースモデリングフレームワーク A Graph-Based Modeling Framework for Tracing Hydrological Pollutant Transport in Surface Waters ( http://arxiv.org/abs/2302.04991v2 ) ライセンス: Link先を確認 | David L. Cole, Gerardo J. Ruiz-Mercado, Victor M. Zavala | (参考訳) 人為的な水系汚染は世界中の多様な地域社会や生態系に影響を及ぼす。
データ分析とモデリングツールは、重要なソースの特定、トレース輸送、複雑な水文学システムにおける影響の定量化に役立つため、この課題と戦う上で重要な役割を果たす。
詳細な物理モデルを用いて汚染物質輸送をシミュレートし、追跡するためのツールがいくつか存在する。これらのツールは強力だが、計算集約性があり、開発するためには大量のデータを必要とし、専門家の知識を必要としている(究極的には適用範囲を制限している)。
本研究では,水域,河川,流域を横断する汚染物質輸送と運命を理解するためのグラフモデリングフレームワーク(${\tt hydrographs}$)を提案する。
このフレームワークは、純粋なオープンソースデータ(National Hydrography DatasetとWatershed Boundary Dataset)に基づいて構築できる、水文システムの簡易表現を使用する。
グラフ表現は、接続性を捉えるための柔軟な直感的なアプローチを提供し、上流の汚染物質源を特定し、小規模で大規模な水文システム内の下流の衝撃をトレースする。
さらにグラフ表現は、グラフ理論、トポロジー、最適化、機械学習などの高度なアルゴリズムとツールを使用して、データ分析と意思決定を支援する。
我々は,ウィスコンシン州におけるケーススタディを用いて,農業慣行から発生する上流の栄養素汚染源を特定し,下流の水域,河川,河川への影響を追跡することを目的とした。
我々のツールは、ステークホルダーが効果的な汚染防止・緩和のプラクティスを設計し、表面の水がそのようなプラクティスにどのように反応するかを評価するのに役立ちます。 Anthropogenic pollution of hydrological systems affects diverse communities and ecosystems around the world. Data analytics and modeling tools play a key role in fighting this challenge, as they can help identify key sources as well as trace transport and quantify impact within complex hydrological systems. Several tools exist for simulating and tracing pollutant transport throughout surface waters using detailed physical models; these tools are powerful, but can be computationally intensive, require significant amounts of data to be developed, and require expert knowledge for their use (ultimately limiting application scope). In this work, we present a graph modeling framework -- which we call ${\tt HydroGraphs}$ -- for understanding pollutant transport and fate across waterbodies, rivers, and watersheds. This framework uses a simplified representation of hydrological systems that can be constructed based purely on open-source data (National Hydrography Dataset and Watershed Boundary Dataset). The graph representation provides an flexible intuitive approach for capturing connectivity and for identifying upstream pollutant sources and for tracing downstream impacts within small and large hydrological systems. Moreover, the graph representation can facilitate the use of advanced algorithms and tools of graph theory, topology, optimization, and machine learning to aid data analytics and decision-making. We demonstrate the capabilities of our framework by using case studies in the State of Wisconsin; here, we aim to identify upstream nutrient pollutant sources that arise from agricultural practices and trace downstream impacts to waterbodies, rivers, and streams. Our tool ultimately seeks to help stakeholders design effective pollution prevention/mitigation practices and evaluate how surface waters respond to such practices. | 翻訳日:2023-04-28 16:37:21 公開日:2023-04-26 |
# 強化学習におけるシャープ変数依存境界:確率的・決定論的環境における両世界のベスト Sharp Variance-Dependent Bounds in Reinforcement Learning: Best of Both Worlds in Stochastic and Deterministic Environments ( http://arxiv.org/abs/2301.13446v2 ) ライセンス: Link先を確認 | Runlong Zhou, Zihan Zhang, Simon S. Du | (参考訳) マルコフ決定過程(MDP)に対する分散依存的後悔境界について検討した。
分散依存的後悔保証を持つアルゴリズムは、分散度が低い環境(例えば、決定論的MDPの絶え間ない後悔を楽しむなど)を自動で利用することができる。
既存のアルゴリズムは分散非依存または準最適である。
まず,環境の細粒度分散特性を特徴付ける2つの新しい環境規範を提案する。
モデルに基づく手法では,MVP アルゴリズムの変種 (Zhang et al., 2021a) を設計し,本アルゴリズムが提案するノルムに対する分散依存境界を満足することを示す新しい解析手法を用いる。
特に、この境界は確率的および決定論的mdpの両方に最適であり、その種類の最初の結果である。
さらに,新しいcapped-doubling reference updateスケジュールを用いた参照関数型アルゴリズムの設計により,分散依存的後悔境界を持つモデルフリーアルゴリズムの研究をさらに開始する。
最後に、上界を補完する下界も提供します。 We study variance-dependent regret bounds for Markov decision processes (MDPs). Algorithms with variance-dependent regret guarantees can automatically exploit environments with low variance (e.g., enjoying constant regret on deterministic MDPs). The existing algorithms are either variance-independent or suboptimal. We first propose two new environment norms to characterize the fine-grained variance properties of the environment. For model-based methods, we design a variant of the MVP algorithm (Zhang et al., 2021a) and use new analysis techniques show to this algorithm enjoys variance-dependent bounds with respect to our proposed norms. In particular, this bound is simultaneously minimax optimal for both stochastic and deterministic MDPs, the first result of its kind. We further initiate the study on model-free algorithms with variance-dependent regret bounds by designing a reference-function-based algorithm with a novel capped-doubling reference update schedule. Lastly, we also provide lower bounds to complement our upper bounds. | 翻訳日:2023-04-28 16:35:13 公開日:2023-04-26 |
# pheme:マルチモーダルデータから表現型予測を改善するための深層アンサンブルフレームワーク PheME: A deep ensemble framework for improving phenotype prediction from multi-modal data ( http://arxiv.org/abs/2303.10794v2 ) ライセンス: Link先を確認 | Shenghan Zhang, Haoxuan Li, Ruixiang Tang, Sirui Ding, Laila Rasmy, Degui Zhi, Na Zou, Xia Hu | (参考訳) 詳細な表現型情報は、疾患の正確な診断とリスク推定に不可欠である。
表現型情報の豊富な情報源として、電子健康記録(EHR)は診断の変種解釈を強化することを約束する。
しかし,不均質なehrデータから表現型を正確かつ効率的に抽出する方法は課題である。
本稿では, 構造化EHRのマルチモーダルデータと非構造化臨床ノートを用いたアンサンブルフレームワークであるPheMEについて述べる。
まず,複数の深層ニューラルネットワークを用いてsparse structured ehrデータと冗長な臨床記録から信頼性の高い表現を学習する。
マルチモーダルモデルは、複数のモーダル特徴を同じ潜在空間にアライメントし、表現型を予測する。
第2に,シングルモーダルモデルとマルチモーダルモデルからのアウトプットを組み合わせて,表現型予測を改善するためにアンサンブル学習を利用する。
提案フレームワークの表現型性能を評価するために7つの疾患を選択する。
実験結果から,マルチモーダルデータを用いることで,すべての疾患の表現型予測が大幅に向上することが示唆された。 Detailed phenotype information is fundamental to accurate diagnosis and risk estimation of diseases. As a rich source of phenotype information, electronic health records (EHRs) promise to empower diagnostic variant interpretation. However, how to accurately and efficiently extract phenotypes from the heterogeneous EHR data remains a challenge. In this work, we present PheME, an Ensemble framework using Multi-modality data of structured EHRs and unstructured clinical notes for accurate Phenotype prediction. Firstly, we employ multiple deep neural networks to learn reliable representations from the sparse structured EHR data and redundant clinical notes. A multi-modal model then aligns multi-modal features onto the same latent space to predict phenotypes. Secondly, we leverage ensemble learning to combine outputs from single-modal models and multi-modal models to improve phenotype predictions. We choose seven diseases to evaluate the phenotyping performance of the proposed framework. Experimental results show that using multi-modal data significantly improves phenotype prediction in all diseases, the proposed ensemble learning framework can further boost the performance. | 翻訳日:2023-04-28 16:28:28 公開日:2023-04-26 |
# 大規模統計予測モデルによるカオスシステムの予測不能性の再評価 Large-scale statistical forecasting models reassess the unpredictability of chaotic systems ( http://arxiv.org/abs/2303.08011v2 ) ライセンス: Link先を確認 | William Gilpin | (参考訳) カオスと予測不能はしばしば同義語と見なされるが、統計予測の最近の進歩は、大規模機械学習モデルが複雑なシステムの拡張観測から予期せぬ洞察を得ることを示唆している。
135個の異なる低次元カオス系のクラウドソーシングデータベース上で,24種類の最先端多変量予測手法の大規模比較を行った。
大規模でドメインに依存しない時系列予測手法は、常に最強のパフォーマンスを示し、最大2ダースのリャプノフ時間の正確な予測を生成する。
最高のパフォーマンスモデルには、動的システムの誘導バイアスがなく、階層型ニューラルネットワーク、トランスフォーマー、繰り返しニューラルネットワークが含まれる。
しかし、ニューラル常微分方程式や貯水池コンピュータのような物理に基づくハイブリッド手法は、データ制限設定においてより強く機能する。
多様な予測手法は、その広範にわたるアーキテクチャにもかかわらず相関するが、リアプノフ指数は、長い時間軸上の異なるカオスシステムの予測可能性のばらつきを十分に説明できない。
以上の結果から, 現代の予測手法の重要な利点は, アーキテクチャの細部ではなく, カオスアトラクションの大規模構造を学習する能力にあることがわかった。 Chaos and unpredictability are often considered synonymous, yet recent advances in statistical forecasting suggest that large machine learning models gain unexpected insight from extended observation of complex systems. We perform a large-scale comparison of 24 state-of-the-art multivariate forecasting methods on a crowdsourced database of 135 distinct low-dimensional chaotic systems. Large, domain-agnostic time series forecasting methods consistently exhibit the strongest performance, producing accurate predictions lasting up to two dozen Lyapunov times. The best-performing models contain no inductive biases for dynamical systems, and include hierarchical neural basis functions, transformers, and recurrent neural networks. However, physics-based hybrid methods like neural ordinary differential equations and reservoir computers perform more strongly in data-limited settings. Diverse forecasting methods correlate despite their widely-varying architectures, yet the Lyapunov exponent fails to fully explain variation in the predictability of different chaotic systems over long time horizons. Our results show that a key advantage of modern forecasting methods stems not from their architectural details, but rather from their capacity to learn the large-scale structure of chaotic attractors. | 翻訳日:2023-04-28 16:28:11 公開日:2023-04-26 |
# デコヒーレンス下の任意の量子制御に対する一般束縛 General bound for any quantum control under decoherence ( http://arxiv.org/abs/2303.06466v2 ) ライセンス: Link先を確認 | Kohei Kobayashi | (参考訳) 量子情報技術を実現するために、所望の状態を作成する量子制御技術が重要な役割を果たす。
しかし、現実の状況では、それらの方法論の実際の性能はデコヒーレンスによって著しく制限される。
したがって、以下の疑問が生じる: 理想的な目標状態にデコヒーレンスの下で制御状態がどの程度近いか?
この問題を評価するために, 2つの制御された開量子系間の距離の上限をデコヒーレンスの存在と不在に設定する。
境界は計算が簡単で、数値シミュレーションで示されるように、いくつかの種類の制御方法に適用できる。 To realize quantum information technologies, quantum control technology for preparing a desired state plays a key role. However, in realistic situation, the actual performance of those methodologies is severely limited by decoherence. Therefore, the following questions arise; how close can we steer the controlled state under decoherence to the ideal target state? To evaluate this problem, we provide an upper bound of the distance between the two controlled open quantum systems in the presence and absence of decoherence. The bound is straightforward to calculate and can be applied to several types of control methods, as demonstrated via numerical simulation. | 翻訳日:2023-04-28 16:27:52 公開日:2023-04-26 |
# 最適化アルゴリズムの記号的発見 Symbolic Discovery of Optimization Algorithms ( http://arxiv.org/abs/2302.06675v3 ) ライセンス: Link先を確認 | Xiangning Chen, Chen Liang, Da Huang, Esteban Real, Kaiyuan Wang, Yao Liu, Hieu Pham, Xuanyi Dong, Thang Luong, Cho-Jui Hsieh, Yifeng Lu, Quoc V. Le | (参考訳) 本稿では,プログラム探索としてアルゴリズム探索を定式化し,ディープニューラルネットワーク学習のための最適化アルゴリズムを探索する手法を提案する。
我々は効率的な探索技術を利用して無限にスパースなプログラム空間を探索する。
プロキシとターゲットタスク間の大きな一般化ギャップを埋めるため,プログラム選択と単純化戦略も導入する。
この手法は、単純かつ効果的な最適化アルゴリズムである$\textbf{lion}$ (\textit{evo$\textbf{l}$ved s$\textbf{i}$gn m$\textbf{o}$me$\textbf{n}$tum}$) を発見する。
運動量だけを追跡するため、Adamよりもメモリ効率が高い。
適応オプティマイザと異なり、その更新は符号演算によって計算された各パラメータに対して同じ大きさである。
lionとadamやadafactorといった広く使われているオプティマイザを比較して,さまざまなタスクでさまざまなモデルをトレーニングします。
画像分類では、LionはImageNetでViTの精度を最大2%向上させ、JFTでトレーニング済みの計算の最大5倍節約する。
視覚言語比較学習では、imagenetで88.3%$\textit{zero-shot}$と91.1%$\textit{fine-tuning}$をそれぞれ2%と0.1%の精度で達成した。
拡散モデルにおいて、ライオンはより良いfidスコアを達成し、トレーニング計算を最大2.3倍削減することでアダムを上回る。
自動回帰、マスク付き言語モデリング、微調整では、LionはAdamと同じような、あるいは優れたパフォーマンスを示している。
Lionの分析では、トレーニングバッチサイズによってパフォーマンスが向上することが明らかになった。
また、符号関数によって生成された更新のノルムが大きいため、Adamよりも学習速度が小さい。
さらに,ライオンの限界を検証し,その改善が統計的に重要でない場合のシナリオを特定する。
lionの実装が公開されている。 We present a method to formulate algorithm discovery as program search, and apply it to discover optimization algorithms for deep neural network training. We leverage efficient search techniques to explore an infinite and sparse program space. To bridge the large generalization gap between proxy and target tasks, we also introduce program selection and simplification strategies. Our method discovers a simple and effective optimization algorithm, $\textbf{Lion}$ ($\textit{Evo$\textbf{L}$ved S$\textbf{i}$gn M$\textbf{o}$me$\textbf{n}$tum}$). It is more memory-efficient than Adam as it only keeps track of the momentum. Different from adaptive optimizers, its update has the same magnitude for each parameter calculated through the sign operation. We compare Lion with widely used optimizers, such as Adam and Adafactor, for training a variety of models on different tasks. On image classification, Lion boosts the accuracy of ViT by up to 2% on ImageNet and saves up to 5x the pre-training compute on JFT. On vision-language contrastive learning, we achieve 88.3% $\textit{zero-shot}$ and 91.1% $\textit{fine-tuning}$ accuracy on ImageNet, surpassing the previous best results by 2% and 0.1%, respectively. On diffusion models, Lion outperforms Adam by achieving a better FID score and reducing the training compute by up to 2.3x. For autoregressive, masked language modeling, and fine-tuning, Lion exhibits a similar or better performance compared to Adam. Our analysis of Lion reveals that its performance gain grows with the training batch size. It also requires a smaller learning rate than Adam due to the larger norm of the update produced by the sign function. Additionally, we examine the limitations of Lion and identify scenarios where its improvements are small or not statistically significant. The implementation of Lion is publicly available. | 翻訳日:2023-04-28 16:26:35 公開日:2023-04-26 |
# Astroformer: 分類に必要なのはデータ量だけではない Astroformer: More Data Might not be all you need for Classification ( http://arxiv.org/abs/2304.05350v2 ) ライセンス: Link先を確認 | Rishit Dagli | (参考訳) 自然言語処理やコンピュータビジョンなどの分野の最近の進歩は、膨大な量の未ラベルまたは部分的にラベル付けされたデータを用いて訓練された複雑で大規模なモデルに依存しており、これらの最先端の手法をリソース制約環境にデプロイすることは困難である。
銀河形態学は銀河の形成と進化の過程を理解するために重要である。
銀河の形態を分類する効率的な方法は、現代の天文学調査から物理情報を抽出するために必要である。
本稿では,少ないデータ量から学習するastroformerを提案する。
我々はCoAtNetとMaxViTの成功から多くのインスピレーションを得たハイブリッドトランスフォーマー・畳み込みアーキテクチャを提案する。
具体的には、トランスフォーマー-畳み込みハイブリッドと、ネットワークのための新しいスタック設計、相対的な自己アテンション層を作成する異なる方法、およびデータ拡張と正規化の慎重な選択と組み合わせる。
提案手法では,Galaxy10 DECalsデータセット上の画像から銀河形態を予測するための新たな最先端技術が設定されている。これは17736個のラベル付き画像からなり,94.86%の精度でこのタスクの現在の状態を4.62%上回っている。
さらに、このアプローチはCIFAR-100とTiny ImageNetの新たな最先端も設定する。
また、大きなデータセットに使用するモデルやトレーニング手法は、低データ環境ではうまく動作しないことが多いことが分かりました。 Recent advancements in areas such as natural language processing and computer vision rely on intricate and massive models that have been trained using vast amounts of unlabelled or partly labeled data and training or deploying these state-of-the-art methods to resource constraint environments has been a challenge. Galaxy morphologies are crucial to understanding the processes by which galaxies form and evolve. Efficient methods to classify galaxy morphologies are required to extract physical information from modern-day astronomy surveys. In this paper, we introduce Astroformer, a method to learn from less amount of data. We propose using a hybrid transformer-convolutional architecture drawing much inspiration from the success of CoAtNet and MaxViT. Concretely, we use the transformer-convolutional hybrid with a new stack design for the network, a different way of creating a relative self-attention layer, and pair it with a careful selection of data augmentation and regularization techniques. Our approach sets a new state-of-the-art on predicting galaxy morphologies from images on the Galaxy10 DECals dataset, a science objective, which consists of 17736 labeled images achieving 94.86% top-$1$ accuracy, beating the current state-of-the-art for this task by 4.62%. Furthermore, this approach also sets a new state-of-the-art on CIFAR-100 and Tiny ImageNet. We also find that models and training methods used for larger datasets would often not work very well in the low-data regime. | 翻訳日:2023-04-28 16:19:22 公開日:2023-04-26 |
# ターゲット投影によるオンライン時空間学習 Online Spatio-Temporal Learning with Target Projection ( http://arxiv.org/abs/2304.05124v2 ) ライセンス: Link先を確認 | Thomas Ortner and Lorenzo Pes and Joris Gentinetta and Charlotte Frenkel and Angeliki Pantazi | (参考訳) BPTTアルゴリズムでトレーニングされた反復ニューラルネットワークは、様々な時間的タスクで驚くべき成功を収めている。
しかしBPTTは、時間を通して情報を後方に伝播する要求、重量対称性の要求、空間と時間の更新ロックといった厳しい制限を導入している。
これらの問題は、オンライントレーニング機能が不可欠であるAIシステムの障害となる。
最近、研究者は生物学的にインスパイアされたトレーニングアルゴリズムを開発し、それらの問題の一部に対処している。
本研究では,上記のBPTTの課題を全て解決するターゲットプロジェクション(OSTTP)を用いたオンライン時空間学習という新しい学習アルゴリズムを提案する。
特にOSTTPは、新しい入ってくるデータを同時に処理し、学習する能力を持つネットワークを備え、重み対称性と更新ロックの問題を軽減する。
BPTTと比較して,OSTTPを2つの時間的タスクで評価した。
さらに,OSTTPの知識制約型ハードウェアシステムにおける概念実証を行い,その汎用性と資源制約型AIデバイスへの適用性を実証した。 Recurrent neural networks trained with the backpropagation through time (BPTT) algorithm have led to astounding successes in various temporal tasks. However, BPTT introduces severe limitations, such as the requirement to propagate information backwards through time, the weight symmetry requirement, as well as update-locking in space and time. These problems become roadblocks for AI systems where online training capabilities are vital. Recently, researchers have developed biologically-inspired training algorithms, addressing a subset of those problems. In this work, we propose a novel learning algorithm called online spatio-temporal learning with target projection (OSTTP) that resolves all aforementioned issues of BPTT. In particular, OSTTP equips a network with the capability to simultaneously process and learn from new incoming data, alleviating the weight symmetry and update-locking problems. We evaluate OSTTP on two temporal tasks, showcasing competitive performance compared to BPTT. Moreover, we present a proof-of-concept implementation of OSTTP on a memristive neuromorphic hardware system, demonstrating its versatility and applicability to resource-constrained AI devices. | 翻訳日:2023-04-28 16:18:57 公開日:2023-04-26 |
# ファジィ確率決定木を用いた臨床実習 Assisting clinical practice with fuzzy probabilistic decision trees ( http://arxiv.org/abs/2304.07788v2 ) ライセンス: Link先を確認 | Emma L. Ambags, Giulia Capitoli, Vincenzo L' Imperio, Michele Provenzano, Marco S. Nobile, Pietro Li\`o | (参考訳) 完全な人間理解可能なモデルの必要性は、AI研究の中心的なテーマとして認識されつつある。
これらのモデルが解釈可能になったら、センシティブなドメインでの意思決定を支援するAIモデルの受け入れが増加し、今後の規制によって解釈可能なモデルへのこの傾向が増幅される。
解釈可能なaiのキラー応用の1つは、本質的に信頼を生み出す正確な意思決定支援方法論の恩恵を受ける医療プラクティスである。
本研究では,確率木とファジィ論理を組み合わせて臨床実習を支援する新しい手法であるFPT(MedFP)を提案する。
このアプローチは、臨床医が診断手順全体を生成、制御、検証できるようにするため、完全に解釈可能であり、方法論の強みの1つは、不確実性や副作用の見積もりを提供することで誤診の頻度を減少させる能力である。
本手法は,悪性甲状腺結節の分類と慢性腎臓病患者の進行リスクの予測という2つの現実の医療シナリオに対する概念実証として適用されている。
さらに,確率モデルにファジィ変数を導入することで,従来の確率的決定木が設定した鮮明なしきい値を使用すると,かなりのニュアンスを失うことが示唆された。
FPTとその予測は、この目的のために特別に設計されたユーザフレンドリーなインターフェースを用いて、直感的に臨床実践を支援することができることを示す。
さらに,FPTモデルの解釈可能性についても論じる。 The need for fully human-understandable models is increasingly being recognised as a central theme in AI research. The acceptance of AI models to assist in decision making in sensitive domains will grow when these models are interpretable, and this trend towards interpretable models will be amplified by upcoming regulations. One of the killer applications of interpretable AI is medical practice, which can benefit from accurate decision support methodologies that inherently generate trust. In this work, we propose FPT, (MedFP), a novel method that combines probabilistic trees and fuzzy logic to assist clinical practice. This approach is fully interpretable as it allows clinicians to generate, control and verify the entire diagnosis procedure; one of the methodology's strength is the capability to decrease the frequency of misdiagnoses by providing an estimate of uncertainties and counterfactuals. Our approach is applied as a proof-of-concept to two real medical scenarios: classifying malignant thyroid nodules and predicting the risk of progression in chronic kidney disease patients. Our results show that probabilistic fuzzy decision trees can provide interpretable support to clinicians, furthermore, introducing fuzzy variables into the probabilistic model brings significant nuances that are lost when using the crisp thresholds set by traditional probabilistic decision trees. We show that FPT and its predictions can assist clinical practice in an intuitive manner, with the use of a user-friendly interface specifically designed for this purpose. Moreover, we discuss the interpretability of the FPT model. | 翻訳日:2023-04-28 16:09:28 公開日:2023-04-26 |
# hint-aug: ファウンデーションビジョントランスフォーマーからのヒントをブーストされたマイナショットパラメーター効率のチューニングへ Hint-Aug: Drawing Hints from Foundation Vision Transformers Towards Boosted Few-Shot Parameter-Efficient Tuning ( http://arxiv.org/abs/2304.12520v2 ) ライセンス: Link先を確認 | Zhongzhi Yu, Shang Wu, Yonggan Fu, Shunyao Zhang, Yingyan Lin | (参考訳) 下流タスクにおけるファンデーション・ビジョン・トランスフォーマー(FViT)のチューニング需要が増大しているにもかかわらず、データ制限シナリオ(例:数ショットチューニング)下でのFViTのポテンシャルを完全に解放することは、FViTsのデータハングリーの性質のため、依然として課題である。
一般的なデータ拡張技術はこの文脈では、わずかなチューニングデータに含まれる機能に制限があるため、不足している。
事前学習されたFViT自身は、広く使われているパラメータ効率のチューニングで完全に保存されている大規模事前学習データから、非常に代表的な特徴をすでに習得している。
そこで我々は、これらの学習機能を活用してチューニングデータを増強することで、FViTチューニングの有効性を高めることができると仮定した。
そこで,本研究では,事前学習したfvitsの学習機能を用いて,サンプルの過剰に適合した部分の強化を行い,少数音調律におけるfvitの強化を目的とした,ヒントベースデータ拡張(hint-aug)というフレームワークを提案する。
特に、Hint-Augは、2つの重要なイネーブルを統合している: 1) ファンデーションViTの過信パッチを検出するための注意深い過剰適合検知器(AOD)、(2) コンフュージョンベースの特徴注入(CFI)モジュールは、事前訓練されたFViTから上記AODが検出した過信パッチを注入し、チューニング中の特徴の多様性を高める。
5つのデータセットと3つのパラメータ効率のチューニング技術に関する大規模な実験とアブレーション研究は、Hint-Augの有効性を一貫して検証している。
例えば、Petデータセットでは、Hint-AugはSOTAデータ拡張メソッドよりも50%少ないトレーニングデータで2.22%高い精度を達成する。 Despite the growing demand for tuning foundation vision transformers (FViTs) on downstream tasks, fully unleashing FViTs' potential under data-limited scenarios (e.g., few-shot tuning) remains a challenge due to FViTs' data-hungry nature. Common data augmentation techniques fall short in this context due to the limited features contained in the few-shot tuning data. To tackle this challenge, we first identify an opportunity for FViTs in few-shot tuning: pretrained FViTs themselves have already learned highly representative features from large-scale pretraining data, which are fully preserved during widely used parameter-efficient tuning. We thus hypothesize that leveraging those learned features to augment the tuning data can boost the effectiveness of few-shot FViT tuning. To this end, we propose a framework called Hint-based Data Augmentation (Hint-Aug), which aims to boost FViT in few-shot tuning by augmenting the over-fitted parts of tuning samples with the learned features of pretrained FViTs. Specifically, Hint-Aug integrates two key enablers: (1) an Attentive Over-fitting Detector (AOD) to detect over-confident patches of foundation ViTs for potentially alleviating their over-fitting on the few-shot tuning data and (2) a Confusion-based Feature Infusion (CFI) module to infuse easy-to-confuse features from the pretrained FViTs with the over-confident patches detected by the above AOD in order to enhance the feature diversity during tuning. Extensive experiments and ablation studies on five datasets and three parameter-efficient tuning techniques consistently validate Hint-Aug's effectiveness: 0.04% ~ 32.91% higher accuracy over the state-of-the-art (SOTA) data augmentation method under various low-shot settings. For example, on the Pet dataset, Hint-Aug achieves a 2.22% higher accuracy with 50% less training data over SOTA data augmentation methods. | 翻訳日:2023-04-28 16:01:04 公開日:2023-04-26 |
# 質問応答における回答型予測の極端分類 Extreme Classification for Answer Type Prediction in Question Answering ( http://arxiv.org/abs/2304.12395v2 ) ライセンス: Link先を確認 | Vinay Setty | (参考訳) 意味的回答型予測(SMART)は、効果的な質問応答(QA)システムへの有用なステップとして知られている。
SMARTタスクは、与えられた自然言語の質問に対して、上位$kの知識グラフ(KG)型を予測する。
これは、KGの多数の型のため、難しい。
本稿では,質問文に基づく構造的特徴と意味的特徴を用いたKG型のクラスタリングにより,トランスフォーマーモデル(XBERT)を用いた極端なマルチラベル分類を提案する。
KGsから得られたテキストおよび構造的特徴を用いて,XBERTパイプラインのクラスタリングステージを具体的に改善する。
これらの特徴により,SMARTタスクのエンドツーエンド性能が向上し,最先端の結果が得られることを示す。 Semantic answer type prediction (SMART) is known to be a useful step towards effective question answering (QA) systems. The SMART task involves predicting the top-$k$ knowledge graph (KG) types for a given natural language question. This is challenging due to the large number of types in KGs. In this paper, we propose use of extreme multi-label classification using Transformer models (XBERT) by clustering KG types using structural and semantic features based on question text. We specifically improve the clustering stage of the XBERT pipeline using textual and structural features derived from KGs. We show that these features can improve end-to-end performance for the SMART task, and yield state-of-the-art results. | 翻訳日:2023-04-28 16:00:23 公開日:2023-04-26 |
# TR0N:0ショットプラグアンドプレイ条件生成のためのトランスレータネットワーク TR0N: Translator Networks for 0-Shot Plug-and-Play Conditional Generation ( http://arxiv.org/abs/2304.13742v1 ) ライセンス: Link先を確認 | Zhaoyan Liu, Noel Vouitsis, Satya Krishna Gorti, Jimmy Ba, Gabriel Loaiza-Ganem | (参考訳) 我々は、gansやvaesのような事前訓練された非条件生成モデルを条件付きモデルに変換する、非常に一般的なフレームワークであるtr0nを提案する。
条件付けは非常に任意であり、事前訓練された補助モデルのみを必要とする。
例えば、分類器の助けを借りて無条件モデルをクラス条件モデルに変換する方法や、クリップを活用してテキストから画像モデルに変換する方法を示す。
tr0nは、生成した潜在性が所望の条件を満たすデータサンプルに対応するように、条件空間と生成モデルの潜在性空間の間で「遷移」する軽量な確率写像を学習する。
翻訳された潜伏サンプルはランゲヴィン力学によりさらに改良され、高品質なデータサンプルが得られる。
tr0nはトレーニングデータや微調整を必要としないが、ms-cocoではゼロショットfidを10.9で達成でき、このメトリックだけでなくサンプリング速度でも競合製品よりも優れている。
私たちのコードはhttps://github.com/layer6ai-labs/tr0nで利用可能です。 We propose TR0N, a highly general framework to turn pre-trained unconditional generative models, such as GANs and VAEs, into conditional models. The conditioning can be highly arbitrary, and requires only a pre-trained auxiliary model. For example, we show how to turn unconditional models into class-conditional ones with the help of a classifier, and also into text-to-image models by leveraging CLIP. TR0N learns a lightweight stochastic mapping which "translates" between the space of conditions and the latent space of the generative model, in such a way that the generated latent corresponds to a data sample satisfying the desired condition. The translated latent samples are then further improved upon through Langevin dynamics, enabling us to obtain higher-quality data samples. TR0N requires no training data nor fine-tuning, yet can achieve a zero-shot FID of 10.9 on MS-COCO, outperforming competing alternatives not only on this metric, but also in sampling speed -- all while retaining a much higher level of generality. Our code is available at https://github.com/layer6ai-labs/tr0n. | 翻訳日:2023-04-28 15:41:51 公開日:2023-04-26 |
# スケーラブルで分散AIフレームワーク:ディープラーニングのパフォーマンス向上と効率向上のためにクラウドコンピューティングを活用する Scalable, Distributed AI Frameworks: Leveraging Cloud Computing for Enhanced Deep Learning Performance and Efficiency ( http://arxiv.org/abs/2304.13738v1 ) ライセンス: Link先を確認 | Neelesh Mungoli | (参考訳) 近年、人工知能(AI)とクラウドコンピューティングの統合は、AIアプリケーションの計算要求の増加に対処するための有望な道として現れている。
本稿では,クラウドコンピューティングを活用したスケーラブルな分散AIフレームワークの総合的研究を行い,ディープラーニングの性能向上と効率化について述べる。
まず、人気のあるaiフレームワークとクラウドサービスの概要を説明し、それぞれの強みと弱みを強調します。
次に、クラウドベースのaiシステムにおけるデータストレージと管理の重要な側面を掘り下げ、データの前処理、機能エンジニアリング、プライバシ、セキュリティについて論じる。
次に、モデル分割、通信戦略、クラウドベースのトレーニングアーキテクチャに焦点を当て、aiモデルの並列および分散トレーニング技術を検討する。
その後の章では、負荷分散、リソース割り当て、自動スケーリング、パフォーマンスベンチマークなど、クラウドにおけるAIワークロードの最適化戦略について論じる。
また、AIモデルのデプロイメントとクラウドでのサービス提供、コンテナ化の概要、サーバレスデプロイメントオプション、ベストプラクティスの監視についても検討しています。
クラウドベースのAIソリューションのコスト効率を保証するため、私たちは、コスト、最適化戦略、そして、成功しているデプロイメントを示すケーススタディを徹底的に分析する。
最後に、本研究の要点をまとめ、クラウドベースのAIの課題と限界について議論し、この分野における新たなトレンドと今後の研究機会を特定する。 In recent years, the integration of artificial intelligence (AI) and cloud computing has emerged as a promising avenue for addressing the growing computational demands of AI applications. This paper presents a comprehensive study of scalable, distributed AI frameworks leveraging cloud computing for enhanced deep learning performance and efficiency. We first provide an overview of popular AI frameworks and cloud services, highlighting their respective strengths and weaknesses. Next, we delve into the critical aspects of data storage and management in cloud-based AI systems, discussing data preprocessing, feature engineering, privacy, and security. We then explore parallel and distributed training techniques for AI models, focusing on model partitioning, communication strategies, and cloud-based training architectures. In subsequent chapters, we discuss optimization strategies for AI workloads in the cloud, covering load balancing, resource allocation, auto-scaling, and performance benchmarking. We also examine AI model deployment and serving in the cloud, outlining containerization, serverless deployment options, and monitoring best practices. To ensure the cost-effectiveness of cloud-based AI solutions, we present a thorough analysis of costs, optimization strategies, and case studies showcasing successful deployments. Finally, we summarize the key findings of this study, discuss the challenges and limitations of cloud-based AI, and identify emerging trends and future research opportunities in the field. | 翻訳日:2023-04-28 15:41:30 公開日:2023-04-26 |
# AIRIVA : 適応免疫レパートリーの深部生成モデル AIRIVA: A Deep Generative Model of Adaptive Immune Repertoires ( http://arxiv.org/abs/2304.13737v1 ) ライセンス: Link先を確認 | Melanie F. Pradier, Niranjani Prasad, Paidamoyo Chapfuwa, Sahra Ghalebikesabi, Max Ilse, Steven Woodhouse, Rebecca Elyanow, Javier Zazo, Javier Gonzalez, Julia Greissl, Edward Meeds | (参考訳) 近年の免疫学の進歩により、T細胞受容体(TCR)のシグネチャは、TCRの抗原への結合性が高いことを利用して、能動的または最近の感染を正確に予測できることが示されている。
しかし、適応免疫レパートリーの極端な多様性は、疾患特異的TCRを確実に同定する上での課題である。
集団遺伝学やシークエンシングの深さはレパートリーに強い系統的影響を与える可能性があり、診断モデルの開発には慎重に考慮する必要がある。
本稿では,レパートリーの低次元,解釈可能,構成的表現を学習し,レパートリーにおけるそのような系統的効果を阻害する適応型免疫レパートリー不変変分オートエンコーダ(AIRIVA)を提案する。
HIV(自然感染・ワクチン接種)と単純ヘルペスウイルス(HSV-1およびHSV-2)の2つの感染症事例にAIRIVAを応用し,各疾患のシグナルを阻害できることを実証的に示す。
さらに,AIRIVAの非ラベルサンプルから学習し,潜伏因子を介在させることで,シリカTCRレパートリーを生成し,外部アッセイデータからTCRアノテーションを用いて病気関連TCRを同定する能力を示す。 Recent advances in immunomics have shown that T-cell receptor (TCR) signatures can accurately predict active or recent infection by leveraging the high specificity of TCR binding to disease antigens. However, the extreme diversity of the adaptive immune repertoire presents challenges in reliably identifying disease-specific TCRs. Population genetics and sequencing depth can also have strong systematic effects on repertoires, which requires careful consideration when developing diagnostic models. We present an Adaptive Immune Repertoire-Invariant Variational Autoencoder (AIRIVA), a generative model that learns a low-dimensional, interpretable, and compositional representation of TCR repertoires to disentangle such systematic effects in repertoires. We apply AIRIVA to two infectious disease case-studies: COVID-19 (natural infection and vaccination) and the Herpes Simplex Virus (HSV-1 and HSV-2), and empirically show that we can disentangle the individual disease signals. We further demonstrate AIRIVA's capability to: learn from unlabelled samples; generate in-silico TCR repertoires by intervening on the latent factors; and identify disease-associated TCRs validated using TCR annotations from external assay data. | 翻訳日:2023-04-28 15:41:09 公開日:2023-04-26 |
# 光子吸収リモートセンシング顕微鏡を用いたラベルフリー組織像の自動画像化 Automated Whole Slide Imaging for Label-Free Histology using Photon Absorption Remote Sensing Microscopy ( http://arxiv.org/abs/2304.13736v1 ) ライセンス: Link先を確認 | James E.D. Tweel, Benjamin R. Ecclestone, Marian Boktor, Deepak Dinakaran, John R. Mackey, Parsin Haji Reza | (参考訳) 組織学の分野は、がんやその他の疾患の病理診断の効率を抑える古い組織処理と染色技術に大きく依存している。
現在の染色法と高度なラベリング法は、しばしば破壊的かつ相互に互換性がなく、各染色に新しい組織切片を必要とする。
これにより診断プロセスが延長され、貴重な生検サンプルが枯渇する。
本研究では,最初の透過モード光子吸収リモートセンシング顕微鏡を用いたラベルフリー組織学プラットフォームを提案する。
組織サンプルを自動でスキャンするために最適化されたシステムは、既存のデジタル病理ツールと完全に互換性のある最大40倍の倍率のスライド画像を提供する。
スキャンは、細胞内診断の詳細で高品質で高解像度の画像をキャプチャする。
イメージング後、サンプルは組織化学的、免疫組織化学的、その他の染色技術に適している。
散乱と吸収(放射能および非放射能)のコントラストは、悪性のヒト乳腺および皮膚組織の全スライド画像に示される。
臨床的に有意な特徴が強調され,1対1の標準H&E染色画像で近接対応と類似コントラストが示される。
これまで報告したPix2pix仮想染色モデルを全スライド画像に適用し、スライドラベルのないH&Eエミュレーションにおけるこのアプローチの可能性を示した。
この研究は、診断効率を向上し、貴重な組織サンプルを保存しながら適用可能な染色数を拡大すると共に、ラベルのない光学的手法を標準的な病理組織学ワークフローに統合するための重要な進歩である。 The field of histology relies heavily on antiquated tissue processing and staining techniques that limit the efficiency of pathologic diagnoses of cancer and other diseases. Current staining and advanced labeling methods are often destructive and mutually incompatible, requiring new tissue sections for each stain. This prolongs the diagnostic process and depletes valuable biopsy samples. In this study, we present an alternative label-free histology platform using the first transmission-mode Photon Absorption Remote Sensing microscope. Optimized for automated whole slide scanning of unstained tissue samples, the system provides slide images at magnifications up to 40x that are fully compatible with existing digital pathology tools. The scans capture high quality and high-resolution images with subcellular diagnostic detail. After imaging, samples remain suitable for histochemical, immunohistochemical, and other staining techniques. Scattering and absorption (radiative and non-radiative) contrasts are shown in whole slide images of malignant human breast and skin tissues samples. Clinically relevant features are highlighted, and close correspondence and analogous contrast is demonstrated with one-to-one gold standard H&E stained images. Our previously reported pix2pix virtual staining model is applied to an entire whole slide image, showcasing the potential of this approach in whole slide label-free H&E emulation. This work is a critical advance for integrating label-free optical methods into standard histopathology workflows, both enhancing diagnostic efficiency, and broadening the number of stains that can be applied while preserving valuable tissue samples. | 翻訳日:2023-04-28 15:40:45 公開日:2023-04-26 |
# LLMの内部状態がいつリビングするか The Internal State of an LLM Knows When its Lying ( http://arxiv.org/abs/2304.13734v1 ) ライセンス: Link先を確認 | Amos Azaria, Tom Mitchell | (参考訳) 大きな言語モデル(LLM)は、様々なタスクにおいて例外的なパフォーマンスを示しているが、最も顕著な欠点は、自信のあるトーンで不正確または偽の情報を生成することである。
本稿では, LLMの内部状態が文の真偽を明らかにするために利用できると仮定する。
そこで,本研究では,LCMが生成するステートメントの真偽を簡易かつ効果的に検出する手法を提案し,LCMの隠蔽層アクティベーションを用いて文の正確性を決定する。
提案手法を訓練し,評価するために,6つのトピックで真文と偽文のデータセットを構成する。
LLMのアクティベーション値に基づいて、どの文が真か偽かを検出するように、分類器が訓練される。
具体的には、分類器はデータセットの各文に対してllmからアクティベーション値を入力として受信する。
提案手法は, LLM生成コンテンツの信頼性向上と実世界のシナリオへの適用性向上に寄与し, 数発のプロンプト法よりも格段に優れていることを示す。 While Large Language Models (LLMs) have shown exceptional performance in various tasks, their (arguably) most prominent drawback is generating inaccurate or false information with a confident tone. In this paper, we hypothesize that the LLM's internal state can be used to reveal the truthfulness of a statement. Therefore, we introduce a simple yet effective method to detect the truthfulness of LLM-generated statements, which utilizes the LLM's hidden layer activations to determine the veracity of statements. To train and evaluate our method, we compose a dataset of true and false statements in six different topics. A classifier is trained to detect which statement is true or false based on an LLM's activation values. Specifically, the classifier receives as input the activation values from the LLM for each of the statements in the dataset. Our experiments demonstrate that our method for detecting statement veracity significantly outperforms even few-shot prompting methods, highlighting its potential to enhance the reliability of LLM-generated content and its practical applicability in real-world scenarios. | 翻訳日:2023-04-28 15:40:22 公開日:2023-04-26 |
# 量子チャネルとエントロピーに関する諸問題 Some Problems Concerning Quantum Channels and Entropies ( http://arxiv.org/abs/2304.13771v1 ) ライセンス: Link先を確認 | Mohammad A. Alhejji | (参考訳) 量子チャネル上の通信速度の基本的な制限は、エントロピー式を含む数学的表現によって与えられる。
これらの表現が計算可能かどうかはしばしば不明である。
この論文は、量子状態の関連する部分集合に対するエントロピー公式の最適化と近似の研究への貢献を記述している。
また,高ノイズ領域における量子消去シミュレーション問題の進展についても述べる。 Fundamental limits on communication rates over quantum channels are given by mathematical expressions involving entropic formulas. Often, it is unclear if these expressions are computable. This thesis describes contributions to the study of optimizing and approximating entropic formulas over relevant subsets of quantum states. It also describes progress on a quantum erasure simulation problem in the high noise regime. | 翻訳日:2023-04-28 15:32:09 公開日:2023-04-26 |
# 量子クエンチ後の安定化エントロピーダイナミクス Stabilizer entropy dynamics after a quantum quench ( http://arxiv.org/abs/2304.13768v1 ) ライセンス: Link先を確認 | Davide Rattacaso, Lorenzo Leone, Salvatore F.E. Oliviero, Alioscia Hamma | (参考訳) 安定化器エントロピー(SE)は安定化器資源からの偏差を測定し、量子的優位性の基礎となる要素である。
特に、SEと絡み合いの相互作用は、古典的にシミュレートされた量子多体系の複雑さの根底にある。
本稿では,可積分系における量子クエンチ後の平衡から離れた量子多体系におけるseのダイナミクスについて検討する。
主な結果が2つあります
(i)seは、量子カオスの欠如と互換性のある値に同値であることを示し、
(ii)時間的に線形に増加するse長が相関や絡み合いに類似していることを示す。 Stabilizer entropies (SE) measure deviations from stabilizer resources and as such are a fundamental ingredient for quantum advantage. In particular, the interplay of SE and entanglement is at the root of the complexity of classically simulating quantum many-body systems. In this paper, we study the dynamics of SE in a quantum many-body system away from the equilibrium after a quantum quench in an integrable system. We obtain two main results: (i) we show that SE equilibrates to a value that is compatible with the absence of quantum chaos; and (ii) we show that there is a SE length increasing linearly in time, akin to correlations and entanglement spreading. | 翻訳日:2023-04-28 15:32:05 公開日:2023-04-26 |
# 倫理的マルチモーダルシステムに向けて Towards ethical multimodal systems ( http://arxiv.org/abs/2304.13765v1 ) ライセンス: Link先を確認 | Alexis Roger, Esma A\"imeur, Irina Rish | (参考訳) 人工知能が社会に与える影響は、前例のないスピードで増加している。
例えば、ChatGPTは、Koko、Stable Diffusionのようなメンタルヘルス治療アプリケーションでテストされている。
生成的AIシステムの振る舞いと応用に関する倫理的懸念はここ数年で増加しており、AIアライメントの分野 — 人間の価値に合わせてAIシステムの振る舞いを操縦する — は、現代AIの急速に成長しているサブフィールドである。
本稿では,マルチモーダル人工知能システムの倫理的評価に関わる課題に対処する。
マルチモーダルシステムでは,テキストと画像の両方を入力・出力テキストとして捉え,文の完成や質問への回答を入力として行う。
まず、まずマルチモーダルな倫理的データベースを作成し、次にこのデータベースを用いて道徳的評価アルゴリズムを構築します。
マルチモーダル倫理データベースの作成は、人間のフィードバックを通じて対話的に行われる。
ユーザは、倫理的かどうかに関する複数の例や票が提示される。
これらの回答をデータセットに集約すると、マルチモーダルシステムのモラルを自動評価するために、さまざまなアルゴリズムを構築し、テストしました。
これらのアルゴリズムは、答えを倫理的か否かを分類することを目的としている。
私たちがテストしたモデルは、RoBERTa-large分類器と多層パーセプトロン分類器である。 The impact of artificial intelligence systems on our society is increasing at an unprecedented speed. For instance, ChatGPT is being tested in mental health treatment applications such as Koko, Stable Diffusion generates pieces of art competitive with (or outperforming) human artists, and so on. Ethical concerns regarding the behavior and applications of generative AI systems have been increasing over the past years, and the field of AI alignment - steering the behavior of AI systems towards being aligned with human values - is a rapidly growing subfield of modern AI. In this paper, we address the challenges involved in ethical evaluation of a multimodal artificial intelligence system. The multimodal systems we focus on take both text and an image as input and output text, completing the sentence or answering the question asked as input. We perform the evaluation of these models in two steps: we first discus the creation of a multimodal ethical database and then use this database to construct morality-evaluating algorithms. The creation of the multimodal ethical database is done interactively through human feedback. Users are presented with multiple examples and votes on whether they are ethical or not. Once these answers have been aggregated into a dataset, we built and tested different algorithms to automatically evaluate the morality of multimodal systems. These algorithms aim to classify the answers as ethical or not. The models we tested are a RoBERTa-large classifier and a multilayer perceptron classifier. | 翻訳日:2023-04-28 15:31:55 公開日:2023-04-26 |
# Phagocytosis: 神経変性疾患解析のためのスケーラブルで解釈可能なディープラーニングフレームワーク Phagocytosis Unveiled: A Scalable and Interpretable Deep learning Framework for Neurodegenerative Disease Analysis ( http://arxiv.org/abs/2304.13764v1 ) ライセンス: Link先を確認 | Mehdi Ounissi, Morwena Latouche and Daniel Racoceanu | (参考訳) 神経変性疾患の評価には, 動的無宿主細胞の真菌症の定量化が不可欠である。
しかし、高速な細胞相互作用の測定と背景からの細胞識別は、タイムラプス位相コントラストビデオ顕微鏡の処理において困難である。
本研究では, 完全自動化, スケーラブル, 汎用的なリアルタイムフレームワークを導入し, 食中毒活動の定量化と解析を行った。
提案するパイプラインは大規模なデータセットを処理でき、顕微鏡の動きやフレームのぼやきといった潜在的な摂動に対抗するデータ品質検証モジュールを含んでいる。
また,ブラックボックスアルゴリズムと比較して深層学習法の解釈性を向上させるためのセルセグメンテーションモジュールを提案する。
これには2つの解釈可能なディープラーニング機能が含まれている。
深層学習における解釈性は、ハイパフォーマンスとは逆ではなく、本質的な深層学習アルゴリズム最適化の洞察と解決策を提供することを実証する。
解釈可能なモジュールを組み込むことで、効率的なアーキテクチャ設計と最適な実行時間を実現できる。
本パイプラインを用いて,前頭側頭型認知症(FTD)におけるミクログリア細胞相の定量と解析を行い,FTD変異細胞が制御細胞よりも大きく,攻撃的であることを示す統計的に信頼性の高い結果を得た。
翻訳のアプローチと今後の研究を刺激するため,神経変性疾患研究における免疫系評価のためのオープンソースのパイプラインと独自のマイクログリア細胞ファゴサイトーシスデータセットをリリースする。
このパイプラインとデータセットは、この分野の将来的な進歩を一貫して結晶化し、このクリティカルドメイン専用の効率的かつ効果的な解釈可能なアルゴリズムの開発を促進する。
https://github.com/ounissimehdi/PhagoStat Quantifying the phagocytosis of dynamic, unstained cells is essential for evaluating neurodegenerative diseases. However, measuring rapid cell interactions and distinguishing cells from backgrounds make this task challenging when processing time-lapse phase-contrast video microscopy. In this study, we introduce a fully automated, scalable, and versatile realtime framework for quantifying and analyzing phagocytic activity. Our proposed pipeline can process large data-sets and includes a data quality verification module to counteract potential perturbations such as microscope movements and frame blurring. We also propose an explainable cell segmentation module to improve the interpretability of deep learning methods compared to black-box algorithms. This includes two interpretable deep learning capabilities: visual explanation and model simplification. We demonstrate that interpretability in deep learning is not the opposite of high performance, but rather provides essential deep learning algorithm optimization insights and solutions. Incorporating interpretable modules results in an efficient architecture design and optimized execution time. We apply this pipeline to quantify and analyze microglial cell phagocytosis in frontotemporal dementia (FTD) and obtain statistically reliable results showing that FTD mutant cells are larger and more aggressive than control cells. To stimulate translational approaches and future research, we release an open-source pipeline and a unique microglial cells phagocytosis dataset for immune system characterization in neurodegenerative diseases research. This pipeline and dataset will consistently crystallize future advances in this field, promoting the development of efficient and effective interpretable algorithms dedicated to this critical domain. https://github.com/ounissimehdi/PhagoStat | 翻訳日:2023-04-28 15:31:34 公開日:2023-04-26 |
# 勾配ブースト決定木の1ホットエンコーディングと正規化によるロバスト性向上 Enhancing Robustness of Gradient-Boosted Decision Trees through One-Hot Encoding and Regularization ( http://arxiv.org/abs/2304.13761v1 ) ライセンス: Link先を確認 | Shijie Cui, Agus Sudjianto, Aijun Zhang, Runze Li | (参考訳) グラフデータモデリングにおいて、GBDT(Gradient-boosted decision tree)が広く使われ、非常に効果的な機械学習アプローチである。
しかし、その複雑な構造は、目に見えないデータにおいて小さな共変量摂動に対して低い堅牢性をもたらす可能性がある。
本研究では,各木の葉を1つのダミー変数にエンコーディングすることにより,gbdtモデルを線形フレームワークに変換するために,ワンホットエンコーディングを適用する。
これにより線形回帰法が利用可能となり、GBDTモデルの共変量摂動に対する堅牢性を評価する新たなリスク分解が可能となった。
線形回帰形式を$L_1$または$L_2$正規化することでGBDTモデルの堅牢性を高めることを提案する。
モデル性能とロバスト性に対する正則化の効果に関する理論的結果を得た。
数値実験により,提案手法は1ホット符号化GBDTモデルのロバスト性を高めることができることを示した。 Gradient-boosted decision trees (GBDT) are widely used and highly effective machine learning approach for tabular data modeling. However, their complex structure may lead to low robustness against small covariate perturbation in unseen data. In this study, we apply one-hot encoding to convert a GBDT model into a linear framework, through encoding of each tree leaf to one dummy variable. This allows for the use of linear regression techniques, plus a novel risk decomposition for assessing the robustness of a GBDT model against covariate perturbations. We propose to enhance the robustness of GBDT models by refitting their linear regression forms with $L_1$ or $L_2$ regularization. Theoretical results are obtained about the effect of regularization on the model performance and robustness. It is demonstrated through numerical experiments that the proposed regularization approach can enhance the robustness of the one-hot-encoded GBDT models. | 翻訳日:2023-04-28 15:31:07 公開日:2023-04-26 |
# 行列積状態をもつ量子不純物問題のダイナミクスのシミュレーション Simulations of the dynamics of quantum impurity problems with matrix product states ( http://arxiv.org/abs/2304.13756v1 ) ライセンス: Link先を確認 | Matteo M. Wauters, Chia-Min Chung, Lorenzo Maffi, Michele Burrello | (参考訳) アンダーソン不純物モデルは強い相関量子系の研究におけるパラダイム的な例であり、電子的鉛と結合した相互作用量子ドットを記述する。
本研究では,行列積状態シミュレーションに基づいて量子クエンチに追従したモデルダイナミクスを調べることで近藤効果の出現を特徴付ける。
不純物磁化の緩和は、不純物-鉛ハイブリッド化と量子ドット反発の関数として近藤温度の予測された普遍スケーリングの推定を可能にする。
さらに,シミュレーションにより,クエンチ後の非平衡準定常状態における電流の評価が可能となった。
これらの値を通して,電圧バイアス $v_b$ と不純物化学ポテンシャル $v_g$ に対するコンダクタンスの依存性について検討した。
以上の結果はクーロン遮断されたデバイス、特にナノワイヤで誘起される量子ドットにおける輸送測定に関係している。 The Anderson impurity model is a paradigmatic example in the study of strongly correlated quantum systems and describes an interacting quantum dot coupled to electronic leads. In this work, we characterize the emergence of the Kondo effect by investigating the model dynamics following a quantum quench based on matrix product state simulations. The relaxation of the impurity magnetization allows for the estimate of the predicted universal scaling of the Kondo temperature as a function of the impurity-lead hybridization and quantum dot repulsion. Additionally, our simulations permit us to evaluate the current in the nonequilibrium quasi-steady state appearing after the quench. Through their values, we examine the dependence of the conductance on the voltage bias $V_b$ and on the impurity chemical potential $V_g$, which displays a zero-bias Kondo peak. Our results are relevant for transport measurements in Coulomb blockaded devices, and, in particular, in quantum dots induced in nanowires. | 翻訳日:2023-04-28 15:30:52 公開日:2023-04-26 |
# カオスマップに典型的な珍しい出来事を Making rare events typical in chaotic maps ( http://arxiv.org/abs/2304.13754v1 ) ライセンス: Link先を確認 | Ricardo Guti\'errez, Adri\'an Canella-Ortiz and Carlos P\'erez-Espigares | (参考訳) 特定の初期条件によるカオス写像の非定型軌道に付随する動的変動や希少事象は、他の特徴を持つ相空間の安定島や領域に繋がる可能性があるため、非常に関係がある。
しかし、そのような初期条件の発見は、システムのカオス的な性質のため、非常に難しい作業である。
本研究では,典型的な軌道が元の写像の非定型値に対応する実効的な位相共役写像を求める枠組みを提案することにより,この問題を回避する。
これは、固定点と周期軌道の不安定性の相反する例と、有限時間リャプノフ指数を含む動的相転移の特性に焦点を当てた例によって説明される。
この手順は、マルコフ連鎖、拡散過程、および開量子系の確率力学における一般化されたドゥーブ変換の適用のそれと平行であり、それぞれの場合において、所定の統計を定常状態に持つ新しい過程をもたらす。
この研究は、希少なゆらぎを大きな偏りの形式主義によって特徴づけ、制御できるシステムの族にカオス写像をもたらす。 Dynamical fluctuations or rare events associated with atypical trajectories in chaotic maps due to specific initial conditions can be very relevant, as the may lead to stability islands or regions in phase space with other features of interest. Yet, finding such initial conditions is a daunting task precisely because of the chaotic nature of the system. In this work, we circumvent this problem by proposing a framework for finding an effective topologically-conjugate map whose typical trajectories correspond to atypical ones of the original map. This is illustrated by means of examples which focus on counterbalancing the instability of fixed points and periodic orbits, as well as on the characterization of a dynamical phase transition involving the finite-time Lyapunov exponent. The procedure parallels that of the application of the generalized Doob transform in the stochastic dynamics of Markov chains, diffusive process and open quantum systems, which in each case results in a new process having the prescribed statistics in its stationary state. This work thus brings chaotic maps into the increasing family of systems whose rare fluctuations can be characterized and controlled by means of a large-deviation formalism. | 翻訳日:2023-04-28 15:30:36 公開日:2023-04-26 |
# キラルトポロジカル秩序に対するエンタングルメント再正規化回路 Entanglement Renormalization Circuits for Chiral Topological Order ( http://arxiv.org/abs/2304.13748v1 ) ライセンス: Link先を確認 | Su-Kuan Chu, Guanyu Zhu, and Alexey V. Gorshkov | (参考訳) 絡み合い再正規化回路(Entanglement renormalization circuits)は、大規模絡み合い状態の準備に使用できる量子回路である。
長年にわたり、カイラル位相秩序に対してスケール不変の絡み合い再正規化回路が存在するかどうかは謎のままである。
本稿では,ラウリンのボソニック分数量子ホール状態と同じ位相特性をIsingのような非アベリア核融合規則で満たす状態を含む,幅広い種類のキラル位相秩序状態に対する絡み合い再正規化回路を示すことで,この問題を解決する。
鍵となる考え方は、半局所的な進化を伴う従来のマルチスケールエンタングルメント再正規化アンサッツ(MERA)回路をインターリーブすることで、エンタングルメント再正規化回路を構築することである。
この回路の奇跡的なパワーを考慮し、幅広いキラルなトポロジカル秩序状態を生成することにより、これらの回路を準局所進化を持つMERA(MERAQLE)と呼ぶ。 Entanglement renormalization circuits are quantum circuits that can be used to prepare large-scale entangled states. For years, it has remained a mystery whether there exist scale-invariant entanglement renormalization circuits for chiral topological order. In this paper, we solve this problem by demonstrating entanglement renormalization circuits for a wide class of chiral topologically ordered states, including a state sharing the same topological properties as Laughlin's bosonic fractional quantum Hall state at filling fraction $1/4$ and eight states with Ising-like non-Abelian fusion rules. The key idea is to build entanglement renormalization circuits by interleaving the conventional multi-scale entanglement renormalization ansatz (MERA) circuit (made of spatially local gates) with quasi-local evolution. Given the miraculous power of this circuit to prepare a wide range of chiral topologically ordered states, we refer to these circuits as MERA with quasi-local evolution (MERAQLE). | 翻訳日:2023-04-28 15:30:16 公開日:2023-04-26 |
# Sachdev-Ye-Kitaevモデルと荷電ブラックホールの量子統計力学 Quantum statistical mechanics of the Sachdev-Ye-Kitaev model and charged black holes ( http://arxiv.org/abs/2304.13744v1 ) ライセンス: Link先を確認 | Subir Sachdev | (参考訳) このレビューはMichael E. Fisherの記憶に捧げられた本への貢献である。
準粒子励起が期待できない量子多体系の最初の例は、ウィルソン・フィッシャー共形場理論である。
準粒子の欠如は、ランダム相互作用を持つフェルミオンのSachdev-Ye-Kitaevモデルの圧縮可能な金属状態に確立することができる。
後者のモデルの可解性は、量子ブラックホールを記述すると期待されるようなカオス多体状態の非量子粒子ダイナミクスの多くの計算を可能にした。
本章では、SYKモデルの熱力学的性質を概説し、低エネルギー超対称性を持たない荷電ブラックホールの状態の低エネルギー密度の普遍構造をいかに理解したかを述べる。 This review is a contribution to a book dedicated to the memory of Michael E. Fisher. The first example of a quantum many body system not expected to have any quasiparticle excitations was the Wilson-Fisher conformal field theory. The absence of quasiparticles can be established in the compressible, metallic state of the Sachdev-Ye-Kitaev model of fermions with random interactions. The solvability of the latter model has enabled numerous computations of the non-quasiparticle dynamics of chaotic many-body states, such as those expected to describe quantum black holes. This chapter reviews thermodynamic properties of the SYK model, and describes how they have led to an understanding of the universal structure of the low energy density of states of charged black holes without low energy supersymmetry. | 翻訳日:2023-04-28 15:29:56 公開日:2023-04-26 |
# infernal and exceptional edge modes: 皮膚効果を超えた非エルミート位相 Infernal and Exceptional Edge Modes: Non-Hermitian Topology Beyond the Skin Effect ( http://arxiv.org/abs/2304.13743v1 ) ライセンス: Link先を確認 | M. Michael Denner, Titus Neupert, Frank Schindler | (参考訳) 局所非エルミート対称性クラスにおける点ギャップ位相の分類は最近確立されている。
しかし、結果として得られる周期表の多くのエントリは形式的な設定でのみ議論され、バルク境界対応の観点からはまだ物理的解釈が欠けている。
そこで本研究では,固有点ギャップ位相を持つ2次元位相のエッジシグネチャを導出する。
1次元の点ギャップ位相は非エルミート皮膚効果を必ず導くが、非エルミート境界物理学は2次元において著しくリッチである。
非エルミートエッジ状態の2つの広いクラスを見いだす:(1) 皮膚効果が単一のエッジモーメントでのみ起こるような慣性点と、他のすべてのエッジモーメントはエッジ状態が欠如している点である。
半無限境界条件下では、点ギャップは完全に閉じるが、単一の辺運動量でのみ閉じる。
2)非エルミート例外点分散は、すべての辺モーメントでエッジ状態が持続し、異常な数の対称性に保護された例外点を与える。
驚くべきことに、後者のシステムのクラスは、すべてのジェネリックエッジ終端に沿ってよく定義された分散を持つ有限の非拡張的なエッジ状態を可能にする。
代わりに、点ギャップは実および虚数固有値軸に沿ってのみ閉まり、非エルミートスペクトルフローの新しい形式を実現する。 The classification of point gap topology in all local non-Hermitian symmetry classes has been recently established. However, many entries in the resulting periodic table have only been discussed in a formal setting and still lack a physical interpretation in terms of their bulk-boundary correspondence. Here, we derive the edge signatures of all two-dimensional phases with intrinsic point gap topology. While in one dimension point gap topology invariably leads to the non-Hermitian skin effect, non-Hermitian boundary physics is significantly richer in two dimensions. We find two broad classes of non-Hermitian edge states: (1) Infernal points, where a skin effect occurs only at a single edge momentum, while all other edge momenta are devoid of edge states. Under semi-infinite boundary conditions, the point gap thereby closes completely, but only at a single edge momentum. (2) Non-Hermitian exceptional point dispersions, where edge states persist at all edge momenta and furnish an anomalous number of symmetry-protected exceptional points. Surprisingly, the latter class of systems allows for a finite, non-extensive number of edge states with a well defined dispersion along all generic edge terminations. Instead, the point gap only closes along the real and imaginary eigenvalue axes, realizing a novel form of non-Hermitian spectral flow. | 翻訳日:2023-04-28 15:29:45 公開日:2023-04-26 |
# 潜時指紋認識 : 局所およびグローバルな埋め込みの融合 Latent Fingerprint Recognition: Fusion of Local and Global Embeddings ( http://arxiv.org/abs/2304.13800v1 ) ライセンス: Link先を確認 | Steven A. Grosz and Anil K. Jain | (参考訳) 指紋認証における最も困難な問題の1つは、犯罪現場に残されている部分的およびスムージーな指紋(すなわち潜在指紋や指紋)に関連する被疑者の身元を確立することである。
ローリング指紋認識とスラップ指紋認識のための固定長埋め込みの成功にもかかわらず、潜伏指紋マッチングで得られた特徴は、主に局所栄養素ベースの埋め込みに限られており、マッチングにグローバル表現を直接活用していない。
本稿では,グローバルな埋め込みと局所的な埋め込みを組み合わせることで,マッチング精度と高いスループットを両立させる。
NIST SD 27, NIST SD 302, MSP, MOLF DB1/DB4 と MOLF DB2/DB4 の2つの閉集合 (84.11%, 54.36%, 84.35%, 70.43%, 62.86%) と開集合 (0.50, 0.74, 0.44, 0.60, 0.68 FNIR at FPIR=0.02) の識別シナリオは、それぞれ100Kロール指紋のギャラリーに記録されている。
補完表現を融合させるだけでなく、局所的な特徴を用いてグローバル表現を導くことで、2つの指紋画像の識別領域に焦点を合わせます。
これにより、検索した各プローブ画像の候補リストのサブセットを後続のステージに渡して処理するマルチステージマッチングパラダイムが実現し、レイテンシが大幅に低下する(AMD EPYC 7543 32-Coreプロセッサでロール比較を行うには、レイテンシが0.068ms(毎秒約15K)となる)。
最後に,複数のロール,プレーン,非接触の指紋データセットにおける認証精度を向上させるため,融合表現の汎用性を示す。 One of the most challenging problems in fingerprint recognition continues to be establishing the identity of a suspect associated with partial and smudgy fingerprints left at a crime scene (i.e., latent prints or fingermarks). Despite the success of fixed-length embeddings for rolled and slap fingerprint recognition, the features learned for latent fingerprint matching have mostly been limited to local minutiae-based embeddings and have not directly leveraged global representations for matching. In this paper, we combine global embeddings with local embeddings for state-of-the-art latent to rolled matching accuracy with high throughput. The combination of both local and global representations leads to improved recognition accuracy across NIST SD 27, NIST SD 302, MSP, MOLF DB1/DB4, and MOLF DB2/DB4 latent fingerprint datasets for both closed-set (84.11%, 54.36%, 84.35%, 70.43%, 62.86% rank-1 retrieval rate, respectively) and open-set (0.50, 0.74, 0.44, 0.60, 0.68 FNIR at FPIR=0.02, respectively) identification scenarios on a gallery of 100K rolled fingerprints. Not only do we fuse the complimentary representations, we also use the local features to guide the global representations to focus on discriminatory regions in two fingerprint images to be compared. This leads to a multi-stage matching paradigm in which subsets of the retrieved candidate lists for each probe image are passed to subsequent stages for further processing, resulting in a considerable reduction in latency (requiring just 0.068 ms per latent to rolled comparison on a AMD EPYC 7543 32-Core Processor, roughly 15K comparisons per second). Finally, we show the generalizability of the fused representations for improving authentication accuracy across several rolled, plain, and contactless fingerprint datasets. | 翻訳日:2023-04-28 15:22:52 公開日:2023-04-26 |
# ディーゼル機関のガス流力学と未知パラメータ予測のための物理インフォームニューラルネットワーク Physics-informed neural networks for predicting gas flow dynamics and unknown parameters in diesel engines ( http://arxiv.org/abs/2304.13799v1 ) ライセンス: Link先を確認 | Kamaljyoti Nath, Xuhui Meng, Daniel J Smith, George Em Karniadakis | (参考訳) 本稿では,ディーゼル機関の健康状態を監視するための物理情報ニューラルネットワーク (PINN) を提案する。
目的は、エンジンのダイナミクスを評価し、未知のパラメータを"平均値"モデルで識別し、メンテナンス要件を予測することである。
PINNモデルは、選択した状態変数の測定データを用いて、可変形状ターボチャージャーと排気ガス再循環を備えたディーゼルエンジンに適用される。
その結果、PINNモデルが未知パラメータと雑音データの両方を正確に同時に予測し、損失関数における自己適応重みの重要性を高速収束のために示している。
これらのシミュレーションの入力データは実際のエンジンの動作条件に由来するが、出力はシミュレーションデータであり、実世界の力学系を予測するピンの能力の実用的なケーススタディである。
ディーゼル機関の平均値モデルには、ある状態を表す経験式が組み込まれているが、これらの式は他のエンジンには一般化できない。
これを解決するために、PINNモデルに加えてディープニューラルネットワーク(DNN)の利用を検討する。
dnnは実験室のテストデータを用いて訓練され、平均値モデルでエンジン固有の経験式をモデル化するために使用され、エンジンの状態をより柔軟かつ適応的に表現できる。
言い換えると、平均値モデルはエンジンの状態を表すのに pinn model と dnns の両方を使用し、 pinn はエンジン全体のダイナミクスの物理ベースの理解を提供し、dnns は経験式をよりエンジン固有で適応的な表現を提供する。
この2つのアプローチを組み合わせることで,ディーゼル機関の健全性と性能を総合的かつ多目的にモニタリングする手法を提案する。 This paper presents a physics-informed neural network (PINN) approach for monitoring the health of diesel engines. The aim is to evaluate the engine dynamics, identify unknown parameters in a "mean value" model, and anticipate maintenance requirements. The PINN model is applied to diesel engines with a variable-geometry turbocharger and exhaust gas recirculation, using measurement data of selected state variables. The results demonstrate the ability of the PINN model to predict simultaneously both unknown parameters and dynamics accurately with both clean and noisy data, and the importance of the self-adaptive weight in the loss function for faster convergence. The input data for these simulations are derived from actual engine running conditions, while the outputs are simulated data, making this a practical case study of PINN's ability to predict real-world dynamical systems. The mean value model of the diesel engine incorporates empirical formulae to represent certain states, but these formulae may not be generalizable to other engines. To address this, the study considers the use of deep neural networks (DNNs) in addition to the PINN model. The DNNs are trained using laboratory test data and are used to model the engine-specific empirical formulae in the mean value model, allowing for a more flexible and adaptive representation of the engine's states. In other words, the mean value model uses both the PINN model and the DNNs to represent the engine's states, with the PINN providing a physics-based understanding of the engine's overall dynamics and the DNNs offering a more engine-specific and adaptive representation of the empirical formulae. By combining these two approaches, the study aims to offer a comprehensive and versatile approach to monitoring the health and performance of diesel engines. | 翻訳日:2023-04-28 15:22:10 公開日:2023-04-26 |
# 一般化一般化線形モデル:凸推定とオンライン境界 Generalized generalized linear models: Convex estimation and online bounds ( http://arxiv.org/abs/2304.13793v1 ) ライセンス: Link先を確認 | Anatoli Juditsky, Arkadi Nemirovski, Yao Xie, and Chen Xu | (参考訳) 本稿では,一般一般化線形モデル(GLM)を拡張したモデル群である一般化一般化線形モデル(GGLM)のパラメータ推定のための新しい計算フレームワークを提案する。
提案手法は単調演算子に基づく変分不等式法を用いてパラメータ推定の非凸性を克服し,パラメータ回復の保証を提供する。
この結果は、時空間モデルに着目したGLMとGGLMに適用できる。
また,martingale濃度の不等式を用いたオンラインインスタンスベース境界も提示する。
最後に,数値シミュレーションと山火事事例の実データ例を用いて,本アルゴリズムの性能を実証する。 We introduce a new computational framework for estimating parameters in generalized generalized linear models (GGLM), a class of models that extends the popular generalized linear models (GLM) to account for dependencies among observations in spatio-temporal data. The proposed approach uses a monotone operator-based variational inequality method to overcome non-convexity in parameter estimation and provide guarantees for parameter recovery. The results can be applied to GLM and GGLM, focusing on spatio-temporal models. We also present online instance-based bounds using martingale concentrations inequalities. Finally, we demonstrate the performance of the algorithm using numerical simulations and a real data example for wildfire incidents. | 翻訳日:2023-04-28 15:21:42 公開日:2023-04-26 |
# 分散対称鍵交換プロトコルの構成可能なセキュリティ Composable Security of Distributed Symmetric Key Exchange Protocol ( http://arxiv.org/abs/2304.13789v1 ) ライセンス: Link先を確認 | Jie Lin, Manfred von Willich and Hoi-Kwong Lo | (参考訳) 分散対称鍵交換(DSKE)プロトコルは、事前の接触を必要としない2つの正直な当事者間のセキュアな秘密交換(鍵交換など)を提供し、それぞれが秘密データを安全に共有する仲介者を使用する。
Maurer のコンストラクティブ暗号フレームワークにおいて,DSKE プロトコルの構成可能なセキュリティについて述べる。
具体的には、このプロトコルのセキュリティ(正確性と機密性)と堅牢性を、計算不能な敵に対して証明する。
DSKEは距離制限のないネットワーク環境で高度にスケーラブルであるため、量子コンピュータの脅威に対してネットワークセキュリティを保護するための費用対効果の高い量子セーフ暗号ソリューションであると期待されている。 The Distributed Symmetric Key Exchange (DSKE) protocol provides secure secret exchange (e.g., for key exchange) between two honest parties that need not have had prior contact, and use intermediaries with whom they each securely share confidential data. We show the composable security of the DSKE protocol in the constructive cryptography framework of Maurer. Specifically, we prove the security (correctness and confidentiality) and robustness of this protocol against any computationally unbounded adversary, who additionally may have fully compromised a bounded number of the intermediaries and can eavesdrop on all communication. As DSKE is highly scalable in a network setting with no distance limit, it is expected to be a cost-effective quantum-safe cryptographic solution to safeguarding the network security against the threat of quantum computers. | 翻訳日:2023-04-28 15:21:32 公開日:2023-04-26 |
# 人-ロボットインタラクションシナリオの生成を支援するサロゲート Surrogate Assisted Generation of Human-Robot Interaction Scenarios ( http://arxiv.org/abs/2304.13787v1 ) ライセンス: Link先を確認 | Varun Bhatt, Heramb Nemlekar, Matthew Fontaine, Bryon Tjanaka, Hejia Zhang, Ya-Chuan Hsu, Stefanos Nikolaidis | (参考訳) HRI(Human-robot Interaction)システムが進歩するにつれて、異なる環境と異なるユーザでこれらのシステムの強みや制限を評価し理解することが困難になる。
この目的のために、従来の手法は、共有制御遠隔操作タスクにおけるシステム障害を明らかにする様々なシナリオをアルゴリズムで生成している。
しかし,これらの手法では,ロボットのポリシーや人間行動のシミュレーションによって生成シナリオを直接評価する必要がある。
これらの評価の計算コストは、より複雑な領域での適用性を制限する。
そこで本研究では,人間とロボットの行動を予測するサロゲートモデルを用いたシナリオ生成システムを提案する。
共有制御遠隔操作ドメインとより複雑な共有ワークスペース協調タスクにおいて,surrogate assisted scenario generation が課題シナリオの多様なデータセットを効率的に合成することを示す。
これらの失敗は実世界の相互作用において再現可能であることを示す。 As human-robot interaction (HRI) systems advance, so does the difficulty of evaluating and understanding the strengths and limitations of these systems in different environments and with different users. To this end, previous methods have algorithmically generated diverse scenarios that reveal system failures in a shared control teleoperation task. However, these methods require directly evaluating generated scenarios by simulating robot policies and human actions. The computational cost of these evaluations limits their applicability in more complex domains. Thus, we propose augmenting scenario generation systems with surrogate models that predict both human and robot behaviors. In the shared control teleoperation domain and a more complex shared workspace collaboration task, we show that surrogate assisted scenario generation efficiently synthesizes diverse datasets of challenging scenarios. We demonstrate that these failures are reproducible in real-world interactions. | 翻訳日:2023-04-28 15:21:18 公開日:2023-04-26 |
# 医用画像分割のためのsegment anythingモデル Customized Segment Anything Model for Medical Image Segmentation ( http://arxiv.org/abs/2304.13785v1 ) ライセンス: Link先を確認 | Kaidong Zhang and Dong Liu | (参考訳) 医療画像セグメンテーションのための一般的なソリューションであるSAMedを提案する。
従来の方法とは違って,SAMedは大規模画像分割モデルであるSAMment Anything Model(Segment Anything Model)に基づいて,医用画像分割のための大規模モデルをカスタマイズする新たな研究パラダイムを探求する。
SAMedは、SAMイメージエンコーダにローランクベース(LoRA)ファインタニング戦略を適用し、ラベル付き医用画像セグメンテーションデータセットにプロンプトエンコーダとマスクデコーダを併用する。
また,AdamWオプティマイザリードとウォームアップ微調整戦略も観察し,収束と損失低減に寄与した。
SAMと異なり、SAMedは医療画像のセマンティックセグメンテーションを行うことができる。
訓練されたSAMedモデルでは,Synapseのマルチオーガニックセグメンテーションデータセット上で,81.88 DSCと20.64 HDを実現している。
設計の有効性を検証するための広範な実験を行う。
SAMedはSAMパラメータのごく一部しか更新しないため、そのデプロイコストとストレージコストは実用的には極めて少ない。
SAMedのコードはhttps://github.com/hitachinsk/SAMedで公開されている。 We propose SAMed, a general solution for medical image segmentation. Different from the previous methods, SAMed is built upon the large-scale image segmentation model, Segment Anything Model (SAM), to explore the new research paradigm of customizing large-scale models for medical image segmentation. SAMed applies the low-rank-based (LoRA) finetuning strategy to the SAM image encoder and finetunes it together with the prompt encoder and the mask decoder on labeled medical image segmentation datasets. We also observe the warmup finetuning strategy and the AdamW optimizer lead SAMed to successful convergence and lower loss. Different from SAM, SAMed could perform semantic segmentation on medical images. Our trained SAMed model achieves 81.88 DSC and 20.64 HD on the Synapse multi-organ segmentation dataset, which is on par with the state-of-the-art methods. We conduct extensive experiments to validate the effectiveness of our design. Since SAMed only updates a small fraction of the SAM parameters, its deployment cost and storage cost are quite marginal in practical usage. The code of SAMed is available at https://github.com/hitachinsk/SAMed. | 翻訳日:2023-04-28 15:21:03 公開日:2023-04-26 |
# 異常例による微調整 Fine Tuning with Abnormal Examples ( http://arxiv.org/abs/2304.13783v1 ) ライセンス: Link先を確認 | Will Rieger | (参考訳) 自然言語処理データセット作成におけるクラウドソースの作業の頻度を考えると、これらのデータセットはますます大きくなる。
例えば、SQUADデータセットは現在、80,000レコードを超えている。
しかし、英語は構造的にかなり反復的であるため、SQUADデータセットの文脈における単語頻度の分布は比較的変化しない。
データセット内の全ての文の周波数の共変量距離から各文の距離を測定することで、トレーニングのためにより均一な分布を作る10,500の例を識別する。
この例のサブセットで細調整されたELECTRA [4] は87,000の例すべてでトレーニングされたモデルよりも優れたパフォーマンスを実現します。
そこで,本研究では,サンプル性能を向上するために,データセットを体系的に刈り取る手法を提案する。 Given the prevalence of crowd sourced labor in creating Natural Language processing datasets, these aforementioned sets have become increasingly large. For instance, the SQUAD dataset currently sits at over 80,000 records. However, because the English language is rather repetitive in structure, the distribution of word frequencies in the SQUAD dataset's contexts are relatively unchanged. By measuring each sentences distance from the co-variate distance of frequencies of all sentences in the dataset, we identify 10,500 examples that create a more uniform distribution for training. While fine-tuning ELECTRA [4] on this subset of examples reaches better performance to a model trained on all 87,000 examples. Herein we introduce a methodology for systematically pruning datasets for fine tuning reaching better out of sample performance. | 翻訳日:2023-04-28 15:20:42 公開日:2023-04-26 |
# 全スライダーデジタル病理画像を用いた脳卒中血塊起源の自動分類 Automated Classification of Stroke Blood Clot Origin using Whole-Slide Digital Pathology Images ( http://arxiv.org/abs/2304.13775v1 ) ライセンス: Link先を確認 | Koushik Sivarama Krishnan, P. J. Joe Nikesh, M. Logeshwaran, G. Senthilkumar, D. Elangovan | (参考訳) 血栓の起源の分類は虚血性脳卒中を診断し治療するための重要なステップである。
CT(Computed tomography)、MRI(MRI)、超音波などの様々なイメージング技術を用いて、体内の血栓を検出し、発見している。
しかし,血液凝固の起源の同定は血流動態の複雑さとイメージング技術の限界のため,依然として困難である。
本研究は, 最先端コンピュータビジョンモデルの微調整に利用される全スライディングデジタル画像からのデータの統合により, 血液凝固源を分類する新しい手法を提案する。
比較すると、SwinTransformerV2モデルは他のモデルよりも優れ、94.24%の精度スコア、94.41%の精度スコア、94.09%のリコールスコア、94.06%のf1スコアを達成している。
本手法は,異なる血管領域の血液凝固物の起源を検出する上で有望な結果を示し,虚血性脳梗塞の診断と管理を改善する可能性がある。 The classification of the origin of blood clots is a crucial step in diagnosing and treating ischemic stroke. Various imaging techniques such as computed tomography (CT), magnetic resonance imaging (MRI), and ultrasound have been employed to detect and locate blood clots within the body. However, identifying the origin of a blood clot remains challenging due to the complexity of the blood flow dynamics and the limitations of the imaging techniques. The study suggests a novel methodology for classifying the source of a blood clot through the integration of data from whole-slide digital pathology images, which are utilized to fine-tune several cutting-edge computer vision models. Upon comparison, the SwinTransformerV2 model outperforms all the other models and achieves an accuracy score of 94.24%, precision score of 94.41%, recall score of 94.09%, and, f1-score of 94.06%. Our approach shows promising results in detecting the origin of blood clots in different vascular regions and can potentially improve the diagnosis and management of ischemic stroke. | 翻訳日:2023-04-28 15:20:28 公開日:2023-04-26 |
# オフラインインタラクションデータのための距離重み付き教師付き学習 Distance Weighted Supervised Learning for Offline Interaction Data ( http://arxiv.org/abs/2304.13774v1 ) ライセンス: Link先を確認 | Joey Hejna, Jensen Gao, Dorsa Sadigh | (参考訳) シーケンシャルな意思決定アルゴリズムは、非構造化オフラインインタラクションデータの異なるソースを活用するのに苦労することが多い。
教師付き学習に基づく模倣学習(il)法は堅牢であるが、収集が難しい最適なデモンストレーションを必要とする。
オフライン目標条件強化学習(RL)アルゴリズムは準最適データから学習することを約束するが、特に高次元データでは最適化の課題に直面している。
ILとRLのギャップを埋めるために、オフラインデータからゴール条件付きポリシーを学習するための教師付き手法であるDWSL(Distance Weighted Supervised Learning)を導入する。
DWSLは、教師付き学習のみでオフラインデータの状態間の時間ステップ全体の分布をモデル化し、この分布を用いて最短経路距離を近似する。
政策を引き出すためには,距離推定の削減による行動の重み付けを行う。
理論的には、dwslはブートストラップなしでオフライン学習に魅力的な属性であるデータ分散に制約された最適なポリシーに収束する。
私たちがテストしたすべてのデータセットの中で、DWSLは政策改善を継続しながら、動作のクローン化を下位境界として実証的に維持します。
高次元画像領域では、DWSLはゴール条件付きILアルゴリズムとRLアルゴリズムの両方の性能を上回る。
可視化とコードはhttps://sites.google.com/view/dwsl/homeで見ることができる。 Sequential decision making algorithms often struggle to leverage different sources of unstructured offline interaction data. Imitation learning (IL) methods based on supervised learning are robust, but require optimal demonstrations, which are hard to collect. Offline goal-conditioned reinforcement learning (RL) algorithms promise to learn from sub-optimal data, but face optimization challenges especially with high-dimensional data. To bridge the gap between IL and RL, we introduce Distance Weighted Supervised Learning or DWSL, a supervised method for learning goal-conditioned policies from offline data. DWSL models the entire distribution of time-steps between states in offline data with only supervised learning, and uses this distribution to approximate shortest path distances. To extract a policy, we weight actions by their reduction in distance estimates. Theoretically, DWSL converges to an optimal policy constrained to the data distribution, an attractive property for offline learning, without any bootstrapping. Across all datasets we test, DWSL empirically maintains behavior cloning as a lower bound while still exhibiting policy improvement. In high-dimensional image domains, DWSL surpasses the performance of both prior goal-conditioned IL and RL algorithms. Visualizations and code can be found at https://sites.google.com/view/dwsl/home . | 翻訳日:2023-04-28 15:20:10 公開日:2023-04-26 |
# 対称性シフトによる量子コンピュータの分子電子ハミルトニアン符号化コストの低減 Reducing the molecular electronic Hamiltonian encoding costs on quantum computers by symmetry shifts ( http://arxiv.org/abs/2304.13772v1 ) ライセンス: Link先を確認 | Ignacio Loaiza, Artur F. Izmaylov | (参考訳) 量子位相推定(QPE)による分子電子ハミルトニアンのエネルギー推定の計算コストは、ハミルトニアンのスペクトルノルムとともに増大する。
本研究では、ハミルトニアンのノルムを特定の対称性の標的状態の固有スペクトルを変更することなく減少させる前処理手順を提案する。
新しい手順であるブロック不変対称性シフト (BLISS) は作用素 T を構築し、H-T の実装コストが H よりも小さくなるが、H-T は H と同じ方法で対称部分空間に作用する。
BLISS性能は、小分子の集合に対するユニタリ(LCU)ベースのQPEアプローチの線形結合に対して実証される。
目標とする状態の集合を示す対称性として電子の数を用いると、BLISSは単一のパウリ積 LCU 分解よりも 2-3 の 1-ノルムの減少係数を与えた。 Computational cost of energy estimation for molecular electronic Hamiltonians via quantum phase estimation (QPE) grows with the spectral norm of the Hamiltonian. In this work we propose a preprocessing procedure that reduces the norm of the Hamiltonian without changing its eigen-spectrum for the target states of a particular symmetry. The new procedure, block-invariant symmetry shift (BLISS), builds an operator T such that the cost of implementing H-T is reduced compared to that of H, yet H-T acts on the symmetric subspaces of interest the same way as H does. BLISS performance is demonstrated for linear combination of unitaries (LCU)-based QPE approaches on a set of small molecules. Using the number of electrons as the symmetry specifying the target set of states, BLISS provided a factor of 2-3 reduction of 1-norm compared to that in a single Pauli product LCU decomposition. | 翻訳日:2023-04-28 15:19:47 公開日:2023-04-26 |
# カーネル化帯域における不特定カーネル規則性への適応 Adaptation to Misspecified Kernel Regularity in Kernelised Bandits ( http://arxiv.org/abs/2304.13830v1 ) ライセンス: Link先を確認 | Yusha Liu, Aarti Singh | (参考訳) 基礎関数が再生核ヒルベルト空間(rkhs)、すなわちカーネル化バンディット問題に存在する連続体武装バンディット問題において、関連する核関数の正則性が未知である場合、学習アルゴリズムがいかにうまく適応できるかという重要なオープン問題は残っている。
本研究では, フーリエ変換の崩壊速度をバンディット設定において特徴とする, 変換不変核の正則性に対する適応性について検討する。
我々は適応性の低い境界を導出し、正則性が異なる一対のRKHSにおいて最適な累積後悔を同時に達成することは不可能であることを証明した。
この下限の厳密性を検証するために,最小値の非適応型カーネル化バンディットアルゴリズムを適用した既存のバンディットモデル選択アルゴリズムが,ログファクタ以外のステップ数である$T$の依存度で下限と一致することを示す。
RKHS 間の適応性に対する後悔の限界を埋めることにより、RKHS 、ソボレフ空間、および H\ 古い空間の3つの基本型の函数空間における連続体アーマーバンドの適応性の統計的困難さを補う。 In continuum-armed bandit problems where the underlying function resides in a reproducing kernel Hilbert space (RKHS), namely, the kernelised bandit problems, an important open problem remains of how well learning algorithms can adapt if the regularity of the associated kernel function is unknown. In this work, we study adaptivity to the regularity of translation-invariant kernels, which is characterized by the decay rate of the Fourier transformation of the kernel, in the bandit setting. We derive an adaptivity lower bound, proving that it is impossible to simultaneously achieve optimal cumulative regret in a pair of RKHSs with different regularities. To verify the tightness of this lower bound, we show that an existing bandit model selection algorithm applied with minimax non-adaptive kernelised bandit algorithms matches the lower bound in dependence of $T$, the total number of steps, except for log factors. By filling in the regret bounds for adaptivity between RKHSs, we connect the statistical difficulty for adaptivity in continuum-armed bandits in three fundamental types of function spaces: RKHS, Sobolev space, and H\"older space. | 翻訳日:2023-04-28 15:14:29 公開日:2023-04-26 |
# 10dBm高出力100km繊維を用いたQKDと古典チャネルの共分散化 Time-Interleaving Enabled Co-propagation of QKD and Classical Channels over 100-km Fiber with 10-dBm Classical Launch Power ( http://arxiv.org/abs/2304.13828v1 ) ライセンス: Link先を確認 | Jing Wang, Brian J. Rollick, Zhensheng Jia, Haipeng Zhang, Bernardo A. Huberman | (参考訳) 量子鍵分布(QKD)技術の商業的成功と広範な展開は、既存のファイバネットワークへのQKDリンクの統合と、従来のデータトラフィックと同一のファイバの共有に依存している。
古典的なデータチャネルからの自然発振ラマン散乱(SpRS)ノイズを軽減するため、例えば、OバンドにおけるQKDの配置は繊維損失を犠牲にして80kmを超えることは稀であり、古典的なチャネルの減衰は古典的なチャネルの性能を犠牲にしている。
本研究では,両性能を犠牲にすることなく,Cバンド内の量子チャネルと古典チャネルの共伝播を可能にする時間インターリーブ手法を開発した。
古典的データフレーム間のギャップにQKDパルスを埋め込むことで、ラマンノイズと時間領域の両方で量子チャネルを分離することができる。
偏光符号化されたBB84QKDチャネルと100Gb/sのQPSKチャネルと10dBmの打ち上げ電力をCバンド100km以上のファイバで共用する実験を行った。
量子ビット誤り率(QBER)は1.12%、2.04%、および3.81%で、39.5kb/s、6.35kb/s、128b/sのキーレート(SKR)は、20,50、100kmのファイバで10-dBmの古典的な発射力を持つ。
SpRSノイズの分散遮断効果についても実験的に検討した。 The commercial success and wide deployment of quantum key distribution (QKD) technology depend on the integration of QKD links into existing fiber networks and sharing of the same fibers with classical data traffic. To mitigate the spontaneous Raman scattering (SpRS) noise from classical data channels, several strategies have been developed with their pros and cons, e.g., the placement of QKD in the O-band sacrifices the fiber loss and can rarely reach beyond 80 km; the attenuation of classical channels sacrifices the performance of classical channels. In this work, we developed a time-interleaving technique to enable the co-propagation of quantum and classical channels in the C-band without sacrificing either performance. By embedding QKD pulses in the gaps between classical data frames, we can isolate the quantum channel from Raman noise in both wavelength and time domains. We experimentally demonstrated the co-propagation of a polarization-encoding decoy-state BB84 QKD channel with a 100 Gb/s QPSK channel with 10-dBm launch power in the C-band over 100 km of fiber. Quantum bit error rate (QBER) of 1.12%, 2.04%, and 3.81% and secure key rates (SKR) of 39.5 kb/s, 6.35 kb/s, and 128 b/s are achieved after 20, 50, and 100 km fibers with the presence of 10-dBm classical launch power. The dispersion walk-off effect of SpRS noise is also experimentally investigated | 翻訳日:2023-04-28 15:14:04 公開日:2023-04-26 |
# プログラム的接地・構成的一般化可能なロボットマニピュレーション Programmatically Grounded, Compositionally Generalizable Robotic Manipulation ( http://arxiv.org/abs/2304.13826v1 ) ライセンス: Link先を確認 | Renhao Wang, Jiayuan Mao, Joy Hsu, Hang Zhao, Jiajun Wu, Yang Gao | (参考訳) 現実世界で操作するロボットは、リッチな操作スキルと、そのスキルをいつ適用すべきかを意味的に判断する能力の両方を必要とする。
この目標に向けて、最近の研究は、大規模事前学習された視覚言語(VL)モデルから意味表現を操作モデルに統合し、より一般的な推論能力を与える。
しかし、そのような表現を統合するための従来の事前学習ファインタニングパイプラインは、ドメイン固有のアクション情報とドメイン一般の視覚情報の学習を絡み合わせており、データ効率の低いトレーニングや、見えないオブジェクトやタスクへの一般化が不十分であることを示す。
そこで本研究では,言語命令の構文的・意味的構造を活用し,事前学習されたvlモデルをより活用するためのモジュラーアプローチである programport を提案する。
本フレームワークでは,視覚と動作の異なるモジュールからなる実行可能プログラムを,セマンティックパーザを用いて復元する。
各機能モジュールは、決定論的計算と学習可能なニューラルネットワークの組み合わせとして実現される。
プログラムの実行は、ロボットのエンドエフェクタの汎用的な操作プリミティブにパラメータを生成する。
モジュールネットワーク全体は、エンドツーエンドの模倣学習目標でトレーニングすることができる。
実験の結果,動作と知覚を分離し,様々な操作行動においてゼロショットと合成一般化を改善することができた。
project webpage at: \url{https://progport.github.io} Robots operating in the real world require both rich manipulation skills as well as the ability to semantically reason about when to apply those skills. Towards this goal, recent works have integrated semantic representations from large-scale pretrained vision-language (VL) models into manipulation models, imparting them with more general reasoning capabilities. However, we show that the conventional pretraining-finetuning pipeline for integrating such representations entangles the learning of domain-specific action information and domain-general visual information, leading to less data-efficient training and poor generalization to unseen objects and tasks. To this end, we propose ProgramPort, a modular approach to better leverage pretrained VL models by exploiting the syntactic and semantic structures of language instructions. Our framework uses a semantic parser to recover an executable program, composed of functional modules grounded on vision and action across different modalities. Each functional module is realized as a combination of deterministic computation and learnable neural networks. Program execution produces parameters to general manipulation primitives for a robotic end-effector. The entire modular network can be trained with end-to-end imitation learning objectives. Experiments show that our model successfully disentangles action and perception, translating to improved zero-shot and compositional generalization in a variety of manipulation behaviors. Project webpage at: \url{https://progport.github.io}. | 翻訳日:2023-04-28 15:13:34 公開日:2023-04-26 |
# MAPConNet:メッシュとポイントコントラスト学習による自己教師型3Dポッド転送 MAPConNet: Self-supervised 3D Pose Transfer with Mesh and Point Contrastive Learning ( http://arxiv.org/abs/2304.13819v1 ) ライセンス: Link先を確認 | Jiaze Sun, Zhixiang Chen, Tae-Kyun Kim | (参考訳) 3次元ポーズ転送は、ソースジオメトリのポーズを、ターゲットアイデンティティを保持するターゲットジオメトリに転送することを目的とした、困難な生成タスクである。
多くの事前メソッドは、ソースとターゲットの対応を見つけるためにキーポイントアノテーションを必要とする。
現在のポーズ転送はエンドツーエンドの対応学習を可能にするが、監督のための基礎的真実として望ましい最終出力を必要とする。
グラフ畳み込みモデルでは教師なしの手法が提案されているが、これらはソースとターゲットの入力の間の基底真理対応を必要とする。
本稿では,非教師付き,半教師付き,あるいは完全な教師付き設定で,通信ラベルを使わずに訓練可能な,新しい3次元ポーズ転送フレームワークを提案する。
ポーズやアイデンティティを含むグローバルなパターンを混同するためのメッシュレベルの損失と、局所的な意味論を識別するためのポイントレベルの損失である。
提案手法は,教師付き3次元ポーズ転送において,教師なしおよび半教師付き設定において同等の結果が得られたことを定量的かつ定性的に示す。
また,本手法は複雑なトポロジを持つヒト・動物データにも適用可能である。 3D pose transfer is a challenging generation task that aims to transfer the pose of a source geometry onto a target geometry with the target identity preserved. Many prior methods require keypoint annotations to find correspondence between the source and target. Current pose transfer methods allow end-to-end correspondence learning but require the desired final output as ground truth for supervision. Unsupervised methods have been proposed for graph convolutional models but they require ground truth correspondence between the source and target inputs. We present a novel self-supervised framework for 3D pose transfer which can be trained in unsupervised, semi-supervised, or fully supervised settings without any correspondence labels. We introduce two contrastive learning constraints in the latent space: a mesh-level loss for disentangling global patterns including pose and identity, and a point-level loss for discriminating local semantics. We demonstrate quantitatively and qualitatively that our method achieves state-of-the-art results in supervised 3D pose transfer, with comparable results in unsupervised and semi-supervised settings. Our method is also generalisable to unseen human and animal data with complex topologies. | 翻訳日:2023-04-28 15:13:10 公開日:2023-04-26 |
# 対称性違反探索のための工学的場非感受性分子時計遷移 Engineering field-insensitive molecular clock transitions for symmetry violation searches ( http://arxiv.org/abs/2304.13817v1 ) ライセンス: Link先を確認 | Yuiki Takahashi, Chi Zhang, Arian Jadbabaie, Nicholas R. Hutzler | (参考訳) 分子は、大きな増幅因子と体系的エラーに対する堅牢性の両方を提供するため、標準モデルを超えて基本的な対称性の違反を調べる強力なプラットフォームである。
実験感度が向上するにつれて、外部電磁場に対する感度を抑制する新しい手法を開発することが重要である。
そこで本研究では,cp破壊効果の増幅性を維持する無線周波数,マイクロ波,または2光子遷移を用いて,外部磁場と電界の両方に対する感度を同時に抑制できることを示す。
これらの遷移のクロック測定を行うことにより、電子電気双極子モーメント、核シフモーメント、磁気四重極モーメントを含むCP違反可観測物は、外部磁場感度を$\gtrsim$100で抑制し、さらに多くの場合において測定することができる。
さらに、この手法は従来のラムゼー測定と互換性があり、内部のコマグネトメトリーを提供し、核CP-違反の分子探索によく見られる大きな角運動量を持つシステムに有用である。 Molecules are a powerful platform to probe fundamental symmetry violations beyond the Standard Model, as they offer both large amplification factors and robustness against systematic errors. As experimental sensitivities improve, it is important to develop new methods to suppress sensitivity to external electromagnetic fields, as limits on the ability to control these fields are a major experimental concern. Here we show that sensitivity to both external magnetic and electric fields can be simultaneously suppressed using engineered radio frequency, microwave, or two-photon transitions that maintain large amplification of CP-violating effects. By performing a clock measurement on these transitions, CP-violating observables including the electron electric dipole moment, nuclear Schiff moment, and magnetic quadrupole moment can be measured with suppression of external field sensitivity of $\gtrsim$100 generically, and even more in many cases. Furthermore, the method is compatible with traditional Ramsey measurements, offers internal co-magnetometry, and is useful for systems with large angular momentum commonly present in molecular searches for nuclear CP-violation. | 翻訳日:2023-04-28 15:12:49 公開日:2023-04-26 |
# 核上に発生したRobust Macroscopic Schr\"odinger's cat Robust Macroscopic Schr\"odinger's Cat on a Nucleus ( http://arxiv.org/abs/2304.13813v1 ) ライセンス: Link先を確認 | Pragati Gupta, Arjen Vaartjes, Xi Yu, Andrea Morello, Barry C. Sanders | (参考訳) 固体系に埋め込まれたドナー原子の高スピン核上に大きなschr\"odinger cat状態を作るための実験的に実現可能なスキームを提案する。
結果として生じる猫の状態はデコヒーレンスに対して頑健であり、その大きさは核スピンと線形にスケールし、フェムトメータスケールでは小さいため、巨視的である。
量子制御方式では、非線形四重極相互作用と位相変調多重音波パルスによる一軸ねじれを利用して高次元回転を実現する。
われわれの手法は、核スピンの脱落時間の一部で、高速な生成と検出を実現し、最先端のハードウェア上で、数ミリ秒の寿命で高一貫性の猫状態が得られる。 We propose an experimentally feasible scheme to create large Schr\"odinger cat states on a high-spin nucleus of a donor atom embedded in a solid-state system. The resulting cat state is robust against decoherence, macroscopic because its size scales linearly with nuclear spin, and tiny -- at the femtometer scale. Our quantum-control scheme utilizes one-axis twisting caused by a non-linear quadrupole interaction and phase-modulated multi-tone radio-frequency pulses for universal high-dimensional rotations. Our scheme achieves fast generation and detection -- within a fraction of the nuclear spin dephasing time -- and can yield highly coherent cat states with a lifetime of tens of milliseconds on state-of-the-art hardware. | 翻訳日:2023-04-28 15:12:29 公開日:2023-04-26 |
# ニューラルネットワークモデル圧縮のための保証量子化誤差計算 Guaranteed Quantization Error Computation for Neural Network Model Compression ( http://arxiv.org/abs/2304.13812v1 ) ライセンス: Link先を確認 | Wesley Cooke, Zihao Mo, Weiming Xiang | (参考訳) ニューラルネットワークモデル圧縮技術は、産業システムの組み込みデバイス上でのディープニューラルネットワークの計算問題に対処することができる。
本稿では,量子化によるニューラルネットワーク圧縮における出力誤差計算の問題に対処する。
融合ニューラルネットワークは、フィードフォワードニューラルネットワークとその量子化バージョンから構築され、2つのニューラルネットワーク間の正確な出力差を生成する。
次に、最適化に基づく手法と到達可能性解析手法を統合ニューラルネットワークに適用し、保証量子化誤差を計算する。
最後に,提案手法の適用可能性と有効性を検証する数値例を提案する。 Neural network model compression techniques can address the computation issue of deep neural networks on embedded devices in industrial systems. The guaranteed output error computation problem for neural network compression with quantization is addressed in this paper. A merged neural network is built from a feedforward neural network and its quantized version to produce the exact output difference between two neural networks. Then, optimization-based methods and reachability analysis methods are applied to the merged neural network to compute the guaranteed quantization error. Finally, a numerical example is proposed to validate the applicability and effectiveness of the proposed approach. | 翻訳日:2023-04-28 15:12:15 公開日:2023-04-26 |
# データ駆動型ハイブリッドオートマトンフレームワークによる複雑な力学系のモデリング A Data-Driven Hybrid Automaton Framework to Modeling Complex Dynamical Systems ( http://arxiv.org/abs/2304.13811v1 ) ライセンス: Link先を確認 | Yejiang Yang, Zihao Mo, Weiming Xiang | (参考訳) 本稿では,複数のニューラルネットワークを用いた未知の複雑な力学系の挙動を捉えるために,計算効率の高いデータ駆動型ハイブリッドオートマトンモデルを提案する。
システムのサンプルデータは、そのトポロジに対応するグループに有効なパーティションで分割され、それに基づいて遷移ガードが定義される。
次に、計算効率のよい小規模ニューラルネットワークの集合を、対応するトポロジの局所的動的記述として訓練する。
ニューラルネットワークベースのハイブリッドオートマトンでシステムをモデル化した後、間隔解析と分割合成プロセスに基づいて、低計算コストのセット値到達可能性解析を提供する。
最後に, 限界サイクルの数値的な例を示し, モデル精度を犠牲にすることなく, 到達可能な集合計算における計算コストを大幅に削減できることを示す。 In this paper, a computationally efficient data-driven hybrid automaton model is proposed to capture unknown complex dynamical system behaviors using multiple neural networks. The sampled data of the system is divided by valid partitions into groups corresponding to their topologies and based on which, transition guards are defined. Then, a collection of small-scale neural networks that are computationally efficient are trained as the local dynamical description for their corresponding topologies. After modeling the system with a neural-network-based hybrid automaton, the set-valued reachability analysis with low computation cost is provided based on interval analysis and a split and combined process. At last, a numerical example of the limit cycle is presented to illustrate that the developed models can significantly reduce the computational cost in reachable set computation without sacrificing any modeling precision. | 翻訳日:2023-04-28 15:12:07 公開日:2023-04-26 |
# ディープニューラルネットワークを用いた微分方程式の解法と解法に関する調査 A Survey on Solving and Discovering Differential Equations Using Deep Neural Networks ( http://arxiv.org/abs/2304.13807v1 ) ライセンス: Link先を確認 | Hyeonjung (Tari) Jung, Jayant Gupta, Bharat Jayaprakash, Matthew Eagon, Harish Panneer Selvam, Carl Molnar, William Northrop, Shashi Shekhar | (参考訳) 常微分方程式と偏微分方程式(de)は、物理系をモデル化するために科学的および数学的領域において広く用いられる。
現在の文献は主に、特定のDreやDesファミリーを解決するディープニューラルネットワーク(DNN)ベースの方法に焦点を当てている。
DEモデルを用いた歴史を持つ研究コミュニティは、DNNベースの微分方程式解法(DNN-DE)を、現在の数値法に代わる高速で転送可能な代替手段とみなすことができる。
しかし、DNN-DEメソッドを物理アプリケーション領域にまたがって使用するための体系的な調査や、将来の研究を導くための一般的な分類法が欠如している。
本稿では,先行研究の調査と分類を行い,上級実践者,専門職,大学院生に対して工学・計算機科学の教育的チュートリアルを提供する。
まず,dnn-de の傘下で研究されている de システムの領域をナビゲートする分類法を提案する。
次に,物理情報ニューラルネットワーク(PINN)の理論と性能について検討し,DNN-DEアーキテクチャが方程式系を数学的に解く方法を示す。
第三に,DNN を用いた DE の解決と発見の鍵となるアイデアを強化するため,我々は PINN を開発するための Python パッケージである DeepXDE を用いて,古典的な DE を解くための DNN-DE を開発した。 Ordinary and partial differential equations (DE) are used extensively in scientific and mathematical domains to model physical systems. Current literature has focused primarily on deep neural network (DNN) based methods for solving a specific DE or a family of DEs. Research communities with a history of using DE models may view DNN-based differential equation solvers (DNN-DEs) as a faster and transferable alternative to current numerical methods. However, there is a lack of systematic surveys detailing the use of DNN-DE methods across physical application domains and a generalized taxonomy to guide future research. This paper surveys and classifies previous works and provides an educational tutorial for senior practitioners, professionals, and graduate students in engineering and computer science. First, we propose a taxonomy to navigate domains of DE systems studied under the umbrella of DNN-DE. Second, we examine the theory and performance of the Physics Informed Neural Network (PINN) to demonstrate how the influential DNN-DE architecture mathematically solves a system of equations. Third, to reinforce the key ideas of solving and discovery of DEs using DNN, we provide a tutorial using DeepXDE, a Python package for developing PINNs, to develop DNN-DEs for solving and discovering a classic DE, the linear transport equation. | 翻訳日:2023-04-28 15:11:53 公開日:2023-04-26 |
# 曖昧化への翻訳:事前学習言語モデルを用いたゼロショット多言語単語センス曖昧化 Translate to Disambiguate: Zero-shot Multilingual Word Sense Disambiguation with Pretrained Language Models ( http://arxiv.org/abs/2304.13803v1 ) ライセンス: Link先を確認 | Haoqiang Kang and Terra Blevins and Luke Zettlemoyer | (参考訳) 事前訓練された言語モデル(PLM)は、豊富な言語間知識を学習し、翻訳や多言語単語感覚曖昧化(WSD)といった様々なタスクでうまく機能するように微調整することができる。
しかし、しばしばゼロショット設定で単語センスの曖昧さを損なうのに苦労する。
この対比をよりよく理解するために, 単語レベルの拡張である文脈語翻訳(Contextual Word-Level Translation, C-WLT)を用いて, PLMが言語間単語感覚をいかに捉えるかを検討する。
モデルのサイズが大きくなるにつれて、PLMはより言語間単語認識の知識をエンコードし、WLT性能を改善するためのコンテキストを良くする。
C-WLTをベースとして,XL-WSDデータセットから18言語でテストされたWSDのゼロショットアプローチを導入する。
本手法は,多くの評価言語に対して,追加のトレーニングや微調整を行わずに,完全に教師付きベースラインを再現する。
本研究は, PLMの内部の言語間知識を, 任意の言語における頑健なゼロショット推論に活用する方法を理解するための第一歩を示す。 Pretrained Language Models (PLMs) learn rich cross-lingual knowledge and can be finetuned to perform well on diverse tasks such as translation and multilingual word sense disambiguation (WSD). However, they often struggle at disambiguating word sense in a zero-shot setting. To better understand this contrast, we present a new study investigating how well PLMs capture cross-lingual word sense with Contextual Word-Level Translation (C-WLT), an extension of word-level translation that prompts the model to translate a given word in context. We find that as the model size increases, PLMs encode more cross-lingual word sense knowledge and better use context to improve WLT performance. Building on C-WLT, we introduce a zero-shot approach for WSD, tested on 18 languages from the XL-WSD dataset. Our method outperforms fully supervised baselines on recall for many evaluation languages without additional training or finetuning. This study presents a first step towards understanding how to best leverage the cross-lingual knowledge inside PLMs for robust zero-shot reasoning in any language. | 翻訳日:2023-04-28 15:11:22 公開日:2023-04-26 |
# 異種性を考慮した非パラメトリック2サンプル推論のためのブートストラップエッジカウントテスト Bootstrapped Edge Count Tests for Nonparametric Two-Sample Inference Under Heterogeneity ( http://arxiv.org/abs/2304.13848v1 ) ライセンス: Link先を確認 | Trambak Banerjee, Bhaswar B. Bhattacharya, Gourab Mukherjee | (参考訳) 非パラメトリック2サンプルテストは推論統計学における古典的な問題である。
エッジカウントテストやその変種のような現代の2サンプルテストは多変量および非ユークリッドデータを扱うことができるが、現代のガルガントゥアンデータセットは潜伏する亜集団の存在により不均一性を示すことが多い。
これらのテストの直接適用は、そのような不均一性を規制することなく、誤った統計的決定につながる可能性がある。
我々は,データ生成プロセスにおける未知の不均一性の存在下で,2つのサンプル間の差異を正確に検出する新しい非パラメトリック試験法を開発した。
筆者らのフレームワークは, この潜伏不均一性を扱う複合ヌルを用いて, 同一成分分布の混合分布から, 混合重みの異なる2つの試料が生じる可能性を楽しませる。
本研究では,重み付きエッジカウントテストの統計的漸近的挙動について検討し,複合ヌルから任意の偏差を検出するために効果的に再調整できることを示す。
そこで本研究では,多種多様なシステムで容易に実装可能なブートストラップに基づく校正手順を含むブートストラップ重み付きエッジカウントテストを提案する。
オンラインゲームにおける異常ユーザ行動検出のための総合的なシミュレーション研究と応用により,提案するテストの非漸近的性能が向上した。 Nonparametric two-sample testing is a classical problem in inferential statistics. While modern two-sample tests, such as the edge count test and its variants, can handle multivariate and non-Euclidean data, contemporary gargantuan datasets often exhibit heterogeneity due to the presence of latent subpopulations. Direct application of these tests, without regulating for such heterogeneity, may lead to incorrect statistical decisions. We develop a new nonparametric testing procedure that accurately detects differences between the two samples in the presence of unknown heterogeneity in the data generation process. Our framework handles this latent heterogeneity through a composite null that entertains the possibility that the two samples arise from a mixture distribution with identical component distributions but with possibly different mixing weights. In this regime, we study the asymptotic behavior of weighted edge count test statistic and show that it can be effectively re-calibrated to detect arbitrary deviations from the composite null. For practical implementation we propose a Bootstrapped Weighted Edge Count test which involves a bootstrap-based calibration procedure that can be easily implemented across a wide range of heterogeneous regimes. A comprehensive simulation study and an application to detecting aberrant user behaviors in online games demonstrates the excellent non-asymptotic performance of the proposed test. | 翻訳日:2023-04-28 15:03:33 公開日:2023-04-26 |
# GPT-3による構造化金ナノロッド成長プロセスの抽出 Extracting Structured Seed-Mediated Gold Nanorod Growth Procedures from Literature with GPT-3 ( http://arxiv.org/abs/2304.13846v1 ) ライセンス: Link先を確認 | Nicholas Walker, John Dagdelen, Kevin Cruse, Sanghoon Lee, Samuel Gleason, Alexander Dunn, Gerbrand Ceder, A. Paul Alivisatos, Kristin A. Persson, Anubhav Jain | (参考訳) 金ナノロッドは多くの研究の対象となっているが、その形状と光学的性質を制御するための経路はほとんどヒューリスティックに理解されている。
合成中の様々な試薬の同時存在と相互作用がこれらの特性を制御することは明らかであるが、合成空間を探索するための計算的および実験的アプローチは、実際は難易度または時間がかかりすぎる。
これは、科学文献に埋め込まれた豊富な合成情報を活用し、関連する構造化データを自動的かつ高スループットで抽出するツールを開発する別のアプローチを動機付ける。
そこで本研究では,強力なgpt-3言語モデルを用いて,非構造化科学文献から金ナノロッドの成長過程と結果を抽出する手法を提案する。
GPT-3のプロンプト補完は、JSONドキュメントの形式で、構造化されていないテキスト入力から合成テンプレートを予測するように微調整される。
モデルがエンティティ認識と関係抽出を同時に行うことを考えると、パフォーマンスは注目に値する。
1,137の論文から抽出された11,644の実体のデータセットを提示する。その結果、少なくとも1つの完全な種媒介金ナノロッド成長手順を含む268の論文と、合計332の完全な手順の結果が得られた。 Although gold nanorods have been the subject of much research, the pathways for controlling their shape and thereby their optical properties remain largely heuristically understood. Although it is apparent that the simultaneous presence of and interaction between various reagents during synthesis control these properties, computational and experimental approaches for exploring the synthesis space can be either intractable or too time-consuming in practice. This motivates an alternative approach leveraging the wealth of synthesis information already embedded in the body of scientific literature by developing tools to extract relevant structured data in an automated, high-throughput manner. To that end, we present an approach using the powerful GPT-3 language model to extract structured multi-step seed-mediated growth procedures and outcomes for gold nanorods from unstructured scientific text. GPT-3 prompt completions are fine-tuned to predict synthesis templates in the form of JSON documents from unstructured text input with an overall accuracy of $86\%$. The performance is notable, considering the model is performing simultaneous entity recognition and relation extraction. We present a dataset of 11,644 entities extracted from 1,137 papers, resulting in 268 papers with at least one complete seed-mediated gold nanorod growth procedure and outcome for a total of 332 complete procedures. | 翻訳日:2023-04-28 15:03:09 公開日:2023-04-26 |
# GazeSAM:目にするものはセグメンテーション GazeSAM: What You See is What You Segment ( http://arxiv.org/abs/2304.13844v1 ) ライセンス: Link先を確認 | Bin Wang, Armstrong Aboah, Zheyuan Zhang, Ulas Bagci | (参考訳) 本研究では,眼球追跡技術とSAM(Segment Anything Model)の可能性について検討し,医用画像のセグメンテーションを自動化する協調的な人間とコンピュータのインタラクションシステムを設計する。
画像診断における関心領域を単純に見ることで,放射線科医がセグメンテーションマスクを収集できるようにする。
提案システムは,放射線科医の眼球運動を追跡し,眼球運動データをSAMの入力プロンプトとして利用し,リアルタイムでセグメンテーションマスクを自動生成する。
本研究は,眼球追跡技術とSAMのパワーを活用し,日常臨床の効率を高めるための最初の研究である。
さらに、画像と対応するセグメンテーションラベルとを組み合わせた視線データを容易に記録し、さらなる高度な視線追跡研究を行うことができる。
コードは \url{https://github.com/ukaukaaaa/GazeSAM} で公開されている。 This study investigates the potential of eye-tracking technology and the Segment Anything Model (SAM) to design a collaborative human-computer interaction system that automates medical image segmentation. We present the \textbf{GazeSAM} system to enable radiologists to collect segmentation masks by simply looking at the region of interest during image diagnosis. The proposed system tracks radiologists' eye movement and utilizes the eye-gaze data as the input prompt for SAM, which automatically generates the segmentation mask in real time. This study is the first work to leverage the power of eye-tracking technology and SAM to enhance the efficiency of daily clinical practice. Moreover, eye-gaze data coupled with image and corresponding segmentation labels can be easily recorded for further advanced eye-tracking research. The code is available in \url{https://github.com/ukaukaaaa/GazeSAM}. | 翻訳日:2023-04-28 15:02:48 公開日:2023-04-26 |
# 電気自動車の未来を守るAIによる予測分析手法 AI-based Predictive Analytic Approaches for safeguarding the Future of Electric/Hybrid Vehicles ( http://arxiv.org/abs/2304.13841v1 ) ライセンス: Link先を確認 | Ishan Shivansh Bangroo | (参考訳) 持続可能なエネルギーの需要に応えて、グリーンテクノロジーは気候変動と戦うのに役立つかもしれない。
グリーンインフラストラクチャが世界のエネルギーシステムに容易に統合される前には、アップグレードが必要です。
エネルギーインフラと意思決定を改善することで、人工知能(AI)はこの課題を解決するのに役立つかもしれない。
ehvの人気は地球温暖化とより環境に優しい輸送の必要性の懸念から高まっている。
EHVはAIのような最先端技術でうまく機能する。
電気自動車(ev)は温室効果ガス排出量を減らし、持続可能な移動を促進する。
電気自動車(EV)は気候変動の緩和と持続可能な移動性のために人気が高まっている。
残念なことに、EVの生産は大量のエネルギーと材料を消費し、自然に害を与える可能性がある。
EVの生産は、人工知能や予測分析といったグリーン技術を使って改善されている。
電気とハイブリッド車(EHV)は、環境に優しい輸送の必要性を満たすのに役立つかもしれない。
しかし、バッテリ管理システム(BMS)はEHVの性能と寿命を制御する。
AIは、EHVエネルギー効率、排出削減、持続可能性を改善することができる。
リモートハイジャック、セキュリティ侵害、不正アクセスは、記事で対処されたehvサイバーセキュリティの脆弱性である。
AIの研究と開発は、輸送をより持続可能なものにし、EHVや充電インフラを最適化するのに役立つかもしれない。 In response to the global need for sustainable energy, green technology may help fight climate change. Before green infrastructure to be easily integrated into the world's energy system, it needs upgrading. By improving energy infrastructure and decision-making, artificial intelligence (AI) may help solve this challenge. EHVs have grown in popularity because to concerns about global warming and the need for more ecologically friendly transportation. EHVs may work better with cutting-edge technologies like AI. Electric vehicles (EVs) reduce greenhouse gas emissions and promote sustainable mobility. Electric automobiles (EVs) are growing in popularity due to their benefits for climate change mitigation and sustainable mobility. Unfortunately, EV production consumes a lot of energy and materials, which may harm nature. EV production is being improved using green technologies like artificial intelligence and predictive analysis. Electric and hybrid vehicles (EHVs) may help meet the need for ecologically friendly transportation. However, the Battery Management System (BMS) controls EHV performance and longevity. AI may improve EHV energy efficiency, emissions reduction, and sustainability. Remote hijacking, security breaches, and unauthorized access are EHV cybersecurity vulnerabilities addressed in the article. AI research and development may help make transportation more sustainable, as may optimizing EHVs and charging infrastructure. | 翻訳日:2023-04-28 15:02:33 公開日:2023-04-26 |
# Verilogオートコンプリートのための深層学習フレームワーク : 設計と検証自動化に向けて A Deep Learning Framework for Verilog Autocompletion Towards Design and Verification Automation ( http://arxiv.org/abs/2304.13840v1 ) ライセンス: Link先を確認 | Enrique Dehaerne and Bappaditya Dey and Sandip Halder and Stefan De Gendt | (参考訳) 革新的電子設計自動化(EDA)ソリューションは、ますます複雑な電子機器の設計要件を満たすために重要である。
ハードウェア記述言語であるVerilogは、デジタル回路の設計と検証に広く使われ、特定のEDAツールを使用して合成される。
しかし、コードを書くことは反復的で時間を要する作業です。
本稿では,verilogの自動補完モデルをトレーニングするための新しいディープラーニングフレームワークと,オープンソースリポジトリから取得したファイルとスニペットのverilogデータセットを提案する。
このフレームワークは、一般的なプログラミング言語のデータに基づいて事前訓練されたモデルを統合し、ターゲットの下流タスクに似たようにキュレートされたデータセットに微調整する。
これは、複数の評価指標を用いて提案したVerilogデータセットの異なるサブセットでトレーニングされた異なる事前学習モデルを比較することで検証される。
これらの実験により、提案フレームワークは、スクラッチからトレーニングしたモデルと比較して、bleu、rouge-l、chrfスコアが9.5%、6.7%、6.9%向上することを実証した。 Innovative Electronic Design Automation (EDA) solutions are important to meet the design requirements for increasingly complex electronic devices. Verilog, a hardware description language, is widely used for the design and verification of digital circuits and is synthesized using specific EDA tools. However, writing code is a repetitive and time-intensive task. This paper proposes, primarily, a novel deep learning framework for training a Verilog autocompletion model and, secondarily, a Verilog dataset of files and snippets obtained from open-source repositories. The framework involves integrating models pretrained on general programming language data and finetuning them on a dataset curated to be similar to a target downstream task. This is validated by comparing different pretrained models trained on different subsets of the proposed Verilog dataset using multiple evaluation metrics. These experiments demonstrate that the proposed framework achieves better BLEU, ROUGE-L, and chrF scores by 9.5%, 6.7%, and 6.9%, respectively, compared to a model trained from scratch. | 翻訳日:2023-04-28 15:02:20 公開日:2023-04-26 |
# $\textit{RemOve-And-Retrain}$:データ処理の不平等の観点から On Pitfalls of $\textit{RemOve-And-Retrain}$: Data Processing Inequality Perspective ( http://arxiv.org/abs/2304.13836v1 ) ライセンス: Link先を確認 | Junhwa Song, Keumgang Cha, Junghoon Seo | (参考訳) 本稿では,特徴量推定の性能を測定するために使用されるroarプロトコルの信頼性を評価する。
理論的背景および実証実験から得られた知見は,ROAR の本来の目的と矛盾して,ROAR ベンチマークにおいて,決定関数に関する情報の少ない属性がより優れていることを示す。
この現象は,最近提案されている異種除去デビアス (road) でも観測され,roar attribution metrics におけるぼやけバイアスの一貫した傾向が示唆された。
ROAR測定値への非クリティカルな依存に注意する。 This paper assesses the reliability of the RemOve-And-Retrain (ROAR) protocol, which is used to measure the performance of feature importance estimates. Our findings from the theoretical background and empirical experiments indicate that attributions that possess less information about the decision function can perform better in ROAR benchmarks, conflicting with the original purpose of ROAR. This phenomenon is also observed in the recently proposed variant RemOve-And-Debias (ROAD), and we propose a consistent trend of blurriness bias in ROAR attribution metrics. Our results caution against uncritical reliance on ROAR metrics. | 翻訳日:2023-04-28 15:02:00 公開日:2023-04-26 |
# マルチパーティチャット:人間とモデルによるグループ設定における会話エージェント Multi-Party Chat: Conversational Agents in Group Settings with Humans and Models ( http://arxiv.org/abs/2304.13835v1 ) ライセンス: Link先を確認 | Jimmy Wei, Kurt Shuster, Arthur Szlam, Jason Weston, Jack Urbanek, Mojtaba Komeili | (参考訳) 現在の対話研究は、主にペア(双方向)の会話を研究しており、2人以上の話者が会話する日常的な状況に対処していない。
本研究では,マルチパーティ会話の収集と評価を行い,より一般的な事例について検討する。
我々はLIGHT環境を利用して、各参加者がロールプレイに割り当てられたキャラクタを持つ接地会話を構築する。
そこで我々は,このような会話において,言語モデルが1つ以上の文字として振る舞う能力を評価する。
モデルは、(1)いつ話すかを決定することができること、(2)複数の文字に基づいてコヒーレントな発話を生成すること、の2つのスキルを必要とする。
我々は、新しいデータセットでトレーニングされたモデルと既存のペアワイズ学習された対話モデルを比較し、ほとんどショットプロンプトのない大きな言語モデルと比較する。
新しいデータセットであるmultilightは、公開する予定ですが、グループ設定に大幅な改善をもたらすことができます。 Current dialogue research primarily studies pairwise (two-party) conversations, and does not address the everyday setting where more than two speakers converse together. In this work, we both collect and evaluate multi-party conversations to study this more general case. We use the LIGHT environment to construct grounded conversations, where each participant has an assigned character to role-play. We thus evaluate the ability of language models to act as one or more characters in such conversations. Models require two skills that pairwise-trained models appear to lack: (1) being able to decide when to talk; (2) producing coherent utterances grounded on multiple characters. We compare models trained on our new dataset to existing pairwise-trained dialogue models, as well as large language models with few-shot prompting. We find that our new dataset, MultiLIGHT, which we will publicly release, can help bring significant improvements in the group setting. | 翻訳日:2023-04-28 15:01:47 公開日:2023-04-26 |
# ダイヤモンド表面における原子層堆積核生成 Atomic Layer Deposition Nucleation Dependence on Diamond Surface Termination ( http://arxiv.org/abs/2304.13834v1 ) ライセンス: Link先を確認 | Jessica C. Jones, Nazar Delegan, F. Joseph Heremans, Alex B. F. Martinson | (参考訳) 表面終端と界面相互作用は、高度な固体量子応用に不可欠である。
本稿では,原子層堆積(ALD)が表面の化学的環境に関する貴重な洞察を与え,一般的なダイヤモンド (001) 表面の終端型を識別し,これらの界面を所望として通過させるのに十分な感度を持つことを示す。
ALD核形成に及ぼす形態の影響を解明するため, 平滑表面および不均一表面のダイヤモンド基板を選択した。
我々は高分解能In situ分光エリプソメトリーを用いて準アングロスト分解能による表面反応を監視し,ALD Al2O3プロセスの核生成をダイヤモンド表面への異なるexおよびin situ処理の関数として評価した。
ジメチルアルミニウムイソプロポキシドおよび水アルドの核生成には, その場での水和および高真空焼鈍が好適な環境であった。
水素終端は滑らかな表面と粗い表面の両方を受動させ、三酸洗浄は滑らかな表面のみを受動させた。 Surface termination and interfacial interactions are critical for advanced solid-state quantum applications. In this paper, we demonstrate that atomic layer deposition (ALD) can both provide valuable insight on the chemical environment of the surface, having sufficient sensitivity to distinguish between the common diamond (001) surface termination types and passivate these interfaces as desired. We selected diamond substrates exhibiting both smooth and anomalously rough surfaces to probe the effect of morphology on ALD nucleation. We use high resolution in situ spectroscopic ellipsometry to monitor the surface reaction with sub-angstrom resolution, to evaluate the nucleation of an ALD Al2O3 process as a function of different ex and in situ treatments to the diamond surface. In situ water dosing and high vacuum annealing provided the most favorable environment for nucleation of dimethylaluminum isopropoxide and water ALD. Hydrogen termination passivated both smooth and rough surfaces while triacid cleaning passivated the smooth surface only, with striking effectiveness. | 翻訳日:2023-04-28 15:01:31 公開日:2023-04-26 |
# 核スティック破砕過程に基づくガウス過程専門家の混合物 Mixtures of Gaussian process experts based on kernel stick-breaking processes ( http://arxiv.org/abs/2304.13833v1 ) ライセンス: Link先を確認 | Yuji Saikai and Khue-Dung Dang | (参考訳) gaussian process expertsの混合は、標準gaussianプロセスに固有の2つの重要な制限、スケーラビリティと予測性能を同時に扱うことができるモデルのクラスである。
特に、ゲーティング関数としてディリクレプロセスを使用するモデルでは、混合した専門家の数の簡単な解釈と自動選択が可能である。
既存のモデルは直感的であり、非定常性、多モード性、ヘテロスケダスティック性を捉えることができるが、ゲーティング関数の単純さは複雑なデータ生成プロセスに適用した場合の予測性能を制限する可能性がある。
依存型ディリクレプロセスの文献化の最近の進展を踏まえ,カーネルスティックブレーキングプロセスに基づくガウスプロセスエキスパートの混合モデルを提案する。
我々のモデルは直感的な魅力を維持しつつ、既存のモデルの性能を改善している。
そこで本研究では,スライスサンプリングに基づく後続計算のためのサンプリング器を設計する。
モデル挙動と予測性能の改善は、6つのデータセットを用いた実験で実証された。 Mixtures of Gaussian process experts is a class of models that can simultaneously address two of the key limitations inherent in standard Gaussian processes: scalability and predictive performance. In particular, models that use Dirichlet processes as gating functions permit straightforward interpretation and automatic selection of the number of experts in a mixture. While the existing models are intuitive and capable of capturing non-stationarity, multi-modality and heteroskedasticity, the simplicity of their gating functions may limit the predictive performance when applied to complex data-generating processes. Capitalising on the recent advancement in the dependent Dirichlet processes literature, we propose a new mixture model of Gaussian process experts based on kernel stick-breaking processes. Our model maintains the intuitive appeal yet improve the performance of the existing models. To make it practical, we design a sampler for posterior computation based on the slice sampling. The model behaviour and improved predictive performance are demonstrated in experiments using six datasets. | 翻訳日:2023-04-28 15:01:11 公開日:2023-04-26 |
# フライングサイドキックTSPのためのハイブリッド遺伝的アルゴリズムと混合整数線形計画法 Hybrid Genetic Algorithm and Mixed Integer Linear Programming for Flying Sidekick TSP ( http://arxiv.org/abs/2304.13832v1 ) ライセンス: Link先を確認 | Andr\'e Rossi Kuroswiski and Humberto Baldessarini Pires and Angelo Passaro and Lamartine Nogueira Frutuoso and Edson Luiz Fran\c{c}a Senne | (参考訳) ドローンの様々なタスクへの利用の増加は、これらの手段の使用を最適化することを目的とした研究の指数関数的な成長を動機付け、ロジスティクスの配送を含む軍用および民間用アプリケーションの両方に恩恵を与えた。
この意味では、トラックとドローンの併用はOperations Researchによって大きな関心を集めている。
この研究は混合整数線形計画法における数学的定式化を提案し、トラックとドローンが協調するFlying Sidekick TSP (FSTSP)と呼ばれる旅行セールスマン問題(TSP)の変動を最適化するためのハイブリッド遺伝的アルゴリズム(HGenFS)を提案する。
その結果, 厳密な解の定式化は最大10顧客までの問題解決に適しており, HGenFSは特定のヒューリスティックと局所探索フェーズを組み込んで, 数秒でFSTSPの最適解を見つけることができることがわかった。 The increasing use of drones to perform various tasks has motivated an exponential growth of research aimed at optimizing the use of these means, benefiting both military and civilian applications, including logistics delivery. In this sense, the combined use of trucks and drones has been explored with great interest by Operations Research. This work presents mathematical formulations in Mixed Integer Linear Programming and proposes a hybrid Genetic Algorithm (HGenFS) for optimizing a variation of the Traveling Salesman Problem (TSP) called Flying Sidekick TSP (FSTSP), in which truck and drone cooperate. The results obtained confirmed that the adopted formulation for the exact solution is suitable for solving problems up to ten customers, and the HGenFS proved to be capable of finding optimal solutions for the FSTSP in a few seconds by incorporating specific heuristics and a local search phase. | 翻訳日:2023-04-28 15:00:56 公開日:2023-04-26 |
# 離散および連続重みをもつ非凸ニューラルネットワークにおける典型的および非典型的解 Typical and atypical solutions in non-convex neural networks with discrete and continuous weights ( http://arxiv.org/abs/2304.13871v1 ) ライセンス: Link先を確認 | Carlo Baldassi, Enrico M. Malatesta, Gabriele Perugini, Riccardo Zecchina | (参考訳) ランダムなルールや関連を学習する単純な非凸ニューラルネットワークモデルとして,二進および連続負マージンパーセプトロンの研究を行った。
両モデルにおける解の風景形状を解析し、重要な類似点と相違点を求める。
どちらのモデルも非常に平坦で幅の広い準支配的な最小値を示す。
これらの最小化は、二項の場合(凍った1-rsb相)のアルゴリズムで到達不能な小さなクラスターの指数数と、球面の場合(全rsb相)の異なる大きさのクラスターの階層構造からなる支配的解の背景と共存する。
どちらの場合も、制約密度の一定のしきい値が交差すると、広い平坦なミニマの局所エントロピーは非単調となり、ロバスト解の空間を非連結成分に分解することを示す。
これはバイナリモデルにおけるアルゴリズムの振る舞いに大きな影響を与え、残りの孤立したクラスタにアクセスできない。
球面の場合の挙動は異なり、広い平らなミニマの消失を超えても、残りの解は常に任意の距離の他の多くの解によって取り囲まれていることが示される。
実際、1RSB近似を用いて計算したSAT/UNSAT遷移の解をアルゴリズムが見つけ出すという数値的な証拠を示す。
いずれのモデルにおいても, 学習装置としての一般化性能は, 極端に負のマージンを持つ高度に訓練された場合においても, 広い平坦な最小値の存在により著しく向上することが示されている。 We study the binary and continuous negative-margin perceptrons as simple non-convex neural network models learning random rules and associations. We analyze the geometry of the landscape of solutions in both models and find important similarities and differences. Both models exhibit subdominant minimizers which are extremely flat and wide. These minimizers coexist with a background of dominant solutions which are composed by an exponential number of algorithmically inaccessible small clusters for the binary case (the frozen 1-RSB phase) or a hierarchical structure of clusters of different sizes for the spherical case (the full RSB phase). In both cases, when a certain threshold in constraint density is crossed, the local entropy of the wide flat minima becomes non-monotonic, indicating a break-up of the space of robust solutions into disconnected components. This has a strong impact on the behavior of algorithms in binary models, which cannot access the remaining isolated clusters. For the spherical case the behaviour is different, since even beyond the disappearance of the wide flat minima the remaining solutions are shown to always be surrounded by a large number of other solutions at any distance, up to capacity. Indeed, we exhibit numerical evidence that algorithms seem to find solutions up to the SAT/UNSAT transition, that we compute here using an 1RSB approximation. For both models, the generalization performance as a learning device is shown to be greatly improved by the existence of wide flat minimizers even when trained in the highly underconstrained regime of very negative margins. | 翻訳日:2023-04-28 14:55:08 公開日:2023-04-26 |
# コモンセンスのタスクにまたがる手続き的知識の伝達 Transferring Procedural Knowledge across Commonsense Tasks ( http://arxiv.org/abs/2304.13867v1 ) ライセンス: Link先を確認 | Yifan Jiang, Filip Ilievski, Kaixin Ma | (参考訳) 日常的な状況に関するストーリーは人間のコミュニケーションの重要な部分であり、これらのストーリーを確実に理解できるAIエージェントを開発する必要性を動機付けている。
ストーリー補完と手続き的理解のための教師付きメソッドの長いリストにもかかわらず、現在のAIには、目に見えないストーリーの手順を自動的に追跡し説明するメカニズムがない。
このギャップを埋めるために、我々は、AIモデルが手続き的知識を透明な方法で新しい物語課題に伝達する能力について研究する。
LEAP: 最先端のモデリングアーキテクチャ、トレーニング体制、自然なストーリーと合成ストーリーの両方に基づいた拡張戦略を統合する包括的なフレームワークを設計します。
高度に注釈付けされたトレーニングデータの欠如に対処するため,数発のプロンプトに基づく堅牢な自動ラベルラを考案し,拡張データを強化する。
ドメイン内および外部タスクによる我々の実験は、異なるアーキテクチャの相互作用、トレーニング体制、拡張戦略に関する洞察を明らかにします。
LEAPのラベルには、ドメイン外のデータセットに明確なポジティブな影響がある。 Stories about everyday situations are an essential part of human communication, motivating the need to develop AI agents that can reliably understand these stories. Despite the long list of supervised methods for story completion and procedural understanding, current AI has no mechanisms to automatically track and explain procedures in unseen stories. To bridge this gap, we study the ability of AI models to transfer procedural knowledge to novel narrative tasks in a transparent manner. We design LEAP: a comprehensive framework that integrates state-of-the-art modeling architectures, training regimes, and augmentation strategies based on both natural and synthetic stories. To address the lack of densely annotated training data, we devise a robust automatic labeler based on few-shot prompting to enhance the augmented data. Our experiments with in- and out-of-domain tasks reveal insights into the interplay of different architectures, training regimes, and augmentation strategies. LEAP's labeler has a clear positive impact on out-of-domain datasets, while the resulting dense annotation provides native explainability. | 翻訳日:2023-04-28 14:54:39 公開日:2023-04-26 |
# highway2vec -- 道路ネットワーク特性に関するOpenStreetMapマイクロリージョンを表す highway2vec -- representing OpenStreetMap microregions with respect to their road network characteristics ( http://arxiv.org/abs/2304.13865v1 ) ライセンス: Link先を確認 | Kacper Le\'sniara, Piotr Szyma\'nski | (参考訳) 近年、様々な言語や視覚現象の表現学習にニューラルネットワークを使うことが進歩している。
新しい手法により、データサイエンティストは共通タスクのための手作り機能から解放された。
同様に、空間変数を考える必要のある問題は、タスクの解決に必要な機能テーブルを手動で作成する代わりに、事前訓練されたマップ領域表現の恩恵を受けることができる。
しかし、特に道路網の特性に関して、地図領域表現の手法はごくわずかである。
本稿では,道路のインフラ特性に関して,マイクロリージョンの埋め込みを生成する手法を提案する。
都市選択におけるOpenStreetMapロードネットワークをベースとし,H3空間指標を用いて再現性とスケーラブルな表現学習を実現する。
地図六角形が道路網にどの程度近いかを検出するベクトル表現を得た。
さらに、埋め込みは有意義な算術演算を持つ潜在空間をもたらすことを観測する。
最後に、クラスタリングにより、得られた表現の高レベルな型を作成できる。
この貢献が、インフラストラクチャ関連の予測タスクと空間変数に取り組むデータサイエンティストに役立つと確信しています。 Recent years brought advancements in using neural networks for representation learning of various language or visual phenomena. New methods freed data scientists from hand-crafting features for common tasks. Similarly, problems that require considering the spatial variable can benefit from pretrained map region representations instead of manually creating feature tables that one needs to prepare to solve a task. However, very few methods for map area representation exist, especially with respect to road network characteristics. In this paper, we propose a method for generating microregions' embeddings with respect to their road infrastructure characteristics. We base our representations on OpenStreetMap road networks in a selection of cities and use the H3 spatial index to allow reproducible and scalable representation learning. We obtained vector representations that detect how similar map hexagons are in the road networks they contain. Additionally, we observe that embeddings yield a latent space with meaningful arithmetic operations. Finally, clustering methods allowed us to draft a high-level typology of obtained representations. We are confident that this contribution will aid data scientists working on infrastructure-related prediction tasks with spatial variables. | 翻訳日:2023-04-28 14:54:20 公開日:2023-04-26 |
# Ensoul:進化的静電ネットワークによる自律的インテリジェント超低電力システム(SOULS)構築のためのフレームワーク Ensoul: A framework for the creation of self organizing intelligent ultra low power systems (SOULS) through evolutionary enerstatic networks ( http://arxiv.org/abs/2304.13863v1 ) ライセンス: Link先を確認 | Ty Roachford | (参考訳) ensoulは、ネットワークとネスト、エネルギーホメオスタティック(エネルギー)ループとオープンエンド進化技術を組み合わせて、より多くの技術を生み出す技術を開発するために提案されたフレームワークである。
このようなアプローチによって開発された生成技術は、熱力学的に駆動される複雑なシステムの単純かつ洞察に富んだモデルと、新しい技術の強力な源として機能する。
自己組織型知的超低消費電力システム(souls)とは、そのような生成技術や生成技術自体が生み出す技術をよく表現した用語である。
この用語は、そのような技術の抽象的な性質を、それらが埋め込まれた基板から独立して捉えることを目的としている。
言い換えれば、SOULSは生物学的、人工的、あるいはハイブリッドな形でもよい。 Ensoul is a framework proposed for the purpose of creating technologies that create more technologies through the combined use of networks, and nests, of energy homeostatic (enerstatic) loops and open-ended evolutionary techniques. Generative technologies developed by such an approach serve as both simple, yet insightful models of thermodynamically driven complex systems and as powerful sources of novel technologies. "Self Organizing intelligent Ultra Low power Systems" (SOULS) is a term that well describes the technologies produced by such a generative technology, as well as the generative technology itself. The term is meant to capture the abstract nature of such technologies as being independent of the substrate in which they are embedded. In other words, SOULS can be biological, artificial or hybrid in form. | 翻訳日:2023-04-28 14:54:05 公開日:2023-04-26 |
# プロンプトと必要なサンプルはいくつかありますか?
低リソース分類タスクにおけるデータ拡張のためのGPT-4の利用 Is a prompt and a few samples all you need? Using GPT-4 for data augmentation in low-resource classification tasks ( http://arxiv.org/abs/2304.13861v1 ) ライセンス: Link先を確認 | Anders Giovanni M{\o}ller, Jacob Aarup Dalsgaard, Arianna Pera, Luca Maria Aiello | (参考訳) データの保持と注釈付けは費用がかかり、特に複雑な低リソースのドメインでは時間がかかる。
我々はGPT-4とChatGPTを使用して、複雑な3つの異なる分類タスクにおいて、単純なプロンプトを介して、小さなラベル付きデータセットを合成データで拡張する。
各タスクに対して,500テキストのベースサンプルをランダムに選択し,5,000の新しい合成サンプルを生成する。
我々は2つの拡張戦略について検討する。1つはオリジナルのラベル分布を保ち、もう1つは分布のバランスをとる。
学習サンプルサイズを段階的に拡大することで,実データと合成データから110mパラメータの多言語モデルを分離して学習し,評価する。
また,テストセット上のゼロショット設定でGPT-4とChatGPTをテストした。
gpt-4 と chatgpt はすべてのタスクにおいて強いゼロショット性能を持つ。
合成サンプルを付加したデータにより、下流のパフォーマンスが向上し、特に希少なクラスを識別するなどの低リソース設定に寄与することが判明した。
人間の注釈付きデータは強力な予測力を示し、3つのタスクのうち2つで合成データを上回ります。
この発見は、人工データセットが人間生成のデータセットを一貫して上回る、より複雑なプロンプトの必要性を強調している。 Obtaining and annotating data can be expensive and time-consuming, especially in complex, low-resource domains. We use GPT-4 and ChatGPT to augment small labeled datasets with synthetic data via simple prompts, in three different classification tasks with varying complexity. For each task, we randomly select a base sample of 500 texts to generate 5,000 new synthetic samples. We explore two augmentation strategies: one that preserves original label distribution and another that balances the distribution. Using a progressively larger training sample size, we train and evaluate a 110M parameter multilingual language model on the real and synthetic data separately. We also test GPT-4 and ChatGPT in a zero-shot setting on the test sets. We observe that GPT-4 and ChatGPT have strong zero-shot performance across all tasks. We find that data augmented with synthetic samples yields a good downstream performance, and particularly aids in low-resource settings, such as in identifying rare classes. Human-annotated data exhibits a strong predictive power, overtaking synthetic data in two out of the three tasks. This finding highlights the need for more complex prompts for synthetic datasets to consistently surpass human-generated ones. | 翻訳日:2023-04-28 14:53:50 公開日:2023-04-26 |
# 高精度サロゲートシミュレータと有望候補を用いた逆問題解の拡張 Enhancing Inverse Problem Solutions with Accurate Surrogate Simulators and Promising Candidates ( http://arxiv.org/abs/2304.13860v1 ) ライセンス: Link先を確認 | Akihiro Fujii, Hideki Tsunashima, Yoshihiro Fukuhara, Koji Shimizu, Satoshi Watanabe | (参考訳) 近年,ディープラーニングの逆テクニックが注目されている。
その中でも,ニューラルネットワークサロゲートシミュレータを用いたニューラルアジョイント(na)法は,人工電磁材料(aem)の設計タスクにおいて印象的な性能を示している。
しかし,サロゲートシミュレータの精度がNA法における解に与える影響は未だ不明である。
さらに,サロゲートシミュレータが大きく,計算資源が限られている場合には,十分な最適化を実現することが困難になる。
さらに、工学的観点からの重要性にもかかわらず、制約の下での行動は研究されていない。
本研究では,サロゲートシミュレータの精度が解に与える影響について検討し,サロゲートシミュレータがより正確になればなるほど,解がより良くなることを示した。
そこで我々は,十分な数の解候補を効率的に最適化できるニューラルラグランジアン法(NeuLag)というNA法の拡張法を開発した。
そこで我々はNeuLag法が,大規模かつ高精度なサロゲートシミュレータを用いることで,十分な候補の処理が難しい場合でも最適解を見つけることができることを示した。
NeuLag法のシミュレーション誤差は約1/50であった。
最後に,NAとNeuLagを用いた制約下での最適化を行い,ソフト制約やハード制約による最適化の可能性を確認した。
我々は,大規模かつ高精度なサロゲートシミュレータを必要とする領域において,本手法がポテンシャルを持つと考えている。 Deep-learning inverse techniques have attracted significant attention in recent years. Among them, the neural adjoint (NA) method, which employs a neural network surrogate simulator, has demonstrated impressive performance in the design tasks of artificial electromagnetic materials (AEM). However, the impact of the surrogate simulators' accuracy on the solutions in the NA method remains uncertain. Furthermore, achieving sufficient optimization becomes challenging in this method when the surrogate simulator is large, and computational resources are limited. Additionally, the behavior under constraints has not been studied, despite its importance from the engineering perspective. In this study, we investigated the impact of surrogate simulators' accuracy on the solutions and discovered that the more accurate the surrogate simulator is, the better the solutions become. We then developed an extension of the NA method, named Neural Lagrangian (NeuLag) method, capable of efficiently optimizing a sufficient number of solution candidates. We then demonstrated that the NeuLag method can find optimal solutions even when handling sufficient candidates is difficult due to the use of a large and accurate surrogate simulator. The resimulation errors of the NeuLag method were approximately 1/50 compared to previous methods for three AEM tasks. Finally, we performed optimization under constraint using NA and NeuLag, and confirmed their potential in optimization with soft or hard constraints. We believe our method holds potential in areas that require large and accurate surrogate simulators. | 翻訳日:2023-04-28 14:53:30 公開日:2023-04-26 |
# マルチモーダル複合アソシエーションスコア:生成的マルチモーダルモデルにおけるジェンダーバイアスの測定 Multimodal Composite Association Score: Measuring Gender Bias in Generative Multimodal Models ( http://arxiv.org/abs/2304.13855v1 ) ライセンス: Link先を確認 | Abhishek Mandal, Susan Leavy, Suzanne Little | (参考訳) 拡散モデルに基づく生成的マルチモーダルモデルは近年大きく成長し進歩している。
dall-eやstable diffusionといったモデルが普及し、テキストから画像を作成することに成功し、しばしば抽象的なアイデアを組み合わせるようになった。
しかし、他のディープラーニングモデルと同様に、トレーニングデータから受け継いだ社会的バイアスも反映している。
バイアスに対する手動の監査モデルは、非常に時間とリソースを消費し、これらのモデルが得る入力の非有界で制約のない性質によってさらに複雑になる。
バイアスの測定と定量化の研究は一般に、単一のモダリティを扱う小さな単段モデルに焦点が当てられている。
したがって、多段階マルチモーダルモデルの出現は異なるアプローチを必要とする。
本稿では,マルチモーダル生成モデルにおけるジェンダーバイアスを測定する新しい方法として,MCAS(Multimodal Composite Association Score)を提案する。
このアプローチを用いたDALL-E 2と安定拡散の評価により、モデル内に埋め込まれた概念の性的な関連が明らかになった。
本稿では,様々なモダリティを持つモデルに対する潜在的なバイアスの定量化手法としてMCASを提案する。 Generative multimodal models based on diffusion models have seen tremendous growth and advances in recent years. Models such as DALL-E and Stable Diffusion have become increasingly popular and successful at creating images from texts, often combining abstract ideas. However, like other deep learning models, they also reflect social biases they inherit from their training data, which is often crawled from the internet. Manually auditing models for biases can be very time and resource consuming and is further complicated by the unbounded and unconstrained nature of inputs these models can take. Research into bias measurement and quantification has generally focused on small single-stage models working on a single modality. Thus the emergence of multistage multimodal models requires a different approach. In this paper, we propose Multimodal Composite Association Score (MCAS) as a new method of measuring gender bias in multimodal generative models. Evaluating both DALL-E 2 and Stable Diffusion using this approach uncovered the presence of gendered associations of concepts embedded within the models. We propose MCAS as an accessible and scalable method of quantifying potential bias for models with different modalities and a range of potential biases. | 翻訳日:2023-04-28 14:53:08 公開日:2023-04-26 |
# 動的世界を理解する: オープンドメインのエンティティ状態追跡のためのエンドツーエンドの知識インフォームドフレームワーク Understand the Dynamic World: An End-to-End Knowledge Informed Framework for Open Domain Entity State Tracking ( http://arxiv.org/abs/2304.13854v1 ) ライセンス: Link先を確認 | Mingchen Li and Lifu Huang | (参考訳) Open Domain entity state trackingは、アクション記述が与えられたエンティティの妥当な状態変化(すなわち、[entity]の[属性]は、[before_state]と[after_state])を予測することを目的としています。
人間の日常活動を支援する多くの推論タスクにとって重要です。
しかしながら、モデルがアクションによって引き起こされる任意の数のエンティティ状態変化を予測する必要がある一方で、ほとんどのエンティティはアクションとその属性に暗黙的に関連しており、状態はオープンな語彙から来ているため、これは難しい。
そこで本稿では,外部知識グラフ(概念ネット)から関係するエンティティと属性を明示的に抽出し,新たな動的知識粒度エンコーダ・デコーダフレームワークを用いて,すべてのエンティティの状態変化を自己回帰的に生成する,オープンドメインエンティティ状態追跡のためのエンド・ツー・エンドの知識インフォームドフレームワークであるkiestを提案する。
予測されたエンティティ,属性,状態間の論理的コヒーレンスを強制するために,我々は新しい制約デコード戦略を設計し,デコードプロセスを改善するためにコヒーレンス報酬を用いる。
実験の結果,提案するKIESTフレームワークは,公開ベンチマークデータセットOpenPIのベースラインを著しく上回っていることがわかった。 Open domain entity state tracking aims to predict reasonable state changes of entities (i.e., [attribute] of [entity] was [before_state] and [after_state] afterwards) given the action descriptions. It's important to many reasoning tasks to support human everyday activities. However, it's challenging as the model needs to predict an arbitrary number of entity state changes caused by the action while most of the entities are implicitly relevant to the actions and their attributes as well as states are from open vocabularies. To tackle these challenges, we propose a novel end-to-end Knowledge Informed framework for open domain Entity State Tracking, namely KIEST, which explicitly retrieves the relevant entities and attributes from external knowledge graph (i.e., ConceptNet) and incorporates them to autoregressively generate all the entity state changes with a novel dynamic knowledge grained encoder-decoder framework. To enforce the logical coherence among the predicted entities, attributes, and states, we design a new constraint decoding strategy and employ a coherence reward to improve the decoding process. Experimental results show that our proposed KIEST framework significantly outperforms the strong baselines on the public benchmark dataset OpenPI. | 翻訳日:2023-04-28 14:52:48 公開日:2023-04-26 |
# オンラインマーケットプレイスにおける商品分類:アンサンブルアプローチ Categorising Products in an Online Marketplace: An Ensemble Approach ( http://arxiv.org/abs/2304.13852v1 ) ライセンス: Link先を確認 | Kieron Drumm | (参考訳) 近年では、機械学習を利用して製品を自動的に分類するEコマース企業にとって、製品分類は一般的な問題となっている。
本研究では,各製品のカテゴリ,サブカテゴリ,カラーを別々に予測するために,異なるモデルの組み合わせを用いてアンサンブルアプローチを提案する。
以上の手法により, 平均F1スコア0.82は, XGBoost と k-nearest の組合せで得られた特徴を予測できることを示す。 In recent years, product categorisation has been a common issue for E-commerce companies who have utilised machine learning to categorise their products automatically. In this study, we propose an ensemble approach, using a combination of different models to separately predict each product's category, subcategory, and colour before ultimately combining the resultant predictions for each product. With the aforementioned approach, we show that an average F1-score of 0.82 can be achieved using a combination of XGBoost and k-nearest neighbours to predict said features. | 翻訳日:2023-04-28 14:52:20 公開日:2023-04-26 |
# SSLモデルはD\'ej\`a Vuを持っているか?
自己指導型学習における意図しない記憶の1例 Do SSL Models Have D\'ej\`a Vu? A Case of Unintended Memorization in Self-supervised Learning ( http://arxiv.org/abs/2304.13850v1 ) ライセンス: Link先を確認 | Chuan Guo, Florian Bordes, Pascal Vincent, Kamalika Chaudhuri, Chuan Guo | (参考訳) 自己教師付き学習(ssl)アルゴリズムは、自然画像の異なる部分を互いに関連付けるように学習することで有用な画像表現を生成することができる。
しかし、極端な場合、SSLモデルは意味論的に意味のある関連を学習するのではなく、個々のトレーニングサンプルの特定の部分を意図せずに記憶することができる。
本研究では,SSL モデルにおける画像固有情報の意図しない記憶に関する体系的研究を行い,これを d\'ej\`a vu 記憶と呼ぶ。
具体的には、背景(水、空、草など)のみを含む訓練画像の訓練モデルと作物を考慮すれば、前景オブジェクトを高精度に推測したり、視覚的に再構成したりすることが可能であることを示す。
さらに,d\'ej\`a vuの記憶は異なるsslアルゴリズムに共通であり,特定の設計選択によって悪化し,従来の表現品質評価手法では検出できないことを示す。
d\'ej\`a vuメモリ化に関する我々の研究は、SSLモデルでこれまで未知のプライバシリスクを明らかにし、潜在的な実用的な緩和戦略を示唆している。
コードはhttps://github.com/facebookresearch/DejaVu.comで入手できる。 Self-supervised learning (SSL) algorithms can produce useful image representations by learning to associate different parts of natural images with one another. However, when taken to the extreme, SSL models can unintendedly memorize specific parts in individual training samples rather than learning semantically meaningful associations. In this work, we perform a systematic study of the unintended memorization of image-specific information in SSL models -- which we refer to as d\'ej\`a vu memorization. Concretely, we show that given the trained model and a crop of a training image containing only the background (e.g., water, sky, grass), it is possible to infer the foreground object with high accuracy or even visually reconstruct it. Furthermore, we show that d\'ej\`a vu memorization is common to different SSL algorithms, is exacerbated by certain design choices, and cannot be detected by conventional techniques for evaluating representation quality. Our study of d\'ej\`a vu memorization reveals previously unknown privacy risks in SSL models, as well as suggests potential practical mitigation strategies. Code is available at https://github.com/facebookresearch/DejaVu. | 翻訳日:2023-04-28 14:52:11 公開日:2023-04-26 |
# 農業におけるハイパースペクトル画像解析のための深層学習技術:概観 Deep Learning Techniques for Hyperspectral Image Analysis in Agriculture: A Review ( http://arxiv.org/abs/2304.13880v1 ) ライセンス: Link先を確認 | Mohamed Fadhlallah Guerri, Cosimo Distante, Paolo Spagnolo, Fares Bougourzi, and Abdelmalik Taleb-Ahmed | (参考訳) 近年、ハイパースペクトルイメージング(HSI)は、特に農業分野においてリモートセンシング問題を解決する可能性から、コンピュータビジョン研究者の間で大いに人気を集めている。
しかし、hsi分類はスペクトルバンドの冗長性が高く、限られたトレーニングサンプル、空間位置とスペクトルバンドの非線形関係が原因で複雑な課題である。
幸いなことに、ディープラーニング技術はhsi分析で有望な結果を示している。
本稿では,自動エンコーダ,畳み込みニューラルネットワーク(1d,2d,3d),反復型ニューラルネットワーク,深層信念ネットワーク,農業における生成的敵ネットワークなど,ディープラーニングアプローチの最近の応用について検討する。
これらの手法の性能は、インドパインズ、サリナスバレー、パヴィア大学など、よく知られた土地被覆データセットで評価され議論されている。 In the recent years, hyperspectral imaging (HSI) has gained considerably popularity among computer vision researchers for its potential in solving remote sensing problems, especially in agriculture field. However, HSI classification is a complex task due to the high redundancy of spectral bands, limited training samples, and non-linear relationship between spatial position and spectral bands. Fortunately, deep learning techniques have shown promising results in HSI analysis. This literature review explores recent applications of deep learning approaches such as Autoencoders, Convolutional Neural Networks (1D, 2D, and 3D), Recurrent Neural Networks, Deep Belief Networks, and Generative Adversarial Networks in agriculture. The performance of these approaches has been evaluated and discussed on well-known land cover datasets including Indian Pines, Salinas Valley, and Pavia University. | 翻訳日:2023-04-28 14:42:45 公開日:2023-04-26 |
# 工学的散逸による安定量子関連多体状態 Stable Quantum-Correlated Many Body States via Engineered Dissipation ( http://arxiv.org/abs/2304.13878v1 ) ライセンス: Link先を確認 | X. Mi, A. A. Michailidis, S. Shabani, K. C. Miao, P. V. Klimov, J. Lloyd, E. Rosenberg, R. Acharya, I. Aleiner, T. I. Andersen, M. Ansmann, F. Arute, K. Arya, A. Asfaw, J. Atalaya, J. C. Bardin, A. Bengtsson, G. Bortoli, A. Bourassa, J. Bovaird, L. Brill, M. Broughton, B. B. Buckley, D. A. Buell, T. Burger, B. Burkett, N. Bushnell, Z. Chen, B. Chiaro, D. Chik, C. Chou, J. Cogan, R. Collins, P. Conner, W. Courtney, A. L. Crook, B. Curtin, A. G. Dau, D. M. Debroy, A. Del Toro Barba, S. Demura, A. Di Paolo, I. K. Drozdov, A. Dunsworth, C. Erickson, L. Faoro, E. Farhi, R. Fatemi, V. S. Ferreira, L. F. Burgos E. Forati, A. G. Fowler, B. Foxen, E. Genois, W. Giang, C. Gidney, D. Gilboa, M. Giustina, R. Gosula, J. A. Gross, S. Habegger, M. C. Hamilton, M. Hansen, M. P. Harrigan, S. D. Harrington, P. Heu, M. R. Hoffmann, S. Hong, T. Huang, A. Huff, W. J. Huggins, L. B. Ioffe, S. V. Isakov, J. Iveland, E. Jeffrey, Z. Jiang, C. Jones, P. Juhas, D. Kafri, K. Kechedzhi, T. Khattar, M. Khezri, M. Kieferova, S. Kim, A. Kitaev, A. R. Klots, A. N. Korotkov, F. Kostritsa, J. M. Kreikebaum, D. Landhuis, P. Laptev, K.-M. Lau, L. Laws, J. Lee, K. W. Lee, Y. D. Lensky, B. J. Lester, A. T. Lill, W. Liu, A. Locharla, F. D. Malone, O. Martin, J. R. McClean, M. McEwen, A. Mieszala, S. Montazeri, A. Morvan, R. Movassagh, W. Mruczkiewicz, M. Neeley, C. Neill, A. Nersisyan, M. Newman, J. H. Ng, A. Nguyen, M. Nguyen, M. Y. Niu, T. E. OBrien, A. Opremcak, A. Petukhov, R. Potter, L. P. Pryadko, C. Quintana, C. Rocque, N. C. Rubin, N. Saei, D. Sank, K. Sankaragomathi, K. J. Satzinger, H. F. Schurkus, C. Schuster, M. J. Shearn, A. Shorter, N. Shutty, V. Shvarts, J. Skruzny, W. C. Smith, R. Somma, G. Sterling, D. Strain, M. Szalay, A. Torres, G. Vidal, B. Villalonga, C. V. Heidweiller, T. White, B. W. K. Woo, C. Xing, Z. J. Yao, P. Yeh, J. Yoo, G. Young, A. Zalcman, Y. Zhang, N. Zhu, N. Zobrist, H. Neven, R. Babbush, D. Bacon, S. Boixo, J. Hilton, E. Lucero, A. Megrant, J. Kelly, Y. Chen, P. Roushan, V. Smelyanskiy, D. A. Abanin | (参考訳) 工学的散逸性貯水池は、高温超伝導や量子磁性の量子シミュレーションに有用な相関定常状態に向けて多体量子系を制御できる。
49個の超伝導量子ビットを用いて, 分散補助量子ビットとのカップリングにより, 横磁場イジングモデルの低エネルギー状態を生成する。
1Dでは,システムサイズに依存しない長距離量子相関と基底状態の忠実度を観測する。
2dでは、最寄りの近傍に広がる相互情報を見つける。
最後に、貯水池を異なる化学的ポテンシャルでエミュレートする補助体にシステムを結合することにより、量子ハイゼンベルクモデルで新しいスピン輸送機構を発見する。
本研究では,ノイズ量子プロセッサ上で絡み合った多体状態を生成するためのユニタリ進化のスケーラブルな代替として,非平衡量子現象を探究するための必須ツールとして工学的散逸を立証する。 Engineered dissipative reservoirs can steer many-body quantum systems toward correlated steady states useful for quantum simulation of high-temperature superconductivity or quantum magnetism. Using 49 superconducting qubits, we prepare low-energy states of the transverse-field Ising model via coupling to dissipative auxiliary qubits. In 1D, we observe long-range quantum correlations and a ground state fidelity that depends weakly on system sizes. In 2D, we find mutual information that extends beyond nearest neighbors. Lastly, by coupling the system to auxiliaries emulating reservoirs with different chemical potentials, we discover a new spin transport regime in the quantum Heisenberg model. Our results establish engineered dissipation as a scalable alternative to unitary evolution for preparing entangled many-body states on noisy quantum processors, and an essential tool for investigating nonequilibrium quantum phenomena. | 翻訳日:2023-04-28 14:42:30 公開日:2023-04-26 |
# masonnlp+ at semeval-2023 task 8: knowledge-augmented pre-trained language modelを用いたソーシャルメディアからの医学的質問,経験,クレームの抽出 MasonNLP+ at SemEval-2023 Task 8: Extracting Medical Questions, Experiences and Claims from Social Media using Knowledge-Augmented Pre-trained Language Models ( http://arxiv.org/abs/2304.13875v1 ) ライセンス: Link先を確認 | Giridhar Kaushik Ramachandran, Haritha Gangavarapu, Kevin Lybarger, Ozlem Uzuner | (参考訳) redditのようなオンラインフォーラムでは、ユーザーは、請求書の作成、質問、治療が健康に与える影響に関する議論など、医療状況や治療の経験を共有している。
この情報を理解するシステムの構築は,誤報の拡散を効果的に監視し,ユーザの主張を検証する。
セマンティック評価に関する2023年国際ワークショップのタスク8は、特に、ソーシャルメディア上のユーザー投稿から患者体験および医療状態関連エンティティを抽出することに焦点を当てた。
Reddit Health Online Talk (RedHot) コーパスには、患者の経験と医療状況を特徴づける注釈が付いた医療条件関連サブレディットからの投稿が含まれている。
Subtask-1では、患者体験は個人的な経験、質問、クレームによって特徴づけられる。
Subtask-2では、医療条件は人口、介入、結果によって特徴づけられる。
患者体験と医療情報の自動抽出のために,課題の一環として,各サブタスクのリーダボードに$3^{rd}$を付与する言語モデルに基づく抽出システムを提案する。
本稿では,本手法について述べるとともに,ドメイン固有言語モデルを用いた情報の自動抽出と外部知識の導入について考察する。 In online forums like Reddit, users share their experiences with medical conditions and treatments, including making claims, asking questions, and discussing the effects of treatments on their health. Building systems to understand this information can effectively monitor the spread of misinformation and verify user claims. The Task-8 of the 2023 International Workshop on Semantic Evaluation focused on medical applications, specifically extracting patient experience- and medical condition-related entities from user posts on social media. The Reddit Health Online Talk (RedHot) corpus contains posts from medical condition-related subreddits with annotations characterizing the patient experience and medical conditions. In Subtask-1, patient experience is characterized by personal experience, questions, and claims. In Subtask-2, medical conditions are characterized by population, intervention, and outcome. For the automatic extraction of patient experiences and medical condition information, as a part of the challenge, we proposed language-model-based extraction systems that ranked $3^{rd}$ on both subtasks' leaderboards. In this work, we describe our approach and, in addition, explore the automatic extraction of this information using domain-specific language models and the inclusion of external knowledge. | 翻訳日:2023-04-28 14:42:16 公開日:2023-04-26 |
# 知識強化マルチモーダルプリトレーニングによる医学的人工知能を目指して Towards Medical Artificial General Intelligence via Knowledge-Enhanced Multimodal Pretraining ( http://arxiv.org/abs/2304.14204v1 ) ライセンス: Link先を確認 | Bingqian Lin, Zicong Chen, Mingjie Li, Haokun Lin, Hang Xu, Yi Zhu, Jianzhuang Liu, Wenjia Cai, Lei Yang, Shen Zhao, Chenfei Wu, Ling Chen, Xiaojun Chang, Yi Yang, Lei Xing, Xiaodan Liang | (参考訳) 医用汎用知能(MAGI)は、医療領域において非常に実用的な、異なる医療課題を解決するための基礎モデルである。
異なるタスク間で医療知識を十分に共有することで、大量のタスク固有データの要求を大幅に低減することができる。
しかしながら、限定的かつ複雑な医療データを持つ強一般化モデルを設計するという課題のため、既存のアプローチの多くはタスク固有のモデルを開発する傾向がある。
magiへの一歩を踏み出すため,我々は医療知識強化マルチモーダルプリトレーニング(motor)と呼ばれる新しいパラダイムを提案する。
本研究はMOTORにおいて,一般知識と特定知識の2つの基本的知識を相補的に組み合わせて,一般事前訓練の促進を図る。
その結果、総合的な基礎知識を持つ基礎モデルは、X線データの事前学習からコンパクトな表現を学習し、クロスモーダルアライメントを改善することができる。
motorは、aiシステムの2種類のコアインテリジェンスである理解と生成を単一の医療基盤モデルに統合し、より多様な医療タスクを柔軟に処理できるようにする。
総合的な評価とさらなる研究を容易にするために,胸部x線レポート生成や医用視覚質問応答など,幅広い下流課題を含む医用マルチモーダルベンチマークを構築した。
ベンチマーク実験の結果,MOTORは単純なタスク指向適応によって有望な結果が得られることがわかった。
ビジュアライゼーションは,MOTORの優れた解釈可能性を示すとともに,医療データの重要情報を効果的に強調することを示す。
当社のMOTORは,「専門医」になる過程を加速するために,「医学生」を履修する人間の実践を模倣することに成功した。
我々は、我々の研究がMAGIの実現に大きく貢献していると信じている。 Medical artificial general intelligence (MAGI) enables one foundation model to solve different medical tasks, which is very practical in the medical domain. It can significantly reduce the requirement of large amounts of task-specific data by sufficiently sharing medical knowledge among different tasks. However, due to the challenges of designing strongly generalizable models with limited and complex medical data, most existing approaches tend to develop task-specific models. To take a step towards MAGI, we propose a new paradigm called Medical-knOwledge-enhanced mulTimOdal pretRaining (MOTOR). In MOTOR, we combine two kinds of basic medical knowledge, i.e., general and specific knowledge, in a complementary manner to boost the general pretraining process. As a result, the foundation model with comprehensive basic knowledge can learn compact representations from pretraining radiographic data for better cross-modal alignment. MOTOR unifies the understanding and generation, which are two kinds of core intelligence of an AI system, into a single medical foundation model, to flexibly handle more diverse medical tasks. To enable a comprehensive evaluation and facilitate further research, we construct a medical multimodal benchmark including a wide range of downstream tasks, such as chest x-ray report generation and medical visual question answering. Extensive experiments on our benchmark show that MOTOR obtains promising results through simple task-oriented adaptation. The visualization shows that the injected knowledge successfully highlights key information in the medical data, demonstrating the excellent interpretability of MOTOR. Our MOTOR successfully mimics the human practice of fulfilling a "medical student" to accelerate the process of becoming a "specialist". We believe that our work makes a significant stride in realizing MAGI. | 翻訳日:2023-04-28 13:08:17 公開日:2023-04-26 |
# 自発対称性破砕の分岐部における量子蝶効果 Quantum Butterfly Effect at the Crossroads of Spontaneous Symmetry Breaking ( http://arxiv.org/abs/2304.14272v1 ) ライセンス: Link先を確認 | Pranaya Pratik Das, Biplab Ganguli | (参考訳) 古典力学において、ハミルトニアンの自発対称性の破れは、いくつかの正則系の力学をカオス化する。
古典的および量子的画像は、これらの壊れた対称領域で完全に異なるわけではない。
それらの間には対応があるが、短い時間窓がある。
しかし、我々の数値観測により、量子力学はハミルトニアンに対称性破壊項を導入することで、古典的非カオス系における指数的揺らぎをエミュレートし、その逆の役割を模倣できることが示された。
本研究では,2つの逆調和振動子(ihos)、三重井戸、高原を持つihoの4つの1次元量子力学的モデルを用いた。
そして、ハミルトニアンにおいて既に存在する対称性を様々な摂動強度で自発的に破り、システムに異常をもたらす。
次に、OTOC、Loschmidt echo、SFF(Spectral form factor)などの数値診断ツールを用いて、非対称性の導入によってシステムに浸透する可能性のある異常を検出する。
我々の主な焦点は、古典的極限におけるリャプノフ指数に還元されるOTOCの挙動であり、予想される指数的な成長を観察することである。
しかしながら、otocの指数関数的成長はポテンシャルの全体にわたっては広がりませんが、破れた対称性の近傍の固有状態に限定されます。
これらの結果は、Loschmidt echoとSFFを背景としたOTOCの指数的成長が非対称性に起因することを示唆している。
言い換えれば、OTOCは、しばしば蝶効果と同義語である対称性破壊の効果を検出する。 In classical mechanics, spontaneous symmetry breaking of the Hamiltonian can embroil the dynamics of some regular systems into chaos. The classical and quantum pictures are not entirely different in these broken symmetric regions. There exists a correspondence between them, but for a brief time window. However, our numerical observations show that quantum mechanics can emulate the opposite role and forge exponential fluctuations in classically non-chaotic systems within an early-time window by introducing a symmetry-breaking term to the Hamiltonian. In this work, we have taken four one-dimensional quantum mechanical models: two Inverted Harmonic Oscillators(IHOs), a triple Well and IHO with a plateau. Then we spontaneously break the already existing symmetry in their Hamiltonian with varying perturbation strength to bring anomaly into the system. Then, we use numerical diagnostic tools such as OTOC, Loschmidt echo and spectral form factor(SFF) to detect the anomalies that may sweep into the system with the introduction of the asymmetry. Our primary focus is on the behaviour of OTOC as it reduces to the Lyapunov exponent in the classical limit, and we observe exponential growth, as expected. However, these exponential growths of OTOC are not widespread over the entire potential well but are limited only to the eigenstates in the neighbourhood of the broken symmetry. These results suggest that the exponential growth of OTOC, backed by Loschmidt echo and SFF, is due to asymmetry. In other words, OTOC detects the effect of symmetry-breaking, which is often synonymous with the butterfly effect. | 翻訳日:2023-04-28 13:01:17 公開日:2023-04-26 |
# 無料コンテンツWebの測定とモデル化 Measuring and Modeling the Free Content Web ( http://arxiv.org/abs/2304.14359v1 ) ライセンス: Link先を確認 | Abdulrahman Alabduljabbar and Runyu Ma and Ahmed Abusnaina and Rhongho Jang and Songqing Chen and DaeHun Nyang and and David Mohaisen | (参考訳) 無料の書籍、音楽、ゲーム、映画などを提供する無料コンテンツサイトは、長年インターネット上に存在してきた。
このようなウェブサイトは、同一のコンテンツタイプを提供する高級ウェブサイトとは異なっているという見方が一般的であるが、この信念を支持する分析は文献に欠けている。
特に、これらのウェブサイトがプレミアムサイトと同じくらい安全かどうかは不明だ。
本稿では,リスクプロファイルを含むフリーコンテンツとプレミアムwebサイトとの類似性と相違を分析・定量化することで調査する。
この分析を行うために、書籍、ゲーム、映画、音楽、ソフトウェアを提供する834の無料コンテンツウェブサイトと、同じタイプのコンテンツを提供する728のプレミアムWebサイトのリストを作成しました。
次に、ドメイン、コンテンツ、リスクレベルの分析に貢献し、ウェブサイトのドメイン名、作成時間、SSL証明書、HTTPリクエスト、ページサイズ、平均ロード時間、コンテンツタイプを調べて比較します。
リスク分析では,Webサイトおよびコンポーネントレベルで,これらのウェブサイトの悪意について検討・検討する。
その他の興味深い発見として、無料コンテンツサイトはTLDに広く分散し、新たに登録されたドメインの傾向が上昇する傾向にある。
さらに、無料コンテンツウェブサイトは、期限切れの証明書を利用する確率が4.5倍、ウェブサイトレベルでは19倍、コンポーネントレベルでは2.64倍である。
両Webサイト間の明確な相違を考慮し、自由コンテンツリスクWebサイトのリスクモデリングの自動化と一般化について検討し、単純な機械学習ベースの技術がそれらを識別する際に86.81\%の精度が得られることを示した。 Free content websites that provide free books, music, games, movies, etc., have existed on the Internet for many years. While it is a common belief that such websites might be different from premium websites providing the same content types, an analysis that supports this belief is lacking in the literature. In particular, it is unclear if those websites are as safe as their premium counterparts. In this paper, we set out to investigate, by analysis and quantification, the similarities and differences between free content and premium websites, including their risk profiles. To conduct this analysis, we assembled a list of 834 free content websites offering books, games, movies, music, and software, and 728 premium websites offering content of the same type. We then contribute domain-, content-, and risk-level analysis, examining and contrasting the websites' domain names, creation times, SSL certificates, HTTP requests, page size, average load time, and content type. For risk analysis, we consider and examine the maliciousness of these websites at the website- and component-level. Among other interesting findings, we show that free content websites tend to be vastly distributed across the TLDs and exhibit more dynamics with an upward trend for newly registered domains. Moreover, the free content websites are 4.5 times more likely to utilize an expired certificate, 19 times more likely to be malicious at the website level, and 2.64 times more likely to be malicious at the component level. Encouraged by the clear differences between the two types of websites, we explore the automation and generalization of the risk modeling of the free content risky websites, showing that a simple machine learning-based technique can produce 86.81\% accuracy in identifying them. | 翻訳日:2023-04-28 12:24:54 公開日:2023-04-26 |
# 多変量時系列分類アルゴリズムのベンチマーク Benchmarking Multivariate Time Series Classification Algorithms ( http://arxiv.org/abs/2007.13156v2 ) ライセンス: Link先を確認 | Alejandro Pasos Ruiz, Michael Flynn and Anthony Bagnall | (参考訳) 時系列分類(TSC)は、順序付き、実値付き、属性から離散的なターゲット変数の予測モデルを構築することを含む。
近年,従来の技術よりも大幅に改良された新しいTSCアルゴリズムが開発されている。
主な焦点は不平等なtsc、すなわち、各ケースが1つのシリーズと1つのクラスラベルを持つ問題である。
実際、複数のシリーズが単一のラベルに関連付けられている多変量TSC(MTSC)問題に遭遇することが一般的である。
それにもかかわらず、MTSCに対する考慮は単変量の場合よりもはるかに少ない。
2018年にリリースされた30のMTSC問題のUEAアーカイブは、アルゴリズムの比較を容易にする。
本稿では, 深層学習, シェープレット, 単語の袋を用いた MTSC アルゴリズムを提案する。
MTSCの最も単純なアプローチは、多変量次元上の単変量分類器をアンサンブルすることである。
我々は,データの長さが等しい30 mtscアーカイブ問題の26項目について,これらの次元に依存しない手法と比較した。
HIVE-COTE分類器の独立アンサンブルが最も正確であることを示すが、単変量分類とは異なり、MTSCでは動的時間ワープが競合する。 Time Series Classification (TSC) involved building predictive models for a discrete target variable from ordered, real valued, attributes. Over recent years, a new set of TSC algorithms have been developed which have made significant improvement over the previous state of the art. The main focus has been on univariate TSC, i.e. the problem where each case has a single series and a class label. In reality, it is more common to encounter multivariate TSC (MTSC) problems where multiple series are associated with a single label. Despite this, much less consideration has been given to MTSC than the univariate case. The UEA archive of 30 MTSC problems released in 2018 has made comparison of algorithms easier. We review recently proposed bespoke MTSC algorithms based on deep learning, shapelets and bag of words approaches. The simplest approach to MTSC is to ensemble univariate classifiers over the multivariate dimensions. We compare the bespoke algorithms to these dimension independent approaches on the 26 of the 30 MTSC archive problems where the data are all of equal length. We demonstrate that the independent ensemble of HIVE-COTE classifiers is the most accurate, but that, unlike with univariate classification, dynamic time warping is still competitive at MTSC. | 翻訳日:2023-04-27 19:02:43 公開日:2023-04-26 |
# 2つのツールキットの物語 第3報:HIVE-COTE v1.0の使用と性能について A tale of two toolkits, report the third: on the usage and performance of HIVE-COTE v1.0 ( http://arxiv.org/abs/2004.06069v3 ) ライセンス: Link先を確認 | Anthony Bagnall, Michael Flynn, James Large, Jason Lines and Matthew Middlehurst | (参考訳) Hierarchical Vote Collective of Transformation-based Ensembles (HIVE-COTE) は時系列分類のための異種メタアンサンブルである。
2016年に最初に提案されて以来、アルゴリズムにはいくつかのマイナーな変更があり、2つのオープンソースリポジトリで利用可能な構成可能でスケーラブルで使いやすいバージョンがある。
本稿では,最新の安定hive-coteであるバージョン1.0の概要と,オリジナルとの違いについて述べる。
分類器の使用方法に関するウォークスルーガイドを提供し,その予測性能と資源利用に関する広範な実験評価を行う。
我々はHIVE-COTEの性能を,最近提案した3つのアルゴリズムと比較した。 The Hierarchical Vote Collective of Transformation-based Ensembles (HIVE-COTE) is a heterogeneous meta ensemble for time series classification. Since it was first proposed in 2016, the algorithm has undergone some minor changes and there is now a configurable, scalable and easy to use version available in two open source repositories. We present an overview of the latest stable HIVE-COTE, version 1.0, and describe how it differs to the original. We provide a walkthrough guide of how to use the classifier, and conduct extensive experimental evaluation of its predictive performance and resource usage. We compare the performance of HIVE-COTE to three recently proposed algorithms using the aeon toolkit. | 翻訳日:2023-04-27 19:02:25 公開日:2023-04-26 |
# ラフダイナミクス学習のための貯水池としてのランダム化信号の有効性について On the effectiveness of Randomized Signatures as Reservoir for Learning Rough Dynamics ( http://arxiv.org/abs/2201.00384v3 ) ライセンス: Link先を確認 | Enea Monzio Compagnoni, Anna Scampicchio, Luca Biggio, Antonio Orvieto, Thomas Hofmann, Josef Teichmann | (参考訳) 多くの金融、物理学、工学現象は、非常に不規則な(確率的な)入力によって駆動される連続時間力学系によってモデル化される。
この文脈で時系列解析を行う強力なツールは、粗い経路理論に根ざし、いわゆるSignature Transformを活用する。
このアルゴリズムは強い理論的保証を享受しているが、高次元データにはスケールしにくい。
そこで本研究では,Johnson-Lindenstrauss Lemmaを用いたランダム化符号法(ランダム化符号法)を提案する。
我々は,この貯水池の利点をコミュニティに示すために,ランダム化署名手法の有効性の詳細な実験的評価を行った。
具体的には,モデルの複雑さ,トレーニング時間,正確性,ロバスト性,データの空腹性といった点から,この手法が廃止シグネチャアプローチや代替深層学習手法に好適であることが判明した。 Many finance, physics, and engineering phenomena are modeled by continuous-time dynamical systems driven by highly irregular (stochastic) inputs. A powerful tool to perform time series analysis in this context is rooted in rough path theory and leverages the so-called Signature Transform. This algorithm enjoys strong theoretical guarantees but is hard to scale to high-dimensional data. In this paper, we study a recently derived random projection variant called Randomized Signature, obtained using the Johnson-Lindenstrauss Lemma. We provide an in-depth experimental evaluation of the effectiveness of the Randomized Signature approach, in an attempt to showcase the advantages of this reservoir to the community. Specifically, we find that this method is preferable to the truncated Signature approach and alternative deep learning techniques in terms of model complexity, training time, accuracy, robustness, and data hungriness. | 翻訳日:2023-04-27 18:56:52 公開日:2023-04-26 |
# ワームホール効果によるエネルギースペクトルと絡み合いスペクトルの一般関係の解明 Unlocking the general relationship between energy and entanglement spectra via the wormhole effect ( http://arxiv.org/abs/2112.05886v6 ) ライセンス: Link先を確認 | Zheng Yan and Zi Yang Meng | (参考訳) 還元密度行列の経路積分定式化に基づいて,量子モンテカルロシミュレーションから低次絡み合いスペクトルを確実に抽出し,計算複雑性の指数関数的成長を克服する手法を開発した。
2つの鎖間の長い絡み合った境界を持つハイゼンベルクスピンラダーの手法を試し、その結果は位相相の絡み合いスペクトルに対するliとハルダンの予想を支持する。
次に、経路積分におけるワームホール効果による予想を説明し、ギャップ位相を超える系に対してさらに一般化可能であることを示す。
さらに,(2+1)$D O(3)量子相転移による2次元交絡境界を持つ反強磁性ハイゼンベルク模型のシミュレーション結果から,ワームホール像の正しさが明らかとなった。
最後に、ワームホール効果はバルクエネルギーギャップを$\beta$の係数で増幅するので、エッジエネルギーギャップに対するその相対的な強度は系の低層エンタングルメントスペクトルの挙動を決定する。 Based on the path integral formulation of the reduced density matrix, we develop a scheme to overcome the exponential growth of computational complexity in reliably extracting low-lying entanglement spectrum from quantum Monte Carlo simulations. We test the method on the Heisenberg spin ladder with long entangled boundary between two chains and the results support the Li and Haldane's conjecture on entanglement spectrum of topological phase. We then explain the conjecture via the wormhole effect in the path integral and show that it can be further generalized for systems beyond gapped topological phases. Our further simulation results on the bilayer antiferromagnetic Heisenberg model with 2D entangled boundary across the $(2+1)$D O(3) quantum phase transition clearly demonstrate the correctness of the wormhole picture. Finally, we state that since the wormhole effect amplifies the bulk energy gap by a factor of $\beta$, the relative strength of that with respect to the edge energy gap will determine the behavior of low-lying entanglement spectrum of the system. | 翻訳日:2023-04-27 18:56:37 公開日:2023-04-26 |
# 固定点イテレータの抽象解釈とニューラルネットワークへの応用 Abstract Interpretation of Fixpoint Iterators with Applications to Neural Networks ( http://arxiv.org/abs/2110.08260v2 ) ライセンス: Link先を確認 | Mark Niklas M\"uller, Marc Fischer, Robin Staab, Martin Vechev | (参考訳) 本稿では,数値固定点イテレータの正確な近似のための新しい抽象解釈フレームワークを提案する。
我々のキーとなる観察は、標準的な抽象解釈(AI)とは異なり、一般に全ての到達可能なプログラム状態のオーバー近似に使われるが、この設定では、具体的な固定点、すなわち最終プログラム状態のみを抽象化する必要がある。
本フレームワークは,コンクリートにおける収束性と特異性を保証する数値的固定点イテレータを目標とし,2つの主要な技術貢献に基づく。
一 結合を使わずに音と正確な固定点の抽象を計算できる理論的洞察、
(ii)新しい抽象ドメインであるch-zonotopeは、精度を維持しつつ効率的な伝播と包含チェックを許容する。
我々は,このフレームワークをCRAFTと呼ばれるツールに実装し,特に検証が難しい新しい固定点ベースのニューラルネットワークアーキテクチャ(monDEQ)で評価する。
当社の広範な評価は,速度(桁数2桁),スケーラビリティ(桁数1桁),精度(25%高い認定アキュラティティー)の観点から,クラフトが最先端のパフォーマンスを上回っていることを示している。 We present a new abstract interpretation framework for the precise over-approximation of numerical fixpoint iterators. Our key observation is that unlike in standard abstract interpretation (AI), typically used to over-approximate all reachable program states, in this setting, one only needs to abstract the concrete fixpoints, i.e., the final program states. Our framework targets numerical fixpoint iterators with convergence and uniqueness guarantees in the concrete and is based on two major technical contributions: (i) theoretical insights which allow us to compute sound and precise fixpoint abstractions without using joins, and (ii) a new abstract domain, CH-Zonotope, which admits efficient propagation and inclusion checks while retaining high precision. We implement our framework in a tool called CRAFT and evaluate it on a novel fixpoint-based neural network architecture (monDEQ) that is particularly challenging to verify. Our extensive evaluation demonstrates that CRAFT exceeds the state-of-the-art performance in terms of speed (two orders of magnitude), scalability (one order of magnitude), and precision (25% higher certified accuracies). | 翻訳日:2023-04-27 18:56:19 公開日:2023-04-26 |
# 性差の言語間差:メタ分析による証拠 Cross-linguistic differences in gender congruency effects: Evidence from meta-analyses ( http://arxiv.org/abs/2109.03490v4 ) ライセンス: Link先を確認 | Audrey B\"urki, Emiel van den Hoven, Niels O. Schiller, Nikolay DImitrov | (参考訳) 語が生産される順序は話者の言語に依存することが提案されている。
小型猫と同等の翻訳を生成する際、ドイツ語またはオランダ語の話者は、比較的早い段階で性別を示す決定器を選択する。
フランス語またはイタリア語の話者は、名詞の音韻形式が利用可能になるまで、決定者または形容詞の符号化を延期する。
したがって、同じ順序で語が作られる(例えば、ドイツ語でde kleine Katze、フランス語でle petit chat)が、それらは同じ順序で計画されておらず、生産開始前に異なる量の高度な計画を必要とする可能性がある。
この早期選択言語と後期選択言語の区別は、ゲルマン語とスラヴ語の話者が、ロマンス語ではなく、異なるジェンダーの散らばった言葉の文脈で絵を名付けるのが遅いという観察を説明するために提案された。
メタアナリシスは、この言語間差の最初の直接的テストを行い、遅延選択仮説の予測をテストする。
彼らは、ドイツ語/スラヴ語における性合同効果の存在と、標的語と気晴らし語を同時に提示するときのロマンス語におけるその欠如を確認する。
後者の言語では、邪魔者の提示が遅れると同様の効果が現れるという仮説を確認することは許されない。
全体として、これらの分析は言語間差異を裏付けるものであるが、この違いの説明として、現在利用可能な証拠は、後期選択仮説の検証や拒絶には不十分であることを示している。
今後の研究の方向性を強調する。 It has been proposed that the order in which words are prepared for production depends on the speaker's language. When producing the translation equivalent of the small cat, speakers of German or Dutch select the gender-marked determiner at a relatively early stage of production. Speakers of French or Italian postpone the encoding of a determiner or adjective until the phonological form of the noun is available. Hence, even though the words are produced in the same order (e.g., die kleine Katze in German, le petit chat in French), they are not planned in the same order and might require different amounts of advanced planning prior to production onset. This distinction between early and late selection languages was proposed to account for the observation that speakers of Germanic and Slavic languages, but not of Romance languages, are slower to name pictures in the context of a distractor word of a different gender. Meta-analyses are conducted to provide the first direct test of this cross-linguistic difference and to test a prediction of the late selection hypothesis. They confirm the existence of the gender congruency effect in German/Slavic languages and its absence in Romance languages when target and distractor words are presented simultaneously. They do not allow confirming the hypothesis that in the latter languages, a similar effect emerges when the presentation of the distractor is delayed. Overall, these analyses confirm the cross-linguistic difference but show that the evidence available to date is not sufficient to confirm or reject the late selection hypothesis as an explanation of this difference. We highlight specific directions for future research. | 翻訳日:2023-04-27 18:56:00 公開日:2023-04-26 |
# リカレントニューラルネットワークを用いたインドにおける複数日covid-19予測のためのトランスファーリカバリエンセンブル学習 Transfer-Recursive-Ensemble Learning for Multi-Day COVID-19 Prediction in India using Recurrent Neural Networks ( http://arxiv.org/abs/2108.09131v2 ) ライセンス: Link先を確認 | Debasrita Chakraborty, Debayan Goswami, Susmita Ghosh, Ashish Ghosh, Jonathan H. Chan | (参考訳) 新型コロナウイルス(COVID-19)のパンデミックは、インドの医療インフラに大きな課題をもたらした。
第2波でより多くの人が被害を受け、病院は過密になり、物資や酸素が尽きてしまった。
このシナリオでは、それまでの新型コロナウイルス感染者数の予測は、限られた資源や物資のより良い利用に役立った可能性がある。
この写本は、新型コロナウイルス(covid-19)の新規感染者、新規死亡者、および数日間のアクティブケースの予測を扱っている。
提案手法は,主予測モデルとしてゲートリカレントユニットネットワークを用いる。
調査は、米国、ブラジル、スペイン、バングラデシュの4カ国のデータに基づいて事前訓練された4つのモデルを構築し、インドのデータに基づいて微調整または再訓練された。
選ばれた4カ国は異なる種類の感染曲線を経験しているため、事前学習は様々な状況を考慮したモデルへの移行学習を提供する。
4つのモデルはそれぞれ、インドのテストデータに対して再帰的学習法を用いた数日間の予測を行う。
最終的な予測は、異なるモデルの組み合わせの予測の集合から得られる。
スペインとブラジルのこの手法は、他の伝統的な回帰モデルと比較して、すべての組み合わせの中で最高のパフォーマンスを達成している。 The current COVID-19 pandemic has put a huge challenge on the Indian health infrastructure. With more and more people getting affected during the second wave, the hospitals were over-burdened, running out of supplies and oxygen. In this scenario, prediction of the number of COVID-19 cases beforehand might have helped in the better utilization of limited resources and supplies. This manuscript deals with the prediction of new COVID-19 cases, new deaths and total active cases for multiple days in advance. The proposed method uses gated recurrent unit networks as the main predicting model. A study is conducted by building four models that are pre-trained on the data from four different countries (United States of America, Brazil, Spain and Bangladesh) and are fine-tuned or retrained on India's data. Since the four countries chosen have experienced different types of infection curves, the pre-training provides a transfer learning to the models incorporating diverse situations into account. Each of the four models then give a multiple days ahead predictions using recursive learning method for the Indian test data. The final prediction comes from an ensemble of the predictions of the combination of different models. This method with two countries, Spain and Brazil, is seen to achieve the best performance amongst all the combinations as well as compared to other traditional regression models. | 翻訳日:2023-04-27 18:55:33 公開日:2023-04-26 |
# Polyp-PVT:ピラミッド型ビジョントランスを用いたポリプセグメンテーション Polyp-PVT: Polyp Segmentation with Pyramid Vision Transformers ( http://arxiv.org/abs/2108.06932v7 ) ライセンス: Link先を確認 | Bo Dong, Wenhai Wang, Deng-Ping Fan, Jinpeng Li, Huazhu Fu, Ling Shao | (参考訳) ほとんどのpolypセグメンテーションメソッドはCNNをバックボーンとして使用しており、エンコーダとデコーダの間で情報を交換する際に2つの重要な問題を引き起こしている。
1)異なるレベルの特徴間の貢献の相違を考慮して
2)これらの特徴を融合させる効果的なメカニズムを設計する。
既存のcnnベースの手法とは異なり、より強力でロバストな表現を学ぶトランスフォーマエンコーダを採用する。
また,ポリプのイメージ取得の影響と解像性を考慮すると,カスケード融合モジュール(CFM),カモフラージュ識別モジュール(CIM),類似集合モジュール(SAM)の3つの標準モジュールを導入する。
これらのうち、CFMは、ポリプのセマンティック情報と位置情報を高レベル特徴から収集するために使用され、CIMは、低レベル特徴に偽装されたポリプ情報をキャプチャするために適用され、SAMは、ポリプ領域全体の高レベルなセマンティック位置情報でポリプ領域の画素特徴を拡張して、効果的にクロスレベル特徴を融合させる。
提案モデルであるPolyp-PVTは,特徴の雑音を効果的に抑制し,その表現能力を大幅に向上させる。
5つの広く採用されているデータセットの大規模な実験により、提案されたモデルは、既存の代表的手法よりも様々な困難な状況(例えば、外観の変化、小さな物体、回転)に対してより堅牢であることが示された。
提案されたモデルはhttps://github.com/DengPingFan/Polyp-PVTで公開されている。 Most polyp segmentation methods use CNNs as their backbone, leading to two key issues when exchanging information between the encoder and decoder: 1) taking into account the differences in contribution between different-level features and 2) designing an effective mechanism for fusing these features. Unlike existing CNN-based methods, we adopt a transformer encoder, which learns more powerful and robust representations. In addition, considering the image acquisition influence and elusive properties of polyps, we introduce three standard modules, including a cascaded fusion module (CFM), a camouflage identification module (CIM), and a similarity aggregation module (SAM). Among these, the CFM is used to collect the semantic and location information of polyps from high-level features; the CIM is applied to capture polyp information disguised in low-level features, and the SAM extends the pixel features of the polyp area with high-level semantic position information to the entire polyp area, thereby effectively fusing cross-level features. The proposed model, named Polyp-PVT, effectively suppresses noises in the features and significantly improves their expressive capabilities. Extensive experiments on five widely adopted datasets show that the proposed model is more robust to various challenging situations (\emph{e.g.}, appearance changes, small objects, rotation) than existing representative methods. The proposed model is available at https://github.com/DengPingFan/Polyp-PVT. | 翻訳日:2023-04-27 18:55:12 公開日:2023-04-26 |
# FairBalance: データ前処理で平等なオッドを実現する方法 FairBalance: How to Achieve Equalized Odds With Data Pre-processing ( http://arxiv.org/abs/2107.08310v4 ) ライセンス: Link先を確認 | Zhe Yu, Joymallya Chakraborty, Tim Menzies | (参考訳) 本研究は、機械学習ソフトウェアにおける等化オッズフェアネスを達成するための、単純で効果的な前処理アプローチを提供することにより、ソフトウェア工学社会の利益を目指している。
機械学習ソフトウェアは高リスクと高リスクの決定にますます使われているため、公平性の問題に注目が集まっている。
既存のすべてのフェアネス概念の中で、この研究は、常に完全分類子を許容する利点から、特に「等化確率」をターゲットにしている。
平等なオッズは、すべての人口集団のメンバーが異なる不当な扱いを受けないように要求する。
事前の作業は、ブラックボックスのような学習プロセス中に、等しいオッズ関連メトリックを最適化するか、直感によってトレーニングデータを操作します。
この研究は、等化確率の違反の根本原因とそれに取り組む方法を研究する。
その結果,各集団のクラス分布をサンプル重量で等化することが,通常のトレーニングプロセスを変更することなく等化オッズを達成するために必要な条件であることがわかった。
さらに、等化オッズ(平均オッズ差ゼロ)に対する重要な部分条件は、クラス分布が等しくなるだけでなく、バランスをとる(1:1)場合に保証される。
これらの分析に基づいて,各階層群におけるクラス分布のバランスをとる前処理アルゴリズムであるFairBalanceを提案し,計算した重みをトレーニングデータに割り当てた。
実世界の8つのデータセットにおいて,提案したFairBalanceは計算オーバヘッドが低い場合,有効性にダメージを与えることなく,偶発確率を大幅に改善できることを示す。
FairBalanceは、同じオッズの観点から、既存の最先端アプローチよりも優れています。
再利用、再現、検証を容易にするため、スクリプトはhttps://github.com/hil-se/FairBalance.comで公開しました。 This research seeks to benefit the software engineering society by providing a simple yet effective pre-processing approach to achieve equalized odds fairness in machine learning software. Fairness issues have attracted increasing attention since machine learning software is increasingly used for high-stakes and high-risk decisions. Amongst all the existing fairness notions, this work specifically targets "equalized odds" given its advantage in always allowing perfect classifiers. Equalized odds requires that members of every demographic group do not receive disparate mistreatment. Prior works either optimize for an equalized odds related metric during the learning process like a black-box, or manipulate the training data following some intuition. This work studies the root cause of the violation of equalized odds and how to tackle it. We found that equalizing the class distribution in each demographic group with sample weights is a necessary condition for achieving equalized odds without modifying the normal training process. In addition, an important partial condition for equalized odds (zero average odds difference) can be guaranteed when the class distributions are weighted to be not only equal but also balanced (1:1). Based on these analyses, we proposed FairBalance, a pre-processing algorithm which balances the class distribution in each demographic group by assigning calculated weights to the training data. On eight real-world datasets, our empirical results show that, at low computational overhead, the proposed pre-processing algorithm FairBalance can significantly improve equalized odds without much, if any damage to the utility. FairBalance also outperforms existing state-of-the-art approaches in terms of equalized odds. To facilitate reuse, reproduction, and validation, we made our scripts available at https://github.com/hil-se/FairBalance. | 翻訳日:2023-04-27 18:54:41 公開日:2023-04-26 |
# 無訓練DARTにおける接続感性項目:アーキテクチャレベルスコーリングから運用レベル感度分析へ Connection Sensitivity Matters for Training-free DARTS: From Architecture-Level Scoring to Operation-Level Sensitivity Analysis ( http://arxiv.org/abs/2106.11542v3 ) ライセンス: Link先を確認 | Miao Zhang | (参考訳) 最近提案されたトレーニングフリーnas法は、トレーニングフェーズを放棄し、優れたアーキテクチャを特定するためのスコアとして様々なゼロコストプロキシを設計し、ニューラルネットワークの検索に極端な計算効率をもたらす。
本稿では, DARTSにおける操作重要度を, パラメータ集中バイアスを回避して, トレーニング不要な方法で適切に測定できるか, という問題を提起する。
本稿では、エッジ接続のレンズを用いてこの問題を調査し、接続概念であるZERoコスト操作感性(ZEROS)を定義し、初期化時のDARTSにおける候補操作の重要性を評価することにより、肯定的な回答を提供する。
NASのためにZEROSを利用するための反復的かつデータに依存しない手法を考案することにより、我々の新しい試行は自由微分アーキテクチャサーチ(FreeDARTS)と呼ばれるフレームワークに繋がる。
ニューラル・タンジェント・カーネル(ntk)の理論に基づき,勾配降下訓練における収束後のダーツ・スーパーネットの一般化限界と負の相関関係を示した。
さらに、ZEROSがアーキテクチャ選択においてパラメータ集約バイアスを暗黙的に回避する方法を理論的に説明し、FreeDARTSによる探索アーキテクチャが同等の大きさであることを示す。
一連の探索空間で大規模な実験が行われ、その結果、FreeDARTSはニューラルネットワーク探索の信頼性と効率的なベースラインであることが示されている。 The recently proposed training-free NAS methods abandon the training phase and design various zero-cost proxies as scores to identify excellent architectures, arousing extreme computational efficiency for neural architecture search. In this paper, we raise an interesting problem: can we properly measure the operation importance in DARTS through a training-free way, with avoiding the parameter-intensive bias? We investigate this question through the lens of edge connectivity, and provide an affirmative answer by defining a connectivity concept, ZERo-cost Operation Sensitivity (ZEROS), to score the importance of candidate operations in DARTS at initialization. By devising an iterative and data-agnostic manner in utilizing ZEROS for NAS, our novel trial leads to a framework called training free differentiable architecture search (FreeDARTS). Based on the theory of Neural Tangent Kernel (NTK), we show the proposed connectivity score provably negatively correlated with the generalization bound of DARTS supernet after convergence under gradient descent training. In addition, we theoretically explain how ZEROS implicitly avoids parameter-intensive bias in selecting architectures, and empirically show the searched architectures by FreeDARTS are of comparable size. Extensive experiments have been conducted on a series of search spaces, and results have demonstrated that FreeDARTS is a reliable and efficient baseline for neural architecture search. | 翻訳日:2023-04-27 18:54:12 公開日:2023-04-26 |
# 責任あるAIの実現に向けて Towards Implementing Responsible AI ( http://arxiv.org/abs/2205.04358v5 ) ライセンス: Link先を確認 | Conrad Sanderson, Qinghua Lu, David Douglas, Xiwei Xu, Liming Zhu, Jon Whittle | (参考訳) 人工知能(AI)の展開が多くの分野や産業を変えつつあるため、説明責任、信頼性、透明性、説明可能性、競争可能性、プライバシー、公正性など、さまざまな倫理的側面を適切に考慮することなく、AIシステムが決定と勧告を下すことに懸念がある。
これらの懸念を認める多くのAI倫理原則が最近提案されているが、そのような原則はハイレベルであり、倫理的で責任あるAIシステムを開発するための具体的なアドバイスを提供していない。
原則の実行可能性に関する洞察を得るために,我々は,ai実践者のコホートとの半構造化インタビューに関する実証調査を行った。
注目すべき発見は、aiシステムの設計と開発、ソフトウェアエンジニアリングで使われるプロセス適応の4つの側面をカバーする。
a high‐level view
(ii)要件工学
(iii)設計及び実施
(iv)展開及び運用 As the deployment of artificial intelligence (AI) is changing many fields and industries, there are concerns about AI systems making decisions and recommendations without adequately considering various ethical aspects, such as accountability, reliability, transparency, explainability, contestability, privacy, and fairness. While many sets of AI ethics principles have been recently proposed that acknowledge these concerns, such principles are high-level and do not provide tangible advice on how to develop ethical and responsible AI systems. To gain insight on the possible implementation of the principles, we conducted an empirical investigation involving semi-structured interviews with a cohort of AI practitioners. The salient findings cover four aspects of AI system design and development, adapting processes used in software engineering: (i) high-level view, (ii) requirements engineering, (iii) design and implementation, (iv) deployment and operation. | 翻訳日:2023-04-27 18:47:22 公開日:2023-04-26 |
# 異なるグラフタイプ向けに設計されたグラフニューラルネットワーク:調査 Graph Neural Networks Designed for Different Graph Types: A Survey ( http://arxiv.org/abs/2204.03080v5 ) ライセンス: Link先を確認 | Josephine M. Thomas and Alice Moallemy-Oureh and Silvia Beddar-Wiesing and Clara Holzh\"uter | (参考訳) グラフは本質的にユビキタスであり、多くの実用的かつ理論的な問題のモデルとして機能する。
この目的のために、それらは表現された問題の個々の文脈を適切に反映する多くの異なるタイプとして定義することができる。
グラフデータに基づく最先端問題に対処するため,グラフニューラルネットワーク(GNN)の研究分野が誕生した。
この分野の若さと新しいモデルの開発速度にもかかわらず、それらを追跡するために多くの最近の調査が公表されている。
しかしながら、GNNがどのようなグラフタイプを処理できるかはまだ収集されていない。
本調査では,既存のGNNの詳細な概要を述べるとともに,従来の調査と異なり,異なるグラフタイプやプロパティを扱う能力に応じて分類する。
我々は、ノードまたはエッジ属性の有無に関わらず、異なる構造構成の静的および動的グラフで動作するgnnを考える。
さらに、離散時間または連続時間動的グラフのGNNモデルを区別し、そのアーキテクチャに従ってモデルをグループ化する。
既存のGNNモデルにカバーされていないグラフタイプがまだ存在することが分かっています。
モデルが欠落している場所を指摘し、その欠落の潜在的な理由を指摘した。 Graphs are ubiquitous in nature and can therefore serve as models for many practical but also theoretical problems. For this purpose, they can be defined as many different types which suitably reflect the individual contexts of the represented problem. To address cutting-edge problems based on graph data, the research field of Graph Neural Networks (GNNs) has emerged. Despite the field's youth and the speed at which new models are developed, many recent surveys have been published to keep track of them. Nevertheless, it has not yet been gathered which GNN can process what kind of graph types. In this survey, we give a detailed overview of already existing GNNs and, unlike previous surveys, categorize them according to their ability to handle different graph types and properties. We consider GNNs operating on static and dynamic graphs of different structural constitutions, with or without node or edge attributes. Moreover, we distinguish between GNN models for discrete-time or continuous-time dynamic graphs and group the models according to their architecture. We find that there are still graph types that are not or only rarely covered by existing GNN models. We point out where models are missing and give potential reasons for their absence. | 翻訳日:2023-04-27 18:46:25 公開日:2023-04-26 |
# 高精度かつ高速な量子コンピューティングのための変分命令セットによる量子コンパイル Quantum compiling with variational instruction set for accurate and fast quantum computing ( http://arxiv.org/abs/2203.15574v3 ) ライセンス: Link先を確認 | Ying Lu, Peng-Fei Zhou, Shao-Ming Fei, Shi-Ju Ran | (参考訳) 量子命令セット(qis)は量子ハードウェア内の量子ビットを制御することで物理的に実現可能な量子ゲートとして定義される。
適切に定義されたQISでゲートの積に量子回路をコンパイルすることは、量子コンピューティングの基本的なステップである。
本稿では,フレキシブルに設計した多量子ビットゲートによる量子計算の高速化と精度向上を目的とした \r{quantum variational instruction set (quvis) を提案する。
QuVISにおけるゲートを実現するためのキュービットの制御は、微細な時間最適化アルゴリズムを用いて変動的に達成される。
複数の量子ビットと量子フーリエ変換のスワップを実現する際に、エラー蓄積と時間コストの両方の大幅な削減が証明され、標準的な qis による計算である \rr{the quantum microinstruction set} (1量子ビット回転と制御なしゲートを含む複数の1量子ビットゲートによって形成されるqumi) と比較される。
量子ハードウェアに関しても同じ要件があるため、 \R{QuVIS} による時間コストは QuMIS によってその半分以下に削減される。
同時に、コンパイル回路の深さが小さくなるにつれて、エラーを代数的に抑制する。
高柔軟性と効率の一般的なコンパイル手法として、R{QuVIS} は異なる量子回路に対して定義され、異なる相互作用を持つ量子ハードウェアに適応することができる。 The quantum instruction set (QIS) is defined as the quantum gates that are physically realizable by controlling the qubits in a quantum hardware. Compiling quantum circuits into the product of the gates in a properly-defined QIS is a fundamental step in quantum computing. We here propose the \R{quantum variational instruction set (QuVIS)} formed by flexibly-designed multi-qubit gates for higher speed and accuracy of quantum computing. The controlling of qubits for realizing the gates in a QuVIS are variationally achieved using the fine-grained time optimization algorithm. Significant reductions on both the error accumulation and time cost are demonstrated in realizing the swaps of multiple qubits and quantum Fourier transformations, compared with the compiling by the standard QIS such as \RR{the quantum microinstruction set} (QuMIS, formed by several one- and two-qubit gates including the one-qubit rotations and controlled-NOT gate). With the same requirement on quantum hardware, the time cost by \R{QuVIS} is reduced to be less than one half of that by QuMIS. Simultaneously, the error is suppressed algebraically as the depth of the compiled circuit is reduced. As a general compiling approach with high flexibility and efficiency, \R{QuVIS} can be defined for different quantum circuits and adapt to the quantum hardware with different interactions. | 翻訳日:2023-04-27 18:46:09 公開日:2023-04-26 |
# 回転非線形schr\"odinger方程式の作用基底状態の計算 Computing the action ground state for the rotating nonlinear Schr\"odinger equation ( http://arxiv.org/abs/2203.06383v2 ) ライセンス: Link先を確認 | Wei Liu, Yongjun Yuan, Xiaofei Zhao | (参考訳) 回転非線形schr\"odinger方程式に対する作用基底状態の計算について考察する。
これはネハリの制約の下で機能する作用の最小化として読む。
焦点を絞った場合、制約を単純化する問題の等価な定式化を特定する。
そこで本研究では,漸近ラグランジュ乗算器を用いた正規化勾配流法を提案し,エネルギー劣化特性を確立する。
一般的な最適化手法も効率を上げるために応用されている。
デフォーカスの場合、制約のない最小化によって基底状態が得られることを示す。
次に,直接勾配流法と非拘束最適化法を適用した。
数値実験により,提案手法の収束と精度が両事例とも示され,効率の比較が検討された。
最後に, 作用とエネルギー基底状態の関係を数値的に検討する。 We consider the computations of the action ground state for a rotating nonlinear Schr\"odinger equation. It reads as a minimization of the action functional under the Nehari constraint. In the focusing case, we identify an equivalent formulation of the problem which simplifies the constraint. Based on it, we propose a normalized gradient flow method with asymptotic Lagrange multiplier and establish the energy-decaying property. Popular optimization methods are also applied to gain more efficiency. In the defocusing case, we prove that the ground state can be obtained by the unconstrained minimization. Then the direct gradient flow method and unconstrained optimization methods are applied. Numerical experiments show the convergence and accuracy of the proposed methods in both cases, and comparisons on the efficiency are discussed. Finally, the relation between the action and the energy ground states are numerically investigated. | 翻訳日:2023-04-27 18:45:44 公開日:2023-04-26 |
# 電力法スペクトル条件下での最適化のためのタイト収束速度境界 Tight Convergence Rate Bounds for Optimization Under Power Law Spectral Conditions ( http://arxiv.org/abs/2202.00992v2 ) ライセンス: Link先を確認 | Maksim Velikanov and Dmitry Yarotsky | (参考訳) 二次問題に対する最適化の性能はスペクトルの低い部分に依存する。
大きな(効果的に無限次元の)問題の場合、スペクトルのこの部分は、しばしばパワーロー分布によって自然に表現または近似され、勾配に基づくアルゴリズムによってこれらの問題の反復解に対するパワーロー収束率をもたらす。
本稿では,電力法最適化トラジェクトリの問題に対して,より厳密な上限を与える新しいスペクトル条件を提案する。
この条件は、学習速度と運動量の基礎となるスケジュールに重点を置いた、勾配降下、最も急降下、重球、共役勾配など、幅広い最適化アルゴリズムのために、上界と下界の完全な図を作成するために使用します。
特に、スペクトルの所定の形状に対して、最適に加速された方法、そのスケジュール、収束上限が統一的に得られるかを示す。
また、一般指数を持つスペクトルパワー法則の下で、ステプストDescent と Conjugate Gradients の収束率の厳密な下界の最初の証明を提供する。
実験により、得られた収束境界と加速度戦略は、正確に2次最適化問題に関係しているだけでなく、ニューラルネットワークのトレーニングに適用した場合にもかなり正確であることがわかった。 Performance of optimization on quadratic problems sensitively depends on the low-lying part of the spectrum. For large (effectively infinite-dimensional) problems, this part of the spectrum can often be naturally represented or approximated by power law distributions, resulting in power law convergence rates for iterative solutions of these problems by gradient-based algorithms. In this paper, we propose a new spectral condition providing tighter upper bounds for problems with power law optimization trajectories. We use this condition to build a complete picture of upper and lower bounds for a wide range of optimization algorithms -- Gradient Descent, Steepest Descent, Heavy Ball, and Conjugate Gradients -- with an emphasis on the underlying schedules of learning rate and momentum. In particular, we demonstrate how an optimally accelerated method, its schedule, and convergence upper bound can be obtained in a unified manner for a given shape of the spectrum. Also, we provide first proofs of tight lower bounds for convergence rates of Steepest Descent and Conjugate Gradients under spectral power laws with general exponents. Our experiments show that the obtained convergence bounds and acceleration strategies are not only relevant for exactly quadratic optimization problems, but also fairly accurate when applied to the training of neural networks. | 翻訳日:2023-04-27 18:44:46 公開日:2023-04-26 |
# 再開された非凸型加速勾配降下:$o(\epsilon^{-7/4})$複雑性の多対数因子 Restarted Nonconvex Accelerated Gradient Descent: No More Polylogarithmic Factor in the $O(\epsilon^{-7/4})$ Complexity ( http://arxiv.org/abs/2201.11411v4 ) ライセンス: Link先を確認 | Huan Li and Zhouchen Lin | (参考訳) 本稿では,リプシッツ連続勾配とヘシアンを用いた非凸最適化のための勾配法を高速化する。
本稿では,2つの簡単な加速勾配法,再加速勾配降下法(AGD)と再始動重球法(HB)を提案し,初等証明による勾配評価の回数を$O(\epsilon^{-7/4})で$\epsilon$-approximate 1次定常点とすることを確認した。
理論的には、我々の複雑性はいかなる多相因子も隠さないので、$O(\log\frac{1}{\epsilon})$ factorによって最もよく知られた因子よりも改善される。
我々のアルゴリズムは、Nesterovの古典的なAGDまたはPolyakのHBイテレーションと再起動メカニズムのみで構成されているという意味では単純である。
彼らは負の曲率利用や正規化された代理関数の最小化をサブルーチンとして起こさない。
既存の解析とは対照的に,我々の初等証明はより高度な手法を用いており,強い凸 AGD や HB の分析は行わない。
コードはhttps://github.com/lihuanml/restartagdで評価できる。 This paper studies accelerated gradient methods for nonconvex optimization with Lipschitz continuous gradient and Hessian. We propose two simple accelerated gradient methods, restarted accelerated gradient descent (AGD) and restarted heavy ball (HB) method, and establish that our methods achieve an $\epsilon$-approximate first-order stationary point within $O(\epsilon^{-7/4})$ number of gradient evaluations by elementary proofs. Theoretically, our complexity does not hide any polylogarithmic factors, and thus it improves over the best known one by the $O(\log\frac{1}{\epsilon})$ factor. Our algorithms are simple in the sense that they only consist of Nesterov's classical AGD or Polyak's HB iterations, as well as a restart mechanism. They do not invoke negative curvature exploitation or minimization of regularized surrogate functions as the subroutines. In contrast with existing analysis, our elementary proofs use less advanced techniques and do not invoke the analysis of strongly convex AGD or HB. Code is avaliable at https://github.com/lihuanML/RestartAGD. | 翻訳日:2023-04-27 18:44:11 公開日:2023-04-26 |
# 単純なキューが強力なマルチオブジェクトトラッカーに導く Simple Cues Lead to a Strong Multi-Object Tracker ( http://arxiv.org/abs/2206.04656v7 ) ライセンス: Link先を確認 | Jenny Seidenschwarz, Guillem Bras\'o, Victor Castro Serrano, Ismail Elezi, and Laura Leal-Taix\'e | (参考訳) 長い間、マルチオブジェクト追跡の最も一般的なパラダイムはtracking-by-detection(tbd)で、まずオブジェクトを検出してビデオフレーム上で関連付ける。
関連して、ほとんどのモデルは動きと外観の手がかり、例えば再識別ネットワークにリソースを供給した。
注意に基づく最近のアプローチは、データ駆動方式で学習し、印象的な結果を示す。
本稿では,単純で優れたtbd手法がエンドツーエンドモデルの性能を達成することができるかどうかを自問する。
そこで,本研究では,標準再同定ネットワークが外観に基づく追跡に優れている2つの重要な要素を提案する。
我々はその障害事例を広範囲に分析し,我々の外観特徴と単純な運動モデルの組み合わせが強い追跡結果をもたらすことを示した。
私たちのトラッカーは、MOT17、MOT20、BDD100k、DanceTrackの4つの公開データセットに一般化され、最先端のパフォーマンスを実現しています。
https://github.com/dvl-tum/GHOST For a long time, the most common paradigm in Multi-Object Tracking was tracking-by-detection (TbD), where objects are first detected and then associated over video frames. For association, most models resourced to motion and appearance cues, e.g., re-identification networks. Recent approaches based on attention propose to learn the cues in a data-driven manner, showing impressive results. In this paper, we ask ourselves whether simple good old TbD methods are also capable of achieving the performance of end-to-end models. To this end, we propose two key ingredients that allow a standard re-identification network to excel at appearance-based tracking. We extensively analyse its failure cases, and show that a combination of our appearance features with a simple motion model leads to strong tracking results. Our tracker generalizes to four public datasets, namely MOT17, MOT20, BDD100k, and DanceTrack, achieving state-of-the-art performance. https://github.com/dvl-tum/GHOST. | 翻訳日:2023-04-27 18:36:25 公開日:2023-04-26 |
# 3次元手のポーズ推定のための効率的なアノテーションと学習:調査 Efficient Annotation and Learning for 3D Hand Pose Estimation: A Survey ( http://arxiv.org/abs/2206.02257v3 ) ライセンス: Link先を確認 | Takehiko Ohkawa and Ryosuke Furuta and Yoichi Sato | (参考訳) 本稿では,効率的なアノテーションと学習の観点からの3次元手ポーズ推定の体系的レビューを行う。
3Dハンドポーズ推定は、ビデオ理解、AR/VR、ロボット工学といった様々な応用を可能にする可能性から、重要な研究領域となっている。
しかし、モデルの性能は注釈付き3dハンドポーズの品質と量に関係している。
現状では、3Dアノテーションの難しさや閉塞の存在など、このような注釈付き3Dハンドポーズの取得は困難である。
この問題を明らかにするために,手動,合成モデルベース,手動センサベース,計算手法に分類される既存のアノテーション手法の長所と短所を概観する。
さらに, 自己教師付き事前学習, 半教師付き学習, ドメイン適応など, 注釈データ不足時の3d手ポーズの学習方法について検討した。
効率的なアノテーションと学習の研究に基づいて,この分野の限界と今後の方向性についてさらに議論する。 In this survey, we present a systematic review of 3D hand pose estimation from the perspective of efficient annotation and learning. 3D hand pose estimation has been an important research area owing to its potential to enable various applications, such as video understanding, AR/VR, and robotics. However, the performance of models is tied to the quality and quantity of annotated 3D hand poses. Under the status quo, acquiring such annotated 3D hand poses is challenging, e.g., due to the difficulty of 3D annotation and the presence of occlusion. To reveal this problem, we review the pros and cons of existing annotation methods classified as manual, synthetic-model-based, hand-sensor-based, and computational approaches. Additionally, we examine methods for learning 3D hand poses when annotated data are scarce, including self-supervised pretraining, semi-supervised learning, and domain adaptation. Based on the study of efficient annotation and learning, we further discuss limitations and possible future directions in this field. | 翻訳日:2023-04-27 18:36:06 公開日:2023-04-26 |
# 二成分準エルミート系とそのエルミート系におけるエントロピーと絡み合い Entropy and entanglement in a bipartite quasi-Hermitian system and its Hermitian counterparts ( http://arxiv.org/abs/2206.01711v2 ) ライセンス: Link先を確認 | Abed Alsalam Abu Moise, Graham Cox, Marco Merkli | (参考訳) 量子発振器をN$の他の発振器の浴に結合する。
全系は準エルミート・ハミルトニアンで進化する。
エルミート系(Hermitian system)の族であり、ユニタリ写像$W$でパラメータ化される。
我々の主な目標は、エルミート系におけるエントロピーと絡み合いに対する$W$の影響を見つけることである。
すべてのエルミート系の単一発振器の低減密度行列を明示的に計算し、そのフォン・ノイマンエントロピーは$W$にかかわらず、非エルミート系の2倍の共振周期で振動することを示した。
総じて, 発振器と入浴がほぼ全ての時間絡み合っていることを示す。
絡み合いの量は$W$の選択に依存するが、ある期間の平均値が$W$とは独立である。
これらの結果は、与えられた非エルミート系に関連するすべてのエルミート系の物理的性質におけるいくつかの普遍性を記述する。 We consider a quantum oscillator coupled to a bath of $N$ other oscillators. The total system evolves with a quasi-Hermitian Hamiltonian. Associated to it is a family of Hermitian systems, parameterized by a unitary map $W$. Our main goal is to find the influence of $W$ on the entropy and the entanglement in the Hermitian systems. We calculate explicitly the reduced density matrix of the single oscillator for all Hermitian systems and show that, regardless of $W$, their von Neumann entropy oscillates with a common period which is twice that of the non-Hermitian system. We show that generically, the oscillator and the bath are entangled for almost all times. While the amount of entanglement depends on the choice of $W$, it is independent of $W$ when averaged over a period. These results describe some universality in the physical properties of all Hermitian systems associated to a given non-Hermitian one. | 翻訳日:2023-04-27 18:35:50 公開日:2023-04-26 |
# 時系列クラスタリングのための弾性距離関数のレビューと評価 A Review and Evaluation of Elastic Distance Functions for Time Series Clustering ( http://arxiv.org/abs/2205.15181v2 ) ライセンス: Link先を確認 | Chris Holder, Matthew Middlehurst and Anthony Bagnall | (参考訳) 時系列クラスタリングは、ラベルを参照せずに時系列データをグループ化する行為である。
時系列をクラスタ化するアルゴリズムは、2つのグループに分類できる: 時系列固有の距離尺度を用いるアルゴリズムと、時系列から特徴を導出するアルゴリズムである。
どちらのアプローチも通常、$k$-meansのような従来のクラスタリングアルゴリズムに依存している。
我々の焦点は、弾性距離測度、すなわち距離を測りながらある種の配向を行う距離を用いる距離に基づく時系列である。
9つの一般的な弾性距離測度を記述し,k平均およびkメロイドクラスタリングとの比較を行った。
私たちの発見は驚きです。
最も一般的なテクニックであるdynamic time warping(dtw)は、k-meansとのユークリッド距離よりもパフォーマンスが悪く、チューニングしても良いものではない。
k-平均ではなくk-メディドを用いることで、9つの距離測定のクラスタリングが改善された。
DTWは、k-メドイドとのユークリッド距離ほど良くない。
一般に, 整経とともに編集を行う距離測定は良好であり, 1 つの距離測定法であるmove-split-merge-merge (msm) 法が最良である。
また,DBA(Barycentre averaging)を用いたDTWによるクラスタリングとの比較を行った。
DBA は DTW k-means を改善するが,標準 DBA は MSM よりも悪い。
我々の結論は、弾性距離測定による時系列のクラスタリングのベンチマークアルゴリズムとして、k-メディドを用いたMSMを推奨することである。
aeonツールキットの実装、結果、および関連するGitHubリポジトリで結果の再現に関するガイダンスを提供します。 Time series clustering is the act of grouping time series data without recourse to a label. Algorithms that cluster time series can be classified into two groups: those that employ a time series specific distance measure; and those that derive features from time series. Both approaches usually rely on traditional clustering algorithms such as $k$-means. Our focus is on distance based time series that employ elastic distance measures, i.e. distances that perform some kind of realignment whilst measuring distance. We describe nine commonly used elastic distance measures and compare their performance with k-means and k-medoids clustering. Our findings are surprising. The most popular technique, dynamic time warping (DTW), performs worse than Euclidean distance with k-means, and even when tuned, is no better. Using k-medoids rather than k-means improved the clusterings for all nine distance measures. DTW is not significantly better than Euclidean distance with k-medoids. Generally, distance measures that employ editing in conjunction with warping perform better, and one distance measure, the move-split-merge (MSM) method, is the best performing measure of this study. We also compare to clustering with DTW using barycentre averaging (DBA). We find that DBA does improve DTW k-means, but that the standard DBA is still worse than using MSM. Our conclusion is to recommend MSM with k-medoids as the benchmark algorithm for clustering time series with elastic distance measures. We provide implementations in the aeon toolkit, results and guidance on reproducing results on the associated GitHub repository. | 翻訳日:2023-04-27 18:35:35 公開日:2023-04-26 |
# 局所次元推定によるGANの潜時空間の解析 Analyzing the Latent Space of GAN through Local Dimension Estimation ( http://arxiv.org/abs/2205.13182v2 ) ライセンス: Link先を確認 | Jaewoong Choi, Geonho Hwang, Hyunsoo Cho, Myungjoo Kang | (参考訳) 高忠実な画像合成におけるスタイルベースのgan(stylegans)の素晴らしい成功は、その潜在空間の意味的性質を理解する研究の動機となった。
本稿では,多様体としての潜在空間の幾何学的解析を通じてこの問題にアプローチする。
特に,事前学習GANモデルにおける任意の中間層に対する局所次元推定アルゴリズムを提案する。
推定された局所次元は、この潜在変数から可能な意味的変化の数として解釈される。
さらに、この内在次元推定は、潜在空間に対する非教師なしの絡み合いの評価を可能にする。
提案手法は歪みと呼ばれ,学習された潜在空間上の固有接空間の不整合を計測する。
歪は純粋に幾何学的であり、追加の属性情報を必要としない。
それでもDistortionは、グローバルベーシコンパチビリティと教師付きディスタングルメントスコアと高い相関を示す。
我々の研究は、属性ラベルなしで GAN 内の様々な潜在空間の中で最も不整合な潜在空間を選択するための最初のステップである。 The impressive success of style-based GANs (StyleGANs) in high-fidelity image synthesis has motivated research to understand the semantic properties of their latent spaces. In this paper, we approach this problem through a geometric analysis of latent spaces as a manifold. In particular, we propose a local dimension estimation algorithm for arbitrary intermediate layers in a pre-trained GAN model. The estimated local dimension is interpreted as the number of possible semantic variations from this latent variable. Moreover, this intrinsic dimension estimation enables unsupervised evaluation of disentanglement for a latent space. Our proposed metric, called Distortion, measures an inconsistency of intrinsic tangent space on the learned latent space. Distortion is purely geometric and does not require any additional attribute information. Nevertheless, Distortion shows a high correlation with the global-basis-compatibility and supervised disentanglement score. Our work is the first step towards selecting the most disentangled latent space among various latent spaces in a GAN without attribute labels. | 翻訳日:2023-04-27 18:35:10 公開日:2023-04-26 |
# スーパービジョントランス Super Vision Transformer ( http://arxiv.org/abs/2205.11397v3 ) ライセンス: Link先を確認 | Mingbao Lin, Mengzhao Chen, Yuxin Zhang, Chunhua Shen, Rongrong Ji | (参考訳) トークン数において2次的に増加する視覚変換器(ViT)の計算コストを削減しようとする。
本稿では,一度に1つのViTモデルのみを訓練する新しい訓練パラダイムを提案するが,様々な計算コストで画像認識性能を向上させることができる。
ここで、訓練されたvitモデルはsuper vision transformer(supervit)と呼ばれ、複数のサイズの入ってくるパッチを解決し、複数の保持率(トークンの保持率)を持つ情報トークンを保存し、利用可能なハードウェアリソースが時折変化することを考慮し、推論のための優れたハードウェア効率を達成する能力を備えている。
ImageNetの実験結果から, 我々のSuperViTは, 性能の向上とともに, ViTモデルの計算コストを大幅に削減できることが示された。
例えば、DeiT-Sの2倍FLOPを減少させ、Top-1の精度を0.2%、1.5倍の精度で0.7%向上させる。
また、我々のSuperViTは、効率的な視覚変換器に関する既存の研究を著しく上回っている。
例えば、同じ量のFLOPを消費する場合、SuperViTはDeiT-Sをバックボーンとして使用する場合、最近のSOTA(State-of-the-art) EViTを1.1%上回る。
この作業のプロジェクトはhttps://github.com/lmbxmu/supervit.comで公開されている。 We attempt to reduce the computational costs in vision transformers (ViTs), which increase quadratically in the token number. We present a novel training paradigm that trains only one ViT model at a time, but is capable of providing improved image recognition performance with various computational costs. Here, the trained ViT model, termed super vision transformer (SuperViT), is empowered with the versatile ability to solve incoming patches of multiple sizes as well as preserve informative tokens with multiple keeping rates (the ratio of keeping tokens) to achieve good hardware efficiency for inference, given that the available hardware resources often change from time to time. Experimental results on ImageNet demonstrate that our SuperViT can considerably reduce the computational costs of ViT models with even performance increase. For example, we reduce 2x FLOPs of DeiT-S while increasing the Top-1 accuracy by 0.2% and 0.7% for 1.5x reduction. Also, our SuperViT significantly outperforms existing studies on efficient vision transformers. For example, when consuming the same amount of FLOPs, our SuperViT surpasses the recent state-of-the-art (SOTA) EViT by 1.1% when using DeiT-S as their backbones. The project of this work is made publicly available at https://github.com/lmbxmu/SuperViT. | 翻訳日:2023-04-27 18:34:57 公開日:2023-04-26 |
# マンガテキスト分解モデルとマルチスケールフィルタリング法によるzro2セラミックス軸受ボール表面欠陥検出のための結合強化アルゴリズム A Coupling Enhancement Algorithm for ZrO2 Ceramic Bearing Ball Surface Defect Detection Based on Cartoon-texture Decomposition Model and Multi-Scale Filtering Method ( http://arxiv.org/abs/2205.11145v2 ) ライセンス: Link先を確認 | Wei Wang, Xin Zhang, Jiaqi Yi, Xianqi Liao, Wenjie Li, Zhenhong Li | (参考訳) 本研究では,zro2セラミックス軸受ボールの表面欠陥検出精度の向上を目的とした。
画像試料のノイズ損傷と組み合わせて, マンガ・テクスチャ分解モデルに基づくZrO2セラミック軸受球の表面欠陥検出法を提案した。
球面欠陥検出システムを用いたZrO2セラミックスの製作
ガウス曲率モデルを用いてzro2セラミック軸受ボール表面欠陥像を分解し、ウィナーフィルタとウェーブレット値領域フィルタを用いて分解像層を濾過した。
その後、透明で損傷のないzro2セラミックベアリングボール表面欠陥画像に融合して検出した。
実験結果から,zro2セラミックス軸受ボール表面欠陥の画像デノイジング法において,画像詳細を保ちながらデノイジングできることがわかった。
画像のPSNRは34.1dB、SSIMは0.9476、検出精度は95.8%、単一欠陥画像の検出速度は191ms/imgである。
この方法は、ZrO2セラミックのボール表面欠陥検出の効率と精度を効果的に向上させることができる。 This study aimed to improve the surface defect detection accuracy of ZrO2 ceramic bearing balls. Combined with the noise damage of the image samples, a surface defect detection method for ZrO2 ceramic bearing balls based on cartoon-texture decomposition model was proposed. Building a ZrO2 ceramic bearing ball surface defect detection system. The ZrO2 ceramic bearing ball surface defect image was decomposed by using the Gaussian curvature model and the decomposed image layer was filtered by using Winner filter and wavelet value domain filter. Then they were fused into a clear and undamaged ZrO2 ceramic bearing ball surface defect image and detected. The experimental results show that the image denoising method of ZrO2 ceramic bearing ball surface defect based on cartoon-texture decomposition model can denoise while retaining the image details. The PSNR of image is 34.1 dB, the SSIM is 0.9476, the detection accuracy is 95.8%, and the detection speed of a single defect image is 191ms / img. This method can effectively improve the efficiency and accuracy of ZrO2 ceramic bearing ball surface defect detection. | 翻訳日:2023-04-27 18:34:33 公開日:2023-04-26 |
# 慢性緊急時在宅シェルタークライアントの早期同定のためのルール検索フレームワーク A Rule Search Framework for the Early Identification of Chronic Emergency Homeless Shelter Clients ( http://arxiv.org/abs/2205.09883v3 ) ライセンス: Link先を確認 | Caleb John and Geoffrey G. Messier | (参考訳) 本稿では,長期ないし慢性的なシェルターユーザになるリスクのある緊急避難所クライアントの早期識別にルールサーチ手法を用いる。
4万人以上の個人との12年間のサービスインタラクションを含む、北米の主要シェルターのデータセットを使用して、unordered search(opus)アルゴリズムを最適化したpruningは、直感的かつ効果的なルールを開発するために使用される。
ルールは、リスクの高いクライアントを支援的な住宅に移行するための住宅プログラムのリアルタイム配信と互換性のあるフレームワーク内で評価される。
その結果, 本研究の手法を適用した場合, 慢性シェルター使用リスクのクライアント識別の中央値が297日から162日に低下することが認められた。 This paper uses rule search techniques for the early identification of emergency homeless shelter clients who are at risk of becoming long term or chronic shelter users. Using a data set from a major North American shelter containing 12 years of service interactions with over 40,000 individuals, the optimized pruning for unordered search (OPUS) algorithm is used to develop rules that are both intuitive and effective. The rules are evaluated within a framework compatible with the real-time delivery of a housing program meant to transition high risk clients to supportive housing. Results demonstrate that the median time to identification of clients at risk of chronic shelter use drops from 297 days to 162 days when the methods in this paper are applied. | 翻訳日:2023-04-27 18:34:14 公開日:2023-04-26 |
# deconet:一般化誤差境界を持つ解析に基づく圧縮センシングのための展開ネットワーク DECONET: an Unfolding Network for Analysis-based Compressed Sensing with Generalization Error Bounds ( http://arxiv.org/abs/2205.07050v6 ) ライセンス: Link先を確認 | Vicky Kouni, Yannis Panagakis | (参考訳) 解析スパーシティーに基づく圧縮センシングのための新しい深部展開ネットワークを提案する。
提案するネットワークデコードネットワーク(DECONET)は,ベクトルを不完全でノイズの多い測定値から再構成するデコーダと,DeCONETの層間で共有される冗長なスペーシング解析演算子を共同で学習する。
さらに、DECNETの仮説クラスを定式化し、関連するRadecher複雑性を推定する。
次に,この推定値を用いてデコネットの一般化誤差に対して有意義な上限を与える。
最後に、理論結果の妥当性を評価し、合成データと実世界のデータセットの両方において、最先端の展開ネットワークとの比較を行う。
実験の結果,提案するネットワークは,すべてのデータセットに対して一貫してベースラインを上回っており,その動作は理論的な結果に合致していることがわかった。 We present a new deep unfolding network for analysis-sparsity-based Compressed Sensing. The proposed network coined Decoding Network (DECONET) jointly learns a decoder that reconstructs vectors from their incomplete, noisy measurements and a redundant sparsifying analysis operator, which is shared across the layers of DECONET. Moreover, we formulate the hypothesis class of DECONET and estimate its associated Rademacher complexity. Then, we use this estimate to deliver meaningful upper bounds for the generalization error of DECONET. Finally, the validity of our theoretical results is assessed and comparisons to state-of-the-art unfolding networks are made, on both synthetic and real-world datasets. Experimental results indicate that our proposed network outperforms the baselines, consistently for all datasets, and its behaviour complies with our theoretical findings. | 翻訳日:2023-04-27 18:34:03 公開日:2023-04-26 |
# 正規化フローとコントラストデータを用いた画像外乱検出の正差分布 Positive Difference Distribution for Image Outlier Detection using Normalizing Flows and Contrastive Data ( http://arxiv.org/abs/2208.14024v2 ) ライセンス: Link先を確認 | Robert Schmier, Ullrich K\"othe, Christoph-Nikolas Straehle | (参考訳) トレーニングデータから逸脱したテストデータを検出することは、安全で堅牢な機械学習の中心的な問題である。
生成モデル(例えば、標準的なログライクなトレーニングによる正規化フロー)によって学習される確率は、外れ値スコアとして不十分である。
非ラベル付き補助データセットと確率的外れ値を用いた異常検出を提案する。
補助データセットで訓練された自己教師付き特徴抽出器を用いて, 分布内データの確率を最大化し, 対比的データセットの確率を最小化することにより, 抽出された特徴の正規化フローを訓練する。
これは分布と対照的な特徴密度の正規化正の差を学習することと同値である。
ベンチマークデータセットで実験を行い,その確率,確率比,異常検出法と比較した。 Detecting test data deviating from training data is a central problem for safe and robust machine learning. Likelihoods learned by a generative model, e.g., a normalizing flow via standard log-likelihood training, perform poorly as an outlier score. We propose to use an unlabelled auxiliary dataset and a probabilistic outlier score for outlier detection. We use a self-supervised feature extractor trained on the auxiliary dataset and train a normalizing flow on the extracted features by maximizing the likelihood on in-distribution data and minimizing the likelihood on the contrastive dataset. We show that this is equivalent to learning the normalized positive difference between the in-distribution and the contrastive feature density. We conduct experiments on benchmark datasets and compare to the likelihood, the likelihood ratio and state-of-the-art anomaly detection methods. | 翻訳日:2023-04-27 18:28:31 公開日:2023-04-26 |
# 低次元量子重力における普遍ランダム行列相関によるweil-petersson体積の制約 Constraining Weil-Petersson volumes by universal random matrix correlations in low-dimensional quantum gravity ( http://arxiv.org/abs/2208.13802v2 ) ライセンス: Link先を確認 | Torsten Weber, Fabian Haneder, Klaus Richter and Juan Diego Urbina | (参考訳) 2019年にサド、シェンカー、スタンフォードによる二重スケール行列アンサンブルとジャッキー・タイテルボイム量子重力の双対性を発見し、普遍ランダム行列理論(RMT)の極限における2つの理論の整合性がリーマン多様体のモジュライ空間の体積に制約を課すことを示す。
これらの体積は多項式函数、ヴェイユ=ピーターソン体積で与えられるもので、解析が難しいという有名な非線形再帰公式を解く。
以上の結果から,weil-peterssonボリュームの係数間の線形関係が示唆されるため,シンボリック計算のための厳密なテストと,その構成を単純化する可能性も示唆された。
そこで本稿では,双曲多様体のモジュライ空間に関する数学的に難しい側面を,普遍的rmt結果を入力として理解するための長期プログラムを提案する。 Based on the discovery of the duality between Jackiw-Teitelboim quantum gravity and a double-scaled matrix ensemble by Saad, Shenker and Stanford in 2019, we show how consistency between the two theories in the universal Random Matrix Theory (RMT) limit imposes a set of constraints on the volumes of moduli spaces of Riemannian manifolds. These volumes are given in terms of polynomial functions, the Weil-Petersson volumes, solving a celebrated nonlinear recursion formula that is notoriously difficult to analyze. Since our results imply linear relations between the coefficients of the Weil-Petersson volumes, they therefore provide both a stringent test for their symbolic calculation and a possible way of simplifying their construction. In this way, we propose a long-term program to improve the understanding of mathematically hard aspects concerning moduli spaces of hyperbolic manifolds by using universal RMT results as input. | 翻訳日:2023-04-27 18:28:17 公開日:2023-04-26 |
# n$-partiteシステムにおけるn$-partiteシステムの絡みのない強い量子非局所性 Strong quantum nonlocality without entanglement in $n$-partite system with even $n$ ( http://arxiv.org/abs/2208.07051v4 ) ライセンス: Link先を確認 | Huaqi Zhou, Ting Gao, Fengli Yan | (参考訳) 多成分系では、絡み合いのない強い量子非局所性の研究が近年大きな進展を遂げている。
しかし、偶数系における強い量子非局所性を持つ直交積集合の存在は未だ分かっていない。
ここで偶数は4より大きい。
本稿では,$n$-partite系における強非局所直交積集合をすべての$n$に対して構築することに成功し,Halderらによるオープンな疑問に答える。
https://journals.aps.org/prl/abstract/10.1103/PhysRevLett.122.040403} {Phys。
Rev. Lett \textbf{122}, 040403 (2019)} と Yuan et al.
https://journals.aps.org/pra/abstract/10.1103/PhysRevA.102.042228} {Phys。
任意の可能なパーティーシステムに対して、 a \textbf{102}, 042228 (2020)}] を改訂する。
したがって、空間 $\otimes_{i=1}^{n}\mathcal{c}^{d_{i}}$ (n,d_{i}\geq 3$) における強非局所直交積集合の一般構成を見つけ、すべての n$ に対して、任意の$n$パーティト系において強非局所であるような不完全直交積基底が存在することを示す。
新しく構築した直交積集合は非対称である。
奇数系におけるこれらの集合と既知の直交積の差と関係を解析する。
さらに,追加の絡み合ったリソースを用いて,集合に対する局所状態識別プロトコルを提案する。
少なくとも2つのサブシステムが3以上の次元を持つ場合、プロトコルはテレポーテーションベースのプロトコルよりも絡み合いが少ない。
強非局所集合は、すべての当事者が一緒にいることが起こらない限り、情報が完全にアクセスできないことを意味する。
アプリケーションとして、我々は集合をマルチパーティイトシステムに隠されたローカル情報と接続する。 In multipartite systems, great progress has been made recently on the study of strong quantum nonlocality without entanglement. However, the existence of orthogonal product sets with strong quantum nonlocality in even party systems remains unknown. Here the even number is greater than four. In this paper, we successfully construct strongly nonlocal orthogonal product sets in $n$-partite systems for all even $n$, which answers the open questions given by Halder et al. [\href{https://journals.aps.org/prl/abstract/10.1103/PhysRevLett.122.040403} {Phys. Rev. Lett \textbf{122}, 040403 (2019)}] and Yuan et al. [\href{https://journals.aps.org/pra/abstract/10.1103/PhysRevA.102.042228} {Phys. Rev. A \textbf{102}, 042228 (2020)}] for any possible even party systems. Thus, we find general construction of strongly nonlocal orthogonal product sets in space $\otimes_{i=1}^{n}\mathcal{C}^{d_{i}}$ ($n,d_{i}\geq 3$) and show that there do exist incomplete orthogonal product bases that can be strongly nonlocal in any possible $n$-partite systems for all even $n$. Our newly constructed orthogonal product sets are asymmetric. We analyze the differences and connections between these sets and the known orthogonal product sets in odd party systems. In addition, we present a local state discrimination protocol for our sets by using additional entangled resource. When at least two subsystems have dimensions greater than three, the protocol consumes less entanglement than teleportation-based protocol. Strongly nonlocal set implies that the information cannot be completely accessed as long as it does not happen that all parties are together. As an application, we connect our sets with local information hiding in multipartite system. | 翻訳日:2023-04-27 18:27:34 公開日:2023-04-26 |
# 多段Stern-Gerlach実験(追加付録付き) Multi-stage Stern-Gerlach experiment modeled (with additional appendices) ( http://arxiv.org/abs/2208.06471v4 ) ライセンス: Link先を確認 | Lihong V. Wang | (参考訳) Frisch と Segr\`e が行った古典的な多段式 Stern$-$Gerlach 実験では、Majorana (Landau$-$Zener) と Rabi formulae は実験から遠ざかる一方、電子スピン崩壊の物理機構は未同定のままである。
ここで、物理共量子の概念を導入することは、プラウシブルな物理メカニズムを提供し、絶対単位における実験的な観測を、100万未満のp値に適合することなく予測する(つまり、パラメータが調整されない)。
さらに、共量子の概念は、Stern$-$Gerlach実験における電子スピンの波動関数、密度演算子、不確実性関係を統計的に再現することで、相関する。 In the classic multi-stage Stern$-$Gerlach experiment conducted by Frisch and Segr\`e, the Majorana (Landau$-$Zener) and Rabi formulae diverge afar from the experimental observation while the physical mechanism for electron-spin collapse remains unidentified. Here, introducing the physical co-quantum concept provides a plausible physical mechanism and predicts the experimental observation in absolute units without fitting (i.e., no parameters adjusted) with a p-value less than one per million, which is the probability that the co-quantum theory happens to match the experimental observation purely by chance. Further, the co-quantum concept is corroborated by statistically reproducing exactly the wave function, density operator, and uncertainty relation for electron spin in Stern$-$Gerlach experiments. | 翻訳日:2023-04-27 18:27:00 公開日:2023-04-26 |
# 衝突検出アルゴリズムの高精度シミュレーションのための拡張ドライバ挙動モデル Augmented Driver Behavior Models for High-Fidelity Simulation Study of Crash Detection Algorithms ( http://arxiv.org/abs/2208.05540v2 ) ライセンス: Link先を確認 | Ahura Jami, Mahdi Razzaghpour, Hussein Alnuweiri, Yaser P. Fallah | (参考訳) Connected and Automated Vehicles(CAV)の安全性と効率性の開発には、大量のテストと評価が必要である。
これらのシステムのクリティカルかつ危険な状況における運用の必要性は、その評価の負担を非常に高く、潜在的に危険であり、時間を要する。
代替案として、研究者はシミュレーションプラットフォームを使ってアルゴリズムや設計を研究し、評価しようとする。
CAVや他の車両と相互作用するドライバーや人間の動作をモデル化することは、そのようなシミュレーションの主要な課題の1つである。
人間の行動に最適なモデルを開発することは困難な課題であり、オープンな問題である一方、ドライバの行動のシミュレーターで使われる現在のモデルの大幅な拡張を示す。
本稿では,人間駆動車と自動走行車の両方を含むハイブリッド輸送システムのシミュレーションプラットフォームを提案する。
さらに、人間の運転課題を分解し、大規模交通シナリオをシミュレーションするためのモジュール方式のアプローチを提供し、自動化およびアクティブな安全システムの徹底的な調査を可能にする。
インターコネクテッドモジュールによるこのような表現は、ドライバの異なるクラスを表現するように調整できる人間解釈システムを提供する。
さらに、大きな駆動データセットを分析し、異なる駆動特性を最もよく記述する表現的パラメータを抽出する。
最後に,シミュレータ内でも同様に密集した交通シナリオを再現し,交通ネットワークの性能と安全性に影響を及ぼすさまざまな人為的・システム固有の要因を網羅的に分析する。 Developing safety and efficiency applications for Connected and Automated Vehicles (CAVs) require a great deal of testing and evaluation. The need for the operation of these systems in critical and dangerous situations makes the burden of their evaluation very costly, possibly dangerous, and time-consuming. As an alternative, researchers attempt to study and evaluate their algorithms and designs using simulation platforms. Modeling the behavior of drivers or human operators in CAVs or other vehicles interacting with them is one of the main challenges of such simulations. While developing a perfect model for human behavior is a challenging task and an open problem, we present a significant augmentation of the current models used in simulators for driver behavior. In this paper, we present a simulation platform for a hybrid transportation system that includes both human-driven and automated vehicles. In addition, we decompose the human driving task and offer a modular approach to simulating a large-scale traffic scenario, allowing for a thorough investigation of automated and active safety systems. Such representation through Interconnected modules offers a human-interpretable system that can be tuned to represent different classes of drivers. Additionally, we analyze a large driving dataset to extract expressive parameters that would best describe different driving characteristics. Finally, we recreate a similarly dense traffic scenario within our simulator and conduct a thorough analysis of various human-specific and system-specific factors, studying their effect on traffic network performance and safety. | 翻訳日:2023-04-27 18:26:43 公開日:2023-04-26 |
# 対人訓練における重要なサンプルに着目した1-vs-the-Rest Loss One-vs-the-Rest Loss to Focus on Important Samples in Adversarial Training ( http://arxiv.org/abs/2207.10283v3 ) ライセンス: Link先を確認 | Sekitoshi Kanai, Shin'ya Yamaguchi, Masanori Yamada, Hiroshi Takahashi, Kentaro Ohno, Yasutoshi Ida | (参考訳) 本稿では,敵訓練における新たな損失関数を提案する。
対向訓練は、例えば、高いモデル能力の必要性といった困難を抱えているため、クロスエントロピー損失の重み付けによる重要なデータポイントにフォーカスすることが注目されている。
しかし、Auto-Attackのような高度な攻撃には弱い。
本稿では,その脆弱性の原因が,真のラベルのロジットと他のラベルとのマージンが小さいことを実験的に明らかにする。
ニューラルネットワークはロジットに基づいてデータポイントを分類するので、ロジットマージンは攻撃による最大のロジットの反転を避けるのに十分な大きさでなければならない。
重要なサンプルのロジットマージンを増大させるのではなく、クロスエントロピー損失と比較して重要でないサンプルのロジットマージンを減少させる。
重要なサンプルのロジットマージンを増やすために,ロジットマージンが小さい重要なサンプルに対して,クロスエントロピーからワン・vs・ザ・レスト損失に切り替える1-vs-the-rest loss (SOVR) を提案する。
1-vs-the-rest損失は単純な問題に対する重み付きクロスエントロピー損失の2倍のロジットマージンを増加させる。
我々は,従来の方法と異なり,SOVRが重要なサンプルのロジットマージンを増大させ,Auto-Attackに対するロジット性を重要視する手法よりも向上させることを実験的に確認した。 This paper proposes a new loss function for adversarial training. Since adversarial training has difficulties, e.g., necessity of high model capacity, focusing on important data points by weighting cross-entropy loss has attracted much attention. However, they are vulnerable to sophisticated attacks, e.g., Auto-Attack. This paper experimentally reveals that the cause of their vulnerability is their small margins between logits for the true label and the other labels. Since neural networks classify the data points based on the logits, logit margins should be large enough to avoid flipping the largest logit by the attacks. Importance-aware methods do not increase logit margins of important samples but decrease those of less-important samples compared with cross-entropy loss. To increase logit margins of important samples, we propose switching one-vs-the-rest loss (SOVR), which switches from cross-entropy to one-vs-the-rest loss for important samples that have small logit margins. We prove that one-vs-the-rest loss increases logit margins two times larger than the weighted cross-entropy loss for a simple problem. We experimentally confirm that SOVR increases logit margins of important samples unlike existing methods and achieves better robustness against Auto-Attack than importance-aware methods. | 翻訳日:2023-04-27 18:26:19 公開日:2023-04-26 |
# カウント時系列の確率的再調 Probabilistic Reconciliation of Count Time Series ( http://arxiv.org/abs/2207.09322v4 ) ライセンス: Link先を確認 | Giorgio Corani, Dario Azzimonti, Nicol\`o Rubattu | (参考訳) 予測和解は重要な研究テーマである。
しかし、現在数列の確率的和解のための形式的枠組みや実践的手法は存在しない。
本稿では,実数値変数と数変数の両方に適用可能な整合性および整合確率予測の定義と,確率整合の新しい手法を提案する。
これはベイズの法則の一般化に基づいており、実値と数変数の両方を調整できる。
カウント変数に適用すると、調整された確率質量関数が得られる。
数変数の時間的調整による実験は,確率的ガウス和合に比べて大きな予測改善を示した。 Forecast reconciliation is an important research topic. Yet, there is currently neither formal framework nor practical method for the probabilistic reconciliation of count time series. In this paper we propose a definition of coherency and reconciled probabilistic forecast which applies to both real-valued and count variables and a novel method for probabilistic reconciliation. It is based on a generalization of Bayes' rule and it can reconcile both real-value and count variables. When applied to count variables, it yields a reconciled probability mass function. Our experiments with the temporal reconciliation of count variables show a major forecast improvement compared to the probabilistic Gaussian reconciliation. | 翻訳日:2023-04-27 18:25:53 公開日:2023-04-26 |
# Pixelによる言語モデリング Language Modelling with Pixels ( http://arxiv.org/abs/2207.06991v2 ) ライセンス: Link先を確認 | Phillip Rust, Jonas F. Lotz, Emanuele Bugliarello, Elizabeth Salesky, Miryam de Lhoneux, Desmond Elliott | (参考訳) 言語モデルは入力の有限セット上で定義され、サポート対象言語の数を拡大しようとすると語彙的ボトルネックが生じる。
このボトルネックに取り組むと、埋め込み行列で表現できるものと出力層での計算問題との間にトレードオフが生じる。
本稿では,画素ベースの言語エンコーダであるpixelについて述べる。
PIXELは、テキストを画像としてレンダリングする事前訓練された言語モデルであり、正書法的な類似性やピクセルの共活性化に基づく言語間の表現の転送を可能にする。
PIXELはトークン上の分布を予測する代わりに、マスクされたパッチのピクセルを再構築するように訓練されている。
我々は、BERTと同じ英語データに基づいて86MパラメータPIXELモデルを事前学習し、様々な非ラテン文字を含む様々な言語で構文的および意味的タスクを評価する。
PIXELは、事前学習データには見つからないスクリプトの構文および意味処理タスクにおいてBERTを大幅に上回るが、ラテン文字で作業する場合、PIXELはBERTよりもわずかに弱い。
さらに、PIXELは正書法攻撃や言語コードスイッチングに対してBERTよりも堅牢であり、さらにピクセルによる言語モデリングの利点を裏付ける。 Language models are defined over a finite set of inputs, which creates a vocabulary bottleneck when we attempt to scale the number of supported languages. Tackling this bottleneck results in a trade-off between what can be represented in the embedding matrix and computational issues in the output layer. This paper introduces PIXEL, the Pixel-based Encoder of Language, which suffers from neither of these issues. PIXEL is a pretrained language model that renders text as images, making it possible to transfer representations across languages based on orthographic similarity or the co-activation of pixels. PIXEL is trained to reconstruct the pixels of masked patches instead of predicting a distribution over tokens. We pretrain the 86M parameter PIXEL model on the same English data as BERT and evaluate on syntactic and semantic tasks in typologically diverse languages, including various non-Latin scripts. We find that PIXEL substantially outperforms BERT on syntactic and semantic processing tasks on scripts that are not found in the pretraining data, but PIXEL is slightly weaker than BERT when working with Latin scripts. Furthermore, we find that PIXEL is more robust than BERT to orthographic attacks and linguistic code-switching, further confirming the benefits of modelling language with pixels. | 翻訳日:2023-04-27 18:25:45 公開日:2023-04-26 |
# 不変葉、多様体およびオートエンコーダを用いたデータ駆動還元次数モデル Data-driven reduced order models using invariant foliations, manifolds and autoencoders ( http://arxiv.org/abs/2206.12269v3 ) ライセンス: Link先を確認 | Robert Szalai | (参考訳) 本稿では,物理システムからの還元順序モデル(rom)の同定方法について検討する。
ROMは観察されたダイナミクスの不変部分集合をキャプチャする。
物理系は、不変葉、不変多様体、オートエンコーダ、方程式のないモデルという4つの数学的モデルと関連付けることができる。
不変多様体と方程式のないモデルの同定には、システムの閉ループ操作が必要である。
不変葉とオートエンコーダはオフラインのデータも使用できる。
不変葉や不変多様体のみがROMを識別でき、残りは完備モデルを特定できる。
したがって、既存のデータからROMを識別する一般的な場合、不変の葉を用いてのみ達成できる。
不変葉分を見つけるには高次元関数を近似する必要がある。
関数近似では、次元が増加するにつれて複雑性が線形に増加する圧縮テンソル係数を持つ多項式を用いる。
不変多様体は葉の固定葉としても見ることができる。
これは、不変多様体の小さな近傍における葉の解消のみを必要とし、この過程を大幅に単純化する。
不変葉分と対応する不変多様体を組み合わせることで、正確なROMが得られる。
メカニカルシステムにおいて典型的なフォーカス型平衡の場合、romの解析を行う。
不変葉分あるいは不変多様体によって定義される非線形座標系は、即時周波数と減衰率を歪め、補正する。
例を通して不変な葉と多様体の計算を説明し、同時にクープマン固有関数とオートエンコーダが同じ条件下で正確なROMを取得できないことを示す。 This paper explores how to identify a reduced order model (ROM) from a physical system. A ROM captures an invariant subset of the observed dynamics. We find that there are four ways a physical system can be related to a mathematical model: invariant foliations, invariant manifolds, autoencoders and equation-free models. Identification of invariant manifolds and equation-free models require closed-loop manipulation of the system. Invariant foliations and autoencoders can also use off-line data. Only invariant foliations and invariant manifolds can identify ROMs, the rest identify complete models. Therefore, the common case of identifying a ROM from existing data can only be achieved using invariant foliations. Finding an invariant foliation requires approximating high-dimensional functions. For function approximation, we use polynomials with compressed tensor coefficients, whose complexity increases linearly with increasing dimensions. An invariant manifold can also be found as the fixed leaf of a foliation. This only requires us to resolve the foliation in a small neighbourhood of the invariant manifold, which greatly simplifies the process. Combining an invariant foliation with the corresponding invariant manifold provides an accurate ROM. We analyse the ROM in case of a focus type equilibrium, typical in mechanical systems. The nonlinear coordinate system defined by the invariant foliation or the invariant manifold distorts instantaneous frequencies and damping ratios, which we correct. Through examples we illustrate the calculation of invariant foliations and manifolds, and at the same time show that Koopman eigenfunctions and autoencoders fail to capture accurate ROMs under the same conditions. | 翻訳日:2023-04-27 18:25:22 公開日:2023-04-26 |
# 異常検出のための学習画像表現:創薬における組織学的変化の発見への応用 Learning image representations for anomaly detection: application to discovery of histological alterations in drug development ( http://arxiv.org/abs/2210.07675v5 ) ライセンス: Link先を確認 | Igor Zingman, Birgit Stierstorfer, Charlotte Lempp, Fabian Heinemann | (参考訳) 病理組織像における異常検出システムを提案する。
組織学では、正常なサンプルは通常豊富であるが、異常な(病理学的)症例は少ないか、使用できない。
このような設定下では、健全なデータで訓練された1つのクラス分類器は、分布異常なサンプルを検出することができる。
このようなアプローチと、事前訓練された画像の畳み込みニューラルネットワーク(CNN)表現が組み合わさって、以前は異常検出(AD)に用いられていた。
しかし、事前訓練された市販のcnn表現は、組織の異常な状況に敏感ではなく、健康な組織の自然な変化は遠方からの表現をもたらす可能性がある。
健康組織における関連詳細への表現を適応させるために, 異なる種, 臓器, 染色試薬の健康組織を識別する補助課題に対して, cnnを訓練することを提案する。
健全なサンプルには上記のラベルが付属するため、追加のラベル付け作業は必要ない。
トレーニング中、我々はセンターロス項でコンパクトな画像表現を強制し、ADの表現をさらに改善する。
提案するシステムは,肝臓異常の公開データセット上で確立したad法を上回っている。
さらに,肝異常の定量化に特化する従来の方法と同等の結果を得た。
本手法は, 早期開発段階における候補薬の毒性評価に有用であり, 費用のかかる後期薬乱用を低減できることを示す。 We present a system for anomaly detection in histopathological images. In histology, normal samples are usually abundant, whereas anomalous (pathological) cases are scarce or not available. Under such settings, one-class classifiers trained on healthy data can detect out-of-distribution anomalous samples. Such approaches combined with pre-trained Convolutional Neural Network (CNN) representations of images were previously employed for anomaly detection (AD). However, pre-trained off-the-shelf CNN representations may not be sensitive to abnormal conditions in tissues, while natural variations of healthy tissue may result in distant representations. To adapt representations to relevant details in healthy tissue we propose training a CNN on an auxiliary task that discriminates healthy tissue of different species, organs, and staining reagents. Almost no additional labeling workload is required, since healthy samples come automatically with aforementioned labels. During training we enforce compact image representations with a center-loss term, which further improves representations for AD. The proposed system outperforms established AD methods on a published dataset of liver anomalies. Moreover, it provided comparable results to conventional methods specifically tailored for quantification of liver anomalies. We show that our approach can be used for toxicity assessment of candidate drugs at early development stages and thereby may reduce expensive late-stage drug attrition. | 翻訳日:2023-04-27 18:18:36 公開日:2023-04-26 |
# マルチタスクメタ学習:見えないタスクに適応する方法を学ぶ Multi-Task Meta Learning: learn how to adapt to unseen tasks ( http://arxiv.org/abs/2210.06989v4 ) ライセンス: Link先を確認 | Richa Upadhyay, Prakash Chandra Chhipa, Ronald Phlypo, Rajkumar Saini, Marcus Liwicki | (参考訳) 本研究は,MTL(Multi-Task Learning)とメタラーニング(Meta Learning)という2つの学習パラダイムを統合したMTML(Multi-task Meta Learning)を提案する。
特に、MTLの要素である複数のタスクの同時学習と、メタ学習の品質である新しいタスクへの迅速な適応に焦点を当てている。
すべてのタスクが分類された場合や、すべてのタスクが回帰的なタスクである場合など)、一般的には同質なタスクとは対照的に、異なる種類の異質なタスクに注目することが重要である。
基本的な考え方はマルチタスクモデルをトレーニングすることであり、未確認タスクが導入されると、より少ないステップで学習できると同時に、新しいタスクに対する従来の単一タスク学習やMTLへのインクルージョンと同等のパフォーマンスを提供する。
様々な実験を行い、2つのデータセットと4つのタスク、nyu-v2とタスクノミーデータセットでこのパラダイムを実証し、意味セグメンテーション、深さ推定、表面正規推定、エッジ検出を行う。
mtmlは、nyu-v2データセットの4つのタスクのうち3つ、taskonomyデータセットの4つのうち2つで最先端の結果を得る。
タスクノミーデータセットでは,多くの擬似ラベル付きセグメンテーションマスクは,真相に現れるはずのクラスが欠落していることが判明したが,MTMLアプローチはこれらの欠落したクラスの検出に有効であることが判明し,質的な結果が得られた。
一方,不正確な真実ラベルの存在により,定量的にその性能に影響を及ぼした。
再現性のためのソースコードはhttps://github.com/ricupa/MTML-learn-how-to-adapt-to-unseen-tasksにある。 This work proposes Multi-task Meta Learning (MTML), integrating two learning paradigms Multi-Task Learning (MTL) and meta learning, to bring together the best of both worlds. In particular, it focuses simultaneous learning of multiple tasks, an element of MTL and promptly adapting to new tasks, a quality of meta learning. It is important to highlight that we focus on heterogeneous tasks, which are of distinct kind, in contrast to typically considered homogeneous tasks (e.g., if all tasks are classification or if all tasks are regression tasks). The fundamental idea is to train a multi-task model, such that when an unseen task is introduced, it can learn in fewer steps whilst offering a performance at least as good as conventional single task learning on the new task or inclusion within the MTL. By conducting various experiments, we demonstrate this paradigm on two datasets and four tasks: NYU-v2 and the taskonomy dataset for which we perform semantic segmentation, depth estimation, surface normal estimation, and edge detection. MTML achieves state-of-the-art results for three out of four tasks for the NYU-v2 dataset and two out of four for the taskonomy dataset. In the taskonomy dataset, it was discovered that many pseudo-labeled segmentation masks lacked classes that were expected to be present in the ground truth; however, our MTML approach was found to be effective in detecting these missing classes, delivering good qualitative results. While, quantitatively its performance was affected due to the presence of incorrect ground truth labels. The the source code for reproducibility can be found at https://github.com/ricupa/MTML-learn-how-to-adapt-to-unseen-tasks. | 翻訳日:2023-04-27 18:18:16 公開日:2023-04-26 |
# 位置決め誤差にロバストな協調知覚システム A Cooperative Perception System Robust to Localization Errors ( http://arxiv.org/abs/2210.06289v2 ) ライセンス: Link先を確認 | Zhiying Song, Fuxi Wen, Hailiang Zhang, Jun Li | (参考訳) 共同認識は安全クリティカルな自律運転アプリケーションにおいて困難であり,共有位置の誤差や原因は,不正確な相対変換推定を引き起こし,Ego車両のロバストマッピングを妨害する。
本稿では,検出された3次元境界ボックスと局所状態情報を連結車両間で共有するOptiMatchという分散オブジェクトレベルの協調認識システムを提案する。
ノイズの相対変換を補正するために,両連結車両(バウンディングボックス)の局所的測定を活用し,車両が検出する物体を対応づけてフィルタし,関連する共可視集合を構築する最適輸送理論に基づくアルゴリズムを開発した。
一致した物体対から補正変換を推定し、さらに雑音の相対変換に適用し、大域融合と動的マッピングを行う。
実験結果から, 位置および方向誤差の異なるレベルにおいてロバストな性能が達成され, 提案手法は, 位置および方向誤差発生時の平均マージンで, 早期, 後期, 中間融合を含む最先端のベンチマーク融合方式よりも高い性能を示した。 Cooperative perception is challenging for safety-critical autonomous driving applications.The errors in the shared position and pose cause an inaccurate relative transform estimation and disrupt the robust mapping of the Ego vehicle. We propose a distributed object-level cooperative perception system called OptiMatch, in which the detected 3D bounding boxes and local state information are shared between the connected vehicles. To correct the noisy relative transform, the local measurements of both connected vehicles (bounding boxes) are utilized, and an optimal transport theory-based algorithm is developed to filter out those objects jointly detected by the vehicles along with their correspondence, constructing an associated co-visible set. A correction transform is estimated from the matched object pairs and further applied to the noisy relative transform, followed by global fusion and dynamic mapping. Experiment results show that robust performance is achieved for different levels of location and heading errors, and the proposed framework outperforms the state-of-the-art benchmark fusion schemes, including early, late, and intermediate fusion, on average precision by a large margin when location and/or heading errors occur. | 翻訳日:2023-04-27 18:17:45 公開日:2023-04-26 |
# GPの計算効率の良い初期化:一般化ヴァリグラム法 Computationally-efficient initialisation of GPs: The generalised variogram method ( http://arxiv.org/abs/2210.05394v3 ) ライセンス: Link先を確認 | Felipe Tobar and Elsa Cazelles and Taco de Wolff | (参考訳) 本稿では,確率関数の計算を避けるために,ガウス過程(GP)のハイパーパラメータを初期化するための計算効率のよい戦略を提案する。
我々の戦略は,MLトレーニングの初期条件を見つけるための事前訓練段階として,あるいはGPモデルに直接挿入されるハイパーパラメータ値を計算するためのスタンドアロン手法として利用することができる。
実モデルと学習モデルの間のKL偏差を最小化するために, MLを用いたGPのトレーニングが(平均で)等価であるという事実に触発され, 計算コストが低く, MLで見いだされるようなハイパーパラメータ値を提供するGP間で, 異なる測度/偏差を探索することにした。
実際に,実験的共分散あるいは(フーリエ)パワースペクトルをパラメトリック・ファミリーに投影することによりGPハイパーパラメータを同定し,時間領域と周波数領域に作用する様々な誤差尺度を提案し,検討する。
本研究は,地球統計学の文献で開発された変分法を拡張し,一般化変分法 (generalized variogram method, gvm) と呼ぶ。
GVMの理論的プレゼンテーションに加えて、合成および実世界のデータを用いて、異なるカーネルに対して精度、MLとの整合性、計算複雑性に関する実験的検証を提供する。 We present a computationally-efficient strategy to initialise the hyperparameters of a Gaussian process (GP) avoiding the computation of the likelihood function. Our strategy can be used as a pretraining stage to find initial conditions for maximum-likelihood (ML) training, or as a standalone method to compute hyperparameters values to be plugged in directly into the GP model. Motivated by the fact that training a GP via ML is equivalent (on average) to minimising the KL-divergence between the true and learnt model, we set to explore different metrics/divergences among GPs that are computationally inexpensive and provide hyperparameter values that are close to those found via ML. In practice, we identify the GP hyperparameters by projecting the empirical covariance or (Fourier) power spectrum onto a parametric family, thus proposing and studying various measures of discrepancy operating on the temporal and frequency domains. Our contribution extends the variogram method developed by the geostatistics literature and, accordingly, it is referred to as the generalised variogram method (GVM). In addition to the theoretical presentation of GVM, we provide experimental validation in terms of accuracy, consistency with ML and computational complexity for different kernels using synthetic and real-world data. | 翻訳日:2023-04-27 18:17:23 公開日:2023-04-26 |
# 室温YIG/Cavity系における強-超強コヒーレント結合測定 Strong to ultra-strong coherent coupling measurements in a YIG/cavity system at room temperature ( http://arxiv.org/abs/2209.14643v2 ) ライセンス: Link先を確認 | Guillaume Bourcin, Jeremy Bourhill, Vincent Vlaminck, Vincent Castel | (参考訳) 本稿では,YIGスラブと結合した周波数再構成可能な3次元再入射キャビティの室温における強強結合機構の実験的検討を行った。
観察された結合速度は、結合強度と関心のキャビティ周波数の比として定義され、12%から59%の範囲である。
RF磁場が磁場に強く集中しているキャビティスピントロニクス装置の分極分枝を解析する際には,ある程度の考察が必要である。
我々の観測は周波数領域における電磁有限要素シミュレーションとよく一致している。 We present an experimental study of the strong to ultra-strong coupling regimes at room temperature in frequency-reconfigurable 3D re-entrant cavities coupled with a YIG slab. The observed coupling rate, defined as the ratio of the coupling strength to the cavity frequency of interest, ranges from 12% to 59%. We show that certain considerations must be taken into account when analyzing the polaritonic branches of a cavity spintronic device where the RF field is highly focused in the magnetic material. Our observations are in excellent agreement with electromagnetic finite element simulations in the frequency domain. | 翻訳日:2023-04-27 18:16:30 公開日:2023-04-26 |
# 透過型電子顕微鏡ビームにおけるクーロン関連電子数状態 Coulomb-correlated electron number states in a transmission electron microscope beam ( http://arxiv.org/abs/2209.12300v2 ) ライセンス: Link先を確認 | Rudolf Haindl, Armin Feist, Till Domr\"ose, Marcel M\"oller, John H. Gaida, Sergey V. Yalunin, and Claus Ropers | (参考訳) 透過電子顕微鏡内におけるナノスケール電界エミッタからのフェムト秒光電子放出による自由電子のクーロン相関対、三重状態および四重状態の生成を実証した。
イベントベースの電子分光法は、各レーザーパルスによって放出される電子アンサンブルの空間的およびスペクトル的特徴付けを可能にする。
加速による粒子間エネルギー交換から生じる固有エネルギーと運動量相関を同定し、約2電子ボルトのエネルギースケールで強い数体クーロン相互作用を明らかにする。
状態分類ビーム因果関係は、数電子状態における仮想ソースサイズと縦方向のソースシフトの離散的な増加を示す。
我々は、主に横クーロン偏向に起因する電界制御可能な電子反束を観察する。
これらの電子数状態の顕著な空間的およびスペクトル的特性は、パルス電荷の統計分布を制御するフィルタリングスキームを許容する。
このようにして、特定の少数電子状態の分画を積極的に抑制または増強することができ、顕微鏡やリソグラフィのための非常に非ポアソニアン電子ビームの調製が容易になる。 We demonstrate the generation of Coulomb-correlated pair, triple and quadruple states of free electrons by femtosecond photoemission from a nanoscale field emitter inside a transmission electron microscope. Event-based electron spectroscopy allows a spatial and spectral characterization of the electron ensemble emitted by each laser pulse. We identify distinctive energy and momentum correlations arising from acceleration-enhanced interparticle energy exchange, revealing strong few-body Coulomb interactions at an energy scale of about two electronvolts. State-sorted beam caustics show a discrete increase in virtual source size and longitudinal source shift for few-electron states, associated with transverse momentum correlations. We observe field-controllable electron antibunching, attributed primarily to transverse Coulomb deflection. The pronounced spatial and spectral characteristics of these electron number states allow filtering schemes that control the statistical distribution of the pulse charge. In this way, the fraction of specific few-electron states can be actively suppressed or enhanced, facilitating the preparation of highly non-Poissonian electron beams for microscopy and lithography, including future heralding schemes and correlated multi-electron probing. | 翻訳日:2023-04-27 18:16:20 公開日:2023-04-26 |
# 高品質物理キュービットのポストセレクションフリー合成 Post-selection-free preparation of high-quality physical qubits ( http://arxiv.org/abs/2209.05391v3 ) ライセンス: Link先を確認 | Ben Barber and Neil I. Gillespie and J. M. Taylor | (参考訳) コヒーレント演算におけるゲート忠実性の急速な改善は、状態準備と測定(SPAM)におけるエラーが、量子コンピュータのフォールトトレラント演算におけるエラーの主要な原因となることを意味する。
特に超伝導系では、測定忠実度と量子ビット寿命のトレードオフが全体的な性能に制限される。
幸いなことに、準備と測定の本質的に古典的な性質は、古典的な制御とポストセレクションを組み合わせた補助量子ビットによる品質向上のための多種多様な技術を可能にする。
しかし実際には、ポストセレクションはシンドローム抽出などのプロセスのスケジューリングを大幅に複雑にする。
ここでは、cnot と toffoli ゲートを用いて非線形に計算基底を浸透させる、高品質な |0> 状態を生成する量子回路のファミリを示す。
2量子ビットゲートのエラーが0.2%以下になった場合の有意義なパフォーマンス向上と、ネイティブな toffoli ゲートが利用可能になった場合のパフォーマンス向上が得られます。 Rapidly improving gate fidelities for coherent operations mean that errors in state preparation and measurement (SPAM) may become a dominant source of error for fault-tolerant operation of quantum computers. This is particularly acute in superconducting systems, where tradeoffs in measurement fidelity and qubit lifetimes have limited overall performance. Fortunately, the essentially classical nature of preparation and measurement enables a wide variety of techniques for improving quality using auxiliary qubits combined with classical control and post-selection. In practice, however, post-selection greatly complicates the scheduling of processes such as syndrome extraction. Here we present a family of quantum circuits that prepare high-quality |0> states without post-selection, instead using CNOT and Toffoli gates to non-linearly permute the computational basis. We find meaningful performance enhancements when two-qubit gate fidelities errors go below 0.2%, and even better performance when native Toffoli gates are available. | 翻訳日:2023-04-27 18:16:00 公開日:2023-04-26 |
# FADE: 異種資源制約エッジデバイスにおけるフェデレーション・ディベザリトレーニングの実現 FADE: Enabling Federated Adversarial Training on Heterogeneous Resource-Constrained Edge Devices ( http://arxiv.org/abs/2209.03839v2 ) ライセンス: Link先を確認 | Minxue Tang, Jianyi Zhang, Mingyuan Ma, Louis DiValentin, Aolin Ding, Amin Hassanzadeh, Hai Li, Yiran Chen | (参考訳) フェデレーション・逆境訓練は、プライバシー保護のフェデレーション・ラーニング・システムに敵の堅牢性を効果的に補完することができる。
しかし、メモリ容量と計算能力の需要が高いため、リソース制約のエッジデバイスでは大規模な対人訓練が不可能である。
記憶と計算の制約を同時に取り組もうとするフェデレートadversarial trainingのこれまでの研究はほとんどない。
本稿では,異種資源制約エッジデバイス上でATを実現するためのFADE(Federated Adversarial Decoupled Learning)というフレームワークを提案する。
FADEは、各デバイスのリソース予算に適合するために、モデル全体を小さなモジュールに分離し、各デバイスは各通信ラウンドで単一のモジュール上でATを実行する必要がある。
また,FADEにおける目的不整合を緩和し,精度・損耗バランスの向上を図るために,補助重量減衰を提案する。
FADEは, 収束性, 対向ロバスト性に関する理論的保証を提供し, 実験結果から, 精度とロバスト性を維持しつつ, メモリとコンピューティングの消費電力を大幅に削減できることが示された。 Federated adversarial training can effectively complement adversarial robustness into the privacy-preserving federated learning systems. However, the high demand for memory capacity and computing power makes large-scale federated adversarial training infeasible on resource-constrained edge devices. Few previous studies in federated adversarial training have tried to tackle both memory and computational constraints simultaneously. In this paper, we propose a new framework named Federated Adversarial Decoupled Learning (FADE) to enable AT on heterogeneous resource-constrained edge devices. FADE differentially decouples the entire model into small modules to fit into the resource budget of each device, and each device only needs to perform AT on a single module in each communication round. We also propose an auxiliary weight decay to alleviate objective inconsistency and achieve better accuracy-robustness balance in FADE. FADE offers theoretical guarantees for convergence and adversarial robustness, and our experimental results show that FADE can significantly reduce the consumption of memory and computing power while maintaining accuracy and robustness. | 翻訳日:2023-04-27 18:15:43 公開日:2023-04-26 |
# TransPolymer: ポリマー特性予測のためのトランスフォーマーベース言語モデル TransPolymer: a Transformer-based language model for polymer property predictions ( http://arxiv.org/abs/2209.01307v4 ) ライセンス: Link先を確認 | Changwen Xu, Yuyang Wang, Amir Barati Farimani | (参考訳) ポリマー特性の高精度かつ効率的な予測は、高分子設計において非常に重要である。
従来、高分子の機能を評価するには高価で時間を要する実験やシミュレーションが必要である。
近年,自己認識機構を備えたトランスフォーマーモデルでは,自然言語処理の性能が向上している。
しかし、このような方法は高分子科学では研究されていない。
本稿では,ポリマー特性予測のためのトランスフォーマーベース言語モデルTransPolymerについて報告する。
提案する高分子トークン化剤は,高分子配列からの表現の学習を可能にする。
10種類のポリマー特性予測ベンチマークに関する厳密な実験は、TransPolymerの優れた性能を示す。
さらに,TransPolymerはMasked Language Modelingを通じて,大規模未ラベルデータセットの事前学習の恩恵を受けることを示す。
実験結果は、ポリマー配列のモデリングにおける自己注意の重要性をさらに示している。
我々は,このモデルを有理性高分子設計を促進するための有望な計算ツールとして強調し,データサイエンスの観点から構造-物性関係を理解する。 Accurate and efficient prediction of polymer properties is of great significance in polymer design. Conventionally, expensive and time-consuming experiments or simulations are required to evaluate polymer functions. Recently, Transformer models, equipped with self-attention mechanisms, have exhibited superior performance in natural language processing. However, such methods have not been investigated in polymer sciences. Herein, we report TransPolymer, a Transformer-based language model for polymer property prediction. Our proposed polymer tokenizer with chemical awareness enables learning representations from polymer sequences. Rigorous experiments on ten polymer property prediction benchmarks demonstrate the superior performance of TransPolymer. Moreover, we show that TransPolymer benefits from pretraining on large unlabeled dataset via Masked Language Modeling. Experimental results further manifest the important role of self-attention in modeling polymer sequences. We highlight this model as a promising computational tool for promoting rational polymer design and understanding structure-property relationships from a data science view. | 翻訳日:2023-04-27 18:15:22 公開日:2023-04-26 |
# メカニスティックモード接続性 Mechanistic Mode Connectivity ( http://arxiv.org/abs/2211.08422v2 ) ライセンス: Link先を確認 | Ekdeep Singh Lubana, Eric J. Bigelow, Robert P. Dick, David Krueger, Hidenori Tanaka | (参考訳) 本研究では,データセット上でのトレーニングによって得られたニューラルネットワークの最小値が,低損失の単純な経路を介して接続される,モード接続のレンズを通してニューラルネットワークロスランドスケープを調査した。
特に、以下の疑問に答える: 損失の少ない単純な経路を通して予測を結び付けるための異なるメカニズムに依存している最小化器は?
入力変換に対する共有不変性としての機械的類似性の定義を提供し、2つのモデル間の線形接続の欠如が、それらの予測に相似メカニズムを使うことを実証する。
実際に、この結果は、ダウンストリームデータセットに内在する微調整が、モデルのメカニズムを変更することに失敗する可能性があること、例えば、微調整は、モデルのスプリアス属性への依存をなくすことを実証するのに役立ちます。
また,本分析は,接続型ファインチューニング(CBFT)と呼ばれるモデル機構のターゲット変更を動機付け,複数の合成データセットを用いてモデルがスプリアス属性に依存する度合いを低減させる手法である。 We study neural network loss landscapes through the lens of mode connectivity, the observation that minimizers of neural networks retrieved via training on a dataset are connected via simple paths of low loss. Specifically, we ask the following question: are minimizers that rely on different mechanisms for making their predictions connected via simple paths of low loss? We provide a definition of mechanistic similarity as shared invariances to input transformations and demonstrate that lack of linear connectivity between two models implies they use dissimilar mechanisms for making their predictions. Relevant to practice, this result helps us demonstrate that naive fine-tuning on a downstream dataset can fail to alter a model's mechanisms, e.g., fine-tuning can fail to eliminate a model's reliance on spurious attributes. Our analysis also motivates a method for targeted alteration of a model's mechanisms, named connectivity-based fine-tuning (CBFT), which we analyze using several synthetic datasets for the task of reducing a model's reliance on spurious attributes. | 翻訳日:2023-04-27 18:09:14 公開日:2023-04-26 |
# MLIC:学習画像圧縮のためのマルチ参照エントロピーモデル MLIC: Multi-Reference Entropy Model for Learned Image Compression ( http://arxiv.org/abs/2211.07273v2 ) ライセンス: Link先を確認 | Wei Jiang, Jiayu Yang, Yongqi Zhai, Peirong Ning, Feng Gao, Ronggang Wang | (参考訳) 近年,学習画像の圧縮性能は著しく向上している。
潜在表現の分布を推定するエントロピーモデルは、速度分散性能の向上に重要な役割を果たしている。
しかし、ほとんどのエントロピーモデルは1次元の相関のみを捉えるが、潜在表現はチャネル回り、局所空間、大域的な空間相関を含む。
この問題に対処するため、Multi-Reference Entropy Model (MEM) と高度なバージョンMEM$^+$を提案する。
これらのモデルは潜在表現に存在する異なる種類の相関を捉える。
具体的には、まず潜在表現をスライスに分割する。
現在のスライスを復号する際には、予め復号されたスライスをコンテキストとして使用し、それまでのスライスのアテンションマップを用いて、現在のスライスにおける大域的相関を予測する。
ローカルコンテキストをキャプチャするために,性能劣化を回避する2つの拡張チェッカーボードコンテキストキャプチャ技術を導入する。
MEM と MEM$^+$ に基づいて,画像圧縮モデル MLIC と MLIC$^+$ を提案する。
広範な実験評価により、mlicおよびmlic+モデルは最新性能を達成し、psnrで測定したvtm-17.0と比較して、kodakデータセットでのbdレートが8.05\%$および1.39\%$削減された。 Recently, learned image compression has achieved remarkable performance. The entropy model, which estimates the distribution of the latent representation, plays a crucial role in boosting rate-distortion performance. However, most entropy models only capture correlations in one dimension, while the latent representation contain channel-wise, local spatial, and global spatial correlations. To tackle this issue, we propose the Multi-Reference Entropy Model (MEM) and the advanced version, MEM$^+$. These models capture the different types of correlations present in latent representation. Specifically, We first divide the latent representation into slices. When decoding the current slice, we use previously decoded slices as context and employ the attention map of the previously decoded slice to predict global correlations in the current slice. To capture local contexts, we introduce two enhanced checkerboard context capturing techniques that avoids performance degradation. Based on MEM and MEM$^+$, we propose image compression models MLIC and MLIC$^+$. Extensive experimental evaluations demonstrate that our MLIC and MLIC+ models achieve state-of-the-art performance, reducing BD-rate by $8.05\%$ and $11.39\%$ on the Kodak dataset compared to VTM-17.0 when measured in PSNR. | 翻訳日:2023-04-27 18:08:13 公開日:2023-04-26 |
# ナノダイヤモンドベースの緩和度測定のための最適化データ処理 Optimising data processing for nanodiamond based relaxometry ( http://arxiv.org/abs/2211.07269v2 ) ライセンス: Link先を確認 | Thea A. Vedelaar (1), Thamir H. Hamoh (1), Felipe Perona Martinez (1), Mayeul Chipaux (2), Romana Schirhagl (1) ((1) Groningen University, University Medical Center Groningen, (2) Institute of Physics, \'Ecole Polytechnique F\'ed\'erale de Lausanne (EPFL)) | (参考訳) ダイヤモンド中の窒素空孔(NV)中心は、多様な量の強力な多用途量子センサーである。
特に、リラクソメトリー(またはT1)はナノスケールで磁気ノイズを検出することができる。
ナノダイアモンド中のNV中心の数を増やすことでより多くの信号を集めることができるが、そのようなNVアンサンブルの緩和実験から情報を抽出する標準的な方法がいまだに欠けている。
本稿では, ガドリニウムイオン濃度の異なるT1緩和曲線を用いて, 得られた生データから抽出したT1までのデータ処理フロー全体をキャリブレーションし, 最適化する。
特に、ブートストラップを用いて、ある方法と別の方法とを定量的に比較できる信号対雑音比(SNR)を導出する。
まず、発光パルスからT1曲線を抽出する。
従来のように最適化された窓を通した信号の統合と、その上に既知の機能を持たせることを比較した。
崩壊するT1曲線を満たすと、関連するT1値が得られる。
ここでは、single、bi、 stretched-exponentialの3つの最もよく使われるフィットモデルを比較した。
最終的に、ブートストラップ自体が結果の精度や、タイムレゾリューションを可能にするローリングウインドウの使用に与えた影響を調査した。 The nitrogen-vacancy (NV) center in diamond is a powerful and versatile quantum sensor for diverse quantities. In particular, relaxometry (or T1), allows to detect magnetic noise at the nanoscale. While increasing the number of NV centers in a nanodiamond allows to collect more signal, a standardized method to extract information from relaxometry experiments of such NV ensembles is still missing. In this article, we use T1 relaxation curves acquired at different concentrations of gadolinium ions to calibrate and optimize the entire data processing flow, from the acquired raw data to the extracted T1. In particular, we use a bootstrap to derive a signal to noise ratio (SNR) that can be quantitatively compared from one method to another. At first, T1 curves are extracted from photoluminescence pulses. We compare integrating their signal through an optimized window as performed conventionally, to fitting a known function on it. Fitting the decaying T1 curves allows to obtain the relevant T1 value. We compared here the three most commonly used fit models that are, single, bi, and stretched-exponential. We finally investigated the effect of the bootstrap itself on the precision of the result as well as the use of a rolling window to allows time-resolution. | 翻訳日:2023-04-27 18:07:47 公開日:2023-04-26 |
# RecD:Deep-to-Endディープラーニング推奨モデルトレーニングインフラストラクチャの重複 RecD: Deduplication for End-to-End Deep Learning Recommendation Model Training Infrastructure ( http://arxiv.org/abs/2211.05239v3 ) ライセンス: Link先を確認 | Mark Zhao, Dhruv Choudhary, Devashish Tyagi, Ajay Somani, Max Kaplan, Sung-Han Lin, Sarunya Pumma, Jongsoo Park, Aarti Basant, Niket Agarwal, Carole-Jean Wu, Christos Kozyrakis | (参考訳) 本稿では,DLRM(Deep Learning Recommendation Model)トレーニングパイプライン間のエンドツーエンドインフラストラクチャ最適化スイートであるRecD(Recommendation Deduplication)を紹介する。
RecDは、産業規模のDLRMトレーニングデータセットに固有の機能の重複に起因する膨大なストレージ、前処理、トレーニングオーバーヘッドに対処する。
DLRMデータセットは相互作用から生成されるため、特徴重複が発生する。
各ユーザセッションは複数のトレーニングサンプルを生成することができるが、多くの機能の価値はこれらのサンプル間で変化しない。
recdがこのプロパティをエンドツーエンドで,デプロイされたトレーニングパイプラインを通じてどのように活用しているかを実証する。
RecDはデータセットストレージの削減とリソース要求の事前処理、トレーニングバッチ内の重複の最大化のために、データ生成パイプラインを最適化する。
RecDは新しいテンソルフォーマット、InverseKeyedJaggedTensors (IKJTs)を導入し、各バッチで機能値の重複を解消した。
DLRMモデルアーキテクチャがIKJTを活用してトレーニングスループットを大幅に向上させる方法を示す。
recdは業界規模のdlrmトレーニングシステムにおいて,最大2.48x,1.79x,3.71xのトレーニングと前処理スループットとストレージ効率を向上させる。 We present RecD (Recommendation Deduplication), a suite of end-to-end infrastructure optimizations across the Deep Learning Recommendation Model (DLRM) training pipeline. RecD addresses immense storage, preprocessing, and training overheads caused by feature duplication inherent in industry-scale DLRM training datasets. Feature duplication arises because DLRM datasets are generated from interactions. While each user session can generate multiple training samples, many features' values do not change across these samples. We demonstrate how RecD exploits this property, end-to-end, across a deployed training pipeline. RecD optimizes data generation pipelines to decrease dataset storage and preprocessing resource demands and to maximize duplication within a training batch. RecD introduces a new tensor format, InverseKeyedJaggedTensors (IKJTs), to deduplicate feature values in each batch. We show how DLRM model architectures can leverage IKJTs to drastically increase training throughput. RecD improves the training and preprocessing throughput and storage efficiency by up to 2.48x, 1.79x, and 3.71x, respectively, in an industry-scale DLRM training system. | 翻訳日:2023-04-27 18:07:28 公開日:2023-04-26 |
# 機械学習時代のMRIデータ調和の有効性
36データセットを対象としたマルチセンター研究 Efficacy of MRI data harmonization in the age of machine learning. A multicenter study across 36 datasets ( http://arxiv.org/abs/2211.04125v2 ) ライセンス: Link先を確認 | Chiara Marzi, Marco Giannelli, Andrea Barucci, Carlo Tessa, Mario Mascalchi, Stefano Diciotti | (参考訳) 複数のサイトから公開されているmriデータをプールすることで、広範囲の被験者グループを組み立て、統計力を高め、機械学習技術によるデータの再利用を促進することができる。
マルチセンターデータの調和化は、データの非生物学的変動源に付随する相反効果を低減するために必要である。
しかし、機械学習の前にデータセット全体に適用すると、トレーニングセット外の情報がモデル構築に影響し、潜在的に過大評価されたパフォーマンスに影響を及ぼすため、ハーモニゼーションはデータ漏洩につながる。
1)データ調和の有効性の測定について提案する。
2) 調和器トランスフォーマー、すなわち、機械学習パイプラインの前処理ステップ間でカプセル化を可能にする戦闘調和の実装、データ漏洩を回避する。
健常者1740名を対象に,脳T1強調MRIデータを36箇所で取得した。
調和後, サイト効果を除去または低減し, mriデータから個々の年齢を予測する際のデータ漏洩効果を示し, 機械学習パイプラインにハーモナイザトランスフォーマーを導入することでデータ漏洩を回避できることを示した。 Pooling publicly-available MRI data from multiple sites allows to assemble extensive groups of subjects, increase statistical power, and promote data reuse with machine learning techniques. The harmonization of multicenter data is necessary to reduce the confounding effect associated with non-biological sources of variability in the data. However, when applied to the entire dataset before machine learning, the harmonization leads to data leakage, because information outside the training set may affect model building, and potentially falsely overestimate performance. We propose a 1) measurement of the efficacy of data harmonization; 2) harmonizer transformer, i.e., an implementation of the ComBat harmonization allowing its encapsulation among the preprocessing steps of a machine learning pipeline, avoiding data leakage. We tested these tools using brain T1-weighted MRI data from 1740 healthy subjects acquired at 36 sites. After harmonization, the site effect was removed or reduced, and we showed the data leakage effect in predicting individual age from MRI data, highlighting that introducing the harmonizer transformer into a machine learning pipeline allows for avoiding data leakage. | 翻訳日:2023-04-27 18:07:11 公開日:2023-04-26 |
# マルチスケール非負なカーネルグラフを用いたマニフォールド幾何学の研究 Study of Manifold Geometry using Multiscale Non-Negative Kernel Graphs ( http://arxiv.org/abs/2210.17475v2 ) ライセンス: Link先を確認 | Carlos Hurtado, Sarath Shekkizhar, Javier Ruiz-Hidalgo, Antonio Ortega | (参考訳) 現代の機械学習システムは、高次元空間に埋め込まれた大量のデータに基づいて、ますます訓練されている。
多くの場合、データセットの構造を分析することなく行われる。
本研究では,データの幾何学的構造を研究するための枠組みを提案する。
我々は、最近導入された非負のカーネル(NNK)回帰グラフを用いて、点密度、固有次元、およびデータ多様体(曲率)の線型性を推定する。
さらに,入力データの近傍を反復的にマージすることにより,グラフ構成と幾何推定を多元スケールに一般化する。
本実験は,データ多様体の局所的形状を合成および実データセット上で推定する上で,他のベースラインに対する提案手法の有効性を示す。 Modern machine learning systems are increasingly trained on large amounts of data embedded in high-dimensional spaces. Often this is done without analyzing the structure of the dataset. In this work, we propose a framework to study the geometric structure of the data. We make use of our recently introduced non-negative kernel (NNK) regression graphs to estimate the point density, intrinsic dimension, and the linearity of the data manifold (curvature). We further generalize the graph construction and geometric estimation to multiple scale by iteratively merging neighborhoods in the input data. Our experiments demonstrate the effectiveness of our proposed approach over other baselines in estimating the local geometry of the data manifolds on synthetic and real datasets. | 翻訳日:2023-04-27 18:06:44 公開日:2023-04-26 |
# 因果ループファインマン図および非巡回有向グラフに対する変分量子固有解法 Variational quantum eigensolver for causal loop Feynman diagrams and acyclic directed graphs ( http://arxiv.org/abs/2210.13240v2 ) ライセンス: Link先を確認 | Giuseppe Clemente, Arianna Crippa, Karl Jansen, Selomit Ram\'irez-Uribe, Andr\'es E. Renter\'ia-Olivo, Germ\'an Rodrigo, German F. R. Sborlini, Luiz Vale Silva | (参考訳) 本稿では,ループツリー双対性 (ltd) におけるマルチループファインマン図形の因果表現の効率的なブートストラップを行うための変分量子固有ソルバ (vqe) アルゴリズムを提案する。
多重ループ位相を記述する隣接行列に基づくループハミルトニアンは、異なるエネルギー準位がサイクル数に対応するが、vqeによって因果または非巡回配置を特定するために最小化される。
このアルゴリズムは複数のデジェクトミニマを選択するように適応しており、より高い検出率が得られる。
本稿では,Groverのアルゴリズムによる性能比較について述べる。
VQEのアプローチは一般に、より少ない成功率にもかかわらず、実装にはより少ないキュービットと短い回路を必要とする。 We present a variational quantum eigensolver (VQE) algorithm for the efficient bootstrapping of the causal representation of multiloop Feynman diagrams in the Loop-Tree Duality (LTD) or, equivalently, the selection of acyclic configurations in directed graphs. A loop Hamiltonian based on the adjacency matrix describing a multiloop topology, and whose different energy levels correspond to the number of cycles, is minimized by VQE to identify the causal or acyclic configurations. The algorithm has been adapted to select multiple degenerated minima and thus achieves higher detection rates. A performance comparison with a Grover's based algorithm is discussed in detail. The VQE approach requires, in general, fewer qubits and shorter circuits for its implementation, albeit with lesser success rates. | 翻訳日:2023-04-27 18:06:35 公開日:2023-04-26 |
# Promptingはプログラミング - 大規模言語モデルのためのクエリ言語 Prompting Is Programming: A Query Language for Large Language Models ( http://arxiv.org/abs/2212.06094v2 ) ライセンス: Link先を確認 | Luca Beurer-Kellner, Marc Fischer, Martin Vechev | (参考訳) 大規模言語モデルは、質問応答やコード生成など、幅広いタスクにおいて優れたパフォーマンスを示している。
高いレベルでは、入力が与えられると、言語モデルを使用して、統計的に類似した方法でシーケンスを自動補完することができる。
これに基づいて、ユーザはこれらのモデルを言語命令や例で促し、さまざまな下流タスクを実装する。
高度なプロンプト手法は、言語モデル、ユーザ、計算機などの外部ツール間のインタラクションを暗示することができる。
しかし、特定のタスクに対する最新のパフォーマンスや適応言語モデルを得るためには、複雑なタスクとモデル固有のプログラムを実装する必要がある。
そこで我々は,LMP(Language Model Programming)という新しいアイデアを提案する。
LMPは、純粋テキストプロンプトから直感的にテキストプロンプトとスクリプティングを組み合わせた言語モデルを一般化する。
加えて、LMPは言語モデルの出力に対して制約を指定できる。
これにより、言語モデルの内部を抽象化し、ハイレベルなセマンティクスを提供しながら、多くのタスクに簡単に適応できる。
lmpを有効にするために、lmpプロンプトからの制約と制御フローを活用するlmql(short for language model query language)を実装し、基礎となる言語モデルへの高価な呼び出し数を最小限に抑える効率的な推論手順を生成する。
LMQLは、直感的に幅広い最先端のプロンプトメソッドをキャプチャすることができ、特に既存のハイレベルAPIで実装するのが困難なインタラクティブなフローを容易にします。
評価の結果,複数のダウンストリームタスクの精度を維持したり,向上させたりしながら,従量課金API(26~85%のコスト削減)の場合に必要な計算量やコストを大幅に削減できることがわかった。 Large language models have demonstrated outstanding performance on a wide range of tasks such as question answering and code generation. On a high level, given an input, a language model can be used to automatically complete the sequence in a statistically-likely way. Based on this, users prompt these models with language instructions or examples, to implement a variety of downstream tasks. Advanced prompting methods can even imply interaction between the language model, a user, and external tools such as calculators. However, to obtain state-of-the-art performance or adapt language models for specific tasks, complex task- and model-specific programs have to be implemented, which may still require ad-hoc interaction. Based on this, we present the novel idea of Language Model Programming (LMP). LMP generalizes language model prompting from pure text prompts to an intuitive combination of text prompting and scripting. Additionally, LMP allows constraints to be specified over the language model output. This enables easy adaption to many tasks while abstracting language model internals and providing high-level semantics. To enable LMP, we implement LMQL(short for Language Model Query Language), which leverages the constraints and control flow from an LMP prompt to generate an efficient inference procedure that minimizes the number of expensive calls to the underlying language model. We show that LMQL can capture a wide range of state-of-the-art prompting methods in an intuitive way, especially facilitating interactive flows that are challenging to implement with existing high-level APIs. Our evaluation shows that we retain or increase the accuracy on several downstream tasks, while also significantly reducing the required amount of computation or cost in the case of pay-to-use APIs (26-85% cost savings). | 翻訳日:2023-04-27 17:59:13 公開日:2023-04-26 |
# カラビ・ヤウ量子力学におけるクリロフ複雑性 Krylov Complexity in Calabi-Yau Quantum Mechanics ( http://arxiv.org/abs/2212.02926v2 ) ライセンス: Link先を確認 | Bao-ning Du, Min-xin Huang | (参考訳) 近年、LanczosアルゴリズムとKrylov再帰法に基づく演算子成長の複雑さの新しい尺度が提案されている。
量子力学系におけるこのクリロフの複雑性は、局所的なトーリックカラビ・ヤウ測地線や非相対論的モデルから導かれる。
カラビ・ヤウモデルの場合、Laczos係数は小さな$n$sに対して線形よりも遅く成長し、可積分モデルの挙動と一致することが分かる。
一方、非相対論的モデルでは、ランツォスの係数は最初小さな$n$sで線形に成長し、その後高原に達する。
これはカオス的なシステムの振る舞いのように見えるが、主に文献で論じられているように、サドルに支配されたスクランブル効果によるものである。
我々の場合、線形に成長するランツォス係数の傾斜は温度によってほぼ飽和する。
本研究では,斜面境界の代替的な一般導出についても述べる。 Recently, a novel measure for the complexity of operator growth is proposed based on Lanczos algorithm and Krylov recursion method. We study this Krylov complexity in quantum mechanical systems derived from some well-known local toric Calabi-Yau geometries, as well as some non-relativistic models. We find that for the Calabi-Yau models, the Lanczos coefficients grow slower than linearly for small $n$'s, consistent with the behavior of integrable models. On the other hand, for the non-relativistic models, the Lanczos coefficients initially grow linearly for small $n$'s, then reach a plateau. Although this looks like the behavior of a chaotic system, it is mostly likely due to saddle-dominated scrambling effects instead, as argued in the literature. In our cases, the slopes of linearly growing Lanczos coefficients almost saturate a bound by the temperature. During our study, we also provide an alternative general derivation of the bound for the slope. | 翻訳日:2023-04-27 17:58:22 公開日:2023-04-26 |
# CrossSplit: データ分割によるラベルノイズ記憶の軽減 CrossSplit: Mitigating Label Noise Memorization through Data Splitting ( http://arxiv.org/abs/2212.01674v2 ) ライセンス: Link先を確認 | Jihye Kim, Aristide Baratin, Yan Zhang, Simon Lacoste-Julien | (参考訳) 本稿では,ラベルノイズの存在下でのディープラーニングアルゴリズムの堅牢性向上の問題にアプローチする。
ラベル付きデータセットの2つの部分でトレーニングされた2つのニューラルネットワークを使用するクロススプリット(CrossSplit)と呼ばれる,既存のラベル補正と共同学習手法に基づいて,ノイズラベルの記憶を緩和する新たなトレーニング手順を提案する。
CrossSplitは2つの主要な材料を組み合わせています。
(i)クロススプリットラベル補正。
データの一方でトレーニングされたモデルは、他方から例ラベルペアを記憶できないので、ピアネットワークの予測を用いて各ネットワークに提示されるトレーニングラベルをスムーズに調整することができる。
(ii)クロススプリット半監督訓練。
データの一部でトレーニングされたネットワークは、他の部分のラベルのない入力も使用する。
CIFAR-10, CIFAR-100, Tiny-ImageNet, および mini-WebVision データセットの大規模な実験により, 本手法は, 幅広いノイズ比において, 最先端技術より優れていることを示す。 We approach the problem of improving robustness of deep learning algorithms in the presence of label noise. Building upon existing label correction and co-teaching methods, we propose a novel training procedure to mitigate the memorization of noisy labels, called CrossSplit, which uses a pair of neural networks trained on two disjoint parts of the labelled dataset. CrossSplit combines two main ingredients: (i) Cross-split label correction. The idea is that, since the model trained on one part of the data cannot memorize example-label pairs from the other part, the training labels presented to each network can be smoothly adjusted by using the predictions of its peer network; (ii) Cross-split semi-supervised training. A network trained on one part of the data also uses the unlabeled inputs of the other part. Extensive experiments on CIFAR-10, CIFAR-100, Tiny-ImageNet and mini-WebVision datasets demonstrate that our method can outperform the current state-of-the-art in a wide range of noise ratios. | 翻訳日:2023-04-27 17:57:47 公開日:2023-04-26 |
# スコアベース拡散モデルにおける判別器指導による精錬生成過程 Refining Generative Process with Discriminator Guidance in Score-based Diffusion Models ( http://arxiv.org/abs/2211.17091v3 ) ライセンス: Link先を確認 | Dongjun Kim, Yeongmin Kim, Se Jung Kwon, Wanmo Kang, Il-Chul Moon | (参考訳) 提案手法は,事前学習した拡散モデルのサンプル生成を改善することを目的としている。
このアプローチでは、現実的かどうかに関わらず、明確な監視を行う識別器を導入している。
GANとは異なり、我々の手法はスコアネットワークと差別ネットワークの合同トレーニングを必要としない。
代わりに、スコアトレーニング後に差別者を訓練し、差別者を安定させ、収束させます。
サンプル生成では、予め学習したスコアに補助語を加え、判別器を欺く。
この用語は、モデルスコアを最適な判別器のデータスコアに補正するものであり、判別器が補足的な方法でより良いスコア推定を助けることを意味する。
提案アルゴリズムを用いて,画像Net 256x256 に FID 1.83 を付加し,検証データの FID (1.68) やリコール (0.66) と同様,0.64 をリコールした。
コードをhttps://github.com/alsdudrla10/DGでリリースします。 The proposed method, Discriminator Guidance, aims to improve sample generation of pre-trained diffusion models. The approach introduces a discriminator that gives explicit supervision to a denoising sample path whether it is realistic or not. Unlike GANs, our approach does not require joint training of score and discriminator networks. Instead, we train the discriminator after score training, making discriminator training stable and fast to converge. In sample generation, we add an auxiliary term to the pre-trained score to deceive the discriminator. This term corrects the model score to the data score at the optimal discriminator, which implies that the discriminator helps better score estimation in a complementary way. Using our algorithm, we achive state-of-the-art results on ImageNet 256x256 with FID 1.83 and recall 0.64, similar to the validation data's FID (1.68) and recall (0.66). We release the code at https://github.com/alsdudrla10/DG. | 翻訳日:2023-04-27 17:57:12 公開日:2023-04-26 |
# simvp: シンプルでパワフルな時空間予測学習を目指して SimVP: Towards Simple yet Powerful Spatiotemporal Predictive Learning ( http://arxiv.org/abs/2211.12509v3 ) ライセンス: Link先を確認 | Cheng Tan, Zhangyang Gao, Siyuan Li, Stan Z. Li | (参考訳) 近年、時空間予測学習の顕著な進歩が見られ、補助的な入力、精巧なニューラルアーキテクチャ、洗練されたトレーニング戦略が取り入れられている。
印象的ではあるが、主流メソッドのシステムの複雑さも増加しており、便利なアプリケーションを妨げる可能性がある。
本稿では,再帰的なアーキテクチャを伴わずに畳み込みネットワーク上に構築され,エンドツーエンドで一般的な平均二乗誤差損失によってトレーニングされる,単純な時空間予測ベースラインモデルであるsimvpを提案する。
追加のトリックや戦略を導入することなく、simvpは様々なベンチマークデータセットで優れたパフォーマンスを達成できる。
さらなる性能向上のために,SimVP から有声時空間注意変換器を用いた変種を導出し,より優れた性能を実現する。
実験により,SimVPは実世界のデータセットに対して強力な一般化と拡張性を持つことを示した。
トレーニングコストの大幅な削減により、複雑なシナリオへのスケールアップが容易になる。
simvpは時空間予測学習コミュニティに利益をもたらすための確固たるベースラインとして機能できると考えています。 Recent years have witnessed remarkable advances in spatiotemporal predictive learning, incorporating auxiliary inputs, elaborate neural architectures, and sophisticated training strategies. Although impressive, the system complexity of mainstream methods is increasing as well, which may hinder the convenient applications. This paper proposes SimVP, a simple spatiotemporal predictive baseline model that is completely built upon convolutional networks without recurrent architectures and trained by common mean squared error loss in an end-to-end fashion. Without introducing any extra tricks and strategies, SimVP can achieve superior performance on various benchmark datasets. To further improve the performance, we derive variants with the gated spatiotemporal attention translator from SimVP that can achieve better performance. We demonstrate that SimVP has strong generalization and extensibility on real-world datasets through extensive experiments. The significant reduction in training cost makes it easier to scale to complex scenarios. We believe SimVP can serve as a solid baseline to benefit the spatiotemporal predictive learning community. | 翻訳日:2023-04-27 17:56:55 公開日:2023-04-26 |
# 加速電子からのunruh放射の測定 Measuring Unruh radiation from accelerated electrons ( http://arxiv.org/abs/2301.06772v4 ) ライセンス: Link先を確認 | Gianluca Gregori, Giacomo Marocco, Subir Sarkar, Robert Bingham, Charles Wang | (参考訳) 加速電子からの熱unruh放射を検出することは、技術的な困難だけでなく、実験室の観察者が実際に何を見ているのかという概念的な明確さの欠如から、驚くべき課題となった。
我々は、アンルー効果と2レベル原子系の放射の類似性に基づく、より単純なヒューリスティックな記述とともに、現在の解釈の要約を述べる。
我々は加速電子からの熱光子が放出されるかどうかをテストする実験を提案する。 Detecting thermal Unruh radiation from accelerated electrons has presented a formidable challenge due not only to technical difficulties but also for lack of conceptual clarity about what is actually seen by a laboratory observer. We give a summary of the current interpretations along with a simpler heuristic description that draws on the analogy between the Unruh effect and radiation from a two-level atomic system. We propose an experiment to test whether there is emission of thermal photons from an accelerated electron. | 翻訳日:2023-04-27 17:50:44 公開日:2023-04-26 |
# 磁場感度とサブms時間分解能を最適化した量子ダイヤモンド顕微鏡 Quantum diamond microscopy with optimized magnetic field sensitivity and sub-ms temporal resolution ( http://arxiv.org/abs/2301.05853v3 ) ライセンス: Link先を確認 | Sangwon Oh, Seong-Joo Lee, Jeong Hyun Shim, Nam Woong Song, Truong Thi Hien | (参考訳) ロックイン検出を用いた量子ダイヤモンド磁気センサは、神経細胞、生きた哺乳類の筋肉、生きたマウスの心臓から弱い生体磁場を検出できた。
これにより、生体磁場の顕微鏡分布を可視化する量子ダイヤモンド磁気センサの可能性が開ける。
ここでは,ロックイン型ワイドフィールド量子ダイヤモンド顕微鏡を用いて,43.9$\mathrm{nT\mu m^{1.5}/Hz^{0.5}}$の平均体積正規化を実現する。
超微粒子駆動と磁場アライメントの二重共振をダイヤモンドの$<$001$>$方向に沿って実装することで感度を最適化する。
さらに、量子ダイヤモンド顕微鏡を用いて、1ピクセルあたりの感度を数ナノテラ/秒に保ちながら、ms以下の時間分解能($0.4ms)を達成できることが示される。
このロックインベースのダイヤモンド量子顕微鏡は、マイクロメートル空間分解能のニューロンネットワークにおける機能活性のマッピングの一歩となるかもしれない。 Quantum diamond magnetometers using lock-in detection have successfully detected weak bio-magnetic fields from neurons, a live mammalian muscle, and a live mouse heart. This opens up the possibility of quantum diamond magnetometers visualizing microscopic distributions of the bio-magnetic fields. Here, we demonstrate a lock-in-based wide-field quantum diamond microscopy, achieving a mean volume-normalized per pixel sensitivity of 43.9 $\mathrm{nT\mu m^{1.5}/Hz^{0.5}}$. We optimize the sensitivity by implementing a double resonance with hyperfine driving and magnetic field alignment along the $<$001$>$ orientation of the diamond. Additionally, we show that sub-ms temporal resolution ($\sim$ 0.4 ms) can be achieved while keeping the per-pixel sensitivity at a few tens of nanotesla per second using quantum diamond microscopy. This lock-in-based diamond quantum microscopy could be a step forward in mapping functional activity in neuronal networks in micrometer spatial resolution. | 翻訳日:2023-04-27 17:50:35 公開日:2023-04-26 |
# 実世界部分観測による予測世界モデル Predictive World Models from Real-World Partial Observations ( http://arxiv.org/abs/2301.04783v2 ) ライセンス: Link先を確認 | Robin Karlsson, Alexander Carballo, Keisuke Fujii, Kento Ohtani, Kazuya Takeda | (参考訳) 認知科学者は、人間のような適応可能な知的エージェントは、エージェントや環境の学習因果的メンタルシミュレーションを通じて推論を行うと信じている。
このようなシミュレーションを学習する問題は予測世界モデリングと呼ばれる。
近年,世界モデルを活用した強化学習(RL)エージェントがゲーム環境におけるSOTAの性能向上を実現している。
しかし,移動ロボットに関連する複雑な実世界の環境に世界モデリングアプローチを適用する方法を理解することは,未解決の問題である。
本稿では,現実の道路環境に対する確率的予測世界モデル学習のための枠組みを提案する。
本研究では,センサの蓄積観測から多種多様な観測可能な世界を予測可能な階層型vae (hvae) を用いてモデルを実装した。
従来のHVAE法では、学習のための基礎的真理として完全状態を必要とするが、HVAEが部分的に観察された状態のみから完全状態を予測することを学べる新しい逐次訓練法を提案する。
我々は96.21 IoUを達成する決定論的領域の正確な空間構造予測を実験的に実証し、そのギャップを62%の確率的領域に対して最良予測を用いて完全に予測する。
完全基底的真理状態が存在しない場合にhvaを拡張することにより、現実世界の移動ロボットアプリケーションのための説明可能で包括的な予測的世界モデルを実現するためのステップとして、空間予測の継続的な学習を促進する。
コードはhttps://github.com/robin-karlsson0/predictive-world-modelsで入手できる。 Cognitive scientists believe adaptable intelligent agents like humans perform reasoning through learned causal mental simulations of agents and environments. The problem of learning such simulations is called predictive world modeling. Recently, reinforcement learning (RL) agents leveraging world models have achieved SOTA performance in game environments. However, understanding how to apply the world modeling approach in complex real-world environments relevant to mobile robots remains an open question. In this paper, we present a framework for learning a probabilistic predictive world model for real-world road environments. We implement the model using a hierarchical VAE (HVAE) capable of predicting a diverse set of fully observed plausible worlds from accumulated sensor observations. While prior HVAE methods require complete states as ground truth for learning, we present a novel sequential training method to allow HVAEs to learn to predict complete states from partially observed states only. We experimentally demonstrate accurate spatial structure prediction of deterministic regions achieving 96.21 IoU, and close the gap to perfect prediction by 62% for stochastic regions using the best prediction. By extending HVAEs to cases where complete ground truth states do not exist, we facilitate continual learning of spatial prediction as a step towards realizing explainable and comprehensive predictive world models for real-world mobile robotics applications. Code is available at https://github.com/robin-karlsson0/predictive-world-models. | 翻訳日:2023-04-27 17:50:18 公開日:2023-04-26 |
# 遅延系の階層的運動方程式(heom)アナログ:共振器間光子伝播を例に A hierarchical equations of motion (HEOM) analog for systems with delay: illustrated on inter-cavity photon propagation ( http://arxiv.org/abs/2301.02626v3 ) ライセンス: Link先を確認 | Robert Fuchs and Marten Richter | (参考訳) 過去20年間で、谷村と久保の階層的運動方程式(HEOM)は、システムバス問題の数値計算のための動きに基づくツールの方程式となっている。
HEOMは今日では、外浴を通しての散逸・移行プロセスの多くに一般化されている。
空間的に拡張されたフォトニック系では、浴槽内の光子の伝播は量子エミッタのカップリングの遅延/遅延を引き起こす。
ここで、HEOMの導出の背後にあるアイデアは光子遅延の場合に一般化され、2つの誘電スラブの単純な例に適用される。
導出方程式は遅延を記述するための単純な信頼できる枠組みを提供し、経路積分処理の代替となるかもしれない。 Over the last two decades, the hierarchical equations of motion (HEOM) of Tanimura and Kubo have become the equation of motion-based tool for numerically exact calculations of system-bath problems. The HEOM is today generalized to many cases of dissipation and transfer processes through an external bath. In spatially extended photonic systems, the propagation of photons through the bath leads to retardation/delays in the coupling of quantum emitters. Here, the idea behind the HEOM derivation is generalized to the case of photon retardation and applied to the simple example of two dielectric slabs. The derived equations provide a simple reliable framework for describing retardation and may provide an alternative to path integral treatments. | 翻訳日:2023-04-27 17:49:55 公開日:2023-04-26 |
# シーケンシャル量子強化トレーニングを用いたトレーサブル量子機械学習に向けて SEQUENT: Towards Traceable Quantum Machine Learning using Sequential Quantum Enhanced Training ( http://arxiv.org/abs/2301.02601v2 ) ライセンス: Link先を確認 | Philipp Altmann, Leo S\"unkel, Jonas Stein, Tobias M\"uller, Christoph Roch and Claudia Linnhoff-Popien | (参考訳) 量子コンピューティングのような新しいコンピューティングパラダイムを機械学習の分野に適用する動きが最近注目を集めている。
しかし、高次元実世界の応用は純粋に量子ハードウェアで解決できないため、古典的および量子機械学習のパラダイムを用いたハイブリッド手法が提案されている。
例えば、移動学習法はハイブリッド画像分類タスクに適用可能であることが示されている。
それでも、有益な回路アーキテクチャを探求する必要がある。
したがって、選択した回路アーキテクチャとパラメータ化の影響の追跡は、有効なハイブリッド手法の開発に不可欠である。
しかし、現在の方法には、両方の部分を同時に訓練するプロセスが含まれているため、古典的および量子的な影響の厳密な分離性が認められない。
したがって、これらのアーキテクチャは、最小限の量子インパクトを使用しながらより優れた予測精度をもたらすモデルを生成するかもしれない。
本稿では,量子コンピューティング手法のハイブリッド機械学習へのトレーサブルな応用に向けて,逐次的量子強化トレーニング(sequent)により改良されたアーキテクチャとトレーニングプロセスを提案する。
さらに,現在の手法の欠点と予備的な実験結果に対する形式的な証拠を,sequentの適用可能性の実証として提示する。 Applying new computing paradigms like quantum computing to the field of machine learning has recently gained attention. However, as high-dimensional real-world applications are not yet feasible to be solved using purely quantum hardware, hybrid methods using both classical and quantum machine learning paradigms have been proposed. For instance, transfer learning methods have been shown to be successfully applicable to hybrid image classification tasks. Nevertheless, beneficial circuit architectures still need to be explored. Therefore, tracing the impact of the chosen circuit architecture and parameterization is crucial for the development of beneficially applicable hybrid methods. However, current methods include processes where both parts are trained concurrently, therefore not allowing for a strict separability of classical and quantum impact. Thus, those architectures might produce models that yield a superior prediction accuracy whilst employing the least possible quantum impact. To tackle this issue, we propose Sequential Quantum Enhanced Training (SEQUENT) an improved architecture and training process for the traceable application of quantum computing methods to hybrid machine learning. Furthermore, we provide formal evidence for the disadvantage of current methods and preliminary experimental results as a proof-of-concept for the applicability of SEQUENT. | 翻訳日:2023-04-27 17:49:44 公開日:2023-04-26 |
# 配電系統状態推定のための深部統計解法 Deep Statistical Solver for Distribution System State Estimation ( http://arxiv.org/abs/2301.01835v2 ) ライセンス: Link先を確認 | Benjamin Habib, Elvin Isufi, Ward van Breda, Arjen Jongepier, Jochen L. Cremer | (参考訳) 正確な配電系統状態推定(DSSE)の実装には,可観測性の欠如や配電系統の高密度化など,いくつかの課題がある。
機械学習モデルに基づくデータ駆動の代替案が選択できるかもしれないが、ラベル付きデータがないためDSSEに苦しむ。
実際、分布系における測定は、しばしばうるさい、腐敗し、利用できない。
これらの問題に対処するために,配電系統のネットワーク構造と物理支配電力フロー方程式を考慮に入れたグラフニューラルネットワーク(GNN)に基づくディープラーニングモデルである分散系統状態推定のためのDeep Statistical Solver(DSS$^2$)を提案する。
dss$^2$はハイパーグラフを利用して分散システムの異種コンポーネントを表現し、ノード中心のメッセージパッシングスキームを介して潜在表現を更新する。
DSS$^2$を学習と最適化の手法で訓練する弱い教師付き学習手法が提案されている。
GNN出力を電力流方程式に、後者を損失関数に強制することにより、DSS$^2$を分配系の物理を尊重させる。
この戦略はノイズの測定から学び、暗黙のデノイザーとして振る舞うことを可能にし、理想的なラベル付きデータの必要性を緩和する。
IEEE 14-bus、70-bus、および179-busネットワークのケーススタディによる大規模な実験では、DSS$^2$が従来の重み付き最小二乗法アルゴリズムの精度、収束性、計算時間の差で上回った。
DSS$^2$は、真のラベルを持つという非現実的な仮定に依存する教師付きモデルと比較して、競合するが低い性能を達成する。 Implementing accurate Distribution System State Estimation (DSSE) faces several challenges, among which the lack of observability and the high density of the distribution system. While data-driven alternatives based on Machine Learning models could be a choice, they suffer in DSSE because of the lack of labeled data. In fact, measurements in the distribution system are often noisy, corrupted, and unavailable. To address these issues, we propose the Deep Statistical Solver for Distribution System State Estimation (DSS$^2$), a deep learning model based on graph neural networks (GNNs) that accounts for the network structure of the distribution system and for the physical governing power flow equations. DSS$^2$ leverages hypergraphs to represent the heterogeneous components of the distribution systems and updates their latent representations via a node-centric message-passing scheme. A weakly supervised learning approach is put forth to train the DSS$^2$ in a learning-to-optimize fashion w.r.t. the Weighted Least Squares loss with noisy measurements and pseudomeasurements. By enforcing the GNN output into the power flow equations and the latter into the loss function, we force the DSS$^2$ to respect the physics of the distribution system. This strategy enables learning from noisy measurements, acting as an implicit denoiser, and alleviating the need for ideal labeled data. Extensive experiments with case studies on the IEEE 14-bus, 70-bus, and 179-bus networks showed the DSS$^2$ outperforms by a margin the conventional Weighted Least Squares algorithm in accuracy, convergence, and computational time, while being more robust to noisy, erroneous, and missing measurements. The DSS$^2$ achieves a competing, yet lower, performance compared with the supervised models that rely on the unrealistic assumption of having all the true labels. | 翻訳日:2023-04-27 17:49:24 公開日:2023-04-26 |
# 状態変化を伴う時間表型データセットの動的特徴工学とモデル選択法 Dynamic Feature Engineering and model selection methods for temporal tabular datasets with regime changes ( http://arxiv.org/abs/2301.00790v2 ) ライセンス: Link先を確認 | Thomas Wong and Mauricio Barahona | (参考訳) 深層学習アルゴリズムの時間パネルデータセットへの適用は、非定常性が高いため、状態変化下での過度な性能のモデルに繋がる可能性があるため、難しい。
本研究では,データの状態変化下で頑健な時間パネルデータセット上での予測をランキングする,新しい機械学習パイプラインを提案する。
グラデーションブースティング決定木(gbdts)や、シンプルな機能エンジニアリングを伴わないニューラルネットワークなど、さまざまな機械学習モデルが、異なる設定のパイプラインで評価される。
ドロップアウトディスプレイを用いたGBDTモデルは, 比較的低複雑性で, 計算コストの低減が図られている。
次に, オンライン学習手法が予測後処理に利用され, 結果が向上することを示す。
特に、動的機能中立化(Dynamic feature neutralization)は、モデルの再トレーニングを必要とせず、任意の機械学習モデルに予測後に適用できる効率的な手順であり、レシシな変更の削減によって堅牢性を改善する。
さらに,最近のモデル性能に基づく動的モデル選択によるモデルアンサンブルの作成は,サンプル外予測性能のシャープさと冷静さを向上し,ベースラインよりもパフォーマンスが向上することを示す。
また,異なるデータ分割とランダム種子間のパイプラインのロバスト性を評価し,再現性も良好に評価した。 The application of deep learning algorithms to temporal panel datasets is difficult due to heavy non-stationarities which can lead to over-fitted models that under-perform under regime changes. In this work we propose a new machine learning pipeline for ranking predictions on temporal panel datasets which is robust under regime changes of data. Different machine-learning models, including Gradient Boosting Decision Trees (GBDTs) and Neural Networks with and without simple feature engineering are evaluated in the pipeline with different settings. We find that GBDT models with dropout display high performance, robustness and generalisability with relatively low complexity and reduced computational cost. We then show that online learning techniques can be used in post-prediction processing to enhance the results. In particular, dynamic feature neutralisation, an efficient procedure that requires no retraining of models and can be applied post-prediction to any machine learning model, improves robustness by reducing drawdown in regime changes. Furthermore, we demonstrate that the creation of model ensembles through dynamic model selection based on recent model performance leads to improved performance over baseline by improving the Sharpe and Calmar ratios of out-of-sample prediction performances. We also evaluate the robustness of our pipeline across different data splits and random seeds with good reproducibility of results. | 翻訳日:2023-04-27 17:48:48 公開日:2023-04-26 |
# 運用量子メレオロジーと最小スクランブル Operational Quantum Mereology and Minimal Scrambling ( http://arxiv.org/abs/2212.14340v3 ) ライセンス: Link先を確認 | Paolo Zanardi, Emanuel Dallas, and Seth Lloyd | (参考訳) 本稿では,系の力学則から生じる自然量子サブシステムとは何か,という問いに答える。
この質問に答えるために、まず可観測性の観点から一般化テンソル積構造(gTPS)を作用素部分代数 $\cal A$ とその可換体の双対として定義する。
次に,gtpを動的に選択するために,短時間でスクランブルする最小情報の運用基準を提案する。
このように、創発的なサブシステムは、最も長い情報的アイデンティティを保持するサブシステムである。
この戦略は、out of time order correlation(otoc)関数の代数的バージョン(すなわち$\cal a$-otoc)の短時間展開の観点からガウスのスクランブルレートを定義することによって定量的になる。
ガウススクランブルレートは、物理的に重要なサブシステム分割の場合に解析的に計算され、サブシステム間の相互作用強度を最小化し、誤り訂正符号の有効性を最大化するという点で、直感的で説得力のある物理的解釈を持つことが示されている。 In this paper we will attempt to answer the following question: what are the natural quantum subsystems which emerge out of a system's dynamical laws? To answer this question we first define generalized tensor product structures (gTPS) in terms of observables, as dual pairs of an operator subalgebra $\cal A$ and its commutant. Second, we propose an operational criterion of minimal information scrambling at short time scales to dynamically select gTPS. In this way the emergent subsystems are those which maintain the longest informational identity. This strategy is made quantitative by defining a Gaussian scrambling rate in terms of the short-time expansion of an algebraic version of the Out of Time Order Correlation (OTOC) function i.e., the $\cal A$-OTOC. The Gaussian scrambling rate is computed analytically for physically important cases of general division into subsystems, and is shown to have an intuitive and compelling physical interpretation in terms of minimizing the interaction strength between subsystems, and maximizing the effectiveness of error-correcting codes. | 翻訳日:2023-04-27 17:48:26 公開日:2023-04-26 |
# CT-LungNet : 3次元胸部CTスキャンにおける精密肺組織切開のためのディープラーニングフレームワーク CT-LungNet: A Deep Learning Framework for Precise Lung Tissue Segmentation in 3D Thoracic CT Scans ( http://arxiv.org/abs/2212.13971v4 ) ライセンス: Link先を確認 | Niloufar Delfan, Hamid Abrishami Moghaddam, Mohammadreza Modaresi, Kimia Afshari, Kasra Nezamabadi, Neda Pak, Omid Ghaemi, Mohamad Forouzanfar | (参考訳) ct画像における肺組織の分節化は、ほとんどの肺画像解析応用の前駆体である。
近年, 深層学習を用いたセマンティックセグメンテーション手法は, 形状, サイズ, 方向の相違により, 肺組織に対する高精度で堅牢なセグメンテーションモデルを設計することは困難である。
さらに、医用画像アーティファクトやノイズは肺組織セグメンテーションに影響を与え、下流分析の精度を低下させる。
現在の肺組織分割のための深層学習法の実用性は、重要な計算資源を必要とし、臨床環境では容易に展開できないため限られている。
本稿では,深層ネットワークとトランスファーラーニングを用いて3次元肺ct画像中の肺を完全自動識別する手法を提案する。
本稿では,(1)容積情報を簡潔に表現する連続CTスライスからの新しい2.5次元画像表現,(2)学習可能なパラメータの数を極力低く保ちながら,事前学習したInceptionV3ブロックを備えたU-Netアーキテクチャを提案する。
VESSEL12とCRPFの2つの公開データセットとトレーニングとテストのために,LUNA16という1つの公開データセットを用いて定量的に評価した。
学習可能なパラメータの少なさから,luna16よりも優れた性能(各luna16, vessel12, crpfデータセットに対して,それぞれ99.7, 99.1, 98.8のdice係数)を得るとともに,luna16よりも高い汎用性を達成した。
我々はこの手法を medvispy.ee.kntu.ac.ir のグラフィカルユーザインタフェースを通じて一般公開した。 Segmentation of lung tissue in computed tomography (CT) images is a precursor to most pulmonary image analysis applications. Semantic segmentation methods using deep learning have exhibited top-tier performance in recent years, however designing accurate and robust segmentation models for lung tissue is challenging due to the variations in shape, size, and orientation. Additionally, medical image artifacts and noise can affect lung tissue segmentation and degrade the accuracy of downstream analysis. The practicality of current deep learning methods for lung tissue segmentation is limited as they require significant computational resources and may not be easily deployable in clinical settings. This paper presents a fully automatic method that identifies the lungs in three-dimensional (3D) pulmonary CT images using deep networks and transfer learning. We introduce (1) a novel 2.5-dimensional image representation from consecutive CT slices that succinctly represents volumetric information and (2) a U-Net architecture equipped with pre-trained InceptionV3 blocks to segment 3D CT scans while maintaining the number of learnable parameters as low as possible. Our method was quantitatively assessed using one public dataset, LUNA16, for training and testing and two public datasets, namely, VESSEL12 and CRPF, only for testing. Due to the low number of learnable parameters, our method achieved high generalizability to the unseen VESSEL12 and CRPF datasets while obtaining superior performance over Luna16 compared to existing methods (Dice coefficients of 99.7, 99.1, and 98.8 over LUNA16, VESSEL12, and CRPF datasets, respectively). We made our method publicly accessible via a graphical user interface at medvispy.ee.kntu.ac.ir. | 翻訳日:2023-04-27 17:48:06 公開日:2023-04-26 |
# ドメインインデクシング変分ベイズ: ドメイン適応のための解釈可能なドメインインデックス Domain-Indexing Variational Bayes: Interpretable Domain Index for Domain Adaptation ( http://arxiv.org/abs/2302.02561v4 ) ライセンス: Link先を確認 | Zihao Xu, Guang-Yuan Hao, Hao He, Hao Wang | (参考訳) これまでの研究では、ドメインインデックスの活用はドメイン適応性能を大幅に向上させることが示されている(arXiv:2007.01807, arXiv:2202.03628)。
しかし、そのようなドメインインデックスは必ずしも利用できない。
この課題に対処するために、まず確率論的観点からドメインインデックスの形式的定義を行い、その後、多領域データからドメインインデックスを推論し、ドメイン関係に関するさらなる洞察を与え、ドメイン適応性能を向上させる、逆変分ベイズフレームワークを提案する。
理論解析の結果, 逆変分ベイズフレームワークは最適領域指数を平衡で求めることがわかった。
合成データと実データの両方における実験結果から,モデルが解釈可能なドメインインデックスを生成できることを確認し,最先端のドメイン適応法と比較して優れた性能を実現する。
コードはhttps://github.com/Wang-ML-Lab/VDIで入手できる。 Previous studies have shown that leveraging domain index can significantly boost domain adaptation performance (arXiv:2007.01807, arXiv:2202.03628). However, such domain indices are not always available. To address this challenge, we first provide a formal definition of domain index from the probabilistic perspective, and then propose an adversarial variational Bayesian framework that infers domain indices from multi-domain data, thereby providing additional insight on domain relations and improving domain adaptation performance. Our theoretical analysis shows that our adversarial variational Bayesian framework finds the optimal domain index at equilibrium. Empirical results on both synthetic and real data verify that our model can produce interpretable domain indices which enable us to achieve superior performance compared to state-of-the-art domain adaptation methods. Code is available at https://github.com/Wang-ML-Lab/VDI. | 翻訳日:2023-04-27 17:40:53 公開日:2023-04-26 |
# 超低温における半導体量子ドット媒体の自己誘起透過 Self-induced Transparency in a Semiconductor Quantum Dot medium at ultra-cold temperatures ( http://arxiv.org/abs/2302.02377v2 ) ライセンス: Link先を確認 | Samit Kumar Hazra, P. K. Pathak, and Tarak Nath Dey | (参考訳) 不均一に拡張された半導体量子ドット媒体における最小吸収とパルス伝播の最小拡張の可能性を検討する。
フォノン相互作用はいかなる半導体量子ドット系の研究においても避けられない。
システム力学における量子ドットフォノン相互作用にポーラロン変換法を適用した。
短パルスが最小吸収で媒質内を伝播し、パルス形状を拡大できることを実証した。
安定なパルス領域はパルス領域定理の予測よりもわずかに高くなり、環境温度にも依存する。
媒体の感受性によって支持される伝播方程式を数値的に解いて最終パルス形状の変化を非常によく説明する。
また、より高い入力パルス領域におけるパルス分解現象も提示する。
したがって, 量子通信, 量子情報, モードロックにおいて, 拡張性と制御性を利用して重要な応用が考えられる。 We investigate the feasibility of minimum absorption and minimum broadening of pulse propagation in an inhomogeneously broadened semiconductor quantum dot medium. The phonon interaction is inevitable in studying any semiconductor quantum dot system. We have used the polaron transformation technique to deal with quantum dot phonon interaction in solving system dynamics. We demonstrate that a short pulse can propagate inside the medium with minimal absorption and broadening in pulse shape. The stable pulse area becomes slightly higher than the prediction of the pulse area theorem and is also dependent on the environment temperature. The change in the final pulse shape is explained very well by numerically solving the propagation equation supported by the susceptibility of the medium. Our system also exhibits the pulse breakup phenomena for higher input pulse areas. Therefore, the considered scheme can have important applications in quantum communication, quantum information, and mode-locking with the advantage of scalability and controllability. | 翻訳日:2023-04-27 17:40:35 公開日:2023-04-26 |
# Kappa vacua:熱場二重状態の一般化 Kappa vacua: A generalization of the thermofield double state ( http://arxiv.org/abs/2301.13672v3 ) ライセンス: Link先を確認 | Arash Azizi | (参考訳) 右と左のリンドラーモードと反対の符号ノルムの組み合わせによって発見された、$\kappa$-modeについて詳しく述べる。
異なるカッパ・ヴァクアの関係は、ミンコフスキー=リンドラー・ヴァクア関係と類似している。
すると、熱場二重状態がミンコフスキー真空に対するリンドラー真空の表現であるという事実に着想を得て、我々の$\kappa$-vacuumを一般化された非熱場二重状態として解釈することができる。
一般的な$\kappa \neq1$ 真空は、ミンコフスキー真空の有名な例とは対照的に、特定のリンドラーウェッジに還元するともはや熱的ではない。 We elaborate more on $\kappa$-mode, a mode that was found by a combination of Rindler modes in the right and left Rindler wedges with opposite sign norms. We find a relation between different kappa vacua, similar to the Minkowski-Rindler vacua relation. Then, inspired by the fact that the thermofield double state is an expression for the Minkowski vacuum in terms of the Rindler vacuum, we may interpret our $\kappa$-vacuum as a generalized non-thermofield double state. A general $\kappa \neq1$ vacuum, in contrast to the well-known case of the Minkowski vacuum, is no longer thermal when reduced to a specific Rindler wedge. | 翻訳日:2023-04-27 17:40:22 公開日:2023-04-26 |
# CCUBデータセットを用いたテキスト・画像合成モデルの等価表現に向けて Towards Equitable Representation in Text-to-Image Synthesis Models with the Cross-Cultural Understanding Benchmark (CCUB) Dataset ( http://arxiv.org/abs/2301.12073v2 ) ライセンス: Link先を確認 | Zhixuan Liu, Youeun Shin, Beverley-Claire Okogwu, Youngsik Yun, Lia Coleman, Peter Schaldenbrand, Jihie Kim, Jean Oh | (参考訳) メディアの正確な表現は、それを消費する人々の幸福を改善できることが示されている。
対照的に、不正確な表現は視聴者に悪影響を与え、他の文化の有害な知覚につながる。
生成した画像の包括的表現を実現するために,私たちが収集した小さいが文化的にキュレートされたデータセットをCCUB(Cross-Cultural Understanding Benchmark)データセットとして利用し,巨大なデータセットで広く使われているバイアスに対処する手法を提案する。
提案手法は,(1)事前学習したテキストと画像の合成モデルである安定拡散をCCUBのテキストと画像のペアに微調整することで視覚的コンテキストを付加し,(2)微調整された大言語モデルであるGPT-3を用いて自動プロンプトエンジニアリングにより意味的コンテキストを付加する。
CCUBデータセットをキュレートし,その文化と個人的関係を持つ人々からアプローチを評価した。
本研究は,テキストと画像の両方を用いたプライミングが,品質を維持しつつ,生成画像の文化的妥当性の向上と不快感の低減に有効であることを示す。 It has been shown that accurate representation in media improves the well-being of the people who consume it. By contrast, inaccurate representations can negatively affect viewers and lead to harmful perceptions of other cultures. To achieve inclusive representation in generated images, we propose a culturally-aware priming approach for text-to-image synthesis using a small but culturally curated dataset that we collected, known here as Cross-Cultural Understanding Benchmark (CCUB) Dataset, to fight the bias prevalent in giant datasets. Our proposed approach is comprised of two fine-tuning techniques: (1) Adding visual context via fine-tuning a pre-trained text-to-image synthesis model, Stable Diffusion, on the CCUB text-image pairs, and (2) Adding semantic context via automated prompt engineering using the fine-tuned large language model, GPT-3, trained on our CCUB culturally-aware text data. CCUB dataset is curated and our approach is evaluated by people who have a personal relationship with that particular culture. Our experiments indicate that priming using both text and image is effective in improving the cultural relevance and decreasing the offensiveness of generated images while maintaining quality. | 翻訳日:2023-04-27 17:39:10 公開日:2023-04-26 |
# ニュースの文レベルの事実性とメディアメディアのバイアスの予測 Predicting Sentence-Level Factuality of News and Bias of Media Outlets ( http://arxiv.org/abs/2301.11850v2 ) ライセンス: Link先を確認 | Francielle Vargas, Kokil Jaidka, Thiago A. S. Pardo, Fabr\'icio Benevenuto | (参考訳) ニュース報道の事実とメディアの偏見を予測することは、ニュースの信頼性と事実確認に確実に関係している。
先行研究はニュースの検証に重点を置いてきたが,我々はメディア全体のきめ細かな信頼性分析を提案する。
具体的には,ニュース報道の文章レベルの事実性やメディアの偏見の予測について検討し,情報源全体の信頼性をより正確に説明する。
最初に手動で作成した「FactNews」という大文レベルのデータセットは、AllSidesの事実とメディアバイアスの定義に基づいて6,191文を専門的に注釈付けした。
その結果,文レベルの事実性予測のベースラインモデルが微調整bertにより提示された。
最後に、ブラジルにおける偽ニュースの深刻さと政治的二極化のため、ポルトガルのためにデータセットとベースラインの両方が提案された。
しかし、我々のアプローチは他の言語にも適用できる。 Predicting the factuality of news reporting and bias of media outlets is surely relevant for automated news credibility and fact-checking. While prior work has focused on the veracity of news, we propose a fine-grained reliability analysis of the entire media. Specifically, we study the prediction of sentence-level factuality of news reporting and bias of media outlets, which may explain more accurately the overall reliability of the entire source. We first manually produced a large sentence-level dataset, titled "FactNews", composed of 6,191 sentences expertly annotated according to factuality and media bias definitions from AllSides. As a result, baseline models for sentence-level factuality prediction were presented by fine-tuning BERT. Finally, due to the severity of fake news and political polarization in Brazil, both dataset and baseline were proposed for Portuguese. However, our approach may be applied to any other language. | 翻訳日:2023-04-27 17:38:43 公開日:2023-04-26 |
# 文書要約に知識を組み込む: GPT-2におけるプレフィックスチューニングの適用 Incorporating Knowledge into Document Summarisation: an Application of Prefix-Tuning on GPT-2 ( http://arxiv.org/abs/2301.11719v3 ) ライセンス: Link先を確認 | Chen Chen, Wei Emma Zhang, Alireza Seyed Shakeri | (参考訳) 近年の文書要約技術の発展にもかかわらず、生成した要約と原文との事実的不一致は時折起こり続けている。
本研究は,事実知識を生成要約に取り入れるプロンプトの導入可能性を検討する。
具体的には,学習可能な連続プレフィックスプロンプトと個別自然言語プロンプトを併用して要約生成を支援するプレフィックスチューニングについて検討した。
実験結果から,訓練可能な接頭辞は,離散的プロンプトから情報を正確に抽出する上で有効であることが確認された。
生成した要約のルージュ改善は、要約プロセスに事実知識を明示的に追加することで全体的なパフォーマンスが向上し、他の自然言語処理タスクに適用する大きな可能性を示している。 Despite the great development of document summarisation techniques nowadays, factual inconsistencies between the generated summaries and the original texts still occur from time to time. This study explores the possibility of adopting prompts to incorporate factual knowledge into generated summaries. We specifically study prefix-tuning that uses a set of trainable continuous prefix prompts together with discrete natural language prompts to aid summary generation. Experimental results demonstrate that the trainable prefixes can help the summarisation model extract information from discrete prompts precisely, thus generating knowledge-preserving summaries that are factually consistent with the discrete prompts. The ROUGE improvements of the generated summaries indicate that explicitly adding factual knowledge into the summarisation process could boost the overall performance, showing great potential for applying it to other natural language processing tasks. | 翻訳日:2023-04-27 17:38:28 公開日:2023-04-26 |
# 非破壊的読み出しによる2次元原子配列のランダム化ベンチマーク Randomized Benchmarking using Non-Destructive Readout in a 2D Atom Array ( http://arxiv.org/abs/2301.10510v2 ) ライセンス: Link先を確認 | B. Nikolov, E. Diamond-Hitchcock, J. Bass, N. L. R. Spong and J. D. Pritchard | (参考訳) 中性原子はスケーラブルな量子コンピューティングの有望なプラットフォームであるが、以前は高忠実性ゲートや低損失読み出し手法の実証には制限された数の量子ビットが使用されている。
マイクロ波駆動単一量子ゲートのランダム化ベンチマークを用いて、225個の原子に対して8(2)\times10^{-5}$の単一量子ビットゲート誤差を示す。
さらに、49個の原子の低損失、非破壊的、および状態選択的読み出しによる測定誤差の抑制を実証し、ゲート誤差が2$(9);times10^{-4}$であるが、2.6$\times$リードアウト誤差は、現在の設定において主要なエラー源である。 Neutral atoms are a promising platform for scalable quantum computing, however prior demonstration of high fidelity gates or low-loss readout methods have employed restricted numbers of qubits. Using randomized benchmarking of microwave-driven single-qubit gates, we demonstrate single qubit gate errors of $8(2)\times10^{-5}$ on 225 atoms using conventional, destructive readout which exceeds the threshold for fault-tolerance. We further demonstrate suppression of measurement errors via low-loss, non-destructive and state-selective readout on 49 atoms achieving gate errors of $2(9)\times10^{-4}$ but with 2.6$\times$ reduction in readout error which is a primary source of error in present setups. | 翻訳日:2023-04-27 17:38:14 公開日:2023-04-26 |
# 疑似ランダム性から多集団フェアネス・バックへ From Pseudorandomness to Multi-Group Fairness and Back ( http://arxiv.org/abs/2301.08837v3 ) ライセンス: Link先を確認 | Cynthia Dwork, Daniel Lee, Huijia Lin, Pranay Tankala | (参考訳) 予測アルゴリズムに対する多群公平性に関する最近の文献と,リーク・レジリエンスとグラフ正則性に関する疑似ランダム性概念との関係を明らかにした。
我々は,結果の不一致の概念と密接に関連している,統計的距離に基づく新しいマルチキャリブレーションの変種を用いて検討を行った。
この観点を採用することは、自然にグラフ理論結果だけでなく、パラメータの多値化のための新しいより効率的なアルゴリズムや、実数値関数のハードコア補題の新たな証明にも繋がる。 We identify and explore connections between the recent literature on multi-group fairness for prediction algorithms and the pseudorandomness notions of leakage-resilience and graph regularity. We frame our investigation using new, statistical distance-based variants of multicalibration that are closely related to the concept of outcome indistinguishability. Adopting this perspective leads us naturally not only to our graph theoretic results, but also to new, more efficient algorithms for multicalibration in certain parameter regimes and a novel proof of a hardcore lemma for real-valued functions. | 翻訳日:2023-04-27 17:37:58 公開日:2023-04-26 |
# クロスドメインFew-Shot学習のための爆発的移動型タスク拡張 Exploiting Style Transfer-based Task Augmentation for Cross-Domain Few-Shot Learning ( http://arxiv.org/abs/2301.07927v2 ) ライセンス: Link先を確認 | Shuzhen Rao, Jun Huang, Zengming Tang | (参考訳) クロスドメインの少数ショット学習では、ソースドメインでトレーニングされたモデルは、特にドメインシフトが大きい場合には、ターゲットドメインへの一般化に苦労している。
学習課題と目標タスクのドメインシフトが、通常、そのスタイルの変化を反映できるという観察から、我々は、ドメイン一般化能力を向上させるために、スタイル移行に基づくタスク拡張を行うためのタスク拡張メタラーニング(TAML)を提案する。
第一に、Multi-task Interpolation (MTI)は異なるスタイルの複数のタスクから機能を融合するために導入され、より多様なスタイルが利用できる。
さらに,マルチタスクスタイル転送(mtst)と呼ばれる新しいタスク提供戦略を提案し,既存のタスクのスタイル転送を行い,判別スタイル非依存な特徴を学習する。
また、ランダムなスタイルを追加し、モデルの一般化を改善する機能変調モジュール(fm)も導入する。
提案したTAMLは、トレーニングタスクのスタイルの多様性を高め、ドメイン一般化能力の向上したモデルのトレーニングに寄与する。
この効果は、2つの人気のあるクロスドメイン・マイノショットベンチマークの理論的解析と徹底的な実験によって実証される。 In cross-domain few-shot learning, the core issue is that the model trained on source domains struggles to generalize to the target domain, especially when the domain shift is large. Motivated by the observation that the domain shift between training tasks and target tasks usually can reflect in their style variation, we propose Task Augmented Meta-Learning (TAML) to conduct style transfer-based task augmentation to improve the domain generalization ability. Firstly, Multi-task Interpolation (MTI) is introduced to fuse features from multiple tasks with different styles, which makes more diverse styles available. Furthermore, a novel task-augmentation strategy called Multi-Task Style Transfer (MTST) is proposed to perform style transfer on existing tasks to learn discriminative style-independent features. We also introduce a Feature Modulation module (FM) to add random styles and improve generalization of the model. The proposed TAML increases the diversity of styles of training tasks, and contributes to training a model with better domain generalization ability. The effectiveness is demonstrated via theoretical analysis and thorough experiments on two popular cross-domain few-shot benchmarks. | 翻訳日:2023-04-27 17:37:48 公開日:2023-04-26 |
# 安定化器符号の逆対角論理演算子 Transversal Diagonal Logical Operators for Stabiliser Codes ( http://arxiv.org/abs/2303.15615v2 ) ライセンス: Link先を確認 | Mark A. Webster, Armanda O. Quintavalle, and Stephen D. Bartlett | (参考訳) 量子エラー訂正コードに量子情報を格納することで、エラーから保護することができるが、フォールトトレラントな方法で格納された量子情報を変換する能力も同様に重要である。
論理パウリ群演算子は、一連の物理パウリ X と Z ゲートを適用することで、一般に研究されているコードカテゴリである Calderbank-Shor-Steane (CSS) 符号に実装することができる。
この形式の論理演算子は、各キュービットが少なくとも1つのゲートによって動作し、エラーの拡散を制限するので、フォールトトレラントであるため、トランスバーサル論理演算子(transversal logical operator)と呼ばれる。
パウリ群外における横断的論理作用素の同定は、あまりよく分かっていない。
パウリ作用素はクリフォード階層の最初のレベルであり、フォールトトレランスと普遍性に深く結びついている。
本研究では,単一および多ビット対角線クリフォード階層ゲートからなる超越論理作用素について検討する。
従来の手法よりも汎用的あるいは計算複雑性が低いcssコード上で,すべての横方向の対角的論理演算子を識別するアルゴリズムを実証する。
また,単一キュービット位相ゲートを用いて実装した,所望の対角論理クリフォード階層演算子を持つCSSコードを構築する方法を示す。
本手法は,対角的クリフォード階層ゲートからなる演算子を対角的xp演算子として表現することに依存している。 Storing quantum information in a quantum error correction code can protect it from errors, but the ability to transform the stored quantum information in a fault tolerant way is equally important. Logical Pauli group operators can be implemented on Calderbank-Shor-Steane (CSS) codes, a commonly-studied category of codes, by applying a series of physical Pauli X and Z gates. Logical operators of this form are fault-tolerant because each qubit is acted upon by at most one gate, limiting the spread of errors, and are referred to as transversal logical operators. Identifying transversal logical operators outside the Pauli group is less well understood. Pauli operators are the first level of the Clifford hierarchy which is deeply connected to fault-tolerance and universality. In this work, we study transversal logical operators composed of single- and multi-qubit diagonal Clifford hierarchy gates. We demonstrate algorithms for identifying all transversal diagonal logical operators on a CSS code that are more general or have lower computational complexity than previous methods. We also show a method for constructing CSS codes that have a desired diagonal logical Clifford hierarchy operator implemented using single qubit phase gates. Our methods rely on representing operators composed of diagonal Clifford hierarchy gates as diagonal XP operators and this technique may have broader applications. | 翻訳日:2023-04-27 17:32:11 公開日:2023-04-26 |
# ランゲヴィン型モンテカルロアルゴリズムの非漸近解析 Non-asymptotic analysis of Langevin-type Monte Carlo algorithms ( http://arxiv.org/abs/2303.12407v3 ) ライセンス: Link先を確認 | Shogo Nakakita | (参考訳) 我々はgibbs分布からのサンプリングのためのlangevin型アルゴリズムについて検討し、ポテンシャルが散逸し、その弱い勾配は必ずしもゼロに収束するとは限らない連続性の有限モジュラーを持つことを示した。
我々の主な結果は、ギブス分布と一般ランジュバン型アルゴリズムの法則との間の2-wasserstein距離の非漸近上界であり、リプツァー-シリャエフ理論とポアンカル\'{e}不等式に基づいている。
これを適用すると、ランゲヴィンモンテカルロアルゴリズムは、ポテンシャルが散逸的であり、勾配が一様連続である場合、ギブス分布を任意の精度で近似できることを示す。
また、凸性や連続微分性のないポテンシャルに対して球面平滑化を持つランゲヴィン型アルゴリズムを提案する。 We study Langevin-type algorithms for sampling from Gibbs distributions such that the potentials are dissipative and their weak gradients have finite moduli of continuity not necessarily convergent to zero. Our main result is a non-asymptotic upper bound of the 2-Wasserstein distance between the Gibbs distribution and the law of general Langevin-type algorithms based on the Liptser--Shiryaev theory and Poincar\'{e} inequalities. We apply this bound to show that the Langevin Monte Carlo algorithm can approximate Gibbs distributions with arbitrary accuracy if the potentials are dissipative and their gradients are uniformly continuous. We also propose Langevin-type algorithms with spherical smoothing for potentials without convexity or continuous differentiability. | 翻訳日:2023-04-27 17:31:29 公開日:2023-04-26 |
# 建物足跡抽出のためのデュアルスキップ接続を用いたu-net, resunet, u-net3+アーキテクチャの再検討 Rethinking the U-Net, ResUnet, and U-Net3+ architectures with dual skip connections for building footprint extraction ( http://arxiv.org/abs/2303.09064v2 ) ライセンス: Link先を確認 | Bipul Neupane, Jagannath Aryal, and Abbas Rajabifard | (参考訳) 建物の足跡とその在庫の重要性は、複数の社会問題に対する基礎的な空間情報として認識されている。
複雑な都市建物の抽出には、超高解像度(VHR)地球観測(EO)画像の分割が含まれる。
U-Netは、ResUnet、U-Net++、U-Net3+のような新しいセグメンテーションの基礎となる、共通のディープラーニングネットワークである。
再導入は、スキップ接続コンポーネントを再設計し、U-Netのマルチスケール機能を活用することで効率向上を求める。
しかし、スキップ接続は必ずしもこれらのネットワークを改善しておらず、マルチスケール機能ではコンテキスト情報が失われる。
本稿では,u-net,resunet,u-net3+のデュアルスキップ接続機構を提案する。
これにより、スキップ接続によって転送される機能マップが深まり、これらのネットワーク内のコンテキストとローカライゼーションの間のより正確なトレードオフを見つけることができる。
これらのメカニズムは3つのネットワークの異なるスケールの特徴マップで評価され、9つのネットワーク構成が生成される。
ネットワークは、vhr (0.3m)、高解像度 (1mと1.2m)、マルチレゾリューション (0.3+0.6+1.2m) の4つの異なる空間解像度のビルディングフットプリントデータセット (3つの既存および1つの新しい) を使用して、元のバニラバージョンに対して評価される。
提案手法は、U-NetとResUnetの5つの評価尺度における効率向上を報告し、最大17.7%と18.4%のF1スコアとU-Net3+のIoU(Intersection over Union)の上昇を報告した。
コードは、ピアレビューの後にGitHubのリンクで入手できる。 The importance of building footprints and their inventory has been recognised as foundational spatial information for multiple societal problems. Extracting complex urban buildings involves the segmentation of very high-resolution (VHR) earth observation (EO) images. U-Net is a common deep learning network and foundation for its new incarnations like ResUnet, U-Net++ and U-Net3+ for such segmentation. The re-incarnations look for efficiency gain by re-designing the skip connection component and exploiting the multi-scale features in U-Net. However, skip connections do not always improve these networks and context information is lost in the multi-scale features. In this paper, we propose three novel dual skip connection mechanisms for U-Net, ResUnet, and U-Net3+. This deepens the feature maps forwarded by the skip connections to find a more accurate trade-off between context and localisation within these networks. The mechanisms are evaluated on feature maps of different scales in the three networks, producing nine new network configurations. The networks are evaluated against their original vanilla versions using four building footprint datasets (three existing and one new) of different spatial resolutions: VHR (0.3m), high-resolution (1m and 1.2m), and multi-resolution (0.3+0.6+1.2m). The proposed mechanisms report efficiency gain on five evaluation measures for U-Net and ResUnet, and up to 17.7% and 18.4% gain in F1 score and Intersection over Union (IoU) for U-Net3+. The codes will be available in a GitHub link after peer review. | 翻訳日:2023-04-27 17:31:13 公開日:2023-04-26 |
# 言語モデルの復号アルゴリズムをステーリングするリスクについて On the Risks of Stealing the Decoding Algorithms of Language Models ( http://arxiv.org/abs/2303.04729v3 ) ライセンス: Link先を確認 | Ali Naseh, Kalpesh Krishna, Mohit Iyyer, Amir Houmansadr | (参考訳) 現代の言語モデル(LM)からテキストを生成する重要な要素は、復号アルゴリズムの選択とチューニングである。
これらのアルゴリズムは、LMによって生成される内部確率分布からテキストを生成する方法を決定する。
復号アルゴリズムを選択してハイパーパラメータをチューニングするプロセスには、かなりの時間、手作業、計算が必要であり、人的評価も必要である。
したがって、そのような復号アルゴリズムのアイデンティティとハイパーパラメータは、所有者にとって極めて貴重であると考えられる。
この研究で、我々は、lmに典型的なapiアクセスを持つ敵が、非常に低い金銭的コストでデコードアルゴリズムのタイプとハイパーパラメータを盗むことができることを初めて示す。
我々の攻撃は、GPT-2やGPT-3を含むテキスト生成APIで使われる一般的なLMに対して効果的である。
GPT-3の4つのバージョンでは、$$$0.8$、$$$1$、$$$4$、$$$40$などである。 A key component of generating text from modern language models (LM) is the selection and tuning of decoding algorithms. These algorithms determine how to generate text from the internal probability distribution generated by the LM. The process of choosing a decoding algorithm and tuning its hyperparameters takes significant time, manual effort, and computation, and it also requires extensive human evaluation. Therefore, the identity and hyperparameters of such decoding algorithms are considered to be extremely valuable to their owners. In this work, we show, for the first time, that an adversary with typical API access to an LM can steal the type and hyperparameters of its decoding algorithms at very low monetary costs. Our attack is effective against popular LMs used in text generation APIs, including GPT-2 and GPT-3. We demonstrate the feasibility of stealing such information with only a few dollars, e.g., $\$0.8$, $\$1$, $\$4$, and $\$40$ for the four versions of GPT-3. | 翻訳日:2023-04-27 17:30:38 公開日:2023-04-26 |
# 大規模機械学習モデルのための証明可能な量子アルゴリズムを目指して Towards provably efficient quantum algorithms for large-scale machine-learning models ( http://arxiv.org/abs/2303.03428v2 ) ライセンス: Link先を確認 | Junyu Liu, Minzhao Liu, Jin-Peng Liu, Ziyu Ye, Yuri Alexeev, Jens Eisert, Liang Jiang | (参考訳) 大規模な機械学習モデルは人工知能の革命的な技術であり、そのボトルネックには、事前学習と微調整の両方で使用される膨大な計算コスト、パワー、時間が含まれる。
この研究では、フォールトトレラントな量子コンピューティングは、モデルのサイズが$n$であり、モデルが十分に散逸的でスパースであり、学習率が低い限り、モデルの反復数である$\mathcal{o}(t^2 \times \text{polylog}(n))$としてスケールし、一般的な(確率的な)勾配降下アルゴリズムに対して、確実に効率的な解決を提供する可能性があることを示します。
散逸微分方程式に対するより効率的な量子アルゴリズムに基づいて、類似のアルゴリズムが機械学習の主要なアルゴリズムである(確率的な)勾配降下のために機能することを発見し、証明する。
実際には、700万から1億300万のパラメータを持つ大規模機械学習モデルのインスタンスをベンチマークします。
スパーストレーニングの文脈では、モデルプルーニング後の学習の初期段階で量子拡張が可能であり、スパースパラメータのダウンロードと再アップロードのスキームを動機付けている。
我々の研究は、フォールトトレラントな量子アルゴリズムが、最先端の大規模機械学習問題の多くに寄与する可能性を確証している。 Large machine learning models are revolutionary technologies of artificial intelligence whose bottlenecks include huge computational expenses, power, and time used both in the pre-training and fine-tuning process. In this work, we show that fault-tolerant quantum computing could possibly provide provably efficient resolutions for generic (stochastic) gradient descent algorithms, scaling as $\mathcal{O}(T^2 \times \text{polylog}(n))$, where $n$ is the size of the models and $T$ is the number of iterations in the training, as long as the models are both sufficiently dissipative and sparse, with small learning rates. Based on earlier efficient quantum algorithms for dissipative differential equations, we find and prove that similar algorithms work for (stochastic) gradient descent, the primary algorithm for machine learning. In practice, we benchmark instances of large machine learning models from 7 million to 103 million parameters. We find that, in the context of sparse training, a quantum enhancement is possible at the early stage of learning after model pruning, motivating a sparse parameter download and re-upload scheme. Our work shows solidly that fault-tolerant quantum algorithms could potentially contribute to most state-of-the-art, large-scale machine-learning problems. | 翻訳日:2023-04-27 17:30:14 公開日:2023-04-26 |
# 事前学習したエッジトランスフォーマーによるオンラインゲームにおける友人ランキング Friend Ranking in Online Games via Pre-training Edge Transformers ( http://arxiv.org/abs/2302.10043v4 ) ライセンス: Link先を確認 | Liang Yao, Jiazhen Peng, Shenggong Ji, Qiang Liu, Hongyun Cai, Feng He, Xu Cheng | (参考訳) friend recallはオンラインゲームにおけるdau(daily active users)を改善する重要な手段だ。
問題は、事実上、失われた友人のランキングリストを作ることだ。
伝統的な友人リコール手法は、失った選手の復帰確率を予測するために、友人親密さや分類器の訓練のようなルールに焦点を当てるが、(アクティブな)選手の特徴情報や歴史的な友人リコールイベントは無視する。
本研究では,友人のリコールをリンク予測問題として扱うとともに,履歴イベントだけでなく,アクティブプレイヤーとロスプレイヤーの両方の特徴を活用可能なリンク予測手法について検討する。
さらに,新しいEdge Transformerモデルを提案し,マスク付きオートエンコーダによる事前学習を行う。
本手法は3つのTencentゲームにおけるオフライン実験とオンラインA/Bテストの最先端結果を実現する。 Friend recall is an important way to improve Daily Active Users (DAU) in online games. The problem is to generate a proper lost friend ranking list essentially. Traditional friend recall methods focus on rules like friend intimacy or training a classifier for predicting lost players' return probability, but ignore feature information of (active) players and historical friend recall events. In this work, we treat friend recall as a link prediction problem and explore several link prediction methods which can use features of both active and lost players, as well as historical events. Furthermore, we propose a novel Edge Transformer model and pre-train the model via masked auto-encoders. Our method achieves state-of-the-art results in the offline experiments and online A/B Tests of three Tencent games. | 翻訳日:2023-04-27 17:29:46 公開日:2023-04-26 |
# データ効率の高いコントラスト型自己教師付き学習: 簡単な例が最も貢献 Data-Efficient Contrastive Self-supervised Learning: Easy Examples Contribute the Most ( http://arxiv.org/abs/2302.09195v2 ) ライセンス: Link先を確認 | Siddharth Joshi and Baharan Mirzasoleiman | (参考訳) 自己教師付き学習(SSL)は、ラベルなしトレーニングデータの大規模なプールから高品質な表現を学ぶ。
データセットが大きくなるにつれて、そのような表現の学習に最も寄与する例を特定することが重要になる。
これにより、高品質な表現を学習するために必要なデータの量を削減し、効率的なSSLを可能にする。
それでもSSLの例の定量化は未解決の問題である。
この研究では、コントラストのあるSSLに最も貢献する例が、期待して他の例に最もよく似た拡張を持つ例であることを証明して、初めてこの問題に対処する。
このようなサブセット上でSSLの一般化性能を厳格に保証する。
経験上、sslに最も寄与するサブセットは、監督された学習に最も貢献しない部分集合である。
CIFAR100, CIFAR10, STL10において, 我々のサブセットはランダムサブセットよりも3%以上優れていた。
興味深いことに、CIFAR100から20%、STL10から40%を安全に排除でき、下流タスクのパフォーマンスに影響を与えない。 Self-supervised learning (SSL) learns high-quality representations from large pools of unlabeled training data. As datasets grow larger, it becomes crucial to identify the examples that contribute the most to learning such representations. This enables efficient SSL by reducing the volume of data required for learning high-quality representations. Nevertheless, quantifying the value of examples for SSL has remained an open question. In this work, we address this for the first time, by proving that examples that contribute the most to contrastive SSL are those that have the most similar augmentations to other examples, in expectation. We provide rigorous guarantees for the generalization performance of SSL on such subsets. Empirically, we discover, perhaps surprisingly, the subsets that contribute the most to SSL are those that contribute the least to supervised learning. Through extensive experiments, we show that our subsets outperform random subsets by more than 3% on CIFAR100, CIFAR10, and STL10. Interestingly, we also find that we can safely exclude 20% of examples from CIFAR100 and 40% from STL10, without affecting downstream task performance. | 翻訳日:2023-04-27 17:29:30 公開日:2023-04-26 |
# 分布外運動予測のための生成的因果表現学習 Generative Causal Representation Learning for Out-of-Distribution Motion Forecasting ( http://arxiv.org/abs/2302.08635v2 ) ライセンス: Link先を確認 | Shayan Shirahmad Gale Bagi, Zahra Gharaee, Oliver Schulte, Mark Crowley | (参考訳) 従来の教師付き学習法では、通常、i.dサンプルを仮定し、アウト・オブ・ディストリビューション(OOD)データに敏感である。
本稿では、因果性を利用して分布シフトによる知識伝達を促進する生成因果表現学習(GCRL)を提案する。
ヒトの軌道予測モデルにおいて提案手法の有効性を評価する一方、GCRLは他の領域にも適用可能である。
まず,すべての環境に共通する特徴と各環境に特有の特徴を用いて,運動予測データセットにおける生成要因を説明する新しい因果モデルを提案する。
選択変数は、微調整なしでモデルのどの部分を新しい環境へ直接転送できるかを決定するために使用される。
第2に,特徴から観察を生成する因果メカニズムを学ぶために,エンドツーエンドの変分学習パラダイムを提案する。
GCRLは、特定の仮定の下で因果モデルの識別可能性を示す強い理論的結果によって支持される。
合成および実世界の動き予測データセットによる実験結果から,ゼロショットおよびローショット設定下での知識伝達における提案手法の堅牢性と有効性を示す。
私たちのコードはhttps://github.com/sshirahmad/GCRLで利用可能です。 Conventional supervised learning methods typically assume i.i.d samples and are found to be sensitive to out-of-distribution (OOD) data. We propose Generative Causal Representation Learning (GCRL) which leverages causality to facilitate knowledge transfer under distribution shifts. While we evaluate the effectiveness of our proposed method in human trajectory prediction models, GCRL can be applied to other domains as well. First, we propose a novel causal model that explains the generative factors in motion forecasting datasets using features that are common across all environments and with features that are specific to each environment. Selection variables are used to determine which parts of the model can be directly transferred to a new environment without fine-tuning. Second, we propose an end-to-end variational learning paradigm to learn the causal mechanisms that generate observations from features. GCRL is supported by strong theoretical results that imply identifiability of the causal model under certain assumptions. Experimental results on synthetic and real-world motion forecasting datasets show the robustness and effectiveness of our proposed method for knowledge transfer under zero-shot and low-shot settings by substantially outperforming the prior motion forecasting models on out-of-distribution prediction. Our code is available at https://github.com/sshirahmad/GCRL. | 翻訳日:2023-04-27 17:29:13 公開日:2023-04-26 |
# 単一量子ビットマルコフ開量子システムのディジタルシミュレーション:チュートリアル Digital Simulation of Single Qubit Markovian Open Quantum Systems: A Tutorial ( http://arxiv.org/abs/2302.02953v2 ) ライセンス: Link先を確認 | I J David, I Sinayskiy and F Petruccione | (参考訳) 量子コンピュータの使用に関する最初の提案の一つは、量子システムのシミュレーションであった。
過去30年にわたり、閉じた量子系とより複雑な開量子系をシミュレートするアルゴリズムの開発において大きな進歩を遂げてきた。
本稿では,単一量子ビットマルコフ開量子システムのシミュレーションで用いられる手法を紹介する。
これは、様々な既存の表記法を、より複雑なオープンシステムシミュレーション問題に拡張できる共通のフレームワークに結合する。
単一量子ビットオープン量子系のディジタルシミュレーションで現在利用可能な唯一のアルゴリズムについて詳述する。
単純なチャネルの実装を改良し、古典的なランダムサンプリングの必要性をなくし、修正アルゴリズムを厳密な量子アルゴリズムとした。
修正されたアルゴリズムは、全チャネルを近似する単純なチャネルを実装するために量子フォークを使用する。
これは多数のc-notゲートを持つ量子回路の必要性を回避している。 One of the first proposals for the use of quantum computers was the simulation of quantum systems. Over the past three decades, great strides have been made in the development of algorithms for simulating closed quantum systems and the more complex open quantum systems. In this tutorial, we introduce the methods used in the simulation of single qubit Markovian open quantum systems. It combines various existing notations into a common framework that can be extended to more complex open system simulation problems. The only currently available algorithm for the digital simulation of single qubit open quantum systems is discussed in detail. A modification to the implementation of the simpler channels is made that removes the need for classical random sampling, thus making the modified algorithm a strictly quantum algorithm. The modified algorithm makes use of quantum forking to implement the simpler channels that approximate the total channel. This circumvents the need for quantum circuits with a large number of C-NOT gates. | 翻訳日:2023-04-27 17:28:49 公開日:2023-04-26 |
# mhfit: 機械学習による運動量予測のためのモバイル健康データ MHfit: Mobile Health Data for Predicting Athletics Fitness Using Machine Learning ( http://arxiv.org/abs/2304.04839v2 ) ライセンス: Link先を確認 | Jonayet Miah, Muntasir Mamun, Md Minhazur Rahman, Md Ishtyaq Mahmud, Sabbir Ahmed, Md Hasan Bin Nasir | (参考訳) 携帯電話や他の電子機器やデバイスは、データ入力を必要とせずにデータ収集を支援する。
本稿では特にモバイル健康データに焦点を当てる。
モバイル健康データは、モバイルデバイスを使って臨床健康データを収集し、患者のバイタルをリアルタイムで追跡する。
我々の研究は、モバイルデバイスやセンサーから収集したデータを用いて、スポーツ選手が特定の試合に適しているかどうかを判断し、複数の機械学習アルゴリズムを比較し、人間の行動と健康を予測することを目的としている。
本研究では、mhealthで行った同様の研究からデータセットを得た。
データセットには、異なるバックグラウンドの10人のボランティアのバイタルサインが含まれている。
身体にセンサーを装着していくつかの身体活動を行う必要があった。
本研究では,5つの機械学習アルゴリズム (xgboost, naive bayes, decision tree, random forest, logistic regression) を用いて,人の健康行動の分析と予測を行った。
XGBoostは、他の機械学習アルゴリズムと比較して、95.2%の精度、99.5%の感度、99.5%の特異性、99.66%のスコアを達成した。
私たちの研究は、mhealthが人間の行動を予測するために使われる有望な将来性を示し、スポーツ産業に特化した商用利用のために、さらなる研究と調査を行う必要があることを示した。 Mobile phones and other electronic gadgets or devices have aided in collecting data without the need for data entry. This paper will specifically focus on Mobile health data. Mobile health data use mobile devices to gather clinical health data and track patient vitals in real-time. Our study is aimed to give decisions for small or big sports teams on whether one athlete good fit or not for a particular game with the compare several machine learning algorithms to predict human behavior and health using the data collected from mobile devices and sensors placed on patients. In this study, we have obtained the dataset from a similar study done on mhealth. The dataset contains vital signs recordings of ten volunteers from different backgrounds. They had to perform several physical activities with a sensor placed on their bodies. Our study used 5 machine learning algorithms (XGBoost, Naive Bayes, Decision Tree, Random Forest, and Logistic Regression) to analyze and predict human health behavior. XGBoost performed better compared to the other machine learning algorithms and achieved 95.2% accuracy, 99.5% in sensitivity, 99.5% in specificity, and 99.66% in F1 score. Our research indicated a promising future in mhealth being used to predict human behavior and further research and exploration need to be done for it to be available for commercial use specifically in the sports industry. | 翻訳日:2023-04-27 17:21:41 公開日:2023-04-26 |
# データ拡張器として検出トランスを使用する Use the Detection Transformer as a Data Augmenter ( http://arxiv.org/abs/2304.04554v2 ) ライセンス: Link先を確認 | Luping Wang, Bin Liu | (参考訳) Detection Transformer (DETR) は、Transformerアーキテクチャに基づくオブジェクト検出モデルである。
本稿では,データ拡張器としても使用できることを実証する。
我々は、我々のアプローチを、略してDeTR支援のCutMixまたはDeMixと表現する。
DeMixは、シンプルだが非常に効果的なデータ拡張技術であるCutMix上に構築されている。
cutmixはパッチを1つのイメージから別のイメージにカット・ペーストし、新しいイメージを生成することで、モデルパフォーマンスを向上させる。
この新しい例に対応するラベルは、パッチの面積に比例する元のラベルの重み付き平均として指定される。
CutMixはカットすべきランダムパッチを選択する。
対照的にDeMixは、事前訓練されたDETRが配置する意味的にリッチなパッチを精巧に選択する。
新しい画像のラベルは、CutMixと同じ方法で指定される。
画像分類のためのベンチマークデータセットの実験結果は、demixがcutmixを含む先行技術データ拡張法を大幅に上回っていることを示している。
Oueコードはhttps://github.com/ZJLAB-AMMI/DeMixで入手できる。 Detection Transformer (DETR) is a Transformer architecture based object detection model. In this paper, we demonstrate that it can also be used as a data augmenter. We term our approach as DETR assisted CutMix, or DeMix for short. DeMix builds on CutMix, a simple yet highly effective data augmentation technique that has gained popularity in recent years. CutMix improves model performance by cutting and pasting a patch from one image onto another, yielding a new image. The corresponding label for this new example is specified as the weighted average of the original labels, where the weight is proportional to the area of the patch. CutMix selects a random patch to be cut. In contrast, DeMix elaborately selects a semantically rich patch, located by a pre-trained DETR. The label of the new image is specified in the same way as in CutMix. Experimental results on benchmark datasets for image classification demonstrate that DeMix significantly outperforms prior art data augmentation methods including CutMix. Oue code is available at https://github.com/ZJLAB-AMMI/DeMix. | 翻訳日:2023-04-27 17:21:19 公開日:2023-04-26 |
# DiffMimic: 微分物理学による効率的な運動ミミック DiffMimic: Efficient Motion Mimicking with Differentiable Physics ( http://arxiv.org/abs/2304.03274v2 ) ライセンス: Link先を確認 | Jiawei Ren, Cunjun Yu, Siwei Chen, Xiao Ma, Liang Pan, Ziwei Liu | (参考訳) モーション模倣は物理学に基づくキャラクターアニメーションの基本課題である。
しかし、既存の運動模倣法は強化学習(rl)に基づいて構築されており、高い報酬工学、高い分散、ハードエクスプロレーションによる収束の遅さに苦しむ。
具体的には、単純な動作シーケンスを模倣するために、通常何時間、あるいは何日もトレーニングを要し、スケーラビリティが低下する。
本研究では、微分可能な物理シミュレータ(DPS)を活用し、DiffMimicと呼ばれる効率的な運動模倣法を提案する。
我々の重要な洞察は、DPSが複雑なポリシー学習タスクを、より単純な状態マッチング問題に向けていることです。
特に、DPSは解析的な勾配による安定なポリシーを学習し、したがってRL法よりもはるかに高速で安定な収束をもたらす。
さらに,局所最適から逃れるために,Demonstration Replay機構を用いて,水平方向の安定な勾配バックプロパゲーションを実現する。
標準ベンチマークでの大規模な実験は、DiffMimicが既存の方法(例えばDeepMimic)よりもサンプル効率と時間効率が優れていることを示している。
特にDiffMimicでは、物理シミュレーションされたキャラクターがトレーニングの10分後にBackflipを学習し、3時間のトレーニングの後にサイクルすることができる。
さらに重要なことは、将来の研究で微分可能衣料シミュレーションのような技術により、diffmimicがより微分可能なアニメーションシステムに役立つことを願っている。 Motion mimicking is a foundational task in physics-based character animation. However, most existing motion mimicking methods are built upon reinforcement learning (RL) and suffer from heavy reward engineering, high variance, and slow convergence with hard explorations. Specifically, they usually take tens of hours or even days of training to mimic a simple motion sequence, resulting in poor scalability. In this work, we leverage differentiable physics simulators (DPS) and propose an efficient motion mimicking method dubbed DiffMimic. Our key insight is that DPS casts a complex policy learning task to a much simpler state matching problem. In particular, DPS learns a stable policy by analytical gradients with ground-truth physical priors hence leading to significantly faster and stabler convergence than RL-based methods. Moreover, to escape from local optima, we utilize a Demonstration Replay mechanism to enable stable gradient backpropagation in a long horizon. Extensive experiments on standard benchmarks show that DiffMimic has a better sample efficiency and time efficiency than existing methods (e.g., DeepMimic). Notably, DiffMimic allows a physically simulated character to learn Backflip after 10 minutes of training and be able to cycle it after 3 hours of training, while the existing approach may require about a day of training to cycle Backflip. More importantly, we hope DiffMimic can benefit more differentiable animation systems with techniques like differentiable clothes simulation in future research. | 翻訳日:2023-04-27 17:21:03 公開日:2023-04-26 |
# 学習可能なサイバー物理システムの因果修復 Causal Repair of Learning-enabled Cyber-physical Systems ( http://arxiv.org/abs/2304.02813v2 ) ライセンス: Link先を確認 | Pengyuan Lu and Ivan Ruchkin and Matthew Cleaveland and Oleg Sokolsky and Insup Lee | (参考訳) 実際の因果関係のモデルはドメイン知識を利用して、結果を引き起こす事象の説得力のある診断を生成する。
これらのモデルを、学習可能なコンポーネント(LEC)によるサイバー物理システム(CPS)のランタイムプロパティ違反の診断と修復に応用することが約束されている。
しかし、LECの多様性と複雑さが高いことから、ドメイン知識(例えば、CPSダイナミクス)を拡張性のある実際の因果関係モデルでエンコードすることは、有用な修復提案を生成するのが困難である。
本稿では,LECの入出力行動に対する因果診断に焦点をあてる。
具体的には、LECのI/O動作のどのサブセットがプロパティ違反の実際の原因であるかを特定することを目的とする。
重要な副産物は、特定された問題行動を修正することでランタイムプロパティを修復するlecの偽物バージョンである。
この知見に基づいて,(1)構成およびhalpern-pearl因果関係モデルの設計を行い,(2)要素のi/o行動に対する特性結果の依存性を反映し,(2)実際の原因を探索し,それに対応する修復を行う。
実際の原因が見つかった場合、システムは修復されることが保証されます。そうでなければ、分析中のlecがプロパティの侵害を起こさないという高い確率的信頼が得られます。
提案手法は,標準のOpenAI Gymベンチマークで学習したコントローラの修復に成功したことを示す。 Models of actual causality leverage domain knowledge to generate convincing diagnoses of events that caused an outcome. It is promising to apply these models to diagnose and repair run-time property violations in cyber-physical systems (CPS) with learning-enabled components (LEC). However, given the high diversity and complexity of LECs, it is challenging to encode domain knowledge (e.g., the CPS dynamics) in a scalable actual causality model that could generate useful repair suggestions. In this paper, we focus causal diagnosis on the input/output behaviors of LECs. Specifically, we aim to identify which subset of I/O behaviors of the LEC is an actual cause for a property violation. An important by-product is a counterfactual version of the LEC that repairs the run-time property by fixing the identified problematic behaviors. Based on this insights, we design a two-step diagnostic pipeline: (1) construct and Halpern-Pearl causality model that reflects the dependency of property outcome on the component's I/O behaviors, and (2) perform a search for an actual cause and corresponding repair on the model. We prove that our pipeline has the following guarantee: if an actual cause is found, the system is guaranteed to be repaired; otherwise, we have high probabilistic confidence that the LEC under analysis did not cause the property violation. We demonstrate that our approach successfully repairs learned controllers on a standard OpenAI Gym benchmark. | 翻訳日:2023-04-27 17:20:39 公開日:2023-04-26 |
# グラフニューラルネットワークにおけるプールの表現力 The expressive power of pooling in Graph Neural Networks ( http://arxiv.org/abs/2304.01575v2 ) ライセンス: Link先を確認 | Filippo Maria Bianchi, Veronica Lachi | (参考訳) グラフニューラルネットワーク(GNN)では、階層的なプーリング演算子は、グラフ構造と頂点の特徴を粗くすることで、データの局所的な要約を生成する。
GNNにおけるメッセージパッシング(MP)層の表現力の分析に注目が集まる一方で、グラフプーリングがGNNの表現力にどのように影響するかの研究がまだ不足している。
また、最近のプール演算子の設計の進歩にもかかわらず、比較する原則的な基準は存在しない。
本研究では, プール演算子がMP層の表現力を完全に維持するために必要な条件を導出する。
これらの条件は、既存のプーリング演算子の中から選択したり、新しいものを設計するための普遍的で理論的な基準として機能する。
理論的な知見に基づき,既存のプーリング演算子を複数解析し,表現性の条件を満たすことができないものを同定する。
最後に,グラフ同型テストの実行能力の観点から,プール層を備えたGNNの表現力を実証的に検証する実験装置を提案する。 In Graph Neural Networks (GNNs), hierarchical pooling operators generate local summaries of the data by coarsening the graph structure and the vertex features. Considerable attention has been devoted to analyzing the expressive power of message-passing (MP) layers in GNNs, while a study on how graph pooling affects the expressiveness of a GNN is still lacking. Additionally, despite the recent advances in the design of pooling operators, there is not a principled criterion to compare them. In this work, we derive sufficient conditions for a pooling operator to fully preserve the expressive power of the MP layers before it. These conditions serve as a universal and theoretically-grounded criterion for choosing among existing pooling operators or designing new ones. Based on our theoretical findings, we analyze several existing pooling operators and identify those that fail to satisfy the expressiveness conditions. Finally, we introduce an experimental setup to verify empirically the expressive power of a GNN equipped with pooling layers, in terms of its capability to perform a graph isomorphism test. | 翻訳日:2023-04-27 17:20:17 公開日:2023-04-26 |
# エンタングルメントエンハンスドデュアルコーム分光法 Entanglement-enhanced dual-comb spectroscopy ( http://arxiv.org/abs/2304.01516v2 ) ライセンス: Link先を確認 | Haowei Shi, Zaijun Chen, Scott E. Fraser, Mengjie Yu, Zheshen Zhang and Quntao Zhuang | (参考訳) dual-comb interferometryは、2つのレーザー周波数コムの干渉を利用して、分光応用において前例のない能力を提供する。
過去10年間で、最先端のシステムは、真空変動によるショットノイズによって、単位取得時間当たりの信号対雑音比が根本的に制限される地点に達した。
この問題に対処するために,量子資源を活用し,信号対雑音比性能を著しく向上させる,エンタングルメントエンハンスド二重コム分光プロトコルを提案する。
実システムの性能を解析するために,実用的な雑音を考慮した双対コム分光の量子モデルを開発した。
このモデルに基づき, ヘテロダイン検出におけるショットノイズを抑制するために, 各コーム線にサイドバンド絡み合いを有する量子コームを提案する。
以上の結果から,uwからmwのパワー範囲において大きな量子効果を示し,生体・化学センシングへの応用において特に魅力的な技術である。
さらに、量子コムは非線形光学を用いて設計することができ、短期実験を約束する。 Dual-comb interferometry harnesses the interference of two laser frequency comb to provide unprecedented capability in spectroscopy applications. In the past decade, the state-of-the-art systems have reached a point where the signal-to-noise ratio per unit acquisition time is fundamentally limited by shot noise from vacuum fluctuations. To address the issue, we propose an entanglement-enhanced dual comb spectroscopy protocol that leverages quantum resources to significantly improve the signal-to-noise ratio performance. To analyze the performance of real systems, we develop a quantum model of dual-comb spectroscopy that takes practical noises into consideration. Based on this model, we propose quantum combs with side-band entanglement around each comb lines to suppress the shot noise in heterodyne detection. Our results show significant quantum advantages in the uW to mW power range, making this technique particularly attractive for biological and chemical sensing applications. Furthermore, the quantum comb can be engineered using nonlinear optics and promises near-term experimentation. | 翻訳日:2023-04-27 17:20:01 公開日:2023-04-26 |
# 時系列からネットワークを推測する:ニューラルネットワーク Inferring networks from time series: a neural approach ( http://arxiv.org/abs/2303.18059v2 ) ライセンス: Link先を確認 | Thomas Gaskin, Grigorios A. Pavliotis, Mark Girolami | (参考訳) ネットワーク構造は、遺伝子規制や食品ウェブから電力網やソーシャルメディアに至るまで、多くの複雑な現象のダイナミクスを基盤としている。
しかし、しばしば直接観測できないため、それらの結合性は創発力学の観測から推測されなければならない。
本研究では,ニューラルネットワークを用いた時系列データから大規模ネットワーク隣接行列を推定する強力な計算手法を提案する。
これは、ネットワーク推論の問題は一般的には未決定であり、そのような方法に欠ける特徴があるため有用である。
電力カットに対する応答から,イギリス電力網内の線路故障箇所を推定し,本手法の有効性を実証する。
問題は未決定であるため、多くの古典的な統計ツール(例えば回帰)は直接適用されない。
対照的に,提案手法は各エッジに確率密度を提供し,仮説テストを用いることでパワーカットの位置に関する有意義な確率的ステートメントを実現できる。
また, グレーター・ロンドンにおける経済活動の非線形モデルに対して, コスト行列全体を学習できることを示す。
提案手法は, 雑音データに対して, 速度と予測精度の両方でOLSレグレッションを上回り, OLSが立方体である場合, N^2$としてスケールする。
ネットワーク推論のために特別に設計されていないため,本手法は任意のパラメータ次元に適用可能な一般パラメータ推定方式を示す。 Network structures underlie the dynamics of many complex phenomena, from gene regulation and foodwebs to power grids and social media. Yet, as they often cannot be observed directly, their connectivities must be inferred from observations of their emergent dynamics. In this work we present a powerful computational method to infer large network adjacency matrices from time series data using a neural network, in order to provide uncertainty quantification on the prediction in a manner that reflects both the non-convexity of the inference problem as well as the noise on the data. This is useful since network inference problems are typically underdetermined, and a feature that has hitherto been lacking from such methods. We demonstrate our method's capabilities by inferring line failure locations in the British power grid from its response to a power cut. Since the problem is underdetermined, many classical statistical tools (e.g. regression) will not be straightforwardly applicable. Our method, in contrast, provides probability densities on each edge, allowing the use of hypothesis testing to make meaningful probabilistic statements about the location of the power cut. We also demonstrate our method's ability to learn an entire cost matrix for a non-linear model of economic activity in Greater London. Our method outperforms OLS regression on noisy data in terms of both speed and prediction accuracy, and scales as $N^2$ where OLS is cubic. Not having been specifically engineered for network inference, our method represents a general parameter estimation scheme that is applicable to any parameter dimension. | 翻訳日:2023-04-27 17:19:45 公開日:2023-04-26 |
# 量子機械学習による弱雑音量子状態の複雑性解析 Complexity analysis of weakly noisy quantum states via quantum machine learning ( http://arxiv.org/abs/2303.17813v2 ) ライセンス: Link先を確認 | Yusen Wu, Bujiao Wu, Yanqi Song, Xiao Yuan, Jingbo B. Wang | (参考訳) フォールトトレラントな動作が可能な量子コンピュータは、古典的な計算モデルよりも証明可能な利点をもたらすことが期待されている。
しかし、ノイズの多い中間スケールの量子時代に量子的優位性が存在するかどうかという問題は根本的で難しい問題である。
この挑戦の根源は、ノイズの多い量子状態のパワーを探索し定量化することの難しさにある。
本研究では,ノイズ状態を生成するのに必要な最短の量子回路のサイズと定義した弱雑音状態の複雑性に着目した。
この複雑さを解析するために、まず回路深度、ノイズモデル、純度と一般的な関係を確立する。
この必要条件に基づいて,構造化量子ニューラルネットワークの固有接続特性を利用した量子機械学習(QML)アルゴリズムを提案する。
提案したQMLアルゴリズムは,観測結果から弱雑音状態の複雑性を効率的に予測し,ノイズ量子計算のパワーを特徴付けるためのパラダイムシフトを示す。 Quantum computers capable of fault-tolerant operation are expected to provide provable advantages over classical computational models. However, the question of whether quantum advantages exist in the noisy intermediate-scale quantum era remains a fundamental and challenging problem. The root of this challenge lies in the difficulty of exploring and quantifying the power of noisy quantum states. In this work, we focus on the complexity of weakly noisy states, which we define as the size of the shortest quantum circuit required to prepare the noisy state. To analyze this complexity, we first establish a general relationship between circuit depth, noise model, and purity. Based on this necessary condition, we propose a quantum machine learning (QML) algorithm that exploits the intrinsic-connection property of structured quantum neural networks. The proposed QML algorithm enables efficiently predicting the complexity of weakly noisy states from measurement results, representing a paradigm shift in our ability to characterize the power of noisy quantum computation. | 翻訳日:2023-04-27 17:19:22 公開日:2023-04-26 |
# ワイナー多視点教師なし学習のための効率的な交代最小化解法 Efficient Alternating Minimization Solvers for Wyner Multi-View Unsupervised Learning ( http://arxiv.org/abs/2303.15866v2 ) ライセンス: Link先を確認 | Teng-Hui Huang and Hesham El Gamal | (参考訳) 本研究では,教師なし多視点表現学習にWyner共通情報フレームワークを採用する。
本枠組みでは, 交代最小化原理に基づく計算効率の高い解法の開発を可能にする2つの新しい定式化を提案する。
第1の定式化は「変分形式」と呼ばれ、ビューの数とともに線形に増大する複雑性を享受し、ラグランジュ最適化目的関数と結合した変分推論の強い代理関数に基づいている。
第2の定式化、すなわち表現形式は、特別な場合として既知の結果を含むことが示されている。
そこで本研究では,非凸最適化問題の解法として,乗算器の交互方向法(ADMM)アルゴリズムを用いた調整版を開発する。
二つの場合において、提案する解法の収束は、ある関係の領域において確立される。
さらに,提案手法の有効性を,最先端解法との比較により実証した。
簡単に言うと、提案する解法は計算効率、理論的収束保証(ローカルミニマ)、拡張性のあるビュー数による複雑さ、最先端技術と比較して非常に精度が高い。
ここでの私たちの焦点は離散的なケースに当てられ、連続分布に対する結果が他の場所で報告されます。 In this work, we adopt Wyner common information framework for unsupervised multi-view representation learning. Within this framework, we propose two novel formulations that enable the development of computational efficient solvers based on the alternating minimization principle. The first formulation, referred to as the {\em variational form}, enjoys a linearly growing complexity with the number of views and is based on a variational-inference tight surrogate bound coupled with a Lagrangian optimization objective function. The second formulation, i.e., the {\em representational form}, is shown to include known results as special cases. Here, we develop a tailored version from the alternating direction method of multipliers (ADMM) algorithm for solving the resulting non-convex optimization problem. In the two cases, the convergence of the proposed solvers is established in certain relevant regimes. Furthermore, our empirical results demonstrate the effectiveness of the proposed methods as compared with the state-of-the-art solvers. In a nutshell, the proposed solvers offer computational efficiency, theoretical convergence guarantees (local minima), scalable complexity with the number of views, and exceptional accuracy as compared with the state-of-the-art techniques. Our focus here is devoted to the discrete case and our results for continuous distributions are reported elsewhere. | 翻訳日:2023-04-27 17:19:07 公開日:2023-04-26 |
# 弱教師付きセマンティックセグメンテーションのためのグローバルコンテキストとローカルコンテンツの結合 Coupling Global Context and Local Contents for Weakly-Supervised Semantic Segmentation ( http://arxiv.org/abs/2304.09059v2 ) ライセンス: Link先を確認 | Chunyan Wang, Dong Zhang, Liyan Zhang, Jinhui Tang | (参考訳) フレンドリーなアノテーションの利点と満足なパフォーマンスのおかげで、Wakly-Supervised Semantic Segmentation (WSSS)アプローチは広く研究されている。
近年,高コストな計算コストと多段WSSSの複雑な訓練手順の問題を緩和するために,単段WSSSが導入された。
しかし、そのような未成熟モデルの結果は、背景不完全性と対象不完全性の問題に悩まされる。
その結果,グローバルなオブジェクトコンテキストが不十分であること,ローカルなコンテンツ不足が原因であることが実証的に判明した。
そこで本研究では,画像レベルのクラスラベルのみを監督する単段wsssモデルを提案する。これは,隣接する特徴格子から形成されるマルチスケールなコンテキストをキャプチャし,低レベル特徴から細かな空間情報を高レベルなものにエンコードできる,弱い教師付き特徴結合ネットワーク (ws-fcn) と呼ばれる。
具体的には、グローバルなオブジェクトコンテキストを異なる粒度空間でキャプチャするために、フレキシブルなコンテキストアグリゲーションモジュールを提案する。
さらに,ボトムアップパラメータ学習可能な方法で意味的に一貫性のある機能融合モジュールを提案し,細粒度局所コンテンツを集約する。
これら2つのモジュールに基づいて、WS-FCNは、セルフ教師付きエンドツーエンドのトレーニングスタイルにあります。
PASCAL VOC 2012 と MS COCO 2014 の大規模な実験結果から、PASCAL VOC 2012 val とテストセットで 65.02\% と 64.22\% mIoU、MS COCO 2014 val で 34.12\% mIoU の最先端結果が得られる WS-FCN の有効性と効率が示された。
コードとウェイトは、https://github.com/ChunyanWang1/ws-fcnでリリースされた。 Thanks to the advantages of the friendly annotations and the satisfactory performance, Weakly-Supervised Semantic Segmentation (WSSS) approaches have been extensively studied. Recently, the single-stage WSSS was awakened to alleviate problems of the expensive computational costs and the complicated training procedures in multi-stage WSSS. However, results of such an immature model suffer from problems of background incompleteness and object incompleteness. We empirically find that they are caused by the insufficiency of the global object context and the lack of the local regional contents, respectively. Under these observations, we propose a single-stage WSSS model with only the image-level class label supervisions, termed as Weakly Supervised Feature Coupling Network (WS-FCN), which can capture the multi-scale context formed from the adjacent feature grids, and encode the fine-grained spatial information from the low-level features into the high-level ones. Specifically, a flexible context aggregation module is proposed to capture the global object context in different granular spaces. Besides, a semantically consistent feature fusion module is proposed in a bottom-up parameter-learnable fashion to aggregate the fine-grained local contents. Based on these two modules, WS-FCN lies in a self-supervised end-to-end training fashion. Extensive experimental results on the challenging PASCAL VOC 2012 and MS COCO 2014 demonstrate the effectiveness and efficiency of WS-FCN, which can achieve state-of-the-art results by 65.02\% and 64.22\% mIoU on PASCAL VOC 2012 val set and test set, 34.12\% mIoU on MS COCO 2014 val set, respectively. The code and weight have been released at:https://github.com/ChunyanWang1/ws-fcn. | 翻訳日:2023-04-27 17:13:43 公開日:2023-04-26 |
# ダミーの量子誤差補正 Quantum Error Correction For Dummies ( http://arxiv.org/abs/2304.08678v2 ) ライセンス: Link先を確認 | Avimita Chatterjee, Koustubh Phalak, Swaroop Ghosh | (参考訳) 量子コンピューティングの現在のノイズ中間スケール量子(NISQ)時代には、量子ビット技術は不完全になりがちであり、ゲートエラー、デコヒーレンス/デフォーカス、測定エラー、リーク、クロストークなどの様々なエラーが発生する。
これらのエラーは、NISQデバイス内でエラーのない計算を実現する上での課題である。
この問題に対する解決策として、量子誤差補正(qec)が提案されている。
(i)検出:エラーの存在を特定すること。
(ii)復号:影響を受けるqubit(s)の位置をピンポイントし、
(iii)補正:故障したキュービットを元の状態に復元する。
QECは複雑な概念を包含する研究分野の拡大である。
本稿では,量子物理学とその関連する数学的概念に精通していない計算機科学者に適応した,量子誤差補正の歴史的文脈,現状,今後の展望を総合的に検討することを目的とする。
この作品では、私たちは、
(a)QECの基本原理を説明し、量子ビットの誤りを修正するために設計された既存の量子誤り訂正符号(QECC)を探索する。
b)これらのqeccの実装と誤り訂正品質に関する実用性の検討
(c) NISQ コンピュータの現在の状況の文脈における QEC の実装に関わる課題を強調した。 In the current Noisy Intermediate Scale Quantum (NISQ) era of quantum computing, qubit technologies are prone to imperfections, giving rise to various errors such as gate errors, decoherence/dephasing, measurement errors, leakage, and crosstalk. These errors present challenges in achieving error-free computation within NISQ devices. A proposed solution to this issue is Quantum Error Correction (QEC), which aims to rectify the corrupted qubit state through a three-step process: (i) detection: identifying the presence of an error, (ii) decoding: pinpointing the location(s) of the affected qubit(s), and (iii) correction: restoring the faulty qubits to their original states. QEC is an expanding field of research that encompasses intricate concepts. In this paper, we aim to provide a comprehensive review of the historical context, current state, and future prospects of Quantum Error Correction, tailored to cater to computer scientists with limited familiarity with quantum physics and its associated mathematical concepts. In this work, we, (a) explain the foundational principles of QEC and explore existing Quantum Error Correction Codes (QECC) designed to correct errors in qubits, (b) explore the practicality of these QECCs concerning implementation and error correction quality, and (c) highlight the challenges associated with implementing QEC within the context of the current landscape of NISQ computers. | 翻訳日:2023-04-27 17:13:06 公開日:2023-04-26 |
# 音の言語:大規模言語モデルにおける感覚意味知識の探索 The language of sounds unheard: Exploring sensory semantic knowledge in large language models ( http://arxiv.org/abs/2304.07830v2 ) ライセンス: Link先を確認 | Kai Siedenburg and Charalampos Saitis | (参考訳) 音のセマンティック次元は、聴覚感覚経験の性質や、知覚、言語、意味のより広い関係を理解する上で、中心的な役割を担っている。
その結果,近年の大型言語モデル(LLMs)の普及に伴い,このようなモデルが人間のものと類似した知覚意味論の組織を示すかどうかを問うことができた。
具体的には、最先端のLLMに基づくチャットボットChatGPTに、20のセマンティックスケールで楽器の音質を評価するよう促した。
別々のチャットで複数の応答を導き出しました。
ChatGPTは人間の評価と部分的にしか相関しないセマンティックプロファイルを作成したが、明るさ(明暗)やピッチ高さ(深高)といった音楽音のよく知られた心理物理学的次元に沿って強い一致を示した。
探索的因子分析により,チャットボットと人間の格付けの間に潜伏因子空間の空間配置が異なっていた。
予想外に、チャットボットは人間の評価に匹敵する程度の内部変動を示した。
我々の研究は、人間の感覚経験の健全な次元を捉えるLLMの可能性を強調している。 Semantic dimensions of sound have been playing a central role in understanding the nature of auditory sensory experience as well as the broader relation between perception, language, and meaning. Accordingly, and given the recent proliferation of large language models (LLMs), here we asked whether such models exhibit an organisation of perceptual semantics similar to those observed in humans. Specifically, we prompted ChatGPT, a chatbot based on a state-of-the-art LLM, to rate musical instrument sounds on a set of 20 semantic scales. We elicited multiple responses in separate chats, analogous to having multiple human raters. ChatGPT generated semantic profiles that only partially correlated with human ratings, yet showed robust agreement along well-known psychophysical dimensions of musical sounds such as brightness (bright-dark) and pitch height (deep-high). Exploratory factor analysis suggested the same dimensionality but different spatial configuration of a latent factor space between the chatbot and human ratings. Unexpectedly, the chatbot showed degrees of internal variability that were comparable in magnitude to that of human ratings. Our work highlights the potential of LLMs to capture salient dimensions of human sensory experience. | 翻訳日:2023-04-27 17:12:48 公開日:2023-04-26 |
# transfusionodom: 解釈可能なトランスフォーマーベースのlidar-inertial fusion odometry 推定 TransFusionOdom: Interpretable Transformer-based LiDAR-Inertial Fusion Odometry Estimation ( http://arxiv.org/abs/2304.07728v2 ) ライセンス: Link先を確認 | Leyuan Sun, Guanqun Ding, Yue Qiu, Yusuke Yoshiyasu and Fumio Kanehiro | (参考訳) センサのマルチモーダル融合は,移動ロボットの基本モジュールであるオドメトリ推定の性能を高めるために一般的に用いられている手法である。
しかし, 教師付きセンサ融合オドメトリ推定タスクにおいて, 異なるモード間の融合をどのように行うか?
まだ課題の1つが残っている。
要素和や連結といったいくつかの単純な演算は、異なるモーダルを効率的に組み込むために適応的な注意重みを割り当てることができないため、競合オドメトリーの結果を得るのが困難である。
近年、Transformerアーキテクチャは、特に言語とのビジョン領域において、マルチモーダル融合タスクの可能性を示している。
本研究では,オドメトリ推定のためのエンドツーエンドの教師付きトランスフォーマトベースlidar-inertial fusion framework(transfusionodom)を提案する。
マルチアテンション融合モジュールは、モデルの複雑さを盲目的に増やすことで生じる過剰フィッティング問題に対処するために、均質および不均質なモダリティに対する異なる融合アプローチを示す。
さらに,変圧器を用いたマルチモーダルインタラクションの学習過程を解釈するために,モダリティ間の相互作用を説明するために,汎用可視化手法を導入する。
さらに, 各種マルチモーダル核融合戦略の評価を行い, 提案する核融合戦略の性能を検証した。
提案した融合戦略の一般化能力を検証するために, 合成マルチモーダルデータセットが公開されている。
提案したTransFusionOdomをKITTIデータセットで定量および定性評価することにより,他の関連する研究と比較して優れた性能が得られた。 Multi-modal fusion of sensors is a commonly used approach to enhance the performance of odometry estimation, which is also a fundamental module for mobile robots. However, the question of \textit{how to perform fusion among different modalities in a supervised sensor fusion odometry estimation task?} is still one of challenging issues remains. Some simple operations, such as element-wise summation and concatenation, are not capable of assigning adaptive attentional weights to incorporate different modalities efficiently, which make it difficult to achieve competitive odometry results. Recently, the Transformer architecture has shown potential for multi-modal fusion tasks, particularly in the domains of vision with language. In this work, we propose an end-to-end supervised Transformer-based LiDAR-Inertial fusion framework (namely TransFusionOdom) for odometry estimation. The multi-attention fusion module demonstrates different fusion approaches for homogeneous and heterogeneous modalities to address the overfitting problem that can arise from blindly increasing the complexity of the model. Additionally, to interpret the learning process of the Transformer-based multi-modal interactions, a general visualization approach is introduced to illustrate the interactions between modalities. Moreover, exhaustive ablation studies evaluate different multi-modal fusion strategies to verify the performance of the proposed fusion strategy. A synthetic multi-modal dataset is made public to validate the generalization ability of the proposed fusion strategy, which also works for other combinations of different modalities. The quantitative and qualitative odometry evaluations on the KITTI dataset verify the proposed TransFusionOdom could achieve superior performance compared with other related works. | 翻訳日:2023-04-27 17:12:29 公開日:2023-04-26 |
# 何が可能かを学び、何が最善かを選ぶ - テキストベースのゲームを通じて言語における一対一の関係を分離する Learn What Is Possible, Then Choose What Is Best: Disentangling One-To-Many Relations in Language Through Text-based Games ( http://arxiv.org/abs/2304.07258v2 ) ライセンス: Link先を確認 | Benjamin Towle and Ke Zhou | (参考訳) 大規模自己教師型コーパスで事前訓練された言語モデルとタスク固有の微調整がNLPの主要なパラダイムとなっている。
これらの事前トレーニングデータセットは、しばしば1対多の構造を持ち、例えば対話では、与えられたコンテキストに対して有効な応答が多数存在する。
しかし、ダウンストリームタスクでは、これらのレスポンスの一部だけが望ましいでしょう。
これにより、望ましい振る舞いをエミュレートできるが、望ましくない振る舞いをエミュレートできるようにモデルをトレーニングする方法に関する疑問が持ち上がる。
現在のアプローチでは、1対1のセットアップでトレーニングされている - 単一の対話コンテキストに対して、単一のターゲット応答のみが与えられる。
テキストベースのゲームをテストベッドとして使用することで、当社のアプローチであるPASAは、個別の潜在変数を使用して、より大きな事前学習データセットで表現されるさまざまな動作範囲をキャプチャします。
次に, 知識蒸留法を用いて後確率分布を学生モデルに分解する。
この確率分布はデータセットのハードターゲットのみから学習するよりもはるかにリッチであるため、教師モデルが学んだよりリッチな行動の恩恵を受けることができる。
結果は、Jericho Walkthroughsデータセットの以前の最先端モデルよりも最大49%改善されている。 Language models pre-trained on large self-supervised corpora, followed by task-specific fine-tuning has become the dominant paradigm in NLP. These pre-training datasets often have a one-to-many structure--e.g. in dialogue there are many valid responses for a given context. However, only some of these responses will be desirable in our downstream task. This raises the question of how we should train the model such that it can emulate the desirable behaviours, but not the undesirable ones. Current approaches train in a one-to-one setup--only a single target response is given for a single dialogue context--leading to models only learning to predict the average response, while ignoring the full range of possible responses. Using text-based games as a testbed, our approach, PASA, uses discrete latent variables to capture the range of different behaviours represented in our larger pre-training dataset. We then use knowledge distillation to distil the posterior probability distribution into a student model. This probability distribution is far richer than learning from only the hard targets of the dataset, and thus allows the student model to benefit from the richer range of actions the teacher model has learned. Results show up to 49% empirical improvement over the previous state-of-the-art model on the Jericho Walkthroughs dataset. | 翻訳日:2023-04-27 17:11:55 公開日:2023-04-26 |
# 第2回単眼深度推定チャレンジ The Second Monocular Depth Estimation Challenge ( http://arxiv.org/abs/2304.07051v3 ) ライセンス: Link先を確認 | Jaime Spencer, C. Stella Qian, Michaela Trescakova, Chris Russell, Simon Hadfield, Erich W. Graf, Wendy J. Adams, Andrew J. Schofield, James Elder, Richard Bowden, Ali Anwar, Hao Chen, Xiaozhi Chen, Kai Cheng, Yuchao Dai, Huynh Thai Hoa, Sadat Hossain, Jianmian Huang, Mohan Jing, Bo Li, Chao Li, Baojun Li, Zhiwen Liu, Stefano Mattoccia, Siegfried Mercelis, Myungwoo Nam, Matteo Poggi, Xiaohua Qi, Jiahui Ren, Yang Tang, Fabio Tosi, Linh Trinh, S. M. Nadim Uddin, Khan Muhammad Umair, Kaixuan Wang, Yufei Wang, Yixing Wang, Mochu Xiang, Guangkai Xu, Wei Yin, Jun Yu, Qi Zhang, Chaoqiang Zhao | (参考訳) 本稿では,モノクル深度推定チャレンジ(MDEC)の第2版の結果について述べる。
このエディションは、完全な教師付き、自己監督型、マルチタスク、プロキシの深さを含む、いかなる形式の監視方法にも開放された。
この課題はSynS-Patchesデータセットに基づいており、高品質な高密度の地下構造を持つ幅広い環境が特徴である。
これには、例えば森林や畑のような複雑な自然環境が含まれており、現在のベンチマークでは、非常に過小評価されている。
この課題は、pointcloudやイメージベースのメトリクスで提供されるsataベースラインを上回る8つのユニークな提案を受けた。
上位の監督官は相対的なFスコアを27.62%改善し、上位の監督官は16.61%改善した。
監視された提出は一般的に、データの多様性を改善するために大量のデータセットのコレクションを活用する。
自己監督による提出は、代わりにネットワークアーキテクチャと事前トレーニングされたバックボーンを更新した。
これらの結果は、深度境界における補間アーティファクトの削減、自己監督型室内性能の向上、全体的な自然画像の精度の向上など、将来の研究の道のりを強調しながら、この分野における大きな進歩を示している。 This paper discusses the results for the second edition of the Monocular Depth Estimation Challenge (MDEC). This edition was open to methods using any form of supervision, including fully-supervised, self-supervised, multi-task or proxy depth. The challenge was based around the SYNS-Patches dataset, which features a wide diversity of environments with high-quality dense ground-truth. This includes complex natural environments, e.g. forests or fields, which are greatly underrepresented in current benchmarks. The challenge received eight unique submissions that outperformed the provided SotA baseline on any of the pointcloud- or image-based metrics. The top supervised submission improved relative F-Score by 27.62%, while the top self-supervised improved it by 16.61%. Supervised submissions generally leveraged large collections of datasets to improve data diversity. Self-supervised submissions instead updated the network architecture and pretrained backbones. These results represent a significant progress in the field, while highlighting avenues for future research, such as reducing interpolation artifacts at depth boundaries, improving self-supervised indoor performance and overall natural image accuracy. | 翻訳日:2023-04-27 17:11:31 公開日:2023-04-26 |
# rsirトランスフォーマー:ランダムサンプリングウィンドウと重要領域ウィンドウを用いた階層的視覚トランスフォーマー RSIR Transformer: Hierarchical Vision Transformer using Random Sampling Windows and Important Region Windows ( http://arxiv.org/abs/2304.06250v2 ) ライセンス: Link先を確認 | Zhemin Zhang, Xun Gong | (参考訳) 近年、トランスフォーマーは様々な視覚タスクにおいて有望な性能を示している。
しかし、グローバル・セルフ・アテンションの高コストはトランスフォーマー、特に高解像度視覚タスクにとって依然として困難である。
局所的な自己注意は、効率性のために限られた領域内で注意計算を実行するため、受容場が小さいためコンテキストモデリングが不十分となる。
本研究では,階層型視覚変換器のグローバルなモデリング機能,すなわちランダムサンプリングウィンドウ(RS-Win)と重要な領域ウィンドウ(IR-Win)の2つの新しいアテンションモジュールを導入する。
特に、rs-winのサンプルランダムイメージパッチは、一様分布、すなわち、rs-winのパッチは、画像の任意の位置から来ることができる。
IR-Winは、アテンションマップ内の画像パッチの重みに応じてウィンドウを構成する。
特にRS-Winは、初期の高解像度の段階でも、モデル全体を通してグローバルな情報をキャプチャすることができる。
IR-Winは、自己認識モジュールが画像の重要な領域に集中し、より情報的な特徴をキャプチャすることを可能にする。
これらの設計を取り入れたRSIR-Win Transformerは、一般的な視覚タスクにおける競合性能を示す。 Recently, Transformers have shown promising performance in various vision tasks. However, the high costs of global self-attention remain challenging for Transformers, especially for high-resolution vision tasks. Local self-attention runs attention computation within a limited region for the sake of efficiency, resulting in insufficient context modeling as their receptive fields are small. In this work, we introduce two new attention modules to enhance the global modeling capability of the hierarchical vision transformer, namely, random sampling windows (RS-Win) and important region windows (IR-Win). Specifically, RS-Win sample random image patches to compose the window, following a uniform distribution, i.e., the patches in RS-Win can come from any position in the image. IR-Win composes the window according to the weights of the image patches in the attention map. Notably, RS-Win is able to capture global information throughout the entire model, even in earlier, high-resolution stages. IR-Win enables the self-attention module to focus on important regions of the image and capture more informative features. Incorporated with these designs, RSIR-Win Transformer demonstrates competitive performance on common vision tasks. | 翻訳日:2023-04-27 17:11:13 公開日:2023-04-26 |
# 量子ディスクからのセキュアキー Secure Key from Quantum Discord ( http://arxiv.org/abs/2304.05880v2 ) ライセンス: Link先を確認 | Rong Wang, Guan-Jie Fan-Yuan, Zhen-Qiang Yin, Shuang Wang, Hong-Wei Li, Yao Yao, Wei Chen, Guang-Can Guo, Zheng-Fu Han, Hoi-Kwong Lo | (参考訳) 量子情報処理の研究は、量子情報処理が従来の情報処理では不可能または非効率なタスクを実行できるようにするリソースを特徴付けようとしている。
量子暗号はそのような課題の一つであり、研究者は絡み合いをセキュアな鍵生成に十分なリソースとして認識している。
しかし、絡み合い以外の別の種類の量子相関である量子不協和は、情報漏洩に直接関係しているため、安全な通信を保証するために必要であることが判明した。
それにもかかわらず、特定の量子暗号プロトコルにおけるセキュリティを分析するためにディスコードをどのように利用するかは長年の問題である。
ここでは,最近提案する量子ディスコード証人に基づいて,bb84型量子鍵分散プロトコルと等価な絡み合いベースバージョンを考慮し,この問題への対処に成功した。
提案手法は, 標準のBB84プロトコルよりも高い鍵レートを実現するため, 量子チャネルによる基底ミスアライメントだけでなく, 量子ビット源および量子ビット測定の不完全性に対して頑健である。
これらの利点はフォトニック位相符号化システムを用いて実験的に実証され,本研究の実用性を示す。 The study of quantum information processing seeks to characterize the resources that enable quantum information processing to perform tasks that are unfeasible or inefficient for classical information processing. Quantum cryptography is one such task, and researchers have identified entanglement as a sufficient resource for secure key generation. However, quantum discord, another type of quantum correlation beyond entanglement, has been found to be necessary for guaranteeing secure communication due to its direct relation to information leakage. Despite this, it is a long-standing problem how to make use of discord to analyze security in a specific quantum cryptography protocol. Here, based on our proposed quantum discord witness recently, we successfully address this issue by considering a BB84-like quantum key distribution protocol and its equivalent entanglement-based version. Our method is robust against imperfections in qubit sources and qubit measurements as well as basis misalignment due to quantum channels, which results in a better key rate than standard BB84 protocol. Those advantages are experimentally demonstrated via photonic phase encoding systems, which shows the practicality of our results. | 翻訳日:2023-04-27 17:10:55 公開日:2023-04-26 |
# Lady and the Tramp Nextdoor: Nextdoor Social Networkにおける経済不平等のオンライン管理 Lady and the Tramp Nextdoor: Online Manifestations of Economic Inequalities in the Nextdoor Social Network ( http://arxiv.org/abs/2304.05232v2 ) ライセンス: Link先を確認 | Waleed Iqbal, Vahid Ghafouri, Gareth Tyson, Guillermo Suarez-Tangil, Ignacio Castro | (参考訳) 健康から教育まで、収入は広い範囲の人生選択に影響を与える。
初期の研究は、オンラインソーシャルネットワークのデータを利用して、この影響を正確に研究している。
本稿では,異なる収入レベルが,異なるオンライン行動をもたらすかという,逆の質問を行う。
私たちはそれを実証します。
位置情報ベースのソーシャルネットワークであるNextdoorの大規模研究について紹介する。
我々は、米国の64,283の地区とイギリスの3,325の地区から260万の投稿を集め、オンラインの談話が地区の収入と収入の不平等を反映しているかどうかを調べる。
例えば、より裕福な地区は、実際の犯罪率がはるかに低いにもかかわらず、より肯定的な感情を持ち、犯罪について議論する。
そして、ユーザー生成コンテンツは収入と不平等の両方を予測できることを示す。
複数の機械学習モデルをトレーニングし、収入(R-squared=0.841)と不平等(R-squared=0.77)の両方を予測する。 From health to education, income impacts a huge range of life choices. Earlier research has leveraged data from online social networks to study precisely this impact. In this paper, we ask the opposite question: do different levels of income result in different online behaviors? We demonstrate it does. We present the first large-scale study of Nextdoor, a popular location-based social network. We collect 2.6 Million posts from 64,283 neighborhoods in the United States and 3,325 neighborhoods in the United Kingdom, to examine whether online discourse reflects the income and income inequality of a neighborhood. We show that posts from neighborhoods with different incomes indeed differ, e.g. richer neighborhoods have a more positive sentiment and discuss crimes more, even though their actual crime rates are much lower. We then show that user-generated content can predict both income and inequality. We train multiple machine learning models and predict both income (R-squared=0.841) and inequality (R-squared=0.77). | 翻訳日:2023-04-27 17:10:35 公開日:2023-04-26 |
# 負のプロンプトアルゴリズムを再想像する: 2次元拡散を3Dに変換し、ヤヌス問題を緩和する Re-imagine the Negative Prompt Algorithm: Transform 2D Diffusion into 3D, alleviate Janus problem and Beyond ( http://arxiv.org/abs/2304.04968v3 ) ライセンス: Link先を確認 | Mohammadreza Armandpour, Ali Sadeghian, Huangjie Zheng, Amir Sadeghian, Mingyuan Zhou | (参考訳) テキスト間の拡散モデルは、テキストから画像を生成するために大きな進歩を遂げてきたが、提供されるテキストではなく、モデルがトレーニングされたデータのような画像を生成する傾向が強かった。
この制限は、2Dアプリケーションと3Dアプリケーションの両方での使用を妨げる。
この問題に対処するため,我々は負のプロンプトの使用を検討したが,現在の実装では望ましい結果が得られず,特に主プロンプトと負のプロンプトが重複していることが判明した。
この問題を克服するために,スコア空間の幾何学的性質を活かし,現在の負のプロンプトアルゴリズムの欠点に対処する新しいアルゴリズムであるperp-negを提案する。
Perp-Negはモデルのトレーニングや微調整を一切必要としない。
さらに,初期生成画像から不要な概念を2Dケースで編集可能にすることにより,Perp-Negは画像生成の柔軟性を向上することを示した。
さらに,3dへのperp-negの適用を拡大するために,2dでのperp-negの利用法を徹底的に検討し,標準的視点に偏ることなく,拡散モデルを用いて所望のビューを生成するように条件づけた。
最後に,2次元直観を用いてPerp-Negを最先端のテキスト・トゥ・3D(DreamFusion)手法に統合し,Janus(マルチヘッド)問題を効果的に解決した。
プロジェクトページはhttps://perp-neg.github.io/で閲覧できます。 Although text-to-image diffusion models have made significant strides in generating images from text, they are sometimes more inclined to generate images like the data on which the model was trained rather than the provided text. This limitation has hindered their usage in both 2D and 3D applications. To address this problem, we explored the use of negative prompts but found that the current implementation fails to produce desired results, particularly when there is an overlap between the main and negative prompts. To overcome this issue, we propose Perp-Neg, a new algorithm that leverages the geometrical properties of the score space to address the shortcomings of the current negative prompts algorithm. Perp-Neg does not require any training or fine-tuning of the model. Moreover, we experimentally demonstrate that Perp-Neg provides greater flexibility in generating images by enabling users to edit out unwanted concepts from the initially generated images in 2D cases. Furthermore, to extend the application of Perp-Neg to 3D, we conducted a thorough exploration of how Perp-Neg can be used in 2D to condition the diffusion model to generate desired views, rather than being biased toward the canonical views. Finally, we applied our 2D intuition to integrate Perp-Neg with the state-of-the-art text-to-3D (DreamFusion) method, effectively addressing its Janus (multi-head) problem. Our project page is available at https://Perp-Neg.github.io/ | 翻訳日:2023-04-27 17:10:21 公開日:2023-04-26 |
# 証明構造に関する研究 Investigations into Proof Structures ( http://arxiv.org/abs/2304.12827v2 ) ライセンス: Link先を確認 | Christoph Wernhard, Wolfgang Bibel | (参考訳) 我々は,証明の操作と解析を大域的に行うための新しい形式論を紹介,精巧に述べる。
この最初のアプローチでは、形式主義は凝縮された分離によって特徴づけられる一階問題に制限される。
これは、コヒーレントで包括的な形式的な再構成と {\L}ukasiewicz による広く研究されている問題の歴史的証明の分析に例示的に適用される。
基礎となるアプローチは、証明探索の過程で補題を生成する新しい体系的な方法への扉を開き、探索労力を削減し、より短い証明を見つける効果を開く。
この線に沿って報告された多くの実験の中で、人間や機械によって発見されたどの証明よりもはるかに短いことが自動的に発見された。 We introduce and elaborate a novel formalism for the manipulation and analysis of proofs as objects in a global manner. In this first approach the formalism is restricted to first-order problems characterized by condensed detachment. It is applied in an exemplary manner to a coherent and comprehensive formal reconstruction and analysis of historical proofs of a widely-studied problem due to {\L}ukasiewicz. The underlying approach opens the door towards new systematic ways of generating lemmas in the course of proof search to the effects of reducing the search effort and finding shorter proofs. Among the numerous reported experiments along this line, a proof of {\L}ukasiewicz's problem was automatically discovered that is much shorter than any proof found before by man or machine. | 翻訳日:2023-04-27 17:02:57 公開日:2023-04-26 |
# 指数的家族推定のための等速的メカニズム The Isotonic Mechanism for Exponential Family Estimation ( http://arxiv.org/abs/2304.11160v2 ) ライセンス: Link先を確認 | Yuling Yan, Weijie J. Su, Jianqing Fan | (参考訳) 2023年、ICML(International Conference on Machine Learning)は、複数の投稿者に対して、認識された品質に基づいて応募をランク付けするよう要求した。
本稿では,これらの著者特定ランキングを用いて,等張機構(su,2021,2022)を指数関数的家族分布に拡張することにより,機械学習および人工知能会議におけるピアレビューを強化することを目的とする。
この機構は、著者特定ランキングに固執しながら、原譜と密接に整合した調整スコアを生成する。
指数関数分布の幅広いスペクトルに適用できるにもかかわらず、この機構の実装は特定の分布形式に関する知識を必要としない。
著者は,調整済みレビュースコアの凸付加関数の形式を取ると,正確なランク付けを行うようにインセンティブが付与される。
指数関数的家族分布のある種のサブクラスについて、著者が真に報告するのは、その質問が提出物間のペア比較のみを含む場合に限り、真に情報を引き出す際のランク付けの最適性を示す。
最後に、調整されたスコアが元のスコアの精度を劇的に改善し、真のスコアが総変動の有界な場合、統計的成分で真のスコアを推定する最小限の最適性を達成することを示す。 In 2023, the International Conference on Machine Learning (ICML) required authors with multiple submissions to rank their submissions based on perceived quality. In this paper, we aim to employ these author-specified rankings to enhance peer review in machine learning and artificial intelligence conferences by extending the Isotonic Mechanism (Su, 2021, 2022) to exponential family distributions. This mechanism generates adjusted scores closely align with the original scores while adhering to author-specified rankings. Despite its applicability to a broad spectrum of exponential family distributions, this mechanism's implementation does not necessitate knowledge of the specific distribution form. We demonstrate that an author is incentivized to provide accurate rankings when her utility takes the form of a convex additive function of the adjusted review scores. For a certain subclass of exponential family distributions, we prove that the author reports truthfully only if the question involves only pairwise comparisons between her submissions, thus indicating the optimality of ranking in truthful information elicitation. Lastly, we show that the adjusted scores improve dramatically the accuracy of the original scores and achieve nearly minimax optimality for estimating the true scores with statistical consistecy when true scores have bounded total variation. | 翻訳日:2023-04-27 17:02:47 公開日:2023-04-26 |
# キャビティ-マグノン-クビット系における量子ビットの2トーン駆動によるマグノンスクイーズ Magnon squeezing by two-tone driving of a qubit in cavity-magnon-qubit systems ( http://arxiv.org/abs/2304.10760v2 ) ライセンス: Link先を確認 | Qi Guo, Da Xu, Jiong Cheng, Huatang Tan, Jie Li | (参考訳) ハイブリッドキャビティ-マグノン-量子ビット系におけるマグノン圧縮状態の生成手法を提案する。
このシステムは、磁気双極子相互作用を介してマクロイットリウム-鉄-ガーネット(YIG)球のマグノンモードと同時に結合するマイクロ波空洞と、電気双極子相互作用を介してトランスモン型超伝導量子ビットからなる。
マグノン量子系から遠く離れることで、マイクロ波空洞は断熱的に除去される。
マグノンモードと量子ビットはマイクロ波共振器の仮想光子の仲介によって効果的に結合される。
2つのマイクロ波場で量子ビットを駆動し、駆動周波数と強度を適切に選択することで、マグノニックパラメトリック増幅を実現し、真空ゆらぎ以下のノイズでマグノン二次スクイーズを生じさせることを示した。
我々は,マグノンスクイーズを実現するための最適条件を提案し,現在利用可能なパラメータを用いて適度なスクイーズを得ることができる。
生成したスクイーズ状態は10^{18}$スピン以上を含むマグノンモードであり、従ってマクロ量子状態である。
この研究は、マグノンに基づく量子情報処理と高精度測定、およびマクロ量子状態の研究に有望な応用を見出すことができる。 We propose a scheme for preparing magnon squeezed states in a hybrid cavity-magnon-qubit system. The system consists of a microwave cavity that simultaneously couples to a magnon mode of a macroscopic yttrium-iron-garnet (YIG) sphere via the magnetic-dipole interaction and to a transmon-type superconducting qubit via the electric-dipole interaction. By far detuning from the magnon-qubit system, the microwave cavity is adiabatically eliminated. The magnon mode and the qubit then get effectively coupled via the mediation of virtual photons of the microwave cavity. We show that by driving the qubit with two microwave fields and by appropriately choosing the drive frequencies and strengths, magnonic parametric amplification can be realized, which leads to magnon quadrature squeezing with the noise below vacuum fluctuation. We provide optimal conditions for achieving magnon squeezing, and moderate squeezing can be obtained using currently available parameters. The generated squeezed states are of a magnon mode involving more than $10^{18}$ spins and thus macroscopic quantum states. The work may find promising applications in quantum information processing and high-precision measurements based on magnons and in the study of macroscopic quantum states. | 翻訳日:2023-04-27 17:02:11 公開日:2023-04-26 |
# GPT-NER:大規模言語モデルによるエンティティ認識 GPT-NER: Named Entity Recognition via Large Language Models ( http://arxiv.org/abs/2304.10428v2 ) ライセンス: Link先を確認 | Shuhe Wang, Xiaofei Sun, Xiaoya Li, Rongbin Ouyang, Fei Wu, Tianwei Zhang, Jiwei Li, Guoyin Wang | (参考訳) 大規模言語モデル(LLM)が様々なNLPタスクでSOTAのパフォーマンスを達成したにもかかわらず、NERの性能は教師付きベースラインよりもはるかに低い。
これは NER と LLM の2つのタスクの間にギャップがあるためである: 前者はシーケンシャルラベリングタスクであり、後者はテキスト生成モデルである。
本稿では,この問題を解決するため,GPT-NERを提案する。
gpt-nerは、シーケンスラベリングタスクをllmで容易に適応可能な生成タスクに変換することで、ギャップを橋渡しする。例えば、入力テキスト"columbus is a city"にある場所エンティティを見つけるタスクを変換して、"@@columbus# is a city"というテキストシーケンスを生成し、特別なトークン@@##が抽出するエンティティをマークする。
LLMがNULL入力をエンティティとして過剰にラベル付けする強い傾向を持つLLMの「ハロシン化」問題に効率よく対処するため、抽出されたエンティティがラベル付きエンティティタグに属しているかどうかを問うことで自己検証戦略を提案する。
我々は広く採用されている5つのNERデータセットで実験を行い、GPT-NERは完全に教師付きベースラインに匹敵する性能を達成しています。
さらに重要なことに、gpt-nerは低リソースと少数ショットのセットアップにおいて、トレーニングデータの量が極めて少ない場合、教師付きモデルよりもはるかに優れたパフォーマンスを示すことが分かりました。
これは、ラベル付きサンプルの数が限られている実世界のNERアプリケーションにおけるGPT-NERの機能を示す。 Despite the fact that large-scale Language Models (LLM) have achieved SOTA performances on a variety of NLP tasks, its performance on NER is still significantly below supervised baselines. This is due to the gap between the two tasks the NER and LLMs: the former is a sequence labeling task in nature while the latter is a text-generation model. In this paper, we propose GPT-NER to resolve this issue. GPT-NER bridges the gap by transforming the sequence labeling task to a generation task that can be easily adapted by LLMs e.g., the task of finding location entities in the input text "Columbus is a city" is transformed to generate the text sequence "@@Columbus## is a city", where special tokens @@## marks the entity to extract. To efficiently address the "hallucination" issue of LLMs, where LLMs have a strong inclination to over-confidently label NULL inputs as entities, we propose a self-verification strategy by prompting LLMs to ask itself whether the extracted entities belong to a labeled entity tag. We conduct experiments on five widely adopted NER datasets, and GPT-NER achieves comparable performances to fully supervised baselines, which is the first time as far as we are concerned. More importantly, we find that GPT-NER exhibits a greater ability in the low-resource and few-shot setups, when the amount of training data is extremely scarce, GPT-NER performs significantly better than supervised models. This demonstrates the capabilities of GPT-NER in real-world NER applications where the number of labeled examples is limited. | 翻訳日:2023-04-27 17:01:17 公開日:2023-04-26 |
# ソフトマックス回帰に触発されたアテンションスキーム Attention Scheme Inspired Softmax Regression ( http://arxiv.org/abs/2304.10411v2 ) ライセンス: Link先を確認 | Yichuan Deng, Zhihang Li, Zhao Song | (参考訳) 大きな言語モデル(LLM)は、人間の社会に変革をもたらした。
LLMにおける鍵計算の1つはソフトマックス単位である。
この操作はLLMにおいて重要であり、入力語列が与えられた場合、モデルが次の単語やフレーズにまたがる分布を生成することができる。
この分布は、モデルによって割り当てられた確率に基づいて、最も可能性の高い次の単語またはフレーズを選択するために使用される。
softmaxユニットは、ニューラルネットワークの重みとバイアスを調整することによって、モデルがデータから学習できるようにするため、llmのトレーニングにおいて重要な役割を果たす。
中央経路法を用いて線形計画を解くような凸最適化の分野において。
ソフトマックス関数はポテンシャル関数の進行と安定性を制御する重要なツールとして使われてきた[Cohen, Lee and Song STOC 2019, Brand SODA 2020]。
この研究はソフトマックス単位にインスピレーションを与え、ソフトマックス回帰問題を定義する。
形式的には、行列 $a \in \mathbb{r}^{n \times d}$ とベクトル $b \in \mathbb{r}^n$ が与えられたとき、目標は greedy 型アルゴリズムを使って \begin{align*} \min_{x} \| \langle \exp(ax), {\bf 1}_n \rangle^{-1} \exp(ax) - b \|_2^2 を解くことである。
ある意味では、我々の証明可能な収束結果は、実際にソフトマックス関数を訓練するためにグリーディアルゴリズムを使用できる理由を理論的に支援する。 Large language models (LLMs) have made transformed changes for human society. One of the key computation in LLMs is the softmax unit. This operation is important in LLMs because it allows the model to generate a distribution over possible next words or phrases, given a sequence of input words. This distribution is then used to select the most likely next word or phrase, based on the probabilities assigned by the model. The softmax unit plays a crucial role in training LLMs, as it allows the model to learn from the data by adjusting the weights and biases of the neural network. In the area of convex optimization such as using central path method to solve linear programming. The softmax function has been used a crucial tool for controlling the progress and stability of potential function [Cohen, Lee and Song STOC 2019, Brand SODA 2020]. In this work, inspired the softmax unit, we define a softmax regression problem. Formally speaking, given a matrix $A \in \mathbb{R}^{n \times d}$ and a vector $b \in \mathbb{R}^n$, the goal is to use greedy type algorithm to solve \begin{align*} \min_{x} \| \langle \exp(Ax), {\bf 1}_n \rangle^{-1} \exp(Ax) - b \|_2^2. \end{align*} In certain sense, our provable convergence result provides theoretical support for why we can use greedy algorithm to train softmax function in practice. | 翻訳日:2023-04-27 17:00:47 公開日:2023-04-26 |
# 映像行動認識のための連続学習手法のベースライン A baseline on continual learning methods for video action recognition ( http://arxiv.org/abs/2304.10335v2 ) ライセンス: Link先を確認 | Giulia Castagnolo, Concetto Spampinato, Francesco Rundo, Daniela Giordano, Simone Palazzo | (参考訳) 近年,従来の教師付きモデルの長期的限界を解決することを目的として,研究コミュニティから継続的な学習が注目されている。
しかし,本研究のほとんどが,単純な画像分類シナリオにおける連続学習に取り組んできた。
本稿では,映像行動認識における最先端の連続学習手法のベンチマークを示す。
時間次元による複雑さの増加に加えて、ビデオ設定は、トップパーパフォーミングリハーサルメソッドの計算リソースに対するより強い要求を課している。
メモリ要求の増大に対処するため,リハーサル法に2つの方法に依存しない変種を提示し,モデル信頼度とデータ情報を用いて記憶可能なサンプルを選択する。
実験の結果,リハーサル法は他の手法よりも優れていることがわかった。さらに,提案したメモリ効率の変動は,バッファサイズが小さい一定の性能を維持するのに有効であることがわかった。 Continual learning has recently attracted attention from the research community, as it aims to solve long-standing limitations of classic supervisedly-trained models. However, most research on this subject has tackled continual learning in simple image classification scenarios. In this paper, we present a benchmark of state-of-the-art continual learning methods on video action recognition. Besides the increased complexity due to the temporal dimension, the video setting imposes stronger requirements on computing resources for top-performing rehearsal methods. To counteract the increased memory requirements, we present two method-agnostic variants for rehearsal methods, exploiting measures of either model confidence or data information to select memorable samples. Our experiments show that, as expected from the literature, rehearsal methods outperform other approaches; moreover, the proposed memory-efficient variants are shown to be effective at retaining a certain level of performance with a smaller buffer size. | 翻訳日:2023-04-27 17:00:15 公開日:2023-04-26 |
# Graph-CoVis:GNNに基づくマルチビューパノラマグローバルポーズ推定 Graph-CoVis: GNN-based Multi-view Panorama Global Pose Estimation ( http://arxiv.org/abs/2304.13201v1 ) ライセンス: Link先を確認 | Negar Nejatishahidin, Will Hutchcroft, Manjunath Narayana, Ivaylo Boyadzhiev, Yuguang Li, Naji Khosravan, Jana Kosecka, Sing Bing Kang | (参考訳) 本稿では,360$^\circ$パノラマ群から,直立カメラ仮定下での広ベースカメラポーズ推定の問題に対処する。
近年の研究では,360$^\circ$ Panorama pairs[11]において,エンドツーエンドの直接ポーズ回帰の深層学習のメリットが示されている。
学習ベースフレームワークにおけるマルチビューロジックの利点を活用するために,CoVisPose[11]を相対的な2ビューからグローバルな多ビュー球面カメラのポーズ推定に非自明に拡張したGraph-CoVisを導入する。
Graph-CoVisは、エンドツーエンドで完全に教師されたアプローチで、共同視覚構造とグローバルモーションを共同で学習する、新しいグラフニューラルネットワークベースのアーキテクチャである。
ZInD [4]データセットは、幅広いベースライン、オクルージョン、限られた視覚的オーバーラップを実家に提供するもので、我々のモデルは最先端のアプローチと競争的に機能することを示す。 In this paper, we address the problem of wide-baseline camera pose estimation from a group of 360$^\circ$ panoramas under upright-camera assumption. Recent work has demonstrated the merit of deep-learning for end-to-end direct relative pose regression in 360$^\circ$ panorama pairs [11]. To exploit the benefits of multi-view logic in a learning-based framework, we introduce Graph-CoVis, which non-trivially extends CoVisPose [11] from relative two-view to global multi-view spherical camera pose estimation. Graph-CoVis is a novel Graph Neural Network based architecture that jointly learns the co-visible structure and global motion in an end-to-end and fully-supervised approach. Using the ZInD [4] dataset, which features real homes presenting wide-baselines, occlusion, and limited visual overlap, we show that our model performs competitively to state-of-the-art approaches. | 翻訳日:2023-04-27 16:06:12 公開日:2023-04-26 |
# 確率半定値プログラミングによる2要素量子暗号の破壊障壁 Breaking barriers in two-party quantum cryptography via stochastic semidefinite programming ( http://arxiv.org/abs/2304.13200v1 ) ライセンス: Link先を確認 | Akshay Bansal and Jamie Sikora | (参考訳) 過去20年間、サードパーティの暗号処理のためのセキュアなプロトコルを見つける努力が続けられてきた。
その後、量子力学でさえ、そのようなプロトコルの多くはセキュリティの約束に制限されていることが判明した。
本研究では,そのような制約を回避するために,確率的プログラミングのアイデアである確率的選択を用いる。
例えば、ビットのコミット、コインのフリップの弱さ、そしてセキュリティを改善するために不注意な転送プロトコルを切り替える方法を見つけることができます。
我々はまた、確率的選択を用いてゴミを宝にし、ラビンの難読化のための最初の量子プロトコルを産み出す。 In the last two decades, there has been much effort in finding secure protocols for two-party cryptographic tasks. It has since been discovered that even with quantum mechanics, many such protocols are limited in their security promises. In this work, we use stochastic selection, an idea from stochastic programming, to circumvent such limitations. For example, we find a way to switch between bit commitment, weak coin flipping, and oblivious transfer protocols to improve their security. We also use stochastic selection to turn trash into treasure yielding the first quantum protocol for Rabin oblivious transfer. | 翻訳日:2023-04-27 16:05:53 公開日:2023-04-26 |
# rf量子容量パラメトリック増幅器 An rf Quantum Capacitance Parametric Amplifier ( http://arxiv.org/abs/2304.13227v1 ) ライセンス: Link先を確認 | A. El Kass, C. T. Jin, J. D. Watson, G. C. Gardner, S. Fallahi, M. J. Manfra, and D. J. Reilly | (参考訳) 極低温におけるGaAsヘテロ構造における超高移動度2次元電子ガス(2DEG)のゲート可変量子容量を利用する高周波パラメトリック増幅器を実証する。
プロトタイプ狭帯域増幅器は、入力電力-66dBm(1dB圧縮)までの20dB以上のゲインを示し、ノイズ温度TNは370MHzで1.3Kである。
超伝導増幅器とは対照的に、量子容量パラメトリック増幅器(QCPA)はテラスケールの磁場とミリケルビンから数ケルビンまでの温度で動作可能である。
これらの特性は、従来のトランジスタ増幅器と比較して低消費電力(マイクロワット)の動作とともに、QCPAは半導体量子ビットのオンチップ統合読み出し回路や、宇宙トランシーバーや電波天文学機器のコンテキストにおいて有用である可能性があることを示唆している。 We demonstrate a radio-frequency parametric amplifier that exploits the gate-tunable quantum capacitance of an ultra high mobility two dimensional electron gas (2DEG) in a GaAs heterostructure at cryogenic temperatures. The prototype narrowband amplifier exhibits a gain greater than 20 dB up to an input power of - 66 dBm (1 dB compression), and a noise temperature TN of 1.3 K at 370 MHz. In contrast to superconducting amplifiers, the quantum capacitance parametric amplifier (QCPA) is operable at tesla-scale magnetic fields and temperatures ranging from milli kelvin to a few kelvin. These attributes, together with its low power (microwatt) operation when compared to conventional transistor amplifiers, suggest the QCPA may find utility in enabling on-chip integrated readout circuits for semiconductor qubits or in the context of space transceivers and radio astronomy instruments. | 翻訳日:2023-04-27 15:58:02 公開日:2023-04-26 |
# 後方確率微分方程式によるスコアベース生成モデル:反転と生成 Score-based Generative Modeling Through Backward Stochastic Differential Equations: Inversion and Generation ( http://arxiv.org/abs/2304.13224v1 ) ライセンス: Link先を確認 | Zihao Wang | (参考訳) 提案するbsdeに基づく拡散モデルは、機械学習における確率微分方程式(sdes)の適用を拡張する拡散モデリングの新しいアプローチである。
従来のSDEに基づく拡散モデルとは異なり、既存のスコア関数を適用することにより、所望の端末分布に到達するために必要な初期条件を決定することができる。
モデルの理論的保証、スコアマッチングにリプシッツネットワークを用いることの利点、および拡散反転、条件拡散、不確実性定量化など様々な分野への応用の可能性を示す。
我々の研究は、スコアベースの生成学習の分野への貢献を表し、現実世界の問題を解決するための有望な方向性を提供する。 The proposed BSDE-based diffusion model represents a novel approach to diffusion modeling, which extends the application of stochastic differential equations (SDEs) in machine learning. Unlike traditional SDE-based diffusion models, our model can determine the initial conditions necessary to reach a desired terminal distribution by adapting an existing score function. We demonstrate the theoretical guarantees of the model, the benefits of using Lipschitz networks for score matching, and its potential applications in various areas such as diffusion inversion, conditional diffusion, and uncertainty quantification. Our work represents a contribution to the field of score-based generative learning and offers a promising direction for solving real-world problems. | 翻訳日:2023-04-27 15:57:46 公開日:2023-04-26 |
# 部分パラメトリックモデル知識を用いた強化学習 Reinforcement Learning with Partial Parametric Model Knowledge ( http://arxiv.org/abs/2304.13223v1 ) ライセンス: Link先を確認 | Shuyuan Wang, Philip D. Loewen, Nathan P. Lawrence, Michael G. Forbes, R. Bhushan Gopaluni | (参考訳) 完全無知と環境の完全知識のギャップを埋めるために, 連続制御のための強化学習法(RL)を適用した。
提案手法は,モデルフリーRLとモデルベース制御の両方からインスピレーションを得たPLSPI(Partial Knowledge Least Squares Policy Iteration)である。
部分モデルからの不完全な情報を使用し、RLのデータ駆動型適応を最適性能に維持する。
線形二次レギュレータはケーススタディを提供し、数値実験により提案手法の有効性と効果を実証する。 We adapt reinforcement learning (RL) methods for continuous control to bridge the gap between complete ignorance and perfect knowledge of the environment. Our method, Partial Knowledge Least Squares Policy Iteration (PLSPI), takes inspiration from both model-free RL and model-based control. It uses incomplete information from a partial model and retains RL's data-driven adaption towards optimal performance. The linear quadratic regulator provides a case study; numerical experiments demonstrate the effectiveness and resulting benefits of the proposed method. | 翻訳日:2023-04-27 15:57:35 公開日:2023-04-26 |
# 非局所ニューラル演算子:普遍近似 The Nonlocal Neural Operator: Universal Approximation ( http://arxiv.org/abs/2304.13221v1 ) ライセンス: Link先を確認 | Samuel Lanthaler, Zongyi Li, Andrew M. Stuart | (参考訳) ニューラルネットワークアーキテクチャ 関数の無限次元バナッハ空間間の近似作用素。
計算科学と工学の分野では、従来の数値法を加速し、データ駆動的な発見を可能にする可能性から注目を集めている。
ニューラル演算子の一般的な変種はフーリエニューラル演算子(FNO)である。
FNOsの普遍作用素近似定理を証明する以前の分析では、フーリエモードの非有界な数を使い、この手法の基本形を周期幾何学の問題に限定している。
以前の研究は従来の数値法からの直観に依存しており、FNOを非標準かつ高非線形スペクトル法として解釈している。
現在の作業は、この視点に2つの方法で挑戦する。
i) 任意のジオメトリ上で定義された関数間の演算子近似を可能にする演算子近似(NNO)と呼ばれる演算子近似器を新たに導入し、特殊なケースとしてFNOを含む。
(II) NNO の解析は、このアーキテクチャが空間平均(FNO の特別な場合において単一のフーリエモードのみを保持する)の計算を含むと、普遍近似の恩恵を受けることを示している。
この理論的結果は、幅広い神経オペレーターアーキテクチャの解析を統一することを示した。
さらに、非局所性の役割と非局所性との相互作用に新たな光を当て、新しい演算子学習アーキテクチャの開発と既存および新規アーキテクチャの分析の両方を通じて、非局所性をより体系的に探求する道を開く。 Neural operator architectures approximate operators between infinite-dimensional Banach spaces of functions. They are gaining increased attention in computational science and engineering, due to their potential both to accelerate traditional numerical methods and to enable data-driven discovery. A popular variant of neural operators is the Fourier neural operator (FNO). Previous analysis proving universal operator approximation theorems for FNOs resorts to use of an unbounded number of Fourier modes and limits the basic form of the method to problems with periodic geometry. Prior work relies on intuition from traditional numerical methods, and interprets the FNO as a nonstandard and highly nonlinear spectral method. The present work challenges this point of view in two ways: (i) the work introduces a new broad class of operator approximators, termed nonlocal neural operators (NNOs), which allow for operator approximation between functions defined on arbitrary geometries, and includes the FNO as a special case; and (ii) analysis of the NNOs shows that, provided this architecture includes computation of a spatial average (corresponding to retaining only a single Fourier mode in the special case of the FNO) it benefits from universal approximation. It is demonstrated that this theoretical result unifies the analysis of a wide range of neural operator architectures. Furthermore, it sheds new light on the role of nonlocality, and its interaction with nonlinearity, thereby paving the way for a more systematic exploration of nonlocality, both through the development of new operator learning architectures and the analysis of existing and new architectures. | 翻訳日:2023-04-27 15:57:26 公開日:2023-04-26 |
# ZRG: 機械学習のための高解像度3次元住宅形状データセット ZRG: A High Resolution 3D Residential Rooftop Geometry Dataset for Machine Learning ( http://arxiv.org/abs/2304.13219v1 ) ライセンス: Link先を確認 | Isaac Corley, Jonathan Lwowski, Peyman Najafirad | (参考訳) 本稿では,zeitview rooftop geometry (zrg)データセットについて述べる。
ZRGには、住宅の屋上形状と景観理解のために、対応するデジタル表面モデル(DSM)、3D屋根上ワイヤーフレーム、多視点画像生成点雲を含む、住宅の屋上画像の高解像度オルソモザイクのサンプルが含まれている。
このデータセットによってアンロックされた多数のアプリケーションについて詳細なベンチマークを行い、屋根のアウトライン抽出、単分子高さ推定、平面屋根構造抽出のタスクのベースラインを提供する。 In this paper we present the Zeitview Rooftop Geometry (ZRG) dataset. ZRG contains thousands of samples of high resolution orthomosaics of aerial imagery of residential rooftops with corresponding digital surface models (DSM), 3D rooftop wireframes, and multiview imagery generated point clouds for the purpose of residential rooftop geometry and scene understanding. We perform thorough benchmarks to illustrate the numerous applications unlocked by this dataset and provide baselines for the tasks of roof outline extraction, monocular height estimation, and planar roof structure extraction. | 翻訳日:2023-04-27 15:57:02 公開日:2023-04-26 |
# pascal vocを用いた意味セグメンテーションにおけるcnnの活用 Exploiting CNNs for Semantic Segmentation with Pascal VOC ( http://arxiv.org/abs/2304.13216v1 ) ライセンス: Link先を確認 | Sourabh Prakash, Priyanshi Shah, Ashrya Agrawal | (参考訳) 本稿では,Pascal VOCデータセットを用いたセマンティックセグメンテーションに関する総合的研究を行う。
ここで、各ピクセルにクラスをラベル付けし、オブジェクト/エンティティに基づいてイメージ全体をセグメンテーションする必要があります。
これを解決するために、まずFCN(Fully Convolution Network)ベースラインを使用し、71.31%の精度と0.0527の平均IoUを与えた。
パフォーマンスと動作を分析し、次にベースラインでの問題に3つの改善を加えます。
a)コサイン焼鈍学習率スケジューラ(画素精度:72.86%、IoU:0.00529)
b)データ拡張(画素精度:69.88%、iou: 0.0585)
c)クラス不均衡重量(ピクセル精度:68.98%、iou: 0.0596)
これらのトレーニングパイプラインの変更とは別に、3つの異なるアーキテクチャも検討しています。
a)提案したモデル -- Advanced FCN (ピクセル精度:67.20%、IoU:0.0602)
b)ResNetによる転送学習(ベストパフォーマンス)(画素精度:71.33%、IoU:0.0926)
c) U-Net(ピクセル精度:72.15%、IoU: 0.0649)
改善は、メトリクスとセグメンテーションマップの両方で反映されるように、パフォーマンスを大幅に改善するのに役立ちます。
興味深いことに、改善の中でデータセット拡張が最も貢献しているのがわかります。
また、転送学習モデルがpascalデータセットで最善を尽くしていることに注意してください。
損失、精度、IoUプロットとセグメンテーションマップを用いてこれらの性能を分析し、モデルの動作に関する貴重な洞察を得るのに役立ちます。 In this paper, we present a comprehensive study on semantic segmentation with the Pascal VOC dataset. Here, we have to label each pixel with a class which in turn segments the entire image based on the objects/entities present. To tackle this, we firstly use a Fully Convolution Network (FCN) baseline which gave 71.31% pixel accuracy and 0.0527 mean IoU. We analyze its performance and working and subsequently address the issues in the baseline with three improvements: a) cosine annealing learning rate scheduler(pixel accuracy: 72.86%, IoU: 0.0529), b) data augmentation(pixel accuracy: 69.88%, IoU: 0.0585) c) class imbalance weights(pixel accuracy: 68.98%, IoU: 0.0596). Apart from these changes in training pipeline, we also explore three different architectures: a) Our proposed model -- Advanced FCN (pixel accuracy: 67.20%, IoU: 0.0602) b) Transfer Learning with ResNet (Best performance) (pixel accuracy: 71.33%, IoU: 0.0926 ) c) U-Net(pixel accuracy: 72.15%, IoU: 0.0649). We observe that the improvements help in greatly improving the performance, as reflected both, in metrics and segmentation maps. Interestingly, we observe that among the improvements, dataset augmentation has the greatest contribution. Also, note that transfer learning model performs the best on the pascal dataset. We analyse the performance of these using loss, accuracy and IoU plots along with segmentation maps, which help us draw valuable insights about the working of the models. | 翻訳日:2023-04-27 15:56:49 公開日:2023-04-26 |
# 条件拡散確率モデルによる単視点高さ推定 Single-View Height Estimation with Conditional Diffusion Probabilistic Models ( http://arxiv.org/abs/2304.13214v1 ) ライセンス: Link先を確認 | Isaac Corley and Peyman Najafirad | (参考訳) デジタル・サーフェス・モデル(DSM)は、地球表面の理解と自然と人工の構造物の存在や変化の監視のための豊富な高度情報を提供する。
古典的な高さ推定には、取得に費用がかかる多視点地理空間画像やLiDAR点雲が必要である。
ニューラルネットワークベースのモデルを用いたシングルビューの高さ推定は、高解像度機能の再構築に苦労する可能性があることを示す。
高解像度画像合成と編集のための拡散モデルの最新の進歩は、リモートセンシング画像、特に高さ推定にはまだ利用されていない。
提案手法は,マルコフ連鎖として光学およびdsm画像の結合分布を学習するために生成拡散モデルを訓練するものである。
これは、音源画像に条件付けされたままの復調スコアマッチング目標を最小化し、現実的な高解像度3次元表面を生成する。
本稿では,単一リモートセンシング画像からの高さ推定のための条件付き拡散確率モデル(DDPM)を実験し,ベイヒンゲンベンチマークデータセット上で有望な結果を示す。 Digital Surface Models (DSM) offer a wealth of height information for understanding the Earth's surface as well as monitoring the existence or change in natural and man-made structures. Classical height estimation requires multi-view geospatial imagery or LiDAR point clouds which can be expensive to acquire. Single-view height estimation using neural network based models shows promise however it can struggle with reconstructing high resolution features. The latest advancements in diffusion models for high resolution image synthesis and editing have yet to be utilized for remote sensing imagery, particularly height estimation. Our approach involves training a generative diffusion model to learn the joint distribution of optical and DSM images across both domains as a Markov chain. This is accomplished by minimizing a denoising score matching objective while being conditioned on the source image to generate realistic high resolution 3D surfaces. In this paper we experiment with conditional denoising diffusion probabilistic models (DDPM) for height estimation from a single remotely sensed image and show promising results on the Vaihingen benchmark dataset. | 翻訳日:2023-04-27 15:56:29 公開日:2023-04-26 |
# EverLight:屋内編集可能なHDR照明推定 EverLight: Indoor-Outdoor Editable HDR Lighting Estimation ( http://arxiv.org/abs/2304.13207v1 ) ライセンス: Link先を確認 | Mohammad Reza Karimi Dastjerdi, Yannick Hold-Geoffroy, Jonathan Eisenmann, Jean-Fran\c{c}ois Lalonde | (参考訳) 照明環境の多様性のため、既存の照明推定技術は屋内や屋外の環境で明示的に設計されている。
方法は特に正確なエネルギー(例えばパラメトリック照明モデル)を捉えることに焦点を当てており、シェーディングと強い鋳造影を強調するか、あるいは可塑性反射を優先する可塑性テクスチャ(例えば、GAN)を作り出す。
編集可能な照明機能を提供するアプローチが提案されているが、これらは単純な照明モデルで実現性は限られている。
本稿では,最近の文献の傾向のギャップを埋める手法を提案するとともに,パラメトリック光モデルと360{\deg}パノラマを組み合わせてレンダリングエンジンでHDRIとして使用できる手法を提案する。
GANをベースとしたパノラマ外挿法における最近の進歩を活用し,パラメトリック球状ガウスを用いたHDRに拡張した。
そこで本研究では,パノラマ生成プロセスにおいて,照明関連の特徴をジェネレータ全体に注入し,オリジナル又は編集されたシーン照明を密結合する新しい照明共変調方式を提案する。
我々の表現では、ユーザは光の方向、強度、数などを簡単に編集してシェーディングに影響を与えながら、リッチで複雑なリフレクションを提供しながら、編集とシームレスにブレンドすることができる。
さらに,室内および屋外の環境を包含し,ドメイン固有手法と比較しても最先端の成果を示す。 Because of the diversity in lighting environments, existing illumination estimation techniques have been designed explicitly on indoor or outdoor environments. Methods have focused specifically on capturing accurate energy (e.g., through parametric lighting models), which emphasizes shading and strong cast shadows; or producing plausible texture (e.g., with GANs), which prioritizes plausible reflections. Approaches which provide editable lighting capabilities have been proposed, but these tend to be with simplified lighting models, offering limited realism. In this work, we propose to bridge the gap between these recent trends in the literature, and propose a method which combines a parametric light model with 360{\deg} panoramas, ready to use as HDRI in rendering engines. We leverage recent advances in GAN-based LDR panorama extrapolation from a regular image, which we extend to HDR using parametric spherical gaussians. To achieve this, we introduce a novel lighting co-modulation method that injects lighting-related features throughout the generator, tightly coupling the original or edited scene illumination within the panorama generation process. In our representation, users can easily edit light direction, intensity, number, etc. to impact shading while providing rich, complex reflections while seamlessly blending with the edits. Furthermore, our method encompasses indoor and outdoor environments, demonstrating state-of-the-art results even when compared to domain-specific methods. | 翻訳日:2023-04-27 15:56:13 公開日:2023-04-26 |
# 分数次および分数次ニューロンモデルのダイナミクスを推定する分割物理型ニューラルネットワーク Splitting physics-informed neural networks for inferring the dynamics of integer- and fractional-order neuron models ( http://arxiv.org/abs/2304.13205v1 ) ライセンス: Link先を確認 | Simin Shekarpaz, Fanhai Zeng, and George Karniadakis | (参考訳) 本稿では,微分方程式の前方系を分割法と物理式ニューラルネットワーク(pinns)を組み合わせて解く新しい手法を提案する。
提案手法はPINNを分割して動的システムにPINNを適用するという課題に効果的に対処し,ニューロンモデルへの応用による精度の向上を実証する。
具体的には、演算子分割を用いて元のニューロンモデルをサブプロブレムに分解し、PINNを用いて解いた。
さらに、分数ニューロンモデルにおける分数導関数の離散化のための$L^1$スキームを開発し、精度と効率を改善した。
この研究の結果は、整数および分数次ニューロンモデルと計算科学および工学における他の類似システムの両方を解決する際にピンを分割する可能性を強調している。 We introduce a new approach for solving forward systems of differential equations using a combination of splitting methods and physics-informed neural networks (PINNs). The proposed method, splitting PINN, effectively addresses the challenge of applying PINNs to forward dynamical systems and demonstrates improved accuracy through its application to neuron models. Specifically, we apply operator splitting to decompose the original neuron model into sub-problems that are then solved using PINNs. Moreover, we develop an $L^1$ scheme for discretizing fractional derivatives in fractional neuron models, leading to improved accuracy and efficiency. The results of this study highlight the potential of splitting PINNs in solving both integer- and fractional-order neuron models, as well as other similar systems in computational science and engineering. | 翻訳日:2023-04-27 15:55:48 公開日:2023-04-26 |
# Kernel Methodsは演算子学習の競争力を持つ Kernel Methods are Competitive for Operator Learning ( http://arxiv.org/abs/2304.13202v1 ) ライセンス: Link先を確認 | Pau Batlle, Matthieu Darcy, Bamdad Hosseini, Houman Owhadi | (参考訳) 本稿では,バナッハ空間間の演算子を学習するための一般的なカーネルベースのフレームワークと,事前誤差解析と,ディープ演算子ネット (deeponet) [lu et al.] やフーリエニューラルネットワーク (fno) [li et al.] といった一般的なニューラルネットワーク (nn) アプローチとの包括的数値比較について述べる。
対象演算子の入出力空間$\mathcal{g}^\dagger\,:\, \mathcal{u}\to \mathcal{v}$ がカーネルヒルベルト空間(rkhs)の再現であるような設定を考えると、データは部分的観測の形式によって得られる:$\phi(u_i), \varphi(v_i)$ of input/output関数$v_i=\mathcal{g}^\dagger(u_i)$ ($i=1,\ldots,n$) および計測演算子$\phi\,:\, \mathcal{u}\to \mathbb{r}^n$ および$\varphi\,:\, \mathcal{v} \to \mathbb{r}^m}} は線型である。
$\psi\,:\, \mathbb{r}^n \to \mathcal{u}$ と $\chi\,:\, \mathbb{r}^m \to \mathcal{v}$ と書けば、$\phi$ と $\varphi$ に対応する最適な回復写像に対して、$\mathcal{g}^\dagger$ と $\bar{\mathcal{g}}=\chi \circ \bar{f} \circ \phi$ を近似し、$f^\dagger:=\varphi \circ \mathcal{g}^\dagger \circ \psi\,:\,\mathbb{r}^m \to \mathbb{r}^m を近似する。
我々は、バニラカーネル(例えば、線形あるいはmat\'{e}rn)を使用する場合であっても、コスト正確性のトレードオフの観点からは競合であり、ほとんどのベンチマークでnnメソッドのパフォーマンスと一致または打ち勝っていることを示す。
さらに,このフレームワークは,単純性,解釈性,収束保証,事前誤差推定,ベイズ不確かさの定量化といったカーネル手法から継承されるいくつかの利点を提供する。
したがって、オペレーター学習の自然なベンチマークとして機能することができる。 We present a general kernel-based framework for learning operators between Banach spaces along with a priori error analysis and comprehensive numerical comparisons with popular neural net (NN) approaches such as Deep Operator Net (DeepONet) [Lu et al.] and Fourier Neural Operator (FNO) [Li et al.]. We consider the setting where the input/output spaces of target operator $\mathcal{G}^\dagger\,:\, \mathcal{U}\to \mathcal{V}$ are reproducing kernel Hilbert spaces (RKHS), the data comes in the form of partial observations $\phi(u_i), \varphi(v_i)$ of input/output functions $v_i=\mathcal{G}^\dagger(u_i)$ ($i=1,\ldots,N$), and the measurement operators $\phi\,:\, \mathcal{U}\to \mathbb{R}^n$ and $\varphi\,:\, \mathcal{V} \to \mathbb{R}^m$ are linear. Writing $\psi\,:\, \mathbb{R}^n \to \mathcal{U}$ and $\chi\,:\, \mathbb{R}^m \to \mathcal{V}$ for the optimal recovery maps associated with $\phi$ and $\varphi$, we approximate $\mathcal{G}^\dagger$ with $\bar{\mathcal{G}}=\chi \circ \bar{f} \circ \phi$ where $\bar{f}$ is an optimal recovery approximation of $f^\dagger:=\varphi \circ \mathcal{G}^\dagger \circ \psi\,:\,\mathbb{R}^n \to \mathbb{R}^m$. We show that, even when using vanilla kernels (e.g., linear or Mat\'{e}rn), our approach is competitive in terms of cost-accuracy trade-off and either matches or beats the performance of NN methods on a majority of benchmarks. Additionally, our framework offers several advantages inherited from kernel methods: simplicity, interpretability, convergence guarantees, a priori error estimates, and Bayesian uncertainty quantification. As such, it can serve as a natural benchmark for operator learning. | 翻訳日:2023-04-27 15:55:33 公開日:2023-04-26 |
# コードプロンプトの奇妙なケースを探る Exploring the Curious Case of Code Prompts ( http://arxiv.org/abs/2304.13250v1 ) ライセンス: Link先を確認 | Li Zhang, Liam Dugan, Hainiu Xu, Chris Callison-Burch | (参考訳) 近年の研究では、自然言語のコードライクな表現による言語モデルの実現が、構造化推論タスクのパフォーマンス向上につながっていることが示されている。
しかし、そのようなタスクはすべての自然言語タスクの小さなサブセットのみで構成されている。
本研究は,言語モデル全般と対話する上で,コードプロンプトが望ましい方法であるか否かを問うものである。
一般的な3つのgptモデル(davinci、code-davinci-002、text-davinci-002)に対して、より広いタスクの選択(qa、感情、要約など)でコードとテキストプロンプトを比較し、わずかな例外を除いて、コードプロンプトがテキストプロンプトを一貫して上回らないことを確認する。
さらに、コードプロンプトのスタイルは、すべてのタスクに対して性能に大きな影響を与え、テキスト命令の微調整により、コードプロンプトの相対的性能が向上することを示す。 Recent work has shown that prompting language models with code-like representations of natural language leads to performance improvements on structured reasoning tasks. However, such tasks comprise only a small subset of all natural language tasks. In our work, we seek to answer whether or not code-prompting is the preferred way of interacting with language models in general. We compare code and text prompts across three popular GPT models (davinci, code-davinci-002, and text-davinci-002) on a broader selection of tasks (e.g., QA, sentiment, summarization) and find that with few exceptions, code prompts do not consistently outperform text prompts. Furthermore, we show that the style of code prompt has a large effect on performance for some but not all tasks and that fine-tuning on text instructions leads to better relative performance of code prompts. | 翻訳日:2023-04-27 15:47:10 公開日:2023-04-26 |
# 機械学習を用いた暗号化プロトコルのセキュリティ検証フレームワーク A Security Verification Framework of Cryptographic Protocols Using Machine Learning ( http://arxiv.org/abs/2304.13249v1 ) ライセンス: Link先を確認 | Kentaro Ohno, Misato Nakabayashi | (参考訳) 機械学習を用いた暗号プロトコルのセキュリティ検証フレームワークを提案する。
近年,暗号プロトコルの複雑化に伴い,自動検証技術の研究が注目されている。
主な技術は形式的検証である。
しかし、形式的検証には2つの問題がある: 大量の計算時間を必要とし、決定可能性を保証することはない。
本稿では,機械学習を用いたプロトコルのサイズに関して,線形順序の計算時間によるセキュリティ検証を可能にする手法を提案する。
暗号化プロトコルのセキュリティ検証のための機械学習モデルのトレーニングでは、十分な量のデータ、すなわちセキュリティラベル付きプロトコルデータの集合を学術論文やその他の情報源から収集することは困難である。
そこで本稿では,ランダムなプロトコルを自動生成し,セキュリティラベルを正規の検証ツールを用いて割り当てることで,任意の規模のデータセットを作成する方法を提案する。
さらに,プロトコルの構造的特徴を活用するために,プロトコルの系列や木構造に沿って処理するニューラルネットワークを構築する。
提案手法を実用的な暗号プロトコルの検証に適用して評価する。 We propose a security verification framework for cryptographic protocols using machine learning. In recent years, as cryptographic protocols have become more complex, research on automatic verification techniques has been focused on. The main technique is formal verification. However, the formal verification has two problems: it requires a large amount of computational time and does not guarantee decidability. We propose a method that allows security verification with computational time on the order of linear with respect to the size of the protocol using machine learning. In training machine learning models for security verification of cryptographic protocols, a sufficient amount of data, i.e., a set of protocol data with security labels, is difficult to collect from academic papers and other sources. To overcome this issue, we propose a way to create arbitrarily large datasets by automatically generating random protocols and assigning security labels to them using formal verification tools. Furthermore, to exploit structural features of protocols, we construct a neural network that processes a protocol along its series and tree structures. We evaluate the proposed method by applying it to verification of practical cryptographic protocols. | 翻訳日:2023-04-27 15:46:52 公開日:2023-04-26 |
# 部分観測からナビゲーションパターンを予測する学習 Learning to Predict Navigational Patterns from Partial Observations ( http://arxiv.org/abs/2304.13242v1 ) ライセンス: Link先を確認 | Robin Karlsson, Alexander Carballo, Francisco Lepe-Salazar, Keisuke Fujii, Kento Ohtani, Kazuya Takeda | (参考訳) 人間は、相互に知られた航法パターンに固執することで、規則に制約された環境を協調的にナビゲートする。
不完全な環境からこれらのナビゲーションパターンを推測するには、未熟な場所で動作するインテリジェントな移動ロボットが必要である。
しかし、これらのナビゲーションパターンをアルゴリズム的に定義することは非自明である。
本稿では,実環境におけるナビゲーションパターンを部分的観測のみから推測する,最初の自己教師付き学習(ssl)手法を提案する。
幾何学的データ拡張, 予測世界モデリング, 情報理論正規化器により, 無限データに制限された非バイアスな局所指向性軟線確率(DSLP)の予測が可能となる。
dslp フィールドに最大度グラフをフィッティングすることにより、グローバルナビゲーションパターンを推定する方法を実証する。
実験の結果,sslモデルは,nuscenesデータセット上の2つのsoma教師付きレーングラフ予測モデルよりも優れていた。
認識によるナビゲーションのためのスケーラブルで解釈可能な連続学習パラダイムとしてSSL方式を提案する。
公開時にリリースされたコード。 Human beings cooperatively navigate rule-constrained environments by adhering to mutually known navigational patterns, which may be represented as directional pathways or road lanes. Inferring these navigational patterns from incompletely observed environments is required for intelligent mobile robots operating in unmapped locations. However, algorithmically defining these navigational patterns is nontrivial. This paper presents the first self-supervised learning (SSL) method for learning to infer navigational patterns in real-world environments from partial observations only. We explain how geometric data augmentation, predictive world modeling, and an information-theoretic regularizer enables our model to predict an unbiased local directional soft lane probability (DSLP) field in the limit of infinite data. We demonstrate how to infer global navigational patterns by fitting a maximum likelihood graph to the DSLP field. Experiments show that our SSL model outperforms two SOTA supervised lane graph prediction models on the nuScenes dataset. We propose our SSL method as a scalable and interpretable continual learning paradigm for navigation by perception. Code released upon publication. | 翻訳日:2023-04-27 15:46:37 公開日:2023-04-26 |
# 財務発表における構造図認識 Structure Diagram Recognition in Financial Announcements ( http://arxiv.org/abs/2304.13240v1 ) ライセンス: Link先を確認 | Meixuan Qiao, Jun Wang, Junfu Xiang, Qiyu Hou, Ruixuan Li | (参考訳) 財務発表において構造図から正確な構造化データを抽出することは、財務知識グラフの構築と、様々な金融アプリケーションの効率の向上に非常に重要な課題である。
まず,金融発表における構造図の認識手法を提案し,方向や角度の異なる直線,曲線,ポリラインなど,様々な種類の接続線をよりよく検出し抽出する手法を提案する。
第2に,中国の金融発表から業界初となる構造図のベンチマークを効率的に生成する2段階の手法を開発し,多数のダイアグラムを合成・注釈付けし,かなり良好な性能で予備認識モデルを訓練し,その予備モデルを用いて実世界の構造図を自動的に注釈付けし,手作業による補正をほとんど行わない高品質なベンチマークを得ることができた。
最後に,本手法を用いた構造図認識手法の有効性を実験的に検証した。 Accurately extracting structured data from structure diagrams in financial announcements is of great practical importance for building financial knowledge graphs and further improving the efficiency of various financial applications. First, we proposed a new method for recognizing structure diagrams in financial announcements, which can better detect and extract different types of connecting lines, including straight lines, curves, and polylines of different orientations and angles. Second, we developed a two-stage method to efficiently generate the industry's first benchmark of structure diagrams from Chinese financial announcements, where a large number of diagrams were synthesized and annotated using an automated tool to train a preliminary recognition model with fairly good performance, and then a high-quality benchmark can be obtained by automatically annotating the real-world structure diagrams using the preliminary model and then making few manual corrections. Finally, we experimentally verified the significant performance advantage of our structure diagram recognition method over previous methods. | 翻訳日:2023-04-27 15:46:20 公開日:2023-04-26 |
# 最適空間スペクトル平滑化によるアンドリュースプロットの数値近似 Numerical Approximation of Andrews Plots with Optimal Spatial-Spectral Smoothing ( http://arxiv.org/abs/2304.13239v1 ) ライセンス: Link先を確認 | Mitchell Rimerman and Nate Strawn | (参考訳) andrews plotsは、高次元データセットの審美的に快適な可視化を提供する。
この研究は、アンドリュースプロット(データセットの主成分スコアで定義されるとき)が平均で最適に `smooth' であることが証明され、ユークリッドデータ空間からの線型等距離集合上の無限次元二次最小化プログラムを$L^2([0,1])$に解く。
線形等長写像上の一般無限次元二次最小化プログラムの解を特徴付ける技術機械を構築することにより、解集合が(一般の場合)多様体であることを示す。
この解の多様体によって示されるあいまいさを避けるため、無限次元最適化プログラムに ' `spectral smoothing' という項を加え、最適な空間-スペクトル滑らか化でアンドリュースプロットを誘導する。
このプログラムの(一般的な)解の集合を特徴づけ、結果のプロットが効率的な数値近似を持つことを証明する。
これらの空間スペクトル滑らかなアンドリュースプロットは、三角多項式の振動によって生じる「視覚クラッター」を避ける傾向がある。 Andrews plots provide aesthetically pleasant visualizations of high-dimensional datasets. This work proves that Andrews plots (when defined in terms of the principal component scores of a dataset) are optimally ``smooth'' on average, and solve an infinite-dimensional quadratic minimization program over the set of linear isometries from the Euclidean data space to $L^2([0,1])$. By building technical machinery that characterizes the solutions to general infinite-dimensional quadratic minimization programs over linear isometries, we further show that the solution set is (in the generic case) a manifold. To avoid the ambiguities presented by this manifold of solutions, we add ``spectral smoothing'' terms to the infinite-dimensional optimization program to induce Andrews plots with optimal spatial-spectral smoothing. We characterize the (generic) set of solutions to this program and prove that the resulting plots admit efficient numerical approximations. These spatial-spectral smooth Andrews plots tend to avoid some ``visual clutter'' that arises due to the oscillation of trigonometric polynomials. | 翻訳日:2023-04-27 15:46:03 公開日:2023-04-26 |
# 核処理効果の効率的な二重ロバスト試験 An Efficient Doubly-Robust Test for the Kernel Treatment Effect ( http://arxiv.org/abs/2304.13237v1 ) ライセンス: Link先を確認 | Diego Martinez-Taboada, Aaditya Ramdas, Edward H. Kennedy | (参考訳) 平均的な治療効果は、偽物に対する期待の差であり、おそらく因果的推論と二元的治療において最も一般的な標的効果である。
しかし、治療は平均を超える効果があり、例えば、分散を減少または増大させる。
本稿では,治療の分布的効果に関する新しいカーネルベーステストを提案する。
私たちの知る限りでは、最初のカーネルベースの二重ロバストテストであり、有効なtype-iエラーである。
さらに,提案アルゴリズムは効率が良く,順列の使用を避けることができる。 The average treatment effect, which is the difference in expectation of the counterfactuals, is probably the most popular target effect in causal inference with binary treatments. However, treatments may have effects beyond the mean, for instance decreasing or increasing the variance. We propose a new kernel-based test for distributional effects of the treatment. It is, to the best of our knowledge, the first kernel-based, doubly-robust test with provably valid type-I error. Furthermore, our proposed algorithm is efficient, avoiding the use of permutations. | 翻訳日:2023-04-27 15:45:40 公開日:2023-04-26 |
# 任意基底状態波関数からの任意の量子次元 Anyon Quantum Dimensions from an Arbitrary Ground State Wave Function ( http://arxiv.org/abs/2304.13235v1 ) ライセンス: Link先を確認 | Shang Liu | (参考訳) トポロジカルオーダーとエノンは概念上重要な現象であり、量子コンピューティングに実用的に有用である。
しかし、トポロジカルオーダーは従来の順序パラメータを欠き、一般に診断が難しい。
量子シミュレーションの最近の進歩は、トポロジカル秩序を特定する効率的な方法の必要性をさらに強調している。
この問題の突破口は、基底状態の波動関数から非自明な位相秩序を検出するのに使える位相絡みエントロピーの発見であるが、位相秩序を完全に決定するには十分ではない。
本研究では,この方向への一歩を踏み出します。我々は,1つの基底状態波動関数から任意のオンの量子次元を2次元で取り出すための,単純な絡み合いに基づくプロトコルを提案する。
空間多様体と基底状態の選択は任意である。
このプロトコルはまずチャーン・サイモンズ場の理論を用いて連続体で検証され、その後北エフの量子二重モデルを用いて格子上で解析的に検証される。
我々は,このプロトコルを様々な量子シミュレーションプラットフォームや数値で実験的に実装できると予想している。 Topological orders and anyons are fascinating phenomena that are both conceptually important and practically useful for quantum computing. However, topological orders lack conventional order parameters and are generically difficult to diagnose. Recent advances in quantum simulations have further emphasized the need for efficient methods for identifying topological orders. A breakthrough in this problem is the discovery of topological entanglement entropy, which can be used to detect nontrivial topological order from a ground state wave function, but is far from enough for fully determining the topological order. In this work, we take a key step further in this direction: We propose a simple entanglement-based protocol for extracting the quantum dimensions of all anyons from a single ground state wave function in two dimensions. The choice of the space manifold and the ground state is arbitrary. This protocol is first validated in the continuum using Chern-Simons field theories, and then analytically verified on lattices using Kitaev's quantum double models. We anticipate that our protocol can be implemented experimentally in various quantum simulation platforms, as well as in numerics. | 翻訳日:2023-04-27 15:45:32 公開日:2023-04-26 |
# 多基準ハードウェアトロイの木馬検出:強化学習アプローチ Multi-criteria Hardware Trojan Detection: A Reinforcement Learning Approach ( http://arxiv.org/abs/2304.13232v1 ) ライセンス: Link先を確認 | Amin Sarihi, Peter Jamieson, Ahmad Patooghy, Abdel-Hameed A. Badawy | (参考訳) ハードウェアトロイの木馬 (HTs) は、デジタル集積回路のセキュリティと機能を著しく変更できる、望ましくない設計や製造上の改良である。
HTは、ネットスイッチングアクティビティ、可観測性、可制御性など、さまざまな設計基準に従って挿入することができる。
しかし、我々の知る限り、ほとんどのHT検出方法は1つの基準、すなわちネットスイッチングアクティビティに基づいている。
本稿では,異なるHT検出シナリオに対して,学習可能な報酬関数を特徴付ける多基準強化学習(RL)HT検出ツールを提案する。
このツールは既存の検出戦略を探索し、最小限の労力で新しい検出シナリオを適用することができる。
また,HT検出手法を公平に比較するための汎用手法を提案する。
ISCAS-85ベンチマークでは,平均84.2%のHT検出が得られた。 Hardware Trojans (HTs) are undesired design or manufacturing modifications that can severely alter the security and functionality of digital integrated circuits. HTs can be inserted according to various design criteria, e.g., nets switching activity, observability, controllability, etc. However, to our knowledge, most HT detection methods are only based on a single criterion, i.e., nets switching activity. This paper proposes a multi-criteria reinforcement learning (RL) HT detection tool that features a tunable reward function for different HT detection scenarios. The tool allows for exploring existing detection strategies and can adapt new detection scenarios with minimal effort. We also propose a generic methodology for comparing HT detection methods fairly. Our preliminary results show an average of 84.2% successful HT detection in ISCAS-85 benchmark | 翻訳日:2023-04-27 15:45:15 公開日:2023-04-26 |
# UNADON:トランスフォーマーを用いたゲノムワイド染色体空間位置予測モデル UNADON: Transformer-based model to predict genome-wide chromosome spatial position ( http://arxiv.org/abs/2304.13230v1 ) ライセンス: Link先を確認 | Muyu Yang and Jian Ma | (参考訳) 機能核体に対する染色体の空間的位置決めは、転写などのゲノム機能と相互作用する。
しかし、ゲノム全体にわたってクロマチンの空間的位置決定に影響を与える配列パターンやエピゲノミクスの特徴はよく分かっていない。
そこで本研究では,TSA-seqによって測定された特定のタイプの核体へのゲノムワイド細胞学的距離を,シーケンス特性とエピジェノミック信号の両方を用いて予測する。
4つの細胞株 (K562, H1, HFFc6, HCT116) における UNADON の評価は, 単一細胞株で訓練した場合の核体へのクロマチン空間位置の予測において高い精度を示した。
UNADONは未確認の細胞型でもよく機能した。
重要なのは,核体へのクロマチンの大規模区画化に影響を及ぼす潜在配列とエピゲノミクス因子を明らかにすることである。
UNADONは、配列の特徴と大規模クロマチン空間局在の原理に関する新たな知見を提供し、核構造や機能を理解する上で重要な意味を持つ。 The spatial positioning of chromosomes relative to functional nuclear bodies is intertwined with genome functions such as transcription. However, the sequence patterns and epigenomic features that collectively influence chromatin spatial positioning in a genome-wide manner are not well understood. Here, we develop a new transformer-based deep learning model called UNADON, which predicts the genome-wide cytological distance to a specific type of nuclear body, as measured by TSA-seq, using both sequence features and epigenomic signals. Evaluations of UNADON in four cell lines (K562, H1, HFFc6, HCT116) show high accuracy in predicting chromatin spatial positioning to nuclear bodies when trained on a single cell line. UNADON also performed well in an unseen cell type. Importantly, we reveal potential sequence and epigenomic factors that affect large-scale chromatin compartmentalization to nuclear bodies. Together, UNADON provides new insights into the principles between sequence features and large-scale chromatin spatial localization, which has important implications for understanding nuclear structure and function. | 翻訳日:2023-04-27 15:45:01 公開日:2023-04-26 |
# タスク指向多目的最適化による逆例生成 Generating Adversarial Examples with Task Oriented Multi-Objective Optimization ( http://arxiv.org/abs/2304.13229v1 ) ライセンス: Link先を確認 | Anh Bui, Trung Le, He Zhao, Quan Tran, Paul Montague, Dinh Phung | (参考訳) ディープラーニングモデルは、最先端のモデルでさえも、敵の例に非常に脆弱です。
敵の訓練はモデルの堅牢性を改善する最も効率的な方法の1つである。
敵意トレーニングの成功の鍵となる要因は、目標/ゴール(例えば、複数のモデルを同時に攻撃するモデルの損失を最大化する敵意的な例を見つける)を満たす、適格で多様な敵意の例を生成する能力である。
したがって、多目的最適化(MOO)は、複数の目的/目標を同時に達成するための逆例生成の自然なツールである。
しかし,MOOの単純適用は,目標/目標がまだ達成されているかどうかを気にすることなく,すべての目標/目標を等しく最大化する傾向にある。
これにより、目標達成タスクをさらに改善し、目標達成タスクへのフォーカスを減らし、無駄な労力がかかります。
本稿では,タスクの目標達成を明示的に定義できる状況において,この問題に対処するためのemph{Task Oriented MOO}を提案する。
私たちの原則は、目標達成タスクのみを維持しながら、最適化者が目標達成タスクの改善により多くの労力を費やすことです。
我々は,タスク指向mooに対して,様々な逆例生成方式に関する包括的実験を行う。
実験結果は,提案手法のメリットを確証するものである。
我々のコードは \url{https://github.com/tuananhbui89/TAMOO} で入手できる。 Deep learning models, even the-state-of-the-art ones, are highly vulnerable to adversarial examples. Adversarial training is one of the most efficient methods to improve the model's robustness. The key factor for the success of adversarial training is the capability to generate qualified and divergent adversarial examples which satisfy some objectives/goals (e.g., finding adversarial examples that maximize the model losses for simultaneously attacking multiple models). Therefore, multi-objective optimization (MOO) is a natural tool for adversarial example generation to achieve multiple objectives/goals simultaneously. However, we observe that a naive application of MOO tends to maximize all objectives/goals equally, without caring if an objective/goal has been achieved yet. This leads to useless effort to further improve the goal-achieved tasks, while putting less focus on the goal-unachieved tasks. In this paper, we propose \emph{Task Oriented MOO} to address this issue, in the context where we can explicitly define the goal achievement for a task. Our principle is to only maintain the goal-achieved tasks, while letting the optimizer spend more effort on improving the goal-unachieved tasks. We conduct comprehensive experiments for our Task Oriented MOO on various adversarial example generation schemes. The experimental results firmly demonstrate the merit of our proposed approach. Our code is available at \url{https://github.com/tuananhbui89/TAMOO}. | 翻訳日:2023-04-27 15:44:39 公開日:2023-04-26 |
# モデルが再び浅くなる: 遅延効率の良いプライベート推論のための非線形性と深度を共同学習する Making Models Shallow Again: Jointly Learning to Reduce Non-Linearity and Depth for Latency-Efficient Private Inference ( http://arxiv.org/abs/2304.13274v1 ) ライセンス: Link先を確認 | Souvik Kundu, Yuke Zhang, Dake Chen, Peter A. Beerel | (参考訳) ディープニューラルネットワークの多数のReLUとMAC操作は、レイテンシと計算効率のよいプライベート推論に不適である。
本稿では,モデルの浅さを学習するためのモデル最適化手法を提案する。
特に、畳み込みブロックのReLU感度を利用して、ReLU層を除去し、それに続く畳み込み層と先行する畳み込み層を浅いブロックにマージする。
従来のReLU削減法と異なり,CIFAR-100上でのResNet18を用いて,ReLUと線形演算を最大1.73倍,1.47倍に削減したモデルが得られる。 Large number of ReLU and MAC operations of Deep neural networks make them ill-suited for latency and compute-efficient private inference. In this paper, we present a model optimization method that allows a model to learn to be shallow. In particular, we leverage the ReLU sensitivity of a convolutional block to remove a ReLU layer and merge its succeeding and preceding convolution layers to a shallow block. Unlike existing ReLU reduction methods, our joint reduction method can yield models with improved reduction of both ReLUs and linear operations by up to 1.73x and 1.47x, respectively, evaluated with ResNet18 on CIFAR-100 without any significant accuracy-drop. | 翻訳日:2023-04-27 15:38:47 公開日:2023-04-26 |
# 関連から生成へ:教師なしクロスモーダルマッピングによるテキストのみのキャプション From Association to Generation: Text-only Captioning by Unsupervised Cross-modal Mapping ( http://arxiv.org/abs/2304.13273v1 ) ライセンス: Link先を確認 | Junyang Wang and Ming Yan and Yi Zhang and Ming Yan | (参考訳) CLIPとALIGNに代表されるVLPM(Vision-Language Pre-Training Model)の開発により、CLIPのゼロショット機能による画像分類や画像テキスト検索といった連想に基づく視覚タスクにおいて、微調整なしで大きなブレークスルーが達成されている。
しかし、CLIPは世代ベースのタスクには適用が難しい。
これはデコーダアーキテクチャと生成のための事前トレーニングタスクが欠如しているためである。
以前の研究は、追加の言語モデルを通じてCLIPの生成能力を生み出したが、異なるモダリティのCLIP表現と、このギャップのオフセットをモデル化できないCLIPのモダリティギャップは、モダリティ間の転送を失敗する。
この問題を解決するために,画像や映像を言語モダリティにマッピングし,言語モダリティからキャプションを生成する。
本稿では,K-nearest-neighbor Cross-modality Mapping (Knight)を提案する。
テキストのみの教師なしのトレーニングにより、Knightは画像キャプションとビデオキャプションのためのゼロショットメソッドで最先端のパフォーマンスを達成する。
私たちのコードはhttps://github.com/junyangwang0410/knightで利用可能です。 With the development of Vision-Language Pre-training Models (VLPMs) represented by CLIP and ALIGN, significant breakthroughs have been achieved for association-based visual tasks such as image classification and image-text retrieval by the zero-shot capability of CLIP without fine-tuning. However, CLIP is hard to apply to generation-based tasks. This is due to the lack of decoder architecture and pre-training tasks for generation. Although previous works have created generation capacity for CLIP through additional language models, a modality gap between the CLIP representations of different modalities and the inability of CLIP to model the offset of this gap, which fails the concept to transfer across modalities. To solve the problem, we try to map images/videos to the language modality and generate captions from the language modality. In this paper, we propose the K-nearest-neighbor Cross-modality Mapping (Knight), a zero-shot method from association to generation. With text-only unsupervised training, Knight achieves state-of-the-art performance in zero-shot methods for image captioning and video captioning. Our code is available at https://github.com/junyangwang0410/Knight. | 翻訳日:2023-04-27 15:38:32 公開日:2023-04-26 |
# 人工知能研究のためのゲームベースプラットフォーム Game-based Platforms for Artificial Intelligence Research ( http://arxiv.org/abs/2304.13269v1 ) ライセンス: Link先を確認 | Chengpeng Hu, Yunlong Zhao, Ziqi Wang, Haocheng Du, Jialin Liu | (参考訳) ゲームは、現実世界のシナリオに広く存在する特徴に対して、人工知能研究のための完璧なテストベッドでした。
学習と最適化、動的かつ不確定な環境における意思決定、ゲーム理論、計画とスケジューリング、設計と教育は、ゲームと現実世界の問題の間で共有される共通の研究領域である。
多くのオープンソースゲームやゲームベースの環境が人工知能の研究のために実装されている。
シングルまたはマルチプレイヤー、コラボレーティブまたは対戦型ゲームに加えて、近年はクリエイティブデザインのためのプラットフォームの実装にも関心が高まっている。
これらのプラットフォームは、人工知能のアイデアとテクニックを探索し比較するための理想的なベンチマークを提供する。
本稿では,人工知能研究のゲームベースプラットフォームを概観し,これらのプラットフォームの発展に伴う研究動向を考察し,展望を述べる。 Games have been the perfect test-beds for artificial intelligence research for the characteristics that widely exist in real-world scenarios. Learning and optimisation, decision making in dynamic and uncertain environments, game theory, planning and scheduling, design and education are common research areas shared between games and real-world problems. Numerous open-sourced games or game-based environments have been implemented for studying artificial intelligence. In addition to single- or multi-player, collaborative or adversarial games, there has also been growing interest in implementing platforms for creative design in recent years. Those platforms provide ideal benchmarks for exploring and comparing artificial intelligence ideas and techniques. This paper reviews the game-based platforms for artificial intelligence research, discusses the research trend induced by the evolution of those platforms, and gives an outlook. | 翻訳日:2023-04-27 15:38:08 公開日:2023-04-26 |
# ベイズ連合学習:調査 Bayesian Federated Learning: A Survey ( http://arxiv.org/abs/2304.13267v1 ) ライセンス: Link先を確認 | Longbing Cao, Hui Chen, Xuhui Fan, Joao Gama, Yew-Soon Ong, Vipin Kumar | (参考訳) federated learning(fl)は、分散インフラストラクチャ、コミュニケーション、コンピューティング、学習をプライバシ保護の方法で統合する、そのメリットを示している。
しかしながら、既存のfl法のロバスト性と能力は、限定的かつダイナミックなデータと条件、異質性と不確実性を含む複雑さ、分析的な説明可能性によって挑戦される。
ベイズ連合学習(BFL)はこれらの問題に対処するための有望なアプローチとして登場した。
本研究は,bflの基本概念,flの文脈におけるベイズ学習との関係,ベイズと連邦の両方の観点からのbflの分類など,bflの批判的な概観を示す。
クライアント側およびサーバ側およびFLベースのBFL手法とその長所と短所を分類し議論する。
既存のBFL手法の限界とBFL研究の今後の方向性は、現実のBFL応用の複雑な要件をさらに解決している。 Federated learning (FL) demonstrates its advantages in integrating distributed infrastructure, communication, computing and learning in a privacy-preserving manner. However, the robustness and capabilities of existing FL methods are challenged by limited and dynamic data and conditions, complexities including heterogeneities and uncertainties, and analytical explainability. Bayesian federated learning (BFL) has emerged as a promising approach to address these issues. This survey presents a critical overview of BFL, including its basic concepts, its relations to Bayesian learning in the context of FL, and a taxonomy of BFL from both Bayesian and federated perspectives. We categorize and discuss client- and server-side and FL-based BFL methods and their pros and cons. The limitations of the existing BFL methods and the future directions of BFL research further address the intricate requirements of real-life FL applications. | 翻訳日:2023-04-27 15:37:57 公開日:2023-04-26 |
# StepFormer: インストラクショナルビデオにおける自己教師型ステップディスカバリとローカライゼーション StepFormer: Self-supervised Step Discovery and Localization in Instructional Videos ( http://arxiv.org/abs/2304.13265v1 ) ライセンス: Link先を確認 | Nikita Dvornik, Isma Hadji, Ran Zhang, Konstantinos G. Derpanis, Animesh Garg, Richard P. Wildes, Allan D. Jepson | (参考訳) インストラクショナルビデオは、人間のデモから手続き的なタスクを学ぶための重要なリソースである。
しかし、そのようなビデオの指導手順は、通常短く、疎らであり、ほとんどのビデオは手順とは無関係である。
これにより、ビデオ内の命令ステップ、すなわちキーステップローカライズと呼ばれるタスクを一時的にローカライズする必要性が高まる。
従来のキーステップのローカライゼーションにはビデオレベルのヒューマンアノテーションが必要であり、大規模なデータセットにスケールしない。
本研究では,人間の監督なしにこの問題に取り組み,ビデオ中の指示ステップを発見し,局所化する自己教師付きモデルであるstepformerを導入する。
StepFormerは、学習可能なクエリでビデオに出席し、ビデオのキーステップをキャプチャするスロットのシーケンスを生成するトランスフォーマーデコーダである。
我々は、自動生成した字幕を唯一の監督源として、大規模な指導ビデオのデータセットで学習する。
特に,無関係な句をフィルタする順序認識損失関数を用いて,テキストナレーションのシーケンスでシステムを監視する。
我々は,従来の教師なしおよび弱教師付きアプローチである3つのベンチマークにおいて,ステップ検出とローカライゼーションを大きなマージンで上回っていることを示す。
さらに,本モデルでは,ゼロショットマルチステップのローカライゼーションを解き,関連するベースラインをすべて上回る創発的特性を示す。 Instructional videos are an important resource to learn procedural tasks from human demonstrations. However, the instruction steps in such videos are typically short and sparse, with most of the video being irrelevant to the procedure. This motivates the need to temporally localize the instruction steps in such videos, i.e. the task called key-step localization. Traditional methods for key-step localization require video-level human annotations and thus do not scale to large datasets. In this work, we tackle the problem with no human supervision and introduce StepFormer, a self-supervised model that discovers and localizes instruction steps in a video. StepFormer is a transformer decoder that attends to the video with learnable queries, and produces a sequence of slots capturing the key-steps in the video. We train our system on a large dataset of instructional videos, using their automatically-generated subtitles as the only source of supervision. In particular, we supervise our system with a sequence of text narrations using an order-aware loss function that filters out irrelevant phrases. We show that our model outperforms all previous unsupervised and weakly-supervised approaches on step detection and localization by a large margin on three challenging benchmarks. Moreover, our model demonstrates an emergent property to solve zero-shot multi-step localization and outperforms all relevant baselines at this task. | 翻訳日:2023-04-27 15:37:40 公開日:2023-04-26 |
# 大学移行と障害の文脈におけるデジタル技術--理論的・実証的研究 Digital technologies in the context of university transition and disability: Theoretical and empirical advances ( http://arxiv.org/abs/2304.13262v1 ) ライセンス: Link先を確認 | Edgar Pacheco | (参考訳) 1970年代初頭に高等教育への移行が研究テーマとして登場して以来、学術調査は障害のない学生に焦点を当てており、デジタル技術の役割にはほとんど注意が払われていない。
本稿では,ニュージーランドからの視力障害を持つ1年生のグループの大学経験と,ソーシャルメディアやモバイルデバイスなどのデジタルツールを用いて,移行に関わる課題を管理する方法を検討することで,この知識ギャップに対処することを目的とする。
本論文は,行動研究(AR)により方法論的に情報を得た縦断定的プロジェクトから得られた知見を要約する。
本稿では,大学への進学を学術的に検討し,5つの重複ステージ,学生が直面している移行問題,デジタル技術が果たす役割など,概念的枠組みを紹介する。
この記事は、高等教育への移行に関する理論的理解を更新、拡張し、第三次教育における障害を持つ若者のニーズ、包括性、参加を支持する実践者に実証的な証拠を提供する。 Since transition to higher education emerged as a research topic in the early 1970s, scholarly inquiry has focused on students without impairments and, what is more, little attention has been paid to the role of digital technologies. This article seeks to address this knowledge gap by looking at the university experiences of a group of first-year students with vision impairments from New Zealand, and the way they use digital tools, such as social media and mobile devices, to manage their transition-related challenges. The article summarises the findings from a longitudinal qualitative project which was methodologically informed by action research (AR). The article explores and discusses scholarly inquiry of transition to university and introduces a conceptual framework which includes five overlapping stages, the transition issues faced by the students and the roles played by digital technologies. The article updates and expands the theoretical understanding of transition to higher education and provides empirical evidence for practitioners to support the needs, inclusion, and participation of young people with disabilities in the tertiary setting. | 翻訳日:2023-04-27 15:37:17 公開日:2023-04-26 |
# 量子統計推論へのデータ駆動アプローチにおける設計の役割について On the role of designs in the data-driven approach to quantum statistical inference ( http://arxiv.org/abs/2304.13258v1 ) ライセンス: Link先を確認 | Michele Dall'Arno | (参考訳) 設計、特に対称的、情報完備な(SIC)構造は、量子トモグラフィー再構成プロセスにおいて重要な役割を果たす。
この事実は、設計が導いた再構成公式の対称性によるものである。
しかし、同じトモグラフィーのタスクは、より対称性の低い式ではあるものの、情報的に完備な(必ずしも対称ではない)構造によって達成できることも知られている。
ここでは、トモグラフィータスクをデータ駆動型推論手法に置き換える場合、設計上可能ではあるが、任意の情報的完全構造により、再構成はもはや達成できないことを示す。
そこで我々は,設計の役割が自然に現れる場として,データ駆動推論を提案する。
我々の推論アプローチは最小限の原理に基づいており、データと整合する全ての可能な推論のうち、最も弱いものは、偏化理論と統計的比較の意味で好まれるべきである。 Designs, and in particular symmetric, informationally complete (SIC) structures, play an important role in the quantum tomographic reconstruction process and, by extension, in certain interpretations of quantum theory focusing on such a process. This fact is due to the symmetry of the reconstruction formula that designs lead to. However, it is also known that the same tomographic task, albeit with a less symmetric formula, can be accomplished by any informationally complete (non necessarily symmetric) structure. Here we show that, if the tomographic task is replaced by a data-driven inferential approach, the reconstruction, while possible with designs, cannot by accomplished anymore by an arbitrary informationally complete structure. Hence, we propose the data-driven inference as the arena in which the role of designs naturally emerges. Our inferential approach is based on a minimality principle according to which, among all the possible inferences consistent with the data, the weakest should be preferred, in the sense of majorization theory and statistical comparison. | 翻訳日:2023-04-27 15:36:58 公開日:2023-04-26 |
# ニオブ表面カプセル化によるトランスモン量子コヒーレンスの系統的改善 Systematic Improvements in Transmon Qubit Coherence Enabled by Niobium Surface Encapsulation ( http://arxiv.org/abs/2304.13257v1 ) ライセンス: Link先を確認 | Mustafa Bal, Akshay A. Murthy, Shaojiang Zhu, Francesco Crisa, Xinyuan You, Ziwen Huang, Tanay Roy, Jaeyel Lee, David van Zanten, Roman Pilipenko, Ivan Nekrashevich, Daniel Bafia, Yulia Krasnikova, Cameron J. Kopas, Ella O. Lachman, Duncan Miller, Josh Y. Mutus, Matthew J. Reagor, Hilal Cansizoglu, Jayss Marshall, David P. Pappas, Kim Vu, Kameshwar Yadavalli, Jin-Su Oh, Lin Zhou, Matthew J. Kramer, Dominic P. Goronzy, Carlos G. Torres-Castanedo, Graham Pritchard, Vinayak P. Dravid, James M. Rondinelli, Michael J. Bedzyk, Mark C. Hersam, John Zasadzinski, Jens Koch, James A. Sauls, Alexander Romanenko, and Anna Grassellino | (参考訳) 本稿では,T$_1$コヒーレンス時間を体系的に改善するトランスモンキュービット製造手法を提案する。
我々は, ニオブの表面を緩和し, 損失表面の酸化物の形成を阻害するカプセル化戦略を用いて, デバイスを作製した。
同じ超伝導金属を維持し, 表面構造だけを変化させることにより, 異なる量子ビットファイントリーにまたがる異なるキャッピング材料および膜基板について, ニオブ酸化物が超伝導量子ビットのコヒーレンス時間に与える影響をタンタル, アルミニウム, 窒化チタンのネイティブ酸化物と比較して明らかに実証した。
表面封入したニオブ量子ビットデバイスは,ネイティブなニオブ酸化物を用いたベースラインニオブ量子ビットデバイスよりも2~5倍のコヒーレンス時間を示す。
ニオブをタンタルで捕獲すると、200マイクロ秒以上で平均クビット寿命が得られる。
構造的および化学的分析から, 非晶質な亜酸化ニオブは高い損失をもたらす可能性が示唆された。
これらの結果は,超高Q超伝導ラジオ周波数(SRF)キャビティで得られた酸化ニオブ損失タンジェントの高精度測定と一致した。
この新しい表面カプセル化戦略は、シリコンプロセスとの互換性により製造とスケーラブルな製造性を維持しつつ、環境安定材料によるパッシベーションによる誘電損失のさらなる低減を可能にする。 We present a novel transmon qubit fabrication technique that yields systematic improvements in T$_1$ coherence times. We fabricate devices using an encapsulation strategy that involves passivating the surface of niobium and thereby preventing the formation of its lossy surface oxide. By maintaining the same superconducting metal and only varying the surface structure, this comparative investigation examining different capping materials and film substrates across different qubit foundries definitively demonstrates the detrimental impact that niobium oxides have on the coherence times of superconducting qubits, compared to native oxides of tantalum, aluminum or titanium nitride. Our surface-encapsulated niobium qubit devices exhibit T$_1$ coherence times 2 to 5 times longer than baseline niobium qubit devices with native niobium oxides. When capping niobium with tantalum, we obtain median qubit lifetimes above 200 microseconds. Our comparative structural and chemical analysis suggests that amorphous niobium suboxides may induce higher losses. These results are in line with high-accuracy measurements of the niobium oxide loss tangent obtained with ultra-high Q superconducting radiofrequency (SRF) cavities. This new surface encapsulation strategy enables further reduction of dielectric losses via passivation with ambient-stable materials, while preserving fabrication and scalable manufacturability thanks to the compatibility with silicon processes. | 翻訳日:2023-04-27 15:36:42 公開日:2023-04-26 |
# shield: コードのオーサシップを妨害する SHIELD: Thwarting Code Authorship Attribution ( http://arxiv.org/abs/2304.13255v1 ) ライセンス: Link先を確認 | Mohammed Abuhamad and Changhun Jung and David Mohaisen and DaeHun Nyang | (参考訳) 著者の帰属はますます正確になり、匿名を希望するプログラマには深刻なプライバシー上のリスクが生じる。
本稿では、対戦型コード例に対する異なるコードオーサシップ属性アプローチの堅牢性を検討するためにShiELDを提案する。
我々は,攻撃対象および非標的攻撃を含むアトリビューション手法に対する4つの攻撃を定義し,逆符号摂動を用いてそれらを実現する。
我々は、Google Code Jamコンペティションの200人のプログラマによるデータセットを用いて、RNN、CNN、コードスタイメトリーなど、ソースコードから著者特性を抽出するさまざまなテクニックを採用する6つの最先端の著者属性属性メソッドを対象に、我々の手法を検証する実験を行った。
本実験は,敵攻撃に対する現在の著者帰属手法の脆弱性を実証するものである。
本実験では,攻撃成功率98.5 %を超える攻撃に対して,13 %を超える識別信頼度低下を伴って,現在の著者帰属手法の脆弱性を実証した。
対象攻撃に対して,複数のシナリオにおいて異なる著者帰属技術に対して,66 %から88 %の確率で目標対逆摂動を用いてプログラマを偽装する可能性を示す。 Authorship attribution has become increasingly accurate, posing a serious privacy risk for programmers who wish to remain anonymous. In this paper, we introduce SHIELD to examine the robustness of different code authorship attribution approaches against adversarial code examples. We define four attacks on attribution techniques, which include targeted and non-targeted attacks, and realize them using adversarial code perturbation. We experiment with a dataset of 200 programmers from the Google Code Jam competition to validate our methods targeting six state-of-the-art authorship attribution methods that adopt a variety of techniques for extracting authorship traits from source-code, including RNN, CNN, and code stylometry. Our experiments demonstrate the vulnerability of current authorship attribution methods against adversarial attacks. For the non-targeted attack, our experiments demonstrate the vulnerability of current authorship attribution methods against the attack with an attack success rate exceeds 98.5\% accompanied by a degradation of the identification confidence that exceeds 13\%. For the targeted attacks, we show the possibility of impersonating a programmer using targeted-adversarial perturbations with a success rate ranging from 66\% to 88\% for different authorship attribution techniques under several adversarial scenarios. | 翻訳日:2023-04-27 15:36:18 公開日:2023-04-26 |
# ブラウザ内cryptojackingの解析 Analyzing In-browser Cryptojacking ( http://arxiv.org/abs/2304.13253v1 ) ライセンス: Link先を確認 | Muhammad Saad and David Mohaisen | (参考訳) cryptojackingは、ターゲットデバイスが暗号通貨を隠ぺいにマイニングするための無許可利用である。
暗号鍵によって、攻撃者は悪意のあるJavaScriptコードを使用して、Webブラウザに作業の証明パズルを強制する。
このような攻撃を理解し、対処するために、ブラウザ内暗号化の静的、動的、経済的側面を体系的に分析する。
静的解析では、暗号鍵サンプルのコンテンツ、通貨、コードに基づく分類を行う。
1) ウェブサイト間の分布を測定する。
2)プラットフォーム親和性を強調し、
3) コードの複雑さを研究する。
機械学習技術を用いて、暗号解読スクリプトと良性および悪意のあるJavaScriptサンプルを100%精度で区別する。
動的解析では,CPUやバッテリ使用量などの重要なシステムリソースに対する暗号ジャックの効果を解析する。
また、webブラウザのフィンガープリントを行い、被害者ノードとdropzone暗号化サーバ間の情報交換を分析する。
また,オンライン広告の代替手段として,暗号ジャックの実現可能性を実証的に評価する分析モデルを構築した。
その結果,負の利益と損失の差が大きく,モデルが経済的に実現不可能であることが示された。
最後に,我々の分析から得た知見を活かし,既存の対策を改善するためのブラウザ内暗号化対策を構築する。 Cryptojacking is the permissionless use of a target device to covertly mine cryptocurrencies. With cryptojacking, attackers use malicious JavaScript codes to force web browsers into solving proof-of-work puzzles, thus making money by exploiting the resources of the website visitors. To understand and counter such attacks, we systematically analyze the static, dynamic, and economic aspects of in-browser cryptojacking. For static analysis, we perform content, currency, and code-based categorization of cryptojacking samples to 1) measure their distribution across websites, 2) highlight their platform affinities, and 3) study their code complexities. We apply machine learning techniques to distinguish cryptojacking scripts from benign and malicious JavaScript samples with 100\% accuracy. For dynamic analysis, we analyze the effect of cryptojacking on critical system resources, such as CPU and battery usage. We also perform web browser fingerprinting to analyze the information exchange between the victim node and the dropzone cryptojacking server. We also build an analytical model to empirically evaluate the feasibility of cryptojacking as an alternative to online advertisement. Our results show a sizeable negative profit and loss gap, indicating that the model is economically infeasible. Finally, leveraging insights from our analyses, we build countermeasures for in-browser cryptojacking that improve the existing remedies. | 翻訳日:2023-04-27 15:35:57 公開日:2023-04-26 |
# 構造導波路における量子光間相互作用 Quantum light-matter interactions in structured waveguides ( http://arxiv.org/abs/2304.13306v1 ) ライセンス: Link先を確認 | Rupak Bag and Dibyendu Roy | (参考訳) 我々は,その有限帯域幅,帯域エッジ,非自明な位相特性により,構造化導波路内の量子光マター相互作用の特殊特徴を考察する。
我々は、導波路をタイトバインディング(TB)鎖またはSu-Schrieffer-Heeger(SSH)鎖としてモデル化する。
無限帯域の非構造導波路では、側結合2レベルエミッタ(2le)の透過及び反射振幅は、直結合2leの反射及び透過振幅と同じである。
このアナロジーは,直接結合した2leのみのラムシフトの出現により,有限帯域幅の構造化導波路では分解されることを示す。
さらに, 構造導波路のバンドエッジ付近の1つの巨大2LE (異なる点に2つのカップリングを持つ) の集合減衰幅ゼロでの頑健な光-エミッタ結合を予測し, トポロジカル特性が有用であることを示す。
最後に、SSH端の2LEに接続された長いTBと短いSSH導波路のヘテロ接合における単一光子ダイナミクスについて検討した。
励起エミッタからTB導波路への光子の伝播は,SSH導波路が位相相にある場合に限る。
したがって、ヘテロ接合は量子スイッチまたは条件伝達チャネルとして機能する。 We explore special features of quantum light-matter interactions inside structured waveguides due to their finite bandwidth, band edges, and non-trivial topological properties. We model the waveguides as either a tight-binding (TB) chain or a Su-Schrieffer-Heeger (SSH) chain. For unstructured waveguides with infinite bandwidth, the transmission and reflection amplitude of a side-coupled two-level emitter (2LE) are the same as the reflection and transmission amplitude of a direct-coupled 2LE. We show that this analogy breaks down for structured waveguides with finite bandwidth due to the appearance of Lamb shift only for the direct-coupled 2LE. We further predict a robust light-emitter coupling at zero collective decay width of a single giant 2LE (with two couplings at different points) near the band edges of the structured waveguides where topological features can be beneficial. Finally, we study single-photon dynamics in a heterojunction of a long TB and short SSH waveguide connected to a 2LE at the SSH end. We show the propagation of a photon from the excited emitter to the TB waveguide only when the SSH waveguide is in the topological phase. Thus, the heterojunction acts as a quantum switch or conditional propagation channel. | 翻訳日:2023-04-27 15:30:52 公開日:2023-04-26 |
# HiQ -- 宣言的で非侵襲的で動的で透明な可観測性と最適化システム HiQ -- A Declarative, Non-intrusive, Dynamic and Transparent Observability and Optimization System ( http://arxiv.org/abs/2304.13302v1 ) ライセンス: Link先を確認 | Fuheng Wu, Ivan Davchev, Jun Qian | (参考訳) 本稿では,Pythonプログラムのランタイム情報を追跡するために,非侵襲的で宣言的で動的で透過的なシステムであるHiQを提案する。
HiQはモノリシックおよび分散システム、オフラインおよびオンラインアプリケーションに使用できる。
HiQはPythonで記述された大規模なディープニューラルネットワーク(DNN)モデルを最適化するときに開発されますが、Pythonプログラムや分散システム、さらにはJavaのような他の言語にも一般化できます。
我々は,本システムを実装し,ディープラーニングモデルライフサイクル管理システムに導入し,本番コードをクリーンかつ高性能に保ちながらボトルネックを把握した。
実装は、[https://github.com/oracle/hiq](https://github.com/oracle/hiq])でオープンソース化されている。 This paper proposes a non-intrusive, declarative, dynamic and transparent system called `HiQ` to track Python program runtime information without compromising on the run-time system performance and losing insight. HiQ can be used for monolithic and distributed systems, offline and online applications. HiQ is developed when we optimize our large deep neural network (DNN) models which are written in Python, but it can be generalized to any Python program or distributed system, or even other languages like Java. We have implemented the system and adopted it in our deep learning model life cycle management system to catch the bottleneck while keeping our production code clean and highly performant. The implementation is open-sourced at: [https://github.com/oracle/hiq](https://github.com/oracle/hiq). | 翻訳日:2023-04-27 15:30:31 公開日:2023-04-26 |
# クロスドメインテキストからsqlへの適応的プロンプトのためのケースベース推論フレームワーク A Case-Based Reasoning Framework for Adaptive Prompting in Cross-Domain Text-to-SQL ( http://arxiv.org/abs/2304.13301v1 ) ライセンス: Link先を確認 | Chunxi Guo, Zhiliang Tian, Jintao Tang, Pancheng Wang, Zhihua Wen, Kang Yang and Ting Wang | (参考訳) Codex、ChatGPT、GPT-4といった大規模言語モデル(LLM)の最近の進歩は、テキストからSQLタスクを含むAIコミュニティに大きな影響を与えている。
LLMに関するいくつかの評価と分析は、SQLクエリを生成する可能性を示しているが、設計の不十分なプロンプト(例えば、単純な構成やランダムサンプリング)がLLMのパフォーマンスを制限し、不要または無関係な出力を引き起こす可能性があることを指摘している。
このような問題に対処するために,ケースベース推論(CBR)とGPT-3.5を組み合わせたCBR-ApSQLを提案する。
提案手法は,(1)入力質問を非意味化することで,質問意図に応じて事例を適応的に検索し,(2)プロンプトのインフォメーション性を保証する適応的フォールバック機構と,事例とプロンプトの関係性を含むgpt-3.5の入力を柔軟に調整するための適応的プロンプトを設計する。
de-semanticization フェーズでは,poincar\'e detector(双曲空間における暗黙的意味論をマイニングする),textalign(明示的マッチングを発見),posector(一部スピーチ検出器)と組み合わせ,意味領域妥当性評価器(sdre)を設計した。
SDREは意味的かつ構文的に、新しいケースのためのコンテキスト内例アノテーションを生成する。
3つのクロスドメインデータセットにおいて、このフレームワークは、実行精度が3.7\%、2.5\%、8.2\%のstate-of-the-art(sota)モデルを上回る。 Recent advancements in Large Language Models (LLMs), such as Codex, ChatGPT and GPT-4 have significantly impacted the AI community, including Text-to-SQL tasks. Some evaluations and analyses on LLMs show their potential to generate SQL queries but they point out poorly designed prompts (e.g. simplistic construction or random sampling) limit LLMs' performance and may cause unnecessary or irrelevant outputs. To address these issues, we propose CBR-ApSQL, a Case-Based Reasoning (CBR)-based framework combined with GPT-3.5 for precise control over case-relevant and case-irrelevant knowledge in Text-to-SQL tasks. We design adaptive prompts for flexibly adjusting inputs for GPT-3.5, which involves (1) adaptively retrieving cases according to the question intention by de-semantizing the input question, and (2) an adaptive fallback mechanism to ensure the informativeness of the prompt, as well as the relevance between cases and the prompt. In the de-semanticization phase, we designed Semantic Domain Relevance Evaluator(SDRE), combined with Poincar\'e detector(mining implicit semantics in hyperbolic space), TextAlign(discovering explicit matches), and Positector (part-of-speech detector). SDRE semantically and syntactically generates in-context exemplar annotations for the new case. On the three cross-domain datasets, our framework outperforms the state-of-the-art(SOTA) model in execution accuracy by 3.7\%, 2.5\%, and 8.2\%, respectively. | 翻訳日:2023-04-27 15:30:18 公開日:2023-04-26 |
# HOM干渉型量子センサを用いた静的変位と振動のリアルタイムセンシング Real-time sensing of static displacement and vibrations using HOM interference based quantum sensor ( http://arxiv.org/abs/2304.13300v1 ) ライセンス: Link先を確認 | Sandeep Singh, Vimlesh Kumar, Varun Sharma, Daniele Faccio, G. K. Samanta | (参考訳) バランスのとれたビームスプリッターに2つの区別不能な光子を束ねるhom干渉は、量子センシングの有望なツールとして登場した。
干渉ディップ幅、すなわち干渉対光子のスペクトル帯域幅は、homベースのセンサの分解能に大きく影響する。
通常、パラメトリックダウンコンバージョンによって生成される対光子帯域幅は、バルクで高価な超高速レーザーを使用して増加し、研究室外での使用を制限する。
ここでは、高精度リアルタイムセンシングが可能な単一周波数連続波ダイオードレーザーを用いて、フレキシブルスペクトル帯域を持つ対光子の生成を示す。
1mmの周期的にポーリングされたktp結晶を用いて、退化、高輝度、スペクトル帯域幅163.42$\pm$1.68 nmの光子を合成し、ホムディップ幅4.01$\pm$0.04$\mu$mで変位60nm、振動振幅205\pm0.75$ nm、増分(解像度)1sim$80nm、周波数8hzとした。
フィッシャー情報と最大極大推定器の展開により、光学遅延測定は4.97nm、精度は0.89nm、精度は0.54nmとなる。
30mm以上の1mm結晶を使用するための17$\times$ Fisher-informationの強化により、HOMベースのセンサーは、任意の精度(例えば、$\sim$5 nm)を少数のイテレーション($\sim$3300)と時間(19分)で達成し、リアルタイム、精度向上されたフィールド量子センシングアプリケーションを可能にする。 Hong-Ou-Mandel (HOM) interference, bunching of two indistinguishable photons on a balanced beam-splitter, has emerged as a promising tool for quantum sensing. The interference dip-width, thus the spectral-bandwidth of interfering pair-photons, highly influences the resolution of HOM-based sensors. Typically, the pair-photons bandwidth, generated through parametric down-conversion, is increased using bulky and expensive ultrafast lasers, limiting their use outside the lab. Here we show the generation of pair-photons with flexible spectral-bandwidth even using single-frequency, continuous-wave diode laser enabling high-precision, real-time sensing. Using 1-mm-long periodically-poled KTP crystal, we produced degenerate, high-brightness, paired-photons with spectral-bandwidth of 163.42$\pm$1.68 nm resulting in a HOM-dip width of 4.01$\pm$0.04 $\mu$m to measure a displacement of 60 nm, and vibration amplitude of $205\pm0.75$ nm with increment (resolution) of $\sim$80 nm, and frequency of 8 Hz. Deployment of Fisher-information and maximum likelihood estimator enables optical delay measurement as small as 4.97 nm with precision (Cram\'er-Rao bound) and accuracy of 0.89 and 0.54 nm, respectively. The 17$\times$ enhancement of Fisher-information for the use of 1 mm crystal over 30 mm empowers the HOM-based sensor achieving any arbitrary precision (say $\sim$5 nm) in small number of iterations ($\sim$3300) and time (19 minutes); establishing it's capability for real-time, precision-augmented, in-field quantum sensing applications. | 翻訳日:2023-04-27 15:29:44 公開日:2023-04-26 |
# 低リソース言語におけるゼロショットスロットとインテント検出 Zero-Shot Slot and Intent Detection in Low-Resource Languages ( http://arxiv.org/abs/2304.13292v1 ) ライセンス: Link先を確認 | Sang Yun Kwon, Gagan Bhatia, El Moatez Billah Nagoudi, Alcides Alcoba Inciarte, Muhammad Abdul-Mageed | (参考訳) タスク指向対話システムにおける音声および自然言語理解において,インテント検出とスロット充填は重要なタスクである。
本稿では,低リソース言語品種(SID4LR, Aepli et al. (2023))のスロットとインテント検出への参加について述べる。
幅広いモデルと設定を用いてスロット・アンド・インテント検出(SID)タスクについて検討する。
大規模言語モデルのマルチタスクプロンプトファインタニングの成功を踏まえ、意図しない言語における新しいタスク(SID)に関する最近のエンコーダデコーダモデル mT0 (Muennighoff et al., 2022) の一般化能力についても検証する。
両SIDタスクにおいて,最良モデルが大差(+30F1ポイント)でベースラインを上回っていることを示す。 Intent detection and slot filling are critical tasks in spoken and natural language understanding for task-oriented dialog systems. In this work we describe our participation in the slot and intent detection for low-resource language varieties (SID4LR; Aepli et al. (2023)). We investigate the slot and intent detection (SID) tasks using a wide range of models and settings. Given the recent success of multitask-prompted finetuning of large language models, we also test the generalization capability of the recent encoder-decoder model mT0 (Muennighoff et al., 2022) on new tasks (i.e., SID) in languages they have never intentionally seen. We show that our best model outperforms the baseline by a large margin (up to +30 F1 points) in both SID tasks | 翻訳日:2023-04-27 15:28:58 公開日:2023-04-26 |
# スパイキングニューラルネットワークにおける膜電位分布調整とパラメトリックサーロゲート勾配 Membrane Potential Distribution Adjustment and Parametric Surrogate Gradient in Spiking Neural Networks ( http://arxiv.org/abs/2304.13289v1 ) ライセンス: Link先を確認 | Siqi Wang, Tee Hiang Cheng, Meng-Hiot Lim | (参考訳) 新たなネットワークモデルとして、スパイクニューラルネットワーク(SNN)が近年大きな研究注目を集めている。
しかし、エネルギー効率の良い二元スパイクは勾配勾配に基づくトレーニングアプローチではうまく機能しない。
surrogate gradient (sg) 戦略について検討し,この問題を回避し,snsをスクラッチから切り離すために適用した。
認識されたSG選択規則がないため、ほとんどのSGは直感的に選択される。
パラメトリックサロゲート勾配(PSG)法を用いてSGを反復的に更新し,最終的には候補SGの形状を校正する最適なサロゲート勾配パラメータを決定する。
SNNでは、量子化誤差により神経電位分布が予測不能にずれる傾向がある。
このようなポテンシャルシフトを評価し、望ましくない事前活性化の損失を最小限に抑えるために、潜在的分布調整(PDA)手法を提案する。
実験結果から,提案手法は時間によるバックプロパゲーション(BPTT)アルゴリズムと容易に統合でき,SNNを変調することで,より少ない時間ステップで静的および動的データセット上での最先端性能を実現することができることがわかった。 As an emerging network model, spiking neural networks (SNNs) have aroused significant research attentions in recent years. However, the energy-efficient binary spikes do not augur well with gradient descent-based training approaches. Surrogate gradient (SG) strategy is investigated and applied to circumvent this issue and train SNNs from scratch. Due to the lack of well-recognized SG selection rule, most SGs are chosen intuitively. We propose the parametric surrogate gradient (PSG) method to iteratively update SG and eventually determine an optimal surrogate gradient parameter, which calibrates the shape of candidate SGs. In SNNs, neural potential distribution tends to deviate unpredictably due to quantization error. We evaluate such potential shift and propose methodology for potential distribution adjustment (PDA) to minimize the loss of undesired pre-activations. Experimental results demonstrate that the proposed methods can be readily integrated with backpropagation through time (BPTT) algorithm and help modulated SNNs to achieve state-of-the-art performance on both static and dynamic dataset with fewer timesteps. | 翻訳日:2023-04-27 15:28:32 公開日:2023-04-26 |
# ESPT:Few-Shot学習改善のための自己監督型空間テキストタスク ESPT: A Self-Supervised Episodic Spatial Pretext Task for Improving Few-Shot Learning ( http://arxiv.org/abs/2304.13287v1 ) ライセンス: Link先を確認 | Yi Rong, Xiongbo Lu, Zhaoyang Sun, Yaxiong Chen, Shengwu Xiong | (参考訳) 自己教師あり学習(SSL)技術は、最近、数ショット学習(FSL)フレームワークに統合され、数ショット画像分類性能を改善するための有望な結果を示している。
しかし、FSLで使われている既存のSSLアプローチは、通常、すべてのイメージのグローバルな埋め込みから監視信号を求める。
したがって、FSLのエピソードトレーニングにおいて、これらの手法は、画像サンプルの局所的な視覚情報と、FSLにとって有益であるエピソード全体のデータ構造情報をキャプチャし、完全に活用することはできない。
そこで本稿では,新たな自己教師型空間規範タスク (ESPT) による数発学習目標の強化を提案する。
具体的には,各映像にランダムな幾何学的変換を施すことにより,各映像毎に対応する変換エピソードを生成する。
これらのことから, ESPTの目的は, 元のエピソードと変換されたエピソードとの局所的空間的関係の整合性を最大化するものとして定義される。
この定義により、ESPT拡張されたFSLは、異なる画像の局所的な空間的特徴と、各入力エピソードにおけるそれらの相互関係構造情報をキャプチャする、より伝達可能な特徴表現の学習を促進する。
広範な実験により,本手法は3つのメインスタイベンチマークデータセットにおいて,新たな最先端性能を実現することを示唆する。
ソースコードは、https://github.com/Whut-YiRong/ESPT.comで入手できる。 Self-supervised learning (SSL) techniques have recently been integrated into the few-shot learning (FSL) framework and have shown promising results in improving the few-shot image classification performance. However, existing SSL approaches used in FSL typically seek the supervision signals from the global embedding of every single image. Therefore, during the episodic training of FSL, these methods cannot capture and fully utilize the local visual information in image samples and the data structure information of the whole episode, which are beneficial to FSL. To this end, we propose to augment the few-shot learning objective with a novel self-supervised Episodic Spatial Pretext Task (ESPT). Specifically, for each few-shot episode, we generate its corresponding transformed episode by applying a random geometric transformation to all the images in it. Based on these, our ESPT objective is defined as maximizing the local spatial relationship consistency between the original episode and the transformed one. With this definition, the ESPT-augmented FSL objective promotes learning more transferable feature representations that capture the local spatial features of different images and their inter-relational structural information in each input episode, thus enabling the model to generalize better to new categories with only a few samples. Extensive experiments indicate that our ESPT method achieves new state-of-the-art performance for few-shot image classification on three mainstay benchmark datasets. The source code will be available at: https://github.com/Whut-YiRong/ESPT. | 翻訳日:2023-04-27 15:28:04 公開日:2023-04-26 |
# 病院のWebプレゼンスにおけるセキュリティとパフォーマンスの理解 : 測定研究 Understanding the Security and Performance of the Web Presence of Hospitals: A Measurement Study ( http://arxiv.org/abs/2304.13278v1 ) ライセンス: Link先を確認 | Mohammed Alkinoon and Abdulrahman Alabduljabbar and Hattan Althebeiti and Rhongho Jang and DaeHun Nyang and David Mohaisen | (参考訳) 本研究は, 政府, 非営利団体, プロプライエタリ病院の計4,774病院を用いて, 病院のWebサイトを計測ベースで初めて分析し, 相関分析によりデータ漏洩と結びつけた。
我々は、ドメイン名、コンテンツ、SSL証明書レベルの機能に対して、集合的および対照的に3つのカテゴリのセキュリティ特性について検討する。
その結果,各病院は,ドメイン名登録官,トップレベルドメイン配布,ドメイン作成分布,コンテンツタイプやhttpリクエスト機能など,それぞれに特有な特徴を有することがわかった。
セキュリティ面では、ウェブサイトの一般人口と一致しており、プロプライエタリな病院の6対%とは対照的に、政府病院の1対%のみがdnssecを利用している。
また,一般のWeb人口の20.5%とは対照的に,病院の25.5%が普通のHTTPを使っていることがわかった。
同様に、病院の8\%-84\%は、そのタイプによっては、いくつかの悪意のある内容を有しており、これは主にメンテナンスの欠如によるものである。
本研究は, 病院データ漏洩の確認および手動検査による414件の相関分析を行った。
その他の興味深い発見の中で、病院のウェブサイトの分析で強調されたセキュリティ特性が、侵害される可能性の非常に強い指標となっていることを強調した。
我々の分析は、患者のオンラインプライバシを理解するための第一歩であり、多くの病院のウェブサイトにおける基本的なセキュリティの欠如を強調し、様々な研究の方向性を開く。 Using a total of 4,774 hospitals categorized as government, non-profit, and proprietary hospitals, this study provides the first measurement-based analysis of hospitals' websites and connects the findings with data breaches through a correlation analysis. We study the security attributes of three categories, collectively and in contrast, against domain name, content, and SSL certificate-level features. We find that each type of hospital has a distinctive characteristic of its utilization of domain name registrars, top-level domain distribution, and domain creation distribution, as well as content type and HTTP request features. Security-wise, and consistent with the general population of websites, only 1\% of government hospitals utilized DNSSEC, in contrast to 6\% of the proprietary hospitals. Alarmingly, we found that 25\% of the hospitals used plain HTTP, in contrast to 20\% in the general web population. Alarmingly too, we found that 8\%-84\% of the hospitals, depending on their type, had some malicious contents, which are mostly attributed to the lack of maintenance. We conclude with a correlation analysis against 414 confirmed and manually vetted hospitals' data breaches. Among other interesting findings, our study highlights that the security attributes highlighted in our analysis of hospital websites are forming a very strong indicator of their likelihood of being breached. Our analyses are the first step towards understanding patient online privacy, highlighting the lack of basic security in many hospitals' websites and opening various potential research directions. | 翻訳日:2023-04-27 15:27:30 公開日:2023-04-26 |
# ソフトマックス回帰における文脈学習とウェイトシフトの近さ The Closeness of In-Context Learning and Weight Shifting for Softmax Regression ( http://arxiv.org/abs/2304.13276v1 ) ライセンス: Link先を確認 | Shuai Li, Zhao Song, Yu Xia, Tong Yu, Tianyi Zhou | (参考訳) 大規模言語モデル(LLM)は、自然言語処理における例外的な性能で知られており、多くの人間の生活や仕事に関わるタスクにおいて非常に効果的である。
Transformer アーキテクチャのアテンションメカニズムは LLM の重要なコンポーネントであり、モデルが特定の入力部分に選択的にフォーカスできるようにする。
注意機構の重要な部分であるソフトマックスユニットは、注意スコアを正規化する。
したがって、様々なNLPタスクにおけるLLMの性能は、ソフトマックスユニットによる注意機構が果たす重要な役割に大きく依存する。
近年のLLMの卓越した能力の1つであるインコンテキスト学習は、ChatGPTのようなLLMをクエリする上で重要な概念である。
パラメータの更新がなければ、Transformerはコンテキスト内サンプルのほとんどに基づいて予測を学ぶことができる。
しかし,トランスフォーマーがコンテキスト内学習者になる理由はよく理解されていない。
最近のいくつかの研究 [asa+22,gtlv22,onr+22] は、線形回帰定式化 $\min_x\| ax - b \|_2$ に基づいて数学的観点から文脈内学習を研究した。
本研究では,変換器の注意機構のソフトマックス回帰式である $\min_{x} \| \langle \exp(Ax), {\bf 1}_n \rangle^{-1} \exp(Ax) - b \|_2$ に基づく文脈内学習について検討する。
ソフトマックス予測関数に対する$\ell_2$レグレッション損失は, 基本回帰タスクに対して自己アテンションのみのトランスフォーマーを訓練する場合, グラデーション・ディフレッションとトランスフォーマーが学習したモデルに非常によく似ていることを示唆する。 Large language models (LLMs) are known for their exceptional performance in natural language processing, making them highly effective in many human life-related or even job-related tasks. The attention mechanism in the Transformer architecture is a critical component of LLMs, as it allows the model to selectively focus on specific input parts. The softmax unit, which is a key part of the attention mechanism, normalizes the attention scores. Hence, the performance of LLMs in various NLP tasks depends significantly on the crucial role played by the attention mechanism with the softmax unit. In-context learning, as one of the celebrated abilities of recent LLMs, is an important concept in querying LLMs such as ChatGPT. Without further parameter updates, Transformers can learn to predict based on few in-context examples. However, the reason why Transformers becomes in-context learners is not well understood. Recently, several works [ASA+22,GTLV22,ONR+22] have studied the in-context learning from a mathematical perspective based on a linear regression formulation $\min_x\| Ax - b \|_2$, which show Transformers' capability of learning linear functions in context. In this work, we study the in-context learning based on a softmax regression formulation $\min_{x} \| \langle \exp(Ax), {\bf 1}_n \rangle^{-1} \exp(Ax) - b \|_2$ of Transformer's attention mechanism. We show the upper bounds of the data transformations induced by a single self-attention layer and by gradient-descent on a $\ell_2$ regression loss for softmax prediction function, which imply that when training self-attention-only Transformers for fundamental regression tasks, the models learned by gradient-descent and Transformers show great similarity. | 翻訳日:2023-04-27 15:27:04 公開日:2023-04-26 |
# 不確実性に基づくクライアントクラスタリングを用いたフェデレーション学習によるフリートワイド障害診断 Federated Learning with Uncertainty-Based Client Clustering for Fleet-Wide Fault Diagnosis ( http://arxiv.org/abs/2304.13275v1 ) ライセンス: Link先を確認 | Hao Lu, Adam Thelen, Olga Fink, Chao Hu, Simon Laflamme | (参考訳) 各種産業のオペレーターは、産業監視のためのワイヤレスセンシングノードの採用を推し進めており、このような取り組みは、メンテナンスエンジニアに差し迫った障害の警告や現在のシステム状態の特定を可能にする診断アルゴリズムを構築するのに使用できる、相当な条件監視データセットを作成している。
しかし、シングルオペレーターは、データ駆動アルゴリズムを開発するのに十分なデータを集めるのに十分なシステムやコンポーネントユニットを持っていないかもしれない。
安全クリティカルシステムに対する十分な量の障害パターンを収集することは、特に断層の希少性のため困難である。
フェデレーション学習(federated learning, fl)は、複数のオペレータのデータセットを活用して、データの機密性を維持しながら分散資産障害診断モデルをトレーニングする、有望なソリューションとして登場した。
しかし、機密データを漏らさずにフェデレーション戦略を最適化し、クライアントデータセットの不均一性の問題に対処することに関して、克服すべき大きな障害がある。
これは特に、動作条件やシステム構成の多様性が高いため、故障診断の応用に広く用いられている。
これら2つの課題に対処するために,データセットの類似性に基づいて,クライアントをクラスタ化してフェデレーションを行う,新しいクラスタリングベースのFLアルゴリズムを提案する。
データを明示的に共有することなく、クライアント間のデータセットの類似性を定量化するため、各クライアントはローカルテストデータセットを別に設定し、このテストデータセット上で他のクライアントのモデル予測精度と不確実性を評価する。
クライアントは、相対的な予測精度と不確実性に基づいて、fl用にクラスタ化される。 Operators from various industries have been pushing the adoption of wireless sensing nodes for industrial monitoring, and such efforts have produced sizeable condition monitoring datasets that can be used to build diagnosis algorithms capable of warning maintenance engineers of impending failure or identifying current system health conditions. However, single operators may not have sufficiently large fleets of systems or component units to collect sufficient data to develop data-driven algorithms. Collecting a satisfactory quantity of fault patterns for safety-critical systems is particularly difficult due to the rarity of faults. Federated learning (FL) has emerged as a promising solution to leverage datasets from multiple operators to train a decentralized asset fault diagnosis model while maintaining data confidentiality. However, there are still considerable obstacles to overcome when it comes to optimizing the federation strategy without leaking sensitive data and addressing the issue of client dataset heterogeneity. This is particularly prevalent in fault diagnosis applications due to the high diversity of operating conditions and system configurations. To address these two challenges, we propose a novel clustering-based FL algorithm where clients are clustered for federating based on dataset similarity. To quantify dataset similarity between clients without explicitly sharing data, each client sets aside a local test dataset and evaluates the other clients' model prediction accuracy and uncertainty on this test dataset. Clients are then clustered for FL based on relative prediction accuracy and uncertainty. | 翻訳日:2023-04-27 15:26:27 公開日:2023-04-26 |
# 概念監視:個々のニューロンによるDNNトレーニングを理解する Concept-Monitor: Understanding DNN training through individual neurons ( http://arxiv.org/abs/2304.13346v1 ) ライセンス: Link先を確認 | Mohammad Ali Khan, Tuomas Oikarinen, Tsui-Wei Weng | (参考訳) 本研究では,新しい統合埋め込み空間と概念多様性メトリクスを用いて,ブラックボックスDNNトレーニングプロセスのデマイズを支援するConcept-Monitorという一般的なフレームワークを提案する。
Concept-Monitorは、DNNトレーニングプロセスの人間解釈可能な可視化とインジケータを可能にし、透明性を促進し、トレーニング中にDNNがどのように発達するかをより深く理解する。
これらの知見に触発されて,隠れたニューロンに刺激を与え,多様な概念を学習し,トレーニング性能を向上させるための新たなトレーニング正則化器も提案する。
最後に,宝くじ仮説による敵意訓練,微調整,ネットワークプルーニングを含む異なる学習パラダイムに関するいくつかのケーススタディを行うために,概念監視を適用する。 In this work, we propose a general framework called Concept-Monitor to help demystify the black-box DNN training processes automatically using a novel unified embedding space and concept diversity metric. Concept-Monitor enables human-interpretable visualization and indicators of the DNN training processes and facilitates transparency as well as deeper understanding on how DNNs develop along the during training. Inspired by these findings, we also propose a new training regularizer that incentivizes hidden neurons to learn diverse concepts, which we show to improve training performance. Finally, we apply Concept-Monitor to conduct several case studies on different training paradigms including adversarial training, fine-tuning and network pruning via the Lottery Ticket Hypothesis | 翻訳日:2023-04-27 15:19:48 公開日:2023-04-26 |
# 自己制御型メモリシステムを用いた大規模言語モデルにおける無限長入力容量の解法 Unleashing Infinite-Length Input Capacity for Large-scale Language Models with Self-Controlled Memory System ( http://arxiv.org/abs/2304.13343v1 ) ライセンス: Link先を確認 | Xinnian Liang and Bing Wang and Hui Huang and Shuangzhi Wu and Peihao Wu and Lu Lu and Zejun Ma and Zhoujun Li | (参考訳) 大規模言語モデル(LLM)は、長い入力を処理できないことによる制約がある。
この制限に対処するため,大規模言語モデルの無限長入力容量を解放する自己制御メモリ(SCM)システムを提案する。
我々のSCMシステムは,言語モデルエージェント,メモリストリーム,メモリコントローラの3つの重要なモジュールで構成されている。
言語モデルエージェントは、超長い入力を反復的に処理し、すべての履歴情報をメモリストリームに格納する。
メモリコントローラは、エージェントに長期記憶(アーキブドメモリ)と短期記憶(フラッシュメモリ)の両方を提供し、正確かつコヒーレントな応答を生成する。
コントローラは、アーカイブされたメモリからのメモリをアクティベートし、モデル入力にそれを組み込む方法を決定する。
scmシステムは任意のllmと統合でき、修正や微調整なしに超長のテキストを処理できます。
実験の結果,マルチターン対話に最適化されていないllmでは,チャットgptに匹敵するマルチターン対話機能を実現でき,超長期文書要約や長期会話のシナリオではチャットgptよりも優れていた。
さらに、長い文書処理におけるLLMの能力を評価するために、一般的な長文入力シナリオをカバーするテストセットを提供する。
〜\footnote{Working in progress.
https://github.com/wbbeyourself/SCM4LLMs}} Large-scale Language Models (LLMs) are constrained by their inability to process lengthy inputs. To address this limitation, we propose the Self-Controlled Memory (SCM) system to unleash infinite-length input capacity for large-scale language models. Our SCM system is composed of three key modules: the language model agent, the memory stream, and the memory controller. The language model agent iteratively processes ultra-long inputs and stores all historical information in the memory stream. The memory controller provides the agent with both long-term memory (archived memory) and short-term memory (flash memory) to generate precise and coherent responses. The controller determines which memories from archived memory should be activated and how to incorporate them into the model input. Our SCM system can be integrated with any LLMs to enable them to process ultra-long texts without any modification or fine-tuning. Experimental results show that our SCM system enables LLMs, which are not optimized for multi-turn dialogue, to achieve multi-turn dialogue capabilities that are comparable to ChatGPT, and to outperform ChatGPT in scenarios involving ultra-long document summarization or long-term conversations. Additionally, we will supply a test set, which covers common long-text input scenarios, for evaluating the abilities of LLMs in processing long documents.~\footnote{Working in progress.}\footnote{\url{https://github.com/wbbeyourself/SCM4LLMs}} | 翻訳日:2023-04-27 15:19:33 公開日:2023-04-26 |
# 凸クラスタリングによるマルチタスク学習回帰 Multi-Task Learning Regression via Convex Clustering ( http://arxiv.org/abs/2304.13342v1 ) ライセンス: Link先を確認 | Akira Okazaki, Shuichi Kawano | (参考訳) マルチタスク学習(MTL)は,タスク間の共通情報を共有することにより,予測と予測の一般的な性能を向上させる手法である。
MTLでは、それらを組み込む関係や方法にはいくつかの仮定がある。
現実的状況における自然な仮定の1つは、タスクがその特性を持ついくつかのクラスタに分類されるということである。
この仮定のために、群融合正規化手法はタスク間の差を小さくすることでタスクのクラスタリングを行う。
これにより、同じクラスタ内で共通の情報を転送することができます。
しかし、このアプローチは異なるクラスタ間で情報を転送するので、推定と予測が悪化する。
この問題を解決するために,タスクのクラスタ中心を表すセントロイドパラメータを用いたMTL手法を提案する。
このモデルではパラメータを回帰パラメータとクラスタリングパラメータに分離するため,回帰係数ベクトルの推定と予測精度を向上させることができる。
モンテカルロシミュレーションによる提案手法の有効性と実データへの適用について述べる。 Multi-task learning (MTL) is a methodology that aims to improve the general performance of estimation and prediction by sharing common information among related tasks. In the MTL, there are several assumptions for the relationships and methods to incorporate them. One of the natural assumptions in the practical situation is that tasks are classified into some clusters with their characteristics. For this assumption, the group fused regularization approach performs clustering of the tasks by shrinking the difference among tasks. This enables us to transfer common information within the same cluster. However, this approach also transfers the information between different clusters, which worsens the estimation and prediction. To overcome this problem, we propose an MTL method with a centroid parameter representing a cluster center of the task. Because this model separates parameters into the parameters for regression and the parameters for clustering, we can improve estimation and prediction accuracy for regression coefficient vectors. We show the effectiveness of the proposed method through Monte Carlo simulations and applications to real data. | 翻訳日:2023-04-27 15:19:08 公開日:2023-04-26 |
# OpenBox: 汎用ブラックボックス最適化のためのPythonツールキット OpenBox: A Python Toolkit for Generalized Black-box Optimization ( http://arxiv.org/abs/2304.13339v1 ) ライセンス: Link先を確認 | Huaijun Jiang, Yu Shen, Yang Li, Wentao Zhang, Ce Zhang and Bin Cui | (参考訳) black-box optimization(bbo)は、自動機械学習、実験設計、データベースノブチューニングなど、幅広いアプリケーションを備えている。
しかしながら、既存のソフトウェアパッケージと互換性のある問題にBBOメソッドを適用する場合、適用性、性能、効率の面で課題に直面している。
本稿では,ユーザビリティを向上したオープンソースのBBOツールキットOpenBoxを提案する。
ユーザがタスクを定義し管理するためのユーザフレンドリーなインターフェースと視覚化を実装している。
OpenBoxを支えるモジュール設計は、既存のシステムに柔軟なデプロイを容易にする。
実験結果は既存のシステムに対するopenboxの有効性と効率を示す。
OpenBoxのソースコードはhttps://github.com/PKU-DAIR/open-boxで入手できる。 Black-box optimization (BBO) has a broad range of applications, including automatic machine learning, experimental design, and database knob tuning. However, users still face challenges when applying BBO methods to their problems at hand with existing software packages in terms of applicability, performance, and efficiency. This paper presents OpenBox, an open-source BBO toolkit with improved usability. It implements user-friendly inferfaces and visualization for users to define and manage their tasks. The modular design behind OpenBox facilitates its flexible deployment in existing systems. Experimental results demonstrate the effectiveness and efficiency of OpenBox over existing systems. The source code of OpenBox is available at https://github.com/PKU-DAIR/open-box. | 翻訳日:2023-04-27 15:18:54 公開日:2023-04-26 |
# データ言語のための名目トポロジー Nominal Topology for Data Languages ( http://arxiv.org/abs/2304.13337v1 ) ライセンス: Link先を確認 | Henning Urbat, Stefan Milius and Fabian Birkmann | (参考訳) 軌道有限の名目モノイドによって認識されるデータ言語に関する新しい位相的視点を提案する。
この目的のために、軌道-有限公称位相空間を導入する。
グローバルな有界なサポートサイズを仮定すると、それらは名目ストーン空間と一致し、名目ブール代数の部分圏と双対同値であることが示される。
認識可能なデータ言語は、軌道寄りの単語の位相的に閉ざされた集合として特徴づけられる。
さらに、Reitermanの擬変量定理の命名的なバージョンを確立することで、軌道上有限方程式の表現力を探る。 We propose a novel topological perspective on data languages recognizable by orbit-finite nominal monoids. For this purpose, we introduce pro-orbit-finite nominal topological spaces. Assuming globally bounded support sizes, they coincide with nominal Stone spaces and are shown to be dually equivalent to a subcategory of nominal boolean algebras. Recognizable data languages are characterized as topologically clopen sets of pro-orbit-finite words. In addition, we explore the expressive power of pro-orbit-finite equations by establishing a nominal version of Reiterman's pseudovariety theorem. | 翻訳日:2023-04-27 15:18:46 公開日:2023-04-26 |
# 再帰的量子固有値/特異値変換:ニュートン反復による行列符号関数の解析的構成 Recursive Quantum Eigenvalue/Singular-Value Transformation: Analytic Construction of Matrix Sign Function by Newton Iteration ( http://arxiv.org/abs/2304.13330v1 ) ライセンス: Link先を確認 | Kaoru Mizuta and Keisuke Fujii | (参考訳) 量子固有値変換(QET)とその一般化である量子特異値変換(QSVT)は、ハミルトニアンシミュレーションのような多くの重要な量子アルゴリズムをカバーする、幅広い行列関数を量子状態に適用できる汎用的な量子アルゴリズムである。
しかし、これらの手法で望ましい行列関数を実現するパラメータ集合を見つけることは、大規模量子システムでは困難である。
低次QETまたはQSVTでブロックエンコーディングを再帰的に整理することで複雑な行列関数を実行できる再帰的QETまたはQSVT(r-QETまたはr-QSVT)を提案する。
再帰的関係の単純さのため、パラメータを正確に決定するいくつかのパラメータのみで動作するが、反復は複雑な行列関数となる。
特に,ニュートン反復の帰納的関係を利用して,例えば固有状態フィルタリングに適用可能な行列符号関数を扱いやすい方法で構築する。
行列符号関数のQETを任意に小さな誤差$\varepsilon$で実行するのには、わずか8ドル異なる値からなる解析的観測パラメータセットが十分であることを示す。
本プロトコルは,数値不安定性のない有用な行列関数に対して,QETやQSVTを構築するための代替プロトコルとして機能する。 Quantum eigenvalue transformation (QET) and its generalization, quantum singular value transformation (QSVT), are versatile quantum algorithms that allow us to apply broad matrix functions to quantum states, which cover many of significant quantum algorithms such as Hamiltonian simulation. However, finding a parameter set which realizes preferable matrix functions in these techniques is difficult for large-scale quantum systems: there is no analytical result other than trivial cases as far as we know and we often suffer also from numerical instability. We propose recursive QET or QSVT (r-QET or r-QSVT), in which we can execute complicated matrix functions by recursively organizing block-encoding by low-degree QET or QSVT. Owing to the simplicity of recursive relations, it works only with a few parameters with exactly determining the parameters, while its iteration results in complicated matrix functions. In particular, by exploiting the recursive relation of Newton iteration, we construct the matrix sign function, which can be applied for eigenstate filtering for example, in a tractable way. We show that an analytically-obtained parameter set composed of only $8$ different values is sufficient for executing QET of the matrix sign function with an arbitrarily small error $\varepsilon$. Our protocol will serve as an alternative protocol for constructing QET or QSVT for some useful matrix functions without numerical instability. | 翻訳日:2023-04-27 15:18:37 公開日:2023-04-26 |
# 正規化に基づく連続学習手法の評価:HARへの応用 Evaluation of Regularization-based Continual Learning Approaches: Application to HAR ( http://arxiv.org/abs/2304.13327v1 ) ライセンス: Link先を確認 | Bonpagna Kann (UGA, M-PSI), Sandra Castellanos-Paez (UGA, M-PSI), Philippe Lalanda (UGA, M-PSI) | (参考訳) 普及型コンピューティングは、健康と幸福の関連およびダイナミックな分野を含む、多くの重要な領域におけるサービスの提供を可能にする。
この領域では、近年HAR(Human Activity Recognition)が注目されている。
現在のソリューションは機械学習(ML)モデルに依存しており、印象的な結果が得られる。
しかし、完全な再訓練が行われない限り、これらのモデルの進化は難しいままである。
この問題を解決するために、継続的学習の概念は今日非常に有望であり、より具体的には正規化に基づく技術である。
これらのテクニックは、単純さと低コストで特に興味深い。
初期の研究は行われており、有望な結果を示している。
しかし、それらは非常に具体的で比較が難しいままである。
本稿では,HARドメインに適応した3つの正規化に基づく手法を総合的に比較し,その長所と短所を強調した。
UCI HARデータセットを用いて実験を行った結果,すべてのシナリオにおいて,どの手法も他の手法よりも優れていなかったことがわかった。 Pervasive computing allows the provision of services in many important areas, including the relevant and dynamic field of health and well-being. In this domain, Human Activity Recognition (HAR) has gained a lot of attention in recent years. Current solutions rely on Machine Learning (ML) models and achieve impressive results. However, the evolution of these models remains difficult, as long as a complete retraining is not performed. To overcome this problem, the concept of Continual Learning is very promising today and, more particularly, the techniques based on regularization. These techniques are particularly interesting for their simplicity and their low cost. Initial studies have been conducted and have shown promising outcomes. However, they remain very specific and difficult to compare. In this paper, we provide a comprehensive comparison of three regularization-based methods that we adapted to the HAR domain, highlighting their strengths and limitations. Our experiments were conducted on the UCI HAR dataset and the results showed that no single technique outperformed all others in all scenarios considered. | 翻訳日:2023-04-27 15:18:11 公開日:2023-04-26 |
# 感情のポートレート:AI生成アートによる自己表現の強化 A Portrait of Emotion: Empowering Self-Expression through AI-Generated Art ( http://arxiv.org/abs/2304.13324v1 ) ライセンス: Link先を確認 | Yoon Kyung Lee, Yong-Ha Park, Sowon Hahn | (参考訳) 本研究では,創造的表現を通じて著者の認知過程を反映する生成人工知能(AI)の可能性と限界について検討した。
その焦点は、人間の意図(アライメント)を理解し、創造性、美学、ノベルティ、娯楽、深さといった基準に基づいて視覚的に感情を表現するAI生成アートワークの能力である。
その結果,主イベントに対する著者の感情の記述に基づく画像の嗜好が示された。
また、特定の要素やステレオタイプを過剰に表現する画像がaiアライメントに悪影響を及ぼすことも分かりました。
我々の研究結果は、AIが創造性と感情の自己表現を促進することを示唆している。
生成AIを用いた我々の研究フレームワークは、関連する分野(例えば、メンタルヘルス教育、セラピー、カウンセリング)におけるAIベースの介入を設計するのに役立ちます。 We investigated the potential and limitations of generative artificial intelligence (AI) in reflecting the authors' cognitive processes through creative expression. The focus is on the AI-generated artwork's ability to understand human intent (alignment) and visually represent emotions based on criteria such as creativity, aesthetic, novelty, amusement, and depth. Results show a preference for images based on the descriptions of the authors' emotions over the main events. We also found that images that overrepresent specific elements or stereotypes negatively impact AI alignment. Our findings suggest that AI could facilitate creativity and the self-expression of emotions. Our research framework with generative AIs can help design AI-based interventions in related fields (e.g., mental health education, therapy, and counseling). | 翻訳日:2023-04-27 15:17:56 公開日:2023-04-26 |
# 慣性テンソルと機械学習を用いたMRIによるアルツハイマー病の検出 Detection of Alzheimer's Disease using MRI scans based on Inertia Tensor and Machine Learning ( http://arxiv.org/abs/2304.13314v1 ) ライセンス: Link先を確認 | Krishna Mahapatra and Selvakumar R | (参考訳) アルツハイマー病(英: Alzheimer's Disease)は、高齢者の神経疾患である。
アルツハイマーの早期かつ正確な検出は、患者とその家族に効果的な治療と支援を提供するために重要である。
本研究では,慣性テンソル解析と機械学習に基づいて,mriスキャン画像からアルツハイマー病の4つの病期を検出する新しい手法を提案する。
認知症分類の異なる分類のmriスキャン画像から、我々はまず非常に単純な2 x 2マトリクスを計算し、様々な物理的問題で主に使用される慣性テンソルのモーメントを形成する手法を用いた。
得られた慣性テンソルとその固有値の特性と、他の機械学習手法を用いて、異なるタイプの認知症を顕著に分類することができた。
このプロセスは、機械学習を使用してさまざまなタイプの画像を識別し、分類するための、新しいユニークなアプローチを提供する。
提案手法は,現在の手法よりも費用対効果が高いだけでなく,画像マトリックスの次元を小さくすることで,疾患に対する新たな物理的洞察を与える。
本研究は,アルツハイマー病の検出の進展と患者の予後改善に向けたアプローチの可能性を明らかにするものである。 Alzheimer's Disease is a devastating neurological disorder that is increasingly affecting the elderly population. Early and accurate detection of Alzheimer's is crucial for providing effective treatment and support for patients and their families. In this study, we present a novel approach for detecting four different stages of Alzheimer's disease from MRI scan images based on inertia tensor analysis and machine learning. From each available MRI scan image for different classes of Dementia, we first compute a very simple 2 x 2 matrix, using the techniques of forming a moment of inertia tensor, which is largely used in different physical problems. Using the properties of the obtained inertia tensor and their eigenvalues, along with some other machine learning techniques, we were able to significantly classify the different types of Dementia. This process provides a new and unique approach to identifying and classifying different types of images using machine learning, with a classification accuracy of (90%) achieved. Our proposed method not only has the potential to be more cost-effective than current methods but also provides a new physical insight into the disease by reducing the dimension of the image matrix. The results of our study highlight the potential of this approach for advancing the field of Alzheimer's disease detection and improving patient outcomes. | 翻訳日:2023-04-27 15:17:41 公開日:2023-04-26 |
# DNNの忠実かつ簡潔な説明のためのand-ORインタラクションの定義と定量化 Technical Note: Defining and Quantifying AND-OR Interactions for Faithful and Concise Explanation of DNNs ( http://arxiv.org/abs/2304.13312v1 ) ライセンス: Link先を確認 | Mingjie Li, Quanshi Zhang | (参考訳) 本稿では、DNNの推論ロジックを反映した入力変数間の符号化された相互作用を定量化し、ディープニューラルネットワーク(DNN)を説明することを目的とする。
具体的には、まず相互作用の定義を再考し、次に相互作用に基づく説明に対する忠実さと簡潔さを正式に定義する。
この目的のために、我々は2種類の相互作用、すなわち相互作用と相互作用を提案する。
忠実性については、入力変数間のAND(OR)関係の効果を定量化する上で、AND(OR)相互作用の特異性を証明する。
さらに、AND-ORインタラクションに基づいて、忠実さを損なわずに、説明の簡潔さを高める手法を設計する。
このようにして、DNNの推論ロジックはシンボリックな概念の集合によって忠実かつ簡潔に説明できる。 In this technical note, we aim to explain a deep neural network (DNN) by quantifying the encoded interactions between input variables, which reflects the DNN's inference logic. Specifically, we first rethink the definition of interactions, and then formally define faithfulness and conciseness for interaction-based explanation. To this end, we propose two kinds of interactions, i.e., the AND interaction and the OR interaction. For faithfulness, we prove the uniqueness of the AND (OR) interaction in quantifying the effect of the AND (OR) relationship between input variables. Besides, based on AND-OR interactions, we design techniques to boost the conciseness of the explanation, while not hurting the faithfulness. In this way, the inference logic of a DNN can be faithfully and concisely explained by a set of symbolic concepts. | 翻訳日:2023-04-27 15:17:23 公開日:2023-04-26 |
# セキュアなスマート産業管理システムのためのブロックチェーンベースのアクセス制御 Blockchain-based Access Control for Secure Smart Industry Management Systems ( http://arxiv.org/abs/2304.13379v1 ) ライセンス: Link先を確認 | Aditya Pribadi Kalapaaking, Ibrahim Khalil, Mohammad Saidur Rahman and Abdelaziz Bouras | (参考訳) スマートマニュファクチャリングシステムは、大量のデータ生成をもたらす多数の相互接続デバイスを含む。
クラウドコンピューティング技術は、コスト効率の良いサービス提供と大規模データ管理を容易にするスマート製造システムにおいて、最近注目を集めている。
クラウドベースの製造システムでは、データへの認証アクセスが不可欠である。
クラウドプラットフォームは単一の権限の下で運用される。
したがって、クラウドプラットフォームは単一障害点の傾向にあり、敵に対して脆弱である。
内部または外部の敵は、不正なユーザーがデータにアクセスできるように、容易にユーザーのアクセスを変更することができる。
本稿では,クラウドベースのスマートマニュファクチャリングシステムにおいて,ブロックチェーンとスマートコントラクトを活用して修正攻撃を防止するロールベースのアクセス制御を提案する。
役割ベースのアクセス制御は、スマートコントラクトにおけるユーザの役割と権利を決定するために開発されている。
スマートコントラクトはその後、プライベートブロックチェーンネットワークにデプロイされる。
Ethereumプライベートブロックチェーンネットワークを利用してスマートコントラクトをデプロイすることで、ソリューションを評価します。
実験の結果,提案手法の有効性と性能評価が得られた。 Smart manufacturing systems involve a large number of interconnected devices resulting in massive data generation. Cloud computing technology has recently gained increasing attention in smart manufacturing systems for facilitating cost-effective service provisioning and massive data management. In a cloud-based manufacturing system, ensuring authorized access to the data is crucial. A cloud platform is operated under a single authority. Hence, a cloud platform is prone to a single point of failure and vulnerable to adversaries. An internal or external adversary can easily modify users' access to allow unauthorized users to access the data. This paper proposes a role-based access control to prevent modification attacks by leveraging blockchain and smart contracts in a cloud-based smart manufacturing system. The role-based access control is developed to determine users' roles and rights in smart contracts. The smart contracts are then deployed to the private blockchain network. We evaluate our solution by utilizing Ethereum private blockchain network to deploy the smart contract. The experimental results demonstrate the feasibility and evaluation of the proposed framework's performance. | 翻訳日:2023-04-27 15:10:24 公開日:2023-04-26 |
# 高解像度画像デハージングのためのSGLC(Streamlined Global and Local Features Combinator) Streamlined Global and Local Features Combinator (SGLC) for High Resolution Image Dehazing ( http://arxiv.org/abs/2304.13375v1 ) ライセンス: Link先を確認 | Bilel Benjdira, Anas M. Ali, Anis Koubaa | (参考訳) Image Dehazingは、画像から大気の霧や霧を取り除くことを目的としています。
近年、デハジングモデルは進化してきたが、高解像度のハジング画像の問題に正確に取り組んだ例はほとんどない。
この種の画像の場合、モデルは画像のダウンスケールバージョンや、それから採取したパッチで作業する必要がある。
いずれの場合も精度は低下する。
これは主に、画像サイズが大きくなるとグローバル機能とローカル機能を組み合わせることができないためである。
デヘイジングモデルでは、一般的なシーンの特異性を理解するためにグローバル機能と、細部とピクセルの詳細でよりうまく機能するローカル機能が必要である。
本研究では,これらの問題を解決し,高分解能画像へのデヘイジングモデルの適用を最適化するために,グローバル・ローカル・フィーチャーズ・コンビネータ(sglc)を提案する。
SGLCは2つの連続したブロックを含む。
1つ目はGlobal Features Generator(GFG)で、これは強力なグローバル機能を含むDehazedイメージの最初のバージョンを生成する。
第2のブロックはlocal features enhancer(lfe)で、以前生成されたイメージ内のローカル機能詳細を改善する。
脱ハジングのためのUformerアーキテクチャをテストすると、SGLCはPSNRの計量をかなりの差で増やした。
その他のモデルはSGLCプロセスに組み込むことができ、高分解能入力データの効率を向上させることができる。 Image Dehazing aims to remove atmospheric fog or haze from an image. Although the Dehazing models have evolved a lot in recent years, few have precisely tackled the problem of High-Resolution hazy images. For this kind of image, the model needs to work on a downscaled version of the image or on cropped patches from it. In both cases, the accuracy will drop. This is primarily due to the inherent failure to combine global and local features when the image size increases. The Dehazing model requires global features to understand the general scene peculiarities and the local features to work better with fine and pixel details. In this study, we propose the Streamlined Global and Local Features Combinator (SGLC) to solve these issues and to optimize the application of any Dehazing model to High-Resolution images. The SGLC contains two successive blocks. The first is the Global Features Generator (GFG) which generates the first version of the Dehazed image containing strong global features. The second block is the Local Features Enhancer (LFE) which improves the local feature details inside the previously generated image. When tested on the Uformer architecture for Dehazing, SGLC increased the PSNR metric by a significant margin. Any other model can be incorporated inside the SGLC process to improve its efficiency on High-Resolution input data. | 翻訳日:2023-04-27 15:10:09 公開日:2023-04-26 |
# SEAL: 同時ラベル階層探索と学習 SEAL: Simultaneous Label Hierarchy Exploration And Learning ( http://arxiv.org/abs/2304.13374v1 ) ライセンス: Link先を確認 | Zhiquan Tan, Zihao Wang, Yifan Zhang | (参考訳) ラベル階層は、分類性能を向上させる外部知識の重要な源である。
しかし、既存のほとんどのメソッドは、データ分布と一致しない可能性のある事前定義されたラベル階層に依存している。
この問題に対処するため,従来の階層構造に従う潜在ラベルを用いてラベル階層を増大させることにより,ラベル階層を探索する新たなフレームワークであるSEALを提案する。
私たちのアプローチでは、ツリーメトリック空間上の1-wassersteinメトリックを客観的関数として使用することで、データ駆動ラベル階層を学習し、(半)教師付き学習を同時に行うことができる。
提案手法を複数のデータセットで評価し,教師ありおよび半教師ありのシナリオにおいて優れた結果を示し,洞察に富むラベル構造を明らかにする。
実装はhttps://github.com/tzq1999/sealで利用可能です。 Label hierarchy is an important source of external knowledge that can enhance classification performance. However, most existing methods rely on predefined label hierarchies that may not match the data distribution. To address this issue, we propose Simultaneous label hierarchy Exploration And Learning (SEAL), a new framework that explores the label hierarchy by augmenting the observed labels with latent labels that follow a prior hierarchical structure. Our approach uses a 1-Wasserstein metric over the tree metric space as an objective function, which enables us to simultaneously learn a data-driven label hierarchy and perform (semi-)supervised learning. We evaluate our method on several datasets and show that it achieves superior results in both supervised and semi-supervised scenarios and reveals insightful label structures. Our implementation is available at https://github.com/tzq1999/SEAL. | 翻訳日:2023-04-27 15:09:46 公開日:2023-04-26 |
# 遅延フィードバックを用いたニューラルネットワークのフィードフォワード最適化 Feed-Forward Optimization With Delayed Feedback for Neural Networks ( http://arxiv.org/abs/2304.13372v1 ) ライセンス: Link先を確認 | Katharina Fl\"ugel, Daniel Coquelin, Marie Weiel, Charlotte Debus, Achim Streit, Markus G\"otz | (参考訳) バックプロパゲーションは、自然学習プロセスでは不可能な概念に頼って、生物学的に理解できないと長年批判されてきた。
本稿では,生体信頼性と計算効率向上のために,重量輸送と更新ロックという2つのコア問題を解決する方法を提案する。
遅延エラー情報をサンプルワイドスケーリング因子として利用して、より正確に勾配を近似することで、事前作業を改善するフィードフォワード(F$^3$)を導入する。
f$^3$は、生物学的に妥当なトレーニングアルゴリズムとバックプロパゲーションの間の予測性能の差を最大96%減少させる。
これは生物学的に妥当なトレーニングの適用可能性を示し、低エネルギートレーニングと並列化のための有望な新しい道を開く。 Backpropagation has long been criticized for being biologically implausible, relying on concepts that are not viable in natural learning processes. This paper proposes an alternative approach to solve two core issues, i.e., weight transport and update locking, for biological plausibility and computational efficiency. We introduce Feed-Forward with delayed Feedback (F$^3$), which improves upon prior work by utilizing delayed error information as a sample-wise scaling factor to approximate gradients more accurately. We find that F$^3$ reduces the gap in predictive performance between biologically plausible training algorithms and backpropagation by up to 96%. This demonstrates the applicability of biologically plausible training and opens up promising new avenues for low-energy training and parallelization. | 翻訳日:2023-04-27 15:09:33 公開日:2023-04-26 |
# lorawan対応スマートキャンパス:データセットと人間対抗のユースケース LoRaWAN-enabled Smart Campus: The Dataset and a People Counter Use Case ( http://arxiv.org/abs/2304.13366v1 ) ライセンス: Link先を確認 | Eslam Eldeeb and Hirley Alves | (参考訳) IoTはスマートキャンパスにおいて重要な役割を担っている。
本稿では,LoRaWANに基づくSmart Campusデータセットの詳細について述べる。
LoRaWANは、何百ものIoTデバイスを提供する新興技術である。
まず,デバイスをサーバに接続するLoRaネットワークについて述べる。
その後、欠落した送信を解析し、欠落した値を扱うk-アネレスト近傍の解を提案する。
次に,Long Short-term memory (LSTM) を用いて将来の読み出しを予測する。
最後に、ひとつの応用例として、選択したセンサの読み取りに基づいて室内の人数を予測するディープニューラルネットワークを構築します。
以上の結果から,本モデルでは,人数予測の精度が 95 \: \%$ であることが示唆された。
さらにデータセットはオープンに利用可能であり、詳細に説明されているため、他の機能やアプリケーションの探索の機会となる。 IoT has a significant role in the smart campus. This paper presents a detailed description of the Smart Campus dataset based on LoRaWAN. LoRaWAN is an emerging technology that enables serving hundreds of IoT devices. First, we describe the LoRa network that connects the devices to the server. Afterward, we analyze the missing transmissions and propose a k-nearest neighbor solution to handle the missing values. Then, we predict future readings using a long short-term memory (LSTM). Finally, as one example application, we build a deep neural network to predict the number of people inside a room based on the selected sensor's readings. Our results show that our model achieves an accuracy of $95 \: \%$ in predicting the number of people. Moreover, the dataset is openly available and described in detail, which is opportunity for exploration of other features and applications. | 翻訳日:2023-04-27 15:09:20 公開日:2023-04-26 |
# ディープライフ長クロスモーダルハッシュ Deep Lifelong Cross-modal Hashing ( http://arxiv.org/abs/2304.13357v1 ) ライセンス: Link先を確認 | Liming Xu, Hanqi Li, Bochuan Zheng, Weisheng Li, Jiancheng Lv | (参考訳) ハッシュ法は高速なクエリ速度とストレージコストの低いクロスモーダル検索タスクにおいて大きな進歩を遂げている。
その中でもディープラーニングに基づくハッシュは、非線形不均一な特徴に対する優れた抽出と表現能力により、大規模データ上での優れた性能を実現する。
しかし、新しいカテゴリーのデータが連続的に到着する際の破滅的な忘れ込みと、更新のために再トレーニングする非連続的なハッシュ検索に要する時間という2つの大きな課題がある。
そこで,本稿では,ハッシュ関数の繰り返し学習ではなく,生涯のハッシュ処理を実現するための新しいディープライフ長クロスモーダルハッシュ法を提案する。
具体的には,すべての累積データを用いて新しいハッシュ関数を再トレーニングするのではなく,直接インクリメンタルデータをトレーニングすることで,ハッシュ関数を更新するための生涯学習戦略を設計する。
そこで本研究では,本来のハッシュ符号が生涯学習に参加することを可能にするために生涯ハッシュ損失を提案するが,不変のままであり,また,元のハッシュ符号とインクリメンタルハッシュ符号の類似性と類似性を保ち,性能を維持する。
さらに,新たなデータが連続的に到着する際の分布の不均一性を考慮して,ハッシュ学習を監督するマルチラベルセマンティックな類似性を導入し,その類似性は詳細な解析により性能を向上させることが証明された。
ベンチマークデータセットを用いた実験の結果,提案手法は,最新のクロスモーダルハッシュ法と比較して比較性能が得られ,検索精度が20\%以上向上し,新たなデータが連続的に取得された場合のトレーニング時間が約80\%削減された。 Hashing methods have made significant progress in cross-modal retrieval tasks with fast query speed and low storage cost. Among them, deep learning-based hashing achieves better performance on large-scale data due to its excellent extraction and representation ability for nonlinear heterogeneous features. However, there are still two main challenges in catastrophic forgetting when data with new categories arrive continuously, and time-consuming for non-continuous hashing retrieval to retrain for updating. To this end, we, in this paper, propose a novel deep lifelong cross-modal hashing to achieve lifelong hashing retrieval instead of re-training hash function repeatedly when new data arrive. Specifically, we design lifelong learning strategy to update hash functions by directly training the incremental data instead of retraining new hash functions using all the accumulated data, which significantly reduce training time. Then, we propose lifelong hashing loss to enable original hash codes participate in lifelong learning but remain invariant, and further preserve the similarity and dis-similarity among original and incremental hash codes to maintain performance. Additionally, considering distribution heterogeneity when new data arriving continuously, we introduce multi-label semantic similarity to supervise hash learning, and it has been proven that the similarity improves performance with detailed analysis. Experimental results on benchmark datasets show that the proposed methods achieves comparative performance comparing with recent state-of-the-art cross-modal hashing methods, and it yields substantial average increments over 20\% in retrieval accuracy and almost reduces over 80\% training time when new data arrives continuously. | 翻訳日:2023-04-27 15:09:10 公開日:2023-04-26 |
# 電荷量子ビットの量子揺らぎ記述 A quantum fluctuation description of charge qubits ( http://arxiv.org/abs/2304.13351v1 ) ライセンス: Link先を確認 | F. Benatti, F. Carollo, R. Floreanini, H. Narnhofer, F. Valiera | (参考訳) 超伝導回路の特定の例として、コンデンサとジョセフソン接合からなるいわゆる電荷量子ビットを考える。
強結合準スピン定式化における2つのトンネルbcsモデルの観点からの後者の微視的記述から始まり、我々は回路の量子挙動を制御しているハミルトニアンを、多数の準スピンの上限で導出する。
提案手法は,大容量のN$制限にもかかわらず量子特性を保持する超伝導相におけるゆらぎ作用素の存在を考慮に入れた,集合準スピン作用素の適切な量子ゆらぎの同定に依存する。
これらの集合的量子揺らぎが円上のハイゼンベルク代数を生成し、それらのダイナミクスが半古典的インスパイアされたモデルの表現論的「第3の量子化」を必要とせずに量子化された電荷量子ビットの1つを再現することを示す。
導出の副産物として, 強い結合状態における接合臨界ジョセフソン電流の温度依存性を明確化し, 標準近似法では直接アクセスできない結果を得た。 We consider a specific instance of a superconducting circuit, the so-called charge-qubit, consisting of a capacitor and a Josephson junction. Starting from the microscopic description of the latter in terms of two tunneling BCS models in the strong-coupling quasi-spin formulation, we derive the Hamiltonian governing the quantum behavior of the circuit in the limit of a large number $N$ of quasi-spins. Our approach relies on the identification of suitable quantum fluctuations, i.e. of collective quasi-spin operators, which account for the presence of fluctuation operators in the superconducting phase that retain a quantum character in spite of the large-$N$ limit. We show indeed that these collective quantum fluctuations generate the Heisenberg algebra on the circle and that their dynamics reproduces the one of the quantized charge-qubit, without the need of a phenomenological ``third quantization'' of a semiclassically inspired model. As a byproduct of our derivation, we explicitly obtain the temperature dependence of the junction critical Josephson current in the strong coupling regime, a result which is not directly accessible using standard approximation techniques. | 翻訳日:2023-04-27 15:08:43 公開日:2023-04-26 |
# 言語間中間表現を用いたニューロシンボリックゼロショットコードクローニング Neuro-symbolic Zero-Shot Code Cloning with Cross-Language Intermediate Representation ( http://arxiv.org/abs/2304.13350v1 ) ライセンス: Link先を確認 | Krishnam Hasija, Shrishti Pradhan, Manasi Patwardhan, Raveendra Kumar Medicherla, Lovekesh Vig, Ravindra Naik | (参考訳) 本稿では,従来のプログラミング言語COBOLのコードに対する意味論的に類似したクローンを見つけるタスクに,学習データなしで対処するためのニューロシンボリックアプローチを定義する。
我々は、CとCOBOLのコード間で共通する抽象構文木(AST)の形で、中間表現(IR)を持つようにインスタンス化されるメタモデルを定義する。
我々は、SBT(Structure Based Traversal)を用いてIRを線形化し、逐次入力を生成する。
CodeNetデータセットで利用可能なC言語ペアのSBT IRを用いたCode Cloningタスクに対して、ゼロショットのクロスプログラミング言語コード検索のための最高のパフォーマンスモデルであるUnixCoderをさらに微調整する。
これにより、COBOL符号のIRに転送可能なC符号のIRの潜在表現を学習することができる。
この微調整されたUnixCoderでは、CodeNetデータセットから合成されたCOBOLテストスプリットに基づいて、事前訓練されたUnixCoderモデルに対して12.85 MAP@2のパフォーマンスが改善された。
これにより、メタモデルに基づく言語間の移動を容易にする手法の有効性を示す。 In this paper, we define a neuro-symbolic approach to address the task of finding semantically similar clones for the codes of the legacy programming language COBOL, without training data. We define a meta-model that is instantiated to have an Intermediate Representation (IR) in the form of Abstract Syntax Trees (ASTs) common across codes in C and COBOL. We linearize the IRs using Structure Based Traversal (SBT) to create sequential inputs. We further fine-tune UnixCoder, the best-performing model for zero-shot cross-programming language code search, for the Code Cloning task with the SBT IRs of C code-pairs, available in the CodeNet dataset. This allows us to learn latent representations for the IRs of the C codes, which are transferable to the IRs of the COBOL codes. With this fine-tuned UnixCoder, we get a performance improvement of 12.85 MAP@2 over the pre-trained UniXCoder model, in a zero-shot setting, on the COBOL test split synthesized from the CodeNet dataset. This demonstrates the efficacy of our meta-model based approach to facilitate cross-programming language transfer. | 翻訳日:2023-04-27 15:08:23 公開日:2023-04-26 |
# 画像偽造検出のための不一致誘導型再構成学習 Discrepancy-Guided Reconstruction Learning for Image Forgery Detection ( http://arxiv.org/abs/2304.13349v1 ) ライセンス: Link先を確認 | Zenan Shi, Haipeng Chen, Long Chen and Dong Zhang | (参考訳) 本稿では,偽造感応と真正のコンパクトな視覚パターンの両方において,モデル学習能力を高めるための新しい画像偽造検出パラダイムを提案する。
離散化パターン(雑音,テクスチャ,周波数など)にのみ焦点をあてた既存の手法と比較して,より一般化した手法である。
具体的には,まず,偽造に敏感な視覚パターンを抽出するためのdisrepancy-guided encoder (disge)を提案する。
disgeは2つのブランチで構成されており、メインストリームバックボーンブランチは一般的な意味的特徴を抽出し、acsorial discrepant external attentionブランチは明示的な偽造の手がかりを抽出するために使用される。
また,DouHR (Dou-Head Reconstruction) モジュールは,異なる粒度空間における真のコンパクトな視覚パターンを強化するために提案されている。
douhrではさらに,これら真にコンパクトな視覚パターンを集約するdisrepancy-aggregation detector (disad)を導入することで,未知のパターンに対する偽造検出能力を向上させることができる。
4つの挑戦的データセットの大規模な実験結果から,提案手法の有効性を検証した。 In this paper, we propose a novel image forgery detection paradigm for boosting the model learning capacity on both forgery-sensitive and genuine compact visual patterns. Compared to the existing methods that only focus on the discrepant-specific patterns (\eg, noises, textures, and frequencies), our method has a greater generalization. Specifically, we first propose a Discrepancy-Guided Encoder (DisGE) to extract forgery-sensitive visual patterns. DisGE consists of two branches, where the mainstream backbone branch is used to extract general semantic features, and the accessorial discrepant external attention branch is used to extract explicit forgery cues. Besides, a Double-Head Reconstruction (DouHR) module is proposed to enhance genuine compact visual patterns in different granular spaces. Under DouHR, we further introduce a Discrepancy-Aggregation Detector (DisAD) to aggregate these genuine compact visual patterns, such that the forgery detection capability on unknown patterns can be improved. Extensive experimental results on four challenging datasets validate the effectiveness of our proposed method against state-of-the-art competitors. | 翻訳日:2023-04-27 15:08:04 公開日:2023-04-26 |
# textdeformer: テキストガイダンスを用いた幾何操作 TextDeformer: Geometry Manipulation using Text Guidance ( http://arxiv.org/abs/2304.13348v1 ) ライセンス: Link先を確認 | William Gao, Noam Aigerman, Thibault Groueix, Vladimir G. Kim, Rana Hanocka | (参考訳) 本稿では,入力三角形メッシュの変形を自動的に生成する手法について述べる。
我々のフレームワークは、大きな、低周波の形状変化と小さな高周波の細部の両方をもたらす変形を実現できる。
我々のフレームワークは微分可能レンダリングに依存しており、幾何をクリップやdinoのような強力な事前学習済み画像エンコーダに接続する。
特に、微分可能なレンダリングによる勾配ステップによるメッシュジオメトリの更新は、悪名高く、多くの場合、重要なアーティファクトを持つ変形メッシュが発生する。
これらの困難は、CLIPからのノイズや矛盾した勾配によって増幅される。
この制限を克服するために、我々はジャコビアンを通してメッシュの変形を表現し、(局所的な準最適ステップではなく)大域的かつ滑らかな方法で変形を更新する。
我々のキーとなる観察は、ジャコビアンがより滑らかで大きな変形を好む表現であり、頂点とピクセルのグローバルな関係を導き、局所的な雑音勾配を避けることである。
さらに, 得られた形状がすべての3次元視点から一致していることを保証するため, レンダリングの2次元符号化上で計算された深い特徴が, あらゆる視点から与えられた頂点に対して一貫したものであることを推奨する。
本手法は,多種多様なソースメッシュと対象テキストプロンプトをスムーズに変形させ,動物の体重比率などの大きな変更と,軍用ブーツの靴ひもや顔の細かい詳細などの詳細な意味的詳細を追加できることを実証する。 We present a technique for automatically producing a deformation of an input triangle mesh, guided solely by a text prompt. Our framework is capable of deformations that produce both large, low-frequency shape changes, and small high-frequency details. Our framework relies on differentiable rendering to connect geometry to powerful pre-trained image encoders, such as CLIP and DINO. Notably, updating mesh geometry by taking gradient steps through differentiable rendering is notoriously challenging, commonly resulting in deformed meshes with significant artifacts. These difficulties are amplified by noisy and inconsistent gradients from CLIP. To overcome this limitation, we opt to represent our mesh deformation through Jacobians, which updates deformations in a global, smooth manner (rather than locally-sub-optimal steps). Our key observation is that Jacobians are a representation that favors smoother, large deformations, leading to a global relation between vertices and pixels, and avoiding localized noisy gradients. Additionally, to ensure the resulting shape is coherent from all 3D viewpoints, we encourage the deep features computed on the 2D encoding of the rendering to be consistent for a given vertex from all viewpoints. We demonstrate that our method is capable of smoothly-deforming a wide variety of source mesh and target text prompts, achieving both large modifications to, e.g., body proportions of animals, as well as adding fine semantic details, such as shoe laces on an army boot and fine details of a face. | 翻訳日:2023-04-27 15:07:45 公開日:2023-04-26 |
# 人物追跡手法の細粒度検証のための現実的な群衆シミュレーション環境の開発 Development of a Realistic Crowd Simulation Environment for Fine-grained Validation of People Tracking Methods ( http://arxiv.org/abs/2304.13403v1 ) ライセンス: Link先を確認 | Pawe{\l} Foszner, Agnieszka Szcz\k{e}sna, Luca Ciampi, Nicola Messina, Adam Cygan, Bartosz Bizo\'n, Micha{\l} Cogiel, Dominik Golba, El\.zbieta Macioszek, Micha{\l} Staniszewski | (参考訳) 一般に、クラウドデータセットは、実または合成ソースから収集または生成することができる。
実際のデータは、インフラストラクチャベースのセンサー(静的カメラや他のセンサーなど)を使用して生成される。
シミュレーションツールを使用することで、シナリオ固有のクラウドデータセットの生成、データ駆動リサーチの促進、関数型機械学習モデルの構築に要する時間を大幅に削減することができる。
この研究の主な目的は、群衆シミュレーションの拡張(CrowdSim2)を開発し、人追跡アルゴリズムの適用性を証明することである。
このシミュレータは、非常に人気のあるUnity 3Dエンジンを使用して開発されており、特に環境、気象条件、交通、そして個々のエージェントの動きとモデルに重点を置いている。
最後に、生成されたデータセットを検証するために、IOU-Tracker、Deep-Sort、Deep-TAMAの3つの追跡方法が使用された。 Generally, crowd datasets can be collected or generated from real or synthetic sources. Real data is generated by using infrastructure-based sensors (such as static cameras or other sensors). The use of simulation tools can significantly reduce the time required to generate scenario-specific crowd datasets, facilitate data-driven research, and next build functional machine learning models. The main goal of this work was to develop an extension of crowd simulation (named CrowdSim2) and prove its usability in the application of people-tracking algorithms. The simulator is developed using the very popular Unity 3D engine with particular emphasis on the aspects of realism in the environment, weather conditions, traffic, and the movement and models of individual agents. Finally, three methods of tracking were used to validate generated dataset: IOU-Tracker, Deep-Sort, and Deep-TAMA. | 翻訳日:2023-04-27 15:01:52 公開日:2023-04-26 |
# N-representability制約を用いた後処理ノイズ量子計算 Post-processing noisy quantum computations utilizing N-representability constraints ( http://arxiv.org/abs/2304.13401v1 ) ライセンス: Link先を確認 | Tomislav Piskor, Florian G. Eich, Michael Marthaler, Frank K. Wilhelm, and Jan-Michael Reiner | (参考訳) 本稿では,デコヒーレンスとショットノイズに障害のある量子コンピュータ上での量子化学エネルギー計算法を提案する。
誤差緩和法は、化学系の1粒子および2粒子還元密度行列(1-および2-rdm)がいわゆるn-表現可能性制約に従う必要があるという事実に依存する。
我々は、あるN-表現性条件を満たす部分空間に投影することで、RDM測定の結果を後処理する。
さらに,このような制約をホールや粒子ホールセクタにも適用し,これらのセクタにおいても投影を行う。
我々は、量子コンピューティングの文脈において、手法の性能を慎重に分析することで、初期の研究を拡大する。
具体的には、有限個の射影的測定値によるショットノイズと同様に、典型的なデコヒーレンスチャネル(デ強調、減衰、デポーライゼーションノイズ)を考える。
解析的考察を行い、数値的に3つの実例系である \ch{H2}, \ch{LiH}, \ch{BeH2} について検討する。
これらの研究から,我々は,様々な射影オプションを最大限活用するための実用的かつ効果的な手法を導出する。
本研究は, シミュレーション量子計算のエネルギー誤差と測定値のばらつきを著しく低減する手法である。 We propose and analyze a method for improving quantum chemical energy calculations on a quantum computer impaired by decoherence and shot noise. The error mitigation approach relies on the fact that the one- and two-particle reduced density matrices (1- and 2-RDM) of a chemical system need to obey so-called N-representability constraints. We post-process the result of an RDM measurement by projecting it into the subspace where certain N-representability conditions are fulfilled. Furthermore, we utilize that such constraints also hold in the hole and particle-hole sector and perform projections in these sectors as well. We expand earlier work by conducting a careful analysis of the method's performance in the context of quantum computing. Specifically, we consider typical decoherence channels (dephasing, damping, and depolarizing noise) as well as shot noise due to a finite number of projective measurements. We provide analytical considerations and examine numerically three example systems, \ch{H2}, \ch{LiH}, and \ch{BeH2}. From these investigations, we derive our own practical yet effective method to best employ the various projection options. Our results show the approach to significantly lower energy errors and measurement variances of (simulated) quantum computations. | 翻訳日:2023-04-27 15:01:36 公開日:2023-04-26 |
# Kerr媒体を用いた散逸型オプティメカニカルキャビティの双安定状態における機械的冷却 Mechanical cooling at the bistable regime of a dissipative optomechanical cavity with a Kerr medium ( http://arxiv.org/abs/2304.13399v1 ) ライセンス: Link先を確認 | Ye Liu, Yang Liu, Chang-Sheng Hu, Yun-Kun Jiang, Huaizhi Wu, and Yong Li | (参考訳) 本稿では,Kerr媒体を充填した散逸型光学キャビティの静的安定性と機械的冷却について検討する。
このシステムは、純粋に散逸結合の場合とは対照的に、電力しきい値が大幅に低減され、幅広い入力電力範囲の光ビスタビリティを示す。
双安定状態においては、有効機械温度が空洞内強度の非単調関数であり、上安定分岐の旋回点付近でその最小値に達するような未解決のサイドバンド条件下で、室温から数ミリケルビンまで効果的に膜を冷却することができる。
極低温環境においては, 双安定状態における有効機械温度は室温の場合と同様の特性を示すが, 最適冷却は単安定状態において現れ, 機械的接地状態に近づく。
その結果,非古典的状態準備や量子情報処理に多くの応用がある双安定光力学系のさらなる理解が期待できる。 In this paper, we study static bistability and mechanical cooling of a dissipative optomechanical cavity filled with a Kerr medium. The system exhibits optical bistability for a wide input-power range with the power threshold being greatly reduced, in contrast to the case of purely dissipative coupling. At the bistable regime, the membrane can be effectively cooled down to a few millikelvin from the room temperature under the unresolved sideband condition, where the effective mechanical temperature is a nonmonotonic function of intracavity intensity and reaches its minimum near the turning point of the upper stable branch. When the system is in the cryogenics environment, the effective mechanical temperature at the bistable regime shows a similar feature as in the room temperature case, but the optimal cooling appears at the monostable regime and approaches the mechanical ground state. Our results are of interest for further understanding bistable optomechanical systems, which have many applications in nonclassical state preparations and quantum information processing. | 翻訳日:2023-04-27 15:01:18 公開日:2023-04-26 |
# 連続層におけるフィルタ類似性によるフィルタプルーニング Filter Pruning via Filters Similarity in Consecutive Layers ( http://arxiv.org/abs/2304.13397v1 ) ライセンス: Link先を確認 | Xiaorui Wang, Jun Wang, Xin Tang, Peng Gao, Rui Fang, Guotong Xie | (参考訳) フィルタプルーニングは畳み込みニューラルネットワーク(cnns)を圧縮・加速するために広く採用されているが、ほとんどの先行研究は異なる層内のフィルタとチャネルの関係を無視している。
各レイヤを独立して処理することは、レイヤ間の協調関係を利用できない。
本稿では,連続層(fscl)におけるフィルタ類似性を明示的に活用し,新しい刈り取り手法を提案する。
FSCLは、モデルでより価値のない特徴を持つフィルタをプルーニングすることでモデルを圧縮する。
この実験はFSCLの有効性を実証し、いくつかのベンチマークモデルやデータセットの精度、FLOP、パラメータの削減に最先端よりも顕著な改善をもたらす。 Filter pruning is widely adopted to compress and accelerate the Convolutional Neural Networks (CNNs), but most previous works ignore the relationship between filters and channels in different layers. Processing each layer independently fails to utilize the collaborative relationship across layers. In this paper, we intuitively propose a novel pruning method by explicitly leveraging the Filters Similarity in Consecutive Layers (FSCL). FSCL compresses models by pruning filters whose corresponding features are more worthless in the model. The extensive experiments demonstrate the effectiveness of FSCL, and it yields remarkable improvement over state-of-the-art on accuracy, FLOPs and parameter reduction on several benchmark models and datasets. | 翻訳日:2023-04-27 15:00:58 公開日:2023-04-26 |
# 密度行列再正規化群:教育的導入 Density-matrix renormalization group: a pedagogical introduction ( http://arxiv.org/abs/2304.13395v1 ) ライセンス: Link先を確認 | G. Catarina, Bruno Murta | (参考訳) 量子多体系の物理的性質は、原理的には各ハミルトニアンを対角化することによって決定できるが、行列表現の次元は自由度数とともに指数関数的にスケールする。
したがって、単純なモデルを通して記述される小さなシステムだけが、正確な対角化によって取り組める。
この制限を克服するために、量子多体問題を指数的に大きいヒルベルト空間の管理可能な部分空間に制限する再正規化群パラダイムに基づく数値法が提案されている。
顕著な例は密度行列再正規化群(DMRG)であり、短距離相互作用を持つ一次元量子系の低エネルギー特性を得るための基準数値法となっている。
ここではdmrgの教育的紹介を行い,その原定式化と現代的なテンソルネットワークベースバージョンについて述べる。
この論説は2つの点で以前の貢献とは別物である。
まず、概念的理解と実践的理解のギャップを埋めるために、実践的なコード実装が提供される。
第二に、DMRGの現代版で使用されるテンソルネットワーク手法を簡潔かつ自己完結的に導入することにより、読者はテンソルネットワークの広範な文献を探索することなく、DMRGの2つの定式化の間の深い亀裂を断続的に横切ることができる。
DMRGによる数値シミュレーションの第一歩を踏み出した学生や研究者の間で、この教育学的レビューが広く読まれることを期待している。 The physical properties of a quantum many-body system can, in principle, be determined by diagonalizing the respective Hamiltonian, but the dimensions of its matrix representation scale exponentially with the number of degrees of freedom. Hence, only small systems that are described through simple models can be tackled via exact diagonalization. To overcome this limitation, numerical methods based on the renormalization group paradigm that restrict the quantum many-body problem to a manageable subspace of the exponentially large full Hilbert space have been put forth. A striking example is the density-matrix renormalization group (DMRG), which has become the reference numerical method to obtain the low-energy properties of one-dimensional quantum systems with short-range interactions. Here, we provide a pedagogical introduction to DMRG, presenting both its original formulation and its modern tensor-network-based version. This colloquium sets itself apart from previous contributions in two ways. First, didactic code implementations are provided to bridge the gap between conceptual and practical understanding. Second, a concise and self-contained introduction to the tensor network methods employed in the modern version of DMRG is given, thus allowing the reader to effortlessly cross the deep chasm between the two formulations of DMRG without having to explore the broad literature on tensor networks. We expect this pedagogical review to find wide readership amongst students and researchers who are taking their first steps in numerical simulations via DMRG. | 翻訳日:2023-04-27 15:00:45 公開日:2023-04-26 |
# stir:画像検索後処理のためのsiamese transformer STIR: Siamese Transformer for Image Retrieval Postprocessing ( http://arxiv.org/abs/2304.13393v1 ) ライセンス: Link先を確認 | Aleksei Shabanov, Aleksei Tarasov, Sergey Nikolenko | (参考訳) 画像検索のための現在の計量学習アプローチは、通常、コサイン距離のような単純なアプローチがうまく機能する情報的潜在表現の空間を学習することに基づいている。
HypViTのような最近の技術手法は、より良い結果をもたらすが生産環境にスケールするのが困難であるより複雑な埋め込み空間へと移行している。
本研究は,まず,芸術レベルでは機能するが,欠点は持たない,ハードネガマイニングを伴う三重項損失に基づく簡易モデルを構築した。
次に,Samese Transformer for Image Retrieval (STIR) と呼ばれる画像検索後処理のための新しい手法を提案する。
以前提案されたリカレントトランスフォーマーとは異なり、STIRはグローバル/ローカルな特徴抽出に頼らず、クエリ画像と検索候補を直接ピクセルレベルで比較し、アテンション機構を使用する。
その結果得られたアプローチは、標準的な画像検索データセットであるstanford online productsとdeepfashion in-shopの新しい最先端を定義する。
また、ソースコードはhttps://github.com/OML-Team/open-metric-learning/tree/main/pipelines/postprocessing/で公開しています。 Current metric learning approaches for image retrieval are usually based on learning a space of informative latent representations where simple approaches such as the cosine distance will work well. Recent state of the art methods such as HypViT move to more complex embedding spaces that may yield better results but are harder to scale to production environments. In this work, we first construct a simpler model based on triplet loss with hard negatives mining that performs at the state of the art level but does not have these drawbacks. Second, we introduce a novel approach for image retrieval postprocessing called Siamese Transformer for Image Retrieval (STIR) that reranks several top outputs in a single forward pass. Unlike previously proposed Reranking Transformers, STIR does not rely on global/local feature extraction and directly compares a query image and a retrieved candidate on pixel level with the usage of attention mechanism. The resulting approach defines a new state of the art on standard image retrieval datasets: Stanford Online Products and DeepFashion In-shop. We also release the source code at https://github.com/OML-Team/open-metric-learning/tree/main/pipelines/postprocessing/ and an interactive demo of our approach at https://dapladoc-oml-postprocessing-demo-srcappmain-pfh2g0.streamlit.app/. | 翻訳日:2023-04-27 15:00:17 公開日:2023-04-26 |
# 3次元物体検出のための群等価BEV Group Equivariant BEV for 3D Object Detection ( http://arxiv.org/abs/2304.13390v1 ) ライセンス: Link先を確認 | Hongwei Liu, Jian Yang, Jianfeng Zhang, Dongheng Shao, Jielong Guo, Shaobo Li, Xuan Tang, Xian Wei | (参考訳) 近年, 3次元物体検出が注目され, 実道路シナリオにおける連続的改善が達成されている。
環境情報は、単一のセンサまたはマルチセンサー融合から収集され、興味のある物体を検出する。
しかし、現在の3dオブジェクト検出アプローチのほとんどは、車両に搭載されたセンサーから収集されたデータが様々な摂動特性を含む動的運転シーンを考慮せず、オブジェクトの検出精度を向上させるための高度なネットワークアーキテクチャの開発に重点を置いている。
結果として、既存の作業はいまだに摂動問題に対処できない。
この問題を解決するために,群同変理論に基づく群同変鳥眼視ネットワーク(GeqBevNet)を提案し,BEV融合物体検出ネットワークに群同変の概念を導入する。
群同変ネットワークを融合したBEV特徴写像に埋め込んで、BEVレベルの回転同変特徴抽出を容易にし、平均方向誤差を低くする。
GeqBevNetの有効性を示すために、ネットワークはnuScenes検証データセット上で検証され、mAOEは0.325に削減できる。
実験により,GeqBevNetは実際の道路シーンの3次元物体検出において,より回転同変な特徴を抽出し,物体方向予測の性能を向上させることができることが示された。 Recently, 3D object detection has attracted significant attention and achieved continuous improvement in real road scenarios. The environmental information is collected from a single sensor or multi-sensor fusion to detect interested objects. However, most of the current 3D object detection approaches focus on developing advanced network architectures to improve the detection precision of the object rather than considering the dynamic driving scenes, where data collected from sensors equipped in the vehicle contain various perturbation features. As a result, existing work cannot still tackle the perturbation issue. In order to solve this problem, we propose a group equivariant bird's eye view network (GeqBevNet) based on the group equivariant theory, which introduces the concept of group equivariant into the BEV fusion object detection network. The group equivariant network is embedded into the fused BEV feature map to facilitate the BEV-level rotational equivariant feature extraction, thus leading to lower average orientation error. In order to demonstrate the effectiveness of the GeqBevNet, the network is verified on the nuScenes validation dataset in which mAOE can be decreased to 0.325. Experimental results demonstrate that GeqBevNet can extract more rotational equivariant features in the 3D object detection of the actual road scene and improve the performance of object orientation prediction. | 翻訳日:2023-04-27 14:59:53 公開日:2023-04-26 |
# 幾何学的絡み合いの変動決定におけるバレン高原の回避 Avoiding barren plateaus in the variational determination of geometric entanglement ( http://arxiv.org/abs/2304.13388v1 ) ライセンス: Link先を確認 | Leonardo Zambrano, Andr\'es Dami\'an Mu\~noz-Moller, Mario Mu\~noz, Luciano Pereira, Aldo Delgado | (参考訳) ヴァレンプラトー現象は、現在の世代の量子プロセッサにおいて変分量子アルゴリズムを実装する主な障害の1つである。
本稿では,多数の量子ビットに対するエンタングルメントの幾何学的測定値の変動決定において,バレンプラトー現象を回避する方法を提案する。
本手法は,不規則な台地に遭遇することなく,大域関数をさらに最適化できるような,適合性のある2量子局所関数の最適化を基礎としている。
局所関数を効率的に推定し最適化できることを解析的に実証する。
18-qubit GHZ と W 状態までの数値シミュレーションは、この手法が正確な値に収束することを証明している。
特に、ハードウェアノイズや高次元システムで定義された大域関数によって誘導される不毛の台地から脱出することができる。
ノイズを伴う数値シミュレーションは、IBMの7量子ビットの量子プロセッサで実施された実験と一致している。 The barren plateau phenomenon is one of the main obstacles to implementing variational quantum algorithms in the current generation of quantum processors. Here, we introduce a method capable of avoiding the barren plateau phenomenon in the variational determination of the geometric measure of entanglement for a large number of qubits. The method is based on measuring compatible two-qubit local functions whose optimization allows for achieving a well-suited initial condition, from which a global function can be further optimized without encountering a barren plateau. We analytically demonstrate that the local functions can be efficiently estimated and optimized. Numerical simulations up to 18-qubit GHZ and W states demonstrate that the method converges to the exact value. In particular, the method allows for escaping from barren plateaus induced by hardware noise or global functions defined on high-dimensional systems. Numerical simulations with noise are in agreement with experiments carried out on IBM's quantum processors for 7 qubits. | 翻訳日:2023-04-27 14:59:32 公開日:2023-04-26 |
# VGOS:スパース入力からのビュー合成のためのボクセルグリッド最適化 VGOS: Voxel Grid Optimization for View Synthesis from Sparse Inputs ( http://arxiv.org/abs/2304.13386v1 ) ライセンス: Link先を確認 | Jiakai Sun, Zhanjie Zhang, Jiafu Chen, Guangyuan Li, Boyan Ji, Lei Zhao, Wei Xing | (参考訳) NeRF(Neural Radiance Fields)は、最先端の品質と柔軟性のために、新しいビュー合成において大きな成功を収めている。
しかし、NeRFは高忠実度画像を生成するために、濃密な入力ビュー(数十から数百)と長い訓練時間(数時間から数日)を必要とする。
放射界を表すためにボクセル格子を用いると、最適化プロセスが大幅に加速するが、スパース入力の場合、ボクセル格子はトレーニングビューに過度に適合する傾向があり、穴やフローターを持ち、アーティファクトにつながることが観察される。
本稿では,これらの問題に対処するために,スパース入力(3-10ビュー)から高速(3-5分)の放射場再構成を行うVGOSを提案する。
スパース入力シナリオにおけるvoxelベースのラミアンスフィールドの性能向上のために,2つの手法を提案する。
a) 再建初期における周辺ボクセルの最適化を抑制することにより,過剰フィッティングを防止できる漸進的なボクセルトレーニング戦略を導入する。
b) いくつかの正則化手法を用いてボクセルを滑らかにし, 退化解を避ける。
超高速収束によるスパース入力に対して,VGOSが最先端の性能を達成することを示す実験を行った。
コードはhttps://github.com/SJoJoK/VGOSで入手できる。 Neural Radiance Fields (NeRF) has shown great success in novel view synthesis due to its state-of-the-art quality and flexibility. However, NeRF requires dense input views (tens to hundreds) and a long training time (hours to days) for a single scene to generate high-fidelity images. Although using the voxel grids to represent the radiance field can significantly accelerate the optimization process, we observe that for sparse inputs, the voxel grids are more prone to overfitting to the training views and will have holes and floaters, which leads to artifacts. In this paper, we propose VGOS, an approach for fast (3-5 minutes) radiance field reconstruction from sparse inputs (3-10 views) to address these issues. To improve the performance of voxel-based radiance field in sparse input scenarios, we propose two methods: (a) We introduce an incremental voxel training strategy, which prevents overfitting by suppressing the optimization of peripheral voxels in the early stage of reconstruction. (b) We use several regularization techniques to smooth the voxels, which avoids degenerate solutions. Experiments demonstrate that VGOS achieves state-of-the-art performance for sparse inputs with super-fast convergence. Code will be available at https://github.com/SJoJoK/VGOS. | 翻訳日:2023-04-27 14:59:17 公開日:2023-04-26 |
# 確率的画質変換による低磁場磁気共鳴画像強調 Low-field magnetic resonance image enhancement via stochastic image quality transfer ( http://arxiv.org/abs/2304.13385v1 ) ライセンス: Link先を確認 | Hongxiang Lin, Matteo Figini, Felice D'Arco, Godwin Ogbole, Ryutaro Tanno, Stefano B. Blumberg, Lisa Ronan, Biobele J. Brown, David W. Carmichael, Ikeoluwa Lagunju, Judith Helen Cross, Delmiro Fernandez-Reyes, Daniel C. Alexander | (参考訳) 低磁場(<1T)磁気共鳴イメージング(MRI)スキャナーは、低所得国(LMICs)や中所得国(LMICs)で広く使われており、肥満、閉所恐怖症、インプラント、入れ墨など高所得国で一般的に用いられている。
しかし,低磁場MR画像は高磁場画像(1.5T,3T以上)に比べて解像度が低くコントラストも低い。
そこで本研究では、低磁場画像から高磁場で得られた画像から低磁場構造体MRIを推定することにより、画像品質変換(IQT)を提案する。
私たちのアプローチは
(i)特定の高視野画像に対応する低視野画像のコントラストの不確実性と変動を捉えるためのフォワードモデルとしての確率的低視野画像シミュレータ
(ii) IQT逆問題に特化して設計された異方性U-Net変種。
LMIC病院における多コントラスト (T1-weighted, T2-weighted, and fluid attenuated inversion recovery (FLAIR)) の臨床低磁場MRIデータを用いてシミュレーションと評価を行った。
低視野mr画像のコントラストと解像度改善におけるiqtの有効性を示す。
iqt強調画像は,放射線科医の立場から解剖学的構造と病理病変の可視化を促進する可能性が示唆された。
IQTは低磁場MRIの診断値を高める能力があることが証明されている。 Low-field (<1T) magnetic resonance imaging (MRI) scanners remain in widespread use in low- and middle-income countries (LMICs) and are commonly used for some applications in higher income countries e.g. for small child patients with obesity, claustrophobia, implants, or tattoos. However, low-field MR images commonly have lower resolution and poorer contrast than images from high field (1.5T, 3T, and above). Here, we present Image Quality Transfer (IQT) to enhance low-field structural MRI by estimating from a low-field image the image we would have obtained from the same subject at high field. Our approach uses (i) a stochastic low-field image simulator as the forward model to capture uncertainty and variation in the contrast of low-field images corresponding to a particular high-field image, and (ii) an anisotropic U-Net variant specifically designed for the IQT inverse problem. We evaluate the proposed algorithm both in simulation and using multi-contrast (T1-weighted, T2-weighted, and fluid attenuated inversion recovery (FLAIR)) clinical low-field MRI data from an LMIC hospital. We show the efficacy of IQT in improving contrast and resolution of low-field MR images. We demonstrate that IQT-enhanced images have potential for enhancing visualisation of anatomical structures and pathological lesions of clinical relevance from the perspective of radiologists. IQT is proved to have capability of boosting the diagnostic value of low-field MRI, especially in low-resource settings. | 翻訳日:2023-04-27 14:58:55 公開日:2023-04-26 |
# 結合型クエリに基づく特徴モデル構成のための制約解法 Conjunctive Query Based Constraint Solving For Feature Model Configuration ( http://arxiv.org/abs/2304.13422v1 ) ライセンス: Link先を確認 | Alexander Felfernig, Viet-Man Le, Sebastian Lubos | (参考訳) 機能モデルの設定は、様々なタイプの推論アプローチに基づいてサポートできる。
その例としてSATの解法、制約の解法、解集合プログラミング(ASP.NET)がある。
これらのアプローチを使用するには、基盤となる構成問題を定義し解決する方法に関する技術的な専門知識が必要です。
本稿では,制約満足度問題(CSP)を解決するために,今日のリレーショナルデータベースシステムで一般的にサポートされている接続型クエリを適用する方法について述べる。
このアプローチは、構成タスクを解決するために広帯域データベース技術の応用を可能にし、不整合の識別と解決に関して新しいアルゴリズムアプローチを可能にする。 Feature model configuration can be supported on the basis of various types of reasoning approaches. Examples thereof are SAT solving, constraint solving, and answer set programming (ASP). Using these approaches requires technical expertise of how to define and solve the underlying configuration problem. In this paper, we show how to apply conjunctive queries typically supported by today's relational database systems to solve constraint satisfaction problems (CSP) and -- more specifically -- feature model configuration tasks. This approach allows the application of a wide-spread database technology to solve configuration tasks and also allows for new algorithmic approaches when it comes to the identification and resolution of inconsistencies. | 翻訳日:2023-04-27 14:49:16 公開日:2023-04-26 |
# 説明責任ツールはジェンダーバイアスか?
顔提示攻撃検出に関する事例研究 Are Explainability Tools Gender Biased? A Case Study on Face Presentation Attack Detection ( http://arxiv.org/abs/2304.13419v1 ) ライセンス: Link先を確認 | Marco Huber, Meiling Fang, Fadi Boutros, Naser Damer | (参考訳) 顔認識(fr)システムは日常的に普及し続けており、深層学習を主とするfrシステムの説明可能性や解釈性の向上が求められている。
frシステムにおける集団間のバイアスは既に研究されているが、説明可能性ツールのバイアスはまだ調査されていない。
このようなツールは、さらなる開発を指揮し、コンピュータビジョンの問題をよりよく理解することを目的としているため、その結果にバイアスが存在することは、バイアスのある決定の連鎖につながる可能性がある。
本稿では,顔提示攻撃検出の応用事例を検証し,説明可能性ツールの結果におけるバイアスの存在について検討する。
バイアスレベルの異なるモデル上で2つの異なる説明可能性ツールを利用することで、これらのツールの結果におけるバイアスを調べる。
本研究は、これらのツールが説明の質に性別バイアスの兆候を示すことを示している。 Face recognition (FR) systems continue to spread in our daily lives with an increasing demand for higher explainability and interpretability of FR systems that are mainly based on deep learning. While bias across demographic groups in FR systems has already been studied, the bias of explainability tools has not yet been investigated. As such tools aim at steering further development and enabling a better understanding of computer vision problems, the possible existence of bias in their outcome can lead to a chain of biased decisions. In this paper, we explore the existence of bias in the outcome of explainability tools by investigating the use case of face presentation attack detection. By utilizing two different explainability tools on models with different levels of bias, we investigate the bias in the outcome of such tools. Our study shows that these tools show clear signs of gender bias in the quality of their explanations. | 翻訳日:2023-04-27 14:49:03 公開日:2023-04-26 |
# DiffuseExpand:拡散モデルを用いた2次元医用画像分割のための拡張データセット DiffuseExpand: Expanding dataset for 2D medical image segmentation using diffusion models ( http://arxiv.org/abs/2304.13416v1 ) ライセンス: Link先を確認 | Shitong Shao, Xiaohan Yuan, Zhen Huang, Ziming Qiu, Shuai Wang and Kevin Zhou | (参考訳) データセットの拡張は、プライバシの懸念とラベル付けの困難により、医療画像のセグメンテーションにおけるデータ不足の問題を効果的に軽減することができる。
しかし、既存の拡張アルゴリズムは、ペア分割マスクによる合成画像の多様性を保証することができないため、大きな課題に直面している。
近年、拡散確率モデル(dpms)は、生成的逆ネットワークよりも優れた画像合成性能を示している。
この知見に基づいて,dpmを用いた2次元医用画像セグメンテーションのためのデータセットを拡張するためのdvidationexpandという手法を提案する。
その後、DiffuseExpandは高品質なサンプルを選択し、データ拡張の有効性をさらに高める。
COVID-19とCGMH Pelvisデータセットの比較およびアブレーション実験により,DiffuseExpandの有効性が示された。
私たちのコードはhttps://anonymous.4open.science/r/DiffuseExpandで公開されています。 Dataset expansion can effectively alleviate the problem of data scarcity for medical image segmentation, due to privacy concerns and labeling difficulties. However, existing expansion algorithms still face great challenges due to their inability of guaranteeing the diversity of synthesized images with paired segmentation masks. In recent years, Diffusion Probabilistic Models (DPMs) have shown powerful image synthesis performance, even better than Generative Adversarial Networks. Based on this insight, we propose an approach called DiffuseExpand for expanding datasets for 2D medical image segmentation using DPM, which first samples a variety of masks from Gaussian noise to ensure the diversity, and then synthesizes images to ensure the alignment of images and masks. After that, DiffuseExpand chooses high-quality samples to further enhance the effectiveness of data expansion. Our comparison and ablation experiments on COVID-19 and CGMH Pelvis datasets demonstrate the effectiveness of DiffuseExpand. Our code is released at https://anonymous.4open.science/r/DiffuseExpand. | 翻訳日:2023-04-27 14:48:50 公開日:2023-04-26 |
# 不完全な観測を含むセンサデータによる回帰 Regression with Sensor Data Containing Incomplete Observations ( http://arxiv.org/abs/2304.13415v1 ) ライセンス: Link先を確認 | Takayuki Katsuki, Takayuki Osogami | (参考訳) 本稿では,出力ラベル値が現象の大きさを検知する結果である回帰問題に対処する。
このようなラベルの低い値は、現象の実際の大きさが低いか、またはセンサーが不完全な観察を行ったことを意味する。
これは、ラベルの実際の大きさが高かったとしても、不完全な観測によってラベルが低い値を持つ可能性があるため、ラベルの低い値に対するバイアスとなる。
さらに、不完全観察では、不完全を示すタグが提供されないため、それらを排除またはインプットすることはできない。
この問題に対処するため,不完全観測を非対称雑音で明確にモデル化し,常に負の値を持つ学習アルゴリズムを提案する。
我々は,不完全観測を伴わない不完全データから学習したかのように,アルゴリズムが偏りがないことを示す。
本アルゴリズムの利点を数値実験により実証する。 This paper addresses a regression problem in which output label values are the results of sensing the magnitude of a phenomenon. A low value of such labels can mean either that the actual magnitude of the phenomenon was low or that the sensor made an incomplete observation. This leads to a bias toward lower values in labels and its resultant learning because labels may have lower values due to incomplete observations, even if the actual magnitude of the phenomenon was high. Moreover, because an incomplete observation does not provide any tags indicating incompleteness, we cannot eliminate or impute them. To address this issue, we propose a learning algorithm that explicitly models incomplete observations corrupted with an asymmetric noise that always has a negative value. We show that our algorithm is unbiased as if it were learned from uncorrupted data that does not involve incomplete observations. We demonstrate the advantages of our algorithm through numerical experiments. | 翻訳日:2023-04-27 14:48:34 公開日:2023-04-26 |
# 量子フェデレート学習のためのセキュアな通信モデル:ポスト量子暗号(pqc)フレームワーク Secure Communication Model For Quantum Federated Learning: A Post Quantum Cryptography (PQC) Framework ( http://arxiv.org/abs/2304.13413v1 ) ライセンス: Link先を確認 | Dev Gurung, Shiva Raj Pokhrel, Gang Li | (参考訳) 我々は、ポスト量子暗号(pqc)量子連合学習(qfl)のモデルを設計する。
動的サーバ選択によるフレームワークを開発し,コンバージェンスとセキュリティ条件について検討する。
実装と結果が公開されている。 We design a model of Post Quantum Cryptography (PQC) Quantum Federated Learning (QFL). We develop a framework with a dynamic server selection and study convergence and security conditions. The implementation and results are publicly available1. | 翻訳日:2023-04-27 14:48:19 公開日:2023-04-26 |
# 自己回帰ニューラルネットワークからのスピン系の相互情報 Mutual information of spin systems from autoregressive neural networks ( http://arxiv.org/abs/2304.13412v1 ) ライセンス: Link先を確認 | Piotr Bia{\l}as, Piotr Korcyl, Tomasz Stebel | (参考訳) 自己回帰ニューラルネットワークにより強化されたモンテカルロサンプリングに基づく古典スピン系の2成分相互情報を直接推定する手法を提案する。
これはサブシステムの任意の幾何学を研究でき、古典場理論に一般化することができる。
多重接続された偶対除算を含む4つのパーティショニングのIsingモデルでこれを実証する。
面積法則は臨界温度から離れた温度で満たされ、定数項は普遍的であるのに対し、比例係数は偶数分割に対して異なることを示す。 We describe a direct approach to estimate bipartite mutual information of a classical spin system based on Monte Carlo sampling enhanced by autoregressive neural networks. It allows studying arbitrary geometries of subsystems and can be generalized to classical field theories. We demonstrate it on the Ising model for four partitionings, including a multiply-connected even-odd division. We show that the area law is satisfied for temperatures away from the critical temperature: the constant term is universal, whereas the proportionality coefficient is different for the even-odd partitioning. | 翻訳日:2023-04-27 14:48:16 公開日:2023-04-26 |
# 中間レベルの摂動減衰による対向移動性の向上 Improving Adversarial Transferability by Intermediate-level Perturbation Decay ( http://arxiv.org/abs/2304.13410v1 ) ライセンス: Link先を確認 | Qizhang Li, Yiwen Guo, Wangmeng Zuo, Hao Chen | (参考訳) 逆方向に従う特徴表現を劇的に摂動させようとする中間レベルの攻撃は、移動可能な逆向きの例を作るのに好成績を示している。
このカテゴリーの既存の方法は、通常2つの別々の段階で定式化され、最初に方向ガイドを決定する必要があり、その後、中間レベル摂動のスカラー投影を方向ガイドに拡大する。
得られた摂動は特徴空間において必然的にガイドから逸脱し,そのような偏差が準最適攻撃につながることが本論文で明らかになった。
この問題に対処するため,一段階の最適化で敵の例を再現する新しい中間レベル手法を開発した。
特に,提案手法は,中間レベルの摂動減衰 (ilpd) と呼ばれ,中間レベルの摂動が効果的に逆向きに進行し,同時に大きなマグニチュードを持つように促している。
本手法の有効性を詳細に検討した。
実験の結果、imagenet(平均+10.07%)とcifar-10(平均3.88%)のさまざまな被害者モデルに対する攻撃において、最先端のマージンを大きく上回っていることがわかった。
私たちのコードはhttps://github.com/qizhangli/ILPD攻撃にあります。 Intermediate-level attacks that attempt to perturb feature representations following an adversarial direction drastically have shown favorable performance in crafting transferable adversarial examples. Existing methods in this category are normally formulated with two separate stages, where a directional guide is required to be determined at first and the scalar projection of the intermediate-level perturbation onto the directional guide is enlarged thereafter. The obtained perturbation deviates from the guide inevitably in the feature space, and it is revealed in this paper that such a deviation may lead to sub-optimal attack. To address this issue, we develop a novel intermediate-level method that crafts adversarial examples within a single stage of optimization. In particular, the proposed method, named intermediate-level perturbation decay (ILPD), encourages the intermediate-level perturbation to be in an effective adversarial direction and to possess a great magnitude simultaneously. In-depth discussion verifies the effectiveness of our method. Experimental results show that it outperforms state-of-the-arts by large margins in attacking various victim models on ImageNet (+10.07% on average) and CIFAR-10 (+3.88% on average). Our code is at https://github.com/qizhangli/ILPD-attack. | 翻訳日:2023-04-27 14:48:09 公開日:2023-04-26 |
# 類似性調音バックプロパゲーションに基づく効率的な説明可能な顔認証 Efficient Explainable Face Verification based on Similarity Score Argument Backpropagation ( http://arxiv.org/abs/2304.13409v1 ) ライセンス: Link先を確認 | Marco Huber, Anh Thi Luu, Philipp Terh\"orst, Naser Damer | (参考訳) セキュリティクリティカルなアプリケーションでは、この技術の利用が根底にあるため、説明可能な顔認識が注目を集めている。
2つの顔画像が、与えられた顔認識システムによってマッチするかどうかを理解することは、オペレータ、ユーザ、開発者にとって、信頼、説明責任の向上、より良いシステムの開発、不公平な行動の強調において重要である。
そこで本研究では,類似点と相似点を示す空間地図を基礎となるFRモデルで解釈した上で,顔マッチング決定を支持したり,反対したりする類似点に基づく議論をバックプロファイリングするxSSABを提案する。
さらに、新しい評価プロトコルとともに、説明可能な顔認識手法における類似性と相似性マップの妥当性の最初の定量的評価を可能にする新しい説明可能な顔検証ベンチマークであるPatch-LFWを提案する。
我々は、効率と性能のトレードオフが優れていることを示す最先端アプローチと比較する。
コードと提案されたPatch-LFWは、https://github.com/marcohuber/xSSABで公開されている。 Explainable Face Recognition is gaining growing attention as the use of the technology is gaining ground in security-critical applications. Understanding why two faces images are matched or not matched by a given face recognition system is important to operators, users, anddevelopers to increase trust, accountability, develop better systems, and highlight unfair behavior. In this work, we propose xSSAB, an approach to back-propagate similarity score-based arguments that support or oppose the face matching decision to visualize spatial maps that indicate similar and dissimilar areas as interpreted by the underlying FR model. Furthermore, we present Patch-LFW, a new explainable face verification benchmark that enables along with a novel evaluation protocol, the first quantitative evaluation of the validity of similarity and dissimilarity maps in explainable face recognition approaches. We compare our efficient approach to state-of-the-art approaches demonstrating a superior trade-off between efficiency and performance. The code as well as the proposed Patch-LFW is publicly available at: https://github.com/marcohuber/xSSAB. | 翻訳日:2023-04-27 14:47:45 公開日:2023-04-26 |
# 多体位相不変およびマヨラナゼロモードに対する量子回路アルゴリズム Quantum-circuit algorithms for many-body topological invariant and Majorana zero mode ( http://arxiv.org/abs/2304.13408v1 ) ライセンス: Link先を確認 | Takanori Sugimoto | (参考訳) 物質のトポロジカルな状態は、短期ノイズの多い中間スケールの量子デバイスを超えた長期的なフォールトトレラント量子コンピュータを実現するための潜在的な資源である。
この実現には、実量子コンピュータにおけるトポロジカルな振る舞いを深く理解する必要がある。
しかし、位相特性を分析する量子回路アルゴリズムはまだ不十分である。
ここでは3つの量子回路アルゴリズムを提案する。
(i)選択したパリティ部分空間の基底状態を見つける。
(ii)多体位相不変量を決定すること、及び
(iii)ゼロエネルギーエッジモードを可視化する。
これらのアルゴリズムを実証するために、相互作用するキタエフ鎖を1次元の多体超伝導体の典型的なモデルとして採用する。
このアルゴリズムは1次元のトポロジカル超伝導体だけでなく、高次元システムを含む他のトポロジカル状態にも適用できる。 The topological state of matter is a potential resource to realize long-term fault-tolerant quantum computers beyond the near-term noisy intermediate-scale quantum devices. To achieve the realization, we need a deep understanding of topological behaviors in real quantum computers. However, quantum-circuit algorithms to analyze topological properties have still been insufficient. Here we propose three quantum-circuit algorithms, (i) to find the ground state in the selected parity subspace, (ii) to determine the many-body topological invariant, and (iii) to visualize the zero-energy edge mode. To demonstrate these algorithms, we adopt the interacting Kitaev chain as a typical model of many-body topological superconductors in one dimension. The algorithms are applicable to not only one-dimensional topological superconductors but other topological states including higher-dimensional systems. | 翻訳日:2023-04-27 14:47:27 公開日:2023-04-26 |
# FedVS: 分割モデルのためのストラグラー耐性とプライバシ保護による垂直的フェデレーション学習 FedVS: Straggler-Resilient and Privacy-Preserving Vertical Federated Learning for Split Models ( http://arxiv.org/abs/2304.13407v1 ) ライセンス: Link先を確認 | Songze Li, Duanyi Yao, Jin Liu | (参考訳) 中央サーバと多くの分散クライアントからなる垂直連合学習(VFL)システムにおいて、トレーニングデータを垂直に分割し、異なる特徴を異なるクライアントにプライベートに格納する。
分割VFLの問題は、サーバとクライアントの間で分割されたモデルをトレーニングすることだ。
本稿では,分割VFLにおける2つの課題に対処することを目的とする。
1) 研修中にクライアントを絞ったことによる性能の低下
2) クライアントがアップロードしたデータ埋め込みからのデータとモデルのプライバシリーク。
我々はこれらの2つの課題に同時に対処するためにFedVSを提案する。
fedvsの鍵となるアイデアは、ローカルデータやモデルのシークレット共有スキームをデザインすることであり、クライアントと好奇心に満ちたサーバに対する情報理論的なプライバシーが保証され、全てのクライアントの埋め込みの集約は、非ストラグリングクライアントから計算共有を復号することで損失なく再構築される。
様々な種類のVFLデータセット(表、CV、マルチビューを含む)に対する大規模な実験は、ベースラインプロトコルに対するトラグラー緩和とプライバシ保護におけるFedVSの普遍的な利点を示している。 In a vertical federated learning (VFL) system consisting of a central server and many distributed clients, the training data are vertically partitioned such that different features are privately stored on different clients. The problem of split VFL is to train a model split between the server and the clients. This paper aims to address two major challenges in split VFL: 1) performance degradation due to straggling clients during training; and 2) data and model privacy leakage from clients' uploaded data embeddings. We propose FedVS to simultaneously address these two challenges. The key idea of FedVS is to design secret sharing schemes for the local data and models, such that information-theoretical privacy against colluding clients and curious server is guaranteed, and the aggregation of all clients' embeddings is reconstructed losslessly, via decrypting computation shares from the non-straggling clients. Extensive experiments on various types of VFL datasets (including tabular, CV, and multi-view) demonstrate the universal advantages of FedVS in straggler mitigation and privacy protection over baseline protocols. | 翻訳日:2023-04-27 14:47:15 公開日:2023-04-26 |
# ノイズレスフォトンエコーを用いた非古典的フォトンペア音源 Nonclassical photon-pair source based on noiseless photon echo ( http://arxiv.org/abs/2304.13444v1 ) ライセンス: Link先を確認 | Duo-Lun Chen, Zong-Quan Zhou, Chuan-Feng Li, and Guang-Can Guo | (参考訳) Duan-Lukin-Cirac-Zoller (DLCZ) スキームは、遠隔の絡み合いを確立し、大規模量子ネットワークを実現するための潜在的手法である。
本稿では、希土類イオンドープ結晶におけるノイズレス光子エコーに基づくDLCZライクなスキームを提案する。
制御可能な遅延を持つ相関光子対は、直接光学的強調によって生成することができる。
理論的解析は、このプロトコルが低光度状態において効率的であることを示している。
このプロトコルは、希土類イオンドープ結晶における光子とスピン波励起の間の長寿命の量子相関を確立するために実現可能である。 The Duan-Lukin-Cirac-Zoller (DLCZ) scheme is a potential method to establish remote entanglements and realize large-scale quantum networks. Here we propose a DLCZ-like scheme based on the noiseless photon echo in rare-earth ion-doped crystals. Correlated photon pairs with a controllable delay can be created by the direct optical rephasing. Theoretical analysis indicates that the protocol is efficient in the low-optical-depth regime. This protocol could be feasibly implemented to establish long-lived quantum correlations between a photon and a spin-wave excitation in rare-earth ion-doped crystals. | 翻訳日:2023-04-27 14:41:40 公開日:2023-04-26 |
# 強化学習を用いた不確実性外乱下におけるメトロシステムのエネルギー効率の最適化 Optimizing Energy Efficiency in Metro Systems Under Uncertainty Disturbances Using Reinforcement Learning ( http://arxiv.org/abs/2304.13443v1 ) ライセンス: Link先を確認 | Haiqin Xie, Cheng Wang, Shicheng Li, Yue Zhang, Shanshan Wang, Xiaoping Lu | (参考訳) 都市交通の分野では、地下鉄は公共交通の重要かつ持続可能な手段となっている。
しかし、その実質的なエネルギー消費は持続可能性の目標に挑戦する。
遅延や乗客の流れの変化などの障害は、メトロシステムのエネルギー効率に悪影響を及ぼすことで、この問題をさらに悪化させる可能性がある。
そこで本研究では,列車の走行時間と走行速度を調整し,外乱下におけるメトロシステムのエネルギー効率を最適化し,メトロタイムテーブルを再スケジュールする政策ベース強化学習手法を提案する。
シミュレーション環境で行った実験は,本手法がベースライン法よりも優れていることを示し,トラクションエネルギーを最大10.9%削減し,再生制動エネルギー利用率を最大47.9%向上させた。
本研究は,都市交通の省エネルギー問題に対する効果的な解決法を提供する。 In the realm of urban transportation, metro systems serve as crucial and sustainable means of public transit. However, their substantial energy consumption poses a challenge to the goal of sustainability. Disturbances such as delays and passenger flow changes can further exacerbate this issue by negatively affecting energy efficiency in metro systems. To tackle this problem, we propose a policy-based reinforcement learning approach that reschedules the metro timetable and optimizes energy efficiency in metro systems under disturbances by adjusting the dwell time and cruise speed of trains. Our experiments conducted in a simulation environment demonstrate the superiority of our method over baseline methods, achieving a traction energy consumption reduction of up to 10.9% and an increase in regenerative braking energy utilization of up to 47.9%. This study provides an effective solution to the energy-saving problem of urban rail transit. | 翻訳日:2023-04-27 14:41:31 公開日:2023-04-26 |
# シリコン量子ドットの高速読み出し・チャージノイズ評価のためのマルチモジュールマイクロ波アセンブリ Multi-module microwave assembly for fast read-out and charge noise characterization of silicon quantum dots ( http://arxiv.org/abs/2304.13442v1 ) ライセンス: Link先を確認 | Felix-Ekkehard von Horstig, David J. Ibberson, Giovanni A. Oakes, Laurence Cochrane, Nadia Stelmashenko, Sylvain Barraud, Jason A. W. Robinson, Frederico Martins, and M. Fernando Gonzalez-Zalba | (参考訳) 量子デバイスの高速測定は、量子センシング、量子コンピューティング、ナノデバイスの品質分析などの分野で重要である。
そこで我々は, 超伝導体-半導体多モジュールマイクロ波アセンブリを開発した。
集積体は、量子ドット(qds)を含むシリコンオン絶縁体(soi)チップレットと高$\kappa$ナノワイヤトランジスタを接合した超伝導読み出し共振器からなる。
超伝導チップレットは、共振素子と結合素子とlc$フィルタとを含み、シリコンチップと接続すると共振周波数$f=2.12$~ghz、負荷品質係数$q=680$、共振器インピーダンス$z=470$〜$\omega$となる。
我々はSOI技術のゲートレバーアームと組み合わせて、それぞれ2.77~nsと13.5~nsのQD遷移の最小積分時間を達成した。
我々は、このアセンブリを用いて、最大500〜kHzまでの9年間の周波数で電荷ノイズを測定し、周波数スペクトル全体の1/f$依存性と、電荷ノイズレベルが4~$\mu$eV/$\sqrt{\text{Hz}}$の1〜Hzを求める。
ここで示されるモジュラーマイクロ波回路は、他の量子デバイスと共に直接利用することができ、読み出し性能を向上させるとともに、超伝導-半導体モノリシック製造の複雑さなしに、大きな帯域幅のノイズスペクトロスコピーを可能にする。 Fast measurements of quantum devices is important in areas such as quantum sensing, quantum computing and nanodevice quality analysis. Here, we develop a superconductor-semiconductor multi-module microwave assembly to demonstrate charge state readout at the state-of-the-art. The assembly consist of a superconducting readout resonator interfaced to a silicon-on-insulator (SOI) chiplet containing quantum dots (QDs) in a high-$\kappa$ nanowire transistor. The superconducting chiplet contains resonant and coupling elements as well as $LC$ filters that, when interfaced with the silicon chip, result in a resonant frequency $f=2.12$~GHz, a loaded quality factor $Q=680$, and a resonator impedance $Z=470$~$\Omega$. Combined with the large gate lever arms of SOI technology, we achieve a minimum integration time for single and double QD transitions of 2.77~ns and 13.5~ns, respectively. We utilize the assembly to measure charge noise over 9 decades of frequency up to 500~kHz and find a 1/$f$ dependence across the whole frequency spectrum as well as a charge noise level of 4~$\mu$eV/$\sqrt{\text{Hz}}$ at 1~Hz. The modular microwave circuitry presented here can be directly utilized in conjunction with other quantum device to improve the readout performance as well as enable large bandwidth noise spectroscopy, all without the complexity of superconductor-semiconductor monolithic fabrication. | 翻訳日:2023-04-27 14:41:18 公開日:2023-04-26 |
# 深部ニューラルネットワークのための暗黙の対実データ拡張 Implicit Counterfactual Data Augmentation for Deep Neural Networks ( http://arxiv.org/abs/2304.13431v1 ) ライセンス: Link先を確認 | Xiaoling Zhou, Ou Wu | (参考訳) 機械学習モデルは、非causal属性とクラスの間のスプリアス相関を捉える傾向にあり、偽データ拡張はこれらのスプリアス関連を破る有望な方向である。
しかしながら、トレーニング効率が低下する中で、反事実データを明確に生成することは困難である。
そこで本研究では,突発的相関を除去し,安定した予測を行う暗黙の反事実データ拡張法を提案する。
具体的には,まず,各試料に対して異なる加重強度を有する意味的かつ反実有意義な深層特徴を生成できる新しい加重戦略を開発した。
第2に、拡張サンプルの数が無限になれば、拡張特徴集合上で簡単に計算可能なサロゲート損失を導出する。
第3に、ロバストな損失の鍵となるパラメータを導出するために、直接定量化とメタラーニングを含む2つの具体的なスキームを提案する。
さらに,本手法は,分散一般化を必要とする複数の典型的な学習シナリオにおいて,一般的な奥行きネットワークの一般化性能を一貫して向上させることを示す広範な実験によって,正規化の観点から説明されている。 Machine-learning models are prone to capturing the spurious correlations between non-causal attributes and classes, with counterfactual data augmentation being a promising direction for breaking these spurious associations. However, explicitly generating counterfactual data is challenging, with the training efficiency declining. Therefore, this study proposes an implicit counterfactual data augmentation (ICDA) method to remove spurious correlations and make stable predictions. Specifically, first, a novel sample-wise augmentation strategy is developed that generates semantically and counterfactually meaningful deep features with distinct augmentation strength for each sample. Second, we derive an easy-to-compute surrogate loss on the augmented feature set when the number of augmented samples becomes infinite. Third, two concrete schemes are proposed, including direct quantification and meta-learning, to derive the key parameters for the robust loss. In addition, ICDA is explained from a regularization aspect, with extensive experiments indicating that our method consistently improves the generalization performance of popular depth networks on multiple typical learning scenarios that require out-of-distribution generalization. | 翻訳日:2023-04-27 14:40:46 公開日:2023-04-26 |
# genIE-NF-AI:AACR GENIEデータセットをトレーニングしたLiquid Neural Network (LTC) を用いた神経線維腫症腫瘍の同定 GENIE-NF-AI: Identifying Neurofibromatosis Tumors using Liquid Neural Network (LTC) trained on AACR GENIE Datasets ( http://arxiv.org/abs/2304.13429v1 ) ライセンス: Link先を確認 | Michael Bidollahkhani, Ferhat Atasoy, Elnaz Abedini, Ali Davar, Omid Hamza, F{\i}rat Sefao\u{g}lu, Amin Jafari, Muhammed Nadir Yal\c{c}{\i}n, Hamdan Abdellatef | (参考訳) 近年、医療分野は、より高速で正確な疾患の検出、予測、評価を提供するために、人工知能(AI)技術の採用が増えている。
本研究では血液検査と病原性変数を用いて神経線維腫症を診断するための解釈可能なAIアプローチを提案する。
AACR GENIEプロジェクトのデータセットを用いて提案手法の評価を行い,その性能を現代の手法と比較した。
提案手法は,99.86%の精度で既存モデルを上回った。
また、NF1および解釈可能なAIテストを実施し、アプローチを検証する。
本研究は,ブラックボックスモデルと同様にロジスティック回帰と説明的刺激を用いた説明可能なアプローチモデルを提供する。
説明可能なモデルはブラックボックスモデルの予測を説明するのに役立ち、ガラスボックスモデルは最適な機能に関する情報を提供する。
本研究は,神経線維腫症患者に対する解釈可能なAIアプローチを示し,医療分野におけるAIの可能性を示す。 In recent years, the field of medicine has been increasingly adopting artificial intelligence (AI) technologies to provide faster and more accurate disease detection, prediction, and assessment. In this study, we propose an interpretable AI approach to diagnose patients with neurofibromatosis using blood tests and pathogenic variables. We evaluated the proposed method using a dataset from the AACR GENIE project and compared its performance with modern approaches. Our proposed approach outperformed existing models with 99.86% accuracy. We also conducted NF1 and interpretable AI tests to validate our approach. Our work provides an explainable approach model using logistic regression and explanatory stimulus as well as a black-box model. The explainable models help to explain the predictions of black-box models while the glass-box models provide information about the best-fit features. Overall, our study presents an interpretable AI approach for diagnosing patients with neurofibromatosis and demonstrates the potential of AI in the medical field. | 翻訳日:2023-04-27 14:40:30 公開日:2023-04-26 |
# セマンティックセグメンテーションにおける補償学習 Compensation Learning in Semantic Segmentation ( http://arxiv.org/abs/2304.13428v1 ) ライセンス: Link先を確認 | Timo Kaiser, Christoph Reinders, Bodo Rosenhahn | (参考訳) 類似クラス間のラベルノイズとあいまいさは、新しいモデルの開発や意味セグメンテーションのための新しいデータへの注釈付けにおいて困難な問題である。
本稿では,ラベル雑音だけでなくあいまいさを識別・補償する枠組みである意味セグメンテーションにおける補償学習を提案する。
より具体的には、分類ロジットに基礎的真理と世界的学習バイアスを加え、ニューラルネットワークが関連する領域にのみ補償バイアスを誘導する新たな不確実性分岐を導入する。
提案手法は最先端のセグメンテーションフレームワークに採用され,提案手法はクラス間関係を学習し,難解なあいまいさをグローバルに識別し,その後のラベルノイズの正確な局所化を可能にする。
さらに、トレーニング中のラベルノイズに対する堅牢性を拡大し、推論中のターゲット指向操作を可能にする。
提案手法は,Cityscapes,KITTI-STEP,ADE20k,COCO-stuff10kで広く利用されている。 Label noise and ambiguities between similar classes are challenging problems in developing new models and annotating new data for semantic segmentation. In this paper, we propose Compensation Learning in Semantic Segmentation, a framework to identify and compensate ambiguities as well as label noise. More specifically, we add a ground truth depending and globally learned bias to the classification logits and introduce a novel uncertainty branch for neural networks to induce the compensation bias only to relevant regions. Our method is employed into state-of-the-art segmentation frameworks and several experiments demonstrate that our proposed compensation learns inter-class relations that allow global identification of challenging ambiguities as well as the exact localization of subsequent label noise. Additionally, it enlarges robustness against label noise during training and allows target-oriented manipulation during inference. We evaluate the proposed method on %the widely used datasets Cityscapes, KITTI-STEP, ADE20k, and COCO-stuff10k. | 翻訳日:2023-04-27 14:40:15 公開日:2023-04-26 |
# 学習不要位置対応テキスト・画像合成 Training-Free Location-Aware Text-to-Image Synthesis ( http://arxiv.org/abs/2304.13427v1 ) ライセンス: Link先を確認 | Jiafeng Mao, Xueting Wang | (参考訳) 現在の大規模生成モデルでは、テキストプロンプトに基づいて高品質な画像を生成するのに素晴らしい効率がある。
しかし、生成された画像内のオブジェクトのサイズと位置を正確に制御する能力は欠如している。
本研究では,安定拡散モデルの生成機構を分析し,新たな対話型生成パラダイムを提案する。
さらに,位置認識生成タスクの制御能力を評価するためのオブジェクト検出に基づく評価指標を提案する。
実験の結果,本手法は制御能力と画質の両方において最先端の手法よりも優れていることがわかった。 Current large-scale generative models have impressive efficiency in generating high-quality images based on text prompts. However, they lack the ability to precisely control the size and position of objects in the generated image. In this study, we analyze the generative mechanism of the stable diffusion model and propose a new interactive generation paradigm that allows users to specify the position of generated objects without additional training. Moreover, we propose an object detection-based evaluation metric to assess the control capability of location aware generation task. Our experimental results show that our method outperforms state-of-the-art methods on both control capacity and image quality. | 翻訳日:2023-04-27 14:39:48 公開日:2023-04-26 |
# flex: 非線形システムに対する適応探索アルゴリズム FLEX: an Adaptive Exploration Algorithm for Nonlinear Systems ( http://arxiv.org/abs/2304.13426v1 ) ライセンス: Link先を確認 | Matthieu Blanke and Marc Lelarge | (参考訳) モデルベースの強化学習は強力なツールですが、システムの正確なモデルに適合するデータ収集にはコストがかかります。
未知の環境をサンプル効率良く探索することは非常に重要である。
しかし、力学の複雑さと実システムの計算限界は、この課題を難しくしている。
本研究では,最適実験設計に基づく非線形力学探索アルゴリズムFLEXを紹介する。
当社のポリシーは,次のステップに関する情報を最大化し,適応的探索アルゴリズムとして汎用的パラメトリック学習モデルに適合し,最小のリソースを必要とする。
我々は,時間変動ダイナミクスを含む様々な設定の非線形環境において,この手法をテストした。
探索が搾取の目的を果たすことを念頭に置いて、下流モデルベースの古典的制御タスクでアルゴリズムをテストし、他の最先端モデルベースおよびモデルフリーアプローチと比較する。
FLEXによる性能は競争力があり、計算コストも低い。 Model-based reinforcement learning is a powerful tool, but collecting data to fit an accurate model of the system can be costly. Exploring an unknown environment in a sample-efficient manner is hence of great importance. However, the complexity of dynamics and the computational limitations of real systems make this task challenging. In this work, we introduce FLEX, an exploration algorithm for nonlinear dynamics based on optimal experimental design. Our policy maximizes the information of the next step and results in an adaptive exploration algorithm, compatible with generic parametric learning models and requiring minimal resources. We test our method on a number of nonlinear environments covering different settings, including time-varying dynamics. Keeping in mind that exploration is intended to serve an exploitation objective, we also test our algorithm on downstream model-based classical control tasks and compare it to other state-of-the-art model-based and model-free approaches. The performance achieved by FLEX is competitive and its computational cost is low. | 翻訳日:2023-04-27 14:39:28 公開日:2023-04-26 |
# 学習可能な眼科サム Learnable Ophthalmology SAM ( http://arxiv.org/abs/2304.13425v1 ) ライセンス: Link先を確認 | Zhongxi Qiu and Yan Hu and Heng Li and Jiang Liu | (参考訳) セグメンテーションは眼科画像解析に不可欠である。
しかし、その様々なモーダル画像は既存のセグメンテーションアルゴリズムのほとんどを妨げ、多くのラベルに基づくトレーニングや弱い一般化能力に頼っている。
本稿では,Segment Anything (SAM)に基づいて,Segment Anything (SAM) と命名された眼科画像の多目的セグメンテーションに適した,単純かつ効果的に学習可能なプロンプト層を提案する。
学習可能なプロンプト層は、各トランス層から医学的事前知識を学習する。
トレーニング中は、ワンショットメカニズムに基づいてプロンプト層とタスクヘッドのみをトレーニングします。
9つの公開データセットに基づく4つの医療区分タスクに基づく思考の有効性を実証する。
また,既存の基本cvモデルを医療分野に適用するための新たな改善案を提示するのみである。
我々のコードは \href{https://github.com/Qsingle/LearnablePromptSAM}{website} で利用可能です。 Segmentation is vital for ophthalmology image analysis. But its various modal images hinder most of the existing segmentation algorithms applications, as they rely on training based on a large number of labels or hold weak generalization ability. Based on Segment Anything (SAM), we propose a simple but effective learnable prompt layer suitable for multiple target segmentation in ophthalmology multi-modal images, named Learnable Ophthalmology Segment Anything (SAM). The learnable prompt layer learns medical prior knowledge from each transformer layer. During training, we only train the prompt layer and task head based on a one-shot mechanism. We demonstrate the effectiveness of our thought based on four medical segmentation tasks based on nine publicly available datasets. Moreover, we only provide a new improvement thought for applying the existing fundamental CV models in the medical field. Our codes are available at \href{https://github.com/Qsingle/LearnablePromptSAM}{website}. | 翻訳日:2023-04-27 14:39:05 公開日:2023-04-26 |
# エージェントはストランガーでレースをリレーできるのか?
分布外軌道へのRLの一般化 Can Agents Run Relay Race with Strangers? Generalization of RL to Out-of-Distribution Trajectories ( http://arxiv.org/abs/2304.13424v1 ) ライセンス: Link先を確認 | Li-Cheng Lan, Huan Zhang, Cho-Jui Hsieh | (参考訳) 本稿では,'relay-generalization'状態における強化学習(rl)エージェントの性能を定義し,評価し,改善する。
理想的には、タスクをマスターするRLエージェントは、小さなトラジェクトリのセットを記憶するのではなく、環境の制御可能な状態から始まる目標を達成するべきである。
例えば、自動運転システムは、運転中に人間の制御を乗っ取り、安全に運転し続けなければならない。
このような一般化を現実的に評価するために、テストエージェントは独立に訓練された他の 'emph{stranger} エージェントの軌道の中間から開始する。
実験的評価により,異種エージェントの制御可能な状態に対する \emph{ Generalization failure} の有病率を示す。
例えば, ヒューマノイド環境では, 訓練された近位政策最適化 (ppo) エージェントは, 正常なテスト中に3.9\%の失敗率しか得られず, 訓練された知らないppoエージェントによって生成された状態の81.6\%で失敗した。
遅延一般化」を改善するために,学習中のQ関数に従ってエージェントの旧状態に環境をリセットする,STA(Self-Trajectory Augmentation)と呼ばれる新しい手法を提案する。
STAをSoft Actor Critic(SAC)トレーニング手順に適用した後、エージェント性能に影響を与えることなくリレー評価時のSACの故障率を3倍以上に削減し、必要な環境相互作用数を増大させた。
私たちのコードはhttps://github.com/lan-lc/staで利用可能です。 In this paper, we define, evaluate, and improve the ``relay-generalization'' performance of reinforcement learning (RL) agents on the out-of-distribution ``controllable'' states. Ideally, an RL agent that generally masters a task should reach its goal starting from any controllable state of the environment instead of memorizing a small set of trajectories. For example, a self-driving system should be able to take over the control from humans in the middle of driving and must continue to drive the car safely. To practically evaluate this type of generalization, we start the test agent from the middle of other independently well-trained \emph{stranger} agents' trajectories. With extensive experimental evaluation, we show the prevalence of \emph{generalization failure} on controllable states from stranger agents. For example, in the Humanoid environment, we observed that a well-trained Proximal Policy Optimization (PPO) agent, with only 3.9\% failure rate during regular testing, failed on 81.6\% of the states generated by well-trained stranger PPO agents. To improve "relay generalization," we propose a novel method called Self-Trajectory Augmentation (STA), which will reset the environment to the agent's old states according to the Q function during training. After applying STA to the Soft Actor Critic's (SAC) training procedure, we reduced the failure rate of SAC under relay-evaluation by more than three times in most settings without impacting agent performance and increasing the needed number of environment interactions. Our code is available at https://github.com/lan-lc/STA. | 翻訳日:2023-04-27 14:38:40 公開日:2023-04-26 |
# 複数アノテーションを用いた画像分割における潜時空間分布の影響 Effect of latent space distribution on the segmentation of images with multiple annotations ( http://arxiv.org/abs/2304.13476v1 ) ライセンス: Link先を確認 | Ishaan Bhat and Josien P.W. Pluim and Max A. Viergever and Hugo J. Kuijf | (参考訳) 本稿では、ガウス分布のより一般的な形式を、参照セグメンテーションの不確実性をよりよく近似できる潜在空間分布として許容することにより、確率的U-ネットを拡張する一般化確率的U-Netを提案する。
脳内の肺腫瘍および白質過大度の基準セグメンテーションの変動を捉えるために,潜時空間分布の選択が与える影響について検討した。
本研究では,分布の選択が,参照セグメンテーションに対する予測と重なり合いのサンプル多様性に影響を与えることを示す。
私たちは実装をhttps://github.com/ishaanb92/GeneralizedProbabilisticUNetで公開しました。 We propose the Generalized Probabilistic U-Net, which extends the Probabilistic U-Net by allowing more general forms of the Gaussian distribution as the latent space distribution that can better approximate the uncertainty in the reference segmentations. We study the effect the choice of latent space distribution has on capturing the variation in the reference segmentations for lung tumors and white matter hyperintensities in the brain. We show that the choice of distribution affects the sample diversity of the predictions and their overlap with respect to the reference segmentations. We have made our implementation available at https://github.com/ishaanb92/GeneralizedProbabilisticUNet | 翻訳日:2023-04-27 14:31:03 公開日:2023-04-26 |
# opdn:全方位画像超解像のための全方位位置認識変形ネットワーク OPDN: Omnidirectional Position-aware Deformable Network for Omnidirectional Image Super-Resolution ( http://arxiv.org/abs/2304.13471v1 ) ライセンス: Link先を確認 | Xiaopeng Sun and Weiqi Li and Zhenyu Zhang and Qiufang Ma and Xuhan Sheng and Ming Cheng and Haoyu Ma and Shijie Zhao and Jian Zhang and Junlin Li and Li Zhang | (参考訳) 360{\deg} 全方位画像は没入的かつインタラクティブな体験、特にAR/VRアプリケーションにおいて研究の注目を集めている。
しかし、魚眼レンズが平面像を撮影するために同じセンサーサイズで捉えたため、角分解能の低下に悩まされる。
そこで本稿では,360{\deg}全方位画像超解像のための2段階フレームワークを提案する。
第1段階では、全方位位置認識可能な変形可能なブロック(opdb)とフーリエアップサンプリング(fourier upsampling)を組み込んだモデルaと、モデルaに空間周波数融合モジュール(sff)を追加するモデルbの2つのブランチを用いる。
第2段は、画素アンシャッフル動作を有するモデルAの構造に基づいて同分解能向上を行う。
また,変換器の適合性を向上させるためにyoutubeからデータを収集し,劣化ネットワークを用いて擬似低解像度画像を作成した。
提案手法は,360{\deg} の全方位画像超解像における NTIRE 2023 チャレンジに勝っている。 360{\deg} omnidirectional images have gained research attention due to their immersive and interactive experience, particularly in AR/VR applications. However, they suffer from lower angular resolution due to being captured by fisheye lenses with the same sensor size for capturing planar images. To solve the above issues, we propose a two-stage framework for 360{\deg} omnidirectional image superresolution. The first stage employs two branches: model A, which incorporates omnidirectional position-aware deformable blocks (OPDB) and Fourier upsampling, and model B, which adds a spatial frequency fusion module (SFF) to model A. Model A aims to enhance the feature extraction ability of 360{\deg} image positional information, while Model B further focuses on the high-frequency information of 360{\deg} images. The second stage performs same-resolution enhancement based on the structure of model A with a pixel unshuffle operation. In addition, we collected data from YouTube to improve the fitting ability of the transformer, and created pseudo low-resolution images using a degradation network. Our proposed method achieves superior performance and wins the NTIRE 2023 challenge of 360{\deg} omnidirectional image super-resolution. | 翻訳日:2023-04-27 14:30:51 公開日:2023-04-26 |
# 自己組織化マップ(soms)を用いたプラスミド不安定性の非教師なしシミュレーションの分類 Unsupervised classification of fully kinetic simulations of plasmoid instability using Self-Organizing Maps (SOMs) ( http://arxiv.org/abs/2304.13469v1 ) ライセンス: Link先を確認 | Sophia K\"ohne, Elisabetta Boella, Maria Elena Innocenti | (参考訳) シミュレーションや宇宙物理プロセスの観測によって生成されるデータの量の増加は、データ分析と物理発見に機械学習に根ざした手法の使用を促進する。
自己組織化マップ (som) に基づくクラスタリング手法を, プラスミド不安定性の完全なシミュレーションに応用し, シミュレーションデータと観測データの両方について, 信頼性の高い解析ツールとして評価することを目的とした。
クラスターは、流入領域、内プラスモイド領域、分離領域、およびプラスモイドのマージに関連する領域を明確に識別する。
特徴写像や統一距離行列のようなSOM固有の分析ツールは、仕事における物理学と特定の空間領域の両方について貴重な洞察を提供する。
この方法は、シミュレーションと観測の両方からのデータ分析に有望な選択肢として見え、宇宙シミュレーションのために異なるシミュレーションモデルや結合コードでの分解能への切り替えをトリガーする可能性も考えられる。 The growing amount of data produced by simulations and observations of space physics processes encourages the use of methods rooted in Machine Learning for data analysis and physical discovery. We apply a clustering method based on Self-Organizing Maps (SOM) to fully kinetic simulations of plasmoid instability, with the aim of assessing its suitability as a reliable analysis tool for both simulated and observed data. We obtain clusters that map well, a posteriori, to our knowledge of the process: the clusters clearly identify the inflow region, the inner plasmoid region, the separatrices, and regions associated with plasmoid merging. SOM-specific analysis tools, such as feature maps and Unified Distance Matrix, provide one with valuable insights into both the physics at work and specific spatial regions of interest. The method appears as a promising option for the analysis of data, both from simulations and from observations, and could also potentially be used to trigger the switch to different simulation models or resolution in coupled codes for space simulations. | 翻訳日:2023-04-27 14:30:30 公開日:2023-04-26 |
# 離散$\infty$-Optimal Transport問題に対する多項式時間解法 Polynomial-Time Solvers for the Discrete $\infty$-Optimal Transport Problems ( http://arxiv.org/abs/2304.13467v1 ) ライセンス: Link先を確認 | Meyer Scetbon | (参考訳) 本稿では,離散および有限設定における$\infty$-optimal transport 問題のmonge および kantorovich 定式化を解く多項式時間アルゴリズムを提案する。
我々の知る限り、これらの問題の効率的な数値手法が提案されているのは初めてである。 In this note, we propose polynomial-time algorithms solving the Monge and Kantorovich formulations of the $\infty$-optimal transport problem in the discrete and finite setting. It is the first time, to the best of our knowledge, that efficient numerical methods for these problems have been proposed. | 翻訳日:2023-04-27 14:30:13 公開日:2023-04-26 |
# シカゴ市における犯罪種別予測手法の比較分析 A Comparative Analysis of Multiple Methods for Predicting a Specific Type of Crime in the City of Chicago ( http://arxiv.org/abs/2304.13464v1 ) ライセンス: Link先を確認 | Deborah Djon, Jitesh Jhawar, Kieron Drumm, and Vincent Tran | (参考訳) 研究者は犯罪をいくつかの物理的、社会的、経済的要因に影響される社会現象と見なしている。
犯罪の種類によって動機が異なるとされる。
例えば、盗難は機会に基づく犯罪であり、殺人は感情によって引き起こされる。
そこで本研究では,1つの犯罪の予測に関して,時空間情報のみを手元に有するモデルの性能について検討する。
具体的には、時空間情報を用いて予測可能な犯罪であるため、盗難を予測することを目的としている。
我々は「空間的・時間的特徴を用いて盗難をどの程度予測できるか」という問いに答えようとしている。
この問題に対処するために, 異なる不均衡手法とハイパーパラメータを用いて, 支持ベクトルマシン, 線形回帰, XGBoost, ランダムフォレスト, k-アネレスト近傍の有効性を検討した。
XGBoostはF1スコア0.86で最高の結果を示した。 Researchers regard crime as a social phenomenon that is influenced by several physical, social, and economic factors. Different types of crimes are said to have different motivations. Theft, for instance, is a crime that is based on opportunity, whereas murder is driven by emotion. In accordance with this, we examine how well a model can perform with only spatiotemporal information at hand when it comes to predicting a single crime. More specifically, we aim at predicting theft, as this is a crime that should be predictable using spatiotemporal information. We aim to answer the question: "How well can we predict theft using spatial and temporal features?". To answer this question, we examine the effectiveness of support vector machines, linear regression, XGBoost, Random Forest, and k-nearest neighbours, using different imbalanced techniques and hyperparameters. XGBoost showed the best results with an F1-score of 0.86. | 翻訳日:2023-04-27 14:30:07 公開日:2023-04-26 |
# ChatGPTを用いたテキストスタイル変換の多次元評価 Multidimensional Evaluation for Text Style Transfer Using ChatGPT ( http://arxiv.org/abs/2304.13462v1 ) ライセンス: Link先を確認 | Huiyuan Lai, Antonio Toral, Malvina Nissim | (参考訳) 本研究では,多次元評価器としてのchatgptの可能性について検討し,既存の自動計測と人間の判断との比較を行った。
筆者らは,ChatGPTに特定のタスク命令を指示するゼロショット設定に焦点を合わせ,その性能を3次元のテキストスタイル転送評価(スタイル強度,コンテンツ保存,流速)で検証する。
異なるレベルで2つの転送方向(および全体)について包括的相関解析を行う。
既存の自動指標と比較して、ChatGPTは人間の判断と競合する相関を達成している。
これらの予備的な結果は、スタイリングされたテキスト生成の多次元評価において、大規模言語モデルの役割を初めて垣間見ることが期待される。 We investigate the potential of ChatGPT as a multidimensional evaluator for the task of \emph{Text Style Transfer}, alongside, and in comparison to, existing automatic metrics as well as human judgements. We focus on a zero-shot setting, i.e. prompting ChatGPT with specific task instructions, and test its performance on three commonly-used dimensions of text style transfer evaluation: style strength, content preservation, and fluency. We perform a comprehensive correlation analysis for two transfer directions (and overall) at different levels. Compared to existing automatic metrics, ChatGPT achieves competitive correlations with human judgments. These preliminary results are expected to provide a first glimpse into the role of large language models in the multidimensional evaluation of stylized text generation. | 翻訳日:2023-04-27 14:29:52 公開日:2023-04-26 |
# モノリシックバルクpKTP空洞における低雑音量子周波数変換 Low-noise quantum frequency conversion in a monolithic bulk ppKTP cavity ( http://arxiv.org/abs/2304.13459v1 ) ライセンス: Link先を確認 | Felix Mann, Felipe Gewers, Marlon Placke, Helen M. Chrzanowski, Sven Ramelow | (参考訳) 将来の大規模量子ネットワークの異なるビルディングブロックのインターフェイスは、効率良くノイズのない量子光の周波数変換を必要とする。
ダイヤモンド中の窒素空孔(NV)中心は、そのようなネットワークのノードを形成する主要な候補である。
しかし, 既往の実証実験は, 目標通信波長で発生する寄生雑音によって著しく制限されているため, 適切なコンバータの性能は依然としてボトルネックである。
本稿では,モノリシックなバルクppktpキャビティに基づく高効率な低ノイズ量子周波数変換のための新しいプラットフォームを示し,ダイヤモンド中のnv中心から通信波長への637nm単一光子変換に適していることを示す。
オフザシェルフポンプレーザーの出力を共鳴的に高めることにより、アクティブ安定化を必要とせず、ターゲット波長で(110\pm 4) \mbox{ kHz/nm}$のみを発生させながら、内部変換効率が$(72.3\pm 0.4)\%となる。
これは、この波長での既存の最先端のシングルステップ変換器に対する5倍のノイズ改善である。
自発的なパラメトリックダウン変換源から光子を変換することで非古典的相関のほぼ理想的保存を検証し、さらにフランソン干渉法による時間エネルギーの絡み合いの保存を示す。 Interfacing the different building blocks of a future large scale quantum network will demand efficient and noiseless frequency conversion of quantum light. Nitrogen-vacancy (NV) centers in diamond are a leading candidate to form the nodes of such a network. However, the performance of a suitable converter remains a bottleneck, with existing demonstrations severely limited by parasitic noise arising at the target telecom wavelength. Here, we demonstrate a new platform for efficient low-noise quantum frequency conversion based on a monolithic bulk ppKTP cavity and show its suitability for the conversion of 637 nm single photons from NV centers in diamond to telecommunication wavelengths. By resonantly enhancing the power of an off-the-shelf pump laser, we achieve an internal conversion efficiency of $(72.3\pm 0.4)\%$ while generating only $(110\pm 4) \mbox{ kHz/nm}$ noise at the target wavelength without the need for any active stabilization. This constitutes a 5-fold improvement in noise over existing state-of-the-art single-step converters at this wavelengths. We verify the almost ideal preservation of non-classical correlations by converting photons from a spontaneous parametric down-conversion source and moreover show the preservation of time-energy entanglement via Franson interferometry. | 翻訳日:2023-04-27 14:29:40 公開日:2023-04-26 |
# From Chaos Comes Order: オブジェクト検出のためのイベント表現の順序付け From Chaos Comes Order: Ordering Event Representations for Object Detection ( http://arxiv.org/abs/2304.13455v1 ) ライセンス: Link先を確認 | Nikola Zubi\'c, Daniel Gehrig, Mathias Gehrig, Davide Scaramuzza | (参考訳) 今日では、イベントを処理する最先端のディープニューラルネットワークは、まずそれらを、オフザシェルフネットワークを使用する前に、密度の高いグリッドのような入力表現に変換する。
しかし、伝統的にタスクの適切な表現を選択するには、各表現のためのニューラルネットワークをトレーニングし、検証スコアに基づいて最適なものを選択する必要がある。
本研究では,Gromov-Wasserstein Discrepancy (GWD) に基づいた表現を生イベントとそれらの表現の間で選択することで,このボトルネックを解消する。
ニューラルネットワークのトレーニングよりも計算が約200倍高速で、複数の表現、ネットワークバックボーン、データセットにわたるイベント表現のタスクパフォーマンスランキングを保存する。
つまり、高いタスクスコアを持つ表現を見つけることは、低いGWDを持つ表現を見つけることと等価である。
私たちはこの洞察を初めて、大きなイベント表現のファミリーでハイパーパラメータ検索を実行し、最先端を超えた新しい強力な表現を明らかにするために使用します。
オブジェクト検出において、最適化された表現は、1Mpxデータセットでは1.9% mAP、Gen1データセットでは8.6% mAP、Gen1では1.8% mAP、そして1Mpxデータセットでは6.0% mAPの最先端フィードフォワードメソッドでは、既存の表現よりも優れています。
この研究は、イベントベース学習手法の明示的表現最適化の新しい未探索分野を開く。 Today, state-of-the-art deep neural networks that process events first convert them into dense, grid-like input representations before using an off-the-shelf network. However, selecting the appropriate representation for the task traditionally requires training a neural network for each representation and selecting the best one based on the validation score, which is very time-consuming. In this work, we eliminate this bottleneck by selecting the best representation based on the Gromov-Wasserstein Discrepancy (GWD) between the raw events and their representation. It is approximately 200 times faster to compute than training a neural network and preserves the task performance ranking of event representations across multiple representations, network backbones, and datasets. This means that finding a representation with a high task score is equivalent to finding a representation with a low GWD. We use this insight to, for the first time, perform a hyperparameter search on a large family of event representations, revealing new and powerful representations that exceed the state-of-the-art. On object detection, our optimized representation outperforms existing representations by 1.9% mAP on the 1 Mpx dataset and 8.6% mAP on the Gen1 dataset and even outperforms the state-of-the-art by 1.8% mAP on Gen1 and state-of-the-art feed-forward methods by 6.0% mAP on the 1 Mpx dataset. This work opens a new unexplored field of explicit representation optimization for event-based learning methods. | 翻訳日:2023-04-27 14:29:13 公開日:2023-04-26 |
# SiCの固体量子技術における完全スクリュー転位の可能性の評価 Assessing the potential of perfect screw dislocations in SiC for solid-state quantum technologies ( http://arxiv.org/abs/2304.13449v1 ) ライセンス: Link先を確認 | Daniel Barragan-Yani, Ludger Wirtz | (参考訳) 固体の点欠陥は機能する量子ビットを構築する上で最も有望な物理システムであるが、それらを決定論的配列に配置し、それらを大きなネットワークに統合することは依然として困難である。
高度な ab initio 計算により, 3c-sic 内の非解離スクリュー転位とそれに関連するひずみ場は, 関連する点欠陥の決定論的パターンを作成できることを示した。
具体的には, このタイプの転位近傍に位置する3C-SiCにおける空孔形成エネルギーと電子構造について詳細に解析する。
以上の結果から, スクリュー転位のコア内の特定の部位と同等の部位に対して, 空隙が強く引き寄せられ, それらに沿って1次元の配列が形成されることがわかった。
さらに, 電子状態の位置や電荷遷移レベルを変調することで, 希薄性を引き付けるのと同じひずみが生じることを示す。
中性分断の場合、これらの変調は量子ビットとしてのポテンシャルの損失をもたらすことが分かる。
しかし、これら同じ変調は、バルクにある場合の量子ビットのようなポテンシャルのない欠陥を、スクリュー転位の中心に位置する場合の有望な欠陥に変換する可能性がある。
転位はいまだに有害な欠陥と見なされているため、将来の欠陥ベースの量子コンピュータにおいて転位がアクティブな構成要素として使用できることを示す技術的飛躍を示している。 Although point defects in solids are one of the most promising physical systems to build functioning qubits, it remains challenging to position them in a deterministic array and to integrate them into large networks. By means of advanced ab initio calculations we show that undissociated screw dislocations in cubic 3C-SiC, and their associated strain fields, could be used to create a deterministic pattern of relevant point defects. Specifically, we present a detailed analysis of the formation energies and electronic structure of the divacancy in 3C-SiC when located in the vicinity of this type of dislocations. Our results show that the divacancy is strongly attracted towards specific and equivalent sites inside the core of the screw dislocations, and would form a one-dimensional arrays along them. Furthermore, we show that the same strain that attracts the divacancy allows the modulation of the position of its electronic states and of its charge transition levels. In the case of the neutral divacancy, we find that these modulations result in the loss of its potential as a qubit. However, these same modulations could transform defects with no potential as qubits when located in bulk, into promising defects when located inside the core of the screw dislocations. Since dislocations are still mostly perceived as harmful defects, our findings represent a technological leap as they show that dislocations can be used as active building blocks in future defect-based quantum computers. | 翻訳日:2023-04-27 14:28:44 公開日:2023-04-26 |
# 形状, 材料, 照明のニューラルPBIR再構成 Neural-PBIR Reconstruction of Shape, Material, and Illumination ( http://arxiv.org/abs/2304.13445v1 ) ライセンス: Link先を確認 | Cheng Sun, Guangyan Cai, Zhengqin Li, Kai Yan, Cheng Zhang, Carl Marshall, Jia-Bin Huang, Shuang Zhao, Zhao Dong | (参考訳) 物体の2d画像(例えば写真)に基づく物理世界の物体の形状と空間的に変化する表面の外観の再構築は、コンピュータビジョンやグラフィックスにおいて長年の課題となっている。
本稿では,ニューラルベースオブジェクト再構成と物理ベースの逆レンダリング(pbir)を組み合わせたロバストなオブジェクト再構成パイプラインを提案する。
具体的には、パイプラインはまず神経ステージを利用して、オブジェクトの形状、反射率、照明に関する高品質だが、潜在的に不完全な予測を生成します。
そして, 神経予測によって初期化される後期段階において, pbirを行い, 初期結果を洗練し, 最終的な高品質な再構築を得る。
実験の結果,パイプラインは既存の再構築手法よりも品質,性能に優れていた。 Reconstructing the shape and spatially varying surface appearances of a physical-world object as well as its surrounding illumination based on 2D images (e.g., photographs) of the object has been a long-standing problem in computer vision and graphics. In this paper, we introduce a robust object reconstruction pipeline combining neural based object reconstruction and physics-based inverse rendering (PBIR). Specifically, our pipeline firstly leverages a neural stage to produce high-quality but potentially imperfect predictions of object shape, reflectance, and illumination. Then, in the later stage, initialized by the neural predictions, we perform PBIR to refine the initial results and obtain the final high-quality reconstruction. Experimental results demonstrate our pipeline significantly outperforms existing reconstruction methods quality-wise and performance-wise. | 翻訳日:2023-04-27 14:28:16 公開日:2023-04-26 |
# ニューラルネットワークにおけるモデル縮小のためのテンソル分解 Tensor Decomposition for Model Reduction in Neural Networks: A Review ( http://arxiv.org/abs/2304.13539v1 ) ライセンス: Link先を確認 | Xingyi Liu and Keshab K. Parhi | (参考訳) 現代のニューラルネットワークはコンピュータビジョン(CV)と自然言語処理(NLP)の分野に革命をもたらした。
複雑なCVタスクや画像分類、画像生成、機械翻訳といったNLPタスクの解決に広く用いられている。
ほとんどの最先端のニューラルネットワークは過剰パラメータであり、高い計算コストを必要とする。
簡単な解の1つは、異なるテンソル分解法を用いて、ネットワークの層をそれらの低ランクテンソル近似に置き換えることである。
本稿では,6つのテンソル分解法を考察し,畳み込みニューラルネットワーク(cnns),リカレントニューラルネットワーク(rnn)およびトランスフォーマのモデルパラメータを圧縮する能力について述べる。
いくつかの圧縮モデルの精度は、元のバージョンよりも高い。
評価の結果、テンソル分解はモデルサイズ、実行時間、エネルギー消費を大幅に削減でき、エッジデバイスにニューラルネットワークを実装するのに適していることが示された。 Modern neural networks have revolutionized the fields of computer vision (CV) and Natural Language Processing (NLP). They are widely used for solving complex CV tasks and NLP tasks such as image classification, image generation, and machine translation. Most state-of-the-art neural networks are over-parameterized and require a high computational cost. One straightforward solution is to replace the layers of the networks with their low-rank tensor approximations using different tensor decomposition methods. This paper reviews six tensor decomposition methods and illustrates their ability to compress model parameters of convolutional neural networks (CNNs), recurrent neural networks (RNNs) and Transformers. The accuracy of some compressed models can be higher than the original versions. Evaluations indicate that tensor decompositions can achieve significant reductions in model size, run-time and energy consumption, and are well suited for implementing neural networks on edge devices. | 翻訳日:2023-04-27 14:22:06 公開日:2023-04-26 |
# 生成モデルのための平均場ゲーム実験室 A mean-field games laboratory for generative modeling ( http://arxiv.org/abs/2304.13534v1 ) ライセンス: Link先を確認 | Benjamin J. Zhang and Markos A. Katsoulakis | (参考訳) 本稿では,生成モデルの説明,拡張,設計のための数学的枠組みとして,平均場ゲーム(MFG)の汎用性を実証する。
生成モデルコミュニティには、様々な流れと拡散に基づく生成モデルがいくつかの基礎的な共通構造と相互関係を持つという広義の感覚がある。
我々は,MFGと,連続時間正規化フロー,スコアベースモデル,ワッサーシュタイン勾配フローを含む拡散型生成モデルとの接続を確立する。
粒子動力学とコスト関数の異なる選択を通して、これら3つの生成モデルのクラスを導出する。
さらに,結合型非線形偏微分方程式(pdes)の組であるmfgの最適性条件を解析し,各生成モデルの数学的構造と性質について検討した。
したがって、MFGの理論は、非線形PDEの理論を通じて生成モデルの研究を可能にする。
この観点から,正規化フローの適切性と構造,スコアベース生成モデリングの数学的構造を解明し,ワッサースタイン勾配流れの平均場ゲーム定式化を導出する。
アルゴリズムの観点からは、MFGの最適条件により、より広範な生成モデルのクラスを訓練するためのHJB正規化器を導入することもできる。
本稿では,本フレームワークをMFG実験室として紹介し,新たな実験方法と生成モデルの創出の場として機能する。
この研究所は、数式とアルゴリズムのツールが開発できる一貫した理論的枠組みを提供する、多種多様なよく考えられた生成的モデリングの定式化を生み出します。 In this paper, we demonstrate the versatility of mean-field games (MFGs) as a mathematical framework for explaining, enhancing, and designing generative models. There is a pervasive sense in the generative modeling community that the various flow and diffusion-based generative models have some foundational common structure and interrelationships. We establish connections between MFGs and major classes of flow and diffusion-based generative models including continuous-time normalizing flows, score-based models, and Wasserstein gradient flows. We derive these three classes of generative models through different choices of particle dynamics and cost functions. Furthermore, we study the mathematical structure and properties of each generative model by studying their associated MFG's optimality condition, which is a set of coupled nonlinear partial differential equations (PDEs). The theory of MFGs, therefore, enables the study of generative models through the theory of nonlinear PDEs. Through this perspective, we investigate the well-posedness and structure of normalizing flows, unravel the mathematical structure of score-based generative modeling, and derive a mean-field game formulation of the Wasserstein gradient flow. From an algorithmic perspective, the optimality conditions of MFGs also allow us to introduce HJB regularizers for enhanced training a broader class of generative models. We present this framework as an MFG laboratory which serves as a platform for revealing new avenues of experimentation and invention of generative models. This laboratory will give rise to a multitude of well-posed generative modeling formulations, providing a consistent theoretical framework upon which numerical and algorithmic tools may be developed. | 翻訳日:2023-04-27 14:21:50 公開日:2023-04-26 |
# 完全手書きページからのキー値情報抽出 Key-value information extraction from full handwritten pages ( http://arxiv.org/abs/2304.13530v1 ) ライセンス: Link先を確認 | Sol\`ene Tarride and M\'elodie Boillet and Christopher Kermorvant | (参考訳) 本稿では,デジタル化文書からの情報抽出のためのトランスフォーマティブ・アプローチを提案する。
我々のアプローチは、1つのモデルにおいて、機能抽出、手書き認識、名前付きエンティティ認識という2つのモデルによってこれまで実行された異なるステップを組み合わせています。
この統合されたアプローチを、名前付きエンティティ認識の前に手書き認識を行う従来の2段階の手法と比較し、行、段落、ページの異なるレベルで結果を示す。
実験の結果, 注意に基づくモデルは, 従来のセグメンテーションステップを必要としないため, フルページに適用する場合は特に興味深い。
最後に、キー-バリューアノテーションから学習できることを示します。
我々は,3つの公開データベース(IAM,ESPOSALLES,POPP)上での最先端の手法と比較し,過去の3つのデータセットのパフォーマンスを上回った。 We propose a Transformer-based approach for information extraction from digitized handwritten documents. Our approach combines, in a single model, the different steps that were so far performed by separate models: feature extraction, handwriting recognition and named entity recognition. We compare this integrated approach with traditional two-stage methods that perform handwriting recognition before named entity recognition, and present results at different levels: line, paragraph, and page. Our experiments show that attention-based models are especially interesting when applied on full pages, as they do not require any prior segmentation step. Finally, we show that they are able to learn from key-value annotations: a list of important words with their corresponding named entities. We compare our models to state-of-the-art methods on three public databases (IAM, ESPOSALLES, and POPP) and outperform previous performances on all three datasets. | 翻訳日:2023-04-27 14:21:25 公開日:2023-04-26 |
# スーパーNeRF:超高分解能のためのビューコンセントディテール生成 Super-NeRF: View-consistent Detail Generation for NeRF super-resolution ( http://arxiv.org/abs/2304.13518v1 ) ライセンス: Link先を確認 | Yuqi Han and Tao Yu and Xiaohang Yu and Yuwang Wang and Qionghai Dai | (参考訳) ニューラルレイディアンス場(NeRF)は3Dシーンのモデリングと高忠実度ノベルビューの合成において顕著な成功を収めた。
しかし、既存のnerfベースの手法では、新しいビューを生成するために画像解像度を最大限に活用することに注力しているが、限られた入力解像度で詳細を生成することについては考慮していない。
画像超解像の広範な利用と類似して、NeRF超解像は高解像度の3Dシーンの暗黙的表現を生成する効果的な方法であり、大きな潜在的な応用をもたらす。
今のところ、このような重要なトピックはまだ検討されていない。
本稿では,低分解能入力のみから高分解能NeRFを生成するために,Super-NeRFと呼ばれるNeRF超解像法を提案する。
マルチビュー低解像度画像が与えられると、Super-NeRFは一貫性制御のスーパー解像度モジュールを構築し、NeRFのビュー一貫性の高い高解像度の詳細を生成する。
具体的には、低解像度の入力画像毎に最適化可能な潜時符号を導入し、2次元の超解像を制御し、ビュー一貫性出力に収束させる。
各低解像度画像の潜在符号は、ターゲットのSuper-NeRF表現と相乗的に最適化され、NeRF構成に固有のビュー一貫性制約を完全に活用する。
我々は,合成,実世界,AI生成のNeRFデータセットに対するSuper-NeRFの有効性を検証する。
Super-NeRFは高解像度ディテール生成とクロスビュー整合性において最先端のNeRF超解像性能を実現する。 The neural radiance field (NeRF) achieved remarkable success in modeling 3D scenes and synthesizing high-fidelity novel views. However, existing NeRF-based methods focus more on the make full use of the image resolution to generate novel views, but less considering the generation of details under the limited input resolution. In analogy to the extensive usage of image super-resolution, NeRF super-resolution is an effective way to generate the high-resolution implicit representation of 3D scenes and holds great potential applications. Up to now, such an important topic is still under-explored. In this paper, we propose a NeRF super-resolution method, named Super-NeRF, to generate high-resolution NeRF from only low-resolution inputs. Given multi-view low-resolution images, Super-NeRF constructs a consistency-controlling super-resolution module to generate view-consistent high-resolution details for NeRF. Specifically, an optimizable latent code is introduced for each low-resolution input image to control the 2D super-resolution images to converge to the view-consistent output. The latent codes of each low-resolution image are optimized synergistically with the target Super-NeRF representation to fully utilize the view consistency constraint inherent in NeRF construction. We verify the effectiveness of Super-NeRF on synthetic, real-world, and AI-generated NeRF datasets. Super-NeRF achieves state-of-the-art NeRF super-resolution performance on high-resolution detail generation and cross-view consistency. | 翻訳日:2023-04-27 14:21:09 公開日:2023-04-26 |
# クラスターエントロピー:病理画像分割におけるアクティブドメイン適応 Cluster Entropy: Active Domain Adaptation in Pathological Image Segmentation ( http://arxiv.org/abs/2304.13513v1 ) ライセンス: Link先を確認 | Xiaoqing Liu, Kengo Araki, Shota Harada, Akihiko Yoshizawa, Kazuhiro Terada, Mariyo Kurata, Naoki Nakajima, Hiroyuki Abe, Tetsuo Ushiku, Ryoma Bise | (参考訳) 病的セグメンテーションにおけるドメインシフトは重要な問題であり、ソースドメイン(特定の病院で収集された)によって訓練されたネットワークは、異なる画像特徴のためにターゲットドメイン(異なる病院から)でうまく機能しない。
病理学に先立つクラス不均衡の問題と異なるクラスのため、典型的には教師なしのドメイン適応法は、ソースドメインとターゲットドメインの分布を調整することでうまく機能しない。
本稿では,半教師付きドメイン適応に使用される有効全スライド画像(WSI)を選択するクラスタエントロピーを提案する。
このアプローチは、各クラスタのエントロピーを計算することによって、wsiの画像特徴がターゲットドメイン全体の分布をどのようにカバーするかを測定することができ、ドメイン適応の性能を大幅に改善することができる。
このアプローチは,2つの病院から収集したデータセットの先行技術に対して,競争力のある結果を得た。 The domain shift in pathological segmentation is an important problem, where a network trained by a source domain (collected at a specific hospital) does not work well in the target domain (from different hospitals) due to the different image features. Due to the problems of class imbalance and different class prior of pathology, typical unsupervised domain adaptation methods do not work well by aligning the distribution of source domain and target domain. In this paper, we propose a cluster entropy for selecting an effective whole slide image (WSI) that is used for semi-supervised domain adaptation. This approach can measure how the image features of the WSI cover the entire distribution of the target domain by calculating the entropy of each cluster and can significantly improve the performance of domain adaptation. Our approach achieved competitive results against the prior arts on datasets collected from two hospitals. | 翻訳日:2023-04-27 14:20:43 公開日:2023-04-26 |
# EasyPortrait - 顔解析とポートレートセグメンテーションデータセット EasyPortrait -- Face Parsing and Portrait Segmentation Dataset ( http://arxiv.org/abs/2304.13509v1 ) ライセンス: Link先を確認 | Alexander Kapitanov, Karina Kvanchiani, Sofia Kirillova | (参考訳) 近年、新型コロナウイルス(COVID-19)とリモートワークの需要が高まっているため、ビデオ会議アプリが特に普及している。
ビデオチャットのもっとも価値のある機能は、リアルタイムのバックグラウンド削除と顔の美化だ。
これらの課題を解決する一方で、コンピュータビジョンの研究者は、トレーニングステージに関連データを持つという問題に直面している。
ノートパソコンやスマートフォンカメラの前に、高品質で多様なイメージをラベル付けして、追加のアプローチなしで軽量モデルをトレーニングする大規模なデータセットはありません。
この領域の進歩を促進するために、ポートレートセグメンテーションと顔解析タスクのための新しいイメージデータセットEasyPortraitを提供する。
8,377人のユニークなユーザーによる2万枚の屋内写真と、9つのクラスに分かれたきめ細かいセグメンテーションマスクを含んでいる。
画像はクラウドソーシングプラットフォームから収集されラベル付けされる。
ほとんどの顔分析データセットとは異なり、easyportraitでは、あごひげは皮膚マスクの一部とは見なされておらず、口の内部は歯から切り離されている。
これらの機能は、肌の強化と歯の白化タスクにEasyPortraitを使用することができる。
本稿では,クラウドソーシングプラットフォームを用いた大規模かつクリーンな画像セグメンテーションデータセット作成のためのパイプラインについて述べる。
さらに, EasyPortraitで複数のモデルを訓練し, 実験結果を示した。
提案されたデータセットとトレーニングされたモデルが公開されている。 Recently, due to COVID-19 and the growing demand for remote work, video conferencing apps have become especially widespread. The most valuable features of video chats are real-time background removal and face beautification. While solving these tasks, computer vision researchers face the problem of having relevant data for the training stage. There is no large dataset with high-quality labeled and diverse images of people in front of a laptop or smartphone camera to train a lightweight model without additional approaches. To boost the progress in this area, we provide a new image dataset, EasyPortrait, for portrait segmentation and face parsing tasks. It contains 20,000 primarily indoor photos of 8,377 unique users, and fine-grained segmentation masks separated into 9 classes. Images are collected and labeled from crowdsourcing platforms. Unlike most face parsing datasets, in EasyPortrait, the beard is not considered part of the skin mask, and the inside area of the mouth is separated from the teeth. These features allow using EasyPortrait for skin enhancement and teeth whitening tasks. This paper describes the pipeline for creating a large-scale and clean image segmentation dataset using crowdsourcing platforms without additional synthetic data. Moreover, we trained several models on EasyPortrait and showed experimental results. Proposed dataset and trained models are publicly available. | 翻訳日:2023-04-27 14:20:29 公開日:2023-04-26 |
# 臨床aiフェアネスに向けて : 翻訳的視点 Towards clinical AI fairness: A translational perspective ( http://arxiv.org/abs/2304.13493v1 ) ライセンス: Link先を確認 | Mingxuan Liu, Yilin Ning, Salinelat Teixayavong, Mayli Mertens, Jie Xu, Daniel Shu Wei Ting, Lionel Tim-Ee Cheng, Jasmine Chiat Ling Ong, Zhen Ling Teo, Ting Fang Tan, Ravi Chandran Narrendar, Fei Wang, Leo Anthony Celi, Marcus Eng Hock Ong, Nan Liu | (参考訳) 人工知能(AI)は、データから洞察を抽出する能力を示しているが、医療などの高度な分野では、公平性の問題が懸念されている。
アルゴリズム開発における広範な議論と取り組みにもかかわらず、AIの公正性と臨床的懸念は適切に対処されていない。
本稿では,aiフェアネスの技術的観点と臨床的視点の相違を議論し,aiフェアネスの医療への翻訳の障壁を強調し,知識ギャップを埋めるための多分野連携を提唱し,aiフェアネスに関連する臨床上の懸念に対処するための可能な解決策を提供する。 Artificial intelligence (AI) has demonstrated the ability to extract insights from data, but the issue of fairness remains a concern in high-stakes fields such as healthcare. Despite extensive discussion and efforts in algorithm development, AI fairness and clinical concerns have not been adequately addressed. In this paper, we discuss the misalignment between technical and clinical perspectives of AI fairness, highlight the barriers to AI fairness' translation to healthcare, advocate multidisciplinary collaboration to bridge the knowledge gap, and provide possible solutions to address the clinical concerns pertaining to AI fairness. | 翻訳日:2023-04-27 14:20:10 公開日:2023-04-26 |
# 医用画像セグメンテーションにおける前景領域の保存を伴う混合データ補完 Mixing Data Augmentation with Preserving Foreground Regions in Medical Image Segmentation ( http://arxiv.org/abs/2304.13490v1 ) ライセンス: Link先を確認 | Xiaoqing Liu, Kenji Ono, Ryoma Bise | (参考訳) 深層学習を用いた医用画像分割の開発は,医師の診断を著しく支援する。
ディープラーニングはトレーニングに大量のデータを必要とするため、過剰フィッティングを防止するために多様性を拡張するためのデータ拡張も必要となる。
しかし,既存の医用画像セグメンテーションのデータ拡張手法は主に,パラメータの更新と余分な計算資源のコストを必要とするモデルに基づいている。
医用画像セグメンテーションのための高精度深層学習ネットワークを訓練するためのデータ拡張手法を提案する。
提案されたデータ拡張アプローチは、keepmaskとkeepmixと呼ばれ、もはやパラメータなしで臓器の境界をよりよく識別することで医療画像を作成することができる。
提案手法は,より優れた性能を達成し,データセット上の医用画像分割のためのより正確な境界を得た。
ダイス係数はカオスで94.15%(ベースラインより3.04%高い)、unetでmsd脾臓で74.70%(ベースラインより5.25%高い)に達した。 The development of medical image segmentation using deep learning can significantly support doctors' diagnoses. Deep learning needs large amounts of data for training, which also requires data augmentation to extend diversity for preventing overfitting. However, the existing methods for data augmentation of medical image segmentation are mainly based on models which need to update parameters and cost extra computing resources. We proposed data augmentation methods designed to train a high accuracy deep learning network for medical image segmentation. The proposed data augmentation approaches are called KeepMask and KeepMix, which can create medical images by better identifying the boundary of the organ with no more parameters. Our methods achieved better performance and obtained more precise boundaries for medical image segmentation on datasets. The dice coefficient of our methods achieved 94.15% (3.04% higher than baseline) on CHAOS and 74.70% (5.25% higher than baseline) on MSD spleen with Unet. | 翻訳日:2023-04-27 14:19:59 公開日:2023-04-26 |
# 事前情報を用いた学習における基本的なトレードオフ Fundamental Tradeoffs in Learning with Prior Information ( http://arxiv.org/abs/2304.13479v1 ) ライセンス: Link先を確認 | Anirudha Majumdar | (参考訳) 我々は,学習者が与えられた問題に対して持っている事前情報の正確性とその学習性能との根本的なトレードオフを理解することを目的とする。
従来のミニマックスやベイズリスクとは異なる優先順位付きリスクの概念を導入することにより、現実が学習者の前もって従わないような環境での基本的なトレードオフを研究できる。
本稿では,統計的推定問題に対する優先順位付けリスクを低くするために,古典的ミニマックスローバウンド手法の拡張を一般化したアプローチを提案する。
また,不等式(独立利害かもしれない)の新たな一般化を導入し,非利害を含むより一般的な状況において優先度付きリスクを低く抑えることを提案する。
我々は,推定,回帰,強化学習における問題に対する事前情報と学習性能のトレードオフに関する洞察を提供するためのフレームワークの能力を示す。 We seek to understand fundamental tradeoffs between the accuracy of prior information that a learner has on a given problem and its learning performance. We introduce the notion of prioritized risk, which differs from traditional notions of minimax and Bayes risk by allowing us to study such fundamental tradeoffs in settings where reality does not necessarily conform to the learner's prior. We present a general reduction-based approach for extending classical minimax lower-bound techniques in order to lower bound the prioritized risk for statistical estimation problems. We also introduce a novel generalization of Fano's inequality (which may be of independent interest) for lower bounding the prioritized risk in more general settings involving unbounded losses. We illustrate the ability of our framework to provide insights into tradeoffs between prior information and learning performance for problems in estimation, regression, and reinforcement learning. | 翻訳日:2023-04-27 14:19:41 公開日:2023-04-26 |
# 正および不変なテンソル分解の境界ランク:相関への応用 Border Ranks of Positive and Invariant Tensor Decompositions: Applications to Correlations ( http://arxiv.org/abs/2304.13478v1 ) ライセンス: Link先を確認 | Andreas Klingler, Tim Netzer, Gemma De les Coves | (参考訳) 行列のランクとその正のバージョンは小さな近似に対して頑健であり、小さな摂動の下では減少しない。
対照的に、多部テンソルランクは任意の小さな誤差、すなわちランクと境界ランクの間にギャップがあり、固定テンソルランクを持つ集合に対する最適化の不安定性をもたらす可能性がある。
多成分の正のランクは小さな摂動でも崩壊できるのか?
本研究では,多項正および不変なテンソル分解が,テンソル次数精製や巡回分離分解を含むランクと境界ランクのギャップを示すことを示す。
また,多元確率分布のある種の集合における正の分解とメンバシップの対応を証明し,これらの相関集合が閉でないことを示すためにランクと境界ランクのギャップを利用する。
これは、翻訳不変行列積状態のような資源から生じる確率分布のテスト会員は有限時間で不可能である。
全体として、この研究は階級の不安定性と二部類系のユニークな振る舞いに光を当てている。 The matrix rank and its positive versions are robust for small approximations, i.e. they do not decrease under small perturbations. In contrast, the multipartite tensor rank can collapse for arbitrarily small errors, i.e. there may be a gap between rank and border rank, leading to instabilities in the optimization over sets with fixed tensor rank. Can multipartite positive ranks also collapse for small perturbations? In this work, we prove that multipartite positive and invariant tensor decompositions exhibit gaps between rank and border rank, including tensor rank purifications and cyclic separable decompositions. We also prove a correspondence between positive decompositions and membership in certain sets of multipartite probability distributions, and leverage the gaps between rank and border rank to prove that these correlation sets are not closed. It follows that testing membership of probability distributions arising from resources like translational invariant Matrix Product States is impossible in finite time. Overall, this work sheds light on the instability of ranks and the unique behavior of bipartite systems. | 翻訳日:2023-04-27 14:19:29 公開日:2023-04-26 |
# 量子自然政策勾配:サンプル効率強化学習に向けて Quantum Natural Policy Gradients: Towards Sample-Efficient Reinforcement Learning ( http://arxiv.org/abs/2304.13571v1 ) ライセンス: Link先を確認 | Nico Meyer, Daniel D. Scherer, Axel Plinge, Christopher Mutschler, and Michael J. Hartmann | (参考訳) 強化学習はAIにおける成長分野であり、多くの可能性がある。
知的行動は、試行錯誤と環境との相互作用を通じて自動的に学習される。
しかし、この学習プロセスはしばしばコストがかかる。
関数近似器として変分量子回路を用いると、このコストを削減できる。
これを実現するために、量子フィッシャー情報行列の効率的な近似を利用する2階勾配に基づくルーチンである量子自然ポリシー勾配(QNPG)アルゴリズムを提案する。
本研究では,QNPGがコンバージェンス速度と安定性に関するコンテキスト帯域環境の1次学習より優れており,サンプルの複雑さを低減できることを示す。
さらに,12kbitのハードウェアデバイス上でのトレーニングにより,本手法の実現可能性を示す。 Reinforcement learning is a growing field in AI with a lot of potential. Intelligent behavior is learned automatically through trial and error in interaction with the environment. However, this learning process is often costly. Using variational quantum circuits as function approximators can reduce this cost. In order to implement this, we propose the quantum natural policy gradient (QNPG) algorithm -- a second-order gradient-based routine that takes advantage of an efficient approximation of the quantum Fisher information matrix. We experimentally demonstrate that QNPG outperforms first-order based training on Contextual Bandits environments regarding convergence speed and stability and thereby reduces the sample complexity. Furthermore, we provide evidence for the practical feasibility of our approach by training on a 12-qubit hardware device. | 翻訳日:2023-04-27 14:12:07 公開日:2023-04-26 |
# Toxicコメントはウィキペディアのボランティア編集者の活動を減らす Toxic comments reduce the activity of volunteer editors on Wikipedia ( http://arxiv.org/abs/2304.13568v1 ) ライセンス: Link先を確認 | Ivan Smirnov, Camelia Oprea, Markus Strohmaier | (参考訳) Wikipediaは歴史上最も成功した共同プロジェクトの一つである。
この百科事典は史上最大の百科事典で、何百万人ものユーザーが情報ソースとして利用し、事実確認や詳細な調査を行っている。
Wikipediaはボランティア編集者の努力にのみ依存しているため、その成功は特に有毒なスピーチに影響される可能性がある。
本稿では,ウィキペディアの6つの最も活発な言語版において,ユーザトークページの5700万件のコメントを分析し,編集者の行動に対する毒性の影響について検討する。
有害なコメントは編集者の活動を継続的に減らし、短期的にはユーザ当たり0.5~2日間のアクティブデーが失われたと推定される。
これは、wikipediaのアクティブなコントリビュータの数を考えると、生産性が失われる複数の年に相当する。
有毒なコメントの効果は、長期にわたってさらに大きくなり、エディターが完全にプロジェクトを離れるリスクが大幅に増大する。
エージェントベースのモデルを用いて,wikipediaにおける毒性攻撃がプロジェクト全体の進捗を阻害する可能性を実証する。
本研究はwikipedia等の共同プラットフォーム上で有毒な発言を緩和し,その継続的な成功を保証することの重要性を強調する。 Wikipedia is one of the most successful collaborative projects in history. It is the largest encyclopedia ever created, with millions of users worldwide relying on it as the first source of information as well as for fact-checking and in-depth research. As Wikipedia relies solely on the efforts of its volunteer-editors, its success might be particularly affected by toxic speech. In this paper, we analyze all 57 million comments made on user talk pages of 8.5 million editors across the six most active language editions of Wikipedia to study the potential impact of toxicity on editors' behaviour. We find that toxic comments consistently reduce the activity of editors, leading to an estimated loss of 0.5-2 active days per user in the short term. This amounts to multiple human-years of lost productivity when considering the number of active contributors to Wikipedia. The effects of toxic comments are even greater in the long term, as they significantly increase the risk of editors leaving the project altogether. Using an agent-based model, we demonstrate that toxicity attacks on Wikipedia have the potential to impede the progress of the entire project. Our results underscore the importance of mitigating toxic speech on collaborative platforms such as Wikipedia to ensure their continued success. | 翻訳日:2023-04-27 14:11:56 公開日:2023-04-26 |
# トークン分類における位置バイアスが言語モデルに及ぼす影響 Impact of Position Bias on Language Models in Token Classification ( http://arxiv.org/abs/2304.13567v1 ) ライセンス: Link先を確認 | Mehdi Ben Amor, Michael Granitzer, Jelena Mitrovi\'c | (参考訳) 言語モデル(LM)は自然言語処理(NLP)タスクにおける最先端のパフォーマンスを示している。
名前付きエンティティ認識(ner)やpart-of-speech(pos)タグといった下流タスクは、データ不均衡の問題、特にポジティブな例とネガティブな例の比率、クラス不均衡に苦しむことが知られている。
本稿では,トークン分類タスクにおける肯定的な例の位置バイアスという言語モデルに対する追加的な問題について検討する。
そこで我々は,トークン分類ベンチマークの微調整時のlms性能に対する位置バイアスの影響を詳細に評価した。
調査対象は,NER 用 CoNLL03 と OntoNote5.0 ,POS タグ付け用 English Tree Bank UD_en と TweeBank である。
本稿では,変圧器モデルにおける位置バイアスの評価手法を提案する。
BERT, ERNIE, ELECTRA などのエンコーダや GPT2 や BLOOM などのデコーダは, 平均 3 % と 9 % の低下でこのバイアスに悩まされることを示す。
この効果を緩和するため,訓練中にバッチに適用するランダム位置シフト法とコンテキスト摂動法という2つの手法を提案する。
その結果,CoNLL03,UD_en,TweeBankのモデルの性能は,$\approx$2\%向上した。 Language Models (LMs) have shown state-of-the-art performance in Natural Language Processing (NLP) tasks. Downstream tasks such as Named Entity Recognition (NER) or Part-of-Speech (POS) tagging are known to suffer from data imbalance issues, specifically in terms of the ratio of positive to negative examples, and class imbalance. In this paper, we investigate an additional specific issue for language models, namely the position bias of positive examples in token classification tasks. Therefore, we conduct an in-depth evaluation of the impact of position bias on the performance of LMs when fine-tuned on Token Classification benchmarks. Our study includes CoNLL03 and OntoNote5.0 for NER, English Tree Bank UD_en and TweeBank for POS tagging. We propose an evaluation approach to investigate position bias in Transformer models. We show that encoders like BERT, ERNIE, ELECTRA, and decoders such as GPT2 and BLOOM can suffer from this bias with an average drop of 3\% and 9\% in their performance. To mitigate this effect, we propose two methods: Random Position Shifting and Context Perturbation, that we apply on batches during the training process. The results show an improvement of $\approx$ 2\% in the performance of the model on CoNLL03, UD_en, and TweeBank. | 翻訳日:2023-04-27 14:11:36 公開日:2023-04-26 |
# モーダル量子論のためのノンブロードキャスティング定理 A no-broadcasting theorem for modal quantum theory ( http://arxiv.org/abs/2304.13561v1 ) ライセンス: Link先を確認 | Phillip Diamond and Benjamin Schumacher and Michael D. Westmoreland | (参考訳) 量子no-ブロードキャスティング定理は、有限場に基づくおもちゃモデルであるModal quantum theory (MQT) の類似性を持つ。
MQTにおけるブロードキャストの失敗は、状態空間の部分空間の格子の分配性の失敗に関連している。 The quantum no-broadcasting theorem has an analogue in modal quantum theory (MQT), a toy model based on finite fields. The failure of broadcasting in MQT is related to the failure of distributivity of the lattice of subspaces of the state space. | 翻訳日:2023-04-27 14:11:10 公開日:2023-04-26 |
# テキストとテーブルのシームレスなクエリのためのマルチモーダルdbmsに向けて Towards Multi-Modal DBMSs for Seamless Querying of Texts and Tables ( http://arxiv.org/abs/2304.13559v1 ) ライセンス: Link先を確認 | Matthias Urban and Carsten Binnig | (参考訳) 本稿では,SQL を用いてテキストやテーブルをシームレスにクエリできる新しいデータベースシステムである Multi-Modal Databases (MMDB) を提案する。
MMDBにおけるSQLを用いたテキストデータのシームレスなクエリを実現するために,GPT-3のような最近の大規模言語モデルの発展を基盤として,いわゆるマルチモーダル演算子(MMOps)による関係データベースの拡張を提案する。
MMOpsの主な考え方は、手動でデータを変換することなく、テキストコレクションをテーブルとして扱うことができることだ。
評価で示すように,我々のMMDBプロトタイプは,テキスト・ツー・テーブルのような最先端のアプローチを精度と性能で上回るだけでなく,未知のテキスト・コレクションのモデルを微調整するためには,トレーニングデータも大幅に少なくする。 In this paper, we propose Multi-Modal Databases (MMDBs), which is a new class of database systems that can seamlessly query text and tables using SQL. To enable seamless querying of textual data using SQL in an MMDB, we propose to extend relational databases with so-called multi-modal operators (MMOps) which are based on the advances of recent large language models such as GPT-3. The main idea of MMOps is that they allow text collections to be treated as tables without the need to manually transform the data. As we show in our evaluation, our MMDB prototype can not only outperform state-of-the-art approaches such as text-to-table in terms of accuracy and performance but it also requires significantly less training data to fine-tune the model for an unseen text collection. | 翻訳日:2023-04-27 14:11:05 公開日:2023-04-26 |
# 2ビット混合状態の合理的局所ユニタリ実不変量 Rational Local Unitary Real Invariants of Mixed States of Two Qubits ( http://arxiv.org/abs/2304.13555v1 ) ライセンス: Link先を確認 | Luca Candelori, Vladimir Y. Chernyak, John R. Klein, and Nick Rekuski | (参考訳) 量子情報理論に興味のある2つの量子ビットの複数の種類の混合状態に対する有理局所ユニタリ不変量の場を計算する。
特に、局所的に極大混合状態、対称混合状態、混合状態の全空間を考える。
いずれの場合も、明示的な幾何商を構築し、それらが常に有理であることを証明する。
その結果、各ケースにおいて有理不変量の体が純粋に超越的であることを示す。
すべての結果は実数体上で働き、標数 0 の任意の体上の古典的および幾何学的不変量理論の手法を用いて得られる。 We compute the field of rational local unitary invariants for several types of mixed states of two qubits that are of interest in quantum information theory. In particular, we consider locally maximally mixed states, symmetrically mixed states and the full space of mixed states. In each case, we construct explicit geometric quotients and prove that they are always rational. As a consequence, we prove in each case that the field of rational invariants is purely transcendental. All the results are obtained by working over the field of real numbers, employing methods from classical and geometric invariant theory over arbitrary fields of characteristic zero. | 翻訳日:2023-04-27 14:10:19 公開日:2023-04-26 |
# 強い長距離スピンスピン結合を有する臨界キャビティ-マグノンポラリトン Critical Cavity-Magnon Polariton Mediated Strong Long-Distance Spin-Spin Coupling ( http://arxiv.org/abs/2304.13553v1 ) ライセンス: Link先を確認 | Miao Tian, Mingfeng Wang, Guo-Qiang Zhang, Hai-Chao Li, and Wei Xiong | (参考訳) 固体量子情報処理では、長距離スピンスピンスピンカップリングが必死に求められているが、まだ課題である。
本稿では,コプラナー導波路共振器(CPW)共振器をダイヤモンド中の単一窒素空隙スピンに弱結合するハイブリッド量子系と,カーマグノンを有するイットリウム-鉄-ガーネット(YIG)ナノスフィアを用いて,強い長距離スピン結合を実現する。
マグノンの強い駆動場により、カー効果はマグノンを圧縮し、CPW共振器とシースしたマグノンの結合を指数関数的に増強し、2つのキャビティ-マグノン偏光子、すなわち高周波偏光子(HP)と低周波偏光子(LP)を生成する。
強化キャビティ-マグノン結合が臨界値に近づくと、スピンはHPから完全に分離され、スピンとLPのカップリングは大幅に改善される。
分散状態において、強いスピンスピンカップリングはアクセス可能なパラメータで達成され、結合距離は最大$\sim$cmとなる。
本提案は,弱結合ハイブリッドシステムにおいてリモートソリッドスピンを操作し,量子情報処理を行う有望な方法を提供する。 Strong long-distance spin-spin coupling is desperately demanded for solid-state quantum information processing, but it is still challenged. Here, we propose a hybrid quantum system, consisting of a coplanar waveguide (CPW) resonator weakly coupled to a single nitrogen-vacancy spin in diamond and a yttrium-iron-garnet (YIG) nanosphere holding Kerr magnons, to realize strong long-distance spin-spin coupling. With a strong driving field on magnons, the Kerr effect can squeeze magnons, and thus exponentially enhance the coupling between the CPW resonator and the sequeezed magnons, which produces two cavity-magnon polaritons, i.e., the high-frequency polariton (HP) and low-frequency polariton (LP). When the enhanced cavity-magnon coupling approaches to the critical value, the spin is fully decoupled from the HP, while the coupling between the spin and the LP is significantly improved. In the dispersive regime, a strong spin-spin coupling is achieved with accessible parameters, and the coupling distance can be up to $\sim$cm. Our proposal provides a promising way to manipulate remote solid spins and perform quantum information processing in weakly coupled hybrid systems. | 翻訳日:2023-04-27 14:10:09 公開日:2023-04-26 |
# 1つの石で2羽の鳥を殺す:分散学習におけるプライバシーを実現する量子化 Killing Two Birds with One Stone: Quantization Achieves Privacy in Distributed Learning ( http://arxiv.org/abs/2304.13545v1 ) ライセンス: Link先を確認 | Guangfeng Yan, Tan Li, Kui Wu, Linqi Song | (参考訳) コミュニケーション効率とプライバシ保護は、分散機械学習における2つの重要な問題である。
既存のメソッドはこれら2つの問題に別々に対処し、リソース制限された環境でアプリケーションを制約する実装の複雑さが高い可能性がある。
本稿では,コミュニケーション効率とプライバシ保護を同時に実現し,コミュニケーションとプライバシの相関性に関する新たな洞察を与える包括的定量化に基づくソリューションを提案する。
具体的には、一様量子化勾配に二項雑音を加えて所望の差分プライバシーレベルに到達させることにより、分散確率勾配降下(SGD)フレームワークにおける提案手法の有効性を実証する。
理論的には、コミュニケーション、プライバシー、学習パフォーマンスの新たなトレードオフを捉えます。 Communication efficiency and privacy protection are two critical issues in distributed machine learning. Existing methods tackle these two issues separately and may have a high implementation complexity that constrains their application in a resource-limited environment. We propose a comprehensive quantization-based solution that could simultaneously achieve communication efficiency and privacy protection, providing new insights into the correlated nature of communication and privacy. Specifically, we demonstrate the effectiveness of our proposed solutions in the distributed stochastic gradient descent (SGD) framework by adding binomial noise to the uniformly quantized gradients to reach the desired differential privacy level but with a minor sacrifice in communication efficiency. We theoretically capture the new trade-offs between communication, privacy, and learning performance. | 翻訳日:2023-04-27 14:09:43 公開日:2023-04-26 |
# diffsurv: 検閲されたイベントデータに対する微分可能なソート Diffsurv: Differentiable sorting for censored time-to-event data ( http://arxiv.org/abs/2304.13594v1 ) ライセンス: Link先を確認 | Andre Vauvelle, Benjamin Wild, Aylin Cakiroglu, Roland Eils, Spiros Denaxas | (参考訳) 生存分析(Survival analysis)は、多くの現実世界の応用、特に医療における機械学習において重要な半教師付きタスクである。
現在、生存分析における最も一般的なアプローチは、コックスの部分的可能性に基づいており、これは一致指数の下限に最適化されたランキングモデルとして解釈できる。
このランク付けモデルとcoxの部分的確率の関係は、対数比較のみを考える。
近年の研究では、この対独立性仮定を緩和し、サンプル集合のランク付けを可能にする微分可能なソート手法が開発されている。
しかし、現在の微分可能なソート手法は、多くの現実世界のデータセットにおいて重要な要素である検閲を考慮できない。
この制限に対処するため、Diffsurvと呼ばれる新しい手法を提案する。
我々は,検閲されたサンプルのラベルの不確かさを考慮に入れた可能な置換の行列を予測し,検閲されたタスクを扱うための微分可能なソート手法を拡張する。
我々はこのアプローチを部分的確率とランキングの損失に由来する手法と対比する。
実験の結果,Diffsurvは様々なシミュレーションおよび実世界のリスク予測シナリオにおいて,ベースラインよりも優れていた。
さらに、Diffsurvが実現したアルゴリズム監督の利点を、現在の手法より優れたトップkリスク予測のための新しい手法を提案する。 Survival analysis is a crucial semi-supervised task in machine learning with numerous real-world applications, particularly in healthcare. Currently, the most common approach to survival analysis is based on Cox's partial likelihood, which can be interpreted as a ranking model optimized on a lower bound of the concordance index. This relation between ranking models and Cox's partial likelihood considers only pairwise comparisons. Recent work has developed differentiable sorting methods which relax this pairwise independence assumption, enabling the ranking of sets of samples. However, current differentiable sorting methods cannot account for censoring, a key factor in many real-world datasets. To address this limitation, we propose a novel method called Diffsurv. We extend differentiable sorting methods to handle censored tasks by predicting matrices of possible permutations that take into account the label uncertainty introduced by censored samples. We contrast this approach with methods derived from partial likelihood and ranking losses. Our experiments show that Diffsurv outperforms established baselines in various simulated and real-world risk prediction scenarios. Additionally, we demonstrate the benefits of the algorithmic supervision enabled by Diffsurv by presenting a novel method for top-k risk prediction that outperforms current methods. | 翻訳日:2023-04-27 14:03:14 公開日:2023-04-26 |
# ガウス以下の報酬を持つ文脈帯域に対するレグレト境界のトンプソンサンプリング Thompson Sampling Regret Bounds for Contextual Bandits with sub-Gaussian rewards ( http://arxiv.org/abs/2304.13593v1 ) ライセンス: Link先を確認 | Amaury Gouverneur, Borja Rodr\'iguez-G\'alvez, Tobias J. Oechtering, and Mikael Skoglund | (参考訳) 本研究では,Neuらが導入したフレームワークに基づく文脈帯域問題に対するトンプソンサンプリングアルゴリズムの性能と,リフト情報比の概念について検討する。
まず,環境パラメータと履歴の相互情報に依存するトンプソンサンプリング期待累積後悔の包括的境界を証明した。
そこで我々は,準ガウスの報奨に充てられる持ち上げ情報比の新たな限界を導入し,二進の報奨を必要とするNeuらの結果を一般化する。
最後に,非構造化境界境界バンディット,ラプラス確率を持つ構造化境界バンディット,構造化ベルヌーイバンディット,および有界線形境界バンディットの特別な場合に対して,明示的な後悔の限界を与える。 In this work, we study the performance of the Thompson Sampling algorithm for Contextual Bandit problems based on the framework introduced by Neu et al. and their concept of lifted information ratio. First, we prove a comprehensive bound on the Thompson Sampling expected cumulative regret that depends on the mutual information of the environment parameters and the history. Then, we introduce new bounds on the lifted information ratio that hold for sub-Gaussian rewards, thus generalizing the results from Neu et al. which analysis requires binary rewards. Finally, we provide explicit regret bounds for the special cases of unstructured bounded contextual bandits, structured bounded contextual bandits with Laplace likelihood, structured Bernoulli bandits, and bounded linear contextual bandits. | 翻訳日:2023-04-27 14:02:55 公開日:2023-04-26 |
# ボンドフリップチップ法によるギガヘルツナノメカニカル共振器と超伝導マイクロ波共振器のフレキシブル結合 Flexible Integration of Gigahertz Nanomechanical Resonators with a Superconducting Microwave Resonator using a Bonded Flip-Chip Method ( http://arxiv.org/abs/2304.13592v1 ) ライセンス: Link先を確認 | Sultan Malik, Wentao Jiang, Felix M. Mayor, Takuma Makihara, Amir H. Safavi-Naeini | (参考訳) ギガヘルツ周波数ナノメカニカル共振器と周波数可変超伝導マイクロ波共振器の強結合性を示す。
マイクロ波共振器を外部磁場でチューニングすることにより、一連のハイブリダイドマイクロ波-メカニカルモードを観察し、低温下での$\sim {15}~\text{MHz}$の結合強度を報告する。
実証されたマルチチップアプローチは、フレキシブルな高速なキャラクタリゼーションと簡易な製造を提供し、様々な量子システム間のカップリングを可能にする可能性がある。
我々の研究は、より複雑なハイブリッド量子システムを構築するためのプラグアンドプレイアーキテクチャへの一歩を表している。 We demonstrate strong coupling of gigahertz-frequency nanomechanical resonators to a frequency-tunable superconducting microwave resonator via a galvanically bonded flip-chip method. By tuning the microwave resonator with an external magnetic field, we observe a series of hybridized microwave-mechanical modes and report coupling strengths of $\sim {15}~\text{MHz}$ at cryogenic temperatures. The demonstrated multi-chip approach provides flexible rapid characterization and simplified fabrication, and could potentially enable coupling between a variety of quantum systems. Our work represents a step towards a plug-and-play architecture for building more complex hybrid quantum systems. | 翻訳日:2023-04-27 14:02:39 公開日:2023-04-26 |
# 合成開口異常イメージング Synthetic Aperture Anomaly Imaging ( http://arxiv.org/abs/2304.13590v1 ) ライセンス: Link先を確認 | Rakesh John Amala Arokia Nathan and Oliver Bimber | (参考訳) 前回の研究では、葉の閉塞の存在下では、従来の空中画像と比較して合成開口イメージングによる積分画像において異常検出が有意に優れていることが示されている。
本稿では,検出された異常が積分の異常を検出するよりも効果的であることを示す。
これにより、閉塞除去の強化、降圧抑制、視覚的に高い確率の他、非閉塞なターゲットを計算的に検出することができる。
我々の仮説はシミュレーションとフィールド実験の両方を通して検証された。
また、ブルーライトの組織や商用ドローンプラットフォームを使って、私たちの発見を実際に利用できるリアルタイムアプリケーションも提示します。
捜索や救助、野生生物の観察、早期の野火の検出、監視など、植生によって引き起こされる強い閉塞に苦しむユースケースに対処するように設計されている。 Previous research has shown that in the presence of foliage occlusion, anomaly detection performs significantly better in integral images resulting from synthetic aperture imaging compared to applying it to conventional aerial images. In this article, we hypothesize and demonstrate that integrating detected anomalies is even more effective than detecting anomalies in integrals. This results in enhanced occlusion removal, outlier suppression, and higher chances of visually as well as computationally detecting targets that are otherwise occluded. Our hypothesis was validated through both: simulations and field experiments. We also present a real-time application that makes our findings practically available for blue-light organizations and others using commercial drone platforms. It is designed to address use-cases that suffer from strong occlusion caused by vegetation, such as search and rescue, wildlife observation, early wildfire detection, and sur-veillance. | 翻訳日:2023-04-27 14:02:27 公開日:2023-04-26 |
# 機械共振器とフラクソニウム超伝導量子ビットの強い分散結合 Strong dispersive coupling between a mechanical resonator and a fluxonium superconducting qubit ( http://arxiv.org/abs/2304.13589v1 ) ライセンス: Link先を確認 | Nathan R. A. Lee, Yudan Guo, Agnetta Y. Cleland, E. Alex Wollack, Rachel G. Gruenke, Takuma Makihara, Zhaoyou Wang, Taha Rajabzadeh, Wentao Jiang, Felix M. Mayor, Patricio Arrangoiz-Arriola, Christopher J. Sarabalis, Amir H. Safavi-Naeini | (参考訳) 我々は、超伝導量子ビットと690メガヘルツ機械振動子の強い分散結合を示し、回路量子音響力学(cqad)実験の到達範囲を新たな周波数範囲に拡張した。
我々は、qubit-phonon結合レート$g\approx2\pi\times14~\text{MHz}$を設計し、両システムのデコヒーレンス速度を超える分散相互作用を実現した。
この強結合を生かして、メカニカル共振器のフォノン数分解測定を行い、その消散および消耗特性について検討する。
本研究は,フラックスニウム系ハイブリッド量子システムの可能性を示し,700mhz以下の周波数でフォノンを用いた新しい量子センシングおよび情報処理スキームを開発し,cqadのツールボックスを大きく拡張する道筋を示した。 We demonstrate strong dispersive coupling between a fluxonium superconducting qubit and a 690 megahertz mechanical oscillator, extending the reach of circuit quantum acousto-dynamics (cQAD) experiments into a new range of frequencies. We have engineered a qubit-phonon coupling rate of $g\approx2\pi\times14~\text{MHz}$, and achieved a dispersive interaction that exceeds the decoherence rates of both systems while the qubit and mechanics are highly nonresonant ($\Delta/g\gtrsim10$). Leveraging this strong coupling, we perform phonon number-resolved measurements of the mechanical resonator and investigate its dissipation and dephasing properties. Our results demonstrate the potential for fluxonium-based hybrid quantum systems, and a path for developing new quantum sensing and information processing schemes with phonons at frequencies below 700 MHz to significantly expand the toolbox of cQAD. | 翻訳日:2023-04-27 14:02:14 公開日:2023-04-26 |
# テンソルネットワークに基づく量子スピン系の還元基底サロゲート Reduced basis surrogates for quantum spin systems based on tensor networks ( http://arxiv.org/abs/2304.13587v1 ) ライセンス: Link先を確認 | Paul Brehmer, Michael F. Herbst, Stefan Wessel, Matteo Rizzi, Benjamin Stamm | (参考訳) 還元基底法アプローチでは、例えば基底状態の位相図を調べるために、量子多体ヒルベルト空間の有効な低次元部分空間を構築する。
この部分空間の基盤はスナップショットの解、すなわち、特定のパラメータ値と well-chosen パラメータ値に対応する基底状態から成り立っている。
本稿では, 行列積状態(MPS)計算に基づいて, 還元基底を組み立て, パラメータ点を選択するための欲求戦略について述べる。
減少基底が得られれば、位相図の計算に必要な可観測性は任意のパラメータ値のヒルベルト空間とは無関係な計算複雑性で計算することができる。
本稿では、異方性および双曲面交換相互作用を含む、異なる1次元量子スピン-1モデルに対するこのアプローチの効率と精度を示し、リッチ量子位相図を導出する。 Within the reduced basis methods approach, an effective low-dimensional subspace of a quantum many-body Hilbert space is constructed in order to investigate, e.g., the ground-state phase diagram. The basis of this subspace is built from solutions of snapshots, i.e., ground states corresponding to particular and well-chosen parameter values. Here, we show how a greedy strategy to assemble the reduced basis and thus to select the parameter points can be implemented based on matrix-product-states (MPS) calculations. Once the reduced basis has been obtained, observables required for the computation of phase diagrams can be computed with a computational complexity independent of the underlying Hilbert space for any parameter value. We illustrate the efficiency and accuracy of this approach for different one-dimensional quantum spin-1 models, including anisotropic as well as biquadratic exchange interactions, leading to rich quantum phase diagrams. | 翻訳日:2023-04-27 14:01:54 公開日:2023-04-26 |
# エネルギー系スライスワッサースタイン距離 Energy-Based Sliced Wasserstein Distance ( http://arxiv.org/abs/2304.13586v1 ) ライセンス: Link先を確認 | Khai Nguyen and Nhat Ho | (参考訳) スライスドワッサースタイン距離(sliced wasserstein distance)は、2つの確率測度の間の統計的に効率的かつ計算効率の良い計量として広く認識されている。
SW距離の重要な成分はスライシング分布である。
この分布を選択するには2つのアプローチがある。
第一のアプローチは固定された事前分布を使うことである。
第二のアプローチは、パラメトリック分布の族に属する最良の分布を最適化し、期待される距離を最大化することである。
しかし、どちらのアプローチにも限界がある。
固定された事前分布は、2つの一般的な確率測度を判別できる射影方向を強調する点で非形式的である。
最適なディストリビューションのための最適化は、しばしば高価で不安定です。
さらに、候補分布のパラメトリック族を設計することは容易に誤特定できる。
この問題に対処するために,スライシング分布をパラメータフリーで,投影された一次元ワッサースタイン距離のエネルギー関数に比例する密度分布として設計する。
次に,新しいスライス・ワッサースタイン距離,エネルギーベーススライス・ワッサースタイン(ebsw)距離を導出し,その位相的,統計的,計算的性質について,重要サンプリング,サンプリング重要度分析,マルコフ連鎖法を用いて検討した。
最後に,ebswの性能を示すために,ポイントクラウド勾配流,カラートランスフォーメーション,ポイントクラウド再構成の実験を行った。 The sliced Wasserstein (SW) distance has been widely recognized as a statistically effective and computationally efficient metric between two probability measures. A key component of the SW distance is the slicing distribution. There are two existing approaches for choosing this distribution. The first approach is using a fixed prior distribution. The second approach is optimizing for the best distribution which belongs to a parametric family of distributions and can maximize the expected distance. However, both approaches have their limitations. A fixed prior distribution is non-informative in terms of highlighting projecting directions that can discriminate two general probability measures. Doing optimization for the best distribution is often expensive and unstable. Moreover, designing the parametric family of the candidate distribution could be easily misspecified. To address the issues, we propose to design the slicing distribution as an energy-based distribution that is parameter-free and has the density proportional to an energy function of the projected one-dimensional Wasserstein distance. We then derive a novel sliced Wasserstein metric, energy-based sliced Waserstein (EBSW) distance, and investigate its topological, statistical, and computational properties via importance sampling, sampling importance resampling, and Markov Chain methods. Finally, we conduct experiments on point-cloud gradient flow, color transfer, and point-cloud reconstruction to show the favorable performance of the EBSW. | 翻訳日:2023-04-27 14:01:40 公開日:2023-04-26 |
# 極限学習画像圧縮のためのマルチモダリティ深層ネットワーク Multi-Modality Deep Network for Extreme Learned Image Compression ( http://arxiv.org/abs/2304.13583v1 ) ライセンス: Link先を確認 | Xuhao Jiang, Weimin Tan, Tian Tan, Bo Yan, Liquan Shen | (参考訳) イメージベースのシングルモダリティ圧縮学習のアプローチは、ここ数年で非常に強力なエンコーディングとデコード能力を示してきたが、非常に低いビットレートで曖昧で深刻なセマンティクスの損失に苦しんでいる。
この問題に対処するために,テキスト誘導画像圧縮のためのマルチモーダル機械学習手法を提案する。
我々は,コーデックの異なるコンポーネントにおけるテキスト記述の役割を十分に研究し,その効果を実証する。
さらに,画像とテキストの特徴を融合させるために,画像テキストアテンションモジュールと画像検索サプリメントモジュールを採用し,セマンティック・コンシステント・ロスを改良し,セマンティック・完全再構築を実現する。
ユーザ・スタディを含む広範な実験により、非常に低いビットレートで視覚的に満足できる結果が得られることが証明され、これらの方法が我々の2倍から4倍のビットレートであるにもかかわらず、最先端の方法と同等あるいはそれ以上の性能が得られることが証明された。 Image-based single-modality compression learning approaches have demonstrated exceptionally powerful encoding and decoding capabilities in the past few years , but suffer from blur and severe semantics loss at extremely low bitrates. To address this issue, we propose a multimodal machine learning method for text-guided image compression, in which the semantic information of text is used as prior information to guide image compression for better compression performance. We fully study the role of text description in different components of the codec, and demonstrate its effectiveness. In addition, we adopt the image-text attention module and image-request complement module to better fuse image and text features, and propose an improved multimodal semantic-consistent loss to produce semantically complete reconstructions. Extensive experiments, including a user study, prove that our method can obtain visually pleasing results at extremely low bitrates, and achieves a comparable or even better performance than state-of-the-art methods, even though these methods are at 2x to 4x bitrates of ours. | 翻訳日:2023-04-27 14:01:18 公開日:2023-04-26 |
# 数学的原理に基づく推薦システムの改良 Improvements on Recommender System based on Mathematical Principles ( http://arxiv.org/abs/2304.13579v1 ) ライセンス: Link先を確認 | Fu Chen, Junkang Zou, Lingfeng Zhou, Zekai Xu, Zhenyu Wu | (参考訳) 本稿では,Recommender Systemの実装について,その動作方法と使用するアルゴリズムについて検討する。
本稿では,数理原理に基づくRecommender Systemのアルゴリズムを説明し,改善のための有効な方法を見出す。
確率に基づくアルゴリズムはRecommender Systemにおいて重要であり、アルゴリズムの精度と速度を高めるためにどのように役立つかを説明する。
類似性を記述するために用いられる2つの異なる数学的距離の弱さと強みは、この記事で詳述する。 In this article, we will research the Recommender System's implementation about how it works and the algorithms used. We will explain the Recommender System's algorithms based on mathematical principles, and find feasible methods for improvements. The algorithms based on probability have its significance in Recommender System, we will describe how they help to increase the accuracy and speed of the algorithms. Both the weakness and the strength of two different mathematical distance used to describe the similarity will be detailed illustrated in this article. | 翻訳日:2023-04-27 14:00:59 公開日:2023-04-26 |
# 自己教師付きコントラスト学習と光コヒーレンストモグラフィによる針挿入時の組織分類 Tissue Classification During Needle Insertion Using Self-Supervised Contrastive Learning and Optical Coherence Tomography ( http://arxiv.org/abs/2304.13574v1 ) ライセンス: Link先を確認 | Debayan Bhattacharya, Sarah Latus, Finn Behrendt, Florin Thimm, Dennis Eggert, Christian Betz, Alexander Schlaefer | (参考訳) 針の位置決めは硬膜外麻酔などの様々な医療応用に不可欠である。
医師は、硬膜外空間で針をナビゲートしながら本能に頼る。
したがって、組織構造を同定することは、針挿入プロセスにさらなるフィードバックを与えるため、医師にとって有用である。
そこで本研究では,針先端で取得した複雑なCT信号の位相および強度データから組織を分類するディープニューラルネットワークを提案する。
限られたラベル付きデータセットシナリオにおけるディープニューラルネットワークの性能を調査し,位相・強度データの不変表現を学習する新しいコントラストプリトレーニング戦略を提案する。
トレーニングセットの10%で,提案する事前学習戦略は,モデルが0.84のf1スコアを達成するのに役立ち,モデルでは0.60のf1スコアを達成する。
さらに,組織分類における相と強度の重要性を個別に分析する。 Needle positioning is essential for various medical applications such as epidural anaesthesia. Physicians rely on their instincts while navigating the needle in epidural spaces. Thereby, identifying the tissue structures may be helpful to the physician as they can provide additional feedback in the needle insertion process. To this end, we propose a deep neural network that classifies the tissues from the phase and intensity data of complex OCT signals acquired at the needle tip. We investigate the performance of the deep neural network in a limited labelled dataset scenario and propose a novel contrastive pretraining strategy that learns invariant representation for phase and intensity data. We show that with 10% of the training set, our proposed pretraining strategy helps the model achieve an F1 score of 0.84 whereas the model achieves an F1 score of 0.60 without it. Further, we analyse the importance of phase and intensity individually towards tissue classification. | 翻訳日:2023-04-27 14:00:51 公開日:2023-04-26 |
# 多体相互作用を持つスピンモデルにおける量子多体傷 Quantum many-body scars in spin models with multi-body interactions ( http://arxiv.org/abs/2304.13624v1 ) ライセンス: Link先を確認 | Kazuyuki Sanada, Yuan Miao, Hosho Katsura | (参考訳) 我々は、量子多体傷を示す多体相互作用を持つ量子スピンモデルのいくつかのクラスを紹介し、研究する。
モデルは2つの異なる方法によって構成される: 1つは可積分スピン鎖における境界状態を利用し、もう1つは制限スペクトル生成代数のような既存の方法の変種に基づく。
最初の方法は、フラストレーションのないシステムのプロトタイプであるMageumdar-GhoshとAffleck-Kennedy-Lieb-Tasakiモデルの変形を構築することができる。
2つ目の方法により、1次元と2次元の両方でスカラースピンキラリティを含む1$のスピンモデルの大規模なクラスを構築する。
興味深いことに、いくつかのケースでは、構築されたモデルには、異なる特徴の傷跡状態の塔がある。
それぞれの例において、そのスペクトル特性と力学特性を他の状態と比較することにより、傷跡状態と熱状態とが異なる挙動を示す。
また,第2法により構築された傷痕状態の重ね合わせは,動的に完全に周期的に回復することを示す。 We introduce and study several classes of quantum spin models with multi-body interactions that exhibit quantum many-body scars. The models are constructed by two different methods: one exploiting boundary states in integrable spin chains and the other based on a variant of existing methods such as restricted spectrum generating algebras. The first method allows us to construct deformations of the Majumdar-Ghosh and Affleck-Kennedy-Lieb-Tasaki models -- prototypes of frustration-free systems. With the second method, we construct a large class of spin-$1$ models involving scalar spin chirality in both one and two dimensions. Interestingly, in some cases, the models so constructed have towers of scar states of different character. For each example, we show that the scar states behave differently from thermal states by comparing their spectral and dynamical properties with those of other states. We also show that a superposition of the scar states constructed by the second method exhibits perfectly periodic revivals in the dynamics. | 翻訳日:2023-04-27 13:53:39 公開日:2023-04-26 |
# ChartSumm: 長文と短文の自動チャート要約のための総合ベンチマーク ChartSumm: A Comprehensive Benchmark for Automatic Chart Summarization of Long and Short Summaries ( http://arxiv.org/abs/2304.13620v1 ) ライセンス: Link先を確認 | Raian Rahman, Rizvi Hasan, Abdullah Al Farhad, Md Tahmid Rahman Laskar, Md. Hamjajul Ashmafee, Abu Raihan Mostofa Kamal | (参考訳) テキスト要約への自動チャートは、視覚障害者に有効なツールであり、自然言語による表データの正確な洞察をユーザに提供します。
大規模で構造化されたデータセットは、データ駆動モデルにとって常に重要な部分です。
本稿では,トータル84,363のチャートからなる大規模ベンチマークデータセットであるchartsummを提案する。
強力なベースラインモデルによる大規模な実験は、これらのモデルが様々な自動評価指標で十分なスコアを達成して流動的で情報的な要約を生成するにもかかわらず、しばしば幻覚に苦しむこと、重要なデータポイントを欠いていること、チャートの複雑な傾向の誤った説明といった問題に直面していることを示している。
また、自動翻訳ツールを用いてChartSummを他の言語に拡張する可能性についても検討した。
これらのデータセットは、将来の研究のための挑戦的なベンチマークになります。 Automatic chart to text summarization is an effective tool for the visually impaired people along with providing precise insights of tabular data in natural language to the user. A large and well-structured dataset is always a key part for data driven models. In this paper, we propose ChartSumm: a large-scale benchmark dataset consisting of a total of 84,363 charts along with their metadata and descriptions covering a wide range of topics and chart types to generate short and long summaries. Extensive experiments with strong baseline models show that even though these models generate fluent and informative summaries by achieving decent scores in various automatic evaluation metrics, they often face issues like suffering from hallucination, missing out important data points, in addition to incorrect explanation of complex trends in the charts. We also investigated the potential of expanding ChartSumm to other languages using automated translation tools. These make our dataset a challenging benchmark for future research. | 翻訳日:2023-04-27 13:53:22 公開日:2023-04-26 |
# 内視鏡的光コヒーレンストモグラフィーによる中耳診断における非剛性点雲の登録 Non-rigid Point Cloud Registration for Middle Ear Diagnostics with Endoscopic Optical Coherence Tomography ( http://arxiv.org/abs/2304.13618v1 ) ライセンス: Link先を確認 | Peng Liu, Jonas Golde, Joseph Morgenstern, Sebastian Bodenstedt, Chenpan Li, Yujia Hu, Zhaoyu Chen, Edmund Koch, Marcus Neudert, Stefanie Speidel | (参考訳) 目的:中耳感染症は特に小児において最も多い炎症性疾患である。
現在の診断法は主観的であり、眼科医が病理を識別するのに限られる眼科からの視覚的手がかりに依存している。
この欠点に対処するため、内視鏡的光コヒーレンス断層撮影(OCT)は中耳の形態学的および機能的生体内測定の両方を提供する。
しかし, 先行構造の影のため, OCT画像の解釈は困難であり, 時間を要する。
診断と測定の迅速化を図るため,OCT外耳モデルからOCT容積データへの形態的知識の融合により,OCTデータの可読性の向上が達成され,日常的な臨床現場でのOCT適用がさらに促進される。
方法:我々はc2p-netを提案する。c2p-netは、元vivoモデルとin-vivo octモデルからサンプリングされた完全から部分的なポイントクラウドのための2段階の非リギッド登録パイプラインである。
ラベル付きトレーニングデータの欠如を克服するため、Blender3Dの高速かつ効率的な生成パイプラインは、中耳の形状をシミュレートし、ビビオノイズと部分点の雲を抽出するように設計されている。
結果: 合成OCTデータセットと実OCTデータセットの両方を用いた実験により, C2P-Netの性能を評価する。
その結果,C2P-Netは中耳点群に一般化され,合成および実OCTデータにおける現実的なノイズや不完全性を扱うことができることがわかった。
結論: 本研究は, oct画像を用いて中耳構造の診断を可能にすることを目的としている。
C2P-Net - 点雲のための2段階の非剛性登録パイプラインで, インビビオノイズと部分的なCT画像の解釈を初めてサポートする。
コードはhttps://gitlab.com/nct\_tso\_public/c2p-net.comで入手できる。 Purpose: Middle ear infection is the most prevalent inflammatory disease, especially among the pediatric population. Current diagnostic methods are subjective and depend on visual cues from an otoscope, which is limited for otologists to identify pathology. To address this shortcoming, endoscopic optical coherence tomography (OCT) provides both morphological and functional in-vivo measurements of the middle ear. However, due to the shadow of prior structures, interpretation of OCT images is challenging and time-consuming. To facilitate fast diagnosis and measurement, improvement in the readability of OCT data is achieved by merging morphological knowledge from ex-vivo middle ear models with OCT volumetric data, so that OCT applications can be further promoted in daily clinical settings. Methods: We propose C2P-Net: a two-staged non-rigid registration pipeline for complete to partial point clouds, which are sampled from ex-vivo and in-vivo OCT models, respectively. To overcome the lack of labeled training data, a fast and effective generation pipeline in Blender3D is designed to simulate middle ear shapes and extract in-vivo noisy and partial point clouds. Results: We evaluate the performance of C2P-Net through experiments on both synthetic and real OCT datasets. The results demonstrate that C2P-Net is generalized to unseen middle ear point clouds and capable of handling realistic noise and incompleteness in synthetic and real OCT data. Conclusion: In this work, we aim to enable diagnosis of middle ear structures with the assistance of OCT images. We propose C2P-Net: a two-staged non-rigid registration pipeline for point clouds to support the interpretation of in-vivo noisy and partial OCT images for the first time. Code is available at: https://gitlab.com/nct\_tso\_public/c2p-net. | 翻訳日:2023-04-27 13:53:04 公開日:2023-04-26 |
# コンパクト再形観測処理による分布シフト型ロバスト強化学習に向けて CROP: Towards Distributional-Shift Robust Reinforcement Learning using Compact Reshaped Observation Processing ( http://arxiv.org/abs/2304.13616v1 ) ライセンス: Link先を確認 | Philipp Altmann, Fabian Ritz, Leonard Feuchtinger, Jonas N\"u{\ss}lein, Claudia Linnhoff-Popien, Thomy Phan | (参考訳) 強化学習(rl)の安全な適用には、限られたトレーニングデータから未知のシナリオへの一般化が必要である。
しかし、状況の変化によるタスクの達成は、RLの重要な課題である。
一般化のための最先端のアプローチは、トレーニングデータの多様性を高めるためにデータ拡張技術を適用している。
これにより、トレーニング環境への過度な適合が防がれるが、ポリシーの最適化が妨げられる。
重要な情報のみを含む適切な観察をすること自体が困難な課題であることが示されている。
データ効率と一般化機能を改善するため,政策最適化に使用する状態情報を削減するためにCROP(Compact Reshaped Observation Processing)を提案する。
関連する情報のみを提供することにより、特定のトレーニングレイアウトへの過度な適合が前提となり、見えない環境への一般化が改善される。
観測可能な観測空間と行動空間に適用可能な3つのCROPを定式化し,方法論的基礎を提供する。
分散的に移動した安全グリッドワールドにおけるCROPの改善を実証的に示す。
さらに,2種類の異なるプロセス生成迷路において,完全な可観測性とデータ表示に対するベンチマーク比較を行う。 The safe application of reinforcement learning (RL) requires generalization from limited training data to unseen scenarios. Yet, fulfilling tasks under changing circumstances is a key challenge in RL. Current state-of-the-art approaches for generalization apply data augmentation techniques to increase the diversity of training data. Even though this prevents overfitting to the training environment(s), it hinders policy optimization. Crafting a suitable observation, only containing crucial information, has been shown to be a challenging task itself. To improve data efficiency and generalization capabilities, we propose Compact Reshaped Observation Processing (CROP) to reduce the state information used for policy optimization. By providing only relevant information, overfitting to a specific training layout is precluded and generalization to unseen environments is improved. We formulate three CROPs that can be applied to fully observable observation- and action-spaces and provide methodical foundation. We empirically show the improvements of CROP in a distributionally shifted safety gridworld. We furthermore provide benchmark comparisons to full observability and data-augmentation in two different-sized procedurally generated mazes. | 翻訳日:2023-04-27 13:52:30 公開日:2023-04-26 |
# ドメイン適応型および一般化可能なネットワークアーキテクチャとセマンティックイメージセグメンテーションのためのトレーニング戦略 Domain Adaptive and Generalizable Network Architectures and Training Strategies for Semantic Image Segmentation ( http://arxiv.org/abs/2304.13615v1 ) ライセンス: Link先を確認 | Lukas Hoyer, Dengxin Dai, Luc Van Gool | (参考訳) 教師なしドメイン適応(UDA)とドメイン一般化(DG)により、ソースドメインでトレーニングされた機械学習モデルが、ラベルなしまたは目に見えないターゲットドメインでもうまく機能する。
従来のUDA&DGセマンティックセマンティックセグメンテーションは,主に時代遅れのネットワークに基づいているため,より最近のアーキテクチャをベンチマークし,トランスフォーマーの可能性を明らかにし,UDA&DGに適したDAFormerネットワークを設計する。
1) 希少なクラスサンプリングは共通のソースドメインクラスに対するバイアスを軽減するが、(2) Thing-Class ImageNet Feature Distance と(3) 学習率ウォームアップは ImageNet Pretraining からのフィーチャ転送を促進する。
UDA&DGは通常GPUメモリに集約されているため、これまでのほとんどのメソッドはダウンスケールまたはクロップイメージである。
しかしながら、低解像度の予測は細部を保存できないことが多いが、刈り取られた画像で訓練されたモデルは、長距離のドメインローバストなコンテキスト情報を取得するのに不足している。
そこで我々は,UDA&DGのマルチレゾリューション・フレームワークであるHRDAを提案し,細かなセグメンテーションの詳細と大きな低レゾリューションの作物の強度を組み合わせ,長期の文脈依存性を学習規模で把握する。
DAFormerとHRDAは、5つのベンチマークで10mIoU以上で最先端のUDA&DGを大幅に改善した。
実装はhttps://github.com/lhoyer/hrdaで利用可能である。 Unsupervised domain adaptation (UDA) and domain generalization (DG) enable machine learning models trained on a source domain to perform well on unlabeled or even unseen target domains. As previous UDA&DG semantic segmentation methods are mostly based on outdated networks, we benchmark more recent architectures, reveal the potential of Transformers, and design the DAFormer network tailored for UDA&DG. It is enabled by three training strategies to avoid overfitting to the source domain: While (1) Rare Class Sampling mitigates the bias toward common source domain classes, (2) a Thing-Class ImageNet Feature Distance and (3) a learning rate warmup promote feature transfer from ImageNet pretraining. As UDA&DG are usually GPU memory intensive, most previous methods downscale or crop images. However, low-resolution predictions often fail to preserve fine details while models trained with cropped images fall short in capturing long-range, domain-robust context information. Therefore, we propose HRDA, a multi-resolution framework for UDA&DG, that combines the strengths of small high-resolution crops to preserve fine segmentation details and large low-resolution crops to capture long-range context dependencies with a learned scale attention. DAFormer and HRDA significantly improve the state-of-the-art UDA&DG by more than 10 mIoU on 5 different benchmarks. The implementation is available at https://github.com/lhoyer/HRDA. | 翻訳日:2023-04-27 13:52:15 公開日:2023-04-26 |
# Multi-View Stereo Representation Revist: Region-Aware MVSNet Multi-View Stereo Representation Revist: Region-Aware MVSNet ( http://arxiv.org/abs/2304.13614v1 ) ライセンス: Link先を確認 | Yisu Zhang and Jianke Zhu and Lixiang Lin | (参考訳) 深層学習に基づく多視点ステレオは,全幾何学的詳細オブジェクトを多視点から再構成するための強力なパラダイムとして登場した。
既存のアプローチのほとんどは、予測された点と、通常表面トポロジーを無視する線と表面の交点とのギャップを最小化することによって、ピクセルの深さ値を推定するだけである。
テクスチャのない地域や、適切に再構築できない表面境界には不可欠である。
この問題に対処するために,モデルがより広い範囲の表面を知覚できるように,点-面間距離を利用することを提案する。
この目的のために,コスト体積から表面近傍の点の符号付き距離を推定するために距離体積を推定する。
提案するRA-MVSNetは,表面のパッチと仮説平面を関連付けることにより知覚範囲が拡張されるため,パッチアワードである。
したがって、無テクスチャ領域の完成度を高め、境界における外れ値を減らすことができる。
さらに、導入した距離体積によって詳細なメッシュトポロジを生成することができる。
従来の深層学習に基づく多視点ステレオ手法と比較して, RA-MVSNet手法は, 符号付き距離監視を利用して, より完全な再構成結果を得る。
DTU と Tanks \& Temples のデータセットを用いた実験により,提案手法が最先端の成果をもたらすことを示す。 Deep learning-based multi-view stereo has emerged as a powerful paradigm for reconstructing the complete geometrically-detailed objects from multi-views. Most of the existing approaches only estimate the pixel-wise depth value by minimizing the gap between the predicted point and the intersection of ray and surface, which usually ignore the surface topology. It is essential to the textureless regions and surface boundary that cannot be properly reconstructed. To address this issue, we suggest to take advantage of point-to-surface distance so that the model is able to perceive a wider range of surfaces. To this end, we predict the distance volume from cost volume to estimate the signed distance of points around the surface. Our proposed RA-MVSNet is patch-awared, since the perception range is enhanced by associating hypothetical planes with a patch of surface. Therefore, it could increase the completion of textureless regions and reduce the outliers at the boundary. Moreover, the mesh topologies with fine details can be generated by the introduced distance volume. Comparing to the conventional deep learning-based multi-view stereo methods, our proposed RA-MVSNet approach obtains more complete reconstruction results by taking advantage of signed distance supervision. The experiments on both the DTU and Tanks \& Temples datasets demonstrate that our proposed approach achieves the state-of-the-art results. | 翻訳日:2023-04-27 13:51:46 公開日:2023-04-26 |
# SIMARA:全ページからキー値情報を抽出するデータベース SIMARA: a database for key-value information extraction from full pages ( http://arxiv.org/abs/2304.13606v1 ) ライセンス: Link先を確認 | Sol\`ene Tarride and M\'elodie Boillet and Jean-Fran\c{c}ois Moufflet and Christopher Kermorvant | (参考訳) 本稿では,歴史文書から情報を抽出するデータベースを提案する。
コーパスには18世紀から20世紀にかけての6つのシリーズからの5,393個のエイズが含まれている。
aidsの検索は、古いアーカイブを記述するメタデータを含む手書きのドキュメントである。
それらはフランスの国立公文書館に保管されており、アーキビストによってアーカイブ文書の識別と発見に使用されている。
各文書はページレベルで注釈付けされ、検索する7つのフィールドを含む。
各フィールドのローカライゼーションは、このデータセットが情報抽出のためのセグメンテーションフリーシステムの研究を促進するような方法では利用できない。
本稿では,エンド・ツー・エンドの情報抽出のために訓練されたトランスフォーマティブ・アーキテクチャに基づくモデルを提案し,トレーニング,検証,テストのための3つのセットを提供し,今後の作業と公正な比較を行う。
データベースはhttps://zenodo.org/record/7868059で自由にアクセスできる。 We propose a new database for information extraction from historical handwritten documents. The corpus includes 5,393 finding aids from six different series, dating from the 18th-20th centuries. Finding aids are handwritten documents that contain metadata describing older archives. They are stored in the National Archives of France and are used by archivists to identify and find archival documents. Each document is annotated at page-level, and contains seven fields to retrieve. The localization of each field is not available in such a way that this dataset encourages research on segmentation-free systems for information extraction. We propose a model based on the Transformer architecture trained for end-to-end information extraction and provide three sets for training, validation and testing, to ensure fair comparison with future works. The database is freely accessible at https://zenodo.org/record/7868059. | 翻訳日:2023-04-27 13:51:21 公開日:2023-04-26 |
# 意味のシェード:文脈言語モデルによる曖昧な単語表現の幾何学の解明 Shades of meaning: Uncovering the geometry of ambiguous word representations through contextualised language models ( http://arxiv.org/abs/2304.13597v1 ) ライセンス: Link先を確認 | Benedetta Cevoli, Chris Watkins, Yang Gao and Kathleen Rastle | (参考訳) 語彙的曖昧さは言語科学に深く永続的な挑戦をもたらす。
何十年もの間、研究者は言語ユーザーが複数の意味を持つ単語を学び、表現し、処理する方法の問題に悩まされてきた。
我々の研究は、文脈言語モデルの最近の進歩を活かした一連のシミュレーションを通じて、語彙曖昧性の心理的理解に新たな洞察を与えている。
これらのモデルは、単語の意味を全く理解せず、単に他の単語が提供する周囲の文脈に基づいて単語を予測することを学ぶ。
しかし,これらの表現は,語彙的分類や心理的理論と整合した不明瞭,同名,多義語の微妙な区別が得られた。
これらの知見は、語彙的曖昧性の現代心理学的概念化を定量的に支援し、文脈情報が異なる時間尺度で単語の意味を形作る方法を理解するための新たな課題を提起する。 Lexical ambiguity presents a profound and enduring challenge to the language sciences. Researchers for decades have grappled with the problem of how language users learn, represent and process words with more than one meaning. Our work offers new insight into psychological understanding of lexical ambiguity through a series of simulations that capitalise on recent advances in contextual language models. These models have no grounded understanding of the meanings of words at all; they simply learn to predict words based on the surrounding context provided by other words. Yet, our analyses show that their representations capture fine-grained meaningful distinctions between unambiguous, homonymous, and polysemous words that align with lexicographic classifications and psychological theorising. These findings provide quantitative support for modern psychological conceptualisations of lexical ambiguity and raise new challenges for understanding of the way that contextual information shapes the meanings of words across different timescales. | 翻訳日:2023-04-27 13:51:09 公開日:2023-04-26 |
# 厳密な双方向相関によるビデオフレーム補間 Video Frame Interpolation with Densely Queried Bilateral Correlation ( http://arxiv.org/abs/2304.13596v1 ) ライセンス: Link先を確認 | Chang Zhou, Jie Liu, Jie Tang and Gangshan Wu | (参考訳) video frame interpolation (vfi) は既存のフレーム間で存在しない中間フレームを合成することを目的としている。
フローベースVFIアルゴリズムは、中間運動場を推定し、既存のフレームをワープする。
実世界の動きの複雑さと参照フレームの欠如は、動き推定を困難にする。
多くの最先端のアプローチは、より正確な動き推定のために隣接する2つのフレーム間の相関を明示的にモデル化する。
一般的な手法では、高分解能での相関モデリングの受容場は事前に推定された運動場に依存する。
このような受容的場依存性は、小さくて高速に動くオブジェクトを扱うのに共通の動き推定アプローチを貧弱にする。
相関をモデル化し,より正確な運動場を生成するために,受動的場依存性問題を解消し,より小型で高速な物体に親しみやすいDQBC(Densely Queried Bilateral correlation)を提案する。
DQBCの助けを借りて生成された運動場はさらに洗練され、コンテキスト特徴によってアップサンプリングされる。
運動場が固定された後、CNNベースのSynthNetは最終補間フレームを合成する。
実験の結果,我々のアプローチは最先端の手法よりも精度が高く,推論時間も少ないことがわかった。
ソースコードはhttps://github.com/kinoud/dqbc。 Video Frame Interpolation (VFI) aims to synthesize non-existent intermediate frames between existent frames. Flow-based VFI algorithms estimate intermediate motion fields to warp the existent frames. Real-world motions' complexity and the reference frame's absence make motion estimation challenging. Many state-of-the-art approaches explicitly model the correlations between two neighboring frames for more accurate motion estimation. In common approaches, the receptive field of correlation modeling at higher resolution depends on the motion fields estimated beforehand. Such receptive field dependency makes common motion estimation approaches poor at coping with small and fast-moving objects. To better model correlations and to produce more accurate motion fields, we propose the Densely Queried Bilateral Correlation (DQBC) that gets rid of the receptive field dependency problem and thus is more friendly to small and fast-moving objects. The motion fields generated with the help of DQBC are further refined and up-sampled with context features. After the motion fields are fixed, a CNN-based SynthNet synthesizes the final interpolated frame. Experiments show that our approach enjoys higher accuracy and less inference time than the state-of-the-art. Source code is available at https://github.com/kinoud/DQBC. | 翻訳日:2023-04-27 13:50:55 公開日:2023-04-26 |
# 条件量子温度測定 --少ない測定による精度の向上- Conditional quantum thermometry -- enhancing precision by measuring less ( http://arxiv.org/abs/2304.13595v1 ) ライセンス: Link先を確認 | Akira Sone and Diogo O. Soares-Pinto and Sebastian Deffner | (参考訳) 量子系の温度を正確に測定することは難しい課題である。
量子情報の数学的特異性により、無限の精度で測定することは事実上不可能である。
本文では、利用可能な測定装置のポインター状態に条件付けされた一般化熱状態を紹介する。
この条件付き熱状態は、量子温度測定においてギブス状態よりも優れていることを示す。
拡張精度の起源は、ウィグナー・ヤネーゼ・ダイソンスキュー情報によって定量化される非対称性で求めることができる。
この追加資源は, 完全資源理論的解析においてさらに明らかにされ, 対象状態を条件熱状態に変換するgibbs保存マップが存在することを示す。
最後に、条件付き熱状態と同じターゲット状態との間の量子j-ダイバージェンスを量子熱に関連付ける。 Taking accurate measurements of the temperature of quantum systems is a challenging task. The mathematical peculiarities of quantum information make it virtually impossible to measure with infinite precision. In the present letter, we introduce a generalize thermal state, which is conditioned on the pointer states of the available measurement apparatus. We show that this conditional thermal state outperforms the Gibbs state in quantum thermometry. The origin for the enhanced precision can be sought in its asymmetry quantified by the Wigner-Yanase-Dyson skew information. This additional resource is further clarified in a fully resource-theoretic analysis, and we show that there is a Gibbs-preserving map to convert a target state into the conditional thermal state. Finally, we relate the quantum J-divergence between the conditional thermal state and the same target state to quantum heat. | 翻訳日:2023-04-27 13:50:39 公開日:2023-04-26 |
# 非線形振動子の有効ハミルトニアンを計算するダイアグラム法 A diagrammatic method to compute the effective Hamiltonian of driven nonlinear oscillators ( http://arxiv.org/abs/2304.13656v1 ) ライセンス: Link先を確認 | Xu Xiao, Jayameenakshi Venkatraman, Rodrigo G. Corti\~nas, Shoumik Chowdhury, Michel H. Devoret | (参考訳) 本研究では, 非線形発振器の有効ハミルトニアンを計算するために, ファインマン型ダイアグラムに基づく新しい手法を提案する。
それぞれの図形に関連する図形構造は、位相的に同値な図形の単純な数え上げを含むハミルトン項に直接対応する。
また,有効ハミルトニアンを任意の順序で生成するコンピュータプログラムにおいて,提案手法のアルゴリズム的単純さを活用する。
我々の図式法の中心は、量子非線形力学を捉えるために位相空間で開発された新しい正準摂動展開である。
この拡張の利点は、$\hbar\rightarrow0$の極限において古典調和平衡に還元されることである。
本手法は,将来の量子機械に必要な精度で,量子システムの動的制御の基礎を確立する。
超伝導回路の分野から5つの例を取り上げてその値を示す。
これらの例は、3本脚のシュリンガー猫のハミルトン安定化の実験的提案、超伝導回路実験におけるエネルギー再正規化現象のモデル化、駆動トランスモンにおける多光子共鳴の包括的キャラクタリゼーション、新しい誘導誘導トランスモン回路の提案、駆動発振器における古典的超低調波分岐のキャラクタリゼーションを含む。
最後に,実験データと正確なFloquet数値対角化を比較することで,本手法の性能をベンチマークする。 In this work, we present a new method, based on Feynman-like diagrams, for computing the effective Hamiltonian of driven nonlinear oscillators. The pictorial structure associated with each diagram corresponds directly to a Hamiltonian term, the prefactor of which involves a simple counting of topologically equivalent diagrams. We also leverage the algorithmic simplicity of our scheme in a readily available computer program that generates the effective Hamiltonian to arbitrary order. At the heart of our diagrammatic method is a novel canonical perturbation expansion developed in phase space to capture the quantum nonlinear dynamics. A merit of this expansion is that it reduces to classical harmonic balance in the limit of $\hbar\rightarrow0$. Our method establishes the foundation of the dynamic control of quantum systems with the precision needed for future quantum machines. We demonstrate its value by treating five examples from the field of superconducting circuits. These examples involve an experimental proposal for the Hamiltonian stabilization of a three-legged Schr\"odinger cat, modeling of energy renormalization phenomena in superconducting circuits experiments, a comprehensive characterization of multiphoton resonances in a driven transmon, a proposal for an novel inductively shunted transmon circuit, and a characterization of classical ultra-subharmonic bifurcation in driven oscillators. Lastly, we benchmark the performance of our method by comparing it with experimental data and exact Floquet numerical diagonalization. | 翻訳日:2023-04-27 13:45:24 公開日:2023-04-26 |
# 深層強化学習による二足歩行ロボットのアジャイルサッカースキルの学習 Learning Agile Soccer Skills for a Bipedal Robot with Deep Reinforcement Learning ( http://arxiv.org/abs/2304.13653v1 ) ライセンス: Link先を確認 | Tuomas Haarnoja, Ben Moran, Guy Lever, Sandy H. Huang, Dhruva Tirumala, Markus Wulfmeier, Jan Humplik, Saran Tunyasuvunakool, Noah Y. Siegel, Roland Hafner, Michael Bloesch, Kristian Hartikainen, Arunkumar Byravan, Leonard Hasenclever, Yuval Tassa, Fereshteh Sadeghi, Nathan Batchelor, Federico Casarini, Stefano Saliceti, Charles Game, Neil Sreendra, Kushal Patel, Marlon Gwira, Andrea Huber, Nicole Hurley, Francesco Nori, Raia Hadsell, Nicolas Heess | (参考訳) 深層強化学習(deep rl)が、動的環境において複雑な行動戦略に構成できる低コストでミニチュアなヒューマノイドロボットのために、高度で安全な移動スキルを合成できるかどうかを検討する。
我々はDeep RLを使って、20個の関節を持つヒューマノイドロボットを訓練し、1対1(1v1)のサッカーゲームを単純化した。
最初に個々のスキルを分離してトレーニングし、そのスキルをエンドツーエンドでセルフプレイ環境で構成しました。
結果として得られる方針は、急激な転倒回復、歩行、回転、蹴りなど、堅牢でダイナミックな動きのスキルを示し、ロボットから直感的に期待されるものを超えて、スムーズで安定した効率的な方法でそれらの間の遷移を示す。
エージェントはゲームの基本的な戦略的理解を開発し、例えばボールの動きを予測し、相手のショットをブロックするために学習した。
行動の全範囲は、単純な報酬の小さなセットから生まれました。
我々のエージェントはシミュレーションを訓練され、実際のロボットにゼロショットで移動された。
シミュレーションにおいて, 十分な高周波制御, 目標動力学ランダム化, 摂動の組み合わせにより, ロボットのインスタンス間で大きな非モデル化効果や変動にもかかわらず, 高品質な移動が可能となった。
ロボットは本質的に脆弱だが、小さなハードウェア変更とトレーニング中の行動の基本的な規則化によって、ロボットは動的かつアジャイルな方法で実行しながら、安全で効果的な動きを学ぶことができた。
実際、エージェントはスコアリングに最適化されたものの、実験では156%速く歩き、立ち上がるのに63%の時間を要し、スクリプト化されたベースラインよりも24%速く蹴り、長期的な目標を達成するためのスキルを効率的に組み合わせました。
創発的な行動と完全な1v1マッチの例は、追加のウェブサイトで見ることができる。 We investigate whether Deep Reinforcement Learning (Deep RL) is able to synthesize sophisticated and safe movement skills for a low-cost, miniature humanoid robot that can be composed into complex behavioral strategies in dynamic environments. We used Deep RL to train a humanoid robot with 20 actuated joints to play a simplified one-versus-one (1v1) soccer game. We first trained individual skills in isolation and then composed those skills end-to-end in a self-play setting. The resulting policy exhibits robust and dynamic movement skills such as rapid fall recovery, walking, turning, kicking and more; and transitions between them in a smooth, stable, and efficient manner - well beyond what is intuitively expected from the robot. The agents also developed a basic strategic understanding of the game, and learned, for instance, to anticipate ball movements and to block opponent shots. The full range of behaviors emerged from a small set of simple rewards. Our agents were trained in simulation and transferred to real robots zero-shot. We found that a combination of sufficiently high-frequency control, targeted dynamics randomization, and perturbations during training in simulation enabled good-quality transfer, despite significant unmodeled effects and variations across robot instances. Although the robots are inherently fragile, minor hardware modifications together with basic regularization of the behavior during training led the robots to learn safe and effective movements while still performing in a dynamic and agile way. Indeed, even though the agents were optimized for scoring, in experiments they walked 156% faster, took 63% less time to get up, and kicked 24% faster than a scripted baseline, while efficiently combining the skills to achieve the longer term objectives. Examples of the emergent behaviors and full 1v1 matches are available on the supplementary website. | 翻訳日:2023-04-27 13:44:58 公開日:2023-04-26 |
# 3秒前に何があった?
サーマルイメージングによる過去の推定 What Happened 3 Seconds Ago? Inferring the Past with Thermal Imaging ( http://arxiv.org/abs/2304.13651v1 ) ライセンス: Link先を確認 | Zitian Tang, Wenjie Ye, Wei-Chiu Ma, Hang Zhao | (参考訳) RGB画像から過去の人間の動きを推定することは、予測問題の本質的な不確実性のために困難である。
一方、熱画像は、過去の人間と物体の相互作用の痕跡を熱放射測定によって符号化する。
この観測に基づいて,ヒトの動作解析のための最初のRGBサーマルデータセットを収集した。
次に,過去のポーズ推定のための3段階ニューラルネットワークモデルを開発した。
総合実験により, この課題のあいまいさを著しく低減し, 提案モデルにより顕著な性能が得られた。
データセットはhttps://github.com/ZitianTang/Thermal-IMで公開されている。 Inferring past human motion from RGB images is challenging due to the inherent uncertainty of the prediction problem. Thermal images, on the other hand, encode traces of past human-object interactions left in the environment via thermal radiation measurement. Based on this observation, we collect the first RGB-Thermal dataset for human motion analysis, dubbed Thermal-IM. Then we develop a three-stage neural network model for accurate past human pose estimation. Comprehensive experiments show that thermal cues significantly reduce the ambiguities of this task, and the proposed model achieves remarkable performance. The dataset is available at https://github.com/ZitianTang/Thermal-IM. | 翻訳日:2023-04-27 13:44:23 公開日:2023-04-26 |
# 知識集約型視覚質問応答のための対称性二重符号化Dense Retrievalフレームワーク A Symmetric Dual Encoding Dense Retrieval Framework for Knowledge-Intensive Visual Question Answering ( http://arxiv.org/abs/2304.13649v1 ) ライセンス: Link先を確認 | Alireza Salemi, Juan Altmayer Pizzorno, Hamed Zamani | (参考訳) KI-VQA (Knowledge-Intensive Visual Question Answering) とは、画像に答えがない画像についての質問に答えることである。
本稿では, KI-VQAタスクのための新しいパイプラインを提案する。
まず,文書と問合せを共有埋め込み空間に符号化し,uni-modal (textual) とmulti-modal エンコーダで符号化する,対称的な2重符号化型検索フレームワーク dedr を紹介する。
これら2つのエンコーダの表現空間間のギャップを埋める反復的知識蒸留法を提案する。
確立された2つのKI-VQAデータセット、すなわちOK-VQAとFVQAの広範な評価は、DDRがOK-VQAとFVQAでそれぞれ11.6%、30.9%の最先端のベースラインを上回っていることを示唆している。
さらに,ki-vqaタスクに対してテキスト応答を生成するエンコーダ・デコーダ・マルチモーダル・フュージョン・イン・デコーダモデルmm-fidを提案する。
MM-FiDは、質問、画像、検索された各パスを別々にエンコードし、デコーダで全てのパスを共同で使用する。
文献の競争基準と比較すると、この手法はOK-VQAとFVQAの解答精度において5.5%と8.5%の改善をもたらす。 Knowledge-Intensive Visual Question Answering (KI-VQA) refers to answering a question about an image whose answer does not lie in the image. This paper presents a new pipeline for KI-VQA tasks, consisting of a retriever and a reader. First, we introduce DEDR, a symmetric dual encoding dense retrieval framework in which documents and queries are encoded into a shared embedding space using uni-modal (textual) and multi-modal encoders. We introduce an iterative knowledge distillation approach that bridges the gap between the representation spaces in these two encoders. Extensive evaluation on two well-established KI-VQA datasets, i.e., OK-VQA and FVQA, suggests that DEDR outperforms state-of-the-art baselines by 11.6% and 30.9% on OK-VQA and FVQA, respectively. Utilizing the passages retrieved by DEDR, we further introduce MM-FiD, an encoder-decoder multi-modal fusion-in-decoder model, for generating a textual answer for KI-VQA tasks. MM-FiD encodes the question, the image, and each retrieved passage separately and uses all passages jointly in its decoder. Compared to competitive baselines in the literature, this approach leads to 5.5% and 8.5% improvements in terms of question answering accuracy on OK-VQA and FVQA, respectively. | 翻訳日:2023-04-27 13:44:14 公開日:2023-04-26 |
# 共変量情報を用いた確率計画のためのデータ駆動型近似決定規則 Data-driven Piecewise Affine Decision Rules for Stochastic Programming with Covariate Information ( http://arxiv.org/abs/2304.13646v1 ) ライセンス: Link先を確認 | Yiyang Zhang, Junyi Liu, Xiaobo Zhao | (参考訳) 本稿では,共変量情報を用いた確率的プログラミング(SP)に着目し,特徴から最適決定への直接マッピングの学習を目的とした,非凸片方向アフィン決定規則(PADR)内に組み込んだ経験的リスク最小化(ERM)手法を提案する。
本研究では,制約のない問題に対するPADRに基づくERMモデルの漸近一貫性結果と制約のない問題に対する漸近一貫性結果を確立する。
非凸かつ微分不可能なEMM問題を解くため、拡張確率的偏極最小化アルゴリズムを開発し、複雑性解析とともに(強い)方向の定常性に対する漸近収束を確立する。
提案手法は,理論的整合性保証と計算的トラクタビリティを備えた,幅広い非凸SP問題に適用可能であることを示す。
本研究では, PADRを用いたERM法において, 各種条件下での最先端手法と比較して, コスト低減, 計算時間短縮, 特徴量に対するロバスト性, 基礎となる依存性の非線形性など, 優れた性能を示す。 Focusing on stochastic programming (SP) with covariate information, this paper proposes an empirical risk minimization (ERM) method embedded within a nonconvex piecewise affine decision rule (PADR), which aims to learn the direct mapping from features to optimal decisions. We establish the nonasymptotic consistency result of our PADR-based ERM model for unconstrained problems and asymptotic consistency result for constrained ones. To solve the nonconvex and nondifferentiable ERM problem, we develop an enhanced stochastic majorization-minimization algorithm and establish the asymptotic convergence to (composite strong) directional stationarity along with complexity analysis. We show that the proposed PADR-based ERM method applies to a broad class of nonconvex SP problems with theoretical consistency guarantees and computational tractability. Our numerical study demonstrates the superior performance of PADR-based ERM methods compared to state-of-the-art approaches under various settings, with significantly lower costs, less computation time, and robustness to feature dimensions and nonlinearity of the underlying dependency. | 翻訳日:2023-04-27 13:43:48 公開日:2023-04-26 |
# PVP:事前訓練されたビジュアルパラメータ効率のチューニング PVP: Pre-trained Visual Parameter-Efficient Tuning ( http://arxiv.org/abs/2304.13639v1 ) ライセンス: Link先を確認 | Zhao Song, Ke Yang, Naiyang Guan, Junjie Zhu, Peng Qiao, Qingyong Hu | (参考訳) 大規模事前学習型トランスフォーマーは、様々なコンピュータビジョンタスクにおいて顕著な成功を収めている。
しかし、計算コストやストレージコストが高いため、下流タスクでこれらのモデルを十分に微調整することは依然として非常に困難である。
近年,視覚プロンプトチューニング (vpt) や低ランク適応 (lora) といったパラメータ効率の高いチューニング (petuning) 技術により,事前学習したモデルに軽量プロンプトモジュールを挿入し,トランスフォーマーバックボーンを凍結しながら,これらのプロンプトモジュールを少数のトレーニング可能なパラメータでチューニングすることで,計算コストとストレージコストを大幅に削減している。
調整が必要なパラメータはわずかだが、ほとんどのPETuningメソッドは良い結果を得るためには、かなりの量のダウンストリームタスクトレーニングデータを必要とする。
パフォーマンスは低データのレギュレーション、特にクラス毎に1つまたは2つの例がある場合に不適切である。
この目的のために,我々はまず,プリトレーニングされた言語モデルでも検証されているプロンプトモジュールの初期化方法が不適切なため,パフォーマンスが低かったことを実証的に確認した。
次に,まずパラメータ効率のよいチューニングモジュールを事前学習し,その後,事前学習されたトランスフォーマーバックボーンとともに事前学習されたモジュールを活用し,下流タスクでパラメータ効率のチューニングを行う,プリトレーニングされたビジュアルパラメータ効率(pvp)チューニングフレームワークを提案する。
5つのFGVCとVTAB-1kデータセットによる実験結果から,提案手法がPETuning法よりも優れていることが示された。 Large-scale pre-trained transformers have demonstrated remarkable success in various computer vision tasks. However, it is still highly challenging to fully fine-tune these models for downstream tasks due to their high computational and storage costs. Recently, Parameter-Efficient Tuning (PETuning) techniques, e.g., Visual Prompt Tuning (VPT) and Low-Rank Adaptation (LoRA), have significantly reduced the computation and storage cost by inserting lightweight prompt modules into the pre-trained models and tuning these prompt modules with a small number of trainable parameters, while keeping the transformer backbone frozen. Although only a few parameters need to be adjusted, most PETuning methods still require a significant amount of downstream task training data to achieve good results. The performance is inadequate on low-data regimes, especially when there are only one or two examples per class. To this end, we first empirically identify the poor performance is mainly due to the inappropriate way of initializing prompt modules, which has also been verified in the pre-trained language models. Next, we propose a Pre-trained Visual Parameter-efficient (PVP) Tuning framework, which pre-trains the parameter-efficient tuning modules first and then leverages the pre-trained modules along with the pre-trained transformer backbone to perform parameter-efficient tuning on downstream tasks. Experiment results on five Fine-Grained Visual Classification (FGVC) and VTAB-1k datasets demonstrate that our proposed method significantly outperforms state-of-the-art PETuning methods. | 翻訳日:2023-04-27 13:43:29 公開日:2023-04-26 |
# autocure:mlパイプラインのための自動化された表データキュレーション技術 AutoCure: Automated Tabular Data Curation Technique for ML Pipelines ( http://arxiv.org/abs/2304.13636v1 ) ライセンス: Link先を確認 | Mohamed Abdelaal and Rashmi Koparde and Harald Schoening | (参考訳) 機械学習アルゴリズムは、自動運転、ヘルスケア、ファイナンスなど、複数のドメインでますます普及している。
このような領域では、データ準備は正確なモデルを開発する上で重要な課題であり、よく適合したデータキュレーションと変換ツールの巨大な検索空間を探索するために、かなりの専門知識と時間的投資を必要とする。
この課題に対処するために,表データの質を向上させる新鮮で構成自由なデータキュレーションパイプラインであるAutoCureを提案する。
従来のデータキュレーション法とは異なり、AutoCureは適応アンサンブルベースのエラー検出方法とデータ拡張モジュールによってクリーンなデータ分画の密度を合成的に向上させる。
実際にAutoCureは、Auto-sklearn、H2O、TPOTといったオープンソースツールと統合して、機械学習の民主化を促進することができる。
概念実証として、従来のデータキュレーションツールの28種類の組み合わせに対してAutoCureの比較評価を行い、ユーザの介入なしに優れた性能と予測精度を示す。
評価の結果,AutoCureはデータ準備の自動化と機械学習モデルの精度向上に有効な手法であることがわかった。 Machine learning algorithms have become increasingly prevalent in multiple domains, such as autonomous driving, healthcare, and finance. In such domains, data preparation remains a significant challenge in developing accurate models, requiring significant expertise and time investment to search the huge search space of well-suited data curation and transformation tools. To address this challenge, we present AutoCure, a novel and configuration-free data curation pipeline that improves the quality of tabular data. Unlike traditional data curation methods, AutoCure synthetically enhances the density of the clean data fraction through an adaptive ensemble-based error detection method and a data augmentation module. In practice, AutoCure can be integrated with open source tools, e.g., Auto-sklearn, H2O, and TPOT, to promote the democratization of machine learning. As a proof of concept, we provide a comparative evaluation of AutoCure against 28 combinations of traditional data curation tools, demonstrating superior performance and predictive accuracy without user intervention. Our evaluation shows that AutoCure is an effective approach to automating data preparation and improving the accuracy of machine learning models. | 翻訳日:2023-04-27 13:42:57 公開日:2023-04-26 |
# HausaNLP at SemEval-2023 Task 12: Leveraging African Low Resource TweetData for Sentiment Analysis HausaNLP at SemEval-2023 Task 12: Leveraging African Low Resource TweetData for Sentiment Analysis ( http://arxiv.org/abs/2304.13634v1 ) ライセンス: Link先を確認 | Saheed Abdullahi Salahudeen, Falalu Ibrahim Lawan, Ahmad Mustapha Wali, Amina Abubakar Imam, Aliyu Rabiu Shuaibu, Aliyu Yusuf, Nur Bala Rabiu, Musa Bello, Shamsuddeen Umaru Adamu, Saminu Mohammad Aliyu, Murja Sani Gadanya, Sanah Abdullahi Muaz, Mahmoud Said Ahmad, Abdulkadir Abdullahi, Abdulmalik Yusuf Jamoh | (参考訳) Twitter データセットを用いた低リソースアフリカ言語に対する感情分析の共有タスクである SemEval-2023 Task 12 について述べる。
サブタスクaは12のトラックからなる単言語感情分類であり、サブタスクbはサブタスクaのトラックを使用して多言語感情分類を行い、サブタスクcはゼロショット感情分類である。
サブタスクA,サブタスクB,サブタスクCの結果と結果を示すとともに,github上でもコードを公開している。
我々のゴールは、Afro-xlmr-large、AfriBERTa-Large、Bert-base-arabic-camelbert-da-sentiment (アラビア語-camelbert)、Multilingual-BERT (mBERT)、BERTモデルを用いて、14のアフリカの言語に対する感情分析を行うことである。
これらのサブタスクのデータセットは、これらの言語からのゴールド標準のマルチクラスラベル付きtwitterデータセットで構成されている。
その結果,afro-xlmr-largeモデルの方が,ほとんどの言語データセットの他のモデルと比較して優れた性能を示した。
同様に、ナイジェリアの言語であるHausa、Igbo、Yorubaは、他の言語と比較してパフォーマンスが良く、これは、言語に存在するデータ量の増加によるものである。 We present the findings of SemEval-2023 Task 12, a shared task on sentiment analysis for low-resource African languages using Twitter dataset. The task featured three subtasks; subtask A is monolingual sentiment classification with 12 tracks which are all monolingual languages, subtask B is multilingual sentiment classification using the tracks in subtask A and subtask C is a zero-shot sentiment classification. We present the results and findings of subtask A, subtask B and subtask C. We also release the code on github. Our goal is to leverage low-resource tweet data using pre-trained Afro-xlmr-large, AfriBERTa-Large, Bert-base-arabic-camelbert-da-sentiment (Arabic-camelbert), Multilingual-BERT (mBERT) and BERT models for sentiment analysis of 14 African languages. The datasets for these subtasks consists of a gold standard multi-class labeled Twitter datasets from these languages. Our results demonstrate that Afro-xlmr-large model performed better compared to the other models in most of the languages datasets. Similarly, Nigerian languages: Hausa, Igbo, and Yoruba achieved better performance compared to other languages and this can be attributed to the higher volume of data present in the languages. | 翻訳日:2023-04-27 13:42:37 公開日:2023-04-26 |
# ニューラルベースAIにおけるシンボルの役割:それらはあなたが考えるものではありません! The Roles of Symbols in Neural-based AI: They are Not What You Think! ( http://arxiv.org/abs/2304.13626v1 ) ライセンス: Link先を確認 | Daniel L. Silver and Tom M. Mitchell | (参考訳) 我々は,知識を直接体験するよりも,より効率的かつ効果的に伝達できる知的エージェント間で使用される,最も先進的な外部コミュニケーションツールである,と提案する。
しかし、それらはまた、思考を真に実装する神経活動の象徴的なパターンを定式化し、記述し、正当化するために、自己コミュニケーションの形でエージェントの内部で使用される。
シンボルとそれを利用する私たちの言語は、他人や自分自身に私たちの考えを説明するだけでなく、世界について学ぶ上で有益な制約(帰納的バイアス)を提供する。
本稿では,ニューロサイエンスと認知科学,人間の脳がシンボルや概念をどのように表現するか,そして今日のニューラルネットワークがどのように同じことをできるか,といった知見について述べる。
そこで我々は,新しいニューロシンボリック仮説と,シンボルのサブシンボリック表現と,学習と推論のための概念を組み合わせた知的エージェントのための実証可能なアーキテクチャを提案する。
我々の仮説と関連するアーキテクチャは、シンボルは思考の基本的な構成要素であると同時に、思考を構成するサブシンボリックなプロセスの特性であるため、知的システムの将来にとって重要な存在であることを示している。 We propose that symbols are first and foremost external communication tools used between intelligent agents that allow knowledge to be transferred in a more efficient and effective manner than having to experience the world directly. But, they are also used internally within an agent through a form of self-communication to help formulate, describe and justify subsymbolic patterns of neural activity that truly implement thinking. Symbols, and our languages that make use of them, not only allow us to explain our thinking to others and ourselves, but also provide beneficial constraints (inductive bias) on learning about the world. In this paper we present relevant insights from neuroscience and cognitive science, about how the human brain represents symbols and the concepts they refer to, and how today's artificial neural networks can do the same. We then present a novel neuro-symbolic hypothesis and a plausible architecture for intelligent agents that combines subsymbolic representations for symbols and concepts for learning and reasoning. Our hypothesis and associated architecture imply that symbols will remain critical to the future of intelligent systems NOT because they are the fundamental building blocks of thought, but because they are characterizations of subsymbolic processes that constitute thought. | 翻訳日:2023-04-27 13:42:09 公開日:2023-04-26 |
# HDR-VDP-3:高ダイナミックレンジと正規コンテンツにおける画像差, 品質, コントラスト歪みを予測するマルチメトリック HDR-VDP-3: A multi-metric for predicting image differences, quality and contrast distortions in high dynamic range and regular content ( http://arxiv.org/abs/2304.13625v1 ) ライセンス: Link先を確認 | Rafal K. Mantiuk, Dounia Hammou, Param Hanji | (参考訳) High-Dynamic-Range Visual-Difference-Predictorバージョン3(HDR-VDP-3)は、フル参照画像/映像品質評価、画像間の視覚的差異の予測、コントラスト歪みの予測など、いくつかのタスクをこなせるビジュアルメトリックである。
本稿では,その指標を高レベルに概説し,関連する作業について位置づけ,バージョン2.2との主な違いを説明し,HDRビデオ品質測定グランドチャレンジ2023にどう適合したかを説明する。 High-Dynamic-Range Visual-Difference-Predictor version 3, or HDR-VDP-3, is a visual metric that can fulfill several tasks, such as full-reference image/video quality assessment, prediction of visual differences between a pair of images, or prediction of contrast distortions. Here we present a high-level overview of the metric, position it with respect to related work, explain the main differences compared to version 2.2, and describe how the metric was adapted for the HDR Video Quality Measurement Grand Challenge 2023. | 翻訳日:2023-04-27 13:41:48 公開日:2023-04-26 |
# 協調型aiの可能性を解き放つ ---連合機械学習の社会技術的課題- Unlocking the Potential of Collaborative AI -- On the Socio-technical Challenges of Federated Machine Learning ( http://arxiv.org/abs/2304.13688v1 ) ライセンス: Link先を確認 | Tobias M\"uller, Milena Zahn and Florian Matthes | (参考訳) AIシステムの破壊的なポテンシャルは、ビッグデータの出現に根ざしている。
しかし、かなりの部分が散らばってデータサイロに閉じ込められ、その潜在能力は失われている。
Federated Machine Learningは、分散化された潜在的サイロデータからAIモデルを作成することができる、新しいAIパラダイムである。
したがって、フェデレーション機械学習は技術的にデータサイロを開放し、経済的な可能性を開くことができる。
しかし、これはデータサイロを所有する複数のパーティ間のコラボレーションを必要とする。
協調型ビジネスモデルのセットアップは複雑であり、しばしば失敗の原因となる。
現在の文献には、協調AIプロジェクトを成功させるために考慮すべき側面のガイドラインが欠けている。
本研究では,協調型ビジネスモデルの普及の課題と,連合機械学習の異なる側面について検討する。
体系的な文献レビュー、フォーカスグループ、エキスパートインタビューを通じて、社会技術的課題の体系化されたコレクションと、協調aiプロジェクトの初期実行可能性評価のための拡張ビジネスモデルキャンバスを提供する。 The disruptive potential of AI systems roots in the emergence of big data. Yet, a significant portion is scattered and locked in data silos, leaving its potential untapped. Federated Machine Learning is a novel AI paradigm enabling the creation of AI models from decentralized, potentially siloed data. Hence, Federated Machine Learning could technically open data silos and therefore unlock economic potential. However, this requires collaboration between multiple parties owning data silos. Setting up collaborative business models is complex and often a reason for failure. Current literature lacks guidelines on which aspects must be considered to successfully realize collaborative AI projects. This research investigates the challenges of prevailing collaborative business models and distinct aspects of Federated Machine Learning. Through a systematic literature review, focus group, and expert interviews, we provide a systemized collection of socio-technical challenges and an extended Business Model Canvas for the initial viability assessment of collaborative AI projects. | 翻訳日:2023-04-27 13:34:18 公開日:2023-04-26 |
# 分子結晶の電子的性質に対する量子振動効果 Quantum vibronic effects on the electronic properties of molecular crystals ( http://arxiv.org/abs/2304.13687v1 ) ライセンス: Link先を確認 | Arpan Kundu and Giulia Galli | (参考訳) 本稿では,原子核の量子運動と非調和性が電子特性に及ぼす影響に着目した分子結晶の研究を行う。
比較的硬い分子, ダイヤモンド状結晶, フロッピエ分子, NAI-DMAC, 熱活性化遅延蛍光化合物からなる系を考える。
我々は、第一原理分子動力学と核量子サーモスタットを結合することにより、pbeとスキャン機能を持つdft理論の基本的な電子ギャップを計算する。
NAI-DMAC (~ 0.22 eV) よりもダイヤモンドイド (~ 0.6 eV) の方がはるかに大きい帯間隙の零点再正規化 (ZPR) が発見された。
分子間不調和効果を無視する凍結フォノン近似(FP)がバンドギャップZPRの計算において大きな誤差(約50%)をもたらすことを示す。
代わりに、確率的手法を用いると、ダイヤモンド結晶の量子シミュレーションとよく一致した結果が得られる。
しかし、分子内不調和がZPRに寄与するNAI-DMACでは、この合意は悪化する。
本結果は,分子結晶の電子的性質を予測するために,原子核と非調和量子効果を正確に含むことの重要性を強調した。 We present a study of molecular crystals, focused on the effect of nuclear quantum motion and anharmonicity on their electronic properties. We consider a system composed of relatively rigid molecules, a diamondoid crystal, and one composed of floppier molecules, NAI-DMAC, a thermally activated delayed fluorescence compound. We compute fundamental electronic gaps at the DFT level of theory, with the PBE and SCAN functionals, by coupling first-principles molecular dynamics with a nuclear quantum thermostat. We find a sizable zero-point-renormalization (ZPR) of the band gaps, which is much larger in the case of diamondoids (~ 0.6 eV) than for NAI-DMAC (~ 0.22 eV). We show that the frozen phonon (FP) approximation, which neglects inter-molecular anharmonic effects, leads to a large error (~ 50%) in the calculation of the band gap ZPR. Instead, when using a stochastic method, we obtain results in good agreement with those of our quantum simulations for the diamondoid crystal. However, the agreement is worse for NAI-DMAC where intra-molecular anharmonicities contribute to the ZPR. Our results highlight the importance of accurately including nuclear and anharmonic quantum effects to predict the electronic properties of molecular crystals. | 翻訳日:2023-04-27 13:34:04 公開日:2023-04-26 |
# レイコンディショニング:マルチビュー画像生成におけるフォトリアリズムのトレーディングフォトコンディショナビリティ Ray Conditioning: Trading Photo-consistency for Photo-realism in Multi-view Image Generation ( http://arxiv.org/abs/2304.13681v1 ) ライセンス: Link先を確認 | Eric Ming Chen, Sidhanth Holalkere, Ruyu Yan, Kai Zhang, Abe Davis | (参考訳) マルチビュー画像生成は、画像視点編集など、将来性のある3D関連アプリケーションのために、近年特に注目を集めている。
既存の手法の多くは、3D表現が最初に合成され、2D画像に描画され、視点間の光一貫性を保証するパラダイムに従っている。
しかし、このようなフォトコンシステンシーに対する明らかなバイアスは、フォトリアリズムを犠牲にし、実際の画像の編集にこれらの方法を適用すると、幾何学的アーティファクトと細部の詳細が失われる。
この問題に対処するために,フォトコンシステンシー制約を緩和する幾何学フリーな選択肢であるレイコンディショニングを提案する。
本手法は,光フィールドに2D GANを条件付けることで,マルチビュー画像を生成する。
視点制御,最先端のフォトリアリズム,アイデンティティの整合性などにより,視点編集作業に特に適している。 Multi-view image generation attracts particular attention these days due to its promising 3D-related applications, e.g., image viewpoint editing. Most existing methods follow a paradigm where a 3D representation is first synthesized, and then rendered into 2D images to ensure photo-consistency across viewpoints. However, such explicit bias for photo-consistency sacrifices photo-realism, causing geometry artifacts and loss of fine-scale details when these methods are applied to edit real images. To address this issue, we propose ray conditioning, a geometry-free alternative that relaxes the photo-consistency constraint. Our method generates multi-view images by conditioning a 2D GAN on a light field prior. With explicit viewpoint control, state-of-the-art photo-realism and identity consistency, our method is particularly suited for the viewpoint editing task. | 翻訳日:2023-04-27 13:33:43 公開日:2023-04-26 |
# AIモデルにおけるバイアスの測定と顔バイオメトリックスへの応用:統計的アプローチ Measuring Bias in AI Models with Application to Face Biometrics: An Statistical Approach ( http://arxiv.org/abs/2304.13680v1 ) ライセンス: Link先を確認 | Daniel DeAlcala, Ignacio Serna, Aythami Morales, Julian Fierrez, Javier Ortega-Garcia | (参考訳) 欧州委員会が公表した人工知能(AI)に関する新たな規制枠組みの提案は、新たなリスクベースの法的アプローチを確立している。
この提案は、AIのさまざまな用途に対する適切なリスクアセスメントを開発する必要性を強調している。
このリスク評価は、AIにおけるバイアスの検出と緩和に対処する必要がある。
本研究では,自動意思決定システムにおけるバイアスを測定する統計的アプローチを分析する。
私たちの実験は顔認識技術に焦点を合わせます。
我々は,N-Sigma法に基づく統計的手法を用いて,機械学習モデルのバイアスを測定する新しい手法を提案する。
n-sigmaは、物理学や社会分野などの一般科学における仮説を検証するために使われる一般的な統計手法であり、機械学習への応用はまだ未定である。
本研究では,バイアス分析に基づく新たなリスクアセスメントフレームワークの開発にこの手法を適用する方法について検討し,他の統計検査に対する主な利点と欠点について考察する。 The new regulatory framework proposal on Artificial Intelligence (AI) published by the European Commission establishes a new risk-based legal approach. The proposal highlights the need to develop adequate risk assessments for the different uses of AI. This risk assessment should address, among others, the detection and mitigation of bias in AI. In this work we analyze statistical approaches to measure biases in automatic decision-making systems. We focus our experiments in face recognition technologies. We propose a novel way to measure the biases in machine learning models using a statistical approach based on the N-Sigma method. N-Sigma is a popular statistical approach used to validate hypotheses in general science such as physics and social areas and its application to machine learning is yet unexplored. In this work we study how to apply this methodology to develop new risk assessment frameworks based on bias analysis and we discuss the main advantages and drawbacks with respect to other popular statistical tests. | 翻訳日:2023-04-27 13:33:26 公開日:2023-04-26 |
# 膝関節疾患における運動に基づくバイオマーカー発見のためのマーカーレスヒト運動解析システム A marker-less human motion analysis system for motion-based biomarker discovery in knee disorders ( http://arxiv.org/abs/2304.13678v1 ) ライセンス: Link先を確認 | Kai Armstrong, Lei Zhang, Yan Wen, Alexander P. Willmott, Paul Lee, Xujioing Ye | (参考訳) 近年、nhsは低リスク患者全員の診察を困難にしており、これは変形性関節症(oa)の疑いのある患者に限ったものではない。
スタッフの待機リストの増加と不足に対処するために,膝関節障害の診断と治療進行のモニタリングのためのバイオマーカーの自動識別手法を提案する。
提案手法は, バイオメカニクスの測定と解析を可能とし, その臨床的意義を, 現在利用可能な商用代替品の安価で感度の高い代替品として分析することができる。
これらの方法と結果は, 臨床環境における標準RGBカメラの動作を捉え, 深度カメラなどの代替技術と比較した場合, 臨床環境において同等の精度を示す。
主成分分析(pca)を用いたバイオマーカーの同定は、運動データから最も代表的な特徴を生み出すための次元の縮小を可能にし、これらの新しいバイオマーカーは治療の成功を評価し、リハビリテーションの進捗を追跡するために使用できる。
これらの手法を膝痛に対する局所麻酔薬の探索的使用を応用したケーススタディに応用し, 統計学的に有意なバイオマーカー(p-value < 0.05)として検証した。 In recent years the NHS has been having increased difficulty seeing all low-risk patients, this includes but not limited to suspected osteoarthritis (OA) patients. To help address the increased waiting lists and shortages of staff, we propose a novel method of automated biomarker identification for diagnosis of knee disorders and the monitoring of treatment progression. The proposed method allows for the measurement and analysis of biomechanics and analyse their clinical significance, in both a cheap and sensitive alternative to the currently available commercial alternatives. These methods and results validate the capabilities of standard RGB cameras in clinical environments to capture motion and show that when compared to alternatives such as depth cameras there is a comparable accuracy in the clinical environment. Biomarker identification using Principal Component Analysis (PCA) allows the reduction of the dimensionality to produce the most representative features from motion data, these new biomarkers can then be used to assess the success of treatment and track the progress of rehabilitation. This was validated by applying these techniques on a case study utilising the exploratory use of local anaesthetic applied on knee pain, this allows these new representative biomarkers to be validated as statistically significant (p-value < 0.05). | 翻訳日:2023-04-27 13:33:13 公開日:2023-04-26 |
# FVP: 医用画像セグメンテーションの非教師なし領域適応のためのフーリエ視覚プロンプト FVP: Fourier Visual Prompting for Source-Free Unsupervised Domain Adaptation of Medical Image Segmentation ( http://arxiv.org/abs/2304.13672v1 ) ライセンス: Link先を確認 | Yan Wang, Jian Cheng, Yixin Chen, Shuai Shao, Lanyun Zhu, Zhenzhou Wu, Tao Liu, Haogang Zhu | (参考訳) 医用画像分割法は通常、トレーニングとテストデータの間にドメインシフトがある場合、うまく動作しない。
Unsupervised Domain Adaptation (UDA)は、ソースドメインからのラベル付きデータとターゲットドメインからのラベルなしデータの両方を使用してモデルをトレーニングすることで、ドメインシフトの問題に対処する。
source-free uda (sfuda) は、データプライバシやデータ送信の問題により、テスト段階でトレーニング済みの深層モデルに通常適用されるため、適応時にソースデータを必要とせずにudaに対して最近提案された。
しかし、医用画像セグメンテーションの実際の臨床シナリオでは、訓練されたモデルはテスト段階で凍結される。
本稿では,医用画像セグメンテーションのSFUDAのためのFuer Visual Prompting (FVP)を提案する。
FVPは、自然言語処理の学習を促すことによって、凍結した事前訓練されたモデルを、入力対象データに視覚的プロンプトを追加することにより、ターゲット領域で良好に動作させる。
fvpでは、入力周波数空間における少量の低周波学習可能なパラメータのみを用いて視覚プロンプトをパラメータ化し、予測された目標画像のセグメンテーションと、目標画像の信頼できる疑似セグメンテーションラベルとのセグメンテーション損失を凍結モデルで最小化することで学習する。
我々の知る限り、FVPは医用画像分割のための視覚的プロンプトをSFUDAに適用する最初の試みである。
提案したFVPは3つの公開データセットを用いて検証され、実験により、FVPは既存の様々な手法と比較してより良いセグメンテーション結果が得られることを示した。 Medical image segmentation methods normally perform poorly when there is a domain shift between training and testing data. Unsupervised Domain Adaptation (UDA) addresses the domain shift problem by training the model using both labeled data from the source domain and unlabeled data from the target domain. Source-Free UDA (SFUDA) was recently proposed for UDA without requiring the source data during the adaptation, due to data privacy or data transmission issues, which normally adapts the pre-trained deep model in the testing stage. However, in real clinical scenarios of medical image segmentation, the trained model is normally frozen in the testing stage. In this paper, we propose Fourier Visual Prompting (FVP) for SFUDA of medical image segmentation. Inspired by prompting learning in natural language processing, FVP steers the frozen pre-trained model to perform well in the target domain by adding a visual prompt to the input target data. In FVP, the visual prompt is parameterized using only a small amount of low-frequency learnable parameters in the input frequency space, and is learned by minimizing the segmentation loss between the predicted segmentation of the prompted target image and reliable pseudo segmentation label of the target image under the frozen model. To our knowledge, FVP is the first work to apply visual prompts to SFUDA for medical image segmentation. The proposed FVP is validated using three public datasets, and experiments demonstrate that FVP yields better segmentation results, compared with various existing methods. | 翻訳日:2023-04-27 13:32:40 公開日:2023-04-26 |
# 回帰ガウス過程回帰データからのバッテリモデルパラメータダイナミクスの学習 Learning battery model parameter dynamics from data with recursive Gaussian process regression ( http://arxiv.org/abs/2304.13666v1 ) ライセンス: Link先を確認 | Antti Aitio, Dominik J\"ost, Dirk Uwe Sauer, David A. Howey | (参考訳) 健康状態の推定はバッテリ管理システムの重要な機能であるが、運用条件の変動と実際のアプリケーションの使用要件のため、依然として困難である。
その結果、等価回路モデルに適合する手法は、性能の極端に不正確であり、長期化やパラメータ推定の不安定性を示す可能性がある。
一方、純粋なデータ駆動技術は、トレーニングデータセット以外の一般性の欠如に悩まされている。
本稿では,バッテリヘルス推定のためのデータ駆動手法とモデル駆動手法を組み合わせたハイブリッド手法を提案する。
具体的には、状態、動作条件、寿命の関数としてモデルパラメータを推定するベイズ的データ駆動手法であるガウス的プロセス回帰を実証する。
計算効率は、データからパラメータのダイナミクスを学習し、ギャップや様々な動作条件に頑健な統合状態パラメータ推定器を出力する再帰的アプローチによって確保される。
その結果、シミュレーションデータと測定データの両方において、電池容量と内部抵抗の正確な推定と予測を含む方法の有効性が示された。
これにより、実際のアプリケーションでバッテリーの老化を理解する新しい機会が生まれる。 Estimating state of health is a critical function of a battery management system but remains challenging due to the variability of operating conditions and usage requirements of real applications. As a result, techniques based on fitting equivalent circuit models may exhibit inaccuracy at extremes of performance and over long-term ageing, or instability of parameter estimates. Pure data-driven techniques, on the other hand, suffer from lack of generality beyond their training dataset. In this paper, we propose a hybrid approach combining data- and model-driven techniques for battery health estimation. Specifically, we demonstrate a Bayesian data-driven method, Gaussian process regression, to estimate model parameters as functions of states, operating conditions, and lifetime. Computational efficiency is ensured through a recursive approach yielding a unified joint state-parameter estimator that learns parameter dynamics from data and is robust to gaps and varying operating conditions. Results show the efficacy of the method, on both simulated and measured data, including accurate estimates and forecasts of battery capacity and internal resistance. This opens up new opportunities to understand battery ageing in real applications. | 翻訳日:2023-04-27 13:31:57 公開日:2023-04-26 |
# インシシットフィードバックによる質問生成の改善 Using Implicit Feedback to Improve Question Generation ( http://arxiv.org/abs/2304.13664v1 ) ライセンス: Link先を確認 | Hugo Rodrigues, Eric Nyberg, Luisa Coheur | (参考訳) 質問生成(QG)は、テキストから質問を自動的に生成することを目的とした自然言語処理(NLP)のタスクである。
多くのアプリケーションは自動生成された質問の恩恵を受けることができるが、それらの質問を選択または編集することでキュレートする必要があることが多い。
このタスクは独力で情報を提供するが、通常はポストジェネレーションによって行われるので、努力は無駄になる。
さらに、既存のシステムでは、これらのフィードバックを簡単に取り戻せません。
本研究では,そのような(単純な)フィードバックから学習するシステム GEN を提案する。
パターンベースのアプローチに従うと、少数の文/問合せペアが入力され、新しい未知の文に適用されるパターンを生成する。
生成された各質問は、ユーザが修正した後、次のイテレーションで新しいシードとして使用され、毎回より多くのパターンが生成される。
また,ユーザによる修正を利用してパターンをスコア付けし,生成した質問をランク付けする。
その結果,トップ5,10,20の質問を考慮し,学習のないバージョンと比較して,暗黙的なフィードバックの両レベルから学習することで改善できることがわかった。
改善は、使用するメトリックと戦略によって10%から向上します。 Question Generation (QG) is a task of Natural Language Processing (NLP) that aims at automatically generating questions from text. Many applications can benefit from automatically generated questions, but often it is necessary to curate those questions, either by selecting or editing them. This task is informative on its own, but it is typically done post-generation, and, thus, the effort is wasted. In addition, most existing systems cannot incorporate this feedback back into them easily. In this work, we present a system, GEN, that learns from such (implicit) feedback. Following a pattern-based approach, it takes as input a small set of sentence/question pairs and creates patterns which are then applied to new unseen sentences. Each generated question, after being corrected by the user, is used as a new seed in the next iteration, so more patterns are created each time. We also take advantage of the corrections made by the user to score the patterns and therefore rank the generated questions. Results show that GEN is able to improve by learning from both levels of implicit feedback when compared to the version with no learning, considering the top 5, 10, and 20 questions. Improvements go up from 10%, depending on the metric and strategy used. | 翻訳日:2023-04-27 13:31:39 公開日:2023-04-26 |
# 映像予測のための制御中心ベンチマーク A Control-Centric Benchmark for Video Prediction ( http://arxiv.org/abs/2304.13723v1 ) ライセンス: Link先を確認 | Stephen Tian, Chelsea Finn, Jiajun Wu | (参考訳) ビデオは、エンボディエージェントが世界のダイナミクスのモデルを学ぶための有望な知識源である。
大規模深層ネットワークは,人間の知覚的類似性や画素間比較に基づく指標によって評価されるように,複雑な映像データを自己教師ありでモデル化する上で,ますます効果的になっている。
しかし、現在のメトリクスが下流タスクのパフォーマンスの正確な指標であるかどうかは不明だ。
ロボット操作を計画する上で、既存のメトリクスは実行の成功を予測するのに信頼できない。
そこで本研究では、サンプリングベース計画によるロボット操作のシミュレーションモデルを評価する制御ベンチマークの形で、アクション条件付き映像予測のためのベンチマークを提案する。
私たちのベンチマークであるvideo prediction for visual planning(vp^2$)には、11のタスクカテゴリと310のタスクインスタンス定義を備えたシミュレーション環境、完全なプランニング実装、各タスクカテゴリのスクリプト化されたインタラクショントラジェクタを含むデータセットが含まれています。
ベンチマークの中心的な設計目標は,単純なインターフェース – 単一の前方予測コール – を公開することです。
次に、我々のベンチマークを用いて、5つの高性能ビデオ予測モデルを分析することにより、モデルサイズ、トレーニングデータ量、モデルアンサンブルの効果について検討し、視覚的に多様な設定をモデル化する際に、スケールが知覚品質を向上させる一方で、不確実性認識などの属性が計画性能にも役立つことを発見した。 Video is a promising source of knowledge for embodied agents to learn models of the world's dynamics. Large deep networks have become increasingly effective at modeling complex video data in a self-supervised manner, as evaluated by metrics based on human perceptual similarity or pixel-wise comparison. However, it remains unclear whether current metrics are accurate indicators of performance on downstream tasks. We find empirically that for planning robotic manipulation, existing metrics can be unreliable at predicting execution success. To address this, we propose a benchmark for action-conditioned video prediction in the form of a control benchmark that evaluates a given model for simulated robotic manipulation through sampling-based planning. Our benchmark, Video Prediction for Visual Planning ($VP^2$), includes simulated environments with 11 task categories and 310 task instance definitions, a full planning implementation, and training datasets containing scripted interaction trajectories for each task category. A central design goal of our benchmark is to expose a simple interface -- a single forward prediction call -- so it is straightforward to evaluate almost any action-conditioned video prediction model. We then leverage our benchmark to study the effects of scaling model size, quantity of training data, and model ensembling by analyzing five highly-performant video prediction models, finding that while scale can improve perceptual quality when modeling visually diverse settings, other attributes such as uncertainty awareness can also aid planning performance. | 翻訳日:2023-04-27 13:26:52 公開日:2023-04-26 |
# コラージュ表現による制御可能な画像生成 Controllable Image Generation via Collage Representations ( http://arxiv.org/abs/2304.13722v1 ) ライセンス: Link先を確認 | Arantxa Casanova, Marl\`ene Careil, Adriana Romero-Soriano, Christopher J. Pal, Jakob Verbeek, Michal Drozdzal | (参考訳) 最近の条件付き生成画像モデルの進歩は印象的な結果をもたらした。
一方で、テキストベースの条件モデルでは、画像とテキストのペアの大規模なデータセットを利用することで、優れた生成品質を達成している。
しかし、きめ細かい制御を可能にするためには、テキストベースのモデルは長いプロンプトを必要とする。
一方でレイアウトベースの条件モデルも大きな進歩を遂げている。
これらのモデルは、厳密な空間条件付けと粗い意味ラベルの組み合わせのために境界ボックスやセグメンテーションマップに依存する。
しかし、セマンティックラベルは、外観特性の詳細な表現には使用できない。
本稿では,画像コラージュによるきめ細かなシーン制御にアプローチし,クラスや属性ラベルを必要とせずに,所望のシーンを視覚的に表現し,オブジェクトの外観や位置を表示できるようにする。
本稿では,コラージュにおける異なる要素の出現特徴と空間的位置を条件とした,敵対的に訓練された生成画像モデルである「混合・マッチングシーン」(m&m)を紹介し,これらをコヒーレント画像に統合する。
我々はOpenImages(OI)データセットでモデルをトレーニングし、OIデータセットとMS-COCOデータセットから派生したコラージュ上で評価する。
oiデータセットを用いた実験により、m&mは、画像品質とサンプル多様性の面で非常に競争力を持ちながら、きめ細かなシーン制御性でベースラインよりも優れています。
MS-COCOデータセットでは、2桁のパラメータとデータを使用しながら、ゼロショットFIDメートル法でDALL-Eを上回り、モデルの一般化能力を強調した。
コラージュベースの生成モデルは、高品質な世代を直感的に利用し得るため、コンテンツ生成を効率的かつ効果的に進める可能性がある。 Recent advances in conditional generative image models have enabled impressive results. On the one hand, text-based conditional models have achieved remarkable generation quality, by leveraging large-scale datasets of image-text pairs. To enable fine-grained controllability, however, text-based models require long prompts, whose details may be ignored by the model. On the other hand, layout-based conditional models have also witnessed significant advances. These models rely on bounding boxes or segmentation maps for precise spatial conditioning in combination with coarse semantic labels. The semantic labels, however, cannot be used to express detailed appearance characteristics. In this paper, we approach fine-grained scene controllability through image collages which allow a rich visual description of the desired scene as well as the appearance and location of the objects therein, without the need of class nor attribute labels. We introduce "mixing and matching scenes" (M&Ms), an approach that consists of an adversarially trained generative image model which is conditioned on appearance features and spatial positions of the different elements in a collage, and integrates these into a coherent image. We train our model on the OpenImages (OI) dataset and evaluate it on collages derived from OI and MS-COCO datasets. Our experiments on the OI dataset show that M&Ms outperforms baselines in terms of fine-grained scene controllability while being very competitive in terms of image quality and sample diversity. On the MS-COCO dataset, we highlight the generalization ability of our model by outperforming DALL-E in terms of the zero-shot FID metric, despite using two magnitudes fewer parameters and data. Collage based generative models have the potential to advance content creation in an efficient and effective way as they are intuitive to use and yield high quality generations. | 翻訳日:2023-04-27 13:26:12 公開日:2023-04-26 |
# スカラー化モデル動物双生児:スカラー化ニューラルネットワークモデルの人口調査 Sparsified Model Zoo Twins: Investigating Populations of Sparsified Neural Network Models ( http://arxiv.org/abs/2304.13718v1 ) ライセンス: Link先を確認 | Dominik Honegger, Konstantin Sch\"urholt, Damian Borth | (参考訳) ニューラルネットワーク(nns)が拡大するにつれて、モデル推論の計算コストとメモリ需要を減らすためのモデルスパーシフィケーションが研究と生産の両方にとって重要な関心事となっている。
多くのスパーシフィケーション手法が個々のモデルに提案され、うまく適用されているが、我々の知る限り、それらの振る舞いとロバスト性はまだ多くのモデルで研究されていない。
本稿では,このギャップをモデル動物園と呼ばれるモデルの個体群に2つの人気のあるスペーシフィケーション手法を適用し,元の動物園のスペーシフィケーションバージョンを作成することで解決する。
本研究では,各動物園におけるこれらの2つの方法の性能について検討し,スペーシフィケーション層について比較し,オリジナルとスペーシフィケーション群の比較を行った。
両手法は非常に頑健であり,80%以上のスパルシフィケーション率を除いた場合を除き,大きなプルーニングで変動損失を上回っていた。
さらに,スパーシフィケーションモデルと元の非スパーシフィケーションモデルとは高い相関性を示し,元のスパーシフィケーションモデルとスパーシフィケーションモデルの性能は高い相関関係があることを見出した。
最後に、モデル動物園のすべてのモデルとそれらのスパーシフィケードモデル双生児が一般公開されている。 With growing size of Neural Networks (NNs), model sparsification to reduce the computational cost and memory demand for model inference has become of vital interest for both research and production. While many sparsification methods have been proposed and successfully applied on individual models, to the best of our knowledge their behavior and robustness has not yet been studied on large populations of models. With this paper, we address that gap by applying two popular sparsification methods on populations of models (so called model zoos) to create sparsified versions of the original zoos. We investigate the performance of these two methods for each zoo, compare sparsification layer-wise, and analyse agreement between original and sparsified populations. We find both methods to be very robust with magnitude pruning able outperform variational dropout with the exception of high sparsification ratios above 80%. Further, we find sparsified models agree to a high degree with their original non-sparsified counterpart, and that the performance of original and sparsified model is highly correlated. Finally, all models of the model zoos and their sparsified model twins are publicly available: modelzoos.cc. | 翻訳日:2023-04-27 13:25:26 公開日:2023-04-26 |
# 自動エンコーダによるルールマイニング Association Rules Mining with Auto-Encoders ( http://arxiv.org/abs/2304.13717v1 ) ライセンス: Link先を確認 | Th\'eophile Berteloot, Richard Khoury, Audrey Durand | (参考訳) アソシエーションルールマイニングは最も研究されているデータマイニングの研究分野の1つであり、食料品バスケットの問題から説明可能な分類システムまで幅広い応用がある。
古典的なアソシエーションルールマイニングアルゴリズムには、特に高い実行時間と生成されるルール数に関して、いくつかの制限がある。
過去10年間で、分類、回帰、クラスタリングなど、さまざまな最適化問題の解決にニューラルネットワークソリューションが使われてきた。
しかし、ニューラルネットワークを使った効率的なアソシエーションルールはいまだに存在しない。
本稿では,ARM-AEと呼ばれるマイニングアソシエーションルールに対する自動エンコーダソリューションを提案する。
提案アルゴリズムはFP-GrowthとNSGAIIを3つのカテゴリのデータセットで比較し,提案アルゴリズムが高サポートと信頼性のルールセットを発見し,生成したルールセットの品質を保ちながら,従来の手法よりも優れた実行時間を有することを示す。 Association rule mining is one of the most studied research fields of data mining, with applications ranging from grocery basket problems to explainable classification systems. Classical association rule mining algorithms have several limitations, especially with regards to their high execution times and number of rules produced. Over the past decade, neural network solutions have been used to solve various optimization problems, such as classification, regression or clustering. However there are still no efficient way association rules using neural networks. In this paper, we present an auto-encoder solution to mine association rule called ARM-AE. We compare our algorithm to FP-Growth and NSGAII on three categorical datasets, and show that our algorithm discovers high support and confidence rule set and has a better execution time than classical methods while preserving the quality of the rule set produced. | 翻訳日:2023-04-27 13:25:04 公開日:2023-04-26 |
# GPT-3.5およびGPT-4による医療提供における現実的情報提供支援の評価 Evaluation of GPT-3.5 and GPT-4 for supporting real-world information needs in healthcare delivery ( http://arxiv.org/abs/2304.13714v1 ) ライセンス: Link先を確認 | Debadutta Dash, Rahul Thapa, Juan M. Banda, Akshay Swaminathan, Morgan Cheatham, Mehr Kashyap, Nikesh Kotecha, Jonathan H. Chen, Saurabh Gombar, Lance Downing, Rachel Pedreira, Ethan Goh, Angel Arnaout, Garret Kenn Morris, Honor Magon, Matthew P Lungren, Eric Horvitz, Nigam H. Shah | (参考訳) 医療における大規模言語モデル(llm)の利用への関心は高まっているが、現在の調査は臨床現場におけるllmの実用性と安全性を評価していない。
本研究の目的は,2つのLSMが医師が提出した情報ニーズを,安全で調和した方法で情報相談サービスに提供できるかどうかを判断することであった。
GPT-3.5とGPT-4は簡単なプロンプトで60質問が提出された。
12名の医師が,LCM反応による患者被害の可能性を評価し,インフォマティクス・コンサルテーション・サービスからの報告と一致した。
医師の評価は多数決でまとめられた。
疑問の余地がなかったため、ほとんどの医師はLSM反応が有害であると判断した。
GPT-3.5では,8質問に対する回答はインフォマティクス・コンサルティング・レポートと一致し,20問,9問は評価できなかった。
29の回答があり、多数が"agree"、"disagree"、"unable to assess"に答えなかった。
GPT-4では,13問が一致し,15問が不一致,3問が評価できなかった。
35の回答があり、多数派はいなかった。
両LSMの反応は概ね過度な害を伴わないが, 情報相談サービスからの回答に一致した回答は20%未満, 幻覚的参照を含む回答, 医師は被害を構成するものについて意見が分かれた。
これらの結果は, LLMは安全かつ信頼性の高い応答を提供することができるが, 特定の質問の特定の情報要求を満たすことができないことが多いことを示唆している。
医療現場におけるllmの有用性に関する決定的な評価には、汎用モデルの迅速なエンジニアリング、キャリブレーション、カスタマイズに関するさらなる研究が必要である。 Despite growing interest in using large language models (LLMs) in healthcare, current explorations do not assess the real-world utility and safety of LLMs in clinical settings. Our objective was to determine whether two LLMs can serve information needs submitted by physicians as questions to an informatics consultation service in a safe and concordant manner. Sixty six questions from an informatics consult service were submitted to GPT-3.5 and GPT-4 via simple prompts. 12 physicians assessed the LLM responses' possibility of patient harm and concordance with existing reports from an informatics consultation service. Physician assessments were summarized based on majority vote. For no questions did a majority of physicians deem either LLM response as harmful. For GPT-3.5, responses to 8 questions were concordant with the informatics consult report, 20 discordant, and 9 were unable to be assessed. There were 29 responses with no majority on "Agree", "Disagree", and "Unable to assess". For GPT-4, responses to 13 questions were concordant, 15 discordant, and 3 were unable to be assessed. There were 35 responses with no majority. Responses from both LLMs were largely devoid of overt harm, but less than 20% of the responses agreed with an answer from an informatics consultation service, responses contained hallucinated references, and physicians were divided on what constitutes harm. These results suggest that while general purpose LLMs are able to provide safe and credible responses, they often do not meet the specific information need of a given question. A definitive evaluation of the usefulness of LLMs in healthcare settings will likely require additional research on prompt engineering, calibration, and custom-tailoring of general purpose models. | 翻訳日:2023-04-27 13:24:47 公開日:2023-04-26 |
# LLMの実践力のハーネス: ChatGPTとそれ以上の調査結果 Harnessing the Power of LLMs in Practice: A Survey on ChatGPT and Beyond ( http://arxiv.org/abs/2304.13712v1 ) ライセンス: Link先を確認 | Jingfeng Yang, Hongye Jin, Ruixiang Tang, Xiaotian Han, Qizhang Feng, Haoming Jiang, Bing Yin, Xia Hu | (参考訳) 本稿では、下流自然言語処理(NLP)タスクにおいて、LLM(Large Language Models)を扱う実践者やエンドユーザのための包括的で実践的なガイドを示す。
我々は、モデル、データ、下流タスクの観点から、LLMの使用に関する議論と洞察を提供する。
まず,現在の GPT および BERT スタイル LLM の概要を紹介する。
次に,事前学習データ,トレーニングデータ,テストデータの影響について検討する。
より重要なことは、知識集約タスク、従来の自然言語理解タスク、自然言語生成タスク、創発能力、特定のタスクに対する考慮など、様々な自然言語処理タスクにおける大規模言語モデルの使用事例と非使用事例について詳細な議論を行い、実世界のシナリオにおけるLLMの実践的応用と限界を説明するために、様々なユースケースと非使用事例を提示したことである。
また,各NLPタスクにおけるデータの重要性や課題の解明も試みている。
さらに, LLMの展開に関する包括的理解を確保するため, LLMに対する急激なバイアスの影響について検討し, 効率, コスト, 遅延など, その他の重要な考察を掘り下げる。
この包括的なガイドは、研究者や実践者にllmを扱うための貴重な洞察とベストプラクティスを提供し、幅広いnlpタスクでこれらのモデルの実装を成功させることを目的としている。
LLMの実践的ガイドリソースのキュレートされたリストは、定期的に更新され、 \url{https://github.com/Mooler0410/LLMsPracticalGuide} で見ることができる。 This paper presents a comprehensive and practical guide for practitioners and end-users working with Large Language Models (LLMs) in their downstream natural language processing (NLP) tasks. We provide discussions and insights into the usage of LLMs from the perspectives of models, data, and downstream tasks. Firstly, we offer an introduction and brief summary of current GPT- and BERT-style LLMs. Then, we discuss the influence of pre-training data, training data, and test data. Most importantly, we provide a detailed discussion about the use and non-use cases of large language models for various natural language processing tasks, such as knowledge-intensive tasks, traditional natural language understanding tasks, natural language generation tasks, emergent abilities, and considerations for specific tasks.We present various use cases and non-use cases to illustrate the practical applications and limitations of LLMs in real-world scenarios. We also try to understand the importance of data and the specific challenges associated with each NLP task. Furthermore, we explore the impact of spurious biases on LLMs and delve into other essential considerations, such as efficiency, cost, and latency, to ensure a comprehensive understanding of deploying LLMs in practice. This comprehensive guide aims to provide researchers and practitioners with valuable insights and best practices for working with LLMs, thereby enabling the successful implementation of these models in a wide range of NLP tasks. A curated list of practical guide resources of LLMs, regularly updated, can be found at \url{https://github.com/Mooler0410/LLMsPracticalGuide}. | 翻訳日:2023-04-27 13:24:16 公開日:2023-04-26 |
# 育種パターンを持つホップフィールドモデル--教師による自己教師型学習モデル Hopfield model with planted patterns: a teacher-student self-supervised learning model ( http://arxiv.org/abs/2304.13710v1 ) ライセンス: Link先を確認 | Francesco Alemanno, Luca Camanzi, Gianluca Manzan and Daniele Tantari | (参考訳) ホップフィールドネットワークはメモリ記憶と検索のパラダイムモデルとして知られているが、現代の人工知能システムは主に機械学習のパラダイムに基づいている。
ホップフィールドモデルと構造的パターンの適切な一般化の観点から,教師が教師に指導する自己教師付き学習問題をボルツマンマシンで定式化することが可能であり,スピン変数は機械の重みとパターンがトレーニングセットの例に対応する。
本研究では,トレーニングセットサイズ,データセットノイズ,推論温度(すなわち重みの正規化)を用いて位相図を解析し,学習性能の分析を行った。
小さいが情報的なデータセットで、機械は記憶によって学習できる。
ノイズの多いデータセットでは、クリティカルしきい値を超える多数のサンプルが必要になる。
この体制では、システムの記憶容量制限は、システムの一般化が可能な学習体制の発生の機会となる。 While Hopfield networks are known as paradigmatic models for memory storage and retrieval, modern artificial intelligence systems mainly stand on the machine learning paradigm. We show that it is possible to formulate a teacher-student self-supervised learning problem with Boltzmann machines in terms of a suitable generalization of the Hopfield model with structured patterns, where the spin variables are the machine weights and patterns correspond to the training set's examples. We analyze the learning performance by studying the phase diagram in terms of the training set size, the dataset noise and the inference temperature (i.e. the weight regularization). With a small but informative dataset the machine can learn by memorization. With a noisy dataset, an extensive number of examples above a critical threshold is needed. In this regime the memory storage limits of the system becomes an opportunity for the occurrence of a learning regime in which the system can generalize. | 翻訳日:2023-04-27 13:23:50 公開日:2023-04-26 |
# UniNeXt: 視覚認識のための統一アーキテクチャ UniNeXt: Exploring A Unified Architecture for Vision Recognition ( http://arxiv.org/abs/2304.13700v1 ) ライセンス: Link先を確認 | Fangjian Lin, Jianlong Yuan, Sitong Wu, Fan Wang, Zhibin Wang | (参考訳) ビジョントランスフォーマーはコンピュータビジョンタスクに大きな可能性を示している。
最近の研究は、パフォーマンス向上のための空間トークンミキサーの開発に重点を置いている。
しかし、よく設計された汎用アーキテクチャは、どの空間トークンミキサーを備えているかに関わらず、バックボーン全体の性能を大幅に向上させることができる。
本稿では,ビジョンバックボーンの汎用アーキテクチャを改良したuninextを提案する。
その効果を検証するために,コンボリューションモジュールとアテンションモジュールの両方を含む,様々な典型的なデザインと現代的なデザインで空間トークンミキサーをインスタンス化する。
最初に提案されたアーキテクチャと比較して、私たちのuninextアーキテクチャは、すべての空間トークンミキサーのパフォーマンスを着実に向上させ、それらの間のパフォーマンスギャップを狭めます。
驚いたことに、われわれのUniNeXtは、従来の最先端の窓ガラスよりも優れている。
興味深いことに、これらの空間トークンミキサーのランキングは、UniNeXtの下でも変化しており、優れた空間トークンミキサーは、最適下限の一般的なアーキテクチャのため、緩和される可能性があることを示唆している。
すべてのモデルとコードは公開されます。 Vision Transformers have shown great potential in computer vision tasks. Most recent works have focused on elaborating the spatial token mixer for performance gains. However, we observe that a well-designed general architecture can significantly improve the performance of the entire backbone, regardless of which spatial token mixer is equipped. In this paper, we propose UniNeXt, an improved general architecture for the vision backbone. To verify its effectiveness, we instantiate the spatial token mixer with various typical and modern designs, including both convolution and attention modules. Compared with the architecture in which they are first proposed, our UniNeXt architecture can steadily boost the performance of all the spatial token mixers, and narrows the performance gap among them. Surprisingly, our UniNeXt equipped with naive local window attention even outperforms the previous state-of-the-art. Interestingly, the ranking of these spatial token mixers also changes under our UniNeXt, suggesting that an excellent spatial token mixer may be stifled due to a suboptimal general architecture, which further shows the importance of the study on the general architecture of vision backbone. All models and codes will be publicly available. | 翻訳日:2023-04-27 13:23:15 公開日:2023-04-26 |
# HeySQuAD: データセットに疑問を投げかける HeySQuAD: A Spoken Question Answering Dataset ( http://arxiv.org/abs/2304.13689v1 ) ライセンス: Link先を確認 | Yijing Wu, SaiKrishna Rallabandi, Ravisutha Srinivasamurthy, Parag Pravin Dakle, Alolika Gon, Preethi Raghavan | (参考訳) 音声による質問応答(SQA)システムの性能評価には,デジタルアシスタントなど,現実のいくつかのユースケースに役立っている。
そこで本研究では,76万件の質問と97万件の機械による質問と,SQAD QAデータセットから得られた対応文による回答からなる,大規模コミュニティ共有型SQAデータセットHeySQuADを提案する。
HeySQuADの目標は、機械が雑音の多い音声の質問を理解し、その質問に正確に答える能力を測定することである。
この目的を達成するために,人間と機械が生成する質問に対する広範囲なベンチマークを実施し,両方の音源からのノイズの違いと,そのモデルや回答精度への影響を定量化する。
SQAの課題として, 人間の文章による質問に答えたい場合, 書き起こされた人間の文章による質問とオリジナルのSQuADによる質問のトレーニングが, オリジナルのSQuADテキストによる質問のみを用いたトレーニングよりも大幅に改善した(12.51%)。 Human-spoken questions are critical to evaluating the performance of spoken question answering (SQA) systems that serve several real-world use cases including digital assistants. We present a new large-scale community-shared SQA dataset, HeySQuAD that consists of 76k human-spoken questions and 97k machine-generated questions and corresponding textual answers derived from the SQuAD QA dataset. The goal of HeySQuAD is to measure the ability of machines to understand noisy spoken questions and answer the questions accurately. To this end, we run extensive benchmarks on the human-spoken and machine-generated questions to quantify the differences in noise from both sources and its subsequent impact on the model and answering accuracy. Importantly, for the task of SQA, where we want to answer human-spoken questions, we observe that training using the transcribed human-spoken and original SQuAD questions leads to significant improvements (12.51%) over training using only the original SQuAD textual questions. | 翻訳日:2023-04-27 13:22:56 公開日:2023-04-26 |
# プライバシ・イン・プラクティス:X線画像におけるプライベート新型コロナウイルス検出(拡張版) Privacy in Practice: Private COVID-19 Detection in X-Ray Images (Extended Version) ( http://arxiv.org/abs/2211.11434v4 ) ライセンス: Link先を確認 | Lucas Lange, Maja Schneider, Peter Christen, Erhard Rahm | (参考訳) 機械学習(ML)は、大量の画像の迅速なスクリーニングを可能にすることで、新型コロナウイルスなどのパンデミックに対抗するのに役立つ。
患者のプライバシを維持しながらデータ分析を行うため,差分プライバシー(DP)を満たすMLモデルを作成する。
新型コロナウイルス(COVID-19)のプライベートモデルを探索する以前の研究は、部分的には小さなデータセットに基づいており、より弱いか不明確なプライバシー保証を提供し、実用的なプライバシーを調査していない。
これらのオープンギャップに対処するための改善を提案する。
我々は、固有の階級不均衡を考慮し、ユーティリティとプライバシのトレードオフをより広範囲に、より厳格なプライバシー予算よりも評価する。
我々の評価は、ブラックボックスメンバーシップ推論攻撃(MIA)による実践的プライバシを実証的に推定することで支持される。
導入されたdpは,miasによる漏洩脅威の抑制に役立ち,この仮説をcovid-19分類タスクで最初に検証する実践的な分析を行う。
以上の結果から,MIAの課題依存的実践的脅威によって,必要なプライバシーレベルが異なる可能性が示唆された。
以上の結果から, DP保証の増加に伴い, 経験的プライバシー漏洩はわずかに改善し, DPがMIA防衛に限られた影響を及ぼす可能性が示唆された。
本研究は, 実用プライバシトレードオフの改善の可能性を明らかにし, 実用プライバシのチューニングにおいて, 経験的攻撃特異的プライバシ推定が重要な役割を果たすと考えている。 Machine learning (ML) can help fight pandemics like COVID-19 by enabling rapid screening of large volumes of images. To perform data analysis while maintaining patient privacy, we create ML models that satisfy Differential Privacy (DP). Previous works exploring private COVID-19 models are in part based on small datasets, provide weaker or unclear privacy guarantees, and do not investigate practical privacy. We suggest improvements to address these open gaps. We account for inherent class imbalances and evaluate the utility-privacy trade-off more extensively and over stricter privacy budgets. Our evaluation is supported by empirically estimating practical privacy through black-box Membership Inference Attacks (MIAs). The introduced DP should help limit leakage threats posed by MIAs, and our practical analysis is the first to test this hypothesis on the COVID-19 classification task. Our results indicate that needed privacy levels might differ based on the task-dependent practical threat from MIAs. The results further suggest that with increasing DP guarantees, empirical privacy leakage only improves marginally, and DP therefore appears to have a limited impact on practical MIA defense. Our findings identify possibilities for better utility-privacy trade-offs, and we believe that empirical attack-specific privacy estimation can play a vital role in tuning for practical privacy. | 翻訳日:2023-04-27 11:03:21 公開日:2023-04-26 |
# 雑音極大絡み状態を持つ完全量子非局所ゲームの決定可能性 Decidability of fully quantum nonlocal games with noisy maximally entangled states ( http://arxiv.org/abs/2211.10613v5 ) ライセンス: Link先を確認 | Minglong Qin, Penghui Yao | (参考訳) 本稿では、雑音の多い最大絡み合った状態を持つ完全量子非局所ゲームの決定可能性について考察する。
完全量子非ローカルゲームは非ローカルゲームの一般化であり、質問と回答の両方が量子的であり、審判はプレイヤーから量子的回答を受けた後にゲームに勝つかどうかを決定するためにバイナリ povm 測定を行う。
完全量子非局所ゲームの量子値 (quantum value) は、プレイヤーがゲームに勝つ確率の上限であり、プレイヤー間で共有される全ての可能な絡み合った状態と、プレイヤーが行うすべての有効な量子演算を超越する。
セミナーワーク $\mathrm{MIP}^*=\mathrm{RE}$ は、完全非局所ゲームの量子値を近似することは決定不可能であることを意味する。
これは、プレイヤーが最大に絡み合った状態を共有することしか許されていない場合でも継続される。
本稿では,共有最大絡み合った状態がノイズである場合について検討する。
我々は、プレイヤーが量子値に任意に近い確率で完全量子非局所ゲームに勝つために、ノイズの多い最大絡み合い状態のコピーに計算可能な上限が存在することを証明する。
これは、これらのゲームの量子値の近似が決定可能であることを意味する。
したがって、完全量子非局所ゲームにおける量子値の近似の難しさは共有状態のノイズに対して強固ではない。
本稿では,協調分布の非対話的シミュレーションを決定可能とする枠組みを構築し,非局所ゲームに対する類似結果を一般化する。
フーリエ解析の理論を超作用素の空間に拡張し、不変原理や超作用素の次元還元を含むいくつかの重要な結果を証明する。
これらの結果は、それ自体が興味深いものであり、さらなる応用があると考えられている。 This paper considers the decidability of fully quantum nonlocal games with noisy maximally entangled states. Fully quantum nonlocal games are a generalization of nonlocal games, where both questions and answers are quantum and the referee performs a binary POVM measurement to decide whether they win the game after receiving the quantum answers from the players. The quantum value of a fully quantum nonlocal game is the supremum of the probability that they win the game, where the supremum is taken over all the possible entangled states shared between the players and all the valid quantum operations performed by the players. The seminal work $\mathrm{MIP}^*=\mathrm{RE}$ implies that it is undecidable to approximate the quantum value of a fully nonlocal game. This still holds even if the players are only allowed to share (arbitrarily many copies of) maximally entangled states. This paper investigates the case that the shared maximally entangled states are noisy. We prove that there is a computable upper bound on the copies of noisy maximally entangled states for the players to win a fully quantum nonlocal game with a probability arbitrarily close to the quantum value. This implies that it is decidable to approximate the quantum values of these games. Hence, the hardness of approximating the quantum value of a fully quantum nonlocal game is not robust against the noise in the shared states. This paper is built on the framework for the decidability of non-interactive simulations of joint distributions and generalizes the analogous result for nonlocal games. We extend the theory of Fourier analysis to the space of super-operators and prove several key results including an invariance principle and a dimension reduction for super-operators. These results are interesting in their own right and are believed to have further applications. | 翻訳日:2023-04-27 11:02:55 公開日:2023-04-26 |
# 安全な潜伏拡散:拡散モデルにおける不適切な変性の緩和 Safe Latent Diffusion: Mitigating Inappropriate Degeneration in Diffusion Models ( http://arxiv.org/abs/2211.05105v4 ) ライセンス: Link先を確認 | Patrick Schramowski, Manuel Brack, Bj\"orn Deiseroth, Kristian Kersting | (参考訳) テキスト条件付き画像生成モデルは近年,画像品質とテキストアライメントの驚くべき結果が得られ,急速に成長するアプリケーションに採用されている。
それらは高度にデータ駆動であり、インターネットからランダムにスクレイピングされた数十億規模のデータセットに依存しているため、デジェネレーションや偏りのある人間の行動からも苦しんでいます。
逆に、これらのバイアスを補強することもある。
好ましくない副作用に対処するために,安全な潜伏拡散(SLD)を示す。
具体的には, トレーニングセットの不整合による不適切な変性を測定するため, ヌード性や暴力などの概念を包含する, ベッド不適切な画像プロンプト(I2P)を含む新しい画像生成テスト用画像プロンプトを確立する。
以上の結果から,SLDは拡散過程において不適切な画像部分を除去・抑制し,追加の訓練を必要とせず,全体的な画像品質やテキストアライメントに悪影響を及ぼさない。 Text-conditioned image generation models have recently achieved astonishing results in image quality and text alignment and are consequently employed in a fast-growing number of applications. Since they are highly data-driven, relying on billion-sized datasets randomly scraped from the internet, they also suffer, as we demonstrate, from degenerated and biased human behavior. In turn, they may even reinforce such biases. To help combat these undesired side effects, we present safe latent diffusion (SLD). Specifically, to measure the inappropriate degeneration due to unfiltered and imbalanced training sets, we establish a novel image generation test bed-inappropriate image prompts (I2P)-containing dedicated, real-world image-to-text prompts covering concepts such as nudity and violence. As our exhaustive empirical evaluation demonstrates, the introduced SLD removes and suppresses inappropriate image parts during the diffusion process, with no additional training required and no adverse effect on overall image quality or text alignment. | 翻訳日:2023-04-27 11:02:26 公開日:2023-04-26 |
# 単一量子エミッタと線形光学を用いた任意のフォトニックグラフ状態の準決定論的ハイブリッド生成 Near-deterministic hybrid generation of arbitrary photonic graph states using a single quantum emitter and linear optics ( http://arxiv.org/abs/2205.09750v5 ) ライセンス: Link先を確認 | Paul Hilaire, Leonid Vidro, Hagai S. Eisenberg, Sophia E. Economou | (参考訳) 線形光学二光子ゲートは本質的に確率的であるため、測定に基づく実装は特にフォトニックプラットフォームに適している。
したがって、これらのグラフ状態を生成することが課題である。
相互作用する量子エミッタまたは効率的なスピン光子界面を利用するいくつかの生成手順が、これらのフォトニックグラフ状態を決定論的に生成するために提案されている。
しかし、これらの解は、最先端が線形グラフ状態の生成であるため、まだ実験的には到達できない。
本稿では,現在の量子エミッタ機能を用いたグラフ状態生成のための近似決定論的解を提案する。
本稿では,全光子融合ゲートを用いた量子エミッタグラフ状態生成手法を提案する。
その結果、計測に基づく量子通信や量子コンピューティングを含む、資源効率の高い量子情報処理の実践的実装への道が開けるべきである。 Since linear-optical two-photon gates are inherently probabilistic, measurement-based implementations are particularly well suited for photonic platforms: a large highly-entangled photonic resource state, called a graph state, is consumed through measurements to perform a computation. The challenge is thus to produce these graph states. Several generation procedures, which use either interacting quantum emitters or efficient spin-photon interface, have been proposed to create these photonic graph states deterministically. Yet, these solutions are still out of reach experimentally since the state-of-the-art is the generation of a linear graph state. Here, we introduce near-deterministic solutions for the generation of graph states using the current quantum emitter capabilities. We propose hybridizing quantum-emitter-based graph state generation with all-photonic fusion gates to produce graph states of complex topology near-deterministically. Our results should pave the way towards the practical implementation of resource-efficient quantum information processing, including measurement-based quantum communication and quantum computing. | 翻訳日:2023-04-27 11:02:07 公開日:2023-04-26 |
# 複数の単一光子の時間と周波数を直接測定したハイゼンベルク限界付近の高速分光計 Fast spectrometer near the Heisenberg limit with direct measurement of time and frequency for multiple single photons ( http://arxiv.org/abs/2304.11999v2 ) ライセンス: Link先を確認 | Jakub Jirsa, Sergei Kulkov, Raphael A. Abrahao, Jesse Crawford, Aaron Mueninghoff, Ermanno Bernasconi, Claudio Bruschini, Samuel Burri, Stephen Vintskevich, Michal Marcisovsky, Edoardo Charbon and Andrei Nomerotski | (参考訳) 我々は、0.04nmのスペクトルと40psの時間分解能を持つ512個の単光子アバランシェダイオードの線形アレイに基づく単光子感度分光計を提案する。
我々は、同時単一光子の時間と周波数を直接測定できる高速なデータ駆動演算を用いる。
優れた時間分解能とスペクトル分解能を組み合わせることで、実験装置の単純さにもかかわらず、hbar/2 の Heisenberg Uncertainty Principle limit よりも10倍高い値となる。
この研究は量子フォトニクスにおける多くの応用、特に単一光子のスペクトル特性と時間特性の両方を利用した場合に開放される。 We present a single-photon-sensitive spectrometer, based on a linear array of 512 single-photon avalanche diodes, with 0.04 nm spectral and 40 ps temporal resolutions. We employ a fast data-driven operation that allows direct measurement of time and frequency for simultaneous single photons. Combining excellent temporal and spectral resolution, our result is only a factor of ten above the Heisenberg Uncertainty Principle limit of hbar/2 for energy and time, despite the simplicity of our experimental setup. This work opens numerous applications in quantum photonics, especially when both spectral and temporal properties of single photons are exploited. | 翻訳日:2023-04-27 10:54:33 公開日:2023-04-26 |
# threatcrawl:サイバーセキュリティドメインのためのbertベースの集中クローラ ThreatCrawl: A BERT-based Focused Crawler for the Cybersecurity Domain ( http://arxiv.org/abs/2304.11960v2 ) ライセンス: Link先を確認 | Philipp Kuehn, Mike Schmidt, Markus Bayer, Christian Reuter | (参考訳) 公開情報にはサイバー脅威情報(CTI)の貴重な情報が含まれている。
これは、他のシステムですでに発生した攻撃を防ぐために使用できる。
理想的には、最初の攻撃のみが成功し、その後全ての攻撃が検出され停止される。
しかし、この情報交換にはさまざまな基準があるが、多くは記事やブログ投稿で標準化されていない方法で共有されている。
手動で複数のオンラインポータルやニュースページをスキャンして新しい脅威を発見し、それらを抽出するのは時間がかかります。
このスキャンプロセスの一部を自動化するために,複数の論文が自然言語処理(NLP)を用いて文書から妥協の指標(IOC)を抽出する抽出器を提案する。
しかし、これは文書から情報を抽出する問題を既に解決しているが、これらの文書を検索することはめったにない。
本稿では,変換器を用いた双方向エンコーダ表現(BERT)モデルを用いて文書の分類とクローリングパスの動的適応を行うThreatCrawlを提案する。
ThreatCrawlは、IOCコンテンツなどのテキストで名前付けられた特定のタイプのオープンソースインテリジェンス(OSINT)を分類するのは難しいが、関連する文書を見つけ、それに従って修正することができる。
収穫率は最大52%で、私たちの知る限りでは、現在の最先端技術よりも優れています。 Publicly available information contains valuable information for Cyber Threat Intelligence (CTI). This can be used to prevent attacks that have already taken place on other systems. Ideally, only the initial attack succeeds and all subsequent ones are detected and stopped. But while there are different standards to exchange this information, a lot of it is shared in articles or blog posts in non-standardized ways. Manually scanning through multiple online portals and news pages to discover new threats and extracting them is a time-consuming task. To automize parts of this scanning process, multiple papers propose extractors that use Natural Language Processing (NLP) to extract Indicators of Compromise (IOCs) from documents. However, while this already solves the problem of extracting the information out of documents, the search for these documents is rarely considered. In this paper, a new focused crawler is proposed called ThreatCrawl, which uses Bidirectional Encoder Representations from Transformers (BERT)-based models to classify documents and adapt its crawling path dynamically. While ThreatCrawl has difficulties to classify the specific type of Open Source Intelligence (OSINT) named in texts, e.g., IOC content, it can successfully find relevant documents and modify its path accordingly. It yields harvest rates of up to 52%, which are, to the best of our knowledge, better than the current state of the art. | 翻訳日:2023-04-27 10:54:18 公開日:2023-04-26 |
# 周期的超構造における波の閉じ込めを分類する教師なし機械学習 Unsupervised Machine Learning to Classify the Confinement of Waves in Periodic Superstructures ( http://arxiv.org/abs/2304.11901v2 ) ライセンス: Link先を確認 | Marek Kozo\v{n}, Rutger Schrijver, Matthias Schlottbom, Jaap J.W. van der Vegt, and Willem L. Vos | (参考訳) 我々は,最近提示した波動閉じ込め解析のスケーリング手法の精度を高めるために教師なし機械学習を用いる。
標準のk-means++アルゴリズムと独自のモデルベースアルゴリズムを採用しています。
本稿では,クラスタリングアルゴリズムの入力として使用する閉じ込め次元の正しい数を求める手段として,クラスタ妥当性指標について検討する。
その後,クラスタリングを行わないスケーリング手法の直接適用と比較して,2つのクラスタリングアルゴリズムの性能を解析した。
クラスタリング手法はより物理的に意味のある結果をもたらすが、正しい閉じ込め次元の集合を特定するのに苦労する可能性がある。
より正確な結果を得るには,まず直接スケーリングを適用して,正しい閉じ込め次元の集合を求め,次にクラスタリングを用いて結果を改良する。
さらに、モデルベースアルゴリズムは、標準のk-means++クラスタリングよりも優れています。 We employ unsupervised machine learning to enhance the accuracy of our recently presented scaling method for wave confinement analysis [1]. We employ the standard k-means++ algorithm as well as our own model-based algorithm. We investigate cluster validity indices as a means to find the correct number of confinement dimensionalities to be used as an input to the clustering algorithms. Subsequently, we analyze the performance of the two clustering algorithms when compared to the direct application of the scaling method without clustering. We find that the clustering approach provides more physically meaningful results, but may struggle with identifying the correct set of confinement dimensionalities. We conclude that the most accurate outcome is obtained by first applying the direct scaling to find the correct set of confinement dimensionalities and subsequently employing clustering to refine the results. Moreover, our model-based algorithm outperforms the standard k-means++ clustering. | 翻訳日:2023-04-27 10:53:41 公開日:2023-04-26 |
# 画像分類のための部分相関に基づく深層視覚表現の学習 Learning Partial Correlation based Deep Visual Representation for Image Classification ( http://arxiv.org/abs/2304.11597v2 ) ライセンス: Link先を確認 | Saimunur Rahman and Piotr Koniusz and Lei Wang and Luping Zhou and Peyman Moghadam and Changming Sun | (参考訳) 共分散行列に基づく視覚表現は、畳み込み特徴写像における異なるチャネルのペア関係を特徴付けることにより、画像分類の有効性を示す。
しかし、一方の相関関係は、興味のある両方のチャネルに関連付けられた別のチャネルが存在すると誤解され、 ``confounding'' 効果をもたらす。
この場合、共起効果を除去する ``partial correlation'' を代わりに推定する。
それでも、偏相関を確実に推定するには対称正定値行列最適化(sparse inverse covariance Estimation, SICE)を解く必要がある。
このプロセスをCNNに組み込む方法はまだオープンな問題である。
本研究では,CNNの新規構造層としてSICEを定式化する。
エンドツーエンドのトレーサビリティを確保するために,上述の行列最適化を前方および後方伝播ステップで解く反復法を開発した。
本研究は,cnn における共分散行列推定によって発生する小さなサンプル問題を軽減し,部分相関に基づく深部視覚表現を得る。
計算学的には、我々のモデルはGPUで効果的に訓練でき、先進的なCNNの多数のチャネルでうまく機能する。
実験では,共分散行列に基づく表現と比較して,深い視覚表現の有効性と優れた分類性能を示す。 Visual representation based on covariance matrix has demonstrates its efficacy for image classification by characterising the pairwise correlation of different channels in convolutional feature maps. However, pairwise correlation will become misleading once there is another channel correlating with both channels of interest, resulting in the ``confounding'' effect. For this case, ``partial correlation'' which removes the confounding effect shall be estimated instead. Nevertheless, reliably estimating partial correlation requires to solve a symmetric positive definite matrix optimisation, known as sparse inverse covariance estimation (SICE). How to incorporate this process into CNN remains an open issue. In this work, we formulate SICE as a novel structured layer of CNN. To ensure end-to-end trainability, we develop an iterative method to solve the above matrix optimisation during forward and backward propagation steps. Our work obtains a partial correlation based deep visual representation and mitigates the small sample problem often encountered by covariance matrix estimation in CNN. Computationally, our model can be effectively trained with GPU and works well with a large number of channels of advanced CNNs. Experiments show the efficacy and superior classification performance of our deep visual representation compared to covariance matrix based counterparts. | 翻訳日:2023-04-27 10:53:29 公開日:2023-04-26 |
# プロンプティングによる大規模言語モデルの性能向上 Boosting Theory-of-Mind Performance in Large Language Models via Prompting ( http://arxiv.org/abs/2304.11490v3 ) ライセンス: Link先を確認 | Shima Rahimi Moghaddam, Christopher J. Honey | (参考訳) 大規模言語モデル(llm)は2023年に多くのタスクで優れているが、複雑な推論では依然として課題に直面している。
エージェントの信念、目標、精神状態を理解することを必要とする理論・オブ・ミンド(ToM)タスクは、人間を含む常識的推論に不可欠であり、この分野におけるLLMのパフォーマンスを高めることが不可欠である。
本研究では, GPT-4 と 3 つの GPT-3.5 変種 (Davinci-2, Davinci-3, GPT-3.5-Turbo) のTOM 性能を測定し, テキスト内学習の有効性を検討した。
思考推論の2ショット連鎖とステップバイステップ思考指示を特徴とするプロンプトを評価した。
人間のフィードバックからの強化学習(RLHF)で訓練したLSM(Davinci-2を除く全てのモデル)は、文脈内学習によりToMの精度を向上させた。
GPT-4はゼロショットで最高の性能を示し、80%の精度に達したが、それでもテストセットの87%の精度には届かなかった。
しかし、インコンテキスト学習のプロンプトを供給された場合、全てのRLHF学習LLMは80%ToMの精度を達成し、GPT-4は100%に達した。
これらの結果は、適切なプロンプトがLLM ToM推論を促進することを示し、LLM認知能力の文脈依存性を強調している。 Large language models (LLMs) excel in many tasks in 2023, but they still face challenges in complex reasoning. Theory-of-mind (ToM) tasks, which require understanding agents' beliefs, goals, and mental states, are essential for common-sense reasoning involving humans, making it crucial to enhance LLM performance in this area. This study measures the ToM performance of GPT-4 and three GPT-3.5 variants (Davinci-2, Davinci-3, GPT-3.5-Turbo), and investigates the effectiveness of in-context learning in improving their ToM comprehension. We evaluated prompts featuring two-shot chain of thought reasoning and step-by-step thinking instructions. We found that LLMs trained with Reinforcement Learning from Human Feedback (RLHF) (all models excluding Davinci-2) improved their ToM accuracy via in-context learning. GPT-4 performed best in zero-shot settings, reaching nearly 80% ToM accuracy, but still fell short of the 87% human accuracy on the test set. However, when supplied with prompts for in-context learning, all RLHF-trained LLMs exceeded 80% ToM accuracy, with GPT-4 reaching 100%. These results demonstrate that appropriate prompting enhances LLM ToM reasoning, and they underscore the context-dependent nature of LLM cognitive capacities. | 翻訳日:2023-04-27 10:52:54 公開日:2023-04-26 |
# listen2scene: 対話型素材認識バイノーラル音の再構成 Listen2Scene: Interactive material-aware binaural sound propagation for reconstructed 3D scenes ( http://arxiv.org/abs/2302.02809v3 ) ライセンス: Link先を確認 | Anton Ratnarajah, Dinesh Manocha | (参考訳) 本稿では、仮想現実(vr)および拡張現実(ar)アプリケーションのためのエンドツーエンドバイノーラルオーディオレンダリングアプローチ(listen2scene)を提案する。
実環境の3次元モデルに対する音響効果を生成するニューラルネットを用いたバイノーラル音響伝搬法を提案する。
クリーンオーディオやドライオーディオは、生成された音響効果と畳み込み、実際の環境に対応するオーディオをレンダリングすることができる。
本稿では,3次元シーンの材料情報とトポロジー情報の両方を用いて,シーン潜在ベクトルを生成するグラフニューラルネットワークを提案する。
さらに,現場潜伏ベクトルから音響効果を生成するために,条件付き生成対向ネットワーク(CGAN)を用いる。
我々のネットワークは、再構成された3Dメッシュモデルでホールや他のアーティファクトを処理できる。
空間音響効果を組み込むために,ジェネレータネットワークに効率的なコスト関数を提案する。
ソースとリスナーの位置を考えると、学習に基づくバイノーラル音伝搬アプローチは、nvidia geforce rtx 2080 ti gpu上で0.1ミリ秒で音響効果を生成し、複数のソースを容易に処理できる。
本研究では,インタラクティブな幾何音響伝搬アルゴリズムを用いて,バイノーラル音響効果を用いたアプローチの精度を評価し,実際の音響効果を捉えた。
また, 従来の学習に基づく音声伝搬アルゴリズムを用いた音声に比べて, 提案手法により得られた音声が, より妥当であることが確認された。 We present an end-to-end binaural audio rendering approach (Listen2Scene) for virtual reality (VR) and augmented reality (AR) applications. We propose a novel neural-network-based binaural sound propagation method to generate acoustic effects for 3D models of real environments. Any clean audio or dry audio can be convolved with the generated acoustic effects to render audio corresponding to the real environment. We propose a graph neural network that uses both the material and the topology information of the 3D scenes and generates a scene latent vector. Moreover, we use a conditional generative adversarial network (CGAN) to generate acoustic effects from the scene latent vector. Our network is able to handle holes or other artifacts in the reconstructed 3D mesh model. We present an efficient cost function to the generator network to incorporate spatial audio effects. Given the source and the listener position, our learning-based binaural sound propagation approach can generate an acoustic effect in 0.1 milliseconds on an NVIDIA GeForce RTX 2080 Ti GPU and can easily handle multiple sources. We have evaluated the accuracy of our approach with binaural acoustic effects generated using an interactive geometric sound propagation algorithm and captured real acoustic effects. We also performed a perceptual evaluation and observed that the audio rendered by our approach is more plausible as compared to audio rendered using prior learning-based sound propagation algorithms. | 翻訳日:2023-04-27 10:52:28 公開日:2023-04-26 |
# アンダーサンプルデータからの非視線イメージングのための曲率正規化 Curvature regularization for Non-line-of-sight Imaging from Under-sampled Data ( http://arxiv.org/abs/2301.00406v3 ) ライセンス: Link先を確認 | Rui Ding, Juntian Ye, Qifeng Gao, Feihu Xu, Yuping Duan | (参考訳) 非視線画像(NLOS)は、複数の回折反射の後に光で符号化された光子時間情報を用いて、視線で測定されたデータから3次元の隠れたシーンを再構築することを目的としている。
サンプリング済みの走査データは、高速な撮像を容易にすることができる。
しかし, 結果として生じる復元問題は, ノイズや歪みにより劣化する可能性が高く, 深刻な逆問題となる。
本稿では,曲率正規化に基づく2つの新しいnlos再構成モデル,すなわち,オブジェクト領域曲率正規化モデルと,デュアル(信号およびオブジェクト)領域曲率正規化モデルを提案する。
gpu実装によりさらに加速されるバックトラックステップ化規則(backtracking stepsize rule)を伴う乗算器の交互方向法(admm)に基づいて高速数値最適化アルゴリズムを開発した。
提案したアルゴリズムは, 合成データセットと実データセットの両方で評価し, 特に圧縮センシング環境で, 最先端性能を実現する。
私たちのコードとデータは、https://github.com/Duanlab123/CurvNLOSで利用可能です。 Non-line-of-sight (NLOS) imaging aims to reconstruct the three-dimensional hidden scenes from the data measured in the line-of-sight, which uses photon time-of-flight information encoded in light after multiple diffuse reflections. The under-sampled scanning data can facilitate fast imaging. However, the resulting reconstruction problem becomes a serious ill-posed inverse problem, the solution of which is of high possibility to be degraded due to noises and distortions. In this paper, we propose two novel NLOS reconstruction models based on curvature regularization, i.e., the object-domain curvature regularization model and the dual (i.e., signal and object)-domain curvature regularization model. Fast numerical optimization algorithms are developed relying on the alternating direction method of multipliers (ADMM) with the backtracking stepsize rule, which are further accelerated by GPU implementation. We evaluate the proposed algorithms on both synthetic and real datasets, which achieve state-of-the-art performance, especially in the compressed sensing setting. All our codes and data are available at https://github.com/Duanlab123/CurvNLOS. | 翻訳日:2023-04-27 10:52:01 公開日:2023-04-26 |
# housecat6d -- 現実的なシナリオで家庭用オブジェクトを使った大規模マルチモーダルカテゴリレベル6dオブジェクトポーズデータセット HouseCat6D -- A Large-Scale Multi-Modal Category Level 6D Object Pose Dataset with Household Objects in Realistic Scenarios ( http://arxiv.org/abs/2212.10428v4 ) ライセンス: Link先を確認 | HyunJun Jung, Shun-Cheng Wu, Patrick Ruhkamp, Guangyao Zhai, Hannah Schieber, Giulia Rizzoli, Pengyuan Wang, Hongcheng Zhao, Lorenzo Garattoni, Sven Meier, Daniel Roth, Nassir Navab, Benjamin Busam | (参考訳) オブジェクトの6Dポーズを推定することは、主要な3Dコンピュータビジョン問題である。
インスタンスレベルのアプローチによる有望な結果から、研究責任者はより実用的なアプリケーションシナリオのためのカテゴリレベルのポーズ推定にも取り組んでいる。
しかし、よく確立されたインスタンスレベルのポーズデータセットとは異なり、利用可能なカテゴリレベルのデータセットはアノテーションの品質やポーズ量に欠ける。
新しいカテゴリーレベルの6DポーズデータセットHouseCat6Dを提案する。
1)ポラリメトリックRGBと深さ(RGBD+P)の多モード性
2)2つのフォトメトリックに挑戦するカテゴリを含む10の家庭用オブジェクトカテゴリの高度に多様な194のオブジェクト。
3) エラー範囲がわずか1.35mmから1.74mmの高品質ポーズアノテーション
4)広い視点と隠蔽を有する41の大規模シーン。
5)全シーンにおけるチェッカーボードのない環境
6) 同時に高密度6Dパラレルジャウグリップを付加した。
さらに,最先端カテゴリレベルのポーズ推定ネットワークのベンチマーク結果も提供する。 Estimating the 6D pose of objects is a major 3D computer vision problem. Since the promising outcomes from instance-level approaches, research heads also move towards category-level pose estimation for more practical application scenarios. However, unlike well-established instance-level pose datasets, available category-level datasets lack annotation quality and provided pose quantity. We propose the new category-level 6D pose dataset HouseCat6D featuring 1) Multi-modality of Polarimetric RGB and Depth (RGBD+P), 2) Highly diverse 194 objects of 10 household object categories including 2 photometrically challenging categories, 3) High-quality pose annotation with an error range of only 1.35 mm to 1.74 mm, 4) 41 large-scale scenes with extensive viewpoint coverage and occlusions, 5) Checkerboard-free environment throughout the entire scene, and 6) Additionally annotated dense 6D parallel-jaw grasps. Furthermore, we also provide benchmark results of state-of-the-art category-level pose estimation networks. | 翻訳日:2023-04-27 10:51:41 公開日:2023-04-26 |
# ヒト精子追跡データセットVISEM-Tracking VISEM-Tracking, a human spermatozoa tracking dataset ( http://arxiv.org/abs/2212.02842v4 ) ライセンス: Link先を確認 | Vajira Thambawita, Steven A. Hicks, Andrea M. Stor{\aa}s, Thu Nguyen, Jorunn M. Andersen, Oliwia Witczak, Trine B. Haugen, Hugo L. Hammer, P{\aa}l Halvorsen, Michael A. Riegler | (参考訳) 精子運動を手動で評価するには顕微鏡観察が必要であり、視野の速い精子の観察が困難である。
正確な結果を得るためには、手動による評価には広範な訓練が必要である。
そのため、コンピュータ支援精子分析(CASA)はクリニックでの利用が増えている。
それにもかかわらず、精子運動と運動学の評価の精度と信頼性を向上させるために、教師付き機械学習アプローチの訓練にはより多くのデータが必要である。
そこで本研究では,濡れた精子の30秒間(29,196フレームを含む)のビデオ記録を手動で注釈付き拘束箱座標で記録するVISEM-Tracking(VISEM-Tracking)というデータセットと,その領域の専門家が分析した精子特性のセットを提供する。
注釈付きデータに加えて,自己教師なし学習などの手法により,データへのアクセスと分析が容易なラベル付きビデオクリップを提供する。
本稿では,VISEM-Trackingデータセットを用いて学習したYOLOv5ディープラーニング(DL)モデルを用いた精子検出性能について述べる。
その結果、データセットは複雑なdlモデルの訓練と精子の分析に使用できることが示された。 A manual assessment of sperm motility requires microscopy observation, which is challenging due to the fast-moving spermatozoa in the field of view. To obtain correct results, manual evaluation requires extensive training. Therefore, computer-assisted sperm analysis (CASA) has become increasingly used in clinics. Despite this, more data is needed to train supervised machine learning approaches in order to improve accuracy and reliability in the assessment of sperm motility and kinematics. In this regard, we provide a dataset called VISEM-Tracking with 20 video recordings of 30 seconds (comprising 29,196 frames) of wet sperm preparations with manually annotated bounding-box coordinates and a set of sperm characteristics analyzed by experts in the domain. In addition to the annotated data, we provide unlabeled video clips for easy-to-use access and analysis of the data via methods such as self- or unsupervised learning. As part of this paper, we present baseline sperm detection performances using the YOLOv5 deep learning (DL) model trained on the VISEM-Tracking dataset. As a result, we show that the dataset can be used to train complex DL models to analyze spermatozoa. | 翻訳日:2023-04-27 10:51:29 公開日:2023-04-26 |
# 多光子高次元GHZ状態の合成 Preparation of multiphoton high-dimensional GHZ state ( http://arxiv.org/abs/2304.12813v2 ) ライセンス: Link先を確認 | Wen-Bo Xing, Xiao-Min Hu, Yu Guo, Bi-Heng Liu, Chuan-Feng Li and Guang-Can Guo | (参考訳) 多部類高次元絡み合わせは多部類2次元絡み合わせとは異なる物理を呈する。
しかし、多次元高次元絡み合わせの作り方はまだ線形光学の課題である。
本稿では,光学系において任意の次元の準備プロトコルを持つ多光子GHZ状態を提案する。
本プロトコルでは,高次元エンタングルメントゲートを実現するために補助エンタングルメントを用い,高次元エンタングルペアを多成分の高次元ghz状態に接続する。
具体的には、光子の経路自由度を用いて4粒子の3次元ghz状態を作成する例を示す。
本手法は他の自由度まで拡張でき、任意の次元で任意のghz絡み合いを生成することができる。 Multipartite high-dimensional entanglement presents different physics from multipartite two-dimensional entanglement. However, how to prepare multipartite high-dimensional entanglement is still a challenge with linear optics. In this paper, a multiphoton GHZ state with arbitrary dimensions preparation protocol is proposed in optical systems. In this protocol, we use auxiliary entanglements to realize a high-dimensional entanglement gate, so that high-dimensional entangled pairs can be connected into a multipartite high-dimensional GHZ state. Specifically, we give an example of using photons' path degree of freedom to prepare a 4-particle 3-dimensional GHZ state. Our method can be extended to other degrees of freedom and can generate arbitrary GHZ entanglement in any dimension. | 翻訳日:2023-04-27 10:44:23 公開日:2023-04-26 |
# ロバスト深部平衡モデルの学習 Learning Robust Deep Equilibrium Models ( http://arxiv.org/abs/2304.12707v2 ) ライセンス: Link先を確認 | Haoyu Chu, Shikui Wei, Ting Liu and Yao Zhao | (参考訳) 深層平衡(deq)モデルは、単一の非線形層の不動点を解くことで従来の深さを捨てる深層学習において有望な暗黙層モデルのクラスとして出現した。
その成功にもかかわらず、これらのモデルの不動点の安定性は未だよく分かっていない。
近年、Lyapunov理論は、別のタイプの暗黙的層モデルであるNeural ODEsに適用され、対向的ロバスト性を示す。
非線形力学系としてDECモデルを考慮し、リアプノフ理論による証明可能な安定性を保証した頑健なDECモデルLyaDEQを提案する。
我々の手法の要点は、DEC モデルの固定点が Lyapunov 安定であることを保証することで、LyaDEQ モデルが小さな初期摂動に耐えられるようにすることである。
互いに近接するリアプノフ安定不動点による逆防御の悪さを避けるため、リアプノフ安定モジュールの後に直交完全連結層を追加して異なる不動点を分離する。
lyadeqモデルは,よく知られた敵の攻撃下,広く使用されているデータセット上で評価され,実験によりロバスト性が著しく向上した。
さらに,LyaDEQモデルは,対戦訓練などの他の防御手法と組み合わせることで,より優れた対戦力を実現することができることを示す。 Deep equilibrium (DEQ) models have emerged as a promising class of implicit layer models in deep learning, which abandon traditional depth by solving for the fixed points of a single nonlinear layer. Despite their success, the stability of the fixed points for these models remains poorly understood. Recently, Lyapunov theory has been applied to Neural ODEs, another type of implicit layer model, to confer adversarial robustness. By considering DEQ models as nonlinear dynamic systems, we propose a robust DEQ model named LyaDEQ with guaranteed provable stability via Lyapunov theory. The crux of our method is ensuring the fixed points of the DEQ models are Lyapunov stable, which enables the LyaDEQ models to resist minor initial perturbations. To avoid poor adversarial defense due to Lyapunov-stable fixed points being located near each other, we add an orthogonal fully connected layer after the Lyapunov stability module to separate different fixed points. We evaluate LyaDEQ models on several widely used datasets under well-known adversarial attacks, and experimental results demonstrate significant improvement in robustness. Furthermore, we show that the LyaDEQ model can be combined with other defense methods, such as adversarial training, to achieve even better adversarial robustness. | 翻訳日:2023-04-27 10:44:13 公開日:2023-04-26 |
# パッチベース3次元自然シーン生成の一例 Patch-based 3D Natural Scene Generation from a Single Example ( http://arxiv.org/abs/2304.12670v2 ) ライセンス: Link先を確認 | Weiyu Li, Xuelin Chen, Jue Wang, Baoquan Chen | (参考訳) 典型的にはユニークで複雑な自然シーンの3次元生成モデルを対象としている。
必要な量のトレーニングデータの欠如と、様々なシーン特性の存在下でアドホックなデザインを持つことの難しさにより、既存の設定が難解になる。
従来のパッチベースのイメージモデルに触発されて,パッチレベルでの3Dシーンの合成を提唱する。
この研究の核心は、シーン表現と生成パッチが隣のモジュールに最も近い重要なアルゴリズム設計であり、古典的な2Dパッチベースのフレームワークから3D生成まで、ユニークな課題に対処する。
これらのデザイン選択は、集合レベルでは、様々な模範的なシーンで示されるように、現実的な幾何学的構造と視覚的外観の両方を持つ高品質な一般的な自然のシーンを多種多様な量で生成できる、堅牢で効果的で効率的なモデルに寄与する。 We target a 3D generative model for general natural scenes that are typically unique and intricate. Lacking the necessary volumes of training data, along with the difficulties of having ad hoc designs in presence of varying scene characteristics, renders existing setups intractable. Inspired by classical patch-based image models, we advocate for synthesizing 3D scenes at the patch level, given a single example. At the core of this work lies important algorithmic designs w.r.t the scene representation and generative patch nearest-neighbor module, that address unique challenges arising from lifting classical 2D patch-based framework to 3D generation. These design choices, on a collective level, contribute to a robust, effective, and efficient model that can generate high-quality general natural scenes with both realistic geometric structure and visual appearance, in large quantities and varieties, as demonstrated upon a variety of exemplar scenes. | 翻訳日:2023-04-27 10:43:50 公開日:2023-04-26 |
# 医用samアダプタ : 医用画像分割のためのsegment anythingモデルの適用 Medical SAM Adapter: Adapting Segment Anything Model for Medical Image Segmentation ( http://arxiv.org/abs/2304.12620v2 ) ライセンス: Link先を確認 | Junde Wu and Rao Fu and Huihui Fang and Yuanpei Liu and Zhaowei Wang and Yanwu Xu and Yueming Jin and Tal Arbel | (参考訳) Segment Anything Model (SAM)は画像セグメンテーションの分野で最近人気を集めている。
全面的なセグメンテーションタスクとプロンプトベースのインターフェースの素晴らしい機能のおかげで、SAMはコミュニティ内で激しい議論を巻き起こした。
イメージセグメンテーションのタスクはSAMによって「完了」されたと多くの名高い専門家から言われている。
しかし, イメージセグメンテーションは, イメージセグメンテーションファミリーの重要な分枝であるが, セグメンテーション"Anything"の範囲には含まれていないようである。
多くの個人実験や最近の研究では、SAMは医療画像のセグメンテーションのサブパールを担っていることが示されている。
自然な疑問は、SAMの強力なセグメンテーション能力を医療画像セグメンテーションに拡張するために、パズルの欠片を見つける方法である。
本稿では,SAMモデルを微調整する代わりに,医療特化領域の知識をセグメンテーションモデルに統合するMed SAM Adapterを提案する。
この単純な実装は、医療画像のセグメンテーションにおいて驚くほど優れた性能を示しており、一般的なNLP技術であるAdapterをコンピュータビジョンのケースに転送する試みの1つだ。
医用SAMアダプタ (MSA) は, CT, MRI, 超音波画像, 眼底画像, 皮膚内視鏡画像など, 様々な画像モダリティを有する19の医用画像セグメンテーションタスクにおいて, 優れた性能を示した。
MSAは、nnUNet、TransUNet、UNetr、MedSegDiffのような幅広い最先端(SOTA)の医療画像セグメンテーション手法より優れており、また、完全に細返されたMedSAMよりもかなりパフォーマンスの差がある。
コードは、https://github.com/WuJunde/Medical-SAM-Adapter.comでリリースされる。 The Segment Anything Model (SAM) has recently gained popularity in the field of image segmentation. Thanks to its impressive capabilities in all-round segmentation tasks and its prompt-based interface, SAM has sparked intensive discussion within the community. It is even said by many prestigious experts that image segmentation task has been "finished" by SAM. However, medical image segmentation, although an important branch of the image segmentation family, seems not to be included in the scope of Segmenting "Anything". Many individual experiments and recent studies have shown that SAM performs subpar in medical image segmentation. A natural question is how to find the missing piece of the puzzle to extend the strong segmentation capability of SAM to medical image segmentation. In this paper, instead of fine-tuning the SAM model, we propose Med SAM Adapter, which integrates the medical specific domain knowledge to the segmentation model, by a simple yet effective adaptation technique. Although this work is still one of a few to transfer the popular NLP technique Adapter to computer vision cases, this simple implementation shows surprisingly good performance on medical image segmentation. A medical image adapted SAM, which we have dubbed Medical SAM Adapter (MSA), shows superior performance on 19 medical image segmentation tasks with various image modalities including CT, MRI, ultrasound image, fundus image, and dermoscopic images. MSA outperforms a wide range of state-of-the-art (SOTA) medical image segmentation methods, such as nnUNet, TransUNet, UNetr, MedSegDiff, and also outperforms the fully fine-turned MedSAM with a considerable performance gap. Code will be released at: https://github.com/WuJunde/Medical-SAM-Adapter. | 翻訳日:2023-04-27 10:43:33 公開日:2023-04-26 |
# 乱流境界層における遺伝的にインスパイアされた対流伝熱促進 Genetically-inspired convective heat transfer enhancement in a turbulent boundary layer ( http://arxiv.org/abs/2304.12618v2 ) ライセンス: Link先を確認 | Rodrigo Castellanos and Andrea Ianiro and Stefano Discetti | (参考訳) 平坦なプレート上の乱流境界層(TBL)における対流熱伝達を、線形遺伝的アルゴリズム制御(LGAC)に基づく人工知能アプローチを用いて促進する。
アクチュエータは、フリーストリームに整列した6つのスロットジェットの集合である。
開ループ最適周期強制は、キャリア周波数、デューティサイクル、アクチュエータ間の位相差を制御パラメータとして定義する。
制御法則は、未飽和のTBLと定常ジェットによる作動に関して最適化される。
コスト関数は、壁対流熱伝達率とアクチュエータのコストを含む。
制御器の性能は赤外線サーモグラフィにより評価され、粒子画像速度測定でも特徴付けられる。
最適制御器はわずかに非対称な流れ場を与える。
LGACアルゴリズムは、すべてのアクチュエータに対して同じ周波数とデューティサイクルに収束する。
この周波数は, 壁近傍で発生する大規模乱流構造の特性移動時間の逆数と著しく等しいことに注意が必要である。
複数のジェットアクチュエータ間の位相差は非常に関係があることが示され、フロー非対称性の主要因となった。
その結果、アクティベーション空間内の未探索のコントローラに対する機械学習制御の可能性が特定される。
さらに,本研究は,高度な計測技術と高度なアルゴリズムを併用した実験研究の可能性を実証するものである。 The convective heat transfer in a turbulent boundary layer (TBL) on a flat plate is enhanced using an artificial intelligence approach based on linear genetic algorithms control (LGAC). The actuator is a set of six slot jets in crossflow aligned with the freestream. An open-loop optimal periodic forcing is defined by the carrier frequency, the duty cycle and the phase difference between actuators as control parameters. The control laws are optimised with respect to the unperturbed TBL and to the actuation with a steady jet. The cost function includes the wall convective heat transfer rate and the cost of the actuation. The performance of the controller is assessed by infrared thermography and characterised also with particle image velocimetry measurements. The optimal controller yields a slightly asymmetric flow field. The LGAC algorithm converges to the same frequency and duty cycle for all the actuators. It is noted that such frequency is strikingly equal to the inverse of the characteristic travel time of large-scale turbulent structures advected within the near-wall region. The phase difference between multiple jet actuation has shown to be very relevant and the main driver of flow asymmetry. The results pinpoint the potential of machine learning control in unravelling unexplored controllers within the actuation space. Our study furthermore demonstrates the viability of employing sophisticated measurement techniques together with advanced algorithms in an experimental investigation. | 翻訳日:2023-04-27 10:42:57 公開日:2023-04-26 |
# コントラスト学習と連続的意味構造制約による教師なし合成画像再構成 Unsupervised Synthetic Image Refinement via Contrastive Learning and Consistent Semantic-Structural Constraints ( http://arxiv.org/abs/2304.12591v2 ) ライセンス: Link先を確認 | Ganning Zhao, Tingwei Shen, Suya You, and C.-C. Jay Kuo | (参考訳) ディープニューラルネットワーク(dnn)トレーニングには,コンピュータ生成合成画像のリアリズムの確保が不可欠である。
合成されたデータセットと実世界のデータセットのセマンティックな分布が異なるため、合成された画像と精巧な画像の間にセマンティックなミスマッチが存在する。
近年,相関パッチの抽出と非相関パッチの分離にコントラスト学習(cl)が成功している。
本研究では,合成画像と精細画像間の意味的・構造的整合性を利用して,意味的歪みを低減するためにCLを採用する。
さらに, 高い負のマイニングを取り入れて, さらなる性能向上を図る。
定性的および定量的な測定値を用いた他のベンチマーク手法と比較し,本手法が最先端の性能を提供することを示す。 Ensuring the realism of computer-generated synthetic images is crucial to deep neural network (DNN) training. Due to different semantic distributions between synthetic and real-world captured datasets, there exists semantic mismatch between synthetic and refined images, which in turn results in the semantic distortion. Recently, contrastive learning (CL) has been successfully used to pull correlated patches together and push uncorrelated ones apart. In this work, we exploit semantic and structural consistency between synthetic and refined images and adopt CL to reduce the semantic distortion. Besides, we incorporate hard negative mining to improve the performance furthermore. We compare the performance of our method with several other benchmarking methods using qualitative and quantitative measures and show that our method offers the state-of-the-art performance. | 翻訳日:2023-04-27 10:42:40 公開日:2023-04-26 |
# MixNeRF: 特徴混在ハッシュテーブルを備えたメモリ効率の良いNeRF MixNeRF: Memory Efficient NeRF with Feature Mixed-up Hash Table ( http://arxiv.org/abs/2304.12587v2 ) ライセンス: Link先を確認 | Yongjae Lee, Li Yang and Deliang Fan | (参考訳) ニューラル・ラディアンス・フィールド(NeRF)はフォトリアリスティック・ノベルビューの生成において顕著な性能を示した。
NeRFの出現以来,多層パーセプトロン(MLP)ネットワークの複雑さを減らし,グリッドなどの明示的な構造を持つ特徴を管理することで,極めて高速なトレーニングを実現している研究が数多く行われている。
しかし、高密度グリッドに格納するには大きなメモリスペースが必要であり、それによってコンピュータシステムのメモリボトルネックが発生し、トレーニング時間も大きくなる。
そこで本研究では,メモリ効率を向上し,復元品質を維持しつつトレーニング時間を短縮するために混合ハッシュテーブルを用いたメモリ効率のよいnrfフレームワークであるmixnerfを提案する。
まず,マルチレベル機能グリッドの一部を1つに適応的に混合し,単一のハッシュテーブルにマップする混合ハッシュテーブルを設計した。
その後、グリッド点の正しいインデックスを得るために、任意のレベルグリッドのインデックスを標準グリッドのインデックスに変換するインデックス変換法をさらに設計する。
最先端のInstant-NGP、TensoRF、DVGOとベンチマークした大規模な実験によると、MixNeRFは、同じGPUハードウェア上で、同様のあるいはそれ以上のリコンストラクション品質で、最速のトレーニング時間を達成できる。
ソースコードはhttps://github.com/nfyfamr/MixNeRFで入手できる。 Neural radiance field (NeRF) has shown remarkable performance in generating photo-realistic novel views. Since the emergence of NeRF, many studies have been conducted, among which managing features with explicit structures such as grids has achieved exceptionally fast training by reducing the complexity of multilayer perceptron (MLP) networks. However, storing features in dense grids requires significantly large memory space, which leads to memory bottleneck in computer systems and thus large training time. To address this issue, in this work, we propose MixNeRF, a memory-efficient NeRF framework that employs a mixed-up hash table to improve memory efficiency and reduce training time while maintaining reconstruction quality. We first design a mixed-up hash table to adaptively mix part of multi-level feature grids into one and map it to a single hash table. Following that, in order to obtain the correct index of a grid point, we further design an index transformation method that transforms indices of an arbitrary level grid to those of a canonical grid. Extensive experiments benchmarking with state-of-the-art Instant-NGP, TensoRF, and DVGO, indicate our MixNeRF could achieve the fastest training time on the same GPU hardware with similar or even higher reconstruction quality. Source code is available at https://github.com/nfyfamr/MixNeRF. | 翻訳日:2023-04-27 10:42:25 公開日:2023-04-26 |
# 物理インフォームドインバータブルニューラルネットワークを用いた逆問題に対する効率的なベイズ推論 Efficient Bayesian inference using physics-informed invertible neural networks for inverse problems ( http://arxiv.org/abs/2304.12541v2 ) ライセンス: Link先を確認 | Xiaofei Guan, Xintong Wang, Hao Wu | (参考訳) 本稿では,物理インバータブルニューラルネットワーク (pi-inn) を用いたベイズ逆問題に対する新しい解法を提案する。
PI-INNのアーキテクチャは、可逆ニューラルネットワーク(INN)とニューラルネットワーク(NB-Net)の2つのサブネットワークで構成されている。
NB-Netの助けを借りてパラメトリック入力とIPN出力の間の可逆写像を構築し、後方分布の抽出可能な推定を行い、効率的なサンプリングと精度の高い密度評価を可能にする。
さらに、PI-INNの損失関数は、残基物理インフォームド損失項と、新しい独立損失項の2つの成分を含む。
提案する独立損失項は、推定密度関数を有効利用することにより、ランダム潜在変数をガウス化し、inn出力の2つの部分間の統計的独立性を確保することができる。
逆運動学, 1-d, 2-d拡散方程式の逆問題, 地震時トモグラフィなど, 提案したPI-INNの効率と精度を示す数値実験を行った。 In the paper, we propose a novel approach for solving Bayesian inverse problems with physics-informed invertible neural networks (PI-INN). The architecture of PI-INN consists of two sub-networks: an invertible neural network (INN) and a neural basis network (NB-Net). The invertible map between the parametric input and the INN output with the aid of NB-Net is constructed to provide a tractable estimation of the posterior distribution, which enables efficient sampling and accurate density evaluation. Furthermore, the loss function of PI-INN includes two components: a residual-based physics-informed loss term and a new independence loss term. The presented independence loss term can Gaussianize the random latent variables and ensure statistical independence between two parts of INN output by effectively utilizing the estimated density function. Several numerical experiments are presented to demonstrate the efficiency and accuracy of the proposed PI-INN, including inverse kinematics, inverse problems of the 1-d and 2-d diffusion equations, and seismic traveltime tomography. | 翻訳日:2023-04-27 10:41:59 公開日:2023-04-26 |
# 不確実領域に適用される品質多様性のベンチマークタスク Benchmark tasks for Quality-Diversity applied to Uncertain domains ( http://arxiv.org/abs/2304.12454v2 ) ライセンス: Link先を確認 | Manon Flageat and Luca Grillotti and Antoine Cully | (参考訳) 最適化の標準的なアプローチは、単一のハイパフォーマンスなソリューションを作ることに重点を置いているが、Quality-Diversity (QD)アルゴリズムは、そのようなソリューションの多様なコレクションを見つけることができる。
もしQDが様々な領域で有望であると証明されたとしても、パフォーマンスと多様性の定量化が非決定論的である不確実な領域に直面するときはまだ苦労している。
Uncertain Quality-Diversity (UQD) における以前の研究は、そのような不確実な領域のために設計された方法とメトリクスを提案している。
本稿では,uqdアルゴリズムの性能を解析・推定するベンチマークタスクの第一セットを提案する。
我々はuqdベンチマークタスクを簡単に定義するための重要な不確実性特性(不確実性位置、分布の種類、パラメータ)を特定する。
これらの重要なUQDコンポーネントの性質を変えることで、実装が容易で軽量な8つのタスクセットを導入し、3つの主要なカテゴリに分けます。
すべてのタスクは冗長なarm上に構築されています – 軽量で簡単に複製可能な,一般的なqd環境です。
これらのタスクのそれぞれが、UQDドメインを考える際に生じる1つの特定の制限を強調している。
この最初のベンチマークでは、後続のUQDの進歩を促進したいと思っています。 While standard approaches to optimisation focus on producing a single high-performing solution, Quality-Diversity (QD) algorithms allow large diverse collections of such solutions to be found. If QD has proven promising across a large variety of domains, it still struggles when faced with uncertain domains, where quantification of performance and diversity are non-deterministic. Previous work in Uncertain Quality-Diversity (UQD) has proposed methods and metrics designed for such uncertain domains. In this paper, we propose a first set of benchmark tasks to analyse and estimate the performance of UQD algorithms. We identify the key uncertainty properties to easily define UQD benchmark tasks: the uncertainty location, the type of distribution and its parameters. By varying the nature of those key UQD components, we introduce a set of 8 easy-to-implement and lightweight tasks, split into 3 main categories. All our tasks build on the Redundant Arm: a common QD environment that is lightweight and easily replicable. Each one of these tasks highlights one specific limitation that arises when considering UQD domains. With this first benchmark, we hope to facilitate later advances in UQD. | 翻訳日:2023-04-27 10:41:40 公開日:2023-04-26 |
# NeRFによる3次元のセグメンテーション Segment Anything in 3D with NeRFs ( http://arxiv.org/abs/2304.12308v2 ) ライセンス: Link先を確認 | Jiazhong Cen, Zanwei Zhou, Jiemin Fang, Wei Shen, Lingxi Xie, Dongsheng Jiang, Xiaopeng Zhang, Qi Tian | (参考訳) segment anything model (sam) は、様々な2d画像における任意のオブジェクト/パーツのセグメント化に有効性を示しているが、3dの能力は十分に検討されていない。
現実世界は多くの3Dシーンとオブジェクトで構成されています。
アクセス可能な3Dデータの不足と、その取得とアノテーションの高コストのため、SAMを3Dに持ち上げることは、難しいが価値のある研究道である。
これを念頭に、我々はSA3Dという3Dのセグメンテーションのための新しいフレームワークを提案する。
neural radiance field(nerf)モデルが与えられた場合、sa3dは、単一のレンダリングビューでプロンプトするワンショットマニュアルだけで、任意のターゲットオブジェクトの3dセグメンテーション結果を得ることができる。
入力プロンプトによって、samは、そのビューからターゲットオブジェクトを除外する。
得られた2dセグメンテーションマスクは密度誘導逆レンダリングにより3dマスクグリッドに投影される。
他のビューからの2Dマスクはレンダリングされ、ほとんど未完成だが、SAMに再び入力するためにクロスビューのセルフプロンプトとして使用される。
完全なマスクは、マスクグリッド上で取得および投影することができる。
この手順は反復的に行われ、正確な3dマスクは最終的に学べる。
SA3Dは、追加の再設計なしに、様々な放射場に効果的に適応することができる。
セグメンテーションプロセス全体は、エンジニアリング最適化なしで約2分で完了することができる。
実験では, 異なる場面におけるSA3Dの有効性を実証し, 3次元シーン知覚におけるSAMの可能性を強調した。
プロジェクトページはhttps://jumpat.github.io/SA3D/。 The Segment Anything Model (SAM) has demonstrated its effectiveness in segmenting any object/part in various 2D images, yet its ability for 3D has not been fully explored. The real world is composed of numerous 3D scenes and objects. Due to the scarcity of accessible 3D data and high cost of its acquisition and annotation, lifting SAM to 3D is a challenging but valuable research avenue. With this in mind, we propose a novel framework to Segment Anything in 3D, named SA3D. Given a neural radiance field (NeRF) model, SA3D allows users to obtain the 3D segmentation result of any target object via only one-shot manual prompting in a single rendered view. With input prompts, SAM cuts out the target object from the according view. The obtained 2D segmentation mask is projected onto 3D mask grids via density-guided inverse rendering. 2D masks from other views are then rendered, which are mostly uncompleted but used as cross-view self-prompts to be fed into SAM again. Complete masks can be obtained and projected onto mask grids. This procedure is executed via an iterative manner while accurate 3D masks can be finally learned. SA3D can adapt to various radiance fields effectively without any additional redesigning. The entire segmentation process can be completed in approximately two minutes without any engineering optimization. Our experiments demonstrate the effectiveness of SA3D in different scenes, highlighting the potential of SAM in 3D scene perception. The project page is at https://jumpat.github.io/SA3D/. | 翻訳日:2023-04-27 10:41:24 公開日:2023-04-26 |