このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230430となっている論文です。

PDF登録状況(公開日: 20230430)

TitleAuthorsAbstract論文公表日・翻訳日
# 畳み込みニューラルネットワークの定量化意味比較

Quantified Semantic Comparison of Convolutional Neural Networks ( http://arxiv.org/abs/2305.07663v1 )

ライセンス: Link先を確認
Georgii Mikriukov, Gesina Schwalbe, Christian Hellert and Korinna Bade(参考訳) コンピュータビジョンのための畳み込みニューラルネットワーク(cnns)は、不透明なまま性能が優れている。 しかし、自動運転の認識のような安全クリティカルなアプリケーションに対する安全規制のため、モデルの選択は、モデルの透明性のために、モデルがセマンティック情報をどのように表現するかを考慮する必要がある。 そこで本研究では,CNN潜在空間における意味情報間の類似性を定量化する2つの手法を提案する。 これにより、cnn層内の意味情報のフローと類似性の両方と、異なるネットワーク間の同化度に関する洞察が可能になる。 基礎として,各潜在空間における意味概念の大域的ベクトル表現を得るために,説明可能な人工知能(xai)の分野からの認識技術を用いる。 これらはテスト入力でのアクティベーションについて比較される。 3つの多様なオブジェクト検出器と2つのデータセットに適用すると、(1)類似した意味概念はcnnアーキテクチャに無関係に学習され、(2)類似した概念はレイヤーの総数によらず、同様の「emph{relative}」層に出現することが明らかとなる。 最後に,提案手法は,CNNがセマンティック情報をどう処理するかを,モデル選択や理解する上で有望なステップとなる。

The state-of-the-art in convolutional neural networks (CNNs) for computer vision excels in performance, while remaining opaque. But due to safety regulations for safety-critical applications, like perception for automated driving, the choice of model should also take into account how candidate models represent semantic information for model transparency reasons. To tackle this yet unsolved problem, our work proposes two methods for quantifying the similarity between semantic information in CNN latent spaces. These allow insights into both the flow and similarity of semantic information within CNN layers, and into the degree of their similitude between different networks. As a basis, we use renown techniques from the field of explainable artificial intelligence (XAI), which are used to obtain global vector representations of semantic concepts in each latent space. These are compared with respect to their activation on test inputs. When applied to three diverse object detectors and two datasets, our methods reveal the findings that (1) similar semantic concepts are learned \emph{regardless of the CNN architecture}, and (2) similar concepts emerge in similar \emph{relative} layer depth, independent of the total number of layers. Finally, our approach poses a promising step towards informed model selection and comprehension of how CNNs process semantic information.
翻訳日:2023-05-21 11:14:29 公開日:2023-04-30
# 特徴結合を用いた自己情報ドメインベースニューラルCSI圧縮

Self-information Domain-based Neural CSI Compression with Feature Coupling ( http://arxiv.org/abs/2305.07662v1 )

ライセンス: Link先を確認
Ziqing Yin, Renjie Xie, Wei Xu, Zhaohui Yang, and Xiaohu You(参考訳) 深層学習(DL)に基づくチャネル状態情報(CSI)フィードバック手法は,CSI行列に含まれる情報量の観点からはめったに検討されていないが,遅延・角度特性を利用してCSI行列を圧縮した。 そこで本研究では,情報理論の視点から情報表現としての自己情報を導入することにより,元csi行列の情報量を明示的に反映する。 そして、自己情報領域、すなわちSD-CsiNetにおける時間的CSI圧縮のために、新しいDLベースのネットワークを提案する。 提案するsd-csinetは,新たに定義された自己情報領域の自己情報行列に生のcsiを投影し,自己情報行列の時間的特徴と空間的特徴を抽出し,これら2つの特徴を結合して効果的な圧縮を行う。 CSIの自己情報を利用したSD-CsiNetの有効性を実験的に検証した。 特に圧縮比1/8と1/16では、SD-CsiNetは最先端手法と比較してそれぞれ7.17dBと3.68dBの性能向上を達成する。

Deep learning (DL)-based channel state information (CSI) feedback methods compressed the CSI matrix by exploiting its delay and angle features straightforwardly, while the measure in terms of information contained in the CSI matrix has rarely been considered. Based on this observation, we introduce self-information as an informative CSI representation from the perspective of information theory, which reflects the amount of information of the original CSI matrix in an explicit way. Then, a novel DL-based network is proposed for temporal CSI compression in the self-information domain, namely SD-CsiNet. The proposed SD-CsiNet projects the raw CSI onto a self-information matrix in the newly-defined self-information domain, extracts both temporal and spatial features of the self-information matrix, and then couples these two features for effective compression. Experimental results verify the effectiveness of the proposed SD-CsiNet by exploiting the self-information of CSI. Particularly for compression ratios 1/8 and 1/16, the SD-CsiNet respectively achieves 7.17 dB and 3.68 dB performance gains compared to state-of-the-art methods.
翻訳日:2023-05-21 11:14:06 公開日:2023-04-30
# 局所リズムによるスパイクネットワークのスパース化

Sparsifying Spiking Networks through Local Rhythms ( http://arxiv.org/abs/2305.10191v1 )

ライセンス: Link先を確認
Wilkie Olin-Ammentorp(参考訳) 従来のニューラルネットワークでは、各層で生成された値の多くがゼロであることがよく確立されている。 本研究では,スパイクニューラルネットワークが,局所情報を用いてゼロに近い値を表すスパイクの伝達を防止できることを実証する。 これにより、精度を保ちながら、これらのネットワークでの通信や計算に必要なエネルギーを削減できる。 さらに、生物学的に観察されたスパイキングリズムの新しい応用を示す。

It has been well-established that within conventional neural networks, many of the values produced at each layer are zero. In this work, I demonstrate that spiking neural networks can prevent the transmission of spikes representing values close to zero using local information. This can reduce the amount of energy required for communication and computation in these networks while preserving accuracy. Additionally, this demonstrates a novel application of biologically observed spiking rhythms.
翻訳日:2023-05-21 10:43:59 公開日:2023-04-30
# 電気健康記録における高スループット機械学習モデルによるセンシティブデータ検出

Sensitive Data Detection with High-Throughput Machine Learning Models in Electrical Health Records ( http://arxiv.org/abs/2305.03169v1 )

ライセンス: Link先を確認
Kai Zhang and Xiaoqian Jiang(参考訳) ビッグデータの時代では、医療提供者、コミュニティ、研究者がデータを共有し、健康結果を改善し、貴重な洞察を生み出し、研究を進める必要性が高まっています。 健康保険ポータビリティおよび説明責任法(health insurance portability and accountability act of 1996、hipaa)は、機密情報を保護するために制定された連邦法である。 しかし、データ共有の前にphiを検出したり削除したりする効率的なツールは提供していない。 この領域における課題の1つは、異なる分野にわたるデータにおけるPHIフィールドの不均一性である。 この可変性により、あるデータベースで動作しているルールベースの敏感な変数識別システムが他のデータベースで失敗する。 本稿では,構造化データのセンシティブな変数を識別するための機械学習アルゴリズムの利用について検討する。 我々は,PHIフィールドと非PHIフィールドのメタデータの分布が極めて異なることを重要視した。 この新たな発見に基づいて,本研究は,オリジナル特徴のメタデータから30以上の特徴を探索し,構造化電子健康記録(ehr)データ中のphiフィールドを自動的に識別する分類モデルの構築に機械学習を用いた。 我々は,異なるデータソースから多種多様な大規模EMHデータベース上でモデルを訓練し,未知のデータセットに対するPHI関連フィールドを検出する際に,アルゴリズムが99%の精度を達成することを確認した。 我々の研究の意義は重要であり、機密データを扱う産業に利益をもたらす可能性がある。

In the era of big data, there is an increasing need for healthcare providers, communities, and researchers to share data and collaborate to improve health outcomes, generate valuable insights, and advance research. The Health Insurance Portability and Accountability Act of 1996 (HIPAA) is a federal law designed to protect sensitive health information by defining regulations for protected health information (PHI). However, it does not provide efficient tools for detecting or removing PHI before data sharing. One of the challenges in this area of research is the heterogeneous nature of PHI fields in data across different parties. This variability makes rule-based sensitive variable identification systems that work on one database fail on another. To address this issue, our paper explores the use of machine learning algorithms to identify sensitive variables in structured data, thus facilitating the de-identification process. We made a key observation that the distributions of metadata of PHI fields and non-PHI fields are very different. Based on this novel finding, we engineered over 30 features from the metadata of the original features and used machine learning to build classification models to automatically identify PHI fields in structured Electronic Health Record (EHR) data. We trained the model on a variety of large EHR databases from different data sources and found that our algorithm achieves 99% accuracy when detecting PHI-related fields for unseen datasets. The implications of our study are significant and can benefit industries that handle sensitive data.
翻訳日:2023-05-14 21:14:42 公開日:2023-04-30
# ChatGPTの動作記憶能力の評価

Assessing Working Memory Capacity of ChatGPT ( http://arxiv.org/abs/2305.03731v1 )

ライセンス: Link先を確認
Dongyu Gong(参考訳) ワーキングメモリは、人間の知性と人工知能(AI)の両方において重要な側面であり、情報の一時記憶と操作のためのワークスペースとして機能する。 本稿では,N-backタスクの性能を検証し,最先端言語モデルChatGPTの動作記憶能力について検討する。 まず、人間とaiに対するワーキングメモリの重要性を議論し、次にchatgptのワーキングメモリ容量を評価する手法について論じる。 本研究は, 言語および空間的N-backタスクにおけるChatGPTの行動特性と文献で報告された人間の行動特性を比較し, 顕著な類似点を示した。 我々の発見は、人間レベルの認知能力を持つAIシステムを設計する現在の進歩に関する重要な洞察を提供し、AIワーキングメモリの強化とAIモデルによる人間のワーキングメモリ理解を目的とした将来の取り組みを約束する。

Working memory is a critical aspect of both human intelligence and artificial intelligence (AI), serving as a workspace for the temporary storage and manipulation of information. This paper investigates working memory capacity of ChatGPT, a state-of-the-art language model, by examining its performance on N-back tasks. We begin by discussing the importance of working memory to humans and AI, followed by the methods employed to assess working memory capacity of ChatGPT. Our study compares behavioral performance of ChatGPT on verbal and spatial N-back tasks to that of human participants reported in the literature, revealing notable similarities. Our findings offer crucial insights into the current progress in designing AI systems with human-level cognitive abilities and hold promise for informing future endeavors aimed at enhancing AI working memory and understanding human working memory through AI models.
翻訳日:2023-05-14 21:07:14 公開日:2023-04-30
# 量子粒子としての腫瘍の処理応答解析

Treatment-Response Analysis of Tumor as A Quantum Particle ( http://arxiv.org/abs/2305.02206v1 )

ライセンス: Link先を確認
Nam Nguyen(参考訳) 本稿では,1次元格子上を探索する量子粒子の物理現象と近位トラップの存在を用いて,腫瘍進展無生存(pfs)確率の処理・応答モデリングを行うための,新規かつ計算効率の高い手法を提案する。

In this article, I present a novel and computational-efficient approach for treatment-response modeling of tumor progression-free survival (PFS) probability using the physical phenomenon of a quantum particle walking on a one-dimensional lattice with the presence of a proximate trap.
翻訳日:2023-05-04 14:17:48 公開日:2023-04-30
# 空クラスによる新しさの検出

Detecting Novelties with Empty Classes ( http://arxiv.org/abs/2305.00983v1 )

ライセンス: Link先を確認
Svenja Uhlemeyer, Julian Lienen, Eyke H\"ullermeier and Hanno Gottschalk(参考訳) オープンワールドアプリケーションでは、ディープニューラルネットワーク(DNN)は、これまで見えないデータを認識し、進化する環境に適応する必要がある。 さらに、教師なしの方法で、DNNの基盤となるセマンティッククラスには含まれない新しいクラスを検出し、学習することが望ましい。 本稿では,新しいクラスの候補としてout-of-distribution(ood)データを取得する異常検出法について述べる。 その後、DNNを$k$空のクラスで拡張し、OoDデータサンプルで微調整します。 この目的のために 2つの損失関数を紹介します 1) DNN に OoD サンプルを空のクラスに割り当てるように指示する。 2)それら間の内クラス特徴距離を最小化する。 したがって、異なる新しいクラスのラベルを含む基底真理の代わりに、DNNは、予め計算された距離行列と共に単一のOoDラベルを取得する。 画像分類とセマンティックセグメンテーションのいくつかの実験を行い、DNNが真理にアクセスすることなく、複数のクラスで独自のセマンティック空間を拡張できることを実証した。

For open world applications, deep neural networks (DNNs) need to be aware of previously unseen data and adaptable to evolving environments. Furthermore, it is desirable to detect and learn novel classes which are not included in the DNNs underlying set of semantic classes in an unsupervised fashion. The method proposed in this article builds upon anomaly detection to retrieve out-of-distribution (OoD) data as candidates for new classes. We thereafter extend the DNN by $k$ empty classes and fine-tune it on the OoD data samples. To this end, we introduce two loss functions, which 1) entice the DNN to assign OoD samples to the empty classes and 2) to minimize the inner-class feature distances between them. Thus, instead of ground truth which contains labels for the different novel classes, the DNN obtains a single OoD label together with a distance matrix, which is computed in advance. We perform several experiments for image classification and semantic segmentation, which demonstrate that a DNN can extend its own semantic space by multiple classes without having access to ground truth.
翻訳日:2023-05-03 16:41:25 公開日:2023-04-30
# 産業制御システムにおける異常検出のための2相デュアルCOPOD法

Two-phase Dual COPOD Method for Anomaly Detection in Industrial Control System ( http://arxiv.org/abs/2305.00982v1 )

ライセンス: Link先を確認
Emmanuel Aboah Boateng and Jerry Bruce(参考訳) 水処理施設や発電所などの重要なインフラは、監視と制御のために産業制御システム(ICS)に依存しており、サイバー攻撃やシステム障害に脆弱である。 従来のICS異常検出手法は透明性と解釈可能性に欠けており、実践者が結果を理解し信頼することは困難である。 本稿では,これらの課題に対処する2相二重コプラ型外乱検出法(COPOD)を提案する。 第1相は経験的累積分布アルゴリズムを用いて不要な異常値を除去し、第2相は第1相の出力データに基づいて2つの並列コポッドモデルを開発する。 この方法は経験的分布関数に基づいており、パラメータフリーであり、各特徴の異常への寄与を定量化することで解釈可能である。 この方法は、低次元および高次元のデータセットに適した計算的かつメモリ効率も高い。 実験結果から、F1スコアと3つのオープンソースICSデータセットのリコールにおいて優れた性能を示し、リアルタイムICS異常検出を可能にした。

Critical infrastructures like water treatment facilities and power plants depend on industrial control systems (ICS) for monitoring and control, making them vulnerable to cyber attacks and system malfunctions. Traditional ICS anomaly detection methods lack transparency and interpretability, which make it difficult for practitioners to understand and trust the results. This paper proposes a two-phase dual Copula-based Outlier Detection (COPOD) method that addresses these challenges. The first phase removes unwanted outliers using an empirical cumulative distribution algorithm, and the second phase develops two parallel COPOD models based on the output data of phase 1. The method is based on empirical distribution functions, parameter-free, and provides interpretability by quantifying each feature's contribution to an anomaly. The method is also computationally and memory-efficient, suitable for low- and high-dimensional datasets. Experimental results demonstrate superior performance in terms of F1-score and recall on three open-source ICS datasets, enabling real-time ICS anomaly detection.
翻訳日:2023-05-03 16:41:07 公開日:2023-04-30
# deep conditional generative modelを用いた属性からの構造化出力表現の学習

Learning Structured Output Representations from Attributes using Deep Conditional Generative Models ( http://arxiv.org/abs/2305.00980v1 )

ライセンス: Link先を確認
Mohamed Debbagh(参考訳) 構造化出力表現はコンピュータビジョンで探索された生成タスクであり、しばしば高次元構造出力への低次元特徴のマッピングを必要とする。 畳み込みニューラルネットワーク(cnn)のような決定論的アプローチにおける複雑な空間情報の損失は、単一の出力表現内の不確実性と曖昧な構造をもたらす。 sohnらによって、条件付き変分オートエンコーダ(cvae)として知られる特定のモデルが導入され、探求される。 本論文は,画像分割の課題に焦点をあてる一方で,属性による出力表現を制御するタスクにCVAEフレームワークを採用する。 このアプローチにより、異方性のあるマルチモーダル事前分布を学習することができ、サンプル生成に対してより制御的で堅牢なアプローチが実現できます。 本研究では,cvaeアーキテクチャを再現し,2つの画像データセットから得られた各種属性,すなわちcelebfaces attribute (celeba) データセットとcaltech-ucsd birds (cub-200-2011) データセットに基づいてトレーニングを行う。 我々は,毛髪色や眼鏡などの異なる属性の新たな顔や,様々な属性の異なる鳥類の標本の生成を試みる。 さらに,変分下限に重み付け項を適用することにより,一般化されたサンプル生成を改善するための戦略を提案する。

Structured output representation is a generative task explored in computer vision that often times requires the mapping of low dimensional features to high dimensional structured outputs. Losses in complex spatial information in deterministic approaches such as Convolutional Neural Networks (CNN) lead to uncertainties and ambiguous structures within a single output representation. A probabilistic approach through deep Conditional Generative Models (CGM) is presented by Sohn et al. in which a particular model known as the Conditional Variational Auto-encoder (CVAE) is introduced and explored. While the original paper focuses on the task of image segmentation, this paper adopts the CVAE framework for the task of controlled output representation through attributes. This approach allows us to learn a disentangled multimodal prior distribution, resulting in more controlled and robust approach to sample generation. In this work we recreate the CVAE architecture and train it on images conditioned on various attributes obtained from two image datasets; the Large-scale CelebFaces Attributes (CelebA) dataset and the Caltech-UCSD Birds (CUB-200-2011) dataset. We attempt to generate new faces with distinct attributes such as hair color and glasses, as well as different bird species samples with various attributes. We further introduce strategies for improving generalized sample generation by applying a weighted term to the variational lower bound.
翻訳日:2023-05-03 16:40:50 公開日:2023-04-30
# beyond classification: 最先端言語モデルにおける財務的推論

Beyond Classification: Financial Reasoning in State-of-the-Art Language Models ( http://arxiv.org/abs/2305.01505v1 )

ライセンス: Link先を確認
Guijin Son, Hanearl Jung, Moonjeong Hahm, Keonju Na, Sol Jin(参考訳) 1000億以上のパラメータからなる大規模言語モデル(LLM)は、複雑な多段階推論タスクにおいて顕著な能力を示している。 しかし、そのような総合的な進歩の応用は、臨床や法学などのいくつかの分野に限られており、財政的推論の分野は未解明のままである。 我々の知る限り、LLMが金銭的推論問題を解決する能力はこれまでになく、どんな規模でも実行可能であるかどうかは不明だ。 この知識ギャップに対処するため,金融分野におけるLLMの適用可能性に関する総合的な調査を行った。 調査には、タスクの定式化、合成データ生成、プロンプト方法、評価能力など、さまざまな分野の詳細な調査が含まれている。 さらに、さまざまなデータセットサイズに基づいて、2.8Bから13Bまでのパラメータスケールを持つ様々なGPT変種を、インストラクションチューニングなしでベンチマークする。 結果から,コヒーレントな財務推論を生成する能力は,まず6Bパラメータで出現し,より優れたインストラクションチューニングやより大きなデータセットで改善が続けられていることが明らかとなった。 さらに、この研究はsfiog(synthetic-financial investment opinion generation)という、11,802の合成投資論文からなる公開データセットを提供し、金融推論の分野におけるさらなる研究を支援している。 本研究は全体として、金融分野における言語モデルの有効性の理解に寄与し、特に投資意思決定の文脈において洗練された推論と分析を行う能力に重点を置いている。

Large Language Models (LLMs), consisting of 100 billion or more parameters, have demonstrated remarkable ability in complex multi-step reasoning tasks. However, the application of such generic advancements has been limited to a few fields, such as clinical or legal, with the field of financial reasoning remaining largely unexplored. To the best of our knowledge, the ability of LLMs to solve financial reasoning problems has never been dealt with, and whether it can be performed at any scale remains unknown. To address this knowledge gap, this research presents a comprehensive investigation into the potential application of LLMs in the financial domain. The investigation includes a detailed exploration of a range of subjects, including task formulation, synthetic data generation, prompting methods, and evaluation capability. Furthermore, the study benchmarks various GPT variants with parameter scales ranging from 2.8B to 13B, with and without instruction tuning, on diverse dataset sizes. By analyzing the results, we reveal that the ability to generate coherent financial reasoning first emerges at 6B parameters, and continues to improve with better instruction-tuning or larger datasets. Additionally, the study provides a publicly accessible dataset named sFIOG (Synthetic-Financial Investment Opinion Generation), consisting of 11,802 synthetic investment thesis samples, to support further research in the field of financial reasoning. Overall, this research seeks to contribute to the understanding of the efficacy of language models in the field of finance, with a particular emphasis on their ability to engage in sophisticated reasoning and analysis within the context of investment decision-making.
翻訳日:2023-05-03 14:10:27 公開日:2023-04-30
# NewsPanda: タイムリーな保存行動のためのメディアモニタリング

NewsPanda: Media Monitoring for Timely Conservation Action ( http://arxiv.org/abs/2305.01503v1 )

ライセンス: Link先を確認
Sedrick Scott Keh, Zheyuan Ryan Shi, David J. Patterson, Nirmal Bhagabati, Karun Dewan, Areendran Gopala, Pablo Izquierdo, Debojyoti Mallick, Ambika Sharma, Pooja Shrestha, Fei Fang(参考訳) 環境保全のための非政府組織は、重要な保全地域に大きな影響を与える可能性があるため、保全関連メディアの監視やインフラ建設プロジェクトに関するタイムリーな更新に関心を持っている。 しかし、このようなモニタリングは困難で時間がかかる。 環境保全とインフラ構築に関するオンライン記事を自動的に検出・分析するツールキットであるnewspandaを紹介する。 アクティブラーニング手法とノイズ補正アルゴリズムを用いてBERTベースのモデルに微調整を行い,保存とインフラ構築に関連する項目を同定する。 特定された記事に対して、さらに分析を行い、キーワードを抽出し、潜在的に関連する情報源を見つける。 NewsPandaは2022年2月から、イギリス、インド、ネパールのネイチャーチームのためのWorld Wide Fundによって展開されている。 現在、インドとネパールの80,000以上のウェブサイトと1,074の保護サイトを監視し、毎週30時間以上の人的努力を節約している。 現在、世界中の6万の保護地域をカバーしている。

Non-governmental organizations for environmental conservation have a significant interest in monitoring conservation-related media and getting timely updates about infrastructure construction projects as they may cause massive impact to key conservation areas. Such monitoring, however, is difficult and time-consuming. We introduce NewsPanda, a toolkit which automatically detects and analyzes online articles related to environmental conservation and infrastructure construction. We fine-tune a BERT-based model using active learning methods and noise correction algorithms to identify articles that are relevant to conservation and infrastructure construction. For the identified articles, we perform further analysis, extracting keywords and finding potentially related sources. NewsPanda has been successfully deployed by the World Wide Fund for Nature teams in the UK, India, and Nepal since February 2022. It currently monitors over 80,000 websites and 1,074 conservation sites across India and Nepal, saving more than 30 hours of human efforts weekly. We have now scaled it up to cover 60,000 conservation sites globally.
翻訳日:2023-05-03 14:10:00 公開日:2023-04-30
# 予測規則の再現性を定義する

Defining Replicability of Prediction Rules ( http://arxiv.org/abs/2305.01518v1 )

ライセンス: Link先を確認
Giovanni Parmigiani(参考訳) 本稿では,予測規則の再現性を定義する手法を提案する。 最近のnasレポートに動機づけられ、私は、再現性は、同じ予測問題に対処するのに適した研究全体を通して一貫した結果を得ており、それぞれが独自のデータを取得しているという視点から始める。 次に、この声明の重要な要素を定義する際に、概念と問題について議論します。 典型的な利用状況における「一貫性のある結果」の意味に着目し、エージェントがパートナーでも敵でもない複製性を定義するためのマルチエージェントフレームワークを提案する。 私は特別事例としてよく見られる実践的アプローチのいくつかを回収します。 機械学習における再現性をより体系的に評価するためのガイダンスを提供したいと思っています。

In this article I propose an approach for defining replicability for prediction rules. Motivated by a recent NAS report, I start from the perspective that replicability is obtaining consistent results across studies suitable to address the same prediction question, each of which has obtained its own data. I then discuss concept and issues in defining key elements of this statement. I focus specifically on the meaning of "consistent results" in typical utilization contexts, and propose a multi-agent framework for defining replicability, in which agents are neither partners nor adversaries. I recover some of the prevalent practical approaches as special cases. I hope to provide guidance for a more systematic assessment of replicability in machine learning.
翻訳日:2023-05-03 13:56:48 公開日:2023-04-30
# リニアペイオフに対する2重ロバストなトンプソンサンプリング

Doubly robust Thompson sampling for linear payoffs ( http://arxiv.org/abs/2102.01229v3 )

ライセンス: Link先を確認
Wonyoung Kim, Gi-soo Kim, Myunghee Cho Paik(参考訳) バンドイット問題における挑戦的な側面は、選択された腕のみに確率的な報酬が観察され、他の腕の報酬が失われることである。 arm選択が過去の状況と報酬対に依存することは、後悔分析の複雑さを複雑にする。 本稿では,不足データ文学において用いられる二重ロバスト推定器を用いて,文脈付きトンプソンサンプリング(\texttt{lints})を用いた,dubly robust (dr) thompson samplingと呼ばれる新しいマルチアーム付きコンテキストバンディットアルゴリズムを提案する。 不足するデータ技術に依存する以前の著作と異なり(\citet{dimakopoulou 2019balanced}, \citet{kim2019doubly})、提案されたアルゴリズムは、文脈の共分散行列の最小固有値である$\tilde{o}(\phi^{-2}\sqrt{t})$という順序で結びついた、新しい加法的な後悔分解を可能にするように設計されている。 これは、コンテキストの次元を持たない$\phi^2$ を使用した \textt{lints} の最初の後悔値である。 $\phi^2$ と $d$ の関係を適用すると、提案アルゴリズムの後悔境界は $\tilde{O}(d\sqrt{T})$ であり、多くの現実シナリオにおいて$\sqrt{d}$ の係数で \texttt{LinTS} の境界を改善する。 提案手法の利点は、選択されるか選択されないかの全ての文脈データを利用することで、<texttt{LinTS} の理論解析に使用される不飽和アームの技術的定義を回避することができることである。 実験的な研究は、提案アルゴリズムの利点を \texttt{LinTS} に対して示す。

A challenging aspect of the bandit problem is that a stochastic reward is observed only for the chosen arm and the rewards of other arms remain missing. The dependence of the arm choice on the past context and reward pairs compounds the complexity of regret analysis. We propose a novel multi-armed contextual bandit algorithm called Doubly Robust (DR) Thompson Sampling employing the doubly-robust estimator used in missing data literature to Thompson Sampling with contexts (\texttt{LinTS}). Different from previous works relying on missing data techniques (\citet{dimakopoulou2019balanced}, \citet{kim2019doubly}), the proposed algorithm is designed to allow a novel additive regret decomposition leading to an improved regret bound with the order of $\tilde{O}(\phi^{-2}\sqrt{T})$, where $\phi^2$ is the minimum eigenvalue of the covariance matrix of contexts. This is the first regret bound of \texttt{LinTS} using $\phi^2$ without the dimension of the context, $d$. Applying the relationship between $\phi^2$ and $d$, the regret bound of the proposed algorithm is $\tilde{O}(d\sqrt{T})$ in many practical scenarios, improving the bound of \texttt{LinTS} by a factor of $\sqrt{d}$. A benefit of the proposed method is that it utilizes all the context data, chosen or not chosen, thus allowing to circumvent the technical definition of unsaturated arms used in theoretical analysis of \texttt{LinTS}. Empirical studies show the advantage of the proposed algorithm over \texttt{LinTS}.
翻訳日:2023-05-02 22:09:58 公開日:2023-04-30
# yourtts: ゼロショットマルチスピーカーttsとゼロショット音声変換に向けて

YourTTS: Towards Zero-Shot Multi-Speaker TTS and Zero-Shot Voice Conversion for everyone ( http://arxiv.org/abs/2112.02418v4 )

ライセンス: Link先を確認
Edresson Casanova, Julian Weber, Christopher Shulby, Arnaldo Candido Junior, Eren G\"olge and Moacir Antonelli Ponti(参考訳) YourTTSは、ゼロショットマルチスピーカーTSのタスクに多言語アプローチのパワーをもたらす。 提案手法は,VITSモデルに基づいて,ゼロショットマルチスピーカと多言語学習のための改良を加えた。 我々は、VCTKデータセット上のゼロショット音声変換において、ゼロショットマルチスピーカTSとSOTAに匹敵する結果を得た。 さらに,単一話者データセットを持つ対象言語で有望な結果を得ることができ,低リソース言語におけるゼロショットマルチ話者ttsやゼロショット音声変換システムの可能性も開ける。 最後に、1分未満の音声で yourtts モデルを微調整し、最先端の成果を音声の類似性と妥当な品質で達成することができる。 これは、訓練中に見られるものとは全く異なる声や録音特性を持つ話者に対して合成できることが重要である。

YourTTS brings the power of a multilingual approach to the task of zero-shot multi-speaker TTS. Our method builds upon the VITS model and adds several novel modifications for zero-shot multi-speaker and multilingual training. We achieved state-of-the-art (SOTA) results in zero-shot multi-speaker TTS and results comparable to SOTA in zero-shot voice conversion on the VCTK dataset. Additionally, our approach achieves promising results in a target language with a single-speaker dataset, opening possibilities for zero-shot multi-speaker TTS and zero-shot voice conversion systems in low-resource languages. Finally, it is possible to fine-tune the YourTTS model with less than 1 minute of speech and achieve state-of-the-art results in voice similarity and with reasonable quality. This is important to allow synthesis for speakers with a very different voice or recording characteristics from those seen during training.
翻訳日:2023-05-02 22:01:27 公開日:2023-04-30
# ニューラルネットワークと木探索による平面クワッドメッシュの生成

Generate plane quad mesh with neural networks and tree search ( http://arxiv.org/abs/2111.07613v3 )

ライセンス: Link先を確認
Hua Tong(参考訳) メッシュ生成の品質は、FEM(Finite Element Method)の歴史を通じて、エンジニアに信頼性の高いシミュレーション結果を提供する上で、長い間重要な側面と考えられてきた。 現在最も堅牢な手法である要素抽出法は、ビジネスソフトウェアで使用されている。 しかし、抽出を高速化するために、ターゲット関数を最適化する次の要素を見つけることで、多くの時間ステップの後、ローカルメッシュの品質が低下する可能性がある。 強化学習(教師付き学習も可能)と、新しいモンテカルロ木探索(mcts)(coulom(2006), kocsis and szepesv\'ari(2006), browne et~al)と連携して、この手法を使用する手法であるtreemeshを提供する。 (2012)). このアルゴリズムは以前に提案されたアプローチ(Pan et~al)に基づいている。 (2021)). DRL (algorithm, state-action-reward set) に多くの改良を加え、MCTSを追加した後、同じ境界における前の作業よりも優れている。 さらに,本プログラムでは,薄膜材料に共通する種子密度変化境界を,木探索を用いて予測する。

The quality of mesh generation has long been considered a vital aspect in providing engineers with reliable simulation results throughout the history of the Finite Element Method (FEM). The element extraction method, which is currently the most robust method, is used in business software. However, in order to speed up extraction, the approach is done by finding the next element that optimizes a target function, which can result in local mesh of bad quality after many time steps. We provide TreeMesh, a method that uses this method in conjunction with reinforcement learning (also possible with supervised learning) and a novel Monte-Carlo tree search (MCTS) (Coulom(2006), Kocsis and Szepesv\'ari(2006), Browne et~al.(2012)). The algorithm is based on a previously proposed approach (Pan et~al.(2021)). After making many improvements on DRL (algorithm, state-action-reward setting) and adding a MCTS, it outperforms the former work on the same boundary. Furthermore, using tree search, our program reveals much preponderance on seed-density-changing boundaries, which is common on thin-film materials.
翻訳日:2023-05-02 22:01:12 公開日:2023-04-30
# 大規模グラフニューラルネットワークのロバスト性

Robustness of Graph Neural Networks at Scale ( http://arxiv.org/abs/2110.14038v4 )

ライセンス: Link先を確認
Simon Geisler, Tobias Schmidt, Hakan \c{S}irin, Daniel Z\"ugner, Aleksandar Bojchevski and Stephan G\"unnemann(参考訳) グラフニューラルネットワーク(GNN)はその人気とアプリケーションの多様性から、ますます重要になっている。 しかし、敵攻撃に対する脆弱性に関する既存の研究は、比較的小さなグラフに依存している。 このギャップに対処し、大規模にGNNを攻撃し、防御する方法を研究する。 本稿では,ノード数で2次となるパラメータを最適化しながら,効率の良い表現を維持する2つのスポーサリティ対応一階最適化攻撃を提案する。 一般的な代理損失はgnnに対する世界的な攻撃には適していない。 我々の代替手段は 攻撃力を2倍にできる さらに,GNNの信頼性を向上させるために,頑健な集約機能であるSoft Medianを設計した。 我々は,従来の研究の100倍以上のグラフ上の標準GNNによる攻撃と防御を評価した。 技術を拡張可能なGNNに拡張することで、さらに1桁のスケールを行ないます。

Graph Neural Networks (GNNs) are increasingly important given their popularity and the diversity of applications. Yet, existing studies of their vulnerability to adversarial attacks rely on relatively small graphs. We address this gap and study how to attack and defend GNNs at scale. We propose two sparsity-aware first-order optimization attacks that maintain an efficient representation despite optimizing over a number of parameters which is quadratic in the number of nodes. We show that common surrogate losses are not well-suited for global attacks on GNNs. Our alternatives can double the attack strength. Moreover, to improve GNNs' reliability we design a robust aggregation function, Soft Median, resulting in an effective defense at all scales. We evaluate our attacks and defense with standard GNNs on graphs more than 100 times larger compared to previous work. We even scale one order of magnitude further by extending our techniques to a scalable GNN.
翻訳日:2023-05-02 22:00:49 公開日:2023-04-30
# selfcf: 自己教師付き協調フィルタリングのためのシンプルなフレームワーク

SelfCF: A Simple Framework for Self-supervised Collaborative Filtering ( http://arxiv.org/abs/2107.03019v3 )

ライセンス: Link先を確認
Xin Zhou, Aixin Sun, Yong Liu, Jie Zhang, Chunyan Miao(参考訳) 協調フィルタリング(CF)は、観測された相互作用からユーザやアイテムの情報的潜在表現を学習するために広く用いられている。 既存のCFベースの手法では、異なる項目を識別するために負のサンプリングが一般的である。 大規模なデータセットに対する負のサンプリングによるトレーニングは計算コストが高い。 さらに、トレーニングデータセットで観測された陽性項目を選択することを避けるため、負の項目を定義された分布の下で慎重にサンプリングする必要がある。 必然的に、トレーニングデータセットからサンプリングされた負の項目は、テストセットで陽性になる可能性がある。 本稿では,暗黙的なフィードバックを伴うレコメンダシナリオのために特別に設計された自己教師付き協調フィルタリングフレームワーク(selfcf)を提案する。 提案したSelfCFフレームワークは、Siameseネットワークを単純化し、既存のディープラーニングベースのCFモデルに容易に適用することができる。 SelfCFの主な考え方は、ユーザ/イテムIDの生入力を拡大できないため、バックボーンネットワークによって生成された出力の埋め込みを強化することである。 従来のcfモデルとグラフベースモデルの両方を含む様々なバックボーンネットワークに適用可能な3つの出力摂動手法を提案し,検討する。 このフレームワークは、負のサンプルなしでユーザとアイテムの情報表現を学習することができ、カプセル化されたバックボーンとは無関係である。 2$\times$--4$\times$のトレーニング速度でカプセル化された教師付きデータセットよりも優れた推奨精度が得られることを示すために、4つのデータセットについて包括的な実験を行った。 また、自制フレームワークのBUIRと比較して、SelfCFは平均で17.79%の精度を向上できることを示す。

Collaborative filtering (CF) is widely used to learn informative latent representations of users and items from observed interactions. Existing CF-based methods commonly adopt negative sampling to discriminate different items. Training with negative sampling on large datasets is computationally expensive. Further, negative items should be carefully sampled under the defined distribution, in order to avoid selecting an observed positive item in the training dataset. Unavoidably, some negative items sampled from the training dataset could be positive in the test set. In this paper, we propose a self-supervised collaborative filtering framework (SelfCF), that is specially designed for recommender scenario with implicit feedback. The proposed SelfCF framework simplifies the Siamese networks and can be easily applied to existing deep-learning based CF models, which we refer to as backbone networks. The main idea of SelfCF is to augment the output embeddings generated by backbone networks, because it is infeasible to augment raw input of user/item ids. We propose and study three output perturbation techniques that can be applied to different types of backbone networks including both traditional CF models and graph-based models. The framework enables learning informative representations of users and items without negative samples, and is agnostic to the encapsulated backbones. We conduct comprehensive experiments on four datasets to show that our framework may achieve even better recommendation accuracy than the encapsulated supervised counterpart with a 2$\times$--4$\times$ faster training speed. We also show that SelfCF can boost up the accuracy by up to 17.79% on average, compared with a self-supervised framework BUIR.
翻訳日:2023-05-02 21:59:46 公開日:2023-04-30
# 低音源多言語音声認識のための階層型ソフトマックス

Hierarchical Softmax for End-to-End Low-resource Multilingual Speech Recognition ( http://arxiv.org/abs/2204.03855v2 )

ライセンス: Link先を確認
Qianying Liu, Zhuo Gong, Zhengdong Yang, Yuhang Yang, Sheng Li, Chenchen Ding, Nobuaki Minematsu, Hao Huang, Fei Cheng, Chenhui Chu, Sadao Kurohashi(参考訳) 低リソースの音声認識は、トレーニングデータ不足から長年受け継がれてきた。 本稿では, 近隣言語に類似する言語単位が, 多言語階層のSoftmaxデコーディングを行うためのHuffmanツリーを構築することができるという仮説に基づいて, 低リソースシナリオの性能を向上させるために, 近隣言語を活用するアプローチを提案する。 この階層構造により、類似トークン間の言語間知識の共有が可能になり、低リソースのトレーニング結果が向上する。 本手法は,低リソース音声認識の精度と効率を向上させるのに有効であることを示す。

Low-resource speech recognition has been long-suffering from insufficient training data. In this paper, we propose an approach that leverages neighboring languages to improve low-resource scenario performance, founded on the hypothesis that similar linguistic units in neighboring languages exhibit comparable term frequency distributions, which enables us to construct a Huffman tree for performing multilingual hierarchical Softmax decoding. This hierarchical structure enables cross-lingual knowledge sharing among similar tokens, thereby enhancing low-resource training outcomes. Empirical analyses demonstrate that our method is effective in improving the accuracy and efficiency of low-resource speech recognition.
翻訳日:2023-05-02 20:18:19 公開日:2023-04-30
# CMW-Net:ロバストディープラーニングのためのクラス認識サンプル重み付けマッピング学習

CMW-Net: Learning a Class-Aware Sample Weighting Mapping for Robust Deep Learning ( http://arxiv.org/abs/2202.05613v3 )

ライセンス: Link先を確認
Jun Shu, Xiang Yuan, Deyu Meng, Zongben Xu(参考訳) 現代のディープニューラルネットワークは、破損したラベルやクラス不均衡を含むバイアス付きトレーニングデータに容易に適合する。 サンプルの再重み付け手法は、このデータバイアス問題を解決するために広く使われている。 しかし、現在のほとんどの手法では、調査された問題の特徴やトレーニングデータに依存した重み付けスキームと追加のハイパーパラメータを手動で事前指定する必要がある。 これにより、大きな複雑さとデータバイアス状況のクラス間変異のため、実際のシナリオで一般的に適用することがかなり困難になる。 そこで本研究では,データから直接明示的な重み付け方式を適応的に学習できるメタモデルを提案する。 具体的には,各学習クラスを個別の学習タスクと見なすことで,各学習クラスに固有のバイアス特性に基づいて適応的に重み付け方式を課すことを期待して,サンプル損失とタスク/クラス特徴を入力として,サンプル重み付け関数を標本重み付けを出力として抽出することを目的とする。 合成および実データ実験は、クラス不均衡、特徴非依存および依存ラベルノイズシナリオ、従来よりも複雑なバイアスシナリオなど、様々なデータバイアスケースにおいて適切な重み付けスキームを実現するための方法の有効性を実証する。 さらに、より小規模なCIFAR-10データセットで学習した重み付け関数を、より大規模なフルWebVisionデータセット上に容易に展開することにより、学習した重み付けスキームのタスク転送性も裏付けられる。 パフォーマンス向上は、追加のハイパーパラメータチューニングとメタ勾配降下ステップなしで、以前のSOATと比較して容易に達成できます。 部分ラベル学習,半教師付き学習,選択的分類など,複数の頑健な深層学習問題に対する本手法の汎用性も検証されている。

Modern deep neural networks can easily overfit to biased training data containing corrupted labels or class imbalance. Sample re-weighting methods are popularly used to alleviate this data bias issue. Most current methods, however, require to manually pre-specify the weighting schemes as well as their additional hyper-parameters relying on the characteristics of the investigated problem and training data. This makes them fairly hard to be generally applied in practical scenarios, due to their significant complexities and inter-class variations of data bias situations. To address this issue, we propose a meta-model capable of adaptively learning an explicit weighting scheme directly from data. Specifically, by seeing each training class as a separate learning task, our method aims to extract an explicit weighting function with sample loss and task/class feature as input, and sample weight as output, expecting to impose adaptively varying weighting schemes to different sample classes based on their own intrinsic bias characteristics. Synthetic and real data experiments substantiate the capability of our method on achieving proper weighting schemes in various data bias cases, like the class imbalance, feature-independent and dependent label noise scenarios, and more complicated bias scenarios beyond conventional cases. Besides, the task-transferability of the learned weighting scheme is also substantiated, by readily deploying the weighting function learned on relatively smaller-scale CIFAR-10 dataset on much larger-scale full WebVision dataset. A performance gain can be readily achieved compared with previous SOAT ones without additional hyper-parameter tuning and meta gradient descent step. The general availability of our method for multiple robust deep learning issues, including partial-label learning, semi-supervised learning and selective classification, has also been validated.
翻訳日:2023-05-02 20:16:57 公開日:2023-04-30
# テンソル製品の複雑-リアルスケッチとポリノミアルカーネルへの応用

Complex-to-Real Sketches for Tensor Products with Applications to the Polynomial Kernel ( http://arxiv.org/abs/2202.02031v4 )

ライセンス: Link先を確認
Jonas Wacker, Ruben Ohana, Maurizio Filippone(参考訳) p$ベクトルのテンソル積のランダム化されたスケッチは、統計効率と計算加速度のトレードオフに従う。 一般的に用いられるアプローチは、高次元テンソル積を明示的に計算することを避け、埋め込み次元において$\mathcal{O}(3^p)$の最適部分依存をもたらす。 実ランダム射影を複素射影に置き換え、埋め込み次元におけるより低い$\mathcal{o}(2^p)$因子を伴って、よく知られたスケッチの単純な複素対実(ctr)修正を提案する。 私たちのスケッチの出力は実価値があり、下流での使用が簡単になります。 特に、このスケッチを多項式カーネルの特徴写像に対応する$p$-foldの自己拡張入力に適用する。 本手法は,文献の他のランダム化近似と比較して,精度と速度の点で最先端の性能を実現する。

Randomized sketches of a tensor product of $p$ vectors follow a tradeoff between statistical efficiency and computational acceleration. Commonly used approaches avoid computing the high-dimensional tensor product explicitly, resulting in a suboptimal dependence of $\mathcal{O}(3^p)$ in the embedding dimension. We propose a simple Complex-to-Real (CtR) modification of well-known sketches that replaces real random projections by complex ones, incurring a lower $\mathcal{O}(2^p)$ factor in the embedding dimension. The output of our sketches is real-valued, which renders their downstream use straightforward. In particular, we apply our sketches to $p$-fold self-tensored inputs corresponding to the feature maps of the polynomial kernel. We show that our method achieves state-of-the-art performance in terms of accuracy and speed compared to other randomized approximations from the literature.
翻訳日:2023-05-02 20:16:00 公開日:2023-04-30
# Blended Latent Diffusion

Blended Latent Diffusion ( http://arxiv.org/abs/2206.02779v2 )

ライセンス: Link先を確認
Omri Avrahami, Ohad Fried, Dani Lischinski(参考訳) 一見全能な視覚言語モデルの出現と相まって、ニューラル画像生成の著しい進歩により、画像の作成と編集のためのテキストベースのインターフェイスがついに有効になった。 汎用画像の処理には多様な生成モデルが必要であるため、最新の研究は拡散モデルを利用しており、多様性の観点からはGANを上回ることが示されている。 しかし、拡散モデルの大きな欠点は、その相対的に遅い推論時間である。 本稿では,所望の編集をユーザ提供マスクに限定した汎用画像のローカルテキスト駆動編集の課題に対して,高速化した解法を提案する。 提案手法は,低次元の潜伏空間で操作することで拡散を高速化する,最近のテキストから画像への潜伏拡散モデル (LDM) を利用する。 まず,混合拡散を組み込むことにより,ldmをローカル画像エディタに変換する。 次に, 画像の正確な再構成を行うため, LDMの本質的不確かさに対する最適化に基づく解を提案する。 最後に,シンマスクを用いてローカル編集を行うシナリオについて述べる。 提案手法は, 質的かつ定量的に, 利用可能なベースラインに対して評価し, 高速であることに加えて, 精度も向上し, その成果物のいくつかを軽減できることを示した。

The tremendous progress in neural image generation, coupled with the emergence of seemingly omnipotent vision-language models has finally enabled text-based interfaces for creating and editing images. Handling generic images requires a diverse underlying generative model, hence the latest works utilize diffusion models, which were shown to surpass GANs in terms of diversity. One major drawback of diffusion models, however, is their relatively slow inference time. In this paper, we present an accelerated solution to the task of local text-driven editing of generic images, where the desired edits are confined to a user-provided mask. Our solution leverages a recent text-to-image Latent Diffusion Model (LDM), which speeds up diffusion by operating in a lower-dimensional latent space. We first convert the LDM into a local image editor by incorporating Blended Diffusion into it. Next we propose an optimization-based solution for the inherent inability of this LDM to accurately reconstruct images. Finally, we address the scenario of performing local edits using thin masks. We evaluate our method against the available baselines both qualitatively and quantitatively and demonstrate that in addition to being faster, our method achieves better precision than the baselines while mitigating some of their artifacts.
翻訳日:2023-05-02 20:08:16 公開日:2023-04-30
# 弱監督によるロバスト学習のためのメタ自己定義

Meta Self-Refinement for Robust Learning with Weak Supervision ( http://arxiv.org/abs/2205.07290v2 )

ライセンス: Link先を確認
Dawei Zhu, Xiaoyu Shen, Michael A. Hedderich, Dietrich Klakow(参考訳) 弱い監督下での深層ニューラルネットワーク(DNN)のトレーニングは、アノテーションコストを大幅に削減できるため、研究の注目を集めている。 しかし、監督の弱いラベルはうるさく、DNNの容量が高いため、ラベルノイズを過度に過小評価できるため、一般化は不十分である。 近年, 自己学習を活用して, 弱い指導下で訓練した教師が, 生徒に高い自信を示すラベルを提示できる, 耐雑音モデルの構築が進められている。 それにもかかわらず、そのような枠組みから派生した教師は相当量のノイズに適応し、信頼度の高い誤った擬似ラベルを生成し、深刻なエラー伝播を引き起こす可能性がある。 そこで本研究では,騒音耐性学習フレームワークであるMeta Self-Refinement(MSR)を提案する。 騒がしいラベルで訓練された教師に頼るのではなく、先生に偽のラベルを磨くよう促す。 各トレーニングステップでは、MSRが現在のミニバッチにメタ勾配降下を行い、クリーンな検証セット上での学生のパフォーマンスを最大化する。 8つのNLPベンチマークによる大規模な実験では、MSRは全ての設定においてラベルノイズに対して堅牢であり、最先端の手法よりも11.4%の精度、9.26%のスコアで性能が向上している。

Training deep neural networks (DNNs) under weak supervision has attracted increasing research attention as it can significantly reduce the annotation cost. However, labels from weak supervision can be noisy, and the high capacity of DNNs enables them to easily overfit the label noise, resulting in poor generalization. Recent methods leverage self-training to build noise-resistant models, in which a teacher trained under weak supervision is used to provide highly confident labels for teaching the students. Nevertheless, the teacher derived from such frameworks may have fitted a substantial amount of noise and therefore produce incorrect pseudo-labels with high confidence, leading to severe error propagation. In this work, we propose Meta Self-Refinement (MSR), a noise-resistant learning framework, to effectively combat label noise from weak supervision. Instead of relying on a fixed teacher trained with noisy labels, we encourage the teacher to refine its pseudo-labels. At each training step, MSR performs a meta gradient descent on the current mini-batch to maximize the student performance on a clean validation set. Extensive experimentation on eight NLP benchmarks demonstrates that MSR is robust against label noise in all settings and outperforms state-of-the-art methods by up to 11.4% in accuracy and 9.26% in F1 score.
翻訳日:2023-05-02 20:06:46 公開日:2023-04-30
# 構造化意味的一貫性を学習するマルチモーダル医用画像セグメンテーション

Toward Unpaired Multi-modal Medical Image Segmentation via Learning Structured Semantic Consistency ( http://arxiv.org/abs/2206.10571v3 )

ライセンス: Link先を確認
Jie Yang, Ye Zhu, Chaoqun Wang, Zhen Li, Ruimao Zhang(参考訳) 医療画像解析を促進するマルチモーダルデータの統合が注目されている。 本稿では,マルチモーダル医用画像のセグメンテーション結果を改善するために,異なるモダリティの相互利益を学習するための新しい手法を提案する。 本手法は,(1)様々なモダリティ(ct,mriなど)の意味的構成を効果的に学習する方法,(2)ネットワーク学習をシンプルに保ちながら規則化する手法という,実用的な視点から,この課題の2つの重要な課題に取り組む。 1)に対処するために、慎重に設計された外部注意モジュール(EAM)を活用し、セマンティッククラス表現と異なるモダリティの相関を調整します。 2) 問題を解決するため,提案するEAMは外部プラグアンドプレイシステムとして設計されており,モデルが最適化されると破棄することができる。 提案手法は,(1)心構造セグメント化,(2)腹部多臓器セグメント化の2つの医療画像セグメント化シナリオにおいて有効であることを示した。 その結果,提案手法はより広いマージンで優れた性能を示した。

Integrating multi-modal data to promote medical image analysis has recently gained great attention. This paper presents a novel scheme to learn the mutual benefits of different modalities to achieve better segmentation results for unpaired multi-modal medical images. Our approach tackles two critical issues of this task from a practical perspective: (1) how to effectively learn the semantic consistencies of various modalities (e.g., CT and MRI), and (2) how to leverage the above consistencies to regularize the network learning while preserving its simplicity. To address (1), we leverage a carefully designed External Attention Module (EAM) to align semantic class representations and their correlations of different modalities. To solve (2), the proposed EAM is designed as an external plug-and-play one, which can be discarded once the model is optimized. We have demonstrated the effectiveness of the proposed method on two medical image segmentation scenarios: (1) cardiac structure segmentation, and (2) abdominal multi-organ segmentation. Extensive results show that the proposed method outperforms its counterparts by a wide margin.
翻訳日:2023-05-02 19:56:39 公開日:2023-04-30
# ビザンチンは歴史から学ぶこともできる:フェデレート学習における中心的クリッピングの崩壊

Byzantines can also Learn from History: Fall of Centered Clipping in Federated Learning ( http://arxiv.org/abs/2208.09894v2 )

ライセンス: Link先を確認
Kerem Ozfatura and Emre Ozfatura and Alptekin Kupcu and Deniz Gunduz(参考訳) 幅広い協調学習タスクの成功により、フェデレーション学習(fl)フレームワークの人気が高まり、特定のセキュリティ上の懸念も引き起こされる。 多くの脆弱性のうち、ビザンチン攻撃のリスクは特に懸念されており、これは学習プロセスに参加している悪意のあるクライアントの可能性を指す。 したがって、flの重要な目的はビザンチン攻撃の潜在的な影響を無力化し、最終的なモデルが信頼できることを保証することである。 クライアントのモデル/アップデート間のばらつきが高くなればなるほど、ビザンツ攻撃が隠される余地が大きくなることが観察されている。 その結果、運動量を利用して分散を減少させることで、既知のビザンチン攻撃の強さを弱めることができる。 中心的クリッピング(CC)フレームワークはさらに、前回の反復のモーメント項は、ばらつきを減らすことに加えて、ビザンティン攻撃をより中和するための基準点として使用できることを示した。 本研究では,ccフレームワークの脆弱性を最初に公開し,画像分類タスクにおける最善のシナリオにおいて,テスト精度を最大%33まで低減することにより,その防御やロバストアグリゲータを回避できる新たな攻撃戦略を導入する。 そこで我々は,提案する攻撃や既存のビザンツ攻撃を防ぐために,より堅牢で高速な防御機構を提案する。

The increasing popularity of the federated learning (FL) framework due to its success in a wide range of collaborative learning tasks also induces certain security concerns. Among many vulnerabilities, the risk of Byzantine attacks is of particular concern, which refers to the possibility of malicious clients participating in the learning process. Hence, a crucial objective in FL is to neutralize the potential impact of Byzantine attacks, and to ensure that the final model is trustable. It has been observed that the higher the variance among the clients' models/updates, the more space there is for Byzantine attacks to be hidden. As a consequence, by utilizing momentum, and thus, reducing the variance, it is possible to weaken the strength of known Byzantine attacks. The centered clipping (CC) framework has further shown that, the momentum term from the previous iteration, besides reducing the variance, can be used as a reference point to neutralize Byzantine attacks better. In this work, we first expose vulnerabilities of CC framework, and introduce a novel attack strategy that can circumvent its defences and other robust aggregators by reducing test accuracy up to %33 on best-case scenarios in image classification tasks. Then, we propose a new robust and fast defence mechanism to prevent the proposed attack and other existing Byzantine attacks.
翻訳日:2023-05-02 19:49:30 公開日:2023-04-30
# gsim:ヘテロジニアスグラフのためのグラフニューラルネットワークに基づく関連尺度

GSim: A Graph Neural Network based Relevance Measure for Heterogeneous Graphs ( http://arxiv.org/abs/2208.06144v2 )

ライセンス: Link先を確認
Linhao Luo, Yixiang Fang, Moli Lu, Xin Cao, Xiaofeng Zhang, Wenjie Zhang(参考訳) 複数のタイプのノードやエッジを含む不均一グラフは、書誌ネットワーク、ソーシャルメディア、知識グラフなど、さまざまな領域で広く使われている。 ヘテロジニアスグラフ解析の基本的な課題として,Web検索,レコメンデーション,コミュニティ検出などの多くのアプリケーションで使用されている,異なるタイプの2つのオブジェクト間の関連性を計算することを目的としている。 既存の関係測度のほとんどは、オブジェクトが同じタイプの同種ネットワークに焦点を合わせ、不均一グラフのためのいくつかの測度が開発されているが、しばしば事前に定義されたメタパスが必要である。 有意義なメタパスを定義するには、多くのドメイン知識が必要である。 近年,グラフニューラルネットワーク (GNN) は多くのグラフマイニングタスクに広く適用されているが,その関連性の測定には適用されていない。 上記の問題に対処するため、我々は新しいGNN関連尺度GSimを提案する。 具体的には、まず、GNNがグラフ内のノードの関連性を測定するのに有効であることを示す。 次に、異種グラフのセマンティクスを自動的に活用する文脈パスに基づくグラフニューラルネットワーク(CP-GNN)を提案する。 さらに、CP-GNNを用いて、任意のタイプの2つのオブジェクト間の関連性対策を支援する。 広範な実験により、gsimは既存の手段よりも優れていることが示されている。

Heterogeneous graphs, which contain nodes and edges of multiple types, are prevalent in various domains, including bibliographic networks, social media, and knowledge graphs. As a fundamental task in analyzing heterogeneous graphs, relevance measure aims to calculate the relevance between two objects of different types, which has been used in many applications such as web search, recommendation, and community detection. Most of existing relevance measures focus on homogeneous networks where objects are of the same type, and a few measures are developed for heterogeneous graphs, but they often need the pre-defined meta-path. Defining meaningful meta-paths requires much domain knowledge, which largely limits their applications, especially on schema-rich heterogeneous graphs like knowledge graphs. Recently, the Graph Neural Network (GNN) has been widely applied in many graph mining tasks, but it has not been applied for measuring relevance yet. To address the aforementioned problems, we propose a novel GNN-based relevance measure, namely GSim. Specifically, we first theoretically analyze and show that GNN is effective for measuring the relevance of nodes in the graph. We then propose a context path-based graph neural network (CP-GNN) to automatically leverage the semantics in heterogeneous graphs. Moreover, we exploit CP-GNN to support relevance measures between two objects of any type. Extensive experiments demonstrate that GSim outperforms existing measures.
翻訳日:2023-05-02 19:49:06 公開日:2023-04-30
# 自己教師付きオブジェクト中心表現を用いた教師なし意味セグメンテーション

Unsupervised Semantic Segmentation with Self-supervised Object-centric Representations ( http://arxiv.org/abs/2207.05027v2 )

ライセンス: Link先を確認
Andrii Zadaianchuk, Matthaeus Kleindessner, Yi Zhu, Francesco Locatello, Thomas Brox(参考訳) 本稿では、10年前の教師付きセマンティックセグメンテーションの分野の状況に合致したパフォーマンスで教師なしオブジェクト発見と意味セグメンテーションを可能にする、教師なし機能学習の最近の進歩を示す。 提案手法は,非教師付きサリエンシーマスクと自己教師付き特徴クラスタリングによるオブジェクト発見を行い,擬似ラベル上で意味セグメンテーションネットワークを訓練し,複数のオブジェクトを持つ画像上でシステムをブートストラップする手法である。 本研究は,最先端技術(50.0 mIoU)をはるかに超えたPASCALVOCの結果を報告し,81クラス全体のMS COCOに関する最初の結果として,20 %以上の IoU の34のカテゴリを検出し,81 のカテゴリすべてに対して平均 19.6 の IoU を求める。

In this paper, we show that recent advances in self-supervised feature learning enable unsupervised object discovery and semantic segmentation with a performance that matches the state of the field on supervised semantic segmentation 10 years ago. We propose a methodology based on unsupervised saliency masks and self-supervised feature clustering to kickstart object discovery followed by training a semantic segmentation network on pseudo-labels to bootstrap the system on images with multiple objects. We present results on PASCAL VOC that go far beyond the current state of the art (50.0 mIoU), and we report for the first time results on MS COCO for the whole set of 81 classes: our method discovers 34 categories with more than $20\%$ IoU, while obtaining an average IoU of 19.6 for all 81 categories.
翻訳日:2023-05-02 19:48:11 公開日:2023-04-30
# NVIDIA NICにおける強化学習データセンターの混雑制御の実装

Implementing Reinforcement Learning Datacenter Congestion Control in NVIDIA NICs ( http://arxiv.org/abs/2207.02295v4 )

ライセンス: Link先を確認
Benjamin Fuhrer, Yuval Shpigelman, Chen Tessler, Shie Mannor, Gal Chechik, Eitan Zahavi, Gal Dalal(参考訳) 通信プロトコルが進化するにつれて、データセンターネットワークの利用が増加する。 その結果、混雑が頻繁になり、レイテンシとパケット損失が増大する。 ワークロードの複雑さの増加と相まって,混雑制御(cc)アルゴリズムの手動設計が極めて困難になる。 これにより、人間の努力を置き換えるAIアプローチの開発が求められます。 残念ながら、計算能力が限られているため、現在、ネットワークデバイスにAIモデルをデプロイすることはできない。 本稿では,最近の強化学習CCアルゴリズム [arXiv:2207.02295] に基づく計算軽度解を構築することにより,この問題に対する解決策を提供する。 我々は、複雑なニューラルネットワークを決定木に蒸留することにより、RL-CCのx500による推論時間を短縮する。 この変換により、$\mu$-secの意思決定時間要件内でリアルタイムな推論が可能となり、品質に無視できる効果がある。 NVIDIA NICのトランスフォーメーションポリシを,ライブクラスタにデプロイします。 実運用で一般的なCCアルゴリズムと比較して、RL-CCは多数のフローでテストされた全てのベンチマークでうまく動作する唯一の方法である。 帯域幅、レイテンシ、パケットドロップなど、複数のメトリクスを同時にバランスさせる。 これらの結果から, CCのデータ駆動手法が実現可能であることが示唆され, 最適性能を達成するためには手作りヒューリスティックスが必要であるという従来の信念に疑問が持たれている。

As communication protocols evolve, datacenter network utilization increases. As a result, congestion is more frequent, causing higher latency and packet loss. Combined with the increasing complexity of workloads, manual design of congestion control (CC) algorithms becomes extremely difficult. This calls for the development of AI approaches to replace the human effort. Unfortunately, it is currently not possible to deploy AI models on network devices due to their limited computational capabilities. Here, we offer a solution to this problem by building a computationally-light solution based on a recent reinforcement learning CC algorithm [arXiv:2207.02295]. We reduce the inference time of RL-CC by x500 by distilling its complex neural network into decision trees. This transformation enables real-time inference within the $\mu$-sec decision-time requirement, with a negligible effect on quality. We deploy the transformed policy on NVIDIA NICs in a live cluster. Compared to popular CC algorithms used in production, RL-CC is the only method that performs well on all benchmarks tested over a large range of number of flows. It balances multiple metrics simultaneously: bandwidth, latency, and packet drops. These results suggest that data-driven methods for CC are feasible, challenging the prior belief that handcrafted heuristics are necessary to achieve optimal performance.
翻訳日:2023-05-02 19:47:07 公開日:2023-04-30
# 量子状態に対する濃度境界と多項式近似からのQAOA上の極限

Concentration bounds for quantum states and limitations on the QAOA from polynomial approximations ( http://arxiv.org/abs/2209.02715v3 )

ライセンス: Link先を確認
Anurag Anshu, Tony Metger(参考訳) 量子状態の次のクラスに対する濃度境界を証明する。 (i)[DPMRF22]からのオープン質問に応答する浅い量子回路の出力状態 (ii) 射出行列生成物 (iii)密ハミルトン進化の出力状態、すなわち、任意のn$-量子ビット積状態に対して、{e^{\iota h^{(p)}} \cdots e^{\iota h^{(1)}} |\psi_0\rangle$、すなわち各$h^{} の形の状態。 i)$ はノルム制約を満たす任意の局所通勤ハミルトニアンであり、任意のクビット間の相互作用を持つ高密度ハミルトニアンを含む。 我々の証明は多項式近似を用いてこれらの状態が局所作用素に近いことを示す。 これは、計算基底測定(および他の関連する観測可能量)のハミング重みの分布が集中していることを意味する。 一例 (iii)は量子近似最適化アルゴリズム(QAOA)によって生成される状態である。 これらの状態に対する集中結果を用いて、ランダムスピンモデルでは、QAOAは、いわゆるオーバーラップギャップ特性の強化バージョンを仮定して、超コンスタントレベル$p = o(\log \log n)$でも無視可能な確率でしか成功できないことを示す。 これにより、超定常レベルでの高密度インスタンスに対するQAOAの最初の制限が得られ、最近の結果 [BGMZ22] により改善される。

We prove concentration bounds for the following classes of quantum states: (i) output states of shallow quantum circuits, answering an open question from [DPMRF22]; (ii) injective matrix product states; (iii) output states of dense Hamiltonian evolution, i.e. states of the form $e^{\iota H^{(p)}} \cdots e^{\iota H^{(1)}} |\psi_0\rangle$ for any $n$-qubit product state $|\psi_0\rangle$, where each $H^{(i)}$ can be any local commuting Hamiltonian satisfying a norm constraint, including dense Hamiltonians with interactions between any qubits. Our proofs use polynomial approximations to show that these states are close to local operators. This implies that the distribution of the Hamming weight of a computational basis measurement (and of other related observables) concentrates. An example of (iii) are the states produced by the quantum approximate optimisation algorithm (QAOA). Using our concentration results for these states, we show that for a random spin model, the QAOA can only succeed with negligible probability even at super-constant level $p = o(\log \log n)$, assuming a strengthened version of the so-called overlap gap property. This gives the first limitations on the QAOA on dense instances at super-constant level, improving upon the recent result [BGMZ22].
翻訳日:2023-05-02 19:38:33 公開日:2023-04-30
# 有界振幅を持つ2レベルおよび3レベル量子系の最適制御の推定

Estimation of optimal control for two-level and three-level quantum systems with bounded amplitude ( http://arxiv.org/abs/2208.13377v2 )

ライセンス: Link先を確認
Xikun Li(参考訳) 有界振幅をもつ2レベルおよび3レベル量子システムにおいて、最適制御の量子速度限界と時間形状を数値的に推定する体系的手法を提案する。 2レベル系では、2つの量子状態遷移が図解として研究される。 数値解析結果と解析結果の比較を行い, 偏差は著しく小さい。 3段階のシステムでは、2つの臨界点を高精度に決定し、異なる持続時間に対して最適制御を求める。 最適化された制御場の形状は単純であり、頻繁にスイッチしないため、実験では実装が容易である。 また,本手法を切り刻みランダムベース(crab)と比較し,その性能はカニの方法よりもはるかに優れていることを示した。 本手法は,解析解が存在しない場合の量子速度限界と最適制御を推定する上で重要である。

A systematic scheme is proposed to numerically estimate the quantum speed limit and temporal shape of optimal control in two-level and three-level quantum systems with bounded amplitude. For the two-level system, two quantum state transitions are studied as illustration. Comparisons between numerical and analytical results are made, and deviations are significantly small. For the three-level system, two critical time points are determined with high accuracy, and optimal controls are obtained for different durations. The shape of optimized control field is simple and does not switch frequently, thus are easy to implement in experiment. In addition, we compare our method with the chopped random basis (CRAB), and the performance of our method is much better than that of CRAB. Our scheme is of importance in estimating the quantum speed limit and optimal control for cases in which analytical solution is absent.
翻訳日:2023-05-02 19:37:47 公開日:2023-04-30
# コード変換エジプト英語テキストのニューラルマシン翻訳のためのセグメンテーション手法の検討

Exploring Segmentation Approaches for Neural Machine Translation of Code-Switched Egyptian Arabic-English Text ( http://arxiv.org/abs/2210.06990v3 )

ライセンス: Link先を確認
Marwa Gaser, Manuel Mager, Injy Hamed, Nizar Habash, Slim Abdennadher and Ngoc Thang Vu(参考訳) データ空間はコードスイッチング(CS)によってもたらされる主な課題の1つであり、形態的にリッチな言語ではさらに悪化している。 機械翻訳 (MT) の課題として, 単言語文脈におけるデータ空間の分散を緩和する形態的セグメンテーションが証明されているが, CS設定については検討されていない。 本稿では,形態素と周波数に基づくセグメンテーション手法を網羅し,異なるセグメンテーション手法がMT性能に与える影響について検討する。 アラビア語から英語へのコードスイッチによるmt実験を行った。 データサイズやcsの程度が異なる文など,さまざまな条件を調べることで,詳細な分析を行う。 実験の結果, 形態素認識セグメンタはセグメンテーションタスクでは最良であるが, MTでは低性能であることがわかったが, MTで使用するセグメンテーション設定の選択はデータサイズに大きく依存していることがわかった。 極端に低リソースなシナリオでは、周波数と形態素に基づくセグメンテーションの組み合わせが最善であることを示す。 リソースの豊富な設定では、このような組み合わせは周波数ベースのセグメンテーションよりも大きな改善をもたらすことはない。

Data sparsity is one of the main challenges posed by code-switching (CS), which is further exacerbated in the case of morphologically rich languages. For the task of machine translation (MT), morphological segmentation has proven successful in alleviating data sparsity in monolingual contexts; however, it has not been investigated for CS settings. In this paper, we study the effectiveness of different segmentation approaches on MT performance, covering morphology-based and frequency-based segmentation techniques. We experiment on MT from code-switched Arabic-English to English. We provide detailed analysis, examining a variety of conditions, such as data size and sentences with different degrees of CS. Empirical results show that morphology-aware segmenters perform the best in segmentation tasks but under-perform in MT. Nevertheless, we find that the choice of the segmentation setup to use for MT is highly dependent on the data size. For extreme low-resource scenarios, a combination of frequency and morphology-based segmentations is shown to perform the best. For more resourced settings, such a combination does not bring significant improvements over the use of frequency-based segmentation.
翻訳日:2023-05-02 19:31:11 公開日:2023-04-30
# MiniALBERT:パラメータ効率の良い再帰変換器によるモデル蒸留

MiniALBERT: Model Distillation via Parameter-Efficient Recursive Transformers ( http://arxiv.org/abs/2210.06425v2 )

ライセンス: Link先を確認
Mohammadmahdi Nouriborji, Omid Rohanian, Samaneh Kouchaki, David A. Clifton(参考訳) 学習済み言語モデル(lms)は、下流アプリケーションの性能が優れているため、近年では自然言語処理(nlp)の不可欠な部分となっている。 この再帰的な成功にもかかわらず、LMのユーザビリティは計算量と時間的複雑さ、そしてそのサイズの増加によって制限されている;これは'オーバーパラメトリゼーション'と呼ばれる問題である。 これらの問題を緩和するための異なる戦略が文献で提案されており、肥大化したコンペティタのパフォーマンスにほぼマッチする効果的なコンパクトモデルを作成することを目的としている。 この分野で最も人気のある技術は、モデル蒸留である。 もう1つの強力だが未使用のテクニックは、層間パラメータ共有である。 本研究では,これら2つの戦略と,完全パラメータ化されたlms(bertなど)の知識をコンパクトな再帰的学生に変換する手法であるminialbertを組み合わせる。 さらに, 学生の層順適応に対するボトルネックアダプタの適用について検討し, コンパクトモデルの微調整におけるアダプタチューニングの有効性について検討した。 提案するモデルについて,生物医学的nlpタスクで検証し,その実現可能性を示し,最新モデルや既存のコンパクトモデルと比較した。 実験で使用されたコードは、https://github.com/nlpie-research/MiniALBERT.comで公開されている。 トレーニング済みのコンパクトモデルは、https://huggingface.co/nlpieからアクセスできます。

Pre-trained Language Models (LMs) have become an integral part of Natural Language Processing (NLP) in recent years, due to their superior performance in downstream applications. In spite of this resounding success, the usability of LMs is constrained by computational and time complexity, along with their increasing size; an issue that has been referred to as `overparameterisation'. Different strategies have been proposed in the literature to alleviate these problems, with the aim to create effective compact models that nearly match the performance of their bloated counterparts with negligible performance losses. One of the most popular techniques in this area of research is model distillation. Another potent but underutilised technique is cross-layer parameter sharing. In this work, we combine these two strategies and present MiniALBERT, a technique for converting the knowledge of fully parameterised LMs (such as BERT) into a compact recursive student. In addition, we investigate the application of bottleneck adapters for layer-wise adaptation of our recursive student, and also explore the efficacy of adapter tuning for fine-tuning of compact models. We test our proposed models on a number of general and biomedical NLP tasks to demonstrate their viability and compare them with the state-of-the-art and other existing compact models. All the codes used in the experiments are available at https://github.com/nlpie-research/MiniALBERT. Our pre-trained compact models can be accessed from https://huggingface.co/nlpie.
翻訳日:2023-05-02 19:30:35 公開日:2023-04-30
# コントラスト学習による多言語表現蒸留

Multilingual Representation Distillation with Contrastive Learning ( http://arxiv.org/abs/2210.05033v2 )

ライセンス: Link先を確認
Weiting Tan, Kevin Heffernan, Holger Schwenk and Philipp Koehn(参考訳) 大規模モデルの多言語文表現は、2つ以上の言語からの意味情報を符号化し、異なる言語間情報検索やマッチングタスクに使用できる。 本稿では,コントラスト学習を多言語表現蒸留と統合し,並列文の品質推定に利用する(すなわち,相互翻訳として使用できる意味的に類似した文を見つける)。 我々は多言語類似性探索とコーパスフィルタリングタスクによるアプローチを検証する。 異なる低リソース言語を対象とした実験により,従来の文エンコーダ(LASER, LASER3, LaBSE)よりも優れていた。

Multilingual sentence representations from large models encode semantic information from two or more languages and can be used for different cross-lingual information retrieval and matching tasks. In this paper, we integrate contrastive learning into multilingual representation distillation and use it for quality estimation of parallel sentences (i.e., find semantically similar sentences that can be used as translations of each other). We validate our approach with multilingual similarity search and corpus filtering tasks. Experiments across different low-resource languages show that our method greatly outperforms previous sentence encoders such as LASER, LASER3, and LaBSE.
翻訳日:2023-05-02 19:29:27 公開日:2023-04-30
# ポアソン方程式に等値制約を組み込んだ点正規化と表面再構成

Point normal orientation and surface reconstruction by incorporating isovalue constraints to Poisson equation ( http://arxiv.org/abs/2209.15619v3 )

ライセンス: Link先を確認
Dong Xiao, Zuoqiang Shi, Siyu Li, Bailin Deng, Bin Wang(参考訳) 配向正規化はポアソン面再構成のような点雲に基づく多くの幾何学的アルゴリズムの一般的な前提条件である。 しかし、一貫した方向を得ることは自明ではない。 本研究では, 暗黙空間における向きと再構成を橋渡しし, ポアソン方程式に等値制約を組み込むことにより, オリエント点雲正規化への新しいアプローチを提案する。 暗黙の表面再構成では、再構成された形状は、周囲空間で定義された暗黙関数の同相曲面として表現される。 したがって、そのような曲面がサンプル点の集合から再構成された場合、点の暗黙関数値は、その表面に対応する等値に近接するべきである。 この観測とポアソン方程式に基づき、等値制約と正規値の局所的一貫性要件を組み合わせた最適化定式化を提案する。 正規関数と暗黙関数を同時に最適化し,グローバルに一貫した向きを求める。 線形システムの空白により、我々の手法は平均的なラップトップ上で妥当な計算時間で動作することができる。 実験により,非一様でノイズの多いデータに対して高い性能を達成し,サンプリング密度,アーティファクト,複数の連結コンポーネント,ネスト面を管理することができた。 ソースコードは \url{https://github.com/Submanifold/IsoConstraints} で入手できる。

Oriented normals are common pre-requisites for many geometric algorithms based on point clouds, such as Poisson surface reconstruction. However, it is not trivial to obtain a consistent orientation. In this work, we bridge orientation and reconstruction in the implicit space and propose a novel approach to orient point cloud normals by incorporating isovalue constraints to the Poisson equation. In implicit surface reconstruction, the reconstructed shape is represented as an isosurface of an implicit function defined in the ambient space. Therefore, when such a surface is reconstructed from a set of sample points, the implicit function values at the points should be close to the isovalue corresponding to the surface. Based on this observation and the Poisson equation, we propose an optimization formulation that combines isovalue constraints with local consistency requirements for normals. We optimize normals and implicit functions simultaneously and solve for a globally consistent orientation. Thanks to the sparsity of the linear system, our method can work on an average laptop with reasonable computational time. Experiments show that our method can achieve high performance in non-uniform and noisy data and manage varying sampling densities, artifacts, multiple connected components, and nested surfaces. The source code is available at \url{https://github.com/Submanifold/IsoConstraints}.
翻訳日:2023-05-02 19:28:37 公開日:2023-04-30
# SAM-RL:微分物理学に基づくモデルに基づく強化学習とレンダリング

SAM-RL: Sensing-Aware Model-Based Reinforcement Learning via Differentiable Physics-Based Simulation and Rendering ( http://arxiv.org/abs/2210.15185v2 )

ライセンス: Link先を確認
Jun Lv, Yunhai Feng, Cheng Zhang, Shuang Zhao, Lin Shao, Cewu Lu(参考訳) モデルベース強化学習(MBRL)は,モデルフリーRLよりも試料効率が高い可能性が認識されている。 特に複雑な環境やタスクにおいて、生の感覚入力(画像など)から正確なモデルを自動かつ効率的に開発する方法は、現実世界におけるMBRLの広範な適用を妨げる難しい問題である。 本研究では,SAM-RLと呼ばれる感性認識モデルに基づく強化学習システムを提案する。 差別化可能な物理シミュレーションとレンダリングを活用することで、SAM-RLはレンダリングされた画像と実際の生画像を比較してモデルを自動的に更新し、ポリシーを効率的に生成する。 センシング・アウェア学習パイプラインにより、sam-rlはロボットがタスクプロセスを監視するための情報的視点を選択することができる。 我々は,ロボット組立,ツール操作,変形可能なオブジェクト操作という3つの操作を実世界の実験に適用する。 SAM-RLの有効性を実験的に検証した。 ビデオは、私たちのプロジェクトwebページhttps://sites.google.com/view/rss-sam-rlで閲覧できます。

Model-based reinforcement learning (MBRL) is recognized with the potential to be significantly more sample-efficient than model-free RL. How an accurate model can be developed automatically and efficiently from raw sensory inputs (such as images), especially for complex environments and tasks, is a challenging problem that hinders the broad application of MBRL in the real world. In this work, we propose a sensing-aware model-based reinforcement learning system called SAM-RL. Leveraging the differentiable physics-based simulation and rendering, SAM-RL automatically updates the model by comparing rendered images with real raw images and produces the policy efficiently. With the sensing-aware learning pipeline, SAM-RL allows a robot to select an informative viewpoint to monitor the task process. We apply our framework to real world experiments for accomplishing three manipulation tasks: robotic assembly, tool manipulation, and deformable object manipulation. We demonstrate the effectiveness of SAM-RL via extensive experiments. Videos are available on our project webpage at https://sites.google.com/view/rss-sam-rl.
翻訳日:2023-05-02 19:21:22 公開日:2023-04-30
# 行動認識システムを用いたスマートホームの乳幼児の身体安全モニタリング

Baby Physical Safety Monitoring in Smart Home Using Action Recognition System ( http://arxiv.org/abs/2210.12527v2 )

ライセンス: Link先を確認
Victor Adewopo, Nelly Elsayed, Kelly Anderson(参考訳) 人間は誘惑的推論を通じて2つの状態の間で行われた行動を直感的に推論することができる。 これは、脳が双方向通信モデルで動作し、従来の経験に関連付けられた特徴に基づいて認識と予測の精度を劇的に改善したためである。 過去10年間で、アクション認識のためのディープラーニングモデルは大幅に改善された。 しかし、ディープニューラルネットワークは、特定のアクション認識(ar)タスクのための小さなデータセットでこれらのタスクに苦労している。 多くのアクション認識タスクと同様に、空間的時間データのアクティビティを正確に記述する曖昧さは、様々な認識タスクを分析するための注意深いアノテーションやビデオデータの前処理を含む適切なデータセットをキュレートすることで克服できる欠点である。 本研究では,移動学習手法をConv2D LSTMレイヤと組み合わせて,より少ないデータセットと少ない計算資源を必要とする新しいARタスク(Smart Baby Care)のために,Kineticsデータセット上の事前学習したI3Dモデルから特徴を抽出する,新しい軽量フレームワークを提案する。 さらに、スマートベビールームにおける赤ちゃんの活動を認識し予測するために、LSTM畳み込みとI3D(ConvLSTM-I3D)を用いたベンチマークデータセットと自動モデルを開発した。 最後に,スマートベビーケアタスクにおけるモデルパフォーマンスを向上させるために,ビデオ拡張を実装した。 他のベンチマークモデルと比較して、我々の実験フレームワークは少ない計算資源でより良い性能を実現した。

Humans are able to intuitively deduce actions that took place between two states in observations via deductive reasoning. This is because the brain operates on a bidirectional communication model, which has radically improved the accuracy of recognition and prediction based on features connected to previous experiences. During the past decade, deep learning models for action recognition have significantly improved. However, deep neural networks struggle with these tasks on a smaller dataset for specific Action Recognition (AR) tasks. As with most action recognition tasks, the ambiguity of accurately describing activities in spatial-temporal data is a drawback that can be overcome by curating suitable datasets, including careful annotations and preprocessing of video data for analyzing various recognition tasks. In this study, we present a novel lightweight framework combining transfer learning techniques with a Conv2D LSTM layer to extract features from the pre-trained I3D model on the Kinetics dataset for a new AR task (Smart Baby Care) that requires a smaller dataset and less computational resources. Furthermore, we developed a benchmark dataset and an automated model that uses LSTM convolution with I3D (ConvLSTM-I3D) for recognizing and predicting baby activities in a smart baby room. Finally, we implemented video augmentation to improve model performance on the smart baby care task. Compared to other benchmark models, our experimental framework achieved better performance with less computational resources.
翻訳日:2023-05-02 19:20:08 公開日:2023-04-30
# 最適高速ハミルトニアン進化からのブロッホ球上のクビット測地学

Qubit Geodesics on the Bloch Sphere from Optimal-Speed Hamiltonian Evolutions ( http://arxiv.org/abs/2210.09142v2 )

ライセンス: Link先を確認
Carlo Cafaro, Paul M. Alsing(参考訳) 量子進化の幾何学において、測地線経路は、統計学的に識別可能な状態の最大数が最小となる2つの純粋な量子状態を結ぶ最小の統計長さの経路と見なされる。 本稿では,単一量子ビット量子状態の量子進化から生じる動的軌道の明示的な測地線解析を提案する。 この進化はエルミート・ハミルトン作用素によって支配され、与えられた初期状態と最終状態の間の最も速いユニタリ進化を達成する。 さらに、光線空間の測地線を最小長の経路として見ることに加えて、単位幾何効率と幾何位相の消滅の観点から経路の測地性を検証する。 最後に、我々の分析に基づいて、混合量子状態におけるオープン量子システムのための量子進化の幾何学へ移行する主なハードルを簡潔に論じる。

In the geometry of quantum evolutions, a geodesic path is viewed as a path of minimal statistical length connecting two pure quantum states along which the maximal number of statistically distinguishable states is minimum. In this paper, we present an explicit geodesic analysis of the dynamical trajectories that emerge from the quantum evolution of a single-qubit quantum state. The evolution is governed by an Hermitian Hamiltonian operator that achieves the fastest possible unitary evolution between given initial and final pure states. Furthermore, in addition to viewing geodesics in ray space as paths of minimal length, we also verify the geodesicity of paths in terms of unit geometric efficiency and vanishing geometric phase. Finally, based on our analysis, we briefly address the main hurdles in moving to the geometry of quantum evolutions for open quantum systems in mixed quantum states.
翻訳日:2023-05-02 19:19:18 公開日:2023-04-30
# オンラインマルチプレイヤーゲームにおける属性推論攻撃 : Dota2を事例として

Attribute Inference Attacks in Online Multiplayer Video Games: a Case Study on Dota2 ( http://arxiv.org/abs/2210.09028v5 )

ライセンス: Link先を確認
Pier Paolo Tricomi, Lisa Facciolo, Giovanni Apruzzese, Mauro Conti(参考訳) dota2プレーヤーの7000万人以上が、ゲーム内データを自由にアクセスできることをご存知ですか? もしそのようなデータが悪意ある方法で使われたら? 本稿は,このような問題を最初に調査する。 ビデオゲームの普及に触発され,Dota2コンテキストにおける属性推論攻撃(AIA)に対する最初の脅威モデルを提案する。 攻撃者がDota2エコシステムの豊富な公開データを利用して、プレイヤーの個人情報を推測する(そしてなぜ)のかを説明する。 AIAの有効性に関する具体的証拠が欠如しているため、実証的に現実への影響を証明し評価する。 26k以上の対戦にまたがる$\sim$500 Dota2プレーヤーの広範な調査を行うことで、プレイヤーのDota2アクティビティと実生活の間に相関が存在するかどうかを検証する。 そして、そのようなリンク(p$ < 0.01 および $\rho$ > 0.3)を見つけた後、倫理的に多様なAIAを行う。 我々は、機械学習の能力を活用して、ゲーム内データを公開することにより、調査の回答者の実際の属性を推測する。 その結果,専門知識を応用すれば,AIAの精度は最大98%,精度は90%以上に達することがわかった。 この論文は、ゲーム界全体に影響を与える可能性のある、微妙だが具体的な脅威に対するアラームを提起する。 我々はdota2の開発者に警告した。

Did you know that over 70 million of Dota2 players have their in-game data freely accessible? What if such data is used in malicious ways? This paper is the first to investigate such a problem. Motivated by the widespread popularity of video games, we propose the first threat model for Attribute Inference Attacks (AIA) in the Dota2 context. We explain how (and why) attackers can exploit the abundant public data in the Dota2 ecosystem to infer private information about its players. Due to lack of concrete evidence on the efficacy of our AIA, we empirically prove and assess their impact in reality. By conducting an extensive survey on $\sim$500 Dota2 players spanning over 26k matches, we verify whether a correlation exists between a player's Dota2 activity and their real-life. Then, after finding such a link ($p$ < 0.01 and $\rho$ > 0.3), we ethically perform diverse AIA. We leverage the capabilities of machine learning to infer real-life attributes of the respondents of our survey by using their publicly available in-game data. Our results show that, by applyingdomain expertise, some AIA can reach up to 98% precision and over 90% accuracy. This paper hence raises the alarm on a subtle, but concrete threat that can potentially affect the entire competitive gaming landscape. We alerted the developers of Dota2.
翻訳日:2023-05-02 19:19:02 公開日:2023-04-30
# 自己回帰モデルとlstmを用いたcovid-19症例の解釈可能なハイブリッド予測モデル

An Interpretable Hybrid Predictive Model of COVID-19 Cases using Autoregressive Model and LSTM ( http://arxiv.org/abs/2211.17014v3 )

ライセンス: Link先を確認
Yangyi Zhang, Sui Tang, and Guo Yu(参考訳) コロナウイルス病2019(COVID-19)は、世界保健と経済に大きな影響を与え、新型コロナウイルス患者のための正確かつ解釈可能なデータ駆動予測モデルを構築し、政策立案を改善することが重要である。 パンデミックの極めて大規模な規模と本質的に変化する伝達特性は、効果的な新型コロナウイルスのケース予測に大きな課題をもたらす。 この課題に対処するために,自己回帰モデル(AR)の解釈可能性と長期記憶ニューラルネットワーク(LSTM)の予測能力が結合する新しいハイブリッドモデルを提案する。 提案したハイブリッドモデルは、2つの構成モデルブロックを接続するアーキテクチャを備えたニューラルネットワークとして形式化され、トレーニング手順において相対寄与がデータ適応的に決定される。 複数の評価指標に基づく2つのデータソースに関する包括的数値研究を通じて,2つのコンポーネントモデルと他の一般的な予測モデルに対するハイブリッドモデルの性能を実証する。 具体的には、カリフォルニア州8郡の郡レベルのデータでは、我々のハイブリッドモデルは平均4.173%のMAPEを達成し、AR(5.629%)とLSTM(4.934%)を上回ります。 国レベルのデータセットでは、私たちのハイブリッドモデルは、世界中の8カ国で新型コロナウイルス(COVID-19)のケースを予測する上で、広く使用されている予測モデル(AR、LSTM、SVM、Gradient Boosting、Random Forest)よりも優れています。 さらに、新型コロナウイルスの患者に対して、ほとんどのブラックボックス予測モデルでは共有されない重要な特徴であるハイブリッドモデルの解釈可能性について説明する。 我々の研究は、効果的で解釈可能なデータ駆動モデルを構築するための、新しい、そして有望な方向性を提供し、これは、公衆衛生政策の作成と、現在および将来のパンデミックの制御に重大な影響を及ぼす可能性がある。

The Coronavirus Disease 2019 (COVID-19) has a profound impact on global health and economy, making it crucial to build accurate and interpretable data-driven predictive models for COVID-19 cases to improve policy making. The extremely large scale of the pandemic and the intrinsically changing transmission characteristics pose great challenges for effective COVID-19 case prediction. To address this challenge, we propose a novel hybrid model in which the interpretability of the Autoregressive model (AR) and the predictive power of the long short-term memory neural networks (LSTM) join forces. The proposed hybrid model is formalized as a neural network with an architecture that connects two composing model blocks, of which the relative contribution is decided data-adaptively in the training procedure. We demonstrate the favorable performance of the hybrid model over its two component models as well as other popular predictive models through comprehensive numerical studies on two data sources under multiple evaluation metrics. Specifically, in county-level data of 8 California counties, our hybrid model achieves 4.173% MAPE on average, outperforming the composing AR (5.629%) and LSTM (4.934%). In country-level datasets, our hybrid model outperforms the widely-used predictive models - AR, LSTM, SVM, Gradient Boosting, and Random Forest - in predicting COVID-19 cases in 8 countries around the world. In addition, we illustrate the interpretability of our proposed hybrid model, a key feature not shared by most black-box predictive models for COVID-19 cases. Our study provides a new and promising direction for building effective and interpretable data-driven models, which could have significant implications for public health policy making and control of the current and potential future pandemics.
翻訳日:2023-05-02 19:13:34 公開日:2023-04-30
# アハルノフ-ボーム型効果によって捕捉された粒子の量子情報エントロピー

Quantum information entropy of a particle trapped by the Aharonov-Bohm-type effect ( http://arxiv.org/abs/2212.09208v3 )

ライセンス: Link先を確認
F. C. E. Lima, A. R. P. Moreira, C. A. S. Almeida, C. O. Edet, N. Ali(参考訳) 本稿では、シャノンの公式を用いて、アハロノフ・ボーム型効果によって捕捉された粒子の量子情報エントロピーを研究する。 量子情報研究には、量子系の固有状態、すなわち量子系の固有状態を調べる必要がある。 e. 量子状態の波動関数とエネルギー。 転位欠陥によるAharonov-Bohm型効果の存在下で, 粒子は筒状の箱に閉じ込められていると仮定した。 量子情報エントロピーの解析により、転位が固有状態や量子情報に影響を与えることが明らかとなった。

In this research article, we use the Shannon's formalism to investigate the quantum information entropy of a particle trapped by the Aharonov-Bohm-type effect. For quantum information study, it is necessary to investigate the eigenstates of the quantum system, i. e., the wave functions and energies of the quantum states. We assumed that the particle is in principle, confined in a cylindrical box in the presence of an Aharonov-Bohm-type effect due to dislocation defect. Analysis of the quantum information entropy, reveals that the dislocation influences the eigenstates and, consequently, the quantum information of the system.
翻訳日:2023-05-02 19:01:35 公開日:2023-04-30
# Mask-FPAN:非閉塞とUV GANで野生の半監督された顔解析

Mask-FPAN: Semi-Supervised Face Parsing in the Wild With De-Occlusion and UV GAN ( http://arxiv.org/abs/2212.09098v3 )

ライセンス: Link先を確認
Lei Li, Tianfang Zhang, Zhongfeng Kang, Xikun Jiang(参考訳) 近年,顔部分や頭部成分を含む顔と頭部の微細なセマンティックセグメンテーションが進んでいる。 しかし、あいまいなオクルージョンや大きなポーズのバリエーションを考慮することは特に難しい課題である。 これらの課題を克服するため,我々はMask-FPANと呼ばれる新しいフレームワークを提案する。 隠蔽モジュールを使って、隠蔽された顔を半教師付きの方法で解析する。 特に、顔のランドマークの定位、顔のオクルージョンの定位、検出された頭部のポーズを考慮に入れる。 UV GANと組み合わせた3次元顔モデルにより、2次元顔解析の堅牢性が向上する。 さらに、顔解析作業用にFaceOccMask-HQとCelebAMaskOcc-HQという2つの新しいデータセットを導入しました。 提案したMask-FPANフレームワークは、顔解析の問題に対処し、挑戦的な顔データセットに関する最先端技術と比較して、MIOUを0.7353から0.9013に改善した。

Fine-grained semantic segmentation of a person's face and head, including facial parts and head components, has progressed a great deal in recent years. However, it remains a challenging task, whereby considering ambiguous occlusions and large pose variations are particularly difficult. To overcome these difficulties, we propose a novel framework termed Mask-FPAN. It uses a de-occlusion module that learns to parse occluded faces in a semi-supervised way. In particular, face landmark localization, face occlusionstimations, and detected head poses are taken into account. A 3D morphable face model combined with the UV GAN improves the robustness of 2D face parsing. In addition, we introduce two new datasets named FaceOccMask-HQ and CelebAMaskOcc-HQ for face paring work. The proposed Mask-FPAN framework addresses the face parsing problem in the wild and shows significant performance improvements with MIOU from 0.7353 to 0.9013 compared to the state-of-the-art on challenging face datasets.
翻訳日:2023-05-02 19:01:24 公開日:2023-04-30
# リウビリアンフラットバンドの動的シグナチャ

Dynamical Signatures of Liouvillian Flat Band ( http://arxiv.org/abs/2301.05378v2 )

ライセンス: Link先を確認
Yu-Guo Liu, Shu Chen(参考訳) フラットバンド構造は、その固有状態が大きな縮退を示し、波のパケットの局在化を可能にするため、凝縮物や光学物理学において集中的に研究されているが、リウビリアンのフラットバンドが開量子系の緩和ダイナミクスにどのように影響するかは明らかではない。 この目的のために、リンドブラドマスター方程式のスキームにおいて、リウビリアンフラットバンドの動的シグネチャを研究する。 Considering a chain model with gain and loss, we demonstrate three kinds of band dispersion of Liouvillian: flat bland, dispersionless only in the real part and imaginary part, and capture their dynamical signatures: when the rapidity spectrum of Liouvillian is flat, the particle numbers in different sites relax to its steady state value with the same decay rate; when the real or imaginary part of rapidity spectrum is dispersionless, the relaxation behaviors have oscillating or forked characteristics. また,リウビリアン平坦帯は定常状態における局所摂動の伝播停止を特徴とする動的局在化を導くことができることを明らかにした。

Although flat-band structures have attracted intensive studies in condensed matter and optical physics due to their eigenstates exhibiting huge degeneracy and allowing for the localization of wave packet, it is not clear how the flat band of Liouvillian influences the relaxation dynamics of open quantum systems. To this end, we study the dynamical signatures of Liouvillian flat band in the scheme of Lindblad master equation. Considering a chain model with gain and loss, we demonstrate three kinds of band dispersion of Liouvillian: flat bland, dispersionless only in the real part and imaginary part, and capture their dynamical signatures: when the rapidity spectrum of Liouvillian is flat, the particle numbers in different sites relax to its steady state value with the same decay rate; when the real or imaginary part of rapidity spectrum is dispersionless, the relaxation behaviors have oscillating or forked characteristics. We also unveil that the Liouvillian flat band can lead to dynamical localization, which is characterized by the halt of propagation of a local perturbation on the steady state.
翻訳日:2023-05-02 18:53:52 公開日:2023-04-30
# ニューラル・ラミアンス・フィールド・コードブック

Neural Radiance Field Codebooks ( http://arxiv.org/abs/2301.04101v2 )

ライセンス: Link先を確認
Matthew Wallingford, Aditya Kusupati, Alex Fang, Vivek Ramanujan, Aniruddha Kembhavi, Roozbeh Mottaghi, Ali Farhadi(参考訳) 世界の構成表現は、高レベルのシーン理解と下流タスクへの効率的な転送を可能にするための有望なステップである。 このような複雑なシーンやタスクの表現を学ぶことは、まだ未解決の課題です。 この目的に向けて、新しいビュー再構成を通してオブジェクト中心表現を学習するスケーラブルな方法であるNeural Radiance Field Codebooks (NRC)を導入する。 nrcはボリュームレンダラを通じてデコードされるオブジェクトコードの辞書を使用して、新しいビューからシーンを再構築することを学ぶ。 これにより、下流タスクに転送可能なシーン間で、視覚的および幾何学的パターンの再帰を発見できる。 NRC表現は、THORのオブジェクトナビゲーションによく対応し、2Dおよび3D表現学習法を3.1%の成功率で上回ることを示す。 我々は,従来の手法(29%の相対的改善)よりも複雑な合成(thor)と実シーン(nyu深度)に対して教師なしセグメンテーションを実行できることを示す。 最後に, NRC は THOR において5.5% の精度で深度順序付け作業を改善することを示す。

Compositional representations of the world are a promising step towards enabling high-level scene understanding and efficient transfer to downstream tasks. Learning such representations for complex scenes and tasks remains an open challenge. Towards this goal, we introduce Neural Radiance Field Codebooks (NRC), a scalable method for learning object-centric representations through novel view reconstruction. NRC learns to reconstruct scenes from novel views using a dictionary of object codes which are decoded through a volumetric renderer. This enables the discovery of reoccurring visual and geometric patterns across scenes which are transferable to downstream tasks. We show that NRC representations transfer well to object navigation in THOR, outperforming 2D and 3D representation learning methods by 3.1% success rate. We demonstrate that our approach is able to perform unsupervised segmentation for more complex synthetic (THOR) and real scenes (NYU Depth) better than prior methods (29% relative improvement). Finally, we show that NRC improves on the task of depth ordering by 5.5% accuracy in THOR.
翻訳日:2023-05-02 18:53:35 公開日:2023-04-30
# 医療における知識誘導型データ中心ai:進歩、欠点、今後の方向性

Knowledge-Guided Data-Centric AI in Healthcare: Progress, Shortcomings, and Future Directions ( http://arxiv.org/abs/2212.13591v2 )

ライセンス: Link先を確認
Edward Y. Chang(参考訳) ディープラーニングの成功は、主に、特定の概念や意味の幅広い例をカバーする大量のトレーニングデータが利用可能であることに起因する。 医学の分野では、特定の疾患に関する多様なトレーニングデータを持つことで、疾患を正確に予測できるモデルの開発につながる可能性がある。 しかし, 画像診断には高品質な注釈データがないため, 有意な進歩は見られなかった。 この記事では、データ表現の品質を改善するためにデータ中心のアプローチを使うことの重要性を強調します。 この「小規模データ」問題に対処するために、データ拡張、転送学習、フェデレーション学習、gans(generative adversarial networks)という4つのトレーニングデータの生成と集約について論じる。 また,学習データ生成プロセスにドメイン知識を組み込むための知識誘導型GANを提案する。 近年の大規模事前学習言語モデルの進歩により,知識誘導型生成手法の有効性向上に資する高品質な知識の獲得が可能と考えられる。

The success of deep learning is largely due to the availability of large amounts of training data that cover a wide range of examples of a particular concept or meaning. In the field of medicine, having a diverse set of training data on a particular disease can lead to the development of a model that is able to accurately predict the disease. However, despite the potential benefits, there have not been significant advances in image-based diagnosis due to a lack of high-quality annotated data. This article highlights the importance of using a data-centric approach to improve the quality of data representations, particularly in cases where the available data is limited. To address this "small-data" issue, we discuss four methods for generating and aggregating training data: data augmentation, transfer learning, federated learning, and GANs (generative adversarial networks). We also propose the use of knowledge-guided GANs to incorporate domain knowledge in the training data generation process. With the recent progress in large pre-trained language models, we believe it is possible to acquire high-quality knowledge that can be used to improve the effectiveness of knowledge-guided generative methods.
翻訳日:2023-05-02 18:51:37 公開日:2023-04-30
# フェルミオン量子近似最適化アルゴリズム

Fermionic Quantum Approximate Optimization Algorithm ( http://arxiv.org/abs/2301.10756v3 )

ライセンス: Link先を確認
Takuya Yoshioka, Keita Sasada, Yuichiro Nakano, and Keisuke Fujii(参考訳) 量子コンピュータは、グロバー適応探索や量子近似最適化アルゴリズム(QAOA)などのアルゴリズムを含む組合せ最適化問題を解くことを期待されている。 しかし、多くの組合せ最適化問題には、コスト関数にソフト制約として課される場合、最適化アルゴリズムの性能に悪影響を及ぼす制約が伴う。 本稿では,制約付き組合せ最適化問題を解くためのフェルミオン量子近似最適化アルゴリズム(fqaoa)を提案する。 特に、FQAOAは、フェルミオン粒子数保存を用いて、QAOA全体を通して本質的にそれらを強制する制約に対処する。 制約のある問題ハミルトニアンに対してドライバハミルトニアンを設計するための体系的なガイドラインを提供する。 初期状態は、ドライバーハミルトニアンの制約と基底状態を満たす状態の重ね合わせとして選択することができる。 この性質は、fqaoaが回路深度pの限界で量子断熱計算に還元され、トロッタ化量子断熱進化によって決定される固定角からパラメータを最適化した浅い回路でも性能が向上するため重要である。 本稿では,FQAOAがポートフォリオ最適化問題における既存手法に対して大きな性能上の優位性をもたらすことを示す。 さらに、ハミルトニアン設計ガイドラインはqaoaだけでなくグローバー適応探索や量子位相推定にも有用であり、制約付き組合せ最適化問題を解く。 フェミオン系のためのソフトウェアツールは、ノイズの多い中間量子コンピュータとフォールトトレラント量子コンピュータの両方で量子計算化学において開発されたため、FQAOAはこれらのツールを制約付き組合せ最適化問題に適用することができる。

Quantum computers are expected to accelerate solving combinatorial optimization problems, including algorithms such as Grover adaptive search and quantum approximate optimization algorithm (QAOA). However, many combinatorial optimization problems involve constraints which, when imposed as soft constraints in the cost function, can negatively impact the performance of the optimization algorithm. In this paper, we propose fermionic quantum approximate optimization algorithm (FQAOA) for solving combinatorial optimization problems with constraints. Specifically FQAOA tackle the constrains issue by using fermion particle number preservation to intrinsically impose them throughout QAOA. We provide a systematic guideline for designing the driver Hamiltonian for a given problem Hamiltonian with constraints. The initial state can be chosen to be a superposition of states satisfying the constraint and the ground state of the driver Hamiltonian. This property is important since FQAOA reduced to quantum adiabatic computation in the large limit of circuit depth p and improved performance, even for shallow circuits with optimizing the parameters starting from the fixed-angle determined by Trotterized quantum adiabatic evolution. We perform an extensive numerical simulation and demonstrates that proposed FQAOA provides substantial performance advantage against existing approaches in portfolio optimization problems. Furthermore, the Hamiltonian design guideline is useful not only for QAOA, but also Grover adaptive search and quantum phase estimation to solve combinatorial optimization problems with constraints. Since software tools for fermionic systems have been developed in quantum computational chemistry both for noisy intermediate-scale quantum computers and fault-tolerant quantum computers, FQAOA allows us to apply these tools for constrained combinatorial optimization problems.
翻訳日:2023-05-02 18:43:00 公開日:2023-04-30
# 画像キャプションのための視覚意味関連データセット

Visual Semantic Relatedness Dataset for Image Captioning ( http://arxiv.org/abs/2301.08784v2 )

ライセンス: Link先を確認
Ahmed Sabir, Francesc Moreno-Noguer, Llu\'is Padr\'o(参考訳) 現代の画像キャプションシステムは、静的ストーリーの概念を捉えるために画像から知識を抽出することに大きく依存している。 本稿では,画像中のオブジェクトなどのシーンに関する情報とともに,一般公開されているCOCOキャプション(Lin et al., 2014)を拡張したキャプションのためのテキストビジュアルコンテキストデータセットを提案する。 この情報にはテキスト形式があるため、テキスト類似性や意味関係法といったあらゆるnlpタスクを、エンドツーエンドのトレーニング戦略や後処理ベースのアプローチとしてキャプションシステムに活用することができる。

Modern image captioning system relies heavily on extracting knowledge from images to capture the concept of a static story. In this paper, we propose a textual visual context dataset for captioning, in which the publicly available dataset COCO Captions (Lin et al., 2014) has been extended with information about the scene (such as objects in the image). Since this information has a textual form, it can be used to leverage any NLP task, such as text similarity or semantic relation methods, into captioning systems, either as an end-to-end training strategy or a post-processing based approach.
翻訳日:2023-05-02 18:42:16 公開日:2023-04-30
# 画像データを用いたポイントクラウドセグメンテーションネットワークの自己監督事前学習のためのコントラスト学習

Contrastive Learning for Self-Supervised Pre-Training of Point Cloud Segmentation Networks With Image Data ( http://arxiv.org/abs/2301.07283v2 )

ライセンス: Link先を確認
Andrej Janda, Brandon Wagstaff, Edwin G. Ng, and Jonathan Kelly(参考訳) ラベルが不足しコストがかかる場合、教師付きトレーニングに必要なアノテーションの量を減らすことが不可欠です。 この削減は、3Dデータセットを含むセマンティックセグメンテーションタスクにおいて特に重要である。 ラベルのないデータに対する自己教師付き事前トレーニングは、手動アノテーションの量を減らす方法のひとつだ。 以前の作業では、ポイントクラウドのみによる事前トレーニングに重点を置いていた。 便利ではあるが、このアプローチは2つ以上の登録ビューを必要とすることが多い。 本研究では,まず自己教師付き画像特徴を学習し,その特徴を用いて3次元モデルを訓練することで,画像とポイントクラウドのモダリティを組み合わせる。 多くの3dデータセットにしばしば含まれる画像データを組み込むことで、事前学習方法はシーンのスキャンを1回だけ必要とし、ローカライズ情報が利用できない場合に適用できる。 当社の事前トレーニングアプローチは、単一のスキャンを使用しても、他のマルチスキャン、ポイントクラウドのみの方法と同等のパフォーマンスを実現しています。

Reducing the quantity of annotations required for supervised training is vital when labels are scarce and costly. This reduction is particularly important for semantic segmentation tasks involving 3D datasets, which are often significantly smaller and more challenging to annotate than their image-based counterparts. Self-supervised pre-training on unlabelled data is one way to reduce the amount of manual annotations needed. Previous work has focused on pre-training with point clouds exclusively. While useful, this approach often requires two or more registered views. In the present work, we combine image and point cloud modalities by first learning self-supervised image features and then using these features to train a 3D model. By incorporating image data, which is often included in many 3D datasets, our pre-training method only requires a single scan of a scene and can be applied to cases where localization information is unavailable. We demonstrate that our pre-training approach, despite using single scans, achieves comparable performance to other multi-scan, point cloud-only methods.
翻訳日:2023-05-02 18:41:46 公開日:2023-04-30
# DRIMET: タグ付きMRIにおける3次元非圧縮性運動推定のための深い登録と舌への応用

DRIMET: Deep Registration for 3D Incompressible Motion Estimation in Tagged-MRI with Application to the Tongue ( http://arxiv.org/abs/2301.07234v3 )

ライセンス: Link先を確認
Zhangxing Bian, Fangxu Xing, Jinglun Yu, Muhan Shao, Yihao Liu, Aaron Carass, Jiachen Zhuo, Jonghye Woo, Jerry L. Prince(参考訳) Tagged magnetic resonance imaging~(MRI)は、変形組織の詳細な動きを観察し定量化するために何十年も使われてきた。 しかし, この手法は, タグフェーディングや大きな動き, 長時間の計算時間, 微分同相非圧縮性流れ場獲得の困難といった課題に直面している。 そこで本稿では,タグ付きmriのための教師なし位相に基づく3次元運動推定手法を提案する。 2つの重要なイノベーションを紹介します まず、調和位相入力に正弦波変換を適用し、エンドツーエンドのトレーニングを可能にし、位相補間の必要性を回避する。 第二に, 生体組織を変形させるための非圧縮性流れ場を促すジャコビアン決定式に基づく学習目標を提案する。 本手法は, 高精度で密度が高く, ほぼ微分可能で非圧縮な3次元運動場を効率的に推定する。 この方法の有効性は、発話中の人間の舌の動きを用いて評価され、正常なコントロールと舌郭清を行った患者の両方を含む。 提案手法は既存の手法よりも優れており,また,タグフェージングに対する速度,頑健性,舌の動きが向上していることを示す。 https://github.com/jasonbian97/DRIMET-tagged-MRI

Tagged magnetic resonance imaging~(MRI) has been used for decades to observe and quantify the detailed motion of deforming tissue. However, this technique faces several challenges such as tag fading, large motion, long computation times, and difficulties in obtaining diffeomorphic incompressible flow fields. To address these issues, this paper presents a novel unsupervised phase-based 3D motion estimation technique for tagged MRI. We introduce two key innovations. First, we apply a sinusoidal transformation to the harmonic phase input, which enables end-to-end training and avoids the need for phase interpolation. Second, we propose a Jacobian determinant-based learning objective to encourage incompressible flow fields for deforming biological tissues. Our method efficiently estimates 3D motion fields that are accurate, dense, and approximately diffeomorphic and incompressible. The efficacy of the method is assessed using human tongue motion during speech, and includes both healthy controls and patients that have undergone glossectomy. We show that the method outperforms existing approaches, and also exhibits improvements in speed, robustness to tag fading, and large tongue motion. The code is available: https://github.com/jasonbian97/DRIMET-tagged-MRI
翻訳日:2023-05-02 18:41:28 公開日:2023-04-30
# 球面アートを用いた球面高調波の高速評価

Fast evaluation of spherical harmonics with sphericart ( http://arxiv.org/abs/2302.08381v2 )

ライセンス: Link先を確認
Filippo Bigi, Guillaume Fraux, Nicholas J. Browning, Michele Ceriotti(参考訳) 球面調和は球面上の関数を拡張するために滑らかで直交的で対称性に適応した基底を提供し、物理化学や理論化学、地質学や大気科学から信号処理、コンピュータグラフィックスまで様々な分野の科学や技術で日常的に使われている。 最近では、分子や物質の原子スケールモデリングなどを含む幾何学的機械学習における回転同変モデルの重要コンポーネントとなっている。 実数値球面調和性評価のためのエレガントで効率的なアルゴリズムを提案する。 我々の構成は既存のスキームの望ましい性質の多くを特徴とし、数値的に安定かつ計算効率の良い方法でカルテ微分を計算することができる。 使用を容易にするために,我々は,CバインディングやPython API,GPUカーネルを含むPyTorch実装も提供する高速C++ライブラリであるsphericartでこのアルゴリズムを実装した。

Spherical harmonics provide a smooth, orthogonal, and symmetry-adapted basis to expand functions on a sphere, and they are used routinely in physical and theoretical chemistry as well as in different fields of science and technology, from geology and atmospheric sciences to signal processing and computer graphics. More recently, they have become a key component of rotationally equivariant models in geometric machine learning, including applications to atomic-scale modeling of molecules and materials. We present an elegant and efficient algorithm for the evaluation of the real-valued spherical harmonics. Our construction features many of the desirable properties of existing schemes and allows to compute Cartesian derivatives in a numerically stable and computationally efficient manner. To facilitate usage, we implement this algorithm in sphericart, a fast C++ library which also provides C bindings, a Python API, and a PyTorch implementation that includes a GPU kernel.
翻訳日:2023-05-02 18:34:49 公開日:2023-04-30
# 局所的非ヘルミティシティによるスケールフリー局在状態の蓄積

Accumulation of scale-free localized states induced by local non-Hermiticity ( http://arxiv.org/abs/2302.02798v3 )

ライセンス: Link先を確認
Cui-Xian Guo, Xueliang Wang, Haiping Hu, Shu Chen(参考訳) エルミート系のバルク状態は、いくつかの不純物誘起境界状態を除いては、局所エルミート不純物や摂動に影響を受けないと考えられている。 したがって、‘textit{local} non-Hermiticity’が元のエルミート系に劇的な変化をもたらすかどうかを問うことが重要である。 ここでは、この問題を肯定的に解決し、パリティ時間(\mathcal{PT}$)対称性を持つ局所非エルミート項を持つ二重鎖モデルの正確な解を示す。 非ハーモニティ性によって誘導され、システムは$\mathcal{PT}$-対称性の破れのシーケンスを実行し、その後、アイジネギーは複素共役対に現れる。 関連する拡張バルク状態はスケールフリーの局所化となり、不純物の周りに一方向的に蓄積される。 すべての固有状態の完全なスケールフリーなローカライズまで、残りの拡張状態を切り離す移動性エッジが存在する。 さらに非エルミート性が高まると、システムは複素境界状態のペアを除いて完全に実なスペクトルを持つ$\mathcal{pt}$-restorationレジームとなる。 局所的非ヘルミティシティが生成するスケールフリー局在は一般的な現象であり,準周期性障害を生き残ることさえ可能である。 その結果、元のエルミート系のバルク特性は局所的非エルミート性によってグローバルに再構成できることがわかった。

The bulk states of Hermitian systems are believed insensitive to local Hermitian impurities or perturbations except for a few impurity-induced bound states. Thus, it is important to ask whether \textit{local} non-Hermiticity can cause drastic changes to the original Hermitian systems. Here we address this issue affirmatively and present exact solutions for the double chain model with local non-Hermitian terms possessing parity-time ($\mathcal{PT}$) symmetry. Induced by the non-Hermiticity, the system undergoes a sequence of $\mathcal{PT}$-symmetry breakings, after which the eigenenergies appear in complex conjugate pairs. The associated extended bulk states then become scale-free localized and unidirectionally accumulated around the impurity. There exist mobility edges separating the residual extended states until a full scale-free localization of all eigenstates. Further increasing the non-Hermitity counter-intuitively brings the system to a $\mathcal{PT}$-restoration regime with fully real spectra except for a pair of complex bound states. We demonstrate that the local non-Hermiticity generated scale-free localization is a general phenomenon and can even survive the quasiperiodic disorder. Our results indicate that the bulk properties of the original Hermitian system can be globally reshaped by local non-Hermiticity.
翻訳日:2023-05-02 18:33:10 公開日:2023-04-30
# 超伝導薄膜とエピタキシャル半導体ヘテロ構造とニオブ酸リチウムとの異種集積

Heterogeneous integration of superconducting thin films and epitaxial semiconductor heterostructures with Lithium Niobate ( http://arxiv.org/abs/2302.02712v2 )

ライセンス: Link先を確認
Michelle Lienhart, Michael Choquer, Emeline D. S. Nysten, Matthias Wei{\ss}, Kai M\"uller, Jonathan J. Finley, Galan Moody, Hubert J. Krenner(参考訳) 強圧電および光学非線形ニオブ酸リチウム上での超伝導電極およびエピタキシャル半導体量子ドットのスケーラブルなヘテロ積分について報告する。 実装プロセスは、スパッタ蒸着した薄膜超伝導体窒化ニオブとIII-V化合物半導体膜をホスト基板上に結合する。 内部品質因子が$Q \approx 17000$の弾性表面波共振器用ゼロ抵抗電極材料として、通常の導電性電極と同一の装置と比較して3倍の強化を示す超伝導薄膜を用いる。 400\,\mathrm{mhz}$共振器の超伝導動作は、温度$t>7\,\mathrm{k}$と電気周波数パワー$p_{\mathrm{rf}}>+9\,\mathrm{dbm}$で達成される。 不均一に統合された単一量子ドットは超伝導系で作動する表面波共振器の共振音場に結合する。 時間積分および時間分解光学分光法を用いて、変形電位結合を媒介とする位置および周波数選択結合を検証する。 さらに、共振器内部の大きな圧電場を利用する改良装置形状において、共振器電荷状態制御を実現する。 ハイブリッド量子ドット-表面音響波共振器は、量子ドットを介して光子とフォノンの間の量子位相変調および転送のために、より高い動作周波数とより小さなモードボリュームにスケールすることができる。 最後に、採用されている材料は超伝導単光子検出器や集積フォトニック・フォノン回路を含む他の種類の光電子デバイスの実現を可能にする。

We report on scalable heterointegration of superconducting electrodes and epitaxial semiconductor quantum dots on strong piezoelectric and optically nonlinear lithium niobate. The implemented processes combine the sputter-deposited thin film superconductor niobium nitride and III-V compound semiconductor membranes onto the host substrate. The superconducting thin film is employed as a zero-resistivity electrode material for a surface acoustic wave resonator with internal quality factors $Q \approx 17000$ representing a three-fold enhancement compared to identical devices with normal conducting electrodes. Superconducting operation of $\approx 400\,\mathrm{MHz}$ resonators is achieved to temperatures $T>7\,\mathrm{K}$ and electrical radio frequency powers $P_{\mathrm{rf}}>+9\,\mathrm{dBm}$. Heterogeneously integrated single quantum dots couple to the resonant phononic field of the surface acoustic wave resonator operated in the superconducting regime. Position and frequency selective coupling mediated by deformation potential coupling is validated using time-integrated and time-resolved optical spectroscopy. Furthermore, acoustoelectric charge state control is achieved in a modified device geometry harnessing large piezoelectric fields inside the resonator. The hybrid quantum dot - surface acoustic wave resonator can be scaled to higher operation frequencies and smaller mode volumes for quantum phase modulation and transduction between photons and phonons via the quantum dot. Finally, the employed materials allow for the realization of other types of optoelectronic devices, including superconducting single photon detectors and integrated photonic and phononic circuits.
翻訳日:2023-05-02 18:32:45 公開日:2023-04-30
# IPCC-TP: 複合マルチエージェント軌道予測のためのインクリメンタルピアソン相関係数の利用

IPCC-TP: Utilizing Incremental Pearson Correlation Coefficient for Joint Multi-Agent Trajectory Prediction ( http://arxiv.org/abs/2303.00575v4 )

ライセンス: Link先を確認
Dekai Zhu, Guangyao Zhai, Yan Di, Fabian Manhardt, Hendrik Berkemeyer, Tuan Tran, Nassir Navab, Federico Tombari, Benjamin Busam(参考訳) 信頼性の高いマルチエージェント軌道予測は、自律システムの安全な計画と制御に不可欠である。 単一エージェントの場合と比較して、複数のエージェントを同時に処理する際の大きな課題は、様々な運転意図や道路条件によって引き起こされる複雑な社会的相互作用をモデル化することにある。 従来の手法は通常、グラフベースのメッセージ伝達や注意機構を利用して、そのような相互作用を限界確率分布の形式にカプセル化する。 しかし、本質的には準最適である。 本稿では,ipcc-tpを提案する。ipcc-tpは多エージェントインタラクションモデリングを改善するために,増分ピアソン相関係数に基づく新しい関連性認識モジュールである。 ipcc-tpは、対話的な漸進的な動きに応じて手段と共分散の密結合推定を通じてペアワイズジョイント・ガウス分布を学習する。 本モジュールは,既存のマルチエージェント予測手法に組み込むことで,元の動作分布デコーダを拡張することができる。 nuScenesとArgoverse 2データセットに関する大規模な実験は、IPCC-TPがベースラインのパフォーマンスを大きなマージンで改善することを示した。

Reliable multi-agent trajectory prediction is crucial for the safe planning and control of autonomous systems. Compared with single-agent cases, the major challenge in simultaneously processing multiple agents lies in modeling complex social interactions caused by various driving intentions and road conditions. Previous methods typically leverage graph-based message propagation or attention mechanism to encapsulate such interactions in the format of marginal probabilistic distributions. However, it is inherently sub-optimal. In this paper, we propose IPCC-TP, a novel relevance-aware module based on Incremental Pearson Correlation Coefficient to improve multi-agent interaction modeling. IPCC-TP learns pairwise joint Gaussian Distributions through the tightly-coupled estimation of the means and covariances according to interactive incremental movements. Our module can be conveniently embedded into existing multi-agent prediction methods to extend original motion distribution decoders. Extensive experiments on nuScenes and Argoverse 2 datasets demonstrate that IPCC-TP improves the performance of baselines by a large margin.
翻訳日:2023-05-02 18:25:43 公開日:2023-04-30
# クラスタリング技術を用いたフレキシブルエネルギーコミュニティの目標需要応答

Targeted demand response for flexible energy communities using clustering techniques ( http://arxiv.org/abs/2303.00186v2 )

ライセンス: Link先を確認
Sotiris Pelekis, Angelos Pipergias, Evangelos Karakolis, Spiros Mouzakitis, Francesca Santori, Mohammad Ghoreishi, Dimitris Askounis(参考訳) 本研究では,商業用および住宅用需要応答(DR)プログラムの設計と実装におけるクラスタリング手法の利用について検討する。 このプログラムの目的は、イタリアの分散型エネルギーコミュニティに関連する消費者の消費行動を変更することである。 この集約の目的は: イ ローカルグリッドの太陽電池パネルからの発電が消費を超過した場合に発生する一次変電所の逆流を最小化すること。 b) システムの幅広いピーク需要を剃り、通常は午後遅くの時間に発生する。 電気的負荷クラスタリングのための3つの一般的な機械学習アルゴリズム(k-means、k-medoids、agglomerative hierarchical clustering)が、2つの異なる距離尺度(euclidean、constricted dynamic time warping (dtw))と共に採用されている。 本研究では,本研究の文脈で提案する新しい評価指標であるPPS(Palmly peak Performance score)を含む複数の評価指標を用いて評価を行う。 最適なモデルは、毎日のプロシューマーの負荷プロファイルをクラスタに分割し、各クラスタは、負荷形状、平均エントロピー、負荷タイプの分布の観点から分析される。 これらの特徴は、使用時間(tou)、臨界ピーク価格(cpp)、リアルタイム価格(rtp)などの適切なdrスキームに適合することにより、最適化目標に適合する可能性のあるクラスタを識別するために使用される。 本研究は, フレキシブルエネルギーコミュニティ内のプロシューマーグループを対象としたDRプログラムの開発を目的とした, ネットワークオペレータ, ユーティリティ, アグリゲータに有用である。

The present study explores the use of clustering techniques for the design and implementation of a demand response (DR) program for commercial and residential prosumers. The goal of the program is to alter the consumption behavior of the prosumers pertaining to a distributed energy community in Italy. This aggregation aims to: a) minimize the reverse power flow at the primary substation, that occurs when generation from solar panels in the local grid exceeds consumption, and b) shave the system wide peak demand, that typically occurs during the hours of late afternoon. Regarding the clustering stage, three popular machine learning algorithms for electrical load clustering are employed -namely k-means, k-medoids and an agglomerative hierarchical clustering- alongside two different distance measures -namely euclidean and constrained dynamic time warping (DTW). We evaluate the methods using multiple validation metrics including a novel metric -namely peak performance score (PPS)- that we propose in the context of this study. The best model is employed to divide daily prosumer load profiles into clusters and each cluster is analyzed in terms of load shape, mean entropy, and load type distribution. These characteristics are then used to distinguish the clusters that have the potential to serve the optimization objectives by matching them to appropriate DR schemes including time of use (TOU), critical peak pricing (CPP), and real-time pricing (RTP). The results of this study can be useful for network operators, utilities, and aggregators that aim to develop targeted DR programs for groups of prosumers within flexible energy communities.
翻訳日:2023-05-02 18:25:26 公開日:2023-04-30
# 可解な非エルミート皮膚効果と実空間例外点:非エルミート一般化ブロッホ定理

Solvable non-Hermitian skin effects and real-space exceptional points: Non-Hermitian generalized Bloch theorem ( http://arxiv.org/abs/2302.13309v3 )

ライセンス: Link先を確認
Xintong Zhang, Xiaoxiao Song, Shubo Zhang, Tengfei Zhang, Yuanjie Liao, Xinyi Cai, Jing Li(参考訳) 非エルミート系は非エルミート皮膚効果として知られる異常な境界挙動を示し、すべての固有状態は格子モデルの片側に指数関数的に局在する。 非エルミート皮膚効果の完全な理解と制御を行うため、我々は非エルミート一般化ブロッホ定理を開発し、開境界条件により翻訳対称性が破られるすべての可解固有値と固有状態の解析式を提供する。 任意の次数を持つ任意の多項式方程式に対してビエタの定理を導入することで、我々のアプローチは1次元の非エルミート強結合モデルに広く適用できる。 非エルミート一般化ブロッホ定理により、数学的に厳密なレベルで非エルミート皮膚効果の存在条件や存在条件を分析することができる。 さらに、非エルミート一般化ブロッホ定理により、実空間の例外点を探索することができる。 また,本手法と一般化ブリルアンゾーン法との関係も確立した。 本研究の主な成果を説明するために, 長距離結合を持つSu-Schrieffer-Heeger連鎖モデルと非相互相互作用を持つラグモデルとを具体例として検討した。 我々の非エルミート一般化ブロッホ定理は、より一般的な場合において様々な非エルミート現象を解析的に研究する効率的な方法を提供する。

Non-Hermitian systems can exhibit extraordinary boundary behaviors, known as the non-Hermitian skin effects, where all the eigenstates are localized exponentially at one side of lattice model. To give a full understanding and control of non-Hermitian skin effects, we have developed the non-Hermitian generalized Bloch theorem to provide the analytical expression for all solvable eigenvalues and eigenstates, in which translation symmetry is broken due to the open boundary condition. By introducing the Vieta's theorem for any polynomial equation with arbitrary degree, our approach is widely applicable for one-dimensional non-Hermitian tight-binding models. With the non-Hermitian generalized Bloch theorem, we can analyze the condition of existence or non-existence of the non-Hermitian skin effects at a mathematically rigorous level. Additionally, the non-Hermitian generalized Bloch theorem allows us to explore the real-space exceptional points. We also establish the connection between our approach and the generalized Brillouin zone method. To illustrate our main results, we examine two concrete examples including the Su-Schrieffer-Heeger chain model with long-range couplings, and the ladder model with non-reciprocal interaction. Our non-Hermitian generalized Bloch theorem provides an efficient way to analytically study various non-Hermitian phenomena in more general cases.
翻訳日:2023-05-02 18:23:45 公開日:2023-04-30
# 4D作業予測のプロキシとしてのポイントクラウド予測

Point Cloud Forecasting as a Proxy for 4D Occupancy Forecasting ( http://arxiv.org/abs/2302.13130v3 )

ライセンス: Link先を確認
Tarasha Khurana, Peiyun Hu, David Held, Deva Ramanan(参考訳) 将来どのように世界が進化するかを予測することは、自律システムにおける運動計画に不可欠である。 従来の手法は、セマンティッククラスラベル、バウンディングボックス、都市のトラックやhdマップといった、コストのかかる人間のアノテーションに依存して動作を計画しているため、大きなラベルのないデータセットにスケールするのは困難である。 有望な自己管理タスクの1つは、注釈のないLiDARシーケンスからの3Dポイントクラウド予測である。 本課題は,(1)センサ外在物(自動運転車の移動),(2)センサ内在物(特定のLiDARセンサに特有のサンプリングパターン),(3)シーン内の他の物体の形状と動きを暗黙的に捉えるアルゴリズムを必要とすることを示す。 しかし自律システムは、センサーではなく、世界の予測を行うべきだ。 この目的のために,(1)と(2)を時空(4D)占有率予測の1つとして再放送することで決定する。 しかし、4Dの接地にはコストがかかるため、4Dの接地予測から4Dの接地予測からポイントクラウドデータを描画し、無意味なLiDARシーケンスで占有アルゴリズムを訓練し、テストすることができる。 これにより、さまざまなデータセット、センサー、車両間でポイントクラウド予測アルゴリズムを評価し、比較することができる。

Predicting how the world can evolve in the future is crucial for motion planning in autonomous systems. Classical methods are limited because they rely on costly human annotations in the form of semantic class labels, bounding boxes, and tracks or HD maps of cities to plan their motion and thus are difficult to scale to large unlabeled datasets. One promising self-supervised task is 3D point cloud forecasting from unannotated LiDAR sequences. We show that this task requires algorithms to implicitly capture (1) sensor extrinsics (i.e., the egomotion of the autonomous vehicle), (2) sensor intrinsics (i.e., the sampling pattern specific to the particular LiDAR sensor), and (3) the shape and motion of other objects in the scene. But autonomous systems should make predictions about the world and not their sensors. To this end, we factor out (1) and (2) by recasting the task as one of spacetime (4D) occupancy forecasting. But because it is expensive to obtain ground-truth 4D occupancy, we render point cloud data from 4D occupancy predictions given sensor extrinsics and intrinsics, allowing one to train and test occupancy algorithms with unannotated LiDAR sequences. This also allows one to evaluate and compare point cloud forecasting algorithms across diverse datasets, sensors, and vehicles.
翻訳日:2023-05-02 18:23:20 公開日:2023-04-30
# HOOV:慣性センシングを用いた触覚対話のための手動外視追跡

HOOV: Hand Out-Of-View Tracking for Proprioceptive Interaction using Inertial Sensing ( http://arxiv.org/abs/2303.07016v2 )

ライセンス: Link先を確認
Paul Streli, Rayan Armani, Yi Fei Cheng and Christian Holz(参考訳) 現在の仮想現実システムは、視覚制御下でのインタラクションのために設計されている。 内蔵カメラを使って、ヘッドセットは視野の中にいる間、ユーザーの手やハンドヘルドコントローラーを追跡します。 したがって現在のシステムは、ユーザの画面外コンテンツとのインタラクションを無視する — ユーザが集中させるために頭の動きを煩雑に必要とせずに、プロピオセプションを通じて素早くアクセス可能な仮想オブジェクト — 。 本稿では,VR利用者が視野外の物体と対話できる手首回りのセンシング手法であるHOOVを提案する。 単一手首の慣性センサーの信号に基づいて、HOOVは3空間のユーザーの手の位置を連続的に推定し、手がトラッキング範囲を離れるとヘッドセットのトラッキングを補完する。 我々の新しいデータ駆動手法は、慣性観測のみに基づく安定な手の位置と軌道の連続的な推定から手の位置と軌道を予測する。 慣性センシングは、同時に指ピンチングを検出して画面外選択イベントを登録し、手首デバイス内の触覚アクチュエータを用いて確認し、仮想コンテンツの選択、把持、ドロップを可能にする。 我々はHOOVの性能をカメラベースの光学式モーションキャプチャシステムと比較した。 第1の評価では、参加者はモーションキャプチャーシステムからの追跡情報に基づいて相互作用を行い、その精度を評価する一方、第2に、HOOVのリアルタイム推定に基づいて相互作用した。 HOOVの目標に依存しない推定値の平均追跡誤差は7.7cmであり、参加者は最初に焦点を合わせることなく、身体の仮想オブジェクトに確実にアクセスすることができる。 我々は,より広い入力空間のhoovを活用したいくつかの応用例を示し,本手法の可能性を議論して結論づける。

Current Virtual Reality systems are designed for interaction under visual control. Using built-in cameras, headsets track the user's hands or hand-held controllers while they are inside the field of view. Current systems thus ignore the user's interaction with off-screen content -- virtual objects that the user could quickly access through proprioception without requiring laborious head motions to bring them into focus. In this paper, we present HOOV, a wrist-worn sensing method that allows VR users to interact with objects outside their field of view. Based on the signals of a single wrist-worn inertial sensor, HOOV continuously estimates the user's hand position in 3-space to complement the headset's tracking as the hands leave the tracking range. Our novel data-driven method predicts hand positions and trajectories from just the continuous estimation of hand orientation, which by itself is stable based solely on inertial observations. Our inertial sensing simultaneously detects finger pinching to register off-screen selection events, confirms them using a haptic actuator inside our wrist device, and thus allows users to select, grab, and drop virtual content. We compared HOOV's performance with a camera-based optical motion capture system in two folds. In the first evaluation, participants interacted based on tracking information from the motion capture system to assess the accuracy of their proprioceptive input, whereas in the second, they interacted based on HOOV's real-time estimations. We found that HOOV's target-agnostic estimations had a mean tracking error of 7.7 cm, which allowed participants to reliably access virtual objects around their body without first bringing them into focus. We demonstrate several applications that leverage the larger input space HOOV opens up for quick proprioceptive interaction, and conclude by discussing the potential of our technique.
翻訳日:2023-05-02 18:16:10 公開日:2023-04-30
# 連帯強化学習における局所環境中毒攻撃

Local Environment Poisoning Attacks on Federated Reinforcement Learning ( http://arxiv.org/abs/2303.02725v3 )

ライセンス: Link先を確認
Evelyn Ma, Rasoul Etesami(参考訳) フェデレーション学習(fl)は、伝統的な強化学習(rl)タスクを解決するための一般的なツールとなっている。 マルチエージェント構造は従来のRLにおけるデータハングリーの主な懸念に対処し、フェデレーション機構は個々のエージェントのデータプライバシを保護する。 しかし、フェデレーション機構は、訓練されたポリシーを誤解させる悪質なエージェントによる中毒にもシステムを公開する。 flの利点にもかかわらず、federated reinforcement learning (frl)の脆弱性はよく研究されていない。 本研究では、FRL中毒を限られた予算で制約された最適化問題として特徴付けるための最初の一般的な枠組みを提案し、ポリシーベースのFRLに適用可能な中毒プロトコルを設計し、一対の私的・公的な評論家を訓練することで、アクタークリティカルなローカルRLアルゴリズムとしてFRLに拡張する。 また、このリスクを軽減するため、FLから受け継いだ従来の防衛戦略についても論じる。 主要なRLアルゴリズムを対象とし,様々なRL OpenAI Gym環境を対象とし,幅広い難易度をカバーした広範囲な実験を行うことにより,毒性の有効性を検証する。 以上の結果から,提案する防衛プロトコルはほとんどの場合成功しているが,複雑な環境下では堅牢ではないことがわかった。 我々の研究は、RLトレーニングにおけるFLの脆弱性に関する新たな洞察を提供し、堅牢なFRLアルゴリズムを設計するためのさらなる課題を提起する。

Federated learning (FL) has become a popular tool for solving traditional Reinforcement Learning (RL) tasks. The multi-agent structure addresses the major concern of data-hungry in traditional RL, while the federated mechanism protects the data privacy of individual agents. However, the federated mechanism also exposes the system to poisoning by malicious agents that can mislead the trained policy. Despite the advantage brought by FL, the vulnerability of Federated Reinforcement Learning (FRL) has not been well-studied before. In this work, we propose the first general framework to characterize FRL poisoning as an optimization problem constrained by a limited budget and design a poisoning protocol that can be applied to policy-based FRL and extended to FRL with actor-critic as a local RL algorithm by training a pair of private and public critics. We also discuss a conventional defense strategy inherited from FL to mitigate this risk. We verify our poisoning effectiveness by conducting extensive experiments targeting mainstream RL algorithms and over various RL OpenAI Gym environments covering a wide range of difficulty levels. Our results show that our proposed defense protocol is successful in most cases but is not robust under complicated environments. Our work provides new insights into the vulnerability of FL in RL training and poses additional challenges for designing robust FRL algorithms.
翻訳日:2023-05-02 18:13:58 公開日:2023-04-30
# ボソニックNaRb分子のマイクロ波遮蔽

Microwave shielding of bosonic NaRb molecules ( http://arxiv.org/abs/2304.08312v2 )

ライセンス: Link先を確認
Junyu Lin, Guanghua Chen, Mucan Jin, Zhaopeng Shi, Fulin Deng, Wenxian Zhang, Goulven Qu\'em\'ener, Tao Shi, Su Yi, Dajun Wang(参考訳) 近年では、極低温の極性分子の合成と操作が著しく進歩している。 しかし、化学反応によらず2体の損失は、多くの将来の探査のハードルとなっている。 ここでは,非反応性ボソニック$^{23}$Na$^{87}$Rb分子の回転遷移に着色した円形偏光マイクロ波による損失抑制について検討する。 最小2体損失率係数を3\times10^{-12}~\rm{cm^3/s}$に下げた2桁の損失を2桁に抑える。 一方、弾性衝突速度係数は10^{-8}~\rm{cm^3/s}$レベルに増加する。 その結果,1.7(2)の効率で$^{23}$Na$^{87}$Rbの蒸発冷却が可能となり,位相空間密度が10倍になった。 さらなる改良により、この技術は超低温極性分子のボース・アインシュタイン凝縮物を作るという大きな期待を抱いている。

Recent years have witnessed tremendous progresses in creating and manipulating ground-state ultracold polar molecules. However, the two-body loss regardless of the chemical reactivities is still a hurdle for many future explorations. Here, we investigate the loss suppression of non-reactive bosonic $^{23}$Na$^{87}$Rb molecules with a circular polarized microwave blue-detuned to the rotational transition. We achieve suppression of the loss by two orders of magnitude with the lowest two-body loss rate coefficient reduced to $3\times10^{-12}~\rm{cm^3/s}$. Meanwhile, the elastic collision rate coefficient is increased to the $10^{-8}~\rm{cm^3/s}$ level. The large good-to-bad collision ratio has allowed us to carry out evaporative cooling of $^{23}$Na$^{87}$Rb with an efficiency of 1.7(2), increasing the phase-space density by a factor of 10. With further improvements, this technique holds great promises for creating a Bose-Einstein condensate of ultracold polar molecules.
翻訳日:2023-05-02 17:56:23 公開日:2023-04-30
# 周波数規則化:畳み込みニューラルネットワークの情報冗長性を制限する

Frequency Regularization: Restricting Information Redundancy of Convolutional Neural Networks ( http://arxiv.org/abs/2304.07973v3 )

ライセンス: Link先を確認
Chenqiu Zhao, Guanfang Dong, Shupei Zhang, Zijie Tan, Anup Basu(参考訳) 畳み込みニューラルネットワークは多くのコンピュータビジョンタスクで印象的な結果を示している。 しかし、これらのネットワークのサイズが大きくなると、多くのネットワークパラメータによる情報過負荷が懸念される。 本稿では、周波数領域内のネットワークパラメータの非零要素を制限する周波数正規化を提案する。 提案手法はテンソルレベルで動作し,ほぼすべてのネットワークアーキテクチャに適用可能である。 特に、パラメータのテンソルは周波数領域で維持され、zigzagがテンソル要素をゼロにすることで高周波成分を除去できる。 次に、逆離散コサイン変換(IDCT)を用いて、ネットワークトレーニング中の行列演算のための空間テンソルを再構成する。 画像の高周波成分は重要度が低いことが知られているため、提案された周波数正規化でネットワークを訓練する場合、これらのパラメータの大部分がゼロに設定できる。 LeNet, Alexnet, VGG, Resnet, ViT, UNet, GAN, VAE などの最先端ネットワークアーキテクチャに関する総合的な評価は,提案した周波数正規化の有効性を示している。 非常に少ない精度(2\%未満)では、0.4mのパラメータを持つlenet5は、776のfloat16番号(1100$\times$ reduction)で表現でき、34mのパラメータを持つunetは759のfloat16番号(80000$\times$ reduction)で表現できる。 特に、UNetモデルのオリジナルのサイズは366MBであり、4.5kbに削減します。

Convolutional neural networks have demonstrated impressive results in many computer vision tasks. However, the increasing size of these networks raises concerns about the information overload resulting from the large number of network parameters. In this paper, we propose Frequency Regularization to restrict the non-zero elements of the network parameters in the frequency domain. The proposed approach operates at the tensor level, and can be applied to almost all network architectures. Specifically, the tensors of parameters are maintained in the frequency domain, where high frequency components can be eliminated by zigzag setting tensor elements to zero. Then, the inverse discrete cosine transform (IDCT) is used to reconstruct the spatial tensors for matrix operations during network training. Since high frequency components of images are known to be less critical, a large proportion of these parameters can be set to zero when networks are trained with the proposed frequency regularization. Comprehensive evaluations on various state-of-the-art network architectures, including LeNet, Alexnet, VGG, Resnet, ViT, UNet, GAN, and VAE, demonstrate the effectiveness of the proposed frequency regularization. For a very small accuracy decrease (less than 2\%), a LeNet5 with 0.4M parameters can be represented by only 776 float16 numbers (over 1100$\times$ reduction), and a UNet with 34M parameters can be represented by only 759 float16 numbers (over 80000$\times$ reduction). In particular, the original size of the UNet model is 366MB, we reduce it to 4.5kb.
翻訳日:2023-05-02 17:56:09 公開日:2023-04-30
# バックプロパゲーションとF結合

Backpropagation and F-adjoint ( http://arxiv.org/abs/2304.13820v2 )

ライセンス: Link先を確認
Ahmed Boughammoura(参考訳) 本稿では, ニューラルネットワーク(ANN)のモデル重み学習訓練において, フィードフォワードとバックワードの両方のプロセスを調べるための簡潔な数学的枠組みを提案する。 バックプロパゲーションのための2段階ルールの概念から着想を得て、バックプロパゲーションアルゴリズムのより良い記述を目的としたF-アジョイントの概念を定義する。 特に、深層ニューラルネットワークアーキテクチャを通してF-プロパゲーションとF-アジョイントの概念を導入することにより、コスト/ロス関数に関連するバックプロパゲーションは、コスト関数の入力に関して、対応するF-プロパゲーションのF-アジョイントが部分微分に対して相対的に特徴付けられることが証明される。

This paper presents a concise mathematical framework for investigating both feed-forward and backward process, during the training to learn model weights, of an artificial neural network (ANN). Inspired from the idea of the two-step rule for backpropagation, we define a notion of F-adjoint which is aimed at a better description of the backpropagation algorithm. In particular, by introducing the notions of F-propagation and F-adjoint through a deep neural network architecture, the backpropagation associated to a cost/loss function is proven to be completely characterized by the F-adjoint of the corresponding F-propagation relatively to the partial derivative, with respect to the inputs, of the cost function.
翻訳日:2023-05-02 17:47:38 公開日:2023-04-30
# 量子センシングのための量子コンピュータ上の例外点系のシミュレーション

Simulation of exceptional-point systems on quantum computers for quantum sensing ( http://arxiv.org/abs/2304.12181v2 )

ライセンス: Link先を確認
Chetan Waghela and Shubhrangshu Dasgupta(参考訳) 量子センシングにおける例外点(EP)の適用性については議論がある。 これを解決するために、我々はまず、ユニタリゲート上で動く量子コンピュータ上でEPを示す非エルミート非対角化ハミルトニアンを実験的に実装する方法を探求する。 本稿では,アンシラを用いた手法を提案する。 次に,そのようなハミルトニアンを量子コンピュータを用いたパラメータ推定に利用し,その性能をepsにおける量子フィッシャー情報(qfi$)を用いて解析し,ノイズを伴わずに評価する。 推定されるパラメータの$qfi$が量子クレーダ-ラオ境界によるパラメータの分散と逆関係であることはよく知られている。 したがって、EPsにおける$QFI$の発散は、感受性の利点を約束する。 qfi$ が実際に非可算であると考えられていたそのような ep システムにおいて発散することを示す実験と理論的に証明した。

There has been debate around applicability of exceptional points (EP) for quantum sensing. To resolve this, we first explore how to experimentally implement the nonhermitian non-diagonalizable Hamiltonians, that exhibit EPs, on quantum computers which run on unitary gates. We propose to use an ancilla-based method in this regard. Next, we show how such Hamiltonians can be used for parameter estimation using quantum computers and analyze its performance in terms of Quantum Fisher Information ($QFI$) at EPs, without noise and in presence of noise. It is well known that $QFI$ of a parameter to be estimated is inversely related to the variance of the parameter by the quantum Cramer-Rao bound. Therefore the divergence of $QFI$ at EPs promise sensing advantages. We experimentally demonstrate and theoretically show that $QFI$ indeed diverges in such EP systems which were earlier considered to be non-divergent.
翻訳日:2023-05-02 17:45:00 公開日:2023-04-30
# 古典ゲームの量子化:量子ゲーム理論入門

Quantumizing Classical Games: An Introduction to Quantum Game Theory ( http://arxiv.org/abs/2305.00368v1 )

ライセンス: Link先を確認
Sowmitra Das(参考訳) 我々は、メイヤー、アイサート=ヴィルケンス=ルウェンシュタイン、マリナット=ウェーバー、ランズバーグの独創的な著作をレビューし、量子ゲームの理論を簡潔かつ自己完結的に紹介し、この分野の研究を始めた。 この一連の作業を一般化することにより、プロトコルを$\textit{quantumize}$に定式化し、任意の有限古典的n$プレイヤーゲームに対して、そのような量子ゲームを記述するための新しいアプローチを用いる。 このようなゲーム、特にプレイヤーが達成できる追加のナッシュ平衡とこれらの追加の平衡のパレート最適性について量子化することによってプレイヤーが得られる利点について述べる。

We give a concise and self-contained introduction to the theory of Quantum Games by reviewing the seminal works of Meyer, Eisert-Wilkens-Lewenstein, Marinatto-Weber and Landsburg, which initiated the study of this field. By generalizing this body of work, we formulate a protocol to $\textit{Quantumize}$ any finite classical $n$-player game, and use a novel approach of describing such a Quantum Game in terms of commuting Payoff Operators. We describe what advantages can be gained by players by quantumizing such a game, particularly, what additional Nash Equilibria the players can achieve and the Pareto-Optimality of these additional equilibria.
翻訳日:2023-05-02 15:46:23 公開日:2023-04-30
# S2abEL: 科学テーブルからのエンティティリンクのためのデータセット

S2abEL: A Dataset for Entity Linking from Scientific Tables ( http://arxiv.org/abs/2305.00366v1 )

ライセンス: Link先を確認
Yuze Lou, Bailey Kuehl, Erin Bransom, Sergey Feldman, Aakanksha Naik, Doug Downey(参考訳) エンティティリンク(EL)は、知識ベースで対応するエントリへのテキスト参照をリンクするタスクであり、多くの知識集約型NLPアプリケーションにとって重要である。 科学論文の表に適用した場合、ELは高度な科学的質問応答と分析を可能にする大規模な科学的知識基盤へのステップである。 ELのための最初のデータセットを科学表に示す。 科学的な知識基盤は非常に不完全であり、曖昧な表の記述には典型的に表に加えて論文のテットを理解する必要があるため、科学的な表のELは特に困難である。 我々のデータセットであるS2abELは、機械学習結果テーブルのELに焦点を当てており、732のテーブルから8,429のセルに対してPaperswithCode分類から手書きのセルタイプ、属性ソース、エンティティリンクを含む。 本稿では,多くの既知基準を含む科学表上にEL用に設計されたニューラルベースライン法を導入し,最先端の汎用テーブルEL法を著しく上回っていることを示す。 最高のベースラインは人間のパフォーマンスよりも低く、私たちの分析は改善の道のりを強調します。

Entity linking (EL) is the task of linking a textual mention to its corresponding entry in a knowledge base, and is critical for many knowledge-intensive NLP applications. When applied to tables in scientific papers, EL is a step toward large-scale scientific knowledge bases that could enable advanced scientific question answering and analytics. We present the first dataset for EL in scientific tables. EL for scientific tables is especially challenging because scientific knowledge bases can be very incomplete, and disambiguating table mentions typically requires understanding the papers's tet in addition to the table. Our dataset, S2abEL, focuses on EL in machine learning results tables and includes hand-labeled cell types, attributed sources, and entity links from the PaperswithCode taxonomy for 8,429 cells from 732 tables. We introduce a neural baseline method designed for EL on scientific tables containing many out-of-knowledge-base mentions, and show that it significantly outperforms a state-of-the-art generic table EL method. The best baselines fall below human performance, and our analysis highlights avenues for improvement.
翻訳日:2023-05-02 15:46:08 公開日:2023-04-30
# relbot:スマートビルディングにおける強化学習リスクを最小化するトランスファー学習手法

ReLBOT: A Transfer Learning Approach to Minimize Reinforcement Learning Risks in Smart Buildings ( http://arxiv.org/abs/2305.00365v1 )

ライセンス: Link先を確認
Mikhail Genkin and J.J. McArthru(参考訳) スマートな建物は、人工知能アルゴリズムを適用してエネルギー消費を最適化することを目指している。 スマートビルが発注されると、これらのアルゴリズムのトレーニングに使用できる履歴データは存在しない。 オンライン強化学習(RL)アルゴリズムは大きな可能性を秘めているが、その展開には大きなリスクが伴う。 本稿では,学習者のウォームアップ期間の悪影響を軽減するために,既存の最適化されたスマートビルディングから新たなビルに知識を転送するために,deep rlと連携してトランスファー学習を利用する手法であるrelbotを提案する。 本研究は,強化学習者のウォームアップ期間における最大6.2回,最大132回の改善効果を示す。

Smart buildings aim to optimize energy consumption by applying artificial intelligent algorithms. When a smart building is commissioned there is no historical data that could be used to train these algorithms. On-line Reinforcement Learning (RL) algorithms have shown significant promise, but their deployment carries a significant risk, because as the RL agent initially explores its action space it could cause significant discomfort to the building residents. In this paper we present ReLBOT, a new technique that uses transfer learning in conjunction with deep RL to transfer knowledge from an existing, optimized smart building, to the newly commissioning building, to reduce the adverse impact of the reinforcement learning agent's warm-up period. We demonstrate improvements of up to 6.2 times in the duration, and up to 132 times in prediction variance for the reinforcement learning agent's warm-up period.
翻訳日:2023-05-02 15:45:50 公開日:2023-04-30
# エネルギー貯蔵システムアービタージュの電力価格予測 : 決定に焦点をあてたアプローチ

Electricity Price Prediction for Energy Storage System Arbitrage: A Decision-focused Approach ( http://arxiv.org/abs/2305.00362v1 )

ライセンス: Link先を確認
Linwei Sang, Yinliang Xu, Huan Long, Qinran Hu, Hongbin Sun(参考訳) 電力価格予測はエネルギー貯蔵システム(ESS)管理において重要な役割を果たす。 現在の予測モデルは、予測エラーを減らすことに集中しているが、下流の意思決定への影響を見落としている。 そこで,本論文では,下流最適化モデルから予測モデルへのギャップを埋めるため,ESS調停のための意思決定型電力価格予測手法を提案する。 意思決定にフォーカスしたアプローチは、予測モデルのトレーニングに下流仲裁モデルを活用することを目的としている。 これは、予測価格の下での実際の決定と、真の価格、すなわち、後悔による決定エラーとの違いを測定し、従って、予測モデルのトレーニングのために予測価格に勾配を導出する。 予測と決定誤差に基づいて,予測と決定精度の予測モデルを学習するために,ハイブリッド損失とそれに対応する確率勾配降下学習法を提案する。 本ケーススタディでは,予測誤差を最小化するための予測モデルと比較して,予測誤差の時間分布を平坦化することにより,経済的な利益を効率良く生み出し,意思決定誤差を低減できることを示す。

Electricity price prediction plays a vital role in energy storage system (ESS) management. Current prediction models focus on reducing prediction errors but overlook their impact on downstream decision-making. So this paper proposes a decision-focused electricity price prediction approach for ESS arbitrage to bridge the gap from the downstream optimization model to the prediction model. The decision-focused approach aims at utilizing the downstream arbitrage model for training prediction models. It measures the difference between actual decisions under the predicted price and oracle decisions under the true price, i.e., decision error, by regret, transforms it into the tractable surrogate regret, and then derives the gradients to predicted price for training prediction models. Based on the prediction and decision errors, this paper proposes the hybrid loss and corresponding stochastic gradient descent learning method to learn prediction models for prediction and decision accuracy. The case study verifies that the proposed approach can efficiently bring more economic benefits and reduce decision errors by flattening the time distribution of prediction errors, compared to prediction models for only minimizing prediction errors.
翻訳日:2023-05-02 15:45:33 公開日:2023-04-30
# アイデンティティ駆動型顔認識のための3プレイヤー生成アドバイザラルネットワーク

Identity-driven Three-Player Generative Adversarial Network for Synthetic-based Face Recognition ( http://arxiv.org/abs/2305.00358v1 )

ライセンス: Link先を確認
Jan Niklas Kolf, Tim Rieber, Jurek Elliesen, Fadi Boutros, Arjan Kuijper, Naser Damer(参考訳) 顔認識開発でよく使われるデータセットの多くは、適切なユーザーの同意なしにインターネットから収集される。 社会的および法的枠組みにおけるプライバシーへの注目が高まっているため、これらのデータセットの使用と配布は制限され、強く疑問視されている。 これらのデータベースは、アイデンティティ毎のデータに現実的な変動性があり、顔認識モデルの成功を可能にした。 この成功とプライバシの懸念に合わせるために、純粋に合成された人物からなる合成データベースは、顔認識ソリューションの開発においてますます作成され、利用されている。 本研究では,識別情報を生成プロセスに組み込むことができる3プレーヤ生成逆ネットワーク(GAN)フレームワーク,すなわちIDnetを提案する。 idnetの3人目のプレイヤーは、ジェネレータに識別可能な顔画像の生成を強制することを目指しています。 我々は,本研究で得られたIDnet合成画像が,従来の2プレーヤのGANと比較して高い識別性を示しながら,現実的なアイデンティティ内変動を維持した。 さらに, 生成体と生成した合成体との同一性関係について検討し, それらの類似性は極めて低いことを示した。 顔認識モデルの訓練におけるIDnetデータの適用性について,広範囲の顔認識ベンチマークを用いて評価を行った。 合成ベース顔認識の最先端技術と比較すると,最近のレンダリングベースアプローチに匹敵する結果が得られ,既存のGANベースのアプローチよりも優れていた。 トレーニングコードと合成顔画像データセットが公開されている(https://github.com/fdbtrs/Synthetic-Face-Recognition )。

Many of the commonly used datasets for face recognition development are collected from the internet without proper user consent. Due to the increasing focus on privacy in the social and legal frameworks, the use and distribution of these datasets are being restricted and strongly questioned. These databases, which have a realistically high variability of data per identity, have enabled the success of face recognition models. To build on this success and to align with privacy concerns, synthetic databases, consisting purely of synthetic persons, are increasingly being created and used in the development of face recognition solutions. In this work, we present a three-player generative adversarial network (GAN) framework, namely IDnet, that enables the integration of identity information into the generation process. The third player in our IDnet aims at forcing the generator to learn to generate identity-separable face images. We empirically proved that our IDnet synthetic images are of higher identity discrimination in comparison to the conventional two-player GAN, while maintaining a realistic intra-identity variation. We further studied the identity link between the authentic identities used to train the generator and the generated synthetic identities, showing very low similarities between these identities. We demonstrated the applicability of our IDnet data in training face recognition models by evaluating these models on a wide set of face recognition benchmarks. In comparison to the state-of-the-art works in synthetic-based face recognition, our solution achieved comparable results to a recent rendering-based approach and outperformed all existing GAN-based approaches. The training code and the synthetic face image dataset are publicly available ( https://github.com/fdbtrs/Synthetic-Face-Recognition ).
翻訳日:2023-05-02 15:45:14 公開日:2023-04-30
# 最適量子資源を用いた既知の量子情報の多人数放送の多面体

Many facets of multiparty broadcasting of known quantum information using optimal quantum resource ( http://arxiv.org/abs/2305.00389v1 )

ライセンス: Link先を確認
Satish Kumar and Anirban Pathak(参考訳) nocloning定理の弱いバージョンであるno-quantum broadcasting theoremは、完全に未知の量子情報を複数のユーザにブロードキャストすることを制限している。 しかし、送信者が放送される量子情報(状態)を認識していると、上記の制限は消え、タスクはマルチパーティのリモート状態準備に還元される。 この事実を認識せずに、近年、既知の量子状態の放送に関するいくつかのスキームが提案されている(例えば、量子infプロセス(2017年)16:41)。 本稿では、遠隔状態作成プロトコルと既知の量子情報の放送プロトコルとの関係について詳しく検討し、既知の量子情報を複数の受信機に決定的かつ確率的かつ最適なリソースでブロードキャスト可能であることを示す。 さらに、このようなスキームに対するノイズの影響や、そのようなスキームの新たなフェース(ジョイントブロードキャストなど)についても論じている。 また,IBM量子コンピュータを用いた最適スキームの原理的実現の証明も報告した。 いわゆる放送方式と潜在的な応用の一般化の可能性についても、適切な重要性で論じる。

The no-quantum broadcasting theorem which is a weaker version of the nocloning theorem restricts us from broadcasting completely unknown quantum information to multiple users. However, if the sender is aware of the quantum information (state) to be broadcasted then the above restriction disappears and the task reduces to a multiparty remote state preparation. Without recognizing this fact, several schemes for broadcasting of known quantum states have been proposed in the recent past (e.g., Quantum Inf Process (2017) 16:41) and erroneously/misleadingly referred to as protocols for quantum broadcasting. Here we elaborate on the relation between the protocols of remote state preparation and those of broadcasting of known quantum information and show that it's possible to broadcast known quantum information to multiple receivers in deterministic as well as probabilistic manner with optimal resources. Further, the effect of noise on such schemes, and some new facets (like joint broadcasting) of such schemes have been discussed. A proof of principle realization of the proposed optimal scheme using IBM quantum computer is also reported. Possibilities of generalizations of the so-called broadcasting schemes and potential applications are also discussed with appropriate importance.
翻訳日:2023-05-02 15:35:42 公開日:2023-04-30
# タンパク質配列設計における重要度重み付け期待最大化

Importance Weighted Expectation-Maximization for Protein Sequence Design ( http://arxiv.org/abs/2305.00386v1 )

ライセンス: Link先を確認
Zhenqiao Song, Lei Li(参考訳) 望ましい生物学的機能を持つタンパク質配列を設計することは、生物学や化学において重要である。 最近の機械学習手法では、高価なウェットラブ検証を置き換えるために、サロゲートシーケンス関数モデルを使用している。 多様な新規タンパク質配列を高適合性で効率的に生成する方法 本稿では,特定の適合基準に対するタンパク質配列生成手法であるIsEM-Proを提案する。 中心となるIsEM-Proは、独立に学習されたマルコフランダムフィールド(MRF)の組合せ構造特徴によって強化された潜在生成モデルである。 モデル学習のためのモンテカルロ予測最大化法(MCEM)を開発した。 推論中、潜伏空間からのサンプリングは多様性を高め、MDFの特徴は高いフィットネス領域での探索を導く。 8つのタンパク質配列設計タスクの実験により、我々のIsEM-Proは、平均適合度スコアを55%以上上回り、より多様な新しいタンパク質配列を生成する。

Designing protein sequences with desired biological function is crucial in biology and chemistry. Recent machine learning methods use a surrogate sequence-function model to replace the expensive wet-lab validation. How can we efficiently generate diverse and novel protein sequences with high fitness? In this paper, we propose IsEM-Pro, an approach to generate protein sequences towards a given fitness criterion. At its core, IsEM-Pro is a latent generative model, augmented by combinatorial structure features from a separately learned Markov random fields (MRFs). We develop an Monte Carlo Expectation-Maximization method (MCEM) to learn the model. During inference, sampling from its latent space enhances diversity while its MRFs features guide the exploration in high fitness regions. Experiments on eight protein sequence design tasks show that our IsEM-Pro outperforms the previous best methods by at least 55% on average fitness score and generates more diverse and novel protein sequences.
翻訳日:2023-05-02 15:35:25 公開日:2023-04-30
# Bi-parametric MRIにおける前立腺癌検出のための自己教師付きWindowsトランス

Cross-Shaped Windows Transformer with Self-supervised Pretraining for Clinically Significant Prostate Cancer Detection in Bi-parametric MRI ( http://arxiv.org/abs/2305.00385v1 )

ライセンス: Link先を確認
Yuheng Li, Jacob Wynne, Jing Wang, Richard L.J. Qiu, Justin Roper, Shaoyan Pan, Ashesh B. Jani, Tian Liu, Pretesh R. Patel, Hui Mao and Xiaofeng Yang(参考訳) 深部畳み込みニューラルネット(CNN)を用いた前立腺癌(PCa)の検出において,MRI(Multiparametric magnetic resonance imaging)が有望な結果を示した。 近年,コンピュータビジョンにおけるCNNと比較して競争性能が向上している。 大規模トランスフォーマーは、医用画像の取得が困難なトレーニングのために、豊富な注釈付きデータを必要とする。 自己教師付き学習は、ラベルのないデータを効果的に活用し、アノテーションや関連するコストなしで有用な意味表現を抽出することができる。 これにより、ラベル付きデータを限定して下流タスクのモデル性能を改善し、一般化性を高めることができる。 今回我々は,前立腺バイパラメトリックmri (bpmri) における臨床的に有意な前立腺癌 (cspca) を検出するために,新しいエンド・ツー・エンドのクロス・エンド・トランスフォーマー (cswin) トランスフォーマー unet モデル (cswin unet) を導入し,提案手法の有効性を実証した。 1500人の患者を対象とした大規模前立腺bpMRIデータセットを用いて,マルチタスク自己教師型学習を用いてCSwinトランスフォーマーをトレーニングし,データ効率とネットワーク一般化性を向上させる。 csPCa検出のために病変アノテーションを用いて微調整を行った。 5倍のクロスバリデーションは、自己教師型CSwin UNetが0.888 AUCと0.545 Average Precision(AP)を達成し、4つの最先端モデル(Swin UNETR、DynUNet、Atention UNet、UNet)を大幅に上回っていることを示している。 158例の別個のbpMRIデータセットを用いて,外的ホールドアウトデータに対するモデルロバスト性を評価した。 CSwin UNet は 0.79 AUC と 0.45 AP を達成し、他の同等のメソッドよりも優れ、データセットシフトへの一般化を実証している。

Multiparametric magnetic resonance imaging (mpMRI) has demonstrated promising results in prostate cancer (PCa) detection using deep convolutional neural networks (CNNs). Recently, transformers have achieved competitive performance compared to CNNs in computer vision. Large-scale transformers need abundant annotated data for training, which are difficult to obtain in medical imaging. Self-supervised learning can effectively leverage unlabeled data to extract useful semantic representations without annotation and its associated costs. This can improve model performance on downstream tasks with limited labelled data and increase generalizability. We introduce a novel end-to-end Cross-Shaped windows (CSwin) transformer UNet model, CSwin UNet, to detect clinically significant prostate cancer (csPCa) in prostate bi-parametric MR imaging (bpMRI) and demonstrate the effectiveness of our proposed self-supervised pre-training framework. Using a large prostate bpMRI dataset with 1500 patients, we first pre-train CSwin transformer using multi-task self-supervised learning to improve data-efficiency and network generalizability. We then finetuned using lesion annotations to perform csPCa detection. Five-fold cross validation shows that self-supervised CSwin UNet achieves 0.888 AUC and 0.545 Average Precision (AP), significantly outperforming four state-of-the-art models (Swin UNETR, DynUNet, Attention UNet, UNet). Using a separate bpMRI dataset with 158 patients, we evaluated our model robustness to external hold-out data. Self-supervised CSwin UNet achieves 0.79 AUC and 0.45 AP, still outperforming all other comparable methods and demonstrating generalization to a dataset shift.
翻訳日:2023-05-02 15:35:10 公開日:2023-04-30
# National Vulnerability Databaseにおけるソフトウェア脆弱性のテキスト記述からの知識グラフの構築

Constructing a Knowledge Graph from Textual Descriptions of Software Vulnerabilities in the National Vulnerability Database ( http://arxiv.org/abs/2305.00382v1 )

ライセンス: Link先を確認
Anders M{\o}lmen H{\o}st and Pierre Lison and Leon Moonen(参考訳) 知識グラフは、脆弱性評価や脅威分析など、いくつかのサイバーセキュリティタスクを約束している。 本研究では,NVD(National Vulnerability Database)の情報から脆弱性知識グラフを構築するための新しい手法を提案する。 提案手法は,ニューラルネットワーク,ヒューリスティックルール,知識グラフ埋め込みを組み合わせることで,名前付きエンティティ認識(NER),関係抽出(RE),エンティティ予測を組み合わせる。 本手法は,サイバーセキュリティに使用される知識グラフの欠落したエンティティの修正に有効であることを示す。

Knowledge graphs have shown promise for several cybersecurity tasks, such as vulnerability assessment and threat analysis. In this work, we present a new method for constructing a vulnerability knowledge graph from information in the National Vulnerability Database (NVD). Our approach combines named entity recognition (NER), relation extraction (RE), and entity prediction using a combination of neural models, heuristic rules, and knowledge graph embeddings. We demonstrate how our method helps to fix missing entities in knowledge graphs used for cybersecurity and evaluate the performance.
翻訳日:2023-05-02 15:34:35 公開日:2023-04-30
# DualHSIC: HSIC-Bottleneckと継続的学習のためのアライメント

DualHSIC: HSIC-Bottleneck and Alignment for Continual Learning ( http://arxiv.org/abs/2305.00380v1 )

ライセンス: Link先を確認
Zifeng Wang, Zheng Zhan, Yifan Gong, Yucai Shao, Stratis Ioannidis, Yanzhi Wang, Jennifer Dy(参考訳) リハーサルベースのアプローチは継続学習(CL)のメインステイである。 過去のタスクから得たデータのサブセットで小さな固定サイズのバッファを維持することで、破滅的な忘れる問題を緩和する。 多くのリハーサルベースのアプローチではバッファされた過去のデータから知識を効果的に活用する方法が研究されているが、重要なタスク固有およびタスク不変の知識とのタスク間関係にはほとんど注意が払われていない。 タスク間関係を適切に活用することにより,既存のリハーサル方式の性能をシンプルかつ効果的な方法で向上させる,DualHSICという新しいCL手法を提案する。 DualHSICは、いわゆるHilbert Schmidt独立基準(HSIC:Hilbert Schmidt independent criterion)に由来する2つの補完的なコンポーネントで構成されている: HSIC-Bottleneck for Rehearsal (HBR)は、タスク間の干渉を軽減し、HSICアライメント(HA)はタスク不変の知識共有を促進する。 大規模な実験により、DualHSICは既存のリハーサルベースメソッドにシームレスに接続して一貫したパフォーマンス向上を実現し、また最近の最先端のレギュラー化強化リハーサル手法よりも優れていることが示された。 ソースコードがリリースされる。

Rehearsal-based approaches are a mainstay of continual learning (CL). They mitigate the catastrophic forgetting problem by maintaining a small fixed-size buffer with a subset of data from past tasks. While most rehearsal-based approaches study how to effectively exploit the knowledge from the buffered past data, little attention is paid to the inter-task relationships with the critical task-specific and task-invariant knowledge. By appropriately leveraging inter-task relationships, we propose a novel CL method named DualHSIC to boost the performance of existing rehearsal-based methods in a simple yet effective way. DualHSIC consists of two complementary components that stem from the so-called Hilbert Schmidt independence criterion (HSIC): HSIC-Bottleneck for Rehearsal (HBR) lessens the inter-task interference and HSIC Alignment (HA) promotes task-invariant knowledge sharing. Extensive experiments show that DualHSIC can be seamlessly plugged into existing rehearsal-based methods for consistent performance improvements, and also outperforms recent state-of-the-art regularization-enhanced rehearsal methods. Source code will be released.
翻訳日:2023-05-02 15:34:25 公開日:2023-04-30
# デュアルパス協調フィルタリングによる画像補完

Image Completion via Dual-path Cooperative Filtering ( http://arxiv.org/abs/2305.00379v1 )

ライセンス: Link先を確認
Pourya Shamsolmoali, Masoumeh Zareapoor, Eric Granger(参考訳) 画像生成アルゴリズムの最近の進歩を考えると、深い画像補完手法は大きな進歩を遂げている。 しかし、最先端の手法は一般的には粗末なクロスシーンの一般化を提供し、生成されるマスク領域はぼやけたアーティファクトを含むことが多い。 予測フィルタリングは、画像の復元方法であり、入力シーンに基づいて最も効果的なカーネルを予測する。 このアプローチに動機づけられて,画像補完をフィルタリング問題として扱う。 深い特徴レベルのセマンティックフィルタリングを導入し、ローカル構造を保持し、視覚的にリアルなコンテンツを生成する。 特に、デュアルパス協調フィルタリング(DCF)モデルが提案され、1つのパスが動的カーネルを予測し、もう1つのパスがFast Fourier Convolutionを用いてマルチレベル特徴を抽出し、意味的コヒーレントな再構成を生成する。 3つの挑戦的な画像補完データセットの実験により、提案したDCFは最先端の手法より優れていることが示された。

Given the recent advances with image-generating algorithms, deep image completion methods have made significant progress. However, state-of-art methods typically provide poor cross-scene generalization, and generated masked areas often contain blurry artifacts. Predictive filtering is a method for restoring images, which predicts the most effective kernels based on the input scene. Motivated by this approach, we address image completion as a filtering problem. Deep feature-level semantic filtering is introduced to fill in missing information, while preserving local structure and generating visually realistic content. In particular, a Dual-path Cooperative Filtering (DCF) model is proposed, where one path predicts dynamic kernels, and the other path extracts multi-level features by using Fast Fourier Convolution to yield semantically coherent reconstructions. Experiments on three challenging image completion datasets show that our proposed DCF outperforms state-of-art methods.
翻訳日:2023-05-02 15:34:02 公開日:2023-04-30
# オープンシステム観とエベレット解釈

The Open Systems View and the Everett Interpretation ( http://arxiv.org/abs/2305.00378v1 )

ライセンス: Link先を確認
Michael E. Cuffaro and Stephan Hartmann(参考訳) エヴァレットを擁護する者、すなわち「多くの世界」の量子力学の解釈は、我々が「オープンシステム(GT)の一般量子理論」と呼ぶものを、量子物理学の基礎的および哲学的な研究を行う適切な枠組みとして受け入れるべきである、と論じられている。 GTは、その代替となる標準量子論(ST)よりも広い動的枠組みである。 これは、GT が量子形式論を変更することはないとしても事実である。 GT では、物理的状態が基本的に密度作用素によって表される系の力学は、一般の非単位の力学写像によって指定されるように、基本的にオープンに表現される。 これには、原則として、宇宙全体のダイナミクスが含まれる。 我々は、GT で記述可能なより一般的な力学は、物理的動機付けが可能であり、ST と同様に GT に対して多くの原始ファシックな実証的支持があり、GT はエベレット解釈の精神に完全に入り込む可能性がある、と論じる。

It is argued that those who defend the Everett, or `Many Worlds', interpretation of quantum mechanics should embrace what we call the general quantum theory of open systems (GT) as the proper framework in which to conduct foundational and philosophical investigation in quantum physics. GT is a wider dynamical framework than its alternative, standard quantum theory (ST). This is true even though GT makes no modifications to the quantum formalism. GT rather takes a different view, what we call the open systems view, of the formalism; i.e., in GT the dynamics of systems, whose physical states are fundamentally represented by density operators, are represented as fundamentally open as specified by an in general non-unitary dynamical map. This includes, in principle, the dynamics of the universe as a whole. We argue that the more general dynamics describable in GT can be physically motivated, that there is as much prima facie empirical support for GT as there is for ST, and that GT could be fully in the spirit of the Everett interpretation -- that there might, in short, be little reason for an Everettian not to embrace the more general theoretical landscape that GT allows one to explore.
翻訳日:2023-05-02 15:33:44 公開日:2023-04-30
# neural radiance fields (nerfs) : レビューと最近の進歩

Neural Radiance Fields (NeRFs): A Review and Some Recent Developments ( http://arxiv.org/abs/2305.00375v1 )

ライセンス: Link先を確認
Mohamed Debbagh(参考訳) Neural Radiance Field(NeRF)は、Multi-Layer Perception(MLP)として知られる、完全に接続されたニューラルネットワークの重みの3Dシーンを表すフレームワークである。 本手法は,新しい視点合成作業のために導入され,与えられた連続的な視点から最先端のフォトリアリスティック画像レンダリングを実現することができる。 ベースフレームワークの性能と能力を拡張する最近の開発によって、NeRFはポピュラーな研究分野になってきた。 最近の開発には、ビュー合成のためのモデルをトレーニングするための画像の少ない方法や、制約のない動的なシーン表現からビューを生成する方法が含まれる。

Neural Radiance Field (NeRF) is a framework that represents a 3D scene in the weights of a fully connected neural network, known as the Multi-Layer Perception(MLP). The method was introduced for the task of novel view synthesis and is able to achieve state-of-the-art photorealistic image renderings from a given continuous viewpoint. NeRFs have become a popular field of research as recent developments have been made that expand the performance and capabilities of the base framework. Recent developments include methods that require less images to train the model for view synthesis as well as methods that are able to generate views from unconstrained and dynamic scene representations.
翻訳日:2023-05-02 15:33:22 公開日:2023-04-30
# 逆不変正規化による対数コントラスト学習の促進

Enhancing Adversarial Contrastive Learning via Adversarial Invariant Regularization ( http://arxiv.org/abs/2305.00374v1 )

ライセンス: Link先を確認
Xilie Xu, Jingfeng Zhang, Feng Liu, Masashi Sugiyama, Mohan Kankanhalli(参考訳) ラベルを必要としないACL(Adversarial contrastive Learning)は、標準的なコントラスト学習(SCL)に敵対データを組み込んで、敵の攻撃や一般的な腐敗に対して一般化可能で耐性のある堅牢な表現を出力する。 表現のスタイル独立性は、堅牢性伝達性を改善するのに有益であることが検証されている。 標準不変正規化(sir)は、sclを介して学習された表現をスタイル因子とは独立にするために提案されている。 しかし、ACLで学んだ堅牢な表現とスタイル独立性とをどう組み合わせるかは、今のところ不明である。 そこで我々は因果推論の手法を利用して,ACLで学習した頑健な表現をスタイル非依存にするための逆不変正規化(AIR)を提案する。 次に,sir と air の重み付き和である invariant regularization (ir) を用いて acl を強化する。 理論的には、AIRは暗黙的に敵データ予測を奨励し、敵データと自然データの一貫性はデータ拡張とは無関係であることを示す。 また,aclで学習したロバスト表現のスタイル依存性が下流タスクに保持されていることも理論的に証明し,一般化を保証する。 実験の結果から,irは様々なデータセット上でaclとその変異体の性能を著しく向上できることが示唆された。

Adversarial contrastive learning (ACL), without requiring labels, incorporates adversarial data with standard contrastive learning (SCL) and outputs a robust representation which is generalizable and resistant to adversarial attacks and common corruptions. The style-independence property of representations has been validated to be beneficial in improving robustness transferability. Standard invariant regularization (SIR) has been proposed to make the learned representations via SCL to be independent of the style factors. However, how to equip robust representations learned via ACL with the style-independence property is still unclear so far. To this end, we leverage the technique of causal reasoning to propose an adversarial invariant regularization (AIR) that enforces robust representations learned via ACL to be style-independent. Then, we enhance ACL using invariant regularization (IR), which is a weighted sum of SIR and AIR. Theoretically, we show that AIR implicitly encourages the prediction of adversarial data and consistency between adversarial and natural data to be independent of data augmentations. We also theoretically demonstrate that the style-independence property of robust representation learned via ACL still holds in downstream tasks, providing generalization guarantees. Empirically, our comprehensive experimental results corroborate that IR can significantly improve the performance of ACL and its variants on various datasets.
翻訳日:2023-05-02 15:33:09 公開日:2023-04-30
# 実験プロセスの量子相関生成能力

Quantum correlation generation capability of experimental processes ( http://arxiv.org/abs/2305.00370v1 )

ライセンス: Link先を確認
Wei-Hao Huang, Shih-Hsuan Chen, Chun-Hao Chang, Tzu-Liang Hsu, Kuan-Jou Wang, Che-Ming Li(参考訳) EPR(Einstein-Podolsky-Rosen)のステアリングとベル非局所性は、量子力学によって予測される2種類の相関関係を示す。 これらは量子力学の基礎の探求を動機づけるだけでなく、信頼できない測定装置の存在下で量子情報処理の重要な資源としても機能する。 本稿では,実験中の動的プロセスに対するEPRステアリングとベル非局所性を特徴付ける手法を提案する。 実験プロセスが量子相関を生成する能力は、単に分離可能な状態をプロセスのテスト入力として準備し、対応する出力の単一キュービット上で局所的な測定を行うことで、定量化および同定可能であることを示す。 この発見は、普遍的な量子計算を行うために使用される2量子ビット制御演算の客観的ベンチマークの構築を可能にする。 我々は,IBM Quantum Experience と Amazon Braket Rigetti の超伝導量子コンピュータ上での制御相演算と量子相関を生成する実験能力について検討した。 提案手法は,雑音中規模量子デバイスにおける非古典的相関生成のプリミティブ操作を評価するための有用な診断ツールであることを示す。

Einstein-Podolsky-Rosen (EPR) steering and Bell nonlocality illustrate two different kinds of correlations predicted by quantum mechanics. They not only motivate the exploration of the foundation of quantum mechanics, but also serve as important resources for quantum-information processing in the presence of untrusted measurement apparatuses. Herein, we introduce a method for characterizing the creation of EPR steering and Bell nonlocality for dynamical processes in experiments. We show that the capability of an experimental process to create quantum correlations can be quantified and identified simply by preparing separable states as test inputs of the process and then performing local measurements on single qubits of the corresponding outputs. This finding enables the construction of objective benchmarks for the two-qubit controlled operations used to perform universal quantum computation. We demonstrate this utility by examining the experimental capability of creating quantum correlations with the controlled-phase operations on the IBM Quantum Experience and Amazon Braket Rigetti superconducting quantum computers. The results show that our method provides a useful diagnostic tool for evaluating the primitive operations of nonclassical correlation creation in noisy intermediate scale quantum devices.
翻訳日:2023-05-02 15:32:41 公開日:2023-04-30
# ユニットテスト生成における大規模言語モデルの有効性の検討

Exploring the Effectiveness of Large Language Models in Generating Unit Tests ( http://arxiv.org/abs/2305.00418v1 )

ライセンス: Link先を確認
Mohammed Latif Siddiq, Joanna C. S. Santos, Ridwanul Hasan Tanvir, Noshin Ulfat, Fahmid Al Rifat, and Vinicius Carvalho Lopes(参考訳) コード生成モデルは、コードコメント、既存のコード、または両方の組み合わせからプロンプトを受け取り、コードを生成する。 コード生成モデル(github copilotなど)が実際に採用されることは増えているが、微調整なしでユニットテスト生成に成功できるかどうかは不明だ。 このギャップを埋めるために、我々は3つの生成モデル(CodeGen、Codex、GPT-3.5)がいかにテストケースを生成するかを検討した。 HumanEval と Evosuite SF110 の2つのベンチマークを用いて,単体テスト生成プロセスにおけるコンテキスト生成の効果を検討した。 モデルのコンパイル率,テストの正確性,カバレッジ,テストの臭いなどに基づいて評価した。 CodexモデルはHumanEvalデータセットの80%以上のカバレッジを達成したが、EvoSuite SF110ベンチマークの2%以上のカバレッジを持つモデルはない。 生成されたテストは、Duplicated AssertsやEmpty Testsといったテストの臭いにも悩まされた。

A code generation model generates code by taking a prompt from a code comment, existing code, or a combination of both. Although code generation models (e.g., GitHub Copilot) are increasingly being adopted in practice, it is unclear whether they can successfully be used for unit test generation without fine-tuning. To fill this gap, we investigated how well three generative models (CodeGen, Codex, and GPT-3.5) can generate test cases. We used two benchmarks (HumanEval and Evosuite SF110) to investigate the context generation's effect in the unit test generation process. We evaluated the models based on compilation rates, test correctness, coverage, and test smells. We found that the Codex model achieved above 80% coverage for the HumanEval dataset, but no model had more than 2% coverage for the EvoSuite SF110 benchmark. The generated tests also suffered from test smells, such as Duplicated Asserts and Empty Tests.
翻訳日:2023-05-02 15:27:12 公開日:2023-04-30
# MFCCに基づく音声分類のためのトランスフォーマーに基づくシーケンスラベリング

Transformer-based Sequence Labeling for Audio Classification based on MFCCs ( http://arxiv.org/abs/2305.00417v1 )

ライセンス: Link先を確認
C. S. Sonali, Chinmayi B S, Ahana Balasubramanian(参考訳) 音声分類は音声や音楽認識などの分野において不可欠である。 Mel-SpectrogramsやMFCCsのような音声信号から特徴抽出は、音声分類における重要なステップである。 これらの特徴は分類のために分光図に変換される。 研究者は、スペクトログラムを分類する従来の機械学習やディープラーニングの手法を含む様々な技術を調査してきたが、これらは計算コストが高い可能性がある。 このプロセスを単純化するために、NLPのシーケンス分類にインスパイアされたより簡単なアプローチが利用できる。 MFCCを用いた音声分類のためのトランスフォーマーエンコーダモデルを提案する。 モデルはESC-50、Speech Commands v0.02、UrbanSound8kのデータセットに対してベンチマークされ、UrbanSound8kデータセットでモデルをトレーニングした際の最高精度は95.2%であった。 モデルは127,544の合計パラメータで構成されており、オーディオ分類タスクでは軽量だが高効率である。

Audio classification is vital in areas such as speech and music recognition. Feature extraction from the audio signal, such as Mel-Spectrograms and MFCCs, is a critical step in audio classification. These features are transformed into spectrograms for classification. Researchers have explored various techniques, including traditional machine and deep learning methods to classify spectrograms, but these can be computationally expensive. To simplify this process, a more straightforward approach inspired by sequence classification in NLP can be used. This paper proposes a Transformer-encoder-based model for audio classification using MFCCs. The model was benchmarked against the ESC-50, Speech Commands v0.02 and UrbanSound8k datasets and has shown strong performance, with the highest accuracy of 95.2% obtained upon training the model on the UrbanSound8k dataset. The model consisted of a mere 127,544 total parameters, making it light-weight yet highly efficient at the audio classification task.
翻訳日:2023-05-02 15:26:55 公開日:2023-04-30
# 単一フレーム空間画像におけるRSOストリークの自動検出のためのシミュレーション強化ベンチマークフレームワーク

A Simulation-Augmented Benchmarking Framework for Automatic RSO Streak Detection in Single-Frame Space Images ( http://arxiv.org/abs/2305.00412v1 )

ライセンス: Link先を確認
Zhe Chen, Yang Yang, Anne Bettens, Youngho Eun, Xiaofeng Wu(参考訳) 常駐宇宙物体(rsos)の検出と他の衛星との衝突の防止が重要である。 近年,大規模データセットが利用可能な場合,ディープ畳み込みニューラルネットワーク(DCNN)のオブジェクト検出性能が向上している。 しかし、宇宙画像にはほとんど発生しないため、RSOの豊富なデータ収集は困難である。 十分なデータがないと、dcnn検出器を総合的に訓練し、宇宙画像中のrsosを検出するのに効果的になるのは困難である。 異なる検出器の有意義な評価の欠如は、検出方法の設計と応用にさらに影響を及ぼす可能性がある。 この問題に対処するため, RSOを含む空間像をシミュレーションし, 生データの不足を補完し, より良いベンチマークを行う方法を提案する。 そこで我々は,RSO検出のための新しいシミュレーション拡張ベンチマークフレームワーク(SAB-RSOD)を提案する。 このフレームワークでは,実世界の空間画像をキャプチャするセンサのハードウェアパラメータを最大限に活用することにより,まず,様々な現実的空間画像を生成する高忠実度rsoシミュレータを開発する。 次に,このシミュレータを用いて,空間内の多様なrsosを含む画像を生成し,自動アノテーションを行う。 その後,合成画像と実世界の画像とを混合し,実世界の画像のみを用いて500枚の画像の訓練を行った。 SAB-RSODの下では、YoloやFaster RCNNのような様々な人気物体検出器を効果的に訓練することができ、それらの性能を徹底的に評価することができる。 評価の結果,ロバストなrso検出には,利用可能なデータ量と解像度の2つの重要な要因が示されている。 さらに,低解像度で高効率に使用した場合,UNetに基づく簡易検出手法が既に高い検出精度にアクセスできることを示した。

Detecting Resident Space Objects (RSOs) and preventing collisions with other satellites is crucial. Recently, deep convolutional neural networks (DCNNs) have shown superior performance in object detection when large-scale datasets are available. However, collecting rich data of RSOs is difficult due to very few occurrences in the space images. Without sufficient data, it is challenging to comprehensively train DCNN detectors and make them effective for detecting RSOs in space images, let alone to estimate whether a detector is sufficiently robust. The lack of meaningful evaluation of different detectors could further affect the design and application of detection methods. To tackle this issue, we propose that the space images containing RSOs can be simulated to complement the shortage of raw data for better benchmarking. Accordingly, we introduce a novel simulation-augmented benchmarking framework for RSO detection (SAB-RSOD). In our framework, by making the best use of the hardware parameters of the sensor that captures real-world space images, we first develop a high-fidelity RSO simulator that can generate various realistic space images. Then, we use this simulator to generate images that contain diversified RSOs in space and annotate them automatically. Later, we mix the synthetic images with the real-world images, obtaining around 500 images for training with only the real-world images for evaluation. Under SAB-RSOD, we can train different popular object detectors like Yolo and Faster RCNN effectively, enabling us to evaluate their performance thoroughly. The evaluation results have shown that the amount of available data and image resolution are two key factors for robust RSO detection. Moreover, if using a lower resolution for higher efficiency, we demonstrated that a simple UNet-based detection method can already access high detection accuracy.
翻訳日:2023-05-02 15:26:37 公開日:2023-04-30
# 3d cnnに基づくセグメンテーション, 転送学習, アダグラード最適化を用いたchd検出のための最適化機械学習

Optimized Machine Learning for CHD Detection using 3D CNN-based Segmentation, Transfer Learning and Adagrad Optimization ( http://arxiv.org/abs/2305.00411v1 )

ライセンス: Link先を確認
R. Selvaraj, T. Satheesh, V. Suresh, V. Yathavaraj(参考訳) 世界的には、冠動脈疾患(CHD)が死因の1つである。 CHDの早期検出は患者の予後を改善し、死亡率を低下させる。 本稿では,機械学習と画像処理を組み合わせることで,CHDの存在を予測する新しいフレームワークを提案する。 このフレームワークは、データの解析、resuefを用いた特徴選択、cnnに基づく3dセグメンテーション、転送学習による特徴抽出、特徴融合、分類、およびアダグラード最適化を含む様々なフェーズからなる。 提案フレームワークの最初のステップは、CHDを示す可能性のあるパターンと相関を識別するために、データを分析することである。 次に、サンプル画像から最も関連性の高い特徴を決定するためにReliefF機能選択を適用する。 次に、3D CNNに基づくセグメンテーション技術を用いて、CHD診断において重要な領域である光学ディスクとマキュラのセグメンテーションを行う。 伝達学習を用いた特徴抽出を行い、興味のあるセグメント領域から特徴を抽出する。 抽出した特徴を特徴融合技術を用いて融合し、CHDの存在を予測するために分類器を訓練する。 最後に、Adagrad最適化を使用して分類器のパフォーマンスを最適化する。 本フレームワークは,CHDおよび非HD患者から収集したサンプル画像のデータセットを用いて評価した。 その結果, 予測されるフレームワークはchdの存在予測において高い精度を達成できることがわかった。 SVMのような以前に使用されていた分類器と比べて、ある程度の精度を持つ特定のユーザか。

Globally, Coronary Heart Disease (CHD) is one of the main causes of death. Early detection of CHD can improve patient outcomes and reduce mortality rates. We propose a novel framework for predicting the presence of CHD using a combination of machine learning and image processing techniques. The framework comprises various phases, including analyzing the data, feature selection using ReliefF, 3D CNN-based segmentation, feature extraction by means of transfer learning, feature fusion as well as classification, and Adagrad optimization. The first step of the proposed framework involves analyzing the data to identify patterns and correlations that may be indicative of CHD. Next, ReliefF feature selection is applied to decide on the most relevant features from the sample images. The 3D CNN-based segmentation technique is then used to segment the optic disc and macula, which are important regions for CHD diagnosis. Feature extraction using transfer learning is performed to extract features from the segmented regions of interest. The extracted features are then fused using a feature fusion technique, and a classifier is trained to predict the presence of CHD. Finally, Adagrad optimization is used to optimize the performance of the classifier. Our framework is evaluated on a dataset of sample images collected from patients with and without CHD. The results show that the anticipated framework accomplishes elevated accuracy in predicting the presence of CHD. either a particular user with a reasonable degree of accuracy compared to the previously employed classifiers like SVM, etc.
翻訳日:2023-05-02 15:26:07 公開日:2023-04-30
# 有限状態レストレストマルチアームバンディットのインデクシング可能性とロールアウトポリシー

Indexability of Finite State Restless Multi-Armed Bandit and Rollout Policy ( http://arxiv.org/abs/2305.00410v1 )

ライセンス: Link先を確認
Vishesh Mittal, Rahul Meshram, Deepak Dev and Surya Prakash(参考訳) 有限状態定常多武装バンディット問題を考える。 意思決定者は、各タイムステップでNのバンドイットからMのバンドイットに作用することができる。 腕(アクティブアーム)の演奏は、動作に基づいて状態依存の報酬を与えるが、腕が演奏されていない場合は、状態と動作に基づいて報酬を与える。 決定者の目的は、無限の地平線割引報酬を最大化することである。 restless banditsに対する古典的なアプローチは、whitle index policyである。 このような政策では、最高指標のMアームが各ステップで演奏される。 ここで、リラックスした制約付きrestless bandits問題を分析して、restless bandits問題を分離する。 そして、ラグランジアン緩和問題により、1つのスリーレスバンディット問題をN個のスリーレスバンディット問題に分解する。 単腕レストレスバンディットの分析を行う。 ウィトル指数政策を研究するために,単一武装バンディットモデルを用いて構造的な結果を示す。 指数性を定義し、特別の場合において指数性を示す。 本稿では,値反復アルゴリズムを用いて,単一武装バンディットモデルの指標基準を検証するための代替手法を提案する。 我々は,このアルゴリズムの性能を実例で示す。 遷移確率と報酬行列の異なる構造的仮定を用いて,restless banditのインデクシング可能性の条件について考察する。 また、オンラインロールアウトポリシーについて検討し、アルゴリズムの計算複雑性を考察し、インデックス計算の複雑さと比較する。 数値的な例は、インデックスポリシーとロールアウトポリシーがミオピックポリシーよりも優れていることを示している。

We consider finite state restless multi-armed bandit problem. The decision maker can act on M bandits out of N bandits in each time step. The play of arm (active arm) yields state dependent rewards based on action and when the arm is not played, it also provides rewards based on the state and action. The objective of the decision maker is to maximize the infinite horizon discounted reward. The classical approach to restless bandits is Whittle index policy. In such policy, the M arms with highest indices are played at each time step. Here, one decouples the restless bandits problem by analyzing relaxed constrained restless bandits problem. Then by Lagrangian relaxation problem, one decouples restless bandits problem into N single-armed restless bandit problems. We analyze the single-armed restless bandit. In order to study the Whittle index policy, we show structural results on the single armed bandit model. We define indexability and show indexability in special cases. We propose an alternative approach to verify the indexable criteria for a single armed bandit model using value iteration algorithm. We demonstrate the performance of our algorithm with different examples. We provide insight on condition of indexability of restless bandits using different structural assumptions on transition probability and reward matrices. We also study online rollout policy and discuss the computation complexity of algorithm and compare that with complexity of index computation. Numerical examples illustrate that index policy and rollout policy performs better than myopic policy.
翻訳日:2023-05-02 15:25:44 公開日:2023-04-30
# 逐次実験後の最適試験

Optimal tests following sequential experiments ( http://arxiv.org/abs/2305.00403v1 )

ライセンス: Link先を確認
Karun Adusumilli(参考訳) 近年,逐次実験の理論と応用が飛躍的に進歩している。 これらの実験は常に仮説検証を念頭に置いて設計されているわけではないが、実験が完了した後もテストの実行に関心があるかもしれない。 本研究の目的は,その漸近的性質を解析し,逐次実験の最適テストの開発を支援することである。 我々の重要な発見は、あらゆるテストの漸近的なパワー関数は、各処理でガウス過程が観測され、これらのプロセスのドリフトに対する推論が行われる極限実験において、テストによって一致させることができることである。 この結果は、強力なsufficiency結果を含む重要な意味を持つ: どんな候補テストも、逐次実験の種類に関わらず、一定の統計セットのみに依存する必要がある。 これらの統計は、各治療が実験の終了までにサンプリングされた回数であり、各治療のスコア(パラメトリックモデル)の最終値や効率的な影響関数(非パラメトリックモデル)のプロセスも合わせている。 次に,不偏性,\alpha-spending制約など様々な制約下での漸近的最適検定を特徴付ける。 最後に,本研究の結果を,コストライジング,グループシーケンシャルトライアル,バンドイット実験の3つの重要な段階に適用し,これらのシナリオにおいて最適な推論を行う方法を示す。

Recent years have seen tremendous advances in the theory and application of sequential experiments. While these experiments are not always designed with hypothesis testing in mind, researchers may still be interested in performing tests after the experiment is completed. The purpose of this paper is to aid in the development of optimal tests for sequential experiments by analyzing their asymptotic properties. Our key finding is that the asymptotic power function of any test can be matched by a test in a limit experiment where a Gaussian process is observed for each treatment, and inference is made for the drifts of these processes. This result has important implications, including a powerful sufficiency result: any candidate test only needs to rely on a fixed set of statistics, regardless of the type of sequential experiment. These statistics are the number of times each treatment has been sampled by the end of the experiment, along with final value of the score (for parametric models) or efficient influence function (for non-parametric models) process for each treatment. We then characterize asymptotically optimal tests under various restrictions such as unbiasedness, \alpha-spending constraints etc. Finally, we apply our our results to three key classes of sequential experiments: costly sampling, group sequential trials, and bandit experiments, and show how optimal inference can be conducted in these scenarios.
翻訳日:2023-05-02 15:25:25 公開日:2023-04-30
# 可変スライスワッサースタイン推定器

Control Variate Sliced Wasserstein Estimators ( http://arxiv.org/abs/2305.00402v1 )

ライセンス: Link先を確認
Khai Nguyen and Nhat Ho(参考訳) 2つの確率測度の間のスライスされたワッサーシュタイン距離は、2つの1次元射影の間のワッサースタイン距離の期待値として定義される。 ランダム性は、2つの入力測度を1次元に投影するために使用される投影方向から生じる。 予測の難易度のために、SW距離の値を推定するためにモンテカルロ積分が実行される。 様々な変種があるにもかかわらず、その分散を制御するという点で、SW距離に対するモンテカルロ推定法を改善する以前の研究はない。 分散低減に関する文献とsw距離に関する文献とを橋渡しするため,sw距離の経験的推定のばらつきを低減すべく,計算効率の良い制御変数を提案する。 鍵となる考え方は、まず射影された1次元測度のガウス近似を見つけ、次に2つのガウス分布の間のワッサーシュタイン-2距離の閉形式を利用して制御変数を設計することである。 特に,2つのガウス間のワッサーシュタイン-2距離の下界と上界を2つの計算効率のよい制御変数として用いることを提案する。 提案した制御変数推定器は,画像と点雲の測度を比較する際に,ばらつきを著しく低減できることを示す。 最後に,2つの点クラウド間を補間する勾配流と,cifar10やcelebaなどの標準画像データセットの深い生成モデルにおいて,提案する制御変数推定器の性能を示す。

The sliced Wasserstein (SW) distances between two probability measures are defined as the expectation of the Wasserstein distance between two one-dimensional projections of the two measures. The randomness comes from a projecting direction that is used to project the two input measures to one dimension. Due to the intractability of the expectation, Monte Carlo integration is performed to estimate the value of the SW distance. Despite having various variants, there has been no prior work that improves the Monte Carlo estimation scheme for the SW distance in terms of controlling its variance. To bridge the literature on variance reduction and the literature on the SW distance, we propose computationally efficient control variates to reduce the variance of the empirical estimation of the SW distance. The key idea is to first find Gaussian approximations of projected one-dimensional measures, then we utilize the closed-form of the Wasserstein-2 distance between two Gaussian distributions to design the control variates. In particular, we propose using a lower bound and an upper bound of the Wasserstein-2 distance between two fitted Gaussians as two computationally efficient control variates. We empirically show that the proposed control variate estimators can help to reduce the variance considerably when comparing measures over images and point-clouds. Finally, we demonstrate the favorable performance of the proposed control variate estimators in gradient flows to interpolate between two point-clouds and in deep generative modeling on standard image datasets, such as CIFAR10 and CelebA.
翻訳日:2023-05-02 15:25:02 公開日:2023-04-30
# SLSG: より良い特徴埋め込みと一クラス分類を学習した産業画像異常検出

SLSG: Industrial Image Anomaly Detection by Learning Better Feature Embeddings and One-Class Classification ( http://arxiv.org/abs/2305.00398v1 )

ライセンス: Link先を確認
Minghui Yang, Jing Liu, Zhiwei Yang, and Zhaoyang Wu(参考訳) 一級分類の設定による産業画像異常検出は重要な実用性を有する。 しかし、既存のモデルの多くは、特徴埋め込みを行う際に分離可能な特徴表現を抽出するのに苦労し、一方のクラス分類を行う際に通常の特徴のコンパクトな記述を構築するのに苦労している。 この直接的な結果の1つは、ほとんどのモデルが文脈的関係に反する論理的異常を検出するのに不十分であるということである。 本稿では,より効果的かつ包括的な異常検出に着目し,自己教師付き学習と自己認識グラフ畳み込み(SLSG)に基づく異常検出ネットワークを提案する。 SLSGは生成前トレーニングネットワークを使用して、エンコーダが通常のパターンの埋め込みと位置関係の推論を学ぶのを支援する。 その後、SLSGは、模擬異常サンプルを通して異常の擬似事前知識を導入する。 シミュレーションされた異常を比較することで、slsgは通常の特徴をよりよく要約し、一級分類に使われる超球を狭めることができる。 さらに、より一般的なグラフ構造を構築することにより、SLSGは画像内の要素間の密度とスパースの関係を包括的にモデル化し、論理異常の検出をさらに強化する。 ベンチマークデータセットの大規模な実験により,SLSGは優れた異常検出性能を示し,本手法の有効性を示した。

Industrial image anomaly detection under the setting of one-class classification has significant practical value. However, most existing models struggle to extract separable feature representations when performing feature embedding and struggle to build compact descriptions of normal features when performing one-class classification. One direct consequence of this is that most models perform poorly in detecting logical anomalies which violate contextual relationships. Focusing on more effective and comprehensive anomaly detection, we propose a network based on self-supervised learning and self-attentive graph convolution (SLSG) for anomaly detection. SLSG uses a generative pre-training network to assist the encoder in learning the embedding of normal patterns and the reasoning of position relationships. Subsequently, SLSG introduces the pseudo-prior knowledge of anomaly through simulated abnormal samples. By comparing the simulated anomalies, SLSG can better summarize the normal features and narrow down the hypersphere used for one-class classification. In addition, with the construction of a more general graph structure, SLSG comprehensively models the dense and sparse relationships among elements in the image, which further strengthens the detection of logical anomalies. Extensive experiments on benchmark datasets show that SLSG achieves superior anomaly detection performance, demonstrating the effectiveness of our method.
翻訳日:2023-05-02 15:24:39 公開日:2023-04-30
# TransCAR:3Dオブジェクト検出のためのトランスフォーマーベースカメラとレーダーフュージョン

TransCAR: Transformer-based Camera-And-Radar Fusion for 3D Object Detection ( http://arxiv.org/abs/2305.00397v1 )

ライセンス: Link先を確認
Su Pang, Daniel Morris, Hayder Radha(参考訳) レーダーが自動車業界で人気があるにもかかわらず、核融合ベースの3Dオブジェクト検出では、既存のほとんどの研究はLiDARとカメラの融合に焦点を当てている。 本稿では,トランスフォーマーを用いた3次元物体検出のためのカメラ・アンド・レーダー融合ソリューションであるTransCARを提案する。 TransCARは2つのモジュールで構成されています。 最初のモジュールは、サラウンドビューカメライメージから2D機能を学び、3Dオブジェクトクエリのスパースセットを使用してこれらの2D機能にインデクシングする。 視覚更新されたクエリは、transformerのセルフアテンション層を介して相互に対話する。 2つ目のモジュールは、複数のレーダースキャンからレーダ機能を学び、次にトランスフォーマーデコーダを適用して、レーダ機能とビジョン更新クエリ間のインタラクションを学習する。 トランスデコーダ内のクロスアテンション層は、センサキャリブレーションのみに基づくハードアテンションではなく、レーダ特徴と視覚更新クエリとのソフトアセンシングを適応的に学習することができる。 最後に,本モデルでは,設定から設定までのハンガリー損失を用いて,クエリ毎のバウンディングボックスを推定する。 transcarは時間情報なしでレーダースキャンを用いて速度推定を改善する。 挑戦的なnuScenesデータセットに対するTransCARの優れた実験結果は、TransCARが最先端のCamera-Radar融合に基づく3Dオブジェクト検出アプローチより優れていることを示している。

Despite radar's popularity in the automotive industry, for fusion-based 3D object detection, most existing works focus on LiDAR and camera fusion. In this paper, we propose TransCAR, a Transformer-based Camera-And-Radar fusion solution for 3D object detection. Our TransCAR consists of two modules. The first module learns 2D features from surround-view camera images and then uses a sparse set of 3D object queries to index into these 2D features. The vision-updated queries then interact with each other via transformer self-attention layer. The second module learns radar features from multiple radar scans and then applies transformer decoder to learn the interactions between radar features and vision-updated queries. The cross-attention layer within the transformer decoder can adaptively learn the soft-association between the radar features and vision-updated queries instead of hard-association based on sensor calibration only. Finally, our model estimates a bounding box per query using set-to-set Hungarian loss, which enables the method to avoid non-maximum suppression. TransCAR improves the velocity estimation using the radar scans without temporal information. The superior experimental results of our TransCAR on the challenging nuScenes datasets illustrate that our TransCAR outperforms state-of-the-art Camera-Radar fusion-based 3D object detection approaches.
翻訳日:2023-05-02 15:24:18 公開日:2023-04-30
# 逆ニューラルレンダリングによる動的シーンの物体中心ボクセル化

Object-Centric Voxelization of Dynamic Scenes via Inverse Neural Rendering ( http://arxiv.org/abs/2305.00393v1 )

ライセンス: Link先を確認
Siyu Gao, Yanpeng Zhao, Yunbo Wang, Xiaokang Yang(参考訳) 教師なしの3Dシナリオで世界の構成力学を理解することは難しい。 既存のアプローチでは、タイムキューを効果的に利用できないか、シーン分解のマルチビュー一貫性を無視している。 本稿では,複数の実体(オブジェクトなど)を持つ動的シーンの時間変化容積表現をパイロットで学習するための,逆ニューラルネットワークレンダリングフレームワークであるDynaVolを提案する。 主な貢献は2つある。 まず、時間依存の3Dグリッドを維持し、空間的位置を異なるエンティティに動的かつ柔軟に結合し、表現レベルで情報の分離を促進する。 第2に, グリッドレベルの局所力学, オブジェクトレベルの大域的力学, 構成的ニューラルラジアンス場をエンドツーエンドアーキテクチャで共同学習することにより, オブジェクト中心のシーンボキセル化の時空間的一貫性を向上させる。 ダイナボリの2段階のトレーニングスキームを提示し,マルチオブジェクト,多様なダイナミクス,実世界の形状とテクスチャを用いた様々なベンチマークでの有効性を検証する。 可視化はhttps://sites.google.com/view/dynavol-visual.comで行います。

Understanding the compositional dynamics of the world in unsupervised 3D scenarios is challenging. Existing approaches either fail to make effective use of time cues or ignore the multi-view consistency of scene decomposition. In this paper, we propose DynaVol, an inverse neural rendering framework that provides a pilot study for learning time-varying volumetric representations for dynamic scenes with multiple entities (like objects). It has two main contributions. First, it maintains a time-dependent 3D grid, which dynamically and flexibly binds the spatial locations to different entities, thus encouraging the separation of information at a representational level. Second, our approach jointly learns grid-level local dynamics, object-level global dynamics, and the compositional neural radiance fields in an end-to-end architecture, thereby enhancing the spatiotemporal consistency of object-centric scene voxelization. We present a two-stage training scheme for DynaVol and validate its effectiveness on various benchmarks with multiple objects, diverse dynamics, and real-world shapes and textures. We present visualization at https://sites.google.com/view/dynavol-visual.
翻訳日:2023-05-02 15:23:55 公開日:2023-04-30
# 中国語と英語の両言語を持つ非ネイティブ音声コーパスの構築

Building a Non-native Speech Corpus Featuring Chinese-English Bilingual Children: Compilation and Rationale ( http://arxiv.org/abs/2305.00446v1 )

ライセンス: Link先を確認
Hiuchung Hung, Andreas Maier, Thorsten Piske(参考訳) 本稿では,5歳から6歳までの中英語児童の物語からなる非母語音声コーパスを紹介する。 英語のナラティブ理解テスト(l2)を受ける子どもの6.5時間分の書き起こしと、人間の評価スコアと文法的・発音的誤りの注釈を提示する。 子どもたちは中国語(L1)での並行MAIN試験を参考に完了した。 すべてのテストで、革新的な遠隔収集手法でオーディオとビデオを録音しました。 ビデオ録画は、幼児の転写過程におけるL2物語の低知能化の課題を軽減するのに役立つ。 このコーパスは、第二言語教育に貴重なリソースを提供し、自動音声認識(ASR)の全体的な性能を高める可能性がある。

This paper introduces a non-native speech corpus consisting of narratives from fifty 5- to 6-year-old Chinese-English children. Transcripts totaling 6.5 hours of children taking a narrative comprehension test in English (L2) are presented, along with human-rated scores and annotations of grammatical and pronunciation errors. The children also completed the parallel MAIN tests in Chinese (L1) for reference purposes. For all tests we recorded audio and video with our innovative self-developed remote collection methods. The video recordings serve to mitigate the challenge of low intelligibility in L2 narratives produced by young children during the transcription process. This corpus offers valuable resources for second language teaching and has the potential to enhance the overall performance of automatic speech recognition (ASR).
翻訳日:2023-05-02 15:16:30 公開日:2023-04-30
# 超低温二原子分子におけるqubitエンコーディングの一般分類

General classification of qubit encodings in ultracold diatomic molecules ( http://arxiv.org/abs/2305.00445v1 )

ライセンス: Link先を確認
K. Asnaashari, R. V. Krems, T. V. Tscherbul(参考訳) その豊富な内部構造と重要な長距離相互作用により、超低温分子は量子情報のキャリアとして広く研究されてきた。 キュービットを分子状態に変換するためのいくつかの異なるスキームが提案されている。 同時に、分子の豊富な内部構造は、qubitエンコーディングに対する多くの未解決の可能性を残している。 すべての分子量子ビット符号化は、量子ビット間の効果的な相互作用のタイプによって4つのクラスに分類できることを示す。 極性分子の場合、四つのクラスは単一の分子基底における双極子モーメント作用素の行列要素の相対等級によって決定される。 我々は、実効スピン1/2系の新しいタイプの非隣接回転状態(例えば、$N=0$と$N=2$)に、同じ核スピンプロジェクションを持つ極性分子と非極性分子を符号化することで、分類方式を実証する。 本手法は,量子情報ストレージや処理アプリケーション,多体絡み合った状態の動的生成,および量子アニールのための分子量子ビット符号化の最適選択を通知するために設計されている。

Owing to their rich internal structure and significant long-range interactions, ultracold molecules have been widely explored as carriers of quantum information. Several different schemes for encoding qubits into molecular states, both bare and field-dressed, have been proposed. At the same time, the rich internal structure of molecules leaves many unexplored possibilities for qubit encodings. We show that all molecular qubit encodings can be classified into four classes by the type of the effective interaction between the qubits. In the case of polar molecules, the four classes are determined by the relative magnitudes of matrix elements of the dipole moment operator in the single molecule basis. We exemplify our classification scheme by considering a new type of encoding of the effective spin-1/2 system into non-adjacent rotational states (e.g., $N=0$ and $N=2$) of polar and non-polar molecules with the same nuclear spin projection. Our classification scheme is designed to inform the optimal choice of molecular qubit encoding for quantum information storage and processing applications, as well as for dynamical generation of many-body entangled states and for quantum annealing.
翻訳日:2023-05-02 15:16:18 公開日:2023-04-30
# 局所タスク類似性によるニューロン生成と除去を用いたマルチタスク構造学習

Multi-Task Structural Learning using Local Task Similarity induced Neuron Creation and Removal ( http://arxiv.org/abs/2305.00441v1 )

ライセンス: Link先を確認
Naresh Kumar Gurulingan, Bahram Zonooz, Elahe Arani(参考訳) マルチタスク学習は、タスク間のポジティブな転送を最大化し、タスクの干渉を減らすことで、一般化を改善する可能性がある。 この可能性を完全に達成することは、トレーニングを通じて静的な手動設計のアーキテクチャによって妨げられます。 逆に、脳内での学習は、シナプス強度の変化と直交する構造変化によって起こる。 そこで我々は,マルチタスクアーキテクチャとそのパラメータを同時に学習する \textit{multi-task structural learning (mtsl)" を提案する。 MTSLはタスクごとに同一の単一タスクネットワークから始まり、タスク学習フェーズと構造学習フェーズを交互に切り替える。 タスク学習フェーズでは、各ネットワークは対応するタスクを専門とする。 最初期のレイヤから始まる各構造学習フェーズでは、ローカルに類似したタスク層が、最初にその知識を新しく作成されたグループ層に転送し、削除する。 MTSLは、対応する削除されたタスク層の代わりにグループ層を使用し、次のレイヤに移動します。 実験の結果,mtslは様々なベースラインで競争的一般化を達成し,分散データのロバスト性が向上した。

Multi-task learning has the potential to improve generalization by maximizing positive transfer between tasks while reducing task interference. Fully achieving this potential is hindered by manually designed architectures that remain static throughout training. On the contrary, learning in the brain occurs through structural changes that are in tandem with changes in synaptic strength. Thus, we propose \textit{Multi-Task Structural Learning (MTSL)} that simultaneously learns the multi-task architecture and its parameters. MTSL begins with an identical single-task network for each task and alternates between a task-learning phase and a structural-learning phase. In the task learning phase, each network specializes in the corresponding task. In each of the structural learning phases, starting from the earliest layer, locally similar task layers first transfer their knowledge to a newly created group layer before being removed. MTSL then uses the group layer in place of the corresponding removed task layers and moves on to the next layers. Our empirical results show that MTSL achieves competitive generalization with various baselines and improves robustness to out-of-distribution data.
翻訳日:2023-05-02 15:15:59 公開日:2023-04-30
# 一方向ホッピングを用いたBose Hubbardモデルの厳密解

Exact solution of Bose Hubbard model with unidirectional hopping ( http://arxiv.org/abs/2305.00439v1 )

ライセンス: Link先を確認
Mingchen Zheng, Yi Qiao, Yupeng Wang, Junpeng Cao, Shu Chen(参考訳) 一方向ホッピングのある1次元ボースハバードモデルが正確に解くことができる。 代数的bethe ansatz法を適用し,モデルの可積分性を証明し,bethe ansatz方程式を導出する。 正確な固有値スペクトルはこれらの方程式を解くことで得られる。 Bethe根の分布は、基底状態における超流動モット絶縁体転移の存在を明らかにし、臨界点を決定する。 境界パラメータの調整により,相互作用の有無においても非エルミート皮膚効果の存在を示すが,モット絶縁体状態に対しては完全に抑制される。 その結果, 完全可解な非エルミート多体系の新しいクラスを示し, エルミート対応を持たず, 非ヘルミート多体系のために開発された各種数値手法のベンチマークとして利用できる。

A one-dimensional Bose Hubbard model with unidirectional hopping is shown to be exactly solvable. Applying the algebraic Bethe ansatz method, we prove the integrability of the model and derive the Bethe ansatz equations. The exact eigenvalue spectrum can be obtained by solving these equations. The distribution of Bethe roots reveals the presence of a superfluid-Mott insulator transition at the ground state, and the critical point is determined. By adjusting the boundary parameter, we demonstrate the existence of non-Hermitian skin effect even in the presence of interaction, but it is completely suppressed for the Mott insulator state. Our result represents a new class of exactly solvable non-Hermitian many-body systems, which have no Hermitian correspondence and can be used as a benchmark for various numerical techniques developed for non-Hermitian many-body systems.
翻訳日:2023-05-02 15:15:38 公開日:2023-04-30
# META-SMGO-$\Delta$: ブラックボックス最適化における事前の類似性

META-SMGO-$\Delta$: similarity as a prior in black-box optimization ( http://arxiv.org/abs/2305.00438v1 )

ライセンス: Link先を確認
Riccardo Busetto, Valentina Breschi, Simone Formentin(参考訳) 実際にグローバルな最適化問題を解決する場合、互いに類似した問題を何度も解決する。 本研究は、類似性の厳密な定義を提供することにより、最近文献で提唱されたグローバル最適化アプローチであるsmgo-$\delta$にメタラーニングの理論的根拠を取り入れ、類似した過去の経験から得られた先行事項を活用し、新しい(類似した)問題を効率的に解くことを提案する。 ベンチマークの数値的な例を通して、ベースラインアルゴリズムのMETA拡張の実用的利点を示し、その性能に関する理論的限界を提供する。

When solving global optimization problems in practice, one often ends up repeatedly solving problems that are similar to each others. By providing a rigorous definition of similarity, in this work we propose to incorporate the META-learning rationale into SMGO-$\Delta$, a global optimization approach recently proposed in the literature, to exploit priors obtained from similar past experience to efficiently solve new (similar) problems. Through a benchmark numerical example we show the practical benefits of our META-extension of the baseline algorithm, while providing theoretical bounds on its performance.
翻訳日:2023-05-02 15:15:23 公開日:2023-04-30
# ブロブ検出のための2次異方性ガウス方向微分フィルタ

Second-order Anisotropic Gaussian Directional Derivative Filters for Blob Detection ( http://arxiv.org/abs/2305.00435v1 )

ライセンス: Link先を確認
Jie Ren, Wenya Yu, Jiapan Guo, Weichuan Zhang, Changming Sun(参考訳) 関心点検出手法は注目度が高く,画像検索や3次元再構成などのコンピュータビジョンタスクに広く利用されている。 本研究では,複数スケールの2次異方性ガウス方向導波フィルタを用いて入力画像の平滑化を行い,新しいブロブ検出法を提案する。 アフィン変換に対する検出性能とロバスト性の観点から,提案手法が最先端ベンチマークよりも優れていることを示す。

Interest point detection methods have received increasing attention and are widely used in computer vision tasks such as image retrieval and 3D reconstruction. In this work, second-order anisotropic Gaussian directional derivative filters with multiple scales are used to smooth the input image and a novel blob detection method is proposed. Extensive experiments demonstrate the superiority of our proposed method over state-of-the-art benchmarks in terms of detection performance and robustness to affine transformations.
翻訳日:2023-05-02 15:15:10 公開日:2023-04-30
# EVREAL:イベントベースビデオ再構成のための総合ベンチマークと分析スイート

EVREAL: Towards a Comprehensive Benchmark and Analysis Suite for Event-based Video Reconstruction ( http://arxiv.org/abs/2305.00434v1 )

ライセンス: Link先を確認
Burak Ercan, Onur Eker, Aykut Erdem, Erkut Erdem(参考訳) イベントカメラは、非同期と独立のピクセルを内蔵した新しいタイプの視覚センサーであり、高ダイナミックレンジや最小のモーションボケのような従来のフレームベースのカメラよりも利点がある。 しかし、その出力は人間が容易に理解できないため、イベントストリームからの強度画像の復元は、イベントベースのビジョンにおける基本的なタスクである。 近年の深層学習に基づく手法は,イベントからの映像再構成において有望であるが,この問題はまだ完全に解決されていない。 異なるアプローチの比較を容易にするため、標準化された評価プロトコルと多様なテストデータセットが不可欠である。 本稿では,統一評価手法を提案し,EVREALと呼ばれるオープンソースのフレームワークを導入し,様々なイベントベースビデオ再構成手法を総合的にベンチマークし分析する。 evrealを用いて,イベントベースの映像再構成のための最先端手法の詳細な分析を行い,さまざまな設定,課題シナリオ,ダウンストリームタスクにおいて,これらの手法のパフォーマンスに関する貴重な洞察を提供する。

Event cameras are a new type of vision sensor that incorporates asynchronous and independent pixels, offering advantages over traditional frame-based cameras such as high dynamic range and minimal motion blur. However, their output is not easily understandable by humans, making the reconstruction of intensity images from event streams a fundamental task in event-based vision. While recent deep learning-based methods have shown promise in video reconstruction from events, this problem is not completely solved yet. To facilitate comparison between different approaches, standardized evaluation protocols and diverse test datasets are essential. This paper proposes a unified evaluation methodology and introduces an open-source framework called EVREAL to comprehensively benchmark and analyze various event-based video reconstruction methods from the literature. Using EVREAL, we give a detailed analysis of the state-of-the-art methods for event-based video reconstruction, and provide valuable insights into the performance of these methods under varying settings, challenging scenarios, and downstream tasks.
翻訳日:2023-05-02 15:15:03 公開日:2023-04-30
# ドローン画像におけるゼブラの合成データに基づく検出

Synthetic Data-based Detection of Zebras in Drone Imagery ( http://arxiv.org/abs/2305.00432v1 )

ライセンス: Link先を確認
Elia Bonetto and Aamir Ahmad(参考訳) 一般的な物体や人体検出器の訓練を可能にするデータセットは広く利用可能である。 これらはラベル付き実世界のイメージの形で提供され、ラベルの欠如やVICONシステムのような非常に制約のあるシナリオのような高いエラーの確率で、かなりの量の人的努力を必要とする。 同様に、空を眺める、野生のシマウマのような動物や、人間の形として分かりにくい情報など、ありふれたシナリオもほとんどない。 これを解決するため、リアルなレンダリング技術を用いた合成データ生成の利用は、最近勢いを増し、ターゲット追跡や人間のポーズ推定といった高度なタスクが進められている。 しかし、野生動物のような対象は通常そのようなデータセットではよく表現されない。 本研究は,まず,事前学習したYOLO検出器が,空中から記録した実画像中のゼブラを識別できないことを示す。 そこで本研究では,合成データのみを用いて動物検出器を訓練する手法を提案する。 まず、データ生成のための最先端フレームワークであるGRADEを用いて、新しい合成ゼブラデータセットを生成する。 データセットには、RGB、深さ、骨格関節位置、ポーズ、形状、各被験者のインスタンスセグメンテーションが含まれる。 これを使って、YOLO検出器をゼロからトレーニングします。 実世界のデータを用いたモデルの評価を通して 一 インターネットで利用可能な限られたデータセット及び 二 訓練中に合成データのみを用いて、新たに収集し、手作業でラベルづけしたゼブラを検出できることを示す。 コード、結果、トレーニングされたモデル、および生成されたデータおよびトレーニングデータは、https://keeper.mpdl.mpg.de/12abb3bb6b12491480d5/でオープンソースとして提供される。

Datasets that allow the training of common objects or human detectors are widely available. These come in the form of labelled real-world images and require either a significant amount of human effort, with a high probability of errors such as missing labels, or very constrained scenarios, e.g. VICON systems. Likewise, uncommon scenarios, like aerial views, animals, like wild zebras, or difficult-to-obtain information as human shapes, are hardly available. To overcome this, usage of synthetic data generation with realistic rendering technologies has recently gained traction and advanced tasks like target tracking and human pose estimation. However, subjects such as wild animals are still usually not well represented in such datasets. In this work, we first show that a pre-trained YOLO detector can not identify zebras in real images recorded from aerial viewpoints. To solve this, we present an approach for training an animal detector using only synthetic data. We start by generating a novel synthetic zebra dataset using GRADE, a state-of-the-art framework for data generation. The dataset includes RGB, depth, skeletal joint locations, pose, shape and instance segmentations for each subject. We use this to train a YOLO detector from scratch. Through extensive evaluations of our model with real-world data from i) limited datasets available on the internet and ii) a new one collected and manually labelled by us, we show that we can detect zebras by using only synthetic data during training. The code, results, trained models, and both the generated and training data are provided as open-source at https://keeper.mpdl.mpg.de/d/12abb3bb6b12491480d5/.
翻訳日:2023-05-02 15:14:45 公開日:2023-04-30
# 自動音符転写における楽器間の知識伝達

Transfer of knowledge among instruments in automatic music transcription ( http://arxiv.org/abs/2305.00426v1 )

ライセンス: Link先を確認
Micha{\l} Le\'s and Micha{\l} Wo\'zniak(参考訳) 自動音楽書き起こし (AMT) は、音楽情報検索領域において最も困難なタスクの1つである。 音楽の録音を音符、和音、リズムに関する情報を含む象徴的な表現に変換する過程である。 この領域における最近の研究は、トランスフォーマーアーキテクチャに基づく新しいモデルの開発や、半教師付きトレーニングを行う方法の開発に焦点を合わせているが、これらのモデルのトレーニングの計算コストは巨大である。 この研究は、ソフトウェアシンセサイザーが生成した合成音声データを使って、普遍的なモデルを訓練する方法を示す。 他の楽器の転写モデルに迅速に適応するためには、さらなる転写学習の基盤となる。 その結果, 合成データを用いた学習は, 1つの楽器に焦点をあてない汎用モデルの事前学習の基盤となる可能性が示唆された。

Automatic music transcription (AMT) is one of the most challenging tasks in the music information retrieval domain. It is the process of converting an audio recording of music into a symbolic representation containing information about the notes, chords, and rhythm. Current research in this domain focuses on developing new models based on transformer architecture or using methods to perform semi-supervised training, which gives outstanding results, but the computational cost of training such models is enormous. This work shows how to employ easily generated synthesized audio data produced by software synthesizers to train a universal model. It is a good base for further transfer learning to quickly adapt transcription model for other instruments. Achieved results prove that using synthesized data for training may be a good base for pretraining general-purpose models, where the task of transcription is not focused on one instrument.
翻訳日:2023-05-02 15:14:19 公開日:2023-04-30
# 微小流体流路内磁気液滴検出のための高分解能磁気ガイドを用いた光ポンピング磁気センサ

Optically Pumped Magnetometer with High Spatial Resolution Magnetic Guide for the Detection of Magnetic Droplets in a Microfluidic Channel ( http://arxiv.org/abs/2305.00421v1 )

ライセンス: Link先を確認
Marc Jofre, Jordi Romeu and Luis Jofre-Roca(参考訳) 量子センサーは前例のない磁場検出感度を提供し、用途や動作環境の共通の磁気測定範囲を拡張することができる。 この枠組みでは、バイオメディカル研究、環境モニタリング、産業生産のための高空間分解能磁気測定も要求される。 この点において、光ポンピング磁力計(opm)は顕著な候補と見なされているが、マイクロメートルの磁気粒子(例えば磁気滴)では大きさが損なわれている。 この制限に対処するため,小型PMにマイクロメーターからミリ磁気ガイドを加える効果について検討した。 この装置は、最大25ドルの速度で流れるfe3o4磁気滴を検出するために適用される。 マイクロ流体チャネルにおける/s。 計算された空間分解能は300$\mu$mで、測定されたSNRは、考慮された磁気滴のサイズの違いに対して15$dB以上である。

Quantum sensors provide unprecedented magnetic field detection sensitivities, enabling these to extend the common magnetometry range of applications and environments of operation. In this framework, many applications also require high spatial resolution magnetic measurements for biomedical research, environmental monitoring and industrial production. In this regard, Optically Pumped Magnetometers (OPMs) are considered as prominent candidates, but are impaired in size with micrometer scale magnetic particles, e.g. magnetic droplets. In order to address this limitation, here we study the effects of adding a micrometer-to-millimeter magnetic guide to a miniature OPM. This device is applied to detect Fe3O4 magnetic droplets flowing at rates up to $25$ drop./s in a microfluidic channel. The computed spatial resolution is $300$ $\mu$m and the measured SNR is larger than $15$ dB for the different sizes of considered magnetic droplets.
翻訳日:2023-05-02 15:14:07 公開日:2023-04-30
# 地球規模予測モデルの予測精度に基づく時系列クラスタリング

Time series clustering based on prediction accuracy of global forecasting models ( http://arxiv.org/abs/2305.00473v1 )

ライセンス: Link先を確認
\'Angel L\'opez Oriona, Pablo Montero Manso and Jos\'e Antonio Vilar Fern\'andez(参考訳) 本稿では,時系列のモデルに基づくクラスタリングを行う新しい手法を提案する。 手順は2つの反復的なステップに依存します。 (i)各クラスタに関連するシリーズを考慮し、プールを通してKグローバル予測モデルを取り付ける (ii)各シリーズは、特定の基準に従って最適な予測を生成するモデルに関連するグループに割り当てられる。 文献に提案されているほとんどの手法とは異なり、予測精度をクラスタリング分割を構成する主要素として考慮し、予測誤差全体の最小化グループを含む。 このようにしてこのアプローチは、クラスタリングソリューションの品質を予測能力の観点から測定する、新たなクラスタリングパラダイムへと導かれる。 さらに、このプロシージャは時系列データベース内のクラスタ数を選択するための効果的なメカニズムを生み出し、任意の回帰モデルと組み合わせて使用することができる。 提案手法は,クラスタリングの有効性と予測精度の両方において,いくつかの代替手法よりも優れていることを示す。 このアプローチは、時系列の文献で標準ベンチマークとして使用されるいくつかのデータセットでのクラスタリングにも適用され、優れた結果が得られる。

In this paper, a novel method to perform model-based clustering of time series is proposed. The procedure relies on two iterative steps: (i) K global forecasting models are fitted via pooling by considering the series pertaining to each cluster and (ii) each series is assigned to the group associated with the model producing the best forecasts according to a particular criterion. Unlike most techniques proposed in the literature, the method considers the predictive accuracy as the main element for constructing the clustering partition, which contains groups jointly minimizing the overall forecasting error. Thus, the approach leads to a new clustering paradigm where the quality of the clustering solution is measured in terms of its predictive capability. In addition, the procedure gives rise to an effective mechanism for selecting the number of clusters in a time series database and can be used in combination with any class of regression model. An extensive simulation study shows that our method outperforms several alternative techniques concerning both clustering effectiveness and predictive accuracy. The approach is also applied to perform clustering in several datasets used as standard benchmarks in the time series literature, obtaining great results.
翻訳日:2023-05-02 15:07:35 公開日:2023-04-30
# ReLUネットワークロバストネスのための量子コンピューティングにおけるMILPの効率的な分解

Efficient MILP Decomposition in Quantum Computing for ReLU Network Robustness ( http://arxiv.org/abs/2305.00472v1 )

ライセンス: Link先を確認
Nicola Franco, Tom Wollschl\"ager, Benedikt Poggel, Stephan G\"unnemann, Jeanette Miriam Lorenz(参考訳) Noisy Intermediate-Scale Quantum (NISQ) デバイスのような新しい量子コンピューティング技術は、数学的最適化問題の解決において潜在的な進歩をもたらす。 しかし、qubitの可用性、ノイズ、エラーの制限は、実用的な実装に困難をもたらす。 本研究では,本研究の課題を縮小するために設計された混合整数線形計画法(milp)の2つの分解法について検討し,利用可能なnisqデバイスをより効率的に利用する。 我々は、元の問題をより小さな部分問題に分割することに集中し、量子古典的ハードウェアアプローチを組み合わせることで反復的に解決する。 我々はBenders法とDantzig-Wolfe法でMILPの分解を詳細に解析する。 解析では、ベンダーズを解くのに必要な量子ビットの数は、最悪の場合指数関数的に大きいが、ダンツィヒ=ウォルフは一定である。 さらに,reluネットワークのロバスト性を検証するために,dantzig-wolfe分解を利用する。 実験の結果,従来の量子アニール法やゲートベース量子コンピュータと比較して最大90%の量子ビットを削減できることがわかった。

Emerging quantum computing technologies, such as Noisy Intermediate-Scale Quantum (NISQ) devices, offer potential advancements in solving mathematical optimization problems. However, limitations in qubit availability, noise, and errors pose challenges for practical implementation. In this study, we examine two decomposition methods for Mixed-Integer Linear Programming (MILP) designed to reduce the original problem size and utilize available NISQ devices more efficiently. We concentrate on breaking down the original problem into smaller subproblems, which are then solved iteratively using a combined quantum-classical hardware approach. We conduct a detailed analysis for the decomposition of MILP with Benders and Dantzig-Wolfe methods. In our analysis, we show that the number of qubits required to solve Benders is exponentially large in the worst-case, while remains constant for Dantzig-Wolfe. Additionally, we leverage Dantzig-Wolfe decomposition on the use-case of certifying the robustness of ReLU networks. Our experimental results demonstrate that this approach can save up to 90\% of qubits compared to existing methods on quantum annealing and gate-based quantum computers.
翻訳日:2023-05-02 15:07:20 公開日:2023-04-30
# カテゴリー時系列の新しいブートストラップテスト。 比較研究

New bootstrap tests for categorical time series. A comparative study ( http://arxiv.org/abs/2305.00465v1 )

ライセンス: Link先を確認
\'Angel L\'opez-Oriona, Jos\'e Antonio Vilar Fern\'andez and Pierpaolo D'Urso(参考訳) 2つのカテゴリの時系列の生成過程の等式をテストする問題は、本研究で取り組まれている。 この目的のために,分類過程間の相似性尺度に依存する3つのテストを提案する。 両プロセスの差分分布と直列依存パターンの相違を3つの特定の距離で評価することにより,これらの試験の特定のバージョンを構築した。 これらの相違点の適切な推定は、ブートストラップに基づいて構築されたテストの重要な要素である。 具体的には、真の生成モデルと移動ブロックブートストラップと静止ブートストラップの拡張を想定したパラメトリックブートストラップ法を考える。 これらのアプローチは、様々な複雑さのカテゴリーモデルを含む広範なシミュレーション研究で評価される。 それぞれの手法の利点と欠点は、ヌルと代替仮説の下での振る舞いに応じて適切に議論される。 重要な入力パラメータがテストの結果に与える影響も分析される。 生物配列を含む応用は,提案手法の有用性を浮き彫りにする。

The problem of testing the equality of the generating processes of two categorical time series is addressed in this work. To this aim, we propose three tests relying on a dissimilarity measure between categorical processes. Particular versions of these tests are constructed by considering three specific distances evaluating discrepancy between the marginal distributions and the serial dependence patterns of both processes. Proper estimates of these dissimilarities are an essential element of the constructed tests, which are based on the bootstrap. Specifically, a parametric bootstrap method assuming the true generating models and extensions of the moving blocks bootstrap and the stationary bootstrap are considered. The approaches are assessed in a broad simulation study including several types of categorical models with different degrees of complexity. Advantages and disadvantages of each one of the methods are properly discussed according to their behavior under the null and the alternative hypothesis. The impact that some important input parameters have on the results of the tests is also analyzed. An application involving biological sequences highlights the usefulness of the proposed techniques.
翻訳日:2023-05-02 15:07:02 公開日:2023-04-30
# エッジ依存の頂点重みを持つハイパーグラフ:1-ラプラシアンに基づくスペクトルクラスタリング

Hypergraphs with Edge-Dependent Vertex Weights: Spectral Clustering based on the 1-Laplacian ( http://arxiv.org/abs/2305.00462v1 )

ライセンス: Link先を確認
Yu Zhu, Boning Li, Santiago Segarra(参考訳) エッジ依存頂点重みを含むハイパーグラフの1-ラプラシアンを定義するフレキシブルなフレームワークを提案する。 これらの重みは、ハイパーエッジ内の頂点の様々な重要性を反映することができ、したがって均質なハイパーグラフよりも表現率の高いハイパーグラフモデルが得られる。 次に、超グラフ 1-ラプラシアンの第二の最小固有値に付随する固有ベクトルを用いて頂点をクラスタリングする。 適切に定義された正規化チーガーカットに基づく理論的観点からは、この手順は従来のラプラシアンに基づくものよりも高いクラスタリング精度を達成することが期待される。 実際、提案したスペクトルクラスタリング手法の有効性を示すために、実世界のデータセットを用いている。 さらに,我々のフレームワークにおける特別な場合において,対応するハイパーグラフ1-ラプラシアンは,固有ベクトルをより効率的に計算できる関連するグラフの1-ラプラシアンと等価であることを示す。

We propose a flexible framework for defining the 1-Laplacian of a hypergraph that incorporates edge-dependent vertex weights. These weights are able to reflect varying importance of vertices within a hyperedge, thus conferring the hypergraph model higher expressivity than homogeneous hypergraphs. We then utilize the eigenvector associated with the second smallest eigenvalue of the hypergraph 1-Laplacian to cluster the vertices. From a theoretical standpoint based on an adequately defined normalized Cheeger cut, this procedure is expected to achieve higher clustering accuracy than that based on the traditional Laplacian. Indeed, we confirm that this is the case using real-world datasets to demonstrate the effectiveness of the proposed spectral clustering approach. Moreover, we show that for a special case within our framework, the corresponding hypergraph 1-Laplacian is equivalent to the 1-Laplacian of a related graph, whose eigenvectors can be computed more efficiently, facilitating the adoption on larger datasets.
翻訳日:2023-05-02 15:06:49 公開日:2023-04-30
# 密度行列のブロッホ表現に基づく二部分離性基準の一家系

A Family of Bipartite Separability Criteria Based on Bloch Representation of Density Matrices ( http://arxiv.org/abs/2305.00460v1 )

ライセンス: Link先を確認
XueNa Zhu and Jing Wang and Gui Bao and Ming Li and ShuQian Shen and ShaoMing Fei(参考訳) 密度行列のブロッホ表現に基づく任意の次元における二部量子系の分離性について検討する。 我々は、ブロッホ表現の相関テンソルから構築した行列 $t_{\alpha\beta}(\rho)$ と $w_{ab,\alpha\beta}(\rho)$ の2つの量子状態の分離可能性基準を示す。 これらの分離性基準は、以前の分離性基準よりも単純化され、より絡み合うものを検出することができる。 詳細な例は、結果の利点を説明するために示される。

We study the separability of bipartite quantum systems in arbitrary dimensions based on the Bloch representation of density matrices. We present two separability criteria for quantum states in terms of the matrices $T_{\alpha\beta}(\rho)$ and $W_{ab,\alpha\beta}(\rho)$ constructed from the correlation tensors in the Bloch representation. These separability criteria can be simplified and detect more entanglement than the previous separability criteria. Detailed examples are given to illustrate the advantages of results.
翻訳日:2023-05-02 15:06:31 公開日:2023-04-30
# 偽ニュース検出のためのメモリ付きグラフグローバルアテンションネットワーク

Graph Global Attention Network with Memory for Fake News Detection ( http://arxiv.org/abs/2305.00456v1 )

ライセンス: Link先を確認
Qian Chang, Xia Lia, Patrick S.W. Fong(参考訳) ソーシャルメディアの普及に伴い、偽ニュースの検出は社会に重大な脅威をもたらす重要な問題となっている。 偽情報の拡散は社会的危害をもたらし、情報の信頼性を損なう可能性がある。 この問題に対処するため、ディープラーニングは、特に自然言語処理(NLP)の開発において、有望なアプローチとして現れてきた。 本研究では,ソーシャルメディア上での偽ニュース検出の問題に対処し,社会に重大な課題をもたらす。 本研究では,ニュースコンテキストやユーザ内容のノードを符号化するNLP技術を活用し,3つのグラフ畳み込みネットワークを用いて特徴を抽出し,内因性および外因性情報を集約する,偽ニュース検出のための新しいアプローチGANMを提案する。 GANMは、ニュース拡散ネットワークの構造的均一性を学ぶために、メモリを備えたユニークなグローバルアテンションメカニズムを採用している。 このアプローチは、実際のデータセットで良い結果を得る。

With the proliferation of social media, the detection of fake news has become a critical issue that poses a significant threat to society. The dissemination of fake information can lead to social harm and damage the credibility of information. To address this issue, deep learning has emerged as a promising approach, especially with the development of natural language processing (NLP). This study addresses the problem of detecting fake news on social media, which poses a significant challenge to society. This study proposes a new approach named GANM for fake news detection that employs NLP techniques to encode nodes for news context and user content and uses three graph convolutional networks to extract features and aggregate users' endogenous and exogenous information. The GANM employs a unique global attention mechanism with memory to learn the structural homogeneity of news dissemination networks. The approach achieves good results on a real dataset.
翻訳日:2023-05-02 15:06:21 公開日:2023-04-30
# Causalainer: 自動要約のためのCausal Explainer

Causalainer: Causal Explainer for Automatic Video Summarization ( http://arxiv.org/abs/2305.00455v1 )

ライセンス: Link先を確認
Jia-Hong Huang, Chao-Han Huck Yang, Pin-Yu Chen, Min-Hung Chen, Marcel Worring(参考訳) ビデオ要約の目的は、関連情報を失わずに全体を伝えるように自動的に短縮することである。 多くのアプリケーションシナリオにおいて、不適切なビデオ要約は大きな影響を与える可能性がある。 例えば、法医学では、生成されたビデオ要約の品質が調査員の判断に影響を与え、ジャーナリズムでは望ましくない偏見をもたらす可能性がある。 そのため、説明可能性のモデリングは重要な関心事である。 説明可能性の課題に対処する最善の方法の1つは、プロセスを進行させ結果につながる因果関係を明らかにすることである。 現在の機械学習に基づくビデオ要約アルゴリズムは最適なパラメータを学習するが、因果関係は明らかにしない。 そのため、説明可能性の相対的な欠如に苦しむ。 本研究では,この問題に対処するために,因果説明者(causalainer)という因果説明者を提案する。 ビデオ要約問題において重要成分の挙動を特徴付けるために,複数の有意な確率変数とその共同分布を導入する。 また,モデルトレーニングの有効性を高めるため,ヘルパ分布を導入した。 視覚テキスト入力のシナリオでは、余分な入力はモデルの性能を低下させる。 視覚的およびテキスト入力から相互情報を効果的に蒸留することにより、この問題に対処するために因果意味論抽出器が設計されている。 一般的なベンチマーク実験の結果,提案手法はより説明性が高く,最先端性能を実現していることがわかった。

The goal of video summarization is to automatically shorten videos such that it conveys the overall story without losing relevant information. In many application scenarios, improper video summarization can have a large impact. For example in forensics, the quality of the generated video summary will affect an investigator's judgment while in journalism it might yield undesired bias. Because of this, modeling explainability is a key concern. One of the best ways to address the explainability challenge is to uncover the causal relations that steer the process and lead to the result. Current machine learning-based video summarization algorithms learn optimal parameters but do not uncover causal relationships. Hence, they suffer from a relative lack of explainability. In this work, a Causal Explainer, dubbed Causalainer, is proposed to address this issue. Multiple meaningful random variables and their joint distributions are introduced to characterize the behaviors of key components in the problem of video summarization. In addition, helper distributions are introduced to enhance the effectiveness of model training. In visual-textual input scenarios, the extra input can decrease the model performance. A causal semantics extractor is designed to tackle this issue by effectively distilling the mutual information from the visual and textual inputs. Experimental results on commonly used benchmarks demonstrate that the proposed method achieves state-of-the-art performance while being more explainable.
翻訳日:2023-05-02 15:06:07 公開日:2023-04-30
# 多階統計を用いたアンサンブル学習による少数ショット分類

Few-shot Classification via Ensemble Learning with Multi-Order Statistics ( http://arxiv.org/abs/2305.00454v1 )

ライセンス: Link先を確認
Sai Yang, Fan Liu, Delong Chen, Jun Zhou(参考訳) 移行学習は、数発の分類で広く採用されている。 近年の研究では,新しいクラスにおける画像の良質な一般化表現を得ることが,マイナショット分類精度の向上の鍵となっている。 このニーズに対処するために、基礎クラスでアンサンブル学習を利用することで、新しいクラスの真のエラーを対応するように低減できることを理論的に証明する。 この原理に従い,多階統計(elmos)を用いたアンサンブル学習という新しい手法が提案されている。 本手法では,バックボーンネットワークの後,複数の分岐を用いてアンサンブル学習における個々の学習者を作成し,ストレージコストの低減を目標とする。 次に,個々の学習者の多様性を高めるために,各ブランチに異なる順序統計プールを導入する。 学習者は、事前学習フェーズ中に教師付き損失で最適化される。 事前学習後、異なるブランチの特徴を分類器評価のために結合する。 広範な実験により、各ブランチが他のブランチを補完できることが示され、この手法は、複数の数ショットの分類ベンチマークデータセット上で最先端のパフォーマンスを生み出すことができる。

Transfer learning has been widely adopted for few-shot classification. Recent studies reveal that obtaining good generalization representation of images on novel classes is the key to improving the few-shot classification accuracy. To address this need, we prove theoretically that leveraging ensemble learning on the base classes can correspondingly reduce the true error in the novel classes. Following this principle, a novel method named Ensemble Learning with Multi-Order Statistics (ELMOS) is proposed in this paper. In this method, after the backbone network, we use multiple branches to create the individual learners in the ensemble learning, with the goal to reduce the storage cost. We then introduce different order statistics pooling in each branch to increase the diversity of the individual learners. The learners are optimized with supervised losses during the pre-training phase. After pre-training, features from different branches are concatenated for classifier evaluation. Extensive experiments demonstrate that each branch can complement the others and our method can produce a state-of-the-art performance on multiple few-shot classification benchmark datasets.
翻訳日:2023-05-02 15:05:49 公開日:2023-04-30
# SMILE: メンタルヘルス支援のためのChatGPTによるマルチターン包括的言語拡張

SMILE: Single-turn to Multi-turn Inclusive Language Expansion via ChatGPT for Mental Health Support ( http://arxiv.org/abs/2305.00450v1 )

ライセンス: Link先を確認
Huachuan Qiu, Hongliang He, Shuai Zhang, Anqi Li, Zhenzhong Lan(参考訳) メンタルヘルスを支援できる専門的な対話システムの開発に対する研究の関心が高まっている。 しかし、メンタルヘルス支援のための大規模かつ実生活のマルチターン会話の収集は、個人情報の感度や時間やコストといった問題を引き起こす。 これらの問題に対処するために,ChatGPTを用いた包括的言語拡張手法であるSMILEを導入し,公開シングルターン対話をマルチターン対話に拡張する。 本研究はまずSMILEアプローチの有効性を検証する予備的な探索的研究である。 さらに,SMILEアプローチと無関係に生成されたデータセットの総合的かつ体系的なコントラスト分析を行い,SMILE手法がダイアログトピック,語彙的特徴,意味的特徴を含む,大規模かつ多様かつ実生活に近いメンタルヘルスサポート会話コーパスを実現することを示した。 最後に、収集したコーパス(SMILECHAT)を用いて、メンタルヘルス支援のためのマルチターン会話において、感情的支援と建設的提案を提供するより効果的な対話システムを開発する。

There has been an increasing research interest in developing specialized dialogue systems that can offer mental health support. However, gathering large-scale and real-life multi-turn conversations for mental health support poses challenges due to the sensitivity of personal information, as well as the time and cost involved. To address these issues, we introduce the SMILE approach, an inclusive language expansion technique that employs ChatGPT to extend public single-turn dialogues into multi-turn ones. Our research first presents a preliminary exploratory study that validates the effectiveness of the SMILE approach. Furthermore, we conduct a comprehensive and systematic contrastive analysis of datasets generated with and without the SMILE approach, demonstrating that the SMILE method results in a large-scale, diverse, and close-to-real-life multi-turn mental health support conversation corpus, including dialog topics, lexical and semantic features. Finally, we use the collected corpus (SMILECHAT) to develop a more effective dialogue system that offers emotional support and constructive suggestions in multi-turn conversations for mental health support.
翻訳日:2023-05-02 15:05:32 公開日:2023-04-30
# 機械学習アルゴリズムの予測可能性とその特徴抽出手法

Predictability of Machine Learning Algorithms and Related Feature Extraction Techniques ( http://arxiv.org/abs/2305.00449v1 )

ライセンス: Link先を確認
Yunbo Dong(参考訳) 本論文は、特定のデータセット上の特定のモデルの分類精度を予測するために行列分解に基づく予測システムを設計する。 本稿では,openml webサイトから収集した50以上のデータセットについて,総合的な実証研究を行う。 本稿では,ランダムフォレスト,XGBoost,MultiLayer Perceptron(MLP)の3つの基本機械学習アルゴリズムの性能予測について検討する。 特に、以下の結果が得られる。 1. 粗調整変種を用いた微調整モデルの予測可能性 2. 特徴抽出法によるMLPの予測可能性 3.暗黙的フィードバックによるモデル性能の予測

This thesis designs a prediction system based on matrix factorization to predict the classification accuracy of a specific model on a particular dataset. In this thesis, we conduct comprehensive empirical research on more than fifty datasets that we collected from the openml website. We study the performance prediction of three fundamental machine learning algorithms, namely, random forest, XGBoost, and MultiLayer Perceptron(MLP). In particular, we obtain the following results: 1. Predictability of fine-tuned models using coarse-tuned variants. 2. Predictability of MLP using feature extraction techniques. 3. Predict model performance using implicit feedback.
翻訳日:2023-05-02 15:05:11 公開日:2023-04-30
# StyleLipSync:スタイルベースのパーソナライズされたリップ同期ビデオ生成

StyleLipSync: Style-based Personalized Lip-sync Video Generation ( http://arxiv.org/abs/2305.00521v1 )

ライセンス: Link先を確認
Taekyung Ki and Dongchan Min(参考訳) 本稿では,スタイルベースでパーソナライズされたリップ同期ビデオ生成モデルであるStyleLipSyncを提案する。 任意のアイデンティティの動画を生成するために,事前学習したStyleGANのセマンティックにリッチな潜伏空間から先行して表現的リップを利用して,線形変換による映像の一貫性を設計する。 従来のリップシンク法とは対照的に,3次元パラメトリックメッシュ予測フレームをフレーム単位で利用することにより,マスクを動的に位置決めし,フレーム上の自然性を改善するポーズアウェアマスクを導入する。 また,人間特有の視覚情報を高めつつ,リップシンクの一般化を保った同期調整器を導入することにより,任意の人物に対して数ショットのリップシンク適応手法を提案する。 広汎な実験により,提案手法により,ゼロショット設定でも正確なリップシンク映像を生成でき,数秒の目標映像を用いて顔の特徴を向上できることが示された。 プロジェクトページを参照してください。

In this paper, we present StyleLipSync, a style-based personalized lip-sync video generative model that can generate identity-agnostic lip-synchronizing video from arbitrary audio. To generate a video of arbitrary identities, we leverage expressive lip prior from the semantically rich latent space of a pre-trained StyleGAN, where we can also design a video consistency with a linear transformation. In contrast to the previous lip-sync methods, we introduce pose-aware masking that dynamically locates the mask to improve the naturalness over frames by utilizing a 3D parametric mesh predictor frame by frame. Moreover, we propose a few-shot lip-sync adaptation method for an arbitrary person by introducing a sync regularizer that preserves lips-sync generalization while enhancing the person-specific visual information. Extensive experiments demonstrate that our model can generate accurate lip-sync videos even with the zero-shot setting and enhance characteristics of an unseen face using a few seconds of target video through the proposed adaptation method. Please refer to our project page.
翻訳日:2023-05-02 14:58:42 公開日:2023-04-30
# 転校学習の技法 : 適応的かつロバストなパイプライン

The ART of Transfer Learning: An Adaptive and Robust Pipeline ( http://arxiv.org/abs/2305.00520v1 )

ライセンス: Link先を確認
Boxiang Wang, Yunan Wu, and Chenglong Ye(参考訳) 転送学習は,補助データ資源からの情報を活用し,プライマリタスクのパフォーマンスを向上させる上で不可欠なツールである。 本研究では,汎用機械学習アルゴリズムを用いて伝達学習を行う柔軟なパイプラインであるAdaptive Robust Transfer Learning (ART)を提案する。 我々はARTの非漸近学習理論を確立し、負の転送を防止しつつ適応的な転送を実現するための証明可能な理論的保証を提供する。 さらに,複数の候補アルゴリズムを検討する際に,単一の最終モデルを生成するART統合集約マシンを導入する。 回帰,分類,スパース学習に関する広範な実証研究を通じて,アートの有望なパフォーマンスを示す。 さらに,死亡率調査のための実データ分析を行う。

Transfer learning is an essential tool for improving the performance of primary tasks by leveraging information from auxiliary data resources. In this work, we propose Adaptive Robust Transfer Learning (ART), a flexible pipeline of performing transfer learning with generic machine learning algorithms. We establish the non-asymptotic learning theory of ART, providing a provable theoretical guarantee for achieving adaptive transfer while preventing negative transfer. Additionally, we introduce an ART-integrated-aggregating machine that produces a single final model when multiple candidate algorithms are considered. We demonstrate the promising performance of ART through extensive empirical studies on regression, classification, and sparse learning. We further present a real-data analysis for a mortality study.
翻訳日:2023-05-02 14:58:22 公開日:2023-04-30
# Co-Salient Object Detection のための差別的共分散とバックグラウンドマイニング変換器

Discriminative Co-Saliency and Background Mining Transformer for Co-Salient Object Detection ( http://arxiv.org/abs/2305.00514v1 )

ライセンス: Link先を確認
Long Li, Junwei Han, Ni Zhang, Nian Liu, Salman Khan, Hisham Cholakkal, Rao Muhammad Anwer, and Fahad Shahbaz Khan(参考訳) 従来の共塩物体検出は、画像間の一貫性関係をマイニングし、背景領域の明示的な探索を無視して共塩手がかりを抽出することに集中している。 本稿では,複数の経済的な多粒度相関モジュールを基盤とした判別的コサリエンシー・バックグラウンドマイニングトランスフォーマー(dmt)フレームワークを提案し,コサリエンシーと背景情報の両方を明示的に抽出し,その識別を効果的にモデル化する。 具体的には,まず,計算効率を維持しつつ画素分割特徴に画像間関係を導入するための領域間相関モジュールを提案する。 次に,2種類の事前定義されたトークンを用いて,コントラストによる画素間相関とコサリエンストークン間相関モジュールを用いて,コサリエンスと背景情報をマイニングする。 また,学習トークンの指導の下,セグメンテーション特徴の識別性を高めるために,トークン案内特徴リファインメントモジュールを設計した。 セグメンテーション特徴抽出とトークン構築のための反復的な相互促進を行う。 3つのベンチマークデータセットの実験結果から,提案手法の有効性が示された。 ソースコードはhttps://github.com/dragonlee258079/dmt。

Most previous co-salient object detection works mainly focus on extracting co-salient cues via mining the consistency relations across images while ignoring explicit exploration of background regions. In this paper, we propose a Discriminative co-saliency and background Mining Transformer framework (DMT) based on several economical multi-grained correlation modules to explicitly mine both co-saliency and background information and effectively model their discrimination. Specifically, we first propose a region-to-region correlation module for introducing inter-image relations to pixel-wise segmentation features while maintaining computational efficiency. Then, we use two types of pre-defined tokens to mine co-saliency and background information via our proposed contrast-induced pixel-to-token correlation and co-saliency token-to-token correlation modules. We also design a token-guided feature refinement module to enhance the discriminability of the segmentation features under the guidance of the learned tokens. We perform iterative mutual promotion for the segmentation feature extraction and token construction. Experimental results on three benchmark datasets demonstrate the effectiveness of our proposed method. The source code is available at: https://github.com/dragonlee258079/DMT.
翻訳日:2023-05-02 14:58:12 公開日:2023-04-30
# 自由の計算アーキテクチャに向けて : メタバースにおける仮想アーキテクチャ生成のためのディープラーニングに関する包括的調査

Towards Computational Architecture of Liberty: A Comprehensive Survey on Deep Learning for Generating Virtual Architecture in the Metaverse ( http://arxiv.org/abs/2305.00510v1 )

ライセンス: Link先を確認
Anqi Wang, Jiahua Dong, Jiachuan Shen, Lik-Hang Lee, Pan Hui(参考訳) ディープラーニングを利用した3次元形状生成技術は,コンピュータビジョンとアーキテクチャ設計の両方から注目を集めている。 本調査は,3次元オブジェクト生成における最新のアプローチを,GAN(Generative Adversarial Networks),VAE(variantal Autoencoder),3D認識画像,拡散モデルなど,深層生成モデル(DGM)と比較することに焦点を当てる。 我々は、仮想環境におけるアーキテクチャの生成可能性の分野をレビューするために、187の論文(2018年から2022年の間に発行された記事の80.7%)について論じる。 本稿では, 建築研究, 仮想環境, 関連技術アプローチの概要と, 離散ボクセル生成の最近の動向, 2次元画像から生成された3Dモデル, 条件パラメータについて概説する。 我々は、さらなる調査に値する3D生成とパラメータ化制御の未調査問題に注目する。 さらに,データ制限,編集可能性,評価指標,人間とコンピュータの相互作用といった4つの研究課題が,コンピュータ支援設計におけるアーキテクチャにおける没入型システムとのユビキタスな相互作用を実現する上で重要であると推測する。

3D shape generation techniques utilizing deep learning are increasing attention from both computer vision and architectural design. This survey focuses on investigating and comparing the current latest approaches to 3D object generation with deep generative models (DGMs), including Generative Adversarial Networks (GANs), Variational Autoencoders (VAEs), 3D-aware images, and diffusion models. We discuss 187 articles (80.7% of articles published between 2018-2022) to review the field of generated possibilities of architecture in virtual environments, limited to the architecture form. We provide an overview of architectural research, virtual environment, and related technical approaches, followed by a review of recent trends in discrete voxel generation, 3D models generated from 2D images, and conditional parameters. We highlight under-explored issues in 3D generation and parameterized control that is worth further investigation. Moreover, we speculate that four research agendas including data limitation, editability, evaluation metrics, and human-computer interaction are important enablers of ubiquitous interaction with immersive systems in architecture for computer-aided design Our work contributes to researchers' understanding of the current potential and future needs of deep learnings in generating virtual architecture.
翻訳日:2023-05-02 14:57:50 公開日:2023-04-30
# スパースリワード領域における構造探索のための達成構造学習

Learning Achievement Structure for Structured Exploration in Domains with Sparse Reward ( http://arxiv.org/abs/2305.00508v1 )

ライセンス: Link先を確認
Zihan Zhou, Animesh Garg(参考訳) 本稿では,達成度に基づく環境を想定した多段階強化学習アルゴリズムであるstructured exploration with achievement (sea)を提案する。 SEAは、まずオフラインデータを使用して、既知の成果の表現を決定的損失関数で学習し、次に、学習した成果の依存性グラフをヒューリスティックアルゴリズムで復元し、最後に、既知の成果をマスターするポリシーをオンラインで学習し、回復した依存グラフで構築されたコントローラで新しい成果を探索する。 我々は,海が達成構造を正確に回復できることを実証し,画像などの高次元観測により手続き的に生成する職人などのハード領域の探査を改善することを実証した。

We propose Structured Exploration with Achievements (SEA), a multi-stage reinforcement learning algorithm designed for achievement-based environments, a particular type of environment with an internal achievement set. SEA first uses offline data to learn a representation of the known achievements with a determinant loss function, then recovers the dependency graph of the learned achievements with a heuristic algorithm, and finally interacts with the environment online to learn policies that master known achievements and explore new ones with a controller built with the recovered dependency graph. We empirically demonstrate that SEA can recover the achievement structure accurately and improve exploration in hard domains such as Crafter that are procedurally generated with high-dimensional observations like images.
翻訳日:2023-05-02 14:57:26 公開日:2023-04-30
# 空間的平衡なペアリング過程を持つ非エルミート・キータエフ鎖の固定線

Fixed line in a non-Hermitian Kitaev chain with spatially balanced pairing processes ( http://arxiv.org/abs/2305.00496v1 )

ライセンス: Link先を確認
Y. B. Shi and Z. Song(参考訳) 非エルミート量子多体系の厳密な解は稀であるが、エルミート成分と非エルミート成分の相互作用に関する貴重な洞察を与える。 不安定な不均衡なペア生成と消滅項を導入することにより, p-wave Kitaev 鎖の非エルミート変種について検討した。 位相図には固定線が存在し、基底状態は有限系の周期的境界条件の下で非エルミート項の存在下で変化しない。 これにより、任意の速度でバランス強度を変化させる過程における位相指数の構成性が得られ、時間依存摂動の下で非エルミート・キタエフ連鎖の位相のロバスト性を示す。 基礎となるメカニズムは、無限鎖に対するジョルダン・ウィグナー変換によって得られる等価量子スピン系を通して研究される。 さらに、正確な解は、共鳴非エルミート不純物が対応するマヨラナ格子の1対のゼロモードを誘導し、熱力学的極限のエッジモードに漸近し、バルク・バウンダリー対応を示すことを示した。 一定線からわずかにずれた系に対するクエンチ力学の数値シミュレーションを行い、安定領域を時間的に示す。 この研究は、ペア生成と消滅ペアリングプロセスの間の相互作用を明らかにする。

Exact solutions for non-Hermitian quantum many-body systems are rare but may provide valuable insights into the interplay between Hermitian and non-Hermitian components. We report our investigation of a non-Hermitian variant of a p-wave Kitaev chain by introducing staggered imbalanced pair creation and annihilation terms. We find that there exists a fixed line in the phase diagram, at which the ground state remains unchanged in the presence of non-Hermitian term under the periodic boundary condition for a finite system. This allows the constancy of the topological index in the process of varying the balance strength at arbitrary rate, exhibiting the robustness of the topology for non-Hermitian Kitaev chain under time-dependent perturbations. The underlying mechanism is investigated through the equivalent quantum spin system obtained by the Jordan-Wigner transformation for infinite chain. In addition, the exact solution shows that a resonant non-Hermitian impurity can induce a pair of zero modes in the corresponding Majorana lattice, which asymptotically approach the edge modes in the thermodynamic limit, manifesting the bulk-boundary correspondence. Numerical simulation is performed for the quench dynamics for the systems with slight deviation from the fixed line to show the stability region in time. This work reveals the interplay between the pair creation and annihilation pairing processes.
翻訳日:2023-05-02 14:57:11 公開日:2023-04-30
# マイクロイメージ前処理とグローバルアテンションを用いた焦点強調画像圧縮

Learned Focused Plenoptic Image Compression with Microimage Preprocessing and Global Attention ( http://arxiv.org/abs/2305.00489v1 )

ライセンス: Link先を確認
Kedeng Tong, Xin Jin, Yuqing Yang, Chen Wang, Jinshi Kang, Fan Jiang(参考訳) フォーカスドプレンオプティクカメラは、従来のプレンオプティクカメラよりも高い空間分解能で光野(lf)の空間的および角的情報を記録できるため、コンピュータビジョンにおける様々な応用が容易である。 しかし,既存のレンズ画像圧縮法は,マイクロレンズリレー画像から発生する複雑なマイクロテクスチャや,マイクロイメージ間の長距離相関により,撮像画像に効果がない。 本稿では,焦点を絞った画像の圧縮を効率的に行うために,エンド・ツー・エンドの学習アーキテクチャを提案する。 まず、記録された光野におけるサブアパーチャ画像非有効画素を除去し、マイクロ画像を矩形格子に整列するように、撮像原理に従ってデータ前処理スキームを設計する。 次に、再サンプリング過程で計算された画素毎のベクトル注意を用いて特徴地図間の大域的相関を捉えるために、大きな受容場を有する大域的注意モジュールを提案する。 また、トレーニングとテストに役立つコンテンツと深さの多様性を備えた1910年に焦点を絞ったplenopticイメージからなる新しい画像データセットが構築されている。 広範な実験評価により,提案手法の有効性が示された。 hevcとvvcのイントラコーディングを平均62.57%、plenopticの20枚の画像で51.67%のビットレート削減で上回っている。 また、18.73%のビットレート保存を実現し、最先端のエンドツーエンド画像圧縮法と比較して知覚的に快適な再構成を生成する。 データセットとコードはhttps://github.com/VincentChandelier/GACNで公開されている。

Focused plenoptic cameras can record spatial and angular information of the light field (LF) simultaneously with higher spatial resolution relative to traditional plenoptic cameras, which facilitate various applications in computer vision. However, the existing plenoptic image compression methods present ineffectiveness to the captured images due to the complex micro-textures generated by the microlens relay imaging and long-distance correlations among the microimages. In this paper, a lossy end-to-end learning architecture is proposed to compress the focused plenoptic images efficiently. First, a data preprocessing scheme is designed according to the imaging principle to remove the sub-aperture image ineffective pixels in the recorded light field and align the microimages to the rectangular grid. Then, the global attention module with large receptive field is proposed to capture the global correlation among the feature maps using pixel-wise vector attention computed in the resampling process. Also, a new image dataset consisting of 1910 focused plenoptic images with content and depth diversity is built to benefit training and testing. Extensive experimental evaluations demonstrate the effectiveness of the proposed approach. It outperforms intra coding of HEVC and VVC by an average of 62.57% and 51.67% bitrate reduction on the 20 preprocessed focused plenoptic images, respectively. Also, it achieves 18.73% bitrate saving and generates perceptually pleasant reconstructions compared to the state-of-the-art end-to-end image compression methods, which benefits the applications of focused plenoptic cameras greatly. The dataset and code are publicly available at https://github.com/VincentChandelier/GACN.
翻訳日:2023-05-02 14:56:49 公開日:2023-04-30
# 競合エンタングルメント試験法における検出ホールの効果

Effects of detection loophole on rival entanglement attestation techniques ( http://arxiv.org/abs/2305.00488v1 )

ライセンス: Link先を確認
Paranjoy Chaki, Kornikar Sen, Ujjwal Sen(参考訳) 実験的なセットアップに存在するループホールは、絡み検出の信頼性に大きな影響を与える。 量子状態トモグラフィー後の正部分転位基準と、ランダムな古典スナップショットによる量子状態の部分転位の第2および第3モーメントを推定することにより、絡み合いを検出する2つの方法について議論する。 本研究では,スプリアスクリックの有無や有効クリックの抑制を考慮し,検出方法における不正確性の影響について検討する。 両手法を比較して, 部分転位モーメントに基づく条件は, 正の部分転位基準よりも, 欠落数に対してより堅牢であることを示した。 さらに,追加数の存在下では,いかなる分離可能な状態も絡み合っていると解釈できないことを認識した。 しかしそのようなシナリオでは、追加のイベント効率が0.9以上でない限り、モーメントに基づく条件は絡み合った状態を保証することはできない。

Loopholes present in an experimental set-up can significantly affect the reliability of entanglement detection. We discuss two methods for detection of entanglement: one is by using the positive partial transposition criterion after quantum state tomography and the other by estimating the second and third moments of partial transposition of the quantum state through random classical snapshots. We examine the impact of inaccuracies in these detection methods by considering presence of spurious clicks or suppression of valid clicks in the detectors. By comparing the two methods, we observe that the condition based on partial transposition moments is more robust to missing counts than the positive partial transposition criteria. Moreover, we realize that in the presence of additional counts, none of the criteria misinterpret any separable state as entangled. But in such a scenario, the condition based on the moments can not guarantee any state as entangled, unless the additional event efficiency is about 0.9 or higher.
翻訳日:2023-05-02 14:56:26 公開日:2023-04-30
# ドメイン非依存フーリエニューラル演算子

Domain Agnostic Fourier Neural Operators ( http://arxiv.org/abs/2305.00478v1 )

ライセンス: Link先を確認
Ning Liu, Siavash Jafarzadeh, Yue Yu(参考訳) フーリエニューラル作用素(FNO)は関数空間間の高非線形マッピングを学習することができ、近年、複雑な物理系の応答を学習するための一般的なツールとなっている。 しかし、精度と効率を向上させるため、FNOは矩形領域のモデリングに制限される高速フーリエ変換(FFT)に依存している。 このような制限を解除し、不規則なジオメトリとトポロジの変化を許容するために、不規則なジオメトリと進化するドメインを持つサロゲートを学習するための新しいニューラルネットワークアーキテクチャであるドメイン非依存のフーリエニューラル演算子(DAFNO)を導入する。 鍵となる考え方は、FNOの積分層アーキテクチャにスムーズな特性関数を組み込んで、FFTを活用して高速な計算を行うことである。 dafnoは,材料モデリングと翼シミュレーションの2つのベンチマークデータセットのベースラインニューラルオペレータモデルと比較して,最先端の精度を実現している。 トポロジー変化を伴う複雑な領域を扱う場合の dafno の能力と一般化性をさらに示すため, 脆性材料破壊進展問題を考える。 1つのトレーニングクラックシミュレーションサンプルだけで、DAFNOは訓練されたシナリオと全く異なるクラックパターンのロードシナリオに一般化可能である。

Fourier neural operators (FNOs) can learn highly nonlinear mappings between function spaces, and have recently become a popular tool for learning responses of complex physical systems. However, to achieve good accuracy and efficiency, FNOs rely on the Fast Fourier transform (FFT), which is restricted to modeling problems on rectangular domains. To lift such a restriction and permit FFT on irregular geometries as well as topology changes, we introduce domain agnostic Fourier neural operator (DAFNO), a novel neural operator architecture for learning surrogates with irregular geometries and evolving domains. The key idea is to incorporate a smoothed characteristic function in the integral layer architecture of FNOs, and leverage FFT to achieve rapid computations, in such a way that the geometric information is explicitly encoded in the architecture. In our empirical evaluation, DAFNO has achieved state-of-the-art accuracy as compared to baseline neural operator models on two benchmark datasets of material modeling and airfoil simulation. To further demonstrate the capability and generalizability of DAFNO in handling complex domains with topology changes, we consider a brittle material fracture evolution problem. With only one training crack simulation sample, DAFNO has achieved generalizability to unseen loading scenarios and substantially different crack patterns from the trained scenario.
翻訳日:2023-05-02 14:56:08 公開日:2023-04-30
# 深部強化学習のための後方サンプリング

Posterior Sampling for Deep Reinforcement Learning ( http://arxiv.org/abs/2305.00477v1 )

ライセンス: Link先を確認
Remo Sasso, Michelangelo Conserva, Paulo Rauber(参考訳) 驚くべき成功にもかかわらず、深い強化学習アルゴリズムはサンプル非効率のままであり、良いポリシーを見つけるには膨大な試行錯誤が必要になる。 モデルベースのアルゴリズムは、計画に使用できる環境モデルを構築することでサンプル効率を約束する。 強化学習のための後サンプリングはそのようなモデルに基づくアルゴリズムであり、表の設定の性能から大きな関心を集めている。 本稿では,モデルベース本質を保ちつつ,後方サンプリングによる後方サンプリングを実際にスケーラブルに近似した深層強化学習 (psdrl) のための後方サンプリング法を提案する。 PSDRLは、潜在状態空間モデルに対する効率的な不確実性定量化と、値関数近似に基づく特別に調整された連続計画アルゴリズムを組み合わせる。 Atariベンチマークの大規模な実験によると、PSDRLは、サンプル効率と計算効率の両方において、最先端(モデルベース)強化学習法と競合しながら、過去の最先端のサンプリングをスケールアップする試みを著しく上回っている。

Despite remarkable successes, deep reinforcement learning algorithms remain sample inefficient: they require an enormous amount of trial and error to find good policies. Model-based algorithms promise sample efficiency by building an environment model that can be used for planning. Posterior Sampling for Reinforcement Learning is such a model-based algorithm that has attracted significant interest due to its performance in the tabular setting. This paper introduces Posterior Sampling for Deep Reinforcement Learning (PSDRL), the first truly scalable approximation of Posterior Sampling for Reinforcement Learning that retains its model-based essence. PSDRL combines efficient uncertainty quantification over latent state space models with a specially tailored continual planning algorithm based on value-function approximation. Extensive experiments on the Atari benchmark show that PSDRL significantly outperforms previous state-of-the-art attempts at scaling up posterior sampling while being competitive with a state-of-the-art (model-based) reinforcement learning method, both in sample efficiency and computational efficiency.
翻訳日:2023-05-02 14:55:40 公開日:2023-04-30
# MD-Manifold:医療概念と患者表現のための医療距離ベース表現学習アプローチ

MD-Manifold: A Medical-Distance-Based Representation Learning Approach for Medical Concept and Patient Representation ( http://arxiv.org/abs/2305.00553v1 )

ライセンス: Link先を確認
Shaodong Wang and Qing Li and Wenli Zhang(参考訳) 医療概念と患者を効果的に表現することは、医療分析の応用において重要である。 医療分析業務における医療概念の表現には、患者記述データから医療領域知識と事前情報を統合する必要がある。 機能工学や医療概念の標準化された用語へのマッピングといった現在の手法は、患者説明データから動的パターンを捉えることに限界がある。 他の埋め込みベースの手法は重要な医学領域の知識を組み込むのが困難であり、多くの医療システムでは実現不可能な大量のトレーニングデータを必要とすることが多い。 提案するmd-manifoldは,医療概念と患者表現に対する新しいアプローチを提案する。 新しいデータ拡張アプローチ、概念距離メトリクス、患者-患者ネットワークが含まれており、重要な医療領域の知識と事前データ情報を取り込んでいる。 次に、多様体学習法を適用し、医療知識を正確に反映した医療概念レベルの表現と、異種患者コホートを明確に識別する患者レベルの表現を生成する。 MD-Manifoldは、さまざまな下流医療分析タスクにおいて、他の最先端技術よりも優れている。 我々の研究は、情報システム研究において、表現学習、知識駆動機械学習、および下流探索的および予測的分析のための中間的フレームワークとしてのデザイン科学の利用に大きな影響を与える。 MD-Manifoldは、医療領域の知識と先行データ情報を組み込むことで、医療概念や患者を効果的かつ一般化可能な表現できる可能性を持っている。 医療データへの深い洞察を可能にし、医療結果を改善するための新しい分析アプリケーションの開発を促進する。

Effectively representing medical concepts and patients is important for healthcare analytical applications. Representing medical concepts for healthcare analytical tasks requires incorporating medical domain knowledge and prior information from patient description data. Current methods, such as feature engineering and mapping medical concepts to standardized terminologies, have limitations in capturing the dynamic patterns from patient description data. Other embedding-based methods have difficulties in incorporating important medical domain knowledge and often require a large amount of training data, which may not be feasible for most healthcare systems. Our proposed framework, MD-Manifold, introduces a novel approach to medical concept and patient representation. It includes a new data augmentation approach, concept distance metric, and patient-patient network to incorporate crucial medical domain knowledge and prior data information. It then adapts manifold learning methods to generate medical concept-level representations that accurately reflect medical knowledge and patient-level representations that clearly identify heterogeneous patient cohorts. MD-Manifold also outperforms other state-of-the-art techniques in various downstream healthcare analytical tasks. Our work has significant implications in information systems research in representation learning, knowledge-driven machine learning, and using design science as middle-ground frameworks for downstream explorative and predictive analyses. Practically, MD-Manifold has the potential to create effective and generalizable representations of medical concepts and patients by incorporating medical domain knowledge and prior data information. It enables deeper insights into medical data and facilitates the development of new analytical applications for better healthcare outcomes.
翻訳日:2023-05-02 14:49:03 公開日:2023-04-30
# 深層学習に基づく時空間特徴の視覚音声認識

Deep Learning-based Spatio Temporal Facial Feature Visual Speech Recognition ( http://arxiv.org/abs/2305.00552v1 )

ライセンス: Link先を確認
Pangoth Santhosh Kumar, Garika Akshay(参考訳) スマートフォンや他の小さなデバイスのような低リソースのコンピューティング環境では、ディープラーニングと機械学習の両方が多くの識別システムで使われている。 認証技術として AIによって駆動されるこれらの顔認識技術の透明で無接触で非侵襲的な性質は、近年その人気を高めている。 主に成功しているが、写真やマスク、メガネなどを利用することで、許可なく中に入る方法もある。 そこで本研究では, 顔認証と, 個人がパスワードを話しながら, 顔の特徴を識別し, 顔認証を行うための代替認証プロセスを提案する。 提案手法では、任意の言語でパスワードを指定できるため、言語によって制限されることはない。 提案モデルは、業界標準のmiracl-vc1データセットでテストした場合、96.1%の精度を達成し、信頼性と強力なソリューションとしての有効性を示した。 提案手法は,データ効率に加えて,モデルトレーニング用ビデオ例を10例も少なく,有望な結果を示す。 ネットワークのトレーニングの有効性は、他の顔認識モデルと唇読解モデルとの比較によってさらに証明される。

In low-resource computing contexts, such as smartphones and other tiny devices, Both deep learning and machine learning are being used in a lot of identification systems. as authentication techniques. The transparent, contactless, and non-invasive nature of these face recognition technologies driven by AI has led to their meteoric rise in popularity in recent years. While they are mostly successful, there are still methods to get inside without permission by utilising things like pictures, masks, glasses, etc. In this research, we present an alternate authentication process that makes use of both facial recognition and the individual's distinctive temporal facial feature motions while they speak a password. Because the suggested methodology allows for a password to be specified in any language, it is not limited by language. The suggested model attained an accuracy of 96.1% when tested on the industry-standard MIRACL-VC1 dataset, demonstrating its efficacy as a reliable and powerful solution. In addition to being data-efficient, the suggested technique shows promising outcomes with as little as 10 positive video examples for training the model. The effectiveness of the network's training is further proved via comparisons with other combined facial recognition and lip reading models.
翻訳日:2023-05-02 14:48:40 公開日:2023-04-30
# SoK:ネットワーク侵入検知のための機械学習の実用的評価

SoK: Pragmatic Assessment of Machine Learning for Network Intrusion Detection ( http://arxiv.org/abs/2305.00550v1 )

ライセンス: Link先を確認
Giovanni Apruzzese, Pavel Laskov, Johannes Schneider(参考訳) 機械学習(ML)は多くの現実世界のタスクを解決するための貴重な資産となっている。 しかし、NID(Network Intrusion Detection)では、MLの科学的進歩はいまだに実践者の懐疑を伴っている。 多くの場合、提案されたソリューションを実際のシステムにデプロイする上での実践的な意味を見越して、新しい方法である ‘outperforming’ を実証することを目的としている。 残念なことに、NIDに対するMLの価値は、科学文献でしばしば無視されるハードウェアのような多くの要因に依存している。 本稿では,NIDに対するMLに対する実践者の懐疑的意識を,研究で採用されている評価方法論を「変える」ことで低減することを目的とする。 NIDにおけるMLの運用展開にどの「要素」が影響するかを解明した後、実践者がNIDのMLメソッドの実価値を評価できる「実用的評価」の概念を提案する。 そこで本研究では,NID に対する ML の値の推測がほとんどできないことを示す。 建設的なステップとして,実用的評価を実施します。 我々はNIDの既存のMLメソッドを再評価し、悪意のあるネットワークトラフィックの分類に焦点をあて、数百の設定設定、多様な敵シナリオ、および4つのハードウェアプラットフォームについて検討する。 大規模かつ再現可能な評価により,nidのml品質を推定できる。 セキュリティ実践者とのユーザスタディを通じて、私たちの主張を検証することも行います。

Machine Learning (ML) has become a valuable asset to solve many real-world tasks. For Network Intrusion Detection (NID), however, scientific advances in ML are still seen with skepticism by practitioners. This disconnection is due to the intrinsically limited scope of research papers, many of which primarily aim to demonstrate new methods ``outperforming'' prior work -- oftentimes overlooking the practical implications for deploying the proposed solutions in real systems. Unfortunately, the value of ML for NID depends on a plethora of factors, such as hardware, that are often neglected in scientific literature. This paper aims to reduce the practitioners' skepticism towards ML for NID by "changing" the evaluation methodology adopted in research. After elucidating which "factors" influence the operational deployment of ML in NID, we propose the notion of "pragmatic assessment", which enable practitioners to gauge the real value of ML methods for NID. Then, we show that the state-of-research hardly allows one to estimate the value of ML for NID. As a constructive step forward, we carry out a pragmatic assessment. We re-assess existing ML methods for NID, focusing on the classification of malicious network traffic, and consider: hundreds of configuration settings; diverse adversarial scenarios; and four hardware platforms. Our large and reproducible evaluations enable estimating the quality of ML for NID. We also validate our claims through a user-study with security practitioners.
翻訳日:2023-05-02 14:48:24 公開日:2023-04-30
# 誤り訂正量子センシングのための連続論理演算子の構築に向けて

Toward Constructing a Continuous Logical Operator for Error-Corrected Quantum Sensing ( http://arxiv.org/abs/2305.00547v1 )

ライセンス: Link先を確認
Cameron Cianci(参考訳) 誤差補正は長い間、量子センサーの感度をハイゼンベルク限界に拡張することが提案されてきた。 しかし、論理キュービット上の操作はクリフォード+Tのような有限サイズのゲートからなる普遍ゲートセットを通してのみ実行される。 これらの論理ゲートセットは普遍的な量子計算を可能にするが、有限ゲートサイズは、ラムゼー測定プロトコルのような検知プロトコルでは、信号は連続的に振る舞う必要があるため、量子センシングの問題を生じさせる。 連続論理演算子を構築することの難しさは、連続信号が局所的誤りと逆の両方に耐障害性を持つことを防ぐイージン・クニルの定理から生じる。 ノイズの多い環境でハイゼンベルク限界に近づくためには誤り訂正が必要であるため、フォールトトレラントな連続作用素を構築する方法を検討することが重要である。 本稿では,連続的な論理z回転を設計するためのプロトコルを提案し,Steane Codeに適用する。 Knill-Laflamme条件を用いて設計作業者の耐故障性を検討した。 Knill-Laflamme条件は、中間量子ビット上のX誤差の可能性のため、対角ユニタリ作用素は耐障害性がないことを示している。 しかし、本論文を通して証明されたアプローチは、shor符号、 distance 3 surface code、[15,1,3]符号、あるいは[11,1,5]コードのようなより大きな距離を持つコードでの成功を見出すことができる。

Error correction has long been suggested to extend the sensitivity of quantum sensors into the Heisenberg Limit. However, operations on logical qubits are only performed through universal gate sets consisting of finite-sized gates such as Clifford+T. Although these logical gate sets allow for universal quantum computation, the finite gate sizes present a problem for quantum sensing, since in sensing protocols, such as the Ramsey measurement protocol, the signal must act continuously. The difficulty in constructing a continuous logical operator comes from the Eastin-Knill theorem, which prevents a continuous signal from being both fault tolerant to local errors and transverse. Since error correction is needed to approach the Heisenberg Limit in a noisy environment, it is important to explore how to construct fault-tolerant continuous operators. In this paper, a protocol to design continuous logical z-rotations is proposed and applied to the Steane Code. The fault tolerance of the designed operator is investigated using the Knill-Laflamme conditions. The Knill-Laflamme conditions indicate that the diagonal unitary operator constructed cannot be fault tolerant solely due to the possibilities of X errors on the middle qubit. The approach demonstrated throughout this paper may, however, find success in codes with more qubits such as the Shor code, distance 3 surface code, [15,1,3] code, or codes with a larger distance such as the [11,1,5] code.
翻訳日:2023-05-02 14:48:02 公開日:2023-04-30
# ファジィバイナリを用いた校正誤差推定

Calibration Error Estimation Using Fuzzy Binning ( http://arxiv.org/abs/2305.00543v1 )

ライセンス: Link先を確認
Geetanjali Bihani and Julia Taylor Rayz(参考訳) ニューラルネットワークベースの決定は自信過剰になりがちで、その生の帰結確率は真の決定確率と一致しない。 ニューラルネットワークの校正は、より信頼性の高いディープラーニングフレームワークへの重要なステップである。 キャリブレーションエラーの先行指標は、主にクリスプビンメンバーシップに基づく尺度を用いる。 これはモデル確率のゆがみを悪化させ、キャリブレーションエラーの不完全なイメージを描写する。 本研究では,ファジィバイナリ化手法を用いてキャリブレーション誤差を計算するファジィキャリブレーション誤差メトリック(fce)を提案する。 このアプローチは、確率歪の影響を緩和し、校正誤差を計測しながらより厳密な推定を提供する。 測定基準を、異なるデータ人口とクラスメンバーシップのECEと比較する。 以上の結果から,FCEはキャリブレーション誤差推定の精度向上,特にマルチクラス設定において,モデルの信頼性スコアがキャリブレーション誤差推定に与える影響を緩和する。 コードと補足資料は以下の通りである。 \href{https://github.com/bihani-g/fce}{https://github.com/bihani-g/fce}

Neural network-based decisions tend to be overconfident, where their raw outcome probabilities do not align with the true decision probabilities. Calibration of neural networks is an essential step towards more reliable deep learning frameworks. Prior metrics of calibration error primarily utilize crisp bin membership-based measures. This exacerbates skew in model probabilities and portrays an incomplete picture of calibration error. In this work, we propose a Fuzzy Calibration Error metric (FCE) that utilizes a fuzzy binning approach to calculate calibration error. This approach alleviates the impact of probability skew and provides a tighter estimate while measuring calibration error. We compare our metric with ECE across different data populations and class memberships. Our results show that FCE offers better calibration error estimation, especially in multi-class settings, alleviating the effects of skew in model confidence scores on calibration error estimation. We make our code and supplementary materials available at: \href{https://github.com/bihani-g/fce}{https://github.com/bihani-g/fce}
翻訳日:2023-05-02 14:47:38 公開日:2023-04-30
# SRL支援AFM:教師付き強化学習支援前処理による平面非構造四角形メッシュの生成

SRL-Assisted AFM: Generating Planar Unstructured Quadrilateral Meshes with Supervised and Reinforcement Learning-Assisted Advancing Front Method ( http://arxiv.org/abs/2305.00540v1 )

ライセンス: Link先を確認
Hua Tong and Kuanren Qian and Eni Halilaj and Yongjie Jessica Zhang(参考訳) 高品質メッシュ生成は、正確な有限要素解析の基礎である。 膨大な内部頂点探索空間と複雑な初期境界のため、複雑なドメインのメッシュ生成には相当な手作業が必要であり、モデリングと分析プロセス全体の最も困難かつ時間を要するボトルネックと考えられてきた。 本稿では,先進的前置法と,基準頂点を選択・更新するニューラルネットワークを組み合わせることで,平面ジオメトリをメッシュ化するための新しい計算フレームワークである `srl-assisted afm" を提案する。 これらのディープニューラルネットワークは、教師付き学習と強化学習を組み合わせてメッシュ品質を反復的に改善するユニークなパイプラインを使用してトレーニングされる。 まず、正方形領域内の点をランダムにサンプリングし、順次接続することで、異なる初期境界を生成する。 これらの境界は、入力メッシュを取得し、教師付き学習モジュールでトレーニングデータセットを抽出するために使用される。 次に,メッシュ品質の向上や異常点数と分布の制御など,特別な要件を満たした報酬関数を用いて,強化学習モデルの性能を反復的に改善する。 提案した教師あり学習ニューラルネットワークは,商用ソフトウェア予測の精度を98%以上向上する。 最後の強化学習ニューラルネットワークは、シャープな特徴と境界層を持つ複雑な平面領域のための高品質な四辺メッシュを自動的に生成する。

High-quality mesh generation is the foundation of accurate finite element analysis. Due to the vast interior vertices search space and complex initial boundaries, mesh generation for complicated domains requires substantial manual processing and has long been considered the most challenging and time-consuming bottleneck of the entire modeling and analysis process. In this paper, we present a novel computational framework named ``SRL-assisted AFM" for meshing planar geometries by combining the advancing front method with neural networks that select reference vertices and update the front boundary using ``policy networks." These deep neural networks are trained using a unique pipeline that combines supervised learning with reinforcement learning to iteratively improve mesh quality. First, we generate different initial boundaries by randomly sampling points in a square domain and connecting them sequentially. These boundaries are used for obtaining input meshes and extracting training datasets in the supervised learning module. We then iteratively improve the reinforcement learning model performance with reward functions designed for special requirements, such as improving the mesh quality and controlling the number and distribution of extraordinary points. Our proposed supervised learning neural networks achieve an accuracy higher than 98% on predicting commercial software. The final reinforcement learning neural networks automatically generate high-quality quadrilateral meshes for complex planar domains with sharp features and boundary layers.
翻訳日:2023-05-02 14:47:23 公開日:2023-04-30
# 機械学習の解釈可能性:最近の進歩と将来展望

Interpretability of Machine Learning: Recent Advances and Future Prospects ( http://arxiv.org/abs/2305.00537v1 )

ライセンス: Link先を確認
Lei Gao, and Ling Guan(参考訳) 機械学習(ML)の普及は、テキスト、画像、オーディオ、ビデオなど、様々なマルチメディアコンテンツの研究に前例のない関心を集めている。 その結果、MLに基づく表現の理解と学習は、インテリジェントなマルチメディア研究と応用において、知識発見の中心を成している。 それでも、特にディープニューラルネットワーク(DNN)における現代MLのブラックボックスの性質は、MLベースの表現学習において大きな課題となっている。 このブラックボックス問題に対処するため、MLの解釈可能性の研究は近年、大きな関心を集めている。 本稿では,mlの解釈可能性に関する最近の進歩と今後の展望について,テキスト-画像クロスモーダル表現学習,顔認識,オブジェクト認識など,マルチメディアコンピューティングに関連するいくつかの応用例を紹介する。 MLの解釈可能性の研究は、さらなる投資に値する重要な研究方向性を約束していることが明らかである。

The proliferation of machine learning (ML) has drawn unprecedented interest in the study of various multimedia contents such as text, image, audio and video, among others. Consequently, understanding and learning ML-based representations have taken center stage in knowledge discovery in intelligent multimedia research and applications. Nevertheless, the black-box nature of contemporary ML, especially in deep neural networks (DNNs), has posed a primary challenge for ML-based representation learning. To address this black-box problem, the studies on interpretability of ML have attracted tremendous interests in recent years. This paper presents a survey on recent advances and future prospects on interpretability of ML, with several application examples pertinent to multimedia computing, including text-image cross-modal representation learning, face recognition, and the recognition of objects. It is evidently shown that the study of interpretability of ML promises an important research direction, one which is worth further investment in.
翻訳日:2023-05-02 14:47:00 公開日:2023-04-30
# グラフニューラルネットワークを用いたモンテカルロ木探索によるほぼ最適スタイナー木

Nearly Optimal Steiner Trees using Graph Neural Network Assisted Monte Carlo Tree Search ( http://arxiv.org/abs/2305.00535v1 )

ライセンス: Link先を確認
Reyan Ahmed, Mithun Ghosh, Kwang-Sung Jun, Stephen Kobourov(参考訳) グラフニューラルネットワークは、学習問題だけでなく、部分グラフ同型問題やトラベルセールスマン問題といった組合せ問題やグラフ問題にも有用である。 本稿では,グラフニューラルネットワークとモンテカルロ木探索を組み合わせたスタイナー木計算手法について述べる。 まず,部分解を入力とするグラフニューラルネットワークを訓練し,新たなノードを出力として追加することを提案する。 このニューラルネットワークはモンテカルロ探索でスタイナー木を計算するのに使用される。 提案手法は,多種多様なグラフの標準2近似アルゴリズムを一貫して上回っており,最適解を求めることが多い。

Graph neural networks are useful for learning problems, as well as for combinatorial and graph problems such as the Subgraph Isomorphism Problem and the Traveling Salesman Problem. We describe an approach for computing Steiner Trees by combining a graph neural network and Monte Carlo Tree Search. We first train a graph neural network that takes as input a partial solution and proposes a new node to be added as output. This neural network is then used in a Monte Carlo search to compute a Steiner tree. The proposed method consistently outperforms the standard 2-approximation algorithm on many different types of graphs and often finds the optimal solution.
翻訳日:2023-05-02 14:46:45 公開日:2023-04-30
# ICQ:ビット制約チャネル上でのベストアーム同定のための量子化方式

ICQ: A Quantization Scheme for Best-Arm Identification Over Bit-Constrained Channels ( http://arxiv.org/abs/2305.00528v1 )

ライセンス: Link先を確認
Fathima Zarin Faizal, Adway Girish, Manjesh Kumar Hanawal, Nikhil Karamchandani(参考訳) 本研究では,分散型多腕バンディットセットにおける最良腕識別の問題点について,中央学習器と複数のエージェントを用いて検討した。 各エージェントはバンディットの腕に関連付けられ、未知の分布に従って確率的な報酬を生成する。 さらに、各エージェントは、観測された報奨を、ビット制限されたチャネルを介して学習者と伝達することができる。 本稿では,逐次除去など既存の信頼度ベース学習アルゴリズムに適用可能な,インフレーション量子化信頼度(icq)と呼ばれる新しい量子化スキームを提案する。 逐次消去に適用されたICQの性能を解析し、ICQ-SEと呼ばれる全アルゴリズムが、(不等化)SEアルゴリズムと同じ順序-最適サンプル複雑性を有することを示す。 さらに、学習者とエージェント間の通信の指数的に少ない周波数しか必要としないため、最高の腕を識別するために既存の量子化方式よりもかなり少ないビットを必要とする。 数値実験により,ICQと他の量子化手法による性能改善を検証した。

We study the problem of best-arm identification in a distributed variant of the multi-armed bandit setting, with a central learner and multiple agents. Each agent is associated with an arm of the bandit, generating stochastic rewards following an unknown distribution. Further, each agent can communicate the observed rewards with the learner over a bit-constrained channel. We propose a novel quantization scheme called Inflating Confidence for Quantization (ICQ) that can be applied to existing confidence-bound based learning algorithms such as Successive Elimination. We analyze the performance of ICQ applied to Successive Elimination and show that the overall algorithm, named ICQ-SE, has the order-optimal sample complexity as that of the (unquantized) SE algorithm. Moreover, it requires only an exponentially sparse frequency of communication between the learner and the agents, thus requiring considerably fewer bits than existing quantization schemes to successfully identify the best arm. We validate the performance improvement offered by ICQ with other quantization methods through numerical experiments.
翻訳日:2023-05-02 14:46:35 公開日:2023-04-30
# 文脈自由文法から木を列挙する方法

How to enumerate trees from a context-free grammar ( http://arxiv.org/abs/2305.00522v1 )

ライセンス: Link先を確認
Steven T. Piantadosi(参考訳) 文脈自由文法(CFG)によって生成された木を列挙する簡単なアルゴリズムを提案する。 このアルゴリズムはペアリング関数を用いてCFG導出と自然数の間の単射を形成し、木を数えることから一意にデコードすることができる。 これは自然論理言語で表現を数える一般的な方法であり、他の組合せ問題にも拡張できる可能性がある。 また、このアルゴリズムが、木上のLempel-Zivコーディングのアナログを含む、より一般的な導出形式に一般化されることを示す。

I present a simple algorithm for enumerating the trees generated by a Context Free Grammar (CFG). The algorithm uses a pairing function to form a bijection between CFG derivations and natural numbers, so that trees can be uniquely decoded from counting. This provides a general way to number expressions in natural logical languages, and potentially can be extended to other combinatorial problems. I also show how this algorithm may be generalized to more general forms of derivation, including analogs of Lempel-Ziv coding on trees.
翻訳日:2023-05-02 14:46:20 公開日:2023-04-30
# 安全強化学習のための未知の時間制約による政策の共同学習

Joint Learning of Policy with Unknown Temporal Constraints for Safe Reinforcement Learning ( http://arxiv.org/abs/2305.00576v1 )

ライセンス: Link先を確認
Lunet Yifru and Ali Baheri(参考訳) 多くの実世界のアプリケーションでは、強化学習(RL)アルゴリズムの安全性の制約は未知あるいは明示的に定義されていない。 本稿では,これらの環境において,安全制約と最適なrlポリシーを同時に学習する枠組みを提案する。 提案手法は,信号時間論理(STL)仕様を合成するために,論理制約付きRLアルゴリズムと進化的アルゴリズムを組み合わせる。 このフレームワークは、我々の共同学習プロセスの収束を確立し、発見されたポリシーと真の最適ポリシーの間の誤差境界を提供する定理によって支えられている。 我々は,我々の枠組みをグリッドワールド環境で実証し,許容される安全制約とRLポリシーの両方を実証し,実際に定理の有効性を実証した。

In many real-world applications, safety constraints for reinforcement learning (RL) algorithms are either unknown or not explicitly defined. We propose a framework that concurrently learns safety constraints and optimal RL policies in such environments, supported by theoretical guarantees. Our approach merges a logically-constrained RL algorithm with an evolutionary algorithm to synthesize signal temporal logic (STL) specifications. The framework is underpinned by theorems that establish the convergence of our joint learning process and provide error bounds between the discovered policy and the true optimal policy. We showcased our framework in grid-world environments, successfully identifying both acceptable safety constraints and RL policies while demonstrating the effectiveness of our theorems in practice.
翻訳日:2023-05-02 14:38:58 公開日:2023-04-30
# 原子蒸気セルを用いた光フィルタの構築法

How to Build an Optical Filter with an Atomic Vapor Cell ( http://arxiv.org/abs/2305.00570v1 )

ライセンス: Link先を確認
Denis Uhland, Helena Dillmann, Yijun Wang and Ilja Gerhardt(参考訳) 原子蒸気の性質、原子間遷移との自然な配向、使いやすさは、スペクトル的に狭帯域の光学フィルタに非常に適している。 原子フィルタは、ドップラーによる光の吸収に基づくフィルタ、すなわちノッチフィルタ、ファラデー効果による共鳴光の透過に基づくバンドパスフィルタの2つのフレーバーから成り立っている。 ノッチフィルタは共鳴光子の吸収を利用して原子遷移の周りの小さなスペクトルバンドをフィルターする。 スペクトルのオフ共振部は完全に伝達される。 ファラデー効果に基づく原子蒸気は、減衰スペクトル分画の抑制を可能にする。 光の伝達は、原子共鳴に近い直線偏光子の磁気誘起回転に由来する。 このフィルタ星座は特定の光周波数の選択的受容を可能にする。 本稿では,これらの2種類のフィルタについて論じ,原子線フィルタの特殊性を解明する。 また,このようなフィルタをスクラッチから構築する実践的ガイドを提示し,理論計算によって裏打ちされたほぼ完全な原子スペクトルを実現するためのアプローチについて議論する。

The nature of atomic vapors, their natural alignment with interatomic transitions, and their ease of use make them highly suited for spectrally narrow-banded optical filters. Atomic filters come in two flavors: a filter based on the absorption of light by the Doppler broadened atomic vapor, i.e., a notch filter, and a bandpass filter based on the transmission of resonant light caused by the Faraday effect. The notch filter uses the absorption of resonant photons to filter out a small spectral band around the atomic transition. The off-resonant part of the spectrum is fully transmitted. Atomic vapors based on the Faraday effect allow for suppression of the detuned spectral fraction. Transmission of light originates from the magnetically induced rotation of linear polarized light close to an atomic resonance. This filter constellation allows selective acceptance of specific light frequencies. In this manuscript, we discuss these two types of filters and elucidate the specialties of atomic line filters. We also present a practical guide on building such filter setups from scratch and discuss an approach to achieve an almost perfect atomic spectrum backed by theoretical calculations.
翻訳日:2023-05-02 14:38:48 公開日:2023-04-30
# 離散二次モデルQUBOソリューションランドスケープ

Discrete quadratic model QUBO solution landscapes ( http://arxiv.org/abs/2305.00568v1 )

ライセンス: Link先を確認
Tristan Zaborniak, Ulrike Stege(参考訳) 多くの計算問題は二次相互作用を持つ離散変数の最適化を伴う。 離散二次モデル(DQMs)として知られるこれらの問題は一般にNPハードである。 したがって、dqmsを二次的非拘束型バイナリ最適化(qubo)モデルとしてエンコードすることへの関心が高まっている。 しかし、DQMをQUBOモデルに変換することは、しばしばQUBOモデルの解空間に対する無効な解をもたらす。 これらの解は、チューナブルペナルティパラメータによって重み付けされたquboの目的関数に適切な制約を導入し、大域的最適性が有効であることを保証することによってペナルティ化されなければならない。 しかし, このパラメータの強度の選択は, 溶液景観構造への影響を考えると, 簡単ではない。 本稿では,qubo dqmソリューションのランドスケープ構造に対するエンコーディングとペナルティ強度の選択の影響と,その最適化について検討する。

Many computational problems involve optimization over discrete variables with quadratic interactions. Known as discrete quadratic models (DQMs), these problems in general are NP-hard. Accordingly, there is increasing interest in encoding DQMs as quadratic unconstrained binary optimization (QUBO) models to allow their solution by quantum and quantum-inspired hardware with architectures and solution methods designed specifically for such problem types. However, converting DQMs to QUBO models often introduces invalid solutions to the solution space of the QUBO models. These solutions must be penalized by introducing appropriate constraints to the QUBO objective function that are weighted by a tunable penalty parameter to ensure that the global optimum is valid. However, selecting the strength of this parameter is non-trivial, given its influence on solution landscape structure. Here, we investigate the effects of choice of encoding and penalty strength on the structure of QUBO DQM solution landscapes and their optimization, focusing specifically on one-hot and domain-wall encodings.
翻訳日:2023-05-02 14:38:31 公開日:2023-04-30
# オフラインマルチ目的rlによるパレート効率の高い意思決定のスケーリング

Scaling Pareto-Efficient Decision Making Via Offline Multi-Objective RL ( http://arxiv.org/abs/2305.00567v1 )

ライセンス: Link先を確認
Baiting Zhu, Meihua Dang, Aditya Grover(参考訳) 多目的強化学習(MORL)の目的は、複数の競合対象を同時に最適化するポリシーを学ぶことである。 実際には、エージェントの目的に対する選好は apriori では知られておらず、テスト時に任意の選好に一般化できるポリシーが必要である。 そこで本研究では,他のエージェントのオフラインデモとその好みの有限データセットのみを使用して,嗜好非依存のポリシーエージェントを学習したいという,オフラインモードのための新しいデータ駆動設定を提案する。 この作品の主な貢献は2つある。 まず、オフライン設定用に特別に設計されたMORL用のD4MORL, (D)atasetを紹介する。 6つのMuJoCo環境でランダムにサンプリングされた好みを2~3の目的で最適化する参照ポリシをロールアウトした、180万のアノテートデモが含まれている。 第2に,新しい優先・復帰条件ポリシを通じて決定変換器を構築・拡張するオフラインMORLアルゴリズムのファミリであるPareto-Efficient Decision Agents (PEDA)を提案する。 実験により,peda は d4morl ベンチマークの動作ポリシーを密接に近似し,高容積とスパーシティの指標で測定した適切な条件付きパレートフロントの優れた近似を提供することを示した。

The goal of multi-objective reinforcement learning (MORL) is to learn policies that simultaneously optimize multiple competing objectives. In practice, an agent's preferences over the objectives may not be known apriori, and hence, we require policies that can generalize to arbitrary preferences at test time. In this work, we propose a new data-driven setup for offline MORL, where we wish to learn a preference-agnostic policy agent using only a finite dataset of offline demonstrations of other agents and their preferences. The key contributions of this work are two-fold. First, we introduce D4MORL, (D)atasets for MORL that are specifically designed for offline settings. It contains 1.8 million annotated demonstrations obtained by rolling out reference policies that optimize for randomly sampled preferences on 6 MuJoCo environments with 2-3 objectives each. Second, we propose Pareto-Efficient Decision Agents (PEDA), a family of offline MORL algorithms that builds and extends Decision Transformers via a novel preference-and-return-conditioned policy. Empirically, we show that PEDA closely approximates the behavioral policy on the D4MORL benchmark and provides an excellent approximation of the Pareto-front with appropriate conditioning, as measured by the hypervolume and sparsity metrics.
翻訳日:2023-05-02 14:38:13 公開日:2023-04-30
# 純状態の観点からの原子の非マルコフ動力学の記述

Description of the non-Markovian dynamics of atoms in terms of a pure state ( http://arxiv.org/abs/2305.00564v1 )

ライセンス: Link先を確認
Yuri Ozhigov and You Jiangchuan(参考訳) 量子マスター方程式(QME)は、原子と場の相互作用のマルコフ過程を記述するために用いられ、多くの大きな欠点がある。 極めてメモリ集約的であり、環境における長期記憶の場合にも適用できない。 純粋状態の観点から拡張されたTavis-Cummingsモデルにおける原子系の力学をモデル化するための反復アルゴリズムを提案する。 このアルゴリズムの正しさは、光子の交換による原子系と環境との相互作用とコヒーレンスの保存の例に示される。 このアルゴリズムは、フォトニック機械、特に化学反応に関連する幅広いプロセスに適用できる。

The quantum master equation (QME), used to describe the Markov process of interaction between atoms and field, has a number of significant drawbacks. It is extremely memory intensive, and also inapplicable to the case of long-term memory in the environment. An iterative algorithm for modeling the dynamics of an atomic system in the extended Tavis-Cummings model in terms of a pure state is proposed. The correctness of this algorithm is shown on the example of the interaction of an atomic system with the environment through the exchange of photons with the preservation of coherence. This algorithm is applicable to a wide class of processes associated with photonic machinery, in particular, to chemical reactions.
翻訳日:2023-05-02 14:37:51 公開日:2023-04-30
# クラスバランス拡散モデル

Class-Balancing Diffusion Models ( http://arxiv.org/abs/2305.00562v1 )

ライセンス: Link先を確認
Yiming Qin, Huangjie Zheng, Jiangchao Yao, Mingyuan Zhou, Ya Zhang(参考訳) 拡散に基づくモデルは、近年の研究でより良い多様性を保ちながら高品質な視覚データを生成する利点を示している。 しかし、そのような観察は、データサンプルがラベルの点から一様に配布されるように適切に事前処理されたキュレートされたデータ分布でのみ正当化される。 実際には、ロングテールデータ分布はより一般的であり、そのようなクラス不均衡データに対して拡散モデルがどのように振る舞うかは不明である。 本研究では,この問題をまず研究し,拡散モデルがクラス不均衡分布を持つデータセット上で訓練された場合,多様性と忠実性の両面で有意な劣化を観測する。 特に尾のクラスでは、世代は多様性をほとんど失い、重度のモード崩壊の問題を観察します。 そこで本研究では,データ分布がクラスバランスではないという仮説から,分布調整正規化器を用いて学習したクラスバランス拡散モデル(cbdm)を提案する。 CBDMが生成した画像は,定量的および質的両面で高い多様性と品質を示した。 提案手法は,CIFAR100/CIFAR100LTデータセットで生成結果をベンチマークし,下流認識タスクにおいて優れた性能を示す。

Diffusion-based models have shown the merits of generating high-quality visual data while preserving better diversity in recent studies. However, such observation is only justified with curated data distribution, where the data samples are nicely pre-processed to be uniformly distributed in terms of their labels. In practice, a long-tailed data distribution appears more common and how diffusion models perform on such class-imbalanced data remains unknown. In this work, we first investigate this problem and observe significant degradation in both diversity and fidelity when the diffusion model is trained on datasets with class-imbalanced distributions. Especially in tail classes, the generations largely lose diversity and we observe severe mode-collapse issues. To tackle this problem, we set from the hypothesis that the data distribution is not class-balanced, and propose Class-Balancing Diffusion Models (CBDM) that are trained with a distribution adjustment regularizer as a solution. Experiments show that images generated by CBDM exhibit higher diversity and quality in both quantitative and qualitative ways. Our method benchmarked the generation results on CIFAR100/CIFAR100LT dataset and shows outstanding performance on the downstream recognition task.
翻訳日:2023-05-02 14:37:43 公開日:2023-04-30
# 部分観測可能な環境下での複雑なタスクのための自律エージェントのモデルフリー運動計画

Model-free Motion Planning of Autonomous Agents for Complex Tasks in Partially Observable Environments ( http://arxiv.org/abs/2305.00561v1 )

ライセンス: Link先を確認
Junchao Li, Mingyu Cai, Zhen Kan and Shaoping Xiao(参考訳) 不完全な情報を含む部分的に既知の環境での自律エージェントの動作計画は、特に複雑なタスクにおいて、難しい問題である。 本稿では,この問題に対処するためのモデルフリー強化学習手法を提案する。 確率ラベル付き部分観測可能マルコフ決定過程(PL-POMDP)問題として動作計画を定式化し,線形時間論理(LTL)を用いて複雑なタスクを表現する。 LTLの公式は、極限決定論的一般化されたB\"uchi Automaticon (LDGBA)に変換される。 この問題は,PL-POMDP と LDGBA の製品に対して,複雑なタスクを満たすためのモデルチェック技術に基づく最適ポリシーを求めるものとして再定義されている。 観測履歴とタスク認識を処理するために,長い短期記憶(LSTM)を用いた深層Q学習を実装した。 提案手法には,LTLとLDGBAの利用,LSTMによる深層Q学習などが含まれている。 本稿では,グリッドワールド,仮想オフィス,マルチエージェント倉庫など,様々な環境でシミュレーションを行うことにより,提案手法の適用性を示す。 シミュレーションの結果,提案手法が環境,行動,観察の不確実性に効果的に対処できることが判明した。 これは、無人航空機(UAV)の制御を含む現実世界の応用の可能性を示している。

Motion planning of autonomous agents in partially known environments with incomplete information is a challenging problem, particularly for complex tasks. This paper proposes a model-free reinforcement learning approach to address this problem. We formulate motion planning as a probabilistic-labeled partially observable Markov decision process (PL-POMDP) problem and use linear temporal logic (LTL) to express the complex task. The LTL formula is then converted to a limit-deterministic generalized B\"uchi automaton (LDGBA). The problem is redefined as finding an optimal policy on the product of PL-POMDP with LDGBA based on model-checking techniques to satisfy the complex task. We implement deep Q learning with long short-term memory (LSTM) to process the observation history and task recognition. Our contributions include the proposed method, the utilization of LTL and LDGBA, and the LSTM-enhanced deep Q learning. We demonstrate the applicability of the proposed method by conducting simulations in various environments, including grid worlds, a virtual office, and a multi-agent warehouse. The simulation results demonstrate that our proposed method effectively addresses environment, action, and observation uncertainties. This indicates its potential for real-world applications, including the control of unmanned aerial vehicles (UAVs).
翻訳日:2023-05-02 14:37:24 公開日:2023-04-30
# Standpoint-OWL 2の自動推論サポート

Automated reasoning support for Standpoint-OWL 2 ( http://arxiv.org/abs/2305.00559v1 )

ライセンス: Link先を確認
Florian Emmrich, Luc\'ia G\'omez \'Alvarez and Hannes Strass(参考訳) 多様な(そしておそらく矛盾する)視点から知識をモデリングし、推論するためのツールを提案する。 理論的基盤は、最近導入された形式主義に則って、立場による基礎論理の強化によって提供される。 このツールは、記述論理SROIQのスタンドポイント強化バージョンを、その平易な(古典的な)バージョンに翻訳することで機能する。 既存の推論器は、さまざまな立場の推論に対する自動サポートを提供するために直接使用できる。

We present a tool for modelling and reasoning with knowledge from various diverse (and possibly conflicting) viewpoints. The theoretical underpinnings are provided by enhancing base logics by standpoints according to a recently introduced formalism that we also recall. The tool works by translating the standpoint-enhanced version of the description logic SROIQ to its plain (i.e. classical) version. Existing reasoners can then be directly used to provide automated support for reasoning about diverse standpoints.
翻訳日:2023-05-02 14:37:03 公開日:2023-04-30
# 物理-不均一粒子相互作用学習のための集合的関係推論

Collective Relational Inference for learning physics-consistent heterogeneous particle interactions ( http://arxiv.org/abs/2305.00557v1 )

ライセンス: Link先を確認
Zhichao Han, Olga Fink, David S. Kammer(参考訳) 相互作用する粒子系は自然と工学においてユビキタスである。 粒子相互作用の法則の解明は基本的に重要であるが、構成の複雑さが原因で特に困難である。 最近開発された機械学習手法は、均一系の粒子軌道から対の相互作用を発見する大きな可能性を示している。 しかし、複数の相互作用型が同時に共存し、関係推論が必要な異種系における相互作用を明らかにすることは不可能である。 本稿では,従来の手法と比較して2つの特徴を持つ関係推論の確率的手法を提案する。 第一に、異なるエッジの相互作用タイプをまとめて推測し、第二に、物理に起因したグラフニューラルネットワークを使って、物理に一貫性のあるペアの相互作用を学習する。 提案手法をいくつかのベンチマークデータセットで評価し,基礎となる物理と整合性を示す。 さらに,インタラクション型を正確に推測する既存の手法よりも優れた性能を示す。 さらに,提案手法は,従来提案していた解とは対照的に,より小さな解を訓練する場合に,データ効率が向上し,大規模システムに一般化できる。 開発された手法は、粒子系のマクロ力学的性質を決定する基本法則の発見の鍵となる要素を構成する。

Interacting particle systems are ubiquitous in nature and engineering. Revealing particle interaction laws is of fundamental importance but also particularly challenging due to underlying configurational complexities. Recently developed machine learning methods show great potential in discovering pairwise interactions from particle trajectories in homogeneous systems. However, they fail to reveal interactions in heterogeneous systems that are prevalent in reality, where multiple interaction types coexist simultaneously and relational inference is required. Here, we propose a novel probabilistic method for relational inference, which possesses two distinctive characteristics compared to existing methods. First, it infers the interaction types of different edges collectively, and second, it uses a physics-induced graph neural network to learn physics-consistent pairwise interactions. We evaluate the proposed methodology across several benchmark datasets and demonstrate that it is consistent with the underlying physics. Furthermore, we showcase its ability to outperform existing methods in accurately inferring interaction types. In addition, the proposed model is data-efficient and generalizable to large systems when trained on smaller ones, which contrasts with previously proposed solutions. The developed methodology constitutes a key element for the discovery of the fundamental laws that determine macroscopic mechanical properties of particle systems.
翻訳日:2023-05-02 14:36:55 公開日:2023-04-30
# ガイド付き確率探索による人間の脳活動からの画像再構成

Reconstructing seen images from human brain activity via guided stochastic search ( http://arxiv.org/abs/2305.00556v1 )

ライセンス: Link先を確認
Reese Kneeland (1), Jordyn Ojeda (1), Ghislain St-Yves (2), Thomas Naselaris (2) ((1) Department of Computer Science, University of Minnesota, (2) Department of Neuroscience, University of Minnesota)(参考訳) 視覚再構成アルゴリズムは、脳活動をピクセルにマッピングする解釈ツールである。 過去のレコンストラクションアルゴリズムでは、大量のライブラリを通じてブルートフォースサーチを使用して、エンコーディングモデルを通過する際に脳活動を正確に予測する候補画像を選択する。 ここでは,条件付き生成拡散モデルを用いて,この探索に基づく戦略を拡張し,改善する。 視覚野の大部分にわたるボクセルのヒト脳活動(7T fMRI)から意味記述子をデコードし、拡散モデルを用いて、この記述子に条件付けられた画像の小さなライブラリーをサンプリングする。 各サンプルをエンコーディングモデルに通し、最も脳活動を予測するイメージを選択し、これらのイメージを使用して別のライブラリをシードします。 このプロセスは、イテレーション間で意味的コンテンツを保存しながら、低レベルな画像詳細を洗練することで、高品質な再構築に収束する。 興味深いことに、time-to-convergenceは視覚野全体で系統的に異なるため、視覚領域における表現の多様性を測定するための簡潔な新しい方法が示唆されている。

Visual reconstruction algorithms are an interpretive tool that map brain activity to pixels. Past reconstruction algorithms employed brute-force search through a massive library to select candidate images that, when passed through an encoding model, accurately predict brain activity. Here, we use conditional generative diffusion models to extend and improve this search-based strategy. We decode a semantic descriptor from human brain activity (7T fMRI) in voxels across most of visual cortex, then use a diffusion model to sample a small library of images conditioned on this descriptor. We pass each sample through an encoding model, select the images that best predict brain activity, and then use these images to seed another library. We show that this process converges on high-quality reconstructions by refining low-level image details while preserving semantic content across iterations. Interestingly, the time-to-convergence differs systematically across visual cortex, suggesting a succinct new way to measure the diversity of representations across visual brain areas.
翻訳日:2023-05-02 14:36:35 公開日:2023-04-30
# Consolidator: 視覚適応のためのグループ接続を備えたマージ可能なアダプタ

Consolidator: Mergeable Adapter with Grouped Connections for Visual Adaptation ( http://arxiv.org/abs/2305.00603v1 )

ライセンス: Link先を確認
Tianxiang Hao, Hui Chen, Yuchen Guo and Guiguang Ding(参考訳) 近年、トランスフォーマーは様々なシナリオにおいて従来の畳み込みモデルを上回る視覚的特徴抽出器として強い能力を示している。 しかし、視覚トランスフォーマーの成功は、多くのパラメータに対応する能力に大きく依存している。 その結果、ダウンストリームタスクに大規模モデルを適用するための新たな課題が発生する。 一方、古典的な微調整は、全てのタスクの巨大なモデルで全てのパラメータを調整し、容易に過度な適合に陥り、性能が劣る。 一方、リソース制限されたデバイスでは、ファインチューニングはパラメータの完全なコピーを格納するので、ストレージスペースの不足に対して通常は実行不可能である。 しかし、視覚トランスフォーマーにおける知識を効率的に伝達する方法に焦点をあてた作品はほとんどない。 既存の手法は視覚的特徴の性質に潜り込まなかったため、性能は劣った。 さらに、ストレージのメリットはあるものの、高い推論コストをもたらすものもある。 これらの問題に対処するために,バックボーンモデルを凍結しながらタスク固有の知識を一時的に保存するために,調整可能なパラメータの小さなセットを追加して事前学習モデルを変更するコンソリケータを提案する。 グループ的な畳み込みの成功に動機づけられ、完全連結層によって抽出された特徴をまたいだグループ接続を採用し、コンソリゲータ内の可変部分を構築する。 制約付き記憶予算の下で知識を伝達し、推論を効率よく維持するモデルの能力をさらに強化するために、パラメータを2段階に集約する。 1. 適応と記憶、そして 2. ロードと推論の間。 一連の下流視覚タスクにおいて、コンソリケータは、パラメータの0.35%しか持たない完全微調整よりも最大7.56倍の精度を達成でき、最先端パラメータ効率チューニング手法をクリアマージンで上回る。 コードはhttps://github.com/beyondhtx/consolidatorで入手できる。

Recently, transformers have shown strong ability as visual feature extractors, surpassing traditional convolution-based models in various scenarios. However, the success of vision transformers largely owes to their capacity to accommodate numerous parameters. As a result, new challenges for adapting large models to downstream tasks arise. On the one hand, classic fine-tuning tunes all parameters in a huge model for every task and thus easily falls into overfitting, leading to inferior performance. On the other hand, on resource-limited devices, fine-tuning stores a full copy of parameters and thus is usually impracticable for the shortage of storage space. However, few works have focused on how to efficiently and effectively transfer knowledge in a vision transformer. Existing methods did not dive into the properties of visual features, leading to inferior performance. Moreover, some of them bring heavy inference cost though benefiting storage. To tackle these problems, we propose consolidator to modify the pre-trained model with the addition of a small set of tunable parameters to temporarily store the task-specific knowledge while freezing the backbone model. Motivated by the success of group-wise convolution, we adopt grouped connections across the features extracted by fully connected layers to construct tunable parts in a consolidator. To further enhance the model's capacity to transfer knowledge under a constrained storage budget and keep inference efficient, we consolidate the parameters in two stages: 1. between adaptation and storage, and 2. between loading and inference. On a series of downstream visual tasks, our consolidator can reach up to 7.56 better accuracy than full fine-tuning with merely 0.35% parameters, and outperform state-of-the-art parameter-efficient tuning methods by a clear margin. Code is available at https://github.com/beyondhtx/Consolidator.
翻訳日:2023-05-02 14:31:01 公開日:2023-04-30
# StyleGenes: GANの離散かつ効率的な遅延分布

StyleGenes: Discrete and Efficient Latent Distributions for GANs ( http://arxiv.org/abs/2305.00599v1 )

ライセンス: Link先を確認
Evangelos Ntavelis, Mohamad Shahbazi, Iason Kastanis, Radu Timofte, Martin Danelljan, Luc Van Gool(参考訳) 本稿では,GAN(Generative Adversarial Networks)に対する離散潜在分布を提案する。 連続的な先行点から潜在ベクトルを描く代わりに、学習可能な潜在点の有限集合からサンプリングする。 しかし、そのような分布の直接パラメトリゼーションは十分なサンプルの多様性を確保するために、メモリの難解な線形増加につながる。 我々は,生体内の情報のエンコーディングからインスピレーションを得て,この問題に対処した。 各サンプルについて別の潜在ベクターを学ぶ代わりに、潜在空間を一連の遺伝子に分割する。 各遺伝子について、遺伝子変異の小さなバンクを訓練する。 したがって、各遺伝子に対する変異を独立にサンプリングし、それらを最終潜伏ベクトルに組み合わせることで、学習可能なパラメータのコンパクトな集合から膨大な数の潜伏サンプルを表現できる。 興味深いことに、遺伝子にインスパイアされた潜在性エンコーディングは、潜在空間探索に対する新しい直感的なアプローチを可能にし、条件付き学習モデルから条件付きサンプリングを可能にします。 さらに,本手法は,広範に使用されているStyleMappingネットワークよりも高い歪みを実現しつつ,最先端のフォトリアリズムを保っている。

We propose a discrete latent distribution for Generative Adversarial Networks (GANs). Instead of drawing latent vectors from a continuous prior, we sample from a finite set of learnable latents. However, a direct parametrization of such a distribution leads to an intractable linear increase in memory in order to ensure sufficient sample diversity. We address this key issue by taking inspiration from the encoding of information in biological organisms. Instead of learning a separate latent vector for each sample, we split the latent space into a set of genes. For each gene, we train a small bank of gene variants. Thus, by independently sampling a variant for each gene and combining them into the final latent vector, our approach can represent a vast number of unique latent samples from a compact set of learnable parameters. Interestingly, our gene-inspired latent encoding allows for new and intuitive approaches to latent-space exploration, enabling conditional sampling from our unconditionally trained model. Moreover, our approach preserves state-of-the-art photo-realism while achieving better disentanglement than the widely-used StyleMapping network.
翻訳日:2023-05-02 14:30:12 公開日:2023-04-30
# 量子インターネット:インターネットワークの未来

Quantum Internet: The Future of Internetworking ( http://arxiv.org/abs/2305.00598v1 )

ライセンス: Link先を確認
Antonio Abelem, Don Towsley, Gayane Vardoyan(参考訳) 量子情報、計算、コミュニケーションは、私たちの世界に大きな影響を与えるでしょう。 重要なサブフィールドは、量子ネットワークと量子インターネットである。 量子インターネットの目的は、基本的に古典的なインターネットに届かないアプリケーションを可能にすることである。 量子ネットワークは通信システムに新しい能力をもたらす。 これは、セキュリティが物理学の法則のみに依存しているマルチパーティの共有秘密の生成、分散量子コンピューティング、センシングの改善、暗号化データの量子コンピューティング、秘密オークションのセキュアなど、多くのタスクに役立ちます。 しかし、量子信号は脆弱であり、一般にコピーや増幅はできない。 広範に利用とアプリケーション開発を可能にするためには、量子プロトコルをハードウェア実装の基盤と透過的に接続し、ネットワーク内の絡み合いを生成するための高速かつリアクティブな決定を行い、クビット寿命の制限を緩和する手法を開発することが不可欠である。 大規模量子インターネットワークのためのアーキテクチャは、物理層と低レベルのエラー管理と接続技術に関する理論的および実験的研究を並行して進めている。 この章は、量子情報、量子コンピューティング、量子ネットワークの研究の主要な概念、挑戦、機会を提示することを目的としている。

Quantum information, computation and communication, will have a great impact on our world. One important subfield will be quantum networking and the quantum Internet. The purpose of a quantum Internet is to enable applications that are fundamentally out of reach for the classical Internet. Quantum networks enable new capabilities to communication systems. This allows the parties to generate long distance quantum entanglement, which serves a number of tasks including the generation of multiparty shared secrets whose security relies only on the laws of physics, distributed quantum computing, improved sensing, quantum computing on encrypted data, and secure private-bid auctions. However, quantum signals are fragile, and, in general, cannot be copied or amplified. In order to enable widespread use and application development, it is essential to develop methods that allow quantum protocols to connect to the underlying hardware implementation transparently and to make fast and reactive decisions for generating entanglement in the network to mitigate limited qubit lifetimes. Architectures for large-scale quantum internetworking are in development, paralleling theoretical and experimental work on physical layers and low-level error management and connection technologies. This chapter aims to present the main concepts, challenges, and opportunities for research in quantum information, quantum computing and quantum networking.
翻訳日:2023-05-02 14:29:47 公開日:2023-04-30
# 認知型ヒューマノイドロボットにおける増分手続きと感覚運動学習

Incremental procedural and sensorimotor learning in cognitive humanoid robots ( http://arxiv.org/abs/2305.00597v1 )

ライセンス: Link先を確認
Leonardo de Lellis Rossi, Leticia Mara Berto, Eric Rohmer, Paula Paro Costa, Ricardo Ribeiro Gudwin, Esther Luna Colombini and Alexandre da Silva Simoes(参考訳) 複雑化する動きや行動を自動的に学習する能力は、自律システムにおける長期的な目標である。 実際、これは人間の知識の獲得と再利用方法の理解と、人工エージェントが以前の知識を再利用できるようにするメカニズムの提案を含む非常に複雑な問題である。 ジャン・ピアジェ理論の最初の3つの感覚運動サブステージに触発されたこの研究は、段階的に手順を学習できるconAIM(Conscious Attention-Based Integrated Model)に基づく認知エージェントを提示する。 本稿では,各サブステージに必要な認知機能と,エージェントの未解決課題に対する新たな機能の追加について述べる。 物体追跡タスクを実行するCognitive Systems Toolkit(CST)をモデルとしたシミュレーション環境でヒューマノイドロボットを用いて実験を行った。 このシステムは強化学習に基づく単一の手続き学習機構を用いてモデル化される。 学習段階ごとに報酬関数に新たな用語を追加することにより、エージェントの認知的複雑性を増大させる。 結果は、このアプローチが複雑なタスクを段階的に解決できることを示している。

The ability to automatically learn movements and behaviors of increasing complexity is a long-term goal in autonomous systems. Indeed, this is a very complex problem that involves understanding how knowledge is acquired and reused by humans as well as proposing mechanisms that allow artificial agents to reuse previous knowledge. Inspired by Jean Piaget's theory's first three sensorimotor substages, this work presents a cognitive agent based on CONAIM (Conscious Attention-Based Integrated Model) that can learn procedures incrementally. Throughout the paper, we show the cognitive functions required in each substage and how adding new functions helps address tasks previously unsolved by the agent. Experiments were conducted with a humanoid robot in a simulated environment modeled with the Cognitive Systems Toolkit (CST) performing an object tracking task. The system is modeled using a single procedural learning mechanism based on Reinforcement Learning. The increasing agent's cognitive complexity is managed by adding new terms to the reward function for each learning phase. Results show that this approach is capable of solving complex tasks incrementally.
翻訳日:2023-05-02 14:29:28 公開日:2023-04-30
# オンライン適応軽量時系列異常検出におけるディープラーニングライブラリの影響

Impact of Deep Learning Libraries on Online Adaptive Lightweight Time Series Anomaly Detection ( http://arxiv.org/abs/2305.00595v1 )

ライセンス: Link先を確認
Ming-Chang Lee and Jia-Chun Lin(参考訳) 人間の介入やドメイン知識なしに、オンライン適応型軽量時系列異常検出を提供することは、非常に貴重である。 近年,このような異常検出手法がいくつか導入されているが,これらはすべて1つのディープラーニングライブラリに実装されている。 ディープラーニングライブラリの開発により、このような評価が得られないので、ディープラーニングライブラリがこれらの異常検出アプローチに与える影響は明らかでない。 異常検出アプローチを実装するためにディープラーニングライブラリをランダムに選択することは、そのアプローチの真のパフォーマンスを示すことができないかもしれない。 また、あるアプローチが他のアプローチより優れていると信じているユーザーを誤解させる可能性がある。 そこで本稿では, ディープラーニングライブラリがオンライン適応型軽量時系列異常検出に与える影響を, 3つのよく知られたディープラーニングライブラリに2つの最先端異常検出アプローチを実装し, これら2つのアプローチが3つのディープラーニングライブラリによって個別に影響を受けるかを評価する。 4つの実世界のオープンソース時系列データセットに基づく一連の実験を行った。 その結果,オンライン適応型軽量異常検出のための適切な深層学習ライブラリを選択するための参考となる。

Providing online adaptive lightweight time series anomaly detection without human intervention and domain knowledge is highly valuable. Several such anomaly detection approaches have been introduced in the past years, but all of them were only implemented in one deep learning library. With the development of deep learning libraries, it is unclear how different deep learning libraries impact these anomaly detection approaches since there is no such evaluation available. Randomly choosing a deep learning library to implement an anomaly detection approach might not be able to show the true performance of the approach. It might also mislead users in believing one approach is better than another. Therefore, in this paper, we investigate the impact of deep learning libraries on online adaptive lightweight time series anomaly detection by implementing two state-of-the-art anomaly detection approaches in three well-known deep learning libraries and evaluating how these two approaches are individually affected by the three deep learning libraries. A series of experiments based on four real-world open-source time series datasets were conducted. The results provide a good reference to select an appropriate deep learning library for online adaptive lightweight anomaly detection.
翻訳日:2023-05-02 14:29:11 公開日:2023-04-30
# MCCは幾何平均の精度に近づき、真の負は無限に近づきます

The MCC approaches the geometric mean of precision and recall as true negatives approach infinity ( http://arxiv.org/abs/2305.00594v1 )

ライセンス: Link先を確認
Jon Crall(参考訳) 二項分類器の性能は、真正数(TP)、真負数(TN)、偽正数(FP)、偽負数(FN)の4つのエントリからなる混乱行列によって記述される。 マシューの相関係数(MCC)、F1、Fowlkes-Mallows(FM)スコアは、混乱行列をまとめたスカラーである。 F1 と FM のスコアは、混乱行列の4つのエントリのうち3つしか基づかない(それらは TN を無視している)。 対照的に、mcc は混乱行列の4つのエントリすべてを考慮し、より代表的なイメージを提供すると見なすことができる。 しかし、物体検出問題において、真の負の数を測定するのは非常に大きいため、しばしば難解である。 したがって、真の負の数が無限大に近づくと、MCCはどうなるのか? 本稿では,真の負の数が無限に近づくと,fm測定値がmccの限界値に等しいことを証明し,mccとfmスコアの関係について考察する。

The performance of a binary classifier is described by a confusion matrix with four entries: the number of true positives (TP), true negatives (TN), false positives (FP), and false negatives (FN). The Matthew's Correlation Coefficient (MCC), F1, and Fowlkes--Mallows (FM) scores are scalars that summarize a confusion matrix. Both the F1 and FM scores are based on only three of the four entries in the confusion matrix (they ignore TN). In contrast, the MCC takes into account all four entries of the confusion matrix and thus can be seen as providing a more representative picture. However, in object detection problems, measuring the number of true negatives is so large it is often intractable. Thus we ask, what happens to the MCC as the number of true negatives approaches infinity? This paper provides insight into the relationship between the MCC and FM score by proving that the FM-measure is equal to the limit of the MCC as the number of true negatives approaches infinity.
翻訳日:2023-05-02 14:28:53 公開日:2023-04-30
# 安定なグラディエントフリー・イークリフフリー・プロンプトチューニング

Reliable Gradient-free and Likelihood-free Prompt Tuning ( http://arxiv.org/abs/2305.00593v1 )

ライセンス: Link先を確認
Maohao Shen, Soumya Ghosh, Prasanna Sattigeri, Subhro Das, Yuheng Bu, Gregory Wornell(参考訳) プライバシーや商業上の制約のため、大規模な事前訓練言語モデル(PLM)はブラックボックスAPIとして提供されることが多い。 このようなモデルを下流タスクに微調整することは、モデルの内部表現にアクセスできないし、それを通して勾配を伝達できないため、難しい。 本稿では,APIアクセスのみでPLMを適用する手法を開発することで,これらの課題に対処する。 ソフトプロンプトチューニングに関する最近の研究に基づいて,勾配計算を必要とせずにソフトプロンプトをチューニングする手法を開発した。 さらに我々は、勾配を必要としないことに加えて、入力埋め込み以外のplmの内部表現にアクセスする必要がない拡張を開発する。 さらに,1つのプロンプトを学習する代わりに,予測の不確実性を定量化するプロンプト上の分布を学習する。 PLMにAPIアクセスしか持たない場合、プロンプトの不確実性を考慮するのはこれが初めてです。 最後に、広範な実験を通じて提案手法を慎重に検証し、PLMに完全アクセス可能な勾配に基づくアプローチと競合する(時には改善する)ことを見出した。

Due to privacy or commercial constraints, large pre-trained language models (PLMs) are often offered as black-box APIs. Fine-tuning such models to downstream tasks is challenging because one can neither access the model's internal representations nor propagate gradients through it. This paper addresses these challenges by developing techniques for adapting PLMs with only API access. Building on recent work on soft prompt tuning, we develop methods to tune the soft prompts without requiring gradient computation. Further, we develop extensions that in addition to not requiring gradients also do not need to access any internal representation of the PLM beyond the input embeddings. Moreover, instead of learning a single prompt, our methods learn a distribution over prompts allowing us to quantify predictive uncertainty. Ours is the first work to consider uncertainty in prompts when only having API access to the PLM. Finally, through extensive experiments, we carefully vet the proposed methods and find them competitive with (and sometimes even improving on) gradient-based approaches with full access to the PLM.
翻訳日:2023-05-02 14:28:33 公開日:2023-04-30
# 量子ラッパーネットワーク

Quantum Wrapper Networking ( http://arxiv.org/abs/2305.00591v1 )

ライセンス: Link先を確認
S. J. Ben Yoo, Sandeep Kumar Singh, Mehmet Berkay On, Gamze Gul, Gregory S. Kanter, Roberto Proietti, and Prem Kumar(参考訳) 本稿では,量子ネットワークの要件をそのまま維持しつつ,従来のネットワークと共存可能な量子ネットワークの制御,管理,運用を可能にする,量子ラッパーネットワークという新しい概念を紹介する。 量子ラッパーネットワーク(QWN)は、量子ペイロードと、特に古典的ヘッダーからなる量子ラッパーデータグラムの透過的で相互運用可能な輸送を可能にし、量子ペイロードの量子ビットを計測または妨害することなく、データグラムの切り替えを容易にする。 さらに、QWNは、従来のヘッダのパフォーマンス監視と量子チャネルの品質の推測に共通のネットワーク制御と管理を利用することができる。

We introduce a new concept of Quantum Wrapper Networking, which enables control, management, and operation of quantum networks that can co-exist with classical networks while keeping the requirements for quantum networks intact. The quantum wrapper net- works (QWNs) enable the transparent and interoperable transportation of quantum wrapper datagrams consisting of quantum payloads and, notably, classical headers to facilitate the datagram switching without measuring or disturbing the qubits of the quantum payload. Further- more, QWNs can utilize the common network control and management for performance monitoring on the classical header and infer the quantum channel quality.
翻訳日:2023-05-02 14:28:16 公開日:2023-04-30
# GPT-2はどのように計算しますか? 事前学習言語モデルにおける数学的能力の解釈

How does GPT-2 compute greater-than?: Interpreting mathematical abilities in a pre-trained language model ( http://arxiv.org/abs/2305.00586v1 )

ライセンス: Link先を確認
Michael Hanna, Ollie Liu and Alexandre Variengien(参考訳) 事前訓練された言語モデルは、明示的に訓練されていないタスクに驚くほど適しているが、これらの機能の実装方法はあまり理解されていない。 本稿では,事前学習された言語モデルによってしばしば得られる基本的な数学的能力について検討する。 具体的には,GPT-2の(限定的な)数学的能力を説明するために,機械的解釈可能性技術を用いる。 ケーススタディとして,「戦争は1732年から17年まで続いた」などの文を取り込む能力について検討し,有効な2桁終了年(32歳未満)を予測した。 まず、このタスクの出力を計算するGPT-2小の計算グラフの小さなサブセットである回路を同定する。 そして、各回路部品の役割を説明し、GPT-2小の最終的な多層パーセプトロンが、開始年よりも終末年の確率を高めることを示す。 最後に、我々の回路が他のタスクに一般化し、他のより大きなシナリオで役割を果たすことを示す。

Pre-trained language models can be surprisingly adept at tasks they were not explicitly trained on, but how they implement these capabilities is poorly understood. In this paper, we investigate the basic mathematical abilities often acquired by pre-trained language models. Concretely, we use mechanistic interpretability techniques to explain the (limited) mathematical abilities of GPT-2 small. As a case study, we examine its ability to take in sentences such as "The war lasted from the year 1732 to the year 17", and predict valid two-digit end years (years > 32). We first identify a circuit, a small subset of GPT-2 small's computational graph that computes this task's output. Then, we explain the role of each circuit component, showing that GPT-2 small's final multi-layer perceptrons boost the probability of end years greater than the start year. Finally, we show that our circuit generalizes to other tasks, playing a role in other greater-than scenarios.
翻訳日:2023-05-02 14:28:04 公開日:2023-04-30
# マルチモーダル質問応答のためのマルチモーダルグラフ変換器

Multimodal Graph Transformer for Multimodal Question Answering ( http://arxiv.org/abs/2305.00581v1 )

ライセンス: Link先を確認
Xuehai He, Xin Eric Wang(参考訳) 視覚と言語タスクにおけるトランスフォーマーモデルの成功にもかかわらず、彼らはしばしば巨大なデータから知識を暗黙的に学び、構造化された入力データを直接利用できない。 一方で、事前情報を統合するグラフニューラルネットワーク(gnn)のような構造化学習アプローチは、トランスフォーマーモデルとはほとんど競合しない。 本研究では,両世界からメリットを享受し,複数のモダリティにまたがる推論を必要とする質問応答タスクのための,新しいマルチモーダルグラフトランスフォーマを提案する。 テキストや視覚データから取得したマルチモーダルグラフ情報をバニラ自己認識に有効に組み込むための,グラフを組み込んだプラグアンドプレイ擬似アテンション機構を導入する。 特に、テキストグラフ、高密度領域グラフ、セマンティックグラフを構築し、隣接行列を生成し、それらを入力ビジョンと言語特徴で構成し、下流推論を行う。 このようなグラフ情報によるセルフアテンションの正則化は推論能力を大幅に向上させ、異なるモダリティから機能を調整するのに役立つ。 GQA, VQAv2, MultiModalQAデータセット上のトランスフォーマーベースラインに対するマルチモーダルグラフ変換の有効性を検証する。

Despite the success of Transformer models in vision and language tasks, they often learn knowledge from enormous data implicitly and cannot utilize structured input data directly. On the other hand, structured learning approaches such as graph neural networks (GNNs) that integrate prior information can barely compete with Transformer models. In this work, we aim to benefit from both worlds and propose a novel Multimodal Graph Transformer for question answering tasks that requires performing reasoning across multiple modalities. We introduce a graph-involved plug-and-play quasi-attention mechanism to incorporate multimodal graph information, acquired from text and visual data, to the vanilla self-attention as effective prior. In particular, we construct the text graph, dense region graph, and semantic graph to generate adjacency matrices, and then compose them with input vision and language features to perform downstream reasoning. Such a way of regularizing self-attention with graph information significantly improves the inferring ability and helps align features from different modalities. We validate the effectiveness of Multimodal Graph Transformer over its Transformer baselines on GQA, VQAv2, and MultiModalQA datasets.
翻訳日:2023-05-02 14:27:50 公開日:2023-04-30