このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230418となっている論文です。

PDF登録状況(公開日: 20230418)

TitleAuthorsAbstract論文公表日・翻訳日
# 深層学習アプローチと単一フレームcnnと畳み込みlstmを用いた人間の活動認識

Human activity recognition using deep learning approaches and single frame cnn and convolutional lstm ( http://arxiv.org/abs/2304.14499v1 )

ライセンス: Link先を確認
Sheryl Mathew, Annapoorani Subramanian, Pooja, Balamurugan MS, Manoj Kumar Rajagopal(参考訳) 人間の活動認識はコンピュータビジョンにおいて最も重要なタスクの1つであり、医療、スポーツトレーニング、セキュリティなど様々な分野で有用であることが証明されている。 この問題を解決するために検討されたアプローチはいくつかあり、いくつかはセンサーデータ、いくつかはビデオデータに関するものである。 本稿では,1フレームの畳み込みニューラルネットワーク(CNN)と,ビデオから人間の行動を認識するための畳み込み長短期記憶という,深層学習に基づく2つのアプローチを提案する。 畳み込みニューラルネットワークベースの手法は、cnnが自動的に機能を抽出することができ、ビデオなどのシーケンスデータを扱うのに長期の短期記憶ネットワークが優れているため、有利である。 2つのモデルは、ベンチマークアクション認識データセットであるUCF50と、実験のために作成された別のデータセットでトレーニングされ、評価された。 どちらのモデルも精度は良いが、単一のフレームCNNモデルはUCF50データセットで99.8%の精度で畳み込みLSTMモデルより優れている。

Human activity recognition is one of the most important tasks in computer vision and has proved useful in different fields such as healthcare, sports training and security. There are a number of approaches that have been explored to solve this task, some of them involving sensor data, and some involving video data. In this paper, we aim to explore two deep learning-based approaches, namely single frame Convolutional Neural Networks (CNNs) and convolutional Long Short-Term Memory to recognise human actions from videos. Using a convolutional neural networks-based method is advantageous as CNNs can extract features automatically and Long Short-Term Memory networks are great when it comes to working on sequence data such as video. The two models were trained and evaluated on a benchmark action recognition dataset, UCF50, and another dataset that was created for the experimentation. Though both models exhibit good accuracies, the single frame CNN model outperforms the Convolutional LSTM model by having an accuracy of 99.8% with the UCF50 dataset.
翻訳日:2023-05-07 16:22:58 公開日:2023-04-18
# 筋骨格領域の3次元モデルと特徴化

3D Patient-specific Modelling and Characterisation of Muscle-Skeletal Districts ( http://arxiv.org/abs/2304.14510v1 )

ライセンス: Link先を確認
Martina Paccini, Giuseppe Patan\`e, Michela Spagnuolo(参考訳) 本研究は, 筋骨格領域(手首, 脊椎など)の形態と病理の患者固有の特徴を, 形態的および組織的情報の統合を通じて診断活動とフォローアップ試験を支援することを目的としている。 本研究では,3次元表面モデルの幾何学的解析から得られた形態情報とボリューム画像から抽出した組織情報を統合するための異なる手法を提案する。 定性的・定量的な検証のために,関節リウマチ疾患をモニターするための手首の骨侵食部位の局所化と,脊椎の3つの機能領域の特徴化について検討し,骨ポロティック骨折の有無について検討する。 提案手法は,損傷の量的および視覚的評価,手術計画,早期診断・追跡研究を支援する。 最後に、私たちの分析は、異なる地区に適用できるほど一般的です。

This work addresses the patient-specific characterisation of the morphology and pathologies of muscle-skeletal districts (e.g., wrist, spine) to support diagnostic activities and follow-up exams through the integration of morphological and tissue information. We propose different methods for the integration of morphological information, retrieved from the geometrical analysis of 3D surface models, with tissue information extracted from volume images. For the qualitative and quantitative validation, we will discuss the localisation of bone erosion sites on the wrists to monitor rheumatic diseases and the characterisation of the three functional regions of the spinal vertebrae to study the presence of osteoporotic fractures. The proposed approach supports the quantitative and visual evaluation of possible damages, surgery planning, and early diagnosis or follow-up studies. Finally, our analysis is general enough to be applied to different districts.
翻訳日:2023-05-07 16:14:14 公開日:2023-04-18
# ライセンスプレート検出と顔特徴認識を用いた不審車両検出

Suspicious Vehicle Detection Using Licence Plate Detection And Facial Feature Recognition ( http://arxiv.org/abs/2304.14507v1 )

ライセンス: Link先を確認
Vrinda Agarwal, Aaron George Pichappa, Manideep Ramisetty, Bala Murugan MS, Manoj kumar Rajagopal(参考訳) 車両の安全性と検出を強化する必要性が高まっているため、犯罪者を捕まえ、様々な交通監視カメラを通して手動で車両を識別する既存の方法が利用できるようになった。 あらゆる分野における技術の進歩により、リアルタイム交通監視モデルの使用は、容易なアプローチに役立つだろう。 これを念頭に置いて,本論文は,逃走犯や盗難車両の安全とリアルタイム追跡を確保するために,顔認識とナンバープレート認識を組み合わせたモデルを開発することを目的としている。

With the increasing need to strengthen vehicle safety and detection, the availability of pre-existing methods of catching criminals and identifying vehicles manually through the various traffic surveillance cameras is not only time-consuming but also inefficient. With the advancement of technology in every field the use of real-time traffic surveillance models will help facilitate an easy approach. Keeping this in mind, the main focus of our paper is to develop a combined face recognition and number plate recognition model to ensure vehicle safety and real-time tracking of running-away criminals and stolen vehicles.
翻訳日:2023-05-07 16:13:21 公開日:2023-04-18
# 量子通信におけるマルチコアファイバのクロストークとノイズの緩和

Mitigation of crosstalk and noise in multicore fiber on quantum communication ( http://arxiv.org/abs/2305.01502v1 )

ライセンス: Link先を確認
Ekaterina Ponizovskaya-Devine(参考訳) クロストークが量子通信ネットワークに与える影響とその緩和について論じる。 位相確率共鳴現象を用いたネットワークのパラメータを選択することで,信号対雑音比を増加させることができることを示した。

The influence of crosstalk on quantum communication networks and its mitigation is discussed. It was shown that choosing the parameters for the network that uses the phase stochastic resonance phenomena can increase the signal-to-noise ratio.
翻訳日:2023-05-07 16:02:40 公開日:2023-04-18
# cancergpt: 大規模事前学習言語モデルを用いたドラッグペアのシナジー予測

CancerGPT: Few-shot Drug Pair Synergy Prediction using Large Pre-trained Language Models ( http://arxiv.org/abs/2304.10946v1 )

ライセンス: Link先を確認
Tianhao Li, Sandesh Shetty, Advaith Kamath, Ajay Jaiswal, Xianqian Jiang, Ying Ding, Yejin Kim(参考訳) 大規模事前学習型言語モデル(llm)は、最小限のトレーニングデータであっても、さまざまな分野における少数学習において大きな可能性を秘めている。 しかし、生物学のようなより複雑な分野の未確認タスクに一般化する能力はまだ十分に評価されていない。 LLMは、特に構造化データとサンプルサイズが制限されている場合に、テキストコーパスから事前の知識を抽出することで、生物学的推論に有望な代替手段を提供することができる。 提案手法は, 構造データや特徴を欠いた希少組織における薬物対の相乗効果を予測するためにLSMを用いた。 異なるがんタイプから7つのまれな組織を用いた実験により, llmを用いた予測モデルが, ごくわずかあるいはゼロの試料で有意な精度を示した。 提案したモデルであるCASEGPT($\sim$ 124Mパラメータ)は,より大型の細調整GPT-3モデル($\sim$ 175Bパラメータ)と同等であった。 私たちの研究は、限られたデータで希少な組織における薬物対相乗効果の予測に取り組む最初の方法です。 また,生物反応予測タスクに LLM ベースの予測モデルを用いた最初の試みである。

Large pre-trained language models (LLMs) have been shown to have significant potential in few-shot learning across various fields, even with minimal training data. However, their ability to generalize to unseen tasks in more complex fields, such as biology, has yet to be fully evaluated. LLMs can offer a promising alternative approach for biological inference, particularly in cases where structured data and sample size are limited, by extracting prior knowledge from text corpora. Our proposed few-shot learning approach uses LLMs to predict the synergy of drug pairs in rare tissues that lack structured data and features. Our experiments, which involved seven rare tissues from different cancer types, demonstrated that the LLM-based prediction model achieved significant accuracy with very few or zero samples. Our proposed model, the CancerGPT (with $\sim$ 124M parameters), was even comparable to the larger fine-tuned GPT-3 model (with $\sim$ 175B parameters). Our research is the first to tackle drug pair synergy prediction in rare tissues with limited data. We are also the first to utilize an LLM-based prediction model for biological reaction prediction tasks.
翻訳日:2023-04-30 08:14:22 公開日:2023-04-18
# FastMRI前立腺:前立腺癌画像のための機械学習を前進させる2パラメータMRIデータセット

FastMRI Prostate: A Publicly Available, Biparametric MRI Dataset to Advance Machine Learning for Prostate Cancer Imaging ( http://arxiv.org/abs/2304.09254v1 )

ライセンス: Link先を確認
Radhika Tibrewala, Tarun Dutt, Angela Tong, Luke Ginocchio, Mahesh B Keerthivasan, Steven H Baete, Sumit Chopra, Yvonne W Lui, Daniel K Sodickson, Hersh Chandarana, Patricia M Johnson(参考訳) 高速MRI脳と膝のデータセットは、新しい臨床的に関係のある再建アプローチを通じて、MRI(MRI)の速度と画像品質を改善するための再構築方法の探索において、大きな進歩をもたらした。 本研究では,2023年4月のfastMRIデータセットの拡張について述べる。 データセットは、T2重み付きおよび拡散重み付き配列のための生のk空間と再構成された画像と、前立腺癌の存在と程度を示すスライスレベルラベルから構成される。 fastMRIの場合と同様に、生前立腺MRIデータへのアクセシビリティの向上は、MRI画像の再構成と評価をさらに促進し、前立腺がんの検出と評価のためのMRIの有用性を向上させることを目的としている。 データセットはhttps://fastmri.med.nyu.eduで利用可能である。

The fastMRI brain and knee dataset has enabled significant advances in exploring reconstruction methods for improving speed and image quality for Magnetic Resonance Imaging (MRI) via novel, clinically relevant reconstruction approaches. In this study, we describe the April 2023 expansion of the fastMRI dataset to include biparametric prostate MRI data acquired on a clinical population. The dataset consists of raw k-space and reconstructed images for T2-weighted and diffusion-weighted sequences along with slice-level labels that indicate the presence and grade of prostate cancer. As has been the case with fastMRI, increasing accessibility to raw prostate MRI data will further facilitate research in MR image reconstruction and evaluation with the larger goal of improving the utility of MRI for prostate cancer detection and evaluation. The dataset is available at https://fastmri.med.nyu.edu.
翻訳日:2023-04-30 08:12:41 公開日:2023-04-18
# HeRo:RoBERTaとLongformer Hebrew言語モデル

HeRo: RoBERTa and Longformer Hebrew Language Models ( http://arxiv.org/abs/2304.11077v1 )

ライセンス: Link先を確認
Vitaly Shalumov and Harel Haskey(参考訳) 本稿では,ヘブライのNLPコミュニティで利用可能なリソースのギャップを埋めるために,これまでで最大規模の事前学習データセットHeDC4,標準長入力のための最先端事前学習言語モデルHeRo,長入力シーケンスのための効率的な変換器LongHeRoを提供する。 HeRoモデルは、感情分析、名前付きエンティティ認識、質問応答タスクに基づいて評価され、LongHeRoモデルは長い文書からなるデータセットを用いて文書分類タスクに対して評価された。 HeRoとLongHeRoはいずれも最先端のパフォーマンスを示した。 この作業で使用されるデータセットとモデルチェックポイントが公開されている。

In this paper, we fill in an existing gap in resources available to the Hebrew NLP community by providing it with the largest so far pre-train dataset HeDC4, a state-of-the-art pre-trained language model HeRo for standard length inputs and an efficient transformer LongHeRo for long input sequences. The HeRo model was evaluated on the sentiment analysis, the named entity recognition, and the question answering tasks while the LongHeRo model was evaluated on the document classification task with a dataset composed of long documents. Both HeRo and LongHeRo presented state-of-the-art performance. The dataset and model checkpoints used in this work are publicly available.
翻訳日:2023-04-30 08:07:36 公開日:2023-04-18
# 行動の前に考える - 行動を伴う言語推論の統一政策

Think Before You Act: Unified Policy for Interleaving Language Reasoning with Actions ( http://arxiv.org/abs/2304.11063v1 )

ライセンス: Link先を確認
Lina Mezghani and Piotr Bojanowski and Karteek Alahari and Sainbayar Sukhbaatar(参考訳) 言語モデリングの目的でトレーニングされたトランスフォーマーモデルの成功は、強化学習フレームワークに有望な機会をもたらす。 Decision Transformerはこの方向への一歩であり、オフラインデータ上で同様の次のステップの予測目標でトランスフォーマーをトレーニングする方法を示している。 この領域におけるもう1つの重要な展開は、インターネットから収集された大規模なデータセットの出現である。 そこで本稿では,この言語コンポーネントを活用するために,単一ポリシーにおける行動を伴う言語推論を統一する手法を提案する。 具体的には、単語出力によるトランスフォーマーポリシーを強化し、アクションにインターリーブされたテキストキャプションを生成する。 BabyAIの最も困難なタスクで、次のサブゴールを説明するキャプションでテストすると、私たちの推論ポリシーはキャプションのないベースラインを一貫して上回ります。

The success of transformer models trained with a language modeling objective brings a promising opportunity to the reinforcement learning framework. Decision Transformer is a step towards this direction, showing how to train transformers with a similar next-step prediction objective on offline data. Another important development in this area is the recent emergence of large-scale datasets collected from the internet, such as the ones composed of tutorial videos with captions where people talk about what they are doing. To take advantage of this language component, we propose a novel method for unifying language reasoning with actions in a single policy. Specifically, we augment a transformer policy with word outputs, so it can generate textual captions interleaved with actions. When tested on the most challenging task in BabyAI, with captions describing next subgoals, our reasoning policy consistently outperforms the caption-free baseline.
翻訳日:2023-04-30 08:05:49 公開日:2023-04-18
# aiプロダクトセキュリティ: 開発者のためのプライマー

AI Product Security: A Primer for Developers ( http://arxiv.org/abs/2304.11087v1 )

ライセンス: Link先を確認
Ebenezer R. H. P. Isaac and Jim Reno(参考訳) さかのぼる昔、AIのセキュリティとは、AIがサイバーセキュリティ、すなわちセキュリティのためのAIをどのように強化するかの研究と実践を意味していた。 Ian Goodfellow氏と彼のチームが機械学習に対する敵対的な攻撃を広めて以来、AIのセキュリティは重要な関心事となり、AIセキュリティの一部となった。 機械学習製品に対する脅威を理解し、AI製品開発における共通の落とし穴を避けることが不可欠である。 この記事は、AIソフトウェア製品の開発者、デザイナー、マネージャ、研究者に宛てられている。

Not too long ago, AI security used to mean the research and practice of how AI can empower cybersecurity, that is, AI for security. Ever since Ian Goodfellow and his team popularized adversarial attacks on machine learning, security for AI became an important concern and also part of AI security. It is imperative to understand the threats to machine learning products and avoid common pitfalls in AI product development. This article is addressed to developers, designers, managers and researchers of AI software products.
翻訳日:2023-04-30 07:57:12 公開日:2023-04-18
# 心電図信号と患者メタデータを用いた心血管疾患診断のためのマルチモーダルコントラスト学習

Multimodal contrastive learning for diagnosing cardiovascular diseases from electrocardiography (ECG) signals and patient metadata ( http://arxiv.org/abs/2304.11080v1 )

ライセンス: Link先を確認
Tue M. Cao, Nhat H. Tran, Phi Le Nguyen, Hieu Pham(参考訳) 本研究は、心電図(ECG)信号による心血管疾患の診断における、コントラスト学習と深層学習の利用について論じる。 ECG信号は通常12個のリード(チャネル)を含むが、多くの医療施設やデバイスはこれらの12個のリードにアクセスできない。 これにより、ECGを減らせば、高いパフォーマンスで有意義な診断ができるという問題が発生する。 この課題にコントラスト学習を適用することができるかどうかを検証するための簡単な実験を紹介する。 より具体的には、12個のリード信号と少ないリードECG信号の損失関数への類似性を加えて、これらの表現をより密結合させた。 単純さにもかかわらず、これはすべてのリードの組み合わせによる診断のパフォーマンスを改善し、このタスクにおけるコントラスト学習の可能性を証明することが示されている。

This work discusses the use of contrastive learning and deep learning for diagnosing cardiovascular diseases from electrocardiography (ECG) signals. While the ECG signals usually contain 12 leads (channels), many healthcare facilities and devices lack access to all these 12 leads. This raises the problem of how to use only fewer ECG leads to produce meaningful diagnoses with high performance. We introduce a simple experiment to test whether contrastive learning can be applied to this task. More specifically, we added the similarity between the embedding vectors when the 12 leads signal and the fewer leads ECG signal to the loss function to bring these representations closer together. Despite its simplicity, this has been shown to have improved the performance of diagnosing with all lead combinations, proving the potential of contrastive learning on this task.
翻訳日:2023-04-30 07:56:03 公開日:2023-04-18
# 大規模言語モデル耐性試験の作成:ガイドラインと戦略

Creating Large Language Model Resistant Exams: Guidelines and Strategies ( http://arxiv.org/abs/2304.12203v1 )

ライセンス: Link先を確認
Simon kaare Larsen(参考訳) ChatGPTのようなLarge Language Models(LLM)の普及は、学術的完全性への潜在的な影響を懸念し、LCM耐性試験設計の必要性を喚起している。 本稿は,チャットgptの能力と限界に着目し,試験におけるllmの性能とその評価への影響について検討する。 本稿では,コンテンツモデレーション,意図的不正確性,モデルの知識ベースを越えた現実シナリオ,効果的な気晴らしオプション,ソフトスキルの評価,非テキスト情報の導入など,LCM耐性試験を作成するためのガイドラインを提案する。 この記事は、現代のツールにアセスメントを適用し、学生の必須スキル開発を促進することの重要性も強調する。 これらの戦略を採用することで、教育者は学術的整合性を維持しつつ、アセスメントが現代の専門家の設定を正確に反映し、教育において人工知能がもたらす課題と機会に対処することを保証する。

The proliferation of Large Language Models (LLMs), such as ChatGPT, has raised concerns about their potential impact on academic integrity, prompting the need for LLM-resistant exam designs. This article investigates the performance of LLMs on exams and their implications for assessment, focusing on ChatGPT's abilities and limitations. We propose guidelines for creating LLM-resistant exams, including content moderation, deliberate inaccuracies, real-world scenarios beyond the model's knowledge base, effective distractor options, evaluating soft skills, and incorporating non-textual information. The article also highlights the significance of adapting assessments to modern tools and promoting essential skills development in students. By adopting these strategies, educators can maintain academic integrity while ensuring that assessments accurately reflect contemporary professional settings and address the challenges and opportunities posed by artificial intelligence in education.
翻訳日:2023-04-30 07:39:10 公開日:2023-04-18
# カーネルロバスト仮説テスト

Kernel Robust Hypothesis Testing ( http://arxiv.org/abs/2203.12777v2 )

ライセンス: Link先を確認
Zhongchang Sun and Shaofeng Zou(参考訳) 強固な仮説検定の問題は、ヌルと代替仮説の下では、データ生成分布が不確実性集合に含まれると仮定され、不確実性集合上の最悪の場合分布の下で適切に実行されるテストを設計することが目的である。 本稿では,不確実性集合を核法を用いてデータ駆動的に構築する。すなわち,ヌル仮説とオルタナティブ仮説のサンプル実験分布を中心に構成し,再生成核ヒルベルト空間における分布の平均埋め込み距離,すなわち最大平均偏差(mmd)によって制約する。 The Bayesian set and the Neyman-Pearson set。 最悪の場合のエラー確率を最小化する目的のベイズ設定の場合、アルファベットが有限であるときにまず最適なテストを求める。 アルファベットが無限の場合、最悪のケースの平均誤差確率を定量化するためにトラクタブル近似を提案し、未知のサンプルに一般化する設計試験にカーネル平滑化法をさらに適用した。 直接堅牢なカーネルテストも提案され、指数関数的に一貫性があることが証明された。 誤ったアラームの最悪のケース確率の制約を受けるミス検出の最悪のケース確率を最小化することを目的としたニーマン・ピアソン・セッティングでは、効率的な堅牢なカーネルテストが提案され、漸近的に最適であることが示されている。 提案したロバスト試験の性能を示す数値的な結果が得られた。

The problem of robust hypothesis testing is studied, where under the null and the alternative hypotheses, the data-generating distributions are assumed to be in some uncertainty sets, and the goal is to design a test that performs well under the worst-case distributions over the uncertainty sets. In this paper, uncertainty sets are constructed in a data-driven manner using kernel method, i.e., they are centered around empirical distributions of training samples from the null and alternative hypotheses, respectively; and are constrained via the distance between kernel mean embeddings of distributions in the reproducing kernel Hilbert space, i.e., maximum mean discrepancy (MMD). The Bayesian setting and the Neyman-Pearson setting are investigated. For the Bayesian setting where the goal is to minimize the worst-case error probability, an optimal test is firstly obtained when the alphabet is finite. When the alphabet is infinite, a tractable approximation is proposed to quantify the worst-case average error probability, and a kernel smoothing method is further applied to design test that generalizes to unseen samples. A direct robust kernel test is also proposed and proved to be exponentially consistent. For the Neyman-Pearson setting, where the goal is to minimize the worst-case probability of miss detection subject to a constraint on the worst-case probability of false alarm, an efficient robust kernel test is proposed and is shown to be asymptotically optimal. Numerical results are provided to demonstrate the performance of the proposed robust tests.
翻訳日:2023-04-21 17:47:12 公開日:2023-04-18
# 少数の教師なし画像の異常検出に適したデータ拡張とは何か?

What makes a good data augmentation for few-shot unsupervised image anomaly detection? ( http://arxiv.org/abs/2304.03294v2 )

ライセンス: Link先を確認
Shuheng Zhang, Lingrui Zhang, Guoyang Xie, Jiaqi Liu, Hua Yan, Jinbao Wang, Feng Zheng, Yaochu Jin(参考訳) データ拡張は産業応用における教師なし異常検出に有望な技術であり、商業的競争やサンプル収集の困難などの要因により、陽性サンプルの入手が制限されることが多い。 本稿では,教師なし異常検出のためのデータ拡張手法を効果的に選択し,適用する方法について検討する。 各種データ拡張手法が各種異常検出アルゴリズムに与える影響を実験により系統的に検討した。 実験の結果, 異なる産業用画像異常検出アルゴリズム(iad)の性能は, 特定のデータ拡張法では大きな影響を受けず, 複数のデータ拡張法を組み合わせると, 特定の手法で優れた結果が得られるが, 異常検出の精度がさらに向上するとは限らないことがわかった。 これらの知見は、IDAの異なる要件に対する適切なデータ拡張方法を選択する上で有用なガイダンスを提供する。

Data augmentation is a promising technique for unsupervised anomaly detection in industrial applications, where the availability of positive samples is often limited due to factors such as commercial competition and sample collection difficulties. In this paper, how to effectively select and apply data augmentation methods for unsupervised anomaly detection is studied. The impact of various data augmentation methods on different anomaly detection algorithms is systematically investigated through experiments. The experimental results show that the performance of different industrial image anomaly detection (termed as IAD) algorithms is not significantly affected by the specific data augmentation method employed and that combining multiple data augmentation methods does not necessarily yield further improvements in the accuracy of anomaly detection, although it can achieve excellent results on specific methods. These findings provide useful guidance on selecting appropriate data augmentation methods for different requirements in IAD.
翻訳日:2023-04-21 16:12:12 公開日:2023-04-18
# 高齢者向けチャットGPT会話コンパニオンの設計に向けて

Towards Designing a ChatGPT Conversational Companion for Elderly People ( http://arxiv.org/abs/2304.09866v1 )

ライセンス: Link先を確認
Abeer Alessa and Hend Al-Khalifa(参考訳) 孤独と社会的孤立は高齢者の間で深刻な問題であり、身体的および精神的な健康、生活の質、長寿に影響を及ぼす。 本稿では,高齢者向けチャットgptベースの会話コンパニオンシステムを提案する。 このシステムは、同伴性を提供し、孤独感と社会的孤立を減らすために設計されている。 システムは予備研究で評価された。 その結果,このシステムは高齢者のパーソナラに関連する応答を生成できることがわかった。 しかし、潜在的なバイアスや誤報などのChatGPTの限界を認識し、プライバシー上の懸念を含む高齢者にAIベースの仲間シップを使用することによる倫理的影響を検討することが不可欠である。

Loneliness and social isolation are serious and widespread problems among older people, affecting their physical and mental health, quality of life, and longevity. In this paper, we propose a ChatGPT-based conversational companion system for elderly people. The system is designed to provide companionship and help reduce feelings of loneliness and social isolation. The system was evaluated with a preliminary study. The results showed that the system was able to generate responses that were relevant to the created elderly personas. However, it is essential to acknowledge the limitations of ChatGPT, such as potential biases and misinformation, and to consider the ethical implications of using AI-based companionship for the elderly, including privacy concerns.
翻訳日:2023-04-21 15:34:00 公開日:2023-04-18
# ユーザ満足の源としての安全会話型AI

Safer Conversational AI as a Source of User Delight ( http://arxiv.org/abs/2304.09865v1 )

ライセンス: Link先を確認
Xiaoding Lu, Aleksey Korshuk, Zongyi Liu, William Beauchamp, Chai Research(参考訳) この研究は、モデレーションがユーザの会話型aiシステムの楽しみに与える影響を探求する。 近年のLarge Language Models(LLM)の進歩は、現実世界の環境にますますデプロイされる、高度な対話型AIを生み出している一方で、AIの安全性と、安全な言語を奨励し、害を防ごうとするシステムに対する懸念が高まっている。 しかし、現在、モデレーションのアプローチはテクノロジーを制限し、自由表現を妥協し、テクノロジーがもたらす価値を制限していると主張するユーザーもいる。 本研究では,モデレーションが必ずしもユーザの楽しみを損なうとは限らないことを示す。 ヘビーハンドのモデレーションは悪影響があるように思えるが、より安全と判断されたモデルは、より良いユーザーエクスペリエンスをもたらす可能性がある。 さまざまな会話型AIをChaiプラットフォームにデプロイすることで、ユーザの保持度が、モデレーションと安全なシステム設計のレベルで向上することを発見した。 これらの結果は、責任感とユーザへの提供を重視した方法で、モデルにおける安全性を適切に定義することの重要性を示しています。

This work explores the impact of moderation on users' enjoyment of conversational AI systems. While recent advancements in Large Language Models (LLMs) have led to highly capable conversational AIs that are increasingly deployed in real-world settings, there is a growing concern over AI safety and the need to moderate systems to encourage safe language and prevent harm. However, some users argue that current approaches to moderation limit the technology, compromise free expression, and limit the value delivered by the technology. This study takes an unbiased stance and shows that moderation does not necessarily detract from user enjoyment. Heavy handed moderation does seem to have a nefarious effect, but models that are moderated to be safer can lead to a better user experience. By deploying various conversational AIs in the Chai platform, the study finds that user retention can increase with a level of moderation and safe system design. These results demonstrate the importance of appropriately defining safety in models in a way that is both responsible and focused on serving users.
翻訳日:2023-04-21 15:33:47 公開日:2023-04-18
# 非Lipschitzネットワークのロバスト性の解析

An Analysis of Robustness of Non-Lipschitz Networks ( http://arxiv.org/abs/2010.06154v4 )

ライセンス: Link先を確認
Maria-Florina Balcan and Avrim Blum and Dravyansh Sharma and Hongyang Zhang(参考訳) 大きな進歩にもかかわらず、ディープネットワークは敵の攻撃を受けやすいままである。 基本的な課題の1つは、小さな入力の摂動がネットワークの最終層の特徴空間において大きな動きを生じさせることである。 本稿では,この課題を抽象化した攻撃モデルを定義し,その本質的特性を理解する。 我々のモデルでは、逆者は任意の距離を特徴空間内で移動させるが、ランダムな低次元部分空間でのみデータを移動することができる。 このような敵は、与えられた任意の入力を分類しなければならないアルゴリズムを倒すことで、非常に強力であることを示す。 しかし、アルゴリズムが異常な入力を許容できるようにすることで、クラスが特徴空間において合理的に分離された場合に、そのような敵を克服できることを示す。 さらに,データ駆動手法を用いた精度回避トレードオフを最適化するためにアルゴリズムパラメータを設定するための強い理論的保証を提供する。 提案手法は,近距離-neighbor型アルゴリズムに対する新たなロバスト性保証を提供するとともに,コントラスト学習への応用も行なっており,低抑止率で高いロバスト性を得るためのアルゴリズムの能力が実証的に実証されている。 我々のモデルは戦略的な分類にも動機付けられており、分類対象のエンティティは、望ましい分類を生成するために観測可能な特徴を操作することを目的としている。

Despite significant advances, deep networks remain highly susceptible to adversarial attack. One fundamental challenge is that small input perturbations can often produce large movements in the network's final-layer feature space. In this paper, we define an attack model that abstracts this challenge, to help understand its intrinsic properties. In our model, the adversary may move data an arbitrary distance in feature space but only in random low-dimensional subspaces. We prove such adversaries can be quite powerful: defeating any algorithm that must classify any input it is given. However, by allowing the algorithm to abstain on unusual inputs, we show such adversaries can be overcome when classes are reasonably well-separated in feature space. We further provide strong theoretical guarantees for setting algorithm parameters to optimize over accuracy-abstention trade-offs using data-driven methods. Our results provide new robustness guarantees for nearest-neighbor style algorithms, and also have application to contrastive learning, where we empirically demonstrate the ability of such algorithms to obtain high robust accuracy with low abstention rates. Our model is also motivated by strategic classification, where entities being classified aim to manipulate their observable features to produce a preferred classification, and we provide new insights into that area as well.
翻訳日:2023-04-20 19:13:16 公開日:2023-04-18
# BEC干渉法による崩壊モデルの決定方法

How to rule out collapse models with BEC interferometry ( http://arxiv.org/abs/2008.13580v2 )

ライセンス: Link先を確認
Bj\"orn Schrinski, Philipp Haslinger, J\"org Schmiedmayer, Klaus Hornberger, Stefan Nimmrichter(参考訳) 連続自発局所化(CSL)モデルは、客観的な量子-古典的遷移を予測する量子力学の最も顕著な一貫した修正である。 本稿では,ボース・アインシュタイン凝縮原子を用いた精密干渉法が,局所化速度パラメータの現在の経験的結合を数桁小さくすることができることを示す。 これは、絞り込みbecの干渉信号における平均的な人口不均衡ではなく、高絡み合いのghz様状態を必要としない原子数分布に焦点を合わせることで機能する。 実際、CSLによる拡散と分散原子-原子相互作用の相互作用は、CSLへの縮合の感度を増幅する。 我々は,パラメータ空間の新しい領域を試験し,その限界まで押し上げ,CSLの大規模パラメータ体系を探索し,潜在的に排除するために,最先端の実験手法を用いた実験的な実測手法について論じる。

The model of continuous spontaneous localization (CSL) is the most prominent consistent modification of quantum mechanics predicting an objective quantum-to-classical transition. Here we show that precision interferometry with Bose-Einstein condensed atoms can serve to lower the current empirical bound on the localization rate parameter by several orders of magnitude. This works by focusing on the atom count distributions rather than just mean population imbalances in the interferometric signal of squeezed BECs, without the need for highly entangled GHZ-like states. In fact, the interplay between CSL-induced diffusion and dispersive atom-atom interactions results in an amplified sensitivity of the condensate to CSL. We discuss experimentally realistic measurement schemes utilizing state-of-the-art experimental techniques to test new regions of parameter space and, pushed to the limit, to probe and potentially rule out large relevant parameter regimes of CSL.
翻訳日:2023-04-20 19:12:42 公開日:2023-04-18
# 画像復元のための適応型クロスレイアアテンション

Adaptive Cross-Layer Attention for Image Restoration ( http://arxiv.org/abs/2203.03619v3 )

ライセンス: Link先を確認
Yancheng Wang, Ning Xu, Yingzhen Yang(参考訳) 非局所注意モジュールは画像復元に不可欠であることが証明されている。 従来の非局所的アテンションプロセスは各レイヤを別々に特徴付けるため、異なるレイヤ間の特徴の相関を欠くリスクがある。 この問題に対処するために、異なるレイヤから情報を集約するアテンションモジュールを設計することを目的とする。 同じ層内で相関のあるキーピクセルを見つける代わりに、各クエリピクセルは、ネットワークの複数のレイヤでキーピクセルに出席することが推奨される。 このような注意設計をニューラルネットワークのバックボーンに効率的に組み込むために,新しい適応的クロスレイヤーアテンション(acla)モジュールを提案する。 1) 各層における非局所的注意のためのキーを適応的に選択すること,(2)ACLAモジュールの挿入位置を自動的に検索すること,の2つの適応設計を提案する。 これら2つの適応設計により、ACLAは、魅力的な性能を持つコンパクトニューラルネットワークを維持しながら、前層の非局所的な注意のために集約されるキーのフレキシブルな数を動的に選択する。 単一画像の超高解像度化、画像のデニュージング、画像のデモサイシング、画像圧縮アーティファクトの削減など、画像復元タスクに関する広範な実験は、aclaの有効性と効率を検証する。 ACLAのコードは \url{https://github.com/SDL-ASU/ACLA} で公開されている。

Non-local attention module has been proven to be crucial for image restoration. Conventional non-local attention processes features of each layer separately, so it risks missing correlation between features among different layers. To address this problem, we aim to design attention modules that aggregate information from different layers. Instead of finding correlated key pixels within the same layer, each query pixel is encouraged to attend to key pixels at multiple previous layers of the network. In order to efficiently embed such attention design into neural network backbones, we propose a novel Adaptive Cross-Layer Attention (ACLA) module. Two adaptive designs are proposed for ACLA: (1) adaptively selecting the keys for non-local attention at each layer; (2) automatically searching for the insertion locations for ACLA modules. By these two adaptive designs, ACLA dynamically selects a flexible number of keys to be aggregated for non-local attention at previous layer while maintaining a compact neural network with compelling performance. Extensive experiments on image restoration tasks, including single image super-resolution, image denoising, image demosaicing, and image compression artifacts reduction, validate the effectiveness and efficiency of ACLA. The code of ACLA is available at \url{https://github.com/SDL-ASU/ACLA}.
翻訳日:2023-04-20 18:28:39 公開日:2023-04-18
# リカレントニューラルネットワークを用いたデュアルソーシング在庫システムの制御

Control of Dual-Sourcing Inventory Systems using Recurrent Neural Networks ( http://arxiv.org/abs/2201.06126v4 )

ライセンス: Link先を確認
Lucas B\"ottcher and Thomas Asikis and Ioannis Fragkos(参考訳) 在庫管理における重要な課題は、複数のサプライヤーから在庫を最適に補充する政策を特定することである。 このような最適化問題を解決するために、在庫管理者は、在庫の純在庫と未完の受注を考慮し、各サプライヤーから発注すべき量を決定する必要がある。 在庫管理問題は60年以上にわたって広く研究されてきたが、高価なサプライヤーからの注文が通常のサプライヤーからの注文よりも早く届くという基本的な二重ソーシング問題でさえも、一般的な形では難解なままである。 さらに、動的需要シフトをタイムリーに調整可能な、積極的なスケーラブルな最適化アルゴリズムの開発も求められている。 本研究では,ニューラルネットワークに基づく最適化レンズからのデュアルソーシングにアプローチし,インベントリダイナミクスとその補充(つまり制御)ポリシーに関する情報を,リカレントニューラルネットワークの設計に組み込む。 提案するニューラルネットワークコントローラ(nncs)は、通常のパーソナルコンピュータ上で数分以内に、一般的に使用されるインスタンスのほぼ最適なポリシーを学習できることを実証する。 また、NNCの汎用性を示すために、実証的な非定常需要分布を用いて在庫動態を制御できることも示している。 本研究では,非定常需要を伴う複雑な在庫管理問題に対する高品質なソリューションが,その最適化過程における在庫動態を直接考慮したディープニューラルネットワーク最適化アプローチによって得られることを示す。 このように、我々の研究は複雑な高次元インベントリダイナミクスを効率的に管理する新しい方法を開く。

A key challenge in inventory management is to identify policies that optimally replenish inventory from multiple suppliers. To solve such optimization problems, inventory managers need to decide what quantities to order from each supplier, given the net inventory and outstanding orders, so that the expected backlogging, holding, and sourcing costs are jointly minimized. Inventory management problems have been studied extensively for over 60 years, and yet even basic dual-sourcing problems, in which orders from an expensive supplier arrive faster than orders from a regular supplier, remain intractable in their general form. In addition, there is an emerging need to develop proactive, scalable optimization algorithms that can adjust their recommendations to dynamic demand shifts in a timely fashion. In this work, we approach dual sourcing from a neural network--based optimization lens and incorporate information on inventory dynamics and its replenishment (i.e., control) policies into the design of recurrent neural networks. We show that the proposed neural network controllers (NNCs) are able to learn near-optimal policies of commonly used instances within a few minutes of CPU time on a regular personal computer. To demonstrate the versatility of NNCs, we also show that they can control inventory dynamics with empirical, non-stationary demand distributions that are challenging to tackle effectively using alternative, state-of-the-art approaches. Our work shows that high-quality solutions of complex inventory management problems with non-stationary demand can be obtained with deep neural-network optimization approaches that directly account for inventory dynamics in their optimization process. As such, our research opens up new ways of efficiently managing complex, high-dimensional inventory dynamics.
翻訳日:2023-04-20 18:27:19 公開日:2023-04-18
# 分散マルチエージェント政策勾配における潜在状態情報共有を伴う値関数の分解

Value Functions Factorization with Latent State Information Sharing in Decentralized Multi-Agent Policy Gradients ( http://arxiv.org/abs/2201.01247v2 )

ライセンス: Link先を確認
Hanhan Zhou, Tian Lan, Vaneet Aggarwal(参考訳) 集中型トレーニングと分散実行による価値関数の分解は、協調型マルチエージェント強化タスクの解決に有効である。 この領域におけるアプローチの1つ、QMIXは最先端になり、StarCraft IIマイクロマネジメントベンチマークで最高のパフォーマンスを達成した。 しかし、QMIXにおけるエージェント1個当たりの単調混合は、表現できる共同動作 Q-値を制限することや、単一のエージェント値関数の推定に不十分な大域的状態情報を制限することが知られている。 そこで本研究では,変動推論に基づく情報共有機構を付加的な状態情報として活用し,価値関数因子化における個々のエージェントを支援する新しいフレームワーク lsf-sac を提案する。 このような潜在的な個々の状態情報共有は価値関数因子化の力を著しく拡大できるが、完全に分散化された実行はソフト・アクタ・クリティックな設計によってlsf-sacで維持できる。 我々は,StarCraft II マイクロマネジメント課題における LSF-SAC の評価を行った。 さらに,その性能向上に寄与する重要な要因を特定するため,広範なアブレーション研究を行った。 この新たな洞察が,新たな局所値推定法や変分深層学習アルゴリズムに繋がると信じている。 デモビデオと実装コードはhttps://sites.google.com/view/sacmmで見ることができる。

Value function factorization via centralized training and decentralized execution is promising for solving cooperative multi-agent reinforcement tasks. One of the approaches in this area, QMIX, has become state-of-the-art and achieved the best performance on the StarCraft II micromanagement benchmark. However, the monotonic-mixing of per agent estimates in QMIX is known to restrict the joint action Q-values it can represent, as well as the insufficient global state information for single agent value function estimation, often resulting in suboptimality. To this end, we present LSF-SAC, a novel framework that features a variational inference-based information-sharing mechanism as extra state information to assist individual agents in the value function factorization. We demonstrate that such latent individual state information sharing can significantly expand the power of value function factorization, while fully decentralized execution can still be maintained in LSF-SAC through a soft-actor-critic design. We evaluate LSF-SAC on the StarCraft II micromanagement challenge and demonstrate that it outperforms several state-of-the-art methods in challenging collaborative tasks. We further set extensive ablation studies for locating the key factors accounting for its performance improvements. We believe that this new insight can lead to new local value estimation methods and variational deep learning algorithms. A demo video and code of implementation can be found at https://sites.google.com/view/sacmm.
翻訳日:2023-04-20 18:26:51 公開日:2023-04-18
# 周波数分解サンプリングによる干渉光子間の遅延推定における究極的量子感度

Ultimate quantum sensitivity in the estimation of the delay between two interfering photons through frequency-resolving sampling ( http://arxiv.org/abs/2112.12102v2 )

ライセンス: Link先を確認
Danilo Triggiani and Giorgos Psaroudis and Vincenzo Tamma(参考訳) 周波数分解サンプリング測定により,2つの光子間の干渉を測定することで,2つの光子間の時間遅延の推定において量子物理学が許容する究極の感度を示す。 この感度は、標準の2光子干渉計が動作不能になったとき、基準光子の経路に適応せず、また、可逆的な高分解能の時間分解検出器の必要性もなく、時間遅延よりも小さい値でも光子時間帯域を減少させることで二次的に上昇させることができる。 応用は、生体サンプルやナノ材料表面を含むナノ構造のより実現可能なイメージングから、光ネットワークにおける周波数分解ボソンサンプリングに基づく量子拡張推定まで幅広い。

We demonstrate the ultimate sensitivity allowed by quantum physics in the estimation of the time delay between two photons by measuring their interference at a beam-splitter through frequency-resolving sampling measurements. This sensitivity can be increased quadratically by decreasing the photonic temporal bandwidth even at values smaller than the time delay when standard two-photon interferometers become inoperable and without adapting the path of the reference photon, nor the need of time-resolving detectors with an unfeasible high resolution. Applications can range from more feasible imaging of nanostructures, including biological samples, and nanomaterial surfaces to quantum enhanced estimation based on frequency-resolved boson sampling in optical networks.
翻訳日:2023-04-20 18:26:26 公開日:2023-04-18
# プログレッシブ量子による外部抵抗の獲得:高速アルゴリズムと理論的研究

Gaining Outlier Resistance with Progressive Quantiles: Fast Algorithms and Theoretical Studies ( http://arxiv.org/abs/2112.08471v3 )

ライセンス: Link先を確認
Yiyuan She, Zhifeng Wang, Jiahui Shen(参考訳) 異常値はビッグデータアプリケーションで広く発生し、統計的な推定や推論に重大な影響を与える可能性がある。 本稿では,任意に与えられた損失関数を頑健化するために,異常耐性推定の枠組みを導入する。 トリミング法と密接な関係を持ち、全てのサンプルに対して明示的なアウトライジング性パラメータを含み、計算、理論、パラメータチューニングを容易にする。 非凸性と非滑らかさの問題に取り組むため、実装の容易さと高速収束性を保証するスケーラブルなアルゴリズムを開発した。 特に、通常のデータセットにおいて、データ再サンプリング数が大幅に削減されるように、出発点の要件を緩和するための新しい手法を提案する。 統計処理と計算処理の併用により,M推定を超える漸近解析が可能である。 得られた抵抗推定器は、必ずしも大域的あるいは局所的に最適ではないが、低次元と高次元の両方で最小値の最適性を楽しむ。 回帰、分類、ニューラルネットワークの実験では、グロス異常の発生において提案手法の優れた性能を示す。

Outliers widely occur in big-data applications and may severely affect statistical estimation and inference. In this paper, a framework of outlier-resistant estimation is introduced to robustify an arbitrarily given loss function. It has a close connection to the method of trimming and includes explicit outlyingness parameters for all samples, which in turn facilitates computation, theory, and parameter tuning. To tackle the issues of nonconvexity and nonsmoothness, we develop scalable algorithms with implementation ease and guaranteed fast convergence. In particular, a new technique is proposed to alleviate the requirement on the starting point such that on regular datasets, the number of data resamplings can be substantially reduced. Based on combined statistical and computational treatments, we are able to perform nonasymptotic analysis beyond M-estimation. The obtained resistant estimators, though not necessarily globally or even locally optimal, enjoy minimax rate optimality in both low dimensions and high dimensions. Experiments in regression, classification, and neural networks show excellent performance of the proposed methodology at the occurrence of gross outliers.
翻訳日:2023-04-20 18:26:12 公開日:2023-04-18
# CodeAttack: 事前訓練されたプログラミング言語モデルに対するコードベースの逆攻撃

CodeAttack: Code-Based Adversarial Attacks for Pre-trained Programming Language Models ( http://arxiv.org/abs/2206.00052v3 )

ライセンス: Link先を確認
Akshita Jha, and Chandan K. Reddy(参考訳) 事前訓練されたプログラミング言語(PL)モデル(CodeT5、CodeBERT、GraphCodeBERTなど)は、コード理解とコード生成を含むソフトウェアエンジニアリングタスクを自動化する可能性がある。 しかしながら、これらのモデルは、コードの自然なチャネル、すなわち、主に人間のコード理解に関係している。 それらは入力の変化に頑健ではないため、自然チャネルにおける敵対的攻撃の影響を受けやすい。 我々は,コード構造を用いて,効率的かつ効果的かつ知覚不能なコードサンプルを生成するシンプルなブラックボックス攻撃モデルであるCodeAttackを提案し,コード固有の攻撃に対して,最先端のPLモデルの脆弱性を実証する。 プログラム言語間でのコード-コード(翻訳と修復)およびコード-NL(要約)タスクにおけるCodeAttackの転送性を評価する。 CodeAttackは、最先端の敵対的NLP攻撃モデルより優れており、より効率的で、認識不能で、一貫性があり、流動性がある。 コードはhttps://github.com/reddy-lab-code-research/codeattackにある。

Pre-trained programming language (PL) models (such as CodeT5, CodeBERT, GraphCodeBERT, etc.,) have the potential to automate software engineering tasks involving code understanding and code generation. However, these models operate in the natural channel of code, i.e., they are primarily concerned with the human understanding of the code. They are not robust to changes in the input and thus, are potentially susceptible to adversarial attacks in the natural channel. We propose, CodeAttack, a simple yet effective black-box attack model that uses code structure to generate effective, efficient, and imperceptible adversarial code samples and demonstrates the vulnerabilities of the state-of-the-art PL models to code-specific adversarial attacks. We evaluate the transferability of CodeAttack on several code-code (translation and repair) and code-NL (summarization) tasks across different programming languages. CodeAttack outperforms state-of-the-art adversarial NLP attack models to achieve the best overall drop in performance while being more efficient, imperceptible, consistent, and fluent. The code can be found at https://github.com/reddy-lab-code-research/CodeAttack.
翻訳日:2023-04-20 18:18:38 公開日:2023-04-18
# 一般ファッション概念のコントラスト言語と視覚学習

Contrastive language and vision learning of general fashion concepts ( http://arxiv.org/abs/2204.03972v4 )

ライセンス: Link先を確認
Patrick John Chia, Giuseppe Attanasio, Federico Bianchi, Silvia Terragni, Ana Rita Magalh\~aes, Diogo Goncalves, Ciro Greco, Jacopo Tagliabue(参考訳) オンラインショッピングの着実に増加は、ますます複雑なMLとNLPモデルの開発と相まって進んでいる。 ほとんどのユースケースは専門的な教師付き学習問題としてキャストされていますが、実践者は製品のより転送可能な表現から大きな恩恵を受けるでしょう。 本研究では,ファッション業界におけるCLIPライクなモデルであるFashionCLIPをトレーニングするための,コントラスト学習の最近の発展の上に構築する。 検索、分類、接地機能を示し、我々のモデルとコードをコミュニティにリリースする。

The steady rise of online shopping goes hand in hand with the development of increasingly complex ML and NLP models. While most use cases are cast as specialized supervised learning problems, we argue that practitioners would greatly benefit from more transferable representations of products. In this work, we build on recent developments in contrastive learning to train FashionCLIP, a CLIP-like model for the fashion industry. We showcase its capabilities for retrieval, classification and grounding, and release our model and code to the community.
翻訳日:2023-04-20 18:15:43 公開日:2023-04-18
# 差分分割変分推定法

Differentially private partitioned variational inference ( http://arxiv.org/abs/2209.11595v2 )

ライセンス: Link先を確認
Mikko A. Heikkil\"a, Matthew Ashman, Siddharth Swaroop, Richard E. Turner and Antti Honkela(参考訳) 複数のデバイスに分散した機密データからプライバシ保存モデルを学ぶことは、ますます重要な問題である。 この問題は、データ分散を維持しながら単一のグローバルモデルを学ぶことを目的として、連合学習コンテキストで定式化されることが多い。 さらに、ベイズ学習は、信頼できる不確実性推定をサポートするため、モデリングの一般的なアプローチである。 しかし、ベイズ学習は集中型非プライベートデータであっても一般には難解であり、変分推論のような近似手法が必須である。 変分推論は、分割変分推論アルゴリズム(partitioned variational inference algorithm)を通じて、非プライベートな共用学習設定に拡張されている。 プライバシー保護に関しては、現在の金本位制は差分プライバシーと呼ばれる。 差分プライバシーは、強く数学的に明確に定義された意味でのプライバシーを保証する。 本稿では,分散学習環境におけるベイズ的後続分布に対する変分近似を学習するための最初の一般フレームワークである差分分割変分推論について,通信ラウンドの数を最小化し,データ対象に対して差分プライバシー保証を提供する。 本稿では,各パーティが行う局所最適化の摂動に基づく1つと,グローバルモデルに対する摂動的更新に基づく2つ(フェデレーション平均化のバージョンを使用する1つ,プロトコルに仮想パーティを追加する2つ)の3つの代替実装を提案し,それらの特性を理論的および経験的に比較する。

Learning a privacy-preserving model from sensitive data which are distributed across multiple devices is an increasingly important problem. The problem is often formulated in the federated learning context, with the aim of learning a single global model while keeping the data distributed. Moreover, Bayesian learning is a popular approach for modelling, since it naturally supports reliable uncertainty estimates. However, Bayesian learning is generally intractable even with centralised non-private data and so approximation techniques such as variational inference are a necessity. Variational inference has recently been extended to the non-private federated learning setting via the partitioned variational inference algorithm. For privacy protection, the current gold standard is called differential privacy. Differential privacy guarantees privacy in a strong, mathematically clearly defined sense. In this paper, we present differentially private partitioned variational inference, the first general framework for learning a variational approximation to a Bayesian posterior distribution in the federated learning setting while minimising the number of communication rounds and providing differential privacy guarantees for data subjects. We propose three alternative implementations in the general framework, one based on perturbing local optimisation runs done by individual parties, and two based on perturbing updates to the global model (one using a version of federated averaging, the second one adding virtual parties to the protocol), and compare their properties both theoretically and empirically.
翻訳日:2023-04-20 17:59:13 公開日:2023-04-18
# 5000量子ビットプログラマブルスピングラスにおける量子臨界ダイナミクス

Quantum critical dynamics in a 5000-qubit programmable spin glass ( http://arxiv.org/abs/2207.13800v2 )

ライセンス: Link先を確認
Andrew D. King, Jack Raymond, Trevor Lanting, Richard Harris, Alex Zucca, Fabio Altomare, Andrew J. Berkley, Kelly Boothby, Sara Ejtemaee, Colin Enderud, Emile Hoskinson, Shuiyuan Huang, Eric Ladizinsky, Allison J.R. MacDonald, Gaelen Marsden, Reza Molavi, Travis Oh, Gabriel Poulin-Lamarre, Mauricio Reis, Chris Rich, Yuki Sato, Nicholas Tsai, Mark Volkmann, Jed D. Whittaker, Jason Yao, Anders W. Sandvik and Mohammad H. Amin(参考訳) 歪んだ合金の実験により、スピングラスは従来の熱アニールよりも早く量子ゆらぎを加熱することで低エネルギー状態にすることができることが示唆された。 計算機実験場としてのスピングラスの重要性から、プログラム可能なシステムにおいてこの現象を再現することは量子最適化における中心的な課題である。 ここでは、超伝導量子アニールを用いて数千の量子ビット上の量子臨界スピングラスダイナミクスを実現することで、この目標を達成する。 まず,小スピングラスにおけるシュル=オディンガー方程式の量子アニーリングと時間発展の定量的一致を示す。 次に、何千もの量子ビット上での3次元スピングラスのダイナミクスを測定し、多体量子力学のシミュレーションを行う。 我々は,モンテカルロアルゴリズムの遅い確率力学と量子アニーリングを明確に区別する臨界指数を抽出し,アニーリング時間関数としてのエネルギーの低減におけるスケーリングの利点を理論的および実験的に支持する。

Experiments on disordered alloys suggest that spin glasses can be brought into low-energy states faster by annealing quantum fluctuations than by conventional thermal annealing. Due to the importance of spin glasses as a paradigmatic computational testbed, reproducing this phenomenon in a programmable system has remained a central challenge in quantum optimization. Here we achieve this goal by realizing quantum critical spin-glass dynamics on thousands of qubits with a superconducting quantum annealer. We first demonstrate quantitative agreement between quantum annealing and time-evolution of the Schr\"odinger equation in small spin glasses. We then measure dynamics in 3D spin glasses on thousands of qubits, where simulation of many-body quantum dynamics is intractable. We extract critical exponents that clearly distinguish quantum annealing from the slower stochastic dynamics of analogous Monte Carlo algorithms, providing both theoretical and experimental support for a scaling advantage in reducing energy as a function of annealing time.
翻訳日:2023-04-20 17:57:03 公開日:2023-04-18
# 線形予測器のモデルサイズ,テスト損失,トレーニング損失の普遍的トレードオフ

A Universal Trade-off Between the Model Size, Test Loss, and Training Loss of Linear Predictors ( http://arxiv.org/abs/2207.11621v3 )

ライセンス: Link先を確認
Nikhil Ghosh, Mikhail Belkin(参考訳) 本研究では,モデルサイズ,過剰なテスト損失,線形予測器のトレーニング損失との非漸近的トレードオフをアルゴリズムと分布で定義する。 具体的には、テストデータ(過剰損失の少ない)でうまく機能するモデルは、"古典的" -- ノイズレベルに近いトレーニング損失を持つか、"近代的" -- が、トレーニングデータに正確に適合するために必要な最小限のパラメータよりもはるかに多くのパラメータを持つことを示す。 また,白色特徴の限界スペクトル分布がマルケンコ・パストゥルである場合には,より正確な漸近解析を行う。 興味深いことに、マーチャンコ・パストゥル解析は、トレーニングデータに適合するパラメータの数が十分である補間ピーク付近ではるかに正確であるが、過パラメトリゼーションのレベルが増加するにつれて分布独立境界と正確に一致する。

In this work we establish an algorithm and distribution independent non-asymptotic trade-off between the model size, excess test loss, and training loss of linear predictors. Specifically, we show that models that perform well on the test data (have low excess loss) are either "classical" -- have training loss close to the noise level, or are "modern" -- have a much larger number of parameters compared to the minimum needed to fit the training data exactly. We also provide a more precise asymptotic analysis when the limiting spectral distribution of the whitened features is Marchenko-Pastur. Remarkably, while the Marchenko-Pastur analysis is far more precise near the interpolation peak, where the number of parameters is just enough to fit the training data, it coincides exactly with the distribution independent bound as the level of overparametrization increases.
翻訳日:2023-04-20 17:56:49 公開日:2023-04-18
# 確率的制約付き強化学習のための政策勾配

Policy Gradients for Probabilistic Constrained Reinforcement Learning ( http://arxiv.org/abs/2210.00596v2 )

ライセンス: Link先を確認
Weiqin Chen, Dharmashankar Subramanian and Santiago Paternain(参考訳) 本稿では、強化学習(RL)における安全な政策学習の問題について考察する。 特に,確率論的安全性の概念を考察する。 これは,システムの状態を高い確率で安全に維持する政策を設計することを目的としている。 この概念は、文献でしばしば考慮される累積的制約とは異なっている。 確率的安全性に取り組む上での課題は、勾配に対する表現の欠如である。 実際、ポリシー最適化アルゴリズムは、目的関数と制約の勾配に依存する。 私たちの知る限りでは,この作業は,確率的制約に対して,そのような明示的な勾配表現を提供する最初の作業です。 この制約群の勾配は、様々なポリシーベースのアルゴリズムに適用できる点に注意が必要である。 我々は,連続航法問題において確率的制約を処理できることを実証的に証明する。

This paper considers the problem of learning safe policies in the context of reinforcement learning (RL). In particular, we consider the notion of probabilistic safety. This is, we aim to design policies that maintain the state of the system in a safe set with high probability. This notion differs from cumulative constraints often considered in the literature. The challenge of working with probabilistic safety is the lack of expressions for their gradients. Indeed, policy optimization algorithms rely on gradients of the objective function and the constraints. To the best of our knowledge, this work is the first one providing such explicit gradient expressions for probabilistic constraints. It is worth noting that the gradient of this family of constraints can be applied to various policy-based algorithms. We demonstrate empirically that it is possible to handle probabilistic constraints in a continuous navigation problem.
翻訳日:2023-04-20 17:48:19 公開日:2023-04-18
# ディスカッションボードテキストデータセットからの自動コード抽出

Automated Code Extraction from Discussion Board Text Dataset ( http://arxiv.org/abs/2210.17495v2 )

ライセンス: Link先を確認
Sina Mahdipour Saravani, Sadaf Ghaffari, Yanye Luther, James Folkestad, and Marcia Moraes(参考訳) 本研究では,比較的小さな掲示板データセットからコード抽出を自動化するために,3種類のテキストマイニング手法,すなわち潜時意味解析,潜時ディリクレ解析,クラスタリングワードベクトルを導入,検討する。 各アルゴリズムの出力を、手動で2人の人手によってコーディングされた以前のデータセットと比較する。 その結果、比較的小さなデータセットであっても、自動的なアプローチは、認識論的ネットワーク分析で使用できるいくつかの議論コードを抽出することによって、コースインストラクターの資産となり得ることがわかった。

This study introduces and investigates the capabilities of three different text mining approaches, namely Latent Semantic Analysis, Latent Dirichlet Analysis, and Clustering Word Vectors, for automating code extraction from a relatively small discussion board dataset. We compare the outputs of each algorithm with a previous dataset that was manually coded by two human raters. The results show that even with a relatively small dataset, automated approaches can be an asset to course instructors by extracting some of the discussion codes, which can be used in Epistemic Network Analysis.
翻訳日:2023-04-20 17:39:06 公開日:2023-04-18
# rupnet:リアルタイムポリプセグメンテーションのための残差アップサンプリングネットワーク

RUPNet: Residual upsampling network for real-time polyp segmentation ( http://arxiv.org/abs/2301.02703v2 )

ライセンス: Link先を確認
Nikhil Kumar Tomar, Ulas Bagci, Debesh Jha(参考訳) 大腸癌は世界中でがん関連死亡の最も多い原因の一つである。 早期にポリプの検出と除去は死亡率の低下に寄与し、隣接する臓器の拡散にも寄与する。 早期のポリープ検出は世界中の何百万人もの患者を救い、臨床的な負担を軽減できる。 しかし,検出ポリープ率は内科医によって大きく異なる。 深層学習に基づく手法が多数提案されているが,ほとんどの研究で精度が向上している。 本稿では,大腸ポリープ分割のための新しいアーキテクチャであるResidual Upsampling Network (RUPNet)を提案する。 提案アーキテクチャであるRUPNetは、3つのエンコーダ、3つのデコーダブロックと、ネットワークの終端にある追加のアップサンプリングブロックで構成されるエンコーダ・デコーダネットワークである。 画像サイズは512 \times 512$で,平均ダイス係数0.7658,和算平均交点0.6553,感度0.8049,精度0.7995,F2スコア0.9361で,毎秒152.60フレームの優れたリアルタイム動作速度を実現する。 その結果, RUPNetは早期ポリプ検出のための優れたベンチマークを示す高い精度を維持しつつ, リアルタイムフィードバックを得られることが示唆された。

Colorectal cancer is among the most prevalent cause of cancer-related mortality worldwide. Detection and removal of polyps at an early stage can help reduce mortality and even help in spreading over adjacent organs. Early polyp detection could save the lives of millions of patients over the world as well as reduce the clinical burden. However, the detection polyp rate varies significantly among endoscopists. There is numerous deep learning-based method proposed, however, most of the studies improve accuracy. Here, we propose a novel architecture, Residual Upsampling Network (RUPNet) for colon polyp segmentation that can process in real-time and show high recall and precision. The proposed architecture, RUPNet, is an encoder-decoder network that consists of three encoders, three decoder blocks, and some additional upsampling blocks at the end of the network. With an image size of $512 \times 512$, the proposed method achieves an excellent real-time operation speed of 152.60 frames per second with an average dice coefficient of 0.7658, mean intersection of union of 0.6553, sensitivity of 0.8049, precision of 0.7995, and F2-score of 0.9361. The results suggest that RUPNet can give real-time feedback while retaining high accuracy indicating a good benchmark for early polyp detection.
翻訳日:2023-04-20 17:31:05 公開日:2023-04-18
# 量子システムの表現能力の定量化:基本極限と固有タスク

Quantifying the Expressive Capacity of Quantum Systems: Fundamental Limits and Eigentasks ( http://arxiv.org/abs/2301.00042v2 )

ライセンス: Link先を確認
Fangjun Hu, Gerasimos Angelatos, Saeed A. Khan, Marti Vives, Esin T\"ureci, Leon Bello, Graham E. Rowlands, Guilhem J. Ribeill, Hakan E. T\"ureci(参考訳) 機械学習のための量子システムの表現能力は、測定中に発生する量子サンプリングノイズによって制限される。 一般に、ノイズは量子システムの可解性を制限すると考えられているが、学習に対するノイズの正確な影響はまだ完全には理解されていない。 有限個の測定値から一般量子系の利用可能な表現能力を評価するための数学的枠組みと,その固有タスクであるこの容量の極限を抽出するための方法論を提案する。 固有タスクは、与えられた量子系が最小誤差で近似できる関数のネイティブ集合である。 低ノイズ固有タスクの抽出により,分類や過度適合性などの機械学習タスクのパフォーマンスが向上することを示す。 本稿では,表現能力の密接な結合を求め,固有タスクのノイズを低減し,測定した量子システムの相関が学習能力を向上させることを示唆する。 これらの結果は超伝導量子プロセッサの実験によって支持されている。 我々の発見は量子機械学習とセンシングの応用に幅広い影響を及ぼす。

The expressive capacity of quantum systems for machine learning is limited by quantum sampling noise incurred during measurement. Although it is generally believed that noise limits the resolvable capacity of quantum systems, the precise impact of noise on learning is not yet fully understood. We present a mathematical framework for evaluating the available expressive capacity of general quantum systems from a finite number of measurements, and provide a methodology for extracting the extrema of this capacity, its eigentasks. Eigentasks are a native set of functions that a given quantum system can approximate with minimal error. We show that extracting low-noise eigentasks leads to improved performance for machine learning tasks such as classification, displaying robustness to overfitting. We obtain a tight bound on the expressive capacity, and present analyses suggesting that correlations in the measured quantum system enhance learning capacity by reducing noise in eigentasks. These results are supported by experiments on superconducting quantum processors. Our findings have broad implications for quantum machine learning and sensing applications.
翻訳日:2023-04-20 17:30:40 公開日:2023-04-18
# 単一モード動作制約下におけるボソニック量子インタフェースのキャラクタリゼーションと最適化

Characterization and optimized engineering of bosonic quantum interfaces under single-mode operational constraints ( http://arxiv.org/abs/2212.05134v2 )

ライセンス: Link先を確認
Pak-Tik Fong, Sheung Chi Poon, Hoi-Kwan Lau(参考訳) 量子情報処理の無数の実装において、2つのボソニックモード間の量子インターフェースを制御することが不可欠である。 しかし、物理的な制限のため、ほとんどのプラットフォームで完全な制御性が達成されることはまれである。 本研究では,単モード操作のみが可能な最も悲観的な制約の下で,線形2モードインタフェースを完全に特徴付ける。 任意の単一モード操作を両モードに適用できる場合、全てのインタフェースは不変伝達強度によって特徴づけられることが分かる。 一方, スクイージングが1つのモードに制限されているという現実的な状況では, 許容可能な制御下で不変な2つの追加量, 既約スクイージングと既約せん断を発見した。 この特性を用いて,複数の固定コンポーネントインターフェースをカスケードすることで任意のインターフェースを設計できる体系的戦略を開発した。 制限を絞ることなく、プロトコルは最適であり、少なくとも3つのコンポーネントインターフェースが必要です。 スクイーズ制約の下では、我々のプロトコルはカスケードのラウンドを2つ以上使わずに追加の不変量も設計できるように拡張できる。 また,アクティブ補助モードとのインタフェースにより,スクイーズ制限に取り組むためのリモートスクイーズスキームを提案する。

Controlling the quantum interface between two bosonic modes is essential in countless implementations of quantum information processing. However, full controllability is rarely achieved in most platforms due to specific physical limitations. In this work, we completely characterize the linear two-mode interfaces under the most pessimistic restriction that only single-mode operation is available. When arbitrary single-mode operations can be applied to both modes, we find that every interface can be characterized by an invariant transmission strength. On the other hand, in the practical situation that squeezing is restricted in one of the modes, we discover two additional quantities, irreducible squeezing and irreducible shearing, that are invariant under the allowable controls. By using this characterization, we develop systematic strategies to engineer an arbitrary interface through cascading multiple fixed component interfaces. Without squeezing restriction, our protocol is optimal and requires at most three component interfaces. Under the squeezing constraint, our protocol can be extended to engineer also the additional invariants by using no more than two more rounds of cascade. We also propose the remote squeezing scheme to tackle the squeezing restriction through interfacing with an active auxiliary mode.
翻訳日:2023-04-20 17:30:16 公開日:2023-04-18
# 視覚言語モデルを用いたFew-Shot分類のためのカテゴリ名の生成

Exploiting Category Names for Few-Shot Classification with Vision-Language Models ( http://arxiv.org/abs/2211.16594v3 )

ライセンス: Link先を確認
Taihong Xiao, Zirui Wang, Liangliang Cao, Jiahui Yu, Shengyang Dai, Ming-Hsuan Yang(参考訳) 大規模データに事前学習された視覚言語基礎モデルは、多くの視覚理解タスクに強力なツールを提供する。 多くの視覚言語モデルは、2つのモダリティを同じ埋め込み空間にマッピングできる2つのエンコーダ(視覚とテキスト)を構築している。 その結果、画像分類などのタスクにおいて、学習した表現はゼロショット性能がよい。 しかしながら、1つのカテゴリに少数の例しか存在しない場合、大きな視覚言語モデルのポテンシャルは、主に大量のパラメータと比較的少ないトレーニングデータの間のギャップのために、しばしば過小評価される。 本稿では,カテゴリ名を用いて分類ヘッドを初期化することにより,少数ショット分類の性能を大幅に向上できることを示す。 提案するカテゴリ名初期化手法により,数点画像分類ベンチマーク(imagenetでは87.37%,スタンフォード車では96.08%,いずれも5点学習を用いて,最新性能が得られる。

Vision-language foundation models pretrained on large-scale data provide a powerful tool for many visual understanding tasks. Notably, many vision-language models build two encoders (visual and textual) that can map two modalities into the same embedding space. As a result, the learned representations achieve good zero-shot performance on tasks like image classification. However, when there are only a few examples per category, the potential of large vision-language models is often underperformed, mainly due to the gap between a large number of parameters and a relatively small amount of training data. This paper shows that we can significantly improve the performance of few-shot classification by using the category names to initialize the classification head. With the proposed category name initialization method, our model obtains the state-of-the-art performance on a number of few-shot image classification benchmarks (e.g., 87.37% on ImageNet and 96.08% on Stanford Cars, both using five-shot learning).
翻訳日:2023-04-20 17:29:22 公開日:2023-04-18
# 金融犯罪検出のためのプライバシー保護型ハイブリッド学習フレームワーク

A Privacy-Preserving Hybrid Federated Learning Framework for Financial Crime Detection ( http://arxiv.org/abs/2302.03654v3 )

ライセンス: Link先を確認
Haobo Zhang, Junyuan Hong, Fan Dong, Steve Drew, Liangjie Xue, Jiayu Zhou(参考訳) この10年間で、公的・民間部門の金融犯罪が急増し、2022年には金融機関に対する詐欺費用は1億200万ドルに達した。 金融犯罪と戦うためのメカニズムの開発は、複数の機関からの深い協力を必要とする差し迫った課題であるが、このような協力は、分散金融データのプライバシーとセキュリティ要件のために、重大な技術的課題を課している。 例えば、現代の決済ネットワークシステムを考えると、多くのグローバルな機関で1日に数百万のトランザクションを発生させることができる。 不正取引の検出モデルを訓練するには、セキュアな取引だけでなく、対応する銀行システムから各取引に関わる個人口座の活動も必要となる。 サンプルと機能の両方の分散した性質は、既存の学習システムがデータマイニングタスクに直接採用されるのを防ぐ。 本稿では、金融犯罪検知のための安全でプライバシーに配慮した学習と推論を提供するハイブリッド・フェデレーション学習システムを提案する。 提案するフレームワークの検出性能とプライバシ保護能力を評価し,協調学習における一般的な悪意のある攻撃に対する頑健性を評価する。 ソースコードはhttps://github.com/illidanlab/HyFL で公開しています。

The recent decade witnessed a surge of increase in financial crimes across the public and private sectors, with an average cost of scams of $102m to financial institutions in 2022. Developing a mechanism for battling financial crimes is an impending task that requires in-depth collaboration from multiple institutions, and yet such collaboration imposed significant technical challenges due to the privacy and security requirements of distributed financial data. For example, consider the modern payment network systems, which can generate millions of transactions per day across a large number of global institutions. Training a detection model of fraudulent transactions requires not only secured transactions but also the private account activities of those involved in each transaction from corresponding bank systems. The distributed nature of both samples and features prevents most existing learning systems from being directly adopted to handle the data mining task. In this paper, we collectively address these challenges by proposing a hybrid federated learning system that offers secure and privacy-aware learning and inference for financial crime detection. We conduct extensive empirical studies to evaluate the proposed framework's detection performance and privacy-protection capability, evaluating its robustness against common malicious attacks of collaborative learning. We release our source code at https://github.com/illidanlab/HyFL .
翻訳日:2023-04-20 17:22:26 公開日:2023-04-18
# トレーニングダイナミクスによる座標系mlpのスペクトルバイアスの理解

Understanding the Spectral Bias of Coordinate Based MLPs Via Training Dynamics ( http://arxiv.org/abs/2301.05816v3 )

ライセンス: Link先を確認
John Lazzari, Xiuwen Liu(参考訳) スペクトルバイアスはニューラルネットワークトレーニングの重要な観察であり、ネットワークは高い周波数成分に収束する前にターゲット関数の低周波数表現を学習すると述べている。 この性質は、過パラメータネットワークのよい一般化につながるため興味深い。 しかし、reluアクティベーションを持つ多層パーセプトロン(mlps)が高密度で低次元の座標に基づく入力を利用するシーンレンダリングのアプリケーションでは、高いフレクエンシー成分への収束を完全に阻害する深刻なスペクトルバイアスが発生する。 この制限を克服するために、高周波正弦波を用いて入力を符号化することができる。 従来の研究は、ニューラル・タンジェント・カーネル(NTK)とフーリエ分析を用いて、座標系におけるスペクトルバイアスとその重症度の両方を解析しようとした。 しかし、ntkは実際のネットワークダイナミクスを捉えておらず、フーリエ解析はネットワークの周波数成分に関する全体的視点のみを提供するため、このような手法には様々な制限がある。 本稿では,ReLU MLPトレーニングのダイナミクスを直接研究することで,スペクトルバイアスの理解に向けた新しいアプローチを提案する。 具体的には,reluネットワーク(アクティベーション領域)の計算と勾配降下の収束との関係に注目した。 これらのダイナミクスを信号の空間情報と関連づけて検討し、スペクトルバイアスにどのように影響するかをより明確に理解し、まだ実証されていない。 さらに、この定式化を用いて、座標に基づく設定におけるスペクトルバイアスの重大さと位置符号化がこれを克服する理由についてさらに検討する。

Spectral bias is an important observation of neural network training, stating that the network will learn a low frequency representation of the target function before converging to higher frequency components. This property is interesting due to its link to good generalization in over-parameterized networks. However, in applications to scene rendering, where multi-layer perceptrons (MLPs) with ReLU activations utilize dense, low dimensional coordinate based inputs, a severe spectral bias occurs that obstructs convergence to high freqeuncy components entirely. In order to overcome this limitation, one can encode the inputs using high frequency sinusoids. Previous works attempted to explain both spectral bias and its severity in the coordinate based regime using Neural Tangent Kernel (NTK) and Fourier analysis. However, such methods come with various limitations, since NTK does not capture real network dynamics, and Fourier analysis only offers a global perspective on the frequency components of the network. In this paper, we provide a novel approach towards understanding spectral bias by directly studying ReLU MLP training dynamics, in order to gain further insight on the properties that induce this behavior in the real network. Specifically, we focus on the connection between the computations of ReLU networks (activation regions), and the convergence of gradient descent. We study these dynamics in relation to the spatial information of the signal to provide a clearer understanding as to how they influence spectral bias, which has yet to be demonstrated. Additionally, we use this formulation to further study the severity of spectral bias in the coordinate based setting, and why positional encoding overcomes this.
翻訳日:2023-04-20 17:19:03 公開日:2023-04-18
# 超伝導量子プロセッサ上の分数量子ホール準ホールのブレイディング

Braiding fractional quantum Hall quasiholes on a superconducting quantum processor ( http://arxiv.org/abs/2303.04806v3 )

ライセンス: Link先を確認
Ammar Kirmani, Derek S. Wang, Pouyan Ghaemi, Armin Rahmani(参考訳) 励起と波動関数位相の測定による分数量子ホール系における陽電子交換統計の直接的実験的検出は大きな課題である。 ここでは,小型でノイズの多い量子コンピュータを用いて,シンシリンダ形状に適用可能な簡易モデルの枠組み内で直接ブレイディングをエミュレートし,位相位相を計測する。 アルゴリズムはまず2つの準ホールで基底状態を作成する。 すると、アンシラによって制御されるユニタリ操作が適用され、一方が他方の準ホールを取る断熱的な進化の列に対応する。 最後に, 複合誤差緩和戦略を用いて, 陰茎計測から波動関数の位相を抽出する。 我々の結果は分数ホール状態におけるブレイディング統計を研究するための新しい道を開く。

Direct experimental detection of anyonic exchange statistics in fractional quantum Hall systems by braiding the excitations and measuring the wave-function phase is an enormous challenge. Here, we use a small, noisy quantum computer to emulate direct braiding within the framework of a simplified model applicable to a thin cylinder geometry and measure the topological phase. Our algorithm first prepares the ground state with two quasiholes. It then applies a unitary operation controlled by an ancilla, corresponding to a sequence of adiabatic evolutions that takes one quasihole around the other. We finally extract the phase of the wave function from measuring the ancilla with a compound error mitigation strategy. Our results open a new avenue for studying braiding statistics in fractional Hall states.
翻訳日:2023-04-20 17:12:46 公開日:2023-04-18
# オープン量子システムにおける電流ゆらぎ:量子連続測定と全計数統計とのギャップを橋渡しする

Current fluctuations in open quantum systems: Bridging the gap between quantum continuous measurements and full counting statistics ( http://arxiv.org/abs/2303.04270v2 )

ライセンス: Link先を確認
Gabriel T. Landi, Michael J. Kewming, Mark T. Mitchison, Patrick P. Potts(参考訳) 連続測定された量子系は、基礎となる量子系に関する重要な情報を伝達する確率的および相関的な時系列の形で出力電流によって特徴づけられる。 量子光学者は確率的マスター方程式を使うことが多く、凝縮物質物理学における一般的なアプローチは完全な数え上げ統計によって提供される。 しかし、これらは単に同じ硬貨の異なる側面である。 このチュートリアルの目標は、現在のゆらぎを記述するための統一ツールボックスを提供することです。 これは、物理学の異なる分野をまとめることによって、新しい洞察を与えるだけでなく、興味のある量を計算するための様々な分析的および数値的ツールをもたらす。 我々は,様々な教育例を用いて実験結果を示し,待ち時間統計,量子メトロロジー,熱力学的不確実性関係,量子点接触,マクスウェルのデーモンなど,局所的な研究分野と結びつける。

Continuously measured quantum systems are characterized by an output current, in the form of a stochastic and correlated time series which conveys crucial information about the underlying quantum system. The many tools used to describe current fluctuations are scattered across different communities: quantum opticians often use stochastic master equations, while a prevalent approach in condensed matter physics is provided by full counting statistics. These, however, are simply different sides of the same coin. Our goal with this tutorial is to provide a unified toolbox for describing current fluctuations. This not only provides novel insights, by bringing together different fields in physics, but also yields various analytical and numerical tools for computing quantities of interest. We illustrate our results with various pedagogical examples, and connect them with topical fields of research, such as waiting-time statistics, quantum metrology, thermodynamic uncertainty relations, quantum point contacts and Maxwell's demons.
翻訳日:2023-04-20 17:12:32 公開日:2023-04-18
# 大型視覚言語モデルのゼロショット推論における校正

Enabling Calibration In The Zero-Shot Inference of Large Vision-Language Models ( http://arxiv.org/abs/2303.12748v4 )

ライセンス: Link先を確認
Will LeVine, Benjamin Pikus, Pranav Raja, and Fernando Amat Gil(参考訳) 深層学習モデルの校正は信頼性と安全な使用に不可欠であり、分類モデルにおいて、誤校正を減らす手法を用いて広範囲に研究されている。 しかし、CLIPのようなゼロショット推論に使用される視覚言語モデルの校正に関する包括的な研究はまだ行われていない。 我々は,プロンプト,データセット,アーキテクチャといった関連する変数のキャリブレーションを測定し,クリップによるゼロショット推論が誤りであることを確認した。 さらに、ゼロショット推論モデルとしてCLIPの一般的な使用事例と整合した温度スケーリングの修正版を提案し、単一の学習温度が推論データセットをまたいだ特定のCLIPモデル(選択した事前学習データセットとアーキテクチャで定義される)毎に一般化し、選択を促すことを示す。

Calibration of deep learning models is crucial to their trustworthiness and safe usage, and as such, has been extensively studied in supervised classification models, with methods crafted to decrease miscalibration. However, there has yet to be a comprehensive study of the calibration of vision-language models that are used for zero-shot inference, like CLIP. We measure calibration across relevant variables like prompt, dataset, and architecture, and find that zero-shot inference with CLIP is miscalibrated. Furthermore, we propose a modified version of temperature scaling that is aligned with the common use cases of CLIP as a zero-shot inference model, and show that a single learned temperature generalizes for each specific CLIP model (defined by a chosen pre-training dataset and architecture) across inference dataset and prompt choice.
翻訳日:2023-04-20 17:02:56 公開日:2023-04-18
# CLIPが3Dに: 言語基底3D認識のためのプロンプトチューニングを活用する

CLIP goes 3D: Leveraging Prompt Tuning for Language Grounded 3D Recognition ( http://arxiv.org/abs/2303.11313v3 )

ライセンス: Link先を確認
Deepti Hegde, Jeya Maria Jose Valanarasu, Vishal M. Patel(参考訳) CLIPのようなビジョンランゲージモデルは、印象的なゼロショット機能のために、様々なタスクに広く採用されている。 しかし、CLIPは画像とテキストのみを自然言語の監督によって訓練したので、3次元幾何学的特徴の抽出には適していない。 我々は、この制限に対処し、3dエンコーダがゼロショット能力を発揮するように学習されるcg3d(clip goes 3d)と呼ばれる新しいフレームワークを提案する。 CG3Dは、点雲のトリプレット、対応する2D画像、自然言語の監督によるテキストを用いて訓練されている。 マルチモーダル埋め込み空間における特徴の整合を図るため、3Dエンコーダから得られた3D特徴と、CLIPから抽出した視覚的特徴とテキスト特徴の対比的損失を利用する。 CG3DにおけるCLIPの訓練に使用される自然な画像とレンダリングされた2D画像の分布シフトについて述べる。 視覚およびテキストエンコーダをトレーニングしてこのシフトを考慮しようとすると、破滅的な忘れ込みと顕著な性能低下が発生する。 そこで本研究では,cg3dで使用される3次元事前学習データセットにクリップをシフトするために,入力空間に学習可能なパラメータを導入する。 私たちは、トレーニング済みのcg3dフレームワークを広範囲にテストし、ゼロショット、オープンシーン理解、検索タスクでその印象的な能力を示しています。 さらに、下流の3D認識タスクを微調整するための強力なスタートウェイトとしても機能する。

Vision-Language models like CLIP have been widely adopted for various tasks due to their impressive zero-shot capabilities. However, CLIP is not suitable for extracting 3D geometric features as it was trained on only images and text by natural language supervision. We work on addressing this limitation and propose a new framework termed CG3D (CLIP Goes 3D) where a 3D encoder is learned to exhibit zero-shot capabilities. CG3D is trained using triplets of pointclouds, corresponding rendered 2D images, and texts using natural language supervision. To align the features in a multimodal embedding space, we utilize contrastive loss on 3D features obtained from the 3D encoder, as well as visual and text features extracted from CLIP. We note that the natural images used to train CLIP and the rendered 2D images in CG3D have a distribution shift. Attempting to train the visual and text encoder to account for this shift results in catastrophic forgetting and a notable decrease in performance. To solve this, we employ prompt tuning and introduce trainable parameters in the input space to shift CLIP towards the 3D pre-training dataset utilized in CG3D. We extensively test our pre-trained CG3D framework and demonstrate its impressive capabilities in zero-shot, open scene understanding, and retrieval tasks. Further, it also serves as strong starting weights for fine-tuning in downstream 3D recognition tasks.
翻訳日:2023-04-20 17:02:37 公開日:2023-04-18
# TempT: テスト時間適応のための時間整合性

TempT: Temporal consistency for Test-time adaptation ( http://arxiv.org/abs/2303.10536v2 )

ライセンス: Link先を確認
Onur Cezmi Mutlu, Mohammadmahdi Honarmand, Saimourya Surabhi, Dennis P. Wall(参考訳) 本稿では,時系列フレーム間の予測の時間的コヒーレンスを自己超越信号として利用することにより,ビデオ上でのテスト時間適応のための新しい手法であるTempTを提案する。 TempTは、ビデオにおける表情認識(FER)を含むコンピュータビジョンタスクに幅広い可能性を持つアプローチである。 AffWild2データセット上でのTempT性能を評価する。 提案手法は,データの一過性の視覚的側面にのみ焦点をあて,他のアプローチで使用されるより大きなシーケンシャルモデルやアテンションベースモデルとは対照的に,一般的な2D CNNバックボーンを利用する。 予備的な実験結果から,TempTは過去の報告した性能と競合する性能を示し,その有効性は実世界の様々なアプリケーションで使用するための説得力のある概念実証を提供する。

We introduce Temporal consistency for Test-time adaptation (TempT) a novel method for test-time adaptation on videos through the use of temporal coherence of predictions across sequential frames as a self-supervision signal. TempT is an approach with broad potential applications in computer vision tasks including facial expression recognition (FER) in videos. We evaluate TempT performance on the AffWild2 dataset. Our approach focuses solely on the unimodal visual aspect of the data and utilizes a popular 2D CNN backbone in contrast to larger sequential or attention-based models used in other approaches. Our preliminary experimental results demonstrate that TempT has competitive performance compared to the previous years reported performances and its efficacy provides a compelling proof-of-concept for its use in various real-world applications.
翻訳日:2023-04-20 17:02:14 公開日:2023-04-18
# GPT検出器はイギリス生まれでない作家に偏っている

GPT detectors are biased against non-native English writers ( http://arxiv.org/abs/2304.02819v2 )

ライセンス: Link先を確認
Weixin Liang, Mert Yuksekgonul, Yining Mao, Eric Wu, James Zou(参考訳) 生成言語モデルが急速に普及したことで、デジタルコミュニケーションが大幅に進歩し、同時にAI生成コンテンツの誤用に関する懸念も高まっている。 AIと人為的なコンテンツとを区別する多くの検出方法が提案されているが、これらの検出器の公正性と堅牢性は未発見のままである。 本研究では、ネイティブおよび非ネイティブな英語作家の筆記サンプルを用いて、広く使われているGPT検出器の性能を評価する。 これらの検出器は、非ネイティブな英語の筆記サンプルをAI生成と誤分類しているのに対し、ネイティブな筆記サンプルは正確に識別されている。 さらに, 単純なプロンプト戦略は, このバイアスを軽減するだけでなく, GPT検出器を効果的に回避できることを示す。 以上の結果から,chatgptコンテンツ検出器を配備することの倫理的意義について,特に非ネイティブ英語話者を不注意にペナルティを課したり,世界的談話から除外したりする場合に,より広範な議論が求められている。

The rapid adoption of generative language models has brought about substantial advancements in digital communication, while simultaneously raising concerns regarding the potential misuse of AI-generated content. Although numerous detection methods have been proposed to differentiate between AI and human-generated content, the fairness and robustness of these detectors remain underexplored. In this study, we evaluate the performance of several widely-used GPT detectors using writing samples from native and non-native English writers. Our findings reveal that these detectors consistently misclassify non-native English writing samples as AI-generated, whereas native writing samples are accurately identified. Furthermore, we demonstrate that simple prompting strategies can not only mitigate this bias but also effectively bypass GPT detectors, suggesting that GPT detectors may unintentionally penalize writers with constrained linguistic expressions. Our results call for a broader conversation about the ethical implications of deploying ChatGPT content detectors and caution against their use in evaluative or educational settings, particularly when they may inadvertently penalize or exclude non-native English speakers from the global discourse.
翻訳日:2023-04-20 16:54:13 公開日:2023-04-18
# ChatDoctor:医学領域知識を用いたLLaMAモデルに基づく医用チャットモデル

ChatDoctor: A Medical Chat Model Fine-tuned on LLaMA Model using Medical Domain Knowledge ( http://arxiv.org/abs/2303.14070v4 )

ライセンス: Link先を確認
Yunxiang Li, Zihan Li, Kai Zhang, Ruilong Dan, You Zhang(参考訳) ChatGPTのような一般領域における最近の大規模言語モデル(LLM)は、指示に従うことや、人間のような反応を生み出すことに顕著な成功を収めている。 しかし、そのような言語モデルは、まだ医学領域に適応していないため、応答の精度は低く、医療診断や医薬品などに対する健全なアドバイスが得られていない。 この問題に対処するために、オンライン医療相談サイトから100万件の現実世界の患者と物理学者の会話に基づいてChatDoctorモデルを微調整した。 さらに、知識脳としてのWikipediaや病気データベースなど、ChatDoctorに自律的な知識検索機能を追加しています。 この10万の患者と医師の会話を用いてllmを微調整することで,患者のニーズの理解とインフォームドアドバイスが大幅に向上した。 wikipediaとデータベース脳に基づく自律型チャットドクタモデルは、リアルタイムおよび権威ある情報にアクセスし、この情報に基づいて患者の質問に答えることができ、モデルの応答の精度が大幅に向上する。 医療分野における対話モデルのさらなる開発を容易にするため、すべてのソースコード、データセット、モデルウェイトをhttps://github.com/Kent0n-Li/ChatDoctor.comで公開しています。

Recent large language models (LLMs) in the general domain, such as ChatGPT, have shown remarkable success in following instructions and producing human-like responses. However, such language models have yet to be adapted for the medical domain, resulting in poor accuracy of responses and an inability to provide sound advice on medical diagnoses, medications, etc. To address this problem, we fine-tuned our ChatDoctor model based on 100k real-world patient-physician conversations from an online medical consultation site. Besides, we add autonomous knowledge retrieval capabilities to our ChatDoctor, for example, Wikipedia or a disease database as a knowledge brain. By fine-tuning the LLMs using these 100k patient-physician conversations, our model showed significant improvements in understanding patients' needs and providing informed advice. The autonomous ChatDoctor model based on Wikipedia and Database Brain can access real-time and authoritative information and answer patient questions based on this information, significantly improving the accuracy of the model's responses, which shows extraordinary potential for the medical field with a low tolerance for error. To facilitate the further development of dialogue models in the medical field, we make available all source code, datasets, and model weights available at: https://github.com/Kent0n-Li/ChatDoctor.
翻訳日:2023-04-20 16:51:59 公開日:2023-04-18
# ChatGPTはバイアスを受けるべきか? 大規模言語モデルにおけるバイアスの課題とリスク

Should ChatGPT be Biased? Challenges and Risks of Bias in Large Language Models ( http://arxiv.org/abs/2304.03738v2 )

ライセンス: Link先を確認
Emilio Ferrara(参考訳) 生成言語モデルの能力が進歩を続けるにつれ、これらのモデルに内在するバイアスの影響は、研究者、実践者、そしてより広い大衆から注目を集めている。 本稿では,ChatGPTのような大規模言語モデルにおけるバイアスに関連する課題とリスクについて考察する。 バイアスの起源を,トレーニングデータ,モデル仕様,アルゴリズム制約,製品設計,政策決定の性質から考察する。 偏りのあるモデル出力の意図しない結果から生じる倫理的懸念について検討する。 さらに,バイアスを軽減する可能性,バイアスの回避可能性,仮想アシスタントやコンテンツ生成,チャットボットなど,さまざまなアプリケーションにこれらのモデルをデプロイすることの意味について分析する。 最後に、言語モデルにおけるバイアスを特定し、定量化し、緩和するための現在のアプローチをレビューし、より公平で透明で責任あるAIシステムを開発するための、多分野の協力的な取り組みの必要性を強調します。 この記事では、人工知能コミュニティ内の思慮深い対話を刺激し、研究者や開発者が生成言語モデルにおけるバイアスの役割と倫理的AIの追求を反映するよう促す。

As the capabilities of generative language models continue to advance, the implications of biases ingrained within these models have garnered increasing attention from researchers, practitioners, and the broader public. This article investigates the challenges and risks associated with biases in large-scale language models like ChatGPT. We discuss the origins of biases, stemming from, among others, the nature of training data, model specifications, algorithmic constraints, product design, and policy decisions. We explore the ethical concerns arising from the unintended consequences of biased model outputs. We further analyze the potential opportunities to mitigate biases, the inevitability of some biases, and the implications of deploying these models in various applications, such as virtual assistants, content generation, and chatbots. Finally, we review the current approaches to identify, quantify, and mitigate biases in language models, emphasizing the need for a multi-disciplinary, collaborative effort to develop more equitable, transparent, and responsible AI systems. This article aims to stimulate a thoughtful dialogue within the artificial intelligence community, encouraging researchers and developers to reflect on the role of biases in generative language models and the ongoing pursuit of ethical AI.
翻訳日:2023-04-20 16:41:40 公開日:2023-04-18
# 画像分類のための量子機械学習

Quantum machine learning for image classification ( http://arxiv.org/abs/2304.09224v1 )

ライセンス: Link先を確認
Arsenii Senokosov, Alexander Sedykh, Asel Sagingalieva, Alexey Melnikov(参考訳) 画像認識と分類は、様々な産業にまたがる多様な実践的応用の基本的なタスクであり、現代の世界では重要な課題である。 近年、機械学習モデル、特にニューラルネットワークが、これらの問題を解決する強力なツールとして登場した。 しかし、ハイブリッド量子古典的アプローチによる量子効果の利用は、従来の古典モデルの能力をさらに強化することができる。 本稿では,並列量子層を持つニューラルネットワークと,画像分類問題に対処する量子層を持つニューラルネットワークの2つのハイブリッド量子古典モデルを提案する。 我々のハイブリッド量子アプローチの1つは、MNISTデータセットで99%以上の顕著な精度を示す。 特に,提案する量子回路では,すべての変分パラメータが学習可能であり,効率的なニューラルネットワーク学習のために,量子部分を複数の並列変分量子回路に分割する。 本研究は,量子機械学習技術を用いた画像認識と分類の改善に関する現在進行中の研究に寄与する。 この結果は、医療、セキュリティ、マーケティングなど様々な分野において、これらのタスクをさらに進めるためのハイブリッド量子古典モデルの可能性を示す有望な証拠となる。

Image recognition and classification are fundamental tasks with diverse practical applications across various industries, making them critical in the modern world. Recently, machine learning models, particularly neural networks, have emerged as powerful tools for solving these problems. However, the utilization of quantum effects through hybrid quantum-classical approaches can further enhance the capabilities of traditional classical models. Here, we propose two hybrid quantum-classical models: a neural network with parallel quantum layers and a neural network with a quanvolutional layer, which address image classification problems. One of our hybrid quantum approaches demonstrates remarkable accuracy of more than 99% on the MNIST dataset. Notably, in the proposed quantum circuits all variational parameters are trainable, and we divide the quantum part into multiple parallel variational quantum circuits for efficient neural network learning. In summary, our study contributes to the ongoing research on improving image recognition and classification using quantum machine learning techniques. Our results provide promising evidence for the potential of hybrid quantum-classical models to further advance these tasks in various fields, including healthcare, security, and marketing.
翻訳日:2023-04-20 16:36:17 公開日:2023-04-18
# 深層ニューラルネットワークのための局所ラジャシェビッツ条件下での確率勾配降下の収束

Convergence of stochastic gradient descent under a local Lajasiewicz condition for deep neural networks ( http://arxiv.org/abs/2304.09221v1 )

ライセンス: Link先を確認
Jing An and Jianfeng Lu(参考訳) 非凸目的関数に対する確率勾配降下(SGD)を考慮することにより、Chatterjee \cite{chatterjee2022convergence}のグローバル収束結果を拡張する。 有限幅のニューラルネットワークで実現できる最小限の仮定で、もし \L{}ajasiewicz 条件が正の確率で成り立つ局所領域内で初期化すれば、確率勾配はこの領域内の大域最小に収束する。 我々の証明の重要な構成要素は、SGDの全軌道が正の確率で局所領域内にあることを保証することである。 そこで我々は,SGDノイズ尺度を目的関数とみなし,機械学習ノイズと呼ばれ,実例の多くで達成可能であると仮定する。 さらに,robbins-monro型ステップサイズによるノイズの有界性の利用が,キーコンポーネントの有効性を維持する上で十分でない理由を示す負の論法を提案する。

We extend the global convergence result of Chatterjee \cite{chatterjee2022convergence} by considering the stochastic gradient descent (SGD) for non-convex objective functions. With minimal additional assumptions that can be realized by finitely wide neural networks, we prove that if we initialize inside a local region where the \L{}ajasiewicz condition holds, with a positive probability, the stochastic gradient iterates converge to a global minimum inside this region. A key component of our proof is to ensure that the whole trajectories of SGD stay inside the local region with a positive probability. For that, we assume the SGD noise scales with the objective function, which is called machine learning noise and achievable in many real examples. Furthermore, we provide a negative argument to show why using the boundedness of noise with Robbins-Monro type step sizes is not enough to keep the key component valid.
翻訳日:2023-04-20 16:35:55 公開日:2023-04-18
# 分布シフト下での医療分類器の公平性を改善する生成モデル

Generative models improve fairness of medical classifiers under distribution shifts ( http://arxiv.org/abs/2304.09218v1 )

ライセンス: Link先を確認
Ira Ktena, Olivia Wiles, Isabela Albuquerque, Sylvestre-Alvise Rebuffi, Ryutaro Tanno, Abhijit Guha Roy, Shekoofeh Azizi, Danielle Belgrave, Pushmeet Kohli, Alan Karthikesalingam, Taylan Cemgil, Sven Gowal(参考訳) 機械学習におけるユビキタスな課題は、ドメインの一般化の問題である。 これは、モデル開発に使用されるデータセットに不足しているグループやラベルに対するバイアスを悪化させる可能性がある。 モデルバイアスは、特に医療のような安全クリティカルなアプリケーションにおいて、意図しない害をもたらす可能性がある。 さらに、高いコストや容易に利用できるドメインの専門知識の欠如によりラベル付きデータを得るのが困難である。 本研究では,生成モデルを用いたラベル効率の良い方法で,データから現実的な拡張を自動学習できることを実証する。 特に,画像モダリティのための異なる条件とサブグループの基盤となるデータ分布を捉えるために,ラベルなしデータの多さを活用する。 適切なラベルに生成モデルを条件付けすることにより、特定の要求に応じて合成例の分布を制御できる。 これらの学習の強化は、モデルをより堅牢で統計的に公平に分布させ、ヒューリスティックなものを上回ることができることを示した。 アプローチの汎用性を評価するために, 異なる難易度を示す3つの異なる医用画像コンテキストについて検討した。 (i)公開一般化ベンチマークによる病理像 (ii)公開臨床データからの胸部x線、及び (III)複雑な変化と画像条件を特徴とする皮膚科画像。 実際のトレーニングサンプルを合成標本で補完することで、3つの医療課題のモデルの堅牢性が向上し、未表現グループ内の診断精度を向上させることにより公平性を高める。 このアプローチは、病理組織学における7.7%の予測精度の向上、5.2%の胸部x線検査でフェアネスギャップが44.6%低下し、63.5%の高リスク感度の改善、7.5倍のフェアネスギャップが低下した。

A ubiquitous challenge in machine learning is the problem of domain generalisation. This can exacerbate bias against groups or labels that are underrepresented in the datasets used for model development. Model bias can lead to unintended harms, especially in safety-critical applications like healthcare. Furthermore, the challenge is compounded by the difficulty of obtaining labelled data due to high cost or lack of readily available domain expertise. In our work, we show that learning realistic augmentations automatically from data is possible in a label-efficient manner using generative models. In particular, we leverage the higher abundance of unlabelled data to capture the underlying data distribution of different conditions and subgroups for an imaging modality. By conditioning generative models on appropriate labels, we can steer the distribution of synthetic examples according to specific requirements. We demonstrate that these learned augmentations can surpass heuristic ones by making models more robust and statistically fair in- and out-of-distribution. To evaluate the generality of our approach, we study 3 distinct medical imaging contexts of varying difficulty: (i) histopathology images from a publicly available generalisation benchmark, (ii) chest X-rays from publicly available clinical datasets, and (iii) dermatology images characterised by complex shifts and imaging conditions. Complementing real training samples with synthetic ones improves the robustness of models in all three medical tasks and increases fairness by improving the accuracy of diagnosis within underrepresented groups. This approach leads to stark improvements OOD across modalities: 7.7% prediction accuracy improvement in histopathology, 5.2% in chest radiology with 44.6% lower fairness gap and a striking 63.5% improvement in high-risk sensitivity for dermatology with a 7.5x reduction in fairness gap.
翻訳日:2023-04-20 16:35:39 公開日:2023-04-18
# ベッセル畳み込みニューラルネットワークを用いた画像認識におけるSO(2)とO(2)の等価性

SO(2) and O(2) Equivariance in Image Recognition with Bessel-Convolutional Neural Networks ( http://arxiv.org/abs/2304.09214v1 )

ライセンス: Link先を確認
Valentin Delchevalerie, Alexandre Mayer, Adrien Bibal and Beno\^it Fr\'enay(参考訳) 長年にわたって、画像分析タスクの解決において、等分散の活用がどの程度有益かが示されてきた。 例えば、高密度ネットワークと比較して畳み込みニューラルネットワーク(CNN)の優位性は主に翻訳等価性のエレガントな利用に由来する。 パターンは任意の位置に現れ、畳み込みは重み付けによって翻訳不変の操作を達成するためにこれを考慮に入れる。 それでも、画像はしばしば、利用可能な他の対称性を含んでいる。 これは回転と反射のケースであり、特に注目され、複数の同変CNNアーキテクチャの開発につながった。 これらの手法のうち、ベッセル畳み込みニューラルネットワーク(b-cnns)は、ベッセル関数に基づく特定の分解を利用して、画像とフィルタの間のキー操作を変更し、平面回転の全ての連続的な集合に同値な設計を行う。 本研究では,B-CNNの数学的発展と,リフレクションの組み入れやマルチスケールの等価性など,いくつかの改良点を示す。 他の手法と比較してb-cnnの性能を評価するために広範な研究を行った。 最後に,B-CNNの理論的優位性を強調し,より詳細な知見と詳細な数学的詳細を提供する。

For many years, it has been shown how much exploiting equivariances can be beneficial when solving image analysis tasks. For example, the superiority of convolutional neural networks (CNNs) compared to dense networks mainly comes from an elegant exploitation of the translation equivariance. Patterns can appear at arbitrary positions and convolutions take this into account to achieve translation invariant operations through weight sharing. Nevertheless, images often involve other symmetries that can also be exploited. It is the case of rotations and reflections that have drawn particular attention and led to the development of multiple equivariant CNN architectures. Among all these methods, Bessel-convolutional neural networks (B-CNNs) exploit a particular decomposition based on Bessel functions to modify the key operation between images and filters and make it by design equivariant to all the continuous set of planar rotations. In this work, the mathematical developments of B-CNNs are presented along with several improvements, including the incorporation of reflection and multi-scale equivariances. Extensive study is carried out to assess the performances of B-CNNs compared to other methods. Finally, we emphasize the theoretical advantages of B-CNNs by giving more insights and in-depth mathematical details.
翻訳日:2023-04-20 16:35:13 公開日:2023-04-18
# 放射線レポート生成のためのトークン不均衡適応

Token Imbalance Adaptation for Radiology Report Generation ( http://arxiv.org/abs/2304.09185v1 )

ライセンス: Link先を確認
Yuexin Wu, I-Chan Huang, Xiaolei Huang(参考訳) 不均衡なトークン分布はテキスト文書に自然に存在するため、ニューラルネットワークモデルは頻繁なトークンに過剰に適合する。 トークンの不均衡は、複雑な医療用語が頻繁に現れるが、より多くの医療情報を反映しているため、放射線レポートジェネレータの堅牢さを損なう可能性がある。 本研究では,放射線学レポート生成の2つの標準ベンチマークデータセット (IU X-RAY と MIMIC-CXR) 上で,現在の最先端モデルが頻繁なトークンを生成できないことを示す。 %, 医療用画像を用いたテキスト生成装置において, 頻繁なトークンを適応させる手法は提案されていない。 この課題を解決するために,不適切なトークンの生成ロバスト性を改善することを目的とした, \textbf{t}oken \textbf{im}balance adapt\textbf{er} (\textit{timer})を提案する。 このモデルはトークンの不均衡を不規則な損失によって自動的に利用し、生成プロセスを動的に最適化し、頻繁なトークンを増やす。 提案手法を2つのベンチマークで複数の最先端手法と比較する。 実験は,モデルロバスト性を高めるための手法の有効性を実証する。 アブレーション解析の結果, 放射線レポート生成におけるトークン不均衡の適応には強化学習法が大きな影響を与えていることがわかった。

Imbalanced token distributions naturally exist in text documents, leading neural language models to overfit on frequent tokens. The token imbalance may dampen the robustness of radiology report generators, as complex medical terms appear less frequently but reflect more medical information. In this study, we demonstrate how current state-of-the-art models fail to generate infrequent tokens on two standard benchmark datasets (IU X-RAY and MIMIC-CXR) of radiology report generation. % However, no prior study has proposed methods to adapt infrequent tokens for text generators feeding with medical images. To solve the challenge, we propose the \textbf{T}oken \textbf{Im}balance Adapt\textbf{er} (\textit{TIMER}), aiming to improve generation robustness on infrequent tokens. The model automatically leverages token imbalance by an unlikelihood loss and dynamically optimizes generation processes to augment infrequent tokens. We compare our approach with multiple state-of-the-art methods on the two benchmarks. Experiments demonstrate the effectiveness of our approach in enhancing model robustness overall and infrequent tokens. Our ablation analysis shows that our reinforcement learning method has a major effect in adapting token imbalance for radiology report generation.
翻訳日:2023-04-20 16:34:51 公開日:2023-04-18
# 時空間依存を考慮したトラヒックデータインプテーションのためのディープラーニングフレームワーク

A Deep Learning Framework for Traffic Data Imputation Considering Spatiotemporal Dependencies ( http://arxiv.org/abs/2304.09182v1 )

ライセンス: Link先を確認
Li Jiang, Ting Zhang, Qiruyi Zuo, Chenyu Tian, George P. Chan, Wai Kin (Victor) Chan(参考訳) センサによって収集された時空間(ST)データは、時間順に列挙されたデータポイントの列である多変量時系列として表すことができる。 膨大な有用な情報にもかかわらず、STデータは通常、欠落または不完全なデータの問題に悩まされ、アプリケーションも制限される。 Imputationは有効なソリューションのひとつであり、さらなるアプリケーションのためにデータをプリコンプリートするためにしばしば使用される。 しかし、実際には、トラフィックネットワークの動的変化に伴う時空間依存性の複雑さのため、時空間データ計算は非常に困難であり、さらなるアプリケーションにとって重要な前提課題である。 既存のアプローチは、時系列や静的な空間的依存関係の時間的依存性のみをキャプチャする。 彼らは時空間依存を直接モデル化できず、モデルの表現能力は比較的限られている。

Spatiotemporal (ST) data collected by sensors can be represented as multi-variate time series, which is a sequence of data points listed in an order of time. Despite the vast amount of useful information, the ST data usually suffer from the issue of missing or incomplete data, which also limits its applications. Imputation is one viable solution and is often used to prepossess the data for further applications. However, in practice, n practice, spatiotemporal data imputation is quite difficult due to the complexity of spatiotemporal dependencies with dynamic changes in the traffic network and is a crucial prepossessing task for further applications. Existing approaches mostly only capture the temporal dependencies in time series or static spatial dependencies. They fail to directly model the spatiotemporal dependencies, and the representation ability of the models is relatively limited.
翻訳日:2023-04-20 16:34:28 公開日:2023-04-18
# ソフトウェア仕様の自動合成に基づく大規模言語モデル

Large Language Models Based Automatic Synthesis of Software Specifications ( http://arxiv.org/abs/2304.09181v1 )

ライセンス: Link先を確認
Shantanu Mandal, Adhrik Chethan, Vahid Janfaza, S M Farabi Mahmud, Todd A Anderson, Javier Turek, Jesmin Jahan Tithi, Abdullah Muzahid(参考訳) ソフトウェア構成は、ソフトウェアシステムの振る舞いを決定する上で重要な役割を果たす。 安全かつエラーのない操作を保証するためには、ソフトウェア仕様と呼ばれる有効な境界とルールとともに、正しい構成を特定する必要がある。 ソフトウェアシステムが複雑でスケールするにつれて、正しい操作を保証するのに必要な構成や仕様の数が大きくなり、手作業で操作するのが難しくなります。 ソフトウェア開発のペースが速いため、正しいソフトウェア仕様がソフトウェア自体内で徹底的にチェックまたは検証されていない場合が多い。 むしろ、ソフトウェアマニュアル、コードコメント、オンラインディスカッションフォーラムなど、さまざまな外部ソースで頻繁に議論され、文書化されている。 したがって、システム管理者は、明確さ、組織、一元的に統合されたソースが欠如しているため、構成の正しい仕様を知ることは困難である。 この課題に対処するために,我々は,最先端の大規模言語モデルを利用して自然言語ソースからソフトウェア仕様を自動的に合成するフレームワークspecsynを提案する。 提案手法は,逐次学習問題としてソフトウェア仕様合成を定式化し,大規模文脈テキストからの仕様抽出について検討する。 これは、自然言語テキストからエンドツーエンドの仕様合成に大規模な言語モデルを使用する最初の作品である。 実験の結果,本システムはf1スコアの点で,最先端の仕様合成ツールよりも21%優れており,単文や複数文から仕様を見出すことができることがわかった。

Software configurations play a crucial role in determining the behavior of software systems. In order to ensure safe and error-free operation, it is necessary to identify the correct configuration, along with their valid bounds and rules, which are commonly referred to as software specifications. As software systems grow in complexity and scale, the number of configurations and associated specifications required to ensure the correct operation can become large and prohibitively difficult to manipulate manually. Due to the fast pace of software development, it is often the case that correct software specifications are not thoroughly checked or validated within the software itself. Rather, they are frequently discussed and documented in a variety of external sources, including software manuals, code comments, and online discussion forums. Therefore, it is hard for the system administrator to know the correct specifications of configurations due to the lack of clarity, organization, and a centralized unified source to look at. To address this challenge, we propose SpecSyn a framework that leverages a state-of-the-art large language model to automatically synthesize software specifications from natural language sources. Our approach formulates software specification synthesis as a sequence-to-sequence learning problem and investigates the extraction of specifications from large contextual texts. This is the first work that uses a large language model for end-to-end specification synthesis from natural language texts. Empirical results demonstrate that our system outperforms prior the state-of-the-art specification synthesis tool by 21% in terms of F1 score and can find specifications from single as well as multiple sentences.
翻訳日:2023-04-20 16:34:14 公開日:2023-04-18
# テンソル処理ユニットを用いたインメモリアナログコンピューティングアーキテクチャの不均一な統合

Heterogeneous Integration of In-Memory Analog Computing Architectures with Tensor Processing Units ( http://arxiv.org/abs/2304.09258v1 )

ライセンス: Link先を確認
Mohammed E. Elbtity, Brendan Reidy, Md Hasibul Amin, and Ramtin Zand(参考訳) 機械学習タスク専用のハードウェアアクセラレータであるテンソルプロセッシングユニット(TPU)は、畳み込みニューラルネットワーク(CNN)で畳み込み層を実行する場合、大幅なパフォーマンス向上を示している。 しかし、彼らは完全に接続された(FC)層で同じ効率を維持するのに苦労し、最適以下のハードウェア利用につながる。 一方、インメモリアナログコンピューティング(IMAC)アーキテクチャは、FC層の実行において顕著なスピードアップを示している。 本稿では,IMACユニットとエッジTPUを統合してモバイルCNNの性能を向上させる,新しい,異種,混合信号,混合精度アーキテクチャを提案する。 畳み込み層に対するTPUの強みと高密度層に対するIMAC回路の強度を活用するため,TPU-IMACアーキテクチャにモデルを展開する際の潜在的な精度低下を軽減するために,混合精度トレーニング技術を取り入れた統合学習アルゴリズムを提案する。 シミュレーションにより、TPU-IMAC構成は、同等の精度を維持しながら、様々なCNNモデルの従来のTPUアーキテクチャと比較して、最大2.59\times$パフォーマンスの改善と8.8\%のメモリ削減を達成することが示された。 TPU-IMACアーキテクチャは、エッジコンピューティングやモバイルデバイスでのリアルタイム処理など、エネルギー効率と高性能が不可欠である様々なアプリケーションに可能性を示す。 統一トレーニングアルゴリズムとimacとtpuアーキテクチャの統合は、この研究がより広い機械学習の展望に潜在的に影響を与えている。

Tensor processing units (TPUs), specialized hardware accelerators for machine learning tasks, have shown significant performance improvements when executing convolutional layers in convolutional neural networks (CNNs). However, they struggle to maintain the same efficiency in fully connected (FC) layers, leading to suboptimal hardware utilization. In-memory analog computing (IMAC) architectures, on the other hand, have demonstrated notable speedup in executing FC layers. This paper introduces a novel, heterogeneous, mixed-signal, and mixed-precision architecture that integrates an IMAC unit with an edge TPU to enhance mobile CNN performance. To leverage the strengths of TPUs for convolutional layers and IMAC circuits for dense layers, we propose a unified learning algorithm that incorporates mixed-precision training techniques to mitigate potential accuracy drops when deploying models on the TPU-IMAC architecture. The simulations demonstrate that the TPU-IMAC configuration achieves up to $2.59\times$ performance improvements, and $88\%$ memory reductions compared to conventional TPU architectures for various CNN models while maintaining comparable accuracy. The TPU-IMAC architecture shows potential for various applications where energy efficiency and high performance are essential, such as edge computing and real-time processing in mobile devices. The unified training algorithm and the integration of IMAC and TPU architectures contribute to the potential impact of this research on the broader machine learning landscape.
翻訳日:2023-04-20 16:26:49 公開日:2023-04-18
# パラメタライズド量子パルスの利点

Towards Advantages of Parameterized Quantum Pulses ( http://arxiv.org/abs/2304.09253v1 )

ライセンス: Link先を確認
Zhiding Liang, Jinglei Cheng, Zhixin Song, Hang Ren, Rui Yang, Hanrui Wang, Kecheng Liu, Peter Kogge, Tongyang Li, Yongshan Ding, Yiyu Shi(参考訳) 量子ゲート上の量子パルスの利点は研究者から注目を集めている。 量子パルスは柔軟性、忠実度、スケーラビリティ、リアルタイムチューニングなどの利点を提供する。 しかし、量子ゲートの性能を評価するためのワークフローやプロセスは確立されているが、パラメータ化パルスのプロファイリングとパルス回路設計のためのガイダンスが限られている。 このギャップに対処するために, パラメータ化パルスの設計空間を提案し, 表現性, 絡み合い, 有効パラメータ次元などの指標に基づいてこれらのパルスを評価する。 これらの設計空間を用いて、持続時間と性能の面でゲート回路上でのパラメータ化パルスの利点を実証し、高性能量子コンピューティングを実現する。 パラメータ化パルス回路の設計空間は量子化学ベンチマークで有望な結果を示した。

The advantages of quantum pulses over quantum gates have attracted increasing attention from researchers. Quantum pulses offer benefits such as flexibility, high fidelity, scalability, and real-time tuning. However, while there are established workflows and processes to evaluate the performance of quantum gates, there has been limited research on profiling parameterized pulses and providing guidance for pulse circuit design. To address this gap, our study proposes a set of design spaces for parameterized pulses, evaluating these pulses based on metrics such as expressivity, entanglement capability, and effective parameter dimension. Using these design spaces, we demonstrate the advantages of parameterized pulses over gate circuits in the aspect of duration and performance at the same time thus enabling high-performance quantum computing. Our proposed design space for parameterized pulse circuits has shown promising results in quantum chemistry benchmarks.
翻訳日:2023-04-20 16:26:06 公開日:2023-04-18
# IMAC-Sim:インメモリアナログコンピューティングアーキテクチャのための回路レベルシミュレータ

IMAC-Sim: A Circuit-level Simulator For In-Memory Analog Computing Architectures ( http://arxiv.org/abs/2304.09252v1 )

ライセンス: Link先を確認
Md Hasibul Amin, Mohammed E. Elbtity and Ramtin Zand(参考訳) 機械学習アプリケーションのためのエネルギーを消費するコンピュータシステムの代替として、メモリベースのインメモリアナログコンピューティング(IMAC)アーキテクチャへの注目が高まり、デバイスや回路レベルの設計空間を探索できるツールがこの分野の研究と開発を著しく促進する。 そこで本稿では,imacアーキテクチャの設計空間探索のための回路レベルシミュレータimac-simを開発した。 IMAC-SimはPythonベースのシミュレーションフレームワークで、ユーザが選択した様々なデバイスレベルのハイパーパラメータと回路レベルのハイパーパラメータに基づいてIMAC回路のSPICEネットリストを作成し、ユーザが指定したデータセットを使用して、開発した回路の精度、消費電力、遅延を自動的に評価する。 さらに、IMAC-SimはIMACアーキテクチャにおける相互接続寄生抵抗と容量をシミュレートし、これらの信頼性課題を克服するための水平および垂直分割技術も備えている。 IMAC-Simは、幅広いデバイスと回路レベルのハイパーパラメータをサポートする柔軟なツールである。 本稿では,imac-sim の重要な機能を示すための制御実験を行い,その機能全体をオープンソースツールで研究者に提供している。

With the increased attention to memristive-based in-memory analog computing (IMAC) architectures as an alternative for energy-hungry computer systems for machine learning applications, a tool that enables exploring their device- and circuit-level design space can significantly boost the research and development in this area. Thus, in this paper, we develop IMAC-Sim, a circuit-level simulator for the design space exploration of IMAC architectures. IMAC-Sim is a Python-based simulation framework, which creates the SPICE netlist of the IMAC circuit based on various device- and circuit-level hyperparameters selected by the user, and automatically evaluates the accuracy, power consumption, and latency of the developed circuit using a user-specified dataset. Moreover, IMAC-Sim simulates the interconnect parasitic resistance and capacitance in the IMAC architectures and is also equipped with horizontal and vertical partitioning techniques to surmount these reliability challenges. IMAC-Sim is a flexible tool that supports a broad range of device- and circuit-level hyperparameters. In this paper, we perform controlled experiments to exhibit some of the important capabilities of the IMAC-Sim, while the entirety of its features is available for researchers via an open-source tool.
翻訳日:2023-04-20 16:25:49 公開日:2023-04-18
# 運動症状と機械学習を用いたパーキンソン病の早期診断

Early Detection of Parkinson's Disease using Motor Symptoms and Machine Learning ( http://arxiv.org/abs/2304.09245v1 )

ライセンス: Link先を確認
Poojaa C and John Sahaya Rani Alex(参考訳) パーキンソン病(pd)は1000人中1人に影響を与えており、60歳以上の人口に傾向が強い。 診断のための正確なバイオマーカーを見つけるためにウェアラブルシステムを活用することは、特にパーキンソン病のような神経変性疾患のために時間を必要としている。 本研究の目的は、経済的かつ堅牢なウェアラブルデバイスの実現可能性に関する定量的分析に到達するための、運動や歩行関連パラメータなどの早期発生の一般的な症状に焦点を当てることである。 Parkinson's Progression Markers Initiative (PPMI)のサブセットであるPPMI Gaitデータセットは、さまざまな機械学習アルゴリズムによる徹底的な分析の後、機能選択に使用されている。 その後、パーキンソン病の早期発見のためのリアルタイムデータをテストするために重要な特徴が特定され、モデルの精度は91.9%である。

Parkinson's disease (PD) has been found to affect 1 out of every 1000 people, being more inclined towards the population above 60 years. Leveraging wearable-systems to find accurate biomarkers for diagnosis has become the need of the hour, especially for a neurodegenerative condition like Parkinson's. This work aims at focusing on early-occurring, common symptoms, such as motor and gait related parameters to arrive at a quantitative analysis on the feasibility of an economical and a robust wearable device. A subset of the Parkinson's Progression Markers Initiative (PPMI), PPMI Gait dataset has been utilised for feature-selection after a thorough analysis with various Machine Learning algorithms. Identified influential features has then been used to test real-time data for early detection of Parkinson Syndrome, with a model accuracy of 91.9%
翻訳日:2023-04-20 16:25:26 公開日:2023-04-18
# テキストガイドによる画像と形状の編集と生成:短い調査

Text-guided Image-and-Shape Editing and Generation: A Short Survey ( http://arxiv.org/abs/2304.09244v1 )

ライセンス: Link先を確認
Cheng-Kang Ted Chao and Yotam Gingold(参考訳) 画像と形状の編集はデジタルアートワークで広く使われている。 グラフィックアルゴリズムは、アーティストやデザイナーが手作業で面倒なリタッチをすることなく、望ましい編集意図を達成できるようにする。 最近の機械学習の進歩により、アーティストの編集意図は、様々な訓練されたニューラルネットワークを使用して、テキストによって駆動される。 彼らは、フォトリアリスティックな画像、アートワーク、人間のポーズ、テキストからのメッシュのスタイライゼーション、与えられた画像と形状の事前のオートコンプリートなど、広範な成功を収めている。 この短い調査で、最先端(テキスト誘導)画像および形状生成技術に関する50以上の論文の概要を示す。 まず,最近の編集アルゴリズムの概要について概説する。 次に,テキストガイドによる2次元と3次元の編集技術について,それぞれのサブセクションが短い背景紹介から始まり,個別にレビューする。 また,最近の暗黙のニューラル表現下での編集アルゴリズムのコンテキスト化も行う。 最後に,既存の手法と潜在的研究のアイデアに関する議論から,調査を締めくくった。

Image and shape editing are ubiquitous among digital artworks. Graphics algorithms facilitate artists and designers to achieve desired editing intents without going through manually tedious retouching. In the recent advance of machine learning, artists' editing intents can even be driven by text, using a variety of well-trained neural networks. They have seen to be receiving an extensive success on such as generating photorealistic images, artworks and human poses, stylizing meshes from text, or auto-completion given image and shape priors. In this short survey, we provide an overview over 50 papers on state-of-the-art (text-guided) image-and-shape generation techniques. We start with an overview on recent editing algorithms in the introduction. Then, we provide a comprehensive review on text-guided editing techniques for 2D and 3D independently, where each of its sub-section begins with a brief background introduction. We also contextualize editing algorithms under recent implicit neural representations. Finally, we conclude the survey with the discussion over existing methods and potential research ideas.
翻訳日:2023-04-20 16:25:11 公開日:2023-04-18
# サイドスキャンソナーのための標準画像表現の評価

Evaluation of a Canonical Image Representation for Sidescan Sonar ( http://arxiv.org/abs/2304.09243v1 )

ライセンス: Link先を確認
Weiqi Xu and Li Ling and Yiping Xie and Jun Zhang and John Folkesson(参考訳) 音響センサーは自律型水中車両(AUV)において重要な役割を果たす。 サイドスキャンソナー(SSS)は広い範囲を検知し、高解像度で写真リアル画像を提供する。 しかし、SSSはAUVの高度、目標範囲、センサーの解像度によって歪んだ3D海底画像を2D画像に投影する。 その結果、同じ物理領域が異なる調査線からのSSS画像に顕著な視覚的差異を示し、画素対応やテンプレートマッチングといったタスクに困難をもたらす。 本稿では, この歪みを低減させるために, 強度補正とスラント範囲補正からなる正準変換法を提案する。 強度補正は3つの異なるランベルト法則(cos, cos2, cot)を用いてビームパターン補正と入射角補正を含むが、スラントレンジ補正はナディルゾーンを除去し、SSS素子の位置を等水平に間隔を置いたビューポイント独立なビンに投影する。 提案手法は,HUGIN AUVによって収集された実データに基づいて,手動で注釈付き画素対応を接地真実参照として評価する。 パッチペアの実験結果は類似度とキーポイント記述子マッチングを比較した。 その結果、正準変換によりパッチの類似性が向上し、同じ物理領域が共振された異なる画像におけるsiftディスクリプタマッチング精度が向上した。

Acoustic sensors play an important role in autonomous underwater vehicles (AUVs). Sidescan sonar (SSS) detects a wide range and provides photo-realistic images in high resolution. However, SSS projects the 3D seafloor to 2D images, which are distorted by the AUV's altitude, target's range and sensor's resolution. As a result, the same physical area can show significant visual differences in SSS images from different survey lines, causing difficulties in tasks such as pixel correspondence and template matching. In this paper, a canonical transformation method consisting of intensity correction and slant range correction is proposed to decrease the above distortion. The intensity correction includes beam pattern correction and incident angle correction using three different Lambertian laws (cos, cos2, cot), whereas the slant range correction removes the nadir zone and projects the position of SSS elements into equally horizontally spaced, view-point independent bins. The proposed method is evaluated on real data collected by a HUGIN AUV, with manually-annotated pixel correspondence as ground truth reference. Experimental results on patch pairs compare similarity measures and keypoint descriptor matching. The results show that the canonical transformation can improve the patch similarity, as well as SIFT descriptor matching accuracy in different images where the same physical area was ensonified.
翻訳日:2023-04-20 16:24:54 公開日:2023-04-18
# プライス理論とPiecewise-Linear Decompositionを用いたオンライン相互相関解析フレームワーク

A Framework for Analyzing Online Cross-correlators using Price's Theorem and Piecewise-Linear Decomposition ( http://arxiv.org/abs/2304.09242v1 )

ライセンス: Link先を確認
Zhili Xiao and Shantanu Chakrabartty(参考訳) 2つの確率変数間の相互相関や類似性の正確な推定は、信号検出、超次元計算、連想記憶、ニューラルネットワークの中心にある。 クロス相関を推定する様々な方法に関する膨大な文献が存在するが、有限標本を用いてクロス相関を推定する最も良く簡単な方法は何か? まだ明確ではありません 本稿では, 推定器が真の相互相関に一様収束しているにもかかわらず, 標準経験的アプローチが最適方法ではないことを最初に論じる。 代わりに、より高い信号対雑音比(snr)を持つ相互相関子を構築するのに使用できる単純な非線形関数が多数存在することを示す。 これを実証するために、まずプライスの理論を用いて、ピースワイド線形関数の混合を用いて構築されたクロスコレレータを解析できる一般的な数学的枠組みを提示する。 このフレームワークと高次元埋め込みを用いて、最も有望なクロスコレレータのいくつかは、Huberの損失関数、マージンプロパゲーション(MP)関数、log-sum-exp関数に基づいていることを示す。

Precise estimation of cross-correlation or similarity between two random variables lies at the heart of signal detection, hyperdimensional computing, associative memories, and neural networks. Although a vast literature exists on different methods for estimating cross-correlations, the question what is the best and simplest method to estimate cross-correlations using finite samples ? is still not clear. In this paper, we first argue that the standard empirical approach might not be the optimal method even though the estimator exhibits uniform convergence to the true cross-correlation. Instead, we show that there exists a large class of simple non-linear functions that can be used to construct cross-correlators with a higher signal-to-noise ratio (SNR). To demonstrate this, we first present a general mathematical framework using Price's Theorem that allows us to analyze cross-correlators constructed using a mixture of piece-wise linear functions. Using this framework and high-dimensional embedding, we show that some of the most promising cross-correlators are based on Huber's loss functions, margin-propagation (MP) functions, and the log-sum-exp functions.
翻訳日:2023-04-20 16:24:29 公開日:2023-04-18
# メタバース:調査、トレンド、新しいパイプラインエコシステム、今後の方向性

The Metaverse: Survey, Trends, Novel Pipeline Ecosystem & Future Directions ( http://arxiv.org/abs/2304.09240v1 )

ライセンス: Link先を確認
Hani Sami, Ahmad Hammoud, Mouhamad Arafeh, Mohamad Wazzeh, Sarhad Arisdakessian, Mario Chahoud, Osama Wehbi, Mohamad Ajaj, Azzam Mourad, Hadi Otrok, Omar Abdel Wahab, Rabeb Mizouni, Jamal Bentahar, Chamseddine Talhi, Zbigniew Dziong, Ernesto Damiani, Mohsen Guizani(参考訳) metaverseは、バーチャルリアリティ(vr)技術を使ったエンゲージメントと没入体験を通じて、境界が存在せず、可能性は無限にある、現実を超えた第2の世界を提供する。 多くの分野は、技術、ゲーム、教育、芸術、文化など、正確に発達したメタバースの発展の恩恵を受けることができる。 それにもかかわらず、メタバース環境を最大限に発展させることは、適切なガイダンスと指示を必要とする曖昧なタスクである。 メタバースに関する既存の調査は、メタバースの特定の側面と規律にのみ焦点をあて、プロセス全体の全体像を欠いている。 この目的のためには、Metaverse開発パイプラインを徹底的に研究するために、より包括的で、多分野、深く、そして、学術的、産業指向のレビューが必要である。 そこで本研究では,(1)メタバースコンピューティング,ネットワーク,通信,ハードウェアインフラストラクチャ,(2)環境デジタル化,(3)ユーザインタラクションからなる,新しいマルチレイヤーパイプラインエコシステムを提案する。 各レイヤについて、その開発手順を詳述するコンポーネントについて論じる。 また、これらの各コンポーネントに対して、その進歩におけるテクノロジーの有効化とドメイン(人工知能、セキュリティとプライバシ、ブロックチェーン、ビジネス、倫理、社会など)の強化の影響について検討する。 さらに,分散化,相互運用性,ユーザエクスペリエンス,インタラクション,収益化をサポートする上で,これらの技術の重要性について説明する。 本稿では,各コンポーネントの既存の課題と,研究の方向性と潜在的な解決策について紹介する。 私たちの知る限りでは、この調査は最も包括的で、ユーザ、学者、起業家がMetaverseエコシステムの深い理解を得て、貢献の機会と可能性を見つけることができます。

The Metaverse offers a second world beyond reality, where boundaries are non-existent, and possibilities are endless through engagement and immersive experiences using the virtual reality (VR) technology. Many disciplines can benefit from the advancement of the Metaverse when accurately developed, including the fields of technology, gaming, education, art, and culture. Nevertheless, developing the Metaverse environment to its full potential is an ambiguous task that needs proper guidance and directions. Existing surveys on the Metaverse focus only on a specific aspect and discipline of the Metaverse and lack a holistic view of the entire process. To this end, a more holistic, multi-disciplinary, in-depth, and academic and industry-oriented review is required to provide a thorough study of the Metaverse development pipeline. To address these issues, we present in this survey a novel multi-layered pipeline ecosystem composed of (1) the Metaverse computing, networking, communications and hardware infrastructure, (2) environment digitization, and (3) user interactions. For every layer, we discuss the components that detail the steps of its development. Also, for each of these components, we examine the impact of a set of enabling technologies and empowering domains (e.g., Artificial Intelligence, Security & Privacy, Blockchain, Business, Ethics, and Social) on its advancement. In addition, we explain the importance of these technologies to support decentralization, interoperability, user experiences, interactions, and monetization. Our presented study highlights the existing challenges for each component, followed by research directions and potential solutions. To the best of our knowledge, this survey is the most comprehensive and allows users, scholars, and entrepreneurs to get an in-depth understanding of the Metaverse ecosystem to find their opportunities and potentials for contribution.
翻訳日:2023-04-20 16:24:09 公開日:2023-04-18
# 移民・民族・少数民族のメンタルヘルス研究における機械学習応用--体系的考察

Machine Learning Applications in Studying Mental Health Among Immigrants and Racial and Ethnic Minorities: A Systematic Review ( http://arxiv.org/abs/2304.09233v1 )

ライセンス: Link先を確認
Khushbu Khatri Park, Abdulaziz Ahmed, and Mohammed Ali Al-Garadi(参考訳) 背景: メンタルヘルス(MH)研究における機械学習(ML)の利用が増加している。 論文を体系的に検討することにより、移民、難民、移民、人種的・民族的マイノリティの脆弱な集団におけるMLのMH研究における現在の使用の潜在的なギャップを明らかにすることを目的としている。 方法: この体系的なレビューでは,Google ScholarをML関連用語,MH関連用語,およびBoolean演算子と集結した集中検索項の人口について調査した。 後方参照探索も行われた。 MH文脈におけるMLの手法や応用を応用し、関心の人口に着目したピアレビュー研究をまとめた。 日付の切り離しはありませんでした。 出版物が物語である場合や、各国の少数民族のみに焦点を当てていない場合、除外された。 研究状況,メンタルヘルスの焦点,サンプル,データ型,使用するMLアルゴリズムの種類,アルゴリズムのパフォーマンスなどを含むデータを抽出した。 結果: 検索戦略の結果、google scholarの記事は67,410件だった。 最終的に12機が投入された。 過去6年間に全記事が出版され、その半数はアメリカ国内での人口調査を行った。 ほとんどのレビューでは、教師あり学習を用いてMHの結果の説明や予測を行った。 いくつかの出版物は最高の予測力を決定するために16のモデルを使用した。 掲載された出版物のほぼ半数は、それらの相互評価方法を議論しなかった。 結論: 含まれた研究は、これらの特殊な集団のMH問題に対処するためのMLアルゴリズムの潜在的な使用に関する概念実証を提供する。 本研究は,MH障害の分類・予測におけるこれらのモデルの臨床応用について検討する。

Background: The use of machine learning (ML) in mental health (MH) research is increasing, especially as new, more complex data types become available to analyze. By systematically examining the published literature, this review aims to uncover potential gaps in the current use of ML to study MH in vulnerable populations of immigrants, refugees, migrants, and racial and ethnic minorities. Methods: In this systematic review, we queried Google Scholar for ML-related terms, MH-related terms, and a population of a focus search term strung together with Boolean operators. Backward reference searching was also conducted. Included peer-reviewed studies reported using a method or application of ML in an MH context and focused on the populations of interest. We did not have date cutoffs. Publications were excluded if they were narrative or did not exclusively focus on a minority population from the respective country. Data including study context, the focus of mental healthcare, sample, data type, type of ML algorithm used, and algorithm performance was extracted from each. Results: Our search strategies resulted in 67,410 listed articles from Google Scholar. Ultimately, 12 were included. All the articles were published within the last 6 years, and half of them studied populations within the US. Most reviewed studies used supervised learning to explain or predict MH outcomes. Some publications used up to 16 models to determine the best predictive power. Almost half of the included publications did not discuss their cross-validation method. Conclusions: The included studies provide proof-of-concept for the potential use of ML algorithms to address MH concerns in these special populations, few as they may be. Our systematic review finds that the clinical application of these models for classifying and predicting MH disorders is still under development.
翻訳日:2023-04-20 16:23:39 公開日:2023-04-18
# ダイナミックアングル回転により調律された量子スターリングエンジンサイクルの構築

Construction of a quantum Stirling engine cycle tuned by dynamic-angle spinning ( http://arxiv.org/abs/2304.09230v1 )

ライセンス: Link先を確認
Sel\c{c}uk \c{C}akmak and Hamid Reza Rastegar Sedehi(参考訳) 本研究では,量子スターリング熱エンジンサイクルの動作物質として2つの結合スピンを調べる。 固定磁場中でダイナミックアングル紡糸技術を用いて双極子-双極子相互作用角をチューニングしてサイクルを駆動する実験可能なスキームを提案する。 提案するヒートエンジンサイクルには現実的なパラメータが選択される。 また,エンジンのパワーを推定することを目的とする。 これを達成するために、我々は、エンジンサイクル当たりの要求時間を予測するために、量子等温過程のミクロ力学に焦点を当てる。 その結果,エンジンは高効率で作業を行うことができた。 さらに、最大効率が満たされると同時に、エンジンが最大出力に達する。

In this contribution, we investigate two coupled spins as a working substance of the quantum Stirling heat engine cycle. We propose an experimentally implementable scheme in which the cycle is driven by tuning the dipole-dipole interaction angle via dynamic-angle spinning technique in a fixed magnetic field. Realistic parameters are chosen for the proposed heat engine cycle. In addition, we aim to estimate power of the engine. To accomplish this, we focus on the microdynamics of the quantum isothermal process to predict required-time per engine cycle. The results obtained indicate that the engine produces work with high efficiency. Furthermore, the engine reaches maximum power at same point where the maximum efficiency is satisfied.
翻訳日:2023-04-20 16:23:10 公開日:2023-04-18
# CabiNet: プロシージャシーン生成による物体再構成のためのスケーリング型ニューラルコリジョン検出

CabiNet: Scaling Neural Collision Detection for Object Rearrangement with Procedural Scene Generation ( http://arxiv.org/abs/2304.09302v1 )

ライセンス: Link先を確認
Adithyavairavan Murali, Arsalan Mousavian, Clemens Eppner, Adam Fishman, Dieter Fox(参考訳) 我々は,ロボット再構成を明示的な対象モデルなしに乱雑に一般化する重要な問題に対処する。 キャビネットや棚など,さまざまな日常環境において,まず650万以上の散らばったシーン – 先行作業よりも桁違いに多い – を生成しました。 このデータから合成部分点雲をレンダリングし、それをCabiNetモデルアーキテクチャのトレーニングに使用します。 CabiNetは、オブジェクトとシーンポイントの雲を受け入れる衝突モデルであり、一視点の深度観測から捉え、シーン内のSE(3)オブジェクトのポーズの衝突を予測する。 我々の表現は、クエリ毎に7マイクロ秒の高速な推論速度を持ち、挑戦的な環境でのベースラインアプローチよりも20%近いパフォーマンスを持つ。 我々は,この衝突モデルとモデル予測経路積分(MPPI)プランナーを併用して,衝突のない軌道を生成する。 キャビネットはまた、シーンのサイン付き距離場(sdf)から計算されたウェイポイントを予測し、ロボットが再配置中に狭い空間を移動できるようにする。 これにより、ベースラインよりも35%近く性能が向上する。 提案手法を体系的に評価し,シミュレート実験を手順的に生成し,シミュレーションのみを訓練しながら,実世界へ直接移行することを示す。 ロボット実験のデモは完全に未知の場面で、オブジェクトはhttp https://cabinet-object-rearrangement.github.ioで見ることができる。

We address the important problem of generalizing robotic rearrangement to clutter without any explicit object models. We first generate over 650K cluttered scenes - orders of magnitude more than prior work - in diverse everyday environments, such as cabinets and shelves. We render synthetic partial point clouds from this data and use it to train our CabiNet model architecture. CabiNet is a collision model that accepts object and scene point clouds, captured from a single-view depth observation, and predicts collisions for SE(3) object poses in the scene. Our representation has a fast inference speed of 7 microseconds per query with nearly 20% higher performance than baseline approaches in challenging environments. We use this collision model in conjunction with a Model Predictive Path Integral (MPPI) planner to generate collision-free trajectories for picking and placing in clutter. CabiNet also predicts waypoints, computed from the scene's signed distance field (SDF), that allows the robot to navigate tight spaces during rearrangement. This improves rearrangement performance by nearly 35% compared to baselines. We systematically evaluate our approach, procedurally generate simulated experiments, and demonstrate that our approach directly transfers to the real world, despite training exclusively in simulation. Robot experiment demos in completely unknown scenes and objects can be found at this http https://cabinet-object-rearrangement.github.io
翻訳日:2023-04-20 16:17:44 公開日:2023-04-18
# レストレス量子ゲート校正における漏洩

Leakage in restless quantum gate calibration ( http://arxiv.org/abs/2304.09297v1 )

ライセンス: Link先を確認
Conrad J. Haupt and Daniel J. Egger(参考訳) 量子コンピュータは高忠実度量子ゲートを必要とする。 これらのゲートは、クラウドベースのデバイスの可用性を消費する定期的なキャリブレーションタスクによって得られる。 restless circuit execution speeds up キャラクタリゼーションとキャリブレーションは、回路間で量子ビットのリセットを前もって行う。 処理後、測定したデータは所望の信号を回復する。 しかし、キュービットはリセットされないため、通常キャリブレーションの開始時に発生するリークは問題を引き起こす可能性がある。 本稿では,漏洩の影響を調べるために,マルコフ連鎖に基づくレストレス回路実行シミュレータを開発した。 単一キュービットゲート列の誤り増幅の文脈において、レストレスキャリブレーションは、現代の単一キュービットゲートの10^{-4}$ゲート忠実度と比較すると、リークの最大0.5%を許容することを示している。 さらに, リークゲートを用いたレスレス回路の実行は, J. Kellyらによって開発されたORBITコスト関数の感度が33%低下することを示し, 一般に閉ループ最適制御(Phys. Rev. Lett. 112, 240504 (2014))]で使用される。 この結果から、レスレス回路の実行は非計算状態の誤分類に対してレジリエンスであることを示す。 まとめると、レストレス法は標準と閉ループの最適制御ゲートのキャリブレーションの両方においてリークに対して十分に頑健であり、正確な結果が得られる。

Quantum computers require high fidelity quantum gates. These gates are obtained by routine calibration tasks that eat into the availability of cloud-based devices. Restless circuit execution speeds-up characterization and calibration by foregoing qubit reset in between circuits. Post-processing the measured data recovers the desired signal. However, since the qubits are not reset, leakage -- typically present at the beginning of the calibration -- may cause issues. Here, we develop a simulator of restless circuit execution based on a Markov Chain to study the effect of leakage. In the context of error amplifying single-qubit gates sequences, we show that restless calibration tolerates up to 0.5% of leakage which is large compared to the $10^{-4}$ gate fidelity of modern single-qubit gates. Furthermore, we show that restless circuit execution with leaky gates reduces by 33% the sensitivity of the ORBIT cost function developed by J. Kelly et al. which is typically used in closed-loop optimal control~[Phys. Rev. Lett. 112, 240504 (2014)]. Our results are obtained with standard qubit state discrimination showing that restless circuit execution is resilient against misclassified non-computational states. In summary, the restless method is sufficiently robust against leakage in both standard and closed-loop optimal control gate calibration to provided accurate results.
翻訳日:2023-04-20 16:17:21 公開日:2023-04-18
# wigner friend シナリオにおけるオブザーバ依存事実からフレーム依存計測記録へ

From observer-dependent facts to frame-dependent measurement records in Wigner friend scenarios ( http://arxiv.org/abs/2304.09289v1 )

ライセンス: Link先を確認
J. Allam and A. Matzkin(参考訳) 友人が測定を行うクローズドラボを外部エージェントが記述するwigner-friendのシナリオの記述は、量子測定のあいまいな性質のために問題となっている。 1つの選択肢は、友人の測定結果が外部の観察者の観点から定義されていないことを考慮し、観察者依存の事実につながる仮定を支持することである。 本研究では,エージェントが観測を行う慣性参照フレームに依存する測定記録が,これらの仮定によってもたらされることを示すモデルを提案する。 我々のモデルは、友人と遠方のエージェントが共有する絡み合ったペアに基づいて、空間的に分離された測定を行う。 閉じた実験室に相対して休息中の外部観察者と移動フレームの観測者は観測された記録について一致しないが、これは互いにローレンツ変換ではない。

The description of Wigner-friend scenarios -- in which external agents describe a closed laboratory containing a friend making a measurement -- remains problematic due to the ambiguous nature of quantum measurements. One option is to endorse assumptions leading to observer-dependent facts, given that the friend's measurement outcome is not defined from the point of view of the external observers. We introduce in this work a model showing that these assumptions can also lead to measurement records that depend on the inertial reference frame in which the agents make their observations. Our model is based on an entangled pair shared by the friend and a distant agent performing space-like separated measurements. An external observer at rest relative to the closed laboratory and observers in a moving frame do not agree on the observed records, which are not Lorentz transforms of one another.
翻訳日:2023-04-20 16:16:58 公開日:2023-04-18
# 埋め込み型検索のための統合性とユキネス故障処理 : ソーシャルネットワーク検索を事例として

Integrity and Junkiness Failure Handling for Embedding-based Retrieval: A Case Study in Social Network Search ( http://arxiv.org/abs/2304.09287v1 )

ライセンス: Link先を確認
Wenping Wang, Yunxi Guo, Chiyao Shen, Shuai Ding, Guangdeng Liao, Hao Fu, Pramodh Karanth Prabhakar(参考訳) 埋め込みベースの検索は、eコマースやソーシャルネットワーク検索など、さまざまな検索アプリケーションで使われている。 このアプローチはセマンティックマッチングやコンテキスト検索といったタスクで有効性を示しているが、制御不能な関連性の問題に苦しめられている。 本稿では,2021年前半に開始された埋め込み型検索をソーシャルネットワーク検索エンジン上で解析し,それによる障害の2つの主要なカテゴリ,完全性,不愉快性を定義した。 前者はヘイトスピーチや不快なコンテンツといったユーザエクスペリエンスに深刻な害を与える問題を指し、後者はファジィテキストマッチングや言語ミスマッチといった無関係な結果を含んでいる。 モデル推論における効率的な手法は、索引付け処理やユーザコホート処理などを含む課題を解決するために、さらに提案される。 単純ではあるが,本手法はオフラインのNDCGが良好であり,オンラインA/Bテストが実際に得られることを示す。 我々は改善の理由を分析し、この重要な問題に対して、我々の手法は予備的な試みに過ぎないことを指摘した。 我々は将来の方向性を探究する。

Embedding based retrieval has seen its usage in a variety of search applications like e-commerce, social networking search etc. While the approach has demonstrated its efficacy in tasks like semantic matching and contextual search, it is plagued by the problem of uncontrollable relevance. In this paper, we conduct an analysis of embedding-based retrieval launched in early 2021 on our social network search engine, and define two main categories of failures introduced by it, integrity and junkiness. The former refers to issues such as hate speech and offensive content that can severely harm user experience, while the latter includes irrelevant results like fuzzy text matching or language mismatches. Efficient methods during model inference are further proposed to resolve the issue, including indexing treatments and targeted user cohort treatments, etc. Though being simple, we show the methods have good offline NDCG and online A/B tests metrics gain in practice. We analyze the reasons for the improvements, pointing out that our methods are only preliminary attempts to this important but challenging problem. We put forward potential future directions to explore.
翻訳日:2023-04-20 16:16:43 公開日:2023-04-18
# 骨盤内固定術におけるX線画像からのPelphix

Pelphix: Surgical Phase Recognition from X-ray Images in Percutaneous Pelvic Fixation ( http://arxiv.org/abs/2304.09285v1 )

ライセンス: Link先を確認
Benjamin D. Killeen, Han Zhang, Jan Mangulabnan, Mehran Armand, Russel H. Taylor, Greg Osgood, Mathias Unberath(参考訳) 外科的位相認識(spr)は現代の手術劇場のデジタルトランスフォーメーションにおいて重要な要素である。 ビデオソースに基づくSPRは確立されているが、干渉X線シーケンスの組み入れはまだ検討されていない。 本稿では, 骨盤骨折固定ワークフローをマルコフプロセスとしてシミュレートし, 完全にアノテートされたトレーニングデータを提供するために, 骨盤骨折固定ワークフローをシミュレートした4段階の粒度(回廊, 活動, ビュー, フレーム値)の手順をモデル化したx線経皮的骨盤骨折固定法に対する最初のアプローチであるpelphixを提案する。 骨回廊,道具,解剖学の検出からさらに監督を加え,トランスフォーマーモデルに入力された画像表現を学習し,手術相を4つの粒度レベルで後退させる。 提案手法は,X線を用いたSPRの実現可能性を示し,シミュレーションシーケンスの平均精度は93.8%,キャダバーの平均精度は67.57%であり,実データにおける目標回廊の精度は最大88%である。 この研究は、x線領域のsprへの第一歩であり、x線誘導手術の段階を分類するアプローチを確立し、リアルな画像シーケンスをシミュレートして機械学習モデルの開発を可能にし、このアプローチが実際の手順の分析に有効であることを実証する。 x線ベースのsprは成熟を続けており、手術室でインテリジェントな手術システムと状況認識を組み合わせることで整形外科手術、血管造影、および介入放射線学の処置に役立つ。

Surgical phase recognition (SPR) is a crucial element in the digital transformation of the modern operating theater. While SPR based on video sources is well-established, incorporation of interventional X-ray sequences has not yet been explored. This paper presents Pelphix, a first approach to SPR for X-ray-guided percutaneous pelvic fracture fixation, which models the procedure at four levels of granularity -- corridor, activity, view, and frame value -- simulating the pelvic fracture fixation workflow as a Markov process to provide fully annotated training data. Using added supervision from detection of bony corridors, tools, and anatomy, we learn image representations that are fed into a transformer model to regress surgical phases at the four granularity levels. Our approach demonstrates the feasibility of X-ray-based SPR, achieving an average accuracy of 93.8% on simulated sequences and 67.57% in cadaver across all granularity levels, with up to 88% accuracy for the target corridor in real data. This work constitutes the first step toward SPR for the X-ray domain, establishing an approach to categorizing phases in X-ray-guided surgery, simulating realistic image sequences to enable machine learning model development, and demonstrating that this approach is feasible for the analysis of real procedures. As X-ray-based SPR continues to mature, it will benefit procedures in orthopedic surgery, angiography, and interventional radiology by equipping intelligent surgical systems with situational awareness in the operating room.
翻訳日:2023-04-20 16:16:24 公開日:2023-04-18
# 多目的生産意思決定を加速・最適化するデータ駆動逐次学習フレームワーク

A Data Driven Sequential Learning Framework to Accelerate and Optimize Multi-Objective Manufacturing Decisions ( http://arxiv.org/abs/2304.09278v1 )

ライセンス: Link先を確認
Hamed Khosravi, Taofeeq Olajire, Ahmed Shoyeb Raihan, Imtiaz Ahmed(参考訳) 特定の特性や組み合わせを持つ高度な材料や製品の製造は、しばしば保証される。 これらの特性の理想的な組み合わせを生成できる最適なレシピや処理条件を見つけることが重要である。 多くの場合、パレートフロントを生成するには十分な数の実験が必要である。 しかし、製造実験は通常コストがかかり、単一の実験を実行することさえ時間がかかります。 したがって、プロセスに関する最も包括的な理解を得るために、データ収集の最適な場所を決定することが重要です。 逐次学習は、進行中の実験から積極的に学び、根底にある最適化ルーチンを反復的に更新し、データ収集プロセスに適応するための有望なアプローチである。 本稿では,複数の相反する目的を持つ複雑なシステムを効率的に最適化するために逐次学習を利用する新しいデータ駆動ベイズ最適化フレームワークを提案する。 さらに,多目的データ駆動最適化手法の評価のための新しい指標を提案する。 このメトリクスは、Paretoフロントの品質と、それを生成するために使用されるデータの量の両方を考慮する。 提案フレームワークは,データ取得が高価で資源集約的な実用アプリケーションにおいて特に有用である。 提案手法の有効性を示すため,本アルゴリズムを製造データセット上で評価した。 その結果,提案アルゴリズムは実際のparetoフロントを達成でき,データ処理量は大幅に削減できることがわかった。 提案されたデータ駆動フレームワークは、コストと時間を削減しながら、同様の製造判断につながる可能性がある。

Manufacturing advanced materials and products with a specific property or combination of properties is often warranted. To achieve that it is crucial to find out the optimum recipe or processing conditions that can generate the ideal combination of these properties. Most of the time, a sufficient number of experiments are needed to generate a Pareto front. However, manufacturing experiments are usually costly and even conducting a single experiment can be a time-consuming process. So, it's critical to determine the optimal location for data collection to gain the most comprehensive understanding of the process. Sequential learning is a promising approach to actively learn from the ongoing experiments, iteratively update the underlying optimization routine, and adapt the data collection process on the go. This paper presents a novel data-driven Bayesian optimization framework that utilizes sequential learning to efficiently optimize complex systems with multiple conflicting objectives. Additionally, this paper proposes a novel metric for evaluating multi-objective data-driven optimization approaches. This metric considers both the quality of the Pareto front and the amount of data used to generate it. The proposed framework is particularly beneficial in practical applications where acquiring data can be expensive and resource intensive. To demonstrate the effectiveness of the proposed algorithm and metric, the algorithm is evaluated on a manufacturing dataset. The results indicate that the proposed algorithm can achieve the actual Pareto front while processing significantly less data. It implies that the proposed data-driven framework can lead to similar manufacturing decisions with reduced costs and time.
翻訳日:2023-04-20 16:15:54 公開日:2023-04-18
# 導波路QEDにおける短パルスの動的ビート

Dynamical beats of short pulses in waveguide QED ( http://arxiv.org/abs/2304.09277v1 )

ライセンス: Link先を確認
Dianqiang Su, Yuan Jiang, Silvia Cardenas-Lopez, Ana Asenjo-Garcia, Pablo Solano, Luis A. Orozco, and Yanting Zhao(参考訳) ナノファイバーベースの光学格子によりランダムに捕獲された近接共鳴媒質である$^{133}$Cs原子との相互作用により、伝播パルスによって発達する時間振動について検討した。 現象学理論は直感的な説明と定量的予測を提供し、原子間の多重散乱を考慮した入出力理論によって改善される。 その結果、導波路QEDにおける光伝搬の理解を深め、多体量子系を探索、操作、利用するために時間周波数解析および光工学に不可欠である。

We study temporal oscillations, known as dynamical beats, developed by a propagating pulse due to its interaction with a near-resonant collective medium of $^{133}$Cs atoms randomly captured by a nanofiber-based optical lattice. A phenomenological theory provides an intuitive explanation and quantitative predictions, which are improved by an input-output theory considering multiple-scattering between the atoms. The results deepen our understanding of light propagation in waveguide QED, essential in time-frequency analysis and light engineering for probing, manipulating, and exploiting many-body quantum systems.
翻訳日:2023-04-20 16:15:34 公開日:2023-04-18
# ニューラルラムダ計算:ニューロシンボリックAIはコンピューティングと関数型プログラミングの基礎を満たす

A Neural Lambda Calculus: Neurosymbolic AI meets the foundations of computing and functional programming ( http://arxiv.org/abs/2304.09276v1 )

ライセンス: Link先を確認
Jo\~ao Flach and Luis C. Lamb(参考訳) 過去数十年間、ディープニューラルネットワークベースのモデルが機械学習の主要なパラダイムとなった。 さらに、記号学習におけるニューラルネットワークの利用は、近年ますます関連性が高まっている。 記号型AI領域におけるニューラルネットワークの能力を研究するために、研究者たちは、加算や乗算、論理推論、定理証明器のような論理推論、さらにはコンピュータプログラムの実行など、深層ニューラルネットワークが数学的構造を学ぶ能力を探った。 後者は、ニューラルネットワークのタスクが複雑すぎることが知られている。 したがって、結果は必ずしも成功せず、実行可能なプログラムの範囲を制限することに加えて、学習プロセスに偏りのある要素の導入をしばしば必要としていた。 本研究では,ニューラルネットワークによるプログラム全体の実行方法の学習について分析する。 そこで我々は,異なるアプローチを提案する。 複雑な構造を持つ命令型プログラミング言語を使う代わりに、ラムダ計算({\lambda}-calculus)は、現代の関数型プログラミング言語の基礎であり、計算可能性理論の中心である、単純だがチューリング完全な数学的形式論である。 統合型ニューラルネットワークとラムダ計算の形式化について紹介する。 最後に, {\lambda} 計算におけるプログラムの実行を還元法に基づいて検討し,この還元法を学習してプログラムを実行できることを示す。 キーワード:機械学習、ラムダ計算、ニューロシンボリックAI、ニューラルネットワーク、トランスフォーマーモデル、シーケンスからシーケンスモデル、計算モデル

Over the last decades, deep neural networks based-models became the dominant paradigm in machine learning. Further, the use of artificial neural networks in symbolic learning has been seen as increasingly relevant recently. To study the capabilities of neural networks in the symbolic AI domain, researchers have explored the ability of deep neural networks to learn mathematical constructions, such as addition and multiplication, logic inference, such as theorem provers, and even the execution of computer programs. The latter is known to be too complex a task for neural networks. Therefore, the results were not always successful, and often required the introduction of biased elements in the learning process, in addition to restricting the scope of possible programs to be executed. In this work, we will analyze the ability of neural networks to learn how to execute programs as a whole. To do so, we propose a different approach. Instead of using an imperative programming language, with complex structures, we use the Lambda Calculus ({\lambda}-Calculus), a simple, but Turing-Complete mathematical formalism, which serves as the basis for modern functional programming languages and is at the heart of computability theory. We will introduce the use of integrated neural learning and lambda calculi formalization. Finally, we explore execution of a program in {\lambda}-Calculus is based on reductions, we will show that it is enough to learn how to perform these reductions so that we can execute any program. Keywords: Machine Learning, Lambda Calculus, Neurosymbolic AI, Neural Networks, Transformer Model, Sequence-to-Sequence Models, Computational Models
翻訳日:2023-04-20 16:15:25 公開日:2023-04-18
# 臨床リスクスコアのパフォーマンスの格差を隠蔽する粗いレースデータ

Coarse race data conceals disparities in clinical risk score performance ( http://arxiv.org/abs/2304.09270v1 )

ライセンス: Link先を確認
Rajiv Movva, Divya Shanmugam, Kaihua Hou, Priya Pathak, John Guttag, Nikhil Garg, Emma Pierson(参考訳) 米国での医療データは、患者の粗い人種のみを記録していることが多く、例えば、インドと中国の両方の患者は、通常「アジア人」と表記される。 しかし、この粗いコーディングが、種族間の臨床リスクスコアのパフォーマンスに有意な差を秘めているかどうかは不明である。 ここではそれを示します。 418Kの救急部門訪問データを用いて,3つの結果,5つのリスクスコア,4つのパフォーマンス指標について,臨床リスクスコアのパフォーマンス格差を評価する。 結果と測定値全体で、粗いレースカテゴリにおけるパフォーマンスには大きな相違があることが示される。 実際、粗いグループ内のパフォーマンスメトリクスのばらつきは、粗いグループ間のばらつきを超えることが多い。 これらの相違がなぜ生じるのかを考察し、結果率、特徴分布、特徴と結果の関係が、粒度のレースカテゴリーによって大きく異なることを明らかにする。 以上の結果から, 医療提供者, 病院システム, 機械学習研究者は, 粗い人種データの代わりに粒度の人種データを収集し, リリースし, 使用することに努めるべきである。

Healthcare data in the United States often records only a patient's coarse race group: for example, both Indian and Chinese patients are typically coded as ``Asian.'' It is unknown, however, whether this coarse coding conceals meaningful disparities in the performance of clinical risk scores across granular race groups. Here we show that it does. Using data from 418K emergency department visits, we assess clinical risk score performance disparities across granular race groups for three outcomes, five risk scores, and four performance metrics. Across outcomes and metrics, we show that there are significant granular disparities in performance within coarse race categories. In fact, variation in performance metrics within coarse groups often exceeds the variation between coarse groups. We explore why these disparities arise, finding that outcome rates, feature distributions, and the relationships between features and outcomes all vary significantly across granular race categories. Our results suggest that healthcare providers, hospital systems, and machine learning researchers should strive to collect, release, and use granular race data in place of coarse race data, and that existing analyses may significantly underestimate racial disparities in performance.
翻訳日:2023-04-20 16:14:58 公開日:2023-04-18
# 隠れリウヴィル空間による量子力学

Quantum dynamics via a hidden Liouville space ( http://arxiv.org/abs/2304.09265v1 )

ライセンス: Link先を確認
Gombojav O. Ariunbold(参考訳) 任意の系の量子力学は伝統的にヒルベルト空間における波動関数の時間発展とリウヴィル空間における密度作用素によって実現される。 しかし、伝統的なシミュレーションは時折量子力学、特に非線形ハミルトニアンによって支配されるものにとって困難であることが判明する。 本稿では、時間間隔を超短周期の多数の離散部分インターバルに分割し、リウヴィル空間をこれらの部分インターバル内でのみ追加(仮想)空間で一時的に拡張する非標準反復手法を提案する。 仮想空間作用素に対する2状態スピン昇降作用素は単純代数のため選択する。 これにより、計算にかかる時間を大幅に削減できる。 本手法を高調波および非調和ポテンシャルの荷電粒子の例として実装する。 粒子が基底状態にある確率の時間的進化は解析解と比較して数値的に得られる。 さらに,この手法の物理学的洞察を思考実験に基づいて論じる。 連続するプロセスは、本質的には仮想空間を介して、離散的な超短時間で「ヒッチハイク」します。 我々は,この新手法が,時間順序指数に基づく従来の手法を用いることで,多くの問題を解決する可能性があると考えている。

Quantum dynamics for arbitrary system are traditionally realized by time evolutions of wave functions in Hilbert space and/or density operators in Liouville space. However, the traditional simulations may occasionally turn out to be challenging for the quantum dynamics, particularly those governed by the nonlinear Hamiltonians. In this letter, we introduce a nonstandard iterative technique where time interval is divided into a large number of discrete subintervals with an ultrashort duration; and the Liouville space is briefly expanded with an additional (virtual) space only within these subintervals. We choose two-state spin raising and lowering operators for virtual space operators because of their simple algebra. This tremendously reduces the cost of time-consuming calculations. We implement our technique for an example of a charged particle in both harmonic and anharmonic potentials. The temporal evolutions of the probability for the particle being in the ground state are obtained numerically and compared to the analytical solutions. We further discuss the physics insight of this technique based on a thought-experiment. Successive processes intrinsically 'hitchhiking' via virtual space in discrete ultrashort time duration, are the hallmark of our simple iterative technique. We believe that this novel technique has potential for solving numerous problems which often pose a challenge when using the traditional approach based on time-ordered exponentials.
翻訳日:2023-04-20 16:14:36 公開日:2023-04-18
# BIM-GPT:BIM情報検索のためのプロンプトベースの仮想アシスタントフレームワーク

BIM-GPT: a Prompt-Based Virtual Assistant Framework for BIM Information Retrieval ( http://arxiv.org/abs/2304.09333v1 )

ライセンス: Link先を確認
Junwen Zheng, Martin Fischer(参考訳) ビル情報モデル(BIM)からの効率的な情報検索(IR)は、深いBIM知識や自動化のための広範なエンジニアリング努力を必要とするため、大きな課題となる。 我々は,BIMと生成事前学習トランスフォーマ(GPT)技術を統合し,NLベースのIRをサポートするプロンプトベースの仮想アシスタント(VA)フレームワークであるBIM-GPTを紹介する。 プロンプトマネージャと動的テンプレートは、GPTモデルのプロンプトを生成し、NLクエリの解釈、検索された情報の要約、BIM関連の質問に答える。 BIM IRデータセット上でのテストでは,NLクエリをデータ無しで分類するための精度が83.5%,精度が99.5%,プロンプトが2%であった。 さらに,病院ビルのVAプロトタイプを用いて,BIM-GPTの機能を検証した。 本研究は,建設業界におけるBIM IRの有効かつ汎用的なVAの開発に寄与し,BIMアクセシビリティを著しく向上し,エンジニアリングの労力を削減し,NLクエリ処理のためのデータ要求のトレーニングに寄与する。

Efficient information retrieval (IR) from building information models (BIMs) poses significant challenges due to the necessity for deep BIM knowledge or extensive engineering efforts for automation. We introduce BIM-GPT, a prompt-based virtual assistant (VA) framework integrating BIM and generative pre-trained transformer (GPT) technologies to support NL-based IR. A prompt manager and dynamic template generate prompts for GPT models, enabling interpretation of NL queries, summarization of retrieved information, and answering BIM-related questions. In tests on a BIM IR dataset, our approach achieved 83.5% and 99.5% accuracy rates for classifying NL queries with no data and 2% data incorporated in prompts, respectively. Additionally, we validated the functionality of BIM-GPT through a VA prototype for a hospital building. This research contributes to the development of effective and versatile VAs for BIM IR in the construction industry, significantly enhancing BIM accessibility and reducing engineering efforts and training data requirements for processing NL queries.
翻訳日:2023-04-20 16:07:40 公開日:2023-04-18
# 無線フェデレーション学習における証明可能な保証による伝達の学習

Learning to Transmit with Provable Guarantees in Wireless Federated Learning ( http://arxiv.org/abs/2304.09329v1 )

ライセンス: Link先を確認
Boning Li, Jake Perazzone, Ananthram Swami, Santiago Segarra(参考訳) 干渉制限無線ネットワーク上でのフェデレーション学習(FL)に送信電力を割り当てる新しいデータ駆動方式を提案する。 提案手法は, fl訓練中に無線チャネルが変化し, 訓練データが独立でない場合(非i.i.d.)に, ローカルデバイス上で同一に分散する場合に有用である。 直感的には、電力ポリシーは、通信制約下でflプロセス中にサーバエンドで受信された情報を最適化するように設計されている。 最終的な目標は、訓練中のグローバルFLモデルの精度と効率を改善することです。 提案手法はグラフ畳み込みネットワークを用いてパラメータ化され、関連する制約付き最適化問題は原始双対(PD)アルゴリズムによって解決される。 理論的には、定式化問題にはゼロ双対性ギャップがあり、パワーポリシーがパラメータ化されると、最適性はこのパラメータ化の表現性に依存する。 提案手法は,異なる無線チャネル設定と様々なデータ均一性の下で,既存のベースラインよりも優れていることを示す。

We propose a novel data-driven approach to allocate transmit power for federated learning (FL) over interference-limited wireless networks. The proposed method is useful in challenging scenarios where the wireless channel is changing during the FL training process and when the training data are not independent and identically distributed (non-i.i.d.) on the local devices. Intuitively, the power policy is designed to optimize the information received at the server end during the FL process under communication constraints. Ultimately, our goal is to improve the accuracy and efficiency of the global FL model being trained. The proposed power allocation policy is parameterized using a graph convolutional network and the associated constrained optimization problem is solved through a primal-dual (PD) algorithm. Theoretically, we show that the formulated problem has zero duality gap and, once the power policy is parameterized, optimality depends on how expressive this parameterization is. Numerically, we demonstrate that the proposed method outperforms existing baselines under different wireless channel settings and varying degrees of data heterogeneity.
翻訳日:2023-04-20 16:07:21 公開日:2023-04-18
# フェデレーション・オルタナティブ・トレーニング(fat) : 医療画像用フェデレーションセグメンテーションにおける無注釈データサイロの活用

Federated Alternate Training (FAT): Leveraging Unannotated Data Silos in Federated Segmentation for Medical Imaging ( http://arxiv.org/abs/2304.09327v1 )

ライセンス: Link先を確認
Erum Mushtaq, Yavuz Faruk Bakman, Jie Ding, Salman Avestimehr(参考訳) Federated Learning (FL)は、機械学習(ML)モデルを分散形式でトレーニングし、限られたデータマイグレーションコストでデータのプライバシを強化することを目的としている。 プライバシーに敏感な医療画像データセットに適した分散学習フレームワークである。 しかし、現在のFLベースの医療画像研究の多くは、サイロには訓練のための基礎的な真実ラベルがあると考えている。 実際には、医療分野におけるラベル取得は、しばしば労働と時間コストを必要とするため、困難である。 この課題に対処し、モデリングを改善するためにアノテーションなしのデータサイロを活用するために、アノテーション付きデータサイロとアノテーションなしデータサイロの間のトレーニングを変更するトレーニングベースのフレームワークであるFederated Alternate Training (FAT)を提案する。 注釈付きデータサイロはアノテーションを利用して、合理的なグローバルセグメンテーションモデルを学ぶ。 一方、注釈のないデータサイロは、グローバルセグメンテーションモデルをターゲットモデルとして、自己教師付き学習のための擬似ラベルを生成する。 自然に分割された2つのフェデレーションデータセット(KiTS19とFeTS2021)上でのフレームワークの性能を評価し,その有望な性能を示す。

Federated Learning (FL) aims to train a machine learning (ML) model in a distributed fashion to strengthen data privacy with limited data migration costs. It is a distributed learning framework naturally suitable for privacy-sensitive medical imaging datasets. However, most current FL-based medical imaging works assume silos have ground truth labels for training. In practice, label acquisition in the medical field is challenging as it often requires extensive labor and time costs. To address this challenge and leverage the unannotated data silos to improve modeling, we propose an alternate training-based framework, Federated Alternate Training (FAT), that alters training between annotated data silos and unannotated data silos. Annotated data silos exploit annotations to learn a reasonable global segmentation model. Meanwhile, unannotated data silos use the global segmentation model as a target model to generate pseudo labels for self-supervised learning. We evaluate the performance of the proposed framework on two naturally partitioned Federated datasets, KiTS19 and FeTS2021, and show its promising performance.
翻訳日:2023-04-20 16:07:01 公開日:2023-04-18
# 医用画像分割作業におけるSegment-Anything Model(SAM)の精度

Accuracy of Segment-Anything Model (SAM) in medical image segmentation tasks ( http://arxiv.org/abs/2304.09324v1 )

ライセンス: Link先を確認
Sheng He, Rina Bao, Jingpeng Li, P. Ellen Grant, Yangming Ou(参考訳) segment-anything model (SAM) は、画像のセグメント化の基本モデルとして導入された。 1100万枚の自然画像から10億枚以上のマスクを使って訓練された。 このモデルは、マスク、ボックス、ポイントなどの様々なプロンプトを使用して、画像のゼロショットセグメンテーションを実行することができる。 本報告では, 各種臓器(脳, 胸, 胸, 肺, 皮膚, 肝臓, 腸, 膵臓, 前立腺), 画像モダリティ(2d x線, 組織学, 内臓, および3d mri, ct) および健康状態(正常, 病変)をカバーする12の医療画像分割データセットにおけるsamの精度について検討した。 2)コンピュータビジョン基礎セグメンテーションモデルSAMが医療画像セグメンテーションに有望な研究方向を提供できる場合。 医療画像の再トレーニングを行わないSAMは,U-Netや他の深層学習モデルほど正確ではないことがわかった。

The segment-anything model (SAM), was introduced as a fundamental model for segmenting images. It was trained using over 1 billion masks from 11 million natural images. The model can perform zero-shot segmentation of images by using various prompts such as masks, boxes, and points. In this report, we explored (1) the accuracy of SAM on 12 public medical image segmentation datasets which cover various organs (brain, breast, chest, lung, skin, liver, bowel, pancreas, and prostate), image modalities (2D X-ray, histology, endoscropy, and 3D MRI and CT), and health conditions (normal, lesioned). (2) if the computer vision foundational segmentation model SAM can provide promising research directions for medical image segmentation. We found that SAM without re-training on medical images does not perform as accurately as U-Net or other deep learning models trained on medical images.
翻訳日:2023-04-20 16:06:41 公開日:2023-04-18
# ラマン画像と医療履歴を用いたマルチモダリティマルチスケール心血管疾患サブタイプ分類

Multi-Modality Multi-Scale Cardiovascular Disease Subtypes Classification Using Raman Image and Medical History ( http://arxiv.org/abs/2304.09322v1 )

ライセンス: Link先を確認
Bo Yu, Hechang Chen, Chengyou Jia, Hongren Zhou, Lele Cong, Xiankai Li, Jianhui Zhuang, Xianling Cong(参考訳) ラマン分光法(Raman spectroscopy, RS)は、心臓血管疾患(CVD)などの疾患診断に広く用いられている。 近年,RSから2進分類のためのニュアンス特徴を学習するために,一般的なディープラーニング手法が紹介され,従来の機械学習手法よりも優れた性能を実現している。 しかし、これらの既存のディープラーニング手法は、CVDのサブタイプを分類する際のいくつかの課題に直面している。 例えば、サブタイプ間のニュアンスは、rs配列の冷たく類似した形状のため、インテリジェントなモデルによって捉えて表現するのが非常に困難である。 さらに, 医療史情報はサブタイプを識別するための必須資源であるが, 未利用である。 このような問題に対処する2つのコアモジュールを持つ新しいディープラーニング手法であるM3Sというマルチモードマルチスケールモデルを提案する。 まず, マルチスケール特徴抽出モジュールにおいて, RSデータを様々な分解能画像に変換することにより, ニュアンスを拡大し, マルチスケール特徴抽出モジュールに2分岐構造を組み込む。 第2に、多モードデータ融合モジュールにおけるRSと医療履歴データを組み合わせて、確率行列と重み行列を用いて分類能力を高める。 我々は,M3Sを広範囲に評価し,精度,精度,リコール,特異度,F1スコアが0.9330,0.9379,0.9291,0.9752,0.9334,社内データセットで優れた性能を示した。 これらの結果から,M3SはCVDサブタイプ診断の一般的な手法と比較して高い性能と堅牢性を示した。

Raman spectroscopy (RS) has been widely used for disease diagnosis, e.g., cardiovascular disease (CVD), owing to its efficiency and component-specific testing capabilities. A series of popular deep learning methods have recently been introduced to learn nuance features from RS for binary classifications and achieved outstanding performance than conventional machine learning methods. However, these existing deep learning methods still confront some challenges in classifying subtypes of CVD. For example, the nuance between subtypes is quite hard to capture and represent by intelligent models due to the chillingly similar shape of RS sequences. Moreover, medical history information is an essential resource for distinguishing subtypes, but they are underutilized. In light of this, we propose a multi-modality multi-scale model called M3S, which is a novel deep learning method with two core modules to address these issues. First, we convert RS data to various resolution images by the Gramian angular field (GAF) to enlarge nuance, and a two-branch structure is leveraged to get embeddings for distinction in the multi-scale feature extraction module. Second, a probability matrix and a weight matrix are used to enhance the classification capacity by combining the RS and medical history data in the multi-modality data fusion module. We perform extensive evaluations of M3S and found its outstanding performance on our in-house dataset, with accuracy, precision, recall, specificity, and F1 score of 0.9330, 0.9379, 0.9291, 0.9752, and 0.9334, respectively. These results demonstrate that the M3S has high performance and robustness compared with popular methods in diagnosing CVD subtypes.
翻訳日:2023-04-20 16:06:21 公開日:2023-04-18
# ディープ・ダイナミック・クラウド・ライティング

Deep Dynamic Cloud Lighting ( http://arxiv.org/abs/2304.09317v1 )

ライセンス: Link先を確認
Pinar Satilmis, Thomas Bashford-Rogers(参考訳) 空の照明はレンダリングにおける中核的な光源であり、透明な空からの照明をシミュレートするためにかなりの量の作業が開発されている。 しかし、実際には雲は空の姿を大きく変え、その後、風景の照明を変化させる。 雲を含む空モデルの開発には最近の進歩があるが、雲の出現の重要な要素である雲の動きは無視されている。 あらゆる種類のビデオやインタラクティブな環境では、雲が短時間で動くことが期待できる。 本研究は,全天型動的クラウド合成を初めて実現するためのソリューションを提案する。 我々は,様々な時間スケールでの空光量予測を学習し,過去の静的曇り天空照明手法にダイナミズムを付加するマルチタイムスケール空視モデルを提案することにより,これを実現する。

Sky illumination is a core source of lighting in rendering, and a substantial amount of work has been developed to simulate lighting from clear skies. However, in reality, clouds substantially alter the appearance of the sky and subsequently change the scene's illumination. While there have been recent advances in developing sky models which include clouds, these all neglect cloud movement which is a crucial component of cloudy sky appearance. In any sort of video or interactive environment, it can be expected that clouds will move, sometimes quite substantially in a short period of time. Our work proposes a solution to this which enables whole-sky dynamic cloud synthesis for the first time. We achieve this by proposing a multi-timescale sky appearance model which learns to predict the sky illumination over various timescales, and can be used to add dynamism to previous static, cloudy sky lighting approaches.
翻訳日:2023-04-20 16:05:52 公開日:2023-04-18
# マイクロ波振幅変調を用いた蒸気セル中のRydberg原子を用いたマイクロ波電気測定

Microwave electrometry with Rydberg atoms in a vapor cell using microwave amplitude modulation ( http://arxiv.org/abs/2304.09316v1 )

ライセンス: Link先を確認
Jianhai Hao, Fengdong Jia, Yue Cui, Yuhan Wang, Fei Zhou, Xiubin Liu, Jian Zhang, Feng Xie, Zhiping Zhong(参考訳) 我々はマイクロ波(mw)フィールドの振幅変調により得られたライドバーグ原子電磁誘導透過(eit)-オートラータウン(at)分割スペクトルの分散信号を理論的に実験的に研究した。 2つのゼロ交差点に加えて、分散信号は、分散信号$\Delta f_{\text{sho}}$の肩間隔として定義される間隔の2つの正の最大を持つ。 MWフィールド強度$E_{\text{MW}}$と$\Delta f_{\text{sho}}$の関係は、それぞれ31.6GHz、22.1GHz、9.2GHzである。 その結果、$\Delta f_{\text{sho}}$は、2つのゼロ交差点のインターバルである$\Delta f_{\text{zeros}}$と、従来のEIT-AT分割インターバルである$\Delta f_{\text{m}}$、$\Delta f_{\text{sho}}$で測定された最小の$E_{\text{MW}}$は、$\Delta f_{\text{sho}}$の30倍小さい。 例えば、$\Delta f_{\text{sho}}$を特徴付ける最小の$E_{\text{MW}}$ at 9.2 GHzは0.056 mV/cmである。 提案手法は、スペクトル周波数間隔で測定した$E_{\text{MW}}$の弱い限界と感度を改善することができるが、これは弱い$E_{\text{MW}}$の直接測定において重要である。

We have theoretically and experimentally studied the dispersive signal of the Rydberg atomic electromagnetically induced transparency (EIT) - Autler-Townes (AT) splitting spectra obtained using amplitude modulation of the microwave (MW) field. In addition to the two zero-crossing points, the dispersion signal has two positive maxima with an interval defined as the shoulder interval of the dispersion signal $\Delta f_{\text{sho}}$. The relationship of MW field strength $E_{\text{MW}}$ and $\Delta f_{\text{sho}}$ are studied at the MW frequencies of 31.6 GHz, 22.1 GHz, and 9.2 GHz respectively. The results show that $\Delta f_{\text{sho}}$ can be used to character the much weaker $E_{\text{MW}}$ than the interval of two zero-crossing points $\Delta f_{\text{zeros}}$ and the traditional EIT-AT splitting interval $\Delta f_{\text{m}}$, the minimum $E_{\text{MW}}$ measured by $\Delta f_{\text{sho}}$ is about 30 times smaller than that by $\Delta f_{\text{m}}$. As an example, the minimum $E_{\text{MW}}$ at 9.2 GHz that can be characterized by $\Delta f_{\text{sho}}$ is 0.056 mV/cm, which is the minimum value characterized by frequency interval using vapour cell without adding any auxiliary fields. The proposed method can improve the weak limit and sensitivity of $E_{\text{MW}}$ measured by spectral frequency interval, which is important in the direct measurement of weak $E_{\text{MW}}$.
翻訳日:2023-04-20 16:05:37 公開日:2023-04-18
# マルチスケール組織スライドを用いた癌亜型分類のためのデータと知識の共同運転

Data and Knowledge Co-driving for Cancer Subtype Classification on Multi-Scale Histopathological Slides ( http://arxiv.org/abs/2304.09314v1 )

ライセンス: Link先を確認
Bo Yu, Hechang Chen, Yunke Zhang, Lele Cong, Shuchao Pang, Hongren Zhou, Ziye Wang, Xianling Cong(参考訳) 人工知能を応用した病理組織学的データ分析は、病理学者の貴重な助手となっている。 しかし、既存のモデルは、特にがんのサブタイプ診断において、病理学者のものと比べ、表現能力や推論能力が欠けている。 例えば、病理学者は通常、スライドの病変をグローバルからローカルに観察し、その知識と経験に基づいて診断することができる。 本稿では,病理医のような病理組織学的スライド上での癌サブタイプ分類の過程を再現するデータ・知識協調運転(D&K)モデルを提案する。 具体的には、データ駆動モジュールにおいて、アンサンブル学習における袋詰機構を利用して、埋め込み表現ユニットによって抽出された様々な袋から組織学的特徴を統合する。 さらに、心理学におけるゲシュタルト原理に基づいて知識駆動モジュールが確立され、3次元の専門知識空間を構築し、その空間に組織学的特徴をマッピングする。 そして、それらの間のユークリッド距離に応じて診断を行うことができる。 D&Kモデルは, 病理組織学的サブタイプを診断するための最先端の手法と比較して, 高い性能と信頼性を有することを示す。 コード:https://github.com/Dennis-YB/Data-and-Knowledge-Co-driving-for-Cancer-Subtypes-classification

Artificial intelligence-enabled histopathological data analysis has become a valuable assistant to the pathologist. However, existing models lack representation and inference abilities compared with those of pathologists, especially in cancer subtype diagnosis, which is unconvincing in clinical practice. For instance, pathologists typically observe the lesions of a slide from global to local, and then can give a diagnosis based on their knowledge and experience. In this paper, we propose a Data and Knowledge Co-driving (D&K) model to replicate the process of cancer subtype classification on a histopathological slide like a pathologist. Specifically, in the data-driven module, the bagging mechanism in ensemble learning is leveraged to integrate the histological features from various bags extracted by the embedding representation unit. Furthermore, a knowledge-driven module is established based on the Gestalt principle in psychology to build the three-dimensional (3D) expert knowledge space and map histological features into this space for metric. Then, the diagnosis can be made according to the Euclidean distance between them. Extensive experimental results on both public and in-house datasets demonstrate that the D&K model has a high performance and credible results compared with the state-of-the-art methods for diagnosing histopathological subtypes. Code: https://github.com/Dennis-YB/Data-and-Knowledge-Co-driving-for-Cancer-Subtypes-Classification
翻訳日:2023-04-20 16:05:03 公開日:2023-04-18
# Adaptive $\tau$-Lasso:そのロバストさとOracleの特性

The Adaptive $\tau$-Lasso: Its Robustness and Oracle Properties ( http://arxiv.org/abs/2304.09310v1 )

ライセンス: Link先を確認
Emadaldin Mozafari-Majd, Visa Koivunen(参考訳) 本稿では,応答変数と共変量における総汚染を受ける高次元データセットを分析するためのロバストな $\tau$-regression estimator の新しい正規化バージョンを提案する。 結果として得られる推定器適応型$\tau$-lasso は、外れ値や高平均点に対して頑健であり、同時に適応型$\ell_1$-norm ペナルティ項を用いて、大きな真の回帰係数に関連するバイアスを低減する。 具体的には、この適応$\ell_1$-normのペナルティ項は、各回帰係数に重みを割り当てる。 固定数の予測子$p$に対して、適応$\tau$-Lassoは、真の回帰ベクトルサポートの知識を仮定して、真の支持に対応する回帰ベクトルに対する変数選択整合性および漸近正規性に関するオラクル特性を持つことを示す。 次に、有限サンプル分解点と影響関数を通してその堅牢性を特徴づける。 適応型$\tau$-Lasso推定器と他の正規化推定器の性能を、応答ベクトル/回帰行列内における汚染の有無および付加重み付き雑音の予測および可変選択精度で比較するため、広範囲なシミュレーションを行う。 我々のシミュレーションから、$\tau$-Lasso推定器のクラスは、汚染されたデータと汚染されていないデータ設定の両方において堅牢で信頼性の高い性能を示し、オラクル推定器を除いて、多くのシナリオにおいてベストまたはクローズ・ツー・ベストを達成する。 しかし、特定の推定者が他を一様に支配しているわけではないことは注目に値する。 また, シミュレーション実験によるロバスト性特性の検証を行った。

This paper introduces a new regularized version of the robust $\tau$-regression estimator for analyzing high-dimensional data sets subject to gross contamination in the response variables and covariates. We call the resulting estimator adaptive $\tau$-Lasso that is robust to outliers and high-leverage points and simultaneously employs adaptive $\ell_1$-norm penalty term to reduce the bias associated with large true regression coefficients. More specifically, this adaptive $\ell_1$-norm penalty term assigns a weight to each regression coefficient. For a fixed number of predictors $p$, we show that the adaptive $\tau$-Lasso has the oracle property with respect to variable-selection consistency and asymptotic normality for the regression vector corresponding to the true support, assuming knowledge of the true regression vector support. We then characterize its robustness via the finite-sample breakdown point and the influence function. We carry-out extensive simulations to compare the performance of the adaptive $\tau$-Lasso estimator with that of other competing regularized estimators in terms of prediction and variable selection accuracy in the presence of contamination within the response vector/regression matrix and additive heavy-tailed noise. We observe from our simulations that the class of $\tau$-Lasso estimators exhibits robustness and reliable performance in both contaminated and uncontaminated data settings, achieving the best or close-to-best for many scenarios, except for oracle estimators. However, it is worth noting that no particular estimator uniformly dominates others. We also validate our findings on robustness properties through simulation experiments.
翻訳日:2023-04-20 16:04:42 公開日:2023-04-18
# 機械学習を用いたリボン探索

Searching for ribbons with machine learning ( http://arxiv.org/abs/2304.09304v1 )

ライセンス: Link先を確認
Sergei Gukov, James Halverson, Ciprian Manolescu, Fabian Ruehle(参考訳) ベイズ最適化と強化学習をトポロジーの問題に適用する:結び目がリボンディスクにいつ結びつくかという問題。 この問題は、四次元滑らかなポアンカー予想を論証するアプローチに関係しており、我々のプログラムを用いて、予想に対する多くの潜在的な反例を除外する。 また,プログラムが最大70回の交差範囲で多くのリボン結び目を検出することに成功していることを示す。

We apply Bayesian optimization and reinforcement learning to a problem in topology: the question of when a knot bounds a ribbon disk. This question is relevant in an approach to disproving the four-dimensional smooth Poincar\'e conjecture; using our programs, we rule out many potential counterexamples to the conjecture. We also show that the programs are successful in detecting many ribbon knots in the range of up to 70 crossings.
翻訳日:2023-04-20 16:04:10 公開日:2023-04-18
# ドメイン一般化意味セグメンテーションのための適応的スタイライゼーション変調

Adaptive Stylization Modulation for Domain Generalization Semantic Segmentation ( http://arxiv.org/abs/2304.09347v1 )

ライセンス: Link先を確認
Gabriel Tjio, Ping Liu, Chee-Keong Kwoh, Joey Tianyi Zhou(参考訳) モデルトレーニングのための十分なラベル付きデータを得ることは、ほとんどの実生活アプリケーションでは実用的ではない。 そこで我々は,セマンティクスセグメンテーションタスクにおける領域一般化の問題に対処し,追加データの取得とラベル付けの必要性を低減した。 領域一般化に関する最近の研究は、画像における色、スタイル、テクスチャといった様々なドメイン変種の特徴によって、データの多様性を高める。 しかし、過剰なスタイライゼーションや均一なスタイライゼーションは性能を低下させる可能性がある。 パフォーマンスの低下は、マイノリティクラスのピクセルに対して特に顕著であり、多数派クラスのピクセルに比べて、すでに分類が難しい。 そこで本研究では,各画素のスタイライゼーション強度をピクセルの意味的内容に応じて変調するモジュール $ash_{+}$ を導入する。 本研究では,スタイライズドソースドメインイメージにおける元のソースドメイン機能と,スタイライズされた機能の要素別およびチャネル毎の比率をバランスさせるパラメータも導入する。 この学習パラメータは、経験的に決定されたグローバルハイパーパラメータを置き換えることで、出力されたスタイライズされたイメージをより細かく制御することができる。 提案手法の有効性を検証するために複数の実験を行った。 最後に,ベンチマークセマンティックセグメンテーションデータセット(CityscapesおよびSynTHIA)を用いて,本モデルの評価を行った。 定量的・質的比較は,我々のアプローチが最先端のアプローチと競合することを示している。 コードは \url{https://github.com/placeholder} で利用可能である。

Obtaining sufficient labelled data for model training is impractical for most real-life applications. Therefore, we address the problem of domain generalization for semantic segmentation tasks to reduce the need to acquire and label additional data. Recent work on domain generalization increase data diversity by varying domain-variant features such as colour, style and texture in images. However, excessive stylization or even uniform stylization may reduce performance. Performance reduction is especially pronounced for pixels from minority classes, which are already more challenging to classify compared to pixels from majority classes. Therefore, we introduce a module, $ASH_{+}$, that modulates stylization strength for each pixel depending on the pixel's semantic content. In this work, we also introduce a parameter that balances the element-wise and channel-wise proportion of stylized features with the original source domain features in the stylized source domain images. This learned parameter replaces an empirically determined global hyperparameter, allowing for more fine-grained control over the output stylized image. We conduct multiple experiments to validate the effectiveness of our proposed method. Finally, we evaluate our model on the publicly available benchmark semantic segmentation datasets (Cityscapes and SYNTHIA). Quantitative and qualitative comparisons indicate that our approach is competitive with state-of-the-art. Code is made available at \url{https://github.com/placeholder}
翻訳日:2023-04-20 15:56:24 公開日:2023-04-18
# 量子情報システムのための超伝導マイクロ波キャビティと量子ビットの進歩

Advancements in Superconducting Microwave Cavities and Qubits for Quantum Information Systems ( http://arxiv.org/abs/2304.09345v1 )

ライセンス: Link先を確認
Alex Krasnok, Pashupati Dhakal, Arkady Fedorov, Pedro Frigola, Michael Kelly, Sergey Kutsaev(参考訳) 超高q係数の超伝導マイクロ波共振器は、量子コンピューティングの分野に革命をもたらしており、1ミリ秒を超える長いコヒーレンス時間を提供しており、低エラー率でスケーラブルなマルチ量子ビット量子システムを実現する上で重要である。 本研究では,超高q値キャビティ,ジョセフソン接合型量子ビット,ボソニックエンコード量子ビットの3次元キャビティへの統合,最近の進展を詳細に分析する。 キャビティや量子ビットの減衰やノイズ機構に起因する量子状態の劣化の原因について検討し,さらに高いコヒーレンス時間を達成するために対処すべき重要な課題を明らかにする。 超伝導材料, 常用金属, マルチキュービットおよびマルチステート量子システムを用いた単一3次元量子ビットの実装における最新の進歩を批判的に調査する。 我々の研究は、空洞と量子ビットの新しい材料、非自明な位相特性を持つモード、ボソニック量子ビットの誤差補正技術、新しい光-物質相互作用効果など、この研究領域の将来に光を当てている。

Superconducting microwave cavities with ultra-high Q-factors are revolutionizing the field of quantum computing, offering long coherence times exceeding 1 ms, which is critical for realizing scalable multi-qubit quantum systems with low error rates. In this work, we provide an in-depth analysis of recent advances in ultra-high Q-factor cavities, integration of Josephson junction-based qubits, and bosonic-encoded qubits in 3D cavities. We examine the sources of quantum state dephasing caused by damping and noise mechanisms in cavities and qubits, highlighting the critical challenges that need to be addressed to achieve even higher coherence times. We critically survey the latest progress made in implementing single 3D qubits using superconducting materials, normal metals, and multi-qubit and multi-state quantum systems. Our work sheds light on the promising future of this research area, including novel materials for cavities and qubits, modes with nontrivial topological properties, error correction techniques for bosonic qubits, and new light-matter interaction effects.
翻訳日:2023-04-20 15:56:06 公開日:2023-04-18
# デジタル技術を検閲した意図しない結果 - イタリアのチャットgpt禁止令の証拠

The Unintended Consequences of Censoring Digital Technology -- Evidence from Italy's ChatGPT Ban ( http://arxiv.org/abs/2304.09339v1 )

ライセンス: Link先を確認
David H. Kreitmeir and Paul A. Raschky(参考訳) 生成事前学習型トランスフォーマーチャットボットChatGPTが個人の生産性に与える影響を解析した。 私たちはまず、イタリアや他のヨーロッパ諸国で8000人以上のプロのGitHubユーザの毎時コーディングアウトプットに関するデータをコンパイルし、個々の生産性への影響を分析しました。 高頻度データと差分法フレームワークの突然の発表を組み合わせると、イタリア人開発者の出力は禁止後最初の2日間で約50%減少し、その後回復した。 毎日のGoogle検索とTor利用データに合成制御アプローチを適用することは、この禁止が検閲ツールをバイパスする使用を大幅に増加させたことを示している。 以上の結果から,ユーザはインターネットの制約を回避する戦略を迅速に実装するが,この適応活動は短期的な混乱を引き起こし,生産性を損なう。

We analyse the effects of the ban of ChatGPT, a generative pre-trained transformer chatbot, on individual productivity. We first compile data on the hourly coding output of over 8,000 professional GitHub users in Italy and other European countries to analyse the impact of the ban on individual productivity. Combining the high-frequency data with the sudden announcement of the ban in a difference-in-differences framework, we find that the output of Italian developers decreased by around 50% in the first two business days after the ban and recovered after that. Applying a synthetic control approach to daily Google search and Tor usage data shows that the ban led to a significant increase in the use of censorship bypassing tools. Our findings show that users swiftly implement strategies to bypass Internet restrictions but this adaptation activity creates short-term disruptions and hampers productivity.
翻訳日:2023-04-20 15:55:46 公開日:2023-04-18
# Promptify:大規模言語モデルを用いた対話型プロンプト探索によるテキスト・画像生成

Promptify: Text-to-Image Generation through Interactive Prompt Exploration with Large Language Models ( http://arxiv.org/abs/2304.09337v1 )

ライセンス: Link先を確認
Stephen Brade, Bryan Wang, Mauricio Sousa, Sageev Oore, Tovi Grossman(参考訳) テキストから画像への生成モデルは、テキストのプロンプトに基づいて高品質な画像を生成する素晴らしい能力を示している。 しかし、ユーザの創造的意図を正確に捉えるためのプロンプト作成は依然として困難である。 しばしば、モデルがユーザの意図に従ってプロンプトを解釈することを保証するために、厳格な試行錯誤手順を伴います。 そこで本研究では,テキスト対画像生成モデルの迅速な探索と改良を支援する対話型システムprompifyを提案する。 Promptifyは、大きな言語モデルを利用した提案エンジンを利用して、ユーザーが多様なプロンプトを素早く探索し作成するのに役立つ。 我々のインターフェースでは、生成した画像を柔軟に整理することができ、好みに基づいて、Promptifyは元のプロンプトに潜在的な変更を提案する。 このフィードバックループによって、ユーザはプロンプトを反復的に洗練し、望ましくない機能を避けながら、望ましい機能を拡張できる。 ユーザ調査によれば、prompifyifyはテキストから画像へのワークフローを効果的に促進し、テキストから画像への生成に広く使われている既存のベースラインツールよりも優れています。

Text-to-image generative models have demonstrated remarkable capabilities in generating high-quality images based on textual prompts. However, crafting prompts that accurately capture the user's creative intent remains challenging. It often involves laborious trial-and-error procedures to ensure that the model interprets the prompts in alignment with the user's intention. To address the challenges, we present Promptify, an interactive system that supports prompt exploration and refinement for text-to-image generative models. Promptify utilizes a suggestion engine powered by large language models to help users quickly explore and craft diverse prompts. Our interface allows users to organize the generated images flexibly, and based on their preferences, Promptify suggests potential changes to the original prompt. This feedback loop enables users to iteratively refine their prompts and enhance desired features while avoiding unwanted ones. Our user study shows that Promptify effectively facilitates the text-to-image workflow and outperforms an existing baseline tool widely used for text-to-image generation.
翻訳日:2023-04-20 15:55:30 公開日:2023-04-18
# 増幅正弦ユニット:非線形振動を効率的に回復するディープニューラルネットワークの発振活性化関数

Amplifying Sine Unit: An Oscillatory Activation Function for Deep Neural Networks to Recover Nonlinear Oscillations Efficiently ( http://arxiv.org/abs/2304.09759v1 )

ライセンス: Link先を確認
Jamshaid Ul Rahman, Faiza Makhdoom, Dianchen Lu(参考訳) 多くの産業的・現実的な問題は非常に非線形な周期的挙動を示しており、従来の手法は解析的あるいは閉形解を見つけるには不十分である。 このような問題には、機能の向上とコスト削減を伴う最先端の計算ツールが要求される。 近年、大規模データを扱う能力と複雑な関数を学習する普遍性によって、ディープニューラルネットワークは大きな研究関心を集めている。 本研究では,マイクロ電気機械系の非線形振動を扱うための応答性層構造を持つ深層ニューラルネットワークに基づく手法を提案する。 我々は,gcu,sine,mish,tanhとして知られる成長コサインユニットなどの振動・非振動活性化関数をネットワークに組み込んで,高非線形・振動問題に対する性能の包括的解析を行った。 振動活性化関数とディープニューラルネットワークの統合は、基盤となるシステムの周期的パターンを予測する上で間違いなく優れている。 本研究では, 非線形系の振動運動を支援するために, マイクロエレクトロメカニクス系などの複雑な振動系において, GCUよりも高効率なASUと呼ばれる新しい振動活性化関数を提案する。 実験の結果,提案した活性化関数ASUを用いたネットワークは,非線形性や発振による課題に対処するため,信頼性が高く,堅牢であることがわかった。 提案手法を検証するために, lsoda と呼ばれる常微分方程式に対するリバモア解法の結果とネットワークの出力を比較した。 さらに、本書では、発生したエラーの図式イラストも提示されている。

Many industrial and real life problems exhibit highly nonlinear periodic behaviors and the conventional methods may fall short of finding their analytical or closed form solutions. Such problems demand some cutting edge computational tools with increased functionality and reduced cost. Recently, deep neural networks have gained massive research interest due to their ability to handle large data and universality to learn complex functions. In this work, we put forward a methodology based on deep neural networks with responsive layers structure to deal nonlinear oscillations in microelectromechanical systems. We incorporated some oscillatory and non oscillatory activation functions such as growing cosine unit known as GCU, Sine, Mish and Tanh in our designed network to have a comprehensive analysis on their performance for highly nonlinear and vibrational problems. Integrating oscillatory activation functions with deep neural networks definitely outperform in predicting the periodic patterns of underlying systems. To support oscillatory actuation for nonlinear systems, we have proposed a novel oscillatory activation function called Amplifying Sine Unit denoted as ASU which is more efficient than GCU for complex vibratory systems such as microelectromechanical systems. Experimental results show that the designed network with our proposed activation function ASU is more reliable and robust to handle the challenges posed by nonlinearity and oscillations. To validate the proposed methodology, outputs of our networks are being compared with the results from Livermore solver for ordinary differential equation called LSODA. Further, graphical illustrations of incurred errors are also being presented in the work.
翻訳日:2023-04-20 13:56:09 公開日:2023-04-18
# フレキシブルでスケーラブルなソフトウェア定義無線を用いた深層学習による接触型人間活動認識

Contactless Human Activity Recognition using Deep Learning with Flexible and Scalable Software Define Radio ( http://arxiv.org/abs/2304.09756v1 )

ライセンス: Link先を確認
Muhammad Zakir Khan, Jawad Ahmad, Wadii Boulila, Matthew Broadbent, Syed Aziz Shah, Anis Koubaa, Qammer H. Abbasi(参考訳) アンビエントコンピューティングは、将来大きな技術進歩として人気を集めている。 現代は医療システムの進歩を目の当たりにしており、遠隔および控えめな人間の活動認識(HAR)のための無線周波数ソリューションが提案されている。 具体的には,室内環境における人間活動の非接触的認識手段として活用可能な,新しい環境センシング方法としてのwi-fiチャネル状態情報(csi)の利用について検討した。 これらの方法は、様々な安全およびセキュリティアプリケーションにWi-Fi CSIを(再)使用することで、プライバシーを侵害する視覚ベースのシステムに必要な追加のハードウェアを避ける。 ユニバーサルソフトウェア定義無線(USRP)を用いてCSIのサンプルを収集する実験では、部屋のさまざまな領域で活動、立ち上がり、座り、前傾く6つの異なる活動に従事している被験者が観察された。 さらに、被験者が2つの異なる方向に歩いたときにより多くのcsiサンプルが収集された。 本研究では,Wi-Fi CSIをベースとしたHARシステムを用いて,深層学習アプローチ,すなわち畳み込みニューラルネットワーク(CNN),長期記憶(LSTM),ハイブリッド(LSTM+CNN)を評価し,対比する。 実験の結果、LSTMは現在のモデルを超え、CNNやハイブリッド技術と比較すると、平均95.3%のマルチアクティビティ分類が得られることがわかった。 将来的には、多様な動的環境におけるレジリエンスの重要性を調査し、複数のユーザの活動を特定する必要がある。

Ambient computing is gaining popularity as a major technological advancement for the future. The modern era has witnessed a surge in the advancement in healthcare systems, with viable radio frequency solutions proposed for remote and unobtrusive human activity recognition (HAR). Specifically, this study investigates the use of Wi-Fi channel state information (CSI) as a novel method of ambient sensing that can be employed as a contactless means of recognizing human activity in indoor environments. These methods avoid additional costly hardware required for vision-based systems, which are privacy-intrusive, by (re)using Wi-Fi CSI for various safety and security applications. During an experiment utilizing universal software-defined radio (USRP) to collect CSI samples, it was observed that a subject engaged in six distinct activities, which included no activity, standing, sitting, and leaning forward, across different areas of the room. Additionally, more CSI samples were collected when the subject walked in two different directions. This study presents a Wi-Fi CSI-based HAR system that assesses and contrasts deep learning approaches, namely convolutional neural network (CNN), long short-term memory (LSTM), and hybrid (LSTM+CNN), employed for accurate activity recognition. The experimental results indicate that LSTM surpasses current models and achieves an average accuracy of 95.3% in multi-activity classification when compared to CNN and hybrid techniques. In the future, research needs to study the significance of resilience in diverse and dynamic environments to identify the activity of multiple users.
翻訳日:2023-04-20 13:55:24 公開日:2023-04-18
# テンソルニューラルネットワークのバームダン価格交換への応用

Application of Tensor Neural Networks to Pricing Bermudan Swaptions ( http://arxiv.org/abs/2304.09750v1 )

ライセンス: Link先を確認
Raj G. Patel, Tomas Dominguez, Mohammad Dib, Samuel Palmer, Andrea Cadarso, Fernando De Lope Contreras, Abdelkader Ratnani, Francisco Gomez Casanova, Senaida Hern\'andez-Santana, \'Alvaro D\'iaz-Fern\'andez, Eva Andr\'es, Jorge Luis-Hita, Escol\'astico S\'anchez-Mart\'inez, Samuel Mugel, Roman Orus(参考訳) シャイエットモデル(英: cheyette model)は、モンテカルロシミュレーションが業界標準となった欧州やベルムダンなどの価格デリバティブに広く用いられている準ゲージボラティリティ金利モデルである。 低次元では、これらのアプローチはヨーロッパのスワップオンに対して正確で堅牢な価格を提供するが、この計算学的に単純な設定であっても、状態変数を回帰器として使用する場合のベルムダンスワップオンの価値を過小評価することが知られている。 これは主に、回帰における有限個の所定の基底関数の使用によるものである。 さらに、高次元設定では、これらのアプローチは次元の曲線に結びつく。 これらの問題に対処するために、深層学習技術は、ヨーロッパやベルムダンのスワプションの価値プロセスに関連する後方確率微分方程式の解法として用いられてきたが、これらの手法はトレーニング時間と記憶によって制約されている。 これらの制限を克服するために,従来のDense Neural Networksと同じ精度でパラメータの大幅な削減を実現するために,Tensor Neural Networksを活用することを提案する。 本稿では, テンソルニューラルネットワークとデンスニューラルネットワークの性能を欧州とベルムダンのスワップ価格で厳格にベンチマークし, テンソルニューラルネットワークはデンスニューラルネットワークよりも高速にトレーニングでき, より正確で堅牢な価格を提供できることを示す。

The Cheyette model is a quasi-Gaussian volatility interest rate model widely used to price interest rate derivatives such as European and Bermudan Swaptions for which Monte Carlo simulation has become the industry standard. In low dimensions, these approaches provide accurate and robust prices for European Swaptions but, even in this computationally simple setting, they are known to underestimate the value of Bermudan Swaptions when using the state variables as regressors. This is mainly due to the use of a finite number of predetermined basis functions in the regression. Moreover, in high-dimensional settings, these approaches succumb to the Curse of Dimensionality. To address these issues, Deep-learning techniques have been used to solve the backward Stochastic Differential Equation associated with the value process for European and Bermudan Swaptions; however, these methods are constrained by training time and memory. To overcome these limitations, we propose leveraging Tensor Neural Networks as they can provide significant parameter savings while attaining the same accuracy as classical Dense Neural Networks. In this paper we rigorously benchmark the performance of Tensor Neural Networks and Dense Neural Networks for pricing European and Bermudan Swaptions, and we show that Tensor Neural Networks can be trained faster than Dense Neural Networks and provide more accurate and robust prices than their Dense counterparts.
翻訳日:2023-04-20 13:54:45 公開日:2023-04-18
# オフラインデータを用いた手続き生成環境における強化学習の高速化

Using Offline Data to Speed-up Reinforcement Learning in Procedurally Generated Environments ( http://arxiv.org/abs/2304.09825v1 )

ライセンス: Link先を確認
Alain Andres, Lukas Sch\"afer, Esther Villar-Rodriguez, Stefano V.Albrecht, Javier Del Ser(参考訳) 強化学習(rl)の重要な課題の1つは、エージェントが学習したポリシーを認識できない設定に一般化する能力である。 さらに、RLエージェントの訓練には環境との多数の相互作用が必要である。 近年のオフラインrlと模倣学習 (il) の成功に動機づけられ, エージェントがトラジェクタの形でオフラインデータを活用し, 手続き的生成環境におけるサンプル効率を向上させることができるか検討した。 我々は,オフラインデータからのil使用について,(1)オンラインrlトレーニング前にポリシを事前トレーニングすること,(2)オフラインデータからオンラインrlとilでポリシを同時トレーニングすること,の2つの設定を検討する。 本研究では,オフライントラジェクタの品質(トラジェクタの最適性)と多様性(トラジェクタ数とカバーレベル)が両手法の有効性に与える影響を分析した。 ミニグリッド環境における4つのよく知られたスパース報酬タスクの中で,オンラインRLトレーニングにおいて,ILを事前学習と同時学習に使用することにより,最適なポリシに収束しながら,サンプル効率を一貫して向上することがわかった。 さらに,2つの軌道から政策を事前学習することで,オンライン学習の終了時に最適方針を学習することと,学習を全く行わないことの相違が示される。 本研究は,オフライントラジェクタが利用可能あるいは生成可能であれば,手続き的に生成した環境において,事前学習と同時学習のためのilを広く採用する動機となった。

One of the key challenges of Reinforcement Learning (RL) is the ability of agents to generalise their learned policy to unseen settings. Moreover, training RL agents requires large numbers of interactions with the environment. Motivated by the recent success of Offline RL and Imitation Learning (IL), we conduct a study to investigate whether agents can leverage offline data in the form of trajectories to improve the sample-efficiency in procedurally generated environments. We consider two settings of using IL from offline data for RL: (1) pre-training a policy before online RL training and (2) concurrently training a policy with online RL and IL from offline data. We analyse the impact of the quality (optimality of trajectories) and diversity (number of trajectories and covered level) of available offline trajectories on the effectiveness of both approaches. Across four well-known sparse reward tasks in the MiniGrid environment, we find that using IL for pre-training and concurrently during online RL training both consistently improve the sample-efficiency while converging to optimal policies. Furthermore, we show that pre-training a policy from as few as two trajectories can make the difference between learning an optimal policy at the end of online training and not learning at all. Our findings motivate the widespread adoption of IL for pre-training and concurrent IL in procedurally generated environments whenever offline trajectories are available or can be generated.
翻訳日:2023-04-20 13:27:11 公開日:2023-04-18
# クロスドメインテキスト分類のための自己監督蒸留による2段階フレームワーク

A Two-Stage Framework with Self-Supervised Distillation For Cross-Domain Text Classification ( http://arxiv.org/abs/2304.09820v1 )

ライセンス: Link先を確認
Yunlong Feng, Bohan Li, Libo Qin, Xiao Xu, Wanxiang Che(参考訳) クロスドメインテキスト分類は、ラベル付きデータを持たないターゲットドメインにモデルを適用することを目的としている。 これは、異なるが関連するソースドメインからのリッチなラベル付きデータと、ターゲットドメインからのラベルなしデータを活用または再利用する。 この目的のために、以前の研究は、ターゲットドメインに存在し、下流タスクに有用なドメイン認識機能を無視し、ドメイン不変機能またはタスク非依存の機能の抽出に重点を置いていた。 本稿では,クロスドメインテキスト分類のための2段階フレームワークを提案する。 第1段階では、マスク言語モデリング(mlm)とソースドメインからのラベル付きデータでモデルを微調整します。 第2段階では、自己監督蒸留(SSD)と対象領域からのラベルなしデータにより、モデルをさらに微調整する。 公開クロスドメインテキスト分類ベンチマークでその性能を評価し,実験結果から,単一ソースドメイン適応 (94.17%$\uparrow$1.03%) と複数ソースドメイン適応 (95.09%$\uparrow $1.34%) の両方において,新たな最先端結果が得られた。

Cross-domain text classification aims to adapt models to a target domain that lacks labeled data. It leverages or reuses rich labeled data from the different but related source domain(s) and unlabeled data from the target domain. To this end, previous work focuses on either extracting domain-invariant features or task-agnostic features, ignoring domain-aware features that may be present in the target domain and could be useful for the downstream task. In this paper, we propose a two-stage framework for cross-domain text classification. In the first stage, we finetune the model with mask language modeling (MLM) and labeled data from the source domain. In the second stage, we further fine-tune the model with self-supervised distillation (SSD) and unlabeled data from the target domain. We evaluate its performance on a public cross-domain text classification benchmark and the experiment results show that our method achieves new state-of-the-art results for both single-source domain adaptations (94.17% $\uparrow$1.03%) and multi-source domain adaptations (95.09% $\uparrow$1.34%).
翻訳日:2023-04-20 13:25:58 公開日:2023-04-18
# Sabi\'a: ポルトガルの大規模言語モデル

Sabi\'a: Portuguese Large Language Models ( http://arxiv.org/abs/2304.07880v2 )

ライセンス: Link先を確認
Ramon Pires, Hugo Abonizio, Thales Sales Almeida, Rodrigo Nogueira(参考訳) 言語モデルの能力が向上し続ければ、"ワンサイズフィットオール"モデルが主要なパラダイムとして残ることは考えられます。 例えば、世界中の膨大な数の言語が低リソースであることを考えれば、一般的なプラクティスは、複数の言語で単一のモデルを事前学習することだ。 本稿では,この実践に挑戦するエビデンスを増大させ,対象言語での単言語事前学習が,すでに多様なコーパスで広く訓練されているモデルを大幅に改善することを示す。 より具体的には、ポルトガル語テキストのGPT-JおよびLLaMAモデルを、当初の事前訓練予算の3%以下で事前訓練する。 ポルトガルの14のデータセットからなるスイートであるPoetaに関するわずかな評価によると、我々のモデルは、英語と多言語で比較すると、かなり差がある。 私たちのベストモデルであるSabi\'a-65Bは、GPT-3.5-turboと同等に動作します。 対象言語と翻訳言語で当初考えられたデータセットから評価することにより,言語固有の事前学習の貢献度について検討する。 1)対象言語固有の言語ニュアンス及び構造を捉えること、及び 2) ドメインや文化に関するモデルの知識を豊かにする。 以上の結果から,効果の大部分は単言語前訓練によって獲得したドメイン固有知識によるものであることが示唆された。

As the capabilities of language models continue to advance, it is conceivable that "one-size-fits-all" model will remain as the main paradigm. For instance, given the vast number of languages worldwide, many of which are low-resource, the prevalent practice is to pretrain a single model on multiple languages. In this paper, we add to the growing body of evidence that challenges this practice, demonstrating that monolingual pretraining on the target language significantly improves models already extensively trained on diverse corpora. More specifically, we further pretrain GPT-J and LLaMA models on Portuguese texts using 3% or less of their original pretraining budget. Few-shot evaluations on Poeta, a suite of 14 Portuguese datasets, reveal that our models outperform English-centric and multilingual counterparts by a significant margin. Our best model, Sabi\'a-65B, performs on par with GPT-3.5-turbo. By evaluating on datasets originally conceived in the target language as well as translated ones, we study the contributions of language-specific pretraining in terms of 1) capturing linguistic nuances and structures inherent to the target language, and 2) enriching the model's knowledge about a domain or culture. Our results indicate that the majority of the benefits stem from the domain-specific knowledge acquired through monolingual pretraining.
翻訳日:2023-04-20 10:45:32 公開日:2023-04-18
# EEGSN:グラフスパイクニューラルネットワークによる脳波の高効率低遅延デコーディングを目指して

EEGSN: Towards Efficient Low-latency Decoding of EEG with Graph Spiking Neural Networks ( http://arxiv.org/abs/2304.07655v2 )

ライセンス: Link先を確認
Xi Chen, Siwei Mai, Konstantinos Michmizos(参考訳) スパイクニューラルネットワーク(SNN)の大多数は、低レイテンシと電力効率を必要とするいくつかの重要なタスクに必ずしも適合しない誘導バイアスに基づいて訓練されている。 関連する脳電図(EEG)信号に基づく脳行動の推測は、時空間依存の学習によってネットワークのトレーニングと推論効率に大きな影響を与える一例である。 これまでSNNは、異なるデータストリーム間の動的関係をモデル化するために、一般的な帰納バイアスのみに依存していた。 本稿では,分散脳波センサに存在する動的関係情報を学習する多チャンネル脳波分類(eegsn)のためのグラフスパイキングニューラルネットワークアーキテクチャを提案する。 提案手法は,従来のSNNと比較して,推定計算の複雑さを20ドル削減し,モータ実行の分類作業において同等の精度を達成した。 本研究は,低レイテンシおよび低消費電力リアルタイムアプリケーションに適したグラフスパイクネットワークの解釈および効率的なトレーニングのためのフレームワークを提供する。

A vast majority of spiking neural networks (SNNs) are trained based on inductive biases that are not necessarily a good fit for several critical tasks that require low-latency and power efficiency. Inferring brain behavior based on the associated electroenchephalography (EEG) signals is an example of how networks training and inference efficiency can be heavily impacted by learning spatio-temporal dependencies. Up to now, SNNs rely solely on general inductive biases to model the dynamic relations between different data streams. Here, we propose a graph spiking neural network architecture for multi-channel EEG classification (EEGSN) that learns the dynamic relational information present in the distributed EEG sensors. Our method reduced the inference computational complexity by $\times 20$ compared to the state-of-the-art SNNs, while achieved comparable accuracy on motor execution classification tasks. Overall, our work provides a framework for interpretable and efficient training of graph spiking networks that are suitable for low-latency and low-power real-time applications.
翻訳日:2023-04-20 10:45:12 公開日:2023-04-18
# ネットワークモニタリングのための多変量ビッグデータ解析における解釈型学習

Interpretable Learning in Multivariate Big Data Analysis for Network Monitoring ( http://arxiv.org/abs/1907.02677v2 )

ライセンス: Link先を確認
Jos\'e Camacho, Katarzyna Wasielewska, Rasmus Bro, David Kotz(参考訳) 通信ネットワークの性能を評価するのに有用な新しいデータ駆動モデルの開発への関心が高まっている。 ネットワーク監視やトラブルシューティングのような多くのアプリケーションでは、人間のオペレータが解釈できない場合、データモデルはほとんど使われません。 本稿では,最近提案された解釈可能なデータ解析ツールであるMultivarate Big Data Analysis(MBDA)方法論の拡張について述べる。 本拡張では,データ量が大きい場合にMBDAを適用するための基礎的なステップである特徴の自動導出の解を提案する。 ネットワーク監視のアプローチにより、解釈可能なモデルと対話的なモデルの利点と並列処理のパワーを組み合わせたデータ分析ワークフローを用いて、異なるネットワーク異常を検出して診断することができる。 拡張mbdaを2つのケーススタディに適用した: ベンチマークフローに基づく異常検出のための実トラフィックデータセット ugr'16 と、これまで知られている最長かつ最大のwi-fiトレースである dartmouth'18 である。

There is an increasing interest in the development of new data-driven models useful to assess the performance of communication networks. For many applications, like network monitoring and troubleshooting, a data model is of little use if it cannot be interpreted by a human operator. In this paper, we present an extension of the Multivariate Big Data Analysis (MBDA) methodology, a recently proposed interpretable data analysis tool. In this extension, we propose a solution to the automatic derivation of features, a cornerstone step for the application of MBDA when the amount of data is massive. The resulting network monitoring approach allows us to detect and diagnose disparate network anomalies, with a data-analysis workflow that combines the advantages of interpretable and interactive models with the power of parallel processing. We apply the extended MBDA to two case studies: UGR'16, a benchmark flow-based real-traffic dataset for anomaly detection, and Dartmouth'18, the longest and largest Wi-Fi trace known to date.
翻訳日:2023-04-19 20:00:06 公開日:2023-04-18
# 選好ニューラルネットワーク

Preference Neural Network ( http://arxiv.org/abs/1904.02345v4 )

ライセンス: Link先を確認
Ayman Elgharabawy, Mukesh Prasad, Chin-Teng Lin(参考訳) 本稿では,新しいアクティベーション機能を持つ不特定選好順序問題に対処する選好ニューラルネットワーク(PNN)を提案する。 PNNはまた、ラベルが無関心な選好順序やサブグループが等しくランク付けされるようなマルチラベルランキングの問題を解決する。 PNNは完全な結合ニューロンを持つ多層フィードフォワードアーキテクチャに従う。 各ニューロンは、選好順序の数に基づいて、新しいスムーズな階段活性化関数を含む。 PNN入力はデータの特徴を表し、出力ニューロンはラベルインデックスを表す。 提案するPNNは,実験未実施の繰り返しラベル値を含む新たな選好マイニングデータセットを用いて評価する。 PNNは、計算効率の高い正確な結果の観点から、より厳格なラベルランキングのための5つの提案された手法より優れている。

This paper proposes a preference neural network (PNN) to address the problem of indifference preferences orders with new activation function. PNN also solves the Multi-label ranking problem, where labels may have indifference preference orders or subgroups are equally ranked. PNN follows a multi-layer feedforward architecture with fully connected neurons. Each neuron contains a novel smooth stairstep activation function based on the number of preference orders. PNN inputs represent data features and output neurons represent label indexes. The proposed PNN is evaluated using new preference mining dataset that contains repeated label values which have not experimented before. PNN outperforms five previously proposed methods for strict label ranking in terms of accurate results with high computational efficiency.
翻訳日:2023-04-19 19:59:50 公開日:2023-04-18
# 一般関数近似を用いた強化学習のためのオンラインサブサンプリング

Online Sub-Sampling for Reinforcement Learning with General Function Approximation ( http://arxiv.org/abs/2106.07203v2 )

ライセンス: Link先を確認
Dingwen Kong, Ruslan Salakhutdinov, Ruosong Wang, Lin F. Yang(参考訳) 一般関数近似(FA)を用いた強化学習(RL)の既存の研究の多くは、統計的複雑性や後悔の境界を理解することに集中している。 しかし、そのような手法の計算の複雑さは理解できない ― 実際、関数クラスに対する単純な最適化問題は、同様に難解であるかもしれない。 本稿では、RLアルゴリズムによって収集されたデータポイントの情報取得を計測し、探索をガイドする効率的なオンラインサブサンプリングフレームワークを確立することにより、この問題に対処する。 複雑性にバウンドな関数クラスを持つ値ベースのメソッドの場合、そのポリシーは$\propto\operatorname{poly}\log(k)$ で更新される必要がある。 少なくとも$\Omega(K)$のポリシーを更新する既存のアプローチとは対照的に、当社のアプローチはポリシーの解決において最適化コールの数を劇的に削減します。 \cite{wang2020reinforcement} や \cite{jin2021bellman} の設定に適用すると、全体の時間の複雑さを少なくとも $k$ で改善する。 最後に、報酬のないRL設定とマルチエージェントRL設定に適用することで、オンラインサブサンプリング手法の汎用性を示す。

Most of the existing works for reinforcement learning (RL) with general function approximation (FA) focus on understanding the statistical complexity or regret bounds. However, the computation complexity of such approaches is far from being understood -- indeed, a simple optimization problem over the function class might be as well intractable. In this paper, we tackle this problem by establishing an efficient online sub-sampling framework that measures the information gain of data points collected by an RL algorithm and uses the measurement to guide exploration. For a value-based method with complexity-bounded function class, we show that the policy only needs to be updated for $\propto\operatorname{poly}\log(K)$ times for running the RL algorithm for $K$ episodes while still achieving a small near-optimal regret bound. In contrast to existing approaches that update the policy for at least $\Omega(K)$ times, our approach drastically reduces the number of optimization calls in solving for a policy. When applied to settings in \cite{wang2020reinforcement} or \cite{jin2021bellman}, we improve the overall time complexity by at least a factor of $K$. Finally, we show the generality of our online sub-sampling technique by applying it to the reward-free RL setting and multi-agent RL setting.
翻訳日:2023-04-19 19:29:50 公開日:2023-04-18
# 知覚・構文・意味の体系的一般化のためのミニマリストデータセット

A Minimalist Dataset for Systematic Generalization of Perception, Syntax, and Semantics ( http://arxiv.org/abs/2103.01403v3 )

ライセンス: Link先を確認
Qing Li, Siyuan Huang, Yining Hong, Yixin Zhu, Ying Nian Wu, Song-Chun Zhu(参考訳) 人間が算術を習得し、新しい問題に一般化する能力に触発されて、新しいデータセット、HINT(Hand written arithmetic with INTegers)を提示し、認識、構文、意味論の3つのレベルで一般化可能な概念を学習する機械の能力を調べる。 HINTでは、イメージ(知覚)のような生の信号から概念がどのように認識されるか、複数の概念が構造的に組み合わされて有効な表現(構文)が形成されるか、そして概念がどのように様々な推論タスク(意味論)を実現できるか、といったことを学ぶ。 体系的な一般化に着目し,3段階の学習概念の補間と外挿の両方を評価するための5次元テストセットを慎重に設計する。 さらに、モデルが素早く新しい概念を学習し、より複雑なシナリオに一般化できるかどうかを判断するために、数ショットの学習分割を設計する。 既存のモデルの制約を理解するため、RNN、Transformer、GPT-3(思考の連鎖)など、様々なシーケンス・ツー・シーケンスモデルを用いて広範囲に実験を行った。 その結果、現在のモデルは、長距離構文依存とセマンティクスを外挿するのに苦労していることがわかった。 モデルでは、少数の設定で新しい概念で評価すると、人間レベルの一般化にかなりのギャップがある。 さらに、データセットとモデルサイズを単にスケールアップするだけでHINTを解くことは不可能であることが分かり、この戦略は構文とセマンティクスの補間にはほとんど寄与しない。 最後に、ゼロショットGPT-3実験では、思考促進の連鎖は印象的な結果を示し、テスト精度を大幅に向上させる。 我々は,HINTデータセットと実験結果が,体系的な一般化に関する学習コミュニティにとって大きな関心を持つと考えている。

Inspired by humans' exceptional ability to master arithmetic and generalize to new problems, we present a new dataset, Handwritten arithmetic with INTegers (HINT), to examine machines' capability of learning generalizable concepts at three levels: perception, syntax, and semantics. In HINT, machines are tasked with learning how concepts are perceived from raw signals such as images (i.e., perception), how multiple concepts are structurally combined to form a valid expression (i.e., syntax), and how concepts are realized to afford various reasoning tasks (i.e., semantics), all in a weakly supervised manner. Focusing on systematic generalization, we carefully design a five-fold test set to evaluate both the interpolation and the extrapolation of learned concepts w.r.t. the three levels. Further, we design a few-shot learning split to determine whether or not models can rapidly learn new concepts and generalize them to more complex scenarios. To comprehend existing models' limitations, we undertake extensive experiments with various sequence-to-sequence models, including RNNs, Transformers, and GPT-3 (with the chain of thought prompting). The results indicate that current models struggle to extrapolate to long-range syntactic dependency and semantics. Models exhibit a considerable gap toward human-level generalization when evaluated with new concepts in a few-shot setting. Moreover, we discover that it is infeasible to solve HINT by merely scaling up the dataset and the model size; this strategy contributes little to the extrapolation of syntax and semantics. Finally, in zero-shot GPT-3 experiments, the chain of thought prompting exhibits impressive results and significantly boosts the test accuracy. We believe the HINT dataset and the experimental findings are of great interest to the learning community on systematic generalization.
翻訳日:2023-04-19 19:29:01 公開日:2023-04-18
# 医療概念に基づく胎児超音波画像分類器の認知的説明

A Cognitive Explainer for Fetal ultrasound images classifier Based on Medical Concepts ( http://arxiv.org/abs/2201.07798v3 )

ライセンス: Link先を確認
Yingni Wanga, Yunxiao Liua, Licong Dongc, Xuzhou Wua, Huabin Zhangb, Qiongyu Yed, Desheng Sunc, Xiaobo Zhoue, Kehong Yuan(参考訳) 妊娠中の2次元検査における胎児の標準スキャン平面検出は、医学的知識と長年の訓練を必要とする非常に複雑な作業である。 ディープニューラルネットワーク(DNN)は、これらのタスクで経験の浅い演算子を支援することができるが、透明性の欠如と解釈容易性がアプリケーションを制限する。 一部の研究者はDNNの決定過程を可視化することにコミットしているが、そのほとんどはピクセルレベルの特徴のみに焦点を当てており、医学的な事前知識を考慮していない。 本研究は, 臨床医の認知の観点からの説明を提供する, キー・メディカル・コンセプトに基づく解釈可能な枠組みを提案する。 さらに,概念に基づくグラフ畳み込みニューラルネットワーク(GCN)を用いて,重要な医療概念間の関係を構築する。 個人データセットの広範な実験分析により,提案手法が臨床医の推論結果に対する理解の容易な洞察を提供することが示された。

Fetal standard scan plane detection during 2-D mid-pregnancy examinations is a highly complex task, which requires extensive medical knowledge and years of training. Although deep neural networks (DNN) can assist inexperienced operators in these tasks, their lack of transparency and interpretability limit their application. Despite some researchers have been committed to visualizing the decision process of DNN, most of them only focus on the pixel-level features and do not take into account the medical prior knowledge. In this work, we propose an interpretable framework based on key medical concepts, which provides explanations from the perspective of clinicians' cognition. Moreover, we utilize a concept-based graph convolutional neural(GCN) network to construct the relationships between key medical concepts. Extensive experimental analysis on a private dataset has shown that the proposed method provides easy-to-understand insights about reasoning results for clinicians.
翻訳日:2023-04-19 19:19:47 公開日:2023-04-18
# 生物医用画像解析のための生成型adversarial networkの訓練課題に関する調査研究

A Survey on Training Challenges in Generative Adversarial Networks for Biomedical Image Analysis ( http://arxiv.org/abs/2201.07646v3 )

ライセンス: Link先を確認
Muhammad Muneeb Saad, Ruairi O'Reilly, and Mubashir Husain Rehmani(参考訳) 生体画像解析において、深層学習法の適用性は、利用可能な画像データ量によって直接影響を受ける。 これは、大規模な画像データセットを必要とするディープラーニングモデルがハイレベルなパフォーマンスを提供するためである。 generative adversarial networks (gans) は合成バイオメディカル画像の生成を通じてデータ制限に対処するために広く利用されている。 GANは2つのモデルで構成される。 ジェネレータは、受信したフィードバックに基づいて合成画像を生成する方法を学ぶモデルである。 判別器(discriminator)は、画像を合成またはリアルに分類し、ジェネレータにフィードバックを提供するモデルである。 トレーニングプロセスを通じて、GANは適切な合成画像の生成を妨げるいくつかの技術的課題を経験することができる。 まず、生成装置が同一の画像を生成するか、異なる入力特徴から一様画像を生成するモード崩壊問題である。 第二に、勾配降下最適化器がナッシュ平衡に達することができない非収束問題である。 第三に、最適分類性能を達成した判別器による不安定な訓練行動が発生し、発電機に有意なフィードバックが得られない、消滅する勾配問題である。 これらの問題は、ぼやけた、非現実的で、多様性の低い合成画像を生み出す。 これまでのところ、バイオメディカル画像領域におけるこれらの技術的課題の影響を概説した調査記事は存在していない。 本研究は, バイオメディカルイメージング領域におけるGANのトレーニング問題に対する解決策に基づくレビューと分類について述べる。 本調査では, バイオメディカルイメージの領域におけるGANの育成について, 今後の研究の方向性を概説する。

In biomedical image analysis, the applicability of deep learning methods is directly impacted by the quantity of image data available. This is due to deep learning models requiring large image datasets to provide high-level performance. Generative Adversarial Networks (GANs) have been widely utilized to address data limitations through the generation of synthetic biomedical images. GANs consist of two models. The generator, a model that learns how to produce synthetic images based on the feedback it receives. The discriminator, a model that classifies an image as synthetic or real and provides feedback to the generator. Throughout the training process, a GAN can experience several technical challenges that impede the generation of suitable synthetic imagery. First, the mode collapse problem whereby the generator either produces an identical image or produces a uniform image from distinct input features. Second, the non-convergence problem whereby the gradient descent optimizer fails to reach a Nash equilibrium. Thirdly, the vanishing gradient problem whereby unstable training behavior occurs due to the discriminator achieving optimal classification performance resulting in no meaningful feedback being provided to the generator. These problems result in the production of synthetic imagery that is blurry, unrealistic, and less diverse. To date, there has been no survey article outlining the impact of these technical challenges in the context of the biomedical imagery domain. This work presents a review and taxonomy based on solutions to the training problems of GANs in the biomedical imaging domain. This survey highlights important challenges and outlines future research directions about the training of GANs in the domain of biomedical imagery.
翻訳日:2023-04-19 19:19:31 公開日:2023-04-18
# 歪み関係の観点からみた実写超解像の近視的観察

A Close Look at Few-shot Real Image Super-resolution from the Distortion Relation Perspective ( http://arxiv.org/abs/2111.13078v3 )

ライセンス: Link先を確認
Xin Li, Xin Jin, Jun Fu, Xiaoyuan Yu, Bei Tong, Zhibo Chen(参考訳) 実世界における歪み/クリーンな画像ペアの収集は簡単ではないため、これらの教師付き学習ベースの手法が現実世界の超解像(RealSR)に応用されることを著しく制限する。 従来の研究は、教師なし学習ベースの技術を活用して、ペア化されたトレーニングサンプルへの依存性を軽減することで、この問題に対処していた。 しかし、これらの方法は通常、クリーンな画像の監督が欠如しているため、不満足なテクスチャ合成に苦しむ。 この問題を解決するために、我々はRealSRの探索されていない方向、すなわち、数発の歪み/クリーンな画像対による挑戦的なRealSR問題に対処することを目的とした、数発の現実画像超解像について、初めて詳しく見ていく。 この新たなシナリオでは、歪み関係の指導の下で、補助歪み(合成歪み)からターゲットのRealSRへリッチな復元知識を移譲することで、数ショットのRealSRに対する歪関係誘導伝達学習(DRTL)を提案する。 具体的には、DRTLは、補助歪みとターゲット歪み(すなわち、RealSRにおける実歪み)の間の歪み関係を捉える知識グラフを構築する。 歪み関係に基づき、DRTLは、補助歪みと対象歪みの間の知識伝達過程を誘導する勾配再重み付け戦略を採用する。 このようにして、dtlは標的歪みの合成歪みから最も関連する知識を素早く学習することができる。 DRTLを事前学習とメタラーニングパイプラインを含む2つの一般的なトランスファー学習パラダイムでインスタンス化し、歪み関係を意識したFew-shot RealSRを実現する。 複数のベンチマーク実験と徹底的なアブレーション実験により,DRTLの有効性が示された。

Collecting amounts of distorted/clean image pairs in the real world is non-trivial, which seriously limits the practical applications of these supervised learning-based methods on real-world image super-resolution (RealSR). Previous works usually address this problem by leveraging unsupervised learning-based technologies to alleviate the dependency on paired training samples. However, these methods typically suffer from unsatisfactory texture synthesis due to the lack of supervision of clean images. To overcome this problem, we are the first to have a close look at the under-explored direction for RealSR, i.e., few-shot real-world image super-resolution, which aims to tackle the challenging RealSR problem with few-shot distorted/clean image pairs. Under this brand-new scenario, we propose Distortion Relation guided Transfer Learning (DRTL) for the few-shot RealSR by transferring the rich restoration knowledge from auxiliary distortions (i.e., synthetic distortions) to the target RealSR under the guidance of distortion relation. Concretely, DRTL builds a knowledge graph to capture the distortion relation between auxiliary distortions and target distortion (i.e., real distortions in RealSR). Based on the distortion relation, DRTL adopts a gradient reweighting strategy to guide the knowledge transfer process between auxiliary distortions and target distortions. In this way, DRTL could quickly learn the most relevant knowledge from the synthetic distortions for the target distortion. We instantiate DRTL with two commonly-used transfer learning paradigms, including pre-training and meta-learning pipelines, to realize a distortion relation-aware Few-shot RealSR. Extensive experiments on multiple benchmarks and thorough ablation studies demonstrate the effectiveness of our DRTL.
翻訳日:2023-04-19 19:18:37 公開日:2023-04-18
# 確率機械学習を用いた変分量子固有解法における誤差緩和

Error mitigation in variational quantum eigensolvers using tailored probabilistic machine learning ( http://arxiv.org/abs/2111.08814v2 )

ライセンス: Link先を確認
John Rogers, Tao Jiang, Marius S. Frank, Ove Christiansen, Yong-Xin Yao and Nicola Lanat\`a(参考訳) 量子コンピューティング技術は、近い将来、物質や分子のシミュレーションに革命をもたらす可能性がある。 短期量子優位性を達成する上での最大の課題は、現在の量子処理ユニット(QPU)に固有のノイズ効果を効果的に緩和することである。 この課題は、近年大きな関心を集めている変分量子固有解法(VQE)を用いた量子古典ハイブリッドスキームの文脈においても決定的である。 本稿では,量子計算における雑音を軽減するためのアクティブ学習フレームワークにおいて,パラメトリックガウス過程回帰(gpr)を用いた新しい手法を提案する。 本手法は確率的機械学習に基礎を置き,vqe ansatzに基づくカスタムプリエントを活用し,変動パラメータの異なるvqe出力の相関関係を捉えることにより,精度と効率の両立を図る。 我々は,IBMのオープンソース量子コンピューティングフレームワークであるQiskitを用いた2サイトアンダーソン不純物モデルにおいて,VQE出力の精度を大幅に向上し,直接QPUエネルギー評価の回数を削減できることを示す。 この研究は、量子エラー軽減と最適化の継続的な取り組みに貢献し、量子物質シミュレーションにおける量子コンピューティングの可能性の実現に一歩近づいた。

Quantum computing technology has the potential to revolutionize the simulation of materials and molecules in the near future. A primary challenge in achieving near-term quantum advantage is effectively mitigating the noise effects inherent in current quantum processing units (QPUs). This challenge is also decisive in the context of quantum-classical hybrid schemes employing variational quantum eigensolvers (VQEs) that have attracted significant interest in recent years. In this work, we present a novel method that employs parametric Gaussian process regression (GPR) within an active learning framework to mitigate noise in quantum computations, focusing on VQEs. Our approach, grounded in probabilistic machine learning, exploits a custom prior based on the VQE ansatz to capture the underlying correlations between VQE outputs for different variational parameters, thereby enhancing both accuracy and efficiency. We demonstrate the effectiveness of our method on a 2-site Anderson impurity model using the IBM open-source quantum computing framework, Qiskit, showcasing substantial improvements in the accuracy of VQE outputs while reducing the number of direct QPU energy evaluations. This work contributes to the ongoing efforts in quantum error mitigation and optimization, bringing us a step closer to realizing the potential of quantum computing in quantum matter simulations.
翻訳日:2023-04-19 19:18:08 公開日:2023-04-18
# Binarized ResNet:リソース制約エッジにおけるロバスト自動変調分類の実現

Binarized ResNet: Enabling Robust Automatic Modulation Classification at the resource-constrained Edge ( http://arxiv.org/abs/2110.14357v2 )

ライセンス: Link先を確認
Deepsayan Sadhukhan, Nitin Priyadarshini Shankar, Nancy Nayak, Thulasi Tholeti, Sheetal Kalyani(参考訳) 近年、深層ニューラルネットワーク(DNN)は自動変調分類(AMC)に広く使われており、その結果はかなり有望である。 しかし、DNNはメモリと計算の要求が高く、デバイスがリソースに制約のあるエッジネットワークでは実用的ではない。 それらはまた、重大なセキュリティ上の懸念である敵の攻撃に対して脆弱である。 本研究は,低メモリと計算量のためにエッジネットワークに展開可能な,AMC用の回転型バイナリ大型ResNet(RBLResNet)を提案する。 rblresnetと既存のアーキテクチャの浮動小数点重みとアクティベーションのパフォーマンスギャップは、2つの提案手法によって閉じることができる。 (i)マルチレベル分類(MC)及び (II)低メモリと計算能力を維持しながら複数のRBLResNetをバッキングする。 mc法は、deepsigデータセットの24ドルの変調クラスすべてに対して、$10$dbで$93.39\%の精度を達成する。 この性能は最先端(SOTA)のパフォーマンスに匹敵するものであり、メモリは4.75ドル、計算は1214ドルだった。 さらに、RBLResNetは既存のDNNモデルと比較して高い対角性を持つ。 RBLResNets を用いた MC 法は,既存の SOTA 法の頑健さを最大限に越え,幅広い SNR に対して 87.25 % の逆精度を持つ。 低メモリ、低計算、最高対向ロバスト性などの特性は、低消費電力エッジデバイスにおけるロバストAMCにとってより良い選択である。

Recently, deep neural networks (DNNs) have been used extensively for automatic modulation classification (AMC), and the results have been quite promising. However, DNNs have high memory and computation requirements making them impractical for edge networks where the devices are resource-constrained. They are also vulnerable to adversarial attacks, which is a significant security concern. This work proposes a rotated binary large ResNet (RBLResNet) for AMC that can be deployed at the edge network because of low memory and computational complexity. The performance gap between the RBLResNet and existing architectures with floating-point weights and activations can be closed by two proposed ensemble methods: (i) multilevel classification (MC), and (ii) bagging multiple RBLResNets while retaining low memory and computational power. The MC method achieves an accuracy of $93.39\%$ at $10$dB over all the $24$ modulation classes of the Deepsig dataset. This performance is comparable to state-of-the-art (SOTA) performances, with $4.75$ times lower memory and $1214$ times lower computation. Furthermore, RBLResNet also has high adversarial robustness compared to existing DNN models. The proposed MC method with RBLResNets has an adversarial accuracy of $87.25\%$ over a wide range of SNRs, surpassing the robustness of all existing SOTA methods to the best of our knowledge. Properties such as low memory, low computation, and the highest adversarial robustness make it a better choice for robust AMC in low-power edge devices.
翻訳日:2023-04-19 19:17:47 公開日:2023-04-18
# データ品質問題に対するニューラルネットワークロバスト性向上のための変調層

A Modulation Layer to Increase Neural Network Robustness Against Data Quality Issues ( http://arxiv.org/abs/2107.08574v3 )

ライセンス: Link先を確認
Mohamed Abdelhack, Jiaming Zhang, Sandhya Tripathi, Bradley A Fritz, Daniel Felsky, Michael S Avidan, Yixin Chen, Christopher R King(参考訳) データ不足と品質は機械学習における一般的な問題であり、特に医療などの高度なアプリケーションにおいて問題となる。 開発者はしばしば、高品質のデータのみを使用して、慎重にキュレートされたデータセット上で機械学習モデルをトレーニングする。 本稿では,完全連結層の固定重みを付加入力の関数に置き換えることを含む,低品質で欠落したデータの影響を軽減するための新しいニューラルネットワーク修正を提案する。 これは、ニューロンの信頼性と他のデータの存在に基づいて、皮質が入力を上下に調整できる生物学的ニューラルネットワークの神経変調にインスパイアされている。 テストでは、信頼性スコアを変調信号として、変調層を持つモデルは、さらなる欠如を含むデータ品質の劣化に対してより堅牢であることが判明した。 これらのモデルは、インプテーションプロセスを完全にスキップすることでトレーニング時間を節約し、インプテーションが処理できない他のデータ品質指標の導入を可能にするので、インプテーションよりも優れている。 この結果から, 情報品質の低減を全接続層で明示的に考慮することにより, リアルタイムアプリケーションへの人工知能システムの展開が可能であることが示唆された。

Data missingness and quality are common problems in machine learning, especially for high-stakes applications such as healthcare. Developers often train machine learning models on carefully curated datasets using only high quality data; however, this reduces the utility of such models in production environments. We propose a novel neural network modification to mitigate the impacts of low quality and missing data which involves replacing the fixed weights of a fully-connected layer with a function of an additional input. This is inspired from neuromodulation in biological neural networks where the cortex can up- and down-regulate inputs based on their reliability and the presence of other data. In testing, with reliability scores as a modulating signal, models with modulating layers were found to be more robust against degradation of data quality, including additional missingness. These models are superior to imputation as they save on training time by completely skipping the imputation process and further allow the introduction of other data quality measures that imputation cannot handle. Our results suggest that explicitly accounting for reduced information quality with a modulating fully connected layer can enable the deployment of artificial intelligence systems in real-time applications.
翻訳日:2023-04-19 19:17:22 公開日:2023-04-18
# 疲労試験リグの非線形システム同定のためのハイブリッド機械学習モデルの評価

Assessment of hybrid machine learning models for non-linear system identification of fatigue test rigs ( http://arxiv.org/abs/2107.03645v3 )

ライセンス: Link先を確認
Leonhard Heindel, Peter Hantschke and Markus K\"astner(参考訳) 与えられた疲労試験ベンチ駆動信号に対するシステム応答の予測は、線形周波数応答関数モデルが一般的に用いられる課題である。 非線形現象を考慮し,Long Short-Term Memory Networkを用いた既存手法を拡張した新しいハイブリッドモデルを提案する。 この手法のさらなる仮想センシング応用が示されている。 このアプローチはサーボ・ヒドラリックテストリグからの非線形実験データを用いてテストされ、このデータセットが公開されている。 この評価には、時間および周波数領域における様々な測定値、および可変振幅下での疲労強度が用いられる。

The prediction of system responses for a given fatigue test bench drive signal is a challenging task, for which linear frequency response function models are commonly used. To account for non-linear phenomena, a novel hybrid model is suggested, which augments existing approaches using Long Short-Term Memory networks. Additional virtual sensing applications of this method are demonstrated. The approach is tested using non-linear experimental data from a servo-hydraulic test rig and this dataset is made publicly available. A variety of metrics in time and frequency domains, as well as fatigue strength under variable amplitudes, are employed in the evaluation.
翻訳日:2023-04-19 19:17:04 公開日:2023-04-18
# 現代統計学における強化学習 : 最適適応的介入の構築

Reinforcement Learning in Modern Biostatistics: Constructing Optimal Adaptive Interventions ( http://arxiv.org/abs/2203.02605v2 )

ライセンス: Link先を確認
Nina Deliu, Joseph Jay Williams and Bibhas Chakraborty(参考訳) 近年、強化学習(RL)は、健康関連シーケンシャルな意思決定の領域において顕著な地位を獲得し、適応的介入(AI)を提供するツールとしてますます人気が高まっている。 しかし,応用コミュニティと方法論の相乗効果が乏しいこともあって,現実の応用は依然として限られている。 本研究では、RLの一般的な方法論の傘を用いて、動的治療体制の2つのAI領域と、モバイルヘルスにおけるジャスト・イン・タイム適応的介入を橋渡しする。 これら2つのaiドメイン間の類似点と相違点を概説し、rlの使用意義について論じる。 そして最後に,両分野のケーススタディの設計に私たちの経験を活用して,ais分野における統計的,rl,医療研究者間の膨大なコラボレーションの機会について説明します。

In recent years, reinforcement learning (RL) has acquired a prominent position in the space of health-related sequential decision-making, becoming an increasingly popular tool for delivering adaptive interventions (AIs). However, despite potential benefits, its real-life application is still limited, partly due to a poor synergy between the methodological and the applied communities. In this work, we provide the first unified survey on RL methods for learning AIs, using the common methodological umbrella of RL to bridge the two AI areas of dynamic treatment regimes and just-in-time adaptive interventions in mobile health. We outline similarities and differences between these two AI domains and discuss their implications for using RL. Finally, we leverage our experience in designing case studies in both areas to illustrate the tremendous collaboration opportunities between statistical, RL, and healthcare researchers in the space of AIs.
翻訳日:2023-04-19 19:11:16 公開日:2023-04-18
# SQ-CARS:スケーラブルな量子制御と読み出しシステム

SQ-CARS: A Scalable Quantum Control and Readout System ( http://arxiv.org/abs/2203.01523v2 )

ライセンス: Link先を確認
Ujjawal Singhal, Shantharam Kalipatnapu, Pradeep Kumar Gautam, Sourav Majumder, Vaibhav Venkata Lakshmi Pabbisetty, Srivatsava Jandhyala, Vibhor Singh, and Chetan Singh Thakur(参考訳) 本稿では,評価キットZCU111を用いて,マルチキュービット制御と読み出しのためのスケーラブルで構成可能な位相同期システムを開発する。 多数のキュービットに対するスケーラビリティは、複数のチャネルを決定論的に同期させることによって実現される。 コントロールと読み取り機能はすべて、pythonベースのユーザインターフェースでサポートされている。 このシステムは、4-6~ghzの範囲の周波数に対して第2ナイキストゾーン技術を用いて任意のベクトルマイクロ波パルスを合成することができる。 また、チューニング可能なカットオフ周波数と回転ブロックのローパスフィルタをサポートし、ロックイン検出とアクティブなフィードバックを提供する。 さらに, 超伝導トランスモン量子ビットを特徴付けるため, 様々な時間領域計測を行い, 従来使用されていた設定に対するベンチマークを行った。

In this paper, we use the evaluation kit ZCU111 to develop a scalable, configurable and phase synchronized system for multi-qubit control and readout. The scalability to a larger number of qubits is realized by synchronizing multiple channels deterministically. All the control and readout features are supported using a python based user interface. This system can synthesize arbitrary vector microwave pulses using the second-Nyquist zone technique for frequencies in the range of 4-6~GHz. It also supports low pass filters of tunable cutoff frequencies and rotation blocks which can be utilized to perform lock-in detection and provide active feedback. We further perform various time-domain measurements to characterize a superconducting transmon qubit and benchmark our results against traditionally used setups.
翻訳日:2023-04-19 19:11:00 公開日:2023-04-18
# 導波路量子電磁力学における光前駆体

Optical precursors in waveguide quantum electrodynamics ( http://arxiv.org/abs/2203.01401v2 )

ライセンス: Link先を確認
Silvia Cardenas-Lopez, Pablo Solano, Luis A. Orozco, Ana Asenjo-Garcia(参考訳) 広帯域信号が分散媒体を伝搬すると、一部の周波数成分はパルスの中心よりも速く移動する。 これは前駆体、すなわちパルスの主部より早く媒体から発生し、超光的に伝播しているように見える過渡信号の出現に繋がる。 ここでは、導波路に結合した量子ビットの配列を最小に設定して、前駆体の微視的起源を調べる。 線形伝達関数は、大きな量子ビット数の連続媒質に収束するのみである。 それでも、2つの量子ビットで生成される分散は、振動過渡を起こすのに十分である。 前駆体は、パルスの中心が著しく遅れるため、電磁誘導透過の条件下で最もよく観察される。 これらの条件下では、1つのクトリットだけで前駆体を生成するのに十分である。 この結果は、数量子ビットの光分散工学への道を開き、伝送線路に結合した超伝導量子ビットや光導波路に結合した原子によって実現できる。

When a broadband signal propagates through a dispersive medium, some frequency components move faster than the center of the pulse. This leads to the appearance of precursors, transient signals that emerge from the medium earlier than the main part of the pulse and seem to propagate superluminally. Here, we investigate the microscopic origin of precursors in a minimal setup: an array of qubits coupled to a waveguide. The linear transmission function only converges to that of a continuous medium for large qubit numbers. Nevertheless, the dispersion produced by only two qubits is enough to produce oscillatory transients. Precursors are best observed under conditions of electromagnetically-induced transparency, as the center of the pulse is significantly delayed. Under these conditions, just a single qutrit is enough to generate a precursor. Our results pave the way towards dispersion engineering of light with just a few qubits, and can be realized with superconducting qubits coupled to transmission lines or atoms coupled to optical waveguides.
翻訳日:2023-04-19 19:10:31 公開日:2023-04-18
# PMC-Patients: 患者サプリメントの大規模データセットと検索型臨床診断支援システムのベンチマーク

PMC-Patients: A Large-scale Dataset of Patient Summaries and Relations for Benchmarking Retrieval-based Clinical Decision Support Systems ( http://arxiv.org/abs/2202.13876v3 )

ライセンス: Link先を確認
Zhengyun Zhao, Qiao Jin, Fangyuan Chen, Tuorui Peng, Sheng Yu(参考訳) 目的: Retrieval-based Clinical Decision Support (ReCDS) は、特定の患者に関連文献や類似の患者を提供することで、臨床ワークフローを支援することができる。 しかし, ReCDS システムの開発は, 多様な患者コレクションの欠如と, 大規模患者レベルのアノテーションデータセットの公開により, 著しく阻害されている。 本稿では, PMC-Patients と呼ばれる新しいデータセットを用いて, ReCDS-PAR (Patent-to-Patient Retrieval) と ReCDS-PPR (Patent-to-Patient Retrieval) の2つのタスクを定義し, ベンチマークすることを目的とする。 方法: 単純ヒューリスティックスを用いてPubMed Centralの論文から患者要約を抽出し, PubMed citation graphを用いて患者-関節関係と患者-患者の類似性を定義する。 PMC-Patientsベンチマークでは,スパースレトリバー,高密度レトリバー,近隣レトリバーなど,いくつかのReCDSシステムを実装・評価している。 PMC-Patientsの臨床的有用性を示すためにいくつかの症例研究を行った。 結果:pmc患者は患者関連アノテーション3.1mと患者類似性アノテーション293kの167kのサマリーを持ち,recdの最大のリソースであり,患者のコレクションとしては最大である。 PMC-Patientsは高品質なアノテーションを備えた多様なデータセットである。 様々なReCDSシステムの評価は、PMC-Patientsベンチマークが困難であることを示し、さらなる研究を求めている。 結論:我々は,大規模で多様で広く利用可能な患者概要データセットであるpmc患者について紹介する。 PMC-Patientsに基づいて、ReCDSシステムのための2つのベンチマークタスクを正式に定義し、既存の検索手法を評価する。 PMC-Patientsは、ReCDSシステムの方法論研究を大いに促進し、現実の臨床的有用性を示す。

Objective: Retrieval-based Clinical Decision Support (ReCDS) can aid clinical workflow by providing relevant literature and similar patients for a given patient. However, the development of ReCDS systems has been severely obstructed by the lack of diverse patient collections and publicly available large-scale patient-level annotation datasets. In this paper, we aim to define and benchmark two ReCDS tasks: Patient-to-Article Retrieval (ReCDS-PAR) and Patient-to-Patient Retrieval (ReCDS-PPR) using a novel dataset called PMC-Patients. Methods: We extract patient summaries from PubMed Central articles using simple heuristics and utilize the PubMed citation graph to define patient-article relevance and patient-patient similarity. We also implement and evaluate several ReCDS systems on the PMC-Patients benchmarks, including sparse retrievers, dense retrievers, and nearest neighbor retrievers. We conduct several case studies to show the clinical utility of PMC-Patients. Results: PMC-Patients contains 167k patient summaries with 3.1M patient-article relevance annotations and 293k patient-patient similarity annotations, which is the largest-scale resource for ReCDS and also one of the largest patient collections. Human evaluation and analysis show that PMC-Patients is a diverse dataset with high-quality annotations. The evaluation of various ReCDS systems shows that the PMC-Patients benchmark is challenging and calls for further research. Conclusion: We present PMC-Patients, a large-scale, diverse, and publicly available patient summary dataset with the largest-scale patient-level relation annotations. Based on PMC-Patients, we formally define two benchmark tasks for ReCDS systems and evaluate various existing retrieval methods. PMC-Patients can largely facilitate methodology research on ReCDS systems and shows real-world clinical utility.
翻訳日:2023-04-19 19:10:18 公開日:2023-04-18
# 非エルミート系に対する量子ジャンプの効果

Effect of quantum jumps on non-Hermitian system ( http://arxiv.org/abs/2202.12591v2 )

ライセンス: Link先を確認
Xiangyu Niu, Jianning Li, S. L. Wu, X. X. Yi(参考訳) 非エルミート系の実現可能性の一つは、マスター方程式の量子ジャンプ項を省略した開量子系に基づいている。 これは、量子ジャンプの効果を無視できる短時間でのよい近似である。 しかしながら、ジャンプはシステムの長期的ダイナミクスに影響を与える可能性があるため、これらの研究でジャンプを考慮に入れる動機となる。 本稿では,量子ジャンプを摂動として扱うことにより,非エルミート系に対する量子ジャンプの効果を検討する。 この目的のために、まず、マスター方程式に基づく開量子システムのダイナミクスを記述するための効果的なハミルトニアンを導出し、次に量子ジャンプにおいて固有状態と固有エネルギーを1次および2次まで拡張する。 最後に、この理論を散逸二レベル系と散逸フェルミオン超流動系に適用する。 量子ジャンプが力学および非平衡相転移に与える影響を実証し、議論した。

One among the possible realizations of non-Hermitian systems is based on open quantum systems by omitting quantum jumping terms in the master equation. This is a good approximation at short times where the effects of quantum jumps can be ignored. However, the jumps can affect the long time dynamics of the system, motivating us to take the jumps into account in these studies. In this paper, by treating the quantum jumps as perturbations, we examine the effect of the quantum jumps on the non-Hermitian system. For this purpose, we first derive an effective Hamiltonian to describe the dynamics of the open quantum system based on the master equation, then expand the eigenstates and eigenenergies up to the first and second order in the quantum jumps. Finally, we apply our theory to a dissipative two-level system and dissipative fermionic superfluids. The effect of quantum jump on the dynamics and the nonequilibrium phase transition is demonstrated and discussed.
翻訳日:2023-04-19 19:09:39 公開日:2023-04-18
# 低資源シナリオにおける知識抽出:調査と展望

Knowledge Extraction in Low-Resource Scenarios: Survey and Perspective ( http://arxiv.org/abs/2202.08063v4 )

ライセンス: Link先を確認
Shumin Deng, Ningyu Zhang, Bryan Hooi(参考訳) 知識抽出(ke、英: knowledge extraction)とは、構造化されていないテキストから構造的な情報を抽出することを目的としている。 低リソースKEに対する多くのニューラルアプローチが広く研究され、優れた性能を達成している。 本稿では,低リソースシナリオにおけるKEに向けた文献レビューを行い,(1)高リソースデータの利用,(2)より強力なモデルの利用,(3)データとモデルを併用した3つのパラダイムに体系的に分類する。 さらに,有望な応用を強調するとともに,今後の研究の方向性について概説する。 私たちの調査は、学術コミュニティと産業コミュニティの両方がこの分野をより深く理解し、より多くのアイデアを刺激し、幅広い応用を促進するのに役立つことを願っています。

Knowledge Extraction (KE), aiming to extract structural information from unstructured texts, often suffers from data scarcity and emerging unseen types, i.e., low-resource scenarios. Many neural approaches to low-resource KE have been widely investigated and achieved impressive performance. In this paper, we present a literature review towards KE in low-resource scenarios, and systematically categorize existing works into three paradigms: (1) exploiting higher-resource data, (2) exploiting stronger models, and (3) exploiting data and models together. In addition, we highlight promising applications and outline some potential directions for future research. We hope that our survey can help both the academic and industrial communities to better understand this field, inspire more ideas, and boost broader applications.
翻訳日:2023-04-19 19:09:26 公開日:2023-04-18
# Media Slantは感染性がある

Media Slant is Contagious ( http://arxiv.org/abs/2202.07269v2 )

ライセンス: Link先を確認
Philine Widmer, Sergio Galletta, and Elliott Ash(参考訳) メディアスラントの拡散、特に全国のケーブルニュースからのパルチザンコンテンツが米国の地方新聞に与える影響について検討する。 我々は、Fox News Channel(FNC)、CNN、MSNBCのコンテンツに基づいて訓練されたケーブルニューススラントをテキストベースで測定し、地元の新聞がCNN/MSNBCよりもFNCのスラントを採用する方法を分析する。 以上の結果から,局所的なfnc視聴率の上昇に伴い,ローカルニュースはfncコンテンツとより類似することが示された。 このシフトは、ケーブルニュースからの借用に限らず、地元の新聞自身のコンテンツが変化している。 さらに、ケーブルテレビはローカルニュースコンテンツを分極する。

We examine the diffusion of media slant, specifically how partisan content from national cable news affects local newspapers in the U.S., 2005-2008. We use a text-based measure of cable news slant trained on content from Fox News Channel (FNC), CNN, and MSNBC to analyze how local newspapers adopt FNC's slant over CNN/MSNBC's. Our findings show that local news becomes more similar to FNC content in response to an exogenous increase in local FNC viewership. This shift is not limited to borrowing from cable news, but rather, local newspapers' own content changes. Further, cable TV slant polarizes local news content.
翻訳日:2023-04-19 19:09:13 公開日:2023-04-18
# 脳波型脳コンピューターインタフェースのための深層学習モデル解釈のベストプラクティスに向けて

Towards Best Practice of Interpreting Deep Learning Models for EEG-based Brain Computer Interfaces ( http://arxiv.org/abs/2202.06948v3 )

ライセンス: Link先を確認
Jian Cui, Liqiang Yuan, Zhaoxiang Wang, Ruilin Li, Tianzi Jiang(参考訳) ディープラーニングは、脳波ベースのBCIの多くのタスクで最先端のパフォーマンスを達成したため、近年、モデルで何を学んだかを理解するために多くの努力がなされている。 これは一般的に、入力の各ピクセルがトレーニングされたモデルの最終的な分類にどの程度貢献するかを示すヒートマップを生成する。 広く使われているにもかかわらず、得られた解釈結果がどの程度信頼され、モデル決定をどの程度正確に反映できるかはまだ分かっていない。 この研究ギャップを埋めるため、脳波データセット上で異なる深部解釈手法を定量的に評価する研究を行っている。 その結果,最初の段階として適切な解釈手法を選択することの重要性が明らかになった。 また,解析結果の品質は,全体として優れた手法を用いる場合であっても,個々のサンプルに対して矛盾することがわかった。 モデル構造やデータセットタイプを含む多くの要因は、解釈結果の品質に影響を与える可能性がある。 そこで本研究では,解釈結果を理解可能かつ信頼性の高い方法で提示するための一連の手順を提案する。 本稿では,eegベースのbciに対して,異なるシナリオから選択したインスタンスを用いた手法の有用性について述べる。

As deep learning has achieved state-of-the-art performance for many tasks of EEG-based BCI, many efforts have been made in recent years trying to understand what have been learned by the models. This is commonly done by generating a heatmap indicating to which extent each pixel of the input contributes to the final classification for a trained model. Despite the wide use, it is not yet understood to which extent the obtained interpretation results can be trusted and how accurate they can reflect the model decisions. In order to fill this research gap, we conduct a study to evaluate different deep interpretation techniques quantitatively on EEG datasets. The results reveal the importance of selecting a proper interpretation technique as the initial step. In addition, we also find that the quality of the interpretation results is inconsistent for individual samples despite when a method with an overall good performance is used. Many factors, including model structure and dataset types, could potentially affect the quality of the interpretation results. Based on the observations, we propose a set of procedures that allow the interpretation results to be presented in an understandable and trusted way. We illustrate the usefulness of our method for EEG-based BCI with instances selected from different scenarios.
翻訳日:2023-04-19 19:08:59 公開日:2023-04-18
# 経験的クラスインクリメンタル学習のための再バランスバッチ正規化

Rebalancing Batch Normalization for Exemplar-based Class-Incremental Learning ( http://arxiv.org/abs/2201.12559v3 )

ライセンス: Link先を確認
Sungmin Cha, Sungjun Cho, Dasol Hwang, Sunwon Hong, Moontae Lee, and Taesup Moon(参考訳) バッチ正規化(BN)とその変種は、様々なコンピュータビジョンタスクにおけるニューラルネットに対して広範囲に研究されてきたが、連続学習におけるBNの効果を研究する研究はほとんど行われていない。 そこで我々はBNの新しい更新パッチを開発し、特にCIL(Exemplar-based class-incremental Learning)に特化している。 cilにおけるbnの主な問題は、ミニバッチにおける現在のタスクと過去のタスクの間のトレーニングデータの不均衡であり、経験的平均と分散、およびbnの学習可能なアフィン変換パラメータが現在のタスクに強く偏っている。 近年のbn変種の一つが「オンライン」シルのために開発され、1つのエポックでトレーニングが行われているが、それらの方法は必ずしも不均衡なトレーニングデータで複数のエポックをトレーニングする「オフライン」シルに利益をもたらすものではない。 これらの手法の非効率性の主な理由は、特にBNのアフィン変換パラメータを学習するための勾配の計算において、データ不均衡の問題を完全に解決しないことである。 そこで,本研究では,タスクベースBN (TBBN) と呼ばれる新しいハイパーパラメータフリー変種を,トレーニング中のリフォームとリピート操作の両方を用いて,水平結合型タスクバランスバッチを作成することにより,不均衡問題をより正確に解決することを提案する。 CIFAR-100, ImageNet-100, および5つの異なるタスクデータセットのクラスインクリメンタル学習実験に基づいて, 推定時間におけるバニラBNと全く同じ動作であるTBBNが, 既存の既存のオフラインCILアルゴリズムに容易に適用でき, BNの変種を一貫して上回ることを示す。

Batch Normalization (BN) and its variants has been extensively studied for neural nets in various computer vision tasks, but relatively little work has been dedicated to studying the effect of BN in continual learning. To that end, we develop a new update patch for BN, particularly tailored for the exemplar-based class-incremental learning (CIL). The main issue of BN in CIL is the imbalance of training data between current and past tasks in a mini-batch, which makes the empirical mean and variance as well as the learnable affine transformation parameters of BN heavily biased toward the current task -- contributing to the forgetting of past tasks. While one of the recent BN variants has been developed for "online" CIL, in which the training is done with a single epoch, we show that their method does not necessarily bring gains for "offline" CIL, in which a model is trained with multiple epochs on the imbalanced training data. The main reason for the ineffectiveness of their method lies in not fully addressing the data imbalance issue, especially in computing the gradients for learning the affine transformation parameters of BN. Accordingly, our new hyperparameter-free variant, dubbed as Task-Balanced BN (TBBN), is proposed to more correctly resolve the imbalance issue by making a horizontally-concatenated task-balanced batch using both reshape and repeat operations during training. Based on our experiments on class incremental learning of CIFAR-100, ImageNet-100, and five dissimilar task datasets, we demonstrate that our TBBN, which works exactly the same as the vanilla BN in the inference time, is easily applicable to most existing exemplar-based offline CIL algorithms and consistently outperforms other BN variants.
翻訳日:2023-04-19 19:08:41 公開日:2023-04-18
# 実践計画: 潜在空間におけるゴールの構成による効率的なオンラインファインチューニング

Planning to Practice: Efficient Online Fine-Tuning by Composing Goals in Latent Space ( http://arxiv.org/abs/2205.08129v2 )

ライセンス: Link先を確認
Kuan Fang, Patrick Yin, Ashvin Nair, Sergey Levine(参考訳) 汎用ロボットは、現実世界の非構造環境において困難なタスクを完了するために、多様な行動レパートリーを必要とする。 この問題に対処するため、目標条件強化学習は、コマンド上の幅広いタスクに対して、設定可能な目標に到達可能なポリシーを取得することを目的としている。 しかしながら、このような目標条件付きポリシーは、スクラッチからトレーニングするのが難しく、時間がかかることで悪名高い。 本稿では,多種多様なインタラクションを必要とする長期タスクに対して,目標条件付きポリシーを実践的に訓練する手法であるプランニング・トゥ・プラクティス(PTP)を提案する。 我々のアプローチは2つの重要なアイデアに基づいている。 まず,低レベルモデルフリーポリシーのために,条件付きサブゴール生成器を用いて中間部分ゴールを設定する高レベルプランナを階層的に分解する。 第2に,条件付きサブゴールジェネレータとオフライン強化学習による事前収集データポリシーの両方を事前学習した上で,オンライン探索によるポリシーの微調整を行うハイブリッドアプローチを提案する。 この微調整プロセスは、計画されたサブゴールによって促進され、元の目標タスクを、学習が極めて容易な短期目標達成タスクに分解する。 我々はシミュレーションと実世界の両方で実験を行い、このポリシーは短い原始的行動のデモンストレーションで事前訓練され、オフラインデータには見られない時間的拡張タスクのために微調整される。 実験の結果,PTPは目標タスクを効率的に解決できるようなサブゴールの実行可能なシーケンスを生成できることが示唆された。

General-purpose robots require diverse repertoires of behaviors to complete challenging tasks in real-world unstructured environments. To address this issue, goal-conditioned reinforcement learning aims to acquire policies that can reach configurable goals for a wide range of tasks on command. However, such goal-conditioned policies are notoriously difficult and time-consuming to train from scratch. In this paper, we propose Planning to Practice (PTP), a method that makes it practical to train goal-conditioned policies for long-horizon tasks that require multiple distinct types of interactions to solve. Our approach is based on two key ideas. First, we decompose the goal-reaching problem hierarchically, with a high-level planner that sets intermediate subgoals using conditional subgoal generators in the latent space for a low-level model-free policy. Second, we propose a hybrid approach which first pre-trains both the conditional subgoal generator and the policy on previously collected data through offline reinforcement learning, and then fine-tunes the policy via online exploration. This fine-tuning process is itself facilitated by the planned subgoals, which breaks down the original target task into short-horizon goal-reaching tasks that are significantly easier to learn. We conduct experiments in both the simulation and real world, in which the policy is pre-trained on demonstrations of short primitive behaviors and fine-tuned for temporally extended tasks that are unseen in the offline data. Our experimental results show that PTP can generate feasible sequences of subgoals that enable the policy to efficiently solve the target tasks.
翻訳日:2023-04-19 19:01:20 公開日:2023-04-18
# 量子コンパイルのためのCNOT回路合成による動的量子ビットルーティング

Dynamic Qubit Routing with CNOT Circuit Synthesis for Quantum Compilation ( http://arxiv.org/abs/2205.00724v3 )

ライセンス: Link先を確認
Arianne Meijer - van de Griend and Sarah Meng Li(参考訳) 多くの量子コンピュータは、どの2ビット演算を局所的に許可するかという制約がある。 これらの制約の下で量子回路を実行するためには、量子ビットを異なる量子レジスタにマッピングする必要がある。 近年,Steiner ツリーをベースとしたコンパイル戦略が,CNOT ルートの競合ツールとなることが示されている。 しかし、これらのアルゴリズムはルーティングの前にキュービットマップを決定する必要がある。 さらに、キュービットマップは計算全体を通して固定されるため、論理キュービットは別の物理キュービットレジスタに移動されない。 これは、結果の回路のcnotカウントに関して非効率である。 本稿では,量子回路上でcnotをルーティングするためのpermrowcolアルゴリズムを提案する。 計算中に論理量子ビットを動的に再マップし、その結果、Steiner-Gauss や RowCol よりも出力 CNOT が少ない。 ここでは、cnot 上の回路に注目するが、cnot と単一量子ビットゲートからなるサブ回路に量子回路をスライスすることで、clifford+t 回路のルーティングおよびマッピング戦略に一般化することができる。 さらに、PermRowColは、位相多項式の合成やZX-ダイアグラムからの量子回路の抽出において、Steiner-Gaussの代わりに使用できる。

Many quantum computers have constraints regarding which two-qubit operations are locally allowed. To run a quantum circuit under those constraints, qubits need to be mapped to different quantum registers, and multi-qubit gates need to be routed accordingly. Recent developments have shown that compiling strategies based on Steiner tree provide a competitive tool to route CNOTs. However, these algorithms require the qubit map to be decided before routing. Moreover, the qubit map is fixed throughout the computation, i.e. the logical qubit will not be moved to a different physical qubit register. This is inefficient with respect to the CNOT count of the resulting circuit. In this paper, we propose the algorithm PermRowCol for routing CNOTs in a quantum circuit. It dynamically remaps logical qubits during the computation, and thus results in fewer output CNOTs than the algorithms Steiner-Gauss and RowCol. Here we focus on circuits over CNOT only, but this method could be generalized to a routing and mapping strategy on Clifford+T circuits by slicing the quantum circuit into subcircuits composed of CNOTs and single-qubit gates. Additionally, PermRowCol can be used in place of Steiner-Gauss in the synthesis of phase polynomials as well as the extraction of quantum circuits from ZX-diagrams.
翻訳日:2023-04-19 19:00:51 公開日:2023-04-18
# 資源拘束型コントラスト画像検索における予測特徴量抑圧の低減

Reducing Predictive Feature Suppression in Resource-Constrained Contrastive Image-Caption Retrieval ( http://arxiv.org/abs/2204.13382v2 )

ライセンス: Link先を確認
Maurits Bleeker, Andrew Yates, Maarten de Rijke(参考訳) 画像キャプチャ検索(icr)法を訓練するには、コントラスト損失関数が最適関数の共通の選択である。 残念なことに、対照的なICR法は予測的特徴抑制に弱い。 予測機能はクエリと候補項目の類似性を正確に示す機能である。 しかしながら、トレーニング中に複数の予測的特徴が存在する場合、エンコーダモデルは、正と負のペアを区別する必要がないため、冗長な予測的特徴を抑制する傾向がある。 いくつかの予測機能はトレーニング中に冗長であるが、これらの機能は評価中に関連があるかもしれない。 本稿では,リソース制約のある ICR 手法における予測的特徴抑圧の削減手法を提案する。 汎用文エンコーダの潜在空間における入力キャプションを再構成するため、コントラストicrフレームワークに新たなデコーダを追加することにより、画像およびキャプションエンコーダが予測特徴を抑圧するのを防止する。 LTDの目的を最適化制約として実装し、主にコントラスト損失を最適化しながら、復元損失が境界値以下であることを保証する。 重要なことは、LTDは追加の訓練データや高価な(堅い)負の採掘戦略に依存しない。 実験の結果,入力空間における入力キャプションの再構築とは違って,リコール@k,r精度,nDCGのスコアを対照的なICRベースラインよりも高めることにより,予測的特徴抑制を低減できることがわかった。 さらに,2つの最適化目的ではなく,最適化制約としてLTDを実装すべきであることを示す。 最後に, ltd は異なるコントラスト学習損失と多種多様なリソース制約型 icr 手法で使用できることを示した。

To train image-caption retrieval (ICR) methods, contrastive loss functions are a common choice for optimization functions. Unfortunately, contrastive ICR methods are vulnerable to predictive feature suppression. Predictive features are features that correctly indicate the similarity between a query and a candidate item. However, in the presence of multiple predictive features during training, encoder models tend to suppress redundant predictive features, since these features are not needed to learn to discriminate between positive and negative pairs. While some predictive features are redundant during training, these features might be relevant during evaluation. We introduce an approach to reduce predictive feature suppression for resource-constrained ICR methods: latent target decoding (LTD). We add an additional decoder to the contrastive ICR framework, to reconstruct the input caption in a latent space of a general-purpose sentence encoder, which prevents the image and caption encoder from suppressing predictive features. We implement the LTD objective as an optimization constraint, to ensure that the reconstruction loss is below a bound value while primarily optimizing for the contrastive loss. Importantly, LTD does not depend on additional training data or expensive (hard) negative mining strategies. Our experiments show that, unlike reconstructing the input caption in the input space, LTD reduces predictive feature suppression, measured by obtaining higher recall@k, r-precision, and nDCG scores than a contrastive ICR baseline. Moreover, we show that LTD should be implemented as an optimization constraint instead of a dual optimization objective. Finally, we show that LTD can be used with different contrastive learning losses and a wide variety of resource-constrained ICR methods.
翻訳日:2023-04-19 19:00:31 公開日:2023-04-18
# 速度制御に基づく運動モデルのオンライン校正による視覚慣性オドメトリー

Visual-Inertial Odometry with Online Calibration of Velocity-Control Based Kinematic Motion Models ( http://arxiv.org/abs/2204.06776v3 )

ライセンス: Link先を確認
Haolong Li and Joerg Stueckler(参考訳) 視覚慣性オドメトリー(VIO)は、パワーとペイロードの制約のある自律ロボットにとって重要な技術である。 本稿では,車輪付き移動ロボットの速度制御に基づく運動モデルの統合と校正を行うステレオカメラを用いたVIOの新しいアプローチを提案する。 このような動きモデルを含めることで、VIOの精度を向上させることができる。 この目的のために提案された車輪オドメータの計測を統合するために提案されたいくつかのアプローチと比較して、この方法は車輪エンコーダを必要とせず、ロボットの動きを速度制御に基づく運動モデルでモデル化できる場合に適用することができる。 我々は,ラジアル基底関数(rbf)カーネルを用いて制御コマンドと実際のロボット動作の時間遅延と偏差を補償する。 モーションモデルはVIOシステムによってオンラインで校正され、モーションコントロールと計画のための前方モデルとして使用できる。 本手法は,様々な屋内環境において得られたデータを用いて評価し,純vio法よりも改善し,オンライン校正モデルの予測精度を評価する。

Visual-inertial odometry (VIO) is an important technology for autonomous robots with power and payload constraints. In this paper, we propose a novel approach for VIO with stereo cameras which integrates and calibrates the velocity-control based kinematic motion model of wheeled mobile robots online. Including such a motion model can help to improve the accuracy of VIO. Compared to several previous approaches proposed to integrate wheel odometer measurements for this purpose, our method does not require wheel encoders and can be applied when the robot motion can be modeled with velocity-control based kinematic motion model. We use radial basis function (RBF) kernels to compensate for the time delay and deviations between control commands and actual robot motion. The motion model is calibrated online by the VIO system and can be used as a forward model for motion control and planning. We evaluate our approach with data obtained in variously sized indoor environments, demonstrate improvements over a pure VIO method, and evaluate the prediction accuracy of the online calibrated model.
翻訳日:2023-04-19 18:59:58 公開日:2023-04-18
# 局所遷移下における制約付きMDPと確率的最短経路の完全多項式時間近似法

A Fully Polynomial Time Approximation Scheme for Constrained MDPs and Stochastic Shortest Path under Local Transitions ( http://arxiv.org/abs/2204.04780v2 )

ライセンス: Link先を確認
Majid Khonji(参考訳) 固定水平制約マルコフ決定過程 (C-MDP) は, 動作制約下での確率環境における計画モデルとしてよく知られている。 Chance-Constrained MDP (CC-MDP) は、多くの安全クリティカルなアプリケーションで望まれる制約違反の確率を制限できる変種である。 CC-MDPはまた、Stochastic Shortest Path (SSP)と呼ばれるMDPのクラスをデッドエンドの下でモデル化することができる。 この研究は(C)C-MDPの構造、特に局所遷移を伴う重要な変種を研究する。 この変種では、州の到達性は、残りの州からある程度の局所性と独立性を示す。 より正確には、ある時点で到達可能な将来の状態を共有する状態の数は、常に一定である。 (C)C-MDPは2の計画地平線であってもNP-Hardである。 そこで本研究では, (c)c-mdp に対する多項式時間近似スキームを提案する。 このようなアルゴリズムは理論上最良の近似アルゴリズムの一つであり、制約付きmdpとその変異の近似可能性に関する洞察を与える。

The fixed-horizon constrained Markov Decision Process (C-MDP) is a well-known model for planning in stochastic environments under operating constraints. Chance-Constrained MDP (CC-MDP) is a variant that allows bounding the probability of constraint violation, which is desired in many safety-critical applications. CC-MDP can also model a class of MDPs, called Stochastic Shortest Path (SSP), under dead-ends, where there is a trade-off between the probability-to-goal and cost-to-goal. This work studies the structure of (C)C-MDP, particularly an important variant that involves local transition. In this variant, the state reachability exhibits a certain degree of locality and independence from the remaining states. More precisely, the number of states, at a given time, that share some reachable future states is always constant. (C)C-MDP under local transition is NP-Hard even for a planning horizon of two. In this work, we propose a fully polynomial-time approximation scheme for (C)C-MDP that computes (near) optimal deterministic policies. Such an algorithm is among the best approximation algorithm attainable in theory and gives insights into the approximability of constrained MDP and its variants.
翻訳日:2023-04-19 18:59:42 公開日:2023-04-18
# ジョセフソンパラメトリックシステムにおける多成分絡み合いの生成と構成

Generation and structuring of multipartite entanglement in Josephson parametric system ( http://arxiv.org/abs/2203.09247v2 )

ライセンス: Link先を確認
K. V. Petrovnin, M. R. Perelshtein, T. Korkalainen, V. Vesterinen, I. Lilja, G. S. Paraoanu, P. J. Hakonen(参考訳) 量子相関は量子現象に基づく高度な情報処理において重要な資源である。 注目すべきことに、量子場の真空状態は、多部量子絡み合いの生成の鍵となる要素として作用する。 本研究では, 2つの連続ポンプ音間の位相差を用いて, 真の三成分絡み状態の生成とその制御を実現する。 共分散行列の部分空間の3分割ビスケーズ状態に対する制御を実証する。 さらに, 3音ポンピングスキームにおける位相関係を最適化することにより, \textit{generalized} h-graph状態の真の四角いエンタングルメントを探索する(\mathscr{\tilde{h}}$-graph)。 提案手法は,マイクロ波モードの真の四分割交絡を初めて実演することのできる,絡み合い構造のための包括的制御ツールボックスを提供する。 全ての実験結果は非線形量子ランゲヴィン方程式の数値シミュレーションによって検証される。 マルチポンプ構成によって促進される量子資源は、パラメトリックマイクロ波キャビティを用いた量子データ処理のさらなる可能性を提供する。

Quantum correlations are a vital resource in advanced information processing based on quantum phenomena. Remarkably, the vacuum state of a quantum field may act as a key element for the generation of multipartite quantum entanglement. In this work, we achieve generation of genuine tripartite entangled state and its control by the use of the phase difference between two continuous pump tones. We demonstrate control of the subspaces of the covariance matrix for tripartite bisqueezed state. Furthermore, by optimizing the phase relationships in a three-tone pumping scheme we explore genuine quadripartite entanglement of a \textit{generalized} H-graph state ($\mathscr{\tilde{H}}$-graph). Our scheme provides a comprehensive control toolbox for the entanglement structure and allows us to demonstrate, for first time to our knowledge, genuine quadripartite entanglement of microwave modes. All experimental results are verified with numerical simulations of the nonlinear quantum Langevin equation. We envision that quantum resources facilitated by multi-pump configurations offer enhanced prospects for quantum data processing using parametric microwave cavities.
翻訳日:2023-04-19 18:59:08 公開日:2023-04-18
# Panoptic SwiftNet: リアルタイムパノプティックセグメンテーションのためのピラミッドフュージョン

Panoptic SwiftNet: Pyramidal Fusion for Real-time Panoptic Segmentation ( http://arxiv.org/abs/2203.07908v2 )

ライセンス: Link先を確認
Josip \v{S}ari\'c, Marin Or\v{s}i\'c, Sini\v{s}a \v{S}egvi\'c(参考訳) Dense Panoptic Predictionは、自動運転、自動倉庫、リモートセンシングなど、既存の多くのアプリケーションにおいて重要な要素である。 これらのアプリケーションの多くは、安価なハードウェアや組み込みハードウェア上の大きな入力解像度よりも高速な推論を必要とする。 マルチスケール特徴抽出のためのバックボーン容量をトレードオフすることで,この目標を達成することを提案する。 パンオプティカルセグメンテーションに対する同時期のアプローチと比較して,提案手法の主な特徴は,効率的なスケール同変特徴抽出,ピラミッド融合によるクロススケールアップサンプリング,画素対インテンス割り当てのバウンダリアウェア学習である。 提案手法は,都市全体および地域全体のデータセットの画素数が多いため,リモートセンシングに非常に適している。 我々は,都市景観,vista,coco,bsb-aerialデータセットに関するpanoptic実験を行う。 我々のモデルは、FP16精度とTensorRT最適化を備えたRTX3090 GPU上で、毎秒100万MPx以上の画像を処理しながら、BSB-Aerialデータセット上の技術状況よりも優れています。

Dense panoptic prediction is a key ingredient in many existing applications such as autonomous driving, automated warehouses or remote sensing. Many of these applications require fast inference over large input resolutions on affordable or even embedded hardware. We propose to achieve this goal by trading off backbone capacity for multi-scale feature extraction. In comparison with contemporaneous approaches to panoptic segmentation, the main novelties of our method are efficient scale-equivariant feature extraction, cross-scale upsampling through pyramidal fusion and boundary-aware learning of pixel-to-instance assignment. The proposed method is very well suited for remote sensing imagery due to the huge number of pixels in typical city-wide and region-wide datasets. We present panoptic experiments on Cityscapes, Vistas, COCO and the BSB-Aerial dataset. Our models outperform the state of the art on the BSB-Aerial dataset while being able to process more than a hundred 1MPx images per second on a RTX3090 GPU with FP16 precision and TensorRT optimization.
翻訳日:2023-04-19 18:58:50 公開日:2023-04-18
# NLPにおける対人防御とロバスト性に関する調査

A Survey of Adversarial Defences and Robustness in NLP ( http://arxiv.org/abs/2203.06414v4 )

ライセンス: Link先を確認
Shreya Goyal, Sumanth Doddapaneni, Mitesh M.Khapra, Balaraman Ravindran(参考訳) ここ数年、深層ニューラルネットワークは入力データにおける敵の摂動に耐えるほど弾力性がなく、攻撃に弱いことがますます明らかになっている。 様々な著者がコンピュータビジョンと自然言語処理(NLP)タスクに対する強力な敵攻撃を提案している。 結果として、これらのネットワークの障害を防ぐために多くの防御機構が提案されている。 ニューラルネットワークを敵攻撃から守ることの重要性は、入力データが摂動してもモデルの予測が変わらないことを保証することである。 テキスト分類や名前付きエンティティ認識,自然言語推論などの異なるNLPタスクに対応して,NLPにおける敵防御手法が提案されている。 これらの方法のいくつかは、ニューラルネットワークを敵の攻撃から守るだけでなく、トレーニング中に正規化メカニズムとして働き、モデルの過剰フィットを防ぐ。 本調査は,過去数年間にNLPにおける敵防衛のために提案された様々な手法を,新しい分類法を導入して検討することを目的とする。 調査はまた、NLPにおける高度なディープニューラルネットワークの脆弱性と、それらを保護する上での課題を強調している。

In the past few years, it has become increasingly evident that deep neural networks are not resilient enough to withstand adversarial perturbations in input data, leaving them vulnerable to attack. Various authors have proposed strong adversarial attacks for computer vision and Natural Language Processing (NLP) tasks. As a response, many defense mechanisms have also been proposed to prevent these networks from failing. The significance of defending neural networks against adversarial attacks lies in ensuring that the model's predictions remain unchanged even if the input data is perturbed. Several methods for adversarial defense in NLP have been proposed, catering to different NLP tasks such as text classification, named entity recognition, and natural language inference. Some of these methods not only defend neural networks against adversarial attacks but also act as a regularization mechanism during training, saving the model from overfitting. This survey aims to review the various methods proposed for adversarial defenses in NLP over the past few years by introducing a novel taxonomy. The survey also highlights the fragility of advanced deep neural networks in NLP and the challenges involved in defending them.
翻訳日:2023-04-19 18:58:35 公開日:2023-04-18
# 決定論的単一原子アレイと微細光学キャビティとの強結合の実現

Realization of strong coupling between deterministic single-atom arrays and a high-finesse miniature optical cavity ( http://arxiv.org/abs/2207.04371v3 )

ライセンス: Link先を確認
Yanxin Liu, Zhihui Wang, Pengfei Yang, Qinxia Wang, Qing Fan, Shijun Guan, Gang Li, Pengfei Zhang, and Tiancai Zhang(参考訳) 1次元(1次元)単一原子配列と高精細小空洞との強い結合を実験的に実証した。 原子配列は、次元が1$\times$11の1D光ツイーザアレイに単一原子をロードすることによって得られる。 そのため、決定論的原子数を求め、CCDカメラに原子アレイをリアルタイムに撮像して原子数を決定する。 高粒度ファブリ-ペロキャビティにおける原子配列の位置と間隔を正確に制御することにより、アレイ内の全ての原子は同時にキャビティに強く結合される。 真空ラビ分裂スペクトルは、決定論的原子番号を1から8に判別し、原子番号$N$に対する結合強度の集合的増強に対する$\sqrt{N}$$の依存性を単原子レベルで検証する。

We experimentally demonstrate strong coupling between a one-dimensional (1D) single-atom array and a high-finesse miniature cavity. The atom array is obtained by loading single atoms into a 1D optical tweezer array with dimensions of 1$\times$11. Therefore, a deterministic number of atoms is obtained, and the atom number is determined by imaging the atom array on a CCD camera in real time. By precisely controlling the position and spacing of the atom array in the high finesse Fabry--Perot cavity, all the atoms in the array are strongly coupled to the cavity simultaneously. The vacuum Rabi splitting spectra are discriminated for deterministic atom numbers from 1 to 8, and the $\sqrt{N}$ dependence of the collective enhancement of the coupling strength on atom number $N$ is validated at the single-atom level.
翻訳日:2023-04-19 18:53:00 公開日:2023-04-18
# ポリノミアルゾノトープを用いた閉ループニューラルネットワークの検証

Open- and Closed-Loop Neural Network Verification using Polynomial Zonotopes ( http://arxiv.org/abs/2207.02715v2 )

ライセンス: Link先を確認
Niklas Kochdumper, Christian Schilling, Matthias Althoff, Stanley Bak(参考訳) 本稿では,ReLU,シグモイド,双曲型タンジェント活性化関数を用いたニューラルネットワークを用いて,画像の厳密な非凸囲いを効率的に計算する手法を提案する。 特に,各ニューロンの入力-出力関係を多項式近似により抽象化し,多項式ゾノトープを用いて設定された方法で評価する。 我々のアプローチは、オープンループニューラルネットワークの検証にも有用であるが、我々の主な応用はニューラルネットワーク制御システムの到達可能性解析であり、多項式ゾノトープは、ニューラルネットワークによって引き起こされる非凸性やシステムダイナミクスを捉えることができる。 この結果、様々なベンチマークで示すように、他の手法よりも優れたパフォーマンスが得られる。

We present a novel approach to efficiently compute tight non-convex enclosures of the image through neural networks with ReLU, sigmoid, or hyperbolic tangent activation functions. In particular, we abstract the input-output relation of each neuron by a polynomial approximation, which is evaluated in a set-based manner using polynomial zonotopes. While our approach can also can be beneficial for open-loop neural network verification, our main application is reachability analysis of neural network controlled systems, where polynomial zonotopes are able to capture the non-convexity caused by the neural network as well as the system dynamics. This results in a superior performance compared to other methods, as we demonstrate on various benchmarks.
翻訳日:2023-04-19 18:52:07 公開日:2023-04-18
# 連続時間におけるq-learning

q-Learning in Continuous Time ( http://arxiv.org/abs/2207.00713v2 )

ライセンス: Link先を確認
Yanwei Jia and Xun Yu Zhou(参考訳) wang et al. (2020) によって導入されたエントロピー正規化探索拡散過程定式化の下での強化学習(rl)のためのq-learningの連続時間対応について検討した。 従来の(大きな)q-関数は連続時間に崩壊するので、その一階近似を考え、``(little) q-関数という用語をつくりだす。この関数は、ハミルトニアンと同様に瞬時有利率関数と関係している。我々は、時間離散化とは無関係なq-函数の「q-ラーニング」理論を展開する。 確率的政策が与えられた場合、ある確率的過程のマーチンゲール条件によって関連するq-関数と値関数を、オン・ポリティクスとオフ・ポリティクスの両方で共同で特徴付ける。 次に, q関数から生成するギブス測度の密度関数を明示的に計算できるか否かに応じて, 基礎となるrl問題を解決するための異なるアクター-批判アルゴリズムを考案する理論を適用する。 我々のアルゴリズムの1つは、よく知られたQ-ラーニングアルゴリズムSARSAを解釈し、もう1つは、Jia と Zhou (2022b) で提案されたポリシー勾配に基づく連続時間アルゴリズムを復元する。 最後に,Jia と Zhou (2022b) の PG に基づくアルゴリズムと,従来のQ-ラーニングアルゴリズムを時間差で比較するシミュレーション実験を行った。

We study the continuous-time counterpart of Q-learning for reinforcement learning (RL) under the entropy-regularized, exploratory diffusion process formulation introduced by Wang et al. (2020). As the conventional (big) Q-function collapses in continuous time, we consider its first-order approximation and coin the term ``(little) q-function". This function is related to the instantaneous advantage rate function as well as the Hamiltonian. We develop a ``q-learning" theory around the q-function that is independent of time discretization. Given a stochastic policy, we jointly characterize the associated q-function and value function by martingale conditions of certain stochastic processes, in both on-policy and off-policy settings. We then apply the theory to devise different actor-critic algorithms for solving underlying RL problems, depending on whether or not the density function of the Gibbs measure generated from the q-function can be computed explicitly. One of our algorithms interprets the well-known Q-learning algorithm SARSA, and another recovers a policy gradient (PG) based continuous-time algorithm proposed in Jia and Zhou (2022b). Finally, we conduct simulation experiments to compare the performance of our algorithms with those of PG-based algorithms in Jia and Zhou (2022b) and time-discretized conventional Q-learning algorithms.
翻訳日:2023-04-19 18:51:56 公開日:2023-04-18
# 自然乾燥型システムにおける確率計算の信頼性チェック

Checking Trustworthiness of Probabilistic Computations in a Typed Natural Deduction System ( http://arxiv.org/abs/2206.12934v2 )

ライセンス: Link先を確認
Fabio Aurelio D'Asaro, Francesco Genco, Giuseppe Primiero(参考訳) 本稿では,確率型型自然導出計算TPTNDについて述べる。これは,確率型計算プロセスの信頼性特性の推論と導出を目的としている。 TPTNDの導出性は、与えられたカテゴリー分布から特定の周波数の複雑な出力の$n$サンプルを抽出する過程として解釈される。 我々はそのような出力に対する信頼を、そのような周波数と意図する確率の間の距離に関する仮説テストの一形態として定式化する。 この計算の主な利点は、そのような信頼性の概念を検証可能にすることである。 我々は,tptndの論理演算子と信頼演算子を導入・排除規則によって定義する用語の計算意味論と,tptndのセマンティクスについて述べる。 我々は構造的およびメタ理論的性質、特に項進化と論理規則の適用下での信頼の考え方を保存できる能力に焦点をあてた。

In this paper we present the probabilistic typed natural deduction calculus TPTND, designed to reason about and derive trustworthiness properties of probabilistic computational processes, like those underlying current AI applications. Derivability in TPTND is interpreted as the process of extracting $n$ samples of possibly complex outputs with a certain frequency from a given categorical distribution. We formalize trust for such outputs as a form of hypothesis testing on the distance between such frequency and the intended probability. The main advantage of the calculus is to render such notion of trustworthiness checkable. We present a computational semantics for the terms over which we reason and then the semantics of TPTND, where logical operators as well as a Trust operator are defined through introduction and elimination rules. We illustrate structural and metatheoretical properties, with particular focus on the ability to establish under which term evolutions and logical rules applications the notion of trustworhtiness can be preserved.
翻訳日:2023-04-19 18:51:11 公開日:2023-04-18
# HyGNN:ハイパーグラフニューラルネットワークによる薬物と薬物の相互作用予測

HyGNN: Drug-Drug Interaction Prediction via Hypergraph Neural Network ( http://arxiv.org/abs/2206.12747v4 )

ライセンス: Link先を確認
Khaled Mohammed Saifuddin, Briana Bumgardner, Farhan Tanvir, Esra Akbas(参考訳) 薬物・薬物相互作用(DDI)は薬物の機能を妨げる可能性があり、最悪の場合、薬物反応(ADR)を引き起こす可能性がある。 すべてのDDIを予測することは難しくて重要な問題です。 既存の計算モデルは、異なるソースからの薬物中心の情報を統合し、それらを機械学習分類器の機能として利用してDDIを予測する。 しかし、これらのモデルは、特に全ての情報が入手できない新しい薬物に対して、失敗の確率が高い。 本稿では,ddi予測問題に対して,薬剤のスマイル列のみに基づいた新しいハイパーグラフニューラルネットワーク(hygnn)モデルを提案する。 薬剤の類似性を捉えるため,SMILES文字列から抽出した薬物の化学的サブ構造からハイパーグラフを作成する。 そこで我々は,新しい注目に基づくハイパーグラフエッジエンコーダによるHyGNNを開発し,薬物をハイパーエッジとして表現し,薬物対間の相互作用を予測するデコーダを開発した。 さらに,本モデルを評価するための広範囲な実験を行い,いくつかの最先端手法と比較した。 実験の結果,提案したHyGNNモデルはDDIを効果的に予測し,最大ROC-AUCとPR-AUCを97.9%,98.1%で比較した。

Drug-Drug Interactions (DDIs) may hamper the functionalities of drugs, and in the worst scenario, they may lead to adverse drug reactions (ADRs). Predicting all DDIs is a challenging and critical problem. Most existing computational models integrate drug-centric information from different sources and leverage them as features in machine learning classifiers to predict DDIs. However, these models have a high chance of failure, especially for the new drugs when all the information is not available. This paper proposes a novel Hypergraph Neural Network (HyGNN) model based on only the SMILES string of drugs, available for any drug, for the DDI prediction problem. To capture the drug similarities, we create a hypergraph from drugs' chemical substructures extracted from the SMILES strings. Then, we develop HyGNN consisting of a novel attention-based hypergraph edge encoder to get the representation of drugs as hyperedges and a decoder to predict the interactions between drug pairs. Furthermore, we conduct extensive experiments to evaluate our model and compare it with several state-of-the-art methods. Experimental results demonstrate that our proposed HyGNN model effectively predicts DDIs and impressively outperforms the baselines with a maximum ROC-AUC and PR-AUC of 97.9% and 98.1%, respectively.
翻訳日:2023-04-19 18:50:55 公開日:2023-04-18
# ボースおよびフェルミガスを用いた熱機械の量子効果

Quantum Advantage of Thermal Machines with Bose and Fermi Gases ( http://arxiv.org/abs/2206.03856v2 )

ライセンス: Link先を確認
Saikat Sur and Arnab Ghosh(参考訳) 本稿では, エネルギー量子化の成果物として, 量子ガス, 巨大で非相互作用的, 識別不能な量子粒子が熱力学機械として実現できることを示し, 古典的なアナログは持たない。 このような熱力学機械は、粒子の統計、化学ポテンシャル、および系の空間次元に依存する。 本稿では, 量子統計学の役割を生かして, 所望の量子熱エンジンと冷凍機の実現を支援する粒子統計学とシステム次元の観点から, 量子スターリングサイクルの基本的特徴を示す。 特に、フェルミ気体とボース気体の挙動の明確な区別は、より低い次元における量子熱力学的シグネチャの顕著な役割を示す粒子統計の固有な違いのみによって、高次元よりも1次元で観察される。

In this article, we show that a quantum gas, a collection of massive, non-interacting, indistinguishable quantum particles can be realized as a thermodynamic machine as an artifact of energy quantization and hence bears no classical analog. Such a thermodynamic machine depends on the statistics of the particles, the chemical potential, and the spatial dimension of the system. Our detailed analysis demonstrates the fundamental features of quantum Stirling cycles from the viewpoint of particle statistics and system dimensions that helps us to realize desired quantum heat engines and refrigerators by exploiting the role of quantum statistical mechanics. In particular, a clear distinction between the behavior of a Fermi gas and a Bose gas is observed in one dimension than in higher dimensions, solely due to the innate differences in their particle statistics indicating the conspicuous role of a quantum thermodynamic signature in lower dimensions.
翻訳日:2023-04-19 18:50:33 公開日:2023-04-18
# スパースマルチタスク回帰の選択的推論とニューロイメージングへの応用

Selective Inference for Sparse Multitask Regression with Applications in Neuroimaging ( http://arxiv.org/abs/2205.14220v3 )

ライセンス: Link先を確認
Snigdha Panigrahi, Natasha Stewart, Chandra Sekhar Sripada, Elizaveta Levina(参考訳) マルチタスク学習は、同じ特徴セットから関連する応答変数のセットをモデル化し、各応答変数を個別に扱う方法と比較して予測性能とモデリング精度を向上させるために頻繁に使用される。 マルチタスク学習がシングルタスクの代替よりも強力な推論をもたらす可能性にもかかわらず、この分野の先行研究は不確実性定量化をほとんど省略している。 本論文は神経イメージングにおける一般的なマルチタスク問題であり,脳コネクトームデータと複数の認知タスクスコア(または他の被験者レベルの評価)の関係を理解することを目的としている。 我々は,この問題に対処するための選択的推論のためのフレームワークを提案する。 (i)スパーシティ誘導ペナルティを通じて、各タスクに関連するコヴァリエートを共同で特定すること。 (ii)推定スパーシティ構造に基づくモデルにおいて有効な推論を行う。 提案手法は,選択可能確率を導出する選択イベントの精細化に基づく,推論のための新しい条件付き手続きを提供する。 これにより、単一の凸最適化問題によって解ける最大極大推定方程式を近似的に推定し、ほぼ正しいカバレッジで信頼区間を効率的に形成することができる。 思春期脳認知発達(abcd)研究のシミュレーションデータとデータの両方に適用し,選択的推論手法は,データ分割などの一般的な代替手段よりも信頼区間の厳密さをもたらす。 また,選択推論によるマルチタスク学習により,単一タスク法よりも真の信号をより正確に復元できることを示す。

Multi-task learning is frequently used to model a set of related response variables from the same set of features, improving predictive performance and modeling accuracy relative to methods that handle each response variable separately. Despite the potential of multi-task learning to yield more powerful inference than single-task alternatives, prior work in this area has largely omitted uncertainty quantification. Our focus in this paper is a common multi-task problem in neuroimaging, where the goal is to understand the relationship between multiple cognitive task scores (or other subject-level assessments) and brain connectome data collected from imaging. We propose a framework for selective inference to address this problem, with the flexibility to: (i) jointly identify the relevant covariates for each task through a sparsity-inducing penalty, and (ii) conduct valid inference in a model based on the estimated sparsity structure. Our framework offers a new conditional procedure for inference, based on a refinement of the selection event that yields a tractable selection-adjusted likelihood. This gives an approximate system of estimating equations for maximum likelihood inference, solvable via a single convex optimization problem, and enables us to efficiently form confidence intervals with approximately the correct coverage. Applied to both simulated data and data from the Adolescent Brain Cognitive Development (ABCD) study, our selective inference methods yield tighter confidence intervals than commonly used alternatives, such as data splitting. We also demonstrate through simulations that multi-task learning with selective inference can more accurately recover true signals than single-task methods.
翻訳日:2023-04-19 18:50:16 公開日:2023-04-18
# 高角運動量Rydberg状態を用いた超高周波電場検出

Very- and ultra-high frequency electric field detection using high angular momentum Rydberg states ( http://arxiv.org/abs/2205.12876v2 )

ライセンス: Link先を確認
Roger C. Brown, Baran Kayim, Michael A. Viray, Abigail R. Perry, Brian C. Sawyer, and Robert Wyllie(参考訳) 我々は、電磁誘導透過を用いて240MHzから900MHz(超高周波(VHF)から超高周波(UHF))のrf電場を共振検出し、軌道角運動量$L=3\rightarrow L'=4$Rydberg遷移を測定する。 これらのライドバーグ状態は3光子赤外線励起によってアクセス可能である。 電気的に小さいレジームでrfを共鳴検出することで、これらの状態は新しい種類の原子受信機を可能にする。 主量子数 $n=45$ から $70$ に対する測度スペクトルと量子欠陥理論の予測との間にはよく一致している。 超ヘトロダイン検出装置を用いて、ノイズフロアを$n=50$で13,\mathrm {\mu V/m/\sqrt{Hz}}$と測定する。 さらに,本システムの基本感度限界を推定するために,5段階のマスター方程式解を組み込んだデータと数値モデルを利用する。

We demonstrate resonant detection of rf electric fields from 240 MHz to 900 MHz (very-high-frequency (VHF) to ultra-high-frequency (UHF)) using electromagnetically induced transparency to measure orbital angular momentum $L=3\rightarrow L'=4$ Rydberg transitions. These Rydberg states are accessible with three-photon infrared optical excitation. By resonantly detecting rf in the electrically small regime, these states enable a new class of atomic receivers. We find good agreement between measured spectra and predictions of quantum defect theory for principal quantum numbers $n=45$ to $70$. Using a super-hetrodyne detection setup, we measure the noise floor at $n=50$ to be $13\,\mathrm{\mu V/m/\sqrt{Hz}}$. Additionally, we utilize data and a numerical model incorporating a five-level master equation solution to estimate the fundamental sensitivity limits of our system.
翻訳日:2023-04-19 18:49:51 公開日:2023-04-18
# ミリ秒量子デコヒーレンスを有するスクイーズドメカニカル発振器

A squeezed mechanical oscillator with milli-second quantum decoherence ( http://arxiv.org/abs/2208.13082v3 )

ライセンス: Link先を確認
Amir Youssefi and Shingo Kono and Mahdi Chegnizadeh and Tobias J. Kippenberg(参考訳) 機械振動子をベースとしたハイブリッド量子システムを構築する上での永続的な課題は、熱デコヒーレンスとデフォーカスからなる低量子デコヒーレンスという環境からの優れた機械的隔離を維持しながら、工学的な結合を補助的な自由度に確保することである。 ここでは, 超伝導回路の量子デコヒーレンスを低い量子デコヒーレンスに保ちながら, 量子場と運動状態を高忠実に調整し, 量子デコヒーレンスを低くする機構を導入することで, この課題を克服する。 熱デコヒーレンス速度は20.5Hz(T_1 = 7.7ms)、純デフォーカスレートは0.09Hzと直接測定し、従来の光学系と比較して100倍に改善した。 これにより、0.07クオンタの運動基底状態占有(93%の忠実度)に達し、0点変動以下の2.7dbの機械的スクイーズを実現することができる。 さらに,機械的なスクイーズ状態の自由進化を観察し,ミリ秒の時間スケールでその非古典性を維持した。 このような超低量子デコヒーレンスは、量子制御の忠実さとマクロ力学系の測定を増加させるだけでなく、量子ビットとの相互作用に利益をもたらし、量子重力の試験に適したパラメータレジームにシステムを配置する。 (キーワード:量子光学、超伝導回路電気力学、量子スクイージング、量子メモリ、量子コヒーレンス)

An enduring challenge in constructing mechanical oscillator-based hybrid quantum systems is to ensure engineered coupling to an auxiliary degree of freedom while maintaining good mechanical isolation from the environment, that is, low quantum decoherence, consisting of thermal decoherence and dephasing. Here, we overcome this challenge by introducing a superconducting circuit optomechanical platform which exhibits a low quantum decoherence while having a large optomechanical coupling, which allows us to prepare the quantum ground and squeezed states of motion with high fidelity. We directly measure a thermal decoherence rate of 20.5 Hz (corresponding to T_1 = 7.7 ms) as well as a pure dephasing rate of 0.09 Hz, resulted in a 100-fold improvement of quantum-state lifetime compared to the prior optomechanical systems. This enables us to reach to 0.07 quanta motional ground state occupation (93% fidelity) and realize mechanical squeezing of -2.7 dB below zero-point-fluctuation. Furthermore, we observe the free evolution of mechanical squeezed state, preserving its non-classical nature over milli-second timescales. Such ultra-low quantum decoherence not only increases the fidelity of quantum control and measurement of macroscopic mechanical systems, but may also benefit interfacing with qubits, and places the system in a parameter regime suitable for tests of quantum gravity. (Keywords: Quantum optomechanics, Superconducting circuit electromechanics, Quantum squeezing, Quantum memory, Quantum coherence)
翻訳日:2023-04-19 18:43:39 公開日:2023-04-18
# ソーシャルメディアの語彙分析を通したアメリカの文化地域

American cultural regions mapped through the lexical analysis of social media ( http://arxiv.org/abs/2208.07649v2 )

ライセンス: Link先を確認
Thomas Louf, Bruno Gon\c{c}alves, Jose J. Ramasco, David Sanchez, Jack Grieve(参考訳) 文化圏は、社会科学の様々な分野を交配する有用な概念である。 人間がどのように社会の中で考えや行動を組織し、関連づけるかの知識は、異なる問題に対する行動や態度を理解するのに役立つ。 しかし、文化圏を形成する共通形質の選択は幾らか任意である。 必要なのは、オンラインからやってくる膨大なデータ、特にソーシャルメディアを通じて、アドホックな仮定や偏見、偏見のない文化的地域を特定する方法です。 本研究は,マイクロブログ投稿からの大規模データセットの自動解析に基づいて,文化的地域を推定する手法を導入することで,この方向への重要な一歩を踏み出した。 ここで提示されるアプローチは、人々が議論する話題から文化的提携を推定できるという原則に基づいている。 特に、記述された言論の地域的変化は、アメリカのソーシャルメディアで測定される。 ジオタグ付きツイートにおけるコンテンツ単語の頻度分布から、単語の使用頻度の地域ホットスポットを見つけ、そこから地域変動の主な構成要素を導出する。 この低次元空間におけるデータの階層的クラスタリングによって、明確な文化的領域とそれらを定義する議論のトピックが得られる。 主にアフリカ系アメリカ人の文化に影響を受けた南北の明確な分離と、現在のアメリカの文化地域を包括的に表現する、さらに連続した(東西の)非連続的な区分を明らかにする。

Cultural areas represent a useful concept that cross-fertilizes diverse fields in social sciences. Knowledge of how humans organize and relate their ideas and behavior within a society helps to understand their actions and attitudes towards different issues. However, the selection of common traits that shape a cultural area is somewhat arbitrary. What is needed is a method that can leverage the massive amounts of data coming online, especially through social media, to identify cultural regions without ad-hoc assumptions, biases or prejudices. This work takes a crucial step in this direction by introducing a method to infer cultural regions based on the automatic analysis of large datasets from microblogging posts. The approach presented here is based on the principle that cultural affiliation can be inferred from the topics that people discuss among themselves. Specifically, regional variations in written discourse are measured in American social media. From the frequency distributions of content words in geotagged Tweets, the regional hotspots of words' usage are found, and from there, principal components of regional variation are derived. Through a hierarchical clustering of the data in this lower-dimensional space, this method yields clear cultural areas and the topics of discussion that define them. It uncovers a manifest North-South separation, which is primarily influenced by the African American culture, and further contiguous (East-West) and non-contiguous divisions that provide a comprehensive picture of today's cultural areas in the US.
翻訳日:2023-04-19 18:43:10 公開日:2023-04-18
# 多目的最適化ベンチマークとしてのニューラルアーキテクチャ探索:問題定式化と性能評価

Neural Architecture Search as Multiobjective Optimization Benchmarks: Problem Formulation and Performance Assessment ( http://arxiv.org/abs/2208.04321v2 )

ライセンス: Link先を確認
Zhichao Lu, Ran Cheng, Yaochu Jin, Kay Chen Tan, and Kalyanmoy Deb(参考訳) ネットワークアーキテクチャ設計の継続的な進歩は、様々な挑戦的なコンピュータビジョンタスクにわたるディープラーニングにおける顕著な成果をもたらした。 一方で、ニューラルネットワーク検索(nas)の開発は、予測エラーの低減のためにネットワークアーキテクチャ設計を自動化するための有望なアプローチを提供している。 近年、ディープラーニングのアプリケーションシナリオは、パラメータ/浮動小数点演算の数や推論遅延など、複数の設計基準を考慮して、ネットワークアーキテクチャの要求が高まっている。 最適化の観点からは、複数の設計基準を含むNASタスクは本質的に多目的最適化の問題であり、それに取り組むために進化的多目的最適化(EMO)アルゴリズムを採用することは合理的である。 一方、最適化の観点からは、NASタスクの一般的な問題定式化が欠如しており、一方で、NASタスク上でEMOアルゴリズムのベンチマーク評価を行う上での課題がある。 ギャップを埋めるために: (i)nasタスクを汎用多目的最適化問題に定式化し、最適化の観点から複雑な特性を分析する。 (ii)GPUやPytorch/Tensorflowを必要とせずに、EMOアルゴリズムのベンチマークテスト問題を生成するために、$\textt{EvoXBench}$と呼ばれるエンドツーエンドパイプラインを提示する。 (iii)2つのデータセット、7つの検索スペース、3つのハードウェアデバイスを包括的にカバーする2つのテストスイートをインスタンス化する。 以上の結果に基づいて,提案するテストスイートを6つの代表EMOアルゴリズムを用いて検証し,実験的検討を行った。 $\texttt{EvoXBench}$のコードは$\href{https://github.com/EMI-Group/EvoXBench}{\rm{here}}$から入手できる。

The ongoing advancements in network architecture design have led to remarkable achievements in deep learning across various challenging computer vision tasks. Meanwhile, the development of neural architecture search (NAS) has provided promising approaches to automating the design of network architectures for lower prediction error. Recently, the emerging application scenarios of deep learning have raised higher demands for network architectures considering multiple design criteria: number of parameters/floating-point operations, and inference latency, among others. From an optimization point of view, the NAS tasks involving multiple design criteria are intrinsically multiobjective optimization problems; hence, it is reasonable to adopt evolutionary multiobjective optimization (EMO) algorithms for tackling them. Nonetheless, there is still a clear gap confining the related research along this pathway: on the one hand, there is a lack of a general problem formulation of NAS tasks from an optimization point of view; on the other hand, there are challenges in conducting benchmark assessments of EMO algorithms on NAS tasks. To bridge the gap: (i) we formulate NAS tasks into general multi-objective optimization problems and analyze the complex characteristics from an optimization point of view; (ii) we present an end-to-end pipeline, dubbed $\texttt{EvoXBench}$, to generate benchmark test problems for EMO algorithms to run efficiently -- without the requirement of GPUs or Pytorch/Tensorflow; (iii) we instantiate two test suites comprehensively covering two datasets, seven search spaces, and three hardware devices, involving up to eight objectives. Based on the above, we validate the proposed test suites using six representative EMO algorithms and provide some empirical analyses. The code of $\texttt{EvoXBench}$ is available from $\href{https://github.com/EMI-Group/EvoXBench}{\rm{here}}$.
翻訳日:2023-04-19 18:42:47 公開日:2023-04-18
# オンラインおよびオフライン深層強化学習を用いた保守計画フレームワーク

A Maintenance Planning Framework using Online and Offline Deep Reinforcement Learning ( http://arxiv.org/abs/2208.00808v2 )

ライセンス: Link先を確認
Zaharah A. Bukhsh, Nils Jansen, Hajo Molegraaf(参考訳) コスト効率のよい資産管理は、いくつかの産業にまたがる関心の領域である。 具体的には,水管の連続劣化に対する最適再生方針を自動決定する深部強化学習(DRL)ソリューションを開発した。 オンラインおよびオフラインDRL設定におけるリハビリテーション計画の問題にアプローチする。 オンラインDRLでは、エージェントは異なる長さ、材料、故障率特性を持つ複数のパイプのシミュレーション環境と相互作用する。 エージェントは、DQN(Deep Q-learning)を用いて、最小限の平均コストと失敗確率の低減で最適なポリシーを学ぶように訓練する。 オフライン学習において、エージェントは静的データ、例えばDQNリプレイデータを使用して、環境とのさらなる相互作用なしに保守的なQ-ラーニングアルゴリズムを介して最適なポリシーを学習する。 我々は、drlベースのポリシーが、標準の予防、是正、および欲深い計画の代替案よりも改善できることを実証する。 さらに、オフライン環境で固定されたDQNリプレイデータセットから学習することで、パフォーマンスがさらに向上する。 その結果、大規模で多様な状態と行動軌跡からなる水道管の既存の劣化プロファイルは、オフライン環境でのリハビリ政策を学ぶための貴重な道筋となり、シミュレータを用いてさらに微調整することができる。

Cost-effective asset management is an area of interest across several industries. Specifically, this paper develops a deep reinforcement learning (DRL) solution to automatically determine an optimal rehabilitation policy for continuously deteriorating water pipes. We approach the problem of rehabilitation planning in an online and offline DRL setting. In online DRL, the agent interacts with a simulated environment of multiple pipes with distinct lengths, materials, and failure rate characteristics. We train the agent using deep Q-learning (DQN) to learn an optimal policy with minimal average costs and reduced failure probability. In offline learning, the agent uses static data, e.g., DQN replay data, to learn an optimal policy via a conservative Q-learning algorithm without further interactions with the environment. We demonstrate that DRL-based policies improve over standard preventive, corrective, and greedy planning alternatives. Additionally, learning from the fixed DQN replay dataset in an offline setting further improves the performance. The results warrant that the existing deterioration profiles of water pipes consisting of large and diverse states and action trajectories provide a valuable avenue to learn rehabilitation policies in the offline setting, which can be further fine-tuned using the simulator.
翻訳日:2023-04-19 18:41:50 公開日:2023-04-18
# ロボットが見えないものを見る: 視覚ナビゲーションのための協調的知覚の学習

See What the Robot Can't See: Learning Cooperative Perception for Visual Navigation ( http://arxiv.org/abs/2208.00759v4 )

ライセンス: Link先を確認
Jan Blumenkamp and Qingbiao Li and Binyu Wang and Zhe Liu and Amanda Prorok(参考訳) 視覚センサが組み込まれている未知の環境において,移動ロボットが目標に向かって移動する際には,ロボットもセンサもグローバルな位置情報にアクセスできず,一対一の画像のみを使用するという問題を考える。 位置決めの必要性を克服するため,我々はセンサを訓練し,関連する視点情報を移動ロボットにエンコードし,伝達させる。 グラフニューラルネットワーク (GNN) アーキテクチャを用いて, 近接型特徴集約モジュールを実装することにより, 目標への最短経路に沿った方向を予測できる全センサ(ターゲットを直接見ることができないものであっても) の実現という課題を克服する。 実験では,センサレイアウトの異なる未認識環境に対して,まず一般化可能性を示す。 その結果,センサとロボット間の通信により,splの最大2.0倍の改善(経路長重み付けによる成功)が得られた。 これは、グローバルマップ、測位データ、センサネットワークの事前校正を必要とせずに行われる。 第2に、シミュレーションから実世界へのモデルをゼロショット転送する。 実験室では, 様々な乱雑な環境下でのアプローチの有効性を実証した。 最後に,センサネットワークレイアウトが動的に再構成されている間,ターゲットへのナビゲーションが成功した例を示す。

We consider the problem of navigating a mobile robot towards a target in an unknown environment that is endowed with visual sensors, where neither the robot nor the sensors have access to global positioning information and only use first-person-view images. In order to overcome the need for positioning, we train the sensors to encode and communicate relevant viewpoint information to the mobile robot, whose objective it is to use this information to navigate as efficiently as possible to the target. We overcome the challenge of enabling all the sensors (even those that cannot directly see the target) to predict the direction along the shortest path to the target by implementing a neighborhood-based feature aggregation module using a Graph Neural Network (GNN) architecture. In our experiments, we first demonstrate generalizability to previously unseen environments with various sensor layouts. Our results show that by using communication between the sensors and the robot, we achieve up to 2.0x improvement in SPL (Success weighted by Path Length) when compared to a communication-free baseline. This is done without requiring a global map, positioning data, nor pre-calibration of the sensor network. Second, we perform a zero-shot transfer of our model from simulation to the real world. Laboratory experiments demonstrate the feasibility of our approach in various cluttered environments. Finally, we showcase examples of successful navigation to the target while the sensor network layout is dynamically reconfigured.
翻訳日:2023-04-19 18:41:31 公開日:2023-04-18
# イベントレベルの視覚的質問応答に対するクロスモーダル因果関係推論

Cross-Modal Causal Relational Reasoning for Event-Level Visual Question Answering ( http://arxiv.org/abs/2207.12647v5 )

ライセンス: Link先を確認
Yang Liu, Guanbin Li, Liang Lin(参考訳) 既存の視覚的質問応答法は、モーダルなスプリアス相関を捉え、支配的な視覚的証拠と質問意図に基づいて、真に推論を促進する真の因果メカニズムを発見できない傾向にある。 さらに、既存のメソッドは通常、イベントの時間性、因果性、ダイナミクスを共同でモデル化する必要がある、クロスモーダルなイベントレベルの理解を無視する。 本研究では,視覚的および言語的モダリティの真の因果構造を発見するための因果的介入手法を導入することにより,新たな視点,すなわちクロスモーダル因果関係推論からイベントレベルの視覚的質問応答に焦点をあてる。 具体的には、堅牢な因果認識型視覚言語質問応答を実現するために、Cross-Modal Causal RelatIonal Reasoning (CMCIR) と呼ばれる新しいイベントレベルの視覚的質問応答フレームワークを提案する。 相互因果構造を発見するために,視覚的・言語的因果関係を前方・後方の因果的介入を通じて協調的に解離させるために,CVLRモジュールを提案する。 言語意味論と時空間表現のきめ細かい相互作用をモデル化するために,視覚コンテンツと言語コンテンツ間のマルチモーダルな共起相互作用を生成する空間時間変換器(STT)を構築した。 因果認識の視覚的特徴と言語的特徴を適応的に融合させるために,階層的意味論的関係を利用した視覚言語的特徴融合(VLFF)モジュールを導入する。 4つのイベントレベルのデータセットに対する大規模な実験は、視覚言語学的因果構造を発見し、堅牢なイベントレベルの視覚的質問応答を実現する上で、CMCIRの優位性を示している。

Existing visual question answering methods tend to capture the cross-modal spurious correlations and fail to discover the true causal mechanism that facilitates reasoning truthfully based on the dominant visual evidence and the question intention. Additionally, the existing methods usually ignore the cross-modal event-level understanding that requires to jointly model event temporality, causality, and dynamics. In this work, we focus on event-level visual question answering from a new perspective, i.e., cross-modal causal relational reasoning, by introducing causal intervention methods to discover the true causal structures for visual and linguistic modalities. Specifically, we propose a novel event-level visual question answering framework named Cross-Modal Causal RelatIonal Reasoning (CMCIR), to achieve robust causality-aware visual-linguistic question answering. To discover cross-modal causal structures, the Causality-aware Visual-Linguistic Reasoning (CVLR) module is proposed to collaboratively disentangle the visual and linguistic spurious correlations via front-door and back-door causal interventions. To model the fine-grained interactions between linguistic semantics and spatial-temporal representations, we build a Spatial-Temporal Transformer (STT) that creates multi-modal co-occurrence interactions between visual and linguistic content. To adaptively fuse the causality-ware visual and linguistic features, we introduce a Visual-Linguistic Feature Fusion (VLFF) module that leverages the hierarchical linguistic semantic relations as the guidance to learn the global semantic-aware visual-linguistic representations adaptively. Extensive experiments on four event-level datasets demonstrate the superiority of our CMCIR in discovering visual-linguistic causal structures and achieving robust event-level visual question answering.
翻訳日:2023-04-19 18:41:09 公開日:2023-04-18
# 制約付きシステムの微分可能解法学習

Learning differentiable solvers for systems with hard constraints ( http://arxiv.org/abs/2207.08675v2 )

ライセンス: Link先を確認
Geoffrey N\'egiar, Michael W. Mahoney, Aditi S. Krishnapriyan(参考訳) ニューラルネットワーク(NN)によって定義される関数に対する偏微分方程式(PDE)制約を、高い精度で適用し、所望の許容範囲まで適用する実践的手法を提案する。 我々は、任意のNNアーキテクチャに組み込むことができる微分可能なPDE制約層を開発した。 本手法は,物理的制約を効果的に適用するために微分可能最適化と暗黙関数定理を利用する。 辞書学習にインスパイアされた我々のモデルは、PDEパラメータからPDEソリューションへのマッピングを定義する関数群を学習する。 推論時には、PDE制約の最適化問題を解くことにより、学習家族における関数の最適線形結合を求める。 提案手法は,所望の物理的制約を正確に満たした関心領域上の連続解を提供する。 その結果、NNアーキテクチャに直接ハード制約を組み込むことで、制約のない目的のトレーニングに比べてテストエラーがはるかに少ないことがわかった。

We introduce a practical method to enforce partial differential equation (PDE) constraints for functions defined by neural networks (NNs), with a high degree of accuracy and up to a desired tolerance. We develop a differentiable PDE-constrained layer that can be incorporated into any NN architecture. Our method leverages differentiable optimization and the implicit function theorem to effectively enforce physical constraints. Inspired by dictionary learning, our model learns a family of functions, each of which defines a mapping from PDE parameters to PDE solutions. At inference time, the model finds an optimal linear combination of the functions in the learned family by solving a PDE-constrained optimization problem. Our method provides continuous solutions over the domain of interest that accurately satisfy desired physical constraints. Our results show that incorporating hard constraints directly into the NN architecture achieves much lower test error when compared to training on an unconstrained objective.
翻訳日:2023-04-19 18:40:33 公開日:2023-04-18
# 二次非相反性:時間反転対称性を破らない一方向ボソニック伝送

Quadrature nonreciprocity: unidirectional bosonic transmission without breaking time-reversal symmetry ( http://arxiv.org/abs/2207.08523v2 )

ライセンス: Link先を確認
Clara C. Wanjura, Jesse J. Slim, Javier del Pino, Matteo Brunelli, Ewold Verhagen, Andreas Nunnenkamp(参考訳) 非相反性とは、信号の伝達が伝播の方向に依存することを意味する。 非常に異なるプラットフォームと基礎となる作業原理にもかかわらず、線形で時間に依存しないシステムにおける非相互輸送の実現は、いくつかの経路でアハロノフ・ボーム干渉に依存し、時間反転対称性を破る必要がある。 ここでは、ビームスプリッタ(励起保存)と2モードスキューズ(励起保存)相互作用の干渉を利用して、時間反転対称ハミルトニアンを持つ系における非相互性の概念を一方向ボソニック輸送へ拡張する。 標準の非相互性とは対照的に、この一方向輸送は、モードが外部参照位相に関して解決されたときに現れる。 したがって、この現象は2次非相反性である。 まず,光力学的相互作用によって制御される2つの結合ナノメカニカルモードの最小系で実験的に実証する。 次に,粒子ホールグラフの特徴に基づく二次的非相互性を示すネットワークのクラスを特徴付ける理論的枠組みを開発する。 これらのネットワークは、一方向性に加えて、4モードシステムで実験的に確認した集合的二次構造と、キャビティの配列の場合の指数的なエンドツーエンドゲインとの間に偶発的なペアリングを示すことができる。 私たちの研究は、ボソニックシステムにおける信号ルーティングと量子制限増幅のための新しい道を開きます。

Nonreciprocity means that the transmission of a signal depends on its direction of propagation. Despite vastly different platforms and underlying working principles, the realisations of nonreciprocal transport in linear, time-independent systems rely on Aharonov-Bohm interference among several pathways and require breaking time-reversal symmetry. Here we extend the notion of nonreciprocity to unidirectional bosonic transport in systems with a time-reversal symmetric Hamiltonian by exploiting interference between beamsplitter (excitation preserving) and two-mode-squeezing (excitation non-preserving) interactions. In contrast to standard nonreciprocity, this unidirectional transport manifests when the mode quadratures are resolved with respect to an external reference phase. Hence we dub this phenomenon quadrature nonreciprocity. First, we experimentally demonstrate it in the minimal system of two coupled nanomechanical modes orchestrated by optomechanical interactions. Next, we develop a theoretical framework to characterise the class of networks exhibiting quadrature nonreciprocity based on features of their particle-hole graphs. In addition to unidirectionality, these networks can exhibit an even-odd pairing between collective quadratures, which we confirm experimentally in a four-mode system, and an exponential end-to-end gain in the case of arrays of cavities. Our work opens up new avenues for signal routing and quantum-limited amplification in bosonic systems.
翻訳日:2023-04-19 18:40:20 公開日:2023-04-18
# ダイナミックリレーショナルデータのためのファクトリー型核融合収縮

Factorized Fusion Shrinkage for Dynamic Relational Data ( http://arxiv.org/abs/2210.00091v2 )

ライセンス: Link先を確認
Peng Zhao, Anirban Bhattacharya, Debdeep Pati and Bani K. Mallick(参考訳) 現代のデータサイエンスアプリケーションは、しばしば動的構造を持つ複雑な関係データを含む。 このような動的関係データの急激な変化は、通常、介入によって体制変化を起こすシステムで観察される。 このような場合、分解されたすべての因子がグループ単位の融合構造に対して動的に縮小される分解された融合収縮モデルを考え、分解された行列の行ベクトルの連続的な違いに先立って、グローバル局所的な収縮を適用して収縮を得る。 提案手法は, 推定動的潜在因子の比較およびクラスタリングにおいて, 好適な特性を多数有する。 推定潜在因子の比較には、隣接および長期の比較の両方があり、比較の時間範囲は変数と見なされる。 ある条件下では、後方分布が対数因子まで最小の最適速度に達することを実証する。 計算量の観点からは、最適後部推論と計算スケーラビリティのバランスを保ち、コンポーネント間の依存性と時間的依存性を両立させる構造的平均場変動推論フレームワークを提案する。 このフレームワークは、動的行列分解、ネットワークの潜在空間モデル、低ランクテンソルなど、様々なモデルに対応できる。 本手法の有効性は,広範囲なシミュレーションと実世界のデータ解析によって実証される。

Modern data science applications often involve complex relational data with dynamic structures. An abrupt change in such dynamic relational data is typically observed in systems that undergo regime changes due to interventions. In such a case, we consider a factorized fusion shrinkage model in which all decomposed factors are dynamically shrunk towards group-wise fusion structures, where the shrinkage is obtained by applying global-local shrinkage priors to the successive differences of the row vectors of the factorized matrices. The proposed priors enjoy many favorable properties in comparison and clustering of the estimated dynamic latent factors. Comparing estimated latent factors involves both adjacent and long-term comparisons, with the time range of comparison considered as a variable. Under certain conditions, we demonstrate that the posterior distribution attains the minimax optimal rate up to logarithmic factors. In terms of computation, we present a structured mean-field variational inference framework that balances optimal posterior inference with computational scalability, exploiting both the dependence among components and across time. The framework can accommodate a wide variety of models, including dynamic matrix factorization, latent space models for networks and low-rank tensors. The effectiveness of our methodology is demonstrated through extensive simulations and real-world data analysis.
翻訳日:2023-04-19 18:34:20 公開日:2023-04-18
# 質量粒子の弱崩壊における量子状態トモグラフィー、絡み合い検出、ベル違反予測

Quantum state tomography, entanglement detection and Bell violation prospects in weak decays of massive particles ( http://arxiv.org/abs/2209.13990v3 )

ライセンス: Link先を確認
Rachel Ashby-Pickering, Alan J. Barr, Agnieszka Wierzchucka(参考訳) 角崩壊データから多粒子系のスピン密度行列を決定するための比較的一般的な方法を示す。 この方法は、$d$-dimensional generalized gell-mann representation of $\rho$のブロッホパラメータ化に基づいており、球面上のwigner-およびweyl-transformsを活用している。 スピン密度行列の各パラメータは、実験的な角の崩壊分布の適切なセットよりも単純な平均から測定することができる。 射影的および非射影的崩壊の一般的な手順を記述し、スピンハーフ、スピン1、スピン3/2系の場合に計算されるウィグナーの$p$および$q$記号を記述する。 これらの方法は、2部系に対する$pp$の衝突のモンテカルロシミュレーションを調べるために用いられる: $pp\rightarrow W^+W^-$, $pp\rightarrow ZZ$, $pp\rightarrow ZW^+$, $pp\rightarrow W^+\bar{t}$, $t\bar{t}$, $t\bar{t}$, and the Higgs boson decays $H\rightarrow WW^{*}$ and $H\rightarrow ZZ^*$。 両部類系におけるエンタングルメント検出,交換対称性検出,ベル不等式違反の測定を行った。

A rather general method for determining the spin density matrix of a multi-particle system from angular decay data is presented. The method is based on a Bloch parameterisation of the $d$-dimensional generalised Gell-Mann representation of $\rho$ and exploits the associated Wigner- and Weyl-transforms on the sphere. Each parameter of a (possibly multipartite) spin density matrix can be measured from a simple average over an appropriate set of experimental angular decay distributions. The general procedures for both projective and non-projective decays are described, and the Wigner $P$ and $Q$ symbols calculated for the cases of spin-half, spin-one, and spin-3/2 systems. The methods are used to examine Monte Carlo simulations of $pp$ collisions for bipartite systems: $pp\rightarrow W^+W^-$, $pp\rightarrow ZZ$, $pp\rightarrow ZW^+$, $pp\rightarrow W^+\bar{t}$, $t\bar{t}$, and those from the Higgs boson decays $H\rightarrow WW^{*}$ and $H\rightarrow ZZ^*$. Measurements are proposed for entanglement detection, exchange symmetry detection and Bell inequality violation in bipartite systems.
翻訳日:2023-04-19 18:34:00 公開日:2023-04-18
# フレームレート非依存多対象追跡に向けて

Towards Frame Rate Agnostic Multi-Object Tracking ( http://arxiv.org/abs/2209.11404v3 )

ライセンス: Link先を確認
Weitao Feng and Lei Bai and Yongqiang Yao and Fengwei Yu and Wanli Ouyang(参考訳) マルチオブジェクト追跡(MOT)は、様々なビデオ分析アプリケーションに寄与する最も基本的なコンピュータビジョンタスクの1つである。 最近の有望な進歩にもかかわらず、現在のmot研究は入力ストリームの固定サンプリングフレームレートに限定されている。 実際,最近の最先端トラッカーの精度は,入力フレームレートが変化すると劇的に低下することがわかった。 よりインテリジェントな追跡ソリューションとして、我々の研究の注意をフレームレート非依存MOT(FraMOT)の問題にシフトし、フレームレートの感度を考慮に入れます。 本稿では、FraMOT問題に初めて取り組むための周期的トレーニングスキーム(FAPS)を備えたフレームレート非依存MOTフレームワークを提案する。 具体的には、フレームレートアグノスティックアソシエーションモジュール(FAAM)を提案し、フレームレート情報を推論して符号化し、マルチフレームレート入力間のIDマッチングを支援することにより、FraMOTにおける複雑な動き・出現関係を扱う際の学習モデルの能力を向上させる。 さらに、トレーニングに含まれない後処理ステップは、低いフレームレートシナリオにおいて大きな差をもたらすため、トレーニングと推論の相関ギャップがframotで拡大される。 そこで本研究では,追跡パターンマッチングと融合を通じて,トレーニング後のすべてのステップを反映する周期的トレーニングスキーム(pts)を提案する。 提案手法とともに,より複雑な状況に対処することを目的とした,2つの異なるモード,すなわち既知のフレームレートと未知フレームレートにおけるフレモットの新たなタスクの評価方法を確立するための最初の試みを行う。 挑戦的なMOT17/20データセット(FraMOTバージョン)に関する定量的実験は、提案手法が異なるフレームレートをよりよく処理し、複雑なシナリオに対する堅牢性を向上させることを明らかに示している。

Multi-Object Tracking (MOT) is one of the most fundamental computer vision tasks that contributes to various video analysis applications. Despite the recent promising progress, current MOT research is still limited to a fixed sampling frame rate of the input stream. In fact, we empirically found that the accuracy of all recent state-of-the-art trackers drops dramatically when the input frame rate changes. For a more intelligent tracking solution, we shift the attention of our research work to the problem of Frame Rate Agnostic MOT (FraMOT), which takes frame rate insensitivity into consideration. In this paper, we propose a Frame Rate Agnostic MOT framework with a Periodic training Scheme (FAPS) to tackle the FraMOT problem for the first time. Specifically, we propose a Frame Rate Agnostic Association Module (FAAM) that infers and encodes the frame rate information to aid identity matching across multi-frame-rate inputs, improving the capability of the learned model in handling complex motion-appearance relations in FraMOT. Moreover, the association gap between training and inference is enlarged in FraMOT because those post-processing steps not included in training make a larger difference in lower frame rate scenarios. To address it, we propose Periodic Training Scheme (PTS) to reflect all post-processing steps in training via tracking pattern matching and fusion. Along with the proposed approaches, we make the first attempt to establish an evaluation method for this new task of FraMOT in two different modes, i.e., known frame rate and unknown frame rate, aiming to handle a more complex situation. The quantitative experiments on the challenging MOT17/20 dataset (FraMOT version) have clearly demonstrated that the proposed approaches can handle different frame rates better and thus improve the robustness against complicated scenarios.
翻訳日:2023-04-19 18:33:30 公開日:2023-04-18
# ガッピングシステムの熱前化と局所ロバスト性

Prethermalization and the local robustness of gapped systems ( http://arxiv.org/abs/2209.11242v2 )

ライセンス: Link先を確認
Chao Yin, Andrew Lucas(参考訳) 予熱は、任意の空間次元において小さな摂動を受ける局所的な多体量子系の一般的な性質であることを示す。 より正確には、$H_0$ をハミルトニアンで空間的に局所な$d$空間次元、ギャップ$\Delta$ を多体スペクトルとする;$V$ を局所項の和からなる空間的に局所なハミルトニアンとし、それぞれが$\epsilon \ll \Delta$ で有界である。 このとき、量子力学が$H_0$の低エネルギー部分空間に制限されるという近似は、局所作用素の相関関数において、任意の$a<1/(2d-1)$に対して拡張指数時間スケール$\tau \sim \exp[(\Delta/\epsilon)^a]$に対して正確である。 この結果は摂動がギャップを閉じるかどうかには依存しない。 H_0$がフラストレーションフリーのモデルでは, 予熱前の厳密な結果を大きく拡張した。 低エネルギー部分空間における量子シミュレーションのロバスト性、一般摂動を受けるガッピング系におけるアサーマル・リズ・スカーレッド(英語版)相関関数の存在、対称性の破れ系における偽空白の長寿命、位相秩序を持つ非フラストレーションフリーガッピング相における量子情報のロバスト性について考察する。

We prove that prethermalization is a generic property of gapped local many-body quantum systems, subjected to small perturbations, in any spatial dimension. More precisely, let $H_0$ be a Hamiltonian, spatially local in $d$ spatial dimensions, with a gap $\Delta$ in the many-body spectrum; let $V$ be a spatially local Hamiltonian consisting of a sum of local terms, each of which is bounded by $\epsilon \ll \Delta$. Then, the approximation that quantum dynamics is restricted to the low-energy subspace of $H_0$ is accurate, in the correlation functions of local operators, for stretched exponential time scale $\tau \sim \exp[(\Delta/\epsilon)^a]$ for any $a<1/(2d-1)$. This result does not depend on whether the perturbation closes the gap. It significantly extends previous rigorous results on prethermalization in models where $H_0$ was frustration-free. We infer the robustness of quantum simulation in low-energy subspaces, the existence of athermal ``scarred" correlation functions in gapped systems subject to generic perturbations, the long lifetime of false vacua in symmetry broken systems, and the robustness of quantum information in non-frustration-free gapped phases with topological order.
翻訳日:2023-04-19 18:33:02 公開日:2023-04-18
# 転がりシャッターバンドル調整の再検討:正確かつ高速な解を目指して

Revisiting Rolling Shutter Bundle Adjustment: Toward Accurate and Fast Solution ( http://arxiv.org/abs/2209.08503v3 )

ライセンス: Link先を確認
Bangyan Liao, Delin Qu, Yifei Xue, Huiqing Zhang, Yizhen Lao(参考訳) 本研究では,ローリングシャッター(RS)カメラの計測値に基づいて,カメラの6-DoFポーズと環境形状を推定する頑健で高速なバンドル調整ソリューションを提案する。 これは、センサーの追加、フレームレートの高い動画の入力、カメラの動きに対する制限的な仮定、読み出し方向、低効率といった既存の作業の課題に取り組む。 この目的のために,まず画像点の正規化がRSBA性能に与える影響について検討し,実際の6-DoFカメラ動作のモデル化において,その近似性を示す。 そこで本研究では,視覚残差共分散の新たな解析モデルを提案し,最適化中の再投影誤差を標準化し,全体の精度を向上させる。 さらに重要なことに、rsba(nw-rsba)における正規化と共分散標準化の重み付けの組み合わせは、撮影方法に制約を加えることなく、共通の平面縮退を避けることができる。 さらに,そのヤコビ行列とシュール補体の空間性に基づくNW-RSBAの加速戦略を提案する。 広範な合成および実データ実験により,提案手法の有効性と有効性が検証された。 また,提案手法はrssfmおよびrsslamソリューションとして,gssfmおよびgsslamシステムを容易に実装し,プラグインできることを示す。

We propose a robust and fast bundle adjustment solution that estimates the 6-DoF pose of the camera and the geometry of the environment based on measurements from a rolling shutter (RS) camera. This tackles the challenges in the existing works, namely relying on additional sensors, high frame rate video as input, restrictive assumptions on camera motion, readout direction, and poor efficiency. To this end, we first investigate the influence of normalization to the image point on RSBA performance and show its better approximation in modelling the real 6-DoF camera motion. Then we present a novel analytical model for the visual residual covariance, which can be used to standardize the reprojection error during the optimization, consequently improving the overall accuracy. More importantly, the combination of normalization and covariance standardization weighting in RSBA (NW-RSBA) can avoid common planar degeneracy without needing to constrain the filming manner. Besides, we propose an acceleration strategy for NW-RSBA based on the sparsity of its Jacobian matrix and Schur complement. The extensive synthetic and real data experiments verify the effectiveness and efficiency of the proposed solution over the state-of-the-art works. We also demonstrate the proposed method can be easily implemented and plug-in famous GSSfM and GSSLAM systems as completed RSSfM and RSSLAM solutions.
翻訳日:2023-04-19 18:32:31 公開日:2023-04-18
# 精度依存性を指数関数的に改善した回路深度を用いた基底状態エネルギー推定のための量子アルゴリズム

Quantum algorithm for ground state energy estimation using circuit depth with exponentially improved dependence on precision ( http://arxiv.org/abs/2209.06811v2 )

ライセンス: Link先を確認
Guoming Wang, Daniel Stilck Fran\c{c}a, Ruizhe Zhang, Shuchen Zhu, and Peter D. Johnson(参考訳) 量子コンピューティングの分野におけるマイルストーンは、最先端の古典的手法よりも早く量子化学と物質の問題を解くことである。 現在の理解では、この分野における量子的優位性を達成するにはある程度のフォールトトレランスが必要である。 ハードウェアはこのマイルストーンに向かって改善されているが、量子アルゴリズムを最適化することで、現在に近づいている。 既存の基底状態エネルギー推定法は、所望のビット数の精度で指数関数的に成長する回路ごとに複数のゲートを必要とするため、コストがかかる。 我々はこのコストを指数関数的に削減し、このコストが精度のビット数で線形に増加する基底状態エネルギー推定アルゴリズムを開発した。 エチレンカーボネートとPF$_6^-$の工業関連分子の基底状態エネルギー推定の最近の資源推定結果と比較すると、推定ゲート数と回路深さはそれぞれ43と78と減少する。 さらに、アルゴリズムは、総実行時間を減らすために追加の回路深度を使うことができる。 これらの特徴により、初期のフォールトトレラント量子コンピューティングの時代に量子優位を実現する有望な候補となる。

A milestone in the field of quantum computing will be solving problems in quantum chemistry and materials faster than state-of-the-art classical methods. The current understanding is that achieving quantum advantage in this area will require some degree of fault-tolerance. While hardware is improving towards this milestone, optimizing quantum algorithms also brings it closer to the present. Existing methods for ground state energy estimation are costly in that they require a number of gates per circuit that grows exponentially with the desired number of bits in precision. We reduce this cost exponentially, by developing a ground state energy estimation algorithm for which this cost grows linearly in the number of bits of precision. Relative to recent resource estimates of ground state energy estimation for the industrially-relevant molecules of ethylene-carbonate and PF$_6^-$, the estimated gate count and circuit depth is reduced by a factor of 43 and 78, respectively. Furthermore, the algorithm can use additional circuit depth to reduce the total runtime. These features make our algorithm a promising candidate for realizing quantum advantage in the era of early fault-tolerant quantum computing.
翻訳日:2023-04-19 18:32:11 公開日:2023-04-18
# オーダーディオーダ:ブラックボックスニューラルランクモデルに対する模倣逆攻撃

Order-Disorder: Imitation Adversarial Attacks for Black-box Neural Ranking Models ( http://arxiv.org/abs/2209.06506v2 )

ライセンス: Link先を確認
Jiawei Liu, Yangyang Kang, Di Tang, Kaisong Song, Changlong Sun, Xiaofeng Wang, Wei Lu, Xiaozhong Liu(参考訳) ニューラルテキストランキングモデルは、大幅な進歩を目撃し、実際にデプロイされている。 残念なことに、彼らは一般的な神経モデルの敵対的脆弱性も継承している。 さらに、ブラックハットSEOにより、より保護された検索エンジンを倒すために、継承された敵の脆弱性を利用することができる。 本研究では,ブラックボックスニューラルパスランキングモデルに対する模倣逆攻撃を提案する。 まず,重要クエリ/候補を列挙することで,対象パスのランキングモデルが透過的かつ模倣可能であることを示し,ランキング模倣モデルを訓練する。 ランキング模倣モデルを利用することで、ランキング結果を巧みに操作し、操作攻撃をターゲットランキングモデルに移すことができる。 そこで本研究では,対向目標関数を応用し,極めて少ないトークンで前処理された障害ラインを発生させる逆トリガーを生成する,革新的な勾配に基づく攻撃手法を提案する。 トリガーカモフラージュを導入するために、次の文予測損失と言語モデルフルエンシー制約を目的関数に追加する。 パスランキングにおける実験結果は,様々な sota ニューラルランキングモデルに対するランキング模倣攻撃モデルと敵意トリガーの有効性を示す。 さらに, 種々の緩和分析と人的評価により, 潜在的な緩和アプローチに対するカモフラージュの有効性が示された。 他の研究者がこの新しく重要な問題をさらに調査する動機づけるために、実験データとコードを一般公開する。

Neural text ranking models have witnessed significant advancement and are increasingly being deployed in practice. Unfortunately, they also inherit adversarial vulnerabilities of general neural models, which have been detected but remain underexplored by prior studies. Moreover, the inherit adversarial vulnerabilities might be leveraged by blackhat SEO to defeat better-protected search engines. In this study, we propose an imitation adversarial attack on black-box neural passage ranking models. We first show that the target passage ranking model can be transparentized and imitated by enumerating critical queries/candidates and then train a ranking imitation model. Leveraging the ranking imitation model, we can elaborately manipulate the ranking results and transfer the manipulation attack to the target ranking model. For this purpose, we propose an innovative gradient-based attack method, empowered by the pairwise objective function, to generate adversarial triggers, which causes premeditated disorderliness with very few tokens. To equip the trigger camouflages, we add the next sentence prediction loss and the language model fluency constraint to the objective function. Experimental results on passage ranking demonstrate the effectiveness of the ranking imitation attack model and adversarial triggers against various SOTA neural ranking models. Furthermore, various mitigation analyses and human evaluation show the effectiveness of camouflages when facing potential mitigation approaches. To motivate other scholars to further investigate this novel and important problem, we make the experiment data and code publicly available.
翻訳日:2023-04-19 18:31:50 公開日:2023-04-18
# カテゴリー的特徴に対する勾配推定器を用いた確率勾配降下

Stochastic gradient descent with gradient estimator for categorical features ( http://arxiv.org/abs/2209.03771v2 )

ライセンス: Link先を確認
Paul Peseux, Maxime Berar, Thierry Paquet, Victor Nicollet(参考訳) カテゴリーデータは健康やサプライチェーンといった重要な領域に存在し、このデータは特定の治療を必要とする。 このようなデータに最近の機械学習モデルを適用するには、エンコーディングが必要である。 解釈可能なモデルを構築するために、ワンホットエンコーディングは依然として非常に良いソリューションであるが、そのようなエンコーディングはスパースデータを生成する。 グラディエント推定器はスパースデータには適さないが、グラディエント推定器は主にゼロと見なされるが、必ずしも存在しないため、新しい勾配推定器が導入された。 この推定器は理論上何が最小かを示し、複数のモデルアーキテクチャを持つ異なるデータセット上でその効率を示す。 この新しい推定器は、同様の設定で一般的な推定器よりも優れている。 現実世界のリテールデータセットも匿名化後にリリースされる。 本論文の目的は、分類データを徹底的に検討し、これらの重要な特徴にモデルとオプティマイザを適用することである。

Categorical data are present in key areas such as health or supply chain, and this data require specific treatment. In order to apply recent machine learning models on such data, encoding is needed. In order to build interpretable models, one-hot encoding is still a very good solution, but such encoding creates sparse data. Gradient estimators are not suited for sparse data: the gradient is mainly considered as zero while it simply does not always exists, thus a novel gradient estimator is introduced. We show what this estimator minimizes in theory and show its efficiency on different datasets with multiple model architectures. This new estimator performs better than common estimators under similar settings. A real world retail dataset is also released after anonymization. Overall, the aim of this paper is to thoroughly consider categorical data and adapt models and optimizers to these key features.
翻訳日:2023-04-19 18:31:27 公開日:2023-04-18
# 古典的影とデランドマイゼーションによる変分量子シミュレーションの最適化

Measurement optimization of variational quantum simulation by classical shadow and derandomization ( http://arxiv.org/abs/2208.13934v2 )

ライセンス: Link先を確認
Kouhei Nakaji, Suguru Endo, Yuichiro Matsuzaki, and Hideaki Hakoshima(参考訳) 大規模量子システムのシミュレーションは、量子コンピューティングの究極の目標である。 変動量子シミュレーション(VQS)は、計算負荷を古典コンピュータと量子コンピュータの両方に分散することにより、短期デバイスにおける目標を達成するためのツールを提供する。 しかし、量子システムのサイズが大きくなるにつれて、VQSの実行はますます困難になる。 例えば、化学ハミルトニアンによる量子シミュレーションにおいて、量子ビット数の4番目のパワーで測定の数が増加する傾向にある。 この研究は、最近提案された古典的な影やデランドマイゼーションのような影に基づく戦略により、VQSにおける測定回数を劇的に減少させることを目的としている。 従来の文献では、変分量子最適化(VQO)におけるシャドーベース戦略の最適化に成功していたが、観測可能量の測定におけるVQOとVQSのギャップのため、VQSへの適用方法は不明であった。 本稿では,VQSにおける観測値の測定方法を変えることでギャップを埋めるとともに,シャドーベース戦略によるVQSの測定を最適化するアルゴリズムを提案する。 理論解析により,vqsにおけるアルゴリズムの利用の利点が明らかにされるだけでなく,vqoにおけるシャドウベースの戦略を理論的にサポートする。 さらに,我々の数値実験は,量子化学システムを用いたアルゴリズムの有効性を示した。

Simulating large quantum systems is the ultimate goal of quantum computing. Variational quantum simulation (VQS) gives us a tool to achieve the goal in near-term devices by distributing the computation load to both classical and quantum computers. However, as the size of the quantum system becomes large, the execution of VQS becomes more and more challenging. One of the most severe challenges is the drastic increase in the number of measurements; for example, the number of measurements tends to increase by the fourth power of the number of qubits in a quantum simulation with a chemical Hamiltonian. This work aims to dramatically decrease the number of measurements in VQS by recently proposed shadow-based strategies such as classical shadow and derandomization. Even though previous literature shows that shadow-based strategies successfully optimize measurements in the variational quantum optimization (VQO), how to apply them to VQS was unclear due to the gap between VQO and VQS in measuring observables. In this paper, we bridge the gap by changing the way of measuring observables in VQS and propose an algorithm to optimize measurements in VQS by shadow-based strategies. Our theoretical analysis not only reveals the advantage of using our algorithm in VQS but theoretically supports using shadow-based strategies in VQO, whose advantage has only been given numerically. Additionally, our numerical experiment shows the validity of using our algorithm with a quantum chemical system.
翻訳日:2023-04-19 18:31:13 公開日:2023-04-18
# 繰り返し発生する言語のモデルに戻る

Circling Back to Recurrent Models of Language ( http://arxiv.org/abs/2211.01848v2 )

ライセンス: Link先を確認
G\'abor Melis(参考訳) 純粋なリカレントモデルの中には、今日のハードウェアで最適化が困難で非効率なものもあるため、必ずしも悪い言語モデルではない。 我々は、これらのモデルが若干改善された再帰セル、アーキテクチャ、目的、および最適化の組み合わせによって、改善できる程度で、これを実証する。 この過程で, 動的評価を伴う小規模データセットとenwik8上での言語モデリングの新たな技術を確立した。

Just because some purely recurrent models suffer from being hard to optimize and inefficient on today's hardware, they are not necessarily bad models of language. We demonstrate this by the extent to which these models can still be improved by a combination of a slightly better recurrent cell, architecture, objective, as well as optimization. In the process, we establish a new state of the art for language modelling on small datasets and on Enwik8 with dynamic evaluation.
翻訳日:2023-04-19 18:23:50 公開日:2023-04-18
# FedTP:トランスフォーマーパーソナライゼーションによるフェデレーション学習

FedTP: Federated Learning by Transformer Personalization ( http://arxiv.org/abs/2211.01572v2 )

ライセンス: Link先を確認
Hongxia Li, Zhongyi Cai, Jingya Wang, Jiangnan Tang, Weiping Ding, Chin-Teng Lin, and Ye Shi(参考訳) フェデレーション学習(Federated Learning)は、複数のクライアントがプライバシ保護の方法で機械学習モデルを共同でトレーニングする、新たな学習パラダイムである。 パーソナライズされた連合学習は、パーソナライズされたモデルを学習することで、クライアント間の多様性を克服するためにこのパラダイムを拡張します。 近年,連合学習にトランスフォーマーを適用しようとする試みがいくつかある。 しかし,フェデレーション学習アルゴリズムが自己意識に与える影響は研究されていない。 本稿では,この関係を考察し,フェデレーション平均化アルゴリズムがデータ不均一性が存在する場合の自己注意に負の影響があることを明らかにする。 これらの影響は、連合学習設定におけるTransformerモデルの能力を制限する。 そこで我々は,トランスフォーマーをベースとした新しいフェデレーション学習フレームワークであるFedTPを提案し,クライアント間で他のパラメータを集約しながら,各クライアントのパーソナライズされた自己意識を学習する。 本研究では,各クライアントの個別の自己認識レイヤをローカルに維持するバニラパーソナライゼーション機構の代わりに,クライアント間の連携をさらに促進し,FedTPの可視性と一般化を高めるための学習・個人化機構を開発する。 具体的には、サーバ上でハイパーネットワークを学習し、自己アテンションレイヤのパーソナライズされたプロジェクション行列を出力し、クライアントワイズクエリ、キー、値を生成することにより、学習対個人化を実現する。 さらに,FedTPの一般化を学習対個人化機構を用いて提案する。 特にfeedtpは、同じフェデレーションされたネットワークアーキテクチャを使用して、さまざまなイメージや言語タスクを実行するための便利な環境を提供します。 大規模な実験により、FedTPは非IIDシナリオで最先端の性能が得られることが検証された。 私たちのコードはオンラインで入手できる。

Federated learning is an emerging learning paradigm where multiple clients collaboratively train a machine learning model in a privacy-preserving manner. Personalized federated learning extends this paradigm to overcome heterogeneity across clients by learning personalized models. Recently, there have been some initial attempts to apply Transformers to federated learning. However, the impacts of federated learning algorithms on self-attention have not yet been studied. This paper investigates this relationship and reveals that federated averaging algorithms actually have a negative impact on self-attention where there is data heterogeneity. These impacts limit the capabilities of the Transformer model in federated learning settings. Based on this, we propose FedTP, a novel Transformer-based federated learning framework that learns personalized self-attention for each client while aggregating the other parameters among the clients. Instead of using a vanilla personalization mechanism that maintains personalized self-attention layers of each client locally, we develop a learn-to-personalize mechanism to further encourage the cooperation among clients and to increase the scablability and generalization of FedTP. Specifically, the learn-to-personalize is realized by learning a hypernetwork on the server that outputs the personalized projection matrices of self-attention layers to generate client-wise queries, keys and values. Furthermore, we present the generalization bound for FedTP with the learn-to-personalize mechanism. Notably, FedTP offers a convenient environment for performing a range of image and language tasks using the same federated network architecture - all of which benefit from Transformer personalization. Extensive experiments verify that FedTP with the learn-to-personalize mechanism yields state-of-the-art performance in non-IID scenarios. Our code is available online.
翻訳日:2023-04-19 18:23:42 公開日:2023-04-18
# 構成可能なトランスデューサ音声認識のための可変注意マスキング

Variable Attention Masking for Configurable Transformer Transducer Speech Recognition ( http://arxiv.org/abs/2211.01438v2 )

ライセンス: Link先を確認
Pawel Swietojanski, Stefan Braun, Dogan Can, Thiago Fraga da Silva, Arnab Ghoshal, Takaaki Hori, Roger Hsiao, Henry Mason, Erik McDermott, Honza Silovsky, Ruchir Travadi, Xiaodan Zhuang(参考訳) 本研究は,トランスデューサを用いた音声認識におけるアテンションマスキングを用いて,異なる展開シナリオのための単一構成可能なモデルを構築することを目的とする。 本稿では,各フレームに同一の注目マスクが適用される固定マスキングと,各フレームの注目マスクがチャンク境界によって決定されるチャンクマスクとを,認識精度と遅延の観点から比較した総合的な実験を行う。 次に、トレーニング時にターゲットディストリビューションから注意マスクをサンプリングして、異なる構成で動作可能なモデルを構築する、可変マスクの使用について検討する。 最後に、単一構成可能なモデルを用いて、第1パスストリーミング認識と第2パス音響再構成の両方を実行する方法について検討する。 実験によると、チャンクマスキングはFastEmitの有無にかかわらず、固定マスキングと比較して、レイテンシトレードオフよりも精度がよい。 また, 可変マスキングにより, 音響再現シナリオにおいて, 最大8%精度が向上することを示した。

This work studies the use of attention masking in transformer transducer based speech recognition for building a single configurable model for different deployment scenarios. We present a comprehensive set of experiments comparing fixed masking, where the same attention mask is applied at every frame, with chunked masking, where the attention mask for each frame is determined by chunk boundaries, in terms of recognition accuracy and latency. We then explore the use of variable masking, where the attention masks are sampled from a target distribution at training time, to build models that can work in different configurations. Finally, we investigate how a single configurable model can be used to perform both first pass streaming recognition and second pass acoustic rescoring. Experiments show that chunked masking achieves a better accuracy vs latency trade-off compared to fixed masking, both with and without FastEmit. We also show that variable masking improves the accuracy by up to 8% relative in the acoustic re-scoring scenario.
翻訳日:2023-04-19 18:23:13 公開日:2023-04-18
# シミュレーションに基づく推論のための非正規化モデルの最大確率学習

Maximum Likelihood Learning of Unnormalized Models for Simulation-Based Inference ( http://arxiv.org/abs/2210.14756v2 )

ライセンス: Link先を確認
Pierre Glaser, Michael Arbel, Samo Hromadka, Arnaud Doucet, Arthur Gretton(参考訳) シミュレーションベース推論(SBI)では,高忠実度シミュレータが利用可能である場合,実験結果から,暗黙的あるいは標的的推論を行うための2つの方法を提案する。 いずれの手法も,提案分布から引き出されたパラメータに基づいて,シミュレータが生成した合成データを用いて条件付エネルギーベースモデル(ebm)を学習する。 得られた確率を事前に組み合わせて後続の推定値を得ることができ、そこからサンプルをMCMCを使って描画することができる。 我々の方法は、フレキシブルエネルギーベースのモデルとkl損失の最小化を一意に組み合わせる:これは、流れを正規化するか、スコアベースの目標を最小化する他の合成確率法とは対照的である。 本手法は,様々な合成データセット上での両手法の特性を実証し,シミュレーション予算のごく一部に対して先行技術よりも優れる,カニの幽門ネットワークの神経科学モデルに適用する。

We introduce two synthetic likelihood methods for Simulation-Based Inference (SBI), to conduct either amortized or targeted inference from experimental observations when a high-fidelity simulator is available. Both methods learn a conditional energy-based model (EBM) of the likelihood using synthetic data generated by the simulator, conditioned on parameters drawn from a proposal distribution. The learned likelihood can then be combined with any prior to obtain a posterior estimate, from which samples can be drawn using MCMC. Our methods uniquely combine a flexible Energy-Based Model and the minimization of a KL loss: this is in contrast to other synthetic likelihood methods, which either rely on normalizing flows, or minimize score-based objectives; choices that come with known pitfalls. We demonstrate the properties of both methods on a range of synthetic datasets, and apply them to a neuroscience model of the pyloric network in the crab, where our method outperforms prior art for a fraction of the simulation budget.
翻訳日:2023-04-19 18:22:57 公開日:2023-04-18
# ネットワーク信号と情報処理

Networked Signal and Information Processing ( http://arxiv.org/abs/2210.13767v2 )

ライセンス: Link先を確認
Stefan Vlaski, Soummya Kar, Ali H. Sayed, Jos\'e M. F. Moura(参考訳) この論文は、分散エージェントのユビキタスな環境への意思決定と推論、最適化、制御、学習を拡張した過去25年間に実現された、ネットワーク化された信号と情報処理の大きな進歩をレビューしている。 これらの相互作用するエージェントが協力するにつれて、地元の決定や行動から新しい集団行動が生まれる。 さらに、理論と応用は、協調と共有によって、ネットワークエージェントは、クラウドやフェデレーションされたソリューションのパフォーマンスにマッチすると同時に、プライバシの向上、レジリエンスの向上、リソースの節約の可能性を提供する。

The article reviews significant advances in networked signal and information processing, which have enabled in the last 25 years extending decision making and inference, optimization, control, and learning to the increasingly ubiquitous environments of distributed agents. As these interacting agents cooperate, new collective behaviors emerge from local decisions and actions. Moreover, and significantly, theory and applications show that networked agents, through cooperation and sharing, are able to match the performance of cloud or federated solutions, while offering the potential for improved privacy, increasing resilience, and saving resources.
翻訳日:2023-04-19 18:22:38 公開日:2023-04-18
# 透明風力タービンパワーカーブモデルのためのXAI

XAI for transparent wind turbine power curve models ( http://arxiv.org/abs/2210.12104v2 )

ライセンス: Link先を確認
Simon Letzgus(参考訳) 環境条件をタービン出力に変換する正確な風力タービンパワーカーブモデルは,大域的なエネルギー遷移における風力エネルギーのスケールアップとその役割を果たす上で重要である。 機械学習(ML)の手法はパラメトリックな物理インフォームドアプローチよりも大きな優位性を示しているが、しばしば不透明な「ブラックボックス」であるとして批判されている。 我々は,機械学習モデルが風力タービンデータから学んだ戦略を明らかにするために,Shapley値,一般的な説明可能な人工知能(XAI)手法,および回帰モデルに関するXAIの最新知見を適用した。 この結果から,テストセットのパフォーマンスを重視した大規模モデルアーキテクチャの傾向が,物理的に予測不可能なモデル戦略をもたらすことが明らかとなった。 そこで我々は,モデル選択におけるXAI手法のより顕著な役割を提唱する。 さらに,風車性能モニタリングの文脈において,根本原因解析の解説を活用できる実用的な手法を提案する。 これにより、ダウンタイムを減らし、フィールドでのタービンの利用を増加させることができる。

Accurate wind turbine power curve models, which translate ambient conditions into turbine power output, are crucial for wind energy to scale and fulfill its proposed role in the global energy transition. While machine learning (ML) methods have shown significant advantages over parametric, physics-informed approaches, they are often criticised for being opaque 'black boxes', which hinders their application in practice. We apply Shapley values, a popular explainable artificial intelligence (XAI) method, and the latest findings from XAI for regression models, to uncover the strategies ML models have learned from operational wind turbine data. Our findings reveal that the trend towards ever larger model architectures, driven by a focus on test set performance, can result in physically implausible model strategies. Therefore, we call for a more prominent role of XAI methods in model selection. Moreover, we propose a practical approach to utilize explanations for root cause analysis in the context of wind turbine performance monitoring. This can help to reduce downtime and increase the utilization of turbines in the field.
翻訳日:2023-04-19 18:22:27 公開日:2023-04-18
# p$^3$vae:物理積分生成モデル。 光リモートセンシング画像のセマンティックセグメンテーションへの応用

p$^3$VAE: a physics-integrated generative model. Application to the semantic segmentation of optical remote sensing images ( http://arxiv.org/abs/2210.10418v3 )

ライセンス: Link先を確認
Romain Thoreau, Laurent Risser, V\'eronique Achard, B\'eatrice Berthelot and Xavier Briottet(参考訳) 機械学習モデルと物理モデルの組み合わせは、堅牢なデータ表現を学ぶための最近の研究パスである。 本稿では,データの変動の真の要因を部分的に説明できる完全物理モデルを統合する生成モデルであるp$^3$vaeを提案する。 このハイブリッド設計を十分に活用するために,半教師付き最適化手順と有意義な不確実性推定を伴う推論スキームを提案する。 高分解能ハイパースペクトルリモートセンシング画像の意味セグメンテーションにp$^3$vaeを適用する。 シミュレーションデータセットを用いた実験により,従来の機械学習モデルに対するハイブリッドモデルの利点を,外挿能力と解釈可能性の観点から実証した。 特に、p$^3$vae は自然に高い等角性を持つことを示す。 私たちのコードとデータはhttps://github.com/Romain3Ch216/p3VAEで公開されています。

The combination of machine learning models with physical models is a recent research path to learn robust data representations. In this paper, we introduce p$^3$VAE, a generative model that integrates a perfect physical model which partially explains the true underlying factors of variation in the data. To fully leverage our hybrid design, we propose a semi-supervised optimization procedure and an inference scheme that comes along meaningful uncertainty estimates. We apply p$^3$VAE to the semantic segmentation of high-resolution hyperspectral remote sensing images. Our experiments on a simulated data set demonstrated the benefits of our hybrid model against conventional machine learning models in terms of extrapolation capabilities and interpretability. In particular, we show that p$^3$VAE naturally has high disentanglement capabilities. Our code and data have been made publicly available at https://github.com/Romain3Ch216/p3VAE.
翻訳日:2023-04-19 18:22:10 公開日:2023-04-18
# 自己監督型視覚変換器と弱ラベルを用いた病理画像分類

Histopathological Image Classification based on Self-Supervised Vision Transformer and Weak Labels ( http://arxiv.org/abs/2210.09021v2 )

ライセンス: Link先を確認
Ahmet Gokberk Gul, Oezdemir Cetin, Christoph Reich, Tim Prangemeier, Nadine Flinner, Heinz Koeppl(参考訳) Whole Slide Image (WSI) 解析は、組織サンプルのがんの診断を容易にする強力な方法である。 この診断の自動化は様々な問題を引き起こし、特に大きな画像解像度と限定的なアノテーションによって引き起こされる。 WSIは一般的に100Kx100Kピクセルの解像度を示す。 ピクセルレベルでのWSIの癌領域のアノテーションは、労働集約的であり、高いレベルの専門知識を必要とする。 複数インスタンス学習(MIL)は、高価なピクセルレベルのアノテーションの必要性を軽減する。 milでは、病理学者ががん組織を含むかどうかに関する情報を提供するスライドレベルラベルで学習を行う。 本稿では,スライドレベルのアノテーションに基づく癌領域の分類と局所化のための新しい手法であるself-vit-milを提案する。 Self-ViT-MILは、ラベルに頼らずにリッチな特徴表現を学習するために、セルフ教師付き設定で事前訓練される。 最近のViTアーキテクチャは、Self-ViT-MILの機能抽出器を構築している。 がん領域のローカライズには、グローバルな注目を集めるMILアグリゲータが使用される。 我々の知る限りでは、MILベースのWSI分析タスクに自己監督型ViTを導入する最初のアプローチである。 一般的なCamelyon16データセットにアプローチの有効性を示す。 Self-ViT-MILは、曲線(AUC)の精度と面積の観点から、最先端のMILベースのアプローチを超越している。

Whole Slide Image (WSI) analysis is a powerful method to facilitate the diagnosis of cancer in tissue samples. Automating this diagnosis poses various issues, most notably caused by the immense image resolution and limited annotations. WSIs commonly exhibit resolutions of 100Kx100K pixels. Annotating cancerous areas in WSIs on the pixel level is prohibitively labor-intensive and requires a high level of expert knowledge. Multiple instance learning (MIL) alleviates the need for expensive pixel-level annotations. In MIL, learning is performed on slide-level labels, in which a pathologist provides information about whether a slide includes cancerous tissue. Here, we propose Self-ViT-MIL, a novel approach for classifying and localizing cancerous areas based on slide-level annotations, eliminating the need for pixel-wise annotated training data. Self-ViT- MIL is pre-trained in a self-supervised setting to learn rich feature representation without relying on any labels. The recent Vision Transformer (ViT) architecture builds the feature extractor of Self-ViT-MIL. For localizing cancerous regions, a MIL aggregator with global attention is utilized. To the best of our knowledge, Self-ViT- MIL is the first approach to introduce self-supervised ViTs in MIL-based WSI analysis tasks. We showcase the effectiveness of our approach on the common Camelyon16 dataset. Self-ViT-MIL surpasses existing state-of-the-art MIL-based approaches in terms of accuracy and area under the curve (AUC).
翻訳日:2023-04-19 18:21:58 公開日:2023-04-18
# 失語障害を伴う一般化:バイスモータタスク学習のためのブロードオフラインデータを活用する

Generalization with Lossy Affordances: Leveraging Broad Offline Data for Learning Visuomotor Tasks ( http://arxiv.org/abs/2210.06601v2 )

ライセンス: Link先を確認
Kuan Fang, Patrick Yin, Ashvin Nair, Homer Walke, Gengchen Yan, Sergey Levine(参考訳) 幅広いデータセットの利用は、幅広い分野の一般化に不可欠であることが証明されている。 しかし、新しい下流タスクに多様なマルチタスクデータを効果的に利用する方法は、ロボティクスにおいて依然として大きな課題である。 この課題に取り組むために,幅広いデータに対するオフライン強化学習と,学習損失表現空間におけるサブゴールによるオンライン微調整を組み合わせることで,時間的拡張課題に対する目標条件付きポリシーを取得する枠組みを提案する。 新たなタスク目標に直面した場合、フレームワークは余裕モデルを使用して、元のタスクをより簡単な問題に分解するサブゴールとして、損失のある表現のシーケンスを計画する。 広義のデータから学習した損失表現は、状態と目標に関するタスク関連情報を強調し、一般化を妨げる冗長なコンテキストを抽象化する。 これにより、目に見えないタスクのサブゴール計画を可能にし、ポリシーへのコンパクトな入力を提供し、微調整時の報酬形成を容易にする。 我々は,ロボット体験の大規模データセットを事前学習し,手作業による報酬を必要とせず,視覚入力から新たなタスクを効率的に調整できることを実証する。

The utilization of broad datasets has proven to be crucial for generalization for a wide range of fields. However, how to effectively make use of diverse multi-task data for novel downstream tasks still remains a grand challenge in robotics. To tackle this challenge, we introduce a framework that acquires goal-conditioned policies for unseen temporally extended tasks via offline reinforcement learning on broad data, in combination with online fine-tuning guided by subgoals in learned lossy representation space. When faced with a novel task goal, the framework uses an affordance model to plan a sequence of lossy representations as subgoals that decomposes the original task into easier problems. Learned from the broad data, the lossy representation emphasizes task-relevant information about states and goals while abstracting away redundant contexts that hinder generalization. It thus enables subgoal planning for unseen tasks, provides a compact input to the policy, and facilitates reward shaping during fine-tuning. We show that our framework can be pre-trained on large-scale datasets of robot experiences from prior work and efficiently fine-tuned for novel tasks, entirely from visual inputs without any manual reward engineering.
翻訳日:2023-04-19 18:21:37 公開日:2023-04-18
# 自然発生発光による突然死に対する多成分絡み合いの予期せぬロバスト性

Unexpected Robustness of Multipartite Entanglement against Sudden Death from Spontaneous Emission ( http://arxiv.org/abs/2210.01854v4 )

ライセンス: Link先を確認
Songbo Xie and Daniel Younis and Joseph H. Eberly(参考訳) 絡み合いは、自然放出による影響である孤立系でも崩壊することが知られている。 この絡み合いの脆弱さは、絡み合いの突然死(ESD)によって悪化し、絡み合いは有限時間以内に突然ゼロになる。 多成分の絡み合いがesdに対してより脆弱であると仮定するのは自然なことである。 本稿では,この仮定に挑戦し,多成分の絡み合いが自発的放出によるesdに対する強固性の向上を示すことを主張する。

Entanglement is known to decay even in isolated systems, an effect attributed to spontaneous emission. This fragility of entanglement can be exacerbated by entanglement sudden death (ESD), where entanglement drops to zero abruptly within a finite time. It is natural to assume that multipartite entanglement is more vulnerable to ESD, as it involves more parties experiencing spontaneous emission. In this work, we challenge this assumption and present a contrasting conclusion, asserting that multipartite entanglement demonstrates increased robustness against ESD from spontaneous emission.
翻訳日:2023-04-19 18:21:14 公開日:2023-04-18
# 極度リスクの気候モデルアンサンブル予測のための局所時間不変計量

A locally time-invariant metric for climate model ensemble predictions of extreme risk ( http://arxiv.org/abs/2211.16367v3 )

ライセンス: Link先を確認
Mala Virdee, Markus Kaiser, Emily Shuckburgh, Carl Henrik Ek, Ieva Kazlauskaite(参考訳) 気候変動の適応関連予測は、多モデルアンサンブルにおける気候モデルシミュレーションを組み合わせることでしばしば導かれる。 性能に基づくアンサンブル重み付け方式で用いられるモデル評価手法は、高インパクト極端事象の文脈において制限がある。 本稿では,気候モデルシミュレーションを評価するための局所時間不変な手法を提案する。 ナイロビの極端な暑さの予測における提案手法の挙動を考察し,8都市で比較検討を行った。

Adaptation-relevant predictions of climate change are often derived by combining climate model simulations in a multi-model ensemble. Model evaluation methods used in performance-based ensemble weighting schemes have limitations in the context of high-impact extreme events. We introduce a locally time-invariant method for evaluating climate model simulations with a focus on assessing the simulation of extremes. We explore the behaviour of the proposed method in predicting extreme heat days in Nairobi and provide comparative results for eight additional cities.
翻訳日:2023-04-19 18:15:44 公開日:2023-04-18
# プレコンディショニング機能勾配流を用いた粒子ベース変分推定

Particle-based Variational Inference with Preconditioned Functional Gradient Flow ( http://arxiv.org/abs/2211.13954v2 )

ライセンス: Link先を確認
Hanze Dong, Xi Wang, Yong Lin, Tong Zhang(参考訳) 粒子ベース変分推論 (VI) は, モデル試料と対象後部とのKL分散を勾配流の推定値で最小化する。 スタイン変分勾配降下(SVGD)の人気により、粒子ベースのVIアルゴリズムの焦点は、勾配流を近似するケルネルヒルベルト空間(RKHS)の関数の性質に向けられている。 しかし、RKHSの要求は関数クラスとアルゴリズムの柔軟性を制限する。 本稿では,RKHS法則を特別な場合として包含する関数正規化項を導入することにより,この問題に対する一般的な解決策を提供する。 これにより,プリコンディショルド機能勾配流(pfg)と呼ばれる新しい粒子ベースのviアルゴリズムを提案することができる。 SVGDと比較すると、PFGにはいくつかの利点がある。 より大きな関数クラスを持ち、大きな粒子サイズのシナリオでのスケーラビリティの向上、不条件分布への適応の改善、KL分散の証明可能な連続時間収束がある。 さらに、勾配流れを推定するためにニューラルネットワークのような非線形関数クラスを組み込むこともできる。 本理論と実験は,提案手法の有効性を示す。

Particle-based variational inference (VI) minimizes the KL divergence between model samples and the target posterior with gradient flow estimates. With the popularity of Stein variational gradient descent (SVGD), the focus of particle-based VI algorithms has been on the properties of functions in Reproducing Kernel Hilbert Space (RKHS) to approximate the gradient flow. However, the requirement of RKHS restricts the function class and algorithmic flexibility. This paper offers a general solution to this problem by introducing a functional regularization term that encompasses the RKHS norm as a special case. This allows us to propose a new particle-based VI algorithm called preconditioned functional gradient flow (PFG). Compared to SVGD, PFG has several advantages. It has a larger function class, improved scalability in large particle-size scenarios, better adaptation to ill-conditioned distributions, and provable continuous-time convergence in KL divergence. Additionally, non-linear function classes such as neural networks can be incorporated to estimate the gradient flow. Our theory and experiments demonstrate the effectiveness of the proposed framework.
翻訳日:2023-04-19 18:14:46 公開日:2023-04-18
# アクティブタスクランダム化:多元的タスクの教師なし生成によるロバストスキルの学習

Active Task Randomization: Learning Robust Skills via Unsupervised Generation of Diverse and Feasible Tasks ( http://arxiv.org/abs/2211.06134v2 )

ライセンス: Link先を確認
Kuan Fang, Toki Migimatsu, Ajay Mandlekar, Li Fei-Fei, Jeannette Bohg(参考訳) 現実世界の操作タスクを解決するには、ロボットは幅広い状況に適用できるスキルのレパートリーを持つ必要がある。 このようなスキルを習得するために学習ベースの手法を使用する場合、重要な課題はタスクの多様性と実現可能なバリエーションをカバーするトレーニングデータを得ることである。 本研究では、教師なしのトレーニングタスクの生成を通じて、堅牢なスキルを学ぶアプローチであるActive Task Randomization (ATR)を紹介する。 ATRは、タスクの多様性と実現可能性のバランスをとることで、堅牢なスキルを学ぶために、初期環境状態と操作目標からなる適切なタスクを選択する。 本稿では,コンパクトなタスク表現を共同学習することで,タスクの多様性と実現可能性を予測することを提案する。 選択されたタスクは、グラフベースのパラメータ化を用いたシミュレーションで手続き的に生成される。 これらのトレーニングタスクのアクティブな選択により、我々のフレームワークでトレーニングされたスキルポリシーは、テスト時にさまざまなオブジェクトやアレンジメントを堅牢に処理できます。 本研究では,視覚的入力に基づく逐次操作問題の解決のために,タスクプランナが学習スキルを構成することを実証する。 ベースライン法と比較して、atrはシングルステップおよびシーケンシャルな操作タスクにおいて優れた成功率を達成できる。

Solving real-world manipulation tasks requires robots to have a repertoire of skills applicable to a wide range of circumstances. When using learning-based methods to acquire such skills, the key challenge is to obtain training data that covers diverse and feasible variations of the task, which often requires non-trivial manual labor and domain knowledge. In this work, we introduce Active Task Randomization (ATR), an approach that learns robust skills through the unsupervised generation of training tasks. ATR selects suitable tasks, which consist of an initial environment state and manipulation goal, for learning robust skills by balancing the diversity and feasibility of the tasks. We propose to predict task diversity and feasibility by jointly learning a compact task representation. The selected tasks are then procedurally generated in simulation using graph-based parameterization. The active selection of these training tasks enables skill policies trained with our framework to robustly handle a diverse range of objects and arrangements at test time. We demonstrate that the learned skills can be composed by a task planner to solve unseen sequential manipulation problems based on visual inputs. Compared to baseline methods, ATR can achieve superior success rates in single-step and sequential manipulation tasks.
翻訳日:2023-04-19 18:13:36 公開日:2023-04-18
# 軌道最適化変分量子固有解法のための2次エネルギー誘導体の解析的定式化:偏光性への応用

Analytical formulation of the second-order derivative of energy for orbital-optimized variational quantum eigensolver: application to polarizability ( http://arxiv.org/abs/2211.03343v2 )

ライセンス: Link先を確認
Yuya O. Nakagawa, Jiabao Chen, Shotaro Sudo, Yu-ya Ohnishi, and Wataru Mizukami(参考訳) 本研究では,軌道最適化型変分量子固有解器(OO-VQE)のエネルギーの2次微分を解析的に算出する量子古典ハイブリッドアルゴリズムを開発した。 アルゴリズムが微分を計算するのに必要な全ての量は、量子コンピュータ上で、量子ビットを使わずに標準量子期待値として評価できることを示した。 電場に対するエネルギーの2階微分である水分子の偏光性を計算するための量子回路の数値シミュレーションにより,我々の式を検証した。 さらに, チオフェンおよびフラン分子の偏極性と屈折率を, 工業応用可能な試験台として算出した。 解析微分法により得られた推定偏光度と有限差分法により得られた数値との誤差スケーリングを最終的に解析する。 数値計算により, 量子コンピュータにおける解析微分は, 同一の精度を達成するために, 数値微分よりも少ない測定(実行)を必要とすることが示唆された。

We develop a quantum-classical hybrid algorithm to calculate the analytical second-order derivative of the energy for the orbital-optimized variational quantum eigensolver (OO-VQE), which is a method to calculate eigenenergies of a given molecular Hamiltonian by utilizing near-term quantum computers and classical computers. We show that all quantities required in the algorithm to calculate the derivative can be evaluated on quantum computers as standard quantum expectation values without using any ancillary qubits. We validate our formula by numerical simulations of quantum circuits for computing the polarizability of the water molecule, which is the second-order derivative of the energy with respect to the electric field. Moreover, the polarizabilities and refractive indices of thiophene and furan molecules are calculated as a testbed for possible industrial applications. We finally analyze the error-scaling of the estimated polarizabilities obtained by the proposed analytical derivative versus the numerical one obtained by the finite difference. Numerical calculations suggest that our analytical derivative requires fewer measurements (runs) on quantum computers than the numerical derivative to achieve the same fixed accuracy.
翻訳日:2023-04-19 18:13:17 公開日:2023-04-18
# 知識は力である - 因果関係を理解することで,法的判断予測モデルがより一般化し,堅牢になる

Knowledge is Power: Understanding Causality Makes Legal judgment Prediction Models More Generalizable and Robust ( http://arxiv.org/abs/2211.03046v2 )

ライセンス: Link先を確認
Haotian Chen, Lingwei Zhang, Yiran Liu, Fanchao Chen, Yang Yu(参考訳) 法律規則に基づく事実記述に基づく判断の予測を目的とした法律判断予測(ljp)は、限られた法律実務者の大きな労働負担を軽減するための法的支援として機能する。 既存のほとんどの手法は、LJPタスクで微調整された様々な大規模事前訓練言語モデル(PLM)を適用し、一貫した改善を得る。 しかし, 現状技術(SOTA)モデルが無関係情報(あるいは非因果情報)に基づいて判断を下す事実が判明した。 法規違反はモデルの堅牢性と一般化能力を弱めるだけでなく、差別のような深刻な社会問題を引き起こす。 本稿では,因果構造モデル(causal structural models, scms)を用いて,ljpモデルが意思決定の仕方や,因果性を学習せずに従来のテストパラダイムをパスできる理由を理論的に分析する。 分析によれば、それぞれデータと因果関係によるモデルにかかわる2つのソリューションを提供する。 本稿では,まずopen information extraction (oie) 手法を適用し,非コーサル情報を識別する。 そこで本研究では,CIESAM (Causal Information Enhanced SAmpling Method) という手法を提案する。 さらに,提案する因果関係認識機構(casam)を用いて,法的テキストにおける因果関係の知識を学習するためのモデルを導出する別の手法を提案する。 因果情報学習におけるCASAMの信頼性はCIESAMよりも高い。 広範な実験結果から,提案手法の両方が3つの法定データセットにおいて最先端(sota)性能を実現することが示された。 CASAMの強い性能は、因果性がモデルの堅牢性と一般化能力の鍵であることを示している。

Legal Judgment Prediction (LJP), aiming to predict a judgment based on fact descriptions according to rule of law, serves as legal assistance to mitigate the great work burden of limited legal practitioners. Most existing methods apply various large-scale pre-trained language models (PLMs) finetuned in LJP tasks to obtain consistent improvements. However, we discover the fact that the state-of-the-art (SOTA) model makes judgment predictions according to irrelevant (or non-casual) information. The violation of rule of law not only weakens the robustness and generalization ability of models but also results in severe social problems like discrimination. In this paper, we use causal structural models (SCMs) to theoretically analyze how LJP models learn to make decisions and why they can succeed in passing the traditional testing paradigm without learning causality. According to our analysis, we provide two solutions intervening on data and model by causality, respectively. In detail, we first distinguish non-causal information by applying the open information extraction (OIE) technique. Then, we propose a method named the Causal Information Enhanced SAmpling Method (CIESAM) to eliminate the non-causal information from data. To validate our theoretical analysis, we further propose another method using our proposed Causality-Aware Self-Attention Mechanism (CASAM) to guide the model to learn the underlying causality knowledge in legal texts. The confidence of CASAM in learning causal information is higher than that of CIESAM. The extensive experimental results show that both our proposed methods achieve state-of-the-art (SOTA) performance on three commonly used legal-specific datasets. The stronger performance of CASAM further demonstrates that causality is the key to the robustness and generalization ability of models.
翻訳日:2023-04-19 18:12:59 公開日:2023-04-18
# 弱結合を超える有限時間ランダウアー原理

Finite-time Landauer principle beyond weak coupling ( http://arxiv.org/abs/2211.02065v2 )

ライセンス: Link先を確認
Alberto Rolandi and Mart\'i Perarnau-Llobet(参考訳) ランダウアーの原理は、情報を消去する熱力学的コストに根本的な制限を与える。 その飽和は可逆等温過程を必要とし、したがって無限の時間を必要とする。 我々は,単一のフェルミオンモードの占有中にエンコードされたビットに対して,ランドウアーの原理の有限時間バージョンを開発した。 正確な非平衡力学を解くことによって、熱力学への幾何学的アプローチにより、遅い駆動状態における消去過程(フェルミオンのエネルギーと系-バス結合を制御パラメータとする)を最適化する。 数値的に解くことができる熱力学的計量と測地線方程式の解析式を求める。 これらの解は、非マルコフ的かつ強いカップリング効果を完全に考慮して、ランダウアーの束縛に対する有限時間補正を特徴付けるための最適な過程を与える。

Landauer's principle gives a fundamental limit to the thermodynamic cost of erasing information. Its saturation requires a reversible isothermal process, and hence infinite time. We develop a finite-time version of Landauer's principle for a bit encoded in the occupation of a single fermionic mode, which can be strongly coupled to a reservoir. By solving the exact non-equilibrium dynamics, we optimize erasure processes (taking both the fermion's energy and system-bath coupling as control parameters) in the slow driving regime through a geometric approach to thermodynamics. We find analytic expressions for the thermodynamic metric and geodesic equations, which can be solved numerically. Their solution yields optimal processes that allow us to characterize a finite-time correction to Landauer's bound, fully taking into account non-markovian and strong coupling effects.
翻訳日:2023-04-19 18:12:29 公開日:2023-04-18
# 一般化デコレーショングラフ上のAKLTモデルに対する非消滅スペクトルギャップ

A Nonvanishing Spectral Gap for AKLT Models on Generalized Decorated Graphs ( http://arxiv.org/abs/2212.11872v2 )

ライセンス: Link先を確認
Angelo Lucia, Amanda Young(参考訳) 単純連結グラフの装飾版上で定義される aklt モデルのスペクトルギャップ問題を考える。 この装飾グラフのクラスは、$g$ のすべての辺を $n$ のサイト列に置き換えることで定義され、特に装飾された多次元格子を含む。 Abdul-Rahman氏らの研究によるTensor Network States(TNS)アプローチの利用。 2020年現在, 装飾パラメータが最大頂点度の線形関数よりも大きい場合, 装飾モデルは基底状態エネルギー以上のスペクトルギャップを有することが証明されている。

We consider the spectral gap question for AKLT models defined on decorated versions of simple, connected graphs G. This class of decorated graphs, which are defined by replacing all edges of $G$ with a chain of $n$ sites, in particular includes any decorated multi-dimensional lattice. Using the Tensor Network States (TNS) approach from a work by Abdul-Rahman et. al. 2020, we prove that if the decoration parameter is larger than a linear function of the maximal vertex degree, then the decorated model has a nonvanishing spectral gap above the ground state energy.
翻訳日:2023-04-19 18:05:47 公開日:2023-04-18
# 経済性としてのデータ、コモンズとしてのデータ、データガバナンス

Data as an economic good, data as a commons, and data governance ( http://arxiv.org/abs/2212.10244v2 )

ライセンス: Link先を確認
Nadezhda Purtova and Gijs van Maanen(参考訳) 本稿では,データに関する経済文献を経済性として体系的かつ批判的にレビューし,データガバナンスの教訓を引き出す。 我々は、ガバナンスの取り組みにおける経済的善としてのデータの重視は、より多くのデータ生産をもたらすだけで、文献や政策でしばしば主張されるものと逆らって、他の社会的目標を達成できないと結論付けている。 データガバナンスは、しばしば他のデジタル問題に気を散らす赤いひもです。 デジタル社会のガバナンスは、データ中心の経済モデルにのみ依存することはできない。 データコモンズに関する文献と基礎となる経験的・政治的主張をレビューする。 コモンズ思考は、エコロジーの観点からデジタル問題をフレーム化するのに有用であるが、重要な制限がある。 本稿では,ガバナンス問題に対するエコロジー的思考と,問題をフレーミングし,そのエコロジー的構成をマッピングするという政治的性質の認識によって定義される,デジタル社会を統治する政治生態学的アプローチを提案する。

This paper provides a systematic and critical review of the economics literature on data as an economic good and draws lessons for data governance. We conclude that focusing on data as an economic good in governance efforts is hardwired to only result in more data production and cannot deliver other societal goals contrary to what is often claimed in the literature and policy. Data governance is often a red herring which distracts from other digital problems. The governance of digital society cannot rely exclusively on data-centric economic models. We review the literatures and the underlying empirical and political claims concerning data commons. While commons thinking is useful to frame digital problems in terms of ecologies, it has important limitations. We propose a political-ecological approach to governing the digital society, defined by ecological thinking about governance problems and the awareness of the political nature of framing the problems and mapping their ecological makeup.
翻訳日:2023-04-19 18:05:37 公開日:2023-04-18
# InferEM:共感的対話生成のための話者意図の推測

InferEM: Inferring the Speaker's Intention for Empathetic Dialogue Generation ( http://arxiv.org/abs/2212.06373v4 )

ライセンス: Link先を確認
Guoqing Lv, Jiang Li, Xiaoping Wang, Zhigang Zeng(参考訳) 共感応答生成に対する現在のアプローチは、一般的に対話履歴全体をエンコードし、出力をデコーダに入れてフレンドリーなフィードバックを生成する。 これらの手法は文脈情報のモデル化に焦点をあてるが、話者の直接の意図を捉えることは無視する。 我々は,対話の最後の発声が話者の意図を実証的に伝えることを主張する。 そこで本研究では,共感応答生成のための新しいモデルInferEMを提案する。 我々は,最後の発話を別々に符号化し,多面的注意に基づく意図融合モジュールを通して対話全体と融合し,話者の意図を捉える。 さらに,先行した発話を用いて最後の発話を予測し,人間の心理をシミュレートし,対話者が事前に何を話すのかを推測する。 発話予測と応答生成の最適化率のバランスをとるために,InferEMのためのマルチタスク学習戦略を設計する。 実験の結果,inferemの共感性発現改善における可能性と妥当性が示された。

Current approaches to empathetic response generation typically encode the entire dialogue history directly and put the output into a decoder to generate friendly feedback. These methods focus on modelling contextual information but neglect capturing the direct intention of the speaker. We argue that the last utterance in the dialogue empirically conveys the intention of the speaker. Consequently, we propose a novel model named InferEM for empathetic response generation. We separately encode the last utterance and fuse it with the entire dialogue through the multi-head attention based intention fusion module to capture the speaker's intention. Besides, we utilize previous utterances to predict the last utterance, which simulates human's psychology to guess what the interlocutor may speak in advance. To balance the optimizing rates of the utterance prediction and response generation, a multi-task learning strategy is designed for InferEM. Experimental results demonstrate the plausibility and validity of InferEM in improving empathetic expression.
翻訳日:2023-04-19 18:05:20 公開日:2023-04-18
# リモートセンシング画像における意味変化検出のための関節時空間モデリング

Joint Spatio-Temporal Modeling for the Semantic Change Detection in Remote Sensing Images ( http://arxiv.org/abs/2212.05245v4 )

ライセンス: Link先を確認
Lei Ding, Jing Zhang, Kai Zhang, Haitao Guo, Bing Liu and Lorenzo Bruzzone(参考訳) 意味的変化検出(SCD)とは、リモートセンシング画像(RSI)において、変化領域と意味圏(変化の前と後)を同時に抽出するタスクである。 これは、観測領域における詳細な変更分析を可能にするため、バイナリ変更検出(BCD)よりも有意義である。 以前の研究は、SCDのパラダイムとして三分岐畳み込みニューラルネットワーク(CNN)アーキテクチャを確立した。 しかし、限られた量の変更サンプルで意味情報を活用することは依然として困難である。 本研究では,SCDの精度を向上させるため,時空間依存性を協調的に検討する。 まず,bi-temporal rsis間の意味遷移を明示的にモデル化する意味変化変換器(scanformer)を提案する。 次に,scdタスクに一貫性のある時空間制約を活用し,意味変化の学習を導くための意味学習方式を提案する。 結果として得られたネットワーク(SCanNet)は、重要な意味的変化の検出と、得られた両時間的結果のセマンティック一貫性の両方において、ベースライン法を著しく上回る。 SCD用の2つのベンチマークデータセット上でSOTA精度を達成する。

Semantic Change Detection (SCD) refers to the task of simultaneously extracting the changed areas and the semantic categories (before and after the changes) in Remote Sensing Images (RSIs). This is more meaningful than Binary Change Detection (BCD) since it enables detailed change analysis in the observed areas. Previous works established triple-branch Convolutional Neural Network (CNN) architectures as the paradigm for SCD. However, it remains challenging to exploit semantic information with a limited amount of change samples. In this work, we investigate to jointly consider the spatio-temporal dependencies to improve the accuracy of SCD. First, we propose a Semantic Change Transformer (SCanFormer) to explicitly model the 'from-to' semantic transitions between the bi-temporal RSIs. Then, we introduce a semantic learning scheme to leverage the spatio-temporal constraints, which are coherent to the SCD task, to guide the learning of semantic changes. The resulting network (SCanNet) significantly outperforms the baseline method in terms of both detection of critical semantic changes and semantic consistency in the obtained bi-temporal results. It achieves the SOTA accuracy on two benchmark datasets for the SCD.
翻訳日:2023-04-19 18:05:04 公開日:2023-04-18
# 異種病理データセットにおける自己監督学習のベンチマーク

Benchmarking Self-Supervised Learning on Diverse Pathology Datasets ( http://arxiv.org/abs/2212.04690v2 )

ライセンス: Link先を確認
Mingu Kang, Heon Song, Seonwook Park, Donggeun Yoo, S\'ergio Pereira(参考訳) 計算病理学は人間の命を救う可能性があるが、モデルは空腹であり、病理画像は注釈を付けるのに非常に高価である。 自己教師付き学習はラベルのないデータを活用する効果的な方法であり、その病理学への応用は下流のタスクに大きな恩恵をもたらす可能性がある。 しかし、SSLメソッドを比較して、病理学に適応する方法を議論する原則的な研究は存在しない。 このニーズに対処するため,我々はこれまで,病理画像データに対するssl事前トレーニングに関する最大規模の調査を行った。 本研究は,下流タスクの4つの代表的SSL手法を用いて行った。 病理学における大規模ドメインアライメント前トレーニングは,リニアや微調整評価などの標準ssl設定や低ラベルレジームにおいて,イメージネット前トレーニングを一貫して上回っている。 さらに,実証実験により性能向上につながる一連のドメイン固有手法を提案する。 最後に,核インスタンスセグメンテーションの課題に対してSSLを初めて適用し,多様な設定下での大規模かつ一貫したパフォーマンス向上を示す。

Computational pathology can lead to saving human lives, but models are annotation hungry and pathology images are notoriously expensive to annotate. Self-supervised learning has shown to be an effective method for utilizing unlabeled data, and its application to pathology could greatly benefit its downstream tasks. Yet, there are no principled studies that compare SSL methods and discuss how to adapt them for pathology. To address this need, we execute the largest-scale study of SSL pre-training on pathology image data, to date. Our study is conducted using 4 representative SSL methods on diverse downstream tasks. We establish that large-scale domain-aligned pre-training in pathology consistently out-performs ImageNet pre-training in standard SSL settings such as linear and fine-tuning evaluations, as well as in low-label regimes. Moreover, we propose a set of domain-specific techniques that we experimentally show leads to a performance boost. Lastly, for the first time, we apply SSL to the challenging task of nuclei instance segmentation and show large and consistent performance improvements under diverse settings.
翻訳日:2023-04-19 18:04:31 公開日:2023-04-18
# 量子カオスと時間の矢印

Quantum chaos and the arrow of time ( http://arxiv.org/abs/2212.03914v3 )

ライセンス: Link先を確認
Nilakash Sorokhaibam(参考訳) 私たちの周りの世界は時間矢([1]で「時間矢」と呼ばれる)をはっきりと持っている。 古典的熱力学は、熱力学の第二法則(英語版)(second law of thermodynamics)の形で時間の矢印を与える。 しかし、時空の矢印の量子的起源の明確な写真は今のところ不足している。 ここでは、量子カオス系において時間矢印が生じることを示す。 カオス[3,4]でもある閉じた量子系の場合、エントロピーの変化は系が一般的な摂動状態にあるときに非負であることを示す。 物理系は一般に高度に相互作用し、カオスシステムの良い例である。 我々は,システムの摂動時のエネルギー変化を追跡することで,この結果を示す。 非常に微調整された摂動を用いて、エントロピーを下げることができる。 しかし、摂動を微調整するには、システムの高精度なエネルギー準位の複雑な計算が必要となる。 これは古典的熱力学におけるマクスウェルのデーモン問題とそのその後の解像度 [5,6] を想起させる。

The world around us distinctly possesses an arrow of time (called "Time's arrow" in [1]). Classical thermodynamics provides an arrow of time in the form of the second law of thermodynamics which also has a beautiful statistical interpretation [2]. But a clear picture of the quantum origin of the arrow of time has been lacking so far. Here we show that an arrow of time arises in quantum chaotic systems. We show that, for a closed quantum system which is also chaotic [3,4], the change in entropy is non-negative when the system is generically perturbed. Physical systems are, in general, highly interacting and are good examples of chaotic systems. We show our result by keeping track of the change in energy when the system is perturbed. Using an extremely fine-tuned perturbation, we can still lower the entropy. But fine-tuning the perturbation requires complex calculation of highly precise energy levels of the system. This is reminiscent of the Maxwell's demon problem in classical thermodynamics and its subsequent resolution [5,6].
翻訳日:2023-04-19 18:04:12 公開日:2023-04-18
# 異常検出と局在化のための原型的残差ネットワーク

Prototypical Residual Networks for Anomaly Detection and Localization ( http://arxiv.org/abs/2212.02031v2 )

ライセンス: Link先を確認
Hui Zhang, Zuxuan Wu, Zheng Wang, Zhineng Chen, Yu-Gang Jiang(参考訳) 異常検出と局所化は工業生産においてその効率と有効性のために広く利用されている。 異常はまれであり、観察され、管理されるモデルは、少数の異常サンプルを持つこれらの異常に容易に適合し、不満足な性能をもたらす。 一方、異常は典型的には微妙であり、識別が困難であり、様々な外観を持つため、異常の検出や異常領域の特定は困難である。 このような問題に対処するため,我々は,異常領域のセグメント化マップを正確に再構築するために,異常領域と正常パターンの様々なスケールとサイズの特徴残差を学習するPrototypeal Residual Network (PRN) というフレームワークを提案する。 PRNは主に、通常パターンに対する異常の残像を明示するマルチスケールプロトタイプと、可変サイズの異常特徴学習を可能にするマルチサイズ自己認識機構である。 また,様々な異常発生戦略を提示し,その出現のばらつきから異常の拡大・多様化について考察する。 挑戦的で広く使用されているMVTec ADベンチマークに関する大規模な実験は、PRNが現在の最先端の教師なしおよび教師なしの手法より優れていることを示している。 さらに, PRNの有効性と一般化性を示すために, 3つの追加データセットのSOTA結果について報告する。

Anomaly detection and localization are widely used in industrial manufacturing for its efficiency and effectiveness. Anomalies are rare and hard to collect and supervised models easily over-fit to these seen anomalies with a handful of abnormal samples, producing unsatisfactory performance. On the other hand, anomalies are typically subtle, hard to discern, and of various appearance, making it difficult to detect anomalies and let alone locate anomalous regions. To address these issues, we propose a framework called Prototypical Residual Network (PRN), which learns feature residuals of varying scales and sizes between anomalous and normal patterns to accurately reconstruct the segmentation maps of anomalous regions. PRN mainly consists of two parts: multi-scale prototypes that explicitly represent the residual features of anomalies to normal patterns; a multisize self-attention mechanism that enables variable-sized anomalous feature learning. Besides, we present a variety of anomaly generation strategies that consider both seen and unseen appearance variance to enlarge and diversify anomalies. Extensive experiments on the challenging and widely used MVTec AD benchmark show that PRN outperforms current state-of-the-art unsupervised and supervised methods. We further report SOTA results on three additional datasets to demonstrate the effectiveness and generalizability of PRN.
翻訳日:2023-04-19 18:03:57 公開日:2023-04-18
# エッジ対応事前学習によるMR画像合成のためのマルチスケールトランスネットワーク

Multi-scale Transformer Network with Edge-aware Pre-training for Cross-Modality MR Image Synthesis ( http://arxiv.org/abs/2212.01108v2 )

ライセンス: Link先を確認
Yonghao Li, Tao Zhou, Kelei He, Yi Zhou, Dinggang Shen(参考訳) 磁気共鳴(MR)画像合成は、与えられたモダリティから欠落するモダリティを生成するために用いられる。 既存の(教師付き学習)手法は、効果的な合成モデルを訓練するために、多数のペアのマルチモーダルデータを必要とすることが多い。 しかし、教師付きトレーニングに十分なペアデータを得ることは、しばしば困難である。 実際、ペアデータの数は少ないが、ペアデータの数は少ないことが多い。 本稿では,2つのペアデータとアンペアデータの両方を活用するために,エッジ対応MR画像合成のためのマルチスケールトランスフォーマーネットワーク(MT-Net)を提案する。 具体的には、Edge保存型Masked AutoEncoder(Edge-MAE)を自己教師方式で事前訓練し、同時に実行する。 1)各画像にランダムにマスキングされたパッチに対する画像インプテーション 2)エッジマップ全体の推定はコンテキスト情報と構造情報の両方を効果的に学習する。 さらに,各対策の難しさに応じて異なるマスクパッチを別々に処理することにより,Edge-MAEの性能を向上させるパッチワイド・ロスを提案する。 提案した事前学習に基づいて、後続の微調整段階において、事前訓練したエッジ-MAEのエンコーダから抽出したマルチスケール特徴を統合することにより、欠損モード画像を合成するデュアルスケール選択融合(DSF)モジュールを設計(MT-Net)する。 さらに、この事前学習エンコーダを用いて、合成画像と、トレーニングにおいて類似(一貫性)を必要とする対応する接地構造画像から高レベル特徴を抽出する。 実験の結果, MT-Net は, 利用可能な全ペアデータに対して 70 % の費用を用いても, 競合する手法と同等の性能を発揮することがわかった。 私たちのコードはhttps://github.com/lyhkevin/mt-netで公開されます。

Cross-modality magnetic resonance (MR) image synthesis can be used to generate missing modalities from given ones. Existing (supervised learning) methods often require a large number of paired multi-modal data to train an effective synthesis model. However, it is often challenging to obtain sufficient paired data for supervised training. In reality, we often have a small number of paired data while a large number of unpaired data. To take advantage of both paired and unpaired data, in this paper, we propose a Multi-scale Transformer Network (MT-Net) with edge-aware pre-training for cross-modality MR image synthesis. Specifically, an Edge-preserving Masked AutoEncoder (Edge-MAE) is first pre-trained in a self-supervised manner to simultaneously perform 1) image imputation for randomly masked patches in each image and 2) whole edge map estimation, which effectively learns both contextual and structural information. Besides, a novel patch-wise loss is proposed to enhance the performance of Edge-MAE by treating different masked patches differently according to the difficulties of their respective imputations. Based on this proposed pre-training, in the subsequent fine-tuning stage, a Dual-scale Selective Fusion (DSF) module is designed (in our MT-Net) to synthesize missing-modality images by integrating multi-scale features extracted from the encoder of the pre-trained Edge-MAE. Further, this pre-trained encoder is also employed to extract high-level features from the synthesized image and corresponding ground-truth image, which are required to be similar (consistent) in the training. Experimental results show that our MT-Net achieves comparable performance to the competing methods even using $70\%$ of all available paired data. Our code will be publicly available at https://github.com/lyhkevin/MT-Net.
翻訳日:2023-04-19 18:03:34 公開日:2023-04-18
# 自己回帰モデルとlstmを用いたcovid-19症例の解釈可能なハイブリッド予測モデル

An Interpretable Hybrid Predictive Model of COVID-19 Cases using Autoregressive Model and LSTM ( http://arxiv.org/abs/2211.17014v2 )

ライセンス: Link先を確認
Yangyi Zhang, Sui Tang, and Guo Yu(参考訳) コロナウイルス病2019(COVID-19)は、世界保健と経済に大きな影響を与え、新型コロナウイルス患者のための正確かつ解釈可能なデータ駆動予測モデルを構築し、政策立案を改善することが重要である。 パンデミックの極めて大規模な規模と本質的に変化する伝達特性は、効果的な新型コロナウイルスのケース予測に大きな課題をもたらす。 この課題に対処するために,自己回帰モデル(AR)の解釈可能性と長期記憶ニューラルネットワーク(LSTM)の予測能力が結合する新しいハイブリッドモデルを提案する。 提案したハイブリッドモデルは、2つの構成モデルブロックを接続するアーキテクチャを備えたニューラルネットワークとして形式化され、トレーニング手順において相対寄与がデータ適応的に決定される。 複数の評価指標に基づく2つのデータソースに関する包括的数値研究を通じて,2つのコンポーネントモデルと他の一般的な予測モデルに対するハイブリッドモデルの性能を実証する。 具体的には、カリフォルニア州8郡の郡レベルのデータでは、我々のハイブリッドモデルは平均4.173%のMAPEを達成し、AR(5.629%)とLSTM(4.934%)を上回ります。 国レベルのデータセットでは、私たちのハイブリッドモデルは、世界中の8カ国で新型コロナウイルス(COVID-19)のケースを予測する上で、広く使用されている予測モデル(AR、LSTM、SVM、Gradient Boosting、Random Forest)よりも優れています。 さらに、新型コロナウイルスの患者に対して、ほとんどのブラックボックス予測モデルでは共有されない重要な特徴であるハイブリッドモデルの解釈可能性について説明する。 我々の研究は、効果的で解釈可能なデータ駆動モデルを構築するための、新しい、そして有望な方向性を提供し、これは、公衆衛生政策の作成と、現在および将来のパンデミックの制御に重大な影響を及ぼす可能性がある。

The Coronavirus Disease 2019 (COVID-19) has a profound impact on global health and economy, making it crucial to build accurate and interpretable data-driven predictive models for COVID-19 cases to improve policy making. The extremely large scale of the pandemic and the intrinsically changing transmission characteristics pose great challenges for effective COVID-19 case prediction. To address this challenge, we propose a novel hybrid model in which the interpretability of the Autoregressive model (AR) and the predictive power of the long short-term memory neural networks (LSTM) join forces. The proposed hybrid model is formalized as a neural network with an architecture that connects two composing model blocks, of which the relative contribution is decided data-adaptively in the training procedure. We demonstrate the favorable performance of the hybrid model over its two component models as well as other popular predictive models through comprehensive numerical studies on two data sources under multiple evaluation metrics. Specifically, in county-level data of 8 California counties, our hybrid model achieves 4.173% MAPE on average, outperforming the composing AR (5.629%) and LSTM (4.934%). In country-level datasets, our hybrid model outperforms the widely-used predictive models - AR, LSTM, SVM, Gradient Boosting, and Random Forest - in predicting COVID-19 cases in 8 countries around the world. In addition, we illustrate the interpretability of our proposed hybrid model, a key feature not shared by most black-box predictive models for COVID-19 cases. Our study provides a new and promising direction for building effective and interpretable data-driven models, which could have significant implications for public health policy making and control of the current and potential future pandemics.
翻訳日:2023-04-19 18:03:05 公開日:2023-04-18
# Img2Tab: 説明可能な画像分類のためのStyleGAN機能からのクラス関連概念の自動発見

Img2Tab: Automatic Class Relevant Concept Discovery from StyleGAN Features for Explainable Image Classification ( http://arxiv.org/abs/2301.06324v2 )

ライセンス: Link先を確認
Youngjae Song, Sung Kuk Shyn, Kwang-su Kim(参考訳) 従来の表式分類器は、解釈可能な特徴(概念)で説明可能な意思決定を提供する。 しかし,画像の画素表現により,視覚タスクにおける説明性は制限されている。 本稿では,図形分類器の説明可能性を活用するために,概念によって画像の分類を行うImg2Tabsを設計する。 Img2TabsはStyleGANの逆変換によって画像ピクセルを表にエンコードする。 結果として得られる全ての機能は、その生成的性質のためにクラス関連または解釈可能であるわけではないので、img2tab分類器は、スタイルガン機能からクラス関連概念を自動的に発見することを期待する。 そこで我々は,クラス関連性と解釈可能性を同時に定量化するために,Wasserstein-1 計量を用いた新しい手法を提案する。 本手法を用いて,表型分類器によって抽出される重要な特徴がクラス関連概念であるか否かを検討する。 その結果、スタイルガンの特徴からクラス関連概念を自動的に発見するという点で、img2tabsの最も効果的な分類器を決定する。 評価では、重要度と可視化による概念に基づく説明を示す。 Img2Tabは、CNN分類器と深い特徴学習ベースラインと同等のトップ1の精度を達成する。 さらに, img2tab分類器を概念レベルで容易にデバッグでき, 精度を犠牲にすることなく, 公平かつ公平な意思決定を行えることを示す。

Traditional tabular classifiers provide explainable decision-making with interpretable features(concepts). However, using their explainability in vision tasks has been limited due to the pixel representation of images. In this paper, we design Img2Tabs that classify images by concepts to harness the explainability of tabular classifiers. Img2Tabs encode image pixels into tabular features by StyleGAN inversion. Since not all of the resulting features are class-relevant or interpretable due to their generative nature, we expect Img2Tab classifiers to discover class-relevant concepts automatically from the StyleGAN features. Thus, we propose a novel method using the Wasserstein-1 metric to quantify class-relevancy and interpretability simultaneously. Using this method, we investigate whether important features extracted by tabular classifiers are class-relevant concepts. Consequently, we determine the most effective classifier for Img2Tabs in terms of discovering class-relevant concepts automatically from StyleGAN features. In evaluations, we demonstrate concept-based explanations through importance and visualization. Img2Tab achieves top-1 accuracy that is on par with CNN classifiers and deep feature learning baselines. Additionally, we show that users can easily debug Img2Tab classifiers at the concept level to ensure unbiased and fair decision-making without sacrificing accuracy.
翻訳日:2023-04-19 17:57:01 公開日:2023-04-18
# ほぼ確実に$\sqrt{T}$ Regret Bound for Adaptive LQR

Almost Surely $\sqrt{T}$ Regret Bound for Adaptive LQR ( http://arxiv.org/abs/2301.05537v2 )

ライセンス: Link先を確認
Yiwen Lu and Yilin Mo(参考訳) 未知のシステムパラメータを持つLQR(Linear-Quadratic Regulation)問題は広く研究されているが、最もよく知られた時間依存である $\tilde{ \mathcal{O}}(\sqrt{T})$ regret がほぼ確実に達成できるかどうかは不明である。 本稿では,ほぼ確実に$\tilde{ \mathcal{O}}(\sqrt{T})$ regret upper boundを持つ適応型LQRコントローラを提案する。 制御器は、潜在的な安全違反を回避し、システムパラメータ推定の収束を保証する回路破壊機構を備えているが、有限回のみトリガされることが示され、したがって制御器の漸近性能に無視できる効果がある。 提案されたコントローラは、よく使われる工業プロセスの例であるテネシー・イーストマン・プロセス~(tep)のシミュレーションによっても検証される。

The Linear-Quadratic Regulation (LQR) problem with unknown system parameters has been widely studied, but it has remained unclear whether $\tilde{ \mathcal{O}}(\sqrt{T})$ regret, which is the best known dependence on time, can be achieved almost surely. In this paper, we propose an adaptive LQR controller with almost surely $\tilde{ \mathcal{O}}(\sqrt{T})$ regret upper bound. The controller features a circuit-breaking mechanism, which circumvents potential safety breach and guarantees the convergence of the system parameter estimate, but is shown to be triggered only finitely often and hence has negligible effect on the asymptotic performance of the controller. The proposed controller is also validated via simulation on Tennessee Eastman Process~(TEP), a commonly used industrial process example.
翻訳日:2023-04-19 17:56:39 公開日:2023-04-18
# EXIF as Language: 画像とカメラメタデータの相互関連を学習する

EXIF as Language: Learning Cross-Modal Associations Between Images and Camera Metadata ( http://arxiv.org/abs/2301.04647v3 )

ライセンス: Link先を確認
Chenhao Zheng, Ayush Shrivastava, Andrew Owens(参考訳) 我々は、与えられた写真を記録するカメラに関する情報をキャプチャする視覚表現を学ぶ。 そこで我々は,画像パッチとEXIFメタデータのマルチモーダル埋め込みを訓練し,カメラが自動的に画像ファイルに挿入する。 私たちのモデルは、単にテキストに変換し、変換器で処理することで、このメタデータを表現します。 私たちが学んだ機能は、下流の画像検査や校正作業において、他の自己監督機能や監督機能よりも大幅に優れています。 特に,画像内のすべてのパッチに対して視覚的な埋め込みをクラスタリングすることにより,スプライシングされた画像領域を"ゼロショット"にローカライズすることに成功した。

We learn a visual representation that captures information about the camera that recorded a given photo. To do this, we train a multimodal embedding between image patches and the EXIF metadata that cameras automatically insert into image files. Our model represents this metadata by simply converting it to text and then processing it with a transformer. The features that we learn significantly outperform other self-supervised and supervised features on downstream image forensics and calibration tasks. In particular, we successfully localize spliced image regions "zero shot" by clustering the visual embeddings for all of the patches within an image.
翻訳日:2023-04-19 17:56:23 公開日:2023-04-18
# コロナウイルスに関するスウェーデンの新聞記事のトピックモデリング:潜在ディリクレ割当法による事例研究

Topic Modelling of Swedish Newspaper Articles about Coronavirus: a Case Study using Latent Dirichlet Allocation Method ( http://arxiv.org/abs/2301.03029v6 )

ライセンス: Link先を確認
Bernadeta Grici\=ut\.e and Lifeng Han and Goran Nenadic(参考訳) トピックモデリング(TM)は、自然言語理解(NLU)と自然言語処理(NLP)の研究部門から生まれたもので、主要なトピックの要約やトピックの変更など、大きなドキュメントやデータセットからの洞察に富んだ分析を容易にする。 この種の発見は、ビッグデータ分析の影響により、現実のアプリケーションで人気が高まっている。 本研究では,スウェーデンの新聞記事における新型コロナウイルスに関する話題の変化をモデル化するために,ソーシャル・メディア・医療分野からlda手法を適用した。 我々は,2020年1月17日から2021年3月13日までの約1年2ヶ月間の話題変化に関する6515の論文,適用方法,統計を含むコーパスを作成した。 我々は、この研究がトピックモデリングの応用の基盤となり、パンデミック時代の同様のケーススタディに刺激を与え、社会経済的影響の研究と臨床・医療分析を支援することができることを願っている。 当社のデータとソースコードはhttps://github.comで公開されています。 com/poethan/swed_covid_tmキーワード:潜在ディリクレ割り当て(lda)、トピックモデリング、新型コロナウイルス、パンデミック、自然言語理解、bert-topic

Topic Modelling (TM) is from the research branches of natural language understanding (NLU) and natural language processing (NLP) that is to facilitate insightful analysis from large documents and datasets, such as a summarisation of main topics and the topic changes. This kind of discovery is getting more popular in real-life applications due to its impact on big data analytics. In this study, from the social-media and healthcare domain, we apply popular Latent Dirichlet Allocation (LDA) methods to model the topic changes in Swedish newspaper articles about Coronavirus. We describe the corpus we created including 6515 articles, methods applied, and statistics on topic changes over approximately 1 year and two months period of time from 17th January 2020 to 13th March 2021. We hope this work can be an asset for grounding applications of topic modelling and can be inspiring for similar case studies in an era with pandemics, to support socio-economic impact research as well as clinical and healthcare analytics. Our data and source code are openly available at https://github. com/poethan/Swed_Covid_TM Keywords: Latent Dirichlet Allocation (LDA); Topic Modelling; Coronavirus; Pandemics; Natural Language Understanding; BERT-topic
翻訳日:2023-04-19 17:56:11 公開日:2023-04-18
# 制約付きミニマックス最適化のための一階拡張ラグランジアン法

A first-order augmented Lagrangian method for constrained minimax optimization ( http://arxiv.org/abs/2301.02060v2 )

ライセンス: Link先を確認
Zhaosong Lu and Sanyou Mei(参考訳) 本稿では,制約付きミニマックス問題のクラスについて検討する。 特に, サブプロブレムがより単純な構造化されたミニマックス問題であることが判明し, 著者らにより [26] で最近開発された一階法で最適に解ける1次拡張ラグランジアン法を提案する。 いくつかの適切な仮定の下では、基本演算によって測定された${\cal o}(\varepsilon^{-4}\log\varepsilon^{-1})$のemph{operation complexity} が、制約付きミニマックス問題の$\varepsilon$-kkt解を求める一階拡張ラグランジアン法として確立される。

In this paper we study a class of constrained minimax problems. In particular, we propose a first-order augmented Lagrangian method for solving them, whose subproblems turn out to be a much simpler structured minimax problem and are suitably solved by a first-order method recently developed in [26] by the authors. Under some suitable assumptions, an \emph{operation complexity} of ${\cal O}(\varepsilon^{-4}\log\varepsilon^{-1})$, measured by its fundamental operations, is established for the first-order augmented Lagrangian method for finding an $\varepsilon$-KKT solution of the constrained minimax problems.
翻訳日:2023-04-19 17:55:48 公開日:2023-04-18
# ミリ波通信のためのポイントクラウドに基づくプロアクティブリンク品質予測

Point Cloud-based Proactive Link Quality Prediction for Millimeter-wave Communications ( http://arxiv.org/abs/2301.00752v2 )

ライセンス: Link先を確認
Shoki Ohta, Takayuki Nishio, Riichi Kudo, Kahoko Takahashi, Hisashi Nagata(参考訳) 本研究では,ミリ波通信におけるポイントクラウドに基づくリンク品質予測の実現可能性を示す。 従来,mWave通信における歩行者によるLOS経路遮断を緩和するために,深度画像の時系列を用いて,受信信号強度を予測する機械学習手法が提案されてきた。 しかし、これらの画像ベース手法は、カメライメージに機密情報が含まれる可能性があるため、プライバシー上の懸念から適用性に制限がある。 本研究は,mmWaveリンク品質予測のためのポイントクラウド方式を提案し,実験によりその実現可能性を示す。 点雲は3次元(3d)空間を点の集合として表現し、カメラ画像よりもセンシティブな情報を含まない。 さらに点雲は3次元位置と運動情報を提供し、歩行者を含む電波伝搬環境を理解するのに必要である。 本研究では,市販のieee 802.11adベースの60ghz無線lanデバイスとkinect v2 rgb-dカメラとvelodyne vlp-16光検出・測光(lidar)を用いて,人間のブロックによりリンク品質が著しく変動する室内実験を行う。 提案手法は,画像に基づく予測手法に匹敵する精度で,歩行者によるロスパス閉塞によるmm波受信信号強度とスループットの将来の大きな減衰を予測できることを示す。 したがって、当社のポイントクラウドベースの手法は、画像ベースの手法の代替となる可能性がある。

This study demonstrates the feasibility of point cloud-based proactive link quality prediction for millimeter-wave (mmWave) communications. Previous studies have proposed machine learning-based methods to predict received signal strength for future time periods using time series of depth images to mitigate the line-of-sight (LOS) path blockage by pedestrians in mmWave communication. However, these image-based methods have limited applicability due to privacy concerns as camera images may contain sensitive information. This study proposes a point cloud-based method for mmWave link quality prediction and demonstrates its feasibility through experiments. Point clouds represent three-dimensional (3D) spaces as a set of points and are sparser and less likely to contain sensitive information than camera images. Additionally, point clouds provide 3D position and motion information, which is necessary for understanding the radio propagation environment involving pedestrians. This study designs the mmWave link quality prediction method and conducts realistic indoor experiments, where the link quality fluctuates significantly due to human blockage, using commercially available IEEE 802.11ad-based 60 GHz wireless LAN devices and Kinect v2 RGB-D camera and Velodyne VLP-16 light detection and ranging (LiDAR) for point cloud acquisition. The experimental results showed that our proposed method can predict future large attenuation of mmWave received signal strength and throughput induced by the LOS path blockage by pedestrians with comparable or superior accuracy to image-based prediction methods. Hence, our point cloud-based method can serve as a viable alternative to image-based methods.
翻訳日:2023-04-19 17:55:32 公開日:2023-04-18
# キラル結合原子ナノフォトニックキャビティにおける状態彫り

State Carving in a Chirally-Coupled Atom-Nanophotonic Cavity ( http://arxiv.org/abs/2212.13927v3 )

ライセンス: Link先を確認
W. S. Hiew and H. H. Jen(参考訳) マルチキュービットシステムのコヒーレント量子制御は、量子科学と量子技術における課題の1つである。 ここでは,集合的非相反結合を持つ原子-ナノフォトニックキャビティの反射スペクトルを理論的に検討する。 高い協調性を有する強結合系では, キラルカップリングの破壊的干渉により, 異なる共振スペクトルディップを理論的に予測する。 スペクトルの分離された多重ディップのため、コントラスト反射度は、所望の絡み合った状態の準備に対して新しい制御ノブを示唆する。 このような原子-ナノフォトニックキャビティを、光子による双極子-双極子相互作用と崩壊チャネルのキラリティーを介して原子内部状態の量子工学に利用し、任意の数の原子に対する原子ベル状態とw状態が、単一光子反射スペクトルにおける状態彫りによって調整・保持可能であることを提案する。 我々は,マルチ量子ビット状態の量子工学への道を開き,ナノフォトニックデバイスに結合した原子内のコヒーレントでスケーラブルなマルチパーティタイト絡み合い輸送の新たな機会を提供する。

Coherent quantum control of multiqubit systems represents one of the challenging tasks in quantum science and quantum technology. Here we theoretically investigate the reflectivity spectrum in an atom-nanophotonic cavity with collective nonreciprocal couplings. In the strong-coupling regime with a high cooperativity, we theoretically predict distinct on-resonance spectral dips owing to destructive interferences of chiral couplings. Due to the well-separated multiple dips in the spectrum, a contrasted reflectivity suggests a new control knob over the desired entangled state preparation. We propose to utilize such atom-nanophotonic cavity to quantum engineer the atomic internal states via photon-mediated dipole-dipole interactions and the chirality of decay channels, where the atomic Bell state and W states for arbitrary number of atoms can be tailored and heralded by state carving in the single-photon reflection spectrum. Our results pave the way toward quantum engineering of multiqubit states and offer new opportunities for coherent and scalable multipartite entanglement transport in atoms coupled to nanophotonic devices.
翻訳日:2023-04-19 17:55:08 公開日:2023-04-18
# グループ独身車としてのマヨアナ・スカーズ

Majorana Scars as Group Singlets ( http://arxiv.org/abs/2212.11914v2 )

ライセンス: Link先を確認
Z. Sun, F.K. Popov, I.R. Klebanov, K. Pakrouski(参考訳) いくつかの量子多体系では、ヒルベルト空間は大きなエルゴードセクタとより小さいスカー部分空間に分解される。 arxiv:2007.00845] 二つのセクタは、系の大きさで階数が大きくなる大きな群の下での変換特性によって区別される可能性がある(ハミルトニアンの対称性ではない)。 量子多体傷はこの群の下で不変であるが、他の全ての状態は不変である。 ここでは、このアイデアをサイトごとに$M$Majorana fermionsを含む格子系に適用する。 N$ サイトに対するヒルベルト空間は O$(N)\times$O$(M)$ の作用の下で分解され、傷跡は SO$(N)$ 単数である。 たとえ100万ドルでも、傷跡の家族は2つある。 その中の1つは$\eta$状態と呼ばれ、群 O$(N)$ の下で対称である。 もう1つは$\zeta$状態であり、SO$(N)$不変である。 我々の構成が局所相互作用を持つ格子上のスピン-1/2$フェルミオンに還元されるような$M=4$の場合、前者は$N+1$$\eta$-ペアリング状態であり、後者は最大スピンの$N+1$状態である。 我々はこの構成を$M>4$に一般化する。 M=6$の場合、スカー状態の明示的な公式を示し、二部分エンタングルメントエントロピーを解析的に計算する。 大きな$N$の場合、サブシステムサイズと対数的に増加する。 一般論として、任意の群不変なスカーは典型的状態よりもパラメトリックに小さい絡み合いエントロピーを持つべきであるとする。 私たちが発見する傷跡のエネルギーは一般に等しくはないが、ハミルトンパラメータを選ばなければならない。 m>6$で、地元のハミルトニアンでは通常、傷痕は特定の異質性を持っていることが分かる。 散乱スペクトルは非局所相互作用項を加えることでエルゴード化することができる。 それぞれの傷痕の次元を導出し、その傷痕が小さな$N$の状態の密度に大きく寄与することを示した。

In some quantum many-body systems, the Hilbert space breaks up into a large ergodic sector and a much smaller scar subspace. It has been suggested [arXiv:2007.00845] that the two sectors may be distinguished by their transformation properties under a large group whose rank grows with the system size (it is not a symmetry of the Hamiltonian). The quantum many-body scars are invariant under this group, while all other states are not. Here we apply this idea to lattice systems containing $M$ Majorana fermions per site. The Hilbert space for $N$ sites may be decomposed under the action of the O$(N)\times$O$(M)$ group, and the scars are the SO$(N)$ singlets. For any even $M$ there are two families of scars. One of them, which we call the $\eta$ states, is symmetric under the group O$(N)$. The other, the $\zeta$ states, has the SO$(N)$ invariance. For $M=4$, where our construction reduces to spin-$1/2$ fermions on a lattice with local interactions, the former family are the $N+1$ $\eta$-pairing states, while the latter are the $N+1$ states of maximum spin. We generalize this construction to $M>4$. For $M=6$ we exhibit explicit formulae for the scar states and use them to calculate the bipartite entanglement entropy analytically. For large $N$, it grows logarithmically with the sub-system size. We present a general argument that any group-invariant scars should have the entanglement entropy that is parametrically smaller than that of typical states. The energies of the scars we find are not equidistant in general but can be made so by choosing Hamiltonian parameters. For $M>6$ we find that with local Hamiltonians the scars typically have certain degeneracies. The scar spectrum can be made ergodic by adding a non-local interaction term. We derive the dimension of each scar family and show the scars could have a large contribution to the density of states for small $N$.
翻訳日:2023-04-19 17:54:26 公開日:2023-04-18
# Reception Reader: 初期のイギリスの出版物でテキストの再利用を探る

Reception Reader: Exploring Text Reuse in Early Modern British Publications ( http://arxiv.org/abs/2302.04084v2 )

ライセンス: Link先を確認
David Rosson, Eetu M\"akel\"a, Ville Vaara, Ananth Mahadevan, Yann Ryan and Mikko Tolonen(参考訳) Reception Readerは、Early English Books Online (EEBO-TCP) と Eighteenth Century Collections Online (ECCO) のデータでテキストの再利用を研究するためのウェブツールである。 ユーザーは: 1)共有テキストセグメントに基づいて、作業の受信、又はその受信接続の視覚的概要を時間にわたって探索する。 2)連結文書の詳細を対話的に調査し, 3) "クローズリーディング" のための再利用テキストのコンテキストを検討する。 このツールが研究や調査のタスクを合理化する例を示し、ユーザインタフェースと現在のデータソースの有用性と限界について論じる。

The Reception Reader is a web tool for studying text reuse in the Early English Books Online (EEBO-TCP) and Eighteenth Century Collections Online (ECCO) data. Users can: 1) explore a visual overview of the reception of a work, or its incoming connections, across time based on shared text segments, 2) interactively survey the details of connected documents, and 3) examine the context of reused text for "close reading". We show examples of how the tool streamlines research and exploration tasks, and discuss the utility and limitations of the user interface along with its current data sources.
翻訳日:2023-04-19 17:47:14 公開日:2023-04-18
# 神経表現からの不整合属性の消去

Erasure of Unaligned Attributes from Neural Representations ( http://arxiv.org/abs/2302.02997v2 )

ライセンス: Link先を確認
Shun Shao, Yftah Ziser and Shay Cohen(参考訳) 本稿では,各入力例と直接対応するのではなく,消される情報が暗黙的である場合,神経表現から情報を消去する代入最大化スペクトル属性除去(amsal)アルゴリズムを提案する。 我々のアルゴリズムは2つのステップを交互に行う。 1つは、消去すべき情報に対する入力表現の割り当てを見つけ、もう1つは、入力表現と消去すべき情報の両方の投影を合同潜在空間に生成する。 アルゴリズムは、複数のガード付き属性を持つtwitterデータセット、biasbiosデータセット、biasbenchベンチマークなど、幅広いデータセット上でテストします。 最後のベンチマークには、さまざまなタイプの保護属性を持つ4つのデータセットが含まれている。 私たちの結果は、設定時にバイアスを除去できることを示しています。 また、メインタスクと消去すべき情報の間に強い絡み合いがある場合の、我々のアプローチの制限についても論じる。

We present the Assignment-Maximization Spectral Attribute removaL (AMSAL) algorithm, which erases information from neural representations when the information to be erased is implicit rather than directly being aligned to each input example. Our algorithm works by alternating between two steps. In one, it finds an assignment of the input representations to the information to be erased, and in the other, it creates projections of both the input representations and the information to be erased into a joint latent space. We test our algorithm on an extensive array of datasets, including a Twitter dataset with multiple guarded attributes, the BiasBios dataset and the BiasBench benchmark. The last benchmark includes four datasets with various types of protected attributes. Our results demonstrate that bias can often be removed in our setup. We also discuss the limitations of our approach when there is a strong entanglement between the main task and the information to be erased.
翻訳日:2023-04-19 17:47:03 公開日:2023-04-18
# 量子機械学習における文脈性と帰納バイアス

Contextuality and inductive bias in quantum machine learning ( http://arxiv.org/abs/2302.01365v3 )

ライセンス: Link先を確認
Joseph Bowles, Victoria J Wright, M\'at\'e Farkas, Nathan Killoran, Maria Schuld(参考訳) 機械学習の一般化は、しばしばデータに存在する構造をモデルクラスの帰納的バイアスにエンコードする能力に依存する。 したがって、量子機械学習のパワーを理解するには、量子モデルに自然に寄与するデータ構造の種類を特定することが不可欠である。 この研究では、量子的文脈性 -- 計算上有利な関係を持つ非古典性の形式 -- を、この問題に対する答えとして検討しています。 我々は、機械学習における文脈性を研究するためのフレームワークを導入し、学習モデルが文脈性である意味を定義する。 このことから,操作等価性(Operation equivalence)と呼ばれる中心的な文脈性の概念を,ラベル空間内の線形に保存された量を符号化するモデルの能力に結びつける。 この関係の結果として、文脈性は表現性に結びついている: 帰納的バイアスをエンコードする文脈モデルクラスは、一般的に、非文脈的バイアスよりも表現力が高い。 これを証明するために,ゼロサムゲームのペイオフ動作を学習することに基づいて,明示的なおもちゃ学習問題を構築する。 幾何学的量子機械学習のツールを活用することで、関連する帰納的バイアスを伴う量子学習モデルの構築方法を記述し、それらが対応する古典的代理モデルより優れていることを示す。 このことは、この形式の学習問題を理解することが、量子機械学習のパワーに関する有用な洞察につながることを示唆している。

Generalisation in machine learning often relies on the ability to encode structures present in data into an inductive bias of the model class. To understand the power of quantum machine learning, it is therefore crucial to identify the types of data structures that lend themselves naturally to quantum models. In this work we look to quantum contextuality -- a form of nonclassicality with links to computational advantage -- for answers to this question. We introduce a framework for studying contextuality in machine learning, which leads us to a definition of what it means for a learning model to be contextual. From this, we connect a central concept of contextuality, called operational equivalence, to the ability of a model to encode a linearly conserved quantity in its label space. A consequence of this connection is that contextuality is tied to expressivity: contextual model classes that encode the inductive bias are generally more expressive than their noncontextual counterparts. To demonstrate this, we construct an explicit toy learning problem -- based on learning the payoff behaviour of a zero-sum game -- for which this is the case. By leveraging tools from geometric quantum machine learning, we then describe how to construct quantum learning models with the associated inductive bias, and show through our toy problem that they outperform their corresponding classical surrogate models. This suggests that understanding learning problems of this form may lead to useful insights about the power of quantum machine learning.
翻訳日:2023-04-19 17:46:46 公開日:2023-04-18
# クラウド量子コンピュータにおける二次コヒーレンススケールの測定

Measuring the quadrature coherence scale on a cloud quantum computer ( http://arxiv.org/abs/2302.01343v2 )

ライセンス: Link先を確認
Aaron Z. Goldberg, Guillaume S. Thekkadath, and Khabat Heshami(参考訳) コヒーレンスは量子現象の根底にあるが、古典理論に現れており、コヒーレンスの役割は難解な仕事である。 二次コヒーレンススケール(QCS)は、位相空間の配向を選ばず、任意の単一モードボゾン系の量子的特徴を定量化するために発明された。 QCSは任意の状態に対して定義され、ガウス状態や純粋状態を含むよく知られた量に減少し、おそらくはコヒーレンス測度において、デコヒーレンスに非常に敏感である。 最近までqcsの測定方法が分かっておらず、ここでは絞られた光と熱状態のqcsの初期測定について報告する。 これはxanaduのマシンboraalisを使ってクラウドからアクセスし、qcsを測定するのに必須なコンフィグレーション可能なビームスプリッターと光子数分解検出器を提供する。 データと理論はよく一致し、量子性を証明するための干渉計と光子計装置の有用性が証明される。

Coherence underlies quantum phenomena, yet it is manifest in classical theories; delineating coherence's role is a fickle business. The quadrature coherence scale (QCS) was invented to remove such ambiguity, quantifying quantum features of any single-mode bosonic system without choosing a preferred orientation of phase space. The QCS is defined for any state, reducing to well-known quantities in appropriate limits, including Gaussian and pure states, and perhaps most importantly for a coherence measure, it is highly sensitive to decoherence. Until recently, it was unknown how to measure the QCS; we here report on an initial measurement of the QCS for squeezed light and thermal states of light. This is performed using Xanadu's machine Borealis, accessed through the cloud, which offers the configurable beam splitters and photon-number-resolving detectors essential for measuring the QCS. The data and theory match well, certifying the usefulness of interferometers and photon-counting devices in certifying quantumness.
翻訳日:2023-04-19 17:46:23 公開日:2023-04-18
# ガウス過程状態を持つ効率的なabイニティオ電子構造の枠組み

A framework for efficient ab initio electronic structure with Gaussian Process States ( http://arxiv.org/abs/2302.01099v2 )

ライセンス: Link先を確認
Yannic Rath and George H. Booth(参考訳) 本稿では、量子多体状態の表現を現代機械学習にインスパイアされた現実的なフェルミオン系の効率的なシミュレーションのための一般的なフレームワークについて述べる。 これらの機械学習にインスパイアされたアンサーゼは、(第1の量子化された)連続体と離散フォック空間の表現の両方において近づきつつあるが、しかしながら、現実的な相互作用に対する後者のアプローチの本質的なスケーリングは、これまでのところ、実用的応用に限られている。 機械学習における系統的改良可能なカーネルモデルにインスパイアされた最近導入されたansatzである「gaussian process state」の適用により、計算フォック空間の表現を定義するための異なる選択について論じる。 本稿では,局所表現が期待値の確率的サンプリングに特に適合することを示すとともに,連続体定式モデルに対するスケーリングの差を克服する経路を示す。 我々は、最大64個の電子を持つ系に対して、三次元水素中のモット転移の単純化されたモデルを含む競争精度を示すことができ、構成サンプルの適度な数であっても、同様のアプローチよりも大幅に改善されていることを示す。

We present a general framework for the efficient simulation of realistic fermionic systems with modern machine learning inspired representations of quantum many-body states, towards a universal tool for ab initio electronic structure. These machine learning inspired ansatzes have recently come to the fore in both a (first quantized) continuum and discrete Fock space representations, where however the inherent scaling of the latter approach for realistic interactions has so far limited practical applications. With application to the 'Gaussian Process State', a recently introduced ansatz inspired by systematically improvable kernel models in machine learning, we discuss different choices to define the representation of the computational Fock space. We show how local representations are particularly suited for stochastic sampling of expectation values, while also indicating a route to overcome the discrepancy in the scaling compared to continuum formulated models. We are able to show competitive accuracy for systems with up to 64 electrons, including a simplified (yet fully ab initio) model of the Mott transition in three-dimensional hydrogen, indicating a significant improvement over similar approaches, even for moderate numbers of configurational samples.
翻訳日:2023-04-19 17:46:04 公開日:2023-04-18
# リンク予測のための補完付きニューラルコモン近傍

Neural Common Neighbor with Completion for Link Prediction ( http://arxiv.org/abs/2302.00890v2 )

ライセンス: Link先を確認
Xiyuan Wang, Haotong Yang, Muhan Zhang(参考訳) 様々なグラフタスクにおける優れたパフォーマンスにもかかわらず、バニラメッセージパッシングニューラルネットワーク(MPNN)は通常、リンク予測タスクで失敗する。 ペアワイズ関係を捉えるために、いくつかのモデルは入力グラフに手動の機能を加え、MPNNの出力を使ってペアワイズ表現を生成する。 対照的に、手動機能をペアワイズ表現として直接使用するものもある。 この単純化は各リンクにgnnを個別に適用することを避け、拡張性を向上させるが、手作りで理解できないペアワイズ機能のために、これらのモデルはまだ性能改善の余地がある。 スケーラビリティを維持しつつ性能をアップグレードするために,学習可能なペアワイズ表現を用いたneural common neighbor (ncn)を提案する。 NCNをさらに高めるために、未観測リンク問題について検討する。 グラフの不完全性はユビキタスであり、トレーニングとテストセット間の分散シフト、一般的な隣り合う情報の損失、モデルの性能劣化につながる。 そこで本研究では,近接補完法と目標リンク除去法という2つの介入法を提案する。 この2つの手法をNCNと組み合わせて,NCNC(Neural Common Neighbor with Completion)を提案する。 NCNとNCNCは、最近の強いベースラインを大きなマージンで上回っている。 NCNCはリンク予測タスクにおいて最先端のパフォーマンスを達成する。 私たちのコードはhttps://github.com/graphpku/neuralcommonneighborで利用可能です。

Despite its outstanding performance in various graph tasks, vanilla Message Passing Neural Network (MPNN) usually fails in link prediction tasks, as it only uses representations of two individual target nodes and ignores the pairwise relation between them. To capture the pairwise relations, some models add manual features to the input graph and use the output of MPNN to produce pairwise representations. In contrast, others directly use manual features as pairwise representations. Though this simplification avoids applying a GNN to each link individually and thus improves scalability, these models still have much room for performance improvement due to the hand-crafted and unlearnable pairwise features. To upgrade performance while maintaining scalability, we propose Neural Common Neighbor (NCN), which uses learnable pairwise representations. To further boost NCN, we study the unobserved link problem. The incompleteness of the graph is ubiquitous and leads to distribution shifts between the training and test set, loss of common neighbor information, and performance degradation of models. Therefore, we propose two intervention methods: common neighbor completion and target link removal. Combining the two methods with NCN, we propose Neural Common Neighbor with Completion (NCNC). NCN and NCNC outperform recent strong baselines by large margins. NCNC achieves state-of-the-art performance in link prediction tasks. Our code is available at https://github.com/GraphPKU/NeuralCommonNeighbor.
翻訳日:2023-04-19 17:45:42 公開日:2023-04-18
# MTP-GO:ニューラルネットワークを用いたグラフベース確率的多エージェント軌道予測

MTP-GO: Graph-Based Probabilistic Multi-Agent Trajectory Prediction with Neural ODEs ( http://arxiv.org/abs/2302.00735v3 )

ライセンス: Link先を確認
Theodor Westny, Joel Oskarsson, Bj\"orn Olofsson and Erik Frisk(参考訳) レジリエントな自律運動計画を実現するには、周囲の道路利用者の将来行動の堅牢な予測が必要である。 このニーズと関連する課題に応えて,我々はMTP-GOというモデルを紹介した。 このモデルは、テンポラリグラフニューラルネットワークを使用してシーンをエンコードし、基盤となる動きモデルへの入力を生成する。 運動モデルは、状態遷移関数がモデルの残りの部分で学習される神経常微分方程式を用いて実装される。 多モード確率予測は混合密度ネットワークとカルマンフィルタの概念を組み合わせることで得られる。 その結果,提案モデルの予測性能が様々なデータセットにまたがって示され,複数の測定値において最先端の手法を上回った。

Enabling resilient autonomous motion planning requires robust predictions of surrounding road users' future behavior. In response to this need and the associated challenges, we introduce our model titled MTP-GO. The model encodes the scene using temporal graph neural networks to produce the inputs to an underlying motion model. The motion model is implemented using neural ordinary differential equations where the state-transition functions are learned with the rest of the model. Multimodal probabilistic predictions are obtained by combining the concept of mixture density networks and Kalman filtering. The results illustrate the predictive capabilities of the proposed model across various data sets, outperforming several state-of-the-art methods on a number of metrics.
翻訳日:2023-04-19 17:45:20 公開日:2023-04-18
# 高フレームレート超音波イメージングによる義肢制御のための試作システム

A Prototype System for High Frame Rate Ultrasound Imaging based Prosthetic Arm Control ( http://arxiv.org/abs/2301.13809v3 )

ライセンス: Link先を確認
Ayush Singh, Pisharody Harikrishnan Gopalkrishnan, Mahesh Raveendranatha Panicker(参考訳) ハンドプロテーゼのためのユニークな制御方法の作成は、まだ対処しなければならない問題である。 自然制御を可能にするためのヒューマンマシンインタフェース(hmi)の最良の選択は依然として課題である。 表面筋電図(sEMG)は、最も一般的な選択肢であり、様々な固定困難な問題(電極変位、汗、疲労)がある。 超音波イメージングに基づく手法は、sEMGと比較して、複雑な筋活動と構成をよりSNRで認識し、ハードウェアの要求を少なくする手段を提供する。 本研究では, 人工腕制御のための高フレームレート超音波イメージングの試作システムを提案する。 提案手法を用いて,リンク[10]に示すように,人間の手を模倣できる仮想ロボットハンドシミュレーションを開発した。 4つの手振りをシミュレートした分類モデルは,90%以上の分類精度を有する。

The creation of unique control methods for a hand prosthesis is still a problem that has to be addressed. The best choice of a human-machine interface (HMI) that should be used to enable natural control is still a challenge. Surface electromyography (sEMG), the most popular option, has a variety of difficult-to-fix issues (electrode displacement, sweat, fatigue). The ultrasound imaging-based methodology offers a means of recognising complex muscle activity and configuration with a greater SNR and less hardware requirements as compared to sEMG. In this study, a prototype system for high frame rate ultrasound imaging for prosthetic arm control is proposed. Using the proposed framework, a virtual robotic hand simulation is developed that can mimic a human hand as illustrated in the link [10]. The proposed classification model simulating four hand gestures has a classification accuracy of more than 90%.
翻訳日:2023-04-19 17:45:09 公開日:2023-04-18
# se(3)不変トランスフォーマー、転送学習、ホモロジーに基づく拡張を用いた畳み込みニューラルネットワークのタンパク質結合部位予測能力の増強

Boosting Convolutional Neural Networks' Protein Binding Site Prediction Capacity Using SE(3)-invariant transformers, Transfer Learning and Homology-based Augmentation ( http://arxiv.org/abs/2303.08818v2 )

ライセンス: Link先を確認
Daeseok Lee, Jeunghyun Byun and Bonggun Shin(参考訳) 標的タンパク質中の小さな分子結合部位を、ポケットや残基の分解能で見つけることは、多くの仮想的および実際の薬物発見シナリオにおいて重要である。 ドメイン知識や従来の手法に基づく結合サイトを見つけることは必ずしも容易ではないため、タンパク質構造から結合サイトを予測する異なる深層学習法が近年開発されている。 ここでは,最先端のベースラインをそれぞれ$\unicode{x2013}$pocketと残差で大幅に上回る,新たなディープラーニングアルゴリズムを提案する。 この優れた性能は、ヒト血清アルブミンとその結合部位のタンパク質を含むケーススタディでも実証された。 我々のアルゴリズムには、モデルアーキテクチャとトレーニング方法の両方で新しいアイデアが含まれていた。 モデルアーキテクチャでは、残差レベルCNN出力上で動作するSE(3)不変な幾何学的自己アテンション層を組み込んだ。 このモデルの残差レベル処理により、2つの解像度間の転送学習が可能となり、バインディングポケット予測を大幅に改善することができた。 さらに,タンパク質のホモロジーに基づく新しい拡張法を開発し,モデルが過度に適合することを防止した。 全体として、我々の文学への貢献は2つあると信じている。 まず,異なるベンチマークやケーススタディの優れた性能で示されるように,実世界のアプリケーションに関係のあるサイト予測を結合するための新しい計算方法を提案する。 第二に、我々の方法である$\unicode{x2013}$ the model architecture, transfer learning and the homology augmentation$\unicode{x2013}$would の斬新なアイデアは、将来の作品において有用な構成要素となる。

Figuring out small molecule binding sites in target proteins, in the resolution of either pocket or residue, is critical in many virtual and real drug-discovery scenarios. Since it is not always easy to find such binding sites based on domain knowledge or traditional methods, different deep learning methods that predict binding sites out of protein structures have been developed in recent years. Here we present a new such deep learning algorithm, that significantly outperformed all state-of-the-art baselines in terms of the both resolutions$\unicode{x2013}$pocket and residue. This good performance was also demonstrated in a case study involving the protein human serum albumin and its binding sites. Our algorithm included new ideas both in the model architecture and in the training method. For the model architecture, it incorporated SE(3)-invariant geometric self-attention layers that operate on top of residue-level CNN outputs. This residue-level processing of the model allowed a transfer learning between the two resolutions, which turned out to significantly improve the binding pocket prediction. Moreover, we developed novel augmentation method based on protein homology, which prevented our model from over-fitting. Overall, we believe that our contribution to the literature is twofold. First, we provided a new computational method for binding site prediction that is relevant to real-world applications, as shown by the good performance on different benchmarks and case study. Second, the novel ideas in our method$\unicode{x2013}$the model architecture, transfer learning and the homology augmentation$\unicode{x2013}$would serve as useful components in future works.
翻訳日:2023-04-19 17:39:18 公開日:2023-04-18
# 血液細胞形態におけるロバスト単一細胞分類のための不均衡領域の一般化

Imbalanced Domain Generalization for Robust Single Cell Classification in Hematological Cytomorphology ( http://arxiv.org/abs/2303.07771v3 )

ライセンス: Link先を確認
Rao Muhammad Umer, Armin Gruber, Sayedali Shetab Boushehri, Christian Metak, Carsten Marr(参考訳) 白血球の正確な形態分類(WBCs)は白血病の診断において重要なステップであり、非機能的ブラスト細胞が骨髄に蓄積する疾患である。 近年、深層畳み込みニューラルネットワーク(CNN)は特定の領域からの単細胞画像に基づいて、白血球の分類に成功している。 ほとんどのcnnモデルは、トレーニングデータとテストデータの分布が類似していると仮定している。 したがって、異なる染色方法、倍率、解像度、スキャナー、イメージングプロトコル、および臨床センターや患者のコホートの変化に対して堅牢ではない。 さらに、ドメイン固有のデータ不均衡は分類器の一般化性能に影響する。 本稿では,wbc分類のためのロバストなcnnを,クロスドメインデータ不均衡とドメインシフトに対処して訓練する。 この目的のために,2つの損失関数を用いて,アウト・オブ・ディストリビューション(OOD)の一般化の有効性を示す。 本手法は他の方法と比較してF1マクロスコアが最適であり,稀な細胞型を考慮できる。 これは血液形態学における不均衡領域の一般化の初めての実証であり、実験室や診療所への応用のための堅牢な単細胞分類方法の道を開くものである。

Accurate morphological classification of white blood cells (WBCs) is an important step in the diagnosis of leukemia, a disease in which nonfunctional blast cells accumulate in the bone marrow. Recently, deep convolutional neural networks (CNNs) have been successfully used to classify leukocytes by training them on single-cell images from a specific domain. Most CNN models assume that the distributions of the training and test data are similar, i.e., the data are independently and identically distributed. Therefore, they are not robust to different staining procedures, magnifications, resolutions, scanners, or imaging protocols, as well as variations in clinical centers or patient cohorts. In addition, domain-specific data imbalances affect the generalization performance of classifiers. Here, we train a robust CNN for WBC classification by addressing cross-domain data imbalance and domain shifts. To this end, we use two loss functions and demonstrate their effectiveness in out-of-distribution (OOD) generalization. Our approach achieves the best F1 macro score compared to other existing methods and is able to consider rare cell types. This is the first demonstration of imbalanced domain generalization in hematological cytomorphology and paves the way for robust single cell classification methods for the application in laboratories and clinics.
翻訳日:2023-04-19 17:38:48 公開日:2023-04-18
# 職場における大規模言語モデル:職種分類のためのプロンプト工学の事例研究

Large Language Models in the Workplace: A Case Study on Prompt Engineering for Job Type Classification ( http://arxiv.org/abs/2303.07142v3 )

ライセンス: Link先を確認
Benjamin Clavi\'e and Alexandru Ciceu and Frederick Naylor and Guillaume Souli\'e and Thomas Brightwell(参考訳) 本研究は,英語の求職が大学・入学レベルの職位に適切かどうかを判断することを目的として,実世界の職種分類の課題について検討する。 本稿では,SVM(Support Vector Machines)のような従来のモデルやDeBERTaのような最先端のディープラーニング手法など,テキスト分類に対する複数のアプローチを検討する。 少数ショットとゼロショットの両方の分類設定で使用されるLarge Language Models (LLM)と比較する。 そこで我々は,所望の出力に向けてLLMを誘導するプロンプトを設計する手法であるプロンプトエンジニアリングを採用する。 具体的には,市販のgpt-3.5言語モデルtext-davinci-003とgpt-3.5-turboの性能評価を行った。 また,プロンプトエンジニアリングのさまざまな側面がモデルの性能に与える影響について詳細な分析を行った。 以上の結果から,ゼロショットgpt-3.5ターボ分類器は,最善の教師付きアプローチと比較して精度@95%のリコールを6%向上させた。 さらに,プロンプトの単語化はモデルにおける適切な「推論」を導き出す上で重要な要素であり,プロンプトの微妙な側面がモデルの性能に大きく影響していることが観察された。

This case study investigates the task of job classification in a real-world setting, where the goal is to determine whether an English-language job posting is appropriate for a graduate or entry-level position. We explore multiple approaches to text classification, including supervised approaches such as traditional models like Support Vector Machines (SVMs) and state-of-the-art deep learning methods such as DeBERTa. We compare them with Large Language Models (LLMs) used in both few-shot and zero-shot classification settings. To accomplish this task, we employ prompt engineering, a technique that involves designing prompts to guide the LLMs towards the desired output. Specifically, we evaluate the performance of two commercially available state-of-the-art GPT-3.5-based language models, text-davinci-003 and gpt-3.5-turbo. We also conduct a detailed analysis of the impact of different aspects of prompt engineering on the model's performance. Our results show that, with a well-designed prompt, a zero-shot gpt-3.5-turbo classifier outperforms all other models, achieving a 6% increase in Precision@95% Recall compared to the best supervised approach. Furthermore, we observe that the wording of the prompt is a critical factor in eliciting the appropriate "reasoning" in the model, and that seemingly minor aspects of the prompt significantly affect the model's performance.
翻訳日:2023-04-19 17:38:27 公開日:2023-04-18
# 医療廃棄物ソーティング : コンピュータビジョンによる一次選別支援

Medical Waste Sorting: a computer vision approach for assisted primary sorting ( http://arxiv.org/abs/2303.04720v2 )

ライセンス: Link先を確認
A. Bruno, C.Caudai, G.R. Leone, M. Martinelli, D. Moroni, F. Crotti(参考訳) 医療廃棄物、すなわち病院、診療所、研究所における医療活動中に発生する廃棄物は、特別のケアと高いコストを伴う危険廃棄物である。 しかし、この種の廃棄物は、循環経済プロセスに入ることのできる非常に価値の高い材料のかなりの割合を含んでいる。 そこで本稿では, 医療廃棄物の一次選別を支援するコンピュータビジョン手法を提案する。 このアプローチの有効性は、私たちが収集し、コミュニティに提供した代表的データセットで実証され、100倍精度のモデルと、トレーニングされたモデルが優れた一般化を示す新しいデータセットをトレーニングしました。

Medical waste, i.e. waste produced during medical activities in hospitals, clinics and laboratories, represents hazardous waste whose management involves special care and high costs. However, this kind of waste contains a significant fraction of highly valued materials that can enter a circular economy process. To this end, in this paper, we propose a computer vision approach for assisting in the primary sorting of medical waste. The feasibility of our approach is demonstrated on a representative dataset we collected and made available to the community, with which we have trained a model that achieves 100\% accuracy, and a new dataset on which the trained model exhibits good generalization.
翻訳日:2023-04-19 17:37:58 公開日:2023-04-18
# 一般化3次元多目的探索システム

A System for Generalized 3D Multi-Object Search ( http://arxiv.org/abs/2303.03178v2 )

ライセンス: Link先を確認
Kaiyu Zheng, Anirudha Paul, Stefanie Tellex(参考訳) オブジェクトの検索は、ロボットにとって基本的なスキルである。 そのため、オブジェクト検出やSLAMのように、オブジェクト検索が最終的にロボットの既製の能力になることを期待している。 対照的に、実際のロボットや環境にまたがって一般化する3Dオブジェクト探索システムは存在しない。 本稿では,octree構造を利用して3dの信念を表現する最近の理論的枠組みに基づいて,ロボット非依存かつ環境非依存な3d領域において,最初の多目的探索のための汎用システムであるgenmos(generalized multi-object search)を提案する。 GenMOSは、ローカル領域の入力ポイントクラウド観測、オブジェクト検出結果、ロボットのビューポーズのローカライズを行い、オンラインプランニングを通じて移動するための6D視点を出力する。 特にGenMOSは,(1)オクルージョンをシミュレートする,(2)オクルージョンを通知する,(3)オクトリーの信念を初期化する,(3)障害物を避ける視点位置の信念依存グラフをサンプリングする,という3つの方法で点雲観測を行っている。 我々はシミュレーションと2つの実ロボットプラットフォームでシステムを評価する。 例えば、Boston Dynamics Spotロボットは、ソファの下に隠れているおもちゃの猫を1分以内に見つけることができる。 さらに,3次元局所探索と2次元グローバルサーチを統合して,25m$^2$ロビーエリアでシステムを構築した。

Searching for objects is a fundamental skill for robots. As such, we expect object search to eventually become an off-the-shelf capability for robots, similar to e.g., object detection and SLAM. In contrast, however, no system for 3D object search exists that generalizes across real robots and environments. In this paper, building upon a recent theoretical framework that exploited the octree structure for representing belief in 3D, we present GenMOS (Generalized Multi-Object Search), the first general-purpose system for multi-object search (MOS) in a 3D region that is robot-independent and environment-agnostic. GenMOS takes as input point cloud observations of the local region, object detection results, and localization of the robot's view pose, and outputs a 6D viewpoint to move to through online planning. In particular, GenMOS uses point cloud observations in three ways: (1) to simulate occlusion; (2) to inform occupancy and initialize octree belief; and (3) to sample a belief-dependent graph of view positions that avoid obstacles. We evaluate our system both in simulation and on two real robot platforms. Our system enables, for example, a Boston Dynamics Spot robot to find a toy cat hidden underneath a couch in under one minute. We further integrate 3D local search with 2D global search to handle larger areas, demonstrating the resulting system in a 25m$^2$ lobby area.
翻訳日:2023-04-19 17:37:48 公開日:2023-04-18
# 行動における進化的計算:gigapixel病理画像の奥行き埋め込み空間に対する特徴選択

Evolutionary Computation in Action: Feature Selection for Deep Embedding Spaces of Gigapixel Pathology Images ( http://arxiv.org/abs/2303.00943v2 )

ライセンス: Link先を確認
Azam Asilian Bidgoli, Shahryar Rahnamayan, Taher Dehkharghanian, Abtin Riasatian, H.R. Tizhoosh(参考訳) デジタル病理学を採用する主な障害の1つは、全スライド画像(WSI)と呼ばれる超次元デジタル化生検サンプルの効率的な処理である。 画像解析の高速化と病理の可視化と解釈の促進のためには,深層学習とコンパクトなwsi表現の導入が急務である。 本稿では,深層埋め込みの大規模多目的最適化(lsmop)に基づくwsi表現の新しい進化的アプローチを提案する。 まず,組織病理学を専門とする深層ネットワークであるkimianetを供給し,多数の特徴ベクトルを抽出するパッチベースのサンプリングから始める。 粗い多目的特徴選択は、分類精度と特徴数によって導かれる少ない探索空間戦略を用いる。 第2段階では、新しいWSI表現である頻繁な特徴ヒストグラム(FFH)は、粗いLSMOPの複数の実行によって構成される。 微細な進化的特徴選択は、FFHに基づくコンパクトな(短い)特徴ベクトルを見つけるために適用され、進化アルゴリズムの確率的力によって支持されるデジタル病理に対するより堅牢なディープラーニングアプローチに寄与する。 The Cancer Genome Atlas(TCGA)画像を用いて,WSI表現,分類精度,特徴品質の観点から提案手法を検証した。 さらに,LSMOP分野における複数基準決定のための新しい決定空間を導入する。 最後に,深い特徴の解釈性を高めるためにパッチレベルの可視化手法を提案する。 提案された進化アルゴリズムは、wsi(元の特徴ベクトルの約14,000倍小さい)を表す非常にコンパクトな特徴ベクトルを、最先端の手法で提供されるコードよりも8%高い精度で発見する。

One of the main obstacles of adopting digital pathology is the challenge of efficient processing of hyperdimensional digitized biopsy samples, called whole slide images (WSIs). Exploiting deep learning and introducing compact WSI representations are urgently needed to accelerate image analysis and facilitate the visualization and interpretability of pathology results in a postpandemic world. In this paper, we introduce a new evolutionary approach for WSI representation based on large-scale multi-objective optimization (LSMOP) of deep embeddings. We start with patch-based sampling to feed KimiaNet , a histopathology-specialized deep network, and to extract a multitude of feature vectors. Coarse multi-objective feature selection uses the reduced search space strategy guided by the classification accuracy and the number of features. In the second stage, the frequent features histogram (FFH), a novel WSI representation, is constructed by multiple runs of coarse LSMOP. Fine evolutionary feature selection is then applied to find a compact (short-length) feature vector based on the FFH and contributes to a more robust deep-learning approach to digital pathology supported by the stochastic power of evolutionary algorithms. We validate the proposed schemes using The Cancer Genome Atlas (TCGA) images in terms of WSI representation, classification accuracy, and feature quality. Furthermore, a novel decision space for multicriteria decision making in the LSMOP field is introduced. Finally, a patch-level visualization approach is proposed to increase the interpretability of deep features. The proposed evolutionary algorithm finds a very compact feature vector to represent a WSI (almost 14,000 times smaller than the original feature vectors) with 8% higher accuracy compared to the codes provided by the state-of-the-art methods.
翻訳日:2023-04-19 17:36:54 公開日:2023-04-18
# 2レベル経験的リスク最小化のための下界と近似最適アルゴリズム

A Lower Bound and a Near-Optimal Algorithm for Bilevel Empirical Risk Minimization ( http://arxiv.org/abs/2302.08766v2 )

ライセンス: Link先を確認
Mathieu Dagr\'eou, Thomas Moreau, Samuel Vaiter, Pierre Ablin(参考訳) 双方向最適化問題は、2つの最適化問題をネストする問題であり、機械学習により多くの応用がある。 多くの場合、上目的と下目的は経験的リスク最小化問題に対応し、従って和構造を持つ。 そこで本研究では,SARAHアルゴリズムの2レベル拡張を提案する。 このアルゴリズムには$\mathcal{O}((n+m)^{\frac12}\varepsilon^{-1})$グラデーション計算が必要であることを実証する。 さらに,両レベル問題の目的関数のほぼ定常点を得るために必要なオラクル呼び出し数に対して,より低い境界を与える。 この下限はアルゴリズムによって達成され、サンプル複雑性の観点から最適である。

Bilevel optimization problems, which are problems where two optimization problems are nested, have more and more applications in machine learning. In many practical cases, the upper and the lower objectives correspond to empirical risk minimization problems and therefore have a sum structure. In this context, we propose a bilevel extension of the celebrated SARAH algorithm. We demonstrate that the algorithm requires $\mathcal{O}((n+m)^{\frac12}\varepsilon^{-1})$ gradient computations to achieve $\varepsilon$-stationarity with $n+m$ the total number of samples, which improves over all previous bilevel algorithms. Moreover, we provide a lower bound on the number of oracle calls required to get an approximate stationary point of the objective function of the bilevel problem. This lower bound is attained by our algorithm, which is therefore optimal in terms of sample complexity.
翻訳日:2023-04-19 17:36:28 公開日:2023-04-18
# スマート材料のための疎ヒステリシスモデルの発見

Discovering sparse hysteresis models for smart materials ( http://arxiv.org/abs/2302.05313v3 )

ライセンス: Link先を確認
Abhishek Chandra, Bram Daniels, Mitrofan Curti, Koen Tiels, Elena A. Lomonova and Daniel M. Tartakovsky(参考訳) 本稿では, スマート素材, 特に圧電材料におけるヒステリシスをモデル化するためのアプローチについて述べる。 スパース回帰は、以前は様々な科学的・工学的現象のモデル化に用いられてきたが、圧電材料における非線形ヒステリシスモデリングへの応用はまだ検討されていない。 本研究は, ヒステリシスの原因となる力学系を逐次しきい値付き最小二乗法を用いてモデル化し, シミュレーションと実験の両方の圧電材料データに対するヒステリシスを正確に予測する簡潔なモデルを構築した。 蝶型ヒステリシスの学習や圧電アクチュエータの実世界のヒステリシスデータのモデル化など,いくつかの数値実験が行われた。 また、非方向性電磁鋼を例に挙げた磁性材料に対するヒステリシスの疎白箱モデリングに関する洞察も提供される。 提案手法は,従来の回帰型およびニューラルネットワーク法と比較し,その効率性と頑健性を示す。 ソースコードはhttps://github.com/chandratue/SmartHysteresisで入手できる。

This article presents an approach for modelling hysteresis in smart materials, specifically piezoelectric materials, that leverages recent advancements in machine learning, particularly in sparse-regression techniques. While sparse regression has previously been used to model various scientific and engineering phenomena, its application to nonlinear hysteresis modelling in piezoelectric materials has yet to be explored. The study employs the least-squares algorithm with a sequential threshold to model the dynamic system responsible for hysteresis, resulting in a concise model that accurately predicts hysteresis for both simulated and experimental piezoelectric material data. Several numerical experiments are performed, including learning butterfly-shaped hysteresis and modelling real-world hysteresis data for a piezoelectric actuator. Additionally, insights are provided on sparse white-box modelling of hysteresis for magnetic materials taking non-oriented electrical steel as an example. The presented approach is compared to traditional regression-based and neural network methods, demonstrating its efficiency and robustness. Source code is available at https://github.com/chandratue/SmartHysteresis.
翻訳日:2023-04-19 17:36:11 公開日:2023-04-18
# 星型分極拡散確率モデル

Star-Shaped Denoising Diffusion Probabilistic Models ( http://arxiv.org/abs/2302.05259v2 )

ライセンス: Link先を確認
Andrey Okhotin, Dmitry Molchanov, Vladimir Arkhipkin, Grigory Bartosh, Aibek Alanov, Dmitry Vetrov(参考訳) denoising diffusion probabilistic models (ddpm)に基づく手法は、生成モデリングにおいてユビキタスなツールとなった。 しかし、それらは主にガウス過程と離散拡散過程に限られる。 我々は,非マルコフ拡散様雑音発生過程のモデルであるSS-DDPM(Star-Shaped Denoising Diffusion Probabilistic Models)を提案する。 ガウス分布の場合、このモデルはマルコフ DDPM と同値である。 しかし、任意の雑音分布で定義および適用することができ、指数族に属する幅広い分布に対する効率的なトレーニングとサンプリングアルゴリズムが認められている。 単体球、正半定値行列の空間、確率的単純行列などの制約付き多様体上にデータを置く場合、特に有用である、ベータ、フォン・ミセス-フィッシャー、ディリクレ、ウィッシャートなどの分布を持つ拡散様モデルの設計法を提供する。 我々は,このモデルを異なる設定で評価し,ベータSS-DDPMがガウスDDPMに匹敵する結果が得られる画像データでも競合することを示した。

Methods based on Denoising Diffusion Probabilistic Models (DDPM) became a ubiquitous tool in generative modeling. However, they are mostly limited to Gaussian and discrete diffusion processes. We propose Star-Shaped Denoising Diffusion Probabilistic Models (SS-DDPM), a model with a non-Markovian diffusion-like noising process. In the case of Gaussian distributions, this model is equivalent to Markovian DDPMs. However, it can be defined and applied with arbitrary noising distributions, and admits efficient training and sampling algorithms for a wide range of distributions that lie in the exponential family. We provide a simple recipe for designing diffusion-like models with distributions like Beta, von Mises--Fisher, Dirichlet, Wishart and others, which can be especially useful when data lies on a constrained manifold such as the unit sphere, the space of positive semi-definite matrices, the probabilistic simplex, etc. We evaluate the model in different settings and find it competitive even on image data, where Beta SS-DDPM achieves results comparable to a Gaussian DDPM.
翻訳日:2023-04-19 17:35:50 公開日:2023-04-18
# ロバストなリスクアウェアオプションヘッジ

Robust Risk-Aware Option Hedging ( http://arxiv.org/abs/2303.15216v2 )

ライセンス: Link先を確認
David Wu, Sebastian Jaimungal(参考訳) オプションヘッジ/トレーディングの目標は、単に下方リスクに対する保護以上のものであって、利得を求める欲求もまたエージェントの戦略を推進している。 本研究では,経路依存的金融デリバティブに関連するリスクを軽減するための,堅牢なリスクアウェア強化学習(rl)の可能性を示す。 我々は、ロバストなリスク対応性能基準を最適化するポリシー勾配アプローチを活用することで、これを実現する。 本稿では, この手法をバリアオプションのヘッジに適用し, エージェントがリスク回避からリスク探究へと移行するにつれて, 最適なヘッジ戦略が歪曲することを示す。 エージェントが戦略を強固にする方法です さらに、データ生成プロセス(DGP)がトレーニングDGPと異なる場合のヘッジの性能について検討し、ロバストでないものよりもロバストな戦略が優れていることを示す。

The objectives of option hedging/trading extend beyond mere protection against downside risks, with a desire to seek gains also driving agent's strategies. In this study, we showcase the potential of robust risk-aware reinforcement learning (RL) in mitigating the risks associated with path-dependent financial derivatives. We accomplish this by leveraging a policy gradient approach that optimises robust risk-aware performance criteria. We specifically apply this methodology to the hedging of barrier options, and highlight how the optimal hedging strategy undergoes distortions as the agent moves from being risk-averse to risk-seeking. As well as how the agent robustifies their strategy. We further investigate the performance of the hedge when the data generating process (DGP) varies from the training DGP, and demonstrate that the robust strategies outperform the non-robust ones.
翻訳日:2023-04-19 17:28:54 公開日:2023-04-18
# 異種3次元mr膝画像の扱い : 二重知識蒸留を用いた連発型少数ショット学習法

Dealing With Heterogeneous 3D MR Knee Images: A Federated Few-Shot Learning Method With Dual Knowledge Distillation ( http://arxiv.org/abs/2303.14357v2 )

ライセンス: Link先を確認
Xiaoxiao He, Chaowei Tan, Bo Liu, Liping Si, Weiwu Yao, Liang Zhao, Di Liu, Qilong Zhangli, Qi Chang, Kang Li and Dimitris N. Metaxas(参考訳) 統合学習は、データを集約することなくクライアント(病院など)間の協調的なトレーニングを可能にするため、医療機関の間で人気を集めている。 しかし、特に大規模な3次元画像データセットのアノテーション作成に伴うコストが高いため、臨床機関は局所的なトレーニングに十分な教師付きデータを持っていない。 したがって、協調モデルの性能は限定的な監督下にある。 一方、大企業には、高解像度の画像やラベルでデータリポジトリをコンパイルするリソースがある。 そのため、個々のクライアントは、公開データリポジトリで取得した知識を利用して、プライベートアノテート画像の不足を軽減することができる。 本稿では, 二重知識蒸留を用いた連成数ショット学習法を提案する。 この方法では、プライバシーを損なうことなく、クライアント間で限定的なアノテーションによる共同トレーニングを可能にする。 提案手法の教師付き学習は,各クライアントのラベル付き限られたデータから特徴を抽出し,教師なしデータは,特徴と応答に基づく知識の両方を国家データリポジトリから抽出し,協調モデルの精度をさらに向上し,通信コストを低減する。 民間臨床データから3次元磁気共鳴膝画像について広範な評価を行った。 提案手法は,他の半教師付きフェデレーション学習法よりも優れた性能と訓練時間を示す。 コードと追加の可視化結果はhttps://github.com/hexiaoxiao-cs/fedml-kneeで確認できる。

Federated Learning has gained popularity among medical institutions since it enables collaborative training between clients (e.g., hospitals) without aggregating data. However, due to the high cost associated with creating annotations, especially for large 3D image datasets, clinical institutions do not have enough supervised data for training locally. Thus, the performance of the collaborative model is subpar under limited supervision. On the other hand, large institutions have the resources to compile data repositories with high-resolution images and labels. Therefore, individual clients can utilize the knowledge acquired in the public data repositories to mitigate the shortage of private annotated images. In this paper, we propose a federated few-shot learning method with dual knowledge distillation. This method allows joint training with limited annotations across clients without jeopardizing privacy. The supervised learning of the proposed method extracts features from limited labeled data in each client, while the unsupervised data is used to distill both feature and response-based knowledge from a national data repository to further improve the accuracy of the collaborative model and reduce the communication cost. Extensive evaluations are conducted on 3D magnetic resonance knee images from a private clinical dataset. Our proposed method shows superior performance and less training time than other semi-supervised federated learning methods. Codes and additional visualization results are available at https://github.com/hexiaoxiao-cs/fedml-knee.
翻訳日:2023-04-19 17:28:38 公開日:2023-04-18
# GrapeQA: GRaphの拡張と質問応答の強化

GrapeQA: GRaph Augmentation and Pruning to Enhance Question-Answering ( http://arxiv.org/abs/2303.12320v2 )

ライセンス: Link先を確認
Dhaval Taunk, Lakshya Khanna, Pavan Kandru, Vasudeva Varma, Charu Sharma and Makarand Tapaswi(参考訳) Commonsense Question-Awering (QA)メソッドは、事前訓練された言語モデル(LM)のパワーと知識グラフ(KG)が提供する推論を組み合わせる。 典型的なアプローチでは、QAペアに関連するノードをKGから収集してワーキンググラフ(WG)を生成し、続いてグラフニューラルネットワーク(GNN)を使用する。 これは2つの大きな課題に直面します。 (i)WGにおけるQAからの情報を全て把握することは困難であり、 (ii) WG は KG から無関係なノードを含む。 これらの問題に対処するため、我々は2つの簡単な改良を加えたGrapeQAを提案する。 一 グラフ増強のための重要エンティティは、QA対から関連するテキストチャンクを特定し、かつ、LMから対応する潜在表現でWGを増強し、 (ii) Context-Aware Node Pruningは、QAペアに関連のないノードを削除する。 我々は,OpenBookQA,CommonsenseQA,MedQA-USMLEの成果を評価し,GrapeQAがLM+KG以前のもの(特にQA-GNN)よりも一貫した改善とOpenBookQAの大幅な改善を示した。

Commonsense question-answering (QA) methods combine the power of pre-trained Language Models (LM) with the reasoning provided by Knowledge Graphs (KG). A typical approach collects nodes relevant to the QA pair from a KG to form a Working Graph (WG) followed by reasoning using Graph Neural Networks(GNNs). This faces two major challenges: (i) it is difficult to capture all the information from the QA in the WG, and (ii) the WG contains some irrelevant nodes from the KG. To address these, we propose GrapeQA with two simple improvements on the WG: (i) Prominent Entities for Graph Augmentation identifies relevant text chunks from the QA pair and augments the WG with corresponding latent representations from the LM, and (ii) Context-Aware Node Pruning removes nodes that are less relevant to the QA pair. We evaluate our results on OpenBookQA, CommonsenseQA and MedQA-USMLE and see that GrapeQA shows consistent improvements over its LM + KG predecessor (QA-GNN in particular) and large improvements on OpenBookQA.
翻訳日:2023-04-19 17:28:14 公開日:2023-04-18
# XWikiGen:低リソース言語における百科事典テキスト生成のための言語間要約

XWikiGen: Cross-lingual Summarization for Encyclopedic Text Generation in Low Resource Languages ( http://arxiv.org/abs/2303.12308v2 )

ライセンス: Link先を確認
Dhaval Taunk, Shivprasad Sagare, Anupam Patil, Shivansh Subramanian, Manish Gupta and Vasudeva Varma(参考訳) 百科事典のテキストコントリビュータの不足、特にウィキペディアでは、低リソース(LR)言語の自動テキスト生成が重要な問題となっている。 ウィキペディアのテキスト生成に関する既存の研究は、英語の参照記事が要約されて英語のウィキペディアページを生成する場合にのみ、英語に焦点を当てている。 しかし、低リソース言語の場合、参照記事の不足は、この問題を解決する上でモノリンガル要約を効果的にしない。 そこで本研究では,ウィキペディア形式のテキストを生成するために,さまざまな言語で書かれた複数の参照記事からテキストを多言語で複数文書で要約するタスクであるXWikiGenを提案する。 そこで我々は,5つのドメインと8つの言語をカバーする約69万のWikipedia記事を対象としたベンチマークデータセットXWikiRefをコントリビュートした。 このデータセットを用いて、入力が引用とセクションタイトルのセットであり、出力がセクション固有のLR要約である2段階システムのトレーニングを行う。 提案手法は,ニューラルネットワークによる非教師付き抽出要約という新たなアイデアに基づいて,有能な情報を粗く同定し,その後に神経抽象モデルを用いてセクション固有テキストを生成する。 大規模な実験により、マルチドメイントレーニングは、平均的なマルチ言語設定よりも優れていることが示された。

Lack of encyclopedic text contributors, especially on Wikipedia, makes automated text generation for low resource (LR) languages a critical problem. Existing work on Wikipedia text generation has focused on English only where English reference articles are summarized to generate English Wikipedia pages. But, for low-resource languages, the scarcity of reference articles makes monolingual summarization ineffective in solving this problem. Hence, in this work, we propose XWikiGen, which is the task of cross-lingual multi-document summarization of text from multiple reference articles, written in various languages, to generate Wikipedia-style text. Accordingly, we contribute a benchmark dataset, XWikiRef, spanning ~69K Wikipedia articles covering five domains and eight languages. We harness this dataset to train a two-stage system where the input is a set of citations and a section title and the output is a section-specific LR summary. The proposed system is based on a novel idea of neural unsupervised extractive summarization to coarsely identify salient information followed by a neural abstractive model to generate the section-specific text. Extensive experiments show that multi-domain training is better than the multi-lingual setup on average.
翻訳日:2023-04-19 17:27:56 公開日:2023-04-18
# 動的グローバルフィルタを用いた話者照合用デュアルストリーム時間遅延ニューラルネットワーク

Dual-stream Time-Delay Neural Network with Dynamic Global Filter for Speaker Verification ( http://arxiv.org/abs/2303.11020v2 )

ライセンス: Link先を確認
Yangfu Li, Xiaodan Lin(参考訳) 時間遅延ニューラルネットワーク(TDNN)は、テキスト非依存話者検証のための最先端モデルの1つである。 しかし, 従来のTDNNでは, 頑健な話者表現や長期話者検証に欠かせないグローバルな文脈を捉えることは困難である。 さらに、例えば自己注意(self-attention)のような共通解は入力トークンに対して二次的な複雑さを持ち、TDNNで大きなサイズの特徴写像に適用すると計算不能になる。 これらの問題に対処するため,TDNNのGlobal Filterを提案し,音声の長期依存性を効率的にモデル化するために,対数線形複雑性FFT/IFFTと周波数領域フィルタのセットを適用した。 さらに,グローバルフィルタの性能を高め,過度な適合を防止するために,動的フィルタリング戦略とスパース正規化手法を特別に設計する。 さらに,複雑性低減のための基本チャネルを分割し,グローバルフィルタを用いて認識性能を向上させる二重ストリームTDNN(DS-TDNN)を構築する。 Voxceleb と SITW データベースの実験では,DS-TDNN は ECAPA-TDNN と比較して28% 以上,15% 以上の複雑性とパラメータでほぼ10% の改善を実現している。 さらに、他の一般的なベースラインシステムと比較した場合、効率性と有効性のトレードオフが最良である。 最後に,ds-tdnnの利点を可視化し,詳細なアブレーション研究を行った。

The time-delay neural network (TDNN) is one of the state-of-the-art models for text-independent speaker verification. However, it is difficult for conventional TDNN to capture global context that has been proven critical for robust speaker representations and long-duration speaker verification in many recent works. Besides, the common solutions, e.g., self-attention, have quadratic complexity for input tokens, which makes them computationally unaffordable when applied to the feature maps with large sizes in TDNN. To address these issues, we propose the Global Filter for TDNN, which applies log-linear complexity FFT/IFFT and a set of differentiable frequency-domain filters to efficiently model the long-term dependencies in speech. Besides, a dynamic filtering strategy, and a sparse regularization method are specially designed to enhance the performance of the global filter and prevent it from overfitting. Furthermore, we construct a dual-stream TDNN (DS-TDNN), which splits the basic channels for complexity reduction and employs the global filter to increase recognition performance. Experiments on Voxceleb and SITW databases show that the DS-TDNN achieves approximate 10% improvement with a decline over 28% and 15% in complexity and parameters compared with the ECAPA-TDNN. Besides, it has the best trade-off between efficiency and effectiveness compared with other popular baseline systems when facing long-duration speech. Finally, visualizations and a detailed ablation study further reveal the advantages of the DS-TDNN.
翻訳日:2023-04-19 17:27:35 公開日:2023-04-18
# インテリジェントアシスタントとのユーザインタラクションにおけるフィードバック効果:遅延エンゲージメント、適応、ドロップアウト

Feedback Effect in User Interaction with Intelligent Assistants: Delayed Engagement, Adaption and Drop-out ( http://arxiv.org/abs/2303.10255v2 )

ライセンス: Link先を確認
Zidi Xiu, Kai-Chen Cheng, David Q. Sun, Jiannan Lu, Hadas Kotek, Yuhan Zhang, Paul McCarthy, Christopher Klein, Stephen Pulman, Jason D. Williams(参考訳) インテリジェントアシスタント(IA)の人気が高まり、IA品質の評価が研究の活発な分野となっている。 本稿では,IA-ユーザインタラクションにおける新たなコンポーネントであるフィードバック効果の同定と定量化を行う。 第一に,iaからの無力な応答が,短期的にユーザのインタラクションの遅延や減少を引き起こすことを観察的研究によって実証する。 次に、行動変化を調べるための時間的地平線を拡張し、IAの理解と機能的能力の限界を発見すると、IAから有用な応答を受ける可能性を高めるために、要求のスコープと語調を調整することを学ぶ。 その結果,マイクロおよびメソレベルのフィードバック効果の影響が明らかになった。 満足できないインタラクションは、フィードバックループにおける将来のユーザエンゲージメントの可能性と多様性を継続的に減少させます。

With the growing popularity of intelligent assistants (IAs), evaluating IA quality becomes an increasingly active field of research. This paper identifies and quantifies the feedback effect, a novel component in IA-user interactions: how the capabilities and limitations of the IA influence user behavior over time. First, we demonstrate that unhelpful responses from the IA cause users to delay or reduce subsequent interactions in the short term via an observational study. Next, we expand the time horizon to examine behavior changes and show that as users discover the limitations of the IA's understanding and functional capabilities, they learn to adjust the scope and wording of their requests to increase the likelihood of receiving a helpful response from the IA. Our findings highlight the impact of the feedback effect at both the micro and meso levels. We further discuss its macro-level consequences: unsatisfactory interactions continuously reduce the likelihood and diversity of future user engagements in a feedback loop.
翻訳日:2023-04-19 17:26:57 公開日:2023-04-18
# BotShape:行動パターンを利用した新しいソーシャルボット検出手法

BotShape: A Novel Social Bots Detection Approach via Behavioral Patterns ( http://arxiv.org/abs/2303.10214v2 )

ライセンス: Link先を確認
Jun Wu, Xuesong Ye and Chengjie Mou(参考訳) オンラインソーシャルネットワークのセキュリティにおいて重要なトピックは、ボットアカウントを正確に検知し、有害な影響(誤報、噂、スパムなど)を本物のユーザーに与える方法である。 実世界のデータセットに基づいて、生のイベントログから行動シーケンスを構築する。 行動時系列から重要な特徴を抽出した後、ボットと真のユーザ間の差異とボットアカウント間の類似パターンを観察する。 ボット検出のための分類器の特徴として,行動シーケンスや特徴を自動的に検出する新しいソーシャルボット検出システムbotshapeを提案する。 その結果, 各種分類器において, 検出精度は98.52%, f1-scoreは96.65%であった。 他の研究と比較すると、BotShapeはアカウントをプロファイリングするための新しいアプローチであり、多くのメソッドのパフォーマンス向上に役立つと結論付けている。

An essential topic in online social network security is how to accurately detect bot accounts and relieve their harmful impacts (e.g., misinformation, rumor, and spam) on genuine users. Based on a real-world data set, we construct behavioral sequences from raw event logs. After extracting critical characteristics from behavioral time series, we observe differences between bots and genuine users and similar patterns among bot accounts. We present a novel social bot detection system BotShape, to automatically catch behavioral sequences and characteristics as features for classifiers to detect bots. We evaluate the detection performance of our system in ground-truth instances, showing an average accuracy of 98.52% and an average f1-score of 96.65% on various types of classifiers. After comparing it with other research, we conclude that BotShape is a novel approach to profiling an account, which could improve performance for most methods by providing significant behavioral features.
翻訳日:2023-04-19 17:26:40 公開日:2023-04-18
# 計算病理学における再現性研究のためのプラットフォームとしてのNCI Imaging Data Commons

The NCI Imaging Data Commons as a platform for reproducible research in computational pathology ( http://arxiv.org/abs/2303.09354v2 )

ライセンス: Link先を確認
Daniela P. Schacherer, Markus D. Herrmann, David A. Clunie, Henning H\"ofener, William Clifford, William J.R. Longabaugh, Steve Pieper, Ron Kikinis, Andrey Fedorov, Andr\'e Homeyer(参考訳) 背景と目的: 再現性は、計算病理学(CompPath)における機械学習(ML)ベースのソリューションを開発する上で大きな課題である。 NCI Imaging Data Commons (IDC)は、FAIR原則に従って120以上のがんイメージコレクションを提供し、クラウドMLサービスで使用するように設計されている。 ここでは,CompPath研究における再現性向上の可能性を探る。 方法: IDCを用いて, 肺腫瘍組織を分類する代表的ML法を訓練し, 異なるデータセットで評価する2つの実験を行った。 再現性を評価するために、実験は、同じ構成の共通mlサービスのインスタンスで複数回実行された。 結果: 同じ実験の異なる実行のAUC値は概ね一致していた。 しかし,AUC値の0.045までの変動は小さく,再現性に限界があることが示唆された。 結論:IDCはCompPath研究の再現性限界に近づきやすいと結論づける。 (i)研究者が全く同じデータセットを再利用できるようにすること (ii) クラウドMLサービスとの統合により、同じ構成のコンピューティング環境で実験を実行できる。

Background and Objectives: Reproducibility is a major challenge in developing machine learning (ML)-based solutions in computational pathology (CompPath). The NCI Imaging Data Commons (IDC) provides >120 cancer image collections according to the FAIR principles and is designed to be used with cloud ML services. Here, we explore its potential to facilitate reproducibility in CompPath research. Methods: Using the IDC, we implemented two experiments in which a representative ML-based method for classifying lung tumor tissue was trained and/or evaluated on different datasets. To assess reproducibility, the experiments were run multiple times with separate but identically configured instances of common ML services. Results: The AUC values of different runs of the same experiment were generally consistent. However, we observed small variations in AUC values of up to 0.045, indicating a practical limit to reproducibility. Conclusions: We conclude that the IDC facilitates approaching the reproducibility limit of CompPath research (i) by enabling researchers to reuse exactly the same datasets and (ii) by integrating with cloud ML services so that experiments can be run in identically configured computing environments.
翻訳日:2023-04-19 17:26:24 公開日:2023-04-18
# 条件付きカテゴリー拡散モデルによる確率的セグメンテーション

Stochastic Segmentation with Conditional Categorical Diffusion Models ( http://arxiv.org/abs/2303.08888v3 )

ライセンス: Link先を確認
Lukas Zbinden, Lars Doorenbos, Theodoros Pissas, Adrian Thomas Huber, Raphael Sznitman, Pablo M\'arquez-Neila(参考訳) 深層ニューラルネットワークのおかげで、セマンティックセグメンテーションは近年大きく進歩しているが、画像の内容と正確に一致する単一のセグメンテーション出力を生成するという共通の目的は、医療診断や自律運転のような安全クリティカルな領域には適さないかもしれない。 代わりに、アノテーションマップの真の分布を反映するために、複数の可能な正しいセグメンテーション写像が必要である。 この文脈では、確率的セマンティックセグメンテーション法は、画像が与えられたラベルの条件分布を予測することを学ばなければならないが、これは典型的なマルチモーダル分布、高次元出力空間、限られたアノテーションデータのために難しい。 これらの課題に対処するため,Denoising Diffusion Probabilistic Models に基づくセグメンテーションのための条件カテゴリー拡散モデル (CCDM) を提案する。 本モデルは入力画像に対して条件付けされ,異なる基底的真理のアノテーションから生じるアレエータ的不確実性を考慮した複数のセグメンテーションラベルマップを生成することができる。 実験の結果,ccdmは統計的意味セグメンテーションデータセットであるlidcで最先端のパフォーマンスを達成し,従来のセグメンテーションデータセットでは確立されたベースラインを上回った。

Semantic segmentation has made significant progress in recent years thanks to deep neural networks, but the common objective of generating a single segmentation output that accurately matches the image's content may not be suitable for safety-critical domains such as medical diagnostics and autonomous driving. Instead, multiple possible correct segmentation maps may be required to reflect the true distribution of annotation maps. In this context, stochastic semantic segmentation methods must learn to predict conditional distributions of labels given the image, but this is challenging due to the typically multimodal distributions, high-dimensional output spaces, and limited annotation data. To address these challenges, we propose a conditional categorical diffusion model (CCDM) for semantic segmentation based on Denoising Diffusion Probabilistic Models. Our model is conditioned to the input image, enabling it to generate multiple segmentation label maps that account for the aleatoric uncertainty arising from divergent ground truth annotations. Our experimental results show that CCDM achieves state-of-the-art performance on LIDC, a stochastic semantic segmentation dataset, and outperforms established baselines on the classical segmentation dataset Cityscapes.
翻訳日:2023-04-19 17:26:06 公開日:2023-04-18
# グラフバックドア攻撃におけるトリガー噴射位置の再考

Rethinking the Trigger-injecting Position in Graph Backdoor Attack ( http://arxiv.org/abs/2304.02277v2 )

ライセンス: Link先を確認
Jing Xu, Gorka Abad, Stjepan Picek(参考訳) バックドア攻撃は、機械学習モデルのセキュリティ脅威として実証されている。 従来のバックドア攻撃は、バックドアモデルが事前定義されたバックドアトリガーで異常に動作し、クリーンな入力で最先端のパフォーマンスを維持するように、バックドア機能をモデルに注入することを目的としている。 グラフニューラルネットワーク(gnns)のバックドア攻撃には、すでにいくつかの取り組みがあるが、グラフドメインのバックドアトリガーは、主にサンプルのランダムな位置に注入される。 試料中の最も重要な領域や最も重要でない領域にトリガーを注入する際のバックドア攻撃性能を解析・説明する作業はなく、それぞれMIASとLIASをトリガー注入戦略と呼ぶ。 その結果, LIASの性能は向上し, LIASとMIASの差は大きいことがわかった。 さらに、これらの2つの戦略の類似(ベター)攻撃性能を説明手法により説明し、GNNにおけるバックドア攻撃のさらなる理解をもたらす。

Backdoor attacks have been demonstrated as a security threat for machine learning models. Traditional backdoor attacks intend to inject backdoor functionality into the model such that the backdoored model will perform abnormally on inputs with predefined backdoor triggers and still retain state-of-the-art performance on the clean inputs. While there are already some works on backdoor attacks on Graph Neural Networks (GNNs), the backdoor trigger in the graph domain is mostly injected into random positions of the sample. There is no work analyzing and explaining the backdoor attack performance when injecting triggers into the most important or least important area in the sample, which we refer to as trigger-injecting strategies MIAS and LIAS, respectively. Our results show that, generally, LIAS performs better, and the differences between the LIAS and MIAS performance can be significant. Furthermore, we explain these two strategies' similar (better) attack performance through explanation techniques, which results in a further understanding of backdoor attacks in GNNs.
翻訳日:2023-04-19 17:20:22 公開日:2023-04-18
# 地域風がCNNに基づく風速予測に与える影響:時空間相関解析からの考察

How Regional Wind Characteristics Affect CNN-based wind predictions: Insights from Spatiotemporal Correlation Analysis ( http://arxiv.org/abs/2304.01545v2 )

ライセンス: Link先を確認
Heesoo Shin, Mario R\"uttgers, Sangseung Lee(参考訳) 本稿では,時空間データ次元を組み込むことで,ニューラルネットワークを用いた風況予測モデルの精度を向上させる方法について検討する。 これまでの研究では、空間データを含めれば、これらのモデルの精度を向上させることができるが、異なる空間スケールと入力データの最適時間長が予測性能に与える影響についてはほとんど研究されていない。 このギャップに対処するために,3D-畳み込みニューラルネットワーク(3D-CNN)を用いた風速予測において,様々な時空間次元のデータを入力として使用し,その予測性能を評価する。 本研究では,3d-cnnトレーニング中の周辺地域の空間データと過去の風速情報のマルチタイムデータを用いて,モデル予測性能に好影響を与えることを実証する。 さらに,3D-CNNモデルの予測性能に及ぼす時空間風現象の影響を明らかにするために,自動・ピアソン相関解析を含む相関解析を提案する。 局所的な幾何風と季節風の条件が,自動相関解析とピアソン相関解析によって予測モデルの予測能力に大きく影響を与えることを示す。 本研究は, 風速予測モデルにおける入力データの最適時空間次元について考察し, 予測性能の向上に有効であり, 風力発電地の選択にも有効であることを示す。

This paper investigates how incorporating spatio-temporal data dimensions can improve the precision of a wind forecasting model developed using a neural network. While previous studies have shown that including spatial data can enhance the accuracy of such models, little research has explored the impact of different spatial scales and optimal temporal lengths of input data on their predictive performance. To address this gap, we employ data with various spatio-temporal dimensions as inputs when forecasting wind using 3D-Convolutional Neural Networks (3D-CNN) and assess their predictive performance. We demonstrate that using spatial data of the surrounding area and multi-time data of past wind information during 3D-CNN training favorably affects the predictive performance of the model. Moreover, we propose correlation analyses, including auto- and Pearson correlation analyses, to reveal the influence of spatio-temporal wind phenomena on the prediction performance of the 3D-CNN model. We show that local geometric and seasonal wind conditions can significantly influence the forecast capability of the predictive model through the auto- and Pearson correlation analyses. This study provides insights into the optimal spatio-temporal dimensions of input data for wind forecasting models, which can be useful for improving their predictive performance and can be applied for selecting wind farm sites.
翻訳日:2023-04-19 17:20:03 公開日:2023-04-18
# 熱的騒音によるニューラルネットワーク景観の地形図の作成

Charting the Topography of the Neural Network Landscape with Thermal-Like Noise ( http://arxiv.org/abs/2304.01335v2 )

ライセンス: Link先を確認
Theo Jules, Gal Brener, Tal Kachman, Noam Levi, Yohai Bar-Sinai(参考訳) ニューラルネットワークのトレーニングは複雑で高次元で非凸でノイズの多い最適化問題であり、理論的理解は応用的視点と基本的な理由の両方から興味深い。 主な課題は、最適化を導く景観の幾何学と地形を理解することである。 本研究では,Langevin dynamics を用いた位相空間探索という標準的な統計力学手法を用いて,ランダムデータに基づく分類タスクを実行する過度パラメータ付き完全連結ネットワークについて,この景観を考察する。 一定温度における熱力学に類似したゆらぎの統計を解析し、低損失領域の明確な幾何学的記述を推定する。 揺らぎから容易に次元が得られるような低次元多様体であることが分かる。 さらに、この次元は、分類決定境界付近に存在するデータポイントの数によって制御される。 重要なことは、決定境界の指数的性質と低損失領域の平坦性により、最小付近での損失の2次近似が根本的に不適切であることである。 これにより、より高温で曲率の高い領域にダイナミクスを生じさせ、任意の温度で二次的な統計を発生させる。 解析的に解析可能で観測されたゆらぎ統計を再現した簡易損失モデルを用いて,この挙動を説明する。

The training of neural networks is a complex, high-dimensional, non-convex and noisy optimization problem whose theoretical understanding is interesting both from an applicative perspective and for fundamental reasons. A core challenge is to understand the geometry and topography of the landscape that guides the optimization. In this work, we employ standard Statistical Mechanics methods, namely, phase-space exploration using Langevin dynamics, to study this landscape for an over-parameterized fully connected network performing a classification task on random data. Analyzing the fluctuation statistics, in analogy to thermal dynamics at a constant temperature, we infer a clear geometric description of the low-loss region. We find that it is a low-dimensional manifold whose dimension can be readily obtained from the fluctuations. Furthermore, this dimension is controlled by the number of data points that reside near the classification decision boundary. Importantly, we find that a quadratic approximation of the loss near the minimum is fundamentally inadequate due to the exponential nature of the decision boundary and the flatness of the low-loss region. This causes the dynamics to sample regions with higher curvature at higher temperatures, while producing quadratic-like statistics at any given temperature. We explain this behavior by a simplified loss model which is analytically tractable and reproduces the observed fluctuation statistics.
翻訳日:2023-04-19 17:19:43 公開日:2023-04-18
# OTS: 歴史的文書におけるテキストスポッティングのワンショット学習手法

OTS: A One-shot Learning Approach for Text Spotting in Historical Manuscripts ( http://arxiv.org/abs/2304.00746v2 )

ライセンス: Link先を確認
Wenbo Hu, Hongjian Zhan, Cong Liu, Bing Yin, Yue Lu(参考訳) 歴史文書処理は、限定的な注釈付きトレーニングデータや新しいクラスの出現といった課題を提起する。 そこで本研究では,新しい文字を1つの注釈付きサポートサンプルで正確にかつ確実に検出する,ワンショット学習ベースのテキストスポッティング(OTS)手法を提案する。 認知研究からインスピレーションを得た空間アライメントモジュールを導入し、一つの支援画像に基づいてクエリ画像の最も識別性の高い空間領域を探索し、注目し、学習する。 特に,低リソーススポッティングタスクは,例えば不均衡の問題に直面することが多いため,距離計量の埋め込み空間をより識別可能な,トーラス損失と呼ばれる新しい損失関数を提案する。 我々のアプローチは非常に効率的で、わずかなトレーニングサンプルしか必要とせず、新しい文字やシンボルを扱う素晴らしい能力を示しています。 データセットの多様性を高めるために、古代ドンバヒエログリフィクス(dbh)を含む新しい写本データセットを作成する。 我々は、利用可能なVML-HD、TKH、NCデータセット、新しいDBHデータセットについて実験を行う。 実験の結果,OTSは1ショットテキストスポッティングにおいて最先端の手法よりも優れていた。 提案手法は,歴史写本のテキストスポッティング分野における有望な応用を提供する。

Historical manuscript processing poses challenges like limited annotated training data and novel class emergence. To address this, we propose a novel One-shot learning-based Text Spotting (OTS) approach that accurately and reliably spots novel characters with just one annotated support sample. Drawing inspiration from cognitive research, we introduce a spatial alignment module that finds, focuses on, and learns the most discriminative spatial regions in the query image based on one support image. Especially, since the low-resource spotting task often faces the problem of example imbalance, we propose a novel loss function called torus loss which can make the embedding space of distance metric more discriminative. Our approach is highly efficient and requires only a few training samples while exhibiting the remarkable ability to handle novel characters, and symbols. To enhance dataset diversity, a new manuscript dataset that contains the ancient Dongba hieroglyphics (DBH) is created. We conduct experiments on publicly available VML-HD, TKH, NC datasets, and the new proposed DBH dataset. The experimental results demonstrate that OTS outperforms the state-of-the-art methods in one-shot text spotting. Overall, our proposed method offers promising applications in the field of text spotting in historical manuscripts.
翻訳日:2023-04-19 17:19:01 公開日:2023-04-18
# 多変量ガウシアンによる単一画像深度予測の精度向上

Single Image Depth Prediction Made Better: A Multivariate Gaussian Take ( http://arxiv.org/abs/2303.18164v2 )

ライセンス: Link先を確認
Ce Liu, Suryansh Kumar, Shuhang Gu, Radu Timofte, Luc Van Gool(参考訳) ニューラルネットワークベースの単一画像深度予測(SIDP)は、テスト時にシーン毎の深度を予測することが目的の課題である。 問題は、定義上不適切であるため、基本的な目標は、一連のトレーニング例からシーンの深さを確実にモデル化できるアプローチを考案することだ。 完全深度推定の追求において、既存の最先端学習技術は1ピクセルあたりのスカラー深度値を予測している。 しかし、訓練されたモデルは精度の限界があり、不正確な深さを予測できることはよく知られている。 したがって、SIDPアプローチは、テスト時間におけるモデルの予測における予測深度の変化に注意する必要がある。 そこで我々は,画素ごとの深度と分布の予測と推論が可能な,画素ごとの深度を連続的にモデル化する手法を提案する。 この目的のために,多変量ガウス分布を用いた画素ごとのシーン深度をモデル化する。 さらに,既存の不確実性モデリング手法とは対照的に,ピクセル単位の深さが独立と仮定される同じ精神において,その深さ依存性を符号化する画素単位の共分散モデリングを導入する。 残念なことに、画素ごとの深度共分散モデリングは計算コストのかかる連続損失関数を導いており、これは学習した全共分散行列の低ランク近似を用いて効率よく解決する。 特に、KITTI、NYU、SUN-RGB-Dなどのベンチマークデータセットでテストすると、損失関数を最適化したSIDPモデルは最先端の結果を示す。 提案手法の精度(MG)は,KITTI深度予測ベンチマークリーダーボードの上位に位置する。

Neural-network-based single image depth prediction (SIDP) is a challenging task where the goal is to predict the scene's per-pixel depth at test time. Since the problem, by definition, is ill-posed, the fundamental goal is to come up with an approach that can reliably model the scene depth from a set of training examples. In the pursuit of perfect depth estimation, most existing state-of-the-art learning techniques predict a single scalar depth value per-pixel. Yet, it is well-known that the trained model has accuracy limits and can predict imprecise depth. Therefore, an SIDP approach must be mindful of the expected depth variations in the model's prediction at test time. Accordingly, we introduce an approach that performs continuous modeling of per-pixel depth, where we can predict and reason about the per-pixel depth and its distribution. To this end, we model per-pixel scene depth using a multivariate Gaussian distribution. Moreover, contrary to the existing uncertainty modeling methods -- in the same spirit, where per-pixel depth is assumed to be independent, we introduce per-pixel covariance modeling that encodes its depth dependency w.r.t all the scene points. Unfortunately, per-pixel depth covariance modeling leads to a computationally expensive continuous loss function, which we solve efficiently using the learned low-rank approximation of the overall covariance matrix. Notably, when tested on benchmark datasets such as KITTI, NYU, and SUN-RGB-D, the SIDP model obtained by optimizing our loss function shows state-of-the-art results. Our method's accuracy (named MG) is among the top on the KITTI depth-prediction benchmark leaderboard.
翻訳日:2023-04-19 17:18:41 公開日:2023-04-18
# EA-BEV:3Dオブジェクト検出のためのエッジ認識型鳥のs-Eye-Viewプロジェクタ

EA-BEV: Edge-aware Bird' s-Eye-View Projector for 3D Object Detection ( http://arxiv.org/abs/2303.17895v2 )

ライセンス: Link先を確認
Haotian Hu, Fanyi Wang, Jingwen Su, Laifeng Hu, Tianpeng Feng, Zhaokai Zhang, Wangzhi Zhang(参考訳) 近年,2Dカメラビューと3Dライダービューの特徴を,機能融合のためのBird's-Eye-View(BEV)に変換する,Lft-Splat-Shot-based (LSS-based) 3Dオブジェクト検出法が大幅に進歩している。 しかし、不正確な深さ推定(例えば「深さジャンプ」問題)はLSSベースの手法を開発するのに障害となる。 ディフ・ジャンプ」問題を緩和するため,我々はエッジアウェア・バードズ・ズ・アイ・ビュー(ea-bev)プロジェクタを提案した。 提案したエッジ対応深度融合モジュールと深度推定モジュールを結合することにより、EA-BEVプロジェクタがこの問題を解決し、深度管理を洗練させる。 さらに,大域深度情報と局所限界深度情報の学習を制限するため,疎度深度監視と勾配深度監視を提案する。 我々のEA-BEVプロジェクターは、LSSベースのオブジェクト検出モデルのためのプラグアンドプレイモジュールであり、ベースライン性能を効果的に改善する。 nuScenesベンチマークの有効性を示す。 提案したEA-BEVプロジェクタは、nuScenes 3Dオブジェクト検出ベンチマークとnuScenes BEVマップセグメンテーションベンチマークに基づいて、予測時間の無視可能な、最先端のLSSベースのベースラインを強化することができる。

In recent years, great progress has been made in the Lift-Splat-Shot-based (LSS-based) 3D object detection method, which converts features of 2D camera view and 3D lidar view to Bird's-Eye-View (BEV) for feature fusion. However, inaccurate depth estimation (e.g. the 'depth jump' problem) is an obstacle to develop LSS-based methods. To alleviate the 'depth jump' problem, we proposed Edge-Aware Bird's-Eye-View (EA-BEV) projector. By coupling proposed edge-aware depth fusion module and depth estimate module, the proposed EA-BEV projector solves the problem and enforces refined supervision on depth. Besides, we propose sparse depth supervision and gradient edge depth supervision, for constraining learning on global depth and local marginal depth information. Our EA-BEV projector is a plug-and-play module for any LSS-based 3D object detection models, and effectively improves the baseline performance. We demonstrate the effectiveness on the nuScenes benchmark. On the nuScenes 3D object detection validation dataset, our proposed EA-BEV projector can boost several state-of-the-art LLS-based baselines on nuScenes 3D object detection benchmark and nuScenes BEV map segmentation benchmark with negligible increment of inference time.
翻訳日:2023-04-19 17:18:13 公開日:2023-04-18
# VideoMAE V2:Dual Maskingで自動エンコーダをスケール

VideoMAE V2: Scaling Video Masked Autoencoders with Dual Masking ( http://arxiv.org/abs/2303.16727v2 )

ライセンス: Link先を確認
Limin Wang, Bingkun Huang, Zhiyu Zhao, Zhan Tong, Yinan He, Yi Wang, Yali Wang, Yu Qiao(参考訳) スケールは、様々な下流タスクをうまく一般化できる強力な基盤モデルを構築するための主要な要因です。 しかし、数十億のパラメータを持つビデオ基礎モデルのトレーニングは依然として困難である。 本稿では,ビデオマスク付きオートエンコーダ(VideoMAE)が,ビデオファウンデーションモデル構築のための,スケーラブルで汎用的な自己指導型プレトレーニングであることを示す。 ビデオメイをモデルとデータの両方でコアデザインでスケールします。 具体的には,ビデオトークンのサブセットで動作するエンコーダと,ビデオトークンのサブセットを処理するデコーダを備えた,効果的な事前学習のための二重マスキング戦略を提案する。 エンコーダのマスキング比が高いため、ビデオMAEは非常に効率的であるが、マスキングデコーダは計算コストをさらに削減することができる。 これにより、ビデオ中の10億レベルのモデルの効率的な事前トレーニングが可能になる。 また、さまざまなマルチソースのラベル付きデータセットの初期トレーニングと、混合ラベル付きデータセットの事前トレーニングを含む、プログレッシブトレーニングパラダイムも使用しています。 最後に10億のパラメータを持つビデオvitモデルのトレーニングに成功し,k400では90.0%,k600では89.9%,v1では68.7%,v2では77.0%という,新たな最先端性能を実現しました。 さらに,様々な下流タスクで事前学習されたビデオvitモデルの検証を行い,一般的な映像表現学習者としての有効性を実証した。 コードとモデルは \url{https://github.com/OpenGVLab/VideoMAEv2} で公開されている。

Scale is the primary factor for building a powerful foundation model that could well generalize to a variety of downstream tasks. However, it is still challenging to train video foundation models with billions of parameters. This paper shows that video masked autoencoder (VideoMAE) is a scalable and general self-supervised pre-trainer for building video foundation models. We scale the VideoMAE in both model and data with a core design. Specifically, we present a dual masking strategy for efficient pre-training, with an encoder operating on a subset of video tokens and a decoder processing another subset of video tokens. Although VideoMAE is very efficient due to high masking ratio in encoder, masking decoder can still further reduce the overall computational cost. This enables the efficient pre-training of billion-level models in video. We also use a progressive training paradigm that involves an initial pre-training on a diverse multi-sourced unlabeled dataset, followed by a post-pre-training on a mixed labeled dataset. Finally, we successfully train a video ViT model with a billion parameters, which achieves a new state-of-the-art performance on the datasets of Kinetics (90.0% on K400 and 89.9% on K600) and Something-Something (68.7% on V1 and 77.0% on V2). In addition, we extensively verify the pre-trained video ViT models on a variety of downstream tasks, demonstrating its effectiveness as a general video representation learner. The code and model is available at \url{https://github.com/OpenGVLab/VideoMAEv2}.
翻訳日:2023-04-19 17:17:25 公開日:2023-04-18
# 金融データサイエンスコンペティションのための多変量時系列データの特徴工学手法

Feature Engineering Methods on Multivariate Time-Series Data for Financial Data Science Competitions ( http://arxiv.org/abs/2303.16117v2 )

ライセンス: Link先を確認
Thomas Wong, Mauricio Barahona(参考訳) この論文は進行中の作業です。 Equity/Futuresマーケットで、より多くのベンチマーキング研究を行うための財務データセットを提供する協力者を探している。 著者らは、Numeraiデータセットに適用される類似の手法を用いた論文を公開している。 時系列の異なる特徴工学手法を米国市場価格データに適用する。 モデルの予測能力は、ヌメライ信号ターゲットに対してテストされる。

This paper is a work in progress. We are looking for collaborators to provide us financial datasets in Equity/Futures market to conduct more bench-marking studies. The authors have papers employing similar methods applied on the Numerai dataset, which is freely available but obfuscated. We apply different feature engineering methods for time-series to US market price data. The predictive power of models are tested against Numerai-Signals targets.
翻訳日:2023-04-19 17:16:56 公開日:2023-04-18
# 地域主権認識における大規模言語モデルの役割--正当性構築の分析

The Role of Large Language Models in the Recognition of Territorial Sovereignty: An Analysis of the Construction of Legitimacy ( http://arxiv.org/abs/2304.06030v2 )

ライセンス: Link先を確認
Francisco Castillo-Eslava, Carlos Mougan, Alejandro Romero-Reche, Steffen Staab(参考訳) 大規模言語モデル(LLM)が領土主権の認識とその正当性に与える影響について検討する。 google mapsやopenaiのchatgptのような大規模言語モデル(llm)のような技術ツールは、しばしば公平で客観的であると見なされるが、aiアルゴリズムが設計者や彼らが構築したデータのバイアスを反映しているため、この認識には欠陥がある。 我々はまた、それらを提供するAIおよび多国籍企業の行動と決定を評価することの重要性を強調し、集団的想像力におけるアイデアの正当性や確立といった側面において重要な役割を果たす。 本稿は、クリミア、ウェストバンク、トランスニトリアの3つの論争領域について、ウィキペディアの情報と国連の決議に対するChatGPTの反応を比較した。 LLMのようなAIベースのツールの出現は、新興技術が力を強化し、現実の理解に影響を与える新たなシナリオにつながっている、と私たちは主張する。 したがって、正当性の構築と領土主権の認識におけるaiの役割を監視・分析することが重要である。

We examine the potential impact of Large Language Models (LLM) on the recognition of territorial sovereignty and its legitimization. We argue that while technology tools, such as Google Maps and Large Language Models (LLM) like OpenAI's ChatGPT, are often perceived as impartial and objective, this perception is flawed, as AI algorithms reflect the biases of their designers or the data they are built on. We also stress the importance of evaluating the actions and decisions of AI and multinational companies that offer them, which play a crucial role in aspects such as legitimizing and establishing ideas in the collective imagination. Our paper highlights the case of three controversial territories: Crimea, West Bank and Transnitria, by comparing the responses of ChatGPT against Wikipedia information and United Nations resolutions. We contend that the emergence of AI-based tools like LLMs is leading to a new scenario in which emerging technology consolidates power and influences our understanding of reality. Therefore, it is crucial to monitor and analyze the role of AI in the construction of legitimacy and the recognition of territorial sovereignty.
翻訳日:2023-04-19 17:10:59 公開日:2023-04-18
# CMOS + 確率ナノマグネット:確率的推論と学習のための異種コンピュータ

CMOS + stochastic nanomagnets: heterogeneous computers for probabilistic inference and learning ( http://arxiv.org/abs/2304.05949v2 )

ライセンス: Link先を確認
Keito Kobayashi, Nihal Singh, Qixuan Cao, Kemal Selcuk, Tianrui Hu, Shaila Niazi, Navid Anjum Aadit, Shun Kanai, Hideo Ohno, Shunsuke Fukami, and Kerem Y. Camsari(参考訳) 相補的金属酸化物半導体(CMOS)トランジスタを新規ナノ技術(X)で拡張することでムーアの法則を拡張することがますます重要になっている。 このようなCMOS+X技術でランダムサンプリングに依存するモンテカルロアルゴリズムの高速化は、確率的機械学習、最適化、量子シミュレーションなど、多くの分野に多大な影響を与える可能性がある。 本稿では,確率的磁気トンネル接合 (sMTJ) に基づく確率的ビット (p-bits) と多目的フィールドプログラマブルゲートアレイ (FPGA) を組み合わせて,CMOS + X (X = sMTJ) のプロトタイプを設計する。 本手法はモンテカルロに基づく確率的サンプリングと学習に不可欠な高品質な真のランダム性を実現する。 この異種計算機は,smtjsのデバイス間変動にもかかわらず,確率的推論と非同期ボルツマン学習を成功させた。 CMOS予測プロセス設計キット(PDK)を用いた包括的比較では、小型のsMTJベースのpビットは1万個のトランジスタに置き換わり、デジタルCMOSのpビットと比較して2桁以下のエネルギー(ランダムビットあたり2fJ)を放出する。 CMOS + 確率的ナノマグネットアプローチのスケールおよび統合バージョンは、非常に高いスループットとエネルギー効率で非常に並列かつ真にランダムな数を提供することで、様々な領域における確率的計算とその応用を著しく向上させることができる。

Extending Moore's law by augmenting complementary-metal-oxide semiconductor (CMOS) transistors with emerging nanotechnologies (X) has become increasingly important. Accelerating Monte Carlo algorithms that rely on random sampling with such CMOS+X technologies could have significant impact on a large number of fields from probabilistic machine learning, optimization to quantum simulation. In this paper, we show the combination of stochastic magnetic tunnel junction (sMTJ)-based probabilistic bits (p-bits) with versatile Field Programmable Gate Arrays (FPGA) to design a CMOS + X (X = sMTJ) prototype. Our approach enables high-quality true randomness that is essential for Monte Carlo based probabilistic sampling and learning. Our heterogeneous computer successfully performs probabilistic inference and asynchronous Boltzmann learning, despite device-to-device variations in sMTJs. A comprehensive comparison using a CMOS predictive process design kit (PDK) reveals that compact sMTJ-based p-bits replace 10,000 transistors while dissipating two orders of magnitude of less energy (2 fJ per random bit), compared to digital CMOS p-bits. Scaled and integrated versions of our CMOS + stochastic nanomagnet approach can significantly advance probabilistic computing and its applications in various domains by providing massively parallel and truly random numbers with extremely high throughput and energy-efficiency.
翻訳日:2023-04-19 17:10:37 公開日:2023-04-18
# 講演ノート:ニューラルネットワークアーキテクチャ

Lecture Notes: Neural Network Architectures ( http://arxiv.org/abs/2304.05133v2 )

ライセンス: Link先を確認
Evelyn Herberg(参考訳) これらの講義ノートは、数学的観点からニューラルネットワークアーキテクチャの概要を提供する。 特に、ニューラルネットワークを用いた機械学習は最適化の問題と見なされる。 coverは、ニューラルネットワークと以下のアーキテクチャを紹介する。feedforwardニューラルネットワーク、畳み込みニューラルネットワーク、resnet、recurrentニューラルネットワーク。

These lecture notes provide an overview of Neural Network architectures from a mathematical point of view. Especially, Machine Learning with Neural Networks is seen as an optimization problem. Covered are an introduction to Neural Networks and the following architectures: Feedforward Neural Network, Convolutional Neural Network, ResNet, and Recurrent Neural Network.
翻訳日:2023-04-19 17:10:06 公開日:2023-04-18
# エルゴード反復の強い安定性について

On the strong stability of ergodic iterations ( http://arxiv.org/abs/2304.04657v2 )

ライセンス: Link先を確認
L\'aszl\'o Gy\"orfi, Attila Lovas, Mikl\'os R\'asonyi(参考訳) 定常およびエルゴード列によって駆動される反復ランダム関数によって生成される過程を再検討する。 そのような過程は、ランダムな初期化が存在し、その過程が定常でエルゴード的であり、他の初期化に対しては、2つの過程の差はほぼ確実にゼロに収束するときに強く安定と呼ばれる。 対応する再帰写像上のいくつかの穏やかな条件の下では、駆動列の条件がなければ、繰り返しの強い安定性を示す。 確率近似やキューイングなどいくつかの応用が研究されている。 さらに,依存雑音を伴うランジュバン型反復とマルチタイプの分岐過程について新たな結果が得られた。

We revisit processes generated by iterated random functions driven by a stationary and ergodic sequence. Such a process is called strongly stable if a random initialization exists, for which the process is stationary and ergodic, and for any other initialization, the difference of the two processes converges to zero almost surely. Under some mild conditions on the corresponding recursive map, without any condition on the driving sequence, we show the strong stability of iterations. Several applications are surveyed such as stochastic approximation and queuing. Furthermore, new results are deduced for Langevin-type iterations with dependent noise and for multitype branching processes.
翻訳日:2023-04-19 17:10:01 公開日:2023-04-18
# ハイブリッド畳み込みに基づくデュアルドメインネットワークによるハイパースペクトル画像超解像

Hyperspectral Image Super-Resolution via Dual-domain Network Based on Hybrid Convolution ( http://arxiv.org/abs/2304.04589v3 )

ライセンス: Link先を確認
Tingting Liu, Yuan Liu, Chuncheng Zhang, Yuan Liyin, Xiubao Sui, Qian Chen(参考訳) 入射エネルギーは限られているため,空間分解能の高いハイパースペクトル画像(HSI)を直接取得することは困難である。 HSIの高次元性と相関性を考えると、HSIの超解像(SR)は補助高分解能画像がない場合の課題である。 さらに,空間的特徴を効果的に抽出し,スペクトル情報を十分に活用することが重要である。 本稿では,ハイブリッド畳み込み(srdnet)に基づくデュアルドメインネットワークと呼ばれる,新しいhsiスーパーレゾリューションアルゴリズムを提案する。 具体的には、双対領域ネットワークは、超スペクトルデータの空間スペクトルと周波数情報をフル活用するように設計されている。 スペクトル間自己相似性を捉えるため、空間領域に自己注意学習機構(HSL)を考案する。 一方、ピラミッド構造は注意の受容領域を高めるために適用され、ネットワークの特徴表現能力をさらに強化する。 さらに、HSIの知覚品質をさらに向上するため、周波数領域のモデルを最適化するために周波数損失(HFL)を導入する。 動的重み付け機構は、空間損失に起因する発生周波数と過度な平滑化を徐々に改善するネットワークを駆動する。 最後に, 高分解能空間と低分解能空間のマッピング関係をよりよく把握するために, 漸進的なアップサンプリング戦略を持つ2dおよび3dユニットのハイブリッドモジュールを用いた。 ベンチマークデータセットを用いた実験では,提案手法がhsiのテクスチャ情報を強化し,最先端の手法よりも優れていることを示す。

Since the number of incident energies is limited, it is difficult to directly acquire hyperspectral images (HSI) with high spatial resolution. Considering the high dimensionality and correlation of HSI, super-resolution (SR) of HSI remains a challenge in the absence of auxiliary high-resolution images. Furthermore, it is very important to extract the spatial features effectively and make full use of the spectral information. This paper proposes a novel HSI super-resolution algorithm, termed dual-domain network based on hybrid convolution (SRDNet). Specifically, a dual-domain network is designed to fully exploit the spatial-spectral and frequency information among the hyper-spectral data. To capture inter-spectral self-similarity, a self-attention learning mechanism (HSL) is devised in the spatial domain. Meanwhile the pyramid structure is applied to increase the acceptance field of attention, which further reinforces the feature representation ability of the network. Moreover, to further improve the perceptual quality of HSI, a frequency loss(HFL) is introduced to optimize the model in the frequency domain. The dynamic weighting mechanism drives the network to gradually refine the generated frequency and excessive smoothing caused by spatial loss. Finally, In order to better fully obtain the mapping relationship between high-resolution space and low-resolution space, a hybrid module of 2D and 3D units with progressive upsampling strategy is utilized in our method. Experiments on a widely used benchmark dataset illustrate that the proposed SRDNet method enhances the texture information of HSI and is superior to state-of-the-art methods.
翻訳日:2023-04-19 17:09:50 公開日:2023-04-18
# 衛星画像へのnerf応用による表面再構成

NeRF applied to satellite imagery for surface reconstruction ( http://arxiv.org/abs/2304.04133v4 )

ライセンス: Link先を確認
Federico Semeraro, Yi Zhang, Wenying Wu, Patrick Carroll(参考訳) 本稿では、最近導入されたシャドウニューラルレージアンスフィールド(S-NeRF)モデルの修正実装であるSurf-NeRFを提案する。 本手法は、画像中の光の変動を考慮しつつ、シーンの衛星画像の粗い集合から新規なビューを合成することができる。 トレーニングされたモデルは、しばしば衛星観測用途に望ましい量であるシーンの表面の標高を正確に推定するためにも使用できる。 S-NeRFは、放射をアルベドと照射の機能として考慮し、標準的なニューラル放射場(NeRF)法を改善する。 どちらの量もモデルの完全に接続されたニューラルネットワークの枝によって出力され、後者は太陽からの直光と空からの拡散色の関数とみなされる。 実装は衛星画像のデータセット上で実行され、ズームアンドクロップ技術を用いて拡張された。 NeRFのハイパーパラメーターによる研究が行われ、モデル収束に関する興味深い観測につながった。 最後に、NeRFとS-NeRFはどちらも100kのエポックまで実行され、データの完全適合と可能な限りの予測が得られた。 この記事に関連するコードは https://github.com/fsemerar/surfnerf.com にある。

We present Surf-NeRF, a modified implementation of the recently introduced Shadow Neural Radiance Field (S-NeRF) model. This method is able to synthesize novel views from a sparse set of satellite images of a scene, while accounting for the variation in lighting present in the pictures. The trained model can also be used to accurately estimate the surface elevation of the scene, which is often a desirable quantity for satellite observation applications. S-NeRF improves on the standard Neural Radiance Field (NeRF) method by considering the radiance as a function of the albedo and the irradiance. Both these quantities are output by fully connected neural network branches of the model, and the latter is considered as a function of the direct light from the sun and the diffuse color from the sky. The implementations were run on a dataset of satellite images, augmented using a zoom-and-crop technique. A hyperparameter study for NeRF was carried out, leading to intriguing observations on the model's convergence. Finally, both NeRF and S-NeRF were run until 100k epochs in order to fully fit the data and produce their best possible predictions. The code related to this article can be found at https://github.com/fsemerar/surfnerf.
翻訳日:2023-04-19 17:09:25 公開日:2023-04-18
# ChatGPTのためのChain-of-Thought Promptingはいつ必要か?

When do you need Chain-of-Thought Prompting for ChatGPT? ( http://arxiv.org/abs/2304.03262v2 )

ライセンス: Link先を確認
Jiuhai Chen, Lichang Chen, Heng Huang, Tianyi Zhou(参考訳) CoT(Chain-of-Thought)は、大規模言語モデル~(LLM)から複雑な多段階推論を効果的に引き出す。 例えば、MultiArithデータセットの各入力クエリに単にCoT命令 ``Let's Think-by-step'' を追加することで、GPT-3の精度は17.7\%から78.7\%に向上できる。 しかし、CoTがChatGPTのような最近の命令微調整(IFT)LLMに対してまだ有効かどうかは不明である。 驚くべきことに、ChatGPTでは、CoTは算術的推論のような特定のタスクには有効ではなく、他の推論タスクには有効である。 さらに、以前のタスクでは、ChatGPTは通常最高のパフォーマンスを達成し、CoTを生成することができる。 したがって、ChatGPTはCoTを使ってこれらのタスクですでに訓練されており、CoTなしでも同じクエリに適用された場合、暗黙的にそのような命令に従うように命令を記憶していることが考えられる。 我々の分析は、IFTで導入された命令に対する過度な適合/バイアスの危険性を反映している。 また、事前学習レシピの漏洩の可能性を示し、例えば、chatgptのトレーニングにデータセットと命令が使われたかどうかを検証できる。 実験では,様々な推論タスクに対するChatGPTの新たなベースライン結果について報告し,LLMのプロファイリング,命令記憶,プレトレーニングデータセットリークに関する新たな知見を隠蔽した。

Chain-of-Thought (CoT) prompting can effectively elicit complex multi-step reasoning from Large Language Models~(LLMs). For example, by simply adding CoT instruction ``Let's think step-by-step'' to each input query of MultiArith dataset, GPT-3's accuracy can be improved from 17.7\% to 78.7\%. However, it is not clear whether CoT is still effective on more recent instruction finetuned (IFT) LLMs such as ChatGPT. Surprisingly, on ChatGPT, CoT is no longer effective for certain tasks such as arithmetic reasoning while still keeping effective on other reasoning tasks. Moreover, on the former tasks, ChatGPT usually achieves the best performance and can generate CoT even without being instructed to do so. Hence, it is plausible that ChatGPT has already been trained on these tasks with CoT and thus memorized the instruction so it implicitly follows such an instruction when applied to the same queries, even without CoT. Our analysis reflects a potential risk of overfitting/bias toward instructions introduced in IFT, which becomes more common in training LLMs. In addition, it indicates possible leakage of the pretraining recipe, e.g., one can verify whether a dataset and instruction were used in training ChatGPT. Our experiments report new baseline results of ChatGPT on a variety of reasoning tasks and shed novel insights into LLM's profiling, instruction memorization, and pretraining dataset leakage.
翻訳日:2023-04-19 17:09:07 公開日:2023-04-18
# RFAConv:空間アテンションの革新と標準畳み込み運用

RFAConv: Innovating Spatial Attention and Standard Convolutional Operation ( http://arxiv.org/abs/2304.03198v4 )

ライセンス: Link先を確認
Xin Zhang, Chen Liu, Degang Yang, Tingting Song, Yichen Ye, Ke Li, and Yingze Song(参考訳) 空間的注意は畳み込みニューラルネットワークの性能向上に広く利用されている。 しかし、一定の制限がある。 本稿では,空間的注意のメカニズムが,畳み込みカーネルパラメータ共有の問題を本質的に解決する,空間的注意の有効性に関する新たな視点を提案する。 しかし,空間的注意によって生成された注意マップに含まれる情報は,大規模畳み込み核では不十分である。 そこで,我々はreceptive-field attention (rfa) と呼ばれる新しい注意機構を提案する。 Convolutional Block Attention Module (CBAM) や Coordinated Attention (CA) のような既存の空間的注意は、畳み込みカーネルパラメータ共有の問題を完全に解決しない空間的特徴のみに焦点を当てている。 対照的に、RFAは受容場空間の特徴だけでなく、大きな畳み込みカーネルに対して効果的な注意重みを与える。 RFA が開発した Receptive-Field Attention Convolutional Operation (RFAConv) は、標準の畳み込み操作を置き換える新しいアプローチである。 計算コストとパラメータの増大はほぼ無視できるが、ネットワーク性能は大幅に向上している。 我々は、ImageNet-1k、COCO、VOCデータセット上で一連の実験を行い、アプローチの優位性を実証した。 特に重要なのは、現在の空間的注意のメカニズムにおいて、焦点を空間的特徴から受容的場的特徴にシフトする時だと信じている。 このように、ネットワーク性能をさらに改善し、より良い結果を得ることができる。 関連するタスクのコードと事前トレーニングされたモデルは、https://github.com/liuchen1997/rfaconvで見ることができる。

Spatial attention has been widely used to improve the performance of convolutional neural networks. However, it has certain limitations. In this paper, we propose a new perspective on the effectiveness of spatial attention, which is that the spatial attention mechanism essentially solves the problem of convolutional kernel parameter sharing. However, the information contained in the attention map generated by spatial attention is not sufficient for large-size convolutional kernels. Therefore, we propose a novel attention mechanism called Receptive-Field Attention (RFA). Existing spatial attention, such as Convolutional Block Attention Module (CBAM) and Coordinated Attention (CA) focus only on spatial features, which does not fully address the problem of convolutional kernel parameter sharing. In contrast, RFA not only focuses on the receptive-field spatial feature but also provides effective attention weights for large-size convolutional kernels. The Receptive-Field Attention convolutional operation (RFAConv), developed by RFA, represents a new approach to replace the standard convolution operation. It offers nearly negligible increment of computational cost and parameters, while significantly improving network performance. We conducted a series of experiments on ImageNet-1k, COCO, and VOC datasets to demonstrate the superiority of our approach. Of particular importance, we believe that it is time to shift focus from spatial features to receptive-field spatial features for current spatial attention mechanisms. In this way, we can further improve network performance and achieve even better results. The code and pre-trained models for the relevant tasks can be found at https://github.com/Liuchen1997/RFAConv.
翻訳日:2023-04-19 17:08:39 公開日:2023-04-18
# BotTriNet:メトリック学習によるソーシャルボット検出のための統一的で効率的な埋め込み

BotTriNet: A Unified and Efficient Embedding for Social Bots Detection via Metric Learning ( http://arxiv.org/abs/2304.03144v3 )

ライセンス: Link先を確認
Jun Wu, Xuesong Ye, and Yanyuet Man(参考訳) オンラインソーシャルネットワークで絶え間なく人気があるトピックは、本物のユーザーの侵入やハラスメントを防ぐボットアカウントの迅速かつ正確な発見である。 本稿では,ボット検出にアカウントが投稿したテキストコンテンツを利用して,コンテキストがアカウントの個性や習慣を自然に明らかにする,BotTriNetという統合組込みフレームワークを提案する。 組込み技術を用いてボット関連情報を効率的に抽出すれば,コンテンツは豊富で貴重なものとなる。 単語、文、およびアカウントの埋め込みを生成する一般的な埋め込みフレームワークの他に、分類性能を向上させるために生の埋め込み(従来の自然言語処理技術によって生成される)をチューニングするための三重ネットワークを設計する。 3つのボットアカウントカテゴリと5つのボットサンプルセットからなる実世界のデータセットcresci2017における検出精度とf1scoreを評価する。 このシステムは,2つのコンテンツ集約型ボットセットにおいて,98.34%,f1scoreが97.99%という最高精度を達成している。 また、4つのコンテンツレスボットセットでブレークスルーを行い、平均精度が11.52%、平均f1scoreが16.70%向上した。

A persistently popular topic in online social networks is the rapid and accurate discovery of bot accounts to prevent their invasion and harassment of genuine users. We propose a unified embedding framework called BotTriNet, which utilizes textual content posted by accounts for bot detection based on the assumption that contexts naturally reveal account personalities and habits. Content is abundant and valuable if the system efficiently extracts bot-related information using embedding techniques. Beyond the general embedding framework that generates word, sentence, and account embeddings, we design a triplet network to tune the raw embeddings (produced by traditional natural language processing techniques) for better classification performance. We evaluate detection accuracy and f1score on a real-world dataset CRESCI2017, comprising three bot account categories and five bot sample sets. Our system achieves the highest average accuracy of 98.34% and f1score of 97.99% on two content-intensive bot sets, outperforming previous work and becoming state-of-the-art. It also makes a breakthrough on four content-less bot sets, with an average accuracy improvement of 11.52% and an average f1score increase of 16.70%.
翻訳日:2023-04-19 17:08:13 公開日:2023-04-18
# 単調関数の固有学習--ブラックボックス補正障壁を越えて

Agnostic proper learning of monotone functions: beyond the black-box correction barrier ( http://arxiv.org/abs/2304.02700v2 )

ライセンス: Link先を確認
Jane Lange and Arsen Vasilyan(参考訳) 単調ブール関数に対する最初の非依存的,効率的,適切な学習アルゴリズムを提案する。 2^{\tilde{o}(\sqrt{n}/\varepsilon)}$ 未知の関数 $f:\{\pm 1\}^n \rightarrow \{\pm 1\}$ の一様ランダムな例を与えると、アルゴリズムは仮説 $g:\{\pm 1\}^n \rightarrow \{\pm 1\}$ を単調で$(\mathrm{opt} + \varepsilon)$-close to $f$ として出力する。 The running time of the algorithm (and consequently the size and evaluation time of the hypothesis) is also $2^{\tilde{O}(\sqrt{n}/\varepsilon)}$, nearly matching the lower bound of Blais et al (RANDOM '15). We also give an algorithm for estimating up to additive error $\varepsilon$ the distance of an unknown function $f$ to monotone using a run-time of $2^{\tilde{O}(\sqrt{n}/\varepsilon)}$. Previously, for both of these problems, sample-efficient algorithms were known, but these algorithms were not run-time efficient. Our work thus closes this gap in our knowledge between the run-time and sample complexity. This work builds upon the improper learning algorithm of Bshouty and Tamon (JACM '96) and the proper semiagnostic learning algorithm of Lange, Rubinfeld, and Vasilyan (FOCS '22), which obtains a non-monotone Boolean-valued hypothesis, then ``corrects'' it to monotone using query-efficient local computation algorithms on graphs. このブラックボックス補正アプローチは、2\mathrm{opt} + \varepsilon$ information-theoretically 以上の誤差を達成でき、この障壁をバイパスする。 a)不適切な学習者を凸最適化ステップで増強し、 b) 値がブールに丸まる前に実値関数を学習し、修正すること。 実数値補正アルゴリズムは,非ボアラベルを持つ一般ポセット上の関数 [lrv22] の ``poset sorting''' 問題を解く。

We give the first agnostic, efficient, proper learning algorithm for monotone Boolean functions. Given $2^{\tilde{O}(\sqrt{n}/\varepsilon)}$ uniformly random examples of an unknown function $f:\{\pm 1\}^n \rightarrow \{\pm 1\}$, our algorithm outputs a hypothesis $g:\{\pm 1\}^n \rightarrow \{\pm 1\}$ that is monotone and $(\mathrm{opt} + \varepsilon)$-close to $f$, where $\mathrm{opt}$ is the distance from $f$ to the closest monotone function. The running time of the algorithm (and consequently the size and evaluation time of the hypothesis) is also $2^{\tilde{O}(\sqrt{n}/\varepsilon)}$, nearly matching the lower bound of Blais et al (RANDOM '15). We also give an algorithm for estimating up to additive error $\varepsilon$ the distance of an unknown function $f$ to monotone using a run-time of $2^{\tilde{O}(\sqrt{n}/\varepsilon)}$. Previously, for both of these problems, sample-efficient algorithms were known, but these algorithms were not run-time efficient. Our work thus closes this gap in our knowledge between the run-time and sample complexity. This work builds upon the improper learning algorithm of Bshouty and Tamon (JACM '96) and the proper semiagnostic learning algorithm of Lange, Rubinfeld, and Vasilyan (FOCS '22), which obtains a non-monotone Boolean-valued hypothesis, then ``corrects'' it to monotone using query-efficient local computation algorithms on graphs. This black-box correction approach can achieve no error better than $2\mathrm{opt} + \varepsilon$ information-theoretically; we bypass this barrier by a) augmenting the improper learner with a convex optimization step, and b) learning and correcting a real-valued function before rounding its values to Boolean. Our real-valued correction algorithm solves the ``poset sorting'' problem of [LRV22] for functions over general posets with non-Boolean labels.
翻訳日:2023-04-19 17:07:50 公開日:2023-04-18
# 自己教師付き深層学習による全スリッド画像の高速かつスケーラブルな検索」に関するコメント

Comments on 'Fast and scalable search of whole-slide images via self-supervised deep learning' ( http://arxiv.org/abs/2304.08297v2 )

ライセンス: Link先を確認
Milad Sikaroudi, Mehdi Afshari, Abubakr Shafique, Shivam Kalra, H.R. Tizhoosh(参考訳) チェンなど。 [chen2022]は最近、nature biomedical engineeringで、"fast and scalable search of whole-slide images via self-supervised deep learning"という記事を発表した。 著者らはこれらの手法を「組織学のための自己監督画像検索」、略称SISHと呼んでいる。 SISH は Yottixel の漸進的な修正であり,MinMax のバイナライゼーションは用いてきたが,原著を引用せず,誤用した「自己監督画像検索」に基づいている,という懸念を表明する。 また、Chenらによる実験と比較に関する他の懸念についても指摘する。

Chen et al. [Chen2022] recently published the article 'Fast and scalable search of whole-slide images via self-supervised deep learning' in Nature Biomedical Engineering. The authors call their method 'self-supervised image search for histology', short SISH. We express our concerns that SISH is an incremental modification of Yottixel, has used MinMax binarization but does not cite the original works, and is based on a misnomer 'self-supervised image search'. As well, we point to several other concerns regarding experiments and comparisons performed by Chen et al.
翻訳日:2023-04-19 16:59:20 公開日:2023-04-18
# あらゆるものを一度にセグメンテーションする

Segment Everything Everywhere All at Once ( http://arxiv.org/abs/2304.06718v2 )

ライセンス: Link先を確認
Xueyan Zou, Jianwei Yang, Hao Zhang, Feng Li, Linjie Li, Jianfeng Gao, Yong Jae Lee(参考訳) 対話型AIシステムへの需要が高まっているにもかかわらず、セグメンテーションのような視覚的理解における人間とAIの相互作用に関する包括的な研究はほとんどない。 llmsのためのプロンプトベースのユニバーサルインターフェースの開発に触発された本論文は、画像中のあらゆるものを一度にセグメンテーションするための、迅速かつインタラクティブなモデルであるように見える。 4つのデシデラタがあります i) 汎用性: ポイント,ボックス,スクリブル,マスク,テキスト,その他の画像の参照領域を含む,さまざまな種類のプロンプトに対して汎用的なプロンプトエンジンを導入すること。 二 構成性:図1に示すように、視覚的及びテキスト的指示のための共同視覚的セマンティック空間を学習し、ハエに照らし出すためのクエリを構成すること。 三 対話性 学習可能なメモリプロンプトを組み込むことにより、マスク誘導による対話履歴情報を保持し、及び iv)意味認識: テキストエンコーダを使用してテキストクエリとマスクラベルをエンコードして、オープン語彙セグメンテーションを行う。

Despite the growing demand for interactive AI systems, there have been few comprehensive studies on human-AI interaction in visual understanding e.g. segmentation. Inspired by the development of prompt-based universal interfaces for LLMs, this paper presents SEEM, a promptable, interactive model for Segmenting Everything Everywhere all at once in an image. SEEM has four desiderata: i) Versatility: by introducing a versatile prompting engine for different types of prompts, including points, boxes, scribbles, masks, texts, and referred regions of another image; ii) Compositionality: by learning a joint visual-semantic space for visual and textual prompts to compose queries on the fly for inference as shown in Fig 1; iii)Interactivity: by incorporating learnable memory prompts to retain dialog history information via mask-guided cross-attention; and iv) Semantic-awareness: by using a text encoder to encode text queries and mask labels for open-vocabulary segmentation.
翻訳日:2023-04-19 16:59:09 公開日:2023-04-18
# ヘテロジニアスグラフのための多階グラフ畳み込みネットワーク

Attributed Multi-order Graph Convolutional Network for Heterogeneous Graphs ( http://arxiv.org/abs/2304.06336v2 )

ライセンス: Link先を確認
Zhaoliang Chen, Zhihao Wu, Luying Zhong, Claudia Plant, Shiping Wang, Wenzhong Guo(参考訳) Heterogeneous graph neural networks aim to discover discriminative node embeddings and relations from multi-relational networks.One challenge of heterogeneous graph learning is the design of learnable meta-paths, which significantly influences the quality of learned embeddings.Thus, in this paper, we propose an Attributed Multi-Order Graph Convolutional Network (AMOGCN), which automatically studies meta-paths containing multi-hop neighbors from an adaptive aggregation of multi-order adjacency matrices. 提案モデルではまず,手動で設計したノード接続から隣接行列の異なる順序で構築する。 その後、種々の隣接行列の自動融合から無傷の多階隣接行列が取り付けられる。 このプロセスは、属性によって評価されたノードから抽出されるノード意味情報によって監視される。 最終的には,多層グラフニューラルネットワークを用いたクロスホップノード情報伝搬に相当する,学習した多階隣接行列を用いたグラフ畳み込みネットワークを単純化する。 AMOGCNは最先端の競合製品に比べて優れた半教師付き分類性能を持つ。

Heterogeneous graph neural networks aim to discover discriminative node embeddings and relations from multi-relational networks.One challenge of heterogeneous graph learning is the design of learnable meta-paths, which significantly influences the quality of learned embeddings.Thus, in this paper, we propose an Attributed Multi-Order Graph Convolutional Network (AMOGCN), which automatically studies meta-paths containing multi-hop neighbors from an adaptive aggregation of multi-order adjacency matrices. The proposed model first builds different orders of adjacency matrices from manually designed node connections. After that, an intact multi-order adjacency matrix is attached from the automatic fusion of various orders of adjacency matrices. This process is supervised by the node semantic information, which is extracted from the node homophily evaluated by attributes. Eventually, we utilize a one-layer simplifying graph convolutional network with the learned multi-order adjacency matrix, which is equivalent to the cross-hop node information propagation with multi-layer graph neural networks. Substantial experiments reveal that AMOGCN gains superior semi-supervised classification performance compared with state-of-the-art competitors.
翻訳日:2023-04-19 16:58:29 公開日:2023-04-18
# qubit-plasmon-phonon超強結合系からの仮想光子とフォノン対の放出

Release of virtual photon and phonon pairs from qubit-plasmon-phonon ultrastrong coupling system ( http://arxiv.org/abs/2304.08704v1 )

ライセンス: Link先を確認
Ting-ting Ma, Yu-qiang Liu and Chang-shui Yu(参考訳) 超強結合と非超強結合の最も重要な違いは、基底状態が励起を含むことである。 クビットプラズモン-フォノン超強結合系 (USC) は光子とフォノンに結合した3レベル原子を上2つのエネルギー準位で結合し, 中間状態から基底状態までの原子の自然放出がフォトンとフォノン対を生成することを示す。 その結果、現在の系は強い光子/フォノンの流れを生じさせ、原子-フォノンカップリングがアクティブな役割を果たすことが示され、実験的な検出が保証される。 放射スペクトルと様々な高次相関関数は、光子とフォノンの対の生成を確認する。 本研究は,usc体制下における仮想光子とフォノン対の生成に関する今後の研究に重要な意味を持つ。

The most important difference between ultrastrong and non-ultrastrong coupling regimes is that the ground state contains excitations. We consider a qubit-plasmon-phonon ultrastrong coupling (USC) system with a three-level atom coupled to the photon and phonon via its upper two energy levels and show that spontaneous emission of the atom from its intermediate to its ground state produces photon and phonon pairs. It is shown that the current system can produce a strong photon/phonon stream and the atom-phonon coupling plays the active role, which ensures the experimental detection. The emission spectrum and various high-order correlation functions confirm the generation of the pairs of photons and phonons. Our study has important implications for future research on virtual photon and phonon pairs creation in the ground state of the USC regime.
翻訳日:2023-04-19 16:15:00 公開日:2023-04-18
# ロボットマニピュレーションのためのSim-to-Real Dense Object Descriptorの学習

Learning Sim-to-Real Dense Object Descriptors for Robotic Manipulation ( http://arxiv.org/abs/2304.08703v1 )

ライセンス: Link先を確認
Hoang-Giang Cao, Weihao Zeng, I-Chen Wu(参考訳) ユビキタスロボット操作アプリケーションでは,次のような課題に取り組むことが不可欠である。 (a)視覚に基づく操作タスクでは、ロボットは、密集した対象記述子のような豊富な情報で物体を視覚的に学習し、理解する必要がある。 b) sim-to-real transfer in roboticsはシミュレーションデータと実データの間のギャップを縮めることを目的としている。 本稿では,オブジェクトを適切な表現で理解するだけでなく,シミュレーションや実データをピクセル一貫性のある統一特徴空間にマップする,高密度オブジェクト記述子sim-to-real dense object nets (srdons)を提案する。 異なるシーンと異なるドメインの画像ペアに対するオブジェクト間マッチング手法を提案する。 この方法はgravenetのような公開データセットを活用することで、現実世界からデータをトレーニングする労力を減らすのに役立つ。 sim-to-realオブジェクト表現の一貫性により、SRDONは様々なsim-to-real操作タスクのビルディングブロックとして機能する。 本研究では,事前学習したSRDONが実世界の訓練をゼロにする各種ロボット作業において,見えない物体や見えない視覚環境の性能を大幅に向上させる実験を行った。

It is crucial to address the following issues for ubiquitous robotics manipulation applications: (a) vision-based manipulation tasks require the robot to visually learn and understand the object with rich information like dense object descriptors; and (b) sim-to-real transfer in robotics aims to close the gap between simulated and real data. In this paper, we present Sim-to-Real Dense Object Nets (SRDONs), a dense object descriptor that not only understands the object via appropriate representation but also maps simulated and real data to a unified feature space with pixel consistency. We proposed an object-to-object matching method for image pairs from different scenes and different domains. This method helps reduce the effort of training data from real-world by taking advantage of public datasets, such as GraspNet. With sim-to-real object representation consistency, our SRDONs can serve as a building block for a variety of sim-to-real manipulation tasks. We demonstrate in experiments that pre-trained SRDONs significantly improve performances on unseen objects and unseen visual environments for various robotic tasks with zero real-world training.
翻訳日:2023-04-19 16:14:44 公開日:2023-04-18
# LTC-SE:スケーラブルAIと組込みシステムのための液体時間定常ニューラルネットワークの可能性の拡大

LTC-SE: Expanding the Potential of Liquid Time-Constant Neural Networks for Scalable AI and Embedded Systems ( http://arxiv.org/abs/2304.08691v1 )

ライセンス: Link先を確認
Michael Bidollahkhani, Ferhat Atasoy, Hamdan Abdellatef(参考訳) 我々は2021年にHasaniらによって提案されたLTC(Liquid Time-Constant)ニューラルネットワークアルゴリズムの改良版であるLCC-SEを提案する。 このアルゴリズムは、Leaky-Integrate-and-Fire(LIF)スパイキングニューラルネットワークモデルと、連続時間リカレントニューラルネットワーク(CTRNN)、ニューラル正規微分方程式(NODE)、そして、ゲーテッドリカレントユニット(GRU)を統合する。 LTC-SEの強化は柔軟性、互換性、コード構成の向上に重点を置いており、計算資源の制限と厳格な性能要件を備えた組み込みシステムのユニークな制約をターゲットにしている。 更新されたコードはTensorFlow 2.xと互換性のある統合クラスライブラリとして機能し、LTCCell、CTRNN、NODE、CTGRUクラスの包括的な設定オプションを提供する。 LTC-SEは,ユーザエクスペリエンス,Keras関数の互換性,コードの明確性といった最適化の利点を示す。 これらの改良により、ロボット工学、因果分析、時系列予測など、さまざまな機械学習タスクにおける液体ニューラルネットワークの適用性が拡大され、hasaniらの基礎研究が構築される。

We present LTC-SE, an improved version of the Liquid Time-Constant (LTC) neural network algorithm originally proposed by Hasani et al. in 2021. This algorithm unifies the Leaky-Integrate-and-Fire (LIF) spiking neural network model with Continuous-Time Recurrent Neural Networks (CTRNNs), Neural Ordinary Differential Equations (NODEs), and bespoke Gated Recurrent Units (GRUs). The enhancements in LTC-SE focus on augmenting flexibility, compatibility, and code organization, targeting the unique constraints of embedded systems with limited computational resources and strict performance requirements. The updated code serves as a consolidated class library compatible with TensorFlow 2.x, offering comprehensive configuration options for LTCCell, CTRNN, NODE, and CTGRU classes. We evaluate LTC-SE against its predecessors, showcasing the advantages of our optimizations in user experience, Keras function compatibility, and code clarity. These refinements expand the applicability of liquid neural networks in diverse machine learning tasks, such as robotics, causality analysis, and time-series prediction, and build on the foundational work of Hasani et al.
翻訳日:2023-04-19 16:14:23 公開日:2023-04-18
# globalmind: ハイパースペクトル変化検出のためのグローバルマルチヘッド対話型セルフアテンションネットワーク

GlobalMind: Global Multi-head Interactive Self-attention Network for Hyperspectral Change Detection ( http://arxiv.org/abs/2304.08687v1 )

ライセンス: Link先を確認
Meiqi Hu, Chen Wu, Liangpei Zhang(参考訳) 地球表面の高いスペクトル分解能画像は、ユーザが粒度の細かいスケールで変化を監視できるようにし、農業、防衛、緊急対応においてますます重要な役割を果たす。 しかし、現在のアルゴリズムのほとんどは依然として局所的な特徴の記述に限定されており、グローバルな視点を取り入れていないため、グローバルな特徴間のインタラクションをキャプチャする能力が制限されているため、通常は不完全な変更領域になる。 本稿では,異なる表面オブジェクトと異種土地被覆変換との暗黙的相関を探索し,データの包括的理解と正確な変化検出結果を得るためのグローバル・マルチヘッド・インタラクティブ・セルフ・アテンション・チェンジ検出ネットワーク(globalmind)を提案する。 まず,超スペクトル画像の行空間あるいは列空間に沿って自己アテンション計算を拡張し,高い効率でグローバル接続を可能にするために,単純かつ効果的なグローバル軸分割(gas)戦略を考案した。 第2に、GASでは、グローバルな空間的多頭部対話型自己注意モジュール(Global-M)が、リッチで複雑なハイパースペクトル空間全体から、地上の物体間の潜在的な相関関係を含む、豊富な空間的スペクトル特徴をマイニングするために構築されている。 さらに, 高精度かつ完全なクロスタイム変化を得るために, 二時間空間スペクトル特徴の関連性と変動を組み込んだグローバル・タイム・インタラクティブ・マルチヘッド・セルフ・アテンション(globald)モジュールを考案し, ガスの組合せによる局所的および全地球的範囲における同種の変化のポテンシャルを導出する。 我々は,主に使用されている5つのハイパースペクトルデータセットに対して広範囲に実験を行い,その精度と効率で最先端のアルゴリズムより優れていることを示す。

High spectral resolution imagery of the Earth's surface enables users to monitor changes over time in fine-grained scale, playing an increasingly important role in agriculture, defense, and emergency response. However, most current algorithms are still confined to describing local features and fail to incorporate a global perspective, which limits their ability to capture interactions between global features, thus usually resulting in incomplete change regions. In this paper, we propose a Global Multi-head INteractive self-attention change Detection network (GlobalMind) to explore the implicit correlation between different surface objects and variant land cover transformations, acquiring a comprehensive understanding of the data and accurate change detection result. Firstly, a simple but effective Global Axial Segmentation (GAS) strategy is designed to expand the self-attention computation along the row space or column space of hyperspectral images, allowing the global connection with high efficiency. Secondly, with GAS, the global spatial multi-head interactive self-attention (Global-M) module is crafted to mine the abundant spatial-spectral feature involving potential correlations between the ground objects from the entire rich and complex hyperspectral space. Moreover, to acquire the accurate and complete cross-temporal changes, we devise a global temporal interactive multi-head self-attention (GlobalD) module which incorporates the relevance and variation of bi-temporal spatial-spectral features, deriving the integrate potential same kind of changes in the local and global range with the combination of GAS. We perform extensive experiments on five mostly used hyperspectral datasets, and our method outperforms the state-of-the-art algorithms with high accuracy and efficiency.
翻訳日:2023-04-19 16:14:00 公開日:2023-04-18
# ビデオ質問応答のためのハイパーグラフの学習状況

Learning Situation Hyper-Graphs for Video Question Answering ( http://arxiv.org/abs/2304.08682v1 )

ライセンス: Link先を確認
Aisha Urooj Khan, Hilde Kuehne, Bo Wu, Kim Chheu, Walid Bousselham, Chuang Gan, Niels Lobo, Mubarak Shah(参考訳) ビデオの複雑な状況に関する質問に答えるには、アクター、オブジェクト、そしてそれらの関係を捉えるだけでなく、時間とともにこれらの関係が進化していく必要がある。 状況ハイパーグラフは、映像フレームのシーンサブグラフや接続されたサブグラフのハイパーエッジとして状況を記述する表現であり、このような情報をコンパクトな構造化形式でキャプチャするために提案されている。 本研究では,映像コンテンツに関する質問に対して,映像ハイパーグラフに基づく映像質問回答システム(SHG-VQA)を作成した状況ハイパーグラフを予測して回答できるVQAアーキテクチャを提案する。 この目的のために、我々は状況ハイパーグラフデコーダを訓練し、入力ビデオクリップからアクションとオブジェクトとオブジェクトの関係を暗黙的に識別する。 そして、予測された状況のハイパーグラフと質問の埋め込みとを交互に使用し、正しい回答を予測できるようにする。 提案手法は, クロスエントロピー関数を用いたVQA損失と, 状況グラフ予測のためのハンガリー一致損失により, エンドツーエンドで学習し, 最適化する。 提案アーキテクチャの有効性はAGQAとSTARの2つの挑戦的なベンチマークで広く評価されている。 以上の結果から,ビデオ質問応答タスクにおける課題に対して,ハイパーグラフの学習がシステムの性能向上に有効であることが示唆された。

Answering questions about complex situations in videos requires not only capturing the presence of actors, objects, and their relations but also the evolution of these relationships over time. A situation hyper-graph is a representation that describes situations as scene sub-graphs for video frames and hyper-edges for connected sub-graphs and has been proposed to capture all such information in a compact structured form. In this work, we propose an architecture for Video Question Answering (VQA) that enables answering questions related to video content by predicting situation hyper-graphs, coined Situation Hyper-Graph based Video Question Answering (SHG-VQA). To this end, we train a situation hyper-graph decoder to implicitly identify graph representations with actions and object/human-object relationships from the input video clip. and to use cross-attention between the predicted situation hyper-graphs and the question embedding to predict the correct answer. The proposed method is trained in an end-to-end manner and optimized by a VQA loss with the cross-entropy function and a Hungarian matching loss for the situation graph prediction. The effectiveness of the proposed architecture is extensively evaluated on two challenging benchmarks: AGQA and STAR. Our results show that learning the underlying situation hyper-graphs helps the system to significantly improve its performance for novel challenges of video question-answering tasks.
翻訳日:2023-04-19 16:13:28 公開日:2023-04-18
# ダミーの量子誤差補正

Quantum Error Correction For Dummies ( http://arxiv.org/abs/2304.08678v1 )

ライセンス: Link先を確認
Avimita Chatterjee, Koustubh Phalak, Swaroop Ghosh(参考訳) 量子コンピューティングの現在のノイズ中間スケール量子(NISQ)時代には、量子ビット技術は不完全になりがちであり、ゲートエラー、デコヒーレンス/デフォーカス、測定エラー、リーク、クロストークなどの様々なエラーが発生する。 これらのエラーは、NISQデバイス内でエラーのない計算を実現する上での課題である。 この問題に対する解決策として、量子誤差補正(qec)が提案されている。 (i)検出:エラーの存在を特定すること。 (ii)復号:影響を受けるqubit(s)の位置をピンポイントし、 (iii)補正:故障したキュービットを元の状態に復元する。 QECは複雑な概念を包含する研究分野の拡大である。 本稿では,量子物理学とその関連する数学的概念に精通していない計算機科学者に適応した,量子誤差補正の歴史的文脈,現状,今後の展望を総合的に検討することを目的とする。 この作品では、私たちは、 (a)QECの基本原理を説明し、量子ビットの誤りを修正するために設計された既存の量子誤り訂正符号(QECC)を探索する。 b)これらのqeccの実装と誤り訂正品質に関する実用性の検討 (c) NISQ コンピュータの現在の状況の文脈における QEC の実装に関わる課題を強調した。

In the current Noisy Intermediate Scale Quantum (NISQ) era of quantum computing, qubit technologies are prone to imperfections, giving rise to various errors such as gate errors, decoherence/dephasing, measurement errors, leakage, and crosstalk. These errors present challenges in achieving error-free computation within NISQ devices. A proposed solution to this issue is Quantum Error Correction (QEC), which aims to rectify the corrupted qubit state through a three-step process: (i) detection: identifying the presence of an error, (ii) decoding: pinpointing the location(s) of the affected qubit(s), and (iii) correction: restoring the faulty qubits to their original states. QEC is an expanding field of research that encompasses intricate concepts. In this paper, we aim to provide a comprehensive review of the historical context, current state, and future prospects of Quantum Error Correction, tailored to cater to computer scientists with limited familiarity with quantum physics and its associated mathematical concepts. In this work, we, (a) explain the foundational principles of QEC and explore existing Quantum Error Correction Codes (QECC) designed to correct errors in qubits, (b) explore the practicality of these QECCs concerning implementation and error correction quality, and (c) highlight the challenges associated with implementing QEC within the context of the current landscape of NISQ computers.
翻訳日:2023-04-19 16:13:05 公開日:2023-04-18
# ドメイン翻訳と適応のためのプッシュフォワードの半教師付き学習

Semi-supervised Learning of Pushforwards For Domain Translation & Adaptation ( http://arxiv.org/abs/2304.08673v1 )

ライセンス: Link先を確認
Nishant Panda, Natalie Klein, Dominic Yang, Patrick Gasda and Diane Oyen(参考訳) 関連するデータ空間に2つの確率密度が与えられた場合、アプリケーション依存の制約を満たすとともに、一方の密度を他方にプッシュする写像を求める。 広いアプリケーション空間(ドメイン翻訳、ドメイン適応、ジェネレーティブモデリングを含む)でユーティリティを持つためには、マップはサンプル外データポイントに適用できなければならず、2つの空間上の確率モデルに対応しなければならない。 残念ながら、主に最適な輸送に基づく既存のアプローチは、これらのニーズに対処しない。 本稿では,正規化フローを用いて地図のパラメータ化を行う新しいプッシュフォワードマップ学習アルゴリズムを提案する。 まず,地図に焦点をあてた古典的最適輸送問題を再定式化し,地図が確率距離とアプリケーション固有の正規化器を最小化する制約の下で可能なすべての地図から学習アルゴリズムを提案する。 一度マップが学習されると、ソースドメインからターゲットドメインへのサンプルのマッピングに使用できる。 さらに、マップは正規化フローの合成としてパラメータ化されているため、2つのデータ空間上の経験的分布をモデル化し、サンプリングと確率評価の両方を可能にする。 ベンチマークデータセット上でのドメイン適応とドメイン翻訳の文脈において、我々の手法(parOT)と関連する最適なトランスポートアプローチを比較した。 最後に、応用問題に対する我々の研究の影響を説明するために、parotを実際の科学的応用に適用する:2つの非常に異なる環境からの高次元計測のためのスペクトル校正

Given two probability densities on related data spaces, we seek a map pushing one density to the other while satisfying application-dependent constraints. For maps to have utility in a broad application space (including domain translation, domain adaptation, and generative modeling), the map must be available to apply on out-of-sample data points and should correspond to a probabilistic model over the two spaces. Unfortunately, existing approaches, which are primarily based on optimal transport, do not address these needs. In this paper, we introduce a novel pushforward map learning algorithm that utilizes normalizing flows to parameterize the map. We first re-formulate the classical optimal transport problem to be map-focused and propose a learning algorithm to select from all possible maps under the constraint that the map minimizes a probability distance and application-specific regularizers; thus, our method can be seen as solving a modified optimal transport problem. Once the map is learned, it can be used to map samples from a source domain to a target domain. In addition, because the map is parameterized as a composition of normalizing flows, it models the empirical distributions over the two data spaces and allows both sampling and likelihood evaluation for both data sets. We compare our method (parOT) to related optimal transport approaches in the context of domain adaptation and domain translation on benchmark data sets. Finally, to illustrate the impact of our work on applied problems, we apply parOT to a real scientific application: spectral calibration for high-dimensional measurements from two vastly different environments
翻訳日:2023-04-19 16:12:46 公開日:2023-04-18
# 英語字幕・印刷用エンド・ツー・エンド対話型Deep Learning based Annotationシステム

An end-to-end, interactive Deep Learning based Annotation system for cursive and print English handwritten text ( http://arxiv.org/abs/2304.08670v1 )

ライセンス: Link先を確認
Pranav Guruprasad, Sujith Kumar S, Vigneswaran C, and V. Srinivasa Chakravarthy(参考訳) 計算装置やデジタルメディア上でのタスク実行への傾きが高まる中、以前手作業で実行されたタスクをデジタル化したバージョンに変換する方法はいつでも歓迎される。 今日オンラインで実行できる様々なドキュメントタスクを無視すると、手書きのテキストが避けられないアプリケーションやドメインがまだたくさんあるため、手書きの文書のデジタル化は非常に重要なタスクである。 過去数十年間、オフライン手書き文字認識に関する広範な研究が続けられてきた。 近年、これらの試みのほとんどは、機械学習とディープラーニングベースのアプローチに移行している。 より複雑で深いネットワークを設計し、恒星の性能を確保するためには、大量の注釈付きデータを持つことが不可欠である。 今日、オフラインで手書きのテキスト認識に使われているデータベースのほとんどは、手動で注釈を付けているか、手動で自動で注釈を付けている。 これらのプロセスは非常に時間がかかり、ヒューマンエラーを起こしやすい。 そこで本研究では,オフライン手書きの手書き原稿を英文と英文で表記し,ディープラーニングとユーザインタラクション技術を用いて注釈化する,革新的なエンドツーエンドパイプラインを提案する。 最先端のテキスト検出モデルに基づいて構築された検出システムと、認識システムのためのカスタムなDeep Learningモデルとをアーキテクチャ的に組み合わせた新しい手法で、人間のインタラクションを最小限に抑えるために、検出、セグメンテーション、シリアライゼーション、認識フェーズの精度を向上させることを目的とした、使い易い対話インタフェースを組み合わせる。

With the surging inclination towards carrying out tasks on computational devices and digital mediums, any method that converts a task that was previously carried out manually, to a digitized version, is always welcome. Irrespective of the various documentation tasks that can be done online today, there are still many applications and domains where handwritten text is inevitable, which makes the digitization of handwritten documents a very essential task. Over the past decades, there has been extensive research on offline handwritten text recognition. In the recent past, most of these attempts have shifted to Machine learning and Deep learning based approaches. In order to design more complex and deeper networks, and ensure stellar performances, it is essential to have larger quantities of annotated data. Most of the databases present for offline handwritten text recognition today, have either been manually annotated or semi automatically annotated with a lot of manual involvement. These processes are very time consuming and prone to human errors. To tackle this problem, we present an innovative, complete end-to-end pipeline, that annotates offline handwritten manuscripts written in both print and cursive English, using Deep Learning and User Interaction techniques. This novel method, which involves an architectural combination of a detection system built upon a state-of-the-art text detection model, and a custom made Deep Learning model for the recognition system, is combined with an easy-to-use interactive interface, aiming to improve the accuracy of the detection, segmentation, serialization and recognition phases, in order to ensure high quality annotated data with minimal human interaction.
翻訳日:2023-04-19 16:12:21 公開日:2023-04-18
# 行動検索:ラベルなしデータセットのクエリによるマイテーション学習

Behavior Retrieval: Few-Shot Imitation Learning by Querying Unlabeled Datasets ( http://arxiv.org/abs/2304.08742v1 )

ライセンス: Link先を確認
Maximilian Du, Suraj Nair, Dorsa Sadigh, Chelsea Finn(参考訳) データ効率のよい方法で新しい視覚運動のスキルを習得するロボットの開発は、無数の課題に対して未解決の問題である。 この問題に対処するための一般的なパラダイムは、多くの振る舞いを持つ大きなラベルのないデータセットを活用して、少数のタスク固有の人的監督(例えば介入やデモンストレーション)を使用して特定のタスクにポリシーを適用することである。 しかし、タスク固有の監督を狭くし、オフラインデータとバランスをとるのがいかに最適かは、未解決の問題である。 この研究における私たちの重要な洞察は、タスク固有のデータはエージェントがトレーニングする新しいデータを提供するだけでなく、エージェントが学習に使用するべき事前データの種類を知らせることもできます。 具体的には、少量のダウンストリーム専門家データを使用して、オフラインでラベルなしのデータセット(多くのサブ最適動作を含む)から関連する振る舞いを選択的にクエリするシンプルなアプローチを提案する。 エージェントは専門家とクエリーデータで共同で訓練される。 提案手法はタスクへの関連する遷移のみをクエリし、サブ最適またはタスク不要なデータをフィルタリングすることを学習する。 これにより、タスク固有のデータとオフラインのデータの混合からより効果的に学習することができる。 さらに,画像からロボット操作タスクをシミュレートすることで,より複雑な目標条件付け手法を20%向上させることができた。 ビデオやコードについてはhttps://sites.google.com/view/behaviorretrievalを参照。

Enabling robots to learn novel visuomotor skills in a data-efficient manner remains an unsolved problem with myriad challenges. A popular paradigm for tackling this problem is through leveraging large unlabeled datasets that have many behaviors in them and then adapting a policy to a specific task using a small amount of task-specific human supervision (i.e. interventions or demonstrations). However, how best to leverage the narrow task-specific supervision and balance it with offline data remains an open question. Our key insight in this work is that task-specific data not only provides new data for an agent to train on but can also inform the type of prior data the agent should use for learning. Concretely, we propose a simple approach that uses a small amount of downstream expert data to selectively query relevant behaviors from an offline, unlabeled dataset (including many sub-optimal behaviors). The agent is then jointly trained on the expert and queried data. We observe that our method learns to query only the relevant transitions to the task, filtering out sub-optimal or task-irrelevant data. By doing so, it is able to learn more effectively from the mix of task-specific and offline data compared to naively mixing the data or only using the task-specific data. Furthermore, we find that our simple querying approach outperforms more complex goal-conditioned methods by 20% across simulated and real robotic manipulation tasks from images. See https://sites.google.com/view/behaviorretrieval for videos and code.
翻訳日:2023-04-19 16:05:11 公開日:2023-04-18
# 低ランクテンソル分解, ラドン変換, 辞書による関節確率分布の推定

Estimating Joint Probability Distribution With Low-Rank Tensor Decomposition, Radon Transforms and Dictionaries ( http://arxiv.org/abs/2304.08740v1 )

ライセンス: Link先を確認
Pranava Singhal, Waqar Mirza, Ajit Rajwade, Karthik S. Gurumoorthy(参考訳) 本稿では, 混合成分の少ない製品密度の混合として, 基礎となる分布を分解できることを仮定して, データサンプルから結合確率密度を推定する方法について述べる。 先行研究では、このような分解を用いて、低次元の辺縁から関節密度を推定しており、同じサンプル数でより確実に推定できる。 我々は,1次元の密度を表す辞書と,1次元の辺縁から連続分布を推定するランダムな投影の2つの主要なアイデアを組み合わせる。 提案アルゴリズムは, 従来の辞書に基づく手法よりも, サンプルの複雑さの向上に有効である。 合成確率密度を推定する手法の性能を評価し,従来の辞書に基づく手法とガウス混合モデル(GMM)との比較を行った。 我々のアルゴリズムは、全ての実験環境でこれらの他のアプローチよりも優れています。

In this paper, we describe a method for estimating the joint probability density from data samples by assuming that the underlying distribution can be decomposed as a mixture of product densities with few mixture components. Prior works have used such a decomposition to estimate the joint density from lower-dimensional marginals, which can be estimated more reliably with the same number of samples. We combine two key ideas: dictionaries to represent 1-D densities, and random projections to estimate the joint distribution from 1-D marginals, explored separately in prior work. Our algorithm benefits from improved sample complexity over the previous dictionary-based approach by using 1-D marginals for reconstruction. We evaluate the performance of our method on estimating synthetic probability densities and compare it with the previous dictionary-based approach and Gaussian Mixture Models (GMMs). Our algorithm outperforms these other approaches in all the experimental settings.
翻訳日:2023-04-19 16:04:46 公開日:2023-04-18
# GNNに基づくSATソルビングにおける可変依存性の対応

Addressing Variable Dependency in GNN-based SAT Solving ( http://arxiv.org/abs/2304.08738v1 )

ライセンス: Link先を確認
Zhiyuan Yan, Min Li, Zhengyuan Shi, Wenjie Zhang, Yingcong Chen and Hongce Zhang(参考訳) Boolean satisfiability problem (SAT)は、多くのアプリケーションに基本的な問題である。 既存の研究では(近似)SAT解決にグラフニューラルネットワーク(GNN)が使用されている。 典型的なGNNベースのエンドツーエンドSATソルバはSATソリューションを同時に予測する。 対称SAT問題の群では,SAT問題におけるブール変数間の依存性を無視するため,同時予測が間違った解を生成することが保証されている。 %) のasymsatを提案する。これはgnnベースのアーキテクチャで、再帰ニューラルネットワークを統合し、変数割り当てに対する依存予測を生成する。 実験結果から,大規模テストセット上でのSATインスタンスの解数を改善することにより,依存変数予測がGNN方式の解解能力を拡張できることが示唆された。

Boolean satisfiability problem (SAT) is fundamental to many applications. Existing works have used graph neural networks (GNNs) for (approximate) SAT solving. Typical GNN-based end-to-end SAT solvers predict SAT solutions concurrently. We show that for a group of symmetric SAT problems, the concurrent prediction is guaranteed to produce a wrong answer because it neglects the dependency among Boolean variables in SAT problems. % We propose AsymSAT, a GNN-based architecture which integrates recurrent neural networks to generate dependent predictions for variable assignments. The experiment results show that dependent variable prediction extends the solving capability of the GNN-based method as it improves the number of solved SAT instances on large test sets.
翻訳日:2023-04-19 16:04:32 公開日:2023-04-18
# 人間と機械は同じ目を持っていますか。 画像分類における人間と機械の知覚的差異

Do humans and machines have the same eyes? Human-machine perceptual differences on image classification ( http://arxiv.org/abs/2304.08733v1 )

ライセンス: Link先を確認
Minghao Liu, Jiaheng Wei, Yang Liu, James Davis(参考訳) 訓練されたコンピュータビジョンモデルは、トレーニングラベルから学んだ人間の行動を模倣してビジョンタスクを解決すると仮定される。 最近のビジョン研究におけるほとんどの取り組みは、標準化されたベンチマークを用いてモデルタスクのパフォーマンスを測定することに焦点を当てている。 人間と機械の知覚的違いを理解するために、限られた作業がなされている。 このギャップを埋めるために、我々はまず2つの情報源から誤りの統計的分布を定量化し分析する。 そして、課題を難易度でランク付けした後、人間と機械の専門知識を探る。 人間や機械が全体的に類似している場合でも、答えの分布は様々である。 人間と機械の知覚的な違いを利用して、人間や機械よりも優れたポストホックな人間と機械のコラボレーションを実証する。

Trained computer vision models are assumed to solve vision tasks by imitating human behavior learned from training labels. Most efforts in recent vision research focus on measuring the model task performance using standardized benchmarks. Limited work has been done to understand the perceptual difference between humans and machines. To fill this gap, our study first quantifies and analyzes the statistical distributions of mistakes from the two sources. We then explore human vs. machine expertise after ranking tasks by difficulty levels. Even when humans and machines have similar overall accuracies, the distribution of answers may vary. Leveraging the perceptual difference between humans and machines, we empirically demonstrate a post-hoc human-machine collaboration that outperforms humans or machines alone.
翻訳日:2023-04-19 16:04:21 公開日:2023-04-18
# 歩道はeスクーターで囲まれているのか? マイクロモビリティサービスの時空間分析

Are footpaths encroached by shared e-scooters? Spatio-temporal Analysis of Micro-mobility Services ( http://arxiv.org/abs/2304.08721v1 )

ライセンス: Link先を確認
Hiruni Kegalle, Danula Hettiachchi, Jeffrey Chan, Flora Salim and Mark Sanderson(参考訳) マイクロモビリティサービス(eバイク、eスクーターなど)は都市社会で人気が高まり、機会と挑戦をもたらす柔軟な輸送手段となっている。 マイクロモビリティ利用データから得られる洞察は,交通手段として,政策定式化やサービス品質の向上に有用である。 既存の研究は、異なる地域における利用分布に関連するパターンや特徴を分析し、時間的・空間的な側面に焦点を当てている。 本稿では,e-scooterトリップに関する空間的特性と時間的特性の両方を,より粒度の高いレベルで解析し,事前解析ができなかった時間枠や地域空間での観測を可能にする手法を組み合わせる。 共有E-Scooter上での匿名化および制限されたデータから得られた知見は、マイクロモビリティートリップデータに対する雇用方法の適用性を示している。 調査の結果,人口密度が最も重要であり,e-scooterの使用が肯定的であった。 自動車を所有する人口は、共有のe-scooterトリップと負の関連があり、自動車所有者のe-scooter使用率の低下を示唆している。 さらに,1時間あたりのe-scooterトリップ数の予測において,降水よりも湿度の影響が重要であることがわかった。 バッファ分析の結果、約29%の旅行が停止し、27%の旅行が徒歩で始まり、メルボルンで駐車するEスクータに足場を利用できるようになった。

Micro-mobility services (e.g., e-bikes, e-scooters) are increasingly popular among urban communities, being a flexible transport option that brings both opportunities and challenges. As a growing mode of transportation, insights gained from micro-mobility usage data are valuable in policy formulation and improving the quality of services. Existing research analyses patterns and features associated with usage distributions in different localities, and focuses on either temporal or spatial aspects. In this paper, we employ a combination of methods that analyse both spatial and temporal characteristics related to e-scooter trips in a more granular level, enabling observations at different time frames and local geographical zones that prior analysis wasn't able to do. The insights obtained from anonymised, restricted data on shared e-scooter rides show the applicability of the employed method on regulated, privacy preserving micro-mobility trip data. Our results showed population density is the topmost important feature, and it associates with e-scooter usage positively. Population owning motor vehicles is negatively associated with shared e-scooter trips, suggesting a reduction in e-scooter usage among motor vehicle owners. Furthermore, we found that the effect of humidity is more important than precipitation in predicting hourly e-scooter trip count. Buffer analysis showed, nearly 29% trips were stopped, and 27% trips were started on the footpath, revealing higher utilisation of footpaths for parking e-scooters in Melbourne.
翻訳日:2023-04-19 16:04:09 公開日:2023-04-18
# 異なる種類のがんの分類のための efficientnet アルゴリズム

EfficientNet Algorithm for Classification of Different Types of Cancer ( http://arxiv.org/abs/2304.08715v1 )

ライセンス: Link先を確認
Romario Sameh Samir(参考訳) 早期発見と効果的な治療には, がんの分類の正確かつ効率的な分類が不可欠である。 本稿では,脳腫瘍,乳癌,乳癌,皮膚がんの分類のためのEfficientNetアルゴリズムを用いた実験結果について述べる。 公開データセットを使用して、一貫性と互換性を確保するために、イメージを前処理しました。 実験の結果,EfficientNetアルゴリズムは各がんデータセットの精度,精度,リコール,F1スコアを達成し,他の最先端アルゴリズムよりも優れていることがわかった。 また, efficientnetアルゴリズムの長所と短所,臨床応用の可能性についても考察した。 以上の結果から, efficientnetアルゴリズムはがんの分類に適しており,がん診断の正確性と効率を向上させるのに有用であることが示唆された。

Accurate and efficient classification of different types of cancer is critical for early detection and effective treatment. In this paper, we present the results of our experiments using the EfficientNet algorithm for classification of brain tumor, breast cancer mammography, chest cancer, and skin cancer. We used publicly available datasets and preprocessed the images to ensure consistency and comparability. Our experiments show that the EfficientNet algorithm achieved high accuracy, precision, recall, and F1 scores on each of the cancer datasets, outperforming other state-of-the-art algorithms in the literature. We also discuss the strengths and weaknesses of the EfficientNet algorithm and its potential applications in clinical practice. Our results suggest that the EfficientNet algorithm is well-suited for classification of different types of cancer and can be used to improve the accuracy and efficiency of cancer diagnosis.
翻訳日:2023-04-19 16:03:44 公開日:2023-04-18
# 分散学習の特徴付けの不可能性--長年の問題に対する単純解法

Impossibility of Characterizing Distribution Learning -- a simple solution to a long-standing problem ( http://arxiv.org/abs/2304.08712v1 )

ライセンス: Link先を確認
Tosca Lechner, Shai-Ben-David(参考訳) PAC学習性を特徴付ける確率分布のクラスのパラメータを見つけるための長年の課題を考察する。 このようなパラメータは存在しません。 本手法は,学習可能性の特徴付けや学習課題についても同様の結果を示すことができる。 学習分布クラスのサンプル複雑性を特徴付ける次元の概念は存在しないことを示す。 次に,学習可能性(量的サンプル複雑性関数ではなく)を特徴付けることの弱い要件を考える。 そこで本研究では,このような特徴付けに対する自然な要件を提案し,これらの要件を満たす学習能力のキャラクタリゼーションが存在しないことを示す。 さらに,この結果が,他の様々な学習問題にも有効であることを示す。 特に,分散クラスに対する分類学習,二分分類の学習,限界分布の制限された集合,連続的な損失を伴う実数値関数のクラスに対する学習可能性など,各タスクの次元的特徴付け(あるいは学習可能性の評価)は存在しないことを示す。

We consider the long-standing question of finding a parameter of a class of probability distributions that characterizes its PAC learnability. We provide a rather surprising answer - no such parameter exists. Our techniques allow us to show similar results for several general notions of characterizing learnability and for several learning tasks. We show that there is no notion of dimension that characterizes the sample complexity of learning distribution classes. We then consider the weaker requirement of only characterizing learnability (rather than the quantitative sample complexity function). We propose some natural requirements for such a characterization and go on to show that there exists no characterization of learnability that satisfies these requirements for classes of distributions. Furthermore, we show that our results hold for various other learning problems. In particular, we show that there is no notion of dimension characterizing (or characterization of learnability) for any of the tasks: classification learning for distribution classes, learning of binary classifications w.r.t. a restricted set of marginal distributions, and learnability of classes of real-valued functions with continuous losses.
翻訳日:2023-04-19 16:03:30 公開日:2023-04-18
# 教師なし異常検出のための量子アルゴリズム

Quantum Algorithm for Unsupervised Anomaly Detection ( http://arxiv.org/abs/2304.08710v1 )

ライセンス: Link先を確認
MingChao Guo, ShiJie Pan, WenMin Li, Fei Gao, SuJuan Qin, XiaoLing Yu, XuanWen Zhang, QiaoYan Wen(参考訳) 機械学習の重要な分野である異常検出は、不正検出、医療、侵入検知、軍事監視などにおいて重要な役割を果たす。 最もよく使われている教師なし異常検出アルゴリズムとして、LoFアルゴリズム(Local Outlier Factor Algorithm)が広く研究されている。 このアルゴリズムは、3つのステップ、すなわち各データポイント x の k-距離近傍を決定し、x の局所到達率密度を計算し、x が異常かどうかを判定するために x の局所アウトリーチ係数を計算する。 LOFアルゴリズムは、ビッグデータを処理する際に計算コストがかかる。 ここでは古典的アルゴリズムに対応する3つの部分からなる量子LOFアルゴリズムを提案する。 具体的には、振幅推定と最小探索によってxのk距離近傍を判定し、量子乗算加算器に基づいて各データ点の局所到達可能性密度を並列に計算し、振幅推定を用いて各データ点の局所的外れ係数を並列に求める。 量子アルゴリズムは,データ点の次元における指数関数的な速度アップと,従来のデータ点数に対する多項式の速度アップを達成していることが示された。 この研究は、教師なし異常検出における量子コンピューティングの利点を示す。

Anomaly detection, an important branch of machine learning, plays a critical role in fraud detection, health care, intrusion detection, military surveillance, etc. As one of the most commonly used unsupervised anomaly detection algorithms, the Local Outlier Factor algorithm (LOF algorithm) has been extensively studied. This algorithm contains three steps, i.e., determining the k-distance neighborhood for each data point x, computing the local reachability density of x, and calculating the local outlier factor of x to judge whether x is abnormal. The LOF algorithm is computationally expensive when processing big data sets. Here we present a quantum LOF algorithm consisting of three parts corresponding to the classical algorithm. Specifically, the k-distance neighborhood of x is determined by amplitude estimation and minimum search; the local reachability density of each data point is calculated in parallel based on the quantum multiply-adder; the local outlier factor of each data point is obtained in parallel using amplitude estimation. It is shown that our quantum algorithm achieves exponential speedup on the dimension of the data points and polynomial speedup on the number of data points compared to its classical counterpart. This work demonstrates the advantage of quantum computing in unsupervised anomaly detection.
翻訳日:2023-04-19 16:03:14 公開日:2023-04-18
# マルチモーダルな3次元物体追跡を実現するには2つの検出器が必要だ

You Only Need Two Detectors to Achieve Multi-Modal 3D Multi-Object Tracking ( http://arxiv.org/abs/2304.08709v1 )

ライセンス: Link先を確認
Xiyang Wang, Jiawei He, Chunyun Fu, Ting Meng, Mingguang Huang(参考訳) まず,マルチモーダル融合(multi-modal fusion)に基づくマルチオブジェクト追跡フレームワークを提案する。 オブジェクト検出とマルチオブジェクト追跡を同一モデルに統合することにより、このフレームワークは従来のTBDパラダイムにおける複雑なデータ関連プロセスを避け、追加のトレーニングを必要としない。 次に、履歴軌道回帰の信頼性を探究し、現在のフレーム(弱物体または強物体)における軌道の可能性状態を分析し、信頼融合モジュールを、軌道の非最大抑制と順序関係の検出を導くように設計する。 最後に、KITTIとWaymoのデータセットについて広範な実験を行う。 提案手法は2つのモーダル検出器のみを用いてロバストなトラッキングが可能であり,最新のTBDパラダイムに基づくマルチモーダルトラッキング手法よりも精度が高いことを示す。 提案手法のソースコードはhttps://github.com/wangxiyang2022/yontd-motで入手できる。

Firstly, a new multi-object tracking framework is proposed in this paper based on multi-modal fusion. By integrating object detection and multi-object tracking into the same model, this framework avoids the complex data association process in the classical TBD paradigm, and requires no additional training. Secondly, confidence of historical trajectory regression is explored, possible states of a trajectory in the current frame (weak object or strong object) are analyzed and a confidence fusion module is designed to guide non-maximum suppression of trajectory and detection for ordered association. Finally, extensive experiments are conducted on the KITTI and Waymo datasets. The results show that the proposed method can achieve robust tracking by using only two modal detectors and it is more accurate than many of the latest TBD paradigm-based multi-modal tracking methods. The source codes of the proposed method are available at https://github.com/wangxiyang2022/YONTD-MOT
翻訳日:2023-04-19 16:02:53 公開日:2023-04-18
# ガラスを通して見る:高鏡面反射に対する神経表面再構成

Looking Through the Glass: Neural Surface Reconstruction Against High Specular Reflections ( http://arxiv.org/abs/2304.08706v1 )

ライセンス: Link先を確認
Jiaxiong Qiu, Peng-Tao Jiang, Yifan Zhu, Ze-Xin Yin, Ming-Ming Cheng, Bo Ren(参考訳) ニューラル暗黙法は、わずかなハイライトの下で高品質な3次元物体表面を達成している。 しかし、高いスペクトル反射 (HSR) は、眼鏡で捉えた場合、しばしば対象物の前に現れる。 これらのシーンにおける複雑な曖昧さは、マルチビューの一貫性に反し、最近の方法でターゲットオブジェクトを正しく再構築することは困難である。 この問題を解決するために,暗黙のニューラルレンダリングに基づく新しい表面再構成フレームワークNeuS-HSRを提案する。 NeuS-HSRでは、物体表面は暗黙符号距離関数(SDF)としてパラメータ化される。 HSRの干渉を低減するため,描画画像を対象物体と補助平面の2つの外観に分解する手法を提案する。 物理仮定とニューラルネットワークを組み合わせた新しい補助平面モジュールを設計し,補助平面の外観を生成する。 合成および実世界のデータセットに対する大規模な実験により、NeuS-HSRはHSRに対して正確で堅牢なターゲット表面再構成のために最先端のアプローチより優れていることが示された。 コードはhttps://github.com/JiaxiongQ/NeuS-HSRで公開されている。

Neural implicit methods have achieved high-quality 3D object surfaces under slight specular highlights. However, high specular reflections (HSR) often appear in front of target objects when we capture them through glasses. The complex ambiguity in these scenes violates the multi-view consistency, then makes it challenging for recent methods to reconstruct target objects correctly. To remedy this issue, we present a novel surface reconstruction framework, NeuS-HSR, based on implicit neural rendering. In NeuS-HSR, the object surface is parameterized as an implicit signed distance function (SDF). To reduce the interference of HSR, we propose decomposing the rendered image into two appearances: the target object and the auxiliary plane. We design a novel auxiliary plane module by combining physical assumptions and neural networks to generate the auxiliary plane appearance. Extensive experiments on synthetic and real-world datasets demonstrate that NeuS-HSR outperforms state-of-the-art approaches for accurate and robust target surface reconstruction against HSR. Code is available at https://github.com/JiaxiongQ/NeuS-HSR.
翻訳日:2023-04-19 16:02:38 公開日:2023-04-18
# 在庫管理のための協調型マルチエージェント強化学習

Cooperative Multi-Agent Reinforcement Learning for Inventory Management ( http://arxiv.org/abs/2304.08769v1 )

ライセンス: Link先を確認
Madhav Khirwar, Karthik S. Gurumoorthy, Ankit Ajit Jain, Shantala Manchenahally(参考訳) 在庫管理のための強化学習 (Reinforcement Learning, RL) が初期段階の研究分野であるのに対し、アプローチは既成のRLアルゴリズムを微調整した単純な線形環境に限られる傾向にある。 これらの単純化された環境を実世界のサプライチェーンにスケールするには、以下の課題がある。環境の計算要件の最小化、実世界の店舗や倉庫におけるダイナミクスを代表するエージェント構成の特定、サプライチェーン全体の望ましい行動を促す報酬フレームワークの指定。 本研究では,1つの倉庫と複数店舗からなる独自のGPU並列化環境,拡張された状態と行動空間を取り入れたエージェント環境ダイナミクスのための新しいアーキテクチャ,大規模小売店のサプライチェーンニーズに対して最適化を目指す共通報酬仕様を提案する。 サプライチェーングラフの各頂点は、独自のインベントリに基づいて、頂点上流に補給命令を配置できる独立したエージェントである。 倉庫エージェントは、サプライヤからの注文とは別に、下流の店舗への補給を制限できる特別な資産を有しており、結果として追加のアロケーションサブポリシーを学ぶことができる。 我々は,1製品に対する基準ストックポリシーや他のRLベースの仕様など,標準在庫管理ポリシーを上回り,複数の製品に対する今後の作業方向を示すシステムを実現する。

With Reinforcement Learning (RL) for inventory management (IM) being a nascent field of research, approaches tend to be limited to simple, linear environments with implementations that are minor modifications of off-the-shelf RL algorithms. Scaling these simplistic environments to a real-world supply chain comes with a few challenges such as: minimizing the computational requirements of the environment, specifying agent configurations that are representative of dynamics at real world stores and warehouses, and specifying a reward framework that encourages desirable behavior across the whole supply chain. In this work, we present a system with a custom GPU-parallelized environment that consists of one warehouse and multiple stores, a novel architecture for agent-environment dynamics incorporating enhanced state and action spaces, and a shared reward specification that seeks to optimize for a large retailer's supply chain needs. Each vertex in the supply chain graph is an independent agent that, based on its own inventory, able to place replenishment orders to the vertex upstream. The warehouse agent, aside from placing orders from the supplier, has the special property of also being able to constrain replenishment to stores downstream, which results in it learning an additional allocation sub-policy. We achieve a system that outperforms standard inventory control policies such as a base-stock policy and other RL-based specifications for 1 product, and lay out a future direction of work for multiple products.
翻訳日:2023-04-19 15:56:28 公開日:2023-04-18
# マスキング言語モデルに基づくテキスト逆例検出

Masked Language Model Based Textual Adversarial Example Detection ( http://arxiv.org/abs/2304.08767v1 )

ライセンス: Link先を確認
Xiaomei Zhang, Zhaoxi Zhang, Qi Zhong, Xufei Zheng, Yanjun Zhang, Shengshan Hu, Leo Yu Zhang(参考訳) 敵攻撃は、安全クリティカルなアプリケーションにおける機械学習モデルの信頼性の高いデプロイに対する深刻な脅威である。 入力をわずかに修正することで、電流モデルを誤って予測することができる。 近年、多くの研究が、逆例は通常の例のデータ多様体から逸脱する傾向を示し、一方、事前学習されたマスキング言語モデルは通常のNLPデータの多様体に適合することを示した。 マスク付き言語モデルを用いた対向検出手法を提案するために,マスク付き言語モデルによって誘導される多様体の変化を探索することにより,正規例と対向例とを明確に区別可能な信号を生成できる,新しいテキスト対向的サンプル検出手法であるMasked Language Model-based Detection (MLMD)を提案する。 MLMDは、敵防衛のためのプラグ・アンド・プレイの使用法(すなわち、犠牲者モデルを再訓練する必要がない)を備えており、分類タスク、犠牲者モデルのアーキテクチャ、そして防御された攻撃方法には依存しない。 我々は、様々なベンチマークテキストデータセット、広く研究された機械学習モデル、および最先端(sota)敵対的攻撃(合計3*4*4 = 48$設定)でmlmdを評価する。 実験の結果, MLMDはAG-NEWS, IMDB, SST-2データセット上で, 0.984, 0.967, 0.901の検出精度で高い性能が得られることがわかった。 さらに、MLMDは、検出精度およびF1スコアにおけるSOTA検出防御よりも優れているか、少なくとも同等である。 逆例のオフマンフォールドの仮定に基づく多くの防衛の中で、この研究は多様体の変化を捉えるための新しい角度を提供する。 この作業のコードは \url{https://github.com/mlmddetection/mlmddetection} で公開されている。

Adversarial attacks are a serious threat to the reliable deployment of machine learning models in safety-critical applications. They can misguide current models to predict incorrectly by slightly modifying the inputs. Recently, substantial work has shown that adversarial examples tend to deviate from the underlying data manifold of normal examples, whereas pre-trained masked language models can fit the manifold of normal NLP data. To explore how to use the masked language model in adversarial detection, we propose a novel textual adversarial example detection method, namely Masked Language Model-based Detection (MLMD), which can produce clearly distinguishable signals between normal examples and adversarial examples by exploring the changes in manifolds induced by the masked language model. MLMD features a plug and play usage (i.e., no need to retrain the victim model) for adversarial defense and it is agnostic to classification tasks, victim model's architectures, and to-be-defended attack methods. We evaluate MLMD on various benchmark textual datasets, widely studied machine learning models, and state-of-the-art (SOTA) adversarial attacks (in total $3*4*4 = 48$ settings). Experimental results show that MLMD can achieve strong performance, with detection accuracy up to 0.984, 0.967, and 0.901 on AG-NEWS, IMDB, and SST-2 datasets, respectively. Additionally, MLMD is superior, or at least comparable to, the SOTA detection defenses in detection accuracy and F1 score. Among many defenses based on the off-manifold assumption of adversarial examples, this work offers a new angle for capturing the manifold change. The code for this work is openly accessible at \url{https://github.com/mlmddetection/MLMDdetection}.
翻訳日:2023-04-19 15:56:04 公開日:2023-04-18
# 事前学習型言語モデルを用いたバイオメディカルテキスト要約の検討

A Survey on Biomedical Text Summarization with Pre-trained Language Model ( http://arxiv.org/abs/2304.08763v1 )

ライセンス: Link先を確認
Qianqian Xie and Zheheng Luo and Benyou Wang and Sophia Ananiadou(参考訳) 生物医学文献や電子健康記録(EHR)などの生物医学テキストの指数的成長は、臨床医や研究者が臨床情報に効率的にアクセスする上で大きな課題となる。 この問題に対処するために, 臨床情報検索と管理を支援するために, 複数の生体医学文書からキー情報を蒸留する簡潔な要約を作成することを目的としたバイオメディカルテキスト要約が提案されている。 近年,プレトレーニング言語モデル (PLM) が,一般領域における自然言語処理タスクの事実上の標準となっている。 最近では、PLMが生物医学分野でさらに研究され、生物医学テキスト要約タスクに新たな洞察をもたらした。 本稿では,最近の進歩,課題,今後の方向性を理解するために,バイオメディカルテキスト要約のためのPLMを探索する最近の進歩を体系的に要約する。 PLM の活用方法と PLM の活用方法に応じて PLM ベースのアプローチを分類する。 次に、利用可能なデータセット、最近のアプローチ、タスクの評価メトリクスをレビューする。 最後に,既存の課題と今後の方向性について論じる。 研究コミュニティを促進するために、利用可能なデータセット、最近のアプローチ、コード、評価メトリクス、および公開プロジェクトにおけるリーダーボードを含むオープンリソースをラインアップします。

The exponential growth of biomedical texts such as biomedical literature and electronic health records (EHRs), provides a big challenge for clinicians and researchers to access clinical information efficiently. To address the problem, biomedical text summarization has been proposed to support clinical information retrieval and management, aiming at generating concise summaries that distill key information from single or multiple biomedical documents. In recent years, pre-trained language models (PLMs) have been the de facto standard of various natural language processing tasks in the general domain. Most recently, PLMs have been further investigated in the biomedical field and brought new insights into the biomedical text summarization task. In this paper, we systematically summarize recent advances that explore PLMs for biomedical text summarization, to help understand recent progress, challenges, and future directions. We categorize PLMs-based approaches according to how they utilize PLMs and what PLMs they use. We then review available datasets, recent approaches and evaluation metrics of the task. We finally discuss existing challenges and promising future directions. To facilitate the research community, we line up open resources including available datasets, recent approaches, codes, evaluation metrics, and the leaderboard in a public project: https://github.com/KenZLuo/Biomedical-Text-Summarization-Survey/tree/master.
翻訳日:2023-04-19 15:55:31 公開日:2023-04-18
# 心のための外骨格--メタ認知エージェントによる誤情報に対する戦略の探求

Exoskeleton for the Mind: Exploring Strategies Against Misinformation with a Metacognitive Agent ( http://arxiv.org/abs/2304.08759v1 )

ライセンス: Link先を確認
Yeongdae Kim, Takane Ueno, Katie Seaborn, Hiroki Oura, Jacqueline Urakami, Yuto Sawa(参考訳) 誤情報(英語: Misinformation)は、現代のソーシャルメディアプラットフォームにおけるグローバルな問題であり、有効なソリューションがほとんどない。 ソーシャルメディアプラットフォームは情報に対する認識を高めるツールを提供しているが、これらは実証的に評価されていないクローズドシステムである。 他にも新しいツールや戦略を開発したものもあるが、ほとんどは静的刺激、研究者のプロンプト、低い忠実度プロトタイプを用いて文脈から研究されている。 メタ認知の理論に基づく新しい誤情報防止エージェントをTwitter内で評価した。 パイロット実験(n=17)と多部実験(n=57,n=49)を行い,それぞれ異なる戦略を展開するエージェントの3つのバージョンを経験した。 コントロールより優れた戦略は1つもなかった。 また,エージェントの基盤となるロジックに対する透明性と明快さ,および誤情報への繰り返しの暴露やユーザエンゲージメントの欠如に対する懸念も確認した。

Misinformation is a global problem in modern social media platforms with few solutions known to be effective. Social media platforms have offered tools to raise awareness of information, but these are closed systems that have not been empirically evaluated. Others have developed novel tools and strategies, but most have been studied out of context using static stimuli, researcher prompts, or low fidelity prototypes. We offer a new anti-misinformation agent grounded in theories of metacognition that was evaluated within Twitter. We report on a pilot study (n=17) and multi-part experimental study (n=57, n=49) where participants experienced three versions of the agent, each deploying a different strategy. We found that no single strategy was superior over the control. We also confirmed the necessity of transparency and clarity about the agent's underlying logic, as well as concerns about repeated exposure to misinformation and lack of user engagement.
翻訳日:2023-04-19 15:55:09 公開日:2023-04-18
# 多元制御された$\textit{z}$-rotationゲート上の量子回路のキャラクタリゼーション、合成および最適化:系統的研究

Characterization, synthesis, and optimization of quantum circuits over multiple-control $\textit{Z}$-rotation gates: A systematic study ( http://arxiv.org/abs/2304.08758v1 )

ライセンス: Link先を確認
Shihao Zhang and Junda Wu and Lvzhou Li(参考訳) 我々は,マルチコントロール $z$-rotation (mczr) ゲートをプリミティブとして構成した量子回路を体系的に研究する。 本稿では,連続パラメータを持つMCZRゲート上の量子回路の機能を特徴付ける回路-多項式対応を確立する。 このような量子回路を正確に合成し、任意の対角ユニタリ行列を最適ゲート数で実装する方法を提案し、相補ゲートのペアを持つ特定のケースに対して最適な回路深さを求める。 さらに、任意のMCZR回路の深さを効果的に最適化するフレキシブルな反復アルゴリズムと共にゲート交換戦略を提案する。 理論解析の他に, 量子計算において, 対角型エルミート作用素と数キュービットの量子近似最適化アルゴリズム (qaoa) を含む2つの典型的な例について, 回路合成および最適化手法の実用的性能を数値実験によりさらに評価し, 回路深度をそれぞれ33.40\%, 15.55\%低減できることを示した。 そこで本研究では,最近開発したデバイスに量子回路とアルゴリズムを実装するための経路を提案する。

We conduct a systematic study of quantum circuits composed of multiple-control $Z$-rotation (MCZR) gates as primitives, since they are widely-used components in quantum algorithms and also have attracted much experimental interest in recent years. Herein, we establish a circuit-polynomial correspondence to characterize the functionality of quantum circuits over the MCZR gate set with continuous parameters. An analytic method for exactly synthesizing such quantum circuit to implement any given diagonal unitary matrix with an optimal gate count is proposed, which also enables the circuit depth optimal for specific cases with pairs of complementary gates. Furthermore, we present a gate-exchange strategy together with a flexible iterative algorithm for effectively optimizing the depth of any MCZR circuit, which can also be applied to quantum circuits over any other commuting gate set. Besides the theoretical analysis, the practical performances of our circuit synthesis and optimization techniques are further evaluated by numerical experiments on two typical examples in quantum computing, including diagonal Hermitian operators and Quantum Approximate Optimization Algorithm (QAOA) circuits with tens of qubits, which can demonstrate a reduction in circuit depth by 33.40\% and 15.55\% on average over relevant prior works, respectively. Therefore, our methods and results provide a pathway for implementing quantum circuits and algorithms on recently developed devices.
翻訳日:2023-04-19 15:54:51 公開日:2023-04-18
# NeAI: プラグアンドプレイ型ニューラルアンビエント照明のための事前計算式

NeAI: A Pre-convoluted Representation for Plug-and-Play Neural Ambient Illumination ( http://arxiv.org/abs/2304.08757v1 )

ライセンス: Link先を確認
Yiyu Zhuang, Qi Zhang, Xuan Wang, Hao Zhu, Ying Feng, Xiaoyu Li, Ying Shan, Xun Cao(参考訳) 近年の暗黙的神経表現の進歩は、多視点画像から詳細な形状や素材を復元する能力を示している。 しかし, 環境マップなどの簡易照明モデルを用いて非距離照明を表現したり, ネットワークを用いて直接光モデリングを行うことにより, 照明と材料の間には望ましくない分解が生じる可能性がある。 そこで我々は,NeRF(Neural Radiance Fields)を照明モデルとして用いて,複雑な照明を物理的に処理する,NeAI(Neural ambient illumination)という,完全に微分可能なフレームワークを提案する。 粗さ適応型スペキュラローブのための積分ローブ符号化と、事前計算した背景を正確な分解に活用することにより、提案手法は、物理ベースレンダリングをNeRF表現に統合するための重要なステップを示す。 実験では、従来の作品と比較して、新規ビューレンダリングの優れた性能を示し、任意のNeRFスタイルの環境下でオブジェクトを再レンダリングする能力は、仮想シーンと現実世界シーンのギャップを埋めるエキサイティングな可能性を開く。 プロジェクトと追加資料はhttps://yiyuzhuang.github.io/neai/で入手できる。

Recent advances in implicit neural representation have demonstrated the ability to recover detailed geometry and material from multi-view images. However, the use of simplified lighting models such as environment maps to represent non-distant illumination, or using a network to fit indirect light modeling without a solid basis, can lead to an undesirable decomposition between lighting and material. To address this, we propose a fully differentiable framework named neural ambient illumination (NeAI) that uses Neural Radiance Fields (NeRF) as a lighting model to handle complex lighting in a physically based way. Together with integral lobe encoding for roughness-adaptive specular lobe and leveraging the pre-convoluted background for accurate decomposition, the proposed method represents a significant step towards integrating physically based rendering into the NeRF representation. The experiments demonstrate the superior performance of novel-view rendering compared to previous works, and the capability to re-render objects under arbitrary NeRF-style environments opens up exciting possibilities for bridging the gap between virtual and real-world scenes. The project and supplementary materials are available at https://yiyuzhuang.github.io/NeAI/.
翻訳日:2023-04-19 15:54:24 公開日:2023-04-18
# AutoTaskFormer:マルチタスク学習のための視覚変換器検索

AutoTaskFormer: Searching Vision Transformers for Multi-task Learning ( http://arxiv.org/abs/2304.08756v1 )

ライセンス: Link先を確認
Yang Liu, Shen Yan, Yuge Zhang, Kan Ren, Quanlu Zhang, Zebin Ren, Deng Cai, Mi Zhang(参考訳) ビジョントランスフォーマーは、分類やセグメンテーションのような単一のタスクで素晴らしいパフォーマンスを示している。 しかし、現実世界の問題は分離されておらず、複数のタスクを同時に実行できる視覚トランスフォーマーが要求される。 既存のマルチタスクビジョントランスフォーマーは手作りであり、人間の専門知識に大きく依存している。 本稿では,この処理を自動化するために,autotaskformer (automated multi-task vision transformer) と呼ばれる,新しいニューラルネットワーク探索フレームワークを提案する。 AutoTaskFormerは、複数のタスク間で自動的に共有する重みを識別するだけでなく、様々なリソース制約の下でデプロイするための幅広いパラメータ(例えば、頭数やネットワーク深さ)を持つ何千ものよく訓練されたビジョントランスフォーマーも提供する。 小規模(2-task Cityscapesと3-task NYUv2)と大規模(16-task Taskonomy)データセットの両方の実験は、AutoTaskFormerがマルチタスク学習における最先端の手作り視覚変換器より優れていることを示している。 コードとモデル全体がオープンソース化される。

Vision Transformers have shown great performance in single tasks such as classification and segmentation. However, real-world problems are not isolated, which calls for vision transformers that can perform multiple tasks concurrently. Existing multi-task vision transformers are handcrafted and heavily rely on human expertise. In this work, we propose a novel one-shot neural architecture search framework, dubbed AutoTaskFormer (Automated Multi-Task Vision TransFormer), to automate this process. AutoTaskFormer not only identifies the weights to share across multiple tasks automatically, but also provides thousands of well-trained vision transformers with a wide range of parameters (e.g., number of heads and network depth) for deployment under various resource constraints. Experiments on both small-scale (2-task Cityscapes and 3-task NYUv2) and large-scale (16-task Taskonomy) datasets show that AutoTaskFormer outperforms state-of-the-art handcrafted vision transformers in multi-task learning. The entire code and models will be open-sourced.
翻訳日:2023-04-19 15:54:02 公開日:2023-04-18
# w-mae:マルチ変数天気予報のためのマスク付きオートエンコーダによる事前学習型気象モデル

W-MAE: Pre-trained weather model with masked autoencoder for multi-variable weather forecasting ( http://arxiv.org/abs/2304.08754v1 )

ライセンス: Link先を確認
Xin Man, Chenghong Zhang, Changyu Li, Jie Shao(参考訳) 天気予報は社会と経済の直接的な影響を伴う長年の計算課題である。 このタスクは大量の連続データ収集を伴い、長期間にわたって豊富な時空間依存性を示し、ディープラーニングモデルに非常に適しています。 本稿では,気象予報に事前学習手法を適用し,多変量気象予報のためのMasked AutoEncoderを用いた気象モデルW-MAEを提案する。 W-MAEは、気象変数内の空間的相関を再構成するために、自己教師付きで事前訓練される。 時間スケールでは、事前訓練したW-MAEを微調整し、気象変数の将来の状態を予測し、気象データに存在する時間依存性をモデル化する。 我々は,第5世代ECMWFリアナリシス(ERA5)データを用いて,サンプルを6時間毎に選択し,わずか2年のデータを用いて,W-MAEを事前訓練した。 同じトレーニングデータ条件下では、降水予測においてW-MAEとFourCastNetを比較し、W-MAEはFourCastNetを上回っている。 トレーニングデータがfourcastnetよりはるかに少ない環境では, 降水予測(0.80 対 0.98)では, モデルの方がずっと良好である。 さらに,本モデルが6時間から1週間の近距離予測において安定かつ有意な優位性を示すとともに,予測時間が長ければ長いほど,W-MAEの性能上の優位性が向上し,ロバスト性がさらに証明された。

Weather forecasting is a long-standing computational challenge with direct societal and economic impacts. This task involves a large amount of continuous data collection and exhibits rich spatiotemporal dependencies over long periods, making it highly suitable for deep learning models. In this paper, we apply pre-training techniques to weather forecasting and propose W-MAE, a Weather model with Masked AutoEncoder pre-training for multi-variable weather forecasting. W-MAE is pre-trained in a self-supervised manner to reconstruct spatial correlations within meteorological variables. On the temporal scale, we fine-tune the pre-trained W-MAE to predict the future states of meteorological variables, thereby modeling the temporal dependencies present in weather data. We pre-train W-MAE using the fifth-generation ECMWF Reanalysis (ERA5) data, with samples selected every six hours and using only two years of data. Under the same training data conditions, we compare W-MAE with FourCastNet, and W-MAE outperforms FourCastNet in precipitation forecasting. In the setting where the training data is far less than that of FourCastNet, our model still performs much better in precipitation prediction (0.80 vs. 0.98). Additionally, experiments show that our model has a stable and significant advantage in short-to-medium-range forecasting (i.e., forecasting time ranges from 6 hours to one week), and the longer the prediction time, the more evident the performance advantage of W-MAE, further proving its robustness.
翻訳日:2023-04-19 15:53:44 公開日:2023-04-18
# 熱力学的緩和過程における速度限界と散逸時間トレードオフ

Speed Limit and Dissipation-Time Trade-off in Thermodynamic Relaxation Processes ( http://arxiv.org/abs/2304.08752v1 )

ライセンス: Link先を確認
Jie Gu(参考訳) 時間非依存遷移速度をもつ古典確率過程の速度限界と消散時間トレードオフ関係について検討する。 以上の結果から,初期状態から所望の目標状態へ進化するのに要する時間は,これらの状態間の情報理論上の$\infty$-R\enyiの偏差によって下方から有界となることがわかった。 さらに,従来の限界を上回り,総レートの知識のみを必要とする,新たな散逸時間トレードオフ関係を提案する。

We investigate the speed limits and dissipation-time trade-off relation for classical stochastic processes with time-independent transition rates. Our results show that the time required to evolve from an initial to a desired target state is bounded from below by the informational-theoretic $\infty$-R\'enyi divergence between these states, divided by the total rate. Furthermore, we present a new dissipation-time trade-off relation that outperforms previous bounds and only requires knowledge of the total rate.
翻訳日:2023-04-19 15:53:15 公開日:2023-04-18
# 行動制約付きロボット制御のためのアクタ-クリティック深層強化学習アルゴリズムのベンチマーク

Benchmarking Actor-Critic Deep Reinforcement Learning Algorithms for Robotics Control with Action Constraints ( http://arxiv.org/abs/2304.08743v1 )

ライセンス: Link先を確認
Kazumi Kasaura, Shuwa Miura, Tadashi Kozuno, Ryo Yonetani, Kenta Hoshino, Yohei Hosoe(参考訳) 本研究では,行動制約付き強化学習(RL)アルゴリズムの評価のためのベンチマークを提案する。 行動制約付きRLでは、学習システムによって取られた各アクションは、一定の制約に従わなければならない。 これらの制約は、実世界のシステムにおけるアクションの実行可能性と安全性を確保するために不可欠である。 複数の動作制約型を含む複数のロボット制御環境にまたがる既存のアルゴリズムとその新しい変種を評価する。 我々の評価は、直感的なベースラインアプローチの有効性を含む驚くべき洞察を、この分野における最初の深い視点を提供する。 ベンチマーク問題と関連するコードはgithub.com/omron-sinicx/action-constrained-rl-benchmarkでさらなる研究と開発のために公開されている。

This study presents a benchmark for evaluating action-constrained reinforcement learning (RL) algorithms. In action-constrained RL, each action taken by the learning system must comply with certain constraints. These constraints are crucial for ensuring the feasibility and safety of actions in real-world systems. We evaluate existing algorithms and their novel variants across multiple robotics control environments, encompassing multiple action constraint types. Our evaluation provides the first in-depth perspective of the field, revealing surprising insights, including the effectiveness of a straightforward baseline approach. The benchmark problems and associated code utilized in our experiments are made available online at github.com/omron-sinicx/action-constrained-RL-benchmark for further research and development.
翻訳日:2023-04-19 15:53:03 公開日:2023-04-18
# AIによる意思決定における信頼行動と精度の相互依存性について

On the Interdependence of Reliance Behavior and Accuracy in AI-Assisted Decision-Making ( http://arxiv.org/abs/2304.08804v1 )

ライセンス: Link先を確認
Jakob Schoeffer, Johannes Jakubik, Michael Voessing, Niklas Kuehl, Gerhard Satzger(参考訳) AIによる意思決定では、人間をループに入れるという中心的な約束は、AIシステムを正しいものにすることで補完し、誤った推奨を覆すことである。 しかし実際には、人間はAIレコメンデーションを過度に、あるいは過小評価する傾向にあるのがよく見られ、それは間違ったレコメンデーションに固執するか、正しいレコメンデーションをオーバーライドすることを意味する。 このような信頼行動は意思決定の正確さを損なう。 本研究では,AIを用いた意思決定において,依存行動と精度の相互依存性を明確化し,分析する。 また,この相互依存をより具体化するためのビジュアルフレームワークを提案する。 このフレームワークは、経験的発見を解釈し比較し、ai支援意思決定における介入(説明など)の効果を微妙な理解を得るのに役立つ。 最後に、フレームワークからいくつかの興味深い特性を推測する。 i) 人間がAIレコメンデーションを過小評価する場合,意思決定の正確性の観点からAIを補完する可能性はない。 (二)人間が正しいAI勧告と間違ったAI勧告を区別できないときは、その改善も期待できない。 (iii)介入は、正しいことを判断する能力がなくても、人間のai勧告への執着が高まることのみによって引き起こされる意思決定の正確さを増加させる可能性がある。 本研究は,介入を経験的に評価する場合の精度および依存行動への影響の測定と報告の重要性を強調した。

In AI-assisted decision-making, a central promise of putting a human in the loop is that they should be able to complement the AI system by adhering to its correct and overriding its mistaken recommendations. In practice, however, we often see that humans tend to over- or under-rely on AI recommendations, meaning that they either adhere to wrong or override correct recommendations. Such reliance behavior is detrimental to decision-making accuracy. In this work, we articulate and analyze the interdependence between reliance behavior and accuracy in AI-assisted decision-making, which has been largely neglected in prior work. We also propose a visual framework to make this interdependence more tangible. This framework helps us interpret and compare empirical findings, as well as obtain a nuanced understanding of the effects of interventions (e.g., explanations) in AI-assisted decision-making. Finally, we infer several interesting properties from the framework: (i) when humans under-rely on AI recommendations, there may be no possibility for them to complement the AI in terms of decision-making accuracy; (ii) when humans cannot discern correct and wrong AI recommendations, no such improvement can be expected either; (iii) interventions may lead to an increase in decision-making accuracy that is solely driven by an increase in humans' adherence to AI recommendations, without any ability to discern correct and wrong. Our work emphasizes the importance of measuring and reporting both effects on accuracy and reliance behavior when empirically assessing interventions.
翻訳日:2023-04-19 15:48:17 公開日:2023-04-18
# MLP-AIR:グループ活動認識におけるアクターインタラクション関係学習のための効率的なMLPベース手法

MLP-AIR: An Efficient MLP-Based Method for Actor Interaction Relation Learning in Group Activity Recognition ( http://arxiv.org/abs/2304.08803v1 )

ライセンス: Link先を確認
Guoliang Xu, Jianqin Yin(参考訳) グループ活動認識(GAR)の課題は,グループ内のアクター空間的・時間的相互作用関係を学習することにより,グループの活動カテゴリを予測することである。 したがって、GARタスクには効果的なアクター関係学習法が不可欠である。 前作は主によく設計されたgcnまたはトランスフォーマによって相互作用関係を学ぶ。 例えば、アクターの相互作用関係を推測するためには、GCNは学習可能な隣接性を必要とし、トランスフォーマーは自己アテンションを計算する必要がある。 上記の手法は相互作用関係を効果的にモデル化することができるが、モデルの複雑さ(パラメータ数と計算量)も増大する。 本稿では,GARにおけるアクターインタラクション関係学習(MLP-AIR)のためのMLPに基づく新しい手法を設計する。 GCNやTransformersと比較すると,提案手法は競合するが概念的にはシンプルであり,複雑さを大幅に低減する。 具体的には、MLPベースの空間関係モデリングモジュール(MLP-S)、MLPベースの時間関係モデリングモジュール(MLP-T)、MLPベースの関係修正モジュール(MLP-R)の3つのサブモジュールを含む。 MLP-Sは、フレームごとに異なるアクター間の空間関係をモデル化するために使用される。 MLP-Tはアクターごとに異なるフレーム間の時間的関係をモデル化するために使用される。 MLP-Rはさらに、関係特徴の異なる次元の関係を洗練し、特徴の表現能力を向上させるために使われる。 MLP-AIRを評価するために、Volleyball と Collective Activity のデータセットを含む2つの広く使われているベンチマークで広範な実験を行った。 MLP-AIRは競争力のある結果が得られるが、複雑さは低い。

The task of Group Activity Recognition (GAR) aims to predict the activity category of the group by learning the actor spatial-temporal interaction relation in the group. Therefore, an effective actor relation learning method is crucial for the GAR task. The previous works mainly learn the interaction relation by the well-designed GCNs or Transformers. For example, to infer the actor interaction relation, GCNs need a learnable adjacency, and Transformers need to calculate the self-attention. Although the above methods can model the interaction relation effectively, they also increase the complexity of the model (the number of parameters and computations). In this paper, we design a novel MLP-based method for Actor Interaction Relation learning (MLP-AIR) in GAR. Compared with GCNs and Transformers, our method has a competitive but conceptually and technically simple alternative, significantly reducing the complexity. Specifically, MLP-AIR includes three sub-modules: MLP-based Spatial relation modeling module (MLP-S), MLP-based Temporal relation modeling module (MLP-T), and MLP-based Relation refining module (MLP-R). MLP-S is used to model the spatial relation between different actors in each frame. MLP-T is used to model the temporal relation between different frames for each actor. MLP-R is used further to refine the relation between different dimensions of relation features to improve the feature's expression ability. To evaluate the MLP-AIR, we conduct extensive experiments on two widely used benchmarks, including the Volleyball and Collective Activity datasets. Experimental results demonstrate that MLP-AIR can get competitive results but with low complexity.
翻訳日:2023-04-19 15:47:52 公開日:2023-04-18
# 多人数会話における話者プロファイリング

Speaker Profiling in Multiparty Conversations ( http://arxiv.org/abs/2304.08801v1 )

ライセンス: Link先を確認
Shivani Kumar, Rishabh Gupta, Md Shad Akhtar, Tanmoy Chakraborty(参考訳) 会話環境では、個人は独特な行動を示し、対話エージェントによる応答を生成するのに不適格なアプローチを提示する。 過去の研究は、話者ペルソナ情報を用いたパーソナライズされた対話エージェントを作成することを目的としていたが、既に話者ペルソナが提供されているという仮定に依存している。 しかし、特に銀行、ホテル予約、航空会社予約などの産業で使われるチャットボットに関しては、この仮定が常に有効であるとは限らない。 本研究の目的は,会話における話者プロファイリング(SPC)の課題を探求することで,このギャップを埋めることである。 SPCの主な目的は、対話に存在する各話者のペルソナ特性の要約を作成することである。 そこで我々は,課題をペルソナ発見,ペルソナ型識別,ペルソナ値抽出という3つのサブタスクに分割した。 最初のサブタスクは、ペルソナ情報を含むすべての発話を識別することを目的としている。 次に、第2のタスクは、これらの発話を評価し、保持するペルソナ情報の種類を識別し、第3のサブタスクは、識別された各タイプの特定のペルソナ値を識別する。 SPCの課題に対処するため、私たちはSPICEという名前の新しいデータセットをキュレートしました。 我々は、このデータセットの様々なベースラインを評価し、新しいニューラルモデルSPOTでベンチマークを行い、本論文で紹介する。 さらに,SPOTの包括的解析を行い,各モジュールの制約を定量的かつ質的に検討する。

In conversational settings, individuals exhibit unique behaviors, rendering a one-size-fits-all approach insufficient for generating responses by dialogue agents. Although past studies have aimed to create personalized dialogue agents using speaker persona information, they have relied on the assumption that the speaker's persona is already provided. However, this assumption is not always valid, especially when it comes to chatbots utilized in industries like banking, hotel reservations, and airline bookings. This research paper aims to fill this gap by exploring the task of Speaker Profiling in Conversations (SPC). The primary objective of SPC is to produce a summary of persona characteristics for each individual speaker present in a dialogue. To accomplish this, we have divided the task into three subtasks: persona discovery, persona-type identification, and persona-value extraction. Given a dialogue, the first subtask aims to identify all utterances that contain persona information. Subsequently, the second task evaluates these utterances to identify the type of persona information they contain, while the third subtask identifies the specific persona values for each identified type. To address the task of SPC, we have curated a new dataset named SPICE, which comes with specific labels. We have evaluated various baselines on this dataset and benchmarked it with a new neural model, SPOT, which we introduce in this paper. Furthermore, we present a comprehensive analysis of SPOT, examining the limitations of individual modules both quantitatively and qualitatively.
翻訳日:2023-04-19 15:47:10 公開日:2023-04-18
# スケルトンクラウドカラー化による自己教師付き3次元行動表現学習

Self-Supervised 3D Action Representation Learning with Skeleton Cloud Colorization ( http://arxiv.org/abs/2304.08799v1 )

ライセンス: Link先を確認
Siyuan Yang, Jun Liu, Shijian Lu, Er Meng Hwa, Yongjian Hu, Alex C. Kot(参考訳) 3dスケルトンに基づく人間の行動認識は近年注目を集めている。 既存の作業の多くは教師あり学習に重点を置いており、大量のラベル付けされたアクションシーケンスを必要とする。 本稿では骨格に基づく行動認識のための自己教師型3次元行動表現学習について述べる。 自己教師あり表現学習と,ラベルなしスケルトンシーケンスデータから空間的および時間的スケルトン表現を学習できる新しいスケルトンクラウドカラー化手法の設計について検討した。 我々は3次元スケルトン雲として骨格行動シーケンスを表現し、元の(注釈のない)スケルトンシーケンスの時間的および空間的順序に従って雲の各点を着色する。 色付きスケルトン点雲を活用することで、スケルトン関節の人工色ラベルから空間的特徴を効果的に学習できる自動エンコーダフレームワークを設計する。 具体的には、細粒度と粗粒度を利用した2段階事前学習ネットワークを設計し、マルチスケールの時空間特徴を学習すると共に、設計した自動エンコーダフレームワークを事前訓練して情報表現を学習するMasked Skeleton Cloud Repaintingタスクを設計する。 我々は,教師なし,半教師なし,完全教師なし,転送学習設定を含む,異なる構成でトレーニングされた線形分類器を用いて,スケルトンクラウドカラー化アプローチを評価した。 NTU RGB+D, NTU RGB+D 120, PKU-MMD, NW-UCLA, UWA3Dデータセットの大規模な実験により, 提案手法は既存の教師なしおよび半教師付き3D動作認識手法よりも大きなマージンで優れており, 教師付き3D動作認識における競争性能も向上していることが示された。

3D Skeleton-based human action recognition has attracted increasing attention in recent years. Most of the existing work focuses on supervised learning which requires a large number of labeled action sequences that are often expensive and time-consuming to annotate. In this paper, we address self-supervised 3D action representation learning for skeleton-based action recognition. We investigate self-supervised representation learning and design a novel skeleton cloud colorization technique that is capable of learning spatial and temporal skeleton representations from unlabeled skeleton sequence data. We represent a skeleton action sequence as a 3D skeleton cloud and colorize each point in the cloud according to its temporal and spatial orders in the original (unannotated) skeleton sequence. Leveraging the colorized skeleton point cloud, we design an auto-encoder framework that can learn spatial-temporal features from the artificial color labels of skeleton joints effectively. Specifically, we design a two-steam pretraining network that leverages fine-grained and coarse-grained colorization to learn multi-scale spatial-temporal features.In addition, we design a Masked Skeleton Cloud Repainting task that can pretrain the designed auto-encoder framework to learn informative representations. We evaluate our skeleton cloud colorization approach with linear classifiers trained under different configurations, including unsupervised, semi-supervised, fully-supervised, and transfer learning settings. Extensive experiments on NTU RGB+D, NTU RGB+D 120, PKU-MMD, NW-UCLA, and UWA3D datasets show that the proposed method outperforms existing unsupervised and semi-supervised 3D action recognition methods by large margins and achieves competitive performance in supervised 3D action recognition as well.
翻訳日:2023-04-19 15:46:24 公開日:2023-04-18
# テンソル環分解による大規模動的ネットワーク表現

Large-scale Dynamic Network Representation via Tensor Ring Decomposition ( http://arxiv.org/abs/2304.08798v1 )

ライセンス: Link先を確認
Qu Wang(参考訳) 大規模動的ネットワーク(LDN)はインターネット時代においてますます重要になっているが、これらのネットワークの動的な性質はネットワーク構造の進化を捉え、エッジウェイトが時間とともにどのように変化するかを捉え、データ分析とモデリングに固有の課題を提起している。 テンソルの潜在因子化(LFT)モデルは,LDNの効率的な表現学習を容易にする。 しかし、既存のLFTモデルはカノニカルなポリアディック因子化(CPF)に基づいている。 そこで本研究では,LDNの効率的な表現学習のためのテンソルリング分解に基づくモデルを提案する。 具体的には,単一潜在因子依存,非負および乗法的更新(slf-nmu)の原理をtr分解モデルに取り入れ,tr分解の特定のバイアス形式を分析する。 2つの実LDNに関する実験的研究により,提案手法が既存モデルよりも精度が高いことを示す。

Large-scale Dynamic Networks (LDNs) are becoming increasingly important in the Internet age, yet the dynamic nature of these networks captures the evolution of the network structure and how edge weights change over time, posing unique challenges for data analysis and modeling. A Latent Factorization of Tensors (LFT) model facilitates efficient representation learning for a LDN. But the existing LFT models are almost based on Canonical Polyadic Factorization (CPF). Therefore, this work proposes a model based on Tensor Ring (TR) decomposition for efficient representation learning for a LDN. Specifically, we incorporate the principle of single latent factor-dependent, non-negative, and multiplicative update (SLF-NMU) into the TR decomposition model, and analyze the particular bias form of TR decomposition. Experimental studies on two real LDNs demonstrate that the propose method achieves higher accuracy than existing models.
翻訳日:2023-04-19 15:45:50 公開日:2023-04-18
# 深部非制限文書画像整形

Deep Unrestricted Document Image Rectification ( http://arxiv.org/abs/2304.08796v1 )

ライセンス: Link先を確認
Hao Feng, Shaokai Liu, Jiajun Deng, Wengang Zhou, Houqiang Li(参考訳) 近年、文書画像の修正に多大な努力が払われているが、既存の高度なアルゴリズムは制限された文書画像の処理に限られており、入力画像は完全な文書を組み込まなければならない。 キャプチャされた画像が単にローカルテキスト領域を含むと、その補正品質は劣化し不満足になる。 以前提案したDocTrは、文書画像修正のためのトランスフォーマー支援ネットワークであり、この制限に悩まされている。 本稿では,入力された歪み画像の制約を伴わずに,文書画像修正のための新しい統一フレームワークであるdoctr++を提案する。 私たちの主要な技術的改善は3つの側面でまとめられます。 まず,階層型エンコーダデコーダ構造を多スケール表現抽出・解析に適用することにより,元のアーキテクチャをアップグレードする。 次に,歪みのない文書画像と歪みのない文書画像との画素間マッピング関係を再構成する。 得られたデータはDocTr++をトレーニングするために使われます。 第3に,実世界のテストセットと,修正品質評価に適用可能なメトリクスをコントリビュートする。 我々の知る限り、これは制約なしの文書画像の修正のための学習に基づく最初の方法である。 大規模な実験を行い,本手法の有効性と優位性を実証した。 DocTr++が汎用的なドキュメントイメージの修正の強力なベースラインとして機能し、学習ベースのアルゴリズムのさらなる進歩と適用を促進することを願っています。 ソースコードと提案されたデータセットはhttps://github.com/fh2019ustc/DocTr-Plusで公開されている。

In recent years, tremendous efforts have been made on document image rectification, but existing advanced algorithms are limited to processing restricted document images, i.e., the input images must incorporate a complete document. Once the captured image merely involves a local text region, its rectification quality is degraded and unsatisfactory. Our previously proposed DocTr, a transformer-assisted network for document image rectification, also suffers from this limitation. In this work, we present DocTr++, a novel unified framework for document image rectification, without any restrictions on the input distorted images. Our major technical improvements can be concluded in three aspects. Firstly, we upgrade the original architecture by adopting a hierarchical encoder-decoder structure for multi-scale representation extraction and parsing. Secondly, we reformulate the pixel-wise mapping relationship between the unrestricted distorted document images and the distortion-free counterparts. The obtained data is used to train our DocTr++ for unrestricted document image rectification. Thirdly, we contribute a real-world test set and metrics applicable for evaluating the rectification quality. To our best knowledge, this is the first learning-based method for the rectification of unrestricted document images. Extensive experiments are conducted, and the results demonstrate the effectiveness and superiority of our method. We hope our DocTr++ will serve as a strong baseline for generic document image rectification, prompting the further advancement and application of learning-based algorithms. The source code and the proposed dataset are publicly available at https://github.com/fh2019ustc/DocTr-Plus.
翻訳日:2023-04-19 15:45:34 公開日:2023-04-18
# AI可能なシステムにおけるユーザ信頼の体系的文献レビュー:HCIの視点から

A Systematic Literature Review of User Trust in AI-Enabled Systems: An HCI Perspective ( http://arxiv.org/abs/2304.08795v1 )

ライセンス: Link先を確認
Tita Alissa Bach, Amna Khan, Harry Hallock, Gabriela Beltr\~ao, Sonia Sousa(参考訳) 人工知能(AI)のユーザ信頼は、採用を促進する重要な要素として認識され、証明されている。 AI対応システムは、技術中心のアプローチを超えて、より人間中心のアプローチ、HCI(Human-Computer Interaction)分野の核となる原則を受け入れる必要があることが示唆されている。 このレビューは、ユーザー信頼の定義、影響要因、および23の実証的研究からの計測方法の概要を提供し、将来の技術および設計戦略、研究、ユーザーAI関係を校正するためのイニシアチブの洞察を集めることを目的としている。 その結果、信頼を定義する方法が複数あることが確認された。 特定のコンテキストにおけるユーザの信頼を描写する最も適切な信頼定義の選択は、定義を比較するのではなく、重点を置くべきです。 ai対応システムのユーザ信頼は、社会倫理的考察、技術とデザインの特徴、ユーザ特性という3つの主要なテーマに影響されている。 ユーザ特性は,開発からAI対応システムの監視に至るまで,ユーザの関与の重要性を増進する。 結論として、ユーザー信頼は、ai対応システムの使用や議論が行われているすべてのコンテキストで直接対応する必要がある。 さらに、ユーザとAIの関係を校正するには、ユーザだけでなくシステムにも最適なバランスを見つける必要がある。

User trust in Artificial Intelligence (AI) enabled systems has been increasingly recognized and proven as a key element to fostering adoption. It has been suggested that AI-enabled systems must go beyond technical-centric approaches and towards embracing a more human centric approach, a core principle of the human-computer interaction (HCI) field. This review aims to provide an overview of the user trust definitions, influencing factors, and measurement methods from 23 empirical studies to gather insight for future technical and design strategies, research, and initiatives to calibrate the user AI relationship. The findings confirm that there is more than one way to define trust. Selecting the most appropriate trust definition to depict user trust in a specific context should be the focus instead of comparing definitions. User trust in AI-enabled systems is found to be influenced by three main themes, namely socio-ethical considerations, technical and design features, and user characteristics. User characteristics dominate the findings, reinforcing the importance of user involvement from development through to monitoring of AI enabled systems. In conclusion, user trust needs to be addressed directly in every context where AI-enabled systems are being used or discussed. In addition, calibrating the user-AI relationship requires finding the optimal balance that works for not only the user but also the system.
翻訳日:2023-04-19 15:45:10 公開日:2023-04-18
# 条件パラメータ化量子回路による関数自動実装とファイナンスへの応用

Automated Function Implementation via Conditional Parameterized Quantum Circuits with Applications to Finance ( http://arxiv.org/abs/2304.08793v1 )

ライセンス: Link先を確認
Mark-Oliver Wolf, Tom Ewen, Ivica Turkalj(参考訳) 古典的モンテカルロアルゴリズムは、振幅推定(AE)を用いて理論的に量子コンピュータ上にスピンアップすることができる。 これを実現するためには、状態依存関数の効率的な実装が不可欠である。 本稿では,パラメータ化量子回路の事前学習に基づく簡単なアプローチを開発し,それらが条件変数に変換され,AEアルゴリズムのサブルーチンとして利用できることを示す。 適切な回路を同定するために,可変 ansatzes とデータエンコーディングを組み合わせた遺伝的最適化手法を提案する。 金融デリバティブの価格設定問題にアルゴリズムを適用した。 コストのかかる事前学習過程を犠牲にして、既存の量子アルゴリズムよりも効率的にデリバティブのペイオフ関数を実装する量子回路が得られる。 特に、ヨーロッパのバニラとバスケットの選択肢のパフォーマンスを比較します。

Classical Monte Carlo algorithms can theoretically be sped up on a quantum computer by employing amplitude estimation (AE). To realize this, an efficient implementation of state-dependent functions is crucial. We develop a straightforward approach based on pre-training parameterized quantum circuits, and show how they can be transformed into their conditional variant, making them usable as a subroutine in an AE algorithm. To identify a suitable circuit, we propose a genetic optimization approach that combines variable ansatzes and data encoding. We apply our algorithm to the problem of pricing financial derivatives. At the expense of a costly pre-training process, this results in a quantum circuit implementing the derivatives' payoff function more efficiently than previously existing quantum algorithms. In particular, we compare the performance for European vanilla and basket options.
翻訳日:2023-04-19 15:44:48 公開日:2023-04-18
# 入力重み付き閾値適応を用いた神経形態制御

Neuromorphic Control using Input-Weighted Threshold Adaptation ( http://arxiv.org/abs/2304.08778v1 )

ライセンス: Link先を確認
Stein Stroobants, Christophe De Wagter, Guido C.H.E. de Croon(参考訳) ニューロモルフィック処理は高いエネルギー効率と迅速な応答速度を約束し、資源に制約のあるロボットの自律飛行を実現するための理想的な候補となる。 これは、高レベルの視覚知覚に関わる複雑なニューラルネットワークにとって特に有益である。 しかし、完全なニューロモルフィックなソリューションは低レベルの制御タスクにも取り組む必要がある。 注目すべきは、現在なお、比例積分微分(PID)コントローラのような基本的な低レベルコントローラを複製することは困難である。 具体的には、積分部と微分部を組み込むことは困難である。 この問題に対処するために,学習中に比例経路,積分経路,微分経路を組み込んだニューロモルフィック制御器を提案する。 我々のアプローチは、積分経路に対する新しい入力しきい値適応機構を含む。 この入力重み付き閾値適応(iwta)はシナプス後ニューロンの閾値に適応するために使用されるシナプス接続当たりの重みを増加させる。 我々は、時間定数の異なるニューロンを用いて微分項に取り組む。 まず、提案するメカニズムのパフォーマンスと限界を分析し、その後、最も内側のレートコントローラを置き換える、オープンソースのtiny crazyflie quadrotorに接続されたマイクロコントローラに実装することで、コントローラをテストに投入します。 我々は,外乱の存在下での飛行を伴うバイオインスパイアされたアルゴリズムの安定性を実証する。 現在の研究は、ニューロモルフィックアルゴリズムで高度に動的システムを制御し、ニューロモルフィック処理とロボット工学を進歩させるための重要なステップである。 さらに、統合は時間的タスクの重要な部分であるため、提案された入出力閾値適応(IWTA)メカニズムは、制御タスクよりもはるかに多くの意味を持つ可能性がある。

Neuromorphic processing promises high energy efficiency and rapid response rates, making it an ideal candidate for achieving autonomous flight of resource-constrained robots. It will be especially beneficial for complex neural networks as are involved in high-level visual perception. However, fully neuromorphic solutions will also need to tackle low-level control tasks. Remarkably, it is currently still challenging to replicate even basic low-level controllers such as proportional-integral-derivative (PID) controllers. Specifically, it is difficult to incorporate the integral and derivative parts. To address this problem, we propose a neuromorphic controller that incorporates proportional, integral, and derivative pathways during learning. Our approach includes a novel input threshold adaptation mechanism for the integral pathway. This Input-Weighted Threshold Adaptation (IWTA) introduces an additional weight per synaptic connection, which is used to adapt the threshold of the post-synaptic neuron. We tackle the derivative term by employing neurons with different time constants. We first analyze the performance and limits of the proposed mechanisms and then put our controller to the test by implementing it on a microcontroller connected to the open-source tiny Crazyflie quadrotor, replacing the innermost rate controller. We demonstrate the stability of our bio-inspired algorithm with flights in the presence of disturbances. The current work represents a substantial step towards controlling highly dynamic systems with neuromorphic algorithms, thus advancing neuromorphic processing and robotics. In addition, integration is an important part of any temporal task, so the proposed Input-Weighted Threshold Adaptation (IWTA) mechanism may have implications well beyond control tasks.
翻訳日:2023-04-19 15:44:37 公開日:2023-04-18
# チャンス制約問題に対する3目的パレート最適化

3-Objective Pareto Optimization for Problems with Chance Constraints ( http://arxiv.org/abs/2304.08774v1 )

ライセンス: Link先を確認
Frank Neumann and Carsten Witt(参考訳) 進化的多目的アルゴリズムは、与えられた制約を新たな目的に緩和するパレート最適化の文脈でうまく使われている。 本稿では, 確率制約のある問題に対する3目的定式化の利用について検討する。 我々の定式化は、与えられた決定論的制約と同様に、予想コストと確率成分のばらつきをトレードオフする。 この3つの目的の定式化が、通常分布する確率的成分の確率的制約について最近調査された2つの目的と比較した利点を指摘する。 分析の結果, 3目的の定式化は, 決定論的基数制約を扱う場合, 1ビットフリップのみを用いて必要なトレードオフを全て計算できることがわかった。 さらに,制約付き支配集合問題に対する実験的検討を行い,この古典的なNPハード問題に対する利点を示す。

Evolutionary multi-objective algorithms have successfully been used in the context of Pareto optimization where a given constraint is relaxed into an additional objective. In this paper, we explore the use of 3-objective formulations for problems with chance constraints. Our formulation trades off the expected cost and variance of the stochastic component as well as the given deterministic constraint. We point out benefits that this 3-objective formulation has compared to a bi-objective one recently investigated for chance constraints with Normally distributed stochastic components. Our analysis shows that the 3-objective formulation allows to compute all required trade-offs using 1-bit flips only, when dealing with a deterministic cardinality constraint. Furthermore, we carry out experimental investigations for the chance constrained dominating set problem and show the benefit for this classical NP-hard problem.
翻訳日:2023-04-19 15:44:08 公開日:2023-04-18
# Perceive, Excavate and Purify: インスタンスセグメンテーションのための新しいオブジェクトマイニングフレームワーク

Perceive, Excavate and Purify: A Novel Object Mining Framework for Instance Segmentation ( http://arxiv.org/abs/2304.08826v1 )

ライセンス: Link先を確認
Jinming Su, Ruihong Yin, Xingyue Chen and Junfeng Luo(参考訳) 近年,ディープニューラルネットワークの急速な開発により,インスタンス分割が大きな進展を遂げている。 しかし、識別不能なオブジェクトの発見とインスタンス間の関係のモデリングという2つの大きな課題がまだ残っている。 これらの問題に対処するため,我々は,セグメンテーションのための新しいオブジェクトマイニングフレームワークを提案する。 このフレームワークでは,まずサブネットワークを知覚するセマンティクスを導入し,ボトムアップから明らかなインスタンスに属するピクセルをキャプチャする。 次に, 識別不能な物体を発見するための掘削機構を提案する。 このメカニズムでは、事前認識されたセマンティクスは分類と位置を持つ元のインスタンスと見なされ、その後、これらの元のインスタンスを取り巻く識別不可能なオブジェクトが採掘され、硬いオブジェクトが完全に発掘されることが保証される。 次に、インスタンス間の関係をモデル化するインスタンス浄化戦略が提案され、インスタンス間の類似性とインスタンス間識別を維持するために、類似したインスタンスをクローズし、異なるインスタンスをプッシュする。 このように、同じオブジェクトが1つのインスタンスとして結合され、異なるオブジェクトが独立したインスタンスとして区別される。 COCOデータセットの大規模な実験により、提案手法は最先端の手法よりも優れており、提案手法の有効性が検証されている。

Recently, instance segmentation has made great progress with the rapid development of deep neural networks. However, there still exist two main challenges including discovering indistinguishable objects and modeling the relationship between instances. To deal with these difficulties, we propose a novel object mining framework for instance segmentation. In this framework, we first introduce the semantics perceiving subnetwork to capture pixels that may belong to an obvious instance from the bottom up. Then, we propose an object excavating mechanism to discover indistinguishable objects. In the mechanism, preliminary perceived semantics are regarded as original instances with classifications and locations, and then indistinguishable objects around these original instances are mined, which ensures that hard objects are fully excavated. Next, an instance purifying strategy is put forward to model the relationship between instances, which pulls the similar instances close and pushes away different instances to keep intra-instance similarity and inter-instance discrimination. In this manner, the same objects are combined as the one instance and different objects are distinguished as independent instances. Extensive experiments on the COCO dataset show that the proposed approach outperforms state-of-the-art methods, which validates the effectiveness of the proposed object mining framework.
翻訳日:2023-04-19 15:37:33 公開日:2023-04-18
# 近親者による低リソース言語への移行--ファロア語を事例として

Transfer to a Low-Resource Language via Close Relatives: The Case Study on Faroese ( http://arxiv.org/abs/2304.08823v1 )

ライセンス: Link先を確認
V\'esteinn Sn{\ae}bjarnarson, Annika Simonsen, Goran Glava\v{s} and Ivan Vuli\'c(参考訳) 多言語モデルが言語間nlp転送の最先端を押し上げている。 しかし、ゼロショットの言語間移動の大多数は、1つと同一の多言語変換器(例えばmBERTやXLM-R)を使用して、そのタイプ、語源、系統的関係に関係なく、全てのターゲット言語に転送する。 特に、容易に利用できるデータやリソース豊富な兄弟言語のモデルはしばしば無視される。 本研究では,Faroese(高リソース言語ファミリーの低リソース言語)のケーススタディにおいて,系統情報の活用と'ワンサイズフィットオール'パラダイムからの脱却により,低リソース言語への言語間移行を改善することを実証的に示す。 特に、我々はフェローの利益のために他のスカンジナビア語(デンマーク語、ノルウェー語、スウェーデン語、アイスランド語)の豊富な資源を活用している。 評価の結果,近縁な高リソース言語のデータとモデルを利用することで,faroeseへの転送性能を大幅に向上できることがわかった。 さらに、名前付きエンティティ認識(NER)、意味テキスト類似性(STS)、スカンジナビア全言語で訓練された新しい言語モデルのためのFaroeseおよびFaroeseデータセットの新しいWebコーパスをリリースする。

Multilingual language models have pushed state-of-the-art in cross-lingual NLP transfer. The majority of zero-shot cross-lingual transfer, however, use one and the same massively multilingual transformer (e.g., mBERT or XLM-R) to transfer to all target languages, irrespective of their typological, etymological, and phylogenetic relations to other languages. In particular, readily available data and models of resource-rich sibling languages are often ignored. In this work, we empirically show, in a case study for Faroese -- a low-resource language from a high-resource language family -- that by leveraging the phylogenetic information and departing from the 'one-size-fits-all' paradigm, one can improve cross-lingual transfer to low-resource languages. In particular, we leverage abundant resources of other Scandinavian languages (i.e., Danish, Norwegian, Swedish, and Icelandic) for the benefit of Faroese. Our evaluation results show that we can substantially improve the transfer performance to Faroese by exploiting data and models of closely-related high-resource languages. Further, we release a new web corpus of Faroese and Faroese datasets for named entity recognition (NER), semantic text similarity (STS), and new language models trained on all Scandinavian languages.
翻訳日:2023-04-19 15:37:12 公開日:2023-04-18
# TTIDA:テキスト・ツー・テキスト・トゥ・イメージモデルによる制御可能な生成データ拡張

TTIDA: Controllable Generative Data Augmentation via Text-to-Text and Text-to-Image Models ( http://arxiv.org/abs/2304.08821v1 )

ライセンス: Link先を確認
Yuwei Yin, Jean Kaddour, Xiang Zhang, Yixin Nie, Zhenguang Liu, Lingpeng Kong, Qi Liu(参考訳) データ拡張は、低リソースデータセットの有用な情報を補完する有効なアプローチとして確立されている。 ノイズ注入や画像変換などの伝統的な拡張技術が広く使われている。 さらに、GDA(Generative Data Augmentation)は、より多様な柔軟なデータを生成することが示されている。 GDAにはGAN(Generative Adversarial Network)が頻繁に使われているが、テキスト・画像拡散モデルに比べて多様性と制御性に欠ける。 本稿では,TTIDA(Text-to-Text-to-Image Data Augmentation)を提案する。 T2Tモデルによる詳細な記述にT2Iモデルを適用することにより、フレキシブルかつ制御可能な方法で写真リアルなラベル付き画像を生成することができる。 ドメイン内分類、クロスドメイン分類、画像キャプションタスクの実験は、他のデータ拡張ベースラインよりも一貫した改善を示している。 少数ショット、ロングテール、敵対といった様々な場面における分析研究は、パフォーマンスの向上と堅牢性向上におけるTIDAの有効性をさらに強化する。

Data augmentation has been established as an efficacious approach to supplement useful information for low-resource datasets. Traditional augmentation techniques such as noise injection and image transformations have been widely used. In addition, generative data augmentation (GDA) has been shown to produce more diverse and flexible data. While generative adversarial networks (GANs) have been frequently used for GDA, they lack diversity and controllability compared to text-to-image diffusion models. In this paper, we propose TTIDA (Text-to-Text-to-Image Data Augmentation) to leverage the capabilities of large-scale pre-trained Text-to-Text (T2T) and Text-to-Image (T2I) generative models for data augmentation. By conditioning the T2I model on detailed descriptions produced by T2T models, we are able to generate photo-realistic labeled images in a flexible and controllable manner. Experiments on in-domain classification, cross-domain classification, and image captioning tasks show consistent improvements over other data augmentation baselines. Analytical studies in varied settings, including few-shot, long-tail, and adversarial, further reinforce the effectiveness of TTIDA in enhancing performance and increasing robustness.
翻訳日:2023-04-19 15:36:46 公開日:2023-04-18
# ビデオセマンティックセグメンテーションのための動作状態アライメント

Motion-state Alignment for Video Semantic Segmentation ( http://arxiv.org/abs/2304.08820v1 )

ライセンス: Link先を確認
Jinming Su, Ruihong Yin, Shuaibin Zhang and Junfeng Luo(参考訳) 近年、ビデオセマンティックセグメンテーションは、高度なディープニューラルネットワークで大きな進歩を遂げている。 しかし、情報の不整合と計算コストの2つの主な課題がある。 これら2つの問題に対処するため,動作と状態の整合性を維持するために,ビデオセマンティックセグメンテーションのための新しい動き状態アライメントフレームワークを提案する。 この枠組みでは,まず,動的意味を捉えるために,効率的な分離トランスを具備した動作アライメントブランチを構築し,領域レベルの時間的一貫性を保証した。 次に、ステージトランスからなる状態アライメントブランチを、現在のフレームの特徴空間を充実させ、静的セマンティクスを抽出し、画素レベルの状態一貫性を実現するように設計する。 次に、セマンティック代入機構により、各セマンティックカテゴリの領域記述子を動的セマンティクスから取得し、静的セマンティクスからピクセル記述子にリンクする。 提案手法は,これらの2種類の有効情報のアライメントから,動的および静的なセマンティクスをターゲットとして選択し,ビデオ意味領域を一貫したセグメンテーションにより,計算複雑性の低い正確な位置を求める。 CityscapesとCamVidデータセットの大規模な実験により、提案手法は最先端の手法より優れ、動き状態アライメントフレームワークの有効性が検証されている。

In recent years, video semantic segmentation has made great progress with advanced deep neural networks. However, there still exist two main challenges \ie, information inconsistency and computation cost. To deal with the two difficulties, we propose a novel motion-state alignment framework for video semantic segmentation to keep both motion and state consistency. In the framework, we first construct a motion alignment branch armed with an efficient decoupled transformer to capture dynamic semantics, guaranteeing region-level temporal consistency. Then, a state alignment branch composed of a stage transformer is designed to enrich feature spaces for the current frame to extract static semantics and achieve pixel-level state consistency. Next, by a semantic assignment mechanism, the region descriptor of each semantic category is gained from dynamic semantics and linked with pixel descriptors from static semantics. Benefiting from the alignment of these two kinds of effective information, the proposed method picks up dynamic and static semantics in a targeted way, so that video semantic regions are consistently segmented to obtain precise locations with low computational complexity. Extensive experiments on Cityscapes and CamVid datasets show that the proposed approach outperforms state-of-the-art methods and validates the effectiveness of the motion-state alignment framework.
翻訳日:2023-04-19 15:36:24 公開日:2023-04-18
# 潜在性拡散モデルを用いた高分解能ビデオ合成

Align your Latents: High-Resolution Video Synthesis with Latent Diffusion Models ( http://arxiv.org/abs/2304.08818v1 )

ライセンス: Link先を確認
Andreas Blattmann, Robin Rombach, Huan Ling, Tim Dockhorn, Seung Wook Kim, Sanja Fidler, Karsten Kreis(参考訳) 潜時拡散モデル(ldms)は圧縮された低次元潜時空間における拡散モデルを訓練することにより、過剰な計算要求を回避しつつ高品質な画像合成を可能にする。 本稿では、特に資源集約的な課題である高解像度ビデオ生成にLDMパラダイムを適用した。 まず、画像のみにLDMを事前訓練し、次に、潜時空間拡散モデルに時間次元を導入し、符号化された画像シーケンス、すなわちビデオの微調整を行うことにより、画像生成装置をビデオ生成装置に変換する。 同様に、拡散モデルアップサンプラーを時間的に調整し、時間的に一貫したビデオスーパー解像度モデルに変換する。 本研究は,実世界の運転データシミュレーションと,テキストからビデオへのモデリングによる創造的コンテンツ作成の2つの応用に焦点を当てた。 特に,解像度512×1024の実動ビデオに対して,ビデオLDMの有効性を検証し,最先端の性能を実現する。 さらに,本手法では,時間的アライメントモデルのみをトレーニングする必要があるため,市販の事前学習画像 LDM の活用も容易である。 そうすることで、公開されている最先端のテキスト対画像のldmの安定拡散を、最大1280 x 2048までの解像度を持つ効率的で表現力のあるテキスト対ビデオモデルに転換します。 この方法で訓練された時間層は、異なる微調整されたテキスト-画像 LDM に一般化される。 この特性を利用して、テキストからビデオへのパーソナライズされた生成のための最初の結果を示し、将来のコンテンツ作成のためのエキサイティングな方向を示す。 プロジェクトページ: https://research.nvidia.com/labs/toronto-ai/VideoLDM/

Latent Diffusion Models (LDMs) enable high-quality image synthesis while avoiding excessive compute demands by training a diffusion model in a compressed lower-dimensional latent space. Here, we apply the LDM paradigm to high-resolution video generation, a particularly resource-intensive task. We first pre-train an LDM on images only; then, we turn the image generator into a video generator by introducing a temporal dimension to the latent space diffusion model and fine-tuning on encoded image sequences, i.e., videos. Similarly, we temporally align diffusion model upsamplers, turning them into temporally consistent video super resolution models. We focus on two relevant real-world applications: Simulation of in-the-wild driving data and creative content creation with text-to-video modeling. In particular, we validate our Video LDM on real driving videos of resolution 512 x 1024, achieving state-of-the-art performance. Furthermore, our approach can easily leverage off-the-shelf pre-trained image LDMs, as we only need to train a temporal alignment model in that case. Doing so, we turn the publicly available, state-of-the-art text-to-image LDM Stable Diffusion into an efficient and expressive text-to-video model with resolution up to 1280 x 2048. We show that the temporal layers trained in this way generalize to different fine-tuned text-to-image LDMs. Utilizing this property, we show the first results for personalized text-to-video generation, opening exciting directions for future content creation. Project page: https://research.nvidia.com/labs/toronto-ai/VideoLDM/
翻訳日:2023-04-19 15:36:00 公開日:2023-04-18
# 再合成による量子回路のジェネリックコンパイルアプローチに向けて

Towards a generic compilation approach for quantum circuits through resynthesis ( http://arxiv.org/abs/2304.08814v1 )

ライセンス: Link先を確認
Arianne Meijer - van de Griend(参考訳) 本稿では,コンパイルのための汎用量子回路再合成手法を提案する。 Z, I} 上のパウリストリングと {X, I} からなる中間表現を ``mixed ZX-phase polynomial`` と呼ぶ。 この普遍表現から、全てのマルチ量子ビットゲート(cnot)が与えられた量子アーキテクチャを満たすような全く新しい回路を生成する。 さらに、生成されたゲートの量を最小化する。 提案アルゴリズムは、5-20キュービットの異なる接続グラフ上の類似の手法よりもCNOTが少ない。 ほとんどの場合、CNOT数はQiskitよりも低い。 >=100 Paulistringsを含む大規模回路では、提案アルゴリズムはTKETコンパイラよりもCNOTが少ない。 さらに,コンパイル時間と最終CNOTカウントのトレードオフについて考察する。

In this paper, we propose a generic quantum circuit resynthesis approach for compilation. We use an intermediate representation consisting of Paulistrings over {Z, I} and {X, I} called a ``mixed ZX-phase polynomial``. From this universal representation, we generate a completely new circuit such that all multi-qubit gates (CNOTs) are satisfying a given quantum architecture. Moreover, we attempt to minimize the amount of generated gates. The proposed algorithms generate fewer CNOTs than similar previous methods on different connectivity graphs ranging from 5-20 qubits. In most cases, the CNOT counts are also lower than Qiskit's. For large circuits, containing >= 100 Paulistrings, our proposed algorithms even generate fewer CNOTs than the TKET compiler. Additionally, we give insight into the trade-off between compilation time and final CNOT count.
翻訳日:2023-04-19 15:35:30 公開日:2023-04-18
# アンサンブル法によるトランスファー可能なオーディオ・アタックに向けて

Towards the Transferable Audio Adversarial Attack via Ensemble Methods ( http://arxiv.org/abs/2304.08811v1 )

ライセンス: Link先を確認
Feng Guo, Zheng Sun, Yuxuan Chen and Lei Ju(参考訳) 近年、ディープラーニング(DL)モデルは、自律運転、顔認識、音声認識など多くの分野で大きな進歩を遂げている。 しかし、敵対攻撃に対するディープラーニングモデルの脆弱性は、その頑健さと一般化が不十分なため、コミュニティに深刻な懸念を抱いている。 また、転送可能な攻撃はブラックボックス攻撃の顕著な方法となっている。 本研究では, DLに基づく音声認識において, 敵対的事例(AE)の伝達に影響を及ぼす潜在的な要因について検討する。 また、異なるDLシステムの脆弱性と決定境界の不規則性についても論じる。 その結果, 音声と画像間のAEの転送性には顕著な差があり, 画像の関連性は低いが, 音声認識では逆であることがわかった。 ドロップアウトに基づくアンサンブルアプローチにより,ランダムな勾配アンサンブルと動的勾配重み付けアンサンブルを提案し,アンサンブルがAEの伝達性に与える影響を評価する。 その結果、両方のアプローチで生成されたAEsがブラックボックスAPIへの転送に有効であることが判明した。

In recent years, deep learning (DL) models have achieved significant progress in many domains, such as autonomous driving, facial recognition, and speech recognition. However, the vulnerability of deep learning models to adversarial attacks has raised serious concerns in the community because of their insufficient robustness and generalization. Also, transferable attacks have become a prominent method for black-box attacks. In this work, we explore the potential factors that impact adversarial examples (AEs) transferability in DL-based speech recognition. We also discuss the vulnerability of different DL systems and the irregular nature of decision boundaries. Our results show a remarkable difference in the transferability of AEs between speech and images, with the data relevance being low in images but opposite in speech recognition. Motivated by dropout-based ensemble approaches, we propose random gradient ensembles and dynamic gradient-weighted ensembles, and we evaluate the impact of ensembles on the transferability of AEs. The results show that the AEs created by both approaches are valid for transfer to the black box API.
翻訳日:2023-04-19 15:35:18 公開日:2023-04-18
# SViTT: スパースビデオテキスト変換器の時間学習

SViTT: Temporal Learning of Sparse Video-Text Transformers ( http://arxiv.org/abs/2304.08809v1 )

ライセンス: Link先を確認
Yi Li, Kyle Min, Subarna Tripathi, Nuno Vasconcelos(参考訳) ビデオテキストトランスフォーマーはフレーム間の時間関係をモデル化するだろうか? 膨大な容量とマルチモーダルトレーニングデータにもかかわらず、近年の研究では、フレームベースの空間表現に対するビデオテキストモデルの強い傾向が明らかにされている。 本研究では,ビデオテキストトランスフォーマーの時間的学習における重要な課題として,限られたネットワークサイズからの時空間トレードオフ,マルチフレームモデリングにおける次元性の呪い,クリップ長の延長による意味情報の回復の減少などを挙げる。 これらの知見に導かれたSViTTは,多フレーム推論を行うための疎ビデオテキストアーキテクチャであり,注目度の高い単純変換器よりもはるかに低コストである。 グラフベースのネットワークと同様、svittは2種類のスパーシティを採用している。エッジスパーシティ(edge sparsity)は、自己アテンションでトークン間のクエリキー通信を制限する。 クリップの長さでモデルのスパーシティを高めるカリキュラムでトレーニングされたsvittは、複数のビデオテキスト検索と質問応答ベンチマークで密度の高いトランスフォーマーベースラインをわずかに計算コストで上回っている。 プロジェクトページ: http://svcl.ucsd.edu/projects/svitt。

Do video-text transformers learn to model temporal relationships across frames? Despite their immense capacity and the abundance of multimodal training data, recent work has revealed the strong tendency of video-text models towards frame-based spatial representations, while temporal reasoning remains largely unsolved. In this work, we identify several key challenges in temporal learning of video-text transformers: the spatiotemporal trade-off from limited network size; the curse of dimensionality for multi-frame modeling; and the diminishing returns of semantic information by extending clip length. Guided by these findings, we propose SViTT, a sparse video-text architecture that performs multi-frame reasoning with significantly lower cost than naive transformers with dense attention. Analogous to graph-based networks, SViTT employs two forms of sparsity: edge sparsity that limits the query-key communications between tokens in self-attention, and node sparsity that discards uninformative visual tokens. Trained with a curriculum which increases model sparsity with the clip length, SViTT outperforms dense transformer baselines on multiple video-text retrieval and question answering benchmarks, with a fraction of computational cost. Project page: http://svcl.ucsd.edu/projects/svitt.
翻訳日:2023-04-19 15:35:01 公開日:2023-04-18
# ベストカウンター引数検索における類似性と相違性の役割の再考

Revisiting the Role of Similarity and Dissimilarity inBest Counter Argument Retrieval ( http://arxiv.org/abs/2304.08807v1 )

ライセンス: Link先を確認
Hongguang Shi, Shuirong Cao, Cam-Tu Nguyen(参考訳) 本稿では,入力引数が与える最善の対置検索の課題について検討する。 最善の対置法が入力引数と同じ側面に対処し、反対の立場をとりながら、相似性と相似性指標に基づいて対置法をスコアリングする効率的かつ効果的なモデルを開発することを目的とする。 まず,従来のラーニング・トゥ・ランク(ltr)や近年のニューラルスコアリングモデルなど,利用可能なスコアリング手法の有効性を実験的に検討した。 次に,同時類似性と相似性の最適表現を学習するための新しいbertモデルであるbipolar-encoderを提案する。 実験の結果,提案手法は88.9\%の精度を達成できることがわかった。 適切なキャッシュ技術と組み合わせると、Bipolar-Encoderは予測時に可視的に効率が良い。

This paper studies the task of best counter-argument retrieval given an input argument. Following the definition that the best counter-argument addresses the same aspects as the input argument while having the opposite stance, we aim to develop an efficient and effective model for scoring counter-arguments based on similarity and dissimilarity metrics. We first conduct an experimental study on the effectiveness of available scoring methods, including traditional Learning-To-Rank (LTR) and recent neural scoring models. We then propose Bipolar-encoder, a novel BERT-based model to learn an optimal representation for simultaneous similarity and dissimilarity. Experimental results show that our proposed method can achieve the accuracy@1 of 88.9\%, which significantly outperforms other baselines by a large margin. When combined with an appropriate caching technique, Bipolar-encoder is comparably efficient at prediction time.
翻訳日:2023-04-19 15:34:36 公開日:2023-04-18
# ベイズ的ロボットグルーピングのためのリーマン幾何学と入射表現先行

Implicit representation priors meet Riemannian geometry for Bayesian robotic grasping ( http://arxiv.org/abs/2304.08805v1 )

ライセンス: Link先を確認
Norman Marlier, Julien Gustin, Gilles Louppe, Olivier Br\"uls(参考訳) 騒音の多い環境でのロボットの把握は、特にシーンに関する事前知識が限られている複雑な課題を示す。 特に,2つの理由から,ベイズ推論による適切な把握姿勢の特定が困難となる。 一 不正な先行データからデータを生成することが非効率であることを証明し、 i) 後辺はしばしばリーマン多様体上で定義される複素分布を含む。 本研究では,暗黙表現を用いてシーン依存の事前構造を構築することにより,非構造化環境での把持ポーズの判断に効率的なシミュレーションに基づくベイズ推論アルゴリズムを応用することを検討する。 シミュレーションと物理ベンチマークの結果は、このアプローチの成功率と有望な可能性を示している。

Robotic grasping in highly noisy environments presents complex challenges, especially with limited prior knowledge about the scene. In particular, identifying good grasping poses with Bayesian inference becomes difficult due to two reasons: i) generating data from uninformative priors proves to be inefficient, and ii) the posterior often entails a complex distribution defined on a Riemannian manifold. In this study, we explore the use of implicit representations to construct scene-dependent priors, thereby enabling the application of efficient simulation-based Bayesian inference algorithms for determining successful grasp poses in unstructured environments. Results from both simulation and physical benchmarks showcase the high success rate and promising potential of this approach.
翻訳日:2023-04-19 15:34:20 公開日:2023-04-18
# 共変量シフトに対するml性能ロバスト性の評価に基づくドメイン領域

A Domain-Region Based Evaluation of ML Performance Robustness to Covariate Shift ( http://arxiv.org/abs/2304.08855v1 )

ライセンス: Link先を確認
Firas Bayram and Bestoun S. Ahmed(参考訳) ほとんどの機械学習手法は、入力データ分布がトレーニングとテストフェーズで同じであると仮定する。 しかし、実際には、この定常性は通常満たされず、入力の分布が異なるため、デプロイメントにおける学習モデルの予期せぬパフォーマンスにつながる。 トレーニングデータとテストデータ入力が異なる確率分布に従うが、入出力関係は変化しないという問題を共変量シフトと呼ぶ。 本稿では,従来の機械学習モデルの性能を共変量シフトの存在下で実験的に評価した。 さらに,入力データの確率密度関数の領域を分解し,領域ごとの分類器の性能を評価することにより,領域に基づく評価を行った。 分布変化は2次元分類問題においてシミュレートされた。 その後、より高次の4次元実験が行われた。 実験解析に基づき、ランダムフォレストアルゴリズムは2次元の場合において最も頑健な分類器であり、精度とf1-scoreメトリクスの低下率が最も低く、0.1%から2.08%の範囲である。 さらに, 高次元実験では, モデルの性能は分類関数の複雑さに大きく影響され, ほとんどの場合, 劣化率が25%を超えることが判明した。 また、トレーニングサンプルの入力空間領域に高密度の領域に対して高い偏りを示すことが結論された。

Most machine learning methods assume that the input data distribution is the same in the training and testing phases. However, in practice, this stationarity is usually not met and the distribution of inputs differs, leading to unexpected performance of the learned model in deployment. The issue in which the training and test data inputs follow different probability distributions while the input-output relationship remains unchanged is referred to as covariate shift. In this paper, the performance of conventional machine learning models was experimentally evaluated in the presence of covariate shift. Furthermore, a region-based evaluation was performed by decomposing the domain of probability density function of the input data to assess the classifier's performance per domain region. Distributional changes were simulated in a two-dimensional classification problem. Subsequently, a higher four-dimensional experiments were conducted. Based on the experimental analysis, the Random Forests algorithm is the most robust classifier in the two-dimensional case, showing the lowest degradation rate for accuracy and F1-score metrics, with a range between 0.1% and 2.08%. Moreover, the results reveal that in higher-dimensional experiments, the performance of the models is predominantly influenced by the complexity of the classification function, leading to degradation rates exceeding 25% in most cases. It is also concluded that the models exhibit high bias towards the region with high density in the input space domain of the training samples.
翻訳日:2023-04-19 15:28:38 公開日:2023-04-18
# saliency-awareステレオビデオ再ターゲティング

Saliency-aware Stereoscopic Video Retargeting ( http://arxiv.org/abs/2304.08852v1 )

ライセンス: Link先を確認
Hassan Imani, Md Baharul Islam, Lai-Kuan Wong(参考訳) ステレオビデオ再ターゲティングは、画像を所望のアスペクト比にリサイズすることを目的としている。 再ターゲティングビデオの品質は、空間的、時間的、不一致のコヒーレンスによって大きく影響され、それらのすべてが再ターゲティングプロセスによって影響を受ける。 一般公開された注釈付きデータセットがないため、ステレオビデオの再ターゲティングのためのディープラーニングベースの方法の研究はほとんどない。 本稿では,教師なし深層学習に基づくステレオビデオ再ターゲティングネットワークを提案する。 本モデルではまず, ステレオフレームの正接部分の歪みを最小限に抑えるため, 正接物体を検出, シフトし, 全ての物体を歪ませる。 我々は、1Dコンボリューションを用いてサルエントオブジェクトをシフトし、ステレオビデオ変換器を設計し、再ターゲットプロセスを支援する。 ネットワークのトレーニングにはパララックスアテンション機構を用いて、左右のビューを融合させ、再ターゲットのフレームを再ターゲットのフレームを入力のフレームに反転させる再構成モジュールに供給する。 したがって、ネットワークは教師なしの方法で訓練される。 KITTIステレオ2012および2015データセットの大規模な定性的および定量的実験とアブレーション研究は、既存の最先端手法よりも提案手法の有効性を実証している。 コードはhttps://github.com/z65451/SVR/で入手できる。

Stereo video retargeting aims to resize an image to a desired aspect ratio. The quality of retargeted videos can be significantly impacted by the stereo videos spatial, temporal, and disparity coherence, all of which can be impacted by the retargeting process. Due to the lack of a publicly accessible annotated dataset, there is little research on deep learning-based methods for stereo video retargeting. This paper proposes an unsupervised deep learning-based stereo video retargeting network. Our model first detects the salient objects and shifts and warps all objects such that it minimizes the distortion of the salient parts of the stereo frames. We use 1D convolution for shifting the salient objects and design a stereo video Transformer to assist the retargeting process. To train the network, we use the parallax attention mechanism to fuse the left and right views and feed the retargeted frames to a reconstruction module that reverses the retargeted frames to the input frames. Therefore, the network is trained in an unsupervised manner. Extensive qualitative and quantitative experiments and ablation studies on KITTI stereo 2012 and 2015 datasets demonstrate the efficiency of the proposed method over the existing state-of-the-art methods. The code is available at https://github.com/z65451/SVR/.
翻訳日:2023-04-19 15:28:16 公開日:2023-04-18
# 障害重畳による多体局在のエンタングルメント成長の促進

Boosting entanglement growth of many-body localization by superpositions of disorder ( http://arxiv.org/abs/2304.08849v1 )

ライセンス: Link先を確認
Jhen-Dong Lin and Yueh-Nan Chen(参考訳) 多体局在 (multi-body localization, mbl) は、強い障害が相互作用系の熱化を妨げたときに起こる。 このようなシステムのダイナミクスを研究するには、多くの異なる障害構成でアンサンブル平均を実行する必要がある。 これまでの研究では、異なる障害プロファイルを量子ancillaにマッピングするアルゴリズムを使用してきた。 量子重畳状態のアンシラを準備することにより、量子並列性を利用して単一の計算実行においてアンサンブル平均を得ることができる。 本研究では,このアルゴリズムをアンシラ上で測定することにより修正する。 これにより、アンサンブル平均だけでなく量子干渉効果によって条件付きダイナミクスを決定することができる。 局所的な運動積分に基づく現象論的解析を用いて,このプロトコルが深部MBL相のシステムにおいて,デファス効果の増大とエンタングルメント成長の促進につながることを示す。 また,この拡張が,深層mbl法を超えて,より小さな障害強度にも存在する確率的xxzモデルの数値シミュレーションも行った。

Many-body localization (MBL) can occur when strong disorders prevent an interacting system from thermalization. To study the dynamics of such systems, it is typically necessary to perform an ensemble average over many different disorder configurations. Previous works have utilized an algorithm in which different disorder profiles are mapped into a quantum ancilla. By preparing the ancilla in a quantum superposition state, quantum parallelism can be harnessed to obtain the ensemble average in a single computation run. In this work, we modify this algorithm by performing a measurement on the ancilla. This enables the determination of conditional dynamics not only by the ensemble average but also by the quantum interference effect. Using a phenomenological analysis based on local integrals of motion, we demonstrate that this protocol can lead to an enhancement of the dephasing effect and a boost in the entanglement growth for systems in the deep MBL phase. We also present numerical simulations of the random XXZ model where this enhancement is also present in a smaller disorder strength, beyond the deep MBL regime.
翻訳日:2023-04-19 15:27:54 公開日:2023-04-18
# BadVFL: 垂直学習におけるバックドア攻撃

BadVFL: Backdoor Attacks in Vertical Federated Learning ( http://arxiv.org/abs/2304.08847v1 )

ライセンス: Link先を確認
Mohammad Naseri, Yufei Han, Emiliano De Cristofaro(参考訳) フェデレーション学習(federated learning, fl)は、複数のパーティがデータを共有することなく、機械学習モデルを協調的にトレーニングすることを可能にする。 データの配布方法によって、FLは水平(HFL)と垂直(VFL)に分けられる。 vflでは、参加者は同じトレーニングインスタンスを共有しますが、機能空間全体の異なる重複しないサブセットのみをホストします。 hflでは、各参加者は同じ特徴を共有し、トレーニングセットはローカルに所有するトレーニングデータサブセットに分割される。 VFLは、金融詐欺検出などのアプリケーションでの利用が増えているが、そのセキュリティを分析する研究はほとんどない。 本稿では,VFLのロバスト性,特にバックドアアタックに焦点をあて,学習過程中に敵が集約モデルを操作して誤分類を起こそうとする。 VFLのバックドア攻撃はHFLよりも困難 i) 研修中にラベルにアクセスできないこと,及び ii) 組込み機能のみにアクセスできるため,ラベルの変更はできない。 VFLでは,ラベル推論とバックドアフェーズという2つのフェーズからなる第1種クリーンラベルバックドアアタックが提案されている。 3つの異なるデータセットに対する攻撃の有効性を実証し、その成功に関わる要因を調査し、その影響を軽減するための対策について議論する。

Federated learning (FL) enables multiple parties to collaboratively train a machine learning model without sharing their data; rather, they train their own model locally and send updates to a central server for aggregation. Depending on how the data is distributed among the participants, FL can be classified into Horizontal (HFL) and Vertical (VFL). In VFL, the participants share the same set of training instances but only host a different and non-overlapping subset of the whole feature space. Whereas in HFL, each participant shares the same set of features while the training set is split into locally owned training data subsets. VFL is increasingly used in applications like financial fraud detection; nonetheless, very little work has analyzed its security. In this paper, we focus on robustness in VFL, in particular, on backdoor attacks, whereby an adversary attempts to manipulate the aggregate model during the training process to trigger misclassifications. Performing backdoor attacks in VFL is more challenging than in HFL, as the adversary i) does not have access to the labels during training and ii) cannot change the labels as she only has access to the feature embeddings. We present a first-of-its-kind clean-label backdoor attack in VFL, which consists of two phases: a label inference and a backdoor phase. We demonstrate the effectiveness of the attack on three different datasets, investigate the factors involved in its success, and discuss countermeasures to mitigate its impact.
翻訳日:2023-04-19 15:27:36 公開日:2023-04-18
# 可能な政策イテレーション

Feasible Policy Iteration ( http://arxiv.org/abs/2304.08845v1 )

ライセンス: Link先を確認
Yujie Yang, Zhilong Zheng, Shengbo Eben Li(参考訳) 安全強化学習(RL)は、安全制約の下で最適な制御問題を解くことを目的としている。 既存の$\textit{direct}$safe RLメソッドは学習プロセスを通して元の制約を使用する。 それらは反復中にポリシーの理論的保証を欠くか、実現不可能な問題に苦しむかのどちらかである。 この問題に対処するために、FPI(Fasible Policy iteration)と呼ばれる安全性の高いRL法を提案し、現行のポリシーを制約するために、最終ポリシーの実行可能な領域を反復的に利用する。 実現可能な領域は、制約崩壊関数(CDF)と呼ばれる実現可能性関数で表される。 FPIの中核は、実行可能政策改善と呼ばれる地域政策更新ルールであり、実行可能領域内のCDFの制約の下でのリターンを最大化し、実行可能領域外のCDFを最小化する。 この更新規則は常に実現可能であり、実行可能領域が単調に拡大し、状態値関数が実現可能領域内で単調に増加することを保証する。 実現可能なベルマン方程式を用いて、fpi が最大実現可能領域と最適状態値関数に収束することを示す。 古典的な制御タスクとSafety Gymの実験により、我々のアルゴリズムはベースラインよりも低い制約違反と同等または高いパフォーマンスを達成することが示された。

Safe reinforcement learning (RL) aims to solve an optimal control problem under safety constraints. Existing $\textit{direct}$ safe RL methods use the original constraint throughout the learning process. They either lack theoretical guarantees of the policy during iteration or suffer from infeasibility problems. To address this issue, we propose an $\textit{indirect}$ safe RL method called feasible policy iteration (FPI) that iteratively uses the feasible region of the last policy to constrain the current policy. The feasible region is represented by a feasibility function called constraint decay function (CDF). The core of FPI is a region-wise policy update rule called feasible policy improvement, which maximizes the return under the constraint of the CDF inside the feasible region and minimizes the CDF outside the feasible region. This update rule is always feasible and ensures that the feasible region monotonically expands and the state-value function monotonically increases inside the feasible region. Using the feasible Bellman equation, we prove that FPI converges to the maximum feasible region and the optimal state-value function. Experiments on classic control tasks and Safety Gym show that our algorithms achieve lower constraint violations and comparable or higher performance than the baselines.
翻訳日:2023-04-19 15:27:15 公開日:2023-04-18
# udtiri: オープンソースの道路ポットホール検出ベンチマークスイート

UDTIRI: An Open-Source Road Pothole Detection Benchmark Suite ( http://arxiv.org/abs/2304.08842v1 )

ライセンス: Link先を確認
Sicen Guo, Jiahang Li, Shuai Su, Yi Feng, Dacheng Zhou, Chen Chen, Denghuang Zhang, Xingyi Zhu, Qijun Chen, Rui Fan(参考訳) 都市デジタル双生児の新興分野において,強力な深層学習手法を活用する大きな可能性を秘めている。 インテリジェントな道路検査の分野では特に、現在利用可能な研究とデータが限られている。 この分野での進展を促進するため,我々はUrban Digital Twins Intelligent Road Inspection (UDTIRI) データセットを開発した。 このデータセットにより、都市道路検査における強力なディープラーニング手法の利用が可能になり、より包括的な状況理解と潜在能力を最大化するアルゴリズムが提供されることを期待しています。 われわれのデータセットは1000枚の穴の画像で構成されており、様々なシナリオで異なる照明と湿度条件で撮影されている。 私たちの意図は、オブジェクト検出、セマンティックセグメンテーション、インスタンスセグメンテーションタスクにこのデータセットを使用することです。 私たちのチームは、詳細な統計分析や、近年の代表的なアルゴリズムのベンチマークに多大な努力を払っています。 また、UDTIRIデータセットのサポートにより、研究者が様々なアルゴリズムの性能を完全に活用するためのマルチタスクプラットフォームも提供します。

It is seen that there is enormous potential to leverage powerful deep learning methods in the emerging field of urban digital twins. It is particularly in the area of intelligent road inspection where there is currently limited research and data available. To facilitate progress in this field, we have developed a well-labeled road pothole dataset named Urban Digital Twins Intelligent Road Inspection (UDTIRI) dataset. We hope this dataset will enable the use of powerful deep learning methods in urban road inspection, providing algorithms with a more comprehensive understanding of the scene and maximizing their potential. Our dataset comprises 1000 images of potholes, captured in various scenarios with different lighting and humidity conditions. Our intention is to employ this dataset for object detection, semantic segmentation, and instance segmentation tasks. Our team has devoted significant effort to conducting a detailed statistical analysis, and benchmarking a selection of representative algorithms from recent years. We also provide a multi-task platform for researchers to fully exploit the performance of various algorithms with the support of UDTIRI dataset.
翻訳日:2023-04-19 15:26:56 公開日:2023-04-18
# グラフ逆問題における音源定位のための2段階雑音拡散モデル

Two-stage Denoising Diffusion Model for Source Localization in Graph Inverse Problems ( http://arxiv.org/abs/2304.08841v1 )

ライセンス: Link先を確認
Bosong Huang, Weihao Yu, Ruzhong Xie, Jing Xiao, Jin Huang(参考訳) ソースローカライゼーションはグラフ情報拡散の逆問題であり、幅広い応用がある。 しかし、情報伝達における固有の複雑さと不確実性は重大な課題を引き起こし、ソースローカライゼーション問題の誤った性質がこれらの課題をさらに悪化させる。 近年、深部生成モデル、特に古典的非平衡熱力学に触発された拡散モデルが大きな進展を遂げている。 拡散モデルは逆問題の解法や高品質な再構成に強力であることが証明されているが、それらを原産地に直接適用することは2つの理由から実現不可能である。 第一に, 大規模ネットワーク上での後方分散結果の計算は不可能であり, 膨大な計算コストを発生させる。 第二に、この分野の既存の方法では、トレーニングデータ自体が不適切な(一対一の)ため、拡散モデルを単に転送するだけで、局所的なオプティマにしかならない。 これらの課題に対処するため、我々は2段階最適化フレームワークSL-Diff(source localization denoising diffusion model)を提案する。 粗い段階では、ソース近接度を教師付き信号として考案し、粗い粒度のソース予測を生成する。 これは次の段階を効率的に初期化し、収束時間を大幅に削減し、収束過程を校正することを目的としている。 さらに、このトレーニング手法におけるカスケード時間情報の導入は、多対一のマッピング関係を1対1の関係に変換し、不適切な問題を完全に解決する。 詳細な段階では,拡散の不確かさを定量化できるグラフ逆問題に対する拡散モデルを設計する。 提案するsl-diffは広範な実験で適切なサンプリング時間内に優れた予測結果が得られる。

Source localization is the inverse problem of graph information dissemination and has broad practical applications. However, the inherent intricacy and uncertainty in information dissemination pose significant challenges, and the ill-posed nature of the source localization problem further exacerbates these challenges. Recently, deep generative models, particularly diffusion models inspired by classical non-equilibrium thermodynamics, have made significant progress. While diffusion models have proven to be powerful in solving inverse problems and producing high-quality reconstructions, applying them directly to the source localization is infeasible for two reasons. Firstly, it is impossible to calculate the posterior disseminated results on a large-scale network for iterative denoising sampling, which would incur enormous computational costs. Secondly, in the existing methods for this field, the training data itself are ill-posed (many-to-one); thus simply transferring the diffusion model would only lead to local optima. To address these challenges, we propose a two-stage optimization framework, the source localization denoising diffusion model (SL-Diff). In the coarse stage, we devise the source proximity degrees as the supervised signals to generate coarse-grained source predictions. This aims to efficiently initialize the next stage, significantly reducing its convergence time and calibrating the convergence process. Furthermore, the introduction of cascade temporal information in this training method transforms the many-to-one mapping relationship into a one-to-one relationship, perfectly addressing the ill-posed problem. In the fine stage, we design a diffusion model for the graph inverse problem that can quantify the uncertainty in the dissemination. The proposed SL-Diff yields excellent prediction results within a reasonable sampling time at extensive experiments.
翻訳日:2023-04-19 15:26:39 公開日:2023-04-18
# GoferBot: ビジュアルガイド付き人間ロボット協調組立システム

GoferBot: A Visual Guided Human-Robot Collaborative Assembly System ( http://arxiv.org/abs/2304.08840v1 )

ライセンス: Link先を確認
Zheyu Zhuang, Yizhak Ben-Shabat, Jiahao Zhang, Stephen Gould, Robert Mahony(参考訳) スマートマニュファクチャリングへの現在の転換により、製造プロセスにおけるヒューマンロボットコラボレーション(HRC)の需要が高まっている。 人間の同僚の行動の知覚と理解は、非構造的でダイナミックな環境でのタスクを効率的に効果的に実行するための協調ロボットの課題をもたらす。 最近のデータ駆動マシンビジョン機能をRCシステムに統合することは、これらの課題に対処するための論理的な次のステップである。 しかし、これらの場合、既製の部品は一般化の限界のために苦労する。 これらのアプローチの成熟度と堅牢性を完全に評価するためには、実世界の評価が必要である。 さらに、制約を理解するために複数のモダリティを組み合わせる前に、純粋ビジョンの側面を理解することは重要な第一歩である。 本稿では,現実の組立タスクのための新しい視覚ベースセマンティックHRCシステムであるGoferBotを提案する。 非構造化マルチインスティスタンス・ダイナミック環境において組立部品を到達・把握する視覚サーボモジュールと、暗黙的なコミュニケーションのために人間の行動予測を行う行動認識モジュールと、人間の行動の知覚的理解を利用して直感的で効率的な協調的な組立体験を生成する視覚ハンドオーバモジュールとからなる。 GoferBotは、視覚的知覚から純粋に暗黙のセマンティック情報を活用することで、すべてのサブモジュールをシームレスに統合する新しいアセンブリシステムである。

The current transformation towards smart manufacturing has led to a growing demand for human-robot collaboration (HRC) in the manufacturing process. Perceiving and understanding the human co-worker's behaviour introduces challenges for collaborative robots to efficiently and effectively perform tasks in unstructured and dynamic environments. Integrating recent data-driven machine vision capabilities into HRC systems is a logical next step in addressing these challenges. However, in these cases, off-the-shelf components struggle due to generalisation limitations. Real-world evaluation is required in order to fully appreciate the maturity and robustness of these approaches. Furthermore, understanding the pure-vision aspects is a crucial first step before combining multiple modalities in order to understand the limitations. In this paper, we propose GoferBot, a novel vision-based semantic HRC system for a real-world assembly task. It is composed of a visual servoing module that reaches and grasps assembly parts in an unstructured multi-instance and dynamic environment, an action recognition module that performs human action prediction for implicit communication, and a visual handover module that uses the perceptual understanding of human behaviour to produce an intuitive and efficient collaborative assembly experience. GoferBot is a novel assembly system that seamlessly integrates all sub-modules by utilising implicit semantic information purely from visual perception.
翻訳日:2023-04-19 15:26:10 公開日:2023-04-18
# ニューラルネットワークを用いた自律非線形システムのセンサ故障検出と分離

Sensor Fault Detection and Isolation in Autonomous Nonlinear Systems Using Neural Network-Based Observers ( http://arxiv.org/abs/2304.08837v1 )

ライセンス: Link先を確認
John Cao, Muhammad Umar B. Niazi, Karl Henrik Johansson(参考訳) 本稿では,産業システムにおける異常センサの検出と分離のための新しいオブザーバベースアプローチを提案する。 完全な故障とセンサ劣化の2種類が検討されている。 提案手法は, 一般自律非線形システムに適用でき, 一般にオブザーバ設計文献で検討されている三角および/または正規形式を仮定することなく適用できる。 我々のアプローチの重要な側面は、ニューラルネットワークを用いて非線形系を出力注入を伴う安定線形系に変換するインジェクティブマップを近似する、Luenbergerオブザーバの学習に基づく設計である。 この学習に基づくLuenbergerオブザーバは、システムの状態を正確に推定し、残留生成によるセンサ障害の検出を可能にする。 残差は、測定された出力と観測者の予測出力ベクトルとの差のノルムとして計算される。 障害分離は、各センサの測定値と対応する予測値を比較して達成される。 計測ノイズやシステム不確実性の存在下で頑健でありながら,センサの故障を捕捉・分離する手法の有効性を実証する。 倉本発振器ネットワークにおけるセンサ故障の数値シミュレーションにより本手法を検証する。

This paper presents a new observer-based approach to detect and isolate faulty sensors in industrial systems. Two types of sensor faults are considered: complete failure and sensor deterioration. The proposed method is applicable to general autonomous nonlinear systems without making any assumptions about its triangular and/or normal form, which is usually considered in the observer design literature. The key aspect of our approach is a learning-based design of the Luenberger observer, which involves using a neural network to approximate the injective map that transforms the nonlinear system into a stable linear system with output injection. This learning-based Luenberger observer accurately estimates the system's state, allowing for the detection of sensor faults through residual generation. The residual is computed as the norm of the difference between the system's measured output and the observer's predicted output vectors. Fault isolation is achieved by comparing each sensor's measurement with its corresponding predicted value. We demonstrate the effectiveness of our approach in capturing and isolating sensor faults while remaining robust in the presence of measurement noise and system uncertainty. We validate our method through numerical simulations of sensor faults in a network of Kuramoto oscillators.
翻訳日:2023-04-19 15:25:47 公開日:2023-04-18
# カテゴリーとしてのアインシュタイン完全性

Einstein Completeness as Categoricity ( http://arxiv.org/abs/2304.08829v1 )

ライセンス: Link先を確認
Iulian D. Toader(参考訳) この論文は、アインシュタインの量子力学の不完全性に関する自身の議論を代数的に再構築し、アインシュタイン完全性をカテゴリー性として理解する前提、それが記述的完全性の一種であるという感覚、そしてそれがしばしば誤解される様々な方法のいくつかを明らかにする。

This paper provides an algebraic reconstruction of Einstein's own argument for the incompleteness of quantum mechanics -- the one that he thought did not make it into the EPR paper -- in order to clarify the assumptions that underlie an understanding of Einstein completeness as categoricity, the sense in which it is a type of descriptive completeness, and some of the various ways in which it has been more often misconstrued.
翻訳日:2023-04-19 15:25:29 公開日:2023-04-18
# NPS: グラフニューラルネットワークを用いたプログラムサンプリングのためのフレームワーク

NPS: A Framework for Accurate Program Sampling Using Graph Neural Network ( http://arxiv.org/abs/2304.08880v1 )

ライセンス: Link先を確認
Yuanwei Fang, Zihao Liu, Yanheng Lu, Jiawei Liu, Jiajie Li, Yi Jin, Jian Chen, Yenkuang Chen, Hongzhong Zheng, Yuan Xie(参考訳) ムーアの法則の終了により、RISC-Vカスタム拡張のような最新のプロセッサの急速なアーキテクチャ革新がパフォーマンスのスケーリングを継続する需要が高まっている。 プログラムサンプリングは、ワークロードシミュレーションの代表的なシミュレーションポイントを選択するため、マイクロプロセッサ設計において重要なステップである。 SimPointは何十年にもわたってデファクトのアプローチだったが、Basic Block Vector(BBV)との限定的な表現力は、数ヶ月を要し、高速なイノベーションとアジャイルなハードウェア開発を妨げる。 本稿では,グラフニューラルネットワークの動的スナップショットを用いて実行埋め込みを学習する新しいフレームワークであるneural program sampling (nps)を提案する。 NPSは、アプリケーションのコード構造とランタイム状態を活用する、アセンブリネットを組み込み生成用にデプロイする。 AssemblyNetはNPSのグラフモデルとニューラルアーキテクチャとして機能し、プログラムの振る舞いをデータ計算、コードパス、データフローといった面でキャプチャする。 AssemblyNetは、連続するメモリアドレスを予測するデータプリフェッチタスクでトレーニングされる。 実験では、NPSはSimPointを最大63%上回り、平均誤差を38%削減した。 さらに、NPSは高い精度で堅牢性を示し、高い精度のチューニングオーバーヘッドを低減する。 さらに、NPSは、コード振る舞い学習における最先端のGNNアプローチよりも精度と汎用性が高く、高品質な実行埋め込みを生成することができる。

With the end of Moore's Law, there is a growing demand for rapid architectural innovations in modern processors, such as RISC-V custom extensions, to continue performance scaling. Program sampling is a crucial step in microprocessor design, as it selects representative simulation points for workload simulation. While SimPoint has been the de-facto approach for decades, its limited expressiveness with Basic Block Vector (BBV) requires time-consuming human tuning, often taking months, which impedes fast innovation and agile hardware development. This paper introduces Neural Program Sampling (NPS), a novel framework that learns execution embeddings using dynamic snapshots of a Graph Neural Network. NPS deploys AssemblyNet for embedding generation, leveraging an application's code structures and runtime states. AssemblyNet serves as NPS's graph model and neural architecture, capturing a program's behavior in aspects such as data computation, code path, and data flow. AssemblyNet is trained with a data prefetch task that predicts consecutive memory addresses. In the experiments, NPS outperforms SimPoint by up to 63%, reducing the average error by 38%. Additionally, NPS demonstrates strong robustness with increased accuracy, reducing the expensive accuracy tuning overhead. Furthermore, NPS shows higher accuracy and generality than the state-of-the-art GNN approach in code behavior learning, enabling the generation of high-quality execution embeddings.
翻訳日:2023-04-19 15:18:56 公開日:2023-04-18
# 深層集合的知識蒸留

Deep Collective Knowledge Distillation ( http://arxiv.org/abs/2304.08878v1 )

ライセンス: Link先を確認
Jihyeon Seo, Kyusam Oh, Chanho Min, Yongkeun Yun, Sungwoo Cho(参考訳) 知識蒸留に関する既存の多くの研究は、生徒モデルが教師モデルをよく模倣する手法に焦点をあてている。 しかし、教師の知識を模倣するだけでは、生徒が教師の知識を上回るには不十分である。 教員の知識を補完するために,他の生徒の知識を活用する方法を探究する。 本研究では,教師モデルだけでなく,他の生徒モデルからも知識を得るために,リッチな情報を持つ学生モデルを訓練する方法であるdckdというモデル圧縮のための深層集合的知識蒸留法を提案する。 いくつかの学生モデルから得られた知識は、クラス間の相関に関する豊富な情報から成り立っている。 我々のDCKDは,授業間の相関知識を高める方法を検討する。 新たな手法により,より優れた学生モデルの構築が可能となった。 この単純で強力な手法は多くの実験で最先端の性能を達成する。 例えば、ImageNetでは、DCKDでトレーニングされたResNet18が72.27\%を達成する。 CIFAR-100では、ShuffleNetV1とDCKDの学生モデルは、事前訓練されたShuffleNetV1よりも6.55\%高いトップ1精度を達成する。

Many existing studies on knowledge distillation have focused on methods in which a student model mimics a teacher model well. Simply imitating the teacher's knowledge, however, is not sufficient for the student to surpass that of the teacher. We explore a method to harness the knowledge of other students to complement the knowledge of the teacher. We propose deep collective knowledge distillation for model compression, called DCKD, which is a method for training student models with rich information to acquire knowledge from not only their teacher model but also other student models. The knowledge collected from several student models consists of a wealth of information about the correlation between classes. Our DCKD considers how to increase the correlation knowledge of classes during training. Our novel method enables us to create better performing student models for collecting knowledge. This simple yet powerful method achieves state-of-the-art performances in many experiments. For example, for ImageNet, ResNet18 trained with DCKD achieves 72.27\%, which outperforms the pretrained ResNet18 by 2.52\%. For CIFAR-100, the student model of ShuffleNetV1 with DCKD achieves 6.55\% higher top-1 accuracy than the pretrained ShuffleNetV1.
翻訳日:2023-04-19 15:18:33 公開日:2023-04-18
# 傾斜物体検出のための動的粗度学習

Dynamic Coarse-to-Fine Learning for Oriented Tiny Object Detection ( http://arxiv.org/abs/2304.08876v1 )

ライセンス: Link先を確認
Chang Xu, Jian Ding, Jinwang Wang, Wen Yang, Huai Yu, Lei Yu, Gui-Song Xia(参考訳) 任意に向き付けられた小さな物体を検出することは、既存の検出器、特にラベルの割り当てに厳しい課題をもたらす。 最近の指向性物体検出器における適応ラベル割り当ての探索にもかかわらず、オブジェクト指向の極端な形状と限定的な特徴は依然として深刻なミスマッチと不均衡の問題を引き起こす。 具体的には、位置先行、正のサンプル特徴、インスタンスがミスマッチし、極端な形状の物体の学習は、適切な特徴の監督がほとんどないため、偏り、不均衡となる。 これらの問題に対処するため、我々はDCFLと呼ばれる粗大なアサインラと共に動的に先行する手法を提案する。 ひとつは、ミスマッチの問題を軽減するために、事前、ラベル割り当て、オブジェクト表現を動的にモデル化することです。 別の例として、粗い事前マッチングとよりきめ細かな後部制約を利用してラベルを動的に割り当て、多様なインスタンスに対して適切な比較的バランスの取れた監視を提供する。 6つのデータセットに関する広範な実験では、ベースラインが大幅に改善されている。 特に,DOTA-v1.5,DOTA-v2.0,DIOR-Rデータセット上の1段階検出器の単一スケールトレーニングおよび試験における最先端性能について検討した。 コードはhttps://github.com/chasel-tsui/mmrotate-dcflで入手できる。

Detecting arbitrarily oriented tiny objects poses intense challenges to existing detectors, especially for label assignment. Despite the exploration of adaptive label assignment in recent oriented object detectors, the extreme geometry shape and limited feature of oriented tiny objects still induce severe mismatch and imbalance issues. Specifically, the position prior, positive sample feature, and instance are mismatched, and the learning of extreme-shaped objects is biased and unbalanced due to little proper feature supervision. To tackle these issues, we propose a dynamic prior along with the coarse-to-fine assigner, dubbed DCFL. For one thing, we model the prior, label assignment, and object representation all in a dynamic manner to alleviate the mismatch issue. For another, we leverage the coarse prior matching and finer posterior constraint to dynamically assign labels, providing appropriate and relatively balanced supervision for diverse instances. Extensive experiments on six datasets show substantial improvements to the baseline. Notably, we obtain the state-of-the-art performance for one-stage detectors on the DOTA-v1.5, DOTA-v2.0, and DIOR-R datasets under single-scale training and testing. Codes are available at https://github.com/Chasel-Tsui/mmrotate-dcfl.
翻訳日:2023-04-19 15:18:16 公開日:2023-04-18
# UPGPT:人物画像生成・編集・メッセージ転送のためのユニバーサル拡散モデル

UPGPT: Universal Diffusion Model for Person Image Generation, Editing and Pose Transfer ( http://arxiv.org/abs/2304.08870v1 )

ライセンス: Link先を確認
Soon Yau Cheong, Armin Mustafa, Andrew Gilbert(参考訳) 既存の人物画像生成モデルは画像生成でもポーズ転送でもできるが、両方はできない。 我々は,すべての人物画像タスク生成,ポーズ転送,編集を行うための普遍的なソリューションを提供するために,統一拡散モデルであるupgptを提案する。 提案手法は,細粒度マルチモーダルとアンタングル化機能により,ポーズ,テキスト,画像の組み合わせによる画像生成と編集プロセスのきめ細かい制御を,獲得や編集が困難なセグメンテーションマスクを必要としない形で実現している。 また、ポーズ誘導型人物画像生成におけるパラメータ化ボディSMPLモデルを開拓し、人物の外観を維持しながら、新たな機能的ポーズとカメラビューの補間を示す。 ベンチマークのDeepFashionデータセットの結果は、UPGPTが新しい最先端技術であり、同時に人間の画像生成における編集とポーズ転送の新機能を開拓したことを示している。

Existing person image generative models can do either image generation or pose transfer but not both. We propose a unified diffusion model, UPGPT to provide a universal solution to perform all the person image tasks - generative, pose transfer, and editing. With fine-grained multimodality and disentanglement capabilities, our approach offers fine-grained control over the generation and the editing process of images using a combination of pose, text, and image, all without needing a semantic segmentation mask which can be challenging to obtain or edit. We also pioneer the parameterized body SMPL model in pose-guided person image generation to demonstrate new capability - simultaneous pose and camera view interpolation while maintaining a person's appearance. Results on the benchmark DeepFashion dataset show that UPGPT is the new state-of-the-art while simultaneously pioneering new capabilities of edit and pose transfer in human image generation.
翻訳日:2023-04-19 15:17:53 公開日:2023-04-18
# 絡み合った非ガウススピン状態を持つ周期非線形干渉法

Cyclic nonlinear interferometry with entangled non-Gaussian spin states ( http://arxiv.org/abs/2304.08866v1 )

ライセンス: Link先を確認
Qi Liu, Tian-Wei Mao, Ming Xue, Ling-Na Wu, and Li You(参考訳) 相互作用するスピン-1/2系の内在的準循環力学に基づく非ガウススピン状態(ENGS)の効率的な非線形読み出し方式を提案する。 我々は,twist-and-turn (tnt) とtwo-axis-counter-twisting (tact) の2つのよく知られたスピンモデルに注目した。 tntモデルでは、非ガウシアンプローブ状態は、エンコードされた信号の量子拡大と関連する量子ノイズの再集中を伴う経路再結合のための後続の時間的発展の間、初期状態の近傍へ直接進化する。 低次モーメント測定に基づいて、最適メトロロジーゲインは量子クラーラオ境界(qcrb)をほぼ飽和させ、ハイゼンベルクスケーリングに従う。 TACTの場合、QCRBは、状態が2つの不安定な固定点のいずれかに収束するときに、それぞれ初期状態または直交コヒーレント状態に対応するときに、ほぼ接近することができる。 後者のケースは、初期状態への遡り、または横断することが主に考慮される以前の研究を越えている。 このプロトコルは、典型的な非線形干渉法のような時間反転を必要としないため、非線形可観測性や全確率分布の複雑な測定も避ける。 本研究は,ENGSを用いた高精度・ノイズ検出型量子メトロジーを実現するための実用的手法を提案する。

We propose an efficient nonlinear readout scheme for entangled non-Gaussian spin states (ENGSs) based on the intrinsic quasi-cyclic dynamics of interacting spin-1/2 systems. We focus on two well-known spin models of twist-and-turn (TNT) and two-axis-counter-twisting (TACT), where ENGS can be generated by spin dynamics starting from unstable fixed points. In the TNT model, non-Gaussian probe state evolves directly back to the vicinity of initial state during the subsequent time-forward evolution for path recombining, accompanied by quantum magnification of encoded signal and refocusing of the associated quantum noise. Based on low-order moment measurement, we find the optimal metrological gain nearly saturates the quantum Cramer-Rao bound (QCRB) and follows the Heisenberg scaling. For the TACT case, the QCRB can also be nearly approached when the state converges to either of the two unstable fixed points, respectively corresponding to the initial state or its orthogonal coherent state. The latter case goes beyond previous studies where tracing back to or crossing the initial states is mostly considered. The present protocol does not require time-reversal as in typical nonlinear interferometries, and it also avoids complicated measurement of nonlinear observables or full probability distributions. The operational approach we discuss presents a practical way for realizing high-precision and detection-noise-robust quantum metrology with ENGS.
翻訳日:2023-04-19 15:17:36 公開日:2023-04-18
# ロマン化に基づく多言語言語モデルの大規模適応

Romanization-based Large-scale Adaptation of Multilingual Language Models ( http://arxiv.org/abs/2304.08865v1 )

ライセンス: Link先を確認
Sukannya Purkayastha, Sebastian Ruder, Jonas Pfeiffer, Iryna Gurevych, Ivan Vuli\'c(参考訳) 大規模多言語事前学習言語モデル (mPLMs) は,NLPにおける多言語間移動のデファクトステートとなっている。 しかし、多くの言語への大規模な展開は、データ不足の事前訓練に加えて、語彙サイズの増加やパラメータ予算の制限によっても妨げられている。 低リソース言語や未公開言語を扱うmplmの能力を高めるために,大規模に音訳を活用できる可能性について検討する。 特に、utf-8からラテン文字へのマッピングを全ての文字システムで提供し、事実上あらゆる言語で安価にローマ字化できるuroman transliterationツールについて検討した。 我々はまず,多言語plmに適応するために,他の言語固有の,手作業による翻訳者と比較する方法の確立に焦点をあてた。 次に、mPLMをローマン化および非ロマン化した14の低リソース言語コーパスに適用するためのデータおよびパラメータ効率の戦略を多数検討、比較する。 以上の結果から,UROMANをベースとしたトランスリテラルは,未知のスクリプトを持つ言語や,語彙拡張を伴わない限られたトレーニングデータを持つ言語において,多くの言語で高いパフォーマンスを実現することができた。 さらなる分析により、ローマ字化されたデータに基づく改良されたトークン化器は、多くの言語で非翻訳ベースのメソッドよりも優れていることが判明した。

Large multilingual pretrained language models (mPLMs) have become the de facto state of the art for cross-lingual transfer in NLP. However, their large-scale deployment to many languages, besides pretraining data scarcity, is also hindered by the increase in vocabulary size and limitations in their parameter budget. In order to boost the capacity of mPLMs to deal with low-resource and unseen languages, we explore the potential of leveraging transliteration on a massive scale. In particular, we explore the UROMAN transliteration tool, which provides mappings from UTF-8 to Latin characters for all the writing systems, enabling inexpensive romanization for virtually any language. We first focus on establishing how UROMAN compares against other language-specific and manually curated transliterators for adapting multilingual PLMs. We then study and compare a plethora of data- and parameter-efficient strategies for adapting the mPLMs to romanized and non-romanized corpora of 14 diverse low-resource languages. Our results reveal that UROMAN-based transliteration can offer strong performance for many languages, with particular gains achieved in the most challenging setups: on languages with unseen scripts and with limited training data without any vocabulary augmentation. Further analyses reveal that an improved tokenizer based on romanized data can even outperform non-transliteration-based methods in the majority of languages.
翻訳日:2023-04-19 15:17:09 公開日:2023-04-18
# ガウスの絡み合いに基づく光猫状態の遠隔作成

Remote preparation of optical cat states based on Gaussian entanglement ( http://arxiv.org/abs/2304.08863v1 )

ライセンス: Link先を確認
Dongmei Han, Fengxiao Sun, Na Wang, Yu Xiang, Meihong Wang, Mingsheng Tian, Qiongyi He, and Xiaolong Su(参考訳) リモート状態準備は、量子状態の非局所的準備と操作を可能にする。 必須の量子資源として、光猫状態は通常、圧縮された真空状態から光子を差し引いて局所的に作成される。 リモート量子情報処理では、ガウスの絡み合いに基づく光猫状態の調整と操作が不可欠であり、これは依然として課題である。 ここでは、損失チャネルにおけるリモート分散2モードガウス絡み状態に基づく光猫状態の実験的準備について述べる。 アリスステーションで光子サブトラクションとホモダイン射影測定を行うことにより、ボブステーションで光学猫状態が遠隔で作成される。 さらに、aliceのホモダイン検出の測定基準を変更して調製した猫状態が回転し、遠隔操作を示す。 2モードgaussian entangled状態の2つのモードを損失チャネルに分散させることで、遠隔で用意されたcat状態がボブチャネルよりもaliceチャネルの損失を許容できることを実証する。 また, 2 以上の振幅を持つ猫状態は, スクイーズレベルを増加させ, 光子数を減算することで生成できることを示した。 本研究は,離散・連続可変技術を含むリモートハイブリッド量子情報処理に向けて重要な一歩を踏み出した。

Remote state preparation enables one to prepare and manipulate quantum state non-locally. As an essential quantum resource, optical cat state is usually prepared locally by subtracting photons from a squeezed vacuum state. For remote quantum information processing, it is essential to prepare and manipulate optical cat states remotely based on Gaussian entanglement, which remains a challenge. Here, we present experimental preparation of optical cat states based on a remotely distributed two-mode Gaussian entangled state in a lossy channel. By performing photon subtraction and homodyne projective measurement at Alice's station, an optical cat state is prepared remotely at Bob's station. Furthermore, the prepared cat state is rotated by changing Alice's measurement basis of homodyne detection, which demonstrates the remote manipulation of it. By distributing two modes of the two-mode Gaussian entangled state in lossy channels, we demonstrate that the remotely prepared cat state can tolerate much more loss in Alice's channel than that in Bob's channel. We also show that cat states with amplitudes larger than 2 can be prepared by increasing the squeezing level and subtracting photon numbers. Our results make a crucial step toward remote hybrid quantum information processing involving discrete- and continuous-variable techniques.
翻訳日:2023-04-19 15:16:47 公開日:2023-04-18
# 文脈音声認識のための近距離隣接句マイニング

Approximate Nearest Neighbour Phrase Mining for Contextual Speech Recognition ( http://arxiv.org/abs/2304.08862v1 )

ライセンス: Link先を確認
Maurits Bleeker, Pawel Swietojanski, Stefan Braun and Xiaodan Zhuang(参考訳) 本稿では,文脈エンコーダの潜在空間からハードネガティブなフレーズを抽出する簡易かつ効率的な手法を用いて,エンドツーエンドのコンテキスト認識変換器(CATT)モデルを訓練するための拡張を提案する。 トレーニング中、参照クエリーを考慮し、近い近傍探索を用いて類似したフレーズを多数マイニングする。 これらのサンプルフレーズは、ランダムな真理と基底的な文脈情報と共にコンテキストリストの負の例として使用される。 文脈リストに近似隣接句(ann-p)を含むことにより、学習表現は類似するが同一ではないバイアスフレーズ間の曖昧さを解消することを推奨する。 これにより、バイアスインベントリに類似したフレーズが複数ある場合のバイアス精度が向上する。 テストデータのコンテキスト部分に対して,最大7%の単語誤り率の削減を実現した大規模データレジームで実験を行った。 また,ストリーミングアプリケーションにおけるCATTアプローチの拡張と評価を行った。

This paper presents an extension to train end-to-end Context-Aware Transformer Transducer ( CATT ) models by using a simple, yet efficient method of mining hard negative phrases from the latent space of the context encoder. During training, given a reference query, we mine a number of similar phrases using approximate nearest neighbour search. These sampled phrases are then used as negative examples in the context list alongside random and ground truth contextual information. By including approximate nearest neighbour phrases (ANN-P) in the context list, we encourage the learned representation to disambiguate between similar, but not identical, biasing phrases. This improves biasing accuracy when there are several similar phrases in the biasing inventory. We carry out experiments in a large-scale data regime obtaining up to 7% relative word error rate reductions for the contextual portion of test data. We also extend and evaluate CATT approach in streaming applications.
翻訳日:2023-04-19 15:16:27 公開日:2023-04-18
# 説明可能なAIが認知的負荷に与える影響:実証的研究から

Impact Of Explainable AI On Cognitive Load: Insights From An Empirical Study ( http://arxiv.org/abs/2304.08861v1 )

ライセンス: Link先を確認
Lukas-Valentin Herm(参考訳) 説明可能な人工知能(XAI)の新たな研究分野は、高性能機械学習モデルにおける説明可能性の欠如に対処すると主張しているが、実際には、XAIは実際のエンドユーザではなく、開発者をターゲットにしている。 当然ながら、エンドユーザはXAIベースの意思決定支援システムを使いたがらないことが多い。 同様に、XAIの説明におけるエンドユーザー行動に関する学際的な研究は限られており、その説明が認知負荷にどのように影響し、エンドユーザーのパフォーマンスにさらに影響を及ぼすかは分かっていない。 そこで本研究では,271名の医師を対象に,実装非依存のxai説明型に対する認知負荷,タスクパフォーマンス,作業時間の測定を行った。 これらの説明型は, エンドユーザの認知負荷, タスクパフォーマンス, タスク時間に強く影響を及ぼすことがわかった。 さらに,精神効率の指標として,地域XAI説明型を最良に評価し,今後の応用と社会技術XAI研究への示唆を提供する。

While the emerging research field of explainable artificial intelligence (XAI) claims to address the lack of explainability in high-performance machine learning models, in practice, XAI targets developers rather than actual end-users. Unsurprisingly, end-users are often unwilling to use XAI-based decision support systems. Similarly, there is limited interdisciplinary research on end-users' behavior during XAI explanations usage, rendering it unknown how explanations may impact cognitive load and further affect end-user performance. Therefore, we conducted an empirical study with 271 prospective physicians, measuring their cognitive load, task performance, and task time for distinct implementation-independent XAI explanation types using a COVID-19 use case. We found that these explanation types strongly influence end-users' cognitive load, task performance, and task time. Further, we contextualized a mental efficiency metric, ranking local XAI explanation types best, to provide recommendations for future applications and implications for sociotechnical XAI research.
翻訳日:2023-04-19 15:16:11 公開日:2023-04-18
# MCDM群における解離・解離凝集と分散不良

Unveiling and unraveling aggregation and dispersion fallacies in group MCDM ( http://arxiv.org/abs/2304.08859v1 )

ライセンス: Link先を確認
Majid Mohammadi, Damian A. Tamburri, and Jafar Rezaei(参考訳) MCDM (Multi-criteria decision-making) の優先事項は、1つの基準が他の基準よりも適切であることを示すものである。 このような優先順位の処理は他の制約のないデータとは異なるが、この点は研究者によって無視されることが多く、誤った統計分析をもたらす。 本稿では, 統計的操作の誤用を避けるために, 合成データ解析に基づく解とともに, グループmcdmにおける3つの誤りについて検討する。 まず、構成的アプローチを用いて、DMのグループの優先順位を集計し、構成的分析の結果が正規化された幾何学的平均と同一であることを示し、算術的平均を回避すべきであることを示す。 さらに,幾何学平均に対するロバストなサーロゲートである新しい集計法を開発した。 また,標準偏差や距離関数を含む分散の計算における誤差についても考察する。 標準偏差の計算における誤りを論じ、適切なベイズテストを開発することによって確率的基準をランク付けし、基準が他のものよりも重要である範囲を計算する。 最後に、優先度間の距離を計算する際の誤差を説明し、適切な距離メトリクスに基づいてクラスタリングアルゴリズムを特別に調整する。

Priorities in multi-criteria decision-making (MCDM) convey the relevance preference of one criterion over another, which is usually reflected by imposing the non-negativity and unit-sum constraints. The processing of such priorities is different than other unconstrained data, but this point is often neglected by researchers, which results in fallacious statistical analysis. This article studies three prevalent fallacies in group MCDM along with solutions based on compositional data analysis to avoid misusing statistical operations. First, we use a compositional approach to aggregate the priorities of a group of DMs and show that the outcome of the compositional analysis is identical to the normalized geometric mean, meaning that the arithmetic mean should be avoided. Furthermore, a new aggregation method is developed, which is a robust surrogate for the geometric mean. We also discuss the errors in computing measures of dispersion, including standard deviation and distance functions. Discussing the fallacies in computing the standard deviation, we provide a probabilistic criteria ranking by developing proper Bayesian tests, where we calculate the extent to which a criterion is more important than another. Finally, we explain the errors in computing the distance between priorities, and a clustering algorithm is specially tailored based on proper distance metrics.
翻訳日:2023-04-19 15:15:54 公開日:2023-04-18
# GKLSジェネレータの計算と探査による景観解析

Computational and Exploratory Landscape Analysis of the GKLS Generator ( http://arxiv.org/abs/2304.08913v1 )

ライセンス: Link先を確認
Jakub Kudela, Martin Juricek(参考訳) GKLSジェネレータは、グローバル最適化アルゴリズムのベンチマークに最も使われているテストベッドの一つである。 本稿では,gkls生成器の計算解析と探索的景観解析(ela)の両方を行う。 我々は、GKLSの生成した問題の正準クラスと新たに生成されたクラスの両方を利用して、5次元と10次元の3つの最先端メソッド(進化的および決定論的コミュニティから)のベンチマークを行う。 GKLSジェネレータは,高次元での最適化が極めて困難になる<needle in a haystack''型問題を生成する。 さらに、GKLS ジェネレータ上で ELA を行い、他の広く使われているベンチマークセット (BBOB と CEC 2014) の ELA と比較し、その結果の意義について議論する。

The GKLS generator is one of the most used testbeds for benchmarking global optimization algorithms. In this paper, we conduct both a computational analysis and the Exploratory Landscape Analysis (ELA) of the GKLS generator. We utilize both canonically used and newly generated classes of GKLS-generated problems and show their use in benchmarking three state-of-the-art methods (from evolutionary and deterministic communities) in dimensions 5 and 10. We show that the GKLS generator produces ``needle in a haystack'' type problems that become extremely difficult to optimize in higher dimensions. Furthermore, we conduct the ELA on the GKLS generator and then compare it to the ELA of two other widely used benchmark sets (BBOB and CEC 2014), and discuss the meaningfulness of the results.
翻訳日:2023-04-19 15:10:01 公開日:2023-04-18
# コントラスト型パーソナリティ蒸留によるゼロショットパーソナライズテーブル・ツー・テキスト生成に向けて

Towards Zero-Shot Personalized Table-to-Text Generation with Contrastive Persona Distillation ( http://arxiv.org/abs/2304.08911v1 )

ライセンス: Link先を確認
Haolan Zhan and Xuming Lin and Shaobo Cui and Zhongzhou Zhao and Wei Zhou and Haiqing Chen(参考訳) 既存のニューラルネットワークは、構造化された表データから情報的テキストを生成するとともに、高いコンテンツ忠実性を維持する上で大きな可能性を示している。 しかし、パーソナライズされた表現の生成に光を当てる人は少なく、それらは多くの場合、取得が難しい、適切に整列したペルソナテーブルテキストデータセットを必要とする。 これらの障害を克服するために,訓練中にパーソナライズされたペルソナテーブルトリプルを必要とせず,ゼロショット設定下でのパーソナライズされたテーブルツーテキスト生成について検討する。 この目的のために,まず非ペア型ペルソナ情報の集合を収集し,その後,対照型ペルソナ蒸留(s2p-cpd)を用いた半教師付きアプローチを提案し,パーソナライズされたコンテキストを生成する。 具体的には、表データとペルソナ情報をそれぞれ別々に潜在変数として表現する。 そこで我々は,テーブル表現にペルソナ情報を蒸留する潜在空間融合手法を考案した。 さらに、コントラストベースの識別器を用いて、生成されたコンテキストとその対応するペルソナ間のスタイル整合性を保証する。 2つのベンチマーク実験の結果、S2P-CPDがコンテンツ忠実性とパーソナライズされた表現を維持する能力を示した。

Existing neural methods have shown great potentials towards generating informative text from structured tabular data as well as maintaining high content fidelity. However, few of them shed light on generating personalized expressions, which often requires well-aligned persona-table-text datasets that are difficult to obtain. To overcome these obstacles, we explore personalized table-to-text generation under a zero-shot setting, by assuming no well-aligned persona-table-text triples are required during training. To this end, we firstly collect a set of unpaired persona information and then propose a semi-supervised approach with contrastive persona distillation (S2P-CPD) to generate personalized context. Specifically, tabular data and persona information are firstly represented as latent variables separately. Then, we devise a latent space fusion technique to distill persona information into the table representation. Besides, a contrastive-based discriminator is employed to guarantee the style consistency between the generated context and its corresponding persona. Experimental results on two benchmarks demonstrate S2P-CPD's ability on keeping both content fidelity and personalized expressions.
翻訳日:2023-04-19 15:09:47 公開日:2023-04-18
# イベントカメラとlidarを用いた地中環境下の照明条件の人間追跡

Event Camera and LiDAR based Human Tracking for Adverse Lighting Conditions in Subterranean Environments ( http://arxiv.org/abs/2304.08908v1 )

ライセンス: Link先を確認
Mario A.V. Saucedo, Akash Patel, Rucha Sawlekar, Akshit Saradagi, Christoforos Kanellakis, Ali-Akbar Agha-Mohammadi and George Nikolakopoulos(参考訳) 本稿では,低照度や低照度,高コントラスト帯,目隠し光源など,様々な照明条件下での高速・高精度物体検出のための地下(subt)環境における新しいlidarとイベントカメラの融合モードを提案する。 提案手法では、イベントカメラとLiDARからの情報を融合して、ロボットのローカルフレーム内の人間や興味の対象をローカライズする。 局所検出は慣性フレームに変換され、SubT環境における人間や物体の反応性追跡のための非線形モデル予測制御器(NMPC)の参照を設定するのに使用される。 提案手法は,LiDAR点雲上での強度フィルタリングとK平均クラスタリングと,帰還するLiDARビームによってイベントカメラで誘導されるイベント上での周波数フィルタリングと接続クラスタリングを利用する。 次に、イベントカメラとLiDARストリームのクラスタのセントロイドをペアにして、SubT環境の安全ベストや標識に存在する反射マーカーをローカライズする。 提案手法の有効性は,パイオニア3AT移動ロボットを用いた実地SubT環境(鉱山)において実験的に検証されている。 実験結果は,人間の検出におけるリアルタイムな性能を示し,NMPCをベースとしたコントローラは,完全な暗黒でも,人や対象の反応追跡を可能にする。

In this article, we propose a novel LiDAR and event camera fusion modality for subterranean (SubT) environments for fast and precise object and human detection in a wide variety of adverse lighting conditions, such as low or no light, high-contrast zones and in the presence of blinding light sources. In the proposed approach, information from the event camera and LiDAR are fused to localize a human or an object-of-interest in a robot's local frame. The local detection is then transformed into the inertial frame and used to set references for a Nonlinear Model Predictive Controller (NMPC) for reactive tracking of humans or objects in SubT environments. The proposed novel fusion uses intensity filtering and K-means clustering on the LiDAR point cloud and frequency filtering and connectivity clustering on the events induced in an event camera by the returning LiDAR beams. The centroids of the clusters in the event camera and LiDAR streams are then paired to localize reflective markers present on safety vests and signs in SubT environments. The efficacy of the proposed scheme has been experimentally validated in a real SubT environment (a mine) with a Pioneer 3AT mobile robot. The experimental results show real-time performance for human detection and the NMPC-based controller allows for reactive tracking of a human or object of interest, even in complete darkness.
翻訳日:2023-04-19 15:09:26 公開日:2023-04-18
# 相互作用系におけるカオスと動的局在

Chaos and Dynamical localization in interacting kicked systems ( http://arxiv.org/abs/2304.08899v1 )

ライセンス: Link先を確認
Anjali Nambudiripad, J. Bharathi Kannan and M. S. Santhanam(参考訳) 量子局在は、系を不積分で完全にカオスにする相互作用の影響下で保存されているか? 本研究は運動量結合型2体リニアキックローターモデルの詳細研究を通じてこの問題に答えようとするものである。 近年,空間的に相互作用するリニアキックローターの可積分モデルに動的多体局在が存在することが示されている。 後に、非可積分モデル(結合相対論的キックローター)におけるそのような局在相の存在が示されている。 しかし、動的局所化の存在は、可積分極限から遠く、従って完全にカオスである相互作用系において、未解決の問題である。 本研究では, 回転子のモータ間の相互作用により, 積分可能なリニアキックロータモデルにおいてカオスを誘導できることを示す。 Lyapunov指数の近似推定値を得る。 さらに、このカオスモデルの量子力学は、キックと相互作用の強さのバリエーションに基づいて、古典的に誘導される局在化、動的局在化、部分拡散および拡散相の様々な相を示す。 また,本システムにおける絡み合い生産からの視点についても論じる。 有効ヒルベルト空間次元を定義することにより、エンタングルメント成長率は適切なランダム行列平均を用いて理解できる。

Is quantum localization preserved under the effect of interactions that make a system non-integrable and completely chaotic? This work attempts to answer this question through a detailed study of the momentum-coupled, two-body linear kicked rotor model. It was recently shown that dynamical many-body localization exists in an integrable model of spatially interacting linear kicked rotors. Later, such localized phases in a non-integrable model -- coupled relativistic kicked rotors -- were also shown to exist. However, the presence of dynamical localization remains an open question in an interacting system that is far from the integrable limit and hence is completely chaotic. In this work, we show that chaos can be induced in the integrable linear kicked rotor model through interactions between the momenta of rotors. An approximate estimate of its Lyapunov exponent is obtained. Further, the quantum dynamics of this chaotic model, upon variation of kicking and interaction strengths, is shown to exhibit a variety of phases -- classically induced localization, dynamical localization, subdiffusive and diffusive phases. We also discuss this perspective from entanglement production in this system. By defining an effective Hilbert space dimension, the entanglement growth rate can be understood using appropriate random matrix averages.
翻訳日:2023-04-19 15:09:04 公開日:2023-04-18
# 多エネルギー管理システムにおける自己改善ハード制約による安全強化学習

Safe reinforcement learning with self-improving hard constraints for multi-energy management systems ( http://arxiv.org/abs/2304.08897v1 )

ライセンス: Link先を確認
Glenn Ceusters, Muhammad Andy Putratama, R\"udiger Franke, Ann Now\'e, Maarten Messagie(参考訳) ハード制約付き安全強化学習(rl)は、マルチエネルギ管理システムの最適制御方向として有望である。 環境固有の制約関数自体が、完全なモデル(すなわち、プラント、外乱、ノイズモデル、およびプラントモデルに含まれない状態の予測モデル、例えば需要、天候、価格予測)ではなく、前もって必要となるだけである。 それゆえ、プロジェクト固有の事前および進行中のエンジニアリング努力は依然として削減され、基盤となるシステムダイナミクスのより良い表現は依然として学習でき、モデリングバイアスは最小限(モデルベースの客観的関数なし)に保たれます。 しかし、制約関数のみであっても、事前に正確に提供するのは必ずしも自明ではない(例えば、エネルギーバランスの制約は、すべてのエネルギー入力と出力の詳細な決定を必要とする)。 本稿では, (I) Optlayer と SafeFallback を併用した OptLayerPolicy という新しい手法を提案する。 (ii)より多くのデータが利用可能になるにつれて、制約関数の精度を高めるために、自己改善的な制約を導入すること。 どちらの進歩も制約の定式化をRL定式化から切り離すことを保ち、新しい(おそらくより良い)RLアルゴリズムがドロップイン置換として機能できるようにしている。 シミュレーションによるマルチエネルギーシステムのケーススタディでは,初期効用は86.1% (OptLayerPolicy) に対して92.4% (OptLayerPolicy) に増加し,訓練後の政策は104.9% (GreyOptLayerPolicy) に,バニラRLベンチマークと比較して103.4% (OptLayer) に増加した。 最適化問題にサロゲート関数を導入するには特に注意が必要であるが,新たに提示したgreyoptlayerpolicy法が最も有利であると結論する。

Safe reinforcement learning (RL) with hard constraint guarantees is a promising optimal control direction for multi-energy management systems. It only requires the environment-specific constraint functions itself a prior and not a complete model (i.e. plant, disturbance and noise models, and prediction models for states not included in the plant model - e.g. demand, weather, and price forecasts). The project-specific upfront and ongoing engineering efforts are therefore still reduced, better representations of the underlying system dynamics can still be learned and modeling bias is kept to a minimum (no model-based objective function). However, even the constraint functions alone are not always trivial to accurately provide in advance (e.g. an energy balance constraint requires the detailed determination of all energy inputs and outputs), leading to potentially unsafe behavior. In this paper, we present two novel advancements: (I) combining the Optlayer and SafeFallback method, named OptLayerPolicy, to increase the initial utility while keeping a high sample efficiency. (II) introducing self-improving hard constraints, to increase the accuracy of the constraint functions as more data becomes available so that better policies can be learned. Both advancements keep the constraint formulation decoupled from the RL formulation, so that new (presumably better) RL algorithms can act as drop-in replacements. We have shown that, in a simulated multi-energy system case study, the initial utility is increased to 92.4% (OptLayerPolicy) compared to 86.1% (OptLayer) and that the policy after training is increased to 104.9% (GreyOptLayerPolicy) compared to 103.4% (OptLayer) - all relative to a vanilla RL benchmark. While introducing surrogate functions into the optimization problem requires special attention, we do conclude that the newly presented GreyOptLayerPolicy method is the most advantageous.
翻訳日:2023-04-19 15:08:43 公開日:2023-04-18
# 3レベル系の逐次励起による光子数基底の多成分絡み合い

Multipartite entanglement in the photon number basis by sequential excitation of a three-level system ( http://arxiv.org/abs/2304.08896v1 )

ライセンス: Link先を確認
Alan C. Santos, Christian Schneider, Romain Bachelard, Ana Predojevi\'c, Carlos Ant\'on-Solanas(参考訳) 3レベル系の逐次共振2光子励起により、光子数ベースで符号化された絡み合いを生成する一般的なスキームを提案する。 本稿では,光子対をバイエキシトン・エキシトンカスケードで生成できる量子ドット3レベル系の特定の場合に適用する。 提案方式で生成した状態は,生成状態に存在する多部相関が完全GHZ状態に対する秘密通信の増大率をもたらす可能性があるため,セキュア通信のためのツールを構成する。

We propose a general scheme to generate entanglement encoded in the photon number basis, via a sequential resonant two-photon excitation of a three-level system. We apply it to the specific case of a quantum dot three-level system, which can emit a photon pair through a biexciton-exciton cascade. The state generated in our scheme constitutes a tool for secure communication, as the multipartite correlations present in the produced state may provide an enhanced rate of secret communication with respect to a perfect GHZ state.
翻訳日:2023-04-19 15:08:03 公開日:2023-04-18
# 自律システム:自律システム:屋内ドローンナビゲーション

Autonomous Systems: Autonomous Systems: Indoor Drone Navigation ( http://arxiv.org/abs/2304.08893v1 )

ライセンス: Link先を確認
Aswin Iyer, Santosh Narayan, Naren M, Manoj kumar Rajagopal(参考訳) ドローンは、自律的なデータ収集と屋内センシングに有望な技術だ。 人力で制御されるuavが実用的あるいは信頼できない場合、例えば未開の場所や危険な場所では、自律型uavの使用は柔軟性、コスト削減、リスク低減をもたらす。 このシステムは、ガゼボシミュレーションツールとNavigaation2として知られるロスナビゲーションシステムフレームワークを使用して、屋内環境を自律的に走行できるシミュレーションクワッドコプターを作成する。 Nav2は、地上ロボットや車両の自律走行機能を示すことに成功したが、無人航空機では実現されておらず、まだ実行する必要がある。 目標は、ROS用のスラムツールボックスとNav2ナビゲーションシステムフレームワークを使用して、屋内(gpsなし)環境で自律的に動くシミュレートされたドローンを構築することだ。

Drones are a promising technology for autonomous data collection and indoor sensing. In situations when human-controlled UAVs may not be practical or dependable, such as in uncharted or dangerous locations, the usage of autonomous UAVs offers flexibility, cost savings, and reduced risk. The system creates a simulated quadcopter capable of autonomously travelling in an indoor environment using the gazebo simulation tool and the ros navigation system framework known as Navigaation2. While Nav2 has successfully shown the functioning of autonomous navigation in terrestrial robots and vehicles, the same hasn't been accomplished with unmanned aerial vehicles and still has to be done. The goal is to use the slam toolbox for ROS and the Nav2 navigation system framework to construct a simulated drone that can move autonomously in an indoor (gps-less) environment.
翻訳日:2023-04-19 15:07:53 公開日:2023-04-18
# 機械翻訳品質推定のためのドメイン適応化

Tailoring Domain Adaptation for Machine Translation Quality Estimation ( http://arxiv.org/abs/2304.08891v1 )

ライセンス: Link先を確認
Javad Pourmostafa Roshan Sharami, Dimitar Shterionov, Fr\'ed\'eric Blain, Eva Vanmassenhove, Mirella De Sisto, Chris Emmery, Pieter Spronck(参考訳) 品質推定(QE)は翻訳プロセスにおいて重要な役割を果たすが、その効果はトレーニングデータの可用性と品質に依存している。 特にQEでは、そのようなデータのラベル付けに関わるコストと労力のために、高品質なラベル付きデータが欠落することが多い。 データ不足の問題は別として、QEモデルは一般化可能でなければならない。 データ不足とドメインミスマッチという2つの主要な問題を緩和するために、堅牢なQEシステム内でのドメイン適応とデータ拡張を組み合わせる。 提案手法は,まずジェネリックqeモデルを訓練し,その後,ジェネリック知識を保ちながら,特定のドメインに微調整する。 その結果,調査対象の言語ペアすべてにおいて有意な改善,言語間推論の改善,ゼロショット学習シナリオにおける優れたパフォーマンスが,最先端のベースラインと比較して示された。

While quality estimation (QE) can play an important role in the translation process, its effectiveness relies on the availability and quality of training data. For QE in particular, high-quality labeled data is often lacking due to the high-cost and effort associated with labeling such data. Aside from the data scarcity challenge, QE models should also be generalizable, i.e., they should be able to handle data from different domains, both generic and specific. To alleviate these two main issues -- data scarcity and domain mismatch -- this paper combines domain adaptation and data augmentation within a robust QE system. Our method is to first train a generic QE model and then fine-tune it on a specific domain while retaining generic knowledge. Our results show a significant improvement for all the language pairs investigated, better cross-lingual inference, and a superior performance in zero-shot learning scenarios as compared to state-of-the-art baselines.
翻訳日:2023-04-19 15:07:38 公開日:2023-04-18
# ファイナンスのためのパラメータ付きニューラルネットワーク

Parameterized Neural Networks for Finance ( http://arxiv.org/abs/2304.08883v1 )

ライセンス: Link先を確認
Daniel Oeltz and Jan Hamaekers and Kay F. Pilz(参考訳) 特定のデータサンプルに対して単一のモデルを学ぶのではなく、異なるデータサンプルのセットでモデルクラスを学習できるニューラルネットワークアーキテクチャについて論じ、分析する。 この意味では、このような異なるデータセットからなる大きなデータサンプルでモデルクラスを学習した後、新しい特定の問題をモデル化するためにいくつかのパラメータを調整する必要があるため、オーバーフィッティングの問題を減らすのに役立ちます。 提案手法を理論的に分析し, 異なる一次元問題に対する回帰例を用いて, 最終的に, 資産運用者や銀行が直面している標準問題の一つ, 拡散曲線の校正にアプローチを適用する。 以上の結果から,本手法に内在する可能性を明らかにした。 さらに、この適用は金融関係者にとって特に関心があり、ESG格付けが債券の拡散にさらに影響を及ぼすと、ソリューションを組み込んだ資産運用者や銀行のほとんどすべてが現在の方法論を適応または変更する必要がある可能性がある。

We discuss and analyze a neural network architecture, that enables learning a model class for a set of different data samples rather than just learning a single model for a specific data sample. In this sense, it may help to reduce the overfitting problem, since, after learning the model class over a larger data sample consisting of such different data sets, just a few parameters need to be adjusted for modeling a new, specific problem. After analyzing the method theoretically and by regression examples for different one-dimensional problems, we finally apply the approach to one of the standard problems asset managers and banks are facing: the calibration of spread curves. The presented results clearly show the potential that lies within this method. Furthermore, this application is of particular interest to financial practitioners, since nearly all asset managers and banks which are having solutions in place may need to adapt or even change their current methodologies when ESG ratings additionally affect the bond spreads.
翻訳日:2023-04-19 15:07:23 公開日:2023-04-18
# 深部神経回路を用いた術前多モードMRIにおけるグリオ芽腫の分離

Segmentation of glioblastomas in early post-operative multi-modal MRI with deep neural networks ( http://arxiv.org/abs/2304.08881v1 )

ライセンス: Link先を確認
Ragnhild Holden Helland, Alexandros Ferles, Andr\'e Pedersen, Ivar Kommers, Hilko Ardon, Frederik Barkhof, Lorenzo Bello, Mitchel S. Berger, Tora Dun{\aa}s, Marco Conti Nibali, Julia Furtner, Shawn Hervey-Jumper, Albert J. S. Idema, Barbara Kiesel, Rishi Nandoe Tewari, Emmanuel Mandonnet, Domenique M.J. M\"uller, Pierre A. Robe, Marco Rossi, Lisa M. Sagberg, Tommaso Sciortino, Tom Aalders, Michiel Wagemakers, Georg Widhalm, Marnix G. Witte, Aeilko H. Zwinderman, Paulina L. Majewska, Asgeir S. Jakola, Ole Solheim, Philip C. De Witt Hamer, Ingerid Reinertsen, Roelant S. Eijgelaar, and David Bouget(参考訳) 手術後の切除範囲はグリオブラスト腫と診断された患者の予後因子の1つである。 これを実現するために,術後MR画像からの残存腫瘍の正確な分画と分類が不可欠である。 術後早期MRIでは, 腫瘍の分画の自動化が, より正確な切除範囲の推定に繋がる可能性が示唆された。 本研究では,手術前セグメンテーションのための2つの最先端ニューラルネットワークアーキテクチャを訓練した。 モデルはヨーロッパと米国の12の病院から1000人近い患者からなる多施設データセットで広範囲に検証された。 最高の成績は61%のDiceスコアで、最も優れた分類成績は80パーセントのバランスの取れた精度で、病院全体での一般化が実証された。 さらに、最高のモデルのセグメンテーション性能は、人間のエキスパートレートと同等であった。 予測された分節は、残腫瘍と総切除の患者を正確に分類するために使用できる。

Extent of resection after surgery is one of the main prognostic factors for patients diagnosed with glioblastoma. To achieve this, accurate segmentation and classification of residual tumor from post-operative MR images is essential. The current standard method for estimating it is subject to high inter- and intra-rater variability, and an automated method for segmentation of residual tumor in early post-operative MRI could lead to a more accurate estimation of extent of resection. In this study, two state-of-the-art neural network architectures for pre-operative segmentation were trained for the task. The models were extensively validated on a multicenter dataset with nearly 1000 patients, from 12 hospitals in Europe and the United States. The best performance achieved was a 61\% Dice score, and the best classification performance was about 80\% balanced accuracy, with a demonstrated ability to generalize across hospitals. In addition, the segmentation performance of the best models was on par with human expert raters. The predicted segmentations can be used to accurately classify the patients into those with residual tumor, and those with gross total resection.
翻訳日:2023-04-19 15:07:07 公開日:2023-04-18
# SDFReg: ポイントクラウド登録のための署名付き距離関数の学習

SDFReg: Learning Signed Distance Functions for Point Cloud Registration ( http://arxiv.org/abs/2304.08929v1 )

ライセンス: Link先を確認
Leida Zhang, Yiqun Wang, Zhengda Lu, Lei Feng(参考訳) 学習ベースのポイントクラウド登録手法はクリーンポイントクラウドをうまく扱えるが、ノイズや部分ポイントクラウドへの一般化は依然として難しい。 そこで本研究では,ノイズと部分的ポイントクラウド登録のための新しい枠組みを提案する。 ニューラル暗黙関数表現を導入することにより、ポイントクラウドとニューラル暗示関数の間の登録問題に、ポイントクラウド間の厳密な登録問題を置き換える。 次に、暗黙関数表現と暗黙関数とポイントクラウドの間の登録を交互に最適化する。 このように、点雲の登録は粗大な方法で行うことができる。 本手法は点対応の計算を避けるため,点雲のノイズや不完全さに頑健である。 グローバル特徴に基づく登録手法と比較して,密度変動が大きい面を扱い,高い登録精度を実現することができる。 実験結果と比較により,提案手法の有効性が示された。

Learning-based point cloud registration methods can handle clean point clouds well, while it is still challenging to generalize to noisy and partial point clouds. To this end, we propose a novel framework for noisy and partial point cloud registration. By introducing a neural implicit function representation, we replace the problem of rigid registration between point clouds with a registration problem between the point cloud and the neural implicit function. We then alternately optimize the implicit function representation and the registration between the implicit function and point cloud. In this way, point cloud registration can be performed in a coarse-to-fine manner. Since our method avoids computing point correspondences, it is robust to the noise and incompleteness of point clouds. Compared with the registration methods based on global features, our method can deal with surfaces with large density variations and achieve higher registration accuracy. Experimental results and comparisons demonstrate the effectiveness of the proposed framework.
翻訳日:2023-04-19 15:00:27 公開日:2023-04-18
# ProGAP: 差分プライバシー保証を備えたプログレッシブグラフニューラルネットワーク

ProGAP: Progressive Graph Neural Networks with Differential Privacy Guarantees ( http://arxiv.org/abs/2304.08928v1 )

ライセンス: Link先を確認
Sina Sajadmanesh and Daniel Gatica-Perez(参考訳) グラフニューラルネットワーク(gnns)は、グラフ上で学習するための一般的なツールとなっているが、グラフデータが個人や機密情報を含む可能性があるため、その広範な利用はプライバシの懸念を招いている。 グラフ構造化データセットを効果的に学習しながら、プライバシを保護するために、異なるプライベートなGNNモデルが最近提案されている。 しかし、グラフの固有の構造接続のため、GNNにおける精度とプライバシの理想的なバランスを達成することは依然として困難である。 本稿では、プロガPと呼ばれる新しい差分プライベートGNNを提案し、プログレッシブトレーニングスキームを用いて、そのような精度とプライバシのトレードオフを改善する。 差分プライバシーを確保するために集約摂動技術と組み合わせて、ProGAPはGNNを一連の重なり合うサブモデルに分割し、徐々に訓練し、最初のサブモデルから完全なモデルへと拡張する。 具体的には、各サブモデルは、以前のサブモデルで学習およびキャッシュされたプライベートに集約されたノード埋め込み上でトレーニングされ、関連するプライバシコストを制限しながら、以前のアプローチよりも表現力が高くなります。 ProGAPは、トレーニング段階と推論段階の両方において、エッジレベルとノードレベルのプライバシ保証を保証することを正式に証明し、ベンチマークグラフデータセットのパフォーマンスを評価する。 実験により, ProGAPは既存の最先端の差分GNNよりも最大で5%~10%高い精度を達成できることが示された。

Graph Neural Networks (GNNs) have become a popular tool for learning on graphs, but their widespread use raises privacy concerns as graph data can contain personal or sensitive information. Differentially private GNN models have been recently proposed to preserve privacy while still allowing for effective learning over graph-structured datasets. However, achieving an ideal balance between accuracy and privacy in GNNs remains challenging due to the intrinsic structural connectivity of graphs. In this paper, we propose a new differentially private GNN called ProGAP that uses a progressive training scheme to improve such accuracy-privacy trade-offs. Combined with the aggregation perturbation technique to ensure differential privacy, ProGAP splits a GNN into a sequence of overlapping submodels that are trained progressively, expanding from the first submodel to the complete model. Specifically, each submodel is trained over the privately aggregated node embeddings learned and cached by the previous submodels, leading to an increased expressive power compared to previous approaches while limiting the incurred privacy costs. We formally prove that ProGAP ensures edge-level and node-level privacy guarantees for both training and inference stages, and evaluate its performance on benchmark graph datasets. Experimental results demonstrate that ProGAP can achieve up to 5%-10% higher accuracy than existing state-of-the-art differentially private GNNs.
翻訳日:2023-04-19 15:00:15 公開日:2023-04-18
# 熱浴の欠如による量子熱力学活動の資源理論

A resource theory of activity for quantum thermodynamics in the absence of heat baths ( http://arxiv.org/abs/2304.08926v1 )

ライセンス: Link先を確認
Swati and Uttam Singh and Giulio Chiribella(参考訳) 時間に依存した摂動によって仕事が抽出できる活性状態は、熱浴がない場合の量子熱力学にとって重要な資源である。 ここでは、この資源を特徴付け、実験者がエネルギー保存操作を用いて量子システムを操作し、非活性状態にリセットする操作シナリオを捉える資源理論を確立する。 我々の資源理論は、状態変換可能性に関する単純な条件と、エネルギー保存量子演算によって最大コヒーレント状態の近似を生成するタスクにおける活性状態の最大長を決定する実験的アクセス可能な資源量化器を伴っている。

Active states, from which work can be extracted by time-dependent perturbations, are an important resource for quantum thermodynamics in the absence of heat baths. Here we characterize this resource, establishing a resource theory that captures the operational scenario where an experimenter manipulates a quantum system by means of energy-preserving operations and resets to non-active states. Our resource theory comes with simple conditions for state convertibility and an experimentally accessible resource quantifier that determines the maximum advantage of active states in the task of producing approximations of the maximally coherent state by means of energy-preserving quantum operations.
翻訳日:2023-04-19 14:59:49 公開日:2023-04-18
# ディープニューラルネットワークの効率的なエンドツーエンドトレーニングのためのデータプリプロセッシングの理解

Understand Data Preprocessing for Effective End-to-End Training of Deep Neural Networks ( http://arxiv.org/abs/2304.08925v1 )

ライセンス: Link先を確認
Ping Gong, Yuxin Ma, Cheng Li, Xiaosong Ma, Sam H. Noh(参考訳) 本稿では,パブリッククラウドにおけるDNNトレーニングのためのデータ前処理パイプラインの理解に焦点を当てる。 まず、生データと記録ファイルのどちらを用いた2つの主要なデータ前処理手法の性能評価実験を行った。 予備結果は、高最適化データプリプロセッシングライブラリであるnvidia daliによって有効化された最も効率的なソフトウェアとハードウェア構成であっても、データのプリプロセッシングは明らかなボトルネックであることを示している。 第2に,潜在的な原因を特定し,様々な最適化手法を実践し,その長所と短所を提示する。 この作業が ``data storage, loading pipeline''' と ``training framework'' の新たな共同設計と、リソースを十分に活用し、パフォーマンスを最大化するためのリソース構成に光を当てることを願っています。

In this paper, we primarily focus on understanding the data preprocessing pipeline for DNN Training in the public cloud. First, we run experiments to test the performance implications of the two major data preprocessing methods using either raw data or record files. The preliminary results show that data preprocessing is a clear bottleneck, even with the most efficient software and hardware configuration enabled by NVIDIA DALI, a high-optimized data preprocessing library. Second, we identify the potential causes, exercise a variety of optimization methods, and present their pros and cons. We hope this work will shed light on the new co-design of ``data storage, loading pipeline'' and ``training framework'' and flexible resource configurations between them so that the resources can be fully exploited and performance can be maximized.
翻訳日:2023-04-19 14:59:37 公開日:2023-04-18
# 単一画像超解像のための量子アニール

Quantum Annealing for Single Image Super-Resolution ( http://arxiv.org/abs/2304.08924v1 )

ライセンス: Link先を確認
Han Yao Choong, Suryansh Kumar, Luc Van Gool(参考訳) 本稿では,単一画像超解像(SISR)問題を解くための量子コンピューティングに基づくアルゴリズムを提案する。 sisrに対するよく知られた古典的なアプローチの1つは、問題に対するパッチワイズスパースモデリングの確立に依存している。 しかし、この分野の現在の状況は、ディープニューラルネットワーク(DNN)が従来のアプローチよりもはるかに優れた結果を示したことである。 それでも量子コンピューティングは、機械学習の問題でますます目立ったものになるだろう。 その結果、本研究では、この重要な画像強調問題、すなわちsisrに量子コンピューティングアルゴリズムを適用するための早期の探索を行うことができる。 量子コンピューティングの2つのパラダイム、すなわち普遍ゲート量子コンピューティングと断熱量子コンピューティング(AQC)のうち、後者は実用的なコンピュータビジョン問題に適用され、量子並列性を利用して組合せ最適化を効率的に解決している。 この研究は、D-Wave Leapプラットフォームを介してアクセスされる量子アニールを用いて解決されるスパース符号化最適化問題として量子SISRの定式化を実証する。 提案したAQCアルゴリズムは、SISRの精度を維持しつつ、古典的なアナログよりも向上したスピードアップを実現する。

This paper proposes a quantum computing-based algorithm to solve the single image super-resolution (SISR) problem. One of the well-known classical approaches for SISR relies on the well-established patch-wise sparse modeling of the problem. Yet, this field's current state of affairs is that deep neural networks (DNNs) have demonstrated far superior results than traditional approaches. Nevertheless, quantum computing is expected to become increasingly prominent for machine learning problems soon. As a result, in this work, we take the privilege to perform an early exploration of applying a quantum computing algorithm to this important image enhancement problem, i.e., SISR. Among the two paradigms of quantum computing, namely universal gate quantum computing and adiabatic quantum computing (AQC), the latter has been successfully applied to practical computer vision problems, in which quantum parallelism has been exploited to solve combinatorial optimization efficiently. This work demonstrates formulating quantum SISR as a sparse coding optimization problem, which is solved using quantum annealers accessed via the D-Wave Leap platform. The proposed AQC-based algorithm is demonstrated to achieve improved speed-up over a classical analog while maintaining comparable SISR accuracy.
翻訳日:2023-04-19 14:59:21 公開日:2023-04-18
# 科学におけるAIと学際性の影響に関する質問:COVID-19からの教訓

Questioning the impact of AI and interdisciplinarity in science: Lessons from COVID-19 ( http://arxiv.org/abs/2304.08923v1 )

ライセンス: Link先を確認
Diletta Abbonato, Stefano Bianchini, Floriana Gargiulo, and Tommaso Venturini(参考訳) 人工知能(AI)は新型コロナウイルス研究を支援する最も有望な技術の一つであり、医療専門家とAI専門家の学際的なコラボレーションがパンデミックの初期段階から活発に進められている。 しかし、新型コロナウイルス(COVID-19)とAI(AI)の交差点で1万件以上の論文を分析した結果、これらのコラボレーションが、視界と影響の低い科学に大きく影響したことが示唆されている。 我々は、科学的影響は著者チームの総合的な学際性ではなく、研究で実際に活用した知識の多様性によって決定されることを示した。 研究結果は,チームと知識構造が科学における新しい計算技術の統合の成功にどう影響するかを考察する。

Artificial intelligence (AI) has emerged as one of the most promising technologies to support COVID-19 research, with interdisciplinary collaborations between medical professionals and AI specialists being actively encouraged since the early stages of the pandemic. Yet, our analysis of more than 10,000 papers at the intersection of COVID-19 and AI suggest that these collaborations have largely resulted in science of low visibility and impact. We show that scientific impact was not determined by the overall interdisciplinarity of author teams, but rather by the diversity of knowledge they actually harnessed in their research. Our results provide insights into the ways in which team and knowledge structure may influence the successful integration of new computational technologies in the sciences.
翻訳日:2023-04-19 14:59:01 公開日:2023-04-18
# 最小コストアグリゲーションによるネットワーク量子ネットワーク

Networking quantum networks with minimum cost aggregation ( http://arxiv.org/abs/2304.08921v1 )

ライセンス: Link先を確認
Koji Azuma(参考訳) 量子インターネットは、分散量子センシングと大規模量子コンピュータネットワーク、および世界中の任意のクライアント間の量子通信を実現することを約束している。 主要なビルディングブロックは量子ネットワーク間の絡み合い、絡み合いビット(ebit)の効率的な分散である。 これは量子リピータプロトコルを集約することで実現できる。 しかし、既存のプロトコルは、ネットワーク全体のサイズに応じてエラーを抑制するだけでなく、必要以上に実行するために、プロトコルの第一段階であるポイント・ツー・ポイントの絡み合い生成を必要とするため、実用的ではない。 本稿では,最小限のコストでクライアントにebitを提示するために,量子ネットワークを集約する実践的なレシピを提案する。 これは結合の概念と組み合わされ、任意のクライアントが、全体的なサイズに関わらず、量子ネットワーク間で固定されたエラーを伴う任意の長距離通信を可能にする。 我々のレシピは、自己組織化された大規模量子ネットワークを制御する量子インターネットプロトコルの設計の基礎を形成する。

A quantum internet holds promise for accomplishing distributed quantum sensing and large-scale quantum computer networks, as well as quantum communication among arbitrary clients all over the globe. The main building block is efficient distribution of entanglement, entangled bits (ebits), across quantum networks. This could be achieved by aggregating quantum repeater protocols. However, the existing protocol is not practical as it requires point-to-point entanglement generation, the first step of the protocol, not only to suppress the error, depending on the whole size of the networks, but also to be run more than necessary. Here we present a practical recipe on how to aggregate quantum networks in order to present ebits to clients with minimum cost. This is combined with a conception of concatenation to enable arbitrary clients to have arbitrary long-distance communication with fixed error across quantum networks, regardless of the overall size. Our recipe forms the basis of designing a quantum internet protocol to control a self-organizing large-scale quantum network.
翻訳日:2023-04-19 14:58:49 公開日:2023-04-18
# 一貫性のある自己監督型単眼深度と自我運動に対する姿勢制約

Pose Constraints for Consistent Self-supervised Monocular Depth and Ego-motion ( http://arxiv.org/abs/2304.08916v1 )

ライセンス: Link先を確認
Zeeshan Khan Suri (DENSO ADAS Engineering Services GmbH)(参考訳) 自己教師付き単眼深度推定アプローチは、スケールの曖昧さだけでなく、時間的に一貫性のない深さマップw.r.t.スケールを推測する。 トレーニング中のスケールを曖昧にすることは、何らかの基礎的真理の監督なしでは不可能であるが、スケール一貫性のある深さ予測を持つことで、推論中のスケールを後処理ステップとして計算し、残業で使用することが可能となる。 これを目標として、時間的不整合を最小限に抑える一連の時間的整合性損失が導入された。 評価の結果,これらの制約の導入は深度不整合を低減させるだけでなく,深度とエゴモーション予測のベースライン性能を向上させることが示された。

Self-supervised monocular depth estimation approaches suffer not only from scale ambiguity but also infer temporally inconsistent depth maps w.r.t. scale. While disambiguating scale during training is not possible without some kind of ground truth supervision, having scale consistent depth predictions would make it possible to calculate scale once during inference as a post-processing step and use it over-time. With this as a goal, a set of temporal consistency losses that minimize pose inconsistencies over time are introduced. Evaluations show that introducing these constraints not only reduces depth inconsistencies but also improves the baseline performance of depth and ego-motion prediction.
翻訳日:2023-04-19 14:58:32 公開日:2023-04-18
# 高次元シンボリック回帰のための微分可能遺伝的プログラミング

Differentiable Genetic Programming for High-dimensional Symbolic Regression ( http://arxiv.org/abs/2304.08915v1 )

ライセンス: Link先を確認
Peng Zeng, Xiaotian Song, Andrew Lensen, Yuwei Ou, Yanan Sun, Mengjie Zhang, Jiancheng Lv(参考訳) シンボリック回帰(sr)は、解釈可能な機械学習(ml)に到達する効果的な方法と考えられている、数式データから隠れた関係を発見するプロセスである。 遺伝的プログラミング(gp)はsr問題を解決するための支配者である。 しかし,sr問題の規模が大きくなるにつれてgpは実世界の高次元問題に対して十分に対処できないことが多い。 この制限は主に、木を構築する際に伝統的なGPの確率論的進化性によって引き起こされる。 本稿では,GP木を高次元SRに向けて初めて構築するためのDGPという微分可能なアプローチを提案する。 具体的には、離散構造を連続的に緩和するために、微分可能なシンボルツリーと呼ばれる新しいデータ構造を提案し、効率的な最適化のために勾配に基づくオプティマイザを提示することができる。 また, 有効な記号表現に対する上記の緩和による不一致を解消するために, サンプリング法を提案する。 さらに, 局所最適解から脱出する最適化器のグローバルな最適化を促進するため, 多様化機構を導入している。 これらの設計により,提案手法は高い性能でGP木を効率的に探索し,高次元のSRを扱うことができる。 dgpの有効性を実証するために、gpとディープニューラルネットワークの両方に基づく芸術の現状について様々な実験を行った。 実験の結果,DGPは,10から数千の次元を持つ高次元回帰ベンチマークにおいて,これらの選択した競合相手よりも優れていることがわかった。 さらに, 合成SR問題に対して, 雑音レベルが異なる場合でも, DGP法は最高の回復率を達成することができる。 この研究は、幅広い現実世界の問題に対してMLを解釈する強力な代替手段としてSRを促進することができると考えられている。

Symbolic regression (SR) is the process of discovering hidden relationships from data with mathematical expressions, which is considered an effective way to reach interpretable machine learning (ML). Genetic programming (GP) has been the dominator in solving SR problems. However, as the scale of SR problems increases, GP often poorly demonstrates and cannot effectively address the real-world high-dimensional problems. This limitation is mainly caused by the stochastic evolutionary nature of traditional GP in constructing the trees. In this paper, we propose a differentiable approach named DGP to construct GP trees towards high-dimensional SR for the first time. Specifically, a new data structure called differentiable symbolic tree is proposed to relax the discrete structure to be continuous, thus a gradient-based optimizer can be presented for the efficient optimization. In addition, a sampling method is proposed to eliminate the discrepancy caused by the above relaxation for valid symbolic expressions. Furthermore, a diversification mechanism is introduced to promote the optimizer escaping from local optima for globally better solutions. With these designs, the proposed DGP method can efficiently search for the GP trees with higher performance, thus being capable of dealing with high-dimensional SR. To demonstrate the effectiveness of DGP, we conducted various experiments against the state of the arts based on both GP and deep neural networks. The experiment results reveal that DGP can outperform these chosen peer competitors on high-dimensional regression benchmarks with dimensions varying from tens to thousands. In addition, on the synthetic SR problems, the proposed DGP method can also achieve the best recovery rate even with different noisy levels. It is believed this work can facilitate SR being a powerful alternative to interpretable ML for a broader range of real-world problems.
翻訳日:2023-04-19 14:58:10 公開日:2023-04-18
# 神経崩壊現象の研究--グラスマン系、対称性、一般化

A Study of Neural Collapse Phenomenon: Grassmannian Frame, Symmetry, Generalization ( http://arxiv.org/abs/2304.08914v1 )

ライセンス: Link先を確認
Peifeng Gao, Qianqian Xu, Peisong Wen, Huiyang Shao, Zhiyong Yang, Qingming Huang(参考訳) 本稿では,一般化ニューラル崩壊仮説を証明し,元のニューラル崩壊現象を拡張した。 分類の最適化と一般化からグラスマンフレーム構造を得る。 この構造は球面上の各2つのクラスの特徴を極大に分離し、クラスの数よりも大きな特徴次元を必要としない。 グラスマンフレームの対称性に関する好奇心から、異なるグラスマンフレームを持つモデルが異なる性能を持つかどうかを調べる実験を行う。 その結果,対称性一般化現象が発見された。 置換の対称性一般化を説明する定理を提供する。 しかし、なぜ特徴の異なる方向がそのような一般化に繋がるかという問題は、今後の研究のためには未解決である。

In this paper, we extends original Neural Collapse Phenomenon by proving Generalized Neural Collapse hypothesis. We obtain Grassmannian Frame structure from the optimization and generalization of classification. This structure maximally separates features of every two classes on a sphere and does not require a larger feature dimension than the number of classes. Out of curiosity about the symmetry of Grassmannian Frame, we conduct experiments to explore if models with different Grassmannian Frames have different performance. As a result, we discover the Symmetric Generalization phenomenon. We provide a theorem to explain Symmetric Generalization of permutation. However, the question of why different directions of features can lead to such different generalization is still open for future investigation.
翻訳日:2023-04-19 14:57:16 公開日:2023-04-18
# 教育データサイエンス研究を学区と共有するall a-board

All a-board: sharing educational data science research with school districts ( http://arxiv.org/abs/2304.08967v1 )

ライセンス: Link先を確認
Nabeel Gillani and Doug Beeferman and Cassandra Overney and Christine Vega-Pourheydarian and Deb Roy(参考訳) 教育データ科学者は、しばしば、調査結果を政策、市民社会、その他のチャネルを通じて持続的な変化に翻訳することを望んで研究を行う。 However, the bridge from research to practice can be fraught with sociopolitical frictions that impede, or altogether block, such translations -- especially when they are contentious or otherwise difficult to achieve. Focusing on one entrenched educational equity issue in US public schools -- racial and ethnic segregation -- we conduct randomized email outreach experiments and surveys to explore how local school districts respond to algorithmically-generated school catchment areas ("attendance boundaries") designed to foster more diverse and integrated schools. 800以上の教育学区で選出された約4,320人の教育委員会メンバーに、境界変更の可能性を伝えるコールドメールは、大きな平均オープンレートが40%近くであることを示しているが、そのような変更を示すインタラクティブなダッシュボードでは、クリックスルー率が2.5%と比較的低い。 しかし、さまざまなメッセージ技術、特に人種や民族の多様性の問題と、他のトップレベルの問題(学校の能力計画など)に反応するように見える。 一方、メディアの報道は、特に分離された地域では、より多くのダッシュボードへのエンゲージメントを促進する。 教育委員会と各地区のコミュニティメンバーによる小規模ながら豊かな調査回答は、より多様な学校を育てるために境界変更を実施するためのデータと運用上のボトルネックを特定し、これらの変更の潜在的な実行可能性に関する肯定的なコメントも共有している。 共に,システムレベルの変化を通じて教育的不平等を橋渡しすることを目的とした,より効果的な研究を広める教育データ科学者を支援する。

Educational data scientists often conduct research with the hopes of translating findings into lasting change through policy, civil society, or other channels. However, the bridge from research to practice can be fraught with sociopolitical frictions that impede, or altogether block, such translations -- especially when they are contentious or otherwise difficult to achieve. Focusing on one entrenched educational equity issue in US public schools -- racial and ethnic segregation -- we conduct randomized email outreach experiments and surveys to explore how local school districts respond to algorithmically-generated school catchment areas ("attendance boundaries") designed to foster more diverse and integrated schools. Cold email outreach to approximately 4,320 elected school board members across over 800 school districts informing them of potential boundary changes reveals a large average open rate of nearly 40%, but a relatively small click-through rate of 2.5% to an interactive dashboard depicting such changes. Board members, however, appear responsive to different messaging techniques -- particularly those that dovetail issues of racial and ethnic diversity with other top-of-mind issues (like school capacity planning). On the other hand, media coverage of the research drives more dashboard engagement, especially in more segregated districts. A small but rich set of survey responses from school board and community members across several districts identify data and operational bottlenecks to implementing boundary changes to foster more diverse schools, but also share affirmative comments on the potential viability of such changes. Together, our findings may support educational data scientists in more effectively disseminating research that aims to bridge educational inequalities through systems-level change.
翻訳日:2023-04-19 14:52:28 公開日:2023-04-18
# クロスモーダル蒸留と超ボクセルクラスタリングによる3次元点雲の教師なしセマンティクスセグメンテーション

Unsupervised Semantic Segmentation of 3D Point Clouds via Cross-modal Distillation and Super-Voxel Clustering ( http://arxiv.org/abs/2304.08965v1 )

ライセンス: Link先を確認
Zisheng Chen and Hongbin Xu(参考訳) 点雲の意味セグメンテーションは、通常、人間のアノテーションの枯渇する努力を必要とするため、ラベルのない、またはより弱い形のアノテーションから学ぶことの難しいトピックに広く注目される。 本稿では,アノテーションを使わずに意味論的に意味のあるオブジェクトを記述することを目的とした,ポイントクラウドの完全教師なしセマンティックセマンティックセマンティックセマンティック化の試みを行う。 2dイメージに対する教師なしパイプラインの以前の作業は、ポイントクラウドのこのタスクでは失敗する。 1) データの大きさの制限とクラス分布の不均衡による曖昧さのクラスタリング 2)点雲の不規則なスパース性に起因する不規則な曖昧さ。 そこで本稿では, 上記の問題をそれぞれ処理する2つのステップ, クロスモーダル蒸留 (CMD) とスーパーボクセルクラスタリング (SVC) からなる新しいフレームワークであるPointDCを提案する。 CMDの第1段階では、多視点視覚特徴は3次元空間にバックプロジェクションされ、統一された点特徴に集約され、点表現の訓練を蒸留する。 svcの第2段階では、ポイント機能はスーパーボクセルに集約され、セマンティクスクラスを発掘するために反復クラスタリングプロセスに供給される。 pointdc は、scannet-v2 (+18.4 miou) と s3dis (+11.5 miou) のセマンティクスセグメンテーションベンチマークの両方において、以前の最先端の教師なしメソッドを大きく改善する。

Semantic segmentation of point clouds usually requires exhausting efforts of human annotations, hence it attracts wide attention to the challenging topic of learning from unlabeled or weaker forms of annotations. In this paper, we take the first attempt for fully unsupervised semantic segmentation of point clouds, which aims to delineate semantically meaningful objects without any form of annotations. Previous works of unsupervised pipeline on 2D images fails in this task of point clouds, due to: 1) Clustering Ambiguity caused by limited magnitude of data and imbalanced class distribution; 2) Irregularity Ambiguity caused by the irregular sparsity of point cloud. Therefore, we propose a novel framework, PointDC, which is comprised of two steps that handle the aforementioned problems respectively: Cross-Modal Distillation (CMD) and Super-Voxel Clustering (SVC). In the first stage of CMD, multi-view visual features are back-projected to the 3D space and aggregated to a unified point feature to distill the training of the point representation. In the second stage of SVC, the point features are aggregated to super-voxels and then fed to the iterative clustering process for excavating semantic classes. PointDC yields a significant improvement over the prior state-of-the-art unsupervised methods, on both the ScanNet-v2 (+18.4 mIoU) and S3DIS (+11.5 mIoU) semantic segmentation benchmarks.
翻訳日:2023-04-19 14:52:01 公開日:2023-04-18
# SO(3)等価な暗黙的神経表現を持つ生体細胞の生成モデル

Generative modeling of living cells with SO(3)-equivariant implicit neural representations ( http://arxiv.org/abs/2304.08960v1 )

ライセンス: Link先を確認
David Wiesner, Julian Suk, Sven Dummer, Tereza Ne\v{c}asov\'a, Vladim\'ir Ulman, David Svoboda, Jelmer M. Wolterink(参考訳) バイオメディカルイメージングにおけるデータ駆動型細胞追跡とセグメンテーション手法は、多様な情報豊富なトレーニングデータを必要とする。 トレーニングサンプル数が限られている場合、これらの手法を改善するために合成コンピュータ生成データセットを使用することができる。 これは、生成モデルを用いて細胞形状と対応する顕微鏡画像の合成を必要とする。 現実的な生きた細胞形状を合成するために、生成モデルで使われる形状表現は、細胞に共通するトポロジーの細部や変化を正確に表現できるべきである。 これらの要件は、解像度が制限された3dボクセルマスクや、細胞の成長や分裂などのプロセスを簡単にモデル化できないポリゴンメッシュでは満たされない。 本研究では,ニューラルネットワークによって推定される符号付き距離関数(SDF)のレベルセットとして,生きた細胞形状を表現することを提案する。 3D+時間領域の任意の点におけるSDF値の暗黙的な表現をセル形状の回転から切り離された学習潜在コードに条件付けるために、完全に接続されたニューラルネットワークを最適化する。 本研究では, 急激な変形を示す細胞 (Platynereis dumerilii) , 増殖・分裂する細胞 (C. elegans) および糸状体前駆細胞 (A549ヒト肺癌細胞) に対するこのアプローチの有効性を示す。 実セル形状および合成セル形状の形状特徴,ハウスドルフ距離,サイス類似度係数を用いた定量的評価により,本モデルが実セル形状と高い類似度で3d+時間内に位相的に有望な複雑な細胞形状を生成できることを示した。 最後に,我々の生成した細胞形状に対応する生体細胞の顕微鏡像を画像から画像へのモデルを用いて合成する方法を示す。

Data-driven cell tracking and segmentation methods in biomedical imaging require diverse and information-rich training data. In cases where the number of training samples is limited, synthetic computer-generated data sets can be used to improve these methods. This requires the synthesis of cell shapes as well as corresponding microscopy images using generative models. To synthesize realistic living cell shapes, the shape representation used by the generative model should be able to accurately represent fine details and changes in topology, which are common in cells. These requirements are not met by 3D voxel masks, which are restricted in resolution, and polygon meshes, which do not easily model processes like cell growth and mitosis. In this work, we propose to represent living cell shapes as level sets of signed distance functions (SDFs) which are estimated by neural networks. We optimize a fully-connected neural network to provide an implicit representation of the SDF value at any point in a 3D+time domain, conditioned on a learned latent code that is disentangled from the rotation of the cell shape. We demonstrate the effectiveness of this approach on cells that exhibit rapid deformations (Platynereis dumerilii), cells that grow and divide (C. elegans), and cells that have growing and branching filopodial protrusions (A549 human lung carcinoma cells). A quantitative evaluation using shape features, Hausdorff distance, and Dice similarity coefficients of real and synthetic cell shapes shows that our model can generate topologically plausible complex cell shapes in 3D+time with high similarity to real living cell shapes. Finally, we show how microscopy images of living cells that correspond to our generated cell shapes can be synthesized using an image-to-image model.
翻訳日:2023-04-19 14:51:30 公開日:2023-04-18
# PG-VTON:プログレッシブ推論パラダイムによる新しい画像ベース仮想試行法

PG-VTON: A Novel Image-Based Virtual Try-On Method via Progressive Inference Paradigm ( http://arxiv.org/abs/2304.08956v1 )

ライセンス: Link先を確認
Naiyu Fang, Lemiao Qiu, Shuyou Zhang, Zili Wang, Kerui Hu(参考訳) 仮想試着は、フォトリアリスティック効果のある人に新しい衣服を視覚的に着用する、高い商業価値を持つ有望なコンピュータビジョンのトピックである。 従来の研究では, 単一スケールのワープ機構と, 比較的未熟な内容推論機構を用いて, 形状と内容推論を行っている。 これらのアプローチは、挑戦的な試着シナリオ下での衣服のゆらぎと肌の保温の観点から、最適以下の結果をもたらす。 これらの制限に対処するために,トップダウン推論パイプラインと一般的な衣服試着戦略を活用した,プログレッシブ推論パラダイム(pgvton)による新しい仮想試着法を提案する。 具体的には,意味カテゴリーの分離と一貫性の導入によるロバストなトライオン解析法を提案する。 形状誘導法として試着法を試作し, ワープ・マッピング・コンポジションを用いて試着法を実装した。 広い範囲の試用シナリオへの適応を容易にするために,より広範囲にカバーし,一つのウォーピング戦略を選択し,アライメントに基づいてタスクを明示的に区別する。 さらに,StyleGAN2は,ターゲット皮膚形状と空間認識性皮膚の特徴を条件に,再塗布の実施を規制している。 実験により,本手法は2つの挑戦シナリオ下での最先端性能を示す。 コードはhttps://github.com/NerdFNY/PGVTON.comで入手できる。

Virtual try-on is a promising computer vision topic with a high commercial value wherein a new garment is visually worn on a person with a photo-realistic effect. Previous studies conduct their shape and content inference at one stage, employing a single-scale warping mechanism and a relatively unsophisticated content inference mechanism. These approaches have led to suboptimal results in terms of garment warping and skin reservation under challenging try-on scenarios. To address these limitations, we propose a novel virtual try-on method via progressive inference paradigm (PGVTON) that leverages a top-down inference pipeline and a general garment try-on strategy. Specifically, we propose a robust try-on parsing inference method by disentangling semantic categories and introducing consistency. Exploiting the try-on parsing as the shape guidance, we implement the garment try-on via warping-mapping-composition. To facilitate adaptation to a wide range of try-on scenarios, we adopt a covering more and selecting one warping strategy and explicitly distinguish tasks based on alignment. Additionally, we regulate StyleGAN2 to implement re-naked skin inpainting, conditioned on the target skin shape and spatial-agnostic skin features. Experiments demonstrate that our method has state-of-the-art performance under two challenging scenarios. The code will be available at https://github.com/NerdFNY/PGVTON.
翻訳日:2023-04-19 14:51:00 公開日:2023-04-18
# 単語から音楽へ:シンボリック音楽生成におけるサブワードトークン化手法の研究

From Words to Music: A Study of Subword Tokenization Techniques in Symbolic Music Generation ( http://arxiv.org/abs/2304.08953v1 )

ライセンス: Link先を確認
Adarsh Kumar and Pedro Sarmento(参考訳) サブワードのトークン化は、トランスフォーマーベースのモデルでテキストベースの自然言語処理(nlp)タスクで広く成功している。 シンボリック音楽研究においてトランスフォーマーモデルがますます普及するにつれて、シンボリック音楽領域におけるサブワードトークン化の有効性を検討することが重要である。 本稿では,シンボリック音楽生成におけるバイトペア符号化(bpe)などのサブワードトークン化手法と,その全体的な構造への影響について検討する。 実験は、シングルトラックメロディのみ、シングル楽器付きマルチトラック、マルチトラックとマルチストラクチャの3種類のMIDIデータセットに基づいている。 サブワードのトークン化をポスト・ミュージックのトークン化スキームに適用し,同時に長曲の生成を可能にし,構造指標 (si) やピッチクラスエントロピーなどの客観的指標を用いて,生成された楽曲全体の構造を改善する。 また,bpeとunigramという2つのサブワードトークン化手法を比較し,両手法が一貫した改善をもたらすことを確認した。 本研究は,サブワードのトークン化が記号的音楽生成に有望な手法であることを示唆し,特にマルチトラック曲などの複雑なデータを含む場合において,楽曲構成に広範な影響を及ぼす可能性があることを示唆する。

Subword tokenization has been widely successful in text-based natural language processing (NLP) tasks with Transformer-based models. As Transformer models become increasingly popular in symbolic music-related studies, it is imperative to investigate the efficacy of subword tokenization in the symbolic music domain. In this paper, we explore subword tokenization techniques, such as byte-pair encoding (BPE), in symbolic music generation and its impact on the overall structure of generated songs. Our experiments are based on three types of MIDI datasets: single track-melody only, multi-track with a single instrument, and multi-track and multi-instrument. We apply subword tokenization on post-musical tokenization schemes and find that it enables the generation of longer songs at the same time and improves the overall structure of the generated music in terms of objective metrics like structure indicator (SI), Pitch Class Entropy, etc. We also compare two subword tokenization methods, BPE and Unigram, and observe that both methods lead to consistent improvements. Our study suggests that subword tokenization is a promising technique for symbolic music generation and may have broader implications for music composition, particularly in cases involving complex data such as multi-track songs.
翻訳日:2023-04-19 14:50:38 公開日:2023-04-18
# 多様なリアルな顔アニメーションを用いた音声駆動対話顔生成

Audio-Driven Talking Face Generation with Diverse yet Realistic Facial Animations ( http://arxiv.org/abs/2304.08945v1 )

ライセンス: Link先を確認
Rongliang Wu, Yingchen Yu, Fangneng Zhan, Jiahui Zhang, Xiaoqin Zhang, Shijian Lu(参考訳) 近年,現実的な顔のアニメーション(正確な唇の動き,鮮明な表情の詳細,自然な頭部ポーズを含む)を合成することを目的とした音声駆動音声顔生成が急速に進歩している。 しかし, 既存の研究の多くは, 顔のリアリズムを著しく低下させる, 密接に相関した表情を扱わずに, 唇の動きを生成することに重点を置いている。 本稿では,同じ駆動音から多様かつリアルな顔アニメーションを生成できる新しい発話法である dirfa を提案する。 同一音声に対する可視的な顔のアニメーションの公平な変動に対応するため,入力された音声に条件付き顔のアニメーション分布をモデル化し,音声信号を自動回帰的に顔のアニメーションシーケンスに変換するトランスフォーマーベースの確率的マッピングネットワークを設計する。 さらに,顔アニメーションの時間依存性をモデル化し,時間的に滑らかな顔アニメーションを生成できる,時間偏りのあるマスクをマッピングネットワークに導入する。 生成した顔アニメーションシーケンスとソース画像により、ジェネリックジェネレーションネットワークで、フォトリアリスティックな会話顔を合成することができる。 広範な実験により、dirfaはリアルな顔アニメーションを効果的に生成できることが示されている。

Audio-driven talking face generation, which aims to synthesize talking faces with realistic facial animations (including accurate lip movements, vivid facial expression details and natural head poses) corresponding to the audio, has achieved rapid progress in recent years. However, most existing work focuses on generating lip movements only without handling the closely correlated facial expressions, which degrades the realism of the generated faces greatly. This paper presents DIRFA, a novel method that can generate talking faces with diverse yet realistic facial animations from the same driving audio. To accommodate fair variation of plausible facial animations for the same audio, we design a transformer-based probabilistic mapping network that can model the variational facial animation distribution conditioned upon the input audio and autoregressively convert the audio signals into a facial animation sequence. In addition, we introduce a temporally-biased mask into the mapping network, which allows to model the temporal dependency of facial animations and produce temporally smooth facial animation sequence. With the generated facial animation sequence and a source image, photo-realistic talking faces can be synthesized with a generic generation network. Extensive experiments show that DIRFA can generate talking faces with realistic facial animations effectively.
翻訳日:2023-04-19 14:50:14 公開日:2023-04-18
# アクティブリワード学習によるフィードバック効率の良い強化学習

Provably Feedback-Efficient Reinforcement Learning via Active Reward Learning ( http://arxiv.org/abs/2304.08944v1 )

ライセンス: Link先を確認
Dingwen Kong, Lin F. Yang(参考訳) 適切な報酬関数は強化学習(rl)におけるタスクの特定において最重要である。 しかし、単純なタスクでも正しい報酬関数を設計することは、実際は非常に難しいことが知られている。 HiL(Human-in-the-loop) RLでは、さまざまなフィードバックを提供することで、複雑な目標をRLエージェントに伝達することができる。 しかし、実験的な成功にもかかわらず、HiL RLは通常、人間の教師からの多くのフィードバックを必要とし、理論的な理解が不十分である。 本稿では,この課題を理論的観点から解決することに集中し,与えられたタスクの報酬を特定するために人為的なアルゴリズムフレームワークを提供することを目的とする。 本稿では,まず報酬関数を指定せずに環境を探索する能動的学習に基づくRLアルゴリズムを提案する。 その後、アルゴリズムは高い確率でタスクにほぼ最適なポリシーを提供することを保証する。 フィードバックにランダムノイズがある場合でも、そのアルゴリズムは報酬関数上の$\widetilde{O}(H{{\dim_{R}^2}})$クエリのみを要し、任意の$\epsilon > 0$に対して$\epsilon$-Optimal Policyを提供する。 ここで$H$はRL環境の地平線であり、$\dim_{R}$は報酬関数を表す関数クラスの複雑さを指定する。 対照的に、標準的なRLアルゴリズムでは、少なくとも$\Omega(\operatorname{poly}(d, 1/\epsilon))$ 状態-作用対に対して、$d$は環境遷移の複雑さに依存する。

An appropriate reward function is of paramount importance in specifying a task in reinforcement learning (RL). Yet, it is known to be extremely challenging in practice to design a correct reward function for even simple tasks. Human-in-the-loop (HiL) RL allows humans to communicate complex goals to the RL agent by providing various types of feedback. However, despite achieving great empirical successes, HiL RL usually requires too much feedback from a human teacher and also suffers from insufficient theoretical understanding. In this paper, we focus on addressing this issue from a theoretical perspective, aiming to provide provably feedback-efficient algorithmic frameworks that take human-in-the-loop to specify rewards of given tasks. We provide an active-learning-based RL algorithm that first explores the environment without specifying a reward function and then asks a human teacher for only a few queries about the rewards of a task at some state-action pairs. After that, the algorithm guarantees to provide a nearly optimal policy for the task with high probability. We show that, even with the presence of random noise in the feedback, the algorithm only takes $\widetilde{O}(H{{\dim_{R}^2}})$ queries on the reward function to provide an $\epsilon$-optimal policy for any $\epsilon > 0$. Here $H$ is the horizon of the RL environment, and $\dim_{R}$ specifies the complexity of the function class representing the reward function. In contrast, standard RL algorithms require to query the reward function for at least $\Omega(\operatorname{poly}(d, 1/\epsilon))$ state-action pairs where $d$ depends on the complexity of the environmental transition.
翻訳日:2023-04-19 14:49:52 公開日:2023-04-18
# poce: ポーズ制御可能な表情編集

POCE: Pose-Controllable Expression Editing ( http://arxiv.org/abs/2304.08938v1 )

ライセンス: Link先を確認
Rongliang Wu, Yingchen Yu, Fangneng Zhan, Jiahui Zhang, Shengcai Liao, Shijian Lu(参考訳) 近年、深層ニューラルネットワークの進歩に伴い、表情編集が注目を集めている。 しかし、既存のほとんどのメソッドは、ポーズのバリエーション(非現実的な編集)を無視したり、ペア化されたトレーニングデータ(簡単に収集できない)を必要とするため、編集の正確さとユーザビリティの制限に悩まされている。 本稿では,現実的な表情と頭部のポーズを,未経験の訓練画像と同時に生成できる,革新的なポーズ制御式編集ネットワークであるPOCEを提案する。 POCEは、顔画像をUV空間にマッピングすることで、よりアクセシブルでリアルなポーズ制御可能な表現編集を実現する。 POCEには2つの新しいデザインがある。 ひとつは自己監督型UVの完成で、異なる頭部ポーズの下でサンプリングされたUVマップを完結させることができる。 2つ目は、弱い教師付きUV編集であり、顔のアイデンティティの最小限の修正で新しい表情を生成することができ、そこで合成された表情は、表現ラベルによって制御するか、特徴伝達を介して参照UVマップから直接移植される。 広汎な実験により、POCEは不自由な顔画像から効果的に学習できることが示され、学習モデルは様々な新しいポーズの下で現実的で高忠実な表情を生成することができる。

Facial expression editing has attracted increasing attention with the advance of deep neural networks in recent years. However, most existing methods suffer from compromised editing fidelity and limited usability as they either ignore pose variations (unrealistic editing) or require paired training data (not easy to collect) for pose controls. This paper presents POCE, an innovative pose-controllable expression editing network that can generate realistic facial expressions and head poses simultaneously with just unpaired training images. POCE achieves the more accessible and realistic pose-controllable expression editing by mapping face images into UV space, where facial expressions and head poses can be disentangled and edited separately. POCE has two novel designs. The first is self-supervised UV completion that allows to complete UV maps sampled under different head poses, which often suffer from self-occlusions and missing facial texture. The second is weakly-supervised UV editing that allows to generate new facial expressions with minimal modification of facial identity, where the synthesized expression could be controlled by either an expression label or directly transplanted from a reference UV map via feature transfer. Extensive experiments show that POCE can learn from unpaired face images effectively, and the learned model can generate realistic and high-fidelity facial expressions under various new poses.
翻訳日:2023-04-19 14:49:16 公開日:2023-04-18
# 量子特異値変換を用いたハミルトンシミュレーション:複雑性解析と線形vlasov-poisson方程式への応用

Hamiltonian simulation using quantum singular value transformation: complexity analysis and application to the linearized Vlasov-Poisson equation ( http://arxiv.org/abs/2304.08937v1 )

ライセンス: Link先を確認
Kiichiro Toyoizumi, Naoki Yamamoto, Kazuo Hoshino(参考訳) 量子コンピューティングは物理系のシミュレーション時間(より正確にはアルゴリズムのクエリ数)を高速化するために使用することができる。 近年,量子特異値変換(QSVT)がHSの最小シミュレーション時間を達成することが証明された。 QSVTベースのHSアルゴリズムの重要なサブルーチンは振幅増幅演算であり、これはQSVTフレームワークにおける可視振幅増幅または固定点振幅増幅によって実現できる。 本研究では,QSVTに基づくHSの誤り数とクエリ数について詳細な解析を行い,与えられた誤差耐性のシミュレーション時間において,不確定な手法が固定点法よりも優れていることを示す。 この結果に基づいて,QSVT に基づく HS を 1 次元線形化 Vlasov-Poisson 方程式に適用し,線形ランドウ減衰のシミュレーションに成功したことを示す。

Quantum computing can be used to speed up the simulation time (more precisely, the number of queries of the algorithm) for physical systems; one such promising approach is the Hamiltonian simulation (HS) algorithm. Recently, it was proven that the quantum singular value transformation (QSVT) achieves the minimum simulation time for HS. An important subroutine of the QSVT-based HS algorithm is the amplitude amplification operation, which can be realized via the oblivious amplitude amplification or the fixed-point amplitude amplification in the QSVT framework. In this work, we execute a detailed analysis of the error and number of queries of the QSVT-based HS and show that the oblivious method is better than the fixed-point one in the sense of simulation time for a given error tolerance. Based on this finding, we apply the QSVT-based HS to the one-dimensional linearized Vlasov-Poisson equation and demonstrate that the linear Landau damping can be successfully simulated.
翻訳日:2023-04-19 14:48:52 公開日:2023-04-18
# web からの視覚による教科書の強化と学習の改善

Enhancing Textbooks with Visuals from the Web for Improved Learning ( http://arxiv.org/abs/2304.08931v1 )

ライセンス: Link先を確認
Janvijay Singh, Vil\'em Zouhar, Mrinmaya Sachan(参考訳) 教科書は学生に質の高い教育を提供する主要な手段である。 説明的あるいは説明的視覚は、保持、理解、知識の一般的な伝達において重要な役割を果たすことが示されている。 しかし、特に発展途上国では、多くの教科書は品質が低く、学生の学習をサポートするための興味深いビジュアルが欠落している。 本稿では,Webからの画像を用いた教科書を自動的に強化する視覚言語モデルの有効性について検討する。 具体的には、世界最大の無料オンライン出版社から、電子書籍のデータセットを収集します。 我々は、データセットを厳格に分析し、その結果得られた分析を使って、新しい最適化問題として枠組された教科書にwebイメージを検索し、適切に割り当てるタスクを動機付ける。 クラウドソーシングによる評価により,(1)原文画像が高い評価を受ける一方で,自動割当て画像がそれほど遅れていないこと,(2)最適化問題の選択が重要であることを検証した。 我々は,この領域のさらなる研究を促進するために,関連画像バンクを用いた教科書データセットをリリースする。

Textbooks are the primary vehicle for delivering quality education to students. It has been shown that explanatory or illustrative visuals play a key role in the retention, comprehension and the general transfer of knowledge. However, many textbooks, especially in the developing world, are low quality and lack interesting visuals to support student learning. In this paper, we investigate the effectiveness of vision-language models to automatically enhance textbooks with images from the web. Specifically, we collect a dataset of e-textbooks from one of the largest free online publishers in the world. We rigorously analyse the dataset, and use the resulting analysis to motivate a task that involves retrieving and appropriately assigning web images to textbooks, which we frame as a novel optimization problem. Through a crowd-sourced evaluation, we verify that (1) while the original textbook images are rated higher, automatically assigned ones are not far behind, and (2) the choice of the optimization problem matters. We release the dataset of textbooks with an associated image bank to spur further research in this area.
翻訳日:2023-04-19 14:48:33 公開日:2023-04-18
# 画像のデノイジング法の比較

A Comparison of Image Denoising Methods ( http://arxiv.org/abs/2304.08990v1 )

ライセンス: Link先を確認
Zhaoming Kong, Fangxi Deng, Haomin Zhuang, Xiaowei Yang, Jun Yu, and Lifang He(参考訳) 画像デバイスや毎日生成される無数の画像の進歩は、画像のノイズの増大を招き、効果と効率の両面で依然として困難な課題となっている。 復調性を改善するために、様々な変換、正規化項、代数表現、特に高度な深層ニューラルネットワーク(DNN)アーキテクチャを含む多くの復調技術とアプローチが近年提案されている。 その洗練度にもかかわらず、多くの方法が同時ノイズ除去と細部保存のための望ましい結果を達成することができない可能性がある。 本稿では,既存のデノイジング手法の適用性を検討するために,合成データと実世界データの両方における様々なデノイジング手法を比較した。 また、ベンチマークのための新しいデータセットを導入し、定量的指標、視覚効果、人格評価、計算コストの4つの観点から評価を行った。 私たちの実験は (i)各種課題に対する代表的伝統的代名詞の有効性と効率 (ii) 単純な行列ベースのアルゴリズムは、テンソルと同じような結果が得られる可能性があり、 3) DNNモデルの顕著な成果は, 様々なデータセットにおいて, 優れた一般化能力を示し, 最先端の性能を示すものである。 近年の進歩にもかかわらず、既存の技術の欠点と拡張の可能性について論じる。 データセット、コード、結果は公開され、https://github.com/zhaomingkong/denoising-comparisonで継続的に更新される。

The advancement of imaging devices and countless images generated everyday pose an increasingly high demand on image denoising, which still remains a challenging task in terms of both effectiveness and efficiency. To improve denoising quality, numerous denoising techniques and approaches have been proposed in the past decades, including different transforms, regularization terms, algebraic representations and especially advanced deep neural network (DNN) architectures. Despite their sophistication, many methods may fail to achieve desirable results for simultaneous noise removal and fine detail preservation. In this paper, to investigate the applicability of existing denoising techniques, we compare a variety of denoising methods on both synthetic and real-world datasets for different applications. We also introduce a new dataset for benchmarking, and the evaluations are performed from four different perspectives including quantitative metrics, visual effects, human ratings and computational cost. Our experiments demonstrate: (i) the effectiveness and efficiency of representative traditional denoisers for various denoising tasks, (ii) a simple matrix-based algorithm may be able to produce similar results compared with its tensor counterparts, and (iii) the notable achievements of DNN models, which exhibit impressive generalization ability and show state-of-the-art performance on various datasets. In spite of the progress in recent years, we discuss shortcomings and possible extensions of existing techniques. Datasets, code and results are made publicly available and will be continuously updated at https://github.com/ZhaomingKong/Denoising-Comparison.
翻訳日:2023-04-19 14:42:25 公開日:2023-04-18
# 反復的改良によるインクリメンタル画像ラベリング

Incremental Image Labeling via Iterative Refinement ( http://arxiv.org/abs/2304.08989v1 )

ライセンス: Link先を確認
Fausto Giunchiglia, Xiaolei Diao, Mayukh Bagchi(参考訳) マルチメディアタスクにはデータ品質が重要であり、最近の研究で議論されているように、画像ベンチマークデータセットには様々な種類の体系的な欠陥がある。 特に、意味ギャップ問題の存在は、画像から抽出した情報とその言語的記述との間に、多対多のマッピングをもたらす。 この避けられないバイアスは、現在のコンピュータビジョンタスクのパフォーマンスをさらに低下させる。 この問題に対処するため,我々は,MLモデルに意図した意味論を間接的に導入する,知識表現(KR)ベースの方法論を導入し,ラベル付けプロセスのガイドラインを提供する。 具体的には, 分類階層内のオブジェクトを視覚特性に応じて整理し, それらの言語記述と一致させることにより, データのラベリングを最適化するために, 反復的リファインメントに基づくアノテーション手法を提案する。 その結果,提案手法の有効性が検証された。

Data quality is critical for multimedia tasks, while various types of systematic flaws are found in image benchmark datasets, as discussed in recent work. In particular, the existence of the semantic gap problem leads to a many-to-many mapping between the information extracted from an image and its linguistic description. This unavoidable bias further leads to poor performance on current computer vision tasks. To address this issue, we introduce a Knowledge Representation (KR)-based methodology to provide guidelines driving the labeling process, thereby indirectly introducing intended semantics in ML models. Specifically, an iterative refinement-based annotation method is proposed to optimize data labeling by organizing objects in a classification hierarchy according to their visual properties, ensuring that they are aligned with their linguistic descriptions. Preliminary results verify the effectiveness of the proposed method.
翻訳日:2023-04-19 14:42:01 公開日:2023-04-18
# 共通データ拡張に対する視覚的説明のロバスト性

Robustness of Visual Explanations to Common Data Augmentation ( http://arxiv.org/abs/2304.08984v1 )

ライセンス: Link先を確認
Lenka T\v{e}tkov\'a and Lars Kai Hansen(参考訳) ディープニューラルネットワークの利用が成長を続けるにつれ、その動作を理解することがこれまで以上に重要になっている。 ポストホックな説明可能性手法は潜在的な解決策であるが、その信頼性に疑問が投げかけられている。 本研究は,自然発生する変換に対するポストホックな視覚説明の応答について検討する。 我々は、変換、オブジェクトのスケーリング、回転のような変換に同変的に応答しながら色マップの変更など、ある変換の下で不変な説明を期待する。 我々は変換のタイプによってロバスト性が著しく異なることを発見し、いくつかの説明可能性法(lrpコンポジットやガイドバックプロップなど)は他の方法よりも安定している。 データ拡張によるトレーニングの役割についても検討する。 我々は,データ拡張がトレーニングに使用されるかどうかに関わらず,説明が分類性能よりも強化に対して堅牢でないことを示す。

As the use of deep neural networks continues to grow, understanding their behaviour has become more crucial than ever. Post-hoc explainability methods are a potential solution, but their reliability is being called into question. Our research investigates the response of post-hoc visual explanations to naturally occurring transformations, often referred to as augmentations. We anticipate explanations to be invariant under certain transformations, such as changes to the colour map while responding in an equivariant manner to transformations like translation, object scaling, and rotation. We have found remarkable differences in robustness depending on the type of transformation, with some explainability methods (such as LRP composites and Guided Backprop) being more stable than others. We also explore the role of training with data augmentation. We provide evidence that explanations are typically less robust to augmentation than classification performance, regardless of whether data augmentation is used in training or not.
翻訳日:2023-04-19 14:41:48 公開日:2023-04-18
# MER 2023:マルチラベル学習、モダリティロバストネス、半教師付き学習

MER 2023: Multi-label Learning, Modality Robustness, and Semi-Supervised Learning ( http://arxiv.org/abs/2304.08981v1 )

ライセンス: Link先を確認
Zheng Lian, Haiyang Sun, Licai Sun, Jinming Zhao, Ye Liu, Bin Liu, Jiangyan Yi, Meng Wang, Erik Cambria, Guoying Zhao, Bj\"orn W. Schuller, Jianhua Tao(参考訳) 過去数十年間、マルチモーダルな感情認識は、ディープラーニングの発展において顕著な進歩を遂げてきた。 しかし,既存の技術は実用化への需要を満たすことは困難である。 この堅牢性を向上させるため,我々はグローバル研究者が研究をさらに加速し促進する革新的な技術を構築する動機となるマルチモーダル感情認識チャレンジ(MER 2023)を立ち上げた。 今年の課題として,(1)参加者が離散的感情と次元的感情の両方を認識するmer-multi,(2)モダリティ・ロバスト性評価のための映像にノイズを付加するmer-noise,(3)半教師付き学習のためのラベルなしサンプルを大量に提供するmer-semiの3つの下位課題を提示した。 本稿では,様々なマルチモーダル機能をテストし,各サブキャレンジに対して競争力のあるベースラインを提供する。 MER-MULTIの平均2乗誤差(MSE)は77.57%,MER-NOISEでは69.82%,MER-NOISEでは1.12,MER-SEMIでは86.75%であった。 ベースラインコードはhttps://github.com/zeroqiaoba/mer2023-baseline。

Over the past few decades, multimodal emotion recognition has made remarkable progress with the development of deep learning. However, existing technologies are difficult to meet the demand for practical applications. To improve the robustness, we launch a Multimodal Emotion Recognition Challenge (MER 2023) to motivate global researchers to build innovative technologies that can further accelerate and foster research. For this year's challenge, we present three distinct sub-challenges: (1) MER-MULTI, in which participants recognize both discrete and dimensional emotions; (2) MER-NOISE, in which noise is added to test videos for modality robustness evaluation; (3) MER-SEMI, which provides large amounts of unlabeled samples for semi-supervised learning. In this paper, we test a variety of multimodal features and provide a competitive baseline for each sub-challenge. Our system achieves 77.57% on the F1 score and 0.82 on the mean squared error (MSE) for MER-MULTI, 69.82% on the F1 score and 1.12 on MSE for MER-NOISE, and 86.75% on the F1 score for MER-SEMI, respectively. Baseline code is available at https://github.com/zeroQiaoba/MER2023-Baseline.
翻訳日:2023-04-19 14:41:34 公開日:2023-04-18
# 信用できるのか? ChatGPTの信頼性の測定と評価

In ChatGPT We Trust? Measuring and Characterizing the Reliability of ChatGPT ( http://arxiv.org/abs/2304.08979v1 )

ライセンス: Link先を確認
Xinyue Shen and Zeyuan Chen and Michael Backes and Yang Zhang(参考訳) ユーザが情報を取得する方法は、ChatGPTの出現とともにパラダイムシフトを経ている。 従来の検索エンジンとは異なり、ChatGPTはモデル自体から知識を取得し、ユーザに対して回答を生成する。 ChatGPTの印象的なQA(QA)機能は、短期間で1億人以上のユーザを惹きつけたが、信頼性に関する懸念も持ち上がっている。 本稿では,10個のデータセットと8つのドメインにまたがる5,695の質問を慎重に整理し,ChatGPTの信頼性を総合的なQAシナリオで評価する。 ChatGPTの信頼性はドメインによって異なり、特に法律や科学の質問では性能が低かった。 また,ChatGPTの動作をユーザが操作できるようにOpenAIが設計したシステムロールが,ChatGPTの信頼性に影響を及ぼすことを示す。 さらに,ChatGPTは敵の事例に対して脆弱であり,単一文字の変更でもその信頼性に悪影響を及ぼす可能性があることを示す。 われわれはChatGPTの信頼性に関する貴重な知見を提供し、大規模言語モデル(LLM)の信頼性とセキュリティを強化する必要性を強調している。

The way users acquire information is undergoing a paradigm shift with the advent of ChatGPT. Unlike conventional search engines, ChatGPT retrieves knowledge from the model itself and generates answers for users. ChatGPT's impressive question-answering (QA) capability has attracted more than 100 million users within a short period of time but has also raised concerns regarding its reliability. In this paper, we perform the first large-scale measurement of ChatGPT's reliability in the generic QA scenario with a carefully curated set of 5,695 questions across ten datasets and eight domains. We find that ChatGPT's reliability varies across different domains, especially underperforming in law and science questions. We also demonstrate that system roles, originally designed by OpenAI to allow users to steer ChatGPT's behavior, can impact ChatGPT's reliability. We further show that ChatGPT is vulnerable to adversarial examples, and even a single character change can negatively affect its reliability in certain cases. We believe that our study provides valuable insights into ChatGPT's reliability and underscores the need for strengthening the reliability and security of large language models (LLMs).
翻訳日:2023-04-19 14:41:07 公開日:2023-04-18
# モノクルスケール補正と運動補償による視覚-LiDARオドメトリーとマッピング

Visual-LiDAR Odometry and Mapping with Monocular Scale Correction and Motion Compensation ( http://arxiv.org/abs/2304.08978v1 )

ライセンス: Link先を確認
Hanyu Cai, Ni Ou and Junzheng Wang(参考訳) 本稿では,低ドリフト特性を有する新しい視覚-LiDARオドメトリーとマッピング手法を提案する。 提案手法は,単眼スケール補正と視覚支援lidar運動補償による2つのアプローチ(orb-slamとa-loam)に基づいている。 スケール補正器は、三角測量により回収された画像キーポイントの深さとLiDARによって提供される画像キーポイントの深さの比率を、精度向上のためにオフリヤ拒絶法を用いて算出する。 LiDARの運動補償に関して、視覚的オドメトリー法は、LiDARの運動の初期推定値を与える。 この手法は高分解能LiDARだけでなく、低分解能LiDARにも適用可能である。 提案したSLAMシステムのロバスト性と精度を評価するため,KITTIオドメトリーとS3Eデータセットの実験を行った。 実験の結果,orb-slam2 と a-loam を有意に上回った。 さらに,スケール補正による視力計測の精度は,ステレオモードORB-SLAM2と同様である。

This paper presents a novel visual-LiDAR odometry and mapping method with low-drift characteristics. The proposed method is based on two popular approaches, ORB-SLAM and A-LOAM, with monocular scale correction and visual-assisted LiDAR motion compensation modifications. The scale corrector calculates the proportion between the depth of image keypoints recovered by triangulation and that provided by LiDAR, using an outlier rejection process for accuracy improvement. Concerning LiDAR motion compensation, the visual odometry approach gives the initial guesses of LiDAR motions for better performance. This methodology is not only applicable to high-resolution LiDAR but can also adapt to low-resolution LiDAR. To evaluate the proposed SLAM system's robustness and accuracy, we conducted experiments on the KITTI Odometry and S3E datasets. Experimental results illustrate that our method significantly outperforms standalone ORB-SLAM2 and A-LOAM. Furthermore, regarding the accuracy of visual odometry with scale correction, our method performs similarly to the stereo-mode ORB-SLAM2.
翻訳日:2023-04-19 14:40:49 公開日:2023-04-18
# 視覚異常セグメンテーションのためのニューラルアーキテクチャ探索

Neural Architecture Search for Visual Anomaly Segmentation ( http://arxiv.org/abs/2304.08975v1 )

ライセンス: Link先を確認
Tommie Kerssies(参考訳) 本稿では,視覚異常をセグメント化する複雑なタスクに対して,ニューラルアーキテクチャ検索の最初の応用であるAutoPatchを提案する。 異常分割品質の測定は、不均衡な異常画素、異なる領域領域、様々な種類の異常のために困難である。 まず、重み付き平均精度(wAP)は、特定の最大FPRに制限される必要がないAUROCとAUPROの代替として提案される。 第二に、トレーニングなしで視覚異常の効率的なセグメンテーションを可能にする新しいニューラルアーキテクチャ探索法を提案する。 トレーニング済みのスーパーネットを利用することで、ブラックボックス最適化アルゴリズムはFLOPSを直接最小化し、異常な例の小さな検証セットでwAPを最大化する。 最後に、広く研究されているMVTec [3]データセットの説得力のある結果を示し、AutoPatchが現在の最先端メソッドであるPatchCore [12]を18倍以上のFLOPSで上回り、異常タイプ毎に1つの例しか使用していないことを示した。 これらの結果は、産業品質管理のスループットを最適化する自動機械学習の可能性を強調している。 AutoPatchのコードは、https://github.com/tommiekerssies/AutoPatchで入手できる。

This paper presents AutoPatch, the first application of neural architecture search to the complex task of segmenting visual anomalies. Measurement of anomaly segmentation quality is challenging due to imbalanced anomaly pixels, varying region areas, and various types of anomalies. First, the weighted average precision (wAP) metric is proposed as an alternative to AUROC and AUPRO, which does not need to be limited to a specific maximum FPR. Second, a novel neural architecture search method is proposed, which enables efficient segmentation of visual anomalies without any training. By leveraging a pre-trained supernet, a black-box optimization algorithm can directly minimize FLOPS and maximize wAP on a small validation set of anomalous examples. Finally, compelling results on the widely studied MVTec [3] dataset are presented, demonstrating that AutoPatch outperforms the current state-of-the-art method PatchCore [12] with more than 18x fewer FLOPS, using only one example per anomaly type. These results highlight the potential of automated machine learning to optimize throughput in industrial quality control. The code for AutoPatch is available at: https://github.com/tommiekerssies/AutoPatch
翻訳日:2023-04-19 14:40:30 公開日:2023-04-18
# ビジョントランスを用いた乳腺MRIにおける線維粒組織分画の多施設間評価

Fibroglandular Tissue Segmentation in Breast MRI using Vision Transformers -- A multi-institutional evaluation ( http://arxiv.org/abs/2304.08972v1 )

ライセンス: Link先を確認
Gustav M\"uller-Franzes, Fritz M\"uller-Franzes, Luisa Huck, Vanessa Raaff, Eva Kemmer, Firas Khader, Soroosh Tayebi Arasteh, Teresa Nolte, Jakob Nikolas Kather, Sven Nebelung, Christiane Kuhl, Daniel Truhn(参考訳) 乳房mri検診における線維腺組織の精密かつ自動分節化は,乳房密度の定量化および胸腔内圧亢進に不可欠である。 本研究では,多施設MRIデータを用いたトランスフォーマーベースニューラルネットワーク(TraBS)の開発と評価を行い,その性能をよく確立された畳み込みニューラルネットワークnnUNetと比較した。 TraBSとnnUNetは、経験豊富なヒト読者が作成した手動セグメンテーションを用いて、200の内臓および40の乳房MRI検査で訓練され、試験された。 セグメンテーション性能は, diceスコアと平均対称表面距離で評価した。 nnunet の dice スコアは、内部テストセットの trabs (0.909$\pm$0.069 対 0.916$\pm$0.067, p<0.001) と外部テストセット (0.824$\pm$0.144 対 0.864$\pm$0.081, p=0.004) よりも低かった。 さらに、nnunet の平均対称表面距離は内部 (0.657$\pm$2.856 対 0.548$\pm$2.195, p=0.001) および外部テストセット (0.727$\pm$0.620 対 0.584$\pm$0.413, p=0.03) よりも高い(=worse)。 本研究は, トランスフォーマーベースネットワークが乳房MRIにおいて, nnUNetなどの畳み込みモデルと比較して, 線維粒組織セグメンテーションの質を向上することを示した。 これらの所見は, 乳房MRI検診における乳房密度の精度と発作性増強定量化に有効であると考えられた。

Accurate and automatic segmentation of fibroglandular tissue in breast MRI screening is essential for the quantification of breast density and background parenchymal enhancement. In this retrospective study, we developed and evaluated a transformer-based neural network for breast segmentation (TraBS) in multi-institutional MRI data, and compared its performance to the well established convolutional neural network nnUNet. TraBS and nnUNet were trained and tested on 200 internal and 40 external breast MRI examinations using manual segmentations generated by experienced human readers. Segmentation performance was assessed in terms of the Dice score and the average symmetric surface distance. The Dice score for nnUNet was lower than for TraBS on the internal testset (0.909$\pm$0.069 versus 0.916$\pm$0.067, P<0.001) and on the external testset (0.824$\pm$0.144 versus 0.864$\pm$0.081, P=0.004). Moreover, the average symmetric surface distance was higher (=worse) for nnUNet than for TraBS on the internal (0.657$\pm$2.856 versus 0.548$\pm$2.195, P=0.001) and on the external testset (0.727$\pm$0.620 versus 0.584$\pm$0.413, P=0.03). Our study demonstrates that transformer-based networks improve the quality of fibroglandular tissue segmentation in breast MRI compared to convolutional-based models like nnUNet. These findings might help to enhance the accuracy of breast density and parenchymal enhancement quantification in breast MRI screening.
翻訳日:2023-04-19 14:40:08 公開日:2023-04-18
# SurfelNeRF: 屋内シーンのオンラインフォトリアリスティック再構成のためのニューラルサーフェル放射場

SurfelNeRF: Neural Surfel Radiance Fields for Online Photorealistic Reconstruction of Indoor Scenes ( http://arxiv.org/abs/2304.08971v1 )

ライセンス: Link先を確認
Yiming Gao, Yan-Pei Cao, Ying Shan(参考訳) 大規模室内シーンのオンライン再構築とレンダリングは長年の課題である。 slamベースの手法は3dシーンの幾何学をリアルタイムで再構築できるが、フォトリアリスティックな結果が得られない。 nerfベースの手法は有望な新しいビュー合成結果を生成するが、そのオフライン最適化時間と幾何学的制約の欠如は、オンライン入力の効率的な処理に困難をもたらす。 古典的3次元再構成とnerfの相補的な利点に触発されて,明示的な幾何表現とnerfレンダリングを組み合わせることにより,効率的なオンライン再構成と高品質レンダリングを実現する。 本稿では、フレキシブルでスケーラブルなニューラルサーベイル表現を用いて、入力画像から幾何学的属性と外観特徴を抽出するSurfelNeRFを紹介する。 さらに,従来のサーフェルベース融合法を拡張し,入力フレームを再構成したグローバル・ニューラル・シーン表現に段階的に統合する。 さらに,SurfelNeRFがトレーニング時間と推論時間でそれぞれ10\times$スピードアップを達成するのに役立つ,ニューラルネットワーク放射場を描画するための高効率な微分ラスタライズ手法を提案する。 実験結果から,ScanNet上の23.82 PSNRと29.58 PSNRを,それぞれフィードフォワード推論とシーンごとの最適化設定で実現した。

Online reconstructing and rendering of large-scale indoor scenes is a long-standing challenge. SLAM-based methods can reconstruct 3D scene geometry progressively in real time but can not render photorealistic results. While NeRF-based methods produce promising novel view synthesis results, their long offline optimization time and lack of geometric constraints pose challenges to efficiently handling online input. Inspired by the complementary advantages of classical 3D reconstruction and NeRF, we thus investigate marrying explicit geometric representation with NeRF rendering to achieve efficient online reconstruction and high-quality rendering. We introduce SurfelNeRF, a variant of neural radiance field which employs a flexible and scalable neural surfel representation to store geometric attributes and extracted appearance features from input images. We further extend the conventional surfel-based fusion scheme to progressively integrate incoming input frames into the reconstructed global neural scene representation. In addition, we propose a highly-efficient differentiable rasterization scheme for rendering neural surfel radiance fields, which helps SurfelNeRF achieve $10\times$ speedups in training and inference time, respectively. Experimental results show that our method achieves the state-of-the-art 23.82 PSNR and 29.58 PSNR on ScanNet in feedforward inference and per-scene optimization settings, respectively.
翻訳日:2023-04-19 14:39:34 公開日:2023-04-18
# 確率的パロットを求める確率的パロット:LLMは微調整が容易で、他のLLMで検出しにくい

Stochastic Parrots Looking for Stochastic Parrots: LLMs are Easy to Fine-Tune and Hard to Detect with other LLMs ( http://arxiv.org/abs/2304.08968v1 )

ライセンス: Link先を確認
Da Silva Gameiro Henrique, Andrei Kucharavy and Rachid Guerraoui(参考訳) 自己注意革命により、生成言語モデルは拡大し、ますます印象的な能力を達成することができた。 このようなモデル(一般的には large language model (llms) と呼ばれる)は、会話の微調整によって、最近一般大衆に注目を集め、aiに関する一般の期待と一致している。 この顕著さは、LSMの誤用に関する以前の懸念を増幅し、野生のLSMを検出する多くのツールが出現した。 残念ながら、このようなツールのほとんどは重大な欠陥があります。 LLM検出性分野の主要な出版物は、LPMは微調整されたオートエンコーダで容易に検出できることを示唆しているが、その結果の制限は見落としやすい。 具体的には、細管や非自明なプロンプトを使わずに、公開可能な生成モデルを仮定した。 これらの仮定の重要性は実証されてきたが、これまでその検出がどの程度うまく対応できるかは分かっていない。 本稿では,このような検出者の参照する人間のテキストにアクセスした攻撃者が,検出を回避できるだけでなく,検出者のトレーニングを完全にイライラさせることができることを示す。 一般的な「批判からの強化」損失関数の修正とAdamWオプティマイザの組み合わせが必要であり、驚くほど微調整の一般化につながった。 最後に,RNN によるテキスト GAN から LLM への変換の誘惑に対して警告を行う。 これらの結果は、生成言語モデルの悪用の検出と防止に重要な意味を持ち、生成モデルや検出装置の設計者を支援することを願っている。

The self-attention revolution allowed generative language models to scale and achieve increasingly impressive abilities. Such models - commonly referred to as Large Language Models (LLMs) - have recently gained prominence with the general public, thanks to conversational fine-tuning, putting their behavior in line with public expectations regarding AI. This prominence amplified prior concerns regarding the misuse of LLMs and led to the emergence of numerous tools to detect LLMs in the wild. Unfortunately, most such tools are critically flawed. While major publications in the LLM detectability field suggested that LLMs were easy to detect with fine-tuned autoencoders, the limitations of their results are easy to overlook. Specifically, they assumed publicly available generative models without fine-tunes or non-trivial prompts. While the importance of these assumptions has been demonstrated, until now, it remained unclear how well such detection could be countered. Here, we show that an attacker with access to such detectors' reference human texts and output not only evades detection but can fully frustrate the detector training - with a reasonable budget and all its outputs labeled as such. Achieving it required combining common "reinforcement from critic" loss function modification and AdamW optimizer, which led to surprisingly good fine-tuning generalization. Finally, we warn against the temptation to transpose the conclusions obtained in RNN-driven text GANs to LLMs due to their better representative ability. These results have critical implications for the detection and prevention of malicious use of generative language models, and we hope they will aid the designers of generative models and detectors.
翻訳日:2023-04-19 14:39:07 公開日:2023-04-18
# PaTeCon:知識グラフを用いた競合検出のためのパターンベース時間制約マイニング手法

PaTeCon: A Pattern-Based Temporal Constraint Mining Method for Conflict Detection on Knowledge Graphs ( http://arxiv.org/abs/2304.09015v1 )

ライセンス: Link先を確認
Jianhao Chen, Junyang Ren, Wentao Ding, Yuzhong Qu(参考訳) 特定の期間に開催される出来事を特徴づける事実である時間的事実は、知識グラフ(KG)研究コミュニティで注目を集めている。 品質管理の観点からは、時間制限の導入は、KGの時間的一貫性を維持し、潜在的な時間的矛盾を検出するための新たな課題をもたらす。 従来の研究は、労働集約的で粒度の問題のある紛争を検出するために、手動で列挙された時間的制約に依存していた。 本稿では,時間的事実と制約の共通パターンから始め,パターンに基づく時間的制約マイニング手法PaTeConを提案する。 PaTeConは、人間の専門家ではなく、与えられたKG上で自動的に決定されたグラフパターンとその関連する統計情報を使用して時間制約を生成する。 具体的には,PaTeConをWikidataとFreebaseの2つの大規模データセット上で評価する。 実験結果から,パターンに基づく自動制約マイニングは時間的制約を発生させる上で強力であることがわかった。

Temporal facts, the facts for characterizing events that hold in specific time periods, are attracting rising attention in the knowledge graph (KG) research communities. In terms of quality management, the introduction of time restrictions brings new challenges to maintaining the temporal consistency of KGs and detecting potential temporal conflicts. Previous studies rely on manually enumerated temporal constraints to detect conflicts, which are labor-intensive and may have granularity issues. We start from the common pattern of temporal facts and constraints and propose a pattern-based temporal constraint mining method, PaTeCon. PaTeCon uses automatically determined graph patterns and their relevant statistical information over the given KG instead of human experts to generate time constraints. Specifically, PaTeCon dynamically attaches class restriction to candidate constraints according to their measuring scores.We evaluate PaTeCon on two large-scale datasets based on Wikidata and Freebase respectively. The experimental results show that pattern-based automatic constraint mining is powerful in generating valuable temporal constraints.
翻訳日:2023-04-19 14:34:07 公開日:2023-04-18
# GUILGET: Transformerを使ったGUIレイアウトGEneration

GUILGET: GUI Layout GEneration with Transformer ( http://arxiv.org/abs/2304.09012v1 )

ライセンス: Link先を確認
Andrey Sobolevsky, Guillaume-Alexandre Bilodeau, Jinghui Cheng, Jin L.C. Guo(参考訳) グラフィカルユーザインタフェース(GUI)レイアウトのスケッチアウトは、GUIを設計するパイプラインの一部であり、ソフトウェアアプリケーションの成功にとって重要なタスクである。 GUIレイアウト内のすべてのコンポーネントを手動でアレンジするのは、時間を要する作業です。 そこで我々はGUI配置グラフ(GUI-AG)として表される位置制約からGUIレイアウトを自動的に生成するGUILGETという手法を開発した。 目標は、現実的で多様なGUIレイアウトを生成することで、GUI設計の最初のステップをサポートすることである。 既存の画像レイアウト生成技術はGUI設計の制約を組み込むことができないことが多い。 したがって、GUILGETはGUI設計固有の制約に従うGUIレイアウトを生成するために既存の技術を適用する必要がある。 GUILGETは、GUI-AGの要素間の関係における意味を捉えるために、トランスフォーマーに基づいている。 さらに、モデルは、各コンポーネントを親レイアウト内に配置する責任を負う損失の最小化を通じて制約を学習し、同じ親レイアウト内にあるコンポーネントとコンポーネントアライメントが重複しないようにする。 CLAYデータセットを用いて実験を行った結果,GUI-AGの関係を最もよく理解し,ほとんどの評価指標で最高の性能を示した。 そこで本研究では,GUI要素の制約を効果的に考慮し,より効率的なGUI設計パイプラインを実現する新しい手法を提案することにより,GUIレイアウト生成の改善に寄与する。

Sketching out Graphical User Interface (GUI) layout is part of the pipeline of designing a GUI and a crucial task for the success of a software application. Arranging all components inside a GUI layout manually is a time-consuming task. In order to assist designers, we developed a method named GUILGET to automatically generate GUI layouts from positional constraints represented as GUI arrangement graphs (GUI-AGs). The goal is to support the initial step of GUI design by producing realistic and diverse GUI layouts. The existing image layout generation techniques often cannot incorporate GUI design constraints. Thus, GUILGET needs to adapt existing techniques to generate GUI layouts that obey to constraints specific to GUI designs. GUILGET is based on transformers in order to capture the semantic in relationships between elements from GUI-AG. Moreover, the model learns constraints through the minimization of losses responsible for placing each component inside its parent layout, for not letting components overlap if they are inside the same parent, and for component alignment. Our experiments, which are conducted on the CLAY dataset, reveal that our model has the best understanding of relationships from GUI-AG and has the best performances in most of evaluation metrics. Therefore, our work contributes to improved GUI layout generation by proposing a novel method that effectively accounts for the constraints on GUI elements and paves the road for a more efficient GUI design pipeline.
翻訳日:2023-04-19 14:33:37 公開日:2023-04-18
# cf-vae: vaeと因果フローを用いた因果的不等角表現学習

CF-VAE: Causal Disentangled Representation Learning with VAE and Causal Flows ( http://arxiv.org/abs/2304.09010v1 )

ライセンス: Link先を確認
Di Fan, Yannian Hou and Chuanhou Gao(参考訳) ディスタングル表現の学習は表現学習において重要であり、各次元が1つの基礎となる生成因子に対応するデータの低次元表現を学ぶことを目的としている。 生成要因間の因果関係の可能性から,因果関係の対立表現学習が広く注目されている。 本稿ではまず,因果構造情報をモデルに組み込む新しい流れ,すなわち因果フローを提案する。 分散表現学習によく用いられる変分オートエンコーダ(VAE)に基づいて,因果フローを利用してVAEエンコーダのアンタングル化能力を高める新しいモデルCF-VAEを設計する。 地中構造因子の監視をさらに導入することにより,モデルの絡み合いの識別可能性を示す。 合成データと実データの両方の実験結果から,CF-VAEは因果解離を達成し,介入実験を行うことができることが示された。 さらに、CF-VAEは下流タスクに優れた性能を示し、要因間の因果構造を学習する可能性がある。

Learning disentangled representations is important in representation learning, aiming to learn a low dimensional representation of data where each dimension corresponds to one underlying generative factor. Due to the possibility of causal relationships between generative factors, causal disentangled representation learning has received widespread attention. In this paper, we first propose a new flows that can incorporate causal structure information into the model, called causal flows. Based on the variational autoencoders(VAE) commonly used in disentangled representation learning, we design a new model, CF-VAE, which enhances the disentanglement ability of the VAE encoder by utilizing the causal flows. By further introducing the supervision of ground-truth factors, we demonstrate the disentanglement identifiability of our model. Experimental results on both synthetic and real datasets show that CF-VAE can achieve causal disentanglement and perform intervention experiments. Moreover, CF-VAE exhibits outstanding performance on downstream tasks and has the potential to learn causal structure among factors.
翻訳日:2023-04-19 14:32:58 公開日:2023-04-18
# 有限基底近似におけるディラック方程式の多電位真空偏極密度の計算

Calculating the many-potential vacuum polarization density of the Dirac equation in the finite-basis approximation ( http://arxiv.org/abs/2304.09008v1 )

ライセンス: Link先を確認
Maen Salman and Trond Saue(参考訳) 本研究では,多ポテンシャル$\alpha\left(Z\alpha\right)^{n\ge3}$ 水素様原子の真空偏極密度をディラック方程式の有限基底近似内で評価するための効率的かつ正確な計算法を提案する。 計算法の性能を証明するために、1電子$_{\,\,\,92}^{238}\text{u}$ atom を用いる。 要約すると、電荷共役対称性の遵守は、解析問題に関する知識に則った物理結果を得るために必要となる最優先事項である。 また、最終的な数値結果は、いくつかの単純な核分布モデルに限定された以前の形式的解析(および数値的)評価とよく一致することが判明した。 本手法は, 有限基底集合フレームワークにおける放射状ディラック方程式を解く符号を用いて効率よく実装し, 評価し, 任意の(放射状)核電荷分布を利用できる。 得られた非摂動真空分極密度の数値結果は、核径効果の延長を自動的に考慮する。 この方法は、解析グリーン関数式が手元にない、あるいは比較的複雑な解析形式を持つ原子ディラック問題において特に重要である。 さらに、電荷共役対称性の遵守を強制する真空偏極密度式を提案し、ほとんどの相対論的基底集合プログラムのように、相対論的基底がこの対称性に反する場合に使用することができる。 さらに、真空分極四電流のベクトル成分は、ディラックハミルトニアンが時間反転対称性の下で対称である場合に消滅することを示した。

In this work, we propose an efficient and accurate computational method to evaluate the many-potential $\alpha\left(Z\alpha\right)^{n\ge3}$ vacuum polarization density of hydrogen-like atoms within the finite-basis approximation of the Dirac equation. To prove the performance of our computational method, we choose to work with the one-electron $_{\,\,\,92}^{238}\text{U}$ atom. In summary, we find that compliance with charge conjugation symmetry is a priori required to obtain physical results that are in line with our knowledge of the analytical problem. We also note that the final numerical results are found to be in excellent agreement with previous formal analytical (and numerical) evaluations that are limited to a few simple nuclear distribution models. Our technique can be efficiently implemented and evaluated in codes that solve the radial Dirac equation in the finite basis set framework and allows the use of arbitrary (radial) nuclear charge distribution. The obtained numerical results of the non-perturbative vacuum polarization density automatically account for the extended nuclear size effect. This method is hence of special importance for atomic Dirac problems whose analytical Green's functions expressions are not at hand or have relatively complicated analytical forms. Furthermore, we propose a vacuum polarization density formula that forces compliance with charge conjugation symmetry and can be used in cases where the relativistic basis violates this symmetry, as is the case in most relativistic basis set programs. In addition, we have shown that vector components of the vacuum polarization four-current vanish in the case where the Dirac Hamiltonian is symmetric under time-reversal symmetry.
翻訳日:2023-04-19 14:32:37 公開日:2023-04-18
# 絶対正極性スピン状態のポリトープ

Polytopes of Absolutely Wigner Positive Spin States ( http://arxiv.org/abs/2304.09006v1 )

ライセンス: Link先を確認
J\'er\^ome Denis, Jack Davis, Robert B. Mann, John Martin(参考訳) 混合スピン状態のユニタリ軌道上の球状ウィグナー負性(英語版)(spherical Wigner negativity)の性質を初めて研究し、すべての有限次元において絶対ウィグナー正(英語版)(AWP)状態の集合を完全に特徴づける。 二重確率行列上のバーホフ・ヴォン・ノイマンの定理を用いて、この特徴付けを線形固有値制約の集合を通じて記述し、最大混合状態を中心とする混合スピン-j状態の単純集合におけるポリトープを定義する。 そのような制約は SU(2)-共変ウィグナー函数の基盤構造から自然に生じる。 各次元において、厳密な純度ベースのAWP充足基準を表すヒルベルト・シュミット球を正確に決定し、AWPの必要性を表す別の球を推測する。 絶対対称状態分離性と球状グラウバー・スダルシャン正の正の比と、低スピン量子数に対する追加的な詳細を比較する。

We carry out the first investigation of the properties of spherical Wigner negativity over unitary orbits of mixed spin states, and completely characterize, in all finite dimensions, the set of absolutely Wigner-positive (AWP) states. Employing the Birkhoff-von Neumann theorem on doubly stochastic matrices, we describe this characterization via a set of linear eigenvalue constraints, which together define a polytope in the simplex of mixed spin-j states centred on the maximally mixed state. Such constraints naturally arise from the underlying structure of the SU(2)-covariant Wigner function. In each dimension, a Hilbert-Schmidt ball representing a tight, purity-based AWP sufficiency criterion is exactly determined, while another ball representing AWP necessity is conjectured. Comparisons are made to absolute symmetric state separability and spherical Glauber-Sudarshan positivity, with additional details given for low spin quantum numbers.
翻訳日:2023-04-19 14:32:10 公開日:2023-04-18
# ポルトガルにおけるオンコロジー健康記録のためのバイオメディカルエンティティ抽出パイプライン

A Biomedical Entity Extraction Pipeline for Oncology Health Records in Portuguese ( http://arxiv.org/abs/2304.08999v1 )

ライセンス: Link先を確認
Hugo Sousa, Arian Pasquali, Al\'ipio Jorge, Catarina Sousa Santos, M\'ario Amorim Lopes(参考訳) がん患者のテキストによる健康記録は、通常、長引いて高度に構造化されていないため、医療専門家が患者の治療方針の完全な概観を得るのに非常に時間がかかる。 このような制限は、最適あるいは非効率な治療手順につながる可能性があるため、医療提供者はこれらの記録情報を効果的に要約するシステムから大きな恩恵を受けるだろう。 深層神経モデルの出現により、この目的の一部は英語の臨床文書に対して達成されてきたが、研究コミュニティは限られた資源を持つ言語に対して効果的な解決策をいまだに欠いている。 本稿では,ヨーロッパ・ポルトガル語で書かれた腫瘍学の健康記録から手順,薬剤,疾患を抽出する手法を提案する。 このプロジェクトはポルトガルオンコロジー研究所(英語版)と共同で実施され、10ドル以上の厳重に保護された医療記録の他に、プロジェクトの開発を通じてオンコロジーの専門知識も提供された。 ポルトガルでは,生物医学的実体抽出のための注釈付きコーパスが存在しないため,モデル開発のためのコーパスの注釈付けに追従した戦略も提示する。 最終的なモデルは、ニューラルネットワークとエンティティリンクを組み合わせたもので、それぞれ8,8.6$、95.0$、55.8$のスコアで、手順、薬物、疾患の抽出でそれぞれ5.8$のスコアを得た。

Textual health records of cancer patients are usually protracted and highly unstructured, making it very time-consuming for health professionals to get a complete overview of the patient's therapeutic course. As such limitations can lead to suboptimal and/or inefficient treatment procedures, healthcare providers would greatly benefit from a system that effectively summarizes the information of those records. With the advent of deep neural models, this objective has been partially attained for English clinical texts, however, the research community still lacks an effective solution for languages with limited resources. In this paper, we present the approach we developed to extract procedures, drugs, and diseases from oncology health records written in European Portuguese. This project was conducted in collaboration with the Portuguese Institute for Oncology which, besides holding over $10$ years of duly protected medical records, also provided oncologist expertise throughout the development of the project. Since there is no annotated corpus for biomedical entity extraction in Portuguese, we also present the strategy we followed in annotating the corpus for the development of the models. The final models, which combined a neural architecture with entity linking, achieved $F_1$ scores of $88.6$, $95.0$, and $55.8$ per cent in the mention extraction of procedures, drugs, and diseases, respectively.
翻訳日:2023-04-19 14:31:51 公開日:2023-04-18
# nomaネットワーク上での通信効率のよい連合学習のためのクライアント選択と資源割り当て

Joint Age-based Client Selection and Resource Allocation for Communication-Efficient Federated Learning over NOMA Networks ( http://arxiv.org/abs/2304.08996v1 )

ライセンス: Link先を確認
Bibo Wu, Fang Fang and Xianbin Wang(参考訳) フェデレーション学習(federated learning, fl)は、分散クライアントがトレーニングデータをローカルに保持しながら共有グローバルモデルを協調的にトレーニングできる、有望なパラダイムである。 しかし、flの性能は、無線ネットワーク上でflが展開されるときに、通信リンクの貧弱さと収束が遅いため、しばしば制限される。 また、無線リソースが限られているため、FL性能を向上させるために、クライアントの選択とリソース割り当てを正確に制御することが重要である。 これらの課題に動機づけられ,非正方形多重アクセス(noma)可能無線ネットワークにおけるflにおける各ラウンドの合計時間消費を最小化することを目的とした,クライアント選択とリソース割り当ての同時最適化問題を提案する。 具体的には,aou( age of update)と呼ばれる指標に基づいて,受信した局所flモデルの停滞性を考慮した新しいクライアント選択方式を提案する。 その後、資源配分の閉形式解は、単調性解析と二重分解法により得られる。 さらに、FLの性能をさらに向上させるために、各ラウンドにおける未選択クライアントのローカルFLモデルを予測するために、サーバへの人工知能ニューラルネットワーク(ANN)の展開を提案する。 最後に,提案手法の優れた性能を示す。

Federated learning (FL) is a promising paradigm that enables distributed clients to collaboratively train a shared global model while keeping the training data locally. However, the performance of FL is often limited by poor communication links and slow convergence when FL is deployed over wireless networks. Besides, due to the limited radio resources, it is crucial to select clients and control resource allocation accurately for improved FL performance. Motivated by these challenges, a joint optimization problem of client selection and resource allocation is formulated in this paper, aiming to minimize the total time consumption of each round in FL over non-orthogonal multiple access (NOMA) enabled wireless network. Specifically, based on a metric termed the age of update (AoU), we first propose a novel client selection scheme by accounting for the staleness of the received local FL models. After that, the closed-form solutions of resource allocation are obtained by monotonicity analysis and dual decomposition method. Moreover, to further improve the performance of FL, the deployment of artificial neural network (ANN) at the server is proposed to predict the local FL models of the unselected clients at each round. Finally, extensive simulation results demonstrate the superior performance of the proposed schemes.
翻訳日:2023-04-19 14:31:27 公開日:2023-04-18
# Parcel3D:単一RGB画像からの形状再構成による輸送ロジスティックスへの応用

Parcel3D: Shape Reconstruction from Single RGB Images for Applications in Transportation Logistics ( http://arxiv.org/abs/2304.08994v1 )

ライセンス: Link先を確認
Alexander Naumann, Felix Hertlein, Laura D\"orr, Kai Furmans(参考訳) 我々は,ロジスティクスにおける損傷とタンパリングの検出を可能にすることに注力し,損傷の可能性のある小包の3次元形状復元問題に取り組む。 入力として、単一のrgbイメージを使用し、例えば配達中の郵便配達員や配達中のクライアントなど、単純なハンドヘルドデバイスのみを利用できるユースケースに対応します。 本稿では,google scanned objects (gso) データセットをベースとし,完全な3dアノテーションを備えた13,000以上のパーセル画像からなる,新しい合成データセットparcel3dを提案する。 データセットには、シミュレーションで生成されたcuboid型、parcels、および損傷したparcelsを含む。 3dバウンディングボックスの推定と反復メッシュリファインメントを組み合わせた,cuberefine r-cnnと呼ばれる新しいアーキテクチャを提案することで,小包のミスハンドリングの検出に取り組んでいる。 実世界のシナリオでParcel3Dと既存のcuboid-shaped parcelsのデータセットをベンチマークする。 以上の結果から,Parcel3Dのトレーニングは実世界への移動を可能にするが,現実のシナリオへの信頼性の高い展開を実現することは依然として困難である。 立方体refine r-cnn はメッシュ ap の点で競合性能を示し、3次元メッシュ比較とタンパリング検出による直接変形評価を可能にする唯一のモデルである。 データセットとコードはhttps://a-nau.github.io/parcel3dで入手できる。

We focus on enabling damage and tampering detection in logistics and tackle the problem of 3D shape reconstruction of potentially damaged parcels. As input we utilize single RGB images, which corresponds to use-cases where only simple handheld devices are available, e.g. for postmen during delivery or clients on delivery. We present a novel synthetic dataset, named Parcel3D, that is based on the Google Scanned Objects (GSO) dataset and consists of more than 13,000 images of parcels with full 3D annotations. The dataset contains intact, i.e. cuboid-shaped, parcels and damaged parcels, which were generated in simulations. We work towards detecting mishandling of parcels by presenting a novel architecture called CubeRefine R-CNN, which combines estimating a 3D bounding box with an iterative mesh refinement. We benchmark our approach on Parcel3D and an existing dataset of cuboid-shaped parcels in real-world scenarios. Our results show, that while training on Parcel3D enables transfer to the real world, enabling reliable deployment in real-world scenarios is still challenging. CubeRefine R-CNN yields competitive performance in terms of Mesh AP and is the only model that directly enables deformation assessment by 3D mesh comparison and tampering detection by comparing viewpoint invariant parcel side surface representations. Dataset and code are available at https://a-nau.github.io/parcel3d.
翻訳日:2023-04-19 14:31:07 公開日:2023-04-18
# 動的シーンにおける複数フレーム深度推定のための単眼・多眼キューの融合学習

Learning to Fuse Monocular and Multi-view Cues for Multi-frame Depth Estimation in Dynamic Scenes ( http://arxiv.org/abs/2304.08993v1 )

ライセンス: Link先を確認
Rui Li, Dong Gong, Wei Yin, Hao Chen, Yu Zhu, Kaixuan Wang, Xiaozhi Chen, Jinqiu Sun, Yanning Zhang(参考訳) マルチフレーム深度推定は一般に、多視点幾何学的一貫性に依存する高い精度を達成する。 ダイナミックなシーン、例えば自律運転に適用する場合、この一貫性は通常、ダイナミックな領域で違反され、破損した推定に繋がる。 多くのマルチフレーム手法は、それらを明示的なマスクで識別し、局所的な単眼深度または特徴として表される単眼深度で多眼深度を補正することで動的領域を処理する。 マスクの制御不能な品質と、2種類のキューの融合による未使用の利点により、改善は制限されている。 本稿では,ヒューリスティックなマスクを必要とせず,ボリュームとして符号化された多視点と単眼の手がかりを融合させる新しい手法を提案する。 解析で明らかになったように、多視点の手がかりは静的領域におけるより正確な幾何学的情報を捉え、単眼の手がかりは動的領域におけるより有用な文脈を捉えている。 静的領域における多視点手がかりから学習した幾何学的知覚を動的領域における単眼表現に伝播させ、単眼的キューを多視点コストボリュームの表現を強化するために、各ソースから空間的に非局所的な相対的関係をエンコードするクロスキュー注意(cca)を含むクロスキュー融合(ccf)モジュールを提案する。 実世界のデータセットを用いた実験は,提案手法の有効性と一般化能力を示す。

Multi-frame depth estimation generally achieves high accuracy relying on the multi-view geometric consistency. When applied in dynamic scenes, e.g., autonomous driving, this consistency is usually violated in the dynamic areas, leading to corrupted estimations. Many multi-frame methods handle dynamic areas by identifying them with explicit masks and compensating the multi-view cues with monocular cues represented as local monocular depth or features. The improvements are limited due to the uncontrolled quality of the masks and the underutilized benefits of the fusion of the two types of cues. In this paper, we propose a novel method to learn to fuse the multi-view and monocular cues encoded as volumes without needing the heuristically crafted masks. As unveiled in our analyses, the multi-view cues capture more accurate geometric information in static areas, and the monocular cues capture more useful contexts in dynamic areas. To let the geometric perception learned from multi-view cues in static areas propagate to the monocular representation in dynamic areas and let monocular cues enhance the representation of multi-view cost volume, we propose a cross-cue fusion (CCF) module, which includes the cross-cue attention (CCA) to encode the spatially non-local relative intra-relations from each source to enhance the representation of the other. Experiments on real-world datasets prove the significant effectiveness and generalization ability of the proposed method.
翻訳日:2023-04-19 14:30:42 公開日:2023-04-18
# D2CSE:コントラスト文埋め込みのための差分認識型深部連続プロンプト

D2CSE: Difference-aware Deep continuous prompts for Contrastive Sentence Embeddings ( http://arxiv.org/abs/2304.08991v1 )

ライセンス: Link先を確認
Hyunjae Lee(参考訳) 本稿では,文の埋め込みを学習するコントラスト型文埋め込み(D2CSE)のための差分認識型深部連続プロンプトについて述べる。 最先端のアプローチと比較して、D2CSEは連続的なプロンプトに単純なニューラルアーキテクチャを用いることで、類似した文の微妙な違いを区別する例外的な文ベクトルを計算する。 複数の事前訓練された言語モデル (PLM) を必要とする既存のアーキテクチャとは異なり、D2CSE は複数のタスクを実行することで連続的なプロンプトを最適化することで、複数の PLM の面倒な微調整を回避している。 D2CSEは連続的なプロンプトに1つのPLMをオーバーロードし、結果としてメモリ消費を大幅に削減する。 d2cseのトレーニングパラメータ数は、既存のアプローチの約1\%に削減され、文章埋め込みの品質が大幅に向上する。 本研究では,7つのセマンティックテキスト類似度(STS)ベンチマーク上でD2CSEを評価し,スピアマンのランク相関,検索タスクのリコール@K,アライメントと均一性で測定された埋め込み空間の異方性,という3つの異なる指標を用いた。 実験結果から,複数のnlpタスクに対して,浅い(細心の注意を払わなくても)連続的なプロンプトを効果的に適用できることが示唆された。

This paper describes Difference-aware Deep continuous prompt for Contrastive Sentence Embeddings (D2CSE) that learns sentence embeddings. Compared to state-of-the-art approaches, D2CSE computes sentence vectors that are exceptional to distinguish a subtle difference in similar sentences by employing a simple neural architecture for continuous prompts. Unlike existing architectures that require multiple pretrained language models (PLMs) to process a pair of the original and corrupted (subtly modified) sentences, D2CSE avoids cumbersome fine-tuning of multiple PLMs by only optimizing continuous prompts by performing multiple tasks -- i.e., contrastive learning and conditional replaced token detection all done in a self-guided manner. D2CSE overloads a single PLM on continuous prompts and greatly saves memory consumption as a result. The number of training parameters in D2CSE is reduced to about 1\% of existing approaches while substantially improving the quality of sentence embeddings. We evaluate D2CSE on seven Semantic Textual Similarity (STS) benchmarks, using three different metrics, namely, Spearman's rank correlation, recall@K for a retrieval task, and the anisotropy of an embedding space measured in alignment and uniformity. Our empirical results suggest that shallow (not too meticulously devised) continuous prompts can be honed effectively for multiple NLP tasks and lead to improvements upon existing state-of-the-art approaches.
翻訳日:2023-04-19 14:30:14 公開日:2023-04-18
# DeepGEMM:ルックアップテーブルを用いたCPUアーキテクチャの超高精度推論

DeepGEMM: Accelerated Ultra Low-Precision Inference on CPU Architectures using Lookup Tables ( http://arxiv.org/abs/2304.09049v1 )

ライセンス: Link先を確認
Darshan C. Ganji, Saad Ashfaq, Ehsan Saboori, Sudhakar Sah, Saptarshi Mitra, MohammadHossein AskariHemmat, Alexander Hoffman, Ahmed Hassanien, Mathieu L\'eonardon(参考訳) 極低ビット量子化における最近の多くの進歩は、エッジデバイスにおけるレイテンシ、メモリフットプリント、エネルギー消費を大幅に改善することを約束している。 Learned Step Size Quantizationのような量子化手法は、サブバイトの量子化であっても、完全精度の浮動小数点ベースラインに匹敵するモデル精度を達成することができる。 しかし、コモディティsimd(single instruction, multiple data)ハードウェアは通常8ビットの精度しか持たないため、これらの超低ビット量子化モデルをメインストリームcpuデバイスに展開することは極めて困難である。 この制限を克服するために、SIMDハードウェア上で超高精度畳み込みニューラルネットワークを実行するためのルックアップテーブルベースのアプローチであるDeepGEMMを提案する。 提案手法は,ウェイトとアクティベーションの可能なすべての製品をプリ計算し,それらをルックアップテーブルに格納し,推論時に効率的にアクセスすることで,コストのかかる乗算演算を回避する。 我々の2ビット実装は、x86プラットフォーム上で最大1.74倍のqnnpackフレームワークで対応する8ビット整数カーネルを上回る。

A lot of recent progress has been made in ultra low-bit quantization, promising significant improvements in latency, memory footprint and energy consumption on edge devices. Quantization methods such as Learned Step Size Quantization can achieve model accuracy that is comparable to full-precision floating-point baselines even with sub-byte quantization. However, it is extremely challenging to deploy these ultra low-bit quantized models on mainstream CPU devices because commodity SIMD (Single Instruction, Multiple Data) hardware typically supports no less than 8-bit precision. To overcome this limitation, we propose DeepGEMM, a lookup table based approach for the execution of ultra low-precision convolutional neural networks on SIMD hardware. The proposed method precomputes all possible products of weights and activations, stores them in a lookup table, and efficiently accesses them at inference time to avoid costly multiply-accumulate operations. Our 2-bit implementation outperforms corresponding 8-bit integer kernels in the QNNPACK framework by up to 1.74x on x86 platforms.
翻訳日:2023-04-19 14:22:46 公開日:2023-04-18
# CodeKGC: 生成知識グラフ構築のためのコード言語モデル

CodeKGC: Code Language Model for Generative Knowledge Graph Construction ( http://arxiv.org/abs/2304.09048v1 )

ライセンス: Link先を確認
Zhen Bi, Jing Chen, Yinuo Jiang, Feiyu Xiong, Wei Guo, Huajun Chen, Ningyu Zhang(参考訳) 現在の生成的知識グラフ構築アプローチは、自然言語をシリアライズされたテキストや仕様言語に平らにすることで、構造的知識を捉えるのに失敗する。 しかし、コードのような構造化データに基づいてトレーニングされた大きな生成言語モデルは、構造的予測や推論タスクのための自然言語を理解する素晴らしい能力を示している。 直感的には、コード言語モデルによる生成的知識グラフ構築のタスクに対処する: コード形式自然言語入力が与えられたとき、目標は、コード補完タスクとして表現できるトリプルを生成することである。 具体的には,知識グラフ内の意味構造を効果的に活用するスキーマ認識プロンプトを開発した。 コードは本質的にクラスや関数の定義のような構造を持っているため、以前の意味構造知識の有用なモデルとして機能する。 さらに,性能向上のために合理的な生成手法を用いる。 合理化は中間段階を提供し、知識抽出能力を向上させる。 実験結果から,提案手法はベースラインと比較してベンチマークデータセットの性能が向上することが示唆された。 コードとデータセットはhttps://github.com/zjunlp/DeepKE/tree/main/example/llmで入手できる。

Current generative knowledge graph construction approaches usually fail to capture structural knowledge by simply flattening natural language into serialized texts or a specification language. However, large generative language model trained on structured data such as code has demonstrated impressive capability in understanding natural language for structural prediction and reasoning tasks. Intuitively, we address the task of generative knowledge graph construction with code language model: given a code-format natural language input, the target is to generate triples which can be represented as code completion tasks. Specifically, we develop schema-aware prompts that effectively utilize the semantic structure within the knowledge graph. As code inherently possesses structure, such as class and function definitions, it serves as a useful model for prior semantic structural knowledge. Furthermore, we employ a rationale-enhanced generation method to boost the performance. Rationales provide intermediate steps, thereby improving knowledge extraction abilities. Experimental results indicate that the proposed approach can obtain better performance on benchmark datasets compared with baselines. Code and datasets are available in https://github.com/zjunlp/DeepKE/tree/main/example/llm.
翻訳日:2023-04-19 14:22:26 公開日:2023-04-18
# ニューラルランプパラメータ微分方程式と摩擦スター処理への応用

Neural Lumped Parameter Differential Equations with Application in Friction-Stir Processing ( http://arxiv.org/abs/2304.09047v1 )

ライセンス: Link先を確認
James Koch, WoongJo Choi, Ethan King, David Garcia, Hrishikesh Das, Tianhao Wang, Ken Ross, Keerti Kappagantula(参考訳) 集中定数法は、モデル化されたシステムの物理的スケールを表す「混合」要素への空間的拡張または連続的な物理系の進化を単純化することを目的としている。 集中要素や関連する物理の定義が不明な系では、モデリングタスクは系の物理学の完全忠実性シミュレーションに制限される。 本研究では,データ駆動型モデリングタスクについて検討する。 我々は,データ駆動モデルを構築するための普遍微分方程式(ude)の概念に基づいて,集合パラメータのダイナミクスを減少させ,その性質を推測する。 udesの柔軟性により、集約パラメータメソッドを含むアプリケーション固有のモデリングタスクに適した、様々な既知の物理プライオリティを構成することができる。 この研究のモチベーションの例は、摩擦・スター溶接の急落と膨潤段階である。 (i)工具に入力された電力を温度の測点にマッピングすること、 (ii) この学習されたマッピングをプロセス制御に用いる。

Lumped parameter methods aim to simplify the evolution of spatially-extended or continuous physical systems to that of a "lumped" element representative of the physical scales of the modeled system. For systems where the definition of a lumped element or its associated physics may be unknown, modeling tasks may be restricted to full-fidelity simulations of the physics of a system. In this work, we consider data-driven modeling tasks with limited point-wise measurements of otherwise continuous systems. We build upon the notion of the Universal Differential Equation (UDE) to construct data-driven models for reducing dynamics to that of a lumped parameter and inferring its properties. The flexibility of UDEs allow for composing various known physical priors suitable for application-specific modeling tasks, including lumped parameter methods. The motivating example for this work is the plunge and dwell stages for friction-stir welding; specifically, (i) mapping power input into the tool to a point-measurement of temperature and (ii) using this learned mapping for process control.
翻訳日:2023-04-19 14:22:08 公開日:2023-04-18
# 疾患の連続学習のための事前学習特徴抽出器におけるアダプタ学習

Adapter Learning in Pretrained Feature Extractor for Continual Learning of Diseases ( http://arxiv.org/abs/2304.09042v1 )

ライセンス: Link先を確認
Wentao Zhang, Yujun Huang, Tong Zhang, Qingsong Zou, Wei-Shi Zheng, Ruixuan Wang(参考訳) 現在、インテリジェントな診断システムは、古い疾患の知識を保存する条件下で、デプロイされた新しい疾患の診断を継続的に学習する能力が欠けている。 特に、新しい疾患の訓練データでインテリジェントな診断システムを更新すると、古い病気の知識を壊滅的に忘れてしまう。 破滅的な忘れ物問題に対処するために, 共有特徴抽出器を変更することなく, 連続学習の各ラウンド(またはタスク)において, 新たな病気の集合を効果的に学習する新しいアダプタベースの戦略を提案する。 学習可能な軽量なタスク固有アダプタを柔軟に設計し(例えば2つの畳み込み層)、事前訓練された固定された特徴抽出器に追加することができる。 以前に学習したすべての古い病気を単一の「アウト・オブ・ディストリビューション」カテゴリーとして吸収する特別に設計されたタスク特異的ヘッドとともに、タスク特異的アダプタは、予め訓練された特徴抽出器が疾患間の識別的特徴をより効果的に抽出するのに役立つ。 さらに、複数のタスク固有のヘッドを協調的に微調整し、異なるヘッドからの出力を同等にすることで、モデル推論時に適切な分類器ヘッドをより正確に選択することができる。 3つの画像データセットの広範な実証評価により,新しい疾患の連続学習における提案手法の優れた性能が示された。 ソースコードは公開される予定だ。

Currently intelligent diagnosis systems lack the ability of continually learning to diagnose new diseases once deployed, under the condition of preserving old disease knowledge. In particular, updating an intelligent diagnosis system with training data of new diseases would cause catastrophic forgetting of old disease knowledge. To address the catastrophic forgetting issue, a novel adapter-based strategy is proposed to help effectively learn a set of new diseases at each round (or task) of continual learning, without changing the shared feature extractor. The learnable lightweight task-specific adapter(s) can be flexibly designed (e.g., two convolutional layers) and then added to the pretrained and fixed feature extractor. Together with a specially designed task-specific head which absorbs all previously learned old diseases as a single 'out-of-distribution' category, task-specific adapter(s) can help the pretrained feature extractor more effectively extract discriminative features between diseases. In addition, a simple yet effective fine-tuning is applied to collaboratively fine-tune multiple task-specific heads such that outputs from different heads are comparable and consequently the appropriate classifier head can be more accurately selected during model inference. Extensive empirical evaluations on three image datasets demonstrate the superior performance of the proposed method in continual learning of new diseases. The source code will be released publicly.
翻訳日:2023-04-19 14:21:54 公開日:2023-04-18
# 量子力学のカーナップ

Carnap on Quantum Mechanics ( http://arxiv.org/abs/2304.09037v1 )

ライセンス: Link先を確認
Sebastian Horvat, Iulian D. Toader(参考訳) 本項では、ルドルフ・カルナップの当時の量子力学に関する哲学的見解を概観する。 また、カルナップが量子力学の基礎における最近の発展にどのように反応したかについてもいくつかの考察がなされている。

This entry reviews Rudolf Carnap's philosophical views on the quantum mechanics of his time. It also offers some thoughts on how Carnap might have reacted to some recent developments in the foundations of quantum mechanics.
翻訳日:2023-04-19 14:21:29 公開日:2023-04-18
# 量子状態の位相の定量化

Quantifying the phase of quantum states ( http://arxiv.org/abs/2304.09028v1 )

ライセンス: Link先を確認
Jianwei Xu(参考訳) 量子力学は量子状態を記述するために複素数を用いるため、位相は量子状態の基本成分である。 本稿では,量子状態の位相を定量化するための厳密な枠組みを紹介する。 そのため、フェーズを量子資源とみなし、自由状態と自由操作を指定する。 我々は、位相測度が満たすべき条件を決定し、いくつかの位相測度を提供する。 また,量子状態に対する本質相の概念を提案する。

Phase is a basic ingredient for quantum states since quantum mechanics uses complex numbers to describe quantum states. In this letter, we introduce a rigorous framework to quantify the phase of quantum states. To do so, we regard phase as a quantum resource, and specify the free states and free operations. We determine the conditions a phase measure should satisfy and provide some phase measures. We also propose the notion of intrinsic phase for quantum states.
翻訳日:2023-04-19 14:21:25 公開日:2023-04-18
# ATMEを見てみよう: 差別的エントロピーには注意が必要だ

Look ATME: The Discriminator Mean Entropy Needs Attention ( http://arxiv.org/abs/2304.09024v1 )

ライセンス: Link先を確認
Edgardo Solano-Carrillo, Angel Bueno Rodriguez, Borja Carrillo-Perez, Yannik Steiniger, Jannis Stoppe(参考訳) generative adversarial network (gans) は画像合成に有効であるが、訓練中に不安定に直面することが知られている。 対照的に、確率拡散モデル(DM)は安定であり、高価なサンプリング手順を犠牲にして高品質な画像を生成する。 本稿では,GANを理論的最適性に安定に収束させつつ,DMからデノナイジング機構を取り入れた簡易な手法を提案する。 これらのモデルは、推論中にフォワードパスのみを必要とする単純なモデル(ATME)に組み合わされ、DMや一般的なGANよりも安価で正確である。 ATMEは、ほとんどのGANモデルに存在する情報非対称性を破る。 情報対称性を回復するために、ジェネレータには判別器のエントロピー状態の知識が与えられ、これは敵のゲームが平衡に向かって収束するために利用される。 画像から画像へ変換するタスクにおいて,本手法の有効性を実証し,最先端の手法よりも低コストで優れた性能を示す。 コードはhttps://github.com/DLR-MI/atmeで入手できる。

Generative adversarial networks (GANs) are successfully used for image synthesis but are known to face instability during training. In contrast, probabilistic diffusion models (DMs) are stable and generate high-quality images, at the cost of an expensive sampling procedure. In this paper, we introduce a simple method to allow GANs to stably converge to their theoretical optimum, while bringing in the denoising machinery from DMs. These models are combined into a simpler model (ATME) that only requires a forward pass during inference, making predictions cheaper and more accurate than DMs and popular GANs. ATME breaks an information asymmetry existing in most GAN models in which the discriminator has spatial knowledge of where the generator is failing. To restore the information symmetry, the generator is endowed with knowledge of the entropic state of the discriminator, which is leveraged to allow the adversarial game to converge towards equilibrium. We demonstrate the power of our method in several image-to-image translation tasks, showing superior performance than state-of-the-art methods at a lesser cost. Code is available at https://github.com/DLR-MI/atme
翻訳日:2023-04-19 14:21:19 公開日:2023-04-18
# 量子系のエネルギー関数最小化のための測定ベース制御

Measurement-Based Control for Minimizing Energy Functions in Quantum Systems ( http://arxiv.org/abs/2304.09023v1 )

ライセンス: Link先を確認
Henrik Glavind Clausen, Salahuddin Abdul Rahman, \"Ozkan Karabacak, Rafal Wisniewski(参考訳) 変分量子アルゴリズム(vqas)において、最も一般的な目的は与えられたエネルギーハミルトニアンの最小エネルギー固有状態を見つけることである。 本稿では,与えられたフィードバック制御則の下で与えられたエネルギー関数の最小エネルギー固有状態への収束を保証する十分制御ハミルトニアン構造を求める一般問題を考える。 ループに量子非分解(QND)測定を含めることで、任意の混合初期状態から純粋な状態への収束を確保することができる。 厳密な制御 Lyapunov 関数に関する既存の結果に基づいて半定値最適化問題を定式化し、その解は、与えられたフィードバック則と QND 測定の作用の下での最小エネルギー固有状態へのほぼ確実に収束を保証するのに十分である。 提案手法を紹介するために数値的な例を示す。

In variational quantum algorithms (VQAs), the most common objective is to find the minimum energy eigenstate of a given energy Hamiltonian. In this paper, we consider the general problem of finding a sufficient control Hamiltonian structure that, under a given feedback control law, ensures convergence to the minimum energy eigenstate of a given energy function. By including quantum non-demolition (QND) measurements in the loop, convergence to a pure state can be ensured from an arbitrary mixed initial state. Based on existing results on strict control Lyapunov functions, we formulate a semidefinite optimization problem, whose solution defines a non-unique control Hamiltonian, which is sufficient to ensure almost sure convergence to the minimum energy eigenstate under the given feedback law and the action of QND measurements. A numerical example is provided to showcase the proposed methodology.
翻訳日:2023-04-19 14:21:00 公開日:2023-04-18
# 単位力学の存在下での時間スケールの散逸的階層性

Fate of dissipative hierarchy of timescales in the presence of unitary dynamics ( http://arxiv.org/abs/2304.09017v1 )

ライセンス: Link先を確認
Nick D. Hartmann, Jimin L. Li, David J. Luitz(参考訳) 局所散逸過程を持つ純粋に散逸した量子多体系の一般的な挙動は、ランダム行列理論を用いて研究され、[Wang et al., $\href{https://link.aps.org/doi/10.1103/PhysRevLett.124.100604}{Phys に示すように、その複雑性によって組織された可観測物の崩壊時間スケールの階層が明らかにされる。 Rev. Lett. \textbf{124}, 100604 (2020)}]$.99。 この階層はリンドブラディアンの異なる固有値クラスタに反映される。 ここでは, このスペクトルがユニタリダイナミクスが存在するとき, 強く, 弱い散逸ダイナミクスの場合, どのように進化するかを解析する。 強い散逸の場合、ユニタリダイナミクスは摂動的に扱うことができ、ハミルトニアンの局所性はスペクトルがそのような摂動に対してどの程度感受性を持つかを決定することが分かる。 物理的に最も関連性の高い二体相互作用の場合、摂動の第一階の補正は消え、スペクトルの特徴の相対的ロバスト性に繋がる。 弱い散逸のために、スペクトルはよく分断された固有モデムを持つクラスターに流れ、これはハミルトニアンの局所対称性である。

The generic behavior of purely dissipative open quantum many-body systems with local dissipation processes can be investigated using random matrix theory, revealing a hierarchy of decay timescales of observables organized by their complexity as shown in [Wang et al., $\href{https://link.aps.org/doi/10.1103/PhysRevLett.124.100604}{Phys. Rev. Lett. \textbf{124}, 100604 (2020)}]$. This hierarchy is reflected in distinct eigenvalue clusters of the Lindbladian. Here, we analyze how this spectrum evolves when unitary dynamics is present, both for the case of strongly and weakly dissipative dynamics. In the strongly dissipative case, the unitary dynamics can be treated perturbatively and it turns out that the locality of the Hamiltonian determines how susceptible the spectrum is to such a perturbation. For the physically most relevant case of (dissipative) two-body interactions, we find that the correction in the first order of the perturbation vanishes, leading to the relative robustness of the spectral features. For weak dissipation, the spectrum flows into clusters with well-separated eigenmodes, which we identify to be the local symmetries of the Hamiltonian.
翻訳日:2023-04-19 14:20:42 公開日:2023-04-18
# 2選手間同時相互情報交換のための絡み合いに基づくプロトコル

An entanglement-based protocol for simultaneous reciprocal information exchange between 2 players ( http://arxiv.org/abs/2304.09016v1 )

ライセンス: Link先を確認
Theodore Andronikos and Alla Sirokofskich(参考訳) 通貨が、もちろん情報である2つの情報ブローカーが、相互に情報を交換する必要がある状況について考えてみよう。 2人のブローカーは、ある程度不信感があり、取引の完了を保証し、実際に行われたことを確認するために、交換プロセスに3人目の相互に信頼されたエンティティを関与させたいと考えている。 これは、両ブローカーが同時に安全に情報を受信し、信頼できる仲介者が交換された情報を知ることなく行うことができるか? この研究は、上記の問題の解決策を提供する新しい量子絡み合いベースのプロトコルを提示し、厳密に分析する。 提案プロトコルは、整合性に基づく相互情報交換プロトコルである。 そのセキュリティは、最終的には第三者の存在を前提としている。 相互情報フローは2つの情報ブローカーの間にあるが、第3のエンティティはこのプロセスの仲介において重要な役割を担い、保証者と検証者である。 量子の絡み合いの現象は、全ての実体が空間的に分離された場合でもその実装が可能であり、信頼された第三者が交換された実際の情報に従わないことを保証するため、このプロトコルの基盤である。

Let us consider a situation where two information brokers, whose currency is, of course, information, need to reciprocally exchange information. The two brokers, being somewhat distrustful, would like a third, mutually trusted, entity to be involved in the exchange process so as to guarantee the successful completion of the transaction, and also verify that it indeed took place. Can this be done in such a way that both brokers receive their information simultaneously and securely, and without the trusted intermediary ending up knowing the exchanged information? This work presents and rigorously analyzes a new quantum entanglement-based protocol that provides a solution to the above problem. The proposed protocol is aptly named entanglement-based reciprocal simultaneous information exchange protocol. Its security is ultimately based on the assumption of the existence of a third trusted party. Although, the reciprocal information flow is between our two information brokers, the third entity plays a crucial role in mediating this process, being a guarantor and a verifier. The phenomenon of quantum entanglement is the cornerstone of this protocol, as it makes possible its implementation even when all entities are spatially separated, and ensuring that, upon completion, the trusted third party remains oblivious of the actual information that was exchanged.
翻訳日:2023-04-19 14:20:08 公開日:2023-04-18
# M-ENIAC:最初の数値天気予報を機械学習で再現する

M-ENIAC: A machine learning recreation of the first successful numerical weather forecasts ( http://arxiv.org/abs/2304.09070v1 )

ライセンス: Link先を確認
R\"udiger Brecht and Alex Bihlo(参考訳) 1950年、電子数値積分器と計算機(ENIAC)を用いたバロトロピック渦性方程式を解くことで、最初の数値天気予報が成功し、数値天気予報の始まりとなった。 ここでは,従来の数値離散化ではなく,機械学習に基づく解法を用いていた場合,これらの数値予測がどうなったのかを問う。 具体的には、物理インフォームドニューラルネットワークを用いてこれらの数値予測を再現する。 物理インフォームドニューラルネットワークは、ENIACソルバと比較して、球面上の気象方程式を解くための、より簡単で正確な手法を提供する。

In 1950 the first successful numerical weather forecast was obtained by solving the barotropic vorticity equation using the Electronic Numerical Integrator and Computer (ENIAC), which marked the beginning of the age of numerical weather prediction. Here, we ask the question of how these numerical forecasts would have turned out, if machine learning based solvers had been used instead of standard numerical discretizations. Specifically, we recreate these numerical forecasts using physics-informed neural networks. We show that physics-informed neural networks provide an easier and more accurate methodology for solving meteorological equations on the sphere, as compared to the ENIAC solver.
翻訳日:2023-04-19 14:14:30 公開日:2023-04-18
# METAM: 目標指向データディスカバリ

METAM: Goal-Oriented Data Discovery ( http://arxiv.org/abs/2304.09068v1 )

ライセンス: Link先を確認
Sainyam Galhotra and Yue Gong and Raul Castro Fernandez(参考訳) データは機械学習と因果推論タスクの中心的なコンポーネントである。 オープンデータレポジトリやデータレイク、データマーケットプレースといったソースからの大量のデータの提供は、データの拡大とそれらのタスクのパフォーマンス向上の機会を生み出します。 しかし、拡張技術はユーザーが手動で有用な候補追加を発見・短縮することに依存している。 既存のソリューションは発見と拡張の相乗効果を活用せず、データを利用する。 本稿では,下流タスクと候補データセットを問合せする新たな目標指向フレームワークであるMETAMを紹介し,発見・拡張プロセスを自動的に制御するフィードバックループを形成する。 効率よく候補を選択するために、METAMは以下の特性を利用する。 i) データ 二 実用機能及び実用機能 三 ソリューションセットのサイズ 我々はMETAMの理論的保証を示し、それらを幅広いタスクセットで実証的に示す。 全体として、近代データサイエンスアプリケーションにおける目標指向データディスカバリの可能性を実証する。

Data is a central component of machine learning and causal inference tasks. The availability of large amounts of data from sources such as open data repositories, data lakes and data marketplaces creates an opportunity to augment data and boost those tasks' performance. However, augmentation techniques rely on a user manually discovering and shortlisting useful candidate augmentations. Existing solutions do not leverage the synergy between discovery and augmentation, thus under exploiting data. In this paper, we introduce METAM, a novel goal-oriented framework that queries the downstream task with a candidate dataset, forming a feedback loop that automatically steers the discovery and augmentation process. To select candidates efficiently, METAM leverages properties of the: i) data, ii) utility function, and iii) solution set size. We show METAM's theoretical guarantees and demonstrate those empirically on a broad set of tasks. All in all, we demonstrate the promise of goal-oriented data discovery to modern data science applications.
翻訳日:2023-04-19 14:14:19 公開日:2023-04-18
# 深層学習型COVID-19画像分類のためのGANによる拡張機能の評価

Performance of GAN-based augmentation for deep learning COVID-19 image classification ( http://arxiv.org/abs/2304.09067v1 )

ライセンス: Link先を確認
Oleksandr Fedoruk, Konrad Klimaszewski, Aleksander Ogonowski, Rafa{\l} Mo\.zd\.zonek(参考訳) 医学領域へのディープラーニングの適用における最大の課題は、トレーニングデータの可用性である。 データ拡張は、限られたデータセットに直面すると機械学習で使用される典型的な手法である。 古典的なアプローチでは、回転、クロッピング、明るさ変化などの画像変換が用いられる。 本研究では,covid-19胸部x線画像セットを用いて,生成的敵ネットワークのstylegan2-adaモデルを訓練する。 生成された画像の品質を評価した後、クラス間のバランスを改善するトレーニングデータセットを増やすために使用される。 文献ではまだ徹底的に研究されていない新型コロナウイルス陽性クラスを含む胸部X線画像の多クラス分類問題を考察する。 転送学習に基づくcovid-19胸部x線画像の分類を行った。 複数の深層畳み込みニューラルネットワークモデルの性能を比較した。 古典的画像拡張の検知性能,すなわち回転,切り欠き,明るさ変化に及ぼす効果について検討した。 さらに、従来の画像拡張とganベースの拡張を比較する。 最も正確なモデルは90.2%の精度のEfficientNet-B0で、単純なクラスバランスのデータセットでトレーニングされている。 GAN拡張アプローチは、考慮されたデータセットの古典的手法に準じるものである。

The biggest challenge in the application of deep learning to the medical domain is the availability of training data. Data augmentation is a typical methodology used in machine learning when confronted with a limited data set. In a classical approach image transformations i.e. rotations, cropping and brightness changes are used. In this work, a StyleGAN2-ADA model of Generative Adversarial Networks is trained on the limited COVID-19 chest X-ray image set. After assessing the quality of generated images they are used to increase the training data set improving its balance between classes. We consider the multi-class classification problem of chest X-ray images including the COVID-19 positive class that hasn't been yet thoroughly explored in the literature. Results of transfer learning-based classification of COVID-19 chest X-ray images are presented. The performance of several deep convolutional neural network models is compared. The impact on the detection performance of classical image augmentations i.e. rotations, cropping, and brightness changes are studied. Furthermore, classical image augmentation is compared with GAN-based augmentation. The most accurate model is an EfficientNet-B0 with an accuracy of 90.2 percent, trained on a dataset with a simple class balancing. The GAN augmentation approach is found to be subpar to classical methods for the considered dataset.
翻訳日:2023-04-19 14:14:05 公開日:2023-04-18
# コンテンツ生成のためのLCMに基づくインタラクション:IT部門における従業員の知覚を事例として

LLM-based Interaction for Content Generation: A Case Study on the Perception of Employees in an IT department ( http://arxiv.org/abs/2304.09064v1 )

ライセンス: Link先を確認
Alexandre Agossah and Fr\'ed\'erique Krupa and Matthieu Perreira Da Silva and Patrick Le Callet(参考訳) 過去数年間、AIはNLPの分野で多くの進歩を見てきた。 これにより、現在有名なGPT-3.5のようなLCMが出現し、人間がコンテンツにアクセスまたは生成する方法に革命をもたらした。 llmベースの生成ツールに関する最近の研究は、関連するコンテンツ(コード、テキスト、画像)を生成するツールのパフォーマンスに主に関心を持っている。 しかし、生成ツールの設計と使用に関する倫理的懸念が高まり、特定のタスクに対する公衆の受け入れに影響を及ぼしている。 本稿では,IT企業の社員による生成ツールの使用意図を,作業の文脈で把握するためのアンケート調査を行う。 この調査は、使用意図を測定する経験モデルに基づいている(tam by davis, 1989, utaut2 by venkatesh and al., 2008)。 以上の結果から, 生成ツールの比較的平均的な受容性が示唆されるが, ツールが有用であるほど, 使用する意図が高くなることが示唆された。 さらに, 生成ツールの利用頻度は, 従業員がこれらのツールをどのように認識しているかを理解する上で重要な要因である可能性が示唆された。 この作業に続いて、特定のオーディエンスによってこれらのツールに対してなされる可能性のある要求の性質について検討する予定である。

In the past years, AI has seen many advances in the field of NLP. This has led to the emergence of LLMs, such as the now famous GPT-3.5, which revolutionise the way humans can access or generate content. Current studies on LLM-based generative tools are mainly interested in the performance of such tools in generating relevant content (code, text or image). However, ethical concerns related to the design and use of generative tools seem to be growing, impacting the public acceptability for specific tasks. This paper presents a questionnaire survey to identify the intention to use generative tools by employees of an IT company in the context of their work. This survey is based on empirical models measuring intention to use (TAM by Davis, 1989, and UTAUT2 by Venkatesh and al., 2008). Our results indicate a rather average acceptability of generative tools, although the more useful the tool is perceived to be, the higher the intention to use seems to be. Furthermore, our analyses suggest that the frequency of use of generative tools is likely to be a key factor in understanding how employees perceive these tools in the context of their work. Following on from this work, we plan to investigate the nature of the requests that may be made to these tools by specific audiences.
翻訳日:2023-04-19 14:13:50 公開日:2023-04-18
# 弱教師付きセマンティックセグメンテーションのためのグローバルコンテキストとローカルコンテンツの結合

Coupling Global Context and Local Contents for Weakly-Supervised Semantic Segmentation ( http://arxiv.org/abs/2304.09059v1 )

ライセンス: Link先を確認
Chunyan Wang, Dong Zhang, Liyan Zhang, Jinhui Tang(参考訳) フレンドリーなアノテーションの利点と満足なパフォーマンスのおかげで、Wakly-Supervised Semantic Segmentation (WSSS)アプローチは広く研究されている。 近年,高コストな計算コストと多段WSSSの複雑な訓練手順の問題を緩和するために,単段WSSSが導入された。 しかし、そのような未熟なモデルの結果は、 \emph{background incompleteness} と \emph{object incompleteness} の問題に苦しむ。 その結果,グローバルなオブジェクトコンテキストが不十分であること,ローカルなコンテンツ不足が原因であることが実証的に判明した。 これらの観察に基づいて、画像レベルのクラスラベルの監督のみを含むシングルステージwsssモデルを提案する。これは \textbf{w}eakly-\textbf{s}upervised \textbf{f}eature \textbf{c}oupling \textbf{n}etwork (\textbf{ws-fcn}) と呼ばれる。 具体的には、グローバルなオブジェクトコンテキストを異なる粒度空間でキャプチャするために、フレキシブルなコンテキストアグリゲーションモジュールを提案する。 さらに,ボトムアップパラメータ学習可能な方法で意味的に一貫性のある機能融合モジュールを提案し,細粒度局所コンテンツを集約する。 これら2つのモジュールに基づいて、 \textbf{WS-FCN} は自己教師付きエンドツーエンドのトレーニング方式である。 挑戦的なpascal voc 2012 と ms coco 2014 の実験結果は、pascal voc 2012 \emph{val} set と \emph{test} set それぞれ 65.02\%$ と 6,4.22\%$ miou で最先端の結果が得られる \textbf{ws-fcn} の有効性と効率を実証している。 コードとウェイトは:~\href{https://github.com/ChunyanWang1/ws-fcn}{WS-FCN}でリリースされた。

Thanks to the advantages of the friendly annotations and the satisfactory performance, Weakly-Supervised Semantic Segmentation (WSSS) approaches have been extensively studied. Recently, the single-stage WSSS was awakened to alleviate problems of the expensive computational costs and the complicated training procedures in multi-stage WSSS. However, results of such an immature model suffer from problems of \emph{background incompleteness} and \emph{object incompleteness}. We empirically find that they are caused by the insufficiency of the global object context and the lack of the local regional contents, respectively. Under these observations, we propose a single-stage WSSS model with only the image-level class label supervisions, termed as \textbf{W}eakly-\textbf{S}upervised \textbf{F}eature \textbf{C}oupling \textbf{N}etwork (\textbf{WS-FCN}), which can capture the multi-scale context formed from the adjacent feature grids, and encode the fine-grained spatial information from the low-level features into the high-level ones. Specifically, a flexible context aggregation module is proposed to capture the global object context in different granular spaces. Besides, a semantically consistent feature fusion module is proposed in a bottom-up parameter-learnable fashion to aggregate the fine-grained local contents. Based on these two modules, \textbf{WS-FCN} lies in a self-supervised end-to-end training fashion. Extensive experimental results on the challenging PASCAL VOC 2012 and MS COCO 2014 demonstrate the effectiveness and efficiency of \textbf{WS-FCN}, which can achieve state-of-the-art results by $65.02\%$ and $64.22\%$ mIoU on PASCAL VOC 2012 \emph{val} set and \emph{test} set, $34.12\%$ mIoU on MS COCO 2014 \emph{val} set, respectively. The code and weight have been released at:~\href{https://github.com/ChunyanWang1/ws-fcn}{WS-FCN}.
翻訳日:2023-04-19 14:13:11 公開日:2023-04-18
# 事前学習型言語モデルにおけるk-NNの再検討

Revisiting k-NN for Pre-trained Language Models ( http://arxiv.org/abs/2304.09058v1 )

ライセンス: Link先を確認
Lei Li, Jing Chen, Bozhong Tian, Ningyu Zhang(参考訳) パラメトリックベースの熱心な学習者であるプレトレーニング言語モデル(PLM)は、現在の自然言語処理(NLP)のパラダイムにおいて事実上の選択肢となっている。 対照的に、k-Nearest-Neighbor(k-NN)分類器は遅延学習パラダイムであり、過度に適合し、孤立したノイズを軽減する傾向がある。 本稿では, PLM に基づく分類器の拡張のために k-NN 分類器を再検討する。 方法論的なレベルでは,(1)k-NNを事前知識として活用してトレーニングプロセスの校正を行う,という2つのステップでPLMのテキスト表現を持つk-NNを採用することを提案する。 2) k-NN で予測される確率分布と PLM の分類器の確率分布を線形に補間する。 我々のアプローチの核心は、k-NN校正トレーニングの実装であり、トレーニングプロセスにおいて予測結果を簡単な例と難しい例の指標として扱う。 アプリケーションシナリオの多様性の観点から、我々は8つのエンドタスクに対して、微調整、急速調整、ゼロショット、少数ショット、完全教師付き設定に関する広範な実験を行います。 効率的なnlp\footnote{code and datasetsはhttps://github.com/zjunlp/revisit-knn.com/で利用可能です。

Pre-trained Language Models (PLMs), as parametric-based eager learners, have become the de-facto choice for current paradigms of Natural Language Processing (NLP). In contrast, k-Nearest-Neighbor (k-NN) classifiers, as the lazy learning paradigm, tend to mitigate over-fitting and isolated noise. In this paper, we revisit k-NN classifiers for augmenting the PLMs-based classifiers. From the methodological level, we propose to adopt k-NN with textual representations of PLMs in two steps: (1) Utilize k-NN as prior knowledge to calibrate the training process. (2) Linearly interpolate the probability distribution predicted by k-NN with that of the PLMs' classifier. At the heart of our approach is the implementation of k-NN-calibrated training, which treats predicted results as indicators for easy versus hard examples during the training process. From the perspective of the diversity of application scenarios, we conduct extensive experiments on fine-tuning, prompt-tuning paradigms and zero-shot, few-shot and fully-supervised settings, respectively, across eight diverse end-tasks. We hope our exploration will encourage the community to revisit the power of classical methods for efficient NLP\footnote{Code and datasets are available in https://github.com/zjunlp/Revisit-KNN.
翻訳日:2023-04-19 14:12:18 公開日:2023-04-18
# 軌道自由準密度汎関数論

Orbital-Free Quasi-Density Functional Theory ( http://arxiv.org/abs/2304.09056v1 )

ライセンス: Link先を確認
Carlos L. Benavides-Riveros(参考訳) ウィグナー関数は、マクロ世界における非古典的効果を探索するために広く用いられる。 ここでは,フェルミオン系とボソニック系の1体ウィグナー準確率を計算するための軌道自由関数フレームワークを開発した。 鍵変数は準密度であるため、この理論はパウリポテンシャルの発見や軌道自由密度汎関数理論の運動エネルギー近似の問題を回避するのに特に適している。 原理の証明として、光学格子のビルディングブロックに対する普遍汎関数は、1-ボディ還元密度行列の対応する汎関数の変換、縮小、および回転によって生じることを見出し、これらの汎関数理論間の強い結合を示す。 さらに Wigner negativity と $v$-representability の概念を関連付け、負の Wigner 関数を持つ基底状態の多様体を求める。

Wigner functions are broadly used to probe non-classical effects in the macroscopic world. Here we develop an orbital-free functional framework to compute the 1-body Wigner quasi-probability for both fermionic and bosonic systems. Since the key variable is a quasi-density, this theory is particularly well suited to circumvent the problem of finding the Pauli potential or approximating the kinetic energy in orbital-free density functional theory. As proof of principle, we find that the universal functional for the building block of optical lattices results from a translation, a contraction, and a rotation of the corresponding functional of the 1-body reduced density matrix, indicating a strong connection between these functional theories. Furthermore, we relate the concepts of Wigner negativity and $v$-representability, and find a manifold of ground states with negative Wigner functions.
翻訳日:2023-04-19 14:11:54 公開日:2023-04-18
# 後方近似に対するベイズヒルベルト空間

Bayes Hilbert Spaces for Posterior Approximation ( http://arxiv.org/abs/2304.09053v1 )

ライセンス: Link先を確認
George Wynne(参考訳) ベイズモデルでの推論の実行には、後方からサンプルを引き出すためのサンプリングアルゴリズムが必要である。 データセットのサイズが大きくなると、これは必然的に高価になる。 評価が安い後方への近似を構築することは、この問題を回避するための一般的なアプローチである。 このことはベイズ測度を近似する適切な空間が何かという疑問を提起する。 この写本はベイズ・ヒルベルト空間の後方近似問題への応用を研究する。 ベイズヒルベルト空間は、観測関数が確率密度関数である文脈における関数データ解析で研究され、それらの計算ベイズ問題への応用は、その初期段階にある。 この写本はベイズ・ヒルベルト空間とそのベイズ計算との関係、特にベイズ・ヒルベルト空間、ベイズコアセットアルゴリズムとカーネルベース距離の間の新しい接続を概説する。

Performing inference in Bayesian models requires sampling algorithms to draw samples from the posterior. This becomes prohibitively expensive as the size of data sets increase. Constructing approximations to the posterior which are cheap to evaluate is a popular approach to circumvent this issue. This begs the question of what is an appropriate space to perform approximation of Bayesian posterior measures. This manuscript studies the application of Bayes Hilbert spaces to the posterior approximation problem. Bayes Hilbert spaces are studied in functional data analysis in the context where observed functions are probability density functions and their application to computational Bayesian problems is in its infancy. This manuscript shall outline Bayes Hilbert spaces and their connection to Bayesian computation, in particular novel connections between Bayes Hilbert spaces, Bayesian coreset algorithms and kernel-based distances.
翻訳日:2023-04-19 14:11:39 公開日:2023-04-18
# 生態学的に有効な文脈における個々の潜在状態を評価するための神経活動のデコード

Decoding Neural Activity to Assess Individual Latent State in Ecologically Valid Contexts ( http://arxiv.org/abs/2304.09050v1 )

ライセンス: Link先を確認
Stephen M. Gordon, Jonathan R. McDaniel, Kevin W. King, Vernon J. Lawhern, Jonathan Touryan(参考訳) より生態学的に有効な文脈において、歴史的に高度に制御された実験室研究によって定義された認知過程を分離する方法は非常に少ない。 特に、そのような制約の下で観察される神経活動のパターンが、潜伏状態、関連する認知過程、または個人の近位行動に関する正確な推論に使用されるように、実際に実験室の外に現れるかは、まだ不明である。 神経活動のいつ、どのように特定のパターンが生態学的に有効なシナリオに現れるかを理解することで、同様の神経現象を分離して研究する実験室ベースのアプローチの検証と、複雑なタスク中に発生する潜在状態に対する意味のある洞察を提供するでしょう。 我々は、脳-コンピュータインタフェースコミュニティのドメイン一般化手法が、この問題に対処する可能性を持っていると論じる。 我々は以前、視覚的標的識別に関連する失語症性神経反応をデコードするためにそのようなアプローチを用いた。 ここでは、その研究を内部潜伏状態のようなよりトニックな現象にまで拡張する。 2つの高度に制御された実験室のパラダイムからのデータを用いて、2つのドメイン一般化モデルを訓練する。 学習したモデルを環境に有効なパラダイムに適用し,複数の運転関連タスクを行った。 トレーニング済みモデルを用いて、基礎となる潜伏状態と関連する神経活動パターンの推定を導出する。 重要なことに、神経活動のパターンが元のトレーニングデータで定義された軸に沿って変化すると、元の実験室のパラダイムからの観察と一致した行動とタスクのパフォーマンスの変化が見つかる。 これらの結果は、これらの実験設計に生態学的妥当性を与え、複雑な作業における観察された神経活動と行動の関係を理解するための方法論を提供する。

There exist very few ways to isolate cognitive processes, historically defined via highly controlled laboratory studies, in more ecologically valid contexts. Specifically, it remains unclear as to what extent patterns of neural activity observed under such constraints actually manifest outside the laboratory in a manner that can be used to make an accurate inference about the latent state, associated cognitive process, or proximal behavior of the individual. Improving our understanding of when and how specific patterns of neural activity manifest in ecologically valid scenarios would provide validation for laboratory-based approaches that study similar neural phenomena in isolation and meaningful insight into the latent states that occur during complex tasks. We argue that domain generalization methods from the brain-computer interface community have the potential to address this challenge. We previously used such an approach to decode phasic neural responses associated with visual target discrimination. Here, we extend that work to more tonic phenomena such as internal latent states. We use data from two highly controlled laboratory paradigms to train two separate domain-generalized models. We apply the trained models to an ecologically valid paradigm in which participants performed multiple, concurrent driving-related tasks. Using the pretrained models, we derive estimates of the underlying latent state and associated patterns of neural activity. Importantly, as the patterns of neural activity change along the axis defined by the original training data, we find changes in behavior and task performance consistent with the observations from the original, laboratory paradigms. We argue that these results lend ecological validity to those experimental designs and provide a methodology for understanding the relationship between observed neural activity and behavior during complex tasks.
翻訳日:2023-04-19 14:11:26 公開日:2023-04-18
# 子どもとAIの参加型デザイン--IDC設計の課題を振り返って

Participatory Design of AI with Children: Reflections on IDC Design Challenge ( http://arxiv.org/abs/2304.09091v1 )

ライセンス: Link先を確認
Zhen Bai, Frances Judd, Naomi Polinsky, Elmira Yadollahi(参考訳) 人工知能(AI)時代に育った子供たちは、生涯にわたってテクノロジーに最も影響を受けます。 参加型デザイン(PD)は、子供たちに将来の技術の設計プロセスへの関心、ニーズ、創造性をもたらすよう促すインタラクションデザイン・アンド・チルドレン(IDC)コミュニティによって広く採用されている。 PDは、人間中心のAIデザインに注目が集まっているが、子供やそのコミュニティに関連するAI技術の設計プロセスの促進には、いまだほとんど未完成である。 本稿では,第22回ACMインタラクションデザイン・アンド・チルドレン会議(IDC 2023)の"Research and Design Challenge"から得られた,AI技術に関する子供のデザインアイデアを紹介する。 子供のデザインアイデアによって明らかになったデザイン問題、AI応用、能力の多様性は、将来のAI技術のためのPD活動に子供たちが関与する可能性に光を当てた。 我々は,AIを活用した社会の未来を形作る子どものPD体験の機会と課題について論じる。

Children growing up in the era of Artificial Intelligence (AI) will be most impacted by the technology across their life span. Participatory Design (PD) is widely adopted by the Interaction Design and Children (IDC) community, which empowers children to bring their interests, needs, and creativity to the design process of future technologies. While PD has drawn increasing attention to human-centered AI design, it remains largely untapped in facilitating the design process of AI technologies relevant to children and their community. In this paper, we report intriguing children's design ideas on AI technologies resulting from the "Research and Design Challenge" of the 22nd ACM Interaction Design and Children (IDC 2023) conference. The diversity of design problems, AI applications and capabilities revealed by the children's design ideas shed light on the potential of engaging children in PD activities for future AI technologies. We discuss opportunities and challenges for accessible and inclusive PD experiences with children in shaping the future of AI-powered society.
翻訳日:2023-04-19 14:04:01 公開日:2023-04-18
# 古典的ファイバー基盤に共存するノイズロバスト量子ネットワークの設計

Designing Noise-Robust Quantum Networks Coexisting in the Classical Fiber Infrastructure ( http://arxiv.org/abs/2304.09076v1 )

ライセンス: Link先を確認
Jordan M. Thomas, Gregory S. Kanter, Prem Kumar(参考訳) 量子ネットワークのスケーラビリティは、共有ファイバに共存する量子通信と古典通信の恩恵を受けるだろう。 マルチチャネルOバンド量子とCバンド古典通信の共存について検討する。 1282 nm-1318 nm の複数の狭帯域光子対チャネルが48 km 以上インストールされた標準ファイバー(>18 dBm)を共伝搬し、量子-古典波長の組み合わせが他よりも著しく優れていることを示す。 我々は、光子-古典的共存におけるラマンノイズスペクトル、最適波長工学、多光子対放出を解析し、将来の量子応用への影響を評価する。

The scalability of quantum networking will benefit from quantum and classical communications coexisting in shared fibers, the main challenge being spontaneous Raman scattering noise. We investigate the coexistence of multi-channel O-band quantum and C-band classical communications. We characterize multiple narrowband entangled photon pair channels across 1282 nm-1318 nm co-propagating over 48 km installed standard fiber with record C-band power (>18 dBm) and demonstrate that some quantum-classical wavelength combinations significantly outperform others. We analyze the Raman noise spectrum, optimal wavelength engineering, multi-photon pair emission in entangled photon-classical coexistence, and evaluate the implications for future quantum applications.
翻訳日:2023-04-19 14:02:08 公開日:2023-04-18
# Deep Calder\'on 法による電気インピーダンストモグラフィ

Electrical Impedance Tomography with Deep Calder\'on Method ( http://arxiv.org/abs/2304.09074v1 )

ライセンス: Link先を確認
Siyu Cen, Bangti Jin, Kwancheol Shin, Zhi Zhou(参考訳) 電気インピーダンストモグラフィ(EIT)は、被検体表面の電流密度/電圧データを利用した非侵襲的医療画像モダリティである。 Calder\'on の手法は比較的最近の EIT イメージングアルゴリズムであり、非定常的で高速で、複雑な値の電気インピーダンスを再構成することができる。 しかし、低域フィルタと線形化による正規化により、再構成された画像は深刻なぼやけや正確な導電率値の過小評価に悩まされる。 本研究では,畳み込みニューラルネットワーク(すなわちu-net)を後処理ステップで用いたcalder\'on法の拡張版を開発した。 具体的には,Calder\'on 法により生成された EIT 画像を後処理するためにU-net を学習し,より優れた解像度と導電率値のより正確な推定を行う。 そこで,calder\'on法を用いて,電流密度/電圧境界測定と対応する再構成画像を生成する胸部形状をシミュレートする。 組み合わせたトレーニングデータを用いてニューラルネットワークを学習し,実タンク計測データ上での性能を評価する。 実験の結果,提案手法は高速かつ直接的(複雑に評価された)インピーダンストモグラフィー技術を提供し,標準カルダーオン法の性能を大幅に向上させることが示された。

Electrical impedance tomography (EIT) is a noninvasive medical imaging modality utilizing the current-density/voltage data measured on the surface of the subject. Calder\'on's method is a relatively recent EIT imaging algorithm that is non-iterative, fast, and capable of reconstructing complex-valued electric impedances. However, due to the regularization via low-pass filtering and linearization, the reconstructed images suffer from severe blurring and underestimation of the exact conductivity values. In this work, we develop an enhanced version of Calder\'on's method, using convolution neural networks (i.e., U-net) via a postprocessing step. Specifically, we learn a U-net to postprocess the EIT images generated by Calder\'on's method so as to have better resolutions and more accurate estimates of conductivity values. We simulate chest configurations with which we generate the current-density/voltage boundary measurements and the corresponding reconstructed images by Calder\'on's method. With the paired training data, we learn the neural network and evaluate its performance on real tank measurement data. The experimental results indicate that the proposed approach indeed provides a fast and direct (complex-valued) impedance tomography imaging technique, and substantially improves the capability of the standard Calder\'on's method.
翻訳日:2023-04-19 14:01:52 公開日:2023-04-18
# トレードオフを探る - 統合型大型言語モデルと局所的微調整モデルによる高特異的放射線学nliタスク

Exploring the Trade-Offs: Unified Large Language Models vs Local Fine-Tuned Models for Highly-Specific Radiology NLI Task ( http://arxiv.org/abs/2304.09138v1 )

ライセンス: Link先を確認
Zihao Wu, Lu Zhang, Chao Cao, Xiaowei Yu, Haixing Dai, Chong Ma, Zhengliang Liu, Lin Zhao, Gang Li, Wei Liu, Quanzheng Li, Dinggang Shen, Xiang Li, Dajiang Zhu, Tianming Liu(参考訳) 近年,ChatGPT と GPT-4 が登場し,言語処理における非並列的な性能により世界的な注目を集めている。 様々なオープンドメインのタスクで印象的な能力を発揮したにもかかわらず、放射線学のような非常に特定の分野での適性は未検証のままである。 放射線学は、その特異性や複雑さから、オープンドメインデータとは異なる独自の言語現象を示す。 このような特定のドメインにおける大規模言語モデル(LLM)の性能を評価することは、全体的なパフォーマンスを徹底的に評価するだけでなく、将来のモデル設計の方向性に関する貴重な洞察を提供するためにも重要である。 そこで本研究では,ラジオロジーnliタスクにおけるchatgpt/gpt-4の性能評価を行い,タスク関連データサンプルを微調整した他のモデルと比較する。 また,ChatGPT/GPT-4の推論能力について,様々な推論難易度を導入して総合的な調査を行った。 私たちの結果は 1)GPT-4は、放射線学NLIタスクにおいてChatGPTを上回る。 2) その他の微調整モデルではChatGPT/GPT-4に匹敵する性能を達成するために大量のデータサンプルが必要となる。 これらの結果から,異なる領域にまたがる様々なタスクを解決できる汎用モデルの構築が実現可能であることが示された。

Recently, ChatGPT and GPT-4 have emerged and gained immense global attention due to their unparalleled performance in language processing. Despite demonstrating impressive capability in various open-domain tasks, their adequacy in highly specific fields like radiology remains untested. Radiology presents unique linguistic phenomena distinct from open-domain data due to its specificity and complexity. Assessing the performance of large language models (LLMs) in such specific domains is crucial not only for a thorough evaluation of their overall performance but also for providing valuable insights into future model design directions: whether model design should be generic or domain-specific. To this end, in this study, we evaluate the performance of ChatGPT/GPT-4 on a radiology NLI task and compare it to other models fine-tuned specifically on task-related data samples. We also conduct a comprehensive investigation on ChatGPT/GPT-4's reasoning ability by introducing varying levels of inference difficulty. Our results show that 1) GPT-4 outperforms ChatGPT in the radiology NLI task; 2) other specifically fine-tuned models require significant amounts of data samples to achieve comparable performance to ChatGPT/GPT-4. These findings demonstrate that constructing a generic model that is capable of solving various tasks across different domains is feasible.
翻訳日:2023-04-19 13:55:48 公開日:2023-04-18
# グリオ芽腫脳腫瘍の検出と分類

Detection and Classification of Glioblastoma Brain Tumor ( http://arxiv.org/abs/2304.09133v1 )

ライセンス: Link先を確認
Utkarsh Maurya, Appisetty Krishna Kalyan, Swapnil Bohidar and Dr. S. Sivakumar(参考訳) グリオブラスト腫脳腫瘍は悪性度が高く、治療には早期発見と正確な分節が必要であることが多い。 本稿では,前処理した脳MRI画像を用いたグリオーマ脳腫瘍の検出と分節化のための2つのディープラーニングモデル,すなわちUNetとDeeplabv3を提案する。 これらのモデルの性能評価は精度と計算効率の観点から行われる。 UNetモデルとDeeplabv3モデルの両方がグリオ芽腫脳腫瘍の正確な検出と分節を達成できた。 しかし、Deeplabv3は、より多くの計算リソースを必要とするコストにもかかわらず、UNetよりも精度が高い。 提案モデルでは, グリオ芽腫脳腫瘍の早期発見と分節化に有望なアプローチが提案され, 効果的な治療戦略が期待できる。 さらなる研究は、Deeplabv3モデルの計算効率を最適化し、実際の臨床応用に高い精度を維持することに集中することができる。 本手法は,脳腫瘍の検出とセグメンテーションにおいて,医用画像解析と深層学習に基づくアプローチの分野で有効である。 脳腫瘍の致命的な形態であるグリオ芽腫の予後と治療に大きな影響を与える可能性が示唆された。 実際の医療現場でこれらのモデルの実用性を調べるためには、さらなる研究を行う必要がある。

Glioblastoma brain tumors are highly malignant and often require early detection and accurate segmentation for effective treatment. We are proposing two deep learning models in this paper, namely UNet and Deeplabv3, for the detection and segmentation of glioblastoma brain tumors using preprocessed brain MRI images. The performance evaluation is done for these models in terms of accuracy and computational efficiency. Our experimental results demonstrate that both UNet and Deeplabv3 models achieve accurate detection and segmentation of glioblastoma brain tumors. However, Deeplabv3 outperforms UNet in terms of accuracy, albeit at the cost of requiring more computational resources. Our proposed models offer a promising approach for the early detection and segmentation of glioblastoma brain tumors, which can aid in effective treatment strategies. Further research can focus on optimizing the computational efficiency of the Deeplabv3 model while maintaining its high accuracy for real-world clinical applications. Overall, our approach works and contributes to the field of medical image analysis and deep learning-based approaches for brain tumor detection and segmentation. Our suggested models can have a major influence on the prognosis and treatment of people with glioblastoma, a fatal form of brain cancer. It is necessary to conduct more research to examine the practical use of these models in real-life healthcare settings.
翻訳日:2023-04-19 13:55:27 公開日:2023-04-18
# ロバスト3次元分類のための変分関係点補完ネットワーク

Variational Relational Point Completion Network for Robust 3D Classification ( http://arxiv.org/abs/2304.09131v1 )

ライセンス: Link先を確認
Liang Pan, Xinyi Chen, Zhongang Cai, Junzhe Zhang, Haiyu Zhao, Shuai Yi, Ziwei Liu(参考訳) 実走査点雲は、視線、閉塞、ノイズにより不完全であり、3次元幾何学的モデリングと知覚を妨げている。 既存のポイントクラウド補完法は、グローバル形状スケルトンを生成する傾向があるため、詳細な局所的詳細が欠落している。 さらに、主に決定論的部分完備写像を学習するが、人工物体の構造的関係を見落としている。 これらの課題に対処するために,2つの魅力的な特性を持つ変分関係点補完ネットワーク(VRCNet)を提案する。 1)確率的モデリング。 特に,部分的および完全的クラウド間の原理的確率的モデリングを可能にするデュアルパスアーキテクチャを提案する。 1つのパスは、ポイントVAEを学習することで、再構築のために完全なポイントクラウドを消費する。 他の経路は、訓練中に再構成経路から得られた分布により埋め込み分布が導かれる部分点雲の完全な形状を生成する。 2)関係強化。 具体的には,自己アテンションカーネルとポイント選択カーネルモジュールを慎重に設計し,粗い完了に条件付けられた局所形状の詳細を洗練させる。 さらに,20万以上の高品質スキャンを含むマルチビュー部分的ポイントクラウドデータセット(mvpおよびmvp-40データセット)をコントリビュートし,各3dcadモデルに対して,26個の一様分散カメラポーズから部分的3d形状を描画する。 大規模な実験により、VRCNetはすべての標準ポイントクラウド補完ベンチマークで最先端の手法より優れていることが示された。 特にVRCNetは、現実世界のクラウドスキャンで非常に一般化性と堅牢性を示している。 さらに,VRCNetの助けを借りて,部分点雲に対するロバストな3次元分類を実現することができ,分類精度を高く向上させることができる。

Real-scanned point clouds are often incomplete due to viewpoint, occlusion, and noise, which hampers 3D geometric modeling and perception. Existing point cloud completion methods tend to generate global shape skeletons and hence lack fine local details. Furthermore, they mostly learn a deterministic partial-to-complete mapping, but overlook structural relations in man-made objects. To tackle these challenges, this paper proposes a variational framework, Variational Relational point Completion Network (VRCNet) with two appealing properties: 1) Probabilistic Modeling. In particular, we propose a dual-path architecture to enable principled probabilistic modeling across partial and complete clouds. One path consumes complete point clouds for reconstruction by learning a point VAE. The other path generates complete shapes for partial point clouds, whose embedded distribution is guided by distribution obtained from the reconstruction path during training. 2) Relational Enhancement. Specifically, we carefully design point self-attention kernel and point selective kernel module to exploit relational point features, which refines local shape details conditioned on the coarse completion. In addition, we contribute multi-view partial point cloud datasets (MVP and MVP-40 dataset) containing over 200,000 high-quality scans, which render partial 3D shapes from 26 uniformly distributed camera poses for each 3D CAD model. Extensive experiments demonstrate that VRCNet outperforms state-of-the-art methods on all standard point cloud completion benchmarks. Notably, VRCNet shows great generalizability and robustness on real-world point cloud scans. Moreover, we can achieve robust 3D classification for partial point clouds with the help of VRCNet, which can highly increase classification accuracy.
翻訳日:2023-04-19 13:55:07 公開日:2023-04-18
# パッシブランジュバンダイナミクスを用いた適応逆強化学習のための有限サンプル境界

Finite-Sample Bounds for Adaptive Inverse Reinforcement Learning using Passive Langevin Dynamics ( http://arxiv.org/abs/2304.09123v1 )

ライセンス: Link先を確認
Luke Snow and Vikram Krishnamurthy(参考訳) 確率勾配ランゲヴィン力学(SGLD)は確率分布のサンプリングに有用である。 本稿では,逆強化学習を実現するために設計されたパッシブ確率勾配ランジュバンダイナミクスアルゴリズム(psgld)の有限サンプル解析を行う。 パッシブ」により、PSGLDアルゴリズム(逆学習過程)で利用可能な雑音勾配は、外部確率勾配アルゴリズム(前方学習者)によってランダムに選択された点で評価される。 したがってPSGLDアルゴリズムは、この外部プロセスによって最適化されるコスト関数を復元するランダム化サンプリングとして機能する。 従来の研究は確率近似手法を用いて,この受動的アルゴリズムの漸近性能を解析し,非漸近性能を解析した。 具体的には、パッシブアルゴリズムとその定常測度の間の2-wasserstein距離の有限時間境界を提供し、そこから再構成コスト関数を得る。

Stochastic gradient Langevin dynamics (SGLD) are a useful methodology for sampling from probability distributions. This paper provides a finite sample analysis of a passive stochastic gradient Langevin dynamics algorithm (PSGLD) designed to achieve inverse reinforcement learning. By "passive", we mean that the noisy gradients available to the PSGLD algorithm (inverse learning process) are evaluated at randomly chosen points by an external stochastic gradient algorithm (forward learner). The PSGLD algorithm thus acts as a randomized sampler which recovers the cost function being optimized by this external process. Previous work has analyzed the asymptotic performance of this passive algorithm using stochastic approximation techniques; in this work we analyze the non-asymptotic performance. Specifically, we provide finite-time bounds on the 2-Wasserstein distance between the passive algorithm and its stationary measure, from which the reconstructed cost function is obtained.
翻訳日:2023-04-19 13:54:39 公開日:2023-04-18
# 高速なニューラルシーンフロー

Fast Neural Scene Flow ( http://arxiv.org/abs/2304.09121v1 )

ライセンス: Link先を確認
Xueqian Li, Jianqiao Zheng, Francesco Ferroni, Jhony Kaesemodel Pontes, Simon Lucey(参考訳) 多くの下流タスクに対して低レベルのモーションキューを提供するため、シーンフローは重要な問題である。 最先端の学習手法は通常高速で、ドメイン内のデータに対して印象的なパフォーマンスを達成できるが、通常、アウト・オブ・ザ・ディストリビューション(OOD)データへの一般化に失敗し、高密度の点雲を扱う。 本稿では,実行時最適化に基づくニューラルシーンフローパイプラインに焦点を当てる。 a)lidarの密度化においてその応用を見ることができる。 しかし... (c)大きな欠点は計算時間の拡大である。 コーディネートネットワークのためのネットワークアーキテクチャにおける共通高速化戦略はシーンフローの加速にはほとんど影響しない(グリーン参照)。 (b)画像再構成とは違って. (b)。 チャンファー損失関数に代えて計算負荷が支配的になるので、距離変換に基づく損失関数を用いて加速する(紫を参照)。 (b)NSFPと比較して最大30倍のスピードアップとオンパー推定性能を達成する[参照] (c)。 8kポイントでテストすると、それはとても効率的です。 (c)]リアルタイムパフォーマンスを実現するための指導的な学習手法として。

Scene flow is an important problem as it provides low-level motion cues for many downstream tasks. State-of-the-art learning methods are usually fast and can achieve impressive performance on in-domain data, but usually fail to generalize to out-of-the-distribution (OOD) data or handle dense point clouds. In this paper, we focus on a runtime optimization-based neural scene flow pipeline. In (a) one can see its application in the densification of lidar. However, in (c) one sees that the major drawback is the extensive computation time. We identify that the common speedup strategy in network architectures for coordinate networks has little effect on scene flow acceleration [see green (b)] unlike image reconstruction [see pink (b)]. With the dominant computational burden stemming instead from the Chamfer loss function, we propose to use a distance transform-based loss function to accelerate [see purple (b)], which achieves up to 30x speedup and on-par estimation performance compared to NSFP [see (c)]. When tested on 8k points, it is as efficient [see (c)] as leading learning methods, achieving real-time performance.
翻訳日:2023-04-19 13:54:26 公開日:2023-04-18
# naturalspeech 2: 潜在拡散モデルは自然音声とゼロショット音声と歌唱シンセサイザーである

NaturalSpeech 2: Latent Diffusion Models are Natural and Zero-Shot Speech and Singing Synthesizers ( http://arxiv.org/abs/2304.09116v1 )

ライセンス: Link先を確認
Kai Shen, Zeqian Ju, Xu Tan, Yanqing Liu, Yichong Leng, Lei He, Tao Qin, Sheng Zhao, Jiang Bian(参考訳) 音声合成(TTS)を大規模、複数話者、および単語内データセットに拡張することは、話者のアイデンティティ、韻律、スタイル(例えば歌)などの人間の発話の多様性を捉えるために重要である。 現在の大規模なTSSシステムは、音声を離散トークンに量子化し、言語モデルを用いて、不安定な韻律、単語のスキップ/繰り返しの問題、低音質に悩まされているトークンを1つずつ生成する。 本稿では, 量子化された潜在ベクトルを得るために, 残留ベクトル量子化器を用いたニューラルオーディオコーデックを活用したttsシステムであるnaturalspeech 2 を開発し, 拡散モデルを用いてこれらの潜在ベクトルをテキスト入力に基づいて生成する。 多様な音声合成を実現するために重要となるゼロショット機能を強化するために,拡散モデルと継続時間/ピッチ予測器における文脈内学習を容易にする音声プロンプト機構を設計する。 本研究では,NaturalSpeech 2を44K時間の音声・歌唱データを持つ大規模データセットに拡張し,その音声品質を評価する。 naturalspeech 2は、ゼロショット設定において、韻律/音色類似性、頑健性、声質の点で、従来のttsシステムを大きく上回り、音声プロンプトだけで新規なゼロショット歌唱合成を行う。 オーディオサンプルはhttps://speechresearch.github.io/naturalspeech2で入手できる。

Scaling text-to-speech (TTS) to large-scale, multi-speaker, and in-the-wild datasets is important to capture the diversity in human speech such as speaker identities, prosodies, and styles (e.g., singing). Current large TTS systems usually quantize speech into discrete tokens and use language models to generate these tokens one by one, which suffer from unstable prosody, word skipping/repeating issue, and poor voice quality. In this paper, we develop NaturalSpeech 2, a TTS system that leverages a neural audio codec with residual vector quantizers to get the quantized latent vectors and uses a diffusion model to generate these latent vectors conditioned on text input. To enhance the zero-shot capability that is important to achieve diverse speech synthesis, we design a speech prompting mechanism to facilitate in-context learning in the diffusion model and the duration/pitch predictor. We scale NaturalSpeech 2 to large-scale datasets with 44K hours of speech and singing data and evaluate its voice quality on unseen speakers. NaturalSpeech 2 outperforms previous TTS systems by a large margin in terms of prosody/timbre similarity, robustness, and voice quality in a zero-shot setting, and performs novel zero-shot singing synthesis with only a speech prompt. Audio samples are available at https://speechresearch.github.io/naturalspeech2.
翻訳日:2023-04-19 13:54:09 公開日:2023-04-18
# CDFI:ロバストブロンチルーメン検出のためのクロスドメイン機能インタラクション

CDFI: Cross Domain Feature Interaction for Robust Bronchi Lumen Detection ( http://arxiv.org/abs/2304.09115v1 )

ライセンス: Link先を確認
Jiasheng Xu, Tianyi Zhang, Yangqian Wu, Jie Yang, Guang-Zhong Yang, Yun Gu(参考訳) 気管支内インターベンションは肺疾患の治療に最小限の侵襲的手段としてますます用いられる。 複雑な気道ネットワークにおける操作の困難さを軽減するため,術中指導にはロバストルーメン検出が不可欠である。 しかし,これらの手法は手術時に避けられない視覚的アーティファクトに敏感である。 本研究では,視覚的特徴を特徴付けるための人工物を提供するとともに,ラウンジの構造的特徴を抽出するクロスドメイン機能相互作用(CDFI)ネットワークを提案する。 構造的特徴とアーチファクト的特徴を効果的に抽出するため、qfc(quaruple feature constraints)モジュールは、サンプルの固有接続を様々な撮像品質で制約するように設計されている。 さらに,異なる種類のアーティファクトに基づいて,適応的特徴融合モデルを支援するためのガイド付き特徴融合(GFF)モジュールを設計する。 その結果,提案手法により抽出された特徴は,大きな視覚変動の存在下でのルーメンの構造情報を保存でき,ルーメン検出精度が向上した。

Endobronchial intervention is increasingly used as a minimally invasive means for the treatment of pulmonary diseases. In order to reduce the difficulty of manipulation in complex airway networks, robust lumen detection is essential for intraoperative guidance. However, these methods are sensitive to visual artifacts which are inevitable during the surgery. In this work, a cross domain feature interaction (CDFI) network is proposed to extract the structural features of lumens, as well as to provide artifact cues to characterize the visual features. To effectively extract the structural and artifact features, the Quadruple Feature Constraints (QFC) module is designed to constrain the intrinsic connections of samples with various imaging-quality. Furthermore, we design a Guided Feature Fusion (GFF) module to supervise the model for adaptive feature fusion based on different types of artifacts. Results show that the features extracted by the proposed method can preserve the structural information of lumen in the presence of large visual variations, bringing much-improved lumen detection accuracy.
翻訳日:2023-04-19 13:53:40 公開日:2023-04-18
# 超伝導量子プロセッサ用ドランブリッジおよびブリッジレスマンハッタン型ジョセフソン接合のウェーハスケール一様性

Wafer-scale uniformity of Dolan-bridge and bridgeless Manhattan-style Josephson junctions for superconducting quantum processors ( http://arxiv.org/abs/2304.09111v1 )

ライセンス: Link先を確認
N. Muthusubramanian, P. Duivestein, C. Zachariadis, M. Finkel, S. L. M. van der Meer, H. M. Veen, M. W. Beekman, T. Stavenga, A. Bruno, and L. DiCarlo(参考訳) ドランブリッジおよびブリッジレスマンハッタン・ジョセフソン接合のダイレベルおよびウェーハスケールの均一性について,via-silicon vias (tsvs) を有する複数の基板を用いて検討した。 平面基板上に作製されたドーラン接合は、最も収率が高く、室温コンダクタンスが一番低く、トランスモン周波数が100mhz程度である。 TSV集積基板では、ドーラン接合は収率と障害の両方に最も苦しむため、マンハッタン接合は好ましい。 マンハッタン・ジャンクションは, ウェーハ中心からエッジへの伝導率の低下を示し, 接合電極蒸発時の空間依存レジストシャドーイングの幾何モデルを用いて定性的に捕獲した。 走査型電子マイクログラフによる実際の接合重なり領域の解析はこのモデルをサポートし、さらに接触抵抗による残留空間依存性を指摘できる。

We investigate die-level and wafer-scale uniformity of Dolan-bridge and bridgeless Manhattan Josephson junctions, using multiple substrates with and without through-silicon vias (TSVs). Dolan junctions fabricated on planar substrates have the highest yield and lowest room-temperature conductance spread, equivalent to ~100 MHz in transmon frequency. In TSV-integrated substrates, Dolan junctions suffer most in both yield and disorder, making Manhattan junctions preferable. Manhattan junctions show pronounced conductance decrease from wafer centre to edge, which we qualitatively capture using a geometric model of spatially-dependent resist shadowing during junction electrode evaporation. Analysis of actual junction overlap areas using scanning electron micrographs supports the model, and further points to a remnant spatial dependence possibly due to contact resistance.
翻訳日:2023-04-19 13:53:22 公開日:2023-04-18
# 双曲的画像テキスト表現

Hyperbolic Image-Text Representations ( http://arxiv.org/abs/2304.09172v1 )

ライセンス: Link先を確認
Karan Desai, Maximilian Nickel, Tanmay Rajpurohit, Justin Johnson, Ramakrishna Vedantam(参考訳) 視覚と言語の概念は、自然に階層構造を成し、そこでは「犬」というテキスト概念は、犬を含むすべてのイメージを包含する。 直感的であるにもかかわらず、CLIPのような現在の大規模ビジョンや言語モデルは、そのような階層を明示的に捉えていない。 本稿では,画像とテキストの双曲表現を生成するコントラストモデルMERUを提案する。 双曲空間は木のようなデータを埋め込むのに適した幾何学的性質を持つので、meruは画像テキストデータの下位階層をよりよく捉えることができる。 画像分類や画像テキスト検索などのマルチモーダルタスクにおいて,MERUはCLIPの性能と競合しながら,高度に解釈可能な表現空間を学習することを示す。

Visual and linguistic concepts naturally organize themselves in a hierarchy, where a textual concept ``dog'' entails all images that contain dogs. Despite being intuitive, current large-scale vision and language models such as CLIP do not explicitly capture such hierarchy. We propose MERU, a contrastive model that yields hyperbolic representations of images and text. Hyperbolic spaces have suitable geometric properties to embed tree-like data, so MERU can better capture the underlying hierarchy in image-text data. Our results show that MERU learns a highly interpretable representation space while being competitive with CLIP's performance on multi-modal tasks like image classification and image-text retrieval.
翻訳日:2023-04-19 13:46:15 公開日:2023-04-18
# 一様収束のない最適PAC境界

Optimal PAC Bounds Without Uniform Convergence ( http://arxiv.org/abs/2304.09167v1 )

ライセンス: Link先を確認
Ishaq Aden-Ali, Yeshwanth Cherapanamjeri, Abhishek Shetty, Nikita Zhivotovskiy(参考訳) 統計的学習理論では、vcクラスで実現可能なバイナリ分類のサンプル複雑性を決定することは長年のオープン問題であった。 Simon と Hanneke の結果は、この設定で鋭い上界を確立した。 しかし、一様収束原理へのそれらの議論の依存は、多クラス分類のようなより一般的な学習環境に適用性を制限する。 本稿では,一様収束論の限界を超えるフレームワークを通じて,最適な高確率リスク境界を提供することによってこの問題に対処する。 本フレームワークは置換不変量予測器の残欠誤差を高い確率リスク境界に変換する。 本研究では,haussler,littlestone,warmuth の 1-inclusion graph アルゴリズムを適用し,二分分類に最適なpacバウンドを実現するアルゴリズムを提案する。 具体的には,Warmuthによる古典的問題に対処するため,一括グラフアルゴリズムのある種の集約が最適であることを示す。 さらに、一様収束が確実に最適である3つの設定でフレームワークをインスタンス化する。 多クラス分類では、クラスの一介在超グラフ密度でスケールする最適リスク境界を証明し、ダニーとシャレフ=シュワルツの分析の準最適性に対処する。 部分的仮説分類では, alon, hanneke, holzman, moranによって提起された質問を解き, 最適なサンプル複雑性を決定づける。 絶対損失のある実現可能な有界回帰に対しては、スケール感性次元の修正版に依存する最適リスク境界を導出し、バートレットとロングの結果を精査する。 リスクバウンドの複雑さの指標が小さいため、標準の均一収束に基づく結果を上回っます。

In statistical learning theory, determining the sample complexity of realizable binary classification for VC classes was a long-standing open problem. The results of Simon and Hanneke established sharp upper bounds in this setting. However, the reliance of their argument on the uniform convergence principle limits its applicability to more general learning settings such as multiclass classification. In this paper, we address this issue by providing optimal high probability risk bounds through a framework that surpasses the limitations of uniform convergence arguments. Our framework converts the leave-one-out error of permutation invariant predictors into high probability risk bounds. As an application, by adapting the one-inclusion graph algorithm of Haussler, Littlestone, and Warmuth, we propose an algorithm that achieves an optimal PAC bound for binary classification. Specifically, our result shows that certain aggregations of one-inclusion graph algorithms are optimal, addressing a variant of a classic question posed by Warmuth. We further instantiate our framework in three settings where uniform convergence is provably suboptimal. For multiclass classification, we prove an optimal risk bound that scales with the one-inclusion hypergraph density of the class, addressing the suboptimality of the analysis of Daniely and Shalev-Shwartz. For partial hypothesis classification, we determine the optimal sample complexity bound, resolving a question posed by Alon, Hanneke, Holzman, and Moran. For realizable bounded regression with absolute loss, we derive an optimal risk bound that relies on a modified version of the scale-sensitive dimension, refining the results of Bartlett and Long. Our rates surpass standard uniform convergence-based results due to the smaller complexity measure in our risk bound.
翻訳日:2023-04-19 13:46:04 公開日:2023-04-18
# 医用画像領域適応のための構造保存サイクルGAN

Structure Preserving Cycle-GAN for Unsupervised Medical Image Domain Adaptation ( http://arxiv.org/abs/2304.09164v1 )

ライセンス: Link先を確認
Paolo Iacono and Naimul Khan(参考訳) 医用画像における領域シフトの存在は一般的な問題であり、見えない画像領域を扱う際にセグメンテーションモデルの性能に大きな影響を与える可能性がある。 医学画像の教師なし領域適応にアプローチするための一般的なモデルとして,Cycle-GAN などの敵対型ディープラーニングモデルがある。 しかし、これらのモデルは医学的スキャンを翻訳する際に興味のある構造の保存を強制する能力を持たないため、セグメンテーションの文脈において教師なしのドメイン適応の結果が潜在的に劣る可能性がある。 本研究は, 画像翻訳において, 全体サイクルGANトレーニングプロセスにおけるセグメンテーション損失項の実施を通じて, 医用構造保存を促進する構造保存サイクルGAN(Structure Preserving Cycle-GAN)を紹介する。 本研究では,sp cycle-ganの構造保存性能について,教師なしドメイン適応モデルにおけるdiceスコアセグメンテーション性能の比較を通して示す。 sp cycle-ganは、stareおよびdriveデータセットにおける2値血管のセグメンテーション、およびマルチモーダルmm-whsデータセットにおけるマルチクラス左室および心筋セグメンテーションのベースラインアプローチおよび標準サイクルganドメイン適応を上回ることができる。 SP Cycle-GANはMRからCTのMM-WHS領域適応問題に対して0.7435の心筋セグメンテーションDiceスコア(DSC)を達成し、MM-WHSデータセットのほぼすべてのカテゴリで優れていた。 SP Cycle-GANはまた、DRIVEからSTAREドメイン適応問題における血管構造を維持する強力な能力を示し、デフォルトのCycle-GAN実装よりも4%のDSC増加を実現した。

The presence of domain shift in medical imaging is a common issue, which can greatly impact the performance of segmentation models when dealing with unseen image domains. Adversarial-based deep learning models, such as Cycle-GAN, have become a common model for approaching unsupervised domain adaptation of medical images. These models however, have no ability to enforce the preservation of structures of interest when translating medical scans, which can lead to potentially poor results for unsupervised domain adaptation within the context of segmentation. This work introduces the Structure Preserving Cycle-GAN (SP Cycle-GAN), which promotes medical structure preservation during image translation through the enforcement of a segmentation loss term in the overall Cycle-GAN training process. We demonstrate the structure preserving capability of the SP Cycle-GAN both visually and through comparison of Dice score segmentation performance for the unsupervised domain adaptation models. The SP Cycle-GAN is able to outperform baseline approaches and standard Cycle-GAN domain adaptation for binary blood vessel segmentation in the STARE and DRIVE datasets, and multi-class Left Ventricle and Myocardium segmentation in the multi-modal MM-WHS dataset. SP Cycle-GAN achieved a state of the art Myocardium segmentation Dice score (DSC) of 0.7435 for the MR to CT MM-WHS domain adaptation problem, and excelled in nearly all categories for the MM-WHS dataset. SP Cycle-GAN also demonstrated a strong ability to preserve blood vessel structure in the DRIVE to STARE domain adaptation problem, achieving a 4% DSC increase over a default Cycle-GAN implementation.
翻訳日:2023-04-19 13:45:36 公開日:2023-04-18
# 地理空間データのためのニューラルネットワーク

Neural networks for geospatial data ( http://arxiv.org/abs/2304.09157v1 )

ライセンス: Link先を確認
Wentao Zhan, Abhirup Datta(参考訳) 地理空間データの解析は伝統的にモデルベースであり、平均モデルは共変量上の線形回帰として伝統的に指定され、空間依存を符号化する共変モデルである。 線形性の強い仮定を緩和し、非線形平均関数に対応するために従来の統計モデルに直接ニューラルネットワークを埋め込むことを提案し、空間共分散を明示的にモデル化するためのガウス過程の使用、平均と共分散による空間依存による共変効果の推論を可能にすること、krigingによる新しい場所での予測を提供する。 線形の場合と同じ損失である一般化最小二乗(GLS)による空間共分散を明示的に考慮した,GPモデルにおける非線形平均に対する新しいニューラルネットワーク推定アルゴリズムであるNN-GLSを提案する。 NN-GLSはグラフニューラルネットワーク(GNN)の特殊型として表現されていることを示す。 この接続により、不規則な地理空間データに対する標準的なニューラルネットワーク計算技術の使用が容易になり、新規でスケーラブルなミニバッチ、バックプロパゲーション、クリグスキームが可能になる。 理論的には、NN-GLSは不規則に観測された空間相関データプロセスに一貫性があることが示されている。 我々の知る限り、これは空間データに対するニューラルネットワークアルゴリズムにとって初めての漸近的一貫性の結果である。 本手法をシミュレーションおよび実データを用いて実証する。

Analysis of geospatial data has traditionally been model-based, with a mean model, customarily specified as a linear regression on the covariates, and a covariance model, encoding the spatial dependence. We relax the strong assumption of linearity and propose embedding neural networks directly within the traditional geostatistical models to accommodate non-linear mean functions while retaining all other advantages including use of Gaussian Processes to explicitly model the spatial covariance, enabling inference on the covariate effect through the mean and on the spatial dependence through the covariance, and offering predictions at new locations via kriging. We propose NN-GLS, a new neural network estimation algorithm for the non-linear mean in GP models that explicitly accounts for the spatial covariance through generalized least squares (GLS), the same loss used in the linear case. We show that NN-GLS admits a representation as a special type of graph neural network (GNN). This connection facilitates use of standard neural network computational techniques for irregular geospatial data, enabling novel and scalable mini-batching, backpropagation, and kriging schemes. Theoretically, we show that NN-GLS will be consistent for irregularly observed spatially correlated data processes. To our knowledge this is the first asymptotic consistency result for any neural network algorithm for spatial data. We demonstrate the methodology through simulated and real datasets.
翻訳日:2023-04-19 13:44:41 公開日:2023-04-18
# Sharp-SSL:半教師付き学習のための選択的高次元軸整列ランダムプロジェクション

Sharp-SSL: Selective high-dimensional axis-aligned random projections for semi-supervised learning ( http://arxiv.org/abs/2304.09154v1 )

ライセンス: Link先を確認
Tengyao Wang, Edgar Dobriban, Milana Gataric and Richard J. Samworth(参考訳) 本研究では,データの多数の軸方向ランダム射影に適用する低次元手順の結果を注意深く集計し,高次元半教師付き学習問題に対する新しい手法を提案する。 私たちの第一の目的は、クラスを区別するための重要な変数を特定することです。 一般化されたレイリー商に動機づけられ、投影されたデータ上の推定されたクラス間共分散行列のトレースに従って射影をスコアする。 これにより、与えられた射影に対して各変数に重要重みを割り当て、高スケーリング射影上でこれらの重みを集約することで信号変数を選択できる。 提案理論では,spike-sslアルゴリズムは,十分多数のランダム射影を集約し,ベースプロシージャがホワイト付きクラス間共分散行列を十分に推定した場合に,高い確率で信号座標を回復できることを示す。 ガウスEMアルゴリズムは,基本手順として自然な選択であり,サンプル中のラベル付きデータの比率からパラメータ推定誤差を制御する半教師付き設定において,その性能を新たに解析する。 シミュレーションデータと実際の大腸腫瘍データセットの両方における数値計算の結果は, 優れた評価結果を得た。

We propose a new method for high-dimensional semi-supervised learning problems based on the careful aggregation of the results of a low-dimensional procedure applied to many axis-aligned random projections of the data. Our primary goal is to identify important variables for distinguishing between the classes; existing low-dimensional methods can then be applied for final class assignment. Motivated by a generalized Rayleigh quotient, we score projections according to the traces of the estimated whitened between-class covariance matrices on the projected data. This enables us to assign an importance weight to each variable for a given projection, and to select our signal variables by aggregating these weights over high-scoring projections. Our theory shows that the resulting Sharp-SSL algorithm is able to recover the signal coordinates with high probability when we aggregate over sufficiently many random projections and when the base procedure estimates the whitened between-class covariance matrix sufficiently well. The Gaussian EM algorithm is a natural choice as a base procedure, and we provide a new analysis of its performance in semi-supervised settings that controls the parameter estimation error in terms of the proportion of labeled data in the sample. Numerical results on both simulated data and a real colon tumor dataset support the excellent empirical performance of the method.
翻訳日:2023-04-19 13:44:12 公開日:2023-04-18
# UniMax: 大規模多言語事前学習のためのより公平で効果的な言語サンプリング

UniMax: Fairer and more Effective Language Sampling for Large-Scale Multilingual Pretraining ( http://arxiv.org/abs/2304.09151v1 )

ライセンス: Link先を確認
Hyung Won Chung, Noah Constant, Xavier Garcia, Adam Roberts, Yi Tay, Sharan Narang, Orhan Firat(参考訳) 事前訓練された多言語大言語モデルは、通常、異なる言語間のバランスをとるためにヒューリスティックな温度ベースサンプリングを用いている。 しかし、これまでの研究は、モデルスケールで異なる事前学習言語分布の有効性を体系的に評価していない。 本稿では,各言語のコーパス上での繰り返し回数を明示的に把握することにより,末尾言語のオーバーフィットを緩和しながら,ヘッド言語をより均一にカバーする新しいサンプリング手法であるunimaxを提案する。 我々は,多言語ベンチマークのスイート上で,様々なモデルスケールで,様々なサンプリング戦略をテストしている。 unimaxは標準の温度ベースのサンプリングよりも優れており、スケールが大きくなるとメリットが持続する。 コントリビューションの一部として、私たちは次のようにリリースします。 (i)107言語に29兆文字からなる改良および更新されたmC4多言語コーパス (ii) UniMaxサンプリングでトレーニングされたUmT5モデルチェックポイントのスイート。

Pretrained multilingual large language models have typically used heuristic temperature-based sampling to balance between different languages. However previous work has not systematically evaluated the efficacy of different pretraining language distributions across model scales. In this paper, we propose a new sampling method, UniMax, that delivers more uniform coverage of head languages while mitigating overfitting on tail languages by explicitly capping the number of repeats over each language's corpus. We perform an extensive series of ablations testing a range of sampling strategies on a suite of multilingual benchmarks, while varying model scale. We find that UniMax outperforms standard temperature-based sampling, and the benefits persist as scale increases. As part of our contribution, we release: (i) an improved and refreshed mC4 multilingual corpus consisting of 29 trillion characters across 107 languages, and (ii) a suite of pretrained umT5 model checkpoints trained with UniMax sampling.
翻訳日:2023-04-19 13:43:51 公開日:2023-04-18
# 非摂動型Zou-Wang-Mandel効果

Nonperturbative Zou-Wang-Mandel effect ( http://arxiv.org/abs/2304.09149v1 )

ライセンス: Link先を確認
T. J. Volkoff and Diego A. R. Dalvit(参考訳) zou-wang-mandel干渉パターンと正規化一階コヒーレンス関数の非摂動的表現は、連続変数(cv)ガウス状態の正準形式を実験のモード構造に持つことによって導かれる。 2モードのスクイージングネットワークや$\mathcal{H}$-graph状態への一般化は、最小の例を分析するために使われる一般的な方法から直接従う。

Nonperturbative expressions for the Zou-Wang-Mandel interference patterns and normalized first-order coherence function are derived by bringing the canonical formalism of continuous-variable (CV) Gaussian states to bear on the mode-structure of the experiment. Generalizations to two-mode squeezing networks or $\mathcal{H}$-graph states with more than four modes directly follow from the general method used to analyze the minimal example.
翻訳日:2023-04-19 13:43:38 公開日:2023-04-18
# SAMはセグメンテーションに失敗したか? --SAM-Adapter:未演奏シーンにおけるSAMの適応:カモフラージュ、シャドウなど

SAM Fails to Segment Anything? -- SAM-Adapter: Adapting SAM in Underperformed Scenes: Camouflage, Shadow, and More ( http://arxiv.org/abs/2304.09148v1 )

ライセンス: Link先を確認
Tianrun Chen, Lanyun Zhu, Chaotao Ding, Runlong Cao, Shangzhan Zhang, Yan Wang, Zejian Li, Lingyun Sun, Papa Mao, Ying Zang(参考訳) ファンデーションモデルとしても知られる大型モデルの出現は、AI研究に大きな進歩をもたらした。 そのようなモデルの1つは、イメージセグメンテーションタスク用に設計されたSegment Anything (SAM)である。 しかし,他の基礎モデルと同様に,影検出や擬似物体検出 (concealed object detection) などの特定のセグメンテーションタスクではSAMが故障したり,動作不良となる可能性が示唆された。 本研究は,SAMが不十分な状況であっても,まず,大規模な訓練済み画像分割モデルSAMを下流タスクに適用する方法について検討する。 SAM ネットワークを微調整する代わりに,ドメイン固有情報や視覚的プロンプトを,単純かつ効果的なアダプタを用いてセグメント化ネットワークに組み込んだ \textbf{SAM-Adapter} を提案する。 広範な実験により,SAM-Adapterは課題におけるSAMの性能を大幅に向上させることができ,また,タスク固有のネットワークモデルよりも優れ,テストしたタスクにおいて最先端のパフォーマンスを達成できることがわかった。 医療画像処理,農業,リモートセンシングなど,さまざまな分野に適用可能な,下流作業におけるSAM活用の機会が開けていると考えています。

The emergence of large models, also known as foundation models, has brought significant advancements to AI research. One such model is Segment Anything (SAM), which is designed for image segmentation tasks. However, as with other foundation models, our experimental findings suggest that SAM may fail or perform poorly in certain segmentation tasks, such as shadow detection and camouflaged object detection (concealed object detection). This study first paves the way for applying the large pre-trained image segmentation model SAM to these downstream tasks, even in situations where SAM performs poorly. Rather than fine-tuning the SAM network, we propose \textbf{SAM-Adapter}, which incorporates domain-specific information or visual prompts into the segmentation network by using simple yet effective adapters. Our extensive experiments show that SAM-Adapter can significantly elevate the performance of SAM in challenging tasks and we can even outperform task-specific network models and achieve state-of-the-art performance in the task we tested: camouflaged object detection and shadow detection. We believe our work opens up opportunities for utilizing SAM in downstream tasks, with potential applications in various fields, including medical image processing, agriculture, remote sensing, and more.
翻訳日:2023-04-19 13:43:28 公開日:2023-04-18
# Outlier Suppression+: 等価および最適シフトとスケーリングによる大規模言語モデルの正確な量子化

Outlier Suppression+: Accurate quantization of large language models by equivalent and optimal shifting and scaling ( http://arxiv.org/abs/2304.09145v1 )

ライセンス: Link先を確認
Xiuying Wei, Yunchen Zhang, Yuhang Li, Xiangguo Zhang, Ruihao Gong, Jinyang Guo, Xianglong Liu(参考訳) トランスフォーマー言語モデルの量子化は、アクティベーションにおける有害なアウトリーチの存在によって大きな課題に直面している。 これらは非対称であり、特定のチャネルに集中している。 この問題に対処するため,我々はOutlier Suppression+フレームワークを提案する。 まず,非対称な表現を排除し,問題のあるチャネルをスケールダウンするために,チャネル毎のシフトとスケーリング操作を導入する。 等価性を保ちながら,これらの操作を後続モジュールにシームレスに移行できることを実証する。 第2に、次の層における重みの非対称性と量子化誤差を考慮し、シフトとスケーリングの最適値を定量的に分析する。 我々の軽量フレームワークは、静的および標準のトレーニング後の量子化設定下で、最小限のパフォーマンス劣化を発生させることができる。 OPT,BLOOM,BLOOMZを含む大規模言語モデル(LLM)の8ビット・6ビット設定において,BERTなどの小型モデルと大規模言語モデル(LLM)の双方でほぼフローティングポイントの性能を実現する。 さらに,4ビットBERTの新たな最先端技術を確立した。

Quantization of transformer language models faces significant challenges due to the existence of detrimental outliers in activations. We observe that these outliers are asymmetric and concentrated in specific channels. To address this issue, we propose the Outlier Suppression+ framework. First, we introduce channel-wise shifting and scaling operations to eliminate asymmetric presentation and scale down problematic channels. We demonstrate that these operations can be seamlessly migrated into subsequent modules while maintaining equivalence. Second, we quantitatively analyze the optimal values for shifting and scaling, taking into account both the asymmetric property and quantization errors of weights in the next layer. Our lightweight framework can incur minimal performance degradation under static and standard post-training quantization settings. Comprehensive results across various tasks and models reveal that our approach achieves near-floating-point performance on both small models, such as BERT, and large language models (LLMs) including OPTs, BLOOM, and BLOOMZ at 8-bit and 6-bit settings. Furthermore, we establish a new state of the art for 4-bit BERT.
翻訳日:2023-04-19 13:43:05 公開日:2023-04-18
# Jensen-Shannon分散を用いた量子生成配列のセグメンテーション

Segmentation of quantum generated sequences by using the Jensen-Shannon divergence ( http://arxiv.org/abs/2304.09141v1 )

ライセンス: Link先を確認
Marcelo Losada, V\'ictor A. Penas, Federico Holik and Pedro W. Lamberti(参考訳) ジェンセン=シャノン分岐はシンボリックシーケンスのセグメンテーションツールとしてうまく適用され、シーケンスを同じシンボリックコンテンツのサブシーケンスに分割する。 本稿では、量子系の測定から生成された記号列からなる「textit{quantum generated sequences}」と呼ばれるものをセグメント化するための、Jensen-Shannon分散に基づく手法を提案する。 1キュービットと2キュービットのシステムでは,提案手法がセグメンテーションに適していることを示す。

The Jensen-Shannon divergence has been successfully applied as a segmentation tool for symbolic sequences, that is to separate the sequence into subsequences with the same symbolic content. In this work, we propose a method, based on the the Jensen-Shannon divergence, for segmentation of what we call \textit{quantum generated sequences}, which consist in symbolic sequences generated from measuring a quantum system. For one-qubit and two-qubit systems, we show that the proposed method is adequate for segmentation.
翻訳日:2023-04-19 13:42:46 公開日:2023-04-18
# 混合注意に基づくRGB-T追跡

RGB-T Tracking Based on Mixed Attention ( http://arxiv.org/abs/2304.04264v4 )

ライセンス: Link先を確認
Yang Luo, Xiqing Guo, Mingtao Dong, Jin Yu(参考訳) RGB-Tトラッキングには、可視光と熱の両モードの画像の使用が含まれる。 主な目的は、異なる条件における比較的支配的なモダリティを適応的に利用し、単一モダリティ追跡よりもロバストなトラッキングを実現することである。 本稿では,モーダルの相補的な融合を実現するための混合注意機構に基づくRGB-Tトラッカーを提案する。 特徴抽出の段階では,異なるモダリティから特定の情報や共有情報を抽出するために,異なるトランスフォーマーのバックボーンブランチを利用する。 テンプレートと検索画像間の情報相互作用と自己強調を可能にするために、バックボーンで混合注意操作を行うことにより、ターゲットの高レベルな意味的特徴をよりよく理解する堅牢な特徴表現を構築する。 そして、特徴融合段階において、支配的モダリティの情報を高めつつ低品質モダリティノイズを抑制する混合注意型モダリティ融合ネットワークを介してモダリティ適応融合を実現する。 複数のRGB-T公開データセットの評価は,提案手法が他のRGB-Tトラッカーよりも優れ,長期追跡シナリオに適応可能であることを示す。

RGB-T tracking involves the use of images from both visible and thermal modalities. The primary objective is to adaptively leverage the relatively dominant modality in varying conditions to achieve more robust tracking compared to single-modality tracking. An RGB-T tracker based on mixed attention mechanism to achieve complementary fusion of modalities (referred to as MACFT) is proposed in this paper. In the feature extraction stage, we utilize different transformer backbone branches to extract specific and shared information from different modalities. By performing mixed attention operations in the backbone to enable information interaction and self-enhancement between the template and search images, it constructs a robust feature representation that better understands the high-level semantic features of the target. Then, in the feature fusion stage, a modality-adaptive fusion is achieved through a mixed attention-based modality fusion network, which suppresses the low-quality modality noise while enhancing the information of the dominant modality. Evaluation on multiple RGB-T public datasets demonstrates that our proposed tracker outperforms other RGB-T trackers on general evaluation metrics while also being able to adapt to longterm tracking scenarios.
翻訳日:2023-04-19 11:34:31 公開日:2023-04-18
# 半教師付き医用画像セグメンテーションにおける固有一貫性学習

Inherent Consistent Learning for Accurate Semi-supervised Medical Image Segmentation ( http://arxiv.org/abs/2303.14175v4 )

ライセンス: Link先を確認
Ye Zhu, Jie Yang, Si-Qi Liu and Ruimao Zhang(参考訳) 近年,医用画像アノテーションのコストが高いことから,半監督的医用画像分割が注目されている。 本稿では,ラベル付きおよびラベル付きデータの意味的一貫性ガイダンスを通じて,ロバストな意味カテゴリー表現を学習し,セグメンテーションを支援する新しい本質的一貫性学習法を提案する。 実際には、ラベル付きデータとラベルなしデータのセマンティックなカテゴリ表現を整列するアテンション機構に基づく、SSPA(Supervised Semantic Proxy Adaptor)とunsupervised Semantic Consistent Learner(USCL)という2つの外部モジュールを導入し、トレーニングセット全体にわたってグローバルなセマンティックなセマンティックな表現を更新する。 ICLは様々なネットワークアーキテクチャのためのプラグイン・アンド・プレイ方式であり、この2つのモジュールはテスト段階に関与していない。 3つの公開ベンチマークにおける実験結果から,提案手法は,特に注釈付きデータの数が極めて限られている場合に,最先端の手法を上回ることができることが示された。 コードはhttps://github.com/zhuye98/icl.git。

Semi-supervised medical image segmentation has attracted much attention in recent years because of the high cost of medical image annotations. In this paper, we propose a novel Inherent Consistent Learning (ICL) method, aims to learn robust semantic category representations through the semantic consistency guidance of labeled and unlabeled data to help segmentation. In practice, we introduce two external modules, namely Supervised Semantic Proxy Adaptor (SSPA) and Unsupervised Semantic Consistent Learner (USCL) that is based on the attention mechanism to align the semantic category representations of labeled and unlabeled data, as well as update the global semantic representations over the entire training set. The proposed ICL is a plug-and-play scheme for various network architectures, and the two modules are not involved in the testing stage. Experimental results on three public benchmarks show that the proposed method can outperform the state-of-the-art, especially when the number of annotated data is extremely limited. Code is available at: https://github.com/zhuye98/ICL.git.
翻訳日:2023-04-19 11:34:10 公開日:2023-04-18
# VENUS: 量子状態可視化のための幾何学的表現

VENUS: A Geometrical Representation for Quantum State Visualization ( http://arxiv.org/abs/2303.08366v3 )

ライセンス: Link先を確認
Shaolun Ruan, Ribo Yuan, Yong Wang, Yanna Lin, Ying Mao, Weiwen Jiang, Zhepeng Wang, Wei Xu, Qiang Guan(参考訳) 可視化は、量子コンピューティングユーザーが様々な量子コンピューティングアプリケーションで量子状態を調べるのを助ける上で重要な役割を担っている。 その中でもBloch Sphereは、量子振幅を表すために角度を利用する量子状態を示すために広く使われている視覚化である。 しかし、量子エンタングルメントと重ね合わせ(量子コンピューティングの2つの本質的性質)の可視化はサポートできない。 本稿では,量子状態表現のための新しい可視化手法であるVENUSを提案する。 量子コンピューティング特性の数学的基礎に基づく2次元幾何学的形状を明示的に関連付けることにより、VENUSは量子エンタングルメントのための1量子ビットと2量子ビットの両方の量子振幅を効果的に表現する。 また、複数の座標半円を用いて確率分布を自然にエンコードし、量子重ね合わせを直感的に解析する。 VENUSの有用性と有効性を評価するために,2つの優れたケーススタディと詳細な専門家インタビューを行った。 その結果、VENUSは1量子ビットと2量子ビットの量子状態の探索を効果的に行うことができた。

Visualizations have played a crucial role in helping quantum computing users explore quantum states in various quantum computing applications. Among them, Bloch Sphere is the widely-used visualization for showing quantum states, which leverages angles to represent quantum amplitudes. However, it cannot support the visualization of quantum entanglement and superposition, the two essential properties of quantum computing. To address this issue, we propose VENUS, a novel visualization for quantum state representation. By explicitly correlating 2D geometric shapes based on the math foundation of quantum computing characteristics, VENUS effectively represents quantum amplitudes of both the single qubit and two qubits for quantum entanglement. Also, we use multiple coordinated semicircles to naturally encode probability distribution, making the quantum superposition intuitive to analyze. We conducted two well-designed case studies and an in-depth expert interview to evaluate the usefulness and effectiveness of VENUS. The result shows that VENUS can effectively facilitate the exploration of quantum states for the single qubit and two qubits.
翻訳日:2023-04-19 11:33:46 公開日:2023-04-18
# CT-LungNet : 3次元胸部CTスキャンにおける精密肺組織切開のためのディープラーニングフレームワーク

CT-LungNet: A Deep Learning Framework for Precise Lung Tissue Segmentation in 3D Thoracic CT Scans ( http://arxiv.org/abs/2212.13971v3 )

ライセンス: Link先を確認
Niloufar Delfan, Hamid Abrishami Moghaddam, Kimia Afshari, Kasra Nezamabadi, Mohamad Forouzanfar(参考訳) ct画像における肺組織の分節化は、ほとんどの肺画像解析応用の前駆体である。 近年, 深層学習を用いたセマンティックセグメンテーション手法は, 形状, サイズ, 方向の相違により, 肺組織に対する高精度で堅牢なセグメンテーションモデルを設計することは困難である。 さらに、医用画像アーティファクトやノイズは肺組織セグメンテーションに影響を与え、下流分析の精度を低下させる。 現在の肺組織分割のための深層学習法の実用性は、重要な計算資源を必要とし、臨床環境では容易に展開できないため限られている。 本稿では,深層ネットワークとトランスファーラーニングを用いて3次元肺ct画像中の肺を完全自動識別する手法を提案する。 本稿では,(1)容積情報を簡潔に表現する連続CTスライスからの新しい2.5次元画像表現,(2)学習可能なパラメータの数を極力低く保ちながら,事前学習したInceptionV3ブロックを備えたU-Netアーキテクチャを提案する。 VESSEL12とCRPFの2つの公開データセットとトレーニングとテストのために,LUNA16という1つの公開データセットを用いて定量的に評価した。 学習可能なパラメータの少なさから,luna16よりも優れた性能(各luna16, vessel12, crpfデータセットに対して,それぞれ99.7, 99.1, 98.8のdice係数)を得るとともに,luna16よりも高い汎用性を達成した。 我々はこの手法を medvispy.ee.kntu.ac.ir のグラフィカルユーザインタフェースを通じて一般公開した。

Segmentation of lung tissue in computed tomography (CT) images is a precursor to most pulmonary image analysis applications. Semantic segmentation methods using deep learning have exhibited top-tier performance in recent years, however designing accurate and robust segmentation models for lung tissue is challenging due to the variations in shape, size, and orientation. Additionally, medical image artifacts and noise can affect lung tissue segmentation and degrade the accuracy of downstream analysis. The practicality of current deep learning methods for lung tissue segmentation is limited as they require significant computational resources and may not be easily deployable in clinical settings. This paper presents a fully automatic method that identifies the lungs in three-dimensional (3D) pulmonary CT images using deep networks and transfer learning. We introduce (1) a novel 2.5-dimensional image representation from consecutive CT slices that succinctly represents volumetric information and (2) a U-Net architecture equipped with pre-trained InceptionV3 blocks to segment 3D CT scans while maintaining the number of learnable parameters as low as possible. Our method was quantitatively assessed using one public dataset, LUNA16, for training and testing and two public datasets, namely, VESSEL12 and CRPF, only for testing. Due to the low number of learnable parameters, our method achieved high generalizability to the unseen VESSEL12 and CRPF datasets while obtaining superior performance over Luna16 compared to existing methods (Dice coefficients of 99.7, 99.1, and 98.8 over LUNA16, VESSEL12, and CRPF datasets, respectively). We made our method publicly accessible via a graphical user interface at medvispy.ee.kntu.ac.ir.
翻訳日:2023-04-19 11:33:27 公開日:2023-04-18
# 逐次インフォームド・フェデレーション・アンラーニング:フェデレーション最適化における効率的かつ証明可能なクライアント・アンラーニング

Sequential Informed Federated Unlearning: Efficient and Provable Client Unlearning in Federated Optimization ( http://arxiv.org/abs/2211.11656v3 )

ライセンス: Link先を確認
Yann Fraboni, Richard Vidal, Laetitia Kameni, Marco Lorenzi(参考訳) 機械学習(mu)の目的は、訓練手順から与えられたデータポイントの寄与の排除に関する理論的保証を提供することである。 フェデレーテッド・アンラーニング(FU)は、フェデレーテッド・トレーニングルーチンから特定のクライアントの貢献を解放するためにMUを拡張することである。 現在のFUアプローチは一般に拡張性がなく、未学習の有効性の健全な理論的定量化を伴わない。 Informed Federated Unlearning (IFU)は、新しい効率で定量化可能なFUアプローチである。 与えられたクライアントからの未学習要求に対して、IFUは、FLを再起動しなければならない最適なFLイテレーションを特定し、ランダムな摂動機構を通じて未学習の保証を得る。 逐次学習要求を考慮し、ifuの理論も拡張されている。 タスクとデータセットの異なる実験結果から、IFUは基本的な再学習や最先端のFUアプローチと比較して、より効率的な未学習の手順をもたらすことが示された。

The aim of Machine Unlearning (MU) is to provide theoretical guarantees on the removal of the contribution of a given data point from a training procedure. Federated Unlearning (FU) consists in extending MU to unlearn a given client's contribution from a federated training routine. Current FU approaches are generally not scalable, and do not come with sound theoretical quantification of the effectiveness of unlearning. In this work we present Informed Federated Unlearning (IFU), a novel efficient and quantifiable FU approach. Upon unlearning request from a given client, IFU identifies the optimal FL iteration from which FL has to be reinitialized, with unlearning guarantees obtained through a randomized perturbation mechanism. The theory of IFU is also extended to account for sequential unlearning requests. Experimental results on different tasks and dataset show that IFU leads to more efficient unlearning procedures as compared to basic re-training and state-of-the-art FU approaches.
翻訳日:2023-04-19 11:32:54 公開日:2023-04-18
# ビデオ対応のための時空間自己監督学習

Spatial-then-Temporal Self-Supervised Learning for Video Correspondence ( http://arxiv.org/abs/2209.07778v4 )

ライセンス: Link先を確認
Rui Li, Dong Liu(参考訳) 低レベルビデオ解析では,映像フレーム間の対応を導出するために効果的な表現が重要である。 これらの表現は、最近のいくつかの研究で注意深く設計された前文タスクを使用して、ラベルのない画像やビデオから自己教師付きで学習されている。 しかし、従来の研究は、空間的識別的特徴または時間的反復的特徴に焦点を合わせ、空間的・時間的手がかりの相乗効果にはほとんど注意を払わない。 この問題に対処するために,時空間型自己教師型学習手法を提案する。 具体的には,無ラベル画像からコントラスト学習により空間的特徴を抽出し,復元的学習により無ラベル映像の時間的手がかりを活用し,その特徴を増強する。 第2段階では,学習者が空間的手がかりを忘れないように大域的相関蒸留損失と局所的相関蒸留損失をデザインし,再構築に影響を及ぼす時間的不連続に対処する。 提案手法は,対応型映像解析タスクにおける実験結果によって確立された,最先端の自己教師あり手法を上回っている。 また, 2段階設計の有効性と蒸留損失を検証するため, アブレーション実験を行った。

In low-level video analyses, effective representations are important to derive the correspondences between video frames. These representations have been learned in a self-supervised fashion from unlabeled images or videos, using carefully designed pretext tasks in some recent studies. However, the previous work concentrates on either spatial-discriminative features or temporal-repetitive features, with little attention to the synergy between spatial and temporal cues. To address this issue, we propose a spatial-then-temporal self-supervised learning method. Specifically, we firstly extract spatial features from unlabeled images via contrastive learning, and secondly enhance the features by exploiting the temporal cues in unlabeled videos via reconstructive learning. In the second step, we design a global correlation distillation loss to ensure the learning not to forget the spatial cues, and a local correlation distillation loss to combat the temporal discontinuity that harms the reconstruction. The proposed method outperforms the state-of-the-art self-supervised methods, as established by the experimental results on a series of correspondence-based video analysis tasks. Also, we performed ablation studies to verify the effectiveness of the two-step design as well as the distillation losses.
翻訳日:2023-04-19 11:32:36 公開日:2023-04-18
# 低リソース言語のためのニューラルマシン翻訳

Neural Machine Translation For Low Resource Languages ( http://arxiv.org/abs/2304.07869v2 )

ライセンス: Link先を確認
Vakul Goyle, Parvathy Krishnaswamy, Kannan Girija Ravikumar, Utsa Chattopadhyay, Kartikay Goyle(参考訳) ニューラルマシン翻訳は、自然言語がもたらす本質的に複雑な性質と流動性のため、難しい課題である。 しかし、近年ではいくつかの言語ペアで最先端のパフォーマンスを実現している。 近年、多言語ニューラルマシン翻訳(mnmt)の分野では、多くのトラクションが見られるが、どのアプローチがうまく機能するかを特定するための包括的な調査は行われていない。 本研究の目的は,低資源言語領域を調査し,最新の結果を達成するためのニューラルマシン翻訳モデルを構築することである。 この論文は、mbart言語モデルを基盤として、バック翻訳やトランスファー学習など、さまざまなnlpおよびディープラーニング技術でそれを強化するための戦略を探求するものだ。 この実装は、NMTアプリケーションのアーキテクチャを解き放ち、低リソース言語問題空間のパースペクティブ内で、そのアプリケーションを修正する機会を提供する様々なコンポーネントを決定しようとします。

Neural Machine translation is a challenging task due to the inherent complex nature and the fluidity that natural languages bring. Nonetheless, in recent years, it has achieved state-of-the-art performance in several language pairs. Although, a lot of traction can be seen in the areas of multilingual neural machine translation (MNMT) in the recent years, there are no comprehensive survey done to identify what approaches work well. The goal of this paper is to investigate the realm of low resource languages and build a Neural Machine Translation model to achieve state-of-the-art results. The paper looks to build upon the mBART language model and explore strategies to augment it with various NLP and Deep Learning techniques like back translation and transfer learning. This implementation tries to unpack the architecture of the NMT application and determine the different components which offers us opportunities to amend the said application within the purview of the low resource languages problem space.
翻訳日:2023-04-19 11:26:00 公開日:2023-04-18
# Hierarchical Feature Conditional Diffusion を用いたMRIスライス間隔の任意化

Arbitrary Reduction of MRI Inter-slice Spacing Using Hierarchical Feature Conditional Diffusion ( http://arxiv.org/abs/2304.07756v2 )

ライセンス: Link先を確認
Xin Wang, Zhenrong Shen, Zhiyun Song, Sheng Wang, Mengjun Liu, Lichi Zhang, Kai Xuan, Qian Wang(参考訳) 2次元走査プロトコルで収集された磁気共鳴(MR)画像は、通常、大きなスライス間隔を持ち、高平面分解能を持つが、平面分解能は低下する。 超高解像度技術は、2DスキャンしたMR画像のスライス間隔を減らし、下流での視覚体験とコンピュータ支援診断を容易にする。 しかし、既存のほとんどの超解像法は一定のスケーリング比で訓練されており、MRスキャンがスライス間隔の異なる臨床環境では不都合である。 そこで本稿では,mrインタースライス間隔を任意に低減するための階層的特徴条件拡散(hifi-diff)を提案する。 隣接した2つのMRスライスと相対的な位置オフセットが与えられた場合、HiFi-Diffはガウスノイズマップを任意の所望のMRスライスに変換する。 さらに, 階層的特徴抽出 (HiFE) モジュールは, 階層的に条件特徴を抽出し, 要素ワイド変調を行う。 HCP-1200データセットを用いた実験結果から,HiFi-Diffの高忠実度超解像能と下流セグメンテーション性能の向上効果が示された。

Magnetic resonance (MR) images collected in 2D scanning protocols typically have large inter-slice spacing, resulting in high in-plane resolution but reduced through-plane resolution. Super-resolution techniques can reduce the inter-slice spacing of 2D scanned MR images, facilitating the downstream visual experience and computer-aided diagnosis. However, most existing super-resolution methods are trained at a fixed scaling ratio, which is inconvenient in clinical settings where MR scanning may have varying inter-slice spacings. To solve this issue, we propose Hierarchical Feature Conditional Diffusion (HiFi-Diff)} for arbitrary reduction of MR inter-slice spacing. Given two adjacent MR slices and the relative positional offset, HiFi-Diff can iteratively convert a Gaussian noise map into any desired in-between MR slice. Furthermore, to enable fine-grained conditioning, the Hierarchical Feature Extraction (HiFE) module is proposed to hierarchically extract conditional features and conduct element-wise modulation. Our experimental results on the publicly available HCP-1200 dataset demonstrate the high-fidelity super-resolution capability of HiFi-Diff and its efficacy in enhancing downstream segmentation performance.
翻訳日:2023-04-19 11:25:45 公開日:2023-04-18
# Canvas:ニューラルネットワークにおけるエンドツーエンドカーネルアーキテクチャ検索

Canvas: End-to-End Kernel Architecture Search in Neural Networks ( http://arxiv.org/abs/2304.07741v2 )

ライセンス: Link先を確認
Chenggang Zhao, Genghan Zhang, Mingyu Gao(参考訳) ニューラルネットワーク(nns)における高いパフォーマンスと精度の要求は、決して終わらない。 既存のテンソルコンパイルとニューラルアーキテクチャサーチ(NAS)技術は2つの目標を直交的に最適化するが、具体的な戦略で多くの類似点を共有している。 我々はこの2つを1つに組み合わせて、カーネルアーキテクチャ検索(KAS)を例に挙げる。 KASはシステムの観点からNASをレビューし、よりきめ細かいレベルに拡大して、高性能かつ高精度なニューラルカーネルを生成する。 KASの可能性を実証するために、私たちは、高品質なカーネルを畳み込み置換として見つけるために、エンドツーエンドのフレームワークCanvasを構築した。 Canvasはリッチなきめ細かいプリミティブからサンプルを抽出し、確率的に反復的に新しいカーネルを構築し、ユーザ指定の制約に従って評価する。 canvasはカーネル内で自由に調整可能なテンソル次元サイズをサポートし、構造的合法性を満たすために2段階のソルバを使用し、モデル予算を十分に活用する。 評価の結果,標準畳み込みを共通NNで生成した新しいカーネルに置き換えることで,従来の最先端技術と比較して平均1.5倍の高速化を実現し,精度の低下と探索効率を許容できることがわかった。 canvasは、過去に多くの手動で設計されたカーネルを再発見し、将来の機械学習イノベーションを刺激する新しい構造を作り出すことで、kasの実用性を検証する。 ソースコードと実装については、canvasをhttps://github.com/tsinghua-ideal/canvasでオープンソース化しました。

The demands for higher performance and accuracy in neural networks (NNs) never end. Existing tensor compilation and Neural Architecture Search (NAS) techniques orthogonally optimize the two goals but actually share many similarities in their concrete strategies. We exploit such opportunities by combining the two into one and make a case for Kernel Architecture Search (KAS). KAS reviews NAS from a system perspective and zooms into a more fine-grained level to generate neural kernels with both high performance and good accuracy. To demonstrate the potential of KAS, we build an end-to-end framework, Canvas, to find high-quality kernels as convolution replacements. Canvas samples from a rich set of fine-grained primitives to stochastically and iteratively construct new kernels and evaluate them according to user-specified constraints. Canvas supports freely adjustable tensor dimension sizes inside the kernel and uses two levels of solvers to satisfy structural legality and fully utilize model budgets. The evaluation shows that by replacing standard convolutions with generated new kernels in common NNs, Canvas achieves average 1.5x speedups compared to the previous state-of-the-art with acceptable accuracy loss and search efficiency. Canvas verifies the practicability of KAS by rediscovering many manually designed kernels in the past and producing new structures that may inspire future machine learning innovations. For source code and implementation, we open-sourced Canvas at https://github.com/tsinghua-ideal/Canvas.
翻訳日:2023-04-19 11:25:23 公開日:2023-04-18
# 不確定な距離表現のための経験的ブレグマン分岐の学習

Learning Empirical Bregman Divergence for Uncertain Distance Representation ( http://arxiv.org/abs/2304.07689v2 )

ライセンス: Link先を確認
Zhiyuan Li, Ziru Liu, Anna Zou, Anca L. Ralescu(参考訳) ディープメトリック学習技術は、ディープネットワークを用いたサンプルの埋め込みを学習することで、様々な教師なしおよび教師なしの学習タスクの視覚的表現に使われている。 しかし、2つの埋め込みの類似性関数として固定距離計量を用いる古典的手法は、複雑なデータ分布を捉える際の最適以下の性能をもたらす可能性がある。 bregman divergenceは様々な距離メトリクスの測定を一般化し、ディープメトリック学習の多くの分野に出現する。 本稿では,Bregmanの発散から,メトリクス学習の損失がどのように生ずるかを示す。 次に,Bregman分散の根底にある凸関数のパラメータ化に基づくデータから直接,経験的Bregman分散を学習するための新しい手法を提案する。 さらに,本手法が一般的な5つのデータセットに対して,他のsata深層メトリック学習手法,特にパターン認識問題に対して効果的に動作することを示す。

Deep metric learning techniques have been used for visual representation in various supervised and unsupervised learning tasks through learning embeddings of samples with deep networks. However, classic approaches, which employ a fixed distance metric as a similarity function between two embeddings, may lead to suboptimal performance for capturing the complex data distribution. The Bregman divergence generalizes measures of various distance metrics and arises throughout many fields of deep metric learning. In this paper, we first show how deep metric learning loss can arise from the Bregman divergence. We then introduce a novel method for learning empirical Bregman divergence directly from data based on parameterizing the convex function underlying the Bregman divergence with a deep learning setting. We further experimentally show that our approach performs effectively on five popular public datasets compared to other SOTA deep metric learning methods, particularly for pattern recognition problems.
翻訳日:2023-04-19 11:24:58 公開日:2023-04-18
# 光誘起円錐交差による原子イオン電荷交換の量子制御

Quantum Control of Atom-Ion Charge Exchange via Light-induced Conical Intersections ( http://arxiv.org/abs/2304.07571v2 )

ライセンス: Link先を確認
Hui Li and Ming Li and Alexander Petrov and Eite Tiesinga and Svetlana Kotochigova(参考訳) 円錐交差は、衝突する原子と分子の多次元座標空間における2つ以上の断熱的電子ポテンシャルエネルギー表面の間の点または線である。 円錐交差とそれに対応する非断熱結合は分子動力学と化学的性質に大きな影響を与える。 本稿では,レーザー誘起円錐交叉(licIs)の存在下での超低温原子イオン電荷交換反応における有意あるいは測定可能な非断熱効果を予測した。 レーザー強度が比較的低い10^8$W/cm$^2$, 超低温では1mK以下であった。 レーザ周波数の関数としてKとCa$^+$の電荷交換率係数の不規則な干渉効果を予測する。 これらの異常は2つの液滴が存在するため,本システムで発生する。 反応力学におけるlicIの役割をさらに解明するために、これらの速度係数を、CIが「取り除かれた」システムで計算された値と比較する。 円錐状相互作用が存在するレーザー周波数窓において、レート係数の差は10−9}$cm$^3$/sとなる。

Conical intersections are crossing points or lines between two or more adiabatic electronic potential energy surfaces in the multi-dimensional coordinate space of colliding atoms and molecules. Conical intersections and corresponding non-adiabatic coupling can greatly affect molecular dynamics and chemical properties. In this paper, we predict significant or measurable non-adiabatic effects in an ultracold atom-ion charge-exchange reaction in the presence of laser-induced conical intersections (LICIs). We investigate the fundamental physics of these LICIs on molecular reactivity under unique conditions: those of relatively low laser intensity of $10^8$ W/cm$^2$ and ultracold temperatures below 1 mK. We predict irregular interference effects in the charge-exchange rate coefficients between K and Ca$^+$ as functions of laser frequency. These irregularities occur in our system due to the presence of two LICIs. To further elucidate the role of the LICIs on the reaction dynamics, we compare these rate coefficients with those computed for a system where the CIs have been ``removed''. In the laser frequency window, where conical interactions are present, the difference in rate coefficients can be as large as $10^{-9}$ cm$^3$/s.
翻訳日:2023-04-19 11:24:44 公開日:2023-04-18
# アフリカにおける機械学習研究の動向: bibliometric analysis review による30年の振り返り

Machine Learning Research Trends in Africa: A 30 Years Overview with Bibliometric Analysis Review ( http://arxiv.org/abs/2304.07542v2 )

ライセンス: Link先を確認
Absalom E. Ezugwu, Olaide N. Oyelade, Abiodun M. Ikotun, Jeffery O. Agushaka, Yuh-Shan Ho(参考訳) 本稿では,アフリカを視点とした機械学習研究における最近の進展と関連する応用に関する広範な文献調査と合わせて,批判的文献計測分析研究を行った。 論文は2761の機械学習関連文書からなり、そのうち98%が過去30年間に903の雑誌に少なくとも482件の引用を掲載した論文である。 さらに、1993年から2021年にかけて、54のアフリカ諸国の研究論文を含む科学引用指数から照合された文書が抽出された。 書誌学的研究は、アフリカ大陸に散在する異なる研究機関の著者間の将来の共同研究と知識交換を促進するために、機械学習研究の現在の景観と今後のトレンドの可視化と応用について示している。

In this paper, a critical bibliometric analysis study is conducted, coupled with an extensive literature survey on recent developments and associated applications in machine learning research with a perspective on Africa. The presented bibliometric analysis study consists of 2761 machine learning-related documents, of which 98% were articles with at least 482 citations published in 903 journals during the past 30 years. Furthermore, the collated documents were retrieved from the Science Citation Index EXPANDED, comprising research publications from 54 African countries between 1993 and 2021. The bibliometric study shows the visualization of the current landscape and future trends in machine learning research and its application to facilitate future collaborative research and knowledge exchange among authors from different research institutions scattered across the African continent.
翻訳日:2023-04-19 11:24:27 公開日:2023-04-18
# シーンセマンティックセグメンテーションのための地域機能学習

Region-Enhanced Feature Learning for Scene Semantic Segmentation ( http://arxiv.org/abs/2304.07486v2 )

ライセンス: Link先を確認
Xin Kang, Chaoqun Wang, Xuejin Chen(参考訳) 複雑なシーンにおける意味セグメンテーションは、局所的なオブジェクトの外観だけでなく、オブジェクトの位置や周囲の環境にも依存する。 それにもかかわらず、大規模ポイントクラウドの計算コストが大きいため、ペアワイズなポイント相関の形式で長距離コンテキストをモデル化することは困難である。 本稿では,計算負荷を軽減するために,細粒度点やボクセルではなく,点雲の中間表現として領域を用いることを提案する。 本稿では、領域相関を利用して曖昧な点の特徴を高める新しい領域拡張特徴学習ネットワーク(REFL-Net)を提案する。 本研究では,意味空間領域抽出 (SSRE) 段階と領域依存モデリング (RDM) 段階からなる領域ベース特徴拡張モジュール (RFE) を設計する。 ssreの段階では、入力点を意味空間と空間空間空間の両方の点距離に応じて一連の領域にグループ化する。 RDMでは,領域の特徴に対する自己注意ブロックと,領域の特徴と融合点特徴を用いて,地域的意味と空間的関係を探索し,より識別的な表現を得る。 提案するRFEモジュールは,一般的なセマンティックセグメンテーションバックボーンと統合可能なプラグイン・アンド・プレイモジュールである。 ScanNetv2とS3DISデータセットに関する広範な実験を行い、異なるセグメンテーションバックボーンでRFEモジュールを評価する。 我々のREFL-NetはScanNetv2の1.8% mIoUゲインとS3DISの1.0% mIoUゲインを、バックボーンネットワークと比較して無視できる計算コストで達成している。 定量的および定性的な結果から,refl-netの強力な長距離文脈モデリング能力と強汎化能力を示す。

Semantic segmentation in complex scenes not only relies on local object appearance but also on object locations and the surrounding environment. Nonetheless, it is difficult to model long-range context in the format of pairwise point correlations due to its huge computational cost for large-scale point clouds. In this paper, we propose to use regions as the intermediate representation of point clouds instead of fine-grained points or voxels to reduce the computational burden. We introduce a novel Region-Enhanced Feature Learning network (REFL-Net) that leverages region correlations to enhance the features of ambiguous points. We design a Region-based Feature Enhancement module (RFE) which consists of a Semantic-Spatial Region Extraction (SSRE) stage and a Region Dependency Modeling (RDM) stage. In the SSRE stage, we group the input points into a set of regions according to the point distances in both semantic and spatial space. In the RDM part, we explore region-wise semantic and spatial relationships via a self-attention block on region features and fuse point features with the region features to obtain more discriminative representations. Our proposed RFE module is a plug-and-play module that can be integrated with common semantic segmentation backbones. We conduct extensive experiments on ScanNetv2 and S3DIS datasets, and evaluate our RFE module with different segmentation backbones. Our REFL-Net achieves 1.8% mIoU gain on ScanNetv2 and 1.0% mIoU gain on S3DIS respectively with negligible computational cost compared to the backbone networks. Both quantitative and qualitative results show the powerful long-range context modeling ability and strong generalization ability of our REFL-Net.
翻訳日:2023-04-19 11:24:12 公開日:2023-04-18
# 自動回帰言語生成のためのトラクタブル制御

Tractable Control for Autoregressive Language Generation ( http://arxiv.org/abs/2304.07438v2 )

ライセンス: Link先を確認
Honghua Zhang, Meihua Dang, Nanyun Peng, Guy Van den Broeck(参考訳) テキスト生成における自己回帰的な大規模言語モデルの成功にもかかわらず、複雑な制約を満たすテキストを生成することは依然として大きな課題である。 この課題を克服するために,我々は,GeLaToと呼ばれる自動回帰テキスト生成に語彙制約を課すために,トラクタブル確率モデルを提案する。 本フレームワークの有効性を示すため, 蒸留したマルコフモデルを用いて, GPT2からの自己回帰生成を制御する。 GeLaToは制約付きテキスト生成の挑戦的なベンチマークであるCommonGenの最先端のパフォーマンスを達成し、幅広い強力なベースラインを大きなマージンで上回る。 我々の研究は、大きな言語モデルを制御するための新しい道を開くだけでなく、より表現力のある扱いやすい確率モデルの開発を動機付ける。

Despite the success of autoregressive large language models in text generation, it remains a major challenge to generate text that satisfies complex constraints: sampling from the conditional distribution $\Pr(\text{text} | \alpha)$ is intractable for even the simplest lexical constraints $\alpha$. To overcome this challenge, we propose to use tractable probabilistic models to impose lexical constraints in autoregressive text generation, which we refer to as GeLaTo. To demonstrate the effectiveness of this framework, we use distilled hidden Markov models to control autoregressive generation from GPT2. GeLaTo achieves state-of-the-art performance on CommonGen, a challenging benchmark for constrained text generation, beating a wide range of strong baselines by a large margin. Our work not only opens up new avenues for controlling large language models but also motivates the development of more expressive tractable probabilistic models.
翻訳日:2023-04-19 11:23:46 公開日:2023-04-18
# h2tne:双曲空間に埋め込まれた時間的異種情報ネットワーク

H2TNE: Temporal Heterogeneous Information Network Embedding in Hyperbolic Spaces ( http://arxiv.org/abs/2304.06970v2 )

ライセンス: Link先を確認
Qijie Bai, Jiawen Guo, Haiwei Zhang, Changli Nie, Lin Zhang, Xiaojie Yuan(参考訳) 低次元空間に異なるタイムスタンプの様々な種類のノードを表現し、構造的および意味的な情報を保存することを目的とした時間的異種情報ネットワーク(時間的HIN)の埋め込みは、多様な現実的なタスクにおいて極めて重要である。 研究者はユークリッド空間に時間的ヒンを埋め込むことに多大な努力をし、かなりの成果を得た。 しかし、多くの実世界のネットワークが階層的特性とパワーロー分布を示し、ユークリッド空間の等尺性ではないという根本的な矛盾は常にある。 近年、双曲空間における表現学習は階層構造とパワーロー構造を持つデータに対して有効であることが証明されている。 この特徴に触発されて、時間HINに対する双曲的異種時間ネットワーク埋め込み(H2TNE)モデルを提案する。 具体的には,時間的および不均質な二重拘束型ランダムウォーク戦略を用いて,構造的・意味的情報を収集し,近接測定における双曲的距離を利用した埋め込み計算を行う。 実験の結果,本手法はSOTAモデルと比較して時間的リンク予測とノード分類に優れていた。

Temporal heterogeneous information network (temporal HIN) embedding, aiming to represent various types of nodes of different timestamps into low dimensional spaces while preserving structural and semantic information, is of vital importance in diverse real-life tasks. Researchers have made great efforts on temporal HIN embedding in Euclidean spaces and got some considerable achievements. However, there is always a fundamental conflict that many real-world networks show hierarchical property and power-law distribution, and are not isometric of Euclidean spaces. Recently, representation learning in hyperbolic spaces has been proved to be valid for data with hierarchical and power-law structure. Inspired by this character, we propose a hyperbolic heterogeneous temporal network embedding (H2TNE) model for temporal HINs. Specifically, we leverage a temporally and heterogeneously double-constrained random walk strategy to capture the structural and semantic information, and then calculate the embedding by exploiting hyperbolic distance in proximity measurement. Experimental results show that our method has superior performance on temporal link prediction and node classification compared with SOTA models.
翻訳日:2023-04-19 11:23:30 公開日:2023-04-18
# 皮膚内視鏡的皮膚癌データセットにおけるドメインシフト : 臨床翻訳に必須限度の評価

Domain shifts in dermoscopic skin cancer datasets: Evaluation of essential limitations for clinical translation ( http://arxiv.org/abs/2304.06968v2 )

ライセンス: Link先を確認
Katharina Fogelberg, Sireesha Chamarthi, Roman C. Maron, Julia Niebling, Titus J. Brinker(参考訳) 畳み込みニューラルネットワークによる画像への一般化能力の制限は、特に皮膚内視鏡的皮膚がん分類のような安全性に重要な臨床的タスクに対する大きな制限である。 cnnベースのアプリケーションをクリニックに翻訳するには、彼らがドメインシフトに適応できることが不可欠である。 このような新しい条件は、異なる画像取得システムや様々な照明条件を使用することによって生じる。 皮膚内視鏡では、シフトは患者の年齢の変化や、稀な病変の局在(例えば手のひら)によって起こることもある。 これらはほとんどのトレーニングデータセットで顕著に表現されていないため、パフォーマンスが低下する可能性がある。 実際の臨床現場における分類モデルの一般化性を検証するためには,そのような領域シフトを模倣したデータにアクセスすることが重要である。 私たちの知識では、そのような領域シフトが適切に記述され、定量化されるような、dermoscopic imageデータセットは存在しない。 そこで我々は,isicアーカイブのメタデータ(獲得位置,病変の局在,患者年齢など)に基づいて公開画像を作成し,有意義なドメインを生成する。 これらの領域が実際には異なることを確認するために、複数の定量化尺度を用いて領域シフトの存在度と強度を推定した。 さらに,教師なしのドメイン適応手法を使わずに,これらのドメインの性能を解析した。 グループ化されたドメインのほとんどは、実際にはドメインシフトが存在する。 以上の結果から,これらのデータセットは皮膚内視鏡的皮膚癌分類器の一般化能力の検証に有用であると考えられた。

The limited ability of Convolutional Neural Networks to generalize to images from previously unseen domains is a major limitation, in particular, for safety-critical clinical tasks such as dermoscopic skin cancer classification. In order to translate CNN-based applications into the clinic, it is essential that they are able to adapt to domain shifts. Such new conditions can arise through the use of different image acquisition systems or varying lighting conditions. In dermoscopy, shifts can also occur as a change in patient age or occurence of rare lesion localizations (e.g. palms). These are not prominently represented in most training datasets and can therefore lead to a decrease in performance. In order to verify the generalizability of classification models in real world clinical settings it is crucial to have access to data which mimics such domain shifts. To our knowledge no dermoscopic image dataset exists where such domain shifts are properly described and quantified. We therefore grouped publicly available images from ISIC archive based on their metadata (e.g. acquisition location, lesion localization, patient age) to generate meaningful domains. To verify that these domains are in fact distinct, we used multiple quantification measures to estimate the presence and intensity of domain shifts. Additionally, we analyzed the performance on these domains with and without an unsupervised domain adaptation technique. We observed that in most of our grouped domains, domain shifts in fact exist. Based on our results, we believe these datasets to be helpful for testing the generalization capabilities of dermoscopic skin cancer classifiers.
翻訳日:2023-04-19 11:23:08 公開日:2023-04-18
# テキスト・ビデオの高効率生成のための時間シフトによる潜時拡散

Latent-Shift: Latent Diffusion with Temporal Shift for Efficient Text-to-Video Generation ( http://arxiv.org/abs/2304.08477v2 )

ライセンス: Link先を確認
Jie An, Songyang Zhang, Harry Yang, Sonal Gupta, Jia-Bin Huang, Jiebo Luo, Xi Yin(参考訳) オートエンコーダとu-net拡散モデルを組み合わせた,事前学習されたテキスト対画像生成モデルに基づく,効率的なテキスト対ビデオ生成手法であるlatent-shiftを提案する。 潜時空間でビデオ拡散モデルを学ぶことはピクセル空間よりもはるかに効率的である。 後者は、最初に低解像度のビデオを生成し、次いでフレーム補間と超高解像度のモデルが続き、パイプライン全体は非常に複雑で計算コストがかかる。 U-Netを画像生成からビデオ生成に拡張するために、以前の作業では、1Dの時間的畳み込みや時間的注意層などの追加モジュールを提案する。 対照的に,映像生成と同様に空間的u-netを活用できるパラメータフリーな時間シフトモジュールを提案する。 特徴写像チャネルの2つの部分を時間次元に沿って前後にシフトすることでこれを実現できる。 これにより、現在のフレームのシフトした特徴は、前とその後のフレームから特徴を受け取り、追加パラメータなしで動きの学習を可能にする。 Latent-Shiftは、より効率的でありながら、同等またはより良い結果が得られることを示す。 さらに、Latent-Shiftは、T2V生成のために微調整されているにもかかわらず、画像を生成することができる。

We propose Latent-Shift -- an efficient text-to-video generation method based on a pretrained text-to-image generation model that consists of an autoencoder and a U-Net diffusion model. Learning a video diffusion model in the latent space is much more efficient than in the pixel space. The latter is often limited to first generating a low-resolution video followed by a sequence of frame interpolation and super-resolution models, which makes the entire pipeline very complex and computationally expensive. To extend a U-Net from image generation to video generation, prior work proposes to add additional modules like 1D temporal convolution and/or temporal attention layers. In contrast, we propose a parameter-free temporal shift module that can leverage the spatial U-Net as is for video generation. We achieve this by shifting two portions of the feature map channels forward and backward along the temporal dimension. The shifted features of the current frame thus receive the features from the previous and the subsequent frames, enabling motion learning without additional parameters. We show that Latent-Shift achieves comparable or better results while being significantly more efficient. Moreover, Latent-Shift can generate images despite being finetuned for T2V generation.
翻訳日:2023-04-19 11:16:59 公開日:2023-04-18
# 局所的最大切断に対する古典上の量子的優位性

A quantum advantage over classical for local max cut ( http://arxiv.org/abs/2304.08420v2 )

ライセンス: Link先を確認
Charlie Carlson, Zackary Jorquera, Alexandra Kolla, Steven Kordonowy(参考訳) 量子局所アルゴリズムの性能を、よく確立された組合せ最適化問題LocalMaxCut上で、類似の古典的アルゴリズムと比較する。 量子最適化近似アルゴリズム (qaoa) と呼ばれる、farhi, goldstone, gutmannn [1] によって最初に発見された一般的な量子アルゴリズムは、次数-3グラフ上の比較可能な局所的手法よりも計算上優れていることが示されている。 これらの結果は、最先端の量子ハードウェアに関連する小さな量子計算であっても、比較可能な単純な古典計算よりも大きな利点があることを示唆している。

We compare the performance of a quantum local algorithm to a similar classical counterpart on a well-established combinatorial optimization problem LocalMaxCut. We show that a popular quantum algorithm first discovered by Farhi, Goldstone, and Gutmannn [1] called the quantum optimization approximation algorithm (QAOA) has a computational advantage over comparable local classical techniques on degree-3 graphs. These results hint that even small-scale quantum computation, which is relevant to the current state-of the art quantum hardware, could have significant advantages over comparably simple classical computation.
翻訳日:2023-04-19 11:16:38 公開日:2023-04-18
# Evil from inside: ハードウェアトロイの木馬によるマシンラーニングバックドア

Evil from Within: Machine Learning Backdoors through Hardware Trojans ( http://arxiv.org/abs/2304.08411v2 )

ライセンス: Link先を確認
Alexander Warnecke, Julian Speith, Jan-Niklas M\"oller, Konrad Rieck, Christof Paar(参考訳) バックドアは、自動運転車のようなセキュリティクリティカルなシステムの完全性を損なう可能性があるため、機械学習に深刻な脅威をもたらす。 この脅威に対処するために異なる防御策が提案されているが、それらはすべて、推論中に学習モデルを実行するハードウェアが信頼されているという仮定に依存している。 本稿では、この仮定に挑戦し、機械学習のための共通のハードウェアアクセラレータ内に存在するバックドア攻撃を導入する。 アクセルの外では、学習モデルもソフトウェアも操作されないため、現在の防御は失敗する。 まず、ハードウェアアクセラレータ上のメモリが極めて制限されているため、元のモデルから可能な限り逸脱し、いくつかのモデルパラメータのみを置き換えることで活性化される最小のバックドアの概念を導入する。 第2に、バックドアでプロビジョニングでき、特定のターゲットモデルを処理する場合にのみ置換を行う構成可能なハードウェアトロイの木馬を開発する。 市販の機械学習アクセラレータであるxilinx vitis ai dpuにハードウェアトロイの木馬を組み込むことにより,攻撃の実用性を示す。 トラヒックサイン認識システムのための最小限のバックドアでトロイの木馬を構成する。 バックドアは30(0.069%)のモデルパラメータに置き換わるが、入力がバックドアトリガを含むと認識を確実に操作する。 我々の攻撃はアクセルのハードウェア回路を0.24%拡張し、実行時のオーバーヘッドを生じさせないため、検出は不可能である。 現在のハードウェアの複雑で高度に分散された製造プロセスを考えると、当社の作業は、現在のセキュリティメカニズムに到達できないマシンラーニングにおける新たな脅威と、完全に信頼された環境でのみ製造されるハードウェアの要求を指し示しています。

Backdoors pose a serious threat to machine learning, as they can compromise the integrity of security-critical systems, such as self-driving cars. While different defenses have been proposed to address this threat, they all rely on the assumption that the hardware on which the learning models are executed during inference is trusted. In this paper, we challenge this assumption and introduce a backdoor attack that completely resides within a common hardware accelerator for machine learning. Outside of the accelerator, neither the learning model nor the software is manipulated, so that current defenses fail. To make this attack practical, we overcome two challenges: First, as memory on a hardware accelerator is severely limited, we introduce the concept of a minimal backdoor that deviates as little as possible from the original model and is activated by replacing a few model parameters only. Second, we develop a configurable hardware trojan that can be provisioned with the backdoor and performs a replacement only when the specific target model is processed. We demonstrate the practical feasibility of our attack by implanting our hardware trojan into the Xilinx Vitis AI DPU, a commercial machine-learning accelerator. We configure the trojan with a minimal backdoor for a traffic-sign recognition system. The backdoor replaces only 30 (0.069%) model parameters, yet it reliably manipulates the recognition once the input contains a backdoor trigger. Our attack expands the hardware circuit of the accelerator by 0.24% and induces no run-time overhead, rendering a detection hardly possible. Given the complex and highly distributed manufacturing process of current hardware, our work points to a new threat in machine learning that is inaccessible to current security mechanisms and calls for hardware to be manufactured only in fully trusted environments.
翻訳日:2023-04-19 11:16:27 公開日:2023-04-18
# コントラスト学習に基づくマルチモーダルショートビデオラグ検出システム

Multimodal Short Video Rumor Detection System Based on Contrastive Learning ( http://arxiv.org/abs/2304.08401v2 )

ライセンス: Link先を確認
Yuxing Yang, Junhao Zhao, Siyi Wang, Xiangyu Min, Pengchao Wang and Haizhou Wang(参考訳) 短いビデオプラットフォームがニュース共有の重要なチャンネルの1つとなり、中国の主要ショートビデオプラットフォームは次第にフェイクニュースの新たな育種地となっている。 しかし,ショートビデオに含まれる情報や特徴の多さや,ビデオ間の特徴の真剣な均質化や類似性から,短いビデオの噂を区別するのは容易ではない。 短いビデオ噂の拡散を緩和するため,我々は,マルチモーダル特徴融合の構築と,各アルゴリズムの長所と短所を考慮した外部知識の導入により,短いビデオ噂の検出を決定した。 検出の考え方は,(1)データセットの作成:複数の特徴を持つ短いビデオデータセットを構築すること,(2)マルチモーダルな噂検出モデル:まず,ビデオ特徴を抽出するためにTSN (Temporal Segment Networks) ビデオ符号化モデルを使用し,次に,OCR (Optical Character Recognition) とASR (Automatic Character Recognition) を用いて映像特徴を抽出する。 認識)とASR(自動音声認識)が融合してテキストを抽出し,BERTモデルを用いてテキスト特徴とビデオ特徴を融合する。(3) 最後に,コントラスト学習を用いて,まず外部知識をクロールし,ベクトルデータベースを用いて外部知識の導入と分類出力の最終構造を実現する。 我々の研究プロセスは、常に実践的なニーズに向けられており、関連する知識は、短いビデオ噂の識別や社会的意見制御など、多くの実践シナリオにおいて重要な役割を果たす。

With short video platforms becoming one of the important channels for news sharing, major short video platforms in China have gradually become new breeding grounds for fake news. However, it is not easy to distinguish short video rumors due to the great amount of information and features contained in short videos, as well as the serious homogenization and similarity of features among videos. In order to mitigate the spread of short video rumors, our group decides to detect short video rumors by constructing multimodal feature fusion and introducing external knowledge after considering the advantages and disadvantages of each algorithm. The ideas of detection are as follows: (1) dataset creation: to build a short video dataset with multiple features; (2) multimodal rumor detection model: firstly, we use TSN (Temporal Segment Networks) video coding model to extract video features; then, we use OCR (Optical Character Recognition) and ASR (Automatic Character Recognition) to extract video features. Recognition) and ASR (Automatic Speech Recognition) fusion to extract text, and then use the BERT model to fuse text features with video features (3) Finally, use contrast learning to achieve distinction: first crawl external knowledge, then use the vector database to achieve the introduction of external knowledge and the final structure of the classification output. Our research process is always oriented to practical needs, and the related knowledge results will play an important role in many practical scenarios such as short video rumor identification and social opinion control.
翻訳日:2023-04-19 11:15:58 公開日:2023-04-18
# チームスポーツにおける予測選手の役割について

About latent roles in forecasting players in team sports ( http://arxiv.org/abs/2304.08272v2 )

ライセンス: Link先を確認
Luca Scofano, Alessio Sampieri, Giuseppe Re, Matteo Almanza, Alessandro Panconesi, Fabio Galasso(参考訳) スポーツにおける選手の予測は、戦術的な優位性と、マルチエージェントインタラクションシステムへのそのような研究の適用性のため、人気が高まっている。 チームスポーツは、チームメイトと対戦相手の相互作用に影響を与える重要な社会的要素を含んでいる。 しかし、それでも十分に活用する必要がある。 本研究では、各参加者がそれぞれのアクションに特定の機能を持ち、ロールベースのインタラクションがプレイヤーの将来の動きを予測する上で重要であると仮定する。 RolForはロールベースのForecastingのための新しいエンドツーエンドモデルです。 RolForは、新しいモジュールであるOrdering Neural Networks(OrderNN)を使用して、プレイヤーの順番をパーミュレートし、各プレイヤーが潜在ロールに割り当てられるようにします。 潜在ロールはRoleGCNでモデル化される。 グラフ表現のおかげで、完全に学習可能な隣接行列が提供され、役割間の関係を捉え、その後プレイヤーの将来の軌跡を予測するのに使用される。 nbaバスケットボールの挑戦的なデータセットに関する広範な実験は、役割の重要性を裏付け、最適化可能なモデルを使ってモデリングするという私たちのゴールを正当化します。 オラクルが役割を提供する場合、提案されたRolForは現在の最先端と好意的に比較する(ADEとFDEのエラーで第1位、第2位)。 しかし、エンドツーエンドのRolForのトレーニングは、置換法の微分可能性の問題を引き起こし、実験的にレビューした。 最後に、この研究は、微分可能なランク付けを難しいオープン問題として残し、グラフベースの相互作用モデルと組み合わせることで大きな可能性を秘めている。 Project は https://www.pinlab.org/aboutlatentroles で利用可能である。

Forecasting players in sports has grown in popularity due to the potential for a tactical advantage and the applicability of such research to multi-agent interaction systems. Team sports contain a significant social component that influences interactions between teammates and opponents. However, it still needs to be fully exploited. In this work, we hypothesize that each participant has a specific function in each action and that role-based interaction is critical for predicting players' future moves. We create RolFor, a novel end-to-end model for Role-based Forecasting. RolFor uses a new module we developed called Ordering Neural Networks (OrderNN) to permute the order of the players such that each player is assigned to a latent role. The latent role is then modeled with a RoleGCN. Thanks to its graph representation, it provides a fully learnable adjacency matrix that captures the relationships between roles and is subsequently used to forecast the players' future trajectories. Extensive experiments on a challenging NBA basketball dataset back up the importance of roles and justify our goal of modeling them using optimizable models. When an oracle provides roles, the proposed RolFor compares favorably to the current state-of-the-art (it ranks first in terms of ADE and second in terms of FDE errors). However, training the end-to-end RolFor incurs the issues of differentiability of permutation methods, which we experimentally review. Finally, this work restates differentiable ranking as a difficult open problem and its great potential in conjunction with graph-based interaction models. Project is available at: https://www.pinlab.org/aboutlatentroles
翻訳日:2023-04-19 11:15:28 公開日:2023-04-18
# 顔認証エッジケースに取り組む - 奥行き解析とヒューマンマシン融合アプローチ-

Tackling Face Verification Edge Cases: In-Depth Analysis and Human-Machine Fusion Approach ( http://arxiv.org/abs/2304.08134v2 )

ライセンス: Link先を確認
Martin Knoche and Gerhard Rigoll(参考訳) 現在、顔認識システムは複数のデータセットで人間のパフォーマンスを上回っている。 しかし、マシンが正しく分類できないエッジケースは依然として存在する。 本稿では,顔認証タスクにおける機械と操作者の組合せの効果について検討する。 まず、いくつかの最先端モデルのエッジケースに注目して、共通のデータセットの困難な設定を見つける。 次に,選択タスクの参加者60名を対象に,人間による調査を行い,詳細な分析を行った。 最後に、機械と人間の意思決定を組み合わせることで、様々なベンチマークデータセットにおける最先端の顔認証システムの性能をさらに向上できることを実証する。 コードとデータはgithubで公開されている。

Nowadays, face recognition systems surpass human performance on several datasets. However, there are still edge cases that the machine can't correctly classify. This paper investigates the effect of a combination of machine and human operators in the face verification task. First, we look closer at the edge cases for several state-of-the-art models to discover common datasets' challenging settings. Then, we conduct a study with 60 participants on these selected tasks with humans and provide an extensive analysis. Finally, we demonstrate that combining machine and human decisions can further improve the performance of state-of-the-art face verification systems on various benchmark datasets. Code and data are publicly available on GitHub.
翻訳日:2023-04-19 11:15:04 公開日:2023-04-18
# 大言語モデルに基づく中国語指導データのフルパラメータとloraに基づく微調整の比較検討

A Comparative Study between Full-Parameter and LoRA-based Fine-Tuning on Chinese Instruction Data for Instruction Following Large Language Model ( http://arxiv.org/abs/2304.08109v2 )

ライセンス: Link先を確認
Xianghui Sun, Yunjie Ji, Baochang Ma, Xiangang Li(参考訳) 近年,自然言語処理の分野では,大規模言語モデルのインストラクションチューニングが重要な研究分野となっている。 リソースとコストの制限のため、いくつかの研究者は命令チューニングのためにloraのようなパラメータ効率の良いチューニング技術を採用し、フルパラメータの微調整と比較して奨励的な結果を得た。 本研究では,LLaMAをベースモデルとして,全パラメータ微調整法とLoRAに基づくチューニング法の比較を行った。 実験の結果,基礎モデルの選択,トレーニングデータセットスケール,学習可能なパラメータ量,モデルトレーニングコストがすべて重要な要因であることがわかった。 本稿の実験的な結論は、特に中国語の分野において、大規模言語モデルの学習にインスピレーションを与え、研究者がトレーニングコストとモデル性能のトレードオフ戦略をよりよいものにすることを願っている。 論文の結果の再現を容易にするために、データセット、モデル、コードがリリースされる。

Recently, the instruction-tuning of large language models is a crucial area of research in the field of natural language processing. Due to resource and cost limitations, several researchers have employed parameter-efficient tuning techniques, such as LoRA, for instruction tuning, and have obtained encouraging results In comparison to full-parameter fine-tuning, LoRA-based tuning demonstrates salient benefits in terms of training costs. In this study, we undertook experimental comparisons between full-parameter fine-tuning and LoRA-based tuning methods, utilizing LLaMA as the base model. The experimental results show that the selection of the foundational model, training dataset scale, learnable parameter quantity, and model training cost are all important factors. We hope that the experimental conclusions of this paper can provide inspiration for training large language models, especially in the field of Chinese, and help researchers find a better trade-off strategy between training cost and model performance. To facilitate the reproduction of the paper's results, the dataset, model and code will be released.
翻訳日:2023-04-19 11:14:55 公開日:2023-04-18
# 中国のオープンインストラクションジェネラリスト:予備リリース

Chinese Open Instruction Generalist: A Preliminary Release ( http://arxiv.org/abs/2304.07987v2 )

ライセンス: Link先を確認
Ge Zhang, Yemin Shi, Ruibo Liu, Ruibin Yuan, Yizhi Li, Siwei Dong, Yu Shu, Zhaoqun Li, Zekun Wang, Chenghua Lin, Wenhao Huang, Jie Fu(参考訳) InstructGPT~\citep{ouyang2022training} と ChatGPT\footnote{\url{https://chat.openai.com/}} のリリースで研究者や一般の注目を集めている。 英語指向の大規模言語モデル (LLM) は目覚ましい進歩を遂げているが, 英語をベースとしたLLMが, 英語タスクと多言語タスクでよく似た機能を発揮するか, チューニングに必要なコーパスを構築するかは, いまだ未定である。 このギャップを解消するために,4つのサブタスクの特徴に適応した様々な手法による中国語命令データセット作成の試みとして提案する。 我々は、品質を保証するために手作業でチェックされた約200万の中国語命令チューニングサンプルを収集した。 また、既存の英語と中国語の命令コーパスを要約し、新たに構築された中国語の命令コーパスの潜在的な応用を簡潔に述べる。 得られた \textbf{C}hinese \textbf{O}pen \textbf{I}nstruction \textbf{G}eneralist (\textbf{COIG}) corpora は Huggingface\footnote{\url{https://huggingface.co/datasets/BAAI/COIG}} と Github\footnote{\url{https://github.com/FlagOpen/FlagInstruct}} で利用可能で、継続的に更新される。

Instruction tuning is widely recognized as a key technique for building generalist language models, which has attracted the attention of researchers and the public with the release of InstructGPT~\citep{ouyang2022training} and ChatGPT\footnote{\url{https://chat.openai.com/}}. Despite impressive progress in English-oriented large-scale language models (LLMs), it is still under-explored whether English-based foundation LLMs can perform similarly on multilingual tasks compared to English tasks with well-designed instruction tuning and how we can construct the corpora needed for the tuning. To remedy this gap, we propose the project as an attempt to create a Chinese instruction dataset by various methods adapted to the intrinsic characteristics of 4 sub-tasks. We collect around 200k Chinese instruction tuning samples, which have been manually checked to guarantee high quality. We also summarize the existing English and Chinese instruction corpora and briefly describe some potential applications of the newly constructed Chinese instruction corpora. The resulting \textbf{C}hinese \textbf{O}pen \textbf{I}nstruction \textbf{G}eneralist (\textbf{COIG}) corpora are available in Huggingface\footnote{\url{https://huggingface.co/datasets/BAAI/COIG}} and Github\footnote{\url{https://github.com/FlagOpen/FlagInstruct}}, and will be continuously updated.
翻訳日:2023-04-19 11:14:37 公開日:2023-04-18
# lewis-riesenfeld不変量理論に基づく駆動マルコフマスター方程式

The driven-Markovian master equation based on the Lewis-Riesenfeld invariants theory ( http://arxiv.org/abs/2304.07956v2 )

ライセンス: Link先を確認
S. L. Wu, X. L. Huang, and X. X. Yi(参考訳) 任意の駆動プロトコルで利用できるルイス=リースフェルド不変量理論に基づいて、駆動されたオープン量子系に対するマルコフのマスター方程式を導出する。ルイス=リースフェルド不変量の役割は、駆動されたマルコフのマスター方程式におけるリンドブラッド作用素が容易に決定できるような自由力学の伝搬子を拡張する際の時間順序障害を回避することである。 また、駆動された開量子系では、自然放出と熱励起はルイス=リースフェルト不変量の固有状態間の遷移を誘導するが、ハミルトニアン系は誘導しない。 一例として、熱貯水池に結合した駆動二段系に対する駆動マルコフマスター方程式を示す。 正確に解けるモデルと比較することにより、駆動マルコフマスター方程式の可用性が検証される。 一方、駆動マルコフマスター方程式の断熱限界と慣性限界も議論され、その結果、対応する極限において前と同じマルコフマスター方程式が得られる。

We derive a Markovian master equation for driven open quantum systems based on the Lewis-Riesenfeld invariants theory, which is available for arbitrary driving protocols.The role of the Lewis-Riesenfeld invariants is to help us bypass the time-ordering obstacle in expanding the propagator of the free dynamics, such that the Lindblad operators in our driven-Markovian master equation can be determined easily. We also illustrate that, for the driven open quantum systems, the spontaneous emission and the thermal excitation induce the transitions between eigenstates of the Lewis-Riesenfeld invariant, but not the system Hamiltonian's. As an example, we present the driven-Markovian master equation for a driven two-level system coupled to a heat reservoir. By comparing to the exactly solvable models, the availability of the driven-Markovian master equation is verified. Meanwhile, the adiabatic limit and inertial limit of the driven-Markovian master equation are also discussed, which result in the same Markovian master equations as those presented before in the corresponding limits.
翻訳日:2023-04-19 11:13:54 公開日:2023-04-18
# 視覚トランスフォーマによる不均質デハジングに対するデータ中心解

A Data-Centric Solution to NonHomogeneous Dehazing via Vision Transformer ( http://arxiv.org/abs/2304.07874v2 )

ライセンス: Link先を確認
Yangyi Liu, Huan Liu, Liangyan Li, Zijun Wu and Jun Chen(参考訳) 近年、画像デハジングへの関心が高まっている。 この課題に対処するために多くのディープラーニング手法が提案され、同種ヘイズを扱う大きな成果を上げてきた。 しかし、これらのソリューションは、NTIREの課題によって導入されたNH-HAZE23データセットのような、均一でないヘイズを持つ画像に適用された場合、同等のパフォーマンスを維持することはできない。 このような失敗の理由の1つは、不均質なヘイズが均質なヘイズをモデル化するのに必要となる前提の1つに従わないことである。 さらに、NH-HAZE23データセットは限られた量であるのに対し、従来のエンドツーエンドのトレーニングアプローチでは、多数の非均一なハズ画像とクリーンな画像が必要である。 NH-HAZE23データセットを他の均質でないデハージングデータセットを利用して拡張することは可能であるが、ターゲットデータセットと拡張データセットとの分散ギャップを低減する適切なデータ前処理アプローチを設計する必要があることが観察されている。 この発見は、データ中心のAIの本質と実際に一致している。 新たなネットワークアーキテクチャと,データ品質を体系的に向上させる原則的データ前処理手法を用いて,革新的なデハジング手法を提案する。 具体的には、拡張データセットにRGBチャネルワイズ変換を適用し、最先端トランスフォーマーを2ブランチフレームワークのバックボーンとして組み込む。 提案手法の有効性を示すため,広範囲な実験とアブレーション実験を行った。

Recent years have witnessed an increased interest in image dehazing. Many deep learning methods have been proposed to tackle this challenge, and have made significant accomplishments dealing with homogeneous haze. However, these solutions cannot maintain comparable performance when they are applied to images with non-homogeneous haze, e.g., NH-HAZE23 dataset introduced by NTIRE challenges. One of the reasons for such failures is that non-homogeneous haze does not obey one of the assumptions that is required for modeling homogeneous haze. In addition, a large number of pairs of non-homogeneous hazy image and the clean counterpart is required using traditional end-to-end training approaches, while NH-HAZE23 dataset is of limited quantities. Although it is possible to augment the NH-HAZE23 dataset by leveraging other non-homogeneous dehazing datasets, we observe that it is necessary to design a proper data-preprocessing approach that reduces the distribution gaps between the target dataset and the augmented one. This finding indeed aligns with the essence of data-centric AI. With a novel network architecture and a principled data-preprocessing approach that systematically enhances data quality, we present an innovative dehazing method. Specifically, we apply RGB-channel-wise transformations on the augmented datasets, and incorporate the state-of-the-art transformers as the backbone in the two-branch framework. We conduct extensive experiments and ablation study to demonstrate the effectiveness of our proposed method.
翻訳日:2023-04-19 11:13:20 公開日:2023-04-18