このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230420となっている論文です。

PDF登録状況(公開日: 20230420)

TitleAuthorsAbstract論文公表日・翻訳日
# SocialLight: ネットワーク側信号制御のための分散協調学習

SocialLight: Distributed Cooperation Learning towards Network-Wide Traffic Signal Control ( http://arxiv.org/abs/2305.16145v1 )

ライセンス: Link先を確認
Harsh Goel, Yifeng Zhang, Mehul Damani, and Guillaume Sartoretti(参考訳) 近年,大規模な都市ネットワーク上での車両の走行時間を最適化するために,適応的な交通信号制御のためのマルチエージェント強化学習(MARL)が数多く行われている。 しかし、既存の手法は広範で一般化不可能な報酬形成や、非スケーリング可能な集中学習に依存しているため、ジャンクション(エージェント)間の効果的でスケーラブルな協調を実現することはオープンな課題である。 こうした問題に対処するため,地域におけるエージェントの個人的限界寄与を分散推定することにより,協調的な交通制御ポリシーを学習する新しいMARL手法であるSocialLightを提案する。 sociallightは非同期アクター批評家(a3c)フレームワークに依存しており、近隣のエージェントの状態や行動について条件付けられたローカル集中型批評家を学習することで、学習をスケーラブルにする。 さらに、政策更新の安定化に役立つ利点計算に重要な修正を加える。 これらの修正は、隣人の行動が計算上の利点に与える影響を分離し、勾配更新のばらつきを減らす。 我々は,SUMOとCityFlowの2つの交通シミュレータの標準ベンチマークにおいて,最先端の交通信号制御手法に対してトレーニングネットワークをベンチマークした。 その結果,sociallightは大規模道路網のスケーラビリティが向上し,トラヒック指標による性能も向上した。

Many recent works have turned to multi-agent reinforcement learning (MARL) for adaptive traffic signal control to optimize the travel time of vehicles over large urban networks. However, achieving effective and scalable cooperation among junctions (agents) remains an open challenge, as existing methods often rely on extensive, non-generalizable reward shaping or on non-scalable centralized learning. To address these problems, we propose a new MARL method for traffic signal control, SocialLight, which learns cooperative traffic control policies by distributedly estimating the individual marginal contribution of agents on their local neighborhood. SocialLight relies on the Asynchronous Actor Critic (A3C) framework, and makes learning scalable by learning a locally-centralized critic conditioned over the states and actions of neighboring agents, used by agents to estimate individual contributions by counterfactual reasoning. We further introduce important modifications to the advantage calculation that help stabilize policy updates. These modifications decouple the impact of the neighbors' actions on the computed advantages, thereby reducing the variance in the gradient updates. We benchmark our trained network against state-of-the-art traffic signal control methods on standard benchmarks in two traffic simulators, SUMO and CityFlow. Our results show that SocialLight exhibits improved scalability to larger road networks and better performance across usual traffic metrics.
翻訳日:2023-05-28 04:30:40 公開日:2023-04-20
# 機械学習による固体燃料粒子の正確な点火検出

Accurate ignition detection of solid fuel particles using machine learning ( http://arxiv.org/abs/2305.00004v1 )

ライセンス: Link先を確認
Tao Li, Zhangke Liang, Andreas Dreizler, Benjamin B\"ohm(参考訳) 本研究は, 高速光診断と機械学習の併用により, 単粒子点火の正確な判定を行うものである。 層流リアクター内の個々の粒子の着火を10khzのoh-lifとdbiの同時測定により可視化する。 90-125{\mu}mと160-200{\mu}mの2つの石炭粒子径を従来の空気および酸素濃度の増加を伴う酸素燃料条件下で検討した。 着火遅延時間をしきい値法で最初に評価し、人間の眼で検出された地面の真理と比較して明らかな偏差を明らかにした。 次に、残差ネットワーク(ResNet)と特徴ピラミッドネットワーク(FPN)を地上真実に基づいて訓練し、着火時間を予測する。 両ネットワークは、高い精度と精度で点火を検出することができる。 また,入力データとネットワークの深さがトレーニングモデルの予測性能に及ぼす影響について検討した。 本研究は, 畳み込みネットワークの階層的特徴抽出により, 高速光計測のためのデータ評価が容易になり, 同様の境界条件で他の固体燃料実験に移管できることを示す。

In the present work, accurate determination of single-particle ignition is focused on using high-speed optical diagnostics combined with machine learning approaches. Ignition of individual particles in a laminar flow reactor are visualized by simultaneous 10 kHz OH-LIF and DBI measurements. Two coal particle sizes of 90-125{\mu}m and 160-200{\mu}m are investigated in conventional air and oxy-fuel conditions with increasing oxygen concentrations. Ignition delay times are first evaluated with threshold methods, revealing obvious deviations compared to the ground truth detected by the human eye. Then, residual networks (ResNet) and feature pyramidal networks (FPN) are trained on the ground truth and applied to predict the ignition time.~Both networks are capable of detecting ignition with significantly higher accuracy and precision. Besides, influences of input data and depth of networks on the prediction performance of a trained model are examined.~The current study shows that the hierarchical feature extraction of the convolutions networks clearly facilitates data evaluation for high-speed optical measurements and could be transferred to other solid fuel experiments with similar boundary conditions.
翻訳日:2023-05-07 16:01:34 公開日:2023-04-20
# NELoRa-Bench: ニューラルネットワークによるLoRa復調ベンチマーク

NELoRa-Bench: A Benchmark for Neural-enhanced LoRa Demodulation ( http://arxiv.org/abs/2305.01573v1 )

ライセンス: Link先を確認
Jialuo Du, Yidong Ren, Mi Zhang, Yunhao Liu, Zhichao Cao(参考訳) Low-Power Wide-Area Networks (LPWAN)は、低消費電力と長距離通信を特徴とするIoT(Internet-of-Things)パラダイムである。 その中でも、loraはユニークな特徴とオープンソース技術のために広く展開されている。 Chirp Spread Spectrum(CSS)変調を採用することで、LoRaは低信号対雑音比(SNR)通信を可能にする。 標準のLoRa復調法は、チャープ全体のチャープパワーを周波数領域のエネルギーピークに蓄積する。 これにより、SNRが-15dB未満であっても通信をサポートすることができる。 さらに我々は,多次元情報を利用したニューラルネットワークデコーダNELoRaを提案し,SNRの大幅な向上を実現した。 本稿では,7から10までの因子を分散させた27,329個のLoRaシンボルを含むNELoRaのトレーニング/テスト用データセットについて述べる。 このデータセットは、NELoRaが標準のLoRaデコーダよりも1.84-2.35dBのSNRを達成可能であることを示している。 データセットとコードはhttps://github.com/daibiaoxuwu/nelora_datasetにある。

Low-Power Wide-Area Networks (LPWANs) are an emerging Internet-of-Things (IoT) paradigm marked by low-power and long-distance communication. Among them, LoRa is widely deployed for its unique characteristics and open-source technology. By adopting the Chirp Spread Spectrum (CSS) modulation, LoRa enables low signal-to-noise ratio (SNR) communication. The standard LoRa demodulation method accumulates the chirp power of the whole chirp into an energy peak in the frequency domain. In this way, it can support communication even when SNR is lower than -15 dB. Beyond that, we proposed NELoRa, a neural-enhanced decoder that exploits multi-dimensional information to achieve significant SNR gain. This paper presents the dataset used to train/test NELoRa, which includes 27,329 LoRa symbols with spreading factors from 7 to 10, for further improvement of neural-enhanced LoRa demodulation. The dataset shows that NELoRa can achieve 1.84-2.35 dB SNR gain over the standard LoRa decoder. The dataset and codes can be found at https://github.com/daibiaoxuwu/NeLoRa_Dataset.
翻訳日:2023-05-07 15:53:32 公開日:2023-04-20
# eFAT:DNNハードウェア加速器の永久故障軽減のための故障認識訓練の有効性の改善

eFAT: Improving the Effectiveness of Fault-Aware Training for Mitigating Permanent Faults in DNN Hardware Accelerators ( http://arxiv.org/abs/2304.12949v1 )

ライセンス: Link先を確認
Muhammad Abdullah Hanif, Muhammad Shafique(参考訳) 障害対応トレーニング(fat)は,dnn加速器の永久的障害に対処するための極めて効果的な手法として,特に低・中程度の障害率において,大幅な性能低下や精度低下を伴わない障害緩和を提供する。 しかし、特に複雑なAIアプリケーション用に設計された大規模なDNNで使用される場合、非常に高いトレーニングオーバーヘッドにつながる。 さらに、各製造チップは別個の故障パターンを持つことができるため、独自の故障マップを考慮して各故障チップに対して個別にFATを行う必要があり、さらに問題を悪化させる。 その利点を維持しつつ、FATのオーバーヘッドを軽減するため、(1)レジリエンス駆動型リトレーニング量選択の概念を提案し、(2)複数の故障マップ(異なるチップにまたがる)のレジリエンス駆動型グループ化と融合を行い、欠陥チップ群の統合リトレーニングを行う。 これらの概念を実現するために,本研究では,DNNの異なる障害率と異なるレベルのリトレーニングレベルの障害に対するレジリエンスを計算する新しいフレームワークであるeFATを提案し,その知識を用いて,ユーザ定義の精度制約を考慮に入れたレジリエンスマップを構築する。 次に、そのユニークなフォールトマップを考慮して、レジリエンスマップを使用して、各チップに必要な再トレーニング量の計算を行う。 その後、レジリエンスと報酬駆動のグループ化とフォールトマップの融合を行い、所定の欠陥チップセットに対する所定のdnnのチューニングに必要な再トレーニングイテレーション数をさらに削減する。 本稿では,シストリックアレイをベースとしたDNN加速器のためのフレームワークの有効性を示す。 提案手法は,複数の故障チップに対するdnnのチューニングに使用する場合,再訓練コストを大幅に削減することを示す。

Fault-Aware Training (FAT) has emerged as a highly effective technique for addressing permanent faults in DNN accelerators, as it offers fault mitigation without significant performance or accuracy loss, specifically at low and moderate fault rates. However, it leads to very high retraining overheads, especially when used for large DNNs designed for complex AI applications. Moreover, as each fabricated chip can have a distinct fault pattern, FAT is required to be performed for each faulty chip individually, considering its unique fault map, which further aggravates the problem. To reduce the overheads of FAT while maintaining its benefits, we propose (1) the concepts of resilience-driven retraining amount selection, and (2) resilience-driven grouping and fusion of multiple fault maps (belonging to different chips) to perform consolidated retraining for a group of faulty chips. To realize these concepts, in this work, we present a novel framework, eFAT, that computes the resilience of a given DNN to faults at different fault rates and with different levels of retraining, and it uses that knowledge to build a resilience map given a user-defined accuracy constraint. Then, it uses the resilience map to compute the amount of retraining required for each chip, considering its unique fault map. Afterward, it performs resilience and reward-driven grouping and fusion of fault maps to further reduce the number of retraining iterations required for tuning the given DNN for the given set of faulty chips. We demonstrate the effectiveness of our framework for a systolic array-based DNN accelerator experiencing permanent faults in the computational array. Our extensive results for numerous chips show that the proposed technique significantly reduces the retraining cost when used for tuning a DNN for multiple faulty chips.
翻訳日:2023-04-30 07:30:49 公開日:2023-04-20
# SALSA: DNN加速器のアニーリングに基づくループ順序スケジューリング

SALSA: Simulated Annealing based Loop-Ordering Scheduler for DNN Accelerators ( http://arxiv.org/abs/2304.12931v1 )

ライセンス: Link先を確認
Victor J.B. Jung, Arne Symons, Linyan Mei, Marian Verhelst, Luca Benini(参考訳) DNNの計算能力の増大に対応するため、複数の特殊なハードウェアアーキテクチャが提案されている。 それぞれのDNN層を最も効率的なスケジュールでハードウェアにマッピングする必要があるが、SotAスケジューラはすべてのDNN-HWの組み合わせに対して適切な時間で最適なスケジュールを提供するのに苦労している。 本稿では、偶数および不均一なマッピングの両方に対して最適な実行スケジュールを生成するための高速デュアルエンジンスケジューラであるSALSAを提案する。 提案手法では, 層間設計空間サイズを順序付けするループの動的性質に対処するため, 網羅探索と模擬焼鈍を組み合わせた新しい手法を提案する。 SALSAは5つの異なるDNN上の2つのSotAスケジューラ、LOMAとTimeloopに対して広範囲にベンチマークされ、平均的なSALSAは11.9%と7.6%の低エネルギーのスケジュールを見つけ、検索をそれぞれLOMAとTimeloopと比較して1.7倍と24倍高速化する。

To meet the growing need for computational power for DNNs, multiple specialized hardware architectures have been proposed. Each DNN layer should be mapped onto the hardware with the most efficient schedule, however, SotA schedulers struggle to consistently provide optimum schedules in a reasonable time across all DNN-HW combinations. This paper proposes SALSA, a fast dual-engine scheduler to generate optimal execution schedules for both even and uneven mapping. We introduce a new strategy, combining exhaustive search with simulated annealing to address the dynamic nature of the loop ordering design space size across layers. SALSA is extensively benchmarked against two SotA schedulers, LOMA and Timeloop on 5 different DNNs, on average SALSA finds schedules with 11.9% and 7.6% lower energy while speeding up the search by 1.7x and 24x compared to LOMA and Timeloop, respectively.
翻訳日:2023-04-30 07:29:55 公開日:2023-04-20
# Pylogik を用いた医用画像の識別・洗浄・圧縮

Medical Image Deidentification, Cleaning and Compression Using Pylogik ( http://arxiv.org/abs/2304.12322v1 )

ライセンス: Link先を確認
Adrienne Kline, Vinesh Appadurai, Yuan Luo, Sanjiv Shah(参考訳) ビッグデータと機械学習の時代における医療記録情報の活用は、データのクリーン化と識別の欠如に注意する必要がある。 保護された健康情報(PHI)が画像メタデータに含まれる場合,多施設連携のためのデータ共有と調和は特に困難である。 我々は,pylogikと呼ばれるpythonフレームワークの新しいライブラリを提案し,超音波画像に対するこの問題を軽減する。 PyLogikは、一連のテキスト検出/抽出、フィルタリング、しきい値、形態と輪郭の比較を通じて画像ボリュームを処理する。 この方法論は、イメージを識別し、ファイルサイズを小さくし、ディープラーニングとデータ共有のアプリケーション用の画像ボリュームを作成する。 興味領域(ROI)の同定における有効性を評価するため,PyLogikを用いて50個の心エコー(心電図)のランダムサンプルを処理し,専門家による手動セグメンテーションと比較した。 2つのアプローチのDice係数は0.976の平均値を達成した。 次に,アルゴリズムを用いて得られた情報圧縮の程度を確認するために調査を行った。 結果、pylogikによる処理後、平均で約72%小さくなることがわかった。 以上の結果から,PyLogikは超音波データのクリーニングや識別,ROIの決定,ファイル圧縮に有効な手法であることが示唆された。

Leveraging medical record information in the era of big data and machine learning comes with the caveat that data must be cleaned and deidentified. Facilitating data sharing and harmonization for multi-center collaborations are particularly difficult when protected health information (PHI) is contained or embedded in image meta-data. We propose a novel library in the Python framework, called PyLogik, to help alleviate this issue for ultrasound images, which are particularly challenging because of the frequent inclusion of PHI directly on the images. PyLogik processes the image volumes through a series of text detection/extraction, filtering, thresholding, morphological and contour comparisons. This methodology deidentifies the images, reduces file sizes, and prepares image volumes for applications in deep learning and data sharing. To evaluate its effectiveness in the identification of regions of interest (ROI), a random sample of 50 cardiac ultrasounds (echocardiograms) were processed through PyLogik, and the outputs were compared with the manual segmentations by an expert user. The Dice coefficient of the two approaches achieved an average value of 0.976. Next, an investigation was conducted to ascertain the degree of information compression achieved using the algorithm. Resultant data was found to be on average approximately 72% smaller after processing by PyLogik. Our results suggest that PyLogik is a viable methodology for ultrasound data cleaning and deidentification, determining ROI, and file compression which will facilitate efficient storage, use, and dissemination of ultrasound data.
翻訳日:2023-04-30 07:28:08 公開日:2023-04-20
# 量子アルゴリズムゲートベースコンピューティング:量子ソフトウェア工学におけるグロバー量子探索アルゴリズムの設計

Quantum Algorithmic Gate-Based Computing: Grover Quantum Search Algorithm Design in Quantum Software Engineering ( http://arxiv.org/abs/2304.13703v1 )

ライセンス: Link先を確認
Sergey V. Ulyanov and Viktor S. Ulyanov(参考訳) 古典アルゴリズムと量子アルゴリズム(qa)の違いは次のとおりである: qaによって解決される問題は量子演算子の構造でコード化される。 この場合、QAへの入力は常に同じです。 QAのアウトプットは、どの問題がコード化されたかを示しています。 ある意味では、QAに分析関数を与え、QAは量計算なしで答えとしてその性質を返却する。 QAは関数の定性的性質を研究する。 任意の qa の中核はユニタリ量子作用素や量子ゲートの集合である。 実用的な表現では、量子ゲートは特定の構造を持つユニタリ行列である。 この行列のサイズは入力数の増加とともに指数関数的に増大し、フォン・ノイマンアーキテクチャを持つ古典的コンピュータ上のQAシミュレーションを著しく制限する。 量子検索アルゴリズム(QSA) - 構造化されていないデータベース、量子暗号、エンジニアリングタスク、制御システム設計、ロボティクス、スマートコントローラなど、コンピュータ科学の問題を解決するモデル。 Groversアルゴリズムは、ローカルコンピュータシミュレータの実装とともに詳細を説明する。 本稿では,古典コンピュータ上で最も有名なQAであるGroverアルゴリズムをモデル化する実践的アプローチについて述べる。

The difference between classical and quantum algorithms (QA) is following: problem solved by QA is coded in the structure of the quantum operators. Input to QA in this case is always the same. Output of QA says which problem coded. In some sense, give a function to QA to analyze and QA returns its property as an answer without quantitative computing. QA studies qualitative properties of the functions. The core of any QA is a set of unitary quantum operators or quantum gates. In practical representation, quantum gate is a unitary matrix with particular structure. The size of this matrix grows exponentially with an increase in the number of inputs, which significantly limits the QA simulation on a classical computer with von Neumann architecture. Quantum search algorithm (QSA) - models apply for the solution of computer science problems as searching in unstructured data base, quantum cryptography, engineering tasks, control system design, robotics, smart controllers, etc. Grovers algorithm is explained in details along with implementations on a local computer simulator. The presented article describes a practical approach to modeling one of the most famous QA on classical computers, the Grover algorithm.
翻訳日:2023-04-30 07:21:39 公開日:2023-04-20
# Byzantine-Resilient Learning Beyond Gradients: Distributing Evolutionary Search

Byzantine-Resilient Learning Beyond Gradients: Distributing Evolutionary Search ( http://arxiv.org/abs/2304.13540v1 )

ライセンス: Link先を確認
Andrei Kucharavy, Matteo Monti, Rachid Guerraoui and Ljiljana Dolamic(参考訳) 現代の機械学習(ML)モデルは印象的なパフォーマンスを実現している。 しかし、その強みは、彼らのアーキテクチャとトレーニングアルゴリズムの改善だけでなく、それら訓練に使用する計算能力の大幅な増加によるものである。 このような急激な増加により、分散MLへの関心が高まり、労働者の失敗と敵の攻撃がますます懸念されるようになった。 分散ビザンチンレジリエントアルゴリズムは、微分可能な設定で提案されているが、勾配のない設定では存在しない。 この作業の目標は、この欠点に対処することだ。 そのために、古典的な分散コンセンサスの定義を拡張した、ML におけるビザンチンレジリエンスのより一般的な定義である \textit{model-consensus} を導入する。 この定義を利用して、勾配のないMLアルゴリズムの一般クラス($1,\lambda$)-進化的探索)と古典的な分散コンセンサスアルゴリズムを組み合わせることで、勾配のないビザンチン耐性の分散学習アルゴリズムを生成することができることを示す。 我々は,2つの特定の事例,すなわちTotal Order Broadcast と proof-of-work leader election に対して,証明と疑似コードを提供する。

Modern machine learning (ML) models are capable of impressive performances. However, their prowess is not due only to the improvements in their architecture and training algorithms but also to a drastic increase in computational power used to train them. Such a drastic increase led to a growing interest in distributed ML, which in turn made worker failures and adversarial attacks an increasingly pressing concern. While distributed byzantine resilient algorithms have been proposed in a differentiable setting, none exist in a gradient-free setting. The goal of this work is to address this shortcoming. For that, we introduce a more general definition of byzantine-resilience in ML - the \textit{model-consensus}, that extends the definition of the classical distributed consensus. We then leverage this definition to show that a general class of gradient-free ML algorithms - ($1,\lambda$)-Evolutionary Search - can be combined with classical distributed consensus algorithms to generate gradient-free byzantine-resilient distributed learning algorithms. We provide proofs and pseudo-code for two specific cases - the Total Order Broadcast and proof-of-work leader election.
翻訳日:2023-04-30 07:20:57 公開日:2023-04-20
# MarsEclipse at SemEval-2023 Task 3: コントラスト学習による多言語・多言語フラーミング検出

MarsEclipse at SemEval-2023 Task 3: Multi-Lingual and Multi-Label Framing Detection with Contrastive Learning ( http://arxiv.org/abs/2304.14339v1 )

ライセンス: Link先を確認
Qisheng Liao, Meiting Lai, Preslav Nakov(参考訳) 本稿では,SemEval-2023 Task 3 Subtask 2 on Framing Detectionについて述べる。 我々は、多言語環境での大規模事前学習言語モデルの微調整にマルチラベルのコントラストロスを使用し、非常に競争力のある結果を得た:我々のシステムは、公式テストセットと、トレーニングデータを持ち、微調整を行うことができる6つの言語のうち5つの言語の公式タスクリーダーボードにランク付けされた。 ここでは,実験装置と各種アブレーション研究について述べる。 システムのコードはhttps://github.com/QishengL/SemEval2023で公開されている。

This paper describes our system for SemEval-2023 Task 3 Subtask 2 on Framing Detection. We used a multi-label contrastive loss for fine-tuning large pre-trained language models in a multi-lingual setting, achieving very competitive results: our system was ranked first on the official test set and on the official shared task leaderboard for five of the six languages for which we had training data and for which we could perform fine-tuning. Here, we describe our experimental setup, as well as various ablation studies. The code of our system is available at https://github.com/QishengL/SemEval2023
翻訳日:2023-04-30 07:11:16 公開日:2023-04-20
# 糖尿病網膜症眼底画像におけるラベル効率の高いクロスドメイン知識伝達のための自己教師あり表現の学習

Learning Self-Supervised Representations for Label Efficient Cross-Domain Knowledge Transfer on Diabetic Retinopathy Fundus Images ( http://arxiv.org/abs/2304.11168v1 )

ライセンス: Link先を確認
Ekta Gupta, Varun Gupta, Muskaan Chopra, Prakash Chandra Chhipa and Marcus Liwicki(参考訳) 本研究は,糖尿病網膜症 (DR) 画像をドメイン横断的に分類するためのラベル効率の高い自己教師型表現学習手法を提案する。 既存のdr画像分類手法のほとんどは教師付き学習に基づいており、トレーニングには多くの時間と高価な医療領域の専門家による注釈データを必要とする。 提案手法では,ソースdr画像データセットからの事前学習を用いて,対象データセットから抽出した画像の分類を行う。 比較学習によりラベルのないソースドメインデータセットから学習した画像表現を用いて、ターゲットドメインデータセットからDRイメージを分類する。 さらに,提案手法では,クロスドメイン設定のdr画像分類タスクにおいて,いくつかのラベル付き画像が有効であることが必要となる。 提案手法では,eyepacs,aptos 2019,messidor-i,fundus imagesの4つのデータセットを用いて,クロスドメイン環境での自己教師付き表現学習に基づくdr画像分類を行う。 提案手法は,クロスドメイン設定においても,DR画像の2値化と多値化を行う。 提案手法は,既存のdr画像バイナリおよび多クラス分類手法を上回っている。 また,クラスアクティベーションマップを用いて定性的に検証し,説明可能な画像表現を学習できることを明らかにする。 ソースコードとトレーニングされたモデルはgithubで公開されている。

This work presents a novel label-efficient selfsupervised representation learning-based approach for classifying diabetic retinopathy (DR) images in cross-domain settings. Most of the existing DR image classification methods are based on supervised learning which requires a lot of time-consuming and expensive medical domain experts-annotated data for training. The proposed approach uses the prior learning from the source DR image dataset to classify images drawn from the target datasets. The image representations learned from the unlabeled source domain dataset through contrastive learning are used to classify DR images from the target domain dataset. Moreover, the proposed approach requires a few labeled images to perform successfully on DR image classification tasks in cross-domain settings. The proposed work experiments with four publicly available datasets: EyePACS, APTOS 2019, MESSIDOR-I, and Fundus Images for self-supervised representation learning-based DR image classification in cross-domain settings. The proposed method achieves state-of-the-art results on binary and multiclassification of DR images, even in cross-domain settings. The proposed method outperforms the existing DR image binary and multi-class classification methods proposed in the literature. The proposed method is also validated qualitatively using class activation maps, revealing that the method can learn explainable image representations. The source code and trained models are published on GitHub.
翻訳日:2023-04-25 20:02:54 公開日:2023-04-20
# 多層建物における歩行者の経路探索行動--経路選択・経路探索性能・観察行動に着目した総合的モデリング研究

Pedestrian wayfinding behavior in a multi-story building: a comprehensive modeling study featuring route choice, wayfinding performance, and observation behavior ( http://arxiv.org/abs/2304.11167v1 )

ライセンス: Link先を確認
Yan Feng, Dorine C. Duives(参考訳) 本稿では,複雑な建物における歩行者の道路舗装挙動をモデル化するための包括的アプローチを提案する。 本研究は,歩行者経路選択行動を特徴とする2種類の個別選択モデル(MNLとPSL)と,全ウェイフィリング性能と観測挙動(例えば,ヘッション挙動と頭部回転)を特徴とする3種類の多変量線形回帰モデル(MLR)を用いる。 仮想現実感実験により,歩行者の歩行行動と個人情報を含む行動・アンケートデータを収集した。 4つのウェイフィニングタスクは, 道路選択, ウェイフィニング性能, 観測行動を含む3段階の屋内歩行者のウェイフィニング行動に, 個人的, インフラ的, 経路的特性がどう影響するかを決定するために設計された。 歩行者経路選択行動は主として経路特性に影響され,一方,道路舗装性能は個人特性にも影響されている。 観察行動は、主に経路情報を提供する経路の複雑性、個人的特性、局所的特性に影響される。 我々の知る限り、この研究は、様々なメトリクスの特徴的仕方に対する同じ包括的な変数セットの影響を同時に調査する最初の試みである。

This paper proposes a comprehensive approach for modeling pedestrian wayfinding behavior in complex buildings. This study employs two types of discrete choice models (i.e., MNL and PSL) featuring pedestrian route choice behavior, and three multivariate linear regression (MLR) models featuring the overall wayfinding performance and observation behavior (e.g., hesitation behavior and head rotation). Behavioral and questionnaire data featuring pedestrian wayfinding behavior and personal information were collected using a Virtual Reality experiment. Four wayfinding tasks were designed to determine how personal, infrastructure, and route characteristics affect indoor pedestrian wayfinding behavior on three levels, including route choice, wayfinding performance, and observation behavior. We find that pedestrian route choice behavior is primarily influenced by route characteristics, whereas wayfinding performance is also influenced by personal characteristics. Observation behavior is mainly influenced by task complexity, personal characteristics, and local properties of the routes that offer route information. To the best of our knowledge, this work represents the first attempt to investigate the impact of the same comprehensive set of variables on various metrics feature wayfinding behavior simultaneously.
翻訳日:2023-04-25 20:02:30 公開日:2023-04-20
# AIポリシの説明可能性: EU、米国、英国におけるコミュニケーション、レポート、規則、標準の批判的レビュー

Explainability in AI Policies: A Critical Review of Communications, Reports, Regulations, and Standards in the EU, US, and UK ( http://arxiv.org/abs/2304.11218v1 )

ライセンス: Link先を確認
Luca Nannini, Agathe Balayn, Adam Leon Smith(参考訳) 人工知能(ai)システムの説明可能性に対する大衆の関心は、人間の監視のための方法論を提供するために近年高まっている。 これは、Explainable AIのような研究成果の拡散に変換され、システムのデバッグと監視の透明性と制御が向上し、システムプロセスとユーザサービスのアウトプットの信頼性が向上した。 しかし、このようなアウトプットは、共通の規制基準や説明の文脈的性質が欠如しているため、実用的なレベルで採用することは困難である。 政府の政策は現在、そのような問題に対処しようとしているが、研究、産業、市民の利益を支えるために、どの程度のコミュニケーション、規制、標準が情報的視点で採用されているかは、まだ不明である。 本研究では,EU,米国,英国における説明可能性に関する政策と基準の多さについて,初めてテーマとギャップの分析を行った。 政策文書の厳格な調査を通じて、我々はまず、AIの説明可能性とその社会技術的影響における政府の規制の軌道の概要を概観する。 政策は、しばしば説明のための粗い概念と要求によって知らされる。 これは、ai監視のためのリスク管理ツールとして説明を和らげる意思があるだけでなく、有効なアルゴリズムの説明を構成するものに関する合意の欠如と、そのような説明の実装と展開が組織の利害関係者間でどのように行われるかが原因かもしれない。 AI説明可能性の研究により、我々は既存のポリシーのギャップ分析を行い、AIシステムの規則における説明可能性、特に説明の定義、実現可能性、使用性について議論し、説明提供者に説明責任を割り当てる一連のレコメンデーションを策定する。

Public attention towards explainability of artificial intelligence (AI) systems has been rising in recent years to offer methodologies for human oversight. This has translated into the proliferation of research outputs, such as from Explainable AI, to enhance transparency and control for system debugging and monitoring, and intelligibility of system process and output for user services. Yet, such outputs are difficult to adopt on a practical level due to a lack of a common regulatory baseline, and the contextual nature of explanations. Governmental policies are now attempting to tackle such exigence, however it remains unclear to what extent published communications, regulations, and standards adopt an informed perspective to support research, industry, and civil interests. In this study, we perform the first thematic and gap analysis of this plethora of policies and standards on explainability in the EU, US, and UK. Through a rigorous survey of policy documents, we first contribute an overview of governmental regulatory trajectories within AI explainability and its sociotechnical impacts. We find that policies are often informed by coarse notions and requirements for explanations. This might be due to the willingness to conciliate explanations foremost as a risk management tool for AI oversight, but also due to the lack of a consensus on what constitutes a valid algorithmic explanation, and how feasible the implementation and deployment of such explanations are across stakeholders of an organization. Informed by AI explainability research, we conduct a gap analysis of existing policies, leading us to formulate a set of recommendations on how to address explainability in regulations for AI systems, especially discussing the definition, feasibility, and usability of explanations, as well as allocating accountability to explanation providers.
翻訳日:2023-04-25 19:42:56 公開日:2023-04-20
# 米国工学試験におけるChatGPTの性能:専門的環境工学の実践における熟練度と可能性の総合評価

Performance of ChatGPT on the US Fundamentals of Engineering Exam: Comprehensive Assessment of Proficiency and Potential Implications for Professional Environmental Engineering Practice ( http://arxiv.org/abs/2304.12198v1 )

ライセンス: Link先を確認
Vinay Pursnani, Yusuf Sermet, Ibrahim Demir(参考訳) 近年、人工知能(AI)の進歩により、GPT-4のような大規模言語モデルが開発され、教育を含む様々な分野の潜在的な応用が示された。 本研究は, GPT-4 モデルである ChatGPT を用いて, 工学基礎(FE) 環境評価における良好な性能を実現することの実現可能性について検討した。 本研究は,非侵襲的な素早い修正によるfe試験質問への回答において,モデルの精度が大幅に向上することを示し,教育的文脈におけるaiのパフォーマンス向上に有効なアプローチとして,プロンプト修正の有用性を実証する。 さらに,chatgptモデルの逐次反復を通じて数学的能力が著しく向上し,複雑な工学的問題を解決する可能性も示された。 また、今後の研究の方向性について検討し、教育におけるAI課題に取り組むことの重要性を強調し、多様な学生に対するアクセシビリティと包摂性を高め、検査の完全性を維持するためにAI耐性試験問題を開発する。 FE環境評価の文脈でChatGPTの性能を評価することにより,大規模言語モデルの適用可能性や教育環境における限界について貴重な知見を得ることができた。 AIが進化を続けるにつれて、これらの発見は様々な分野にわたるAIモデルの責任と効果的な統合に関するさらなる研究の基礎を提供し、最終的には学習経験を最適化し、学生の成果を改善する。

In recent years, advancements in artificial intelligence (AI) have led to the development of large language models like GPT-4, demonstrating potential applications in various fields, including education. This study investigates the feasibility and effectiveness of using ChatGPT, a GPT-4 based model, in achieving satisfactory performance on the Fundamentals of Engineering (FE) Environmental Exam. This study further shows a significant improvement in the model's accuracy when answering FE exam questions through noninvasive prompt modifications, substantiating the utility of prompt modification as a viable approach to enhance AI performance in educational contexts. Furthermore, the findings reflect remarkable improvements in mathematical capabilities across successive iterations of ChatGPT models, showcasing their potential in solving complex engineering problems. Our paper also explores future research directions, emphasizing the importance of addressing AI challenges in education, enhancing accessibility and inclusion for diverse student populations, and developing AI-resistant exam questions to maintain examination integrity. By evaluating the performance of ChatGPT in the context of the FE Environmental Exam, this study contributes valuable insights into the potential applications and limitations of large language models in educational settings. As AI continues to evolve, these findings offer a foundation for further research into the responsible and effective integration of AI models across various disciplines, ultimately optimizing the learning experience and improving student outcomes.
翻訳日:2023-04-25 14:26:25 公開日:2023-04-20
# TempoRL:Deep Reinforcement Learningを用いたレーザーパルス時間形状最適化

TempoRL: laser pulse temporal shape optimization with Deep Reinforcement Learning ( http://arxiv.org/abs/2304.12187v1 )

ライセンス: Link先を確認
Francesco Capuano and Davorin Peceli and Gabriele Tiboni and Raffaello Camoriano and Bed\v{r}ich Rus(参考訳) 高出力レーザー(HPL)の最適性能は、光-物質相互作用に関連する様々な実験タスクの成功に不可欠である。 伝統的に、HPLパラメータはブラックボックスの数値法に依存する自動化方式で最適化される。 しかしながら、これらは計算資源の観点から要求され、通常は過渡的かつ複雑な力学を無視する。 モデルフリーの深層強化学習(drl)は、制御パラメータを非線形時相力学に従属する系の関数として調整できるため、hplの性能を最適化するための有望な代替フレームワークを提供する。 さらに、DRLは、静的パラメータ設定よりも、特にシーケンシャルな意思決定を含む動的なプロセスに適した最適制御ポリシーを見つけることを目指している。 レーザーシステムは一般に静的な特性ではなく動的に特徴付けられるため、これは特に関係がある。 したがって、単一の最適制御構成ではなく、現在のコンテキストに基づいて適用される制御を選択する戦略が必要となる。 本稿では,HPL制御システムの効率性と安全性向上におけるDRLの可能性を検討する。 この手法をeliビームラインにホストされたl1ポンプレーザーにおけるレーザーパルスの時間分布の最適化に応用する。 スペクトル位相の分散係数のみを調整し、ca1.6psのフル幅(fwhm)で制限された変換に類似したパルスに達することで、drlをスペクトル位相制御の設定に適応する方法を示す。

High Power Laser's (HPL) optimal performance is essential for the success of a wide variety of experimental tasks related to light-matter interactions. Traditionally, HPL parameters are optimised in an automated fashion relying on black-box numerical methods. However, these can be demanding in terms of computational resources and usually disregard transient and complex dynamics. Model-free Deep Reinforcement Learning (DRL) offers a promising alternative framework for optimising HPL performance since it allows to tune the control parameters as a function of system states subject to nonlinear temporal dynamics without requiring an explicit dynamics model of those. Furthermore, DRL aims to find an optimal control policy rather than a static parameter configuration, particularly suitable for dynamic processes involving sequential decision-making. This is particularly relevant as laser systems are typically characterised by dynamic rather than static traits. Hence the need for a strategy to choose the control applied based on the current context instead of one single optimal control configuration. This paper investigates the potential of DRL in improving the efficiency and safety of HPL control systems. We apply this technique to optimise the temporal profile of laser pulses in the L1 pump laser hosted at the ELI Beamlines facility. We show how to adapt DRL to the setting of spectral phase control by solely tuning dispersion coefficients of the spectral phase and reaching pulses similar to transform limited with full-width at half-maximum (FWHM) of ca1.6 ps.
翻訳日:2023-04-25 14:25:23 公開日:2023-04-20
# DPAF:フォワードフェーズにおける差分プライベートアグリゲーションによる画像合成

DPAF: Image Synthesis via Differentially Private Aggregation in Forward Phase ( http://arxiv.org/abs/2304.12185v1 )

ライセンス: Link先を確認
Chih-Hsun Lin, Chia-Yi Hsu, Chia-Mu Yu, Yang Cao, Chun-Ying Huang(参考訳) 異なるプライベートな合成データは、機密データリリースの有望な代替手段である。 多くの微分プライベートな生成モデルが文献で提案されている。 残念ながら、これらの画像は合成データの有用性が低く、特に高解像度の画像に苦しんでいる。 本稿では,高次元画像合成に有効な微分プライベート生成モデルdpafを提案する。 モデルトレーニング中に後方位相にガウスノイズを付加する以前の個人的確率的勾配降下法とは異なり、dpafは前方位相に微分的にプライベートな特徴集約を追加し、勾配クリッピングにおける情報損失の低減やアグリゲーションに対する感度の低下などの利点をもたらす。 さらに、不適切なバッチサイズが合成データの有用性に悪影響を及ぼすため、DPAFは識別器の異なる部分を非対称に訓練する新たなトレーニング戦略を提案し、適切なバッチサイズを設定する問題にも対処する。 DPAFの性能を示すために,複数の画像データセット(解像度128×128の画像まで)の異なる手法を広範囲に評価した。

Differentially private synthetic data is a promising alternative for sensitive data release. Many differentially private generative models have been proposed in the literature. Unfortunately, they all suffer from the low utility of the synthetic data, particularly for images of high resolutions. Here, we propose DPAF, an effective differentially private generative model for high-dimensional image synthesis. Different from the prior private stochastic gradient descent-based methods that add Gaussian noises in the backward phase during the model training, DPAF adds a differentially private feature aggregation in the forward phase, bringing advantages, including the reduction of information loss in gradient clipping and low sensitivity for the aggregation. Moreover, as an improper batch size has an adverse impact on the utility of synthetic data, DPAF also tackles the problem of setting a proper batch size by proposing a novel training strategy that asymmetrically trains different parts of the discriminator. We extensively evaluate different methods on multiple image datasets (up to images of 128x128 resolution) to demonstrate the performance of DPAF.
翻訳日:2023-04-25 14:24:59 公開日:2023-04-20
# 拡散モデルを用いた2次元グラフに基づく遷移状態探索法

A 2D Graph-Based Generative Approach For Exploring Transition States Using Diffusion Model ( http://arxiv.org/abs/2304.12233v1 )

ライセンス: Link先を確認
Seonghwan Kim, Jeheon Woo, Woo Youn Kim(参考訳) 遷移状態(TS)の探索は化学反応機構を解明し、その速度論をモデル化するために重要である。 近年,機械学習(ml)モデルがts幾何予測において顕著な性能を示している。 しかし、決定に難しい反応物質や生成物の3dジオメトリを必要とする。 そこで本研究では,分子接続からなる2次元グラフからTSの3次元幾何学を生成する確率拡散法に基づく新しいMLモデルであるTSDiffを紹介する。 この単純な入力にもかかわらず、TSDiffは、幾何情報を利用する既存のMLモデルよりも高い精度でTSジオメトリを生成する。 さらに, 生成モデルにより, 各反応に対する1つのコンホメーションのみを用いて訓練しても, 有効TSコンホメーションのサンプリングが可能となった。 その結果、TSDiffは基準データベースよりもバリア高さの低い反応経路が好ましいことがわかった。 このアプローチは、複数のTS配座を考慮した複雑な反応の探索に有用であると予想する。

The exploration of transition state (TS) geometries is crucial for elucidating chemical reaction mechanisms and modeling their kinetics. In recent years, machine learning (ML) models have shown remarkable performance in TS geometry prediction. However, they require 3D geometries of reactants and products that can be challenging to determine. To tackle this, we introduce TSDiff, a novel ML model based on the stochastic diffusion method, which generates the 3D geometry of the TS from a 2D graph composed of molecular connectivity. Despite of this simple input, TSDiff generated TS geometries with high accuracy, outperforming existing ML models that utilize geometric information. Moreover, the generative model approach enabled the sampling of various valid TS conformations, even though only a single conformation for each reaction was used in training. Consequently, TSDiff also found more favorable reaction pathways with lower barrier heights than those in the reference database. We anticipate that this approach will be useful for exploring complex reactions that require the consideration of multiple TS conformations.
翻訳日:2023-04-25 14:19:05 公開日:2023-04-20
# VenoMave: 音声認識に対するターゲットの毒殺

VenoMave: Targeted Poisoning Against Speech Recognition ( http://arxiv.org/abs/2010.10682v3 )

ライセンス: Link先を確認
Hojjat Aghakhani, Lea Sch\"onherr, Thorsten Eisenhofer, Dorothea Kolossa, Thorsten Holz, Christopher Kruegel, and Giovanni Vigna(参考訳) 著しい改善にもかかわらず、自動音声認識は対向性摂動に影響を受けやすい。 特に音声認識システムへの入力は、音声の音響的および言語的特性の両方を含む時系列であるため、標準的な機械学習アーキテクチャと比較すると、これらの攻撃は極めて困難である。 すべての認識関連情報を抽出するには、より複雑なパイプラインと特定のコンポーネントのアンサンブルが必要である。 その結果、攻撃者はパイプライン全体を考慮する必要がある。 本稿では,音声認識に対する最初の訓練時間中毒攻撃であるVENOMAVEについて述べる。 主に研究されている回避攻撃と同様に、我々は同じ目標を追求している。 しかし、回避攻撃とは対照的に、攻撃者は実行時にターゲット音声波形を変更することなく、トレーニングデータのごく一部しか操作できないと仮定する。 我々はTIDIGITSと音声コマンドの2つのデータセットに対する攻撃を評価する。 データセットの0.17%未満を中毒すると、VENOMAVEは被害者のネットワークアーキテクチャやハイパーパラメータにアクセスせずに80.0%以上の攻撃成功率を達成する。 より現実的なシナリオでは、異なる部屋の空気中でターゲットのオーディオ波形が再生されると、VENOMAVEは73.3%の成功率を維持する。 最後に、VENOMAVEは2つの異なるモデルアーキテクチャ間の攻撃伝達率36.4%を達成する。

Despite remarkable improvements, automatic speech recognition is susceptible to adversarial perturbations. Compared to standard machine learning architectures, these attacks are significantly more challenging, especially since the inputs to a speech recognition system are time series that contain both acoustic and linguistic properties of speech. Extracting all recognition-relevant information requires more complex pipelines and an ensemble of specialized components. Consequently, an attacker needs to consider the entire pipeline. In this paper, we present VENOMAVE, the first training-time poisoning attack against speech recognition. Similar to the predominantly studied evasion attacks, we pursue the same goal: leading the system to an incorrect and attacker-chosen transcription of a target audio waveform. In contrast to evasion attacks, however, we assume that the attacker can only manipulate a small part of the training data without altering the target audio waveform at runtime. We evaluate our attack on two datasets: TIDIGITS and Speech Commands. When poisoning less than 0.17% of the dataset, VENOMAVE achieves attack success rates of more than 80.0%, without access to the victim's network architecture or hyperparameters. In a more realistic scenario, when the target audio waveform is played over the air in different rooms, VENOMAVE maintains a success rate of up to 73.3%. Finally, VENOMAVE achieves an attack transferability rate of 36.4% between two different model architectures.
翻訳日:2023-04-24 19:24:11 公開日:2023-04-20
# リニアトンプソンサンプリングの周波数規則について

On Frequentist Regret of Linear Thompson Sampling ( http://arxiv.org/abs/2006.06790v3 )

ライセンス: Link先を確認
Nima Hamidi, Mohsen Bayati(参考訳) 本稿では, 確率線形バンディット問題について検討し, 意思決定者が "\mathbb{r}^d$" において, 時間依存ベクトル集合から行動を選択し, うるさい報酬を受ける。 その目的は後悔を最小限に抑えることであり、意思決定者の累積的な期待報酬と、t$の一連の決定よりも、各アクションの期待報酬にアクセス可能なオラクルとの差である。 線形トンプソンサンプリング(LinTS)はベイズ的ヒューリスティックであり、そのベイズ的後悔を$\widetilde{\mathcal{O}}(d\sqrt{T})$で表す理論解析によって支持される。 しかし、以前の研究では、LinTSの頻繁な後悔は、後続の分散インフレーションを必要とする$\widetilde{\mathcal{O}}(d\sqrt{dT})$であり、最良の楽観主義に基づくアルゴリズムよりも$\sqrt{d}$より悪いことが示されている。 我々は,このインフレーションが基本であり,インフレーションを伴わずに線形な後悔を生じさせるようなテントのランダム化バイアス現象を実演することにより,その最大値が$\widetilde{\mathcal{o}}(d\sqrt{dt})$となることを証明し,観測データを用いて後方インフレーションを調整するデータ駆動型モデルを提案する。 我々の分析はLinTSに対する新たな洞察を与え、この分野におけるオープンな問題を解決します。

This paper studies the stochastic linear bandit problem, where a decision-maker chooses actions from possibly time-dependent sets of vectors in $\mathbb{R}^d$ and receives noisy rewards. The objective is to minimize regret, the difference between the cumulative expected reward of the decision-maker and that of an oracle with access to the expected reward of each action, over a sequence of $T$ decisions. Linear Thompson Sampling (LinTS) is a popular Bayesian heuristic, supported by theoretical analysis that shows its Bayesian regret is bounded by $\widetilde{\mathcal{O}}(d\sqrt{T})$, matching minimax lower bounds. However, previous studies demonstrate that the frequentist regret bound for LinTS is $\widetilde{\mathcal{O}}(d\sqrt{dT})$, which requires posterior variance inflation and is by a factor of $\sqrt{d}$ worse than the best optimism-based algorithms. We prove that this inflation is fundamental and that the frequentist bound of $\widetilde{\mathcal{O}}(d\sqrt{dT})$ is the best possible, by demonstrating a randomization bias phenomenon in LinTS that can cause linear regret without inflation.We propose a data-driven version of LinTS that adjusts posterior inflation using observed data, which can achieve minimax optimal frequentist regret, under additional conditions. Our analysis provides new insights into LinTS and settles an open problem in the field.
翻訳日:2023-04-24 19:23:34 公開日:2023-04-20
# 半スーパービジョンオートエンコーダを用いた故障データの分類と不確かさの定量化

Classification and Uncertainty Quantification of Corrupted Data using Semi-Supervised Autoencoders ( http://arxiv.org/abs/2105.13393v2 )

ライセンス: Link先を確認
Philipp Joppich, Sebastian Dorn, Oliver De Candido, Wolfgang Utschick, Jakob Knollm\"uller(参考訳) パラメトリックおよび非パラメトリックな分類器は、ノイズ、オクルージョン、ぼやけなどの腐敗が大きな課題となる現実世界のデータを扱う必要がある。 モデルが非破壊的なデータでのみ訓練されているにもかかわらず、強い破損したデータを分類し、不確実性を定量化する確率論的アプローチを提案する。 破損しないデータに基づいてトレーニングされた半教師付きオートエンコーダが基盤となるアーキテクチャである。 復号部を実データ生成モデルとして用い,畳み込み,マスキング,付加ガウス雑音を用いて不完全性を記述する。 これは、基礎となる未崩壊ダタムの最適潜時空間活性化の観点からの統計的推測タスクを構成する。 この問題は、Metric Gaussian Variational Inference (MGVI) を用いて解決する。 オートエンコーダの潜在空間の監督は、統計的に推定された潜在空間の活性化と不確実性の下で、腐敗したデータを直接分類することを可能にする。 さらに, モデルの不確かさは, 分類が正しいか間違っているかに大きく依存し, 分類の統計的「lie検出器」の基礎を定めている。 それとは独立に、生成モデルは、推定された潜在空間の活性化を復号することにより、未分解のデームを最適に復元できることを示す。

Parametric and non-parametric classifiers often have to deal with real-world data, where corruptions like noise, occlusions, and blur are unavoidable - posing significant challenges. We present a probabilistic approach to classify strongly corrupted data and quantify uncertainty, despite the model only having been trained with uncorrupted data. A semi-supervised autoencoder trained on uncorrupted data is the underlying architecture. We use the decoding part as a generative model for realistic data and extend it by convolutions, masking, and additive Gaussian noise to describe imperfections. This constitutes a statistical inference task in terms of the optimal latent space activations of the underlying uncorrupted datum. We solve this problem approximately with Metric Gaussian Variational Inference (MGVI). The supervision of the autoencoder's latent space allows us to classify corrupted data directly under uncertainty with the statistically inferred latent space activations. Furthermore, we demonstrate that the model uncertainty strongly depends on whether the classification is correct or wrong, setting a basis for a statistical "lie detector" of the classification. Independent of that, we show that the generative model can optimally restore the uncorrupted datum by decoding the inferred latent space activations.
翻訳日:2023-04-24 18:47:34 公開日:2023-04-20
# 過パラメータ化非凸バーラのためのプレコンディショニンググラディエントDescence--大域的最適性認定によるモンテイロ因子化

Preconditioned Gradient Descent for Overparameterized Nonconvex Burer--Monteiro Factorization with Global Optimality Certification ( http://arxiv.org/abs/2206.03345v2 )

ライセンス: Link先を確認
Gavin Zhang, Salar Fattahi, Richard Y. Zhang(参考訳) 非凸関数 $f(X)=\phi(XX^{T})$ over a $n\times r$ factor matrix $X$ ここで、$\phi$ は $n\times n$ matrice 上で定義される滑らかな凸コスト関数である。 2階定常点の$X$のみが妥当な時間で証明できるが、もしも$X$がさらにランク不足であるなら、そのランク不足はそれを大域的に最適であると認定する。 このグローバル最適性の証明方法は、必ずしも現在のイテレートの$X$の検索ランク$r$を、大域最小化の$X^{\star}$のランク$r^{\star}$に対して過度にパラメータ化する必要がある。 残念なことに、過パラメータ化は、$r=r^{\star}$の線形速度から$r>r^{\star}$のサブ線形速度へ、$\phi$が強い凸である場合でも、勾配降下の収束を著しく遅くする。 本稿では,過小パラメータの場合の勾配降下の収束率を線形に戻すとともに,大域的最小値$x^{\star}$ における悪条件化を不可知にする安価なプリコンディショナーを提案する。

We consider using gradient descent to minimize the nonconvex function $f(X)=\phi(XX^{T})$ over an $n\times r$ factor matrix $X$, in which $\phi$ is an underlying smooth convex cost function defined over $n\times n$ matrices. While only a second-order stationary point $X$ can be provably found in reasonable time, if $X$ is additionally rank deficient, then its rank deficiency certifies it as being globally optimal. This way of certifying global optimality necessarily requires the search rank $r$ of the current iterate $X$ to be overparameterized with respect to the rank $r^{\star}$ of the global minimizer $X^{\star}$. Unfortunately, overparameterization significantly slows down the convergence of gradient descent, from a linear rate with $r=r^{\star}$ to a sublinear rate when $r>r^{\star}$, even when $\phi$ is strongly convex. In this paper, we propose an inexpensive preconditioner that restores the convergence rate of gradient descent back to linear in the overparameterized case, while also making it agnostic to possible ill-conditioning in the global minimizer $X^{\star}$.
翻訳日:2023-04-24 18:29:27 公開日:2023-04-20
# 森-Zwanzig作用素学習のための回帰に基づく射影

Regression-based projection for learning Mori-Zwanzig operators ( http://arxiv.org/abs/2205.05135v3 )

ライセンス: Link先を確認
Yen Ting Lin, Yifeng Tian, Danny Perez, Daniel Livescu(参考訳) 本研究では,統計回帰を射影演算子として採用し,森-ツワンジヒ形式における演算子のデータ駆動学習を可能にする。 本稿では,任意の回帰モデルに対してマルコフとメモリ演算子を抽出する原理的手法を提案する。 近年提案されたデータ駆動学習アルゴリズムでは,高次近似クープマン学習法である森プロジェクション演算子に基づく線形回帰結果の選択が可能であることを示す。 より表現力のある非線形回帰モデルは、高度に理想化され、計算効率のよいモリの射影作用素と、最も最適だが計算不能なズワンツィヒの射影作用素の間のギャップを自然に埋めることを示す。 数値実験を行い,線形,多項式,スプライン,ニューラルネットベース回帰を含む回帰型投影の演算子を抽出し,回帰モデルの複雑さが増大するにつれて,漸進的な改善が見られた。 本提案は,メモリ依存の修正を抽出できる汎用フレームワークを提供し,定常力学系のためのデータ駆動学習手法を文献に容易に適用できる。

We propose to adopt statistical regression as the projection operator to enable data-driven learning of the operators in the Mori--Zwanzig formalism. We present a principled method to extract the Markov and memory operators for any regression models. We show that the choice of linear regression results in a recently proposed data-driven learning algorithm based on Mori's projection operator, which is a higher-order approximate Koopman learning method. We show that more expressive nonlinear regression models naturally fill in the gap between the highly idealized and computationally efficient Mori's projection operator and the most optimal yet computationally infeasible Zwanzig's projection operator. We performed numerical experiments and extracted the operators for an array of regression-based projections, including linear, polynomial, spline, and neural-network-based regressions, showing a progressive improvement as the complexity of the regression model increased. Our proposition provides a general framework to extract memory-dependent corrections and can be readily applied to an array of data-driven learning methods for stationary dynamical systems in the literature.
翻訳日:2023-04-24 18:27:51 公開日:2023-04-20
# 量子ウォークによる動的断熱局所探索

Quantum Walk Inspired Dynamic Adiabatic Local Search ( http://arxiv.org/abs/2204.09830v2 )

ライセンス: Link先を確認
Chen-Fu Chiang and Paul M. Alsing(参考訳) 本研究では,連続時間量子ウォーク(CTQW)フレームワークからAQC(Adiabatic Quantum Computing)フレームワークへの検索アルゴリズムの変換において生じる不整合性問題について検討する。 AQCの定式化がCTQWと同じ経路に沿って進化するためには、AQCのスケジュールを通して旧ハミルトニアンに一定のエネルギーギャップが必要である。 この問題を解決するため、CTQWにインスパイアされたAQC触媒ハミルトニアンをZ$oracle演算子で修飾する。 シミュレーションにより,提案手法の総実行時間が最適であることを示す。 さらに, 触媒ハミルトニアンとその係数関数のアディバティックな経路における適応的スケジューリングについて検討し, アディバティックな局所探索を改善する。

We investigate the irreconcilability issue that raises in translating the search algorithm from the Continuous-Time Quantum Walk (CTQW) framework to the Adiabatic Quantum Computing (AQC) framework. For the AQC formulation to evolve along the same path as the CTQW requires a constant energy gap in the former Hamiltonian throughout the AQC schedule. To resolve the issue, we modify the CTQW-inspired AQC catalyst Hamiltonian with a $Z$ oracle operator. Through simulation we demonstrate that the total running time for the proposed approach remains optimal. Inspired by this solution, we further investigate adaptive scheduling for the catalyst Hamiltonian and its coefficient function in the adiabatic path to improve the adiabatic local search.
翻訳日:2023-04-24 18:27:31 公開日:2023-04-20
# 歌詞における性バイアスと性差別の大規模分析

Large scale analysis of gender bias and sexism in song lyrics ( http://arxiv.org/abs/2208.02052v4 )

ライセンス: Link先を確認
Lorenzo Betti, Carlo Abrate, Andreas Kaltenbrunner(参考訳) 我々は「200万曲データベース」コーパスから377808の英語歌詞を解析するために自然言語処理技術を用いて、性差別の表現(1960-2010年)と性バイアスの測定に焦点を当てた。 性差別分類器を用いて、手動で注釈付けされたポピュラーソングの小さなサンプルを用いて、過去の研究よりも大規模な性差別的歌詞を同定する。 さらに,歌詞から学習した単語埋め込みの関連を計測し,性別バイアスを明らかにする。 セクシーなコンテンツは、特に男性アーティストや、ビルボードのチャートに登場する人気曲から、時間とともに増えていくだろう。 歌は演奏者の性別によって異なる言語バイアスを含むことも示されており、男性ソロアーティストの歌はより強いバイアスを含む。 これはこのタイプの大規模な分析としては初めてであり、大衆文化の影響力のある部分における言語使用について洞察を与えている。

We employ Natural Language Processing techniques to analyse 377808 English song lyrics from the "Two Million Song Database" corpus, focusing on the expression of sexism across five decades (1960-2010) and the measurement of gender biases. Using a sexism classifier, we identify sexist lyrics at a larger scale than previous studies using small samples of manually annotated popular songs. Furthermore, we reveal gender biases by measuring associations in word embeddings learned on song lyrics. We find sexist content to increase across time, especially from male artists and for popular songs appearing in Billboard charts. Songs are also shown to contain different language biases depending on the gender of the performer, with male solo artist songs containing more and stronger biases. This is the first large scale analysis of this type, giving insights into language usage in such an influential part of popular culture.
翻訳日:2023-04-24 18:20:40 公開日:2023-04-20
# 相関とコヒーレンスとの変換による絡み合いの最適性

Fulfilling entanglement's optimal advantage via converting correlation to coherence ( http://arxiv.org/abs/2207.06609v3 )

ライセンス: Link先を確認
Haowei Shi, Bingzhi Zhang and Quntao Zhuang(参考訳) エンタングルメントは、センシングと通信における性能上の限界を増大させ、アンタングルメント破壊音の存在下では、従来のプロトコルよりも驚くほど大きなアドバンテージが得られる。 しかし、そのような利点を最大限に発揮するには最適な測定設計が必要であり、エンタングルメントが損失とノイズによって破壊された後、情報は弱く量子相関に符号化されるため、課題は解決される。 このため、様々なエンタングルメントエンハンスプロトコルがデビューしてからしばらく経っても、最適な測定設計はいまだに解明されていない。 本研究では,量子相関をコヒーレントな二次変位に変換する変換モジュールを提案する。量子照明,位相推定,古典的通信,任意の熱損失チャネルパターン分類など,幅広いエンタングルメントエンハンスプロトコルの最適受信設計を可能にする。 ヘテロダインおよびパッシブ線形光学により、変換モジュールは、マルチモード量子検出問題をシングルモードノイズコヒーレント状態の半古典的検出問題にマッピングし、明示的な測定結果を構築して最適性能を達成する。 本モジュールは、短期的実装のためのノイズ量子相関を処理するパラダイムを提供する。

Entanglement boosts performance limits in sensing and communication, and surprisingly the advantage over classical protocols can be even larger in presence of entanglement-breaking noise. However, to maximally fulfill such advantages requires an optimal measurement design, a challenging task as information is encoded in the feeble quantum correlation after entanglement is destroyed by loss and noise. For this reason, the optimal measurement design is still elusive for various entanglement-enhanced protocols long after their debut. We propose a conversion module to capture and transform the quantum correlation to coherent quadrature displacement, which enables the optimal receiver design for a wide range of entanglement-enhanced protocols, including quantum illumination, phase estimation, classical communication, and arbitrary thermal-loss channel pattern classification. Via heterodyne and passive linear optics, the conversion module maps the multi-mode quantum detection problem to the semi-classical detection problem of a single-mode noisy coherent state, so that explicit measurements can be constructed to achieve the optimal performance. Our module provides a paradigm of processing noisy quantum correlations for near-term implementation.
翻訳日:2023-04-24 18:20:05 公開日:2023-04-20
# トレードオフ図による量子高調波オットーエンジンと冷凍機の性能解析

Performance analysis of quantum harmonic Otto engine and refrigerator under a trade-off figure of merit ( http://arxiv.org/abs/2207.03374v2 )

ライセンス: Link先を確認
Kirandeep Kaur, Shishram Rebari, and Varinder Singh(参考訳) 本研究では, 量子オットーエンジンの最適性能と時間依存型高調波発振器の冷凍サイクルについて, 断熱・非断熱両周波数変調のトレードオフ図を用いて検討した。 熱エンジン(冷凍機)の場合、選択されたトレードオフ図形は効率(性能の係数)と作業出力(冷却負荷)の積によって定義される目的関数であり、両者の妥協を表す。 様々な動作環境における熱機械の最適性能に対する高調波オットーサイクルの効率と性能係数の解析式を得る。 特に, 突発的なスイッチ方式では, 検討中の熱機械の性能に及ぼす非断熱駆動の影響を議論し, ハーモニックオットー熱機械の最大到達効率と性能係数に関する解析式を得る。 さらに, 選択したトレードオフ目標関数の下で動作する熱機関と最大作業出力で動作する熱機関の詳細な比較分析を行うことにより, トレードオフ目標関数が断熱駆動のみに望ましい操作であるのに対して, 突然のスイッチ操作では, エンジンの性能が摩擦効果に支配されるため, トレードオフ目標関数の選択には大きな違いがないことを示す。

We investigate the optimal performance of quantum Otto engine and refrigeration cycles of a time-dependent harmonic oscillator under a trade-off figure of merit for both adiabatic and nonadiabatic (sudden-switch) frequency modulations. For heat engine (refrigerator), the chosen trade-off figure of merit is an objective function defined by the product of efficiency (coefficient of performance) and work output (cooling load), thus representing a compromise between them. We obtain analytical expressions for the efficiency and coefficient of performance of the harmonic Otto cycle for the optimal performance of the thermal machine in various operational regimes. Particularly, in the sudden-switch regime, we discuss the implications of the nonadiabatic driving on the performance of the thermal machine under consideration, and obtain analytic expressions for the maximum achievable efficiency and coefficient of performance of the harmonic Otto thermal machine. Further, by carrying out a detailed comparative analysis of the heat engine operating under the chosen trade-off objective function with one operating at maximum work output, we show that the trade-off objective functions have desirable operation only for the adiabatic driving whereas for the sudden switch operation, the choice of a trade-off objective function does not make much difference as the performance of the engine is dominated by frictional effects.
翻訳日:2023-04-24 18:19:08 公開日:2023-04-20
# MultiStyleGAN:シングルガンを用いた複数ワンショット画像スティライズ

MultiStyleGAN: Multiple One-shot Image Stylizations using a Single GAN ( http://arxiv.org/abs/2210.04120v2 )

ライセンス: Link先を確認
Viraj Shah, Ayush Sarkar, Sudharsan Krishnakumar Anitha, Svetlana Lazebnik(参考訳) 画像スタイリングは任意の入力画像に参照スタイルを適用することを目的としている。 一般的なシナリオはワンショットスタイリングであり、参照スタイルごとに1つの例しか使用できない。 jojogan fine-tune a pre-trained stylegan2 generator on a single style reference image のようなワンショットスタイライゼーションの最近のアプローチ しかし、これらの手法は、各スタイルの新しいモデルを個別に微調整することなく、複数のスタイルを生成できない。 本研究では,1つのジェネレータを微調整することで,複数のスタイルを同時に生成できるMultiStyleGAN法を提案する。 提案手法の主要なコンポーネントはStyle Transformation Networkと呼ばれる学習可能な変換モジュールである。 潜時符号を入力とし、潜時空間の異なる領域への線形写像を学習し、各スタイルの異なるコードを生成する。 我々のモデルは本質的に複数のスタイルで訓練されているため、オーバーフィッティングを軽減し、それによってスタイル化の品質が向上する。 我々の手法は一度に120ドル以上の画像スタイリングを学習でき、最近の競合する手法に比べて8ドルから60ドルまでのトレーニング時間を改善することができる。 我々は,既存手法に対する有意義な改善を示すユーザスタディと定量的な結果を通じて,その結果を支援する。

Image stylization aims at applying a reference style to arbitrary input images. A common scenario is one-shot stylization, where only one example is available for each reference style. Recent approaches for one-shot stylization such as JoJoGAN fine-tune a pre-trained StyleGAN2 generator on a single style reference image. However, such methods cannot generate multiple stylizations without fine-tuning a new model for each style separately. In this work, we present a MultiStyleGAN method that is capable of producing multiple different stylizations at once by fine-tuning a single generator. The key component of our method is a learnable transformation module called Style Transformation Network. It takes latent codes as input, and learns linear mappings to different regions of the latent space to produce distinct codes for each style, resulting in a multistyle space. Our model inherently mitigates overfitting since it is trained on multiple styles, hence improving the quality of stylizations. Our method can learn upwards of $120$ image stylizations at once, bringing $8\times$ to $60\times$ improvement in training time over recent competing methods. We support our results through user studies and quantitative results that indicate meaningful improvements over existing methods.
翻訳日:2023-04-24 18:10:03 公開日:2023-04-20
# 相互情報の最大化と最小化によるディープフェアクラスタリング:理論、アルゴリズム、メトリクス

Deep Fair Clustering via Maximizing and Minimizing Mutual Information: Theory, Algorithm and Metric ( http://arxiv.org/abs/2209.12396v2 )

ライセンス: Link先を確認
Pengxin Zeng, Yunfan Li, Peng Hu, Dezhong Peng, Jiancheng Lv, Xi Peng(参考訳) Fair Clusteringは、機密属性(\textit{e.}, gender, race, RNAシークエンシング技術)がクラスタリングを支配するのを防ぎながら、データを異なるクラスタに分割することを目的としている。 近年、多くの研究が実施され大きな成功を収めているが、そのほとんどはヒューリスティックであり、アルゴリズム設計の統一理論が欠如している。 本研究では, 深層クラスタリングのための相互情報理論を開発し, FCMIと呼ばれる新しいアルゴリズムを設計することによって, この空白を埋める。 簡単に言うと、相互情報の最大化と最小化により、fcmiは、deep fair clustering、 \textit{i.e}、compact、 balanced、fair clusters、および情報的特徴により、非常に期待される4つの特徴を達成するように設計されている。 理論とアルゴリズムへの貢献に加えて、この研究のもう一つの貢献は、情報理論に基づく新しい公正クラスタリング計量の提案である。 既存の評価基準と異なり、当社のメトリクスはクラスタの品質と公平性を個別の方法で測定します。 提案するFCMIの有効性を検証するため,単細胞RNA-seqアトラスを含む6つのベンチマーク実験を行った。 コードは \url{ https://pengxi.me}からアクセスできる。

Fair clustering aims to divide data into distinct clusters while preventing sensitive attributes (\textit{e.g.}, gender, race, RNA sequencing technique) from dominating the clustering. Although a number of works have been conducted and achieved huge success recently, most of them are heuristical, and there lacks a unified theory for algorithm design. In this work, we fill this blank by developing a mutual information theory for deep fair clustering and accordingly designing a novel algorithm, dubbed FCMI. In brief, through maximizing and minimizing mutual information, FCMI is designed to achieve four characteristics highly expected by deep fair clustering, \textit{i.e.}, compact, balanced, and fair clusters, as well as informative features. Besides the contributions to theory and algorithm, another contribution of this work is proposing a novel fair clustering metric built upon information theory as well. Unlike existing evaluation metrics, our metric measures the clustering quality and fairness as a whole instead of separate manner. To verify the effectiveness of the proposed FCMI, we conduct experiments on six benchmarks including a single-cell RNA-seq atlas compared with 11 state-of-the-art methods in terms of five metrics. The code could be accessed from \url{ https://pengxi.me}.
翻訳日:2023-04-24 18:08:51 公開日:2023-04-20
# 分布外検出のための拡散モデル

Denoising diffusion models for out-of-distribution detection ( http://arxiv.org/abs/2211.07740v4 )

ライセンス: Link先を確認
Mark S. Graham, Walter H.L. Pinaya, Petru-Daniel Tudosiu, Parashkev Nachev, Sebastien Ourselin, M. Jorge Cardoso(参考訳) 分散検出は、機械学習システムの安全な展開に不可欠である。 現在、教師なしの分布外検出は、生成モデルからの可能性または他の測定値の見積もりを利用する生成ベースのアプローチによって支配されている。 レコンストラクションに基づく手法は、サンプルが配布外であるかどうかを判断するために再構成誤差の尺度を使用する別のアプローチを提供する。 しかし、再構築に基づくアプローチは、良い結果を得るためにモデルの情報ボトルネック(潜伏次元のサイズなど)を慎重にチューニングする必要があるため、あまり好ましくない。 本研究では,拡散確率モデル(DDPM)を,ボトルネックが外部に制御される自己エンコーダを雑音の量で識別する手法として活用する。 DDPMを用いてノイズレベルの範囲の入力を再構成し,その結果の多次元再構成誤差を用いて分布外入力を分類する。 我々は、標準的なコンピュータビジョンデータセットと高次元医療データセットの両方にアプローチを検証する。 提案手法は, 復元法だけでなく, 最先端の生成法にも優れる。 コードはhttps://github.com/marksgraham/ddpm-oodで入手できる。

Out-of-distribution detection is crucial to the safe deployment of machine learning systems. Currently, unsupervised out-of-distribution detection is dominated by generative-based approaches that make use of estimates of the likelihood or other measurements from a generative model. Reconstruction-based methods offer an alternative approach, in which a measure of reconstruction error is used to determine if a sample is out-of-distribution. However, reconstruction-based approaches are less favoured, as they require careful tuning of the model's information bottleneck - such as the size of the latent dimension - to produce good results. In this work, we exploit the view of denoising diffusion probabilistic models (DDPM) as denoising autoencoders where the bottleneck is controlled externally, by means of the amount of noise applied. We propose to use DDPMs to reconstruct an input that has been noised to a range of noise levels, and use the resulting multi-dimensional reconstruction error to classify out-of-distribution inputs. We validate our approach both on standard computer-vision datasets and on higher dimension medical datasets. Our approach outperforms not only reconstruction-based methods, but also state-of-the-art generative-based approaches. Code is available at https://github.com/marksgraham/ddpm-ood.
翻訳日:2023-04-24 18:00:40 公開日:2023-04-20
# 粗粒非平衡流に対する適応物理形ニューラルネットワーク

Adaptive physics-informed neural operator for coarse-grained non-equilibrium flows ( http://arxiv.org/abs/2210.15799v2 )

ライセンス: Link先を確認
Ivan Zanardi, Simone Venturi, Marco Panesi(参考訳) 本研究は,非平衡反応流シミュレーションの計算効率を向上させることを目的とした新しい機械学習(ml)に基づくパラダイムを提案する。 このフレームワークは、階層的かつ適応的なディープラーニング戦略を通じて次元の縮小とニューラルネットワークを組み合わせることで、化学動力学のための多スケール粗粒化制御方程式の解を学習する。 提案したサロゲートのアーキテクチャは木として構成され、葉ノードは複数のソフト制約とハード制約の形で物理が埋め込まれた別の神経オペレータブロックを表す。 階層属性には2つの利点がある。 一 最も遅い時間スケールから始まる転校学習による研修段階の簡易化を可能にすること。 二 ガスの非平衡の局所的な度合いに基づいて、サロゲートの評価が必要な葉ノードに限られているため、適応性を確保することにより予測を加速する。 このモデルは超音速飛行に適用する化学動力学の研究に応用され、純粋な酸素ガス混合物で試験される。 0次元のシナリオでは、提案するmlフレームワークは、幅広い初期条件において最大相対誤差4.5%の約30種のダイナミクスを適応的に予測することができる。 さらに,1次元衝撃シミュレーションでは,演算子分割統合フレームワークで用いられる従来の暗黙のスキームと比較して,1%から4.5%の精度と1桁の高速化を示す。 本研究は,多次元数値流体力学シミュレーションにおける非平衡現象を正確に特徴づけるために,反応型Navier-Stokes解法と組み合わせた効率的なMLベースサロゲートの構築の基礎となる。

This work proposes a new machine learning (ML)-based paradigm aiming to enhance the computational efficiency of non-equilibrium reacting flow simulations while ensuring compliance with the underlying physics. The framework combines dimensionality reduction and neural operators through a hierarchical and adaptive deep learning strategy to learn the solution of multi-scale coarse-grained governing equations for chemical kinetics. The proposed surrogate's architecture is structured as a tree, with leaf nodes representing separate neural operator blocks where physics is embedded in the form of multiple soft and hard constraints. The hierarchical attribute has two advantages: i) It allows the simplification of the training phase via transfer learning, starting from the slowest temporal scales; ii) It accelerates the prediction step by enabling adaptivity as the surrogate's evaluation is limited to the necessary leaf nodes based on the local degree of non-equilibrium of the gas. The model is applied to the study of chemical kinetics relevant for application to hypersonic flight, and it is tested here on pure oxygen gas mixtures. In 0-D scenarios, the proposed ML framework can adaptively predict the dynamics of almost thirty species with a maximum relative error of 4.5% for a wide range of initial conditions. Furthermore, when employed in 1-D shock simulations, the approach shows accuracy ranging from 1% to 4.5% and a speedup of one order of magnitude compared to conventional implicit schemes employed in an operator-splitting integration framework. Given the results presented in the paper, this work lays the foundation for constructing an efficient ML-based surrogate coupled with reactive Navier-Stokes solvers for accurately characterizing non-equilibrium phenomena in multi-dimensional computational fluid dynamics simulations.
翻訳日:2023-04-24 18:00:10 公開日:2023-04-20
# 一般バイアス分散分解による予測の不確かさ推定

Uncertainty Estimates of Predictions via a General Bias-Variance Decomposition ( http://arxiv.org/abs/2210.12256v3 )

ライセンス: Link先を確認
Sebastian G. Gruber, Florian Buettner(参考訳) モデルライフサイクル全体を通して予測の不確実性を確実に推定することは、多くの安全クリティカルなアプリケーションにおいて重要である。 この不確実性を測定する最も一般的な方法は、予測された信頼性である。 これはドメイン内のサンプルではうまく機能するが、これらの推定はドメインドリフトの下で信頼性が低く、分類に制限される。 あるいは、ほとんどの予測タスクで適切なスコアを使うことができるが、モデルの不確かさに対するバイアス分散分解は現在の文献には存在しない。 本稿では, 適切なスコアに対する一般的なバイアス分散分解を導入し, 分散項としてブレグマン情報を導出する。 指数関数族と分類ログの類似度が特別な場合であることを発見し,新しい定式化を提供する。 驚くべきことに、分類ケースを純粋にlogit空間で表現できる。 モデルアンサンブルや信頼領域を含む下流タスクにおけるこの分解の実践的妥当性を示す。 さらに、インスタンスレベルのBregman Informationの異なる近似が、すべてのドメインドリフトの信頼性の高いアウト・オブ・ディストリビューション検出を可能にすることを示す。

Reliably estimating the uncertainty of a prediction throughout the model lifecycle is crucial in many safety-critical applications. The most common way to measure this uncertainty is via the predicted confidence. While this tends to work well for in-domain samples, these estimates are unreliable under domain drift and restricted to classification. Alternatively, proper scores can be used for most predictive tasks but a bias-variance decomposition for model uncertainty does not exist in the current literature. In this work we introduce a general bias-variance decomposition for proper scores, giving rise to the Bregman Information as the variance term. We discover how exponential families and the classification log-likelihood are special cases and provide novel formulations. Surprisingly, we can express the classification case purely in the logit space. We showcase the practical relevance of this decomposition on several downstream tasks, including model ensembles and confidence regions. Further, we demonstrate how different approximations of the instance-level Bregman Information allow reliable out-of-distribution detection for all degrees of domain drift.
翻訳日:2023-04-24 17:59:33 公開日:2023-04-20
# 非エルミタン真空の量子相転移としてのノークリック限界における測定相転移

Measurement phase transitions in the no-click limit as quantum phase transitions of a non-hermitean vacuum ( http://arxiv.org/abs/2301.07383v2 )

ライセンス: Link先を確認
Caterina Zerba, Alessandro Silva(参考訳) 積分可能な多体非エルミタンハミルトニアンの動的状態の定常状態に生じる動的相転移について検討し、これは確率的シュルンディンガー方程式のノークリック極限として実現できるか、量子回路の時空双対性を用いて検討する。 横磁場イジングチェーンと長距離キタエフ鎖の2つの特定のモデルにおいて、定常状態において生じる絡み合い相転移は、非エルミートハミルトニアンの真空中に生じるのと同じ性質を持つ: 準粒子スペクトルの虚部がガッピングされたときの有界絡みエントロピーと、ギャップレス虚数スペクトルに対する対数成長を観察する。 この観察は、領域ローの定理を非エルミート的ハミルトニアンに一般化する可能性を示唆している。

We study dynamical phase transitions occurring in the stationary state of the dynamics of integrable many-body non-hermitian Hamiltonians, which can be either realized as a no-click limit of a stochastic Schr\"{o}dinger equation or using spacetime duality of quantum circuits. In two specific models, the Transverse Field Ising Chain and the Long Range Kitaev Chain, we observe that the entanglement phase transitions occurring in the stationary state have the same nature as that occurring in the vacuum of the non-hermitian Hamiltonian: bounded entanglement entropy when the imaginary part of the quasi-particle spectrum is gapped and a logarithmic growth for gapless imaginary spectrum. This observation suggests the possibility to generalize the area-law theorem to non-Hermitian Hamiltonians.
翻訳日:2023-04-24 17:42:59 公開日:2023-04-20
# 新規スパース正規化剤

A Novel Sparse Regularizer ( http://arxiv.org/abs/2301.07285v5 )

ライセンス: Link先を確認
Hovig Tigran Bayandorian(参考訳) l_p$-ノルム正則化スキーム($l_0$、$l_1$、$l_2$-norm正則化、および重量減衰、ラッソ、弾性ネットのような$l_p$-norm正則化技術)は、分離されたモデル重みに依存する量を計算する。 本稿では、最適化中にモデルに適用される新しいエントロピー測度を最小化する正則化器を提案する。 l_p$-norm に基づく正則化とは対照的に、この正則化は重み行列内の重みの空間的配置に関するものである。 この新しい正規化器は損失関数の加法的項であり、微分可能で単純で高速で計算し、スケール不変であり、簡単な量の追加メモリを必要とし、容易に並列化できる。 経験的にこの方法は、mnistでlenet300をトレーニングする際に与えられたレベルのテスト精度を達成するのに必要な非ゼロモデルパラメータの数をおよそ1桁改善する。

$L_p$-norm regularization schemes such as $L_0$, $L_1$, and $L_2$-norm regularization and $L_p$-norm-based regularization techniques such as weight decay, LASSO, and elastic net compute a quantity which depends on model weights considered in isolation from one another. This paper introduces a regularizer based on minimizing a novel measure of entropy applied to the model during optimization. In contrast with $L_p$-norm-based regularization, this regularizer is concerned with the spatial arrangement of weights within a weight matrix. This novel regularizer is an additive term for the loss function and is differentiable, simple and fast to compute, scale-invariant, requires a trivial amount of additional memory, and can easily be parallelized. Empirically this method yields approximately a one order-of-magnitude improvement in the number of nonzero model parameters required to achieve a given level of test accuracy when training LeNet300 on MNIST.
翻訳日:2023-04-24 17:42:39 公開日:2023-04-20
# Chat2Map: マルチエゴ会話からの効率的なシーンマッピング

Chat2Map: Efficient Scene Mapping from Multi-Ego Conversations ( http://arxiv.org/abs/2301.02184v2 )

ライセンス: Link先を確認
Sagnik Majumder, Hao Jiang, Pierre Moulon, Ethan Henderson, Paul Calamia, Kristen Grauman, Vamsi Krishna Ithapu(参考訳) 複数の自我中心の視点から撮影した会話ビデオは、コスト効率のよい方法でシーンの地図を明らかにすることができるのか? 自然会話における参加者の自己中心的視聴覚観察において共有情報を活用し,これまで認識されていなかった3次元環境の地図を効率的に構築すること。 私たちの仮説では、複数の(エゴス)人がシーンを移動して互いに話し合うと、シーンの見えない領域を明らかにするのに役立つリッチなオーディオ視覚的手がかりが得られます。 エゴセントリックなビジュアルストリームを継続的に処理するコストが高いため、冗長性を最小化し、電力使用を減らすために、視覚情報のサンプリングを積極的に調整する方法をさらに検討する。 そこで我々は,共有シーンマッパーと協調してカメラを選択的にオンにし,空間を効率よくグラフ化する,オーディオ視覚深部強化学習手法を提案する。 実世界の映像だけでなく,3Dシーンのための最先端オーディオ映像シミュレータを用いたアプローチの評価を行った。 このモデルは,従来の最先端マッピング手法を上回り,高いコスト・精度のトレードオフを実現する。 プロジェクト: http://vision.cs.utexas.edu/projects/chat2map

Can conversational videos captured from multiple egocentric viewpoints reveal the map of a scene in a cost-efficient way? We seek to answer this question by proposing a new problem: efficiently building the map of a previously unseen 3D environment by exploiting shared information in the egocentric audio-visual observations of participants in a natural conversation. Our hypothesis is that as multiple people ("egos") move in a scene and talk among themselves, they receive rich audio-visual cues that can help uncover the unseen areas of the scene. Given the high cost of continuously processing egocentric visual streams, we further explore how to actively coordinate the sampling of visual information, so as to minimize redundancy and reduce power use. To that end, we present an audio-visual deep reinforcement learning approach that works with our shared scene mapper to selectively turn on the camera to efficiently chart out the space. We evaluate the approach using a state-of-the-art audio-visual simulator for 3D scenes as well as real-world video. Our model outperforms previous state-of-the-art mapping methods, and achieves an excellent cost-accuracy tradeoff. Project: http://vision.cs.utexas.edu/projects/chat2map.
翻訳日:2023-04-24 17:41:35 公開日:2023-04-20
# SoK: プライバシゲームはやめよう! 機械学習におけるデータ推論プライバシの統一処理

SoK: Let the Privacy Games Begin! A Unified Treatment of Data Inference Privacy in Machine Learning ( http://arxiv.org/abs/2212.10986v2 )

ライセンス: Link先を確認
Ahmed Salem, Giovanni Cherubin, David Evans, Boris K\"opf, Andrew Paverd, Anshuman Suri, Shruti Tople, Santiago Zanella-B\'eguelin(参考訳) 機械学習モデルを本番環境にデプロイすることで、敵はトレーニングデータに関する機密情報を推測することができる。 会員推定から復興攻撃まで、さまざまなタイプの推論リスクを分析した膨大な文献がある。 暗号のセキュリティ特性を研究するゲーム(確率論的実験)の成功にインスパイアされた著者の中には、同様のゲームベースのスタイルを用いて機械学習におけるプライバシ推論リスクを記述する者もいる。 しかしながら、敵対的な能力や目標はしばしば、あるプレゼンテーションから別のプレゼンテーションへと微妙に異なる方法で述べられているため、結果の関連や構成が困難になる。 本稿では,機械学習におけるプライバシ推論リスクに関する知識を体系化するゲームベースのフレームワークを提案する。 この枠組みは,(1)推論リスクの定義のための統一構造,(2)定義間の既知の関係を正式に確立すること,(3)他の方法では見つからなかった未知の関係を明らかにするために用いられる。

Deploying machine learning models in production may allow adversaries to infer sensitive information about training data. There is a vast literature analyzing different types of inference risks, ranging from membership inference to reconstruction attacks. Inspired by the success of games (i.e., probabilistic experiments) to study security properties in cryptography, some authors describe privacy inference risks in machine learning using a similar game-based style. However, adversary capabilities and goals are often stated in subtly different ways from one presentation to the other, which makes it hard to relate and compose results. In this paper, we present a game-based framework to systematize the body of knowledge on privacy inference risks in machine learning. We use this framework to (1) provide a unifying structure for definitions of inference risks, (2) formally establish known relations among definitions, and (3) to uncover hitherto unknown relations that would have been difficult to spot otherwise.
翻訳日:2023-04-24 17:40:28 公開日:2023-04-20
# SSR-2D:2次元画像からのセマンティック3次元シーン再構成

SSR-2D: Semantic 3D Scene Reconstruction from 2D Images ( http://arxiv.org/abs/2302.03640v3 )

ライセンス: Link先を確認
Junwen Huang, Alexey Artemov, Yujin Chen, Shuaifeng Zhi, Kai Xu, Matthias Nie{\ss}ner(参考訳) 3次元屋内空間の包括的セマンティックモデリングへの深層学習アプローチは、3次元領域における高コストなアノテーションを必要とする。 本研究では,3Dアノテーションを使わずにセマンティックなシーン再構成を行う中心的な3Dシーンモデリングタスクについて検討する。 提案手法の鍵となる考え方は,不完全な3次元再構成とそれに対応するRGB-D画像の両方を利用するトレーニング可能なモデルを設計し,クロスドメインな特徴を体積埋め込みに融合させて,手動または機械で生成できる2次元ラベリングのみを用いて,完全な3次元形状,色,意味を予測できるようにすることである。 我々の重要な技術的革新は、2Dの観察と未知の3D空間を、それぞれ観察されたRGB画像と2Dのセマンティクスを監督するために、色とセマンティクスの異なるレンダリングを活用することである。 さらに,学習パイプラインとそれに対応する手法を開発して,予測された2次元ラベルから学習を可能とし,さらに,元の実際のキャプチャを補完する仮想トレーニングビューを合成することにより,セマンティクスのより効率的な自己スーパービジョンループを実現する。 そこで本研究では,RGB-D画像からの幾何学的完備化,彩色化,意味マッピングを3次元地下構造情報に頼らずに,エンドツーエンドのトレーニング可能なソリューションを提案する。 本手法は,2つの大規模ベンチマークデータセット matterport3d と scannet における意味的シーン再構成の最先端性能を実現する。 本手法は,実世界の3dスキャンの完了と意味セグメンテーションに対応する最初の2次元駆動手法でもある。

Most deep learning approaches to comprehensive semantic modeling of 3D indoor spaces require costly dense annotations in the 3D domain. In this work, we explore a central 3D scene modeling task, namely, semantic scene reconstruction without using any 3D annotations. The key idea of our approach is to design a trainable model that employs both incomplete 3D reconstructions and their corresponding source RGB-D images, fusing cross-domain features into volumetric embeddings to predict complete 3D geometry, color, and semantics with only 2D labeling which can be either manual or machine-generated. Our key technical innovation is to leverage differentiable rendering of color and semantics to bridge 2D observations and unknown 3D space, using the observed RGB images and 2D semantics as supervision, respectively. We additionally develop a learning pipeline and corresponding method to enable learning from imperfect predicted 2D labels, which could be additionally acquired by synthesizing in an augmented set of virtual training views complementing the original real captures, enabling more efficient self-supervision loop for semantics. In this work, we propose an end-to-end trainable solution jointly addressing geometry completion, colorization, and semantic mapping from limited RGB-D images, without relying on any 3D ground-truth information. Our method achieves state-of-the-art performance of semantic scene reconstruction on two large-scale benchmark datasets MatterPort3D and ScanNet, surpasses baselines even with costly 3D annotations. To our knowledge, our method is also the first 2D-driven method addressing completion and semantic segmentation of real-world 3D scans.
翻訳日:2023-04-24 17:31:32 公開日:2023-04-20
# 多結晶$^{12}$Cダイヤモンドから作製したナノダイアモンドの長時間スピンコヒーレンスと緩和時間

Long Spin Coherence and Relaxation Times in Nanodiamonds Milled from Polycrystalline $^{12}$C Diamond ( http://arxiv.org/abs/2301.10188v2 )

ライセンス: Link先を確認
James E March, Benjamin D Wood, Colin J Stephen, Laura Dur\'an Fervenza, Ben G Breeze, Soumen Mandal, Andrew M Edmonds, Daniel J Twitchen, Matthew L Markham, Oliver A Williams, Gavin W Morley(参考訳) ダイヤモンド中の負電荷窒素空孔中心(NV$^-$)は、様々なセンシング用途で利用されてきた。 室温での長いスピンコヒーレンスと緩和時間(t_2^*$, $t_2$, $t_1$)は、しばしば感度を制限するため、このために重要である。 ナノダイヤモンドにnv$^-$センターを使用することで、細胞内センシングのようなバルクダイヤモンドにアクセスできない環境での操作が可能になる。 異方性精製多結晶ナノダイヤモンドにおけるNV$^-$中心の室温における長いスピンコヒーレンスと緩和時間について報告する。 スピンロックパルスシーケンスを用いて、スピンコヒーレンス時間である$T_2$, up 786 $\pm$ 200 $\mu$sを観測する。 走査電子顕微鏡および原子間力顕微鏡による測定では、最も長い$t_1$時間を持つnv$^{-}$中心を含むダイヤモンドは100nmより小さいことが示されている。 eprの測定により、ナノダイアモンド試料に対するn$_{s}$^{0}$濃度は 0.15$\pm$ 0.02 ppm となる。

The negatively charged nitrogen-vacancy centre (NV$^-$) in diamond has been utilized in a wide variety of sensing applications. The centre's long spin coherence and relaxation times ($T_2^*$, $T_2$ and $T_1$) at room temperature are crucial to this, as they often limit sensitivity. Using NV$^-$ centres in nanodiamonds allows for operations in environments inaccessible to bulk diamond, such as intracellular sensing. We report long spin coherence and relaxation times at room temperature for single NV$^-$ centres in isotopically-purified polycrystalline ball-milled nanodiamonds. Using a spin-locking pulse sequence, we observe spin coherence times, $T_2$, up 786 $\pm$ 200 $\mu$s. We also measure $T_2^*$ times up to 2.06 $\pm$ 0.24 $\mu$s and $T_1$ times up to 4.32 $\pm$ 0.60 ms. Scanning electron microscopy and atomic force microscopy measurements show that the diamond containing the NV$^{-}$ centre with the longest $T_1$ time is smaller than 100 nm. EPR measurements give an N$_{s}$$^{0}$ concentration of 0.15 $\pm$ 0.02 ppm for the nanodiamond sample.
翻訳日:2023-04-24 17:30:02 公開日:2023-04-20
# TPU v4: 組み込みのためのハードウェアサポートを備えた、光学的に再構成可能な機械学習用スーパーコンピュータ

TPU v4: An Optically Reconfigurable Supercomputer for Machine Learning with Hardware Support for Embeddings ( http://arxiv.org/abs/2304.01433v3 )

ライセンス: Link先を確認
Norman P. Jouppi, George Kurian, Sheng Li, Peter Ma, Rahul Nagarajan, Lifeng Nai, Nishant Patil, Suvinay Subramanian, Andy Swing, Brian Towles, Cliff Young, Xiang Zhou, Zongwei Zhou, and David Patterson(参考訳) 機械学習(ML)モデルの革新に応えて、プロダクションワークロードは根本的に、そして急速に変化した。 TPU v4は、Googleドメイン特化アーキテクチャ(DSA)の第5位であり、MLモデルのための第3のスーパーコンピュータである。 光回路スイッチ(OCSe)は、その相互接続トポロジを動的に再構成し、スケール、可用性、利用、モジュール性、デプロイメント、セキュリティ、パワー、パフォーマンスを向上させる。 InfinibandやOCSやその基盤となる光学部品よりもはるかに安価で低消費電力で高速であり、システムコストの5%、システムパワーの3%である。 各TPU v4にはSparseCoresが含まれており、5x-7xの埋め込みに依存しながらダイエリアとパワーの5%しか使用していないモデルを高速化するデータフロープロセッサである。 TPU v4は2020年からデプロイされ、TPU v3より2.1倍、パフォーマンス/Wattは2.7倍向上した。 TPU v4のスーパーコンピュータは4096チップで4倍大きく、全体として約10倍速くなり、OCSの柔軟性も大きな言語モデルに役立つ。 同様のサイズのシステムでは、graphcore ipu bowより約4.3x-4.5倍高速で1.2x-1.7倍高速で、nvidia a100より1.3x-1.9倍少ない。 エネルギー最適化されたGoogle Cloudの倉庫スケールコンピュータ内のTPU v4はエネルギーを約3倍削減し、典型的なオンプレミスデータセンターにおける現在のDSAの約20倍のCO2eを生成する。

In response to innovations in machine learning (ML) models, production workloads changed radically and rapidly. TPU v4 is the fifth Google domain specific architecture (DSA) and its third supercomputer for such ML models. Optical circuit switches (OCSes) dynamically reconfigure its interconnect topology to improve scale, availability, utilization, modularity, deployment, security, power, and performance; users can pick a twisted 3D torus topology if desired. Much cheaper, lower power, and faster than Infiniband, OCSes and underlying optical components are <5% of system cost and <3% of system power. Each TPU v4 includes SparseCores, dataflow processors that accelerate models that rely on embeddings by 5x-7x yet use only 5% of die area and power. Deployed since 2020, TPU v4 outperforms TPU v3 by 2.1x and improves performance/Watt by 2.7x. The TPU v4 supercomputer is 4x larger at 4096 chips and thus ~10x faster overall, which along with OCS flexibility helps large language models. For similar sized systems, it is ~4.3x-4.5x faster than the Graphcore IPU Bow and is 1.2x-1.7x faster and uses 1.3x-1.9x less power than the Nvidia A100. TPU v4s inside the energy-optimized warehouse scale computers of Google Cloud use ~3x less energy and produce ~20x less CO2e than contemporary DSAs in a typical on-premise data center.
翻訳日:2023-04-24 17:24:04 公開日:2023-04-20
# ハイブリッド六方晶窒化ホウ素銀ナノキューブ系単一光子放出体のプラズモン強化量子特性

Plasmon Enhanced Quantum Properties of Single Photon Emitters with Hybrid Hexagonal Boron Nitride Silver Nanocube Systems ( http://arxiv.org/abs/2304.00314v2 )

ライセンス: Link先を確認
Mohammadjavad Dowran, Andrew Butler, Suvechhya Lamichhane, Adam Erickson, Ufuk Kilic, Sy-Hwang Liou, Christos Argyropoulos, Abdelghani Laraoui(参考訳) 六方晶窒化ホウ素(hBN)は、室温で良好な量子特性を持つ単一光子エミッタ(SPE)の有望な極薄ホストとして出現し、集積量子フォトニックネットワークにとって非常に望ましい要素である。 このような用途でこれらのSPEを使用する際の大きな課題は、量子効率が低いことである。 近年の研究では、金属ナノキャビティ内に埋め込まれた多層hBNフレークにホウ素空孔欠陥などのエミッタのアンサンブルを統合する際に、最大2桁の量子効率の改善が報告されている。 しかし、これらの実験はSPEに拡張されておらず、主に多光子効果に焦点を当てている。 本稿では,超薄型hBNフレークで生成したSPEとプラズモン銀ナノキューブからなるハイブリッドナノフォトニック構造の量子単一光子特性について検討する。 以上の結果から,SPE特性の200%のプラスモニック化が示され,SPE蛍光が強く増加した。 このような増強は、hBNフレークがプラズモン効果を引き起こすAgナノキューブと直接接触する厳密な数値シミュレーションによって説明される。 コンパクトなハイブリッドナノフォトニクスプラットフォームで室温で得られた高強度かつ高速な単一光子放出は、量子光学通信および計算における様々な新しい応用に非常に有用である。

Hexagonal boron nitride (hBN) has emerged as a promising ultrathin host of single photon emitters (SPEs) with favorable quantum properties at room temperature, making it a highly desirable element for integrated quantum photonic networks. One major challenge of using these SPEs in such applications is their low quantum efficiency. Recent studies have reported an improvement in quantum efficiency by up to two orders of magnitude when integrating an ensemble of emitters such as boron vacancy defects in multilayered hBN flakes embedded within metallic nanocavities. However, these experiments have not been extended to SPEs and are mainly focused on multiphoton effects. Here, we study the quantum single photon properties of hybrid nanophotonic structures composed of SPEs created in ultrathin hBN flakes coupled with plasmonic silver nanocubes. We demonstrate > 200% plasmonic enhancement of the SPE properties, manifested by a strong increase in the SPE fluorescence. Such enhancement is explained by rigorous numerical simulations where the hBN flake is in direct contact with the Ag nanocubes that cause the plasmonic effects. The presented strong and fast single photon emission obtained at room-temperature with a compact hybrid nanophotonic platform can be very useful to various emerging applications in quantum optical communications and computing.
翻訳日:2023-04-24 17:23:35 公開日:2023-04-20
# 個々のFe-トリアゾールスピンクロスオーバーナノロッドの窒素空孔磁気測定

Nitrogen-vacancy magnetometry of individual Fe-triazole spin crossover nanorods ( http://arxiv.org/abs/2303.09636v3 )

ライセンス: Link先を確認
Suvechhya Lamichhane, Kayleigh A McElveen, Adam Erickson, Ilja Fescenko, Shuo Sun, Rupak Timalsina, Yinsheng Guo, Sy-Hwang Liou, Rebecca Y. Lai, Abdelghani Laraoui(参考訳) [Fe(Htrz)2(trz)](BF4)(Fe-トリアゾール)スピンクロスオーバー分子は、高スピン(HS)状態と低スピン(LS)状態の間の熱的、電気的、光学的スイッチングを示し、分子スピントロニクスの候補となる。 LSおよびHS遷移は、Fe(II)の電子配置に由来するものであり、それぞれ反磁性および常磁性であると考えられている。 fe(ii) ls状態は基底状態において6対の電子を持ち、磁場と相互作用せず、反磁性挙動が観察される。 fe-トリアゾール化合物のバルク磁気特性は標準磁気測定法によって広く研究されているが、個々のレベルの特性は失われている。 ナノ粒子クラスターのFe-トリアゾールLS状態と20nmから1000nmの個々のナノロッドの磁気特性を調べるために,窒素空孔(NV)を用いた磁気測定を行った。 走査型電子顕微鏡(SEM)とラマン分光法(Raman spectroscopy)は、ナノ粒子/ナノロドのサイズを決定し、それぞれのスピン状態を確認する。 ナノ粒子/ナノロッドが生成する磁場パターンは、印加磁場(最大350mT)の関数としてNV磁気顕微鏡により撮像され、SEMおよびRamanと相関する。 ナノロッドのほとんどの場合、LS状態はわずかに常磁性であり、表面酸化および/またはナノロッドエッジに沿ったFe(III)の存在から生じる可能性がある。 Fe-トリアゾールLS状態ナノ粒子クラスターのNV測定により、反磁性と常磁性の両方の挙動が明らかになった。 我々は,スピンクロスオーバー分子と分子磁石の磁気特性を研究するために,NV量子センサの可能性を強調した。

[Fe(Htrz)2(trz)](BF4) (Fe-triazole) spin crossover molecules show thermal, electrical, and optical switching between high spin (HS) and low spin (LS) states, making them promising candidates for molecular spintronics. The LS and HS transitions originate from the electronic configurations of Fe(II), and are considered to be diamagnetic and paramagnetic respectively. The Fe(II) LS state has six paired electrons in the ground states with no interaction with the magnetic field and a diamagnetic behavior is usually observed. While the bulk magnetic properties of Fe-triazole compounds are widely studied by standard magnetometry techniques their properties at the individual level are missing. Here we use nitrogen vacancy (NV) based magnetometry to study the magnetic properties of the Fe-triazole LS state of nanoparticle clusters and individual nanorods of size varying from 20 to 1000 nm. Scanning electron microscopy (SEM) and Raman spectroscopy are performed to determine the size of the nanoparticles/nanorods and to confirm their respective spin state. The magnetic field patterns produced by the nanoparticles/nanorods are imaged by NV magnetic microscopy as a function of applied magnetic field (up to 350 mT) and correlated with SEM and Raman. We found that in most of the nanorods the LS state is slightly paramagnetic, possibly originating from the surface oxidation and/or the greater Fe(III) presence along the nanorod edges. NV measurements on the Fe-triazole LS state nanoparticle clusters revealed both diamagnetic and paramagnetic behavior. Our results highlight the potential of NV quantum sensors to study the magnetic properties of spin crossover molecules and molecular magnets.
翻訳日:2023-04-24 17:22:01 公開日:2023-04-20
# Mature-Health:MAndatory Feature choiceのためのHealth Recommender System

MATURE-HEALTH: HEALTH Recommender System for MAndatory FeaTURE choices ( http://arxiv.org/abs/2304.09099v2 )

ライセンス: Link先を確認
Ritu Shandilya, Sugam Sharma, Johnny Wong(参考訳) 電解質のバランスは、人体の臓器の適切な機能に必要不可欠であり、電解質の不均衡は根底にある病態の発達の兆候である。 電解質の効率的なモニタリングは、疾患の早期発見の可能性を高めるだけでなく、病気検出後の電解質のバランスをとるために栄養管理食を厳密に追従することで、健康のさらなる悪化を防ぐことができる。 本研究では,血液中の必須電解質および他の物質の不均衡を予測し,バランスの取れた栄養素を有する食品を推奨し,電解質の不均衡を回避し,成熟した健康状態のレコメンダシステムを提案する。 提案モデルでは, 電解質の不均衡を予測するために, 最新の実験結果と, 毎日の食品について検討する。 成熟した健康状態は、食品を推奨する成熟した食品アルゴリズムに依存している。 この方法, 特にナトリウム, カリウム, BUNの濃度を, 実験室報告と毎日の食事摂取量を用いて, 透析患者の予測アルゴリズムであるランダムフォレストを用いて予測した。 そして、提案されたモデルは、それぞれナトリウム、カリウム、BUNの99.53パーセント、96.94パーセント、95.35パーセントの精度を示す。 MATURE Healthは、血液中の必須電解質やその他の物質の不均衡を予測するための機械学習モデルを実装し、電解質の不均衡を予防または少なくとも軽減する栄養素の量を含む食品を推奨する、新しい健康勧告システムである。

Balancing electrolytes is utmost important and essential for appropriate functioning of organs in human body as electrolytes imbalance can be an indication of the development of underlying pathophysiology. Efficient monitoring of electrolytes imbalance not only can increase the chances of early detection of disease, but also prevents the further deterioration of the health by strictly following nutrient controlled diet for balancing the electrolytes post disease detection. In this research, a recommender system MATURE Health is proposed and implemented, which predicts the imbalance of mandatory electrolytes and other substances presented in blood and recommends the food items with the balanced nutrients to avoid occurrence of the electrolytes imbalance. The proposed model takes user most recent laboratory results and daily food intake into account to predict the electrolytes imbalance. MATURE Health relies on MATURE Food algorithm to recommend food items as latter recommends only those food items that satisfy all mandatory nutrient requirements while also considering user past food preferences. To validate the proposed method, particularly sodium, potassium, and BUN levels have been predicted with prediction algorithm, Random Forest, for dialysis patients using their laboratory reports history and daily food intake. And, the proposed model demonstrates 99.53 percent, 96.94 percent and 95.35 percent accuracy for Sodium, Potassium, and BUN respectively. MATURE Health is a novel health recommender system that implements machine learning models to predict the imbalance of mandatory electrolytes and other substances in the blood and recommends the food items which contain the required amount of the nutrients that prevent or at least reduce the risk of the electrolytes imbalance.
翻訳日:2023-04-24 17:15:37 公開日:2023-04-20
# 古典的ファイバー基盤に共存するノイズロバスト量子ネットワークの設計

Designing Noise-Robust Quantum Networks Coexisting in the Classical Fiber Infrastructure ( http://arxiv.org/abs/2304.09076v2 )

ライセンス: Link先を確認
Jordan M. Thomas, Gregory S. Kanter, Prem Kumar(参考訳) 量子ネットワークのスケーラビリティは、共有ファイバに共存する量子通信と古典通信の恩恵を受けるだろう。 マルチチャネルOバンド量子とCバンド古典通信の共存について検討する。 1282 nm-1318 nm の複数の狭帯域光子対チャネルが48 km 以上インストールされた標準ファイバー(>18 dBm)を共伝搬し、量子-古典波長の組み合わせが他よりも著しく優れていることを示す。 我々は、光子-古典的共存におけるラマンノイズスペクトル、最適波長工学、多光子対放出を解析し、将来の量子応用への影響を評価する。

The scalability of quantum networking will benefit from quantum and classical communications coexisting in shared fibers, the main challenge being spontaneous Raman scattering noise. We investigate the coexistence of multi-channel O-band quantum and C-band classical communications. We characterize multiple narrowband entangled photon pair channels across 1282 nm-1318 nm co-propagating over 48 km installed standard fiber with record C-band power (>18 dBm) and demonstrate that some quantum-classical wavelength combinations significantly outperform others. We analyze the Raman noise spectrum, optimal wavelength engineering, multi-photon pair emission in entangled photon-classical coexistence, and evaluate the implications for future quantum applications.
翻訳日:2023-04-24 17:14:46 公開日:2023-04-20
# 協調型ビジネスインテリジェンス仮想アシスタントのための参照モデル

A Reference Model for Collaborative Business Intelligence Virtual Assistants ( http://arxiv.org/abs/2304.10556v1 )

ライセンス: Link先を確認
Olga Cherednichenko (ERIC), Fahad Muhammad (ERIC), J\'er\^ome Darmont (ERIC), C\'ecile Favre (ERIC, CMW)(参考訳) Collaborative Business Analysis (CBA) は、ビジネスユーザ、アナリスト、テクニカルスペシャリストを含むさまざまな利害関係者を集めて、データを協調的に分析し、ビジネスオペレーションに関する洞察を得る手法である。 cbaの主な目的は、ビジネス分析に関わるさまざまなグループ間の知識共有とコラボレーションを促進することである。 CBAは通常、データ収集と分析、ブレインストーミング、問題解決、意思決定、知識共有など、さまざまなアクティビティを伴います。 これらの活動は、対面会議、仮想コラボレーションツール、オンラインフォーラムなど、さまざまなチャネルを通じて行われる。 本稿では,ビジネスインテリジェンス(BI)プラットフォームの重要な部分として,仮想コラボレーションツールを扱う。 コラボレーションビジネスインテリジェンス(CBI)ツールは、ユーザフレンドリになり、アクセスしやすく、柔軟になり、ユーザが自身のエクスペリエンスをカスタマイズし、特定のニーズに適応できるようになる。 バーチャルアシスタントの目標は、より広い範囲のユーザーにデータ探索をよりアクセスしやすくし、データ分析に必要な時間と労力を削減することである。 統合されたビジネスインテリジェンスセマンティックモデルと、データマイニング技術を採用するためのデータウェアハウスとコラボレーティブユニットについて説明する。 さらに,対話型,データ探索型,レコメンデーション型という3つのコンポーネントからなる,cbi用仮想アシスタントとcbi用仮想ツールのリファレンスモデルを提案する。 これら3つの機能的タスクの割り当てにより、CBIの問題を構造化し、人間のような対話、テキストからコマンドへの転送、レコメンデーションを同時に適用できると考えています。 これら3点に基づく複雑なアプローチは、コラボレーションのための仮想ツールの基礎となります。 CBIは人々、プロセス、テクノロジを奨励し、全員の知識、知識、データの共有と活用を可能にし、より良い意思決定を行うための貴重な洞察を得る。 これにより、市場や内部運用の変化に対して迅速かつ効果的に対応し、進捗を改善することができる。

Collaborative Business Analysis (CBA) is a methodology that involves bringing together different stakeholders, including business users, analysts, and technical specialists, to collaboratively analyze data and gain insights into business operations. The primary objective of CBA is to encourage knowledge sharing and collaboration between the different groups involved in business analysis, as this can lead to a more comprehensive understanding of the data and better decision-making. CBA typically involves a range of activities, including data gathering and analysis, brainstorming, problem-solving, decision-making and knowledge sharing. These activities may take place through various channels, such as in-person meetings, virtual collaboration tools or online forums. This paper deals with virtual collaboration tools as an important part of Business Intelligence (BI) platform. Collaborative Business Intelligence (CBI) tools are becoming more user-friendly, accessible, and flexible, allowing users to customize their experience and adapt to their specific needs. The goal of a virtual assistant is to make data exploration more accessible to a wider range of users and to reduce the time and effort required for data analysis. It describes the unified business intelligence semantic model, coupled with a data warehouse and collaborative unit to employ data mining technology. Moreover, we propose a virtual assistant for CBI and a reference model of virtual tools for CBI, which consists of three components: conversational, data exploration and recommendation agents. We believe that the allocation of these three functional tasks allows you to structure the CBI issue and apply relevant and productive models for human-like dialogue, text-to-command transferring, and recommendations simultaneously. The complex approach based on these three points gives the basis for virtual tool for collaboration. CBI encourages people, processes, and technology to enable everyone sharing and leveraging collective expertise, knowledge and data to gain valuable insights for making better decisions. This allows to respond more quickly and effectively to changes in the market or internal operations and improve the progress.
翻訳日:2023-04-24 17:05:44 公開日:2023-04-20
# 室温電荷量子ビット動作用デュアルゲートGaAsナノワイヤFETの設計側面:直径とゲートエンジニアリングに関する研究

Design aspects of dual gate GaAs nanowire FET for room temperature charge qubit operation: A study on diameter and gate engineering ( http://arxiv.org/abs/2304.10554v1 )

ライセンス: Link先を確認
Nilayan Paul, Basudev Nag Chowdhury, Sanatan Chattopadhyay(参考訳) 現在の研究は、室温での高性能帯電量子ビット動作のための芸術的小型寸法を持つ幾何学的に設計されたデュアルゲートGaAsナノワイヤFETを探索する。 このような装置の関連するゲート電圧は、ゲートの下に2つの電圧調整可能な量子ドット(VTQD)を生成することができ、また固有状態のデチューニングとドット間カップリングを操作して重ね合わせを生成することができる。 このような量子ビット演算、すなわち初期化、操作、測定は、非平衡グリーン関数形式に結合した第2の量子化演算子に基づくシュロディンガー・ポアソン自己整合フレームワークを開発することによって理論的にモデル化される。 本研究は, ナノワイヤ径を小さくし, ドット間分離を増加させることにより, 極方向および方位方向に沿ってブロッホ球面被覆を離散化でき, 選択的情報符号化に利用できることを示す。 理論上得られた安定性図は, ナノワイヤ径の縮小とゲート分離の増大により, ボンディング状態とアンチボンディング状態が減少し, 双曲電流が一対の直線に徐々に変換されることを示唆している。 しかし、提案したGaAs VTQDベースの量子ビットの劣化時間は、ナノワイヤ径とゲート分離の両方をスケールダウンすることで大幅に改善される可能性がある。 そこで本研究では,デュアルゲートナノワイヤfet qubitの幾何学的設計のための最適化窓を提案する。 最も重要なことに、そのようなデバイスはメインストリームのCMOS技術と互換性があり、アート製造プロセスの状態をほとんど変更することなく大規模実装に利用することができる。

The current work explores a geometrically engineered dual gate GaAs nanowire FET with state of the art miniaturized dimensions for high performance charge qubit operation at room temperature. Relevant gate voltages in such device can create two voltage tunable quantum dots (VTQDs) underneath the gates, as well as can manipulate their eigenstate detuning and the inter-dot coupling to generate superposition, whereas a small drain bias may cause its collapse leading to qubit read out. Such qubit operations, i.e., Initialization, Manipulation, and Measurement, are theoretically modeled in the present work by developing a second quantization filed operator based Schrodinger-Poisson self-consistent framework coupled to non-equilibrium Greens function formalism. The study shows that the Bloch sphere coverage can be discretized along polar and azimuthal directions by reducing the nanowire diameter and increasing the inter-dot separation respectively, that can be utilized for selective information encoding. The theoretically obtained stability diagrams suggest that downscaled nanowire diameter and increased gate separation sharpen the bonding and anti-bonding states with reduced anticrossing leading to a gradual transformation of the hyperbolic current mapping into a pair of straight lines. However, the dephasing time in the proposed GaAs VTQD-based qubit may be significantly improved by scaling down both the nanowire diameter and gate separation. Therefore, the present study suggests an optimization window for geometrical engineering of a dual gate nanowire FET qubit to achieve superior qubit performance. Most importantly, such device is compatible with the mainstream CMOS technology and can be utilized for large scale implementation by little modification of the state of the art fabrication processes.
翻訳日:2023-04-24 17:05:11 公開日:2023-04-20
# ニューラルネットワークのスパリティはプライバシーを向上する

Sparsity in neural networks can improve their privacy ( http://arxiv.org/abs/2304.10553v1 )

ライセンス: Link先を確認
Antoine Gonon (OCKHAM, ARIC), L\'eon Zheng (OCKHAM), Cl\'ement Lalanne (OCKHAM), Quoc-Tung Le (OCKHAM), Guillaume Lauga (OCKHAM), Can Pouliquen (OCKHAM)(参考訳) 本稿は、ニューラルネットワークがメンバーシップ推論攻撃に対していかに堅牢になるかを測る。 得られた実験結果から,ネットワークの疎結合性はネットワークのプライバシを向上し,手前のタスクに匹敵する性能を保っていることが示された。 この実証研究は、既存の文学を完成し、拡張する。

This article measures how sparsity can make neural networks more robust to membership inference attacks. The obtained empirical results show that sparsity improves the privacy of the network, while preserving comparable performances on the task at hand. This empirical study completes and extends existing literature.
翻訳日:2023-04-24 17:04:42 公開日:2023-04-20
# 浅層ニューラルネットワークの補間特性

Interpolation property of shallow neural networks ( http://arxiv.org/abs/2304.10552v1 )

ライセンス: Link先を確認
Vlad-Raul Constantinescu and Ionel Popescu(参考訳) 過度にパラメータ化されたニューラルネットワークの損失ランドスケープのグローバルミニマの幾何学について検討する。 ほとんどの最適化問題において、損失関数は凸(convex)であり、この場合、離散的な大域小数を持つ大域小数あるいは非小数しか持たない。 本稿では、過パラメータ化状態において、浅層ニューラルネットワークが任意のデータセットを補間可能であること、すなわち、アクティベーション関数が小さい多項式でない限り、損失関数はゼロに等しい大域的最小値を持つことを証明する。 さらに、そのような大域的最小値が存在するならば、大域的ミニマの軌跡は無限に多くの点を持つ。 さらに,大域的ミニマで評価された損失関数のヘシアンを解析し,最終節では補間点を求める実用的な確率的手法を提案する。

We study the geometry of global minima of the loss landscape of overparametrized neural networks. In most optimization problems, the loss function is convex, in which case we only have a global minima, or nonconvex, with a discrete number of global minima. In this paper, we prove that in the overparametrized regime, a shallow neural network can interpolate any data set, i.e. the loss function has a global minimum value equal to zero as long as the activation function is not a polynomial of small degree. Additionally, if such a global minimum exists, then the locus of global minima has infinitely many points. Furthermore, we give a characterization of the Hessian of the loss function evaluated at the global minima, and in the last section, we provide a practical probabilistic method of finding the interpolation point.
翻訳日:2023-04-24 17:04:35 公開日:2023-04-20
# MIPI 2023 RGBWレモザイクへの挑戦:方法と結果

MIPI 2023 Challenge on RGBW Remosaic: Methods and Results ( http://arxiv.org/abs/2304.10551v1 )

ライセンス: Link先を確認
Qianhui Sun, Qingyu Yang, Chongyi Li, Shangchen Zhou, Ruicheng Feng, Yuekun Dai, Wenxiu Sun, Qingpeng Zhu, Chen Change Loy, Jinwei Gu(参考訳) カメラシステムにおける新しいアルゴリズムによる高度な画像センサの開発と統合は、モバイルプラットフォームでの計算写真や画像の需要の増加とともに普及している。 しかし、研究のための高品質なデータの欠如と、産業や学界からの深い見解交換の機会は、モバイル・インテリジェント・フォトグラフィー・イメージング(MIPI)の開発を妨げている。 第1回MIPIワークショップ@ECCV 2022の成功により、新しい画像センサと撮像アルゴリズムに焦点を当てた4つのトラックを含む第2回MIPIチャレンジを紹介した。 本稿は,MIPI 2023のRGBW Joint Remosaic and Denoiseトラックを要約し,レビューする。 合計81人の参加者が登録され、4チームが最終テストフェーズで結果を提出した。 最終結果は、PSNR、SSIM、LPIPS、KLDなどの客観的指標を用いて評価される。 本論文では,本課題で開発された上位3モデルについて詳述する。 この課題の詳細とデータセットへのリンクはhttps://mipi-challenge.org/MIPI2023/で確認できる。

Developing and integrating advanced image sensors with novel algorithms in camera systems are prevalent with the increasing demand for computational photography and imaging on mobile platforms. However, the lack of high-quality data for research and the rare opportunity for an in-depth exchange of views from industry and academia constrain the development of mobile intelligent photography and imaging (MIPI). With the success of the 1st MIPI Workshop@ECCV 2022, we introduce the second MIPI challenge, including four tracks focusing on novel image sensors and imaging algorithms. This paper summarizes and reviews the RGBW Joint Remosaic and Denoise track on MIPI 2023. In total, 81 participants were successfully registered, and 4 teams submitted results in the final testing phase. The final results are evaluated using objective metrics, including PSNR, SSIM, LPIPS, and KLD. A detailed description of the top three models developed in this challenge is provided in this paper. More details of this challenge and the link to the dataset can be found at https://mipi-challenge.org/MIPI2023/.
翻訳日:2023-04-24 17:04:21 公開日:2023-04-20
# 不完全環境における学習:長期分布と部分ラベルを用いたマルチラベル分類

Learning in Imperfect Environment: Multi-Label Classification with Long-Tailed Distribution and Partial Labels ( http://arxiv.org/abs/2304.10539v1 )

ライセンス: Link先を確認
Wenqiao Zhang, Changshuo Liu, Lingze Zeng, Beng Chin Ooi, Siliang Tang, Yueting Zhuang(参考訳) 従来のマルチラベル分類法(MLC)は、全てのサンプルが完全にラベル付けされ、同一に分散されていると仮定する。 残念ながら、この仮定は長期分布(LT)と部分ラベル(PL)を持つ大規模MLCデータでは非現実的である。 この問題に対処するために、上記の2つの不完全な学習環境を共同で検討するために、新しいタスク、Partial labeling and Long-Tailed Multi-Label Classification (PLT-MLC)を導入する。 当然のことながら、ほとんどのLT-MLCとPL-MLCのアプローチはPLT-MLCの解決に失敗し、2つのPLT-MLCベンチマークで性能が大幅に低下する。 そこで, エンドツーエンドの学習フレームワークを提案する。 \textbf{CO}rrection $\rightarrow$ \textbf{M}odificat\textbf{I}on $\rightarrow$ balan\textbf{C}e, 略して \textbf{\method{}}。 我々のブートストラッピング哲学は、クラス認識しきい値に対する確実な予測信頼と、トレーニング中のこれらのリコールラベルからの学習を同時に補正することである。 次に、LTクラス分布の異なるサンプル(修正)に対する注意を適応的に修正するために、ヘッドテール不均衡と正負の不均衡に同時に対処する新しい多焦点変調器損失を提案する。 さらに, モデル学習効果を頭と尾のサンプルから蒸留し, 頭と尾の学習効果に条件付きバランス付き分類器(Balance)を設計し, 全試料の安定的な性能を維持することで, バランスの取れた学習戦略を開発する。 実験により,提案した<method{} は,新たに作成したPLT-MLCデータセットの有効性とロバスト性の観点から,一般 MLC,LT-MLC,PL-MLC法より有意に優れていた。

Conventional multi-label classification (MLC) methods assume that all samples are fully labeled and identically distributed. Unfortunately, this assumption is unrealistic in large-scale MLC data that has long-tailed (LT) distribution and partial labels (PL). To address the problem, we introduce a novel task, Partial labeling and Long-Tailed Multi-Label Classification (PLT-MLC), to jointly consider the above two imperfect learning environments. Not surprisingly, we find that most LT-MLC and PL-MLC approaches fail to solve the PLT-MLC, resulting in significant performance degradation on the two proposed PLT-MLC benchmarks. Therefore, we propose an end-to-end learning framework: \textbf{CO}rrection $\rightarrow$ \textbf{M}odificat\textbf{I}on $\rightarrow$ balan\textbf{C}e, abbreviated as \textbf{\method{}}. Our bootstrapping philosophy is to simultaneously correct the missing labels (Correction) with convinced prediction confidence over a class-aware threshold and to learn from these recall labels during training. We next propose a novel multi-focal modifier loss that simultaneously addresses head-tail imbalance and positive-negative imbalance to adaptively modify the attention to different samples (Modification) under the LT class distribution. In addition, we develop a balanced training strategy by distilling the model's learning effect from head and tail samples, and thus design a balanced classifier (Balance) conditioned on the head and tail learning effect to maintain stable performance for all samples. Our experimental study shows that the proposed \method{} significantly outperforms general MLC, LT-MLC and PL-MLC methods in terms of effectiveness and robustness on our newly created PLT-MLC datasets.
翻訳日:2023-04-24 17:03:27 公開日:2023-04-20
# 高速なニューラルシーンフロー

Fast Neural Scene Flow ( http://arxiv.org/abs/2304.09121v2 )

ライセンス: Link先を確認
Xueqian Li, Jianqiao Zheng, Francesco Ferroni, Jhony Kaesemodel Pontes, Simon Lucey(参考訳) ニューラル・シーン・フロー・プライオリ(NSFP)は、オフ・オブ・ディストリビューション(OOD)効果に固有の頑健さと、密度の高いライダーポイントに対処する能力から、ビジョン・コミュニティにとって重要な関心事である。 このアプローチはコーディネートニューラルネットワークを使用して、トレーニングなしで実行時にシーンフローを見積もる。 しかし、現在の最先端の学習方法よりも100倍も遅い。 画像、ビデオ、放射関数再構成などの他のアプリケーションでは、コーディネートネットワークのランタイム性能を高速化する革新はアーキテクチャ上の変化を中心にしている。 本稿では,損失関数自体(すなわちシャンファー距離)から生じる主要な計算ボトルネックを用いて,シーンフローが異なることを実証する。 さらに,距離変換(DT)を効率よく対応のない損失関数として再発見し,実行時の最適化を劇的に高速化する。 私たちの高速ニューラルネットワークシーンフロー(FNSF)アプローチは、Waymo OpenとArgoverseの2つの大きなオープン自動運転(AV)データセットに対して、トレーニングやOODバイアスなしで、学習方法に匹敵するリアルタイムパフォーマンスを初めて報告します。

Neural Scene Flow Prior (NSFP) is of significant interest to the vision community due to its inherent robustness to out-of-distribution (OOD) effects and its ability to deal with dense lidar points. The approach utilizes a coordinate neural network to estimate scene flow at runtime, without any training. However, it is up to 100 times slower than current state-of-the-art learning methods. In other applications such as image, video, and radiance function reconstruction innovations in speeding up the runtime performance of coordinate networks have centered upon architectural changes. In this paper, we demonstrate that scene flow is different -- with the dominant computational bottleneck stemming from the loss function itself (i.e., Chamfer distance). Further, we rediscover the distance transform (DT) as an efficient, correspondence-free loss function that dramatically speeds up the runtime optimization. Our fast neural scene flow (FNSF) approach reports for the first time real-time performance comparable to learning methods, without any training or OOD bias on two of the largest open autonomous driving (AV) lidar datasets Waymo Open and Argoverse.
翻訳日:2023-04-24 17:02:30 公開日:2023-04-20
# MiniGPT-4: 高度な大規模言語モデルによるビジョン言語理解の強化

MiniGPT-4: Enhancing Vision-Language Understanding with Advanced Large Language Models ( http://arxiv.org/abs/2304.10592v1 )

ライセンス: Link先を確認
Deyao Zhu, Jun Chen, Xiaoqian Shen, Xiang Li, Mohamed Elhoseiny(参考訳) 最近のgpt-4は、手書きテキストから直接webサイトを生成し、画像内のユーモラスな要素を識別するなど、異例のマルチモーダル能力を示している。 これらの特徴は、以前の視覚言語モデルではまれである。 GPT-4の高度なマルチモーダル生成能力の主要な理由は、より高度な大規模言語モデル(LLM)の利用にあると考えている。 この現象を調べるために,凍結した視覚エンコーダと凍結したLLM,Vicunaを1つの射影層で整列するMiniGPT-4を提案する。 以上の結果から,MiniGPT-4は手書き原稿の詳細な画像記述生成やWebサイト作成など,GPT-4と類似した機能を持つことがわかった。 さらに,minigpt-4では,与えられた画像に触発された物語や詩の書き方,画像に表示された問題に対する解決策の提供,食事写真に基づく料理の作り方を教えるなど,新たな機能も期待できる。 実験の結果,原文ペアで事前学習を行うだけで,反復文や断片文などの一貫性に欠ける不自然な言語出力が得られることがわかった。 この問題に対処するため,第2段階で高品質で整列したデータセットをキュレートし,対話テンプレートを用いてモデルを微調整する。 このステップはモデルの生成信頼性と全体的なユーザビリティを向上させる上で極めて重要であることが分かりました。 特に,約500万組の画像テキストペアを用いた投影層のみを訓練するので,計算効率が高い。 私たちのコード、事前トレーニングされたモデル、収集されたデータセットは、https://minigpt-4.github.io/で利用可能です。

The recent GPT-4 has demonstrated extraordinary multi-modal abilities, such as directly generating websites from handwritten text and identifying humorous elements within images. These features are rarely observed in previous vision-language models. We believe the primary reason for GPT-4's advanced multi-modal generation capabilities lies in the utilization of a more advanced large language model (LLM). To examine this phenomenon, we present MiniGPT-4, which aligns a frozen visual encoder with a frozen LLM, Vicuna, using just one projection layer. Our findings reveal that MiniGPT-4 possesses many capabilities similar to those exhibited by GPT-4 like detailed image description generation and website creation from hand-written drafts. Furthermore, we also observe other emerging capabilities in MiniGPT-4, including writing stories and poems inspired by given images, providing solutions to problems shown in images, teaching users how to cook based on food photos, etc. In our experiment, we found that only performing the pretraining on raw image-text pairs could produce unnatural language outputs that lack coherency including repetition and fragmented sentences. To address this problem, we curate a high-quality, well-aligned dataset in the second stage to finetune our model using a conversational template. This step proved crucial for augmenting the model's generation reliability and overall usability. Notably, our model is highly computationally efficient, as we only train a projection layer utilizing approximately 5 million aligned image-text pairs. Our code, pre-trained model, and collected dataset are available at https://minigpt-4.github.io/.
翻訳日:2023-04-24 16:54:57 公開日:2023-04-20
# 逐次意思決定のためのシンボリック・サブシンボリック・ハイブリッド法の検討

A Review of Symbolic, Subsymbolic and Hybrid Methods for Sequential Decision Making ( http://arxiv.org/abs/2304.10590v1 )

ライセンス: Link先を確認
Carlos N\'u\~nez-Molina, Pablo Mesejo, Juan Fern\'andez-Olivares(参考訳) SDM(Sequential Decision Making)の分野は、シーケンシャル決定プロセス(Sequential Decision Processs, SDP)を解決するためのツールを提供する。 歴史的に、2つの競合するSDMパラダイムは優位性を求める。 自動計画(AP)は、しばしば象徴的に表される世界のモデルに対する推論プロセスを実行することによって、SDPを解決することを提案する。 逆に、Reinforcement Learning (RL)は、世界モデルなしでデータからSDPの解を学習し、学習知識を記号的に表現することを提案する。 和解の精神においては,SDMのシンボリック,サブシンボリック,ハイブリッドの手法を概観する。 我々は、SDP(例えば、AP、RL、計画を学ぶ技術)を解く方法と、それらの構造(例えば、世界モデル、状態不変量、ランドマーク)の学習方法の両方をカバーする。 私たちの知る限りでは、この分野の他のレビューと同じスコープを提供するものはありません。 さらなる貢献として、SDMの理想的な方法がどのような特性を示すべきかを議論し、ニューロシンボリックAIが、この理想的な手法に最も近い現在のアプローチであると主張する。 最後に、シンボリックAIとサブシンボリックAIの統合により、SDMの分野を前進させるいくつかの提案を概説する。

The field of Sequential Decision Making (SDM) provides tools for solving Sequential Decision Processes (SDPs), where an agent must make a series of decisions in order to complete a task or achieve a goal. Historically, two competing SDM paradigms have view for supremacy. Automated Planning (AP) proposes to solve SDPs by performing a reasoning process over a model of the world, often represented symbolically. Conversely, Reinforcement Learning (RL) proposes to learn the solution of the SDP from data, without a world model, and represent the learned knowledge subsymbolically. In the spirit of reconciliation, we provide a review of symbolic, subsymbolic and hybrid methods for SDM. We cover both methods for solving SDPs (e.g., AP, RL and techniques that learn to plan) and for learning aspects of their structure (e.g., world models, state invariants and landmarks). To the best of our knowledge, no other review in the field provides the same scope. As an additional contribution, we discuss what properties an ideal method for SDM should exhibit and argue that neurosymbolic AI is the current approach which most closely resembles this ideal method. Finally, we outline several proposals to advance the field of SDM via the integration of symbolic and subsymbolic AI.
翻訳日:2023-04-24 16:54:30 公開日:2023-04-20
# VREd: Unity3D WebGLを用いたオンライン教育のためのバーチャルリアリティベースの教室

VREd: A Virtual Reality-Based Classroom for Online Education Using Unity3D WebGL ( http://arxiv.org/abs/2304.10585v1 )

ライセンス: Link先を確認
Ratun Rahman and Md Rafid Islam(参考訳) 仮想現実は未来の方法だ。 仮想現実の利用は、エンターテイメント業界から軍や宇宙まで、あらゆる分野にまたがって拡大している。 vredは、バーチャルリアリティーベースの教室をオンライン教育に利用し、ユーザーが対話性を高め、よりコントロールしやすいコンセプトだ。 Unity3DとWebGLは実装に使われている。 現代の技術に慣れた学生や学習者は、その欠陥のために従来の教育制度が適用されない可能性がある。 最新の技術を取り入れることで、学生の好奇心と学習能力を高めることができる。 vredのシステムアーキテクチャは、実際の教室と似ていて、生徒と教師の両方がすべてのコース教材にアクセスし、インターネット接続だけで互いに対話できる。 環境や背景もカスタマイズできる。 したがって、すべてのユーザが快適にシステムを使い、家で感じることができる。 バーチャルリアリティを利用して教育の質を高める効果的な教育システムを構築することができる。

Virtual reality is the way of the future. The use of virtual reality is expanding over time across all sectors, from the entertainment industry to the military and space. VREd is a similar concept where a virtual reality-based classroom is used for online education where the user will have better interaction and more control. Unity3D and WebGL software have been used for implementation. Students or learners accustomed to contemporary technologies may find the traditional educational system unappealing because of its flaws. Incorporating the latest technologies can increase the curiosity and learning abilities of students. The system architecture of VREd is similar to that of an actual classroom, allowing both students and teachers to access all of the course materials and interact with one another using only an internet connection. The environment and the background are also customizable. Therefore, all the users can comfortably use the system and feel at home. We can create an effective educational system that raises educational quality by utilizing virtual reality.
翻訳日:2023-04-24 16:54:07 公開日:2023-04-20
# 安定化符号の代数

The Algebra for Stabilizer Codes ( http://arxiv.org/abs/2304.10584v1 )

ライセンス: Link先を確認
Cole Comfort(参考訳) 奇数素数次元qudit純安定状態と有限次元シンプレクティックな$\mathbb{f}_p$-vector空間のアフィンラグランジアン部分空間の間には単射が存在する。 安定化形式論の言語において、フルランク安定化テーブルーはちょうどアフィンラグランジュ部分空間の基底である。 この対応は、安定化回路の合成がアフィン部分空間の関係合成となり、テンソル積が直和となるpropsの同型に拡張される。 本稿では、安定化器回路とテーブルーとの対応を混合設定に拡張し、アフィン共等性サスブスペースとして安定化器符号(奇素キュート次元/キュービットCSS符号のみ)について述べる。 安定化器符号のプロジェクタを分割することにより,エラー検出プロトコルとエラー訂正プロトコルをアフィン古典的な処理能力で復元することを示す。

There is a bijection between odd prime dimensional qudit pure stabilizer states modulo invertible scalars and affine Lagrangian subspaces of finite dimensional symplectic $\mathbb{F}_p$-vector spaces. In the language of the stabilizer formalism, full rank stabilizer tableaus are exactly the bases for affine Lagrangian subspaces. This correspondence extends to an isomorphism of props where the composition of stabilizer circuits becomes the relational composition of affine subspaces and the tensor product becomes the direct sum. In this paper, we extend this correspondence between stabilizer circuits and tableaus to the mixed setting; by regarding stabilizer codes as affine coisotropic susbspaces (again only in odd prime qudit dimension/for qubit CSS codes). We show that by splitting the projector for a stabilizer code we recover the error detection protocol and the error correction protocol with affine classical processing power.
翻訳日:2023-04-24 16:53:53 公開日:2023-04-20
# 医用イメージングのための不変散乱変換

Invariant Scattering Transform for Medical Imaging ( http://arxiv.org/abs/2304.10582v1 )

ライセンス: Link先を確認
Md Manjurul Ahsan, Shivakumar Raman, Zahed Siddique(参考訳) 近年,convolutional neural network (cnn) を用いたウェーブレット変換計算を用いて入力信号におけるパターンのスケールや方向を捉えるなど,医用画像解析において不変散乱変換(ist)技術が普及している。 istは、翻訳、回転、スケーリング、変形といった医療画像で一般的な変換に不変であり、病気の検出、診断、治療計画のための機械学習アルゴリズムに組み込むことができる、セグメンテーション、分類、登録などの医療画像アプリケーションの性能を改善するために使用される。 さらに、ISTとディープラーニングのアプローチを組み合わせることで、その強みを活用し、医療画像解析の結果を高めることができる。 本研究は, 医用画像における IST のタイプ, IST の応用, 限界, 将来的な研究者や実践者に対する潜在的範囲について概説する。

Over the years, the Invariant Scattering Transform (IST) technique has become popular for medical image analysis, including using wavelet transform computation using Convolutional Neural Networks (CNN) to capture patterns' scale and orientation in the input signal. IST aims to be invariant to transformations that are common in medical images, such as translation, rotation, scaling, and deformation, used to improve the performance in medical imaging applications such as segmentation, classification, and registration, which can be integrated into machine learning algorithms for disease detection, diagnosis, and treatment planning. Additionally, combining IST with deep learning approaches has the potential to leverage their strengths and enhance medical image analysis outcomes. This study provides an overview of IST in medical imaging by considering the types of IST, their application, limitations, and potential scopes for future researchers and practitioners.
翻訳日:2023-04-24 16:53:37 公開日:2023-04-20
# B-Learner:隠蔽による異種因果効果の準Oracle境界

B-Learner: Quasi-Oracle Bounds on Heterogeneous Causal Effects Under Hidden Confounding ( http://arxiv.org/abs/2304.10577v1 )

ライセンス: Link先を確認
Miruna Oprescu, Jacob Dorn, Marah Ghoummaid, Andrew Jesson, Nathan Kallus, Uri Shalit(参考訳) 観察データから異種治療効果を推定することは、多くの分野において重要な課題であり、政策立案者や意思決定者がより良い行動を取るのを助ける。 近年, 条件平均処理効果(CATE)関数を推定するための頑健かつ効率的な手法が開発されているが, これらの手法は, 観測データに基づく因果推定を任意かつ無作為に偏見できる隠蔽の危険性を考慮していないことが多い。 本稿では,B-Learnerと呼ばれるメタラーナーを提案する。 平均治療効果(Dorn et al., 2021)の鋭く妥当なバウンダリをKallus & Oprescu (2022) のフレームワークに適応させて, 分布処理効果の堅牢かつモデルに依存しない学習を行うことによりBラーナーを導出する。 B-ラーナーは、ランダム森林やディープニューラルネットワークなどの関数推定器を使用でき、その推定値が有効で、鋭く、効率的であり、既存の手法よりも一般的な条件下で構成推定器に対して準オーラル特性を有することを証明できる。 半合成実験により理論的結果が検証され,実世界のデータを用いて実際にどのように手法が用いられるかを示す。

Estimating heterogeneous treatment effects from observational data is a crucial task across many fields, helping policy and decision-makers take better actions. There has been recent progress on robust and efficient methods for estimating the conditional average treatment effect (CATE) function, but these methods often do not take into account the risk of hidden confounding, which could arbitrarily and unknowingly bias any causal estimate based on observational data. We propose a meta-learner called the B-Learner, which can efficiently learn sharp bounds on the CATE function under limits on the level of hidden confounding. We derive the B-Learner by adapting recent results for sharp and valid bounds of the average treatment effect (Dorn et al., 2021) into the framework given by Kallus & Oprescu (2022) for robust and model-agnostic learning of distributional treatment effects. The B-Learner can use any function estimator such as random forests and deep neural networks, and we prove its estimates are valid, sharp, efficient, and have a quasi-oracle property with respect to the constituent estimators under more general conditions than existing methods. Semi-synthetic experimental comparisons validate the theoretical findings, and we use real-world data demonstrate how the method might be used in practice.
翻訳日:2023-04-24 16:53:12 公開日:2023-04-20
# IDQL: 拡散ポリシを用いたアクタクリティカルなQ-ラーニング

IDQL: Implicit Q-Learning as an Actor-Critic Method with Diffusion Policies ( http://arxiv.org/abs/2304.10573v1 )

ライセンス: Link先を確認
Philippe Hansen-Estruch, Ilya Kostrikov, Michael Janner, Jakub Grudzien Kuba, Sergey Levine(参考訳) 効果的なオフラインRLメソッドは、配布外アクションを適切に処理する必要がある。 Implicit Q-learning(IQL)は、修正されたBellmanバックアップを通じてデータセットアクションのみを使用して、Q-関数をトレーニングすることで、この問題に対処する。 しかしながら、この暗黙的に訓練されたq関数で表される値が実際にどのポリシーで達成されるのかは不明である。 本稿では,批判対象を一般化し,行動規範化された暗黙的アクタと接続することにより,iqlをアクタ批判的手法として再解釈する。 この一般化は、誘導されたアクターが、このトレードオフの性質を決定する特定の損失選択とともに、行動方針からの報酬の最大化と分散のバランスを示す。 特に、このアクターは複雑でマルチモーダルな特性を示し、条件付きガウス型アクターが以前の手法で使われるアドバンテージ重み付け回帰 (awr) に適合する問題を提案する。 代わりに,拡散パラメータ化行動ポリシーのサンプルと,評価者から計算した重みを用いて,目的とする政策の標本化を重要視する。 一般的なiql批判とポリシ抽出法を組み合わせた,暗黙的拡散q-learning(idql)を導入する。 IDQLは、IQLの実装の容易さを維持しながら、以前のオフラインRLメソッドよりも優れ、ハイパーパラメータに対する堅牢性を示している。 コードはhttps://github.com/philippe-eecs/idqlで入手できる。

Effective offline RL methods require properly handling out-of-distribution actions. Implicit Q-learning (IQL) addresses this by training a Q-function using only dataset actions through a modified Bellman backup. However, it is unclear which policy actually attains the values represented by this implicitly trained Q-function. In this paper, we reinterpret IQL as an actor-critic method by generalizing the critic objective and connecting it to a behavior-regularized implicit actor. This generalization shows how the induced actor balances reward maximization and divergence from the behavior policy, with the specific loss choice determining the nature of this tradeoff. Notably, this actor can exhibit complex and multimodal characteristics, suggesting issues with the conditional Gaussian actor fit with advantage weighted regression (AWR) used in prior methods. Instead, we propose using samples from a diffusion parameterized behavior policy and weights computed from the critic to then importance sampled our intended policy. We introduce Implicit Diffusion Q-learning (IDQL), combining our general IQL critic with the policy extraction method. IDQL maintains the ease of implementation of IQL while outperforming prior offline RL methods and demonstrating robustness to hyperparameters. Code is available at https://github.com/philippe-eecs/IDQL.
翻訳日:2023-04-24 16:52:48 公開日:2023-04-20
# テンソルの幾何学:オープン問題と研究方向

Geometry of Tensors: Open problems and research directions ( http://arxiv.org/abs/2304.10570v1 )

ライセンス: Link先を確認
Fulvio Gesmundo(参考訳) ポーランド科学アカデミー数学研究所(IMPAN)およびワルシャワ大学数学部(MIM UW)2022年9月19日から26日にかけて開催されたAGATES Kickoff Workshopのプレゼンテーションと議論に続くオープンな問題と研究思想のコレクションである。

This is a collection of open problems and research ideas following the presentations and the discussions of the AGATES Kickoff Workshop held at the Institute of Mathematics of the Polish Academy of Sciences (IMPAN) and at the Department of Mathematics of University of Warsaw (MIM UW), September 19-26, 2022.
翻訳日:2023-04-24 16:52:25 公開日:2023-04-20
# Z3を用いたFNNグローバルロバストネスの形式的モデリングと検証

Using Z3 for Formal Modeling and Verification of FNN Global Robustness ( http://arxiv.org/abs/2304.10558v1 )

ライセンス: Link先を確認
Yihao Zhang, Zeming Wei, Xiyue Zhang, Meng Sun(参考訳) feedforward neural networks(fnn)は様々なタスクで顕著な成功を収めているが、敵の例に弱い。 fnnの逆ロバスト性を検証するためにいくつかの技術が開発されているが、そのほとんどは単一のデータポイントの局所摂動近傍に対するロバスト性検証に焦点を当てている。 グローバルロバストネス分析には依然として大きな研究ギャップがある。 グローバル・ロバスト性検証フレームワークであるDeepGlobalは、テストセット内のデータサンプルに限らず、FNNのAdversarial Dangerous Region(ADR)を識別するために提案されている。 本稿では,より明示的な定義のためにSMTソルバZ3を用いたDeepGlobalの完全な仕様と実装を提案し,より効率的な検証のためにDeepGlobalのいくつかの改良を提案する。 実装の有効性と改善性を評価するため、ベンチマークデータセットのセットに対して広範な実験を行う。 実験結果の可視化は,提案手法の有効性と有効性を示している。

While Feedforward Neural Networks (FNNs) have achieved remarkable success in various tasks, they are vulnerable to adversarial examples. Several techniques have been developed to verify the adversarial robustness of FNNs, but most of them focus on robustness verification against the local perturbation neighborhood of a single data point. There is still a large research gap in global robustness analysis. The global-robustness verifiable framework DeepGlobal has been proposed to identify \textit{all} possible Adversarial Dangerous Regions (ADRs) of FNNs, not limited to data samples in a test set. In this paper, we propose a complete specification and implementation of DeepGlobal utilizing the SMT solver Z3 for more explicit definition, and propose several improvements to DeepGlobal for more efficient verification. To evaluate the effectiveness of our implementation and improvements, we conduct extensive experiments on a set of benchmark datasets. Visualization of our experiment results shows the validity and effectiveness of the approach.
翻訳日:2023-04-24 16:52:17 公開日:2023-04-20
# 変圧器入門

An Introduction to Transformers ( http://arxiv.org/abs/2304.10557v1 )

ライセンス: Link先を確認
Richard E. Turner(参考訳) トランスはニューラルネットワークコンポーネントであり、シーケンスやデータポイントの集合の有用な表現を学ぶのに使用できる。 この変換器は、自然言語処理、コンピュータビジョン、時空間モデリングの最近の進歩を推し進めている。 トランスフォーマーの紹介は数多く存在するが、ほとんどはアーキテクチャの正確な数学的記述を含んでおらず、設計の選択の背後にある直観も欠落している。 さらに、研究が曲がりくねった経路を辿ると、変圧器の部品の説明は慣用的にできる。 本論では, 数学的に正確で直感的で, クリーンなトランスフォーマアーキテクチャ記述を目指している。

The transformer is a neural network component that can be used to learn useful representations of sequences or sets of datapoints. The transformer has driven recent advances in natural language processing, computer vision, and spatio-temporal modelling. There are many introductions to transformers, but most do not contain precise mathematical descriptions of the architecture and the intuitions behind the design choices are often also missing. Moreover, as research takes a winding path, the explanations for the components of the transformer can be idiosyncratic. In this note we aim for a mathematically precise, intuitive, and clean description of the transformer architecture.
翻訳日:2023-04-24 16:51:58 公開日:2023-04-20
# 物体検出の堅牢性を高める:合成と自然摂動アプローチ

Enhancing object detection robustness: A synthetic and natural perturbation approach ( http://arxiv.org/abs/2304.10622v1 )

ライセンス: Link先を確認
Nilantha Premakumara, Brian Jalaian, Niranjan Suri and Hooman Samani(参考訳) 実世界の分散シフトに対するロバスト性は、実用アプリケーションにおけるオブジェクト検出モデルの展開の成功に不可欠である。 本稿では,照明条件やぼかし,明るさの変動など,自然摂動に対する物体検出モデルのロバスト性を評価し,拡張する問題に対処する。 coco 2017データセットとexdarkデータセットを用いて,最先端のニューラルネットワークモデルであるdetr-resnet-101,detr-resnet-50,yolov4,yolov4-tinyを解析した。 合成摂動をAugLyパッケージでシミュレートすることにより,データ拡張技術によるモデル堅牢性向上に必要な合成摂動の最適レベルを体系的に検討する。 総合的アブレーション研究は, 物体検出モデルの性能に及ぼす合成摂動の影響を微妙に評価し, 合成加重と実世界のロバスト性との明確な関係を確立する。 本研究は,モデルロバスト性向上における合成摂動の有効性を実証するだけでなく,より堅牢で信頼性の高い物体検出モデルを開発する研究者や実践者に有用な知見を与えるものである。

Robustness against real-world distribution shifts is crucial for the successful deployment of object detection models in practical applications. In this paper, we address the problem of assessing and enhancing the robustness of object detection models against natural perturbations, such as varying lighting conditions, blur, and brightness. We analyze four state-of-the-art deep neural network models, Detr-ResNet-101, Detr-ResNet-50, YOLOv4, and YOLOv4-tiny, using the COCO 2017 dataset and ExDark dataset. By simulating synthetic perturbations with the AugLy package, we systematically explore the optimal level of synthetic perturbation required to improve the models robustness through data augmentation techniques. Our comprehensive ablation study meticulously evaluates the impact of synthetic perturbations on object detection models performance against real-world distribution shifts, establishing a tangible connection between synthetic augmentation and real-world robustness. Our findings not only substantiate the effectiveness of synthetic perturbations in improving model robustness, but also provide valuable insights for researchers and practitioners in developing more robust and reliable object detection models tailored for real-world applications.
翻訳日:2023-04-24 16:46:19 公開日:2023-04-20
# HOT」チャットGPT:ソーシャルメディア上での憎悪、攻撃的、有害なコメントの検出と識別におけるChatGPTの約束

"HOT" ChatGPT: The promise of ChatGPT in detecting and discriminating hateful, offensive, and toxic comments on social media ( http://arxiv.org/abs/2304.10619v1 )

ライセンス: Link先を確認
Lingyao Li, Lizhou Fan, Shubham Atreja, Libby Hemphill(参考訳) 有害コンテンツはソーシャルメディアに広まり、オンラインコミュニティを害し、参加に悪影響を及ぼす。 この問題に対処する一般的なアプローチは、人間のアノテーションに依存する検出モデルを開発することである。 しかし、そのようなモデルを構築するのに必要なタスクは、アノテータを有害で不快なコンテンツに晒し、完成までにかなりの時間とコストを必要とする可能性がある。 生成AIモデルは有害なコンテンツを理解し、検出する可能性がある。 この可能性を調べるため,我々はchatgptを用いてmturkerアノテーションとパフォーマンスを比較し,有害コンテンツに関連する3つの概念(ヘイトフル,アパルト,有毒(ホット))について論じた。 われわれはChatGPTと対話する5つのプロンプトを設計し,HOT分類を用いた4つの実験を行った。 以上の結果から,chatgptはmturkerアノテーションと比較して約80%の精度が得られることがわかった。 具体的には、HOTコメントよりもHOTコメントの方が人間のアノテーションより一貫性のある分類を示す。 以上の結果から,ChatGPT分類はHOT定義と一致していると考えられるが,ChatGPTは「有害」のサブセットとして「有害」と「有害」を分類する。 さらに、ChatGPTとの対話に使用するプロンプトの選択がそのパフォーマンスに影響を与える。 そこで本研究では,ホットコンテントの検出にchatgptを用いた場合,特に,そのパフォーマンスの信頼性と一貫性,ホットコンセプトの理解と推論,プロンプトがパフォーマンスに与える影響について,いくつかの意味のある示唆を与える。 本研究は,ソーシャルメディア上で大量のユーザ生成コンテンツを中和するために生成AIモデルを使用する可能性に関するガイダンスを提供する。

Harmful content is pervasive on social media, poisoning online communities and negatively impacting participation. A common approach to address this issue is to develop detection models that rely on human annotations. However, the tasks required to build such models expose annotators to harmful and offensive content and may require significant time and cost to complete. Generative AI models have the potential to understand and detect harmful content. To investigate this potential, we used ChatGPT and compared its performance with MTurker annotations for three frequently discussed concepts related to harmful content: Hateful, Offensive, and Toxic (HOT). We designed five prompts to interact with ChatGPT and conducted four experiments eliciting HOT classifications. Our results show that ChatGPT can achieve an accuracy of approximately 80% when compared to MTurker annotations. Specifically, the model displays a more consistent classification for non-HOT comments than HOT comments compared to human annotations. Our findings also suggest that ChatGPT classifications align with provided HOT definitions, but ChatGPT classifies "hateful" and "offensive" as subsets of "toxic." Moreover, the choice of prompts used to interact with ChatGPT impacts its performance. Based on these in-sights, our study provides several meaningful implications for employing ChatGPT to detect HOT content, particularly regarding the reliability and consistency of its performance, its understand-ing and reasoning of the HOT concept, and the impact of prompts on its performance. Overall, our study provides guidance about the potential of using generative AI models to moderate large volumes of user-generated content on social media.
翻訳日:2023-04-24 16:45:56 公開日:2023-04-20
# 顕微鏡画像分類のためのマルチドメイン学習CNNモデル

Multi-domain learning CNN model for microscopy image classification ( http://arxiv.org/abs/2304.10616v1 )

ライセンス: Link先を確認
Duc Hoa Tran, Michel Meunier, Farida Cheriet(参考訳) どんな顕微鏡画像でも、ディープラーニングモデルをうまく機能させるには、適切なアーキテクチャとトレーニング時間を選択するのにかなりの労力が必要です。 幅広い顕微鏡や実験装置が存在するため、複数のドメイン単位のモデルではなく、複数のイメージングドメインに適用可能な単一のモデルを設計することがより重要となる。 この仕事は困難であり、文学では見過ごされている。 本稿では,形態や内容によって異なる顕微鏡画像の分類のための多領域学習アーキテクチャを提案する。 計算集約的な従来の手法とは異なり、深度的に分離可能な畳み込みと開始モジュールの単純かつ効果的な手法を組み合わせることで、Mobincepと呼ばれるコンパクトモデルを開発した。 また,ネットワークの性能向上のために,トレーニング中に潜在機能空間を規制する新たな最適化手法を導入する。 3つの異なるパブリックデータセットでモデルを評価し、単一ドメインと複数ドメインの学習モードでの性能を比較した。 提案した分類器は最先端の結果を超え,ラベル付きデータに対して堅牢である。 さらに、新しい実験に切り替える際に、新しいネットワークを設計することの負担をなくすのに役立つ。

For any type of microscopy image, getting a deep learning model to work well requires considerable effort to select a suitable architecture and time to train it. As there is a wide range of microscopes and experimental setups, designing a single model that can apply to multiple imaging domains, instead of having multiple per-domain models, becomes more essential. This task is challenging and somehow overlooked in the literature. In this paper, we present a multi-domain learning architecture for the classification of microscopy images that differ significantly in types and contents. Unlike previous methods that are computationally intensive, we have developed a compact model, called Mobincep, by combining the simple but effective techniques of depth-wise separable convolution and the inception module. We also introduce a new optimization technique to regulate the latent feature space during training to improve the network's performance. We evaluated our model on three different public datasets and compared its performance in single-domain and multiple-domain learning modes. The proposed classifier surpasses state-of-the-art results and is robust for limited labeled data. Moreover, it helps to eliminate the burden of designing a new network when switching to new experiments.
翻訳日:2023-04-24 16:45:24 公開日:2023-04-20
# 暗号通貨における異常検出のためのアテンションフリーコンディショナルオートエンコーダ

An Attention Free Conditional Autoencoder For Anomaly Detection in Cryptocurrencies ( http://arxiv.org/abs/2304.10614v1 )

ライセンス: Link先を確認
Hugo Inzirillo and Ludovic De Villelongue(参考訳) 時系列における異常を識別することは、特にノイズが多い場合に困難である。 ノイズを除去する手法もあるが、この手法は情報に大きな損失をもたらす可能性がある。 時系列における異常を検出するために,AF-CA (A attention free conditional autoencoder) を提案する。 我々は,異常検出能力の信頼性を高め,異常検出能力を高めるために,アテンションフリーのLSTM層 \cite{inzirillo2022attention} を追加したオートエンコーダ条件モデルから始めた。 注意自由条件オートエンコーダの結果をlstmオートエンコーダの結果と比較し,モデルの説明力とノイズ時系列における異常の検出精度を明らかに改善した。

It is difficult to identify anomalies in time series, especially when there is a lot of noise. Denoising techniques can remove the noise but this technique can cause a significant loss of information. To detect anomalies in the time series we have proposed an attention free conditional autoencoder (AF-CA). We started from the autoencoder conditional model on which we added an Attention-Free LSTM layer \cite{inzirillo2022attention} in order to make the anomaly detection capacity more reliable and to increase the power of anomaly detection. We compared the results of our Attention Free Conditional Autoencoder with those of an LSTM Autoencoder and clearly improved the explanatory power of the model and therefore the detection of anomaly in noisy time series.
翻訳日:2023-04-24 16:45:07 公開日:2023-04-20
# デバイアス条件付き確率最適化

Debiasing Conditional Stochastic Optimization ( http://arxiv.org/abs/2304.10613v1 )

ライセンス: Link先を確認
Lie He and Shiva Prasad Kasiviswanathan(参考訳) 本稿では,ポートフォリオ選択や強化学習,頑健な学習,因果推論など,さまざまな応用をカバーする条件付き確率最適化(CSO)問題について検討する。 CSO目標のサンプル平均勾配は、ネスト構造のため偏りがあり、収束するには高いサンプル複雑さが必要である。 バイアスを効果的に低減する一般的な確率的外挿手法を提案する。 非凸な滑らかな目的に対して、この補間と分散低減技術を組み合わせることで、既存の境界よりもはるかに優れたサンプル複雑性が得られることを示す。 また,CSOの有限サム変種に対する新しいアルゴリズムを開発し,既存の結果を大幅に改善した。 最後に、私たちのデバイアス手法は、他の確率最適化問題にも適用できる興味深いツールであると考えています。

In this paper, we study the conditional stochastic optimization (CSO) problem which covers a variety of applications including portfolio selection, reinforcement learning, robust learning, causal inference, etc. The sample-averaged gradient of the CSO objective is biased due to its nested structure and therefore requires a high sample complexity to reach convergence. We introduce a general stochastic extrapolation technique that effectively reduces the bias. We show that for nonconvex smooth objectives, combining this extrapolation with variance reduction techniques can achieve a significantly better sample complexity than existing bounds. We also develop new algorithms for the finite-sum variant of CSO that also significantly improve upon existing results. Finally, we believe that our debiasing technique could be an interesting tool applicable to other stochastic optimization problems too.
翻訳日:2023-04-24 16:44:53 公開日:2023-04-20
# 大規模言語モデルのマルチアスペクト繰り返し抑制とコンテンツモデレーション

Multi-aspect Repetition Suppression and Content Moderation of Large Language Models ( http://arxiv.org/abs/2304.10611v1 )

ライセンス: Link先を確認
Minghui Zhang, Alex Sokolov, Weixin Cai, Si-Qing Chen(参考訳) 自然言語生成はNLPで最も影響力のある分野の1つであり、近年は大きな言語モデル(LLM)によってもたらされた進化を目撃している。 補助アプリケーションを書くための重要な手段として、入力で提供される不快コンテンツの複製や拡張が一般的である。 低リソースのデータレシエーションでは、繰り返し出力(Holtzman et al., 2019) [1] につながることもある。 通常、攻撃的コンテンツや繰り返しはn-gramレベルブロックリスト、トップk、核サンプリングを含むポストホック法によって軽減される。 本稿では,トークンとシーケンスレベルで,訓練中の損失,訓練中の繰り返しペナルティ,推論,後処理との違いを用いた,正確かつ非実効的な反復抑制の組み合わせを提案する。 我々はさらに,攻撃的な単語やフレーズを最初から生成することを避ける能力をモデルに内在させる程度まで,多レベル不一致の損失を探求する。 最後に,LLM出力の繰り返しと内容品質の制御において,提案手法が例外的に有効であることを示す。

Natural language generation is one of the most impactful fields in NLP, and recent years have witnessed its evolution brought about by large language models (LLMs). As the key instrument for writing assistance applications, they are generally prone to replicating or extending offensive content provided in the input. In low-resource data regime, they can also lead to repetitive outputs (Holtzman et al., 2019) [1]. Usually, offensive content and repetitions are mitigated with post-hoc methods, including n-gram level blocklists, top-k and nucleus sampling. In this paper, we introduce a combination of exact and non-exact repetition suppression using token and sequence level unlikelihood loss, repetition penalty during training, inference, and post-processing respectively. We further explore multi-level unlikelihood loss to the extent that it endows the model with abilities to avoid generating offensive words and phrases from the beginning. Finally, with comprehensive experiments, we demonstrate that our proposed methods work exceptionally in controlling the repetition and content quality of LLM outputs.
翻訳日:2023-04-24 16:44:41 公開日:2023-04-20
# 進化による流体力学計算貯留層の最適化

Optimization of a Hydrodynamic Computational Reservoir through Evolution ( http://arxiv.org/abs/2304.10610v1 )

ライセンス: Link先を確認
Alessandro Pierro, Kristine Heiney, Shamit Shrivastava, Giulia Marcucci, Stefano Nichele(参考訳) 計算資源の需要が前例のない水準に達するにつれて、計算に複雑な材料基板を使用する研究が拡大している。 本研究では, スタートアップが開発中の流体力学系のモデルと, 計算貯水池としてインターフェースし, 進化型マテリオ・アプローチを用いてその特性を最適化する。 入力データを浅い貯水池に適用した波として符号化し、一定の検出点において読み出し波の高さを求める。 提案手法は,学習データにおいて,読み出し行列行列の最大化による観測を線形に分離するシステムの能力を最大化することを目的として,読み出し時間と入力を進化探索アルゴリズムを用いて波の振幅や周波数にマッピングする方法を最適化した。 この貯水池システムへの進化的手法の適用は、手選択パラメータの実装と比較して、xnorタスクの分離性を大幅に改善した。 また,本手法を回帰タスクに適用し,本手法がサンプルの精度を向上させることを示す。 本研究の成果は, 今後, 物理貯留層との相互作用を知らせるものであり, 計算貯留層として, このシステムの物理的実装の他の側面を最適化するために, これらの手法を引き続き活用する。

As demand for computational resources reaches unprecedented levels, research is expanding into the use of complex material substrates for computing. In this study, we interface with a model of a hydrodynamic system, under development by a startup, as a computational reservoir and optimize its properties using an evolution in materio approach. Input data are encoded as waves applied to our shallow water reservoir, and the readout wave height is obtained at a fixed detection point. We optimized the readout times and how inputs are mapped to the wave amplitude or frequency using an evolutionary search algorithm, with the objective of maximizing the system's ability to linearly separate observations in the training data by maximizing the readout matrix determinant. Applying evolutionary methods to this reservoir system substantially improved separability on an XNOR task, in comparison to implementations with hand-selected parameters. We also applied our approach to a regression task and show that our approach improves out-of-sample accuracy. Results from this study will inform how we interface with the physical reservoir in future work, and we will use these methods to continue to optimize other aspects of the physical implementation of this system as a computational reservoir.
翻訳日:2023-04-24 16:44:23 公開日:2023-04-20
# ディープラーニングを用いた顧客チャーンの因果解析

Causal Analysis of Customer Churn Using Deep Learning ( http://arxiv.org/abs/2304.10604v1 )

ライセンス: Link先を確認
David Hason Rudd, Huan Huo, Guandong Xu(参考訳) 顧客チャーンでは、ビジネスとの関係を終了するか、特定の期間における顧客エンゲージメントを減少させる。 2つの主要なビジネスマーケティング戦略は、市場シェアを増加させるために重要な役割を担っている。 顧客の獲得コストは顧客の維持コストの5倍から6倍になり得るため、リスクの厳しい顧客への投資は賢明だ。 チャーンモデルの因果分析は、顧客が予見可能な将来にチャーンするかどうかを予測し、企業に対してチャーンの効果と潜在的な原因を特定し、その知識を使用して調整されたインセンティブを適用する。 本稿では,高次元スパースデータに対する逐次パターンマイニングを伴って,ディープフィードフォワードニューラルネットワークを用いた分類手法を提案する。 また,顧客を混乱させる原因を予測するための因果ベイズネットワークを提案する。 テストデータの評価指標から,XGBoostとディープラーニングモデルが従来の手法よりも優れていたことが確認された。 実験分析により,超保証貢献率,アカウント成長率,顧客在職期間のレベルを示す独立因果変数が,高い信頼度を有する顧客チャーンと結合する要因として同定された。 本稿では,地域超年金基金の現況推定から今後の方向性まで,現実世界の顧客分析を行う。

Customer churn describes terminating a relationship with a business or reducing customer engagement over a specific period. Two main business marketing strategies play vital roles to increase market share dollar-value: gaining new and preserving existing customers. Customer acquisition cost can be five to six times that for customer retention, hence investing in customers with churn risk is smart. Causal analysis of the churn model can predict whether a customer will churn in the foreseeable future and assist enterprises to identify effects and possible causes for churn and subsequently use that knowledge to apply tailored incentives. This paper proposes a framework using a deep feedforward neural network for classification accompanied by a sequential pattern mining method on high-dimensional sparse data. We also propose a causal Bayesian network to predict cause probabilities that lead to customer churn. Evaluation metrics on test data confirm the XGBoost and our deep learning model outperformed previous techniques. Experimental analysis confirms that some independent causal variables representing the level of super guarantee contribution, account growth, and customer tenure were identified as confounding factors for customer churn with a high degree of belief. This paper provides a real-world customer churn analysis from current status inference to future directions in local superannuation funds.
翻訳日:2023-04-24 16:44:00 公開日:2023-04-20
# Text2Seg:テキスト誘導ビジュアルファンデーションモデルによるリモートセンシング画像セマンティックセグメンテーション

Text2Seg: Remote Sensing Image Semantic Segmentation via Text-Guided Visual Foundation Models ( http://arxiv.org/abs/2304.10597v1 )

ライセンス: Link先を確認
Jielu Zhang, Zhongliang Zhou, Gengchen Mai, Lan Mu, Mengxuan Hu, Sheng Li(参考訳) GPT-4やLLaMAのような基礎モデル(FM)の最近の進歩は、ゼロショット学習シナリオにおける例外的な性能のために大きな注目を集めている。 同様に、視覚学習の分野では、Grounding DINOやSegment Anything Model (SAM)のようなモデルは、オープンセット検出やインスタンスセグメンテーションタスクにおいて顕著な進歩を見せている。 これらのFMが現実世界の視覚学習タスクに多大な影響を及ぼし、そのようなモデルを開発するための新たなパラダイムシフトをもたらすことは、疑いようがない。 本研究では, リモートセンシング領域に焦点をあて, 従来のシナリオでは画像が特に異なる領域に注目する。 テキストプロンプトによって誘導されるリモートセンシング画像セマンティックセマンティクスタスクを容易にするために,複数のFMを利用するパイプラインを開発した。 このパイプラインは,広く使用されているリモートセンシングデータセット上でベンチマークを行い,その効果を示すための予備的な結果を示す。 本研究は、最小限のモデルチューニングを用いて、特定のコンテキストにおける視覚的FMの適用性を最大化するための洞察を提供することを目的とする。 コードはhttps://github.com/Douglas2Code/Text2Segで入手できる。

Recent advancements in foundation models (FMs), such as GPT-4 and LLaMA, have attracted significant attention due to their exceptional performance in zero-shot learning scenarios. Similarly, in the field of visual learning, models like Grounding DINO and the Segment Anything Model (SAM) have exhibited remarkable progress in open-set detection and instance segmentation tasks. It is undeniable that these FMs will profoundly impact a wide range of real-world visual learning tasks, ushering in a new paradigm shift for developing such models. In this study, we concentrate on the remote sensing domain, where the images are notably dissimilar from those in conventional scenarios. We developed a pipeline that leverages multiple FMs to facilitate remote sensing image semantic segmentation tasks guided by text prompt, which we denote as Text2Seg. The pipeline is benchmarked on several widely-used remote sensing datasets, and we present preliminary results to demonstrate its effectiveness. Through this work, we aim to provide insights into maximizing the applicability of visual FMs in specific contexts with minimal model tuning. The code is available at https://github.com/Douglas2Code/Text2Seg.
翻訳日:2023-04-24 16:43:40 公開日:2023-04-20
# 融合と予測による人工知能政策の強化:ネットワーク分析を用いたインド特許の考察

Enhancing Artificial intelligence Policies with Fusion and Forecasting: Insights from Indian Patents Using Network Analysis ( http://arxiv.org/abs/2304.10596v1 )

ライセンス: Link先を確認
Akhil Kuniyil, Avinash Kshitij, and Kasturi Mandal(参考訳) 本稿では, 集中度測定, クラスタリング係数, 融合度測定を用いて, 各種人工知能(AI)技術の相互接続性と相互依存性について検討する。 異なる時間窓を通じて技術を分析し、その重要性を定量化することで、AIのランドスケープとドメインの成熟度を形作る重要なコンポーネントに関する重要な洞察を明らかにしました。 この研究の結果は、人工知能の将来の発展と進歩に重要な意味を持ち、核融合の重要な技術領域を明確に理解する。 さらに,本論文はAIの公共政策研究に貢献し,現場の現状と今後の方向性についてデータ駆動の視点を提供する。 しかし、この研究の限界を認識し、これらの結果に基づいてさらなる研究を求めることが重要である。 これらの発見により、AIの分野での今後の研究を通知し、ガイドし、その成長と成功に寄与したいと考えています。

This paper presents a study of the interconnectivity and interdependence of various Artificial intelligence (AI) technologies through the use of centrality measures, clustering coefficients, and degree of fusion measures. By analyzing the technologies through different time windows and quantifying their importance, we have revealed important insights into the crucial components shaping the AI landscape and the maturity level of the domain. The results of this study have significant implications for future development and advancements in artificial intelligence and provide a clear understanding of key technology areas of fusion. Furthermore, this paper contributes to AI public policy research by offering a data-driven perspective on the current state and future direction of the field. However, it is important to acknowledge the limitations of this research and call for further studies to build on these results. With these findings, we hope to inform and guide future research in the field of AI, contributing to its continued growth and success.
翻訳日:2023-04-24 16:43:18 公開日:2023-04-20
# 畳み込みニューラルネットワークを用いた量子コンピュータ能力の学習

Learning a quantum computer's capability using convolutional neural networks ( http://arxiv.org/abs/2304.10650v1 )

ライセンス: Link先を確認
Daniel Hothem, Kevin Young, Tommie Catanach, and Timothy Proctor(参考訳) 現代の量子プロセッサの計算能力は、計算が失敗するハードウェアエラーによって制限される。 原則として、各量子プロセッサの計算能力は、プロセッサが可能な量子回路(例えば、プログラム)をどれだけうまく実行できるかを、回路からプロセッサの成功率へのマップとして定量化する機能関数で記述することができる。 しかしながら、機能関数は一般に未知であり、特定の量子プロセッサにまつわる特定のエラーは未知であり、完全に特徴づけるのが難しいため、モデル化が困難である。 本研究では,ニューラルネットワークを用いてプロセッサの能力関数の近似を学習する。 本稿では、能力関数の定義方法を検討し、プロセス忠実性を用いて定義された能力関数に対して、ニューラルネットワークを訓練するためのデータを効率的に取得する方法を説明する。 次に,畳み込みニューラルネットワークを用いて量子コンピュータの能力をモデル化する。 シミュレーションを用いて、畳み込みニューラルネットワークは、ゲート依存、時間依存、コンテキスト依存の確率誤差を経験するプロセッサの能力を正確にモデル化できることを示す。 次に,実験プロセッサに有用なニューラルネットワーク機能モデルを構築する上での課題について論じる。 最後に、ニューラルネットワークを用いてクラウドアクセス量子コンピューティングシステムの能力をモデル化し、適度な予測精度(平均絶対誤差は約2-5%)を得る。

The computational power of contemporary quantum processors is limited by hardware errors that cause computations to fail. In principle, each quantum processor's computational capabilities can be described with a capability function that quantifies how well a processor can run each possible quantum circuit (i.e., program), as a map from circuits to the processor's success rates on those circuits. However, capability functions are typically unknown and challenging to model, as the particular errors afflicting a specific quantum processor are a priori unknown and difficult to completely characterize. In this work, we investigate using artificial neural networks to learn an approximation to a processor's capability function. We explore how to define the capability function, and we explain how data for training neural networks can be efficiently obtained for a capability function defined using process fidelity. We then investigate using convolutional neural networks to model a quantum computer's capability. Using simulations, we show that convolutional neural networks can accurately model a processor's capability when that processor experiences gate-dependent, time-dependent, and context-dependent stochastic errors. We then discuss some challenges to creating useful neural network capability models for experimental processors, such as generalizing beyond training distributions and modelling the effects of coherent errors. Lastly, we apply our neural networks to model the capabilities of cloud-access quantum computing systems, obtaining moderate prediction accuracy (average absolute error around 2-5%).
翻訳日:2023-04-24 16:36:36 公開日:2023-04-20
# 量子論は(おそらく)真の還元を必要とする

Quantum Theory Needs (And Probably Has) Real Reduction ( http://arxiv.org/abs/2304.10649v1 )

ライセンス: Link先を確認
R. E. Kastner(参考訳) 伝統的に標準的な量子論のアプローチは、'really' 理論が単体力学のみを含むと仮定することであり、すなわち、物理的に定量化できる唯一の進化は時間依存シュロディンガー方程式によって与えられるものである。 これは、標準理論に対する2つの異なる解釈のクラスを正統形式に導く。 (i)宇宙の異なる『ブランチ』で互いに排他的な結果が生じると仮定するエベレット型アプローチ、または (ii) 量子論における物理的説明を伴わない「投影公理」(pp) を仮定する単元アプローチ。 対照的に、非正統的なアプローチは、物理的な非ユニタリ性を含む量子論の形式を提案することである。 「」には、ペンローズの重力による崩壊説とトランザクション解釈がある。 本論文の主な焦点は、標準量子論(射影仮定の有無にかかわらず)が経験的に連続した矛盾を生じさせることを示す例である。 したがって、量子論が現実主義的な意味で実現可能であるためには(プロトコルを変更することによって不整合が回避される器楽主義的プロトコルとは対照的に)、真の物理的非ユニタリ性を持つ必要がある。 これは、客観的崩壊モデルがより真剣に検討されるべきという結論に繋がる。

The traditional, standard approach to quantum theory is to assume that the theory ``really'' contains only unitary physical dynamics--i.e., that the only physically quantifiable evolution is that given by the time-dependent Schrodinger equation. This leads to two distinct classes of interpretations for the standard theory in its orthodox form: (i) an Everettian-type approach assuming that all mutually exclusive outcomes occur in different ``branches'' of the universe; or (ii) single-outcome approaches that assume a ``projection postulate'' (PP) with no accompanying physical account within quantum theory. A contrasting, unorthodox approach is to suggest forms of quantum theory that involve physical non-unitarity; these are called ``objective collapse models.'' Among these are Penrose's theory of gravitation-induced collapse and the Transactional Interpretation. The primary focus of this paper is an example demonstrating that standard quantum theory (with or without the projection postulate) can in-principle yield empirically consequential inconsistencies. Thus, it appears that for quantum theory to be viable in a realist sense (as opposed to being an instrumentalist protocol in which inconsistencies are evaded by changing the protocol), it must possess genuine, physical non-unitarity yielding well-defined single outcomes. This leads to the conclusion that objective collapse models should be more seriously considered.
翻訳日:2023-04-24 16:36:12 公開日:2023-04-20
# 身体装着センサからの非教師なしドメイン転送を用いた活動分類

Activity Classification Using Unsupervised Domain Transfer from Body Worn Sensors ( http://arxiv.org/abs/2304.10643v1 )

ライセンス: Link先を確認
Chaitra Hedge, Gezheng Wen, Layne C. Price(参考訳) アクティビティの分類は、ウェアラブルの健康追跡デバイスにとって重要な特徴となっている。 この分野のイノベーションが進むにつれて、身体のさまざまな部分に装着するウェアラブルデバイスが出現している。 新しいボディロケーションでアクティビティ分類を行うには、通常、新しいロケーションに対応するラベル付きデータが必要となるが、これは取得にコストがかかる。 本研究では,既存の活動分類器を活用し,基準体位置(ソース領域)から慣性測定単位(imu)データに基づいて訓練し,新しい身体位置(対象領域)における活動分類を教師なしの方法で行う革新的な手法を提案する。 具体的には、ソースドメインでアクティビティ分類を行うようにトレーニングされたimm埋め込みモデルが与えられた場合、ソースドメインで埋め込みを複製することで、ターゲットドメインでアクティビティ分類を行うように組み込みモデルをトレーニングします。 これはソースとターゲットドメインでの同時IMU測定によって達成される。 ターゲットドメインでの複製された埋め込みは、ターゲットドメインでアクティビティ分類を行うためにソースドメインでトレーニングされた分類モデルによって使用される。 提案手法をPAMAP2,MHealth,Opportunityの3つのアクティビティ分類データセットで評価し,ソースドメインが手首,ターゲットドメインが胴体である場合,F1スコアが67.19%,70.40%,68.34%であった。

Activity classification has become a vital feature of wearable health tracking devices. As innovation in this field grows, wearable devices worn on different parts of the body are emerging. To perform activity classification on a new body location, labeled data corresponding to the new locations are generally required, but this is expensive to acquire. In this work, we present an innovative method to leverage an existing activity classifier, trained on Inertial Measurement Unit (IMU) data from a reference body location (the source domain), in order to perform activity classification on a new body location (the target domain) in an unsupervised way, i.e. without the need for classification labels at the new location. Specifically, given an IMU embedding model trained to perform activity classification at the source domain, we train an embedding model to perform activity classification at the target domain by replicating the embeddings at the source domain. This is achieved using simultaneous IMU measurements at the source and target domains. The replicated embeddings at the target domain are used by a classification model that has previously been trained on the source domain to perform activity classification at the target domain. We have evaluated the proposed methods on three activity classification datasets PAMAP2, MHealth, and Opportunity, yielding high F1 scores of 67.19%, 70.40% and 68.34%, respectively when the source domain is the wrist and the target domain is the torso.
翻訳日:2023-04-24 16:35:48 公開日:2023-04-20
# BERTからの知識蒸留による単語センス誘導

Word Sense Induction with Knowledge Distillation from BERT ( http://arxiv.org/abs/2304.10642v1 )

ライセンス: Link先を確認
Anik Saha, Alex Gittens, Bulent Yener(参考訳) 事前訓練された文脈言語モデルは、言語理解タスクにユビキタスに使用されるが、リソース制約されたシステムには適さない。 非文脈語埋め込みはこれらの設定において効率的な代替手段である。 このような方法は通常、1つのベクターを使って単語の複数の異なる意味を符号化し、ポリセミーによる誤りを発生させる。 本稿では,事前学習された言語モデル(bert)から複数の単語の感覚を,文脈内の単語の感覚に注意を払い,この感覚情報をスキップグラムのような枠組みで多意味埋め込みに適合させる2段階の手法を提案する。 bertの出力層埋め込みから抽出した単語感覚の分布を用いて,モデルの感覚曖昧化機構をトレーニングするための効果的なアプローチを示す。 文脈的単語類似性と感覚誘発タスクに関する実験は、この手法が複数のベンチマークデータセットに対する最先端のマルチセンス埋め込みよりも優れていることを示し、etm(embedd-based topic model)による実験は、下流アプリケーションでこのマルチセンス埋め込みを使用することの利点を示している。

Pre-trained contextual language models are ubiquitously employed for language understanding tasks, but are unsuitable for resource-constrained systems. Noncontextual word embeddings are an efficient alternative in these settings. Such methods typically use one vector to encode multiple different meanings of a word, and incur errors due to polysemy. This paper proposes a two-stage method to distill multiple word senses from a pre-trained language model (BERT) by using attention over the senses of a word in a context and transferring this sense information to fit multi-sense embeddings in a skip-gram-like framework. We demonstrate an effective approach to training the sense disambiguation mechanism in our model with a distribution over word senses extracted from the output layer embeddings of BERT. Experiments on the contextual word similarity and sense induction tasks show that this method is superior to or competitive with state-of-the-art multi-sense embeddings on multiple benchmark data sets, and experiments with an embedding-based topic model (ETM) demonstrates the benefits of using this multi-sense embedding in a downstream application.
翻訳日:2023-04-24 16:35:24 公開日:2023-04-20
# 分散線形系ソルバの収束率に及ぼすデータ不均質性の影響について

On the Effects of Data Heterogeneity on the Convergence Rates of Distributed Linear System Solvers ( http://arxiv.org/abs/2304.10640v1 )

ライセンス: Link先を確認
Boris Velasevic, Rohit Parasnis, Christopher G. Brinton, Navid Azizan(参考訳) 線形方程式の大規模系を解く基本的な問題を考える。 特に,タスクマスターは,各方程式のサブセットを持つ機械の集合の助けを借りて,分散/フェデレーション方式でシステムを解くことを意図した設定を考える。 この問題を解決する方法はいくつかあるが、プロジェクションベースの手法の収束率と最適化ベースの手法との厳密な比較は欠落している。 本稿では,これらの2種類のアルゴリズムを,各クラスから最も効率的な手法,すなわち最近提案された Accelerated Projection-Based Consensus (APC) と Distributed Heavy-Ball Method (D-HBM) に着目して分析・比較する。 この目的のために,我々はまず,角不均一性と呼ばれるデータ不均一性の幾何学的概念を提案し,その一般性について議論する。 この概念を用いて、解析したアルゴリズムの収束率を限定して比較し、クロスマシンと局所データの両方がそれらの量に与える影響を捉える。 我々の分析は、APCが大規模なデータ不均一性が存在する現実的なシナリオにおいて最も効率的な方法であることを示す以外に、多くの新しい洞察をもたらす。 我々の数値解析は理論的な結果を検証する。

We consider the fundamental problem of solving a large-scale system of linear equations. In particular, we consider the setting where a taskmaster intends to solve the system in a distributed/federated fashion with the help of a set of machines, who each have a subset of the equations. Although there exist several approaches for solving this problem, missing is a rigorous comparison between the convergence rates of the projection-based methods and those of the optimization-based ones. In this paper, we analyze and compare these two classes of algorithms with a particular focus on the most efficient method from each class, namely, the recently proposed Accelerated Projection-Based Consensus (APC) and the Distributed Heavy-Ball Method (D-HBM). To this end, we first propose a geometric notion of data heterogeneity called angular heterogeneity and discuss its generality. Using this notion, we bound and compare the convergence rates of the studied algorithms and capture the effects of both cross-machine and local data heterogeneity on these quantities. Our analysis results in a number of novel insights besides showing that APC is the most efficient method in realistic scenarios where there is a large data heterogeneity. Our numerical analyses validate our theoretical results.
翻訳日:2023-04-24 16:35:06 公開日:2023-04-20
# SNSアクセラレーターにおけるHVCM故障予測のためのマルチモジュールCVAE

Multi-module based CVAE to predict HVCM faults in the SNS accelerator ( http://arxiv.org/abs/2304.10639v1 )

ライセンス: Link先を確認
Yasir Alanazi, Malachi Schram, Kishansingh Rajput, Steven Goldenberg, Lasitha Vidyaratne, Chris Pappas, Majdi I. Radaideh, Dan Lu, Pradeep Ramuhalli, Sarah Cousineau(参考訳) 本稿では,複数の高電圧コンバータ変調器(HVCM)から発生する電力信号の異常を検出するために,条件付き変分オートエンコーダ(CVAE)に基づくマルチモジュールフレームワークを提案する。 特定の変調器型のモデルに、通常の波形の異なる表現をキャプチャし、与えられたモジュールタイプの限られたサンプルを持つ場合に、特定のタイプの障害を特定するためのモデルの感度を向上させる。 CVAEモデルのためのニューラルネットワーク(NN)アーキテクチャを複数検討し、その損失景観を安定性と一般化のために検討してモデル性能を評価した。 スカラー化中性子源(SNS)実験データから,複数のHVCMモジュールタイプに対する複数の故障タイプの検出において,トレーニングモデルの有効性が示唆された。 本研究の結果は,HVCMの信頼性向上とSNS全体の稼働時間向上に有効である。

We present a multi-module framework based on Conditional Variational Autoencoder (CVAE) to detect anomalies in the power signals coming from multiple High Voltage Converter Modulators (HVCMs). We condition the model with the specific modulator type to capture different representations of the normal waveforms and to improve the sensitivity of the model to identify a specific type of fault when we have limited samples for a given module type. We studied several neural network (NN) architectures for our CVAE model and evaluated the model performance by looking at their loss landscape for stability and generalization. Our results for the Spallation Neutron Source (SNS) experimental data show that the trained model generalizes well to detecting multiple fault types for several HVCM module types. The results of this study can be used to improve the HVCM reliability and overall SNS uptime
翻訳日:2023-04-24 16:34:42 公開日:2023-04-20
# Get Rid of your Trail: フェデレーション学習のバックドアを遠隔で消去する

Get Rid Of Your Trail: Remotely Erasing Backdoors in Federated Learning ( http://arxiv.org/abs/2304.10638v1 )

ライセンス: Link先を確認
Manaar Alam and Hithem Lamri and Michail Maniatakos(参考訳) 連合学習(federated learning, fl)は、機密性の高い個人データを露呈することなく、複数の参加者にまたがって協調的なディープラーニングトレーニングを可能にする。 しかし、FLの分散特性と未調査の参加者のデータは、バックドア攻撃に対して脆弱である。 これらの攻撃において、敵は訓練中に悪意のある機能を集中モデルに注入し、特定の敵の入力に対する意図的な誤分類を引き起こす。 FLにおける持続的バックドア注入の成功例は過去にも報告されているが、中央集権化モデルにおける持続性は、中央集権化サーバに敵を罰する予防措置を講じるよう促す可能性があるため、課題となっている。 そこで本稿では,目的達成や検出可能性の疑いにより,敵が集中型モデルからバックドアを効果的に除去できる手法を提案する。 提案手法は,マシン・アンラーニングの概念を拡張し,中央集権モデルの性能を維持するとともに,バックドア・パターンとは無関係な情報の過剰なアンラーニングを防止し,バックドアを除去しながら敵を盗む。 私たちの知る限りでは、これはflで機械学習を探求し、敵の利益のためにバックドアを取り除く最初の仕事です。 画像分類シナリオを考慮した探索的評価は,複数の構成にまたがる最先端攻撃による集中モデルからの効率的なバックドア除去において,提案手法の有効性を示す。

Federated Learning (FL) enables collaborative deep learning training across multiple participants without exposing sensitive personal data. However, the distributed nature of FL and the unvetted participants' data makes it vulnerable to backdoor attacks. In these attacks, adversaries inject malicious functionality into the centralized model during training, leading to intentional misclassifications for specific adversary-chosen inputs. While previous research has demonstrated successful injections of persistent backdoors in FL, the persistence also poses a challenge, as their existence in the centralized model can prompt the central aggregation server to take preventive measures to penalize the adversaries. Therefore, this paper proposes a methodology that enables adversaries to effectively remove backdoors from the centralized model upon achieving their objectives or upon suspicion of possible detection. The proposed approach extends the concept of machine unlearning and presents strategies to preserve the performance of the centralized model and simultaneously prevent over-unlearning of information unrelated to backdoor patterns, making the adversaries stealthy while removing backdoors. To the best of our knowledge, this is the first work that explores machine unlearning in FL to remove backdoors to the benefit of adversaries. Exhaustive evaluation considering image classification scenarios demonstrates the efficacy of the proposed method in efficient backdoor removal from the centralized model, injected by state-of-the-art attacks across multiple configurations.
翻訳日:2023-04-24 16:34:26 公開日:2023-04-20
# IXA/Cogcomp at SemEval-2023 Task 2: 知識ベースを用いたコンテキスト強化多言語名前付きエンティティ認識

IXA/Cogcomp at SemEval-2023 Task 2: Context-enriched Multilingual Named Entity Recognition using Knowledge Bases ( http://arxiv.org/abs/2304.10637v1 )

ライセンス: Link先を確認
Iker Garc\'ia-Ferrero, Jon Ander Campos, Oscar Sainz, Ander Salaberria, Dan Roth(参考訳) 名前付きエンティティ認識(NER)は、訓練済みの言語モデルが顕著なパフォーマンスを示す中核的な自然言語処理タスクである。 しかし、conll 2003 \cite{conll03}のような標準ベンチマークは、新興または複雑なエンティティを細かな方法で分類する必要など、nerシステムが直面する多くの課題に対処していない。 本稿では,入力文中の候補エンティティを識別する,各候補を既存の知識ベースにリンクする,各エンティティ候補の細かなカテゴリを予測する,という3つのステップからなる新しいnerカスケード手法を提案する。 我々は,外部知識基盤が,細粒度と新興度を正確に分類する上での意義を実証的に示す。 我々のシステムは,高リソース言語の知識ベースを活用する低リソース言語設定においても,MultiCoNER2 \cite{multiconer2-data}共有タスクにおいて堅牢な性能を示す。

Named Entity Recognition (NER) is a core natural language processing task in which pre-trained language models have shown remarkable performance. However, standard benchmarks like CoNLL 2003 \cite{conll03} do not address many of the challenges that deployed NER systems face, such as having to classify emerging or complex entities in a fine-grained way. In this paper we present a novel NER cascade approach comprising three steps: first, identifying candidate entities in the input sentence; second, linking the each candidate to an existing knowledge base; third, predicting the fine-grained category for each entity candidate. We empirically demonstrate the significance of external knowledge bases in accurately classifying fine-grained and emerging entities. Our system exhibits robust performance in the MultiCoNER2 \cite{multiconer2-data} shared task, even in the low-resource language setting where we leverage knowledge bases of high-resource languages.
翻訳日:2023-04-24 16:34:02 公開日:2023-04-20
# Cayley変換による楕円体フィッティング

Ellipsoid fitting with the Cayley transform ( http://arxiv.org/abs/2304.10630v1 )

ライセンス: Link先を確認
Omar Melikechi, David B. Dunson(参考訳) 本稿では,任意の次元の楕円体をノイズデータに適合させるアルゴリズム,Cayley transform ellipsoid fitting (CTEF)を導入する。 多くの楕円型フィッティング法とは異なり、ctefは楕円型特異的であり、常に楕円型解を返す。 また、楕円体表面にデータが均一に分散していない場合、他のフィッティング法よりも優れる。 機械学習における解釈可能な再現可能な手法の呼び出しに着想を得て,CTEFを次元縮小,データの可視化,クラスタリングに応用する。 CTEFはグローバルな曲率をキャプチャするため、他の手法では識別できない非線形特徴を抽出することができる。 これは、ヒトの細胞周期データにおける次元縮小の文脈や、古典的なおもちゃの例のクラスタリングの文脈で示される。 後者の場合、CTEFは10の一般的なクラスタリングアルゴリズムより優れている。

We introduce an algorithm, Cayley transform ellipsoid fitting (CTEF), that uses the Cayley transform to fit ellipsoids to noisy data in any dimension. Unlike many ellipsoid fitting methods, CTEF is ellipsoid specific -- meaning it always returns elliptic solutions -- and can fit arbitrary ellipsoids. It also outperforms other fitting methods when data are not uniformly distributed over the surface of an ellipsoid. Inspired by calls for interpretable and reproducible methods in machine learning, we apply CTEF to dimension reduction, data visualization, and clustering. Since CTEF captures global curvature, it is able to extract nonlinear features in data that other methods fail to identify. This is illustrated in the context of dimension reduction on human cell cycle data, and in the context of clustering on classical toy examples. In the latter case, CTEF outperforms 10 popular clustering algorithms.
翻訳日:2023-04-24 16:33:42 公開日:2023-04-20
# HM-ViT:視覚変換器を用いた異機種間協調認識

HM-ViT: Hetero-modal Vehicle-to-Vehicle Cooperative perception with vision transformer ( http://arxiv.org/abs/2304.10628v1 )

ライセンス: Link先を確認
Hao Xiang, Runsheng Xu, Jiaqi Ma(参考訳) 車両と車両のテクノロジーは、自動運転車がオクルージョンを通して見る情報を共有することを可能にし、認識性能を大幅に向上させた。 それにもかかわらず、既存の作業はすべて、車両が同じタイプのセンサーを搭載している均質な交通に焦点を当てており、協調のスケールと相互モダリティ相互作用の利点を著しく阻害している。 本稿では,エージェントが異なるセンサモードを持つ場合のマルチエージェントヘテロモーダル協調認識問題について検討する。 本稿では,3dオブジェクトを協調的に予測し,車両間相互作用(v2v)を多種多様なエージェントと組み合わせて予測する,初の統合型マルチエージェント・ヘテロモーダル協調認識フレームワークhm-vitを提案する。 マルチビュー画像とLiDAR点群の特徴を効果的に融合するために,エージェント間相互作用とエージェント間相互作用を共同で推論する異種3Dグラフ変換器を設計する。 V2V知覚データセットOPV2Vに関する広範な実験により、HM-ViTはV2Vのヘテロモーダル協調知覚においてSOTA協調知覚法より優れていることが示された。 今後の研究を促進するためのコードをリリースします。

Vehicle-to-Vehicle technologies have enabled autonomous vehicles to share information to see through occlusions, greatly enhancing perception performance. Nevertheless, existing works all focused on homogeneous traffic where vehicles are equipped with the same type of sensors, which significantly hampers the scale of collaboration and benefit of cross-modality interactions. In this paper, we investigate the multi-agent hetero-modal cooperative perception problem where agents may have distinct sensor modalities. We present HM-ViT, the first unified multi-agent hetero-modal cooperative perception framework that can collaboratively predict 3D objects for highly dynamic vehicle-to-vehicle (V2V) collaborations with varying numbers and types of agents. To effectively fuse features from multi-view images and LiDAR point clouds, we design a novel heterogeneous 3D graph transformer to jointly reason inter-agent and intra-agent interactions. The extensive experiments on the V2V perception dataset OPV2V demonstrate that the HM-ViT outperforms SOTA cooperative perception methods for V2V hetero-modal cooperative perception. We will release codes to facilitate future research.
翻訳日:2023-04-24 16:33:28 公開日:2023-04-20
# 測地線に沿って跳躍する3レベル系の加速量子制御

Accelerated quantum control in a three-level system by jumping along the geodesics ( http://arxiv.org/abs/2304.10672v1 )

ライセンス: Link先を確認
Musang Gong, Min Yu, Ralf Betzholz, Yaoming Chu, Pengcheng Yang, Zhenyu Wang, and Jianming Cai(参考訳) 固体スピン系において,従来の刺激ラマン断熱通路(stirap)に比べて効率が向上した量子状態人口移動プロトコルを実験的に実証した。 ダイヤモンド中の窒素空孔中心の基底状態三重項を用いて,高忠実度状態移動に必要な進化時間は,ほぼ1桁に短縮できることを示した。 さらに、STIRAPと比較して、磁気ノイズによる周波数劣化に対するロバスト性を向上する。 これらの結果は、量子センシングと量子計算の文脈におけるコヒーレントスピン操作のための強力なツールを提供する。

In a solid-state spin system, we experimentally demonstrate a protocol for quantum-state population transfer with an improved efficiency compared to traditional stimulated Raman adiabatic passage (STIRAP). Using the ground-state triplet of the nitrogen-vacancy center in diamond, we show that the required evolution time for high-fidelity state transfer can be reduced by almost one order of magnitude. Furthermore, we establish an improved robustness against frequency detuning caused by magnetic noise as compared to STIRAP. These results provide a powerful tool for coherent spin manipulation in the context of quantum sensing and quantum computation.
翻訳日:2023-04-24 16:27:53 公開日:2023-04-20
# 協調的知識共有による点制御シングルセルセグメンテーション

Point-supervised Single-cell Segmentation via Collaborative Knowledge Sharing ( http://arxiv.org/abs/2304.10671v1 )

ライセンス: Link先を確認
Ji Yu(参考訳) その優れた性能にもかかわらず、ディープラーニングの手法は、大規模に注釈付きトレーニングデータを必要とするという不利をしばしば抱えている。 これに対し、最近の文献ではアノテーションの負担軽減を目的とした取り組みが急増している。 本稿では,単一セルセグメンテーションモデルにおいて,単一セルセグメンテーションモデルの弱い教師付きトレーニング設定に着目した。 特定の問題は、細胞の位置をプログラム的に導出できる生体医学文献において広く入手可能な核対ステインデータのため、実際的に興味深い。 より一般的な関心事は、コラボレーティブ・ナレッジ・シェアリング(collaborative knowledge sharing)と呼ばれる、よりよく知られた一貫性学習方法とは別物である自己学習手法である。 この戦略は、主モデルと非常に軽量な協調モデルの間で知識を共有することで自己学習を実現する。 重要なことは、これらの2つのモデルはアーキテクチャ、能力、およびモデル出力において完全に異なることである: この場合、主モデルは、オブジェクト-検出の観点からセグメント化問題にアプローチするが、コラボレータモデルはセマンティックセマンティックセマンティックなセマンティックなセマンティック・パースペクティブ・パースペクティブにアプローチする。 本研究では,ブライトフィールド画像の大規模単一セルセグメンテーションデータセットであるlivecellと,核カウンタステインデータから位置ラベルを自動的に生成する蛍光画像データセットであるa431を用いて,この戦略の有効性を評価した。 コードはhttps://github.com/jiyuuchc/lacss_jaxで実装できる。

Despite their superior performance, deep-learning methods often suffer from the disadvantage of needing large-scale well-annotated training data. In response, recent literature has seen a proliferation of efforts aimed at reducing the annotation burden. This paper focuses on a weakly-supervised training setting for single-cell segmentation models, where the only available training label is the rough locations of individual cells. The specific problem is of practical interest due to the widely available nuclei counter-stain data in biomedical literature, from which the cell locations can be derived programmatically. Of more general interest is a proposed self-learning method called collaborative knowledge sharing, which is related to but distinct from the more well-known consistency learning methods. This strategy achieves self-learning by sharing knowledge between a principal model and a very light-weight collaborator model. Importantly, the two models are entirely different in their architectures, capacities, and model outputs: In our case, the principal model approaches the segmentation problem from an object-detection perspective, whereas the collaborator model a sematic segmentation perspective. We assessed the effectiveness of this strategy by conducting experiments on LIVECell, a large single-cell segmentation dataset of bright-field images, and on A431 dataset, a fluorescence image dataset in which the location labels are generated automatically from nuclei counter-stain data. Implementing code is available at https://github.com/jiyuuchc/lacss_jax
翻訳日:2023-04-24 16:27:46 公開日:2023-04-20
# エッジアウェア画像色呈示と差分モデリング

Edge-Aware Image Color Appearance and Difference Modeling ( http://arxiv.org/abs/2304.10669v1 )

ライセンス: Link先を確認
Abhinau K. Venkataramanan(参考訳) 色の知覚は人間の視覚の最も重要な側面の1つである。 進化の観点からは、友人と敵、食物と致命的な毒を区別するためには、色の正確な知覚が不可欠である。 その結果、人間は鋭い色彩感覚を発達させ、外観の微妙な違いを検知すると同時に、照明や観覧の条件をまたいで色を堅牢に識別することができる。 本稿では,画像の複雑な刺激に従来の色調や差分モデルを適用する手法を概観し,その性能向上のためのメカニズムを提案する。 特に,コントラスト感度関数と局所適応規則をエッジアウェア方式で適用することで,画像差予測が向上することがわかった。

The perception of color is one of the most important aspects of human vision. From an evolutionary perspective, the accurate perception of color is crucial to distinguishing friend from foe, and food from fatal poison. As a result, humans have developed a keen sense of color and are able to detect subtle differences in appearance, while also robustly identifying colors across illumination and viewing conditions. In this paper, we shall briefly review methods for adapting traditional color appearance and difference models to complex image stimuli, and propose mechanisms to improve their performance. In particular, we find that applying contrast sensitivity functions and local adaptation rules in an edge-aware manner improves image difference predictions.
翻訳日:2023-04-24 16:27:03 公開日:2023-04-20
# GNN教師のトレーニング:テキストグラフによるグラフ認識蒸留

Train Your Own GNN Teacher: Graph-Aware Distillation on Textual Graphs ( http://arxiv.org/abs/2304.10668v1 )

ライセンス: Link先を確認
Costas Mavromatis, Vassilis N. Ioannidis, Shen Wang, Da Zheng, Soji Adeshina, Jun Ma, Han Zhao, Christos Faloutsos, George Karypis(参考訳) テキストグラフ上で効率的にノード表現を学習する方法 言語モデル(LM)を用いてグラフのテキスト情報をエンコードするグラフニューラルネットワーク(GNN)は、多くのノード分類タスクにおいて最先端のパフォーマンスを達成する。 しかし、GNNとLMの組み合わせは、スケーラビリティの問題のため、実用的なデプロイメントでは広く検討されていない。 本研究では,グラフのない高速推論のためのLMにグラフ構造をエンコードするGRAD (Graph-Aware Distillation framework) を開発した。 従来の知識蒸留とは異なり、gradは共有lmを介してgnn教師とグラフフリーの学生をグラフのノード上で共同で最適化する。 これにより、グラフフリーの学生は、gnnの教師がエンコードしたグラフ情報を活用できると同時に、ラベルのないノードからのテキスト情報を活用することができる。 その結果、教師と生徒のモデルは相互に学習し、全体的なパフォーマンスを改善する。 トランスダクティブおよびインダクティブ設定における8つのノード分類ベンチマークの実験は、テキストグラフに対する既存の蒸留アプローチよりもgradが優れていることを示している。

How can we learn effective node representations on textual graphs? Graph Neural Networks (GNNs) that use Language Models (LMs) to encode textual information of graphs achieve state-of-the-art performance in many node classification tasks. Yet, combining GNNs with LMs has not been widely explored for practical deployments due to its scalability issues. In this work, we tackle this challenge by developing a Graph-Aware Distillation framework (GRAD) to encode graph structures into an LM for graph-free, fast inference. Different from conventional knowledge distillation, GRAD jointly optimizes a GNN teacher and a graph-free student over the graph's nodes via a shared LM. This encourages the graph-free student to exploit graph information encoded by the GNN teacher while at the same time, enables the GNN teacher to better leverage textual information from unlabeled nodes. As a result, the teacher and the student models learn from each other to improve their overall performance. Experiments in eight node classification benchmarks in both transductive and inductive settings showcase GRAD's superiority over existing distillation approaches for textual graphs.
翻訳日:2023-04-24 16:26:50 公開日:2023-04-20
# 二次元音響地平線を横切る自己振動超音速流れの観測

Observation of self-oscillating supersonic flow across an acoustic horizon in two dimensions ( http://arxiv.org/abs/2304.10667v1 )

ライセンス: Link先を確認
Hikaru Tamura, Sergei Khlebnikov, Cheng-An Chen, and Chen-Lung Hung(参考訳) 量子流体中の超音速流の力学と安定性を理解することは、非線形光学や凝縮物質からアナログ重力まで、非常に難しい課題である。 興味深い可能性の1つは、空間的に有界な超音速流を持つ系が、有名なランダウ不安定性に由来する過程において、周期的にソリトンを放出する自己振動状態へと発展する可能性があることである。 ここでは,2次元原子超流動における自己振動性超音速流の観測を報告する。 局所的な粒子シンクに強い損失を与えることにより、ブラックホール地平線とシンク周辺の内地平線の音響的類似を形成する収束半径流を誘導する。 観測されたスーパーフローは、スーパールミナル信号の準周期バーストによって変調されているように見える。 その周波数を測定し、ブラックホールの地平線内のソリトン振動の数値シミュレーションと驚くべき一致を見出した。 提案実験は, 原子超流体中の超音速流を生成する新しい手法を実証し, 発散性多体系における曲線時空, 超音速乱流, 自己振動ダイナミクスの量子シミュレーションに応用できることを示した。

Understanding the dynamics and stability of transonic flows in quantum fluids is an outstanding challenge, with applications ranging from nonlinear optics and condensed matter to analogue gravity. One intriguing possibility is that a system with a spatially bounded supersonic flow may evolve into a self-oscillating state that periodically emits solitons, in a process originating from the well-known Landau instability. Here, we report observation of self-oscillating supersonic flows in a two-dimensional atomic superfluid. By imposing a local particle sink with strong loss, we induce a convergent radial flow forming an acoustic analogue of a black-hole horizon and an inner horizon around the sink. The observed superflow appears to be modulated by quasi-periodic bursts of superluminal signals. We measure their frequencies and find surprising agreement with numerical simulations of soliton oscillation frequencies within the black-hole horizon. The presented experiment demonstrates a new method for creating supersonic flows in atomic superfluids, which may find applications in quantum simulations of curved spacetime, supersonic turbulence, and self-oscillating dynamics in dissipative many-body systems.
翻訳日:2023-04-24 16:26:17 公開日:2023-04-20
# 変動係数に基づくHDR画像の特徴点検出

Feature point detection in HDR images based on coefficient of variation ( http://arxiv.org/abs/2304.10666v1 )

ライセンス: Link先を確認
Artur Santos Nascimento and Welerson Augusto Lino de Jesus Melo and Daniel Oliveira Dantas and Beatriz Trinch\~ao Andrade(参考訳) 特徴点検出(FP)は多くのコンピュータビジョンタスクの基本ステップである。 しかし、FP検出器は通常、低ダイナミックレンジ(LDR)画像のために設計されている。 極端光条件のシーンでは、LDR画像は飽和画素を示し、FP検出を劣化させる。 一方、高ダイナミックレンジ(HDR)画像は、通常飽和画素は存在しないが、FP検出アルゴリズムは、そのような画像に存在する全ての情報を利用するわけではない。 FP検出は、LDR画像でよく機能する微分法にしばしば依存する。 しかし、HDR画像では、明るい領域での差動操作応答は暗い領域での応答を覆い隠す。 本研究は,標準FP検出手法の代替として,HDR画像の変動係数(CV)に基づくFP検出手法を提案する。 CV操作は、ウィンドウ内のピクセルの標準偏差に基づいて応答を適応し、HDR画像の暗黒領域と明るい領域の両方でうまく機能する。 提案および標準検出器は、その再現率(rr)と均一性を測定して評価される。 提案する検出器は,他の標準技術検出器と比較して性能がよい。 一様計量では、提案する検出器は他の全てのアルゴリズムを超える。 一方, 繰り返し率測定器を用いた場合, 提案する検出器はhdrやサーフ検出器のハリスよりも悪くなる。

Feature point (FP) detection is a fundamental step of many computer vision tasks. However, FP detectors are usually designed for low dynamic range (LDR) images. In scenes with extreme light conditions, LDR images present saturated pixels, which degrade FP detection. On the other hand, high dynamic range (HDR) images usually present no saturated pixels but FP detection algorithms do not take advantage of all the information present in such images. FP detection frequently relies on differential methods, which work well in LDR images. However, in HDR images, the differential operation response in bright areas overshadows the response in dark areas. As an alternative to standard FP detection methods, this study proposes an FP detector based on a coefficient of variation (CV) designed for HDR images. The CV operation adapts its response based on the standard deviation of pixels inside a window, working well in both dark and bright areas of HDR images. The proposed and standard detectors are evaluated by measuring their repeatability rate (RR) and uniformity. Our proposed detector shows better performance when compared to other standard state-of-the-art detectors. In uniformity metric, our proposed detector surpasses all the other algorithms. In other hand, when using the repeatability rate metric, the proposed detector is worse than Harris for HDR and SURF detectors.
翻訳日:2023-04-24 16:25:47 公開日:2023-04-20
# ニューラル・ラジアンス・フィールド(nerf)によるhololens軌道からのカメラポーズの3次元解析と運動による構造

A Comparative Neural Radiance Field (NeRF) 3D Analysis of Camera Poses from HoloLens Trajectories and Structure from Motion ( http://arxiv.org/abs/2304.10664v1 )

ライセンス: Link先を確認
Miriam J\"ager, Patrick H\"ubner, Dennis Haitz, Boris Jutzi(参考訳) ニューラルレージアンスフィールド(NeRF)は、カメラのポーズと関連する画像を入力としてトレーニングし、各位置の密度と色値を推定する。 位置依存密度学習はフォトグラメトリーに特に興味を持ち、対象密度に基づいてnerf座標系を問合せ・フィルタリングすることで3次元再構成を可能にする。 Structure from Motionのような従来の方法は、NeRFの前処理でカメラのポーズ計算によく使われているが、HoloLensは必要な入力データを直接抽出するための興味深いインターフェースを提供する。 我々はNeRFを用いてHoloLensデータから直接高解像度3次元再構成を行うワークフローを提案する。 これにより、内部カメラはサーバーアプリケーションを介してhololens軌道から、外部カメラは動作から構造からポーズし、両者はポーズ調整によって拡張されたバリエーションが適用される。 その結果,内部カメラは,x軸まわりに単純な回転を持つ25\,dbのpsnrでnerf収束し,3次元再構成が可能となった。 ポースの改良により、外部カメラのポーズに比べて品質が向上し、PSNRが27\,dBでトレーニングプロセスが改善され、3Dリコンストラクションも改善された。 全体として、NeRF再構成は、完全性と詳細度の観点から、Multi-View Stereoを用いた従来のフォトグラム密度再構成よりも優れている。

Neural Radiance Fields (NeRFs) are trained using a set of camera poses and associated images as input to estimate density and color values for each position. The position-dependent density learning is of particular interest for photogrammetry, enabling 3D reconstruction by querying and filtering the NeRF coordinate system based on the object density. While traditional methods like Structure from Motion are commonly used for camera pose calculation in pre-processing for NeRFs, the HoloLens offers an interesting interface for extracting the required input data directly. We present a workflow for high-resolution 3D reconstructions almost directly from HoloLens data using NeRFs. Thereby, different investigations are considered: Internal camera poses from the HoloLens trajectory via a server application, and external camera poses from Structure from Motion, both with an enhanced variant applied through pose refinement. Results show that the internal camera poses lead to NeRF convergence with a PSNR of 25\,dB with a simple rotation around the x-axis and enable a 3D reconstruction. Pose refinement enables comparable quality compared to external camera poses, resulting in improved training process with a PSNR of 27\,dB and a better 3D reconstruction. Overall, NeRF reconstructions outperform the conventional photogrammetric dense reconstruction using Multi-View Stereo in terms of completeness and level of detail.
翻訳日:2023-04-24 16:25:27 公開日:2023-04-20
# メタセマンティクス:自然言語理解と推論の改善に向けて

Meta Semantics: Towards better natural language understanding and reasoning ( http://arxiv.org/abs/2304.10663v1 )

ライセンス: Link先を確認
Xiaolin Hu(参考訳) 自然言語理解は、人工知能で最も難しいトピックの1つです。 深層ニューラルネットワークメソッド、特にchatgptやgpt-3のような大言語モジュール(llm)メソッドは、非公式テキストを採用するための強力な柔軟性を持つが、論理的な推論には弱く、語彙外問題(oov)に苦しむ。 一方、mathematica、semantic web、leanといったルールベースのメソッドは推論に優れていますが、複雑で変更可能な非公式なテキストを扱うことはできません。 実用主義と構造主義に着想を得て,oov問題を解くための2つの戦略と,自然言語理解と推論を改善するための意味モデルを提案する。

Natural language understanding is one of the most challenging topics in artificial intelligence. Deep neural network methods, particularly large language module (LLM) methods such as ChatGPT and GPT-3, have powerful flexibility to adopt informal text but are weak on logical deduction and suffer from the out-of-vocabulary (OOV) problem. On the other hand, rule-based methods such as Mathematica, Semantic web, and Lean, are excellent in reasoning but cannot handle the complex and changeable informal text. Inspired by pragmatics and structuralism, we propose two strategies to solve the OOV problem and a semantic model for better natural language understanding and reasoning.
翻訳日:2023-04-24 16:25:03 公開日:2023-04-20
# スタートアップにおけるMLプロダクトのスケーリング - 実践者のガイド

Scaling ML Products At Startups: A Practitioner's Guide ( http://arxiv.org/abs/2304.10660v1 )

ライセンス: Link先を確認
Atul Dhingra, Gaurav Sood(参考訳) スタートアップの機械学習プロダクトをどのようにスケールするか? 特に、より多くのボリューム、ベロシティ、さまざまなクエリをコスト効率良く提供するには、どうすればよいのでしょう? コストを可変コスト(モデル提供のコストとパフォーマンスのコスト)と固定コスト(新しいモデルの開発とトレーニングのコスト)に分解します。 我々は,これらのコストを概念化し,より細かいカテゴリに分割し,コストを削減するためのlimn手法を提案する。 最後に、私たちの経験では、マシンラーニングシステムの最も高価な固定コストは、障害の根本原因を特定し、継続的な改善を促進するコストであるので、問題を概念化し、方法論を共有する方法を示します。

How do you scale a machine learning product at a startup? In particular, how do you serve a greater volume, velocity, and variety of queries cost-effectively? We break down costs into variable costs-the cost of serving the model and performant-and fixed costs-the cost of developing and training new models. We propose a framework for conceptualizing these costs, breaking them into finer categories, and limn ways to reduce costs. Lastly, since in our experience, the most expensive fixed cost of a machine learning system is the cost of identifying the root causes of failures and driving continuous improvement, we present a way to conceptualize the issues and share our methodology for the same.
翻訳日:2023-04-24 16:24:49 公開日:2023-04-20
# データセット多重度問題:信頼できないデータが予測に与える影響

The Dataset Multiplicity Problem: How Unreliable Data Impacts Predictions ( http://arxiv.org/abs/2304.10655v1 )

ライセンス: Link先を確認
Anna P. Meyer, Aws Albarghouthi, Loris D'Antoni(参考訳) トレーニングデータセットにおける不正確性、不確実性、社会的バイアスがテスト時間予測にどのように影響するかを研究するための、データセット乗法を導入する。 データセット多重性フレームワーク(dataset multiplicity framework)は、データセットの仮説上、偏りのないすべてのバージョンにアクセス可能であれば、結果モデル(および関連するテスト時間予測)のセットがどうなるかという、事実上の疑問を投げかける。 システム的な社会バイアス,データ収集プラクティス,騒がしいラベルや特徴など,データセットの事実性におけるさまざまな不確実性の源をカプセル化する上で,このフレームワークをどのように利用するかについて議論する。 特定のモデルアーキテクチャと不確実性の種類:ラベルエラーのある線形モデルに対するデータセット乗法の影響を正確に分析する方法を示す。 実世界のデータセットは、合理的な仮定の下で、データセットの多重性によって予測が影響を受ける多くのテストサンプルを含んでいる。 さらに、ドメイン固有のデータセットの多重性定義の選択により、どのサンプルが影響を受けるか、異なるグループが異なる影響を受けるかが決定される。 最後に、機械学習の実践と研究におけるデータセットの多重性の意味について論じ、モデルの成果を信頼すべきでない理由について考察する。

We introduce dataset multiplicity, a way to study how inaccuracies, uncertainty, and social bias in training datasets impact test-time predictions. The dataset multiplicity framework asks a counterfactual question of what the set of resultant models (and associated test-time predictions) would be if we could somehow access all hypothetical, unbiased versions of the dataset. We discuss how to use this framework to encapsulate various sources of uncertainty in datasets' factualness, including systemic social bias, data collection practices, and noisy labels or features. We show how to exactly analyze the impacts of dataset multiplicity for a specific model architecture and type of uncertainty: linear models with label errors. Our empirical analysis shows that real-world datasets, under reasonable assumptions, contain many test samples whose predictions are affected by dataset multiplicity. Furthermore, the choice of domain-specific dataset multiplicity definition determines what samples are affected, and whether different demographic groups are disparately impacted. Finally, we discuss implications of dataset multiplicity for machine learning practice and research, including considerations for when model outcomes should not be trusted.
翻訳日:2023-04-24 16:24:38 公開日:2023-04-20
# DNNベースのアプリケーションの著作権保護のためのプラグアンドプレイ保護摂動

A Plug-and-Play Defensive Perturbation for Copyright Protection of DNN-based Applications ( http://arxiv.org/abs/2304.10679v1 )

ライセンス: Link先を確認
Donghua Wang, Wen Yao, Tingsong Jiang, Weien Zhou, Lang Lin, and Xiaoqian Chen(参考訳) ディープニューラルネットワーク(DNN)ベースのアプリケーション(スタイル転送、漫画化など)の広範な展開は、そのようなアプリケーションの生産に対する著作権保護の必要性を刺激する。 従来の可視性のある著作権技術もいくつかあるが、望ましくないトレースを導入し、ユーザエクスペリエンスを損なうことになる。 本稿では,DNNベースのアプリケーション(スタイル転送)に対する防御的摂動に基づく,新しいプラグイン・アンド・プレイ型著作権保護手法を提案する。 DNNモデルを攻撃するために摂動を適用するのではなく、著作権保護における摂動の利用の可能性を探る。 具体的には,保護対象の画像に付加されるデザインされた著作権エンコーダを用いて,著作権情報を防御的摂動に投影する。 そして,発明した著作権復号器を用いて,符号化された著作権画像から著作権情報を抽出する。 さらに,ユーザがソーシャルメディアに投稿する際に発生する様々な歪み(jpeg圧縮など)を有する画像に対して,デコーダの復号能力を強化するためにロバスト性モジュールを用いる。 符号化画像と復号著作権画像の画質を確保するため,ロス関数を精巧に考案した。 目的および主観的な実験結果から,提案手法の有効性が示された。 我々はまた、エンコードされた著作権画像を投稿することで、ソーシャルメディア(WechatやTwitterなど)の物理的な世界テストも行ってきた。 その結果、ソーシャルメディアから保存したエンコード画像の著作権情報を正しく抽出できることが判明した。

Wide deployment of deep neural networks (DNNs) based applications (e.g., style transfer, cartoonish), stimulating the requirement of copyright protection of such application's production. Although some traditional visible copyright techniques are available, they would introduce undesired traces and result in a poor user experience. In this paper, we propose a novel plug-and-play invisible copyright protection method based on defensive perturbation for DNN-based applications (i.e., style transfer). Rather than apply the perturbation to attack the DNNs model, we explore the potential utilization of perturbation in copyright protection. Specifically, we project the copyright information to the defensive perturbation with the designed copyright encoder, which is added to the image to be protected. Then, we extract the copyright information from the encoded copyrighted image with the devised copyright decoder. Furthermore, we use a robustness module to strengthen the decoding capability of the decoder toward images with various distortions (e.g., JPEG compression), which may be occurred when the user posts the image on social media. To ensure the image quality of encoded images and decoded copyright images, a loss function was elaborately devised. Objective and subjective experiment results demonstrate the effectiveness of the proposed method. We have also conducted physical world tests on social media (i.e., Wechat and Twitter) by posting encoded copyright images. The results show that the copyright information in the encoded image saved from social media can still be correctly extracted.
翻訳日:2023-04-24 16:15:21 公開日:2023-04-20
# 胸部X線画像を用いたCOVID-19およびウイルス性肺炎の診断のための深部生殖機能生成フレームワーク

Deep reproductive feature generation framework for the diagnosis of COVID-19 and viral pneumonia using chest X-ray images ( http://arxiv.org/abs/2304.10677v1 )

ライセンス: Link先を確認
Ceyhun Efe Kayan, Talha Enes Koksal, Arda Sevinc, Abdurrahman Gumus(参考訳) 新型コロナウイルスの迅速かつ正確な検出は、タイムリーな治療と感染拡大の予防に不可欠である。 本研究では, 胸部X線による患者の健康状態(COVID-19, Normal, Viral Pneumonia)を決定するために, 8つの最先端事前訓練深部畳み込みニューラルネットワーク(CNN)とオートエンコーダを用いた2段階特徴抽出フレームワークを提案する。 X線スキャンは4つの同じ大きさのセクションに分けられ、深層学習CNNによって分析される。 その後、3つの隠蔽層を持つオートエンコーダを訓練し、CNNの連結領域から生殖特性を抽出する。 提案フレームワークの性能評価には, 単層パーセプトロン(SLP), 多層パーセプトロン(MLP), サポートベクタマシン(SVM)の3つの異なる分類器を用いる。 さらに、ディープCNNアーキテクチャを使用してベンチマークモデルを作成し、比較のために同じデータセットでトレーニングする。 提案フレームワークは,2進分類における事前学習された特徴抽出器の性能を向上し,三等分類における競合結果を示す。 提案手法はタスクに依存しず,様々な問題に適応する。 その結果, 判別的特徴は生殖的特徴のサブセットであり, タスク非依存特徴の抽出はタスクベース特徴のみの抽出よりも優れていることが示唆された。 生殖機能の柔軟性とタスク依存は、概念的情報アプローチをより好ましいものにします。 提案手法は新規であり,医用画像データの解析に有望な結果を示す。

The rapid and accurate detection of COVID-19 cases is critical for timely treatment and preventing the spread of the disease. In this study, a two-stage feature extraction framework using eight state-of-the-art pre-trained deep Convolutional Neural Networks (CNNs) and an autoencoder is proposed to determine the health conditions of patients (COVID-19, Normal, Viral Pneumonia) based on chest X-rays. The X-ray scans are divided into four equally sized sections and analyzed by deep pre-trained CNNs. Subsequently, an autoencoder with three hidden layers is trained to extract reproductive features from the concatenated ouput of CNNs. To evaluate the performance of the proposed framework, three different classifiers, which are single-layer perceptron (SLP), multi-layer perceptron (MLP), and support vector machine (SVM) are used. Furthermore, the deep CNN architectures are used to create benchmark models and trained on the same dataset for comparision. The proposed framework outperforms other frameworks wih pre-trained feature extractors in binary classification and shows competitive results in three-class classification. The proposed methodology is task-independent and suitable for addressing various problems. The results show that the discriminative features are a subset of the reproductive features, suggesting that extracting task-independent features is superior to the extraction only task-based features. The flexibility and task-independence of the reproductive features make the conceptive information approach more favorable. The proposed methodology is novel and shows promising results for analyzing medical image data.
翻訳日:2023-04-24 16:14:56 公開日:2023-04-20
# 機械学習アルゴリズムを用いた音声言語における感情表現検出

Emotional Expression Detection in Spoken Language Employing Machine Learning Algorithms ( http://arxiv.org/abs/2304.11040v1 )

ライセンス: Link先を確認
Mehrab Hosain, Most. Yeasmin Arafat, Gazi Zahirul Islam, Jia Uddin, Md. Mobarak Hossain, Fatema Alam(参考訳) 人間の声には様々な特徴があり、ピッチ、音色、ラウドネス、声調に分類できる。 多くの出来事において、人間が話すときの異なる声質で感情を表現することが観察されている。 本研究の目的は, 怒り, 悲しみ, 恐怖, 中立, 嫌悪, 喜び, 幸福といった人間の感情を, 複数のMATLAB機能, スペクトル記述子, 周期性, 調和性を用いて認識することである。 本研究は, CREMA-D (Crowd-sourced Emotional Multimodal Actors Data) とTESS (Toronto Emotional Speech Set) を用いて人間の発話のデータセットを分析した。 オーディオファイルには様々な特徴(ノイズ、スピード、遅い)を持つデータが含まれているため、ML(Machine Learning)モデルの効率は著しく向上する。 EMD(Empirical Mode Decomposition)は、信号分解の過程に使用される。 次に、mfcc, gtcc, spectrum centroid, roll-off point, entropy, spread, flux, harmonic ratio, energy, strainness, flatness, audio deltaなどの技術を用いて特徴を抽出する。 データは有名なMLモデルであるSupport Vector Machine、Neural Network、Ensemble、KNNを使ってトレーニングされる。 このアルゴリズムは、テストデータでそれぞれ67.7%、63.3%、61.6%、59.0%、トレーニングデータで77.7%、76.1%、99.1%、61.2%の精度を示している。 我々はmatlabを用いて実験を行い,本モデルが既存の類似作品よりも非常に顕著で柔軟であることを示す。

There are a variety of features of the human voice that can be classified as pitch, timbre, loudness, and vocal tone. It is observed in numerous incidents that human expresses their feelings using different vocal qualities when they are speaking. The primary objective of this research is to recognize different emotions of human beings such as anger, sadness, fear, neutrality, disgust, pleasant surprise, and happiness by using several MATLAB functions namely, spectral descriptors, periodicity, and harmonicity. To accomplish the work, we analyze the CREMA-D (Crowd-sourced Emotional Multimodal Actors Data) & TESS (Toronto Emotional Speech Set) datasets of human speech. The audio file contains data that have various characteristics (e.g., noisy, speedy, slow) thereby the efficiency of the ML (Machine Learning) models increases significantly. The EMD (Empirical Mode Decomposition) is utilized for the process of signal decomposition. Then, the features are extracted through the use of several techniques such as the MFCC, GTCC, spectral centroid, roll-off point, entropy, spread, flux, harmonic ratio, energy, skewness, flatness, and audio delta. The data is trained using some renowned ML models namely, Support Vector Machine, Neural Network, Ensemble, and KNN. The algorithms show an accuracy of 67.7%, 63.3%, 61.6%, and 59.0% respectively for the test data and 77.7%, 76.1%, 99.1%, and 61.2% for the training data. We have conducted experiments using Matlab and the result shows that our model is very prominent and flexible than existing similar works.
翻訳日:2023-04-24 14:26:40 公開日:2023-04-20
# ceil: テキストクラスタリングのための一般分類型反復学習フレームワーク

CEIL: A General Classification-Enhanced Iterative Learning Framework for Text Clustering ( http://arxiv.org/abs/2304.11061v1 )

ライセンス: Link先を確認
Mingjun Zhao, Mengzhen Wang, Yinglong Ma, Di Niu and Haijiang Wu(参考訳) テキストクラスタリングは、教師なし学習における最も基本的な課題の1つであり、人間のアノテーションに頼ることなく、意味的に類似したテキストセグメントをグループ化する。 ディープラーニングの急速な発展により、ディープクラスタリングは従来のクラスタリング方法よりも大きなアドバンテージを達成している。 有効性にもかかわらず、既存のディープテキストクラスタリングメソッドのほとんどは、一般的なドメインで事前トレーニングされた表現に大きく依存しており、特定のターゲットドメインでのクラスタリングに最も適したソリューションではないかもしれない。 そこで本研究では,特徴表現を反復的に改善するための分類目標を導入することで,クラスタリング性能の全般的向上を目標とする,短いテキストクラスタリングのための新しい分類強調型反復学習フレームワークceilを提案する。 各イテレーションにおいて、まず最初に言語モデルを用いて初期テキスト表現を検索し、そこから提案したカテゴリ・ディスタングル・コントラスト・クラスタリング(CDCC)アルゴリズムを用いてクラスタリング結果を収集する。 厳密なデータフィルタリングと集約プロセスの後、クリーンなカテゴリラベルを持つサンプルを検索し、即時学習アプローチを通じて言語モデルを分類対象で更新する監視情報として機能する。 最後に、表現能力が改善された更新言語モデルを使用して、次のイテレーションでクラスタリングを強化する。 大規模な実験により、CEILフレームワークは反復よりもクラスタリング性能を著しく改善し、一般に様々なクラスタリングアルゴリズムに有効であることが示された。 さらに, CEILをCDCCに組み込むことで, 他の強力なベースライン手法よりも優れた長文クラスタリングベンチマークにおいて, 最先端のクラスタリング性能を実現する。

Text clustering, as one of the most fundamental challenges in unsupervised learning, aims at grouping semantically similar text segments without relying on human annotations. With the rapid development of deep learning, deep clustering has achieved significant advantages over traditional clustering methods. Despite the effectiveness, most existing deep text clustering methods rely heavily on representations pre-trained in general domains, which may not be the most suitable solution for clustering in specific target domains. To address this issue, we propose CEIL, a novel Classification-Enhanced Iterative Learning framework for short text clustering, which aims at generally promoting the clustering performance by introducing a classification objective to iteratively improve feature representations. In each iteration, we first adopt a language model to retrieve the initial text representations, from which the clustering results are collected using our proposed Category Disentangled Contrastive Clustering (CDCC) algorithm. After strict data filtering and aggregation processes, samples with clean category labels are retrieved, which serve as supervision information to update the language model with the classification objective via a prompt learning approach. Finally, the updated language model with improved representation ability is used to enhance clustering in the next iteration. Extensive experiments demonstrate that the CEIL framework significantly improves the clustering performance over iterations, and is generally effective on various clustering algorithms. Moreover, by incorporating CEIL on CDCC, we achieve the state-of-the-art clustering performance on a wide range of short text clustering benchmarks outperforming other strong baseline methods.
翻訳日:2023-04-24 14:17:25 公開日:2023-04-20
# 量子力学のカテゴリーについて

On the Categoricity of Quantum Mechanics ( http://arxiv.org/abs/2304.11051v1 )

ライセンス: Link先を確認
Iulian D. Toader(参考訳) この論文は、ストーン・フォン・ノイマンの定理をカテゴリシティな結果として直感的に読むことに対する議論を提供しており、この定理は、通常そうであるとされるものに対して、それを検証する理論とそうでない理論の間のモデル理論的違いを伴わないことを指摘した。

The paper offers an argument against an intuitive reading of the Stone-von Neumann theorem as a categoricity result, thereby pointing out that, against what is usually taken to be the case, this theorem does not entail any model-theoretical difference between the theories that validate it and those that don't.
翻訳日:2023-04-24 14:16:17 公開日:2023-04-20
# モバイルデータとディープモデルを用いた聴覚言語幻聴の評価

Using Mobile Data and Deep Models to Assess Auditory Verbal Hallucinations ( http://arxiv.org/abs/2304.11049v1 )

ライセンス: Link先を確認
Shayan Mirjafari, Subigya Nepal, Weichen Wang, Andrew T. Campbell(参考訳) 幻覚は、実際の外部感覚刺激がないという明らかな認識である。 聴覚幻覚とは、現実ではない聴覚の知覚である。 聴覚幻覚の一般的な形態は、聴覚言語幻覚(Auditory Verbal Hallucination、AVH)として知られる話者がいないときの聴覚である。 AVHは心の創造の断片であり、主に双極性障害や統合失調症などの精神疾患と診断された人々によって生じる。 幻声(すなわち、否定声や肯定声)の有能さを評価することは、精神疾患の重症度を測定するのに役立つ。 音声を聴くN=435名を対象に,聴覚言語幻聴の評価を行った。 参加者は、「全く」から「極端」までの4つの回答尺度を持つ質問に対して、生態学的瞬間的な評価を通じて、1日4回聞く声の価を報告する。 モバイルアプリケーションによるAVHイベントの価率監視として,これらの自己報告を収集する。 このアプリケーションを用いて、参加者は音声日記を記録し、幻聴音声の内容を記述する。 さらに,モバイルセンシングデータを文脈信号として受動的に収集する。 次に,これらの言語的・文脈的手がかりを音声日記とモバイルセンシングデータから予測し,その効果について実験を行った。 最後に、転送学習とデータ融合技術を用いて、54 % Top-1 と72 % Top-2 F1 のスコアで AVH の値を予測するニューラルネットワークモデルを訓練する。

Hallucination is an apparent perception in the absence of real external sensory stimuli. An auditory hallucination is a perception of hearing sounds that are not real. A common form of auditory hallucination is hearing voices in the absence of any speakers which is known as Auditory Verbal Hallucination (AVH). AVH is fragments of the mind's creation that mostly occur in people diagnosed with mental illnesses such as bipolar disorder and schizophrenia. Assessing the valence of hallucinated voices (i.e., how negative or positive voices are) can help measure the severity of a mental illness. We study N=435 individuals, who experience hearing voices, to assess auditory verbal hallucination. Participants report the valence of voices they hear four times a day for a month through ecological momentary assessments with questions that have four answering scales from ``not at all'' to ``extremely''. We collect these self-reports as the valence supervision of AVH events via a mobile application. Using the application, participants also record audio diaries to describe the content of hallucinated voices verbally. In addition, we passively collect mobile sensing data as contextual signals. We then experiment with how predictive these linguistic and contextual cues from the audio diary and mobile sensing data are of an auditory verbal hallucination event. Finally, using transfer learning and data fusion techniques, we train a neural net model that predicts the valance of AVH with a performance of 54\% top-1 and 72\% top-2 F1 score.
翻訳日:2023-04-24 14:16:09 公開日:2023-04-20
# 軽量深部極部多重ラベル分類

Light-weight Deep Extreme Multilabel Classification ( http://arxiv.org/abs/2304.11045v1 )

ライセンス: Link先を確認
Istasis Mishra, Arpan Dasgupta, Pratik Jawanpuria, Bamdev Mishra, and Pawan Kumar(参考訳) Extreme Multi-label (XML) 分類は、多数のラベルを含む教師付きマルチラベル学習のタスクを指す。 したがって、ラベル次元の増大を伴う分類器のスケーラビリティは重要な考慮事項である。 本稿では,1) ラベル埋め込みのプロキシトレーニング,(2) ラベル埋め込みのショートリスト化,(3) 負のサンプルを用いた最終分類器トレーニングの3つの主要なフェーズを通じて,ラベル埋め込みの代わりにラベル埋め込みを用いて,最近開発された深層学習ベースのXMLフレームワークを改良するLightDXMLという手法を開発する。 これにより、LightDXMLは再ランカモジュールの要求も取り除かれ、時間とメモリの要求がさらに削減される。 提案手法は, 学習時間, モデルサイズ, 予測時間は, 木に基づく手法と同等かそれ以上であるが, 深層学習法と同等の精度で予測精度が向上する。 さらに,提案手法は,インド・ハイデラバード州IIITのMAPG助成金とIIITシード助成金による部分的な助成金,IJCNN 2023で受理されたいくつかの大規模データセットに対して,最先端のXMLメソッドよりも最高のテールラベル予測精度を実現する。 コード: \url{https://github.com/misterpawan/lightdxml}

Extreme multi-label (XML) classification refers to the task of supervised multi-label learning that involves a large number of labels. Hence, scalability of the classifier with increasing label dimension is an important consideration. In this paper, we develop a method called LightDXML which modifies the recently developed deep learning based XML framework by using label embeddings instead of feature embedding for negative sampling and iterating cyclically through three major phases: (1) proxy training of label embeddings (2) shortlisting of labels for negative sampling and (3) final classifier training using the negative samples. Consequently, LightDXML also removes the requirement of a re-ranker module, thereby, leading to further savings on time and memory requirements. The proposed method achieves the best of both worlds: while the training time, model size and prediction times are on par or better compared to the tree-based methods, it attains much better prediction accuracy that is on par with the deep learning based methods. Moreover, the proposed approach achieves the best tail-label prediction accuracy over most state-of-the-art XML methods on some of the large datasets\footnote{accepted in IJCNN 2023, partial funding from MAPG grant and IIIT Seed grant at IIIT, Hyderabad, India. Code: \url{https://github.com/misterpawan/LightDXML}
翻訳日:2023-04-24 14:15:21 公開日:2023-04-20
# 摂動は投資リスクの低減に役立つか? スプリット変動型対向訓練によるリスクアウェアストックレコメンデーション

Can Perturbations Help Reduce Investment Risks? Risk-Aware Stock Recommendation via Split Variational Adversarial Training ( http://arxiv.org/abs/2304.11043v1 )

ライセンス: Link先を確認
Jiezhu Cheng, Kaizhu Huang, Zibin Zheng(参考訳) 株式市場では、成功した投資には利益とリスクのバランスが良い必要がある。 近年、投資家のリターン率の高い株式を選択するための量的投資において、株式推奨が広く研究されている。 利益を上げることに成功したにもかかわらず、既存のレコメンデーションアプローチのほとんどはリスクコントロールが弱いままであり、実際的な株式投資において許容できない損失につながる可能性がある。 リスクを効果的に低減するために,敵の摂動からインスピレーションを得て,リスクを意識した新たなSVAT(Split Variational Adversarial Training)フレームワークを提案する。 本質的には、SVATはリスクのあるストックサンプルの敵の摂動に敏感であり、摂動から学習することでモデルのリスク認識を高めることを奨励する。 リスク指標として代表的な敵対的例を生成するために,変動摂動生成器を考案し,多様なリスク因子をモデル化する。 特に変動型アーキテクチャは,投資家に対して大まかなリスク定量化を可能とし,解釈可能性のさらなる利点を示す。 3つの実世界の株式市場データセットの実験により、SVATは株式レコメンデーションモデルのボラティリティを効果的に低減し、リスク調整された利益の点で最先端のベースライン手法を30%以上上回る結果となった。

In the stock market, a successful investment requires a good balance between profits and risks. Recently, stock recommendation has been widely studied in quantitative investment to select stocks with higher return ratios for investors. Despite the success in making profits, most existing recommendation approaches are still weak in risk control, which may lead to intolerable paper losses in practical stock investing. To effectively reduce risks, we draw inspiration from adversarial perturbations and propose a novel Split Variational Adversarial Training (SVAT) framework for risk-aware stock recommendation. Essentially, SVAT encourages the model to be sensitive to adversarial perturbations of risky stock examples and enhances the model's risk awareness by learning from perturbations. To generate representative adversarial examples as risk indicators, we devise a variational perturbation generator to model diverse risk factors. Particularly, the variational architecture enables our method to provide a rough risk quantification for investors, showing an additional advantage of interpretability. Experiments on three real-world stock market datasets show that SVAT effectively reduces the volatility of the stock recommendation model and outperforms state-of-the-art baseline methods by more than 30% in terms of risk-adjusted profits.
翻訳日:2023-04-24 14:14:54 公開日:2023-04-20
# 深部物理ニューラルネットワークのバックプロパゲーションフリートレーニング

Backpropagation-free Training of Deep Physical Neural Networks ( http://arxiv.org/abs/2304.11042v1 )

ライセンス: Link先を確認
Ali Momeni, Babak Rahmani, Matthieu Mallejac, Philipp Del Hougne, and Romain Fleury(参考訳) 近年では、視覚や自然言語処理など、様々な分野におけるディープラーニングの成功が目覚ましい。 この成功は、急激な増加が予想されるディープラーニングモデルの大規模化に大きく影響している。 ディープラーニングモデルのこの成長は、トレーニングと推論のフェーズとスケーラビリティの両方において、かなりのエネルギー消費に関連する問題を伴う。 推論フェーズにおけるエネルギー効率の問題に対処する非伝統的な物理システムに基づく多くの研究が提案されているが、ディープラーニングモデルの効率的な訓練はいまだに未適応である。 これまでのところ、デジタルディープラーニングモデルのトレーニングは主にバックプロパゲーションに依存しており、ニューラルネットワークのいわゆるフォワードパスで実行される計算の完全な知識を必要とするため、物理実装には適さない。 ここでは、生物学的に妥当な学習アルゴリズムによって強化された単純なディープニューラルネットワークアーキテクチャを「モデルフリー前方トレーニング」と呼ぶことで、この問題に対処する。 提案アーキテクチャは,非線形な物理層の性質について詳細な知識を必要とせずに,物理非線形系の層からなる深層物理ニューラルネットワークのトレーニングを可能にする。 本手法は, 学習速度の向上, ディジタル計算の削減, 物理システムにおける消費電力の低減により, 最先端のハードウェア・アウェア・トレーニング手法に勝ることを示す。 動的あるいは予測不能な外部摂動にさらされたシステムにおいても,提案手法の適応性を示す。 提案手法の普遍性を示すために,基礎となる波動現象や使用する非線形性の種類によって異なる多様な波動に基づく物理ニューラルネットワークを訓練し,母音および画像分類タスクを実験的に行う。

Recent years have witnessed the outstanding success of deep learning in various fields such as vision and natural language processing. This success is largely indebted to the massive size of deep learning models that is expected to increase unceasingly. This growth of the deep learning models is accompanied by issues related to their considerable energy consumption, both during the training and inference phases, as well as their scalability. Although a number of work based on unconventional physical systems have been proposed which addresses the issue of energy efficiency in the inference phase, efficient training of deep learning models has remained unaddressed. So far, training of digital deep learning models mainly relies on backpropagation, which is not suitable for physical implementation as it requires perfect knowledge of the computation performed in the so-called forward pass of the neural network. Here, we tackle this issue by proposing a simple deep neural network architecture augmented by a biologically plausible learning algorithm, referred to as "model-free forward-forward training". The proposed architecture enables training deep physical neural networks consisting of layers of physical nonlinear systems, without requiring detailed knowledge of the nonlinear physical layers' properties. We show that our method outperforms state-of-the-art hardware-aware training methods by improving training speed, decreasing digital computations, and reducing power consumption in physical systems. We demonstrate the adaptability of the proposed method, even in systems exposed to dynamic or unpredictable external perturbations. To showcase the universality of our approach, we train diverse wave-based physical neural networks that vary in the underlying wave phenomenon and the type of non-linearity they use, to perform vowel and image classification tasks experimentally.
翻訳日:2023-04-24 14:14:29 公開日:2023-04-20
# クロスモーダル情報検索はトレーニングなしで可能か?

Is Cross-modal Information Retrieval Possible without Training? ( http://arxiv.org/abs/2304.11095v1 )

ライセンス: Link先を確認
Hyunjin Choi, Hyunjae Lee, Seongho Joe, Youngjune L. Gwon(参考訳) 事前訓練されたディープラーニングモデル(例えばBERTテキスト埋め込み、画像の最後尾のCNN層アクティベーションなど)からの符号化された表現は、情報検索に有用な豊富な特徴を伝達する。 特定のデータモダリティの埋め込みは、自身の高次元空間を占有するが、深いニューラルネットを訓練することなく、単純なマッピングによって意味的に互いに整合することができる。 本稿では, 最小二乗数と特異値分解(svd)から計算した単純写像を用いて, 補間問題に対する解を解き, クロスモーダル情報検索の手段を提供する。 すなわち、テキストのようなあるモダリティの情報が与えられた場合、このマッピングは、画像のような別のモダリティにおける意味的に等価なデータ項目を見つけるのに役立ちます。 既定のディープラーニングモデルを用いて,テキスト対画像検索と画像対テキスト検索のタスクにおいて,前述の単純なクロスモーダルマッピングを実験した。 シンプルさにもかかわらず、マップはrecall@10で77%という高い精度で動作し、これは高価なニューラルネットワークのトレーニングと微調整を必要とするものと同等です。 我々は,事前学習モデルのコントラスト学習により,単純なマッピングを改善した。 コントラスト学習は、事前訓練されたエンコーダを適切にバイアスし、クロスモーダルマッピングの品質を高めることができる。 我々は、単純なニューラルネットワークであるゲーティング(gMLP)を用いた多層パーセプトロンの性能をさらに改善した。

Encoded representations from a pretrained deep learning model (e.g., BERT text embeddings, penultimate CNN layer activations of an image) convey a rich set of features beneficial for information retrieval. Embeddings for a particular modality of data occupy a high-dimensional space of its own, but it can be semantically aligned to another by a simple mapping without training a deep neural net. In this paper, we take a simple mapping computed from the least squares and singular value decomposition (SVD) for a solution to the Procrustes problem to serve a means to cross-modal information retrieval. That is, given information in one modality such as text, the mapping helps us locate a semantically equivalent data item in another modality such as image. Using off-the-shelf pretrained deep learning models, we have experimented the aforementioned simple cross-modal mappings in tasks of text-to-image and image-to-text retrieval. Despite simplicity, our mappings perform reasonably well reaching the highest accuracy of 77% on recall@10, which is comparable to those requiring costly neural net training and fine-tuning. We have improved the simple mappings by contrastive learning on the pretrained models. Contrastive learning can be thought as properly biasing the pretrained encoders to enhance the cross-modal mapping quality. We have further improved the performance by multilayer perceptron with gating (gMLP), a simple neural architecture.
翻訳日:2023-04-24 14:05:44 公開日:2023-04-20
# スペイチェ:スイスの方言に最先端のASRモデルを拡張

Spaiche: Extending State-of-the-Art ASR Models to Swiss German Dialects ( http://arxiv.org/abs/2304.11075v1 )

ライセンス: Link先を確認
Cl\'ement Sicard, Kajetan Pyszkowski, Victor Gillioz(参考訳) 近年のNLPのブレークスルーは, 日常生活におけるASRシステムの存在感を大きく高めた。 しかし、多くの低リソース言語では、関連するデータを取得するのが難しいという理由から、まだasrモデルの改善が必要である。 このプロジェクトは、スイスドイツ語方言のasrモデルの研究を進め、最近公開されたスイスドイツ語音声データセットにおける最先端asrモデルの性能に関する洞察を提供することを目的としている。 本研究では,予測ラベルと接地ラベル間の意味的距離を考慮した新しい損失を提案する。 スイス-ドイツのデータセット上で,OpenAIのWhisperモデルを微調整することで,現状の成果を上回った。

Recent breakthroughs in NLP largely increased the presence of ASR systems in our daily lives. However, for many low-resource languages, ASR models still need to be improved due in part to the difficulty of acquiring pertinent data. This project aims to help advance research in ASR models for Swiss German dialects, by providing insights about the performance of state-of-the-art ASR models on recently published Swiss German speech datasets. We propose a novel loss that takes into account the semantic distance between the predicted and the ground-truth labels. We outperform current state-of-the-art results by fine-tuning OpenAI's Whisper model on Swiss-German datasets.
翻訳日:2023-04-24 14:04:49 公開日:2023-04-20
# OLISIA:音声対話状態追跡のためのカスケードシステム

OLISIA: a Cascade System for Spoken Dialogue State Tracking ( http://arxiv.org/abs/2304.11073v1 )

ライセンス: Link先を確認
L\'eo Jacqmin, Lucas Druart (LIA), Valentin Vielzeuf, Lina Maria Rojas-Barahona, Yannick Est\`eve (LIA), Beno\^it Favre(参考訳) 対話状態追跡(DST)は音声対話システムの中核的な要素であるが,近年の作業はチャットコーパスを主に扱い,音声と文字の相違を無視するものである。本稿では,自動音声認識(ASR)モデルとDSTモデルを統合するカスケードシステムであるOLISIAを提案する。 本研究では,音声対話に対する統合性と堅牢性を向上させるために,ASRおよびDSTモジュールにいくつかの適応を導入し,DSTC11 Track 3 にランク付けした。 結果の詳細な分析を行い、asr出力の正規化とデータ拡張によるdst入力の適応、および事前学習されたモデルサイズの増加が、文字と音声の対話におけるパフォーマンスのばらつきを軽減する上で重要な役割を果たすことを見出した。

Though Dialogue State Tracking (DST) is a core component of spoken dialogue systems, recent work on this task mostly deals with chat corpora, disregarding the discrepancies between spoken and written language.In this paper, we propose OLISIA, a cascade system which integrates an Automatic Speech Recognition (ASR) model and a DST model. We introduce several adaptations in the ASR and DST modules to improve integration and robustness to spoken conversations.With these adaptations, our system ranked first in DSTC11 Track 3, a benchmark to evaluate spoken DST. We conduct an in-depth analysis of the results and find that normalizing the ASR outputs and adapting the DST inputs through data augmentation, along with increasing the pre-trained models size all play an important role in reducing the performance discrepancy between written and spoken conversations.
翻訳日:2023-04-24 14:04:37 公開日:2023-04-20
# ブラインドアンフォージェビリティによる量子セキュアメッセージ認証

Quantum-secure message authentication via blind-unforgeability ( http://arxiv.org/abs/1803.03761v4 )

ライセンス: Link先を確認
Gorjan Alagic, Christian Majenz, Alexander Russell and Fang Song(参考訳) 量子クエリアクセスを伴う敵の存在下での古典的なメッセージの認証を定式化し設計することは長年の課題であった。 特に難しいのは、相手が量子的重ね合わせでクエリできる場合、どのようにして「未知の値を予測する」という概念を正確に捉えるかである。 我々は,ブラインドアンフォーゲタビリティと呼ばれる量子敵に対するアンフォーゲタビリティの自然な定義を提案する。 この概念は、盲点領域の予測値に「部分的に盲点を持つ」オラクルアクセスを使用できる敵が存在する場合、関数を予測可能と定義する。 我々はその提案を多くの技術的結果で支持する。 まず、この概念が古典的な設定でEUF-CMAと一致することを証明し、ランダム関数や量子クエリ・セキュアな擬ランダム関数といった単純な例によってその概念が満たされることを示す。 次に、標準構成と縮小を支援するためのブラインド・アンフォージェビリティーの適合性を示す。 私たちは、"hash-and-mac"パラダイムとlamportのワンタイムデジタル署名スキームが、定義に従って本当に忘れられないことを証明します。 解析を支援するために、ベルヌーイ保存と呼ばれる新しい種類の量子セキュアハッシュ関数を定義し、研究する。 最後に,ブラインド・アンフォーゲタビリティはboinhとzhandry(eurocrypt '13, crypto '13]の定義よりも強く,ブラインド・アンフォーゲタビリティによって認識されながらboinhとzhandryの定義を満たす攻撃によって偽造可能な明示的な関数ファミリを構築することができることを実証する。

Formulating and designing authentication of classical messages in the presence of adversaries with quantum query access has been a longstanding challenge, as the familiar classical notions of unforgeability do not directly translate into meaningful notions in the quantum setting. A particular difficulty is how to fairly capture the notion of "predicting an unqueried value" when the adversary can query in quantum superposition. We propose a natural definition of unforgeability against quantum adversaries called blind unforgeability. This notion defines a function to be predictable if there exists an adversary who can use "partially blinded" oracle access to predict values in the blinded region. We support the proposal with a number of technical results. We begin by establishing that the notion coincides with EUF-CMA in the classical setting and go on to demonstrate that the notion is satisfied by a number of simple guiding examples, such as random functions and quantum-query-secure pseudorandom functions. We then show the suitability of blind unforgeability for supporting canonical constructions and reductions. We prove that the "hash-and-MAC" paradigm and the Lamport one-time digital signature scheme are indeed unforgeable according to the definition. To support our analysis, we additionally define and study a new variety of quantum-secure hash functions called Bernoulli-preserving. Finally, we demonstrate that blind unforgeability is stronger than a previous definition of Boneh and Zhandry [EUROCRYPT '13, CRYPTO '13] in the sense that we can construct an explicit function family which is forgeable by an attack that is recognized by blind-unforgeability, yet satisfies the definition by Boneh and Zhandry.
翻訳日:2023-04-21 18:47:30 公開日:2023-04-20
# 変分オートエンコーダのエルボは3つのエントロピーの合計に収束する

The ELBO of Variational Autoencoders Converges to a Sum of Three Entropies ( http://arxiv.org/abs/2010.14860v5 )

ライセンス: Link先を確認
Simon Damm, Dennis Forster, Dmytro Velychko, Zhenwen Dai, Asja Fischer, J\"org L\"ucke(参考訳) 変分オートエンコーダ(VAE)の主目的関数は、その変分ローバウンド(ELBO)である。 ここで、標準(すなわちガウス的)vaesに対して、elboは3つのエントロピーの和によって与えられる値に収束することを示す: 事前分布の(負の)エントロピー、観測可能な分布の期待される(負の)エントロピー、および変分分布の平均エントロピー(後者は既にelboの一部である)。 得られた解析結果は,エンコーダとデコーダの複雑な深層ネットワークに対しても正確かつ適用可能である。 さらに、有限かつ無限に多くのデータポイントと任意の静止点(局所最大点やサドル点を含む)に適用される。 その結果、標準VAEのELBOは定常点の閉形式で計算されることが多く、元のELBOは積分の数値近似を必要とすることがわかった。 主な貢献として、VAE に対する ELBO がエントロピー和に等しい定常点にあることを示す。 数値実験により, 得られた解析結果は, 実際に到達した定常点の活力においても十分正確であることがわかった。 さらに,ELBOの新たなエントロピー形式を用いて,学習行動の分析と理解を行う方法について論じる。 より一般的には、我々の貢献は、VAEの最適化が収束するパラメータ空間におけるこれらの点に関する新しい情報を提供するため、VAE学習に関する将来の理論的および実践的な研究に役立つと信じている。

The central objective function of a variational autoencoder (VAE) is its variational lower bound (the ELBO). Here we show that for standard (i.e., Gaussian) VAEs the ELBO converges to a value given by the sum of three entropies: the (negative) entropy of the prior distribution, the expected (negative) entropy of the observable distribution, and the average entropy of the variational distributions (the latter is already part of the ELBO). Our derived analytical results are exact and apply for small as well as for intricate deep networks for encoder and decoder. Furthermore, they apply for finitely and infinitely many data points and at any stationary point (including local maxima and saddle points). The result implies that the ELBO can for standard VAEs often be computed in closed-form at stationary points while the original ELBO requires numerical approximations of integrals. As a main contribution, we provide the proof that the ELBO for VAEs is at stationary points equal to entropy sums. Numerical experiments then show that the obtained analytical results are sufficiently precise also in those vicinities of stationary points that are reached in practice. Furthermore, we discuss how the novel entropy form of the ELBO can be used to analyze and understand learning behavior. More generally, we believe that our contributions can be useful for future theoretical and practical studies on VAE learning as they provide novel information on those points in parameters space that optimization of VAEs converges to.
翻訳日:2023-04-21 18:43:14 公開日:2023-04-20
# 投影勾配降下を伴う逆行訓練におけるモデル勾配の優先方向の定量化

Quantifying the Preferential Direction of the Model Gradient in Adversarial Training With Projected Gradient Descent ( http://arxiv.org/abs/2009.04709v5 )

ライセンス: Link先を確認
Ricardo Bigolin Lanfredi, Joyce D. Schroeder, Tolga Tasdizen(参考訳) 対人訓練,特に投射勾配降下(PGD)は、対人攻撃に対する堅牢性を改善するためのアプローチとして成功している。 敵対的なトレーニングの後、入力に対するモデルの勾配は優先的な方向を持つ。 しかし、アライメントの方向性は数学的によく定まっておらず、定量的に評価することは困難である。 決定空間における最も近い不正確なクラスのサポートの最も近い点を指すベクトルの方向として、この方向の新たな定義を提案する。 対人訓練後のこの方向との整合性を評価するために,生成的対人ネットワークを用いて画像中のクラスを変更するのに必要な最小限の残差を生成するメトリクスを適用した。 本定義によれば,PGD学習モデルは基準値よりも高いアライメントを有し,我々の測定値が競合する計量定式化よりも高いアライメント値を示し,このアライメントがモデルのロバスト性を高めることを示す。

Adversarial training, especially projected gradient descent (PGD), has proven to be a successful approach for improving robustness against adversarial attacks. After adversarial training, gradients of models with respect to their inputs have a preferential direction. However, the direction of alignment is not mathematically well established, making it difficult to evaluate quantitatively. We propose a novel definition of this direction as the direction of the vector pointing toward the closest point of the support of the closest inaccurate class in decision space. To evaluate the alignment with this direction after adversarial training, we apply a metric that uses generative adversarial networks to produce the smallest residual needed to change the class present in the image. We show that PGD-trained models have a higher alignment than the baseline according to our definition, that our metric presents higher alignment values than a competing metric formulation, and that enforcing this alignment increases the robustness of models.
翻訳日:2023-04-21 18:42:47 公開日:2023-04-20
# FRMDN:フローベースリカレント混合密度ネットワーク

FRMDN: Flow-based Recurrent Mixture Density Network ( http://arxiv.org/abs/2008.02144v3 )

ライセンス: Link先を確認
Seyedeh Fatemeh Razavi and Reshad Hosseini and Tina Behzad(参考訳) リカレント混合密度ネットワークのクラスは、シーケンスモデリングやシーケンシャル・ツー・シーケンスマッピングアプリケーションで広く使われる確率モデルの重要なクラスである。 このクラスのモデルでは、各時間ステップにおけるターゲットシーケンスの密度は、繰り返しニューラルネットワークによって与えられるパラメータとガウス混合モデルによってモデル化される。 本稿では,時間ステップ毎に非線形変換対象系列上にガウス混合モデルを定義することにより,繰り返し混合密度ネットワークを一般化する。 非線形変換空間は流れの正規化によって生成される。 このモデルにより,ログライクリフで測定した画像列の適合性が著しく向上することがわかった。 また,提案モデルを音声データと画像データに適用し,そのモデルがログ類似度で他の最先端手法に匹敵する有意なモデリング能力を有することを確認した。

The class of recurrent mixture density networks is an important class of probabilistic models used extensively in sequence modeling and sequence-to-sequence mapping applications. In this class of models, the density of a target sequence in each time-step is modeled by a Gaussian mixture model with the parameters given by a recurrent neural network. In this paper, we generalize recurrent mixture density networks by defining a Gaussian mixture model on a non-linearly transformed target sequence in each time-step. The non-linearly transformed space is created by normalizing flow. We observed that this model significantly improves the fit to image sequences measured by the log-likelihood. We also applied the proposed model on some speech and image data, and observed that the model has significant modeling power outperforming other state-of-the-art methods in terms of the log-likelihood.
翻訳日:2023-04-21 18:42:31 公開日:2023-04-20
# 逆変形場を用いた医用画像の病的証拠の解釈

Interpretation of Disease Evidence for Medical Images Using Adversarial Deformation Fields ( http://arxiv.org/abs/2007.01975v2 )

ライセンス: Link先を確認
Ricardo Bigolin Lanfredi, Joyce D. Schroeder, Clement Vachet, Tolga Tasdizen(参考訳) 深層学習モデルの複雑さは、それらが特定の疾患のラベルと関連していると認識している証拠を説明するのが困難である。 この情報は、モデルに対する信頼の構築とバイアスの発見に不可欠です。 これまで、ディープラーニングの自動化視覚化ソリューションは、分類器が使用するイメージの領域を特定してきたが、これらのソリューションは粗末すぎる、騒がしい、あるいはイメージの変更の仕方が限られている。 本稿では,デフィ-GAN (Generative Adversarial Network) を用いた変形場解釈という,病状証拠の空間的説明を定式化し提示する手法を提案する。 逆行訓練されたジェネレータは、疾患患者の画像を健康な患者の画像に類似させる変形場を生成する。 慢性閉塞性肺疾患(COPD)の胸部X線(CXR)およびアルツハイマー病(AD)の脳MRI所見について検討した。 縦断的データから病気の証拠を抽出する際には,基準線生成差分マップに対する説得力のある結果を示す。 DeFI-GANはまた、以前の方法では見つからなかった病気のバイオマーカーと、データセットや導入した学習方法の調査に役立つ潜在的なバイアスを強調している。

The high complexity of deep learning models is associated with the difficulty of explaining what evidence they recognize as correlating with specific disease labels. This information is critical for building trust in models and finding their biases. Until now, automated deep learning visualization solutions have identified regions of images used by classifiers, but these solutions are too coarse, too noisy, or have a limited representation of the way images can change. We propose a novel method for formulating and presenting spatial explanations of disease evidence, called deformation field interpretation with generative adversarial networks (DeFI-GAN). An adversarially trained generator produces deformation fields that modify images of diseased patients to resemble images of healthy patients. We validate the method studying chronic obstructive pulmonary disease (COPD) evidence in chest x-rays (CXRs) and Alzheimer's disease (AD) evidence in brain MRIs. When extracting disease evidence in longitudinal data, we show compelling results against a baseline producing difference maps. DeFI-GAN also highlights disease biomarkers not found by previous methods and potential biases that may help in investigations of the dataset and of the adopted learning methods.
翻訳日:2023-04-21 18:42:18 公開日:2023-04-20
# HoW$_{10}$分子磁石のスピンクロック転移近傍の超伝導回路への最適結合

Optimal coupling of HoW$_{10}$ molecular magnets to superconducting circuits near spin clock transitions ( http://arxiv.org/abs/1911.07541v3 )

ライセンス: Link先を確認
Ignacio Gimeno, V\'ictor Rollano, David Zueco, Yan Duan, Marina C. de Ory, Alicia Gomez, Alejandro Gaita-Ari\~no, Carlos S\'anchez-Azqueta, Thomas Astner, Daniel Granados, Stephen Hill, Johannes Majer, Eugenio Coronado and Fernando Luis(参考訳) 量子技術の中心的な目標は、$G$T$_{2}$を最大化することであり、$G$は、量子ビットの信号の制御と読み出しのための結合を表すものであり、T$_{2}$は量子ビットのコヒーレンス時間である。 g$の増加(例えば、クビットを外部刺激とより強く結合することで)は、しばしばt$_{2}$に有害な影響をもたらすため、これは困難である。 本稿では,HoW$_{10}$磁性クラスターの純および磁性希釈結晶とマイクロ波超伝導コプラナー導波路とのカップリングについて検討する。 吸収線は、磁気エネルギーレベルスキームのブロードバンド画像を与え、特に、結晶場と超微粒子相互作用の組み合わせによって決定された等距離磁場におけるレベル反交差の存在を確認する。 このような「スピン時計遷移」は、磁場変動に対して電子スピンを遮蔽することが知られている。 マイクロ波伝送の解析は、スピン-光子カップリングもこれらの遷移で最大になることを示している。 その結果, 分子系のスピン時計状態は, スピン-光子相互作用を, 不要な磁気ノイズ源からの十分な分離と組み合わせるための有望な戦略であることがわかった。

A central goal in quantum technologies is to maximize $G$T$_{2}$, where $G$ stands for the coupling of a qubit to control and readout signals and T$_{2}$ is the qubit's coherence time. This is challenging, as increasing $G$ (e.g. by coupling the qubit more strongly to external stimuli) often leads to deleterious effects on T$_{2}$. Here, we study the coupling of pure and magnetically diluted crystals of HoW$_{10}$ magnetic clusters to microwave superconducting coplanar waveguides. Absorption lines give a broadband picture of the magnetic energy level scheme and, in particular, confirm the existence of level anticrossings at equidistant magnetic fields determined by the combination of crystal field and hyperfine interactions. Such 'spin clock transitions' are known to shield the electronic spins against magnetic field fluctuations. The analysis of the microwave transmission shows that the spin-photon coupling becomes also maximum at these transitions. The results show that engineering spin-clock states of molecular systems offers a promising strategy to combine sizeable spin-photon interactions with a sufficient isolation from unwanted magnetic noise sources.
翻訳日:2023-04-21 18:41:57 公開日:2023-04-20
# SUSYおよび量子変形ポテンシャルの排他的-WKB解析:グラスマン場とウェス・ズミーノ項を持つ量子力学

Exact-WKB analysis for SUSY and quantum deformed potentials: Quantum mechanics with Grassmann fields and Wess-Zumino terms ( http://arxiv.org/abs/2111.05922v4 )

ライセンス: Link先を確認
Syo Kamata, Tatsuhiro Misumi, Naohisa Sueishi, Mithat \"Unsal(参考訳) 量子変形ポテンシャルは、1つのボゾン座標の量子力学系において自然にN_f$グラスマン値のフェルミオン座標または位相ウェス・ズミーノ項に結合する。 これらの系は古典ポテンシャルと量子変形を持つセクタに分解される。 正確な WKB を用いて、正確な量子化条件とその中央値の再仮定を導出する。 中央再帰形式の解は、量子変形二重ポテンシャルと三重井戸ポテンシャルで明確に示されるように、物理的ボレル・エカルル再帰の結果を与える。 インスタントンは有限作用であるにもかかわらず、一般の量子変形では、半古典学の先頭の順序でエネルギースペクトルに寄与しない。 摂動理論における全ての順序に対するレベルのアライメントが生じる特定の量子化量子変形に対して、インスタントンはスペクトルに寄与する。 変形パラメータが適切に量子化されていない場合、その効果は消失するが、半古典学における高次効果は残る。 この意味で、私たちはsaddleコントリビューションをフェードかつロバストに分類します。 最後に、量子変形三重井戸ポテンシャルに対して、周期積分とメルリン変換によるP-NP関係を示す。

Quantum deformed potentials arise naturally in quantum mechanical systems of one bosonic coordinate coupled to $N_f$ Grassmann valued fermionic coordinates, or to a topological Wess-Zumino term. These systems decompose into sectors with a classical potential plus a quantum deformation. Using exact WKB, we derive exact quantization condition and its median resummation. The solution of median resummed form gives physical Borel-Ecalle resummed results, as we show explicitly in quantum deformed double- and triple- well potentials. Despite the fact that instantons are finite action, for generic quantum deformation, they do not contribute to the energy spectrum at leading order in semi-classics. For certain quantized quantum deformations, where the alignment of levels to all order in perturbation theory occurs, instantons contribute to the spectrum. If deformation parameter is not properly quantized, their effect disappears, but higher order effects in semi-classics survive. In this sense, we classify saddle contributions as fading and robust. Finally, for quantum deformed triple-well potential, we demonstrate the P-NP relation, by computing period integrals and Mellin transform.
翻訳日:2023-04-21 18:07:03 公開日:2023-04-20
# 3次元シミュレーションのための境界グラフニューラルネットワーク

Boundary Graph Neural Networks for 3D Simulations ( http://arxiv.org/abs/2106.11299v7 )

ライセンス: Link先を確認
Andreas Mayr, Sebastian Lehner, Arno Mayrhofer, Christoph Kloss, Sepp Hochreiter, Johannes Brandstetter(参考訳) データの豊富さは、自然科学や工学において機械学習にかなりの勢いを与えてきたが、物理過程のモデリングはしばしば困難である。 特に難しい問題は、幾何学的境界の効率的な表現である。 三角形化された幾何学的境界は、工学的応用においてよく理解されユビキタスである。 しかし、サイズや方向に関する不均一性のため、これらを機械学習アプローチに統合することは極めて難しい。 本研究では,粒子-境界相互作用のモデル化に有効な理論を導入し,境界条件に従うためにグラフ構造を動的に修正する新しい境界グラフニューラルネットワーク(bgnns)を提案する。 新しいBGNNは、ホッパー、回転ドラム、ミキサーの複雑な3D粒状フロープロセスでテストされている。 BGNNは計算効率や粒子流の予測精度、混合エントロピーの観点から評価される。 bgnnは、数十万のシミュレーション時間ステップのシミュレーション不確実性の中で、正確に3dの粒状フローを再現することができる。 特に、我々の実験では、粒子は手作りの条件や制約を使わずに幾何学的な物体の中に留まっている。

The abundance of data has given machine learning considerable momentum in natural sciences and engineering, though modeling of physical processes is often difficult. A particularly tough problem is the efficient representation of geometric boundaries. Triangularized geometric boundaries are well understood and ubiquitous in engineering applications. However, it is notoriously difficult to integrate them into machine learning approaches due to their heterogeneity with respect to size and orientation. In this work, we introduce an effective theory to model particle-boundary interactions, which leads to our new Boundary Graph Neural Networks (BGNNs) that dynamically modify graph structures to obey boundary conditions. The new BGNNs are tested on complex 3D granular flow processes of hoppers, rotating drums and mixers, which are all standard components of modern industrial machinery but still have complicated geometry. BGNNs are evaluated in terms of computational efficiency as well as prediction accuracy of particle flows and mixing entropies. BGNNs are able to accurately reproduce 3D granular flows within simulation uncertainties over hundreds of thousands of simulation timesteps. Most notably, in our experiments, particles stay within the geometric objects without using handcrafted conditions or restrictions.
翻訳日:2023-04-21 18:06:09 公開日:2023-04-20
# 単一ニューロンは予測の不確かさを学習できるか?

Can a single neuron learn predictive uncertainty? ( http://arxiv.org/abs/2106.03702v3 )

ライセンス: Link先を確認
Edgardo Solano-Carrillo(参考訳) ディープラーニングアプローチを用いた不確実性推定手法では、測定(客観的な目的)を通じて世界の状態がどの程度不確実であるかを、そのような状態を予測するのに使用されるモデル仕様とトレーニング手順(例えば、ニューロンの数、深さ、接続、事前(モデルがベイズ的である場合)、重み初期化など)と切り離そうとしている。 このことは、これらの仕様に関連付けられた自由の度合いを排除し、客観的な目的を達成できるかどうかという問題を引き起こします。 本稿では,1自由度を持つ最も単純なニューラルネットワークアーキテクチャである単一ニューロンに基づいて,連続的確率変数に対する新しい非パラメトリック量子性推定法を提案する。 その利点は合成実験において初めて示され、順序統計(特に小さなサンプルサイズで)のランク付けと量的回帰によって得られる量的推定と比較された。 実世界のアプリケーションでは、この方法は、分割共形予測設定の下で予測の不確実性を定量化するために使用され、予測間隔は、保持された検証セット上の事前訓練されたモデルの残差から推定され、将来の予測における不確実性を定量化するために使用される。 ベンチマーク回帰と分類実験により、この手法は最先端のソリューションと品質とカバレッジの競争力があり、さらに計算効率が良いという利点が示された。

Uncertainty estimation methods using deep learning approaches strive against separating how uncertain the state of the world manifests to us via measurement (objective end) from the way this gets scrambled with the model specification and training procedure used to predict such state (subjective means) -- e.g., number of neurons, depth, connections, priors (if the model is bayesian), weight initialization, etc. This poses the question of the extent to which one can eliminate the degrees of freedom associated with these specifications and still being able to capture the objective end. Here, a novel non-parametric quantile estimation method for continuous random variables is introduced, based on the simplest neural network architecture with one degree of freedom: a single neuron. Its advantage is first shown in synthetic experiments comparing with the quantile estimation achieved from ranking the order statistics (specifically for small sample size) and with quantile regression. In real-world applications, the method can be used to quantify predictive uncertainty under the split conformal prediction setting, whereby prediction intervals are estimated from the residuals of a pre-trained model on a held-out validation set and then used to quantify the uncertainty in future predictions -- the single neuron used here as a structureless ``thermometer'' that measures how uncertain the pre-trained model is. Benchmarking regression and classification experiments demonstrate that the method is competitive in quality and coverage with state-of-the-art solutions, with the added benefit of being more computationally efficient.
翻訳日:2023-04-21 18:05:53 公開日:2023-04-20
# 位置認識のためのシームズネットワークの一般化コントラスト最適化

Generalized Contrastive Optimization of Siamese Networks for Place Recognition ( http://arxiv.org/abs/2103.06638v4 )

ライセンス: Link先を確認
Mar\'ia Leyva-Vallina, Nicola Strisciuglio, Nicolai Petkov(参考訳) 視覚位置認識はコンピュータビジョンにおける課題であり、カメラベースのローカライゼーションとナビゲーションシステムの主要なコンポーネントである。 近年,畳み込みニューラルネットワーク(CNN)は高い結果と優れた一般化能力を得た。 それらは通常、二分法で類似または類似とラベル付けされた画像のペアまたは三重項を使って訓練される。 実際には、2つの画像間の類似性はバイナリではなく連続である。 さらに、これらのcnnの訓練は計算が複雑であり、コストのかかるペアとトリプルトマイニング戦略を伴う。 本稿では,連続的な尺度として画像類似性に依存する一般コントラスト損失(GCL)関数を提案し,それをシアムCNNの訓練に利用する。 さらに,画像ペアに類似度を示すラベルを付加し,MSLS,TB-Places,および7Scenesデータセットを再アノテートするための3つの手法を提案する。 GCL関数を用いて訓練されたシアムCNNと、改良されたアノテーションは、バイナリよりも一貫して優れていることを示す。 当社のモデルは,NetVLAD,NetVLAD-SARE,AP-GeM,Patch-NetVLADといった最先端の手法より優れており,ピッツバーグ30k,東京24/7,RobotCar Seasons v2,Extended CMU Seasonsデータセットでよく一般化されている。 さらに、GCL関数を用いたシアムネットワークのトレーニングは、複雑なペアマイニングを必要としない。 ソースコードはhttps://github.com/marialeyvallina/generalized_contrastive_lossでリリースします。

Visual place recognition is a challenging task in computer vision and a key component of camera-based localization and navigation systems. Recently, Convolutional Neural Networks (CNNs) achieved high results and good generalization capabilities. They are usually trained using pairs or triplets of images labeled as either similar or dissimilar, in a binary fashion. In practice, the similarity between two images is not binary, but continuous. Furthermore, training these CNNs is computationally complex and involves costly pair and triplet mining strategies. We propose a Generalized Contrastive loss (GCL) function that relies on image similarity as a continuous measure, and use it to train a siamese CNN. Furthermore, we present three techniques for automatic annotation of image pairs with labels indicating their degree of similarity, and deploy them to re-annotate the MSLS, TB-Places, and 7Scenes datasets. We demonstrate that siamese CNNs trained using the GCL function and the improved annotations consistently outperform their binary counterparts. Our models trained on MSLS outperform the state-of-the-art methods, including NetVLAD, NetVLAD-SARE, AP-GeM and Patch-NetVLAD, and generalize well on the Pittsburgh30k, Tokyo 24/7, RobotCar Seasons v2 and Extended CMU Seasons datasets. Furthermore, training a siamese network using the GCL function does not require complex pair mining. We release the source code at https://github.com/marialeyvallina/generalized_contrastive_loss.
翻訳日:2023-04-21 18:05:23 公開日:2023-04-20
# Media Slantは感染性がある

Media Slant is Contagious ( http://arxiv.org/abs/2202.07269v3 )

ライセンス: Link先を確認
Philine Widmer, Sergio Galletta, and Elliott Ash(参考訳) 本稿では,メディアスラントの拡散,特に全国ケーブルニュースのパルチザンコンテンツが米国の地方新聞に与える影響について検討する。 我々は、Fox News Channel(FNC)、CNN、MSNBCのコンテンツに基づいて訓練されたケーブルニューススラントをテキストベースで測定し、地元の新聞がCNN/MSNBCよりもFNCのスラントを採用する方法を分析する。 以上の結果から,局所的なfnc視聴率の上昇に伴い,ローカルニュースはfncコンテンツとより類似することが示された。 このシフトは、ケーブルニュースからの借用に限らず、地元の新聞自身のコンテンツが変化している。 さらに、ケーブルテレビはローカルニュースコンテンツを分極する。

This paper examines the diffusion of media slant, specifically how partisan content from national cable news affects local newspapers in the U.S., 2005-2008. We use a text-based measure of cable news slant trained on content from Fox News Channel (FNC), CNN, and MSNBC to analyze how local newspapers adopt FNC's slant over CNN/MSNBC's. Our findings show that local news becomes more similar to FNC content in response to an exogenous increase in local FNC viewership. This shift is not limited to borrowing from cable news, but rather, local newspapers' own content changes. Further, cable TV slant polarizes local news content.
翻訳日:2023-04-21 17:56:25 公開日:2023-04-20
# 不変部分代数をもつ量子力学半群の生成について

On the generators of quantum dynamical semigroups with invariant subalgebras ( http://arxiv.org/abs/2202.06812v2 )

ライセンス: Link先を確認
Markus Hasen\"ohrl and Matthias C. Caro(参考訳) GKLS-ジェネレータと不変なCP-マップを特徴づけるという問題は、文学において異なるギルゼに現れる。 まず、$\mathcal{a}$-invariant gkls-generators の正規形式を構築する方法を示し、$\mathcal{a}$-invariant cp-maps の正規形式が知られていることを証明する。 次に、$\mathcal{a}$-invariant cp-maps に対して、$\mathcal{a}$ が原子(有限次元の場合を含む)であれば正規形式を与える。 アプリケーションとして,文献から得られたいくつかの結果をキャラクタリゼーションの直接的な結果として再現し,異なるフィールド間の接続を指摘する。

The problem of characterizing GKLS-generators and CP-maps with an invariant appeared in different guises in the literature. We prove two unifying results which hold even for weakly closed *-algebras: First, we show how to construct a normal form for $\mathcal{A}$-invariant GKLS-generators, if a normal form for $\mathcal{A}$-invariant CP-maps is known - rendering the two problems essentially equivalent. Second, we provide a normal form for $\mathcal{A}$-invariant CP-maps if $\mathcal{A}$ is atomic (which includes the finite-dimensional case). As an application we reproduce several results from the literature as direct consequences of our characterizations and thereby point out connections between different fields.
翻訳日:2023-04-21 17:56:03 公開日:2023-04-20
# more is better (大部分は): フェデレーショングラフニューラルネットワークにおけるバックドア攻撃について

More is Better (Mostly): On the Backdoor Attacks in Federated Graph Neural Networks ( http://arxiv.org/abs/2202.03195v5 )

ライセンス: Link先を確認
Jing Xu, Rui Wang, Stefanos Koffas, Kaitai Liang, Stjepan Picek(参考訳) グラフニューラルネットワーク(英: graph neural network、gnns)は、グラフドメイン情報を処理するディープラーニングベースの手法である。 近年,GNNは複雑なグラフデータの表現を学習する能力に優れており,広く利用されているグラフ解析手法となっている。 しかし、プライバシーの懸念と規制の制約のため、集中型GNNはデータに敏感なシナリオに適用することは困難である。 フェデレートラーニング(FL)は、複数のパーティが共同でグローバルモデルを共有する必要がある場合に、プライバシ保護設定のために開発された新興技術である。 いくつかの研究がGNN(Federated GNN)の訓練にFLを適用しているが、バックドア攻撃に対する堅牢性についての研究はない。 本稿では,集中型バックドアアタック(CBA)と分散バックドアアタック(DBA)という,2種類のバックドアアタックをフェデレートGNNで実施することで,このギャップを埋める。 実験の結果, ほぼすべての症例において, DBA 攻撃成功率は CBA よりも高いことがわかった。 CBAの場合、全てのローカルトリガーの攻撃成功率は、たとえ相手のトレーニングセットにグローバルトリガーが埋め込まれたとしても、グローバルトリガーと似ている。 フェデレートgnnにおける2つのバックドア攻撃の特性をさらに探究するために,異なる数のクライアントに対する攻撃性能,トリガサイズ,中毒強度,トリガ密度を評価した。 さらに,DBAとCBAのロバスト性について検討した。 我々は、双方の攻撃が調査対象の防衛に対して堅牢であることに気付き、連邦GNNにおけるバックドア攻撃を、カスタムディフェンスを必要とする新たな脅威として考慮する必要がある。

Graph Neural Networks (GNNs) are a class of deep learning-based methods for processing graph domain information. GNNs have recently become a widely used graph analysis method due to their superior ability to learn representations for complex graph data. However, due to privacy concerns and regulation restrictions, centralized GNNs can be difficult to apply to data-sensitive scenarios. Federated learning (FL) is an emerging technology developed for privacy-preserving settings when several parties need to train a shared global model collaboratively. Although several research works have applied FL to train GNNs (Federated GNNs), there is no research on their robustness to backdoor attacks. This paper bridges this gap by conducting two types of backdoor attacks in Federated GNNs: centralized backdoor attacks (CBA) and distributed backdoor attacks (DBA). Our experiments show that the DBA attack success rate is higher than CBA in almost all evaluated cases. For CBA, the attack success rate of all local triggers is similar to the global trigger even if the training set of the adversarial party is embedded with the global trigger. To further explore the properties of two backdoor attacks in Federated GNNs, we evaluate the attack performance for a different number of clients, trigger sizes, poisoning intensities, and trigger densities. Moreover, we explore the robustness of DBA and CBA against one defense. We find that both attacks are robust against the investigated defense, necessitating the need to consider backdoor attacks in Federated GNNs as a novel threat that requires custom defenses.
翻訳日:2023-04-21 17:55:46 公開日:2023-04-20
# ClippedGossipによるByzantine-Robust分散学習

Byzantine-Robust Decentralized Learning via ClippedGossip ( http://arxiv.org/abs/2202.01545v2 )

ライセンス: Link先を確認
Lie He, Sai Praneeth Karimireddy, Martin Jaggi(参考訳) 本稿では,任意の通信グラフ上でのビザンチン・ロバスト分散学習の課題について考察する。 作業者がサーバを介してコミュニケーションするフェデレーション学習とは異なり、分散環境での作業者は隣人としか会話できないため、コンセンサスに達することが難しく、協調トレーニングの恩恵を受ける。 これらの問題に対処するために、ビザンチン・ロバスト合意と最適化のためのクリップドゴシップアルゴリズムを提案し、標準仮定の下で非凸目的の定常点の$o(\delta_{\max}\zeta^2/\gamma^2)$近傍に最初に収束する。 最後に,多くの攻撃において,クリップドゴシップを奨励する経験的性能を示す。

In this paper, we study the challenging task of Byzantine-robust decentralized training on arbitrary communication graphs. Unlike federated learning where workers communicate through a server, workers in the decentralized environment can only talk to their neighbors, making it harder to reach consensus and benefit from collaborative training. To address these issues, we propose a ClippedGossip algorithm for Byzantine-robust consensus and optimization, which is the first to provably converge to a $O(\delta_{\max}\zeta^2/\gamma^2)$ neighborhood of the stationary point for non-convex objectives under standard assumptions. Finally, we demonstrate the encouraging empirical performance of ClippedGossip under a large number of attacks.
翻訳日:2023-04-21 17:54:53 公開日:2023-04-20
# 胸部X線解釈可能性法による放射線医の視線と衛生地図の比較

Comparing radiologists' gaze and saliency maps generated by interpretability methods for chest x-rays ( http://arxiv.org/abs/2112.11716v3 )

ライセンス: Link先を確認
Ricardo Bigolin Lanfredi, Ambuj Arora, Trafton Drew, Joyce D. Schroeder, Tolga Tasdizen(参考訳) 医用画像解析モデルの解釈性は重要な研究分野である。 5人の放射線科医による視線追跡データのデータセットを用いて、解釈可能性法と放射線科医の視線を表わす熱マップの出力を比較した。 文献から選択した2つの手法(grad-camとententention map)で生成した塩分マップのクラス非依存解析を行う。 比較のために、固定位置からのバイアスを避けるシャッフルメトリクスを使用します。 この結果から,Grad-CAMによる画像に対する放射線技師の注意を反映したサリエンシマップの可能性を強調した。 また、データセットをサブセットに分割して、類似度が高い場合を評価する。

The interpretability of medical image analysis models is considered a key research field. We use a dataset of eye-tracking data from five radiologists to compare the outputs of interpretability methods and the heatmaps representing where radiologists looked. We conduct a class-independent analysis of the saliency maps generated by two methods selected from the literature: Grad-CAM and attention maps from an attention-gated model. For the comparison, we use shuffled metrics, which avoid biases from fixation locations. We achieve scores comparable to an interobserver baseline in one shuffled metric, highlighting the potential of saliency maps from Grad-CAM to mimic a radiologist's attention over an image. We also divide the dataset into subsets to evaluate in which cases similarities are higher.
翻訳日:2023-04-21 17:54:11 公開日:2023-04-20
# 中堅企業市場におけるデフォルト予測のための変圧器モデル

A transformer-based model for default prediction in mid-cap corporate markets ( http://arxiv.org/abs/2111.09902v4 )

ライセンス: Link先を確認
Kamesh Korangi, Christophe Mues, Cristi\'an Bravo(参考訳) 本稿では,市場資本が100億ドル未満の企業,すなわち上場企業について調査する。 30年以上にわたって観察された米国中規模企業の大規模なデータセットを用いて、中期にわたってデフォルトの確率項構造を予測し、どのデータソース(基本データ、市場データ、価格データ)がデフォルトのリスクに最も寄与するかを理解する。 既存の手法では、異なる時間周期のデータがまず集約されて断面的特徴に変換されることが要求されるが、この問題はマルチラベルの時系列分類問題である。 我々は,自然言語処理領域から発生する最先端のディープラーニングモデルであるtransformer modelを,信用リスクモデリング設定に適用する。 また,これらのモデルの予測を注意熱マップを用いて解釈する。 さらにモデルを最適化するために,マルチラベル分類のためのカスタムロス関数と,すべての入力データを効率的に使用できる差分トレーニングを備えた新しいマルチチャネルアーキテクチャを提案する。 その結果,従来のモデルよりもAUC(Area Under the receiver operating characteristic Curve)が13%向上した。 また、これらのモデルに特有のShapleyアプローチを用いて、異なるデータソースと時間的関係の重要ランキングを作成する方法を示す。

In this paper, we study mid-cap companies, i.e. publicly traded companies with less than US $10 billion in market capitalisation. Using a large dataset of US mid-cap companies observed over 30 years, we look to predict the default probability term structure over the medium term and understand which data sources (i.e. fundamental, market or pricing data) contribute most to the default risk. Whereas existing methods typically require that data from different time periods are first aggregated and turned into cross-sectional features, we frame the problem as a multi-label time-series classification problem. We adapt transformer models, a state-of-the-art deep learning model emanating from the natural language processing domain, to the credit risk modelling setting. We also interpret the predictions of these models using attention heat maps. To optimise the model further, we present a custom loss function for multi-label classification and a novel multi-channel architecture with differential training that gives the model the ability to use all input data efficiently. Our results show the proposed deep learning architecture's superior performance, resulting in a 13% improvement in AUC (Area Under the receiver operating characteristic Curve) over traditional models. We also demonstrate how to produce an importance ranking for the different data sources and the temporal relationships using a Shapley approach specific to these models.
翻訳日:2023-04-21 17:53:42 公開日:2023-04-20
# 衛星画像時系列分類のための時間畳み込みニューラルネットワークの検討

Investigating Temporal Convolutional Neural Networks for Satellite Image Time Series Classification: A survey ( http://arxiv.org/abs/2204.08461v2 )

ライセンス: Link先を確認
James Brock, Zahraa S. Abdallah(参考訳) 地球表面の衛星画像時系列(SITS)は詳細な土地被覆地図を提供し、その空間次元と時間次元は一貫して改善されている。 これらの画像時系列は、地球表面の正確な最新の土地被覆マップを作成することを目的とした開発システムにとって不可欠なものである。 適用範囲は広いが,生態系マッピングや植生プロセス監視,人為的土地利用変化追跡など,注目すべき例がある。 近年、SITS分類の手法は有益であるが、これらの手法はデータの時間次元を利用するネイティブなメカニズムを欠いている傾向にあり、一般に、広範囲なデータ前処理が、非常に長い訓練時間に寄与する。 これらの欠点を克服するために、Temporal CNNは、最近SITS分類タスクに採用され、結果を奨励している。 本稿では,本手法をSITS分類の多くの現代的手法と比較し,最近の文献における既存の知見の検証を試みる。 2つのベンチマークSITSデータセットで総合実験を行い、時間CNNが比較ベンチマークアルゴリズムよりも優れた性能を示し、それぞれ95.0\%と87.3\%の精度を達成することを示した。 テンポラリcnnアーキテクチャに関する調査は、新しいデータセットのためにモデルを最適化する非自明なタスクも強調した。

Satellite Image Time Series (SITS) of the Earth's surface provide detailed land cover maps, with their quality in the spatial and temporal dimensions consistently improving. These image time series are integral for developing systems that aim to produce accurate, up-to-date land cover maps of the Earth's surface. Applications are wide-ranging, with notable examples including ecosystem mapping, vegetation process monitoring and anthropogenic land-use change tracking. Recently proposed methods for SITS classification have demonstrated respectable merit, but these methods tend to lack native mechanisms that exploit the temporal dimension of the data; commonly resulting in extensive data pre-processing contributing to prohibitively long training times. To overcome these shortcomings, Temporal CNNs have recently been employed for SITS classification tasks with encouraging results. This paper seeks to survey this method against a plethora of other contemporary methods for SITS classification to validate the existing findings in recent literature. Comprehensive experiments are carried out on two benchmark SITS datasets with the results demonstrating that Temporal CNNs display a superior performance to the comparative benchmark algorithms across both studied datasets, achieving accuracies of 95.0\% and 87.3\% respectively. Investigations into the Temporal CNN architecture also highlighted the non-trivial task of optimising the model for a new dataset.
翻訳日:2023-04-21 17:48:28 公開日:2023-04-20
# 単眼映像からの新たな視点とポーズにおける人間のニューラルレンダリング

Neural Rendering of Humans in Novel View and Pose from Monocular Video ( http://arxiv.org/abs/2204.01218v2 )

ライセンス: Link先を確認
Tiantian Wang, Nikolaos Sarafianos, Ming-Hsuan Yang, Tony Tung(参考訳) 本稿では,新しい視点下でフォトリアリスティックな人間を生成し,単眼映像を入力としてポーズを与える新しい手法を提案する。 このトピックでは最近の大きな進歩にもかかわらず、ダイナミックシーンシナリオにおける共有正準ニューラルラディアンスフィールドを探索するいくつかの手法では、目に見えないポーズのためのユーザ制御モデルを学ぶことは難しい課題である。 この問題に対処するために,有効な方法を提案する。 a) 複数のフレームをまたいだ観察を統合して b) 各フレームの外観を符号化する。 我々は、人体形状をモデル化する人間のポーズと、人体の一部を入力として覆う点雲を利用する。 提案手法では,複数のフレーム間で人間のポーズに固定された潜在符号と,各フレームが生成する不完全点雲に固定された出現依存符号を同時に学習する。 以前の人間のポーズベースのコードはパフォーマーの形状をモデル化するが、後者のクラウドベースのコードは、見知らぬポーズで行方不明な構造について詳細な詳細と理由を予測する。 クエリフレームの非可視領域をさらに回復するために,クエリフレーム内の点の特徴と追跡されたボディポイントを自動選択されたキーフレームから統合する時間的トランスフォーマーを用いる。 zju-mocapを含む様々なデータセットから動的人間の様々なシーケンスを実験した結果,本手法は,単眼映像を入力とした無意味なポーズや新しい視点下での既存のアプローチを大きく上回ることがわかった。

We introduce a new method that generates photo-realistic humans under novel views and poses given a monocular video as input. Despite the significant progress recently on this topic, with several methods exploring shared canonical neural radiance fields in dynamic scene scenarios, learning a user-controlled model for unseen poses remains a challenging task. To tackle this problem, we introduce an effective method to a) integrate observations across several frames and b) encode the appearance at each individual frame. We accomplish this by utilizing both the human pose that models the body shape as well as point clouds that partially cover the human as input. Our approach simultaneously learns a shared set of latent codes anchored to the human pose among several frames, and an appearance-dependent code anchored to incomplete point clouds generated by each frame and its predicted depth. The former human pose-based code models the shape of the performer whereas the latter point cloud-based code predicts fine-level details and reasons about missing structures at the unseen poses. To further recover non-visible regions in query frames, we employ a temporal transformer to integrate features of points in query frames and tracked body points from automatically-selected key frames. Experiments on various sequences of dynamic humans from different datasets including ZJU-MoCap show that our method significantly outperforms existing approaches under unseen poses and novel views given monocular videos as input.
翻訳日:2023-04-21 17:48:05 公開日:2023-04-20
# 能動学習による適応量子状態トモグラフィ

Adaptive Quantum State Tomography with Active Learning ( http://arxiv.org/abs/2203.15719v3 )

ライセンス: Link先を確認
Hannah Lange, Matja\v{z} Kebri\v{c}, Maximilian Buser, Ulrich Schollw\"ock, Fabian Grusdt and Annabelle Bohrdt(参考訳) 量子シミュレーションの異なるプラットフォームと量子コンピューティング(超伝導量子ビットから中性原子まで)は、前例のないほど大きなシステムに到達し始めている。 これらのシステムをベンチマークし、物理的洞察を得るために、効率的な量子状態を特徴付けるツールの必要性が生じる。 系の大きさでヒルベルト空間が指数関数的に成長すると、必要な測定値の数で禁止的に要求される量子状態の完全な再構成が生じる。 本稿では,能動学習を用いた量子状態トモグラフィの効率的な手法を提案する。 いくつかの初期測定に基づいて、アクティブラーニングプロトコルは、最大情報ゲインを得るように設計された次の測定基準を提案する。 能動学習量子状態トモグラフィー法を用いて、異なるマルチキュービット状態と1次元のXXZモデルの基底状態と運動的に制約されたスピン鎖を再構成する。 いずれの場合も、全く同じ測定値と測定値に基づいて、無作為に選択されたベース構成に基づいて、再構成よりも大幅に改善された再構築が得られる。 提案手法は, 量子多体系や, 量子シミュレーションなどの量子デバイスのベンチマークや特徴付け, スケーラブルな適応プロトコルによる量子システム探索, 準備, 操作の方法の整備など, 物理的洞察を得るために非常に重要である。

Recently, tremendous progress has been made in the field of quantum science and technologies: different platforms for quantum simulation as well as quantum computing, ranging from superconducting qubits to neutral atoms, are starting to reach unprecedentedly large systems. In order to benchmark these systems and gain physical insights, the need for efficient tools to characterize quantum states arises. The exponential growth of the Hilbert space with system size renders a full reconstruction of the quantum state prohibitively demanding in terms of the number of necessary measurements. Here we propose and implement an efficient scheme for quantum state tomography using active learning. Based on a few initial measurements, the active learning protocol proposes the next measurement basis, designed to yield the maximum information gain. We apply the active learning quantum state tomography scheme to reconstruct different multi-qubit states with varying degree of entanglement as well as to ground states of the XXZ model in 1D and a kinetically constrained spin chain. In all cases, we obtain a significantly improved reconstruction as compared to a reconstruction based on the exact same number of measurements and measurement configurations, but with randomly chosen basis configurations. Our scheme is highly relevant to gain physical insights in quantum many-body systems as well as for benchmarking and characterizing quantum devices, e.g. for quantum simulation, and paves the way for scalable adaptive protocols to probe, prepare, and manipulate quantum systems.
翻訳日:2023-04-21 17:47:37 公開日:2023-04-20
# AIベースのログアナライザ - 実践的なアプローチ

AI based Log Analyser: A Practical Approach ( http://arxiv.org/abs/2203.10960v2 )

ライセンス: Link先を確認
Jonathan Pan(参考訳) ログの分析は、障害やサイバーインシデントの検出、調査、システムおよびサイバーレジリエンスの技術的な法医学的分析のために行われる重要な活動である。 ログ分析のためのAIアルゴリズムの潜在的な応用は、このような複雑で退屈なタスクを強化する可能性がある。 しかし、そのような解はログソースの不均一性を制約しており、分類器を訓練するラベルに制限されない。 このようなラベルが利用可能になると、分類器を更新する必要がある。 この実践ベースの研究は、Transformerコンストラクトを使用して、通常のログエントリだけで新しいモデルをトレーニングすることで、これらの課題に対処しようとしている。 複数の形態の摂動によるログ拡張は、特徴学習のための自己教師型トレーニングの形式として適用される。 このモデルはラベルサンプルの限られたセットで強化学習の形式を使ってさらに微調整され、実世界の状況とラベルの可用性を模倣する。 モデル構築実験の結果, 今後の実用化への道筋をたどる比較評価手法が期待できることがわかった。

The analysis of logs is a vital activity undertaken for fault or cyber incident detection, investigation and technical forensics analysis for system and cyber resilience. The potential application of AI algorithms for Log analysis could augment such complex and laborious tasks. However, such solution has its constraints the heterogeneity of log sources and limited to no labels for training a classifier. When such labels become available, the need for the classifier to be updated. This practice-based research seeks to address these challenges with the use of Transformer construct to train a new model with only normal log entries. Log augmentation through multiple forms of perturbation is applied as a form of self-supervised training for feature learning. The model is further finetuned using a form of reinforcement learning with a limited set of label samples to mimic real-world situation with the availability of labels. The experimental results of our model construct show promise with comparative evaluation measurements paving the way for future practical applications.
翻訳日:2023-04-21 17:46:44 公開日:2023-04-20
# カージオローカライゼーションのための共視覚パターン拡張生成変換器学習

Co-visual pattern augmented generative transformer learning for automobile geo-localization ( http://arxiv.org/abs/2203.09135v2 )

ライセンス: Link先を確認
Jianwei Zhao and Qiang Zhai and Pengbo Zhao and Rui Huang and Hong Cheng(参考訳) ジオロケーションは無人車両のルート計画とナビゲーションの基本的な構成要素であるが、GNSSベースのジオロケーションはサービス停止条件下では失敗する。 地上カメラの地理的位置を、巨大なジオタグ付き空中画像(\emph{e.}, 衛星画像)と照合して推定することを目的としたクロスビュージオローカライゼーション(CVGL)は、多くの注目を集めているが、地上ビュー間の劇的な外観の違いのため、非常に難しい。 既存の手法では、異なるビューのグローバル表現は主にシャムのようなアーキテクチャを用いて抽出されるが、それらのインタラクティブな利点はほとんど考慮されていない。 本稿では,cvglにおける相互生成トランスフォーマー学習(mgtl)という,トランスフォーマと組み合わせたクロスビュー知識生成手法を用いた新しい手法を提案する。 具体的には、backbone networkが生成する最初の表現を取り込むことで、mgtlは2つの異なる生成サブモジュール -- 一つは地上のセマンティクスから航空認識の知識を生成するためのもので、その逆もまた -- を開発し、アテンションメカニズムによって完全に相互に利益を享受する。 さらに,空中と地上の視線関係をよりよく把握するために,より精度を高めるために,カスケードされた注目マスキングアルゴリズムを導入する。 既存の最先端モデルと比較して,新たなレコードを設定する手法の有効性を実証するために, 挑戦的な公開ベンチマークである<emph{i.e.}, {CVACT}, {CVUSA} の広範な実験を行った。

Geolocation is a fundamental component of route planning and navigation for unmanned vehicles, but GNSS-based geolocation fails under denial-of-service conditions. Cross-view geo-localization (CVGL), which aims to estimate the geographical location of the ground-level camera by matching against enormous geo-tagged aerial (\emph{e.g.}, satellite) images, has received lots of attention but remains extremely challenging due to the drastic appearance differences across aerial-ground views. In existing methods, global representations of different views are extracted primarily using Siamese-like architectures, but their interactive benefits are seldom taken into account. In this paper, we present a novel approach using cross-view knowledge generative techniques in combination with transformers, namely mutual generative transformer learning (MGTL), for CVGL. Specifically, by taking the initial representations produced by the backbone network, MGTL develops two separate generative sub-modules -- one for aerial-aware knowledge generation from ground-view semantics and vice versa -- and fully exploits the entirely mutual benefits through the attention mechanism. Moreover, to better capture the co-visual relationships between aerial and ground views, we introduce a cascaded attention masking algorithm to further boost accuracy. Extensive experiments on challenging public benchmarks, \emph{i.e.}, {CVACT} and {CVUSA}, demonstrate the effectiveness of the proposed method which sets new records compared with the existing state-of-the-art models.
翻訳日:2023-04-21 17:46:30 公開日:2023-04-20
# 金常用グリッター:線形および非線形ガード属性情報のスペクトル除去

Gold Doesn't Always Glitter: Spectral Removal of Linear and Nonlinear Guarded Attribute Information ( http://arxiv.org/abs/2203.07893v4 )

ライセンス: Link先を確認
Shun Shao, Yftah Ziser, Shay B. Cohen(参考訳) 神経表現からプライベートまたはガードされた情報を除去するための簡易かつ効果的な方法(Spectral Attribute removaL; SAL)について述べる。 本手法は行列分解を用いて,最大共分散よりもガード情報との共分散を小さくして,入力表現を方向へ投影する。 まず,線形情報除去から始まり,カーネルを用いた非線形情報除去にアルゴリズムを一般化する。 本実験は,従来の作業に比べてガード情報を取り除いた後,本アルゴリズムが主タスク性能を向上することを示した。 さらに,これらの属性に関する情報を削除するためには,比較的少ない量の保護属性データが必要であることを実証し,機密性の高いデータへの露出を低減し,低リソースシナリオに適していることを示した。 コードはhttps://github.com/jasonshaoshun/salで入手できる。

We describe a simple and effective method (Spectral Attribute removaL; SAL) to remove private or guarded information from neural representations. Our method uses matrix decomposition to project the input representations into directions with reduced covariance with the guarded information rather than maximal covariance as factorization methods normally use. We begin with linear information removal and proceed to generalize our algorithm to the case of nonlinear information removal using kernels. Our experiments demonstrate that our algorithm retains better main task performance after removing the guarded information compared to previous work. In addition, our experiments demonstrate that we need a relatively small amount of guarded attribute data to remove information about these attributes, which lowers the exposure to sensitive data and is more suitable for low-resource scenarios. Code is available at https://github.com/jasonshaoshun/SAL.
翻訳日:2023-04-21 17:45:35 公開日:2023-04-20
# 実および想像的磁場を持つ非エルミートXY系の基底状態と熱的絡み合い

Ground-state and thermal entanglements in a non-Hermitian XY system with real and imaginary magnetic fields ( http://arxiv.org/abs/2203.05371v2 )

ライセンス: Link先を確認
Yue Li, Pan-Pan Zhang, Li-Zhen Hu, Yu-Liang Xu and Xiang-Mu Kong(参考訳) 本稿では,非エルミートスピン-1/2XYモデルについて,交互磁場,虚磁場,横磁場の存在下で検討する。 二サイトスピン系では、エネルギースペクトルと位相図を正確に解き、コンカレンスの概念を用いて基底状態と熱的絡み合いを計算する。 虚磁場 {\eta} にのみ依存する固有状態の2つの部位の収束は常に PT 対称性の領域の1つに等しいが、PT 対称性の破れ領域では {\eta} と減少する。 特に、同帰は例外点における非解析的挙動を示し、同帰がこの非エルミート系における相転移を特徴付けることができることを示唆する生体直交基底の場合も同様である。 興味深いのは、系が等方性であるときの熱的絡み合いを弱め、系がイジングモデルとなるときの絡み合いを強化することである。 1次元スピン鎖では、2スピンクラスター平均場近似を用いて磁化と絡み合いを更に研究する。 その結果,これらの変動は磁場と逆の傾向を示した。 さらに、PT対称性領域におけるいくつかの異方性パラメータの1次量子相転移が存在し、量子相転移点において絡み合いが突然変化する。

In this manuscript, we study the non-Hermitian spin-1/2 XY model in the presence of the alternating, imaginary and transverse magnetic fields. For the two-site spin system, we solve exactly the energy spectrum and phase diagram, also calculate the ground-state and thermal entanglements by using the concept of the concurrence. It is found that the two-site concurrence in the eigenstate which only depends on the imaginary magnetic field {\eta} is always equal to one in the region of PT symmetry, while it decreases with {\eta} in the PT-symmetric broken region. Especially, the concurrence shows the non-analytic behavior at the exceptional point, and the same is true in the case of the biorthogonal basis, which indicates that the concurrence can characterize the phase transition in this non-Hermitian system. The interesting thing is that {\eta} weakens the thermal entanglement when the system is isotropic and enhances the entanglement when the system becomes the Ising model. For the one-dimensional spin chain, the magnetization and entanglement are further studied by using the two-spin cluster mean-field approximation. The results show that their variations have opposite trends with the magnetic fields. Moreover, the system exists the first-order quantum phase transitions for some anisotropic parameters in the PT-symmetry region, and the entanglement changes suddenly at the quantum phase transition point.
翻訳日:2023-04-21 17:45:22 公開日:2023-04-20
# 磁性材料のスピン依存型グラフニューラルネットワークポテンシャル

Spin-Dependent Graph Neural Network Potential for Magnetic Materials ( http://arxiv.org/abs/2203.02853v2 )

ライセンス: Link先を確認
Hongyu Yu, Yang Zhong, Liangliang Hong, Changsong Xu, Wei Ren, Xingao Gong, Hongjun Xiang(参考訳) 機械学習の原子間ポテンシャルの開発は、分子や結晶のシミュレーションの精度に大きく貢献している。 しかし、磁気モーメントと構造自由度の両方を考慮した磁気系の原子間ポテンシャルの生成は依然として課題である。 この研究はスピン依存型原子間ポテンシャルアプローチであるSpinGNNを導入し、磁気システムを記述するためにグラフニューラルネットワーク(GNN)を使用している。 SpinGNNは、Heisenberg edge GNN (HEGNN) と spin-distance edge GNN (SEGNN) の2種類のエッジGNNで構成されている。 HEGNNはハイゼンベルク型スピン格子相互作用を捉え、SEGNNは多体および高次スピン格子結合を正確にモデル化する。 spingnnの有効性は、高次スピンハミルトニアンと2つの複素スピン格子ハミルトニアンを高い精度で適合させることで示される。 さらにbifeo3の微妙なスピン格子カップリングをモデル化し、反強磁性基底状態、磁気相転移、ドメインウォールエネルギーランドスケープを高精度に予測し、大規模スピン格子ダイナミクスシミュレーションを行う。 本研究は、磁気システムに対するグラフニューラルネットワークのポテンシャルの範囲を広げ、そのようなシステムの大規模スピン格子動的シミュレーションの基盤となる。

The development of machine learning interatomic potentials has immensely contributed to the accuracy of simulations of molecules and crystals. However, creating interatomic potentials for magnetic systems that account for both magnetic moments and structural degrees of freedom remains a challenge. This work introduces SpinGNN, a spin-dependent interatomic potential approach that employs the graph neural network (GNN) to describe magnetic systems. SpinGNN consists of two types of edge GNNs: Heisenberg edge GNN (HEGNN) and spin-distance edge GNN (SEGNN). HEGNN is tailored to capture Heisenberg-type spin-lattice interactions, while SEGNN accurately models multi-body and high-order spin-lattice coupling. The effectiveness of SpinGNN is demonstrated by its exceptional precision in fitting a high-order spin Hamiltonian and two complex spin-lattice Hamiltonians with great precision. Furthermore, it successfully models the subtle spin-lattice coupling in BiFeO3 and performs large-scale spin-lattice dynamics simulations, predicting its antiferromagnetic ground state, magnetic phase transition, and domain wall energy landscape with high accuracy. Our study broadens the scope of graph neural network potentials to magnetic systems, serving as a foundation for carrying out large-scale spin-lattice dynamic simulations of such systems.
翻訳日:2023-04-21 17:44:58 公開日:2023-04-20
# 量子正規化最小二乗

Quantum Regularized Least Squares ( http://arxiv.org/abs/2206.13143v3 )

ライセンス: Link先を確認
Shantanav Chakraborty, Aditya Morolia, Anurudh Peduri(参考訳) 線形回帰は線形モデルに適合する広く使われている手法であり、機械学習や統計学など様々な分野に広く応用されている。 しかし、現実世界のほとんどのシナリオでは、線形回帰問題はしばしば不備を課されるか、根底にあるモデルは過度な適合に悩まされ、誤った解や自明な解につながる。 これはしばしば正規化として知られる追加の制約を加えることで対処される。 本稿では,ブロック符号化と量子特異値変換(QSVT)の枠組みを用いて,一般の$\ell_2$-regularizationを用いて量子最小二乗に対する最初の量子アルゴリズムを設計する。 これらは、量子常用最小二乗の正規化バージョン、量子重み付き最小二乗、および量子一般化最小二乗を含む。 我々の量子アルゴリズムは、量子リッジ回帰(条件数の多項的改善と精度の指数関数的改善)の先行結果により大幅に改善する。 この目的のために、基底行列の近似ブロック符号化を入力とし、様々な線形代数演算にロバストQSVTアルゴリズムを用いる。 特に, qsvtを用いた行列反転のための可変時間量子アルゴリズムを開発し, ガッピング位相推定の代わりに量子固有値識別をサブルーチンとして用いる。 これにより、前の結果よりもはるかに少ないアンシラ量子ビットが要求される。 ブロックエンコーディングフレームワークの汎用性により、このアルゴリズムは様々な入力モデルに適用でき、標準(非正規化)量子最小二乗法における先行結果の改善および一般化版と見なすことができる。

Linear regression is a widely used technique to fit linear models and finds widespread applications across different areas such as machine learning and statistics. In most real-world scenarios, however, linear regression problems are often ill-posed or the underlying model suffers from overfitting, leading to erroneous or trivial solutions. This is often dealt with by adding extra constraints, known as regularization. In this paper, we use the frameworks of block-encoding and quantum singular value transformation (QSVT) to design the first quantum algorithms for quantum least squares with general $\ell_2$-regularization. These include regularized versions of quantum ordinary least squares, quantum weighted least squares, and quantum generalized least squares. Our quantum algorithms substantially improve upon prior results on quantum ridge regression (polynomial improvement in the condition number and an exponential improvement in accuracy), which is a particular case of our result. To this end, we assume approximate block-encodings of the underlying matrices as input and use robust QSVT algorithms for various linear algebra operations. In particular, we develop a variable-time quantum algorithm for matrix inversion using QSVT, where we use quantum eigenvalue discrimination as a subroutine instead of gapped phase estimation. This ensures that substantially fewer ancilla qubits are required for this procedure than prior results. Owing to the generality of the block-encoding framework, our algorithms are applicable to a variety of input models and can also be seen as improved and generalized versions of prior results on standard (non-regularized) quantum least squares algorithms.
翻訳日:2023-04-21 17:38:03 公開日:2023-04-20
# 深層強化学習エージェントの探索に基づくテスト手法

A Search-Based Testing Approach for Deep Reinforcement Learning Agents ( http://arxiv.org/abs/2206.07813v3 )

ライセンス: Link先を確認
Amirhossein Zolfagharian, Manel Abdellatif, Lionel Briand, Mojtaba Bagherzadeh and Ramesh S(参考訳) 深層強化学習(drl)アルゴリズムは、自動運転やロボティクスといったさまざまな意思決定問題を解決するために、過去10年間にますます使われてきた。 しかし、これらのアルゴリズムは、しばしば誤った振る舞いを示し、潜在的に重大なエラーにつながる可能性があるため、安全クリティカルな環境にデプロイする場合、大きな課題に直面している。 DRLエージェントの安全性を評価する1つの方法は、実行時に重大な障害を引き起こす可能性のある障害を検出するためにそれらをテストすることである。 これにより、DRLポリシーを効果的にテストして、安全要件の正しさと遵守を確実にする方法について疑問が持ち上がる。 ほとんどの既存のDRLエージェントのテストでは、エージェントの状態や動作を妨害する敵攻撃を使用している。 しかし、そのような攻撃は環境の非現実的な状態につながることが多い。 彼らの主な目標は、要求に対するエージェントのポリシーの遵守をテストするのではなく、DRLエージェントの堅牢性をテストすることである。 DRL環境の巨大な状態空間、高いテスト実行コスト、およびDRLアルゴリズムのブラックボックスの性質のため、DRLエージェントの徹底的なテストは不可能である。 本稿では,限られた試験予算内でのエージェントの実行失敗を効果的に検索することにより,DRLエージェントのポリシーをテストするための検索ベース強化学習エージェント(STARLA)を提案する。 機械学習モデルと専用の遺伝的アルゴリズムを用いて、故障エピソードに対する探索を絞り込む。 ベンチマークとして広く使用されている深層q学習エージェントにstarlaを適用し,エージェントの方針に関連する障害を検出することにより,ランダムテストを大幅に上回っていることを示す。 また,DRLエージェントの異常エピソードを特徴付けるルールを検索結果から抽出する方法についても検討した。 このようなルールは、エージェントが失敗する条件を理解し、デプロイメントのリスクを評価するために使用することができる。

Deep Reinforcement Learning (DRL) algorithms have been increasingly employed during the last decade to solve various decision-making problems such as autonomous driving and robotics. However, these algorithms have faced great challenges when deployed in safety-critical environments since they often exhibit erroneous behaviors that can lead to potentially critical errors. One way to assess the safety of DRL agents is to test them to detect possible faults leading to critical failures during their execution. This raises the question of how we can efficiently test DRL policies to ensure their correctness and adherence to safety requirements. Most existing works on testing DRL agents use adversarial attacks that perturb states or actions of the agent. However, such attacks often lead to unrealistic states of the environment. Their main goal is to test the robustness of DRL agents rather than testing the compliance of agents' policies with respect to requirements. Due to the huge state space of DRL environments, the high cost of test execution, and the black-box nature of DRL algorithms, the exhaustive testing of DRL agents is impossible. In this paper, we propose a Search-based Testing Approach of Reinforcement Learning Agents (STARLA) to test the policy of a DRL agent by effectively searching for failing executions of the agent within a limited testing budget. We use machine learning models and a dedicated genetic algorithm to narrow the search towards faulty episodes. We apply STARLA on Deep-Q-Learning agents which are widely used as benchmarks and show that it significantly outperforms Random Testing by detecting more faults related to the agent's policy. We also investigate how to extract rules that characterize faulty episodes of the DRL agent using our search results. Such rules can be used to understand the conditions under which the agent fails and thus assess its deployment risks.
翻訳日:2023-04-21 17:37:35 公開日:2023-04-20
# 非同期SGDが任意遅延下でのミニバッチSGDを上回る

Asynchronous SGD Beats Minibatch SGD Under Arbitrary Delays ( http://arxiv.org/abs/2206.07638v2 )

ライセンス: Link先を確認
Konstantin Mishchenko, Francis Bach, Mathieu Even, Blake Woodworth(参考訳) 非同期確率勾配降下(SGD)の既存の解析は、遅延が大きいと劇的に劣化し、性能が主に遅延に依存するという印象を与える。 それとは対照的に,アルゴリズムの実装に使用する並列デバイス数に依存するため,勾配の遅延によらず,同じ非同期SGDアルゴリズムの保証がはるかに優れていることを示す。 我々の保証は既存の分析より厳格に優れており、非同期SGDは我々が考慮している設定において同期ミニバッチSGDより優れているとも主張する。 本研究では,「仮想イテレート」と遅延適応ステップに基づく新しい帰納法を導入し,凸目的と非凸目的の両方に対する最先端保証を導出する。

The existing analysis of asynchronous stochastic gradient descent (SGD) degrades dramatically when any delay is large, giving the impression that performance depends primarily on the delay. On the contrary, we prove much better guarantees for the same asynchronous SGD algorithm regardless of the delays in the gradients, depending instead just on the number of parallel devices used to implement the algorithm. Our guarantees are strictly better than the existing analyses, and we also argue that asynchronous SGD outperforms synchronous minibatch SGD in the settings we consider. For our analysis, we introduce a novel recursion based on "virtual iterates" and delay-adaptive stepsizes, which allow us to derive state-of-the-art guarantees for both convex and non-convex objectives.
翻訳日:2023-04-21 17:37:06 公開日:2023-04-20
# 微分プライベート合成データを用いた非IID環境におけるフェデレーション学習

Federated Learning in Non-IID Settings Aided by Differentially Private Synthetic Data ( http://arxiv.org/abs/2206.00686v2 )

ライセンス: Link先を確認
Huancheng Chen and Haris Vikalo(参考訳) フェデレートラーニング(FL)は、潜在的に多くのクライアントが機械学習モデルを協調的にトレーニングできるようにする、プライバシプロモーティングフレームワークである。 FLシステムでは、サーバがクライアントのモデル更新を収集・集約することで協調を調整し、クライアントのデータはローカルおよびプライベートのままである。 ローカルデータが不均一である場合 -- 学習したグローバルモデルのパフォーマンスが、クライアント間でデータを同一に分散するシナリオに比べて大幅に低下する可能性がある設定 — において、フェデレート学習の大きな課題が生じる。 本稿では,FedDPMS(Federated Differentially Private Means Sharing)を提案する。FLアルゴリズムでは,クライアントが分散自動エンコーダをデプロイして,信頼されたサーバによって通信される遅延データ表現の差分プライベート手段を用いて,ローカルデータセットを合成する。 このような拡張は、プライバシを損なうことなく、クライアント間のデータ不均一性の影響を改善する。 深層画像分類タスクに関する実験により、FedDPMSは異種データ設定に特化して設計された最先端のFL法よりも優れていることを示した。

Federated learning (FL) is a privacy-promoting framework that enables potentially large number of clients to collaboratively train machine learning models. In a FL system, a server coordinates the collaboration by collecting and aggregating clients' model updates while the clients' data remains local and private. A major challenge in federated learning arises when the local data is heterogeneous -- the setting in which performance of the learned global model may deteriorate significantly compared to the scenario where the data is identically distributed across the clients. In this paper we propose FedDPMS (Federated Differentially Private Means Sharing), an FL algorithm in which clients deploy variational auto-encoders to augment local datasets with data synthesized using differentially private means of latent data representations communicated by a trusted server. Such augmentation ameliorates effects of data heterogeneity across the clients without compromising privacy. Our experiments on deep image classification tasks demonstrate that FedDPMS outperforms competing state-of-the-art FL methods specifically designed for heterogeneous data settings.
翻訳日:2023-04-21 17:36:52 公開日:2023-04-20
# 連続生成ニューラルネットワーク

Continuous Generative Neural Networks ( http://arxiv.org/abs/2205.14627v2 )

ライセンス: Link先を確認
Giovanni S. Alberti, Matteo Santacesaria and Silvia Sciutto(参考訳) 本研究では,連続生成ニューラルネットワーク(CGNN),すなわち連続環境における生成モデル,すなわち,CGNNの出力は無限次元関数空間に属することを示す。 このアーキテクチャはdcganに触発され、1つの完全連結層、いくつかの畳み込み層、非線形活性化関数を持つ。 連続的な$l^2$設定では、各層の空間の寸法はコンパクトに支持されたウェーブレットのマルチレゾリューション解析のスケールに置き換えられる。 本稿では,畳み込みフィルタおよびCGNNが注入可能であることを保証する非線形性について述べる。 この理論は、逆問題への応用を見つけ、CGNNによって生成される多様体に属する未知の(おそらく非線形)無限次元逆問題に対するリプシッツ安定性推定を導出することができる。 信号の劣化を含むいくつかの数値シミュレーションは、このアプローチを実証し、検証する。

In this work, we present and study Continuous Generative Neural Networks (CGNNs), namely, generative models in the continuous setting: the output of a CGNN belongs to an infinite-dimensional function space. The architecture is inspired by DCGAN, with one fully connected layer, several convolutional layers and nonlinear activation functions. In the continuous $L^2$ setting, the dimensions of the spaces of each layer are replaced by the scales of a multiresolution analysis of a compactly supported wavelet. We present conditions on the convolutional filters and on the nonlinearity that guarantee that a CGNN is injective. This theory finds applications to inverse problems, and allows for deriving Lipschitz stability estimates for (possibly nonlinear) infinite-dimensional inverse problems with unknowns belonging to the manifold generated by a CGNN. Several numerical simulations, including signal deblurring, illustrate and validate this approach.
翻訳日:2023-04-21 17:36:34 公開日:2023-04-20
# HoUDINI: 適度に制約されたサドルから逃れる

HOUDINI: Escaping from Moderately Constrained Saddles ( http://arxiv.org/abs/2205.13753v2 )

ライセンス: Link先を確認
Dmitrii Avdiukhin, Grigory Yaroslavtsev(参考訳) 高次元の鞍点から逃れるための最初の多項式時間アルゴリズムを、適度な制約の下で与える。 滑らかな関数 $f \colon \mathbb r^d \to \mathbb r$ への勾配アクセスが与えられると、(ノイズの多い)勾配降下法は、不等式制約の対数数の下で鞍点から逃れることができる。 これは、非制約問題と等式制約問題に類似した結果を示した Ge らによるブレークスルーの主開問題において、最初の有形進行(NP-オークルに依存せず、あるいは特定の制約を考慮せずに定義を変更する)を構成する。 我々の結果は、正規勾配と確率勾配の両方に当てはまる。

We give the first polynomial time algorithms for escaping from high-dimensional saddle points under a moderate number of constraints. Given gradient access to a smooth function $f \colon \mathbb R^d \to \mathbb R$ we show that (noisy) gradient descent methods can escape from saddle points under a logarithmic number of inequality constraints. This constitutes the first tangible progress (without reliance on NP-oracles or altering the definitions to only account for certain constraints) on the main open question of the breakthrough work of Ge et al. who showed an analogous result for unconstrained and equality-constrained problems. Our results hold for both regular and stochastic gradient descent.
翻訳日:2023-04-21 17:36:08 公開日:2023-04-20
# FLEX: CompleXナレッジグラフ推論のための機能論理埋め込みフレームワーク

FLEX: Feature-Logic Embedding Framework for CompleX Knowledge Graph Reasoning ( http://arxiv.org/abs/2205.11039v3 )

ライセンス: Link先を確認
Xueyuan Lin, Haihong E, Gengxian Zhou, Tianyi Hu, Li Ningyuan, Mingzhi Sun, Haoran Luo(参考訳) 知識グラフ推論(KGR)の現在の最高の性能モデルでは、要素を埋め込む幾何学的オブジェクトや確率分布、低次元ベクトル空間に一階論理的(FOL)クエリを導入している。 それらはセンターサイズフレームワーク(ポイント/ボックス/コーン、ベータ/ガウス分布など)として要約できる。 しかし、論理的推論能力は限られている。 中心と大きさが1対1で、複数の中心や大きさを持たないため、様々な特徴に一般化することは困難である。 これらの課題に対処するため、我々は、新しいKGRフレームワークであるFeature-Logic Embedding FrameworkであるFLEXを提案し、これは、TRULYが接続、解離、否定などを含む全てのFOL操作を処理できるだけでなく、様々な機能空間もサポートする最初のKGRフレームワークである。 具体的には、機能論理フレームワークのロジック部分は、すべてのFOL操作を自然にモデル化するベクトル論理に基づいている。 FLEXは、ベンチマークデータセット上で既存の最先端メソッドを著しく上回ることを示す実験である。

Current best performing models for knowledge graph reasoning (KGR) introduce geometry objects or probabilistic distributions to embed entities and first-order logical (FOL) queries into low-dimensional vector spaces. They can be summarized as a center-size framework (point/box/cone, Beta/Gaussian distribution, etc.). However, they have limited logical reasoning ability. And it is difficult to generalize to various features, because the center and size are one-to-one constrained, unable to have multiple centers or sizes. To address these challenges, we instead propose a novel KGR framework named Feature-Logic Embedding framework, FLEX, which is the first KGR framework that can not only TRULY handle all FOL operations including conjunction, disjunction, negation and so on, but also support various feature spaces. Specifically, the logic part of feature-logic framework is based on vector logic, which naturally models all FOL operations. Experiments demonstrate that FLEX significantly outperforms existing state-of-the-art methods on benchmark datasets.
翻訳日:2023-04-21 17:35:54 公開日:2023-04-20
# 古典的影とデランドマイゼーションによる変分量子シミュレーションの最適化

Measurement optimization of variational quantum simulation by classical shadow and derandomization ( http://arxiv.org/abs/2208.13934v3 )

ライセンス: Link先を確認
Kouhei Nakaji, Suguru Endo, Yuichiro Matsuzaki, and Hideaki Hakoshima(参考訳) 大規模量子システムのシミュレーションは、量子コンピューティングの究極の目標である。 変動量子シミュレーション(VQS)は、計算負荷を古典コンピュータと量子コンピュータの両方に分散することにより、短期デバイスにおける目標を達成するためのツールを提供する。 しかし、量子システムのサイズが大きくなるにつれて、VQSの実行はますます困難になる。 例えば、化学ハミルトニアンによる量子シミュレーションにおいて、量子ビット数の4番目のパワーで測定の数が増加する傾向にある。 この研究は、最近提案された古典的な影やデランドマイゼーションのような影に基づく戦略により、VQSにおける測定回数を劇的に減少させることを目的としている。 従来の文献では、変分量子最適化(VQO)におけるシャドーベース戦略の最適化に成功していたが、観測可能量の測定におけるVQOとVQSのギャップのため、VQSへの適用方法は不明であった。 本稿では,VQSにおける観測値の測定方法を変えることでギャップを埋めるとともに,シャドーベース戦略によるVQSの測定を最適化するアルゴリズムを提案する。 理論解析により,vqsにおけるアルゴリズムの利用の利点が明らかにされるだけでなく,vqoにおけるシャドウベースの戦略を理論的にサポートする。 さらに,我々の数値実験は,量子化学システムを用いたアルゴリズムの有効性を示した。

Simulating large quantum systems is the ultimate goal of quantum computing. Variational quantum simulation (VQS) gives us a tool to achieve the goal in near-term devices by distributing the computation load to both classical and quantum computers. However, as the size of the quantum system becomes large, the execution of VQS becomes more and more challenging. One of the most severe challenges is the drastic increase in the number of measurements; for example, the number of measurements tends to increase by the fourth power of the number of qubits in a quantum simulation with a chemical Hamiltonian. This work aims to dramatically decrease the number of measurements in VQS by recently proposed shadow-based strategies such as classical shadow and derandomization. Even though previous literature shows that shadow-based strategies successfully optimize measurements in the variational quantum optimization (VQO), how to apply them to VQS was unclear due to the gap between VQO and VQS in measuring observables. In this paper, we bridge the gap by changing the way of measuring observables in VQS and propose an algorithm to optimize measurements in VQS by shadow-based strategies. Our theoretical analysis not only reveals the advantage of using our algorithm in VQS but theoretically supports using shadow-based strategies in VQO, whose advantage has only been given numerically. Additionally, our numerical experiment shows the validity of using our algorithm with a quantum chemical system.
翻訳日:2023-04-21 17:30:30 公開日:2023-04-20
# 衛星画像を用いた自律走行車両のクロスビュー位置推定

Satellite Image Based Cross-view Localization for Autonomous Vehicle ( http://arxiv.org/abs/2207.13506v3 )

ライセンス: Link先を確認
Shan Wang, Yanhao Zhang, Ankit Vora, Akhil Perincherry, and Hongdong Li(参考訳) 既存の自動運転車の空間的ローカライゼーション技術は、主に3D-HDマップを使用しており、しばしば調査グレードの3Dマッピング車両を使って構築されている。 本稿では,市販の高精細衛星画像を利用可能マップとして利用することにより,より安価で実用的なローカライズ手法を提供するとともに,車両の視認精度を最大化できることを示す。 衛星画像のクロスビューローカライゼーションへの利用は確立された概念であるが,従来の手法は画像検索に重点を置いている。 本稿では,従来の画像検索手法から外れた,クロスビューなローカライゼーション手法を提案する。 具体的には,(1)測度3次元点を利用して地上と頭上界の幾何学的ギャップを埋めるGAFE(Geometric-align Feature Extractor),(2)姿勢認識特徴抽出を促進するために三重項損失を採用するPAB(Pose Aware Branch),(3)Levanz-Marquardt(LM)アルゴリズムを用いた再帰的ポースリファインブランチ(Recursive Pose Refine Branch)を用いて,実際の車両の姿勢を反復的に調整するRPRB(Recursive Pose Refine Branch)を開発した。 本手法はKITTIとFord Multi-AVの季節データセットを地上ビューとして,Google Mapsを衛星ビューとして検証した。 その結果,中央値の空間的誤差と角的誤差をそれぞれ1$mと1^\circ$で有意な相関性を示した。

Existing spatial localization techniques for autonomous vehicles mostly use a pre-built 3D-HD map, often constructed using a survey-grade 3D mapping vehicle, which is not only expensive but also laborious. This paper shows that by using an off-the-shelf high-definition satellite image as a ready-to-use map, we are able to achieve cross-view vehicle localization up to a satisfactory accuracy, providing a cheaper and more practical way for localization. While the utilization of satellite imagery for cross-view localization is an established concept, the conventional methodology focuses primarily on image retrieval. This paper introduces a novel approach to cross-view localization that departs from the conventional image retrieval method. Specifically, our method develops (1) a Geometric-align Feature Extractor (GaFE) that leverages measured 3D points to bridge the geometric gap between ground and overhead views, (2) a Pose Aware Branch (PAB) adopting a triplet loss to encourage pose-aware feature extraction, and (3) a Recursive Pose Refine Branch (RPRB) using the Levenberg-Marquardt (LM) algorithm to align the initial pose towards the true vehicle pose iteratively. Our method is validated on KITTI and Ford Multi-AV Seasonal datasets as ground view and Google Maps as the satellite view. The results demonstrate the superiority of our method in cross-view localization with median spatial and angular errors within $1$ meter and $1^\circ$, respectively.
翻訳日:2023-04-21 17:30:06 公開日:2023-04-20
# hybmt:高速テストベクトル生成のためのハイブリッドメタ予測型mlアルゴリズム

HybMT: Hybrid Meta-Predictor based ML Algorithm for Fast Test Vector Generation ( http://arxiv.org/abs/2207.11312v2 )

ライセンス: Link先を確認
Shruti Pandey, Jayadeva, Smruti R. Sarangi(参考訳) 集積回路(IC)のテストは非常に計算集約的なプロセスである。 今日の複雑な設計では、多くの検出困難な障害に対するテストは通常、決定論的テスト生成(DTG)アルゴリズムを使って生成される。 機械学習(ML)は、テストカバレッジを増やし、全体のテスト時間を短縮するためにますます使われています。 このような提案は、テスト品質を損なうことなく、古典的なPath Oriented Decision Making (PODEM)アルゴリズムにおける無駄な作業を減らす。 PODEMの亜種では、さらなる進歩はできないため、バックトラックが必要なことが何度もある。 したがって、アルゴリズムの実行において、様々な点で最良の戦略を予測する必要がある。 トップレベルはメタ予測子であり、下位レベルにおいて複数の予測子のうちの1つを選択する。 我々は、回路とターゲットネットを与えられた最良の予測器を選択する。 上位レベルのメタ予測器の精度は99\%であった。 これにより、最先端のMLベースや従来のソリューションと比較して、バックトラック決定の数が大幅に削減される。 最先端の商用ATPGツールと比較して、我々の2レベル予測器(HybMT)はEPFLベンチマーク回路の故障カバレッジを損なうことなく、CPU時間で32.6\%の全体的な減少を示す。 HybMT は、既存の最先端(ベースライン)よりも 24.4\% と 95.5\% のスピードアップを示し、それぞれ ISCAS'85 と EPFL のベンチマーク回路のフォールトカバレッジを同等またはより良いものにしている。

Testing an integrated circuit (IC) is a highly compute-intensive process. For today's complex designs, tests for many hard-to-detect faults are typically generated using deterministic test generation (DTG) algorithms. Machine Learning (ML) is being increasingly used to increase the test coverage and decrease the overall testing time. Such proposals primarily reduce the wasted work in the classic Path Oriented Decision Making (PODEM) algorithm without compromising on the test quality. With variants of PODEM, many times there is a need to backtrack because further progress cannot be made. There is thus a need to predict the best strategy at different points in the execution of the algorithm. The novel contribution of this paper is a 2-level predictor: the top level is a meta predictor that chooses one of several predictors at the lower level. We choose the best predictor given a circuit and a target net. The accuracy of the top-level meta predictor was found to be 99\%. This leads to a significantly reduced number of backtracking decisions compared to state-of-the-art ML-based and conventional solutions. As compared to a popular, state-of-the-art commercial ATPG tool, our 2-level predictor (HybMT) shows an overall reduction of 32.6\% in the CPU time without compromising on the fault coverage for the EPFL benchmark circuits. HybMT also shows a speedup of 24.4\% and 95.5\% over the existing state-of-the-art (the baseline) while obtaining equal or better fault coverage for the ISCAS'85 and EPFL benchmark circuits, respectively.
翻訳日:2023-04-21 17:29:35 公開日:2023-04-20
# 時空間的特徴相互作用による時空間映像の高分解能化

Enhancing Space-time Video Super-resolution via Spatial-temporal Feature Interaction ( http://arxiv.org/abs/2207.08960v3 )

ライセンス: Link先を確認
Zijie Yue, Miaojing Shi(参考訳) 時空ビデオ超解像(STVSR)の目標は、フレームレート(時間分解能とも呼ばれる)と所定のビデオの空間分解能の両方を増加させることである。 最近のアプローチでは、エンドツーエンドのディープニューラルネットワークを用いてSTVSRを解く。 一般的な解決策は、まずビデオのフレームレートを向上し、次に異なるフレーム特徴間の特徴改善を行い、最後にこれらの特徴の空間分解能を高めることである。 このプロセスでは,異なるフレームの特徴間の時間的相関を慎重に活用する。 異なる(空間)解像度の特徴間の空間的相関は、非常に重要であるにもかかわらず強調されない。 本稿では,異なるフレームの特徴と空間分解能の空間的相関を利用して,STVSRを強化する空間的時間的特徴相互作用ネットワークを提案する。 具体的には、空間時間フレーム補間モジュールを導入し、低解像度及び高解像度の中間フレーム特徴を同時に対話的に補間する。 空間的時間的局所分解モジュールと大域的精製モジュールはその後それぞれ展開され、異なる特徴間の空間的時間的相関を利用して精製を行う。 最後に、再構成フレーム間の動き継続性を高めるために、新しい動き整合損失を用いる。 我々は,Vid4,Vimeo-90K,Adobe240の3つの標準ベンチマークを用いて実験を行い,本手法が技術手法の精度をかなり向上することを示した。 私たちのコードはhttps://github.com/yuezijie/STINet-Space-time-Video-Super- resolutionで公開されます。

The target of space-time video super-resolution (STVSR) is to increase both the frame rate (also referred to as the temporal resolution) and the spatial resolution of a given video. Recent approaches solve STVSR using end-to-end deep neural networks. A popular solution is to first increase the frame rate of the video; then perform feature refinement among different frame features; and last increase the spatial resolutions of these features. The temporal correlation among features of different frames is carefully exploited in this process. The spatial correlation among features of different (spatial) resolutions, despite being also very important, is however not emphasized. In this paper, we propose a spatial-temporal feature interaction network to enhance STVSR by exploiting both spatial and temporal correlations among features of different frames and spatial resolutions. Specifically, the spatial-temporal frame interpolation module is introduced to interpolate low- and high-resolution intermediate frame features simultaneously and interactively. The spatial-temporal local and global refinement modules are respectively deployed afterwards to exploit the spatial-temporal correlation among different features for their refinement. Finally, a novel motion consistency loss is employed to enhance the motion continuity among reconstructed frames. We conduct experiments on three standard benchmarks, Vid4, Vimeo-90K and Adobe240, and the results demonstrate that our method improves the state of the art methods by a considerable margin. Our codes will be available at https://github.com/yuezijie/STINet-Space-time-Video-Super-resolution.
翻訳日:2023-04-21 17:29:11 公開日:2023-04-20
# 実処理インメモリシステムにおける機械学習学習の実験的評価

An Experimental Evaluation of Machine Learning Training on a Real Processing-in-Memory System ( http://arxiv.org/abs/2207.07886v2 )

ライセンス: Link先を確認
Juan G\'omez-Luna, Yuxin Guo, Sylvan Brocard, Julien Legriel, Remy Cimadomo, Geraldo F. Oliveira, Gagandeep Singh, Onur Mutlu(参考訳) 機械学習(ML)アルゴリズムのトレーニングは計算集約的なプロセスであり、大規模なトレーニングデータセットに繰り返しアクセスするため、メモリバウンドが頻繁に発生する。 その結果、プロセッサ中心のシステム(CPU、GPUなど)は、大量のエネルギーと実行サイクルを消費するメモリユニットと処理ユニットの間のコストのかかるデータ移動に悩まされる。 メモリ中心のコンピューティングシステム、すなわち処理・イン・メモリ(pim)機能により、このデータ移動ボトルネックを軽減することができる。 我々のゴールは、MLトレーニングを加速する現代の汎用PIMアーキテクチャの可能性を理解することである。 そのため,(1) 現実の汎用PIMアーキテクチャ上での代表的なMLアルゴリズム(線形回帰,ロジスティック回帰,決定木,K平均クラスタリング)を実装し,(2) 精度,性能,スケーリングの点でそれらを厳格に評価,特徴付けし,(3) 対応するCPUやGPUの実装と比較する。 2500以上のPIMコアを持つ実メモリ中心型コンピューティングシステムに対する評価は、PIMハードウェアで必要な操作やデータタイプをネイティブにサポートする場合、汎用PIMアーキテクチャがメモリバウンドMLワークロードを大幅に高速化できることを示している。 例えば、私たちのPIMによる決定ツリーの実装は、8コアのIntel Xeonの最先端CPUバージョンよりも27\times$高速で、NVIDIA A100の最先端GPUバージョンより1.34\times$高速です。 PIM上でのK-Meansクラスタリングは、それぞれ最先端のCPUバージョンとGPUバージョンよりも2.8\times$と3.2\times$です。 私たちの知る限り、実際のPIMアーキテクチャ上でMLトレーニングを評価するのは、私たちの仕事が初めてです。 我々は、MLワークロードのユーザ、PIMアーキテクチャのプログラマ、将来のメモリ中心コンピューティングシステムのハードウェアデザイナやアーキテクトに刺激を与える、重要な観察、テイクアウト、レコメンデーションで締めくくります。

Training machine learning (ML) algorithms is a computationally intensive process, which is frequently memory-bound due to repeatedly accessing large training datasets. As a result, processor-centric systems (e.g., CPU, GPU) suffer from costly data movement between memory units and processing units, which consumes large amounts of energy and execution cycles. Memory-centric computing systems, i.e., with processing-in-memory (PIM) capabilities, can alleviate this data movement bottleneck. Our goal is to understand the potential of modern general-purpose PIM architectures to accelerate ML training. To do so, we (1) implement several representative classic ML algorithms (namely, linear regression, logistic regression, decision tree, K-Means clustering) on a real-world general-purpose PIM architecture, (2) rigorously evaluate and characterize them in terms of accuracy, performance and scaling, and (3) compare to their counterpart implementations on CPU and GPU. Our evaluation on a real memory-centric computing system with more than 2500 PIM cores shows that general-purpose PIM architectures can greatly accelerate memory-bound ML workloads, when the necessary operations and datatypes are natively supported by PIM hardware. For example, our PIM implementation of decision tree is $27\times$ faster than a state-of-the-art CPU version on an 8-core Intel Xeon, and $1.34\times$ faster than a state-of-the-art GPU version on an NVIDIA A100. Our K-Means clustering on PIM is $2.8\times$ and $3.2\times$ than state-of-the-art CPU and GPU versions, respectively. To our knowledge, our work is the first one to evaluate ML training on a real-world PIM architecture. We conclude with key observations, takeaways, and recommendations that can inspire users of ML workloads, programmers of PIM architectures, and hardware designers & architects of future memory-centric computing systems.
翻訳日:2023-04-21 17:28:46 公開日:2023-04-20
# COVID-19患者からのバイタルサイン軌跡の異常検出

Outlier detection of vital sign trajectories from COVID-19 patients ( http://arxiv.org/abs/2207.07572v2 )

ライセンス: Link先を確認
Sara Summerton, Ann Tivey, Rohan Shotton, Gavin Brown, Oliver C. Redfern, Rachel Oakley, John Radford, and David C. Wong(参考訳) 本研究は, 健康の悪化に対する認識を改善することを目的とした, 異常なバイタルサインの傾向を識別するための新しいトラジェクトリ比較アルゴリズムを提案する。 リモートで患者を監視するための、連続的なウェアラブルバイタルサインセンサーへの関心が高まっている。 これらのモニターは、通常警告システムと結合され、バイタルサインの測定が予め定義された正常範囲外に落ちるとトリガーされる。 心拍数の増加などのバイタルサインの傾向は、しばしば健康の悪化を示すが、警告システムに組み込まれることは稀である。 時系列軌跡を比較するために,動的時間ワープ距離に基づく尺度を提案する。 我々は各多変量符号時系列を180分非重複エポックに分割した。 そして全てのエポックの間の距離を計算する。 各エポックは、他の全てのエポックと平均的なペアワイズ距離(平均リンク距離)で特徴づけられ、近傍エポックでクラスターが形成される。 本手法は, 類似の軌道を持つ異常エポックやクラスターエポックを同定できることを示す。 次に, 新型コロナウイルス感染拡大後, 退院した8人の患者から得られた, 実世界のバイタルサインのデータセットに本手法を適用した。 異常な生命徴候と異常なエポックがどのように一致しているかを示し,その後入院した患者を同定した。

In this work, we present a novel trajectory comparison algorithm to identify abnormal vital sign trends, with the aim of improving recognition of deteriorating health. There is growing interest in continuous wearable vital sign sensors for monitoring patients remotely at home. These monitors are usually coupled to an alerting system, which is triggered when vital sign measurements fall outside a predefined normal range. Trends in vital signs, such as increasing heart rate, are often indicative of deteriorating health, but are rarely incorporated into alerting systems. We introduce a dynamic time warp distance-based measure to compare time series trajectories. We split each multi-variable sign time series into 180 minute, non-overlapping epochs. We then calculate the distance between all pairs of epochs. Each epoch is characterized by its mean pairwise distance (average link distance) to all other epochs, with clusters forming with nearby epochs. We demonstrate in synthetically generated data that this method can identify abnormal epochs and cluster epochs with similar trajectories. We then apply this method to a real-world data set of vital signs from 8 patients who had recently been discharged from hospital after contracting COVID-19. We show how outlier epochs correspond well with the abnormal vital signs and identify patients who were subsequently readmitted to hospital.
翻訳日:2023-04-21 17:28:07 公開日:2023-04-20
# グラフに基づく分子表現学習

Graph-based Molecular Representation Learning ( http://arxiv.org/abs/2207.04869v2 )

ライセンス: Link先を確認
Zhichun Guo, Kehan Guo, Bozhao Nan, Yijun Tian, Roshni G. Iyer, Yihong Ma, Olaf Wiest, Xiangliang Zhang, Wei Wang, Chuxu Zhang, Nitesh V. Chawla(参考訳) 分子表現学習(mrl)は、機械学習と化学科学の間のつながりを構築するための重要なステップである。 特に、分子を分子構造と特徴を保存する数値ベクトルとして符号化し、その上で下流のタスク(例えば、特性予測)を実行することができる。 近年、MRLは特に深層分子グラフ学習に基づく手法において大きな進歩を遂げている。 本研究では,これらのグラフに基づく分子表現手法,特に化学ドメイン知識を組み込んだ手法を体系的に検討する。 具体的には,まず2次元および3次元分子グラフの特徴を紹介する。 次に,MRL法を入力に基づいて3つのグループにまとめ,分類する。 さらに,MRLが支持する典型的な化学応用について述べる。 この高速開発領域の研究を容易にするために、ベンチマークや一般的なデータセットも論文にリストアップしています。 最後に,今後の研究方向性について考察する。

Molecular representation learning (MRL) is a key step to build the connection between machine learning and chemical science. In particular, it encodes molecules as numerical vectors preserving the molecular structures and features, on top of which the downstream tasks (e.g., property prediction) can be performed. Recently, MRL has achieved considerable progress, especially in methods based on deep molecular graph learning. In this survey, we systematically review these graph-based molecular representation techniques, especially the methods incorporating chemical domain knowledge. Specifically, we first introduce the features of 2D and 3D molecular graphs. Then we summarize and categorize MRL methods into three groups based on their input. Furthermore, we discuss some typical chemical applications supported by MRL. To facilitate studies in this fast-developing area, we also list the benchmarks and commonly used datasets in the paper. Finally, we share our thoughts on future research directions.
翻訳日:2023-04-21 17:27:46 公開日:2023-04-20
# 決定論的単一原子アレイと微細光学キャビティとの強結合の実現

Realization of strong coupling between deterministic single-atom arrays and a high-finesse miniature optical cavity ( http://arxiv.org/abs/2207.04371v4 )

ライセンス: Link先を確認
Yanxin Liu, Zhihui Wang, Pengfei Yang, Qinxia Wang, Qing Fan, Shijun Guan, Gang Li, Pengfei Zhang, and Tiancai Zhang(参考訳) 1次元(1次元)単一原子配列と高精細小空洞との強い結合を実験的に実証した。 原子配列は、次元が1$\times$11の1D光ツイーザアレイに単一原子をロードすることによって得られる。 そのため、決定論的原子数を求め、CCDカメラに原子アレイをリアルタイムに撮像して原子数を決定する。 高粒度ファブリ-ペロキャビティにおける原子配列の位置と間隔を正確に制御することにより、アレイ内の全ての原子は同時にキャビティに強く結合される。 真空ラビ分裂スペクトルは、決定論的原子番号を1から8に判別し、原子番号$N$に対する結合強度の集合的増強に対する$\sqrt{N}$$の依存性を単原子レベルで検証する。

We experimentally demonstrate strong coupling between a one-dimensional (1D) single-atom array and a high-finesse miniature cavity. The atom array is obtained by loading single atoms into a 1D optical tweezer array with dimensions of 1$\times$11. Therefore, a deterministic number of atoms is obtained, and the atom number is determined by imaging the atom array on a CCD camera in real time. By precisely controlling the position and spacing of the atom array in the high finesse Fabry--Perot cavity, all the atoms in the array are strongly coupled to the cavity simultaneously. The vacuum Rabi splitting spectra are discriminated for deterministic atom numbers from 1 to 8, and the $\sqrt{N}$ dependence of the collective enhancement of the coupling strength on atom number $N$ is validated at the single-atom level.
翻訳日:2023-04-21 17:27:34 公開日:2023-04-20
# マルチエージェント強化学習のためのインタラクションパターン分割

Interaction Pattern Disentangling for Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2207.03902v3 )

ライセンス: Link先を確認
Shunyu Liu, Jie Song, Yihe Zhou, Na Yu, Kaixuan Chen, Zunlei Feng, Mingli Song(参考訳) ディープ・コラボレーティブなマルチエージェント強化学習は、様々な複雑な制御タスクにおいて顕著な成功を収めた。 しかし、近年のマルチエージェント学習の進歩は、主に価値の分解に焦点を合わせ、エンティティ間の相互作用はいまだに絡み合っている。 本稿では,分散実行のためのエージェント・ワイズ・バリュー・関数に結合値関数だけでなく,エンティティのサブグループ内の基礎となるインタラクションパターンを表す相互作用プロトタイプへのエンティティインタラクションを分離する,新しいインタラクション・パターン・ディスタングリング(opt)手法を提案する。 OPTは無関係な実体間のノイズ相互作用のフィルタリングを容易にし、一般化可能性と解釈可能性を大幅に改善する。 具体的には、OPTは、発見された相互作用プロトタイプ間のスパースと多様性を促進するためのスパース不一致機構を導入する。 そして、モデルはこれらのプロトタイプを学習可能な重み付き集約器によってコンパクトな相互作用パターンに選択的に再構成する。 部分観測可能性によるトレーニング不安定性の問題を軽減するため,各エージェントの集約重みと履歴行動の相互情報の最大化を提案する。 単一タスクとマルチタスクのベンチマーク実験により,提案手法は最先端のベンチマークよりも優れた結果が得られることを示した。 私たちのコードはhttps://github.com/liushunyu/optで利用可能です。

Deep cooperative multi-agent reinforcement learning has demonstrated its remarkable success over a wide spectrum of complex control tasks. However, recent advances in multi-agent learning mainly focus on value decomposition while leaving entity interactions still intertwined, which easily leads to over-fitting on noisy interactions between entities. In this work, we introduce a novel interactiOn Pattern disenTangling (OPT) method, to disentangle not only the joint value function into agent-wise value functions for decentralized execution, but also the entity interactions into interaction prototypes, each of which represents an underlying interaction pattern within a subgroup of the entities. OPT facilitates filtering the noisy interactions between irrelevant entities and thus significantly improves generalizability as well as interpretability. Specifically, OPT introduces a sparse disagreement mechanism to encourage sparsity and diversity among discovered interaction prototypes. Then the model selectively restructures these prototypes into a compact interaction pattern by an aggregator with learnable weights. To alleviate the training instability issue caused by partial observability, we propose to maximize the mutual information between the aggregation weights and the history behaviors of each agent. Experiments on both single-task and multi-task benchmarks demonstrate that the proposed method yields results superior to the state-of-the-art counterparts. Our code is available at https://github.com/liushunyu/OPT.
翻訳日:2023-04-21 17:27:17 公開日:2023-04-20
# 認証削除による暗号

Cryptography with Certified Deletion ( http://arxiv.org/abs/2207.01754v5 )

ライセンス: Link先を確認
James Bartusek and Dakshita Khurana(参考訳) 我々は,暗号プリミティブの配列を認証された削除で生成する新しい統一フレームワークを提案する。 これらのプリミティブにより、量子暗号文を持つ当事者は、暗号化された平文が情報理論上削除された古典的証明を生成し、無制限の計算資源が与えられたとしても復元できない。 - x \in {public-key, attribute-based, full-homomorphic, witness, timed-release} では、コンパイラは任意の (ポスト量子) x 暗号化を x 暗号化に変換する。 さらに,証明された永遠隠蔽を伴う統計的拘束コミットメントに対する統計的拘束コミットメントをコンパイルする。 また, 統計的拘束力の仮定として, ゼロ知識が証明されたQMAに対して, 統計的にゼロ知識証明を得る。 また,二者間および多人数間において,不公平な多数派において,永続的なセキュリティが確立されている。 この設定で、すべての当事者に対して永続的なセキュリティを実現することは不可能であることが分かっていますが、永続的なセキュリティ転送(est)を導入します。 これにより、ある当事者(またはある当事者のサブセット)が、プロトコルの実行後に他の参加者のデータを削除する動的かつ確実に情報論的に行うことができる。 我々は,一方向関数や擬似ランダム量子状態に基づいて,統計的に結合したコミットメントを仮定したESTを用いた汎用セキュア計算を構築した。 提案手法は,従来は暗号文によって決定されていたにもかかわらず,有効な削除証明書を出力した後,ビットbが敵の視点から情報理論的に削除されたと主張する新しい証明手法を考案した。 この技術は独立した関心を持つかもしれない。

We propose a new, unifying framework that yields an array of cryptographic primitives with certified deletion. These primitives enable a party in possession of a quantum ciphertext to generate a classical certificate that the encrypted plaintext has been information-theoretically deleted, and cannot be recovered even given unbounded computational resources. - For X \in {public-key, attribute-based, fully-homomorphic, witness, timed-release}, our compiler converts any (post-quantum) X encryption to X encryption with certified deletion. In addition, we compile statistically-binding commitments to statistically-binding commitments with certified everlasting hiding. As a corollary, we also obtain statistically-sound zero-knowledge proofs for QMA with certified everlasting zero-knowledge assuming statistically-binding commitments. - We also obtain a strong form of everlasting security for two-party and multi-party computation in the dishonest majority setting. While simultaneously achieving everlasting security against all parties in this setting is known to be impossible, we introduce everlasting security transfer (EST). This enables any one party (or a subset of parties) to dynamically and certifiably information-theoretically delete other participants' data after protocol execution. We construct general-purpose secure computation with EST assuming statistically-binding commitments, which can be based on one-way functions or pseudorandom quantum states. We obtain our results by developing a novel proof technique to argue that a bit b has been information-theoretically deleted from an adversary's view once they output a valid deletion certificate, despite having been previously information-theoretically determined by the ciphertext they held in their view. This technique may be of independent interest.
翻訳日:2023-04-21 17:26:35 公開日:2023-04-20
# 生成物の局所的ユニタリ時間発展によるschr\"odinger's cat stateの成長

Growing Schr\"odinger's cat states by local unitary time evolution of product states ( http://arxiv.org/abs/2210.15585v2 )

ライセンス: Link先を確認
Saverio Bocini, Maurizio Fagotti(参考訳) 我々は、自明な分離可能な固有状態を持つ量子スピンチェーンハミルトニアンによって記述できる多体系を考察する。 ジェネリックハミルトニアンにとって、そのような状態は量子スカーを表す。 典型的には、巨視的に絡み合った状態は、自明な固有状態の1つのスピンの単一の射影的測定後に自然に成長することを示し、さらに、成長している状態が「シュル=オディンガーの猫状態」である状態を特定する。 本分析では,自明な固有状態が局所保存法を最小化・最大化しないため,絡み合った状態が発展するための特別な要件は明かされていない。 ジェネリック・ハミルトニアンによって記述されたシステムと、U(1)$隠れ対称性を示すモデルという2つの例を明示的に研究する。 後者は、トランジスタ状の構造ブロックを介して、脚に沿った相互作用がもう一方の脚の局所状態によって制御される2脚のはしごとして解釈することができる。

We envisage many-body systems that can be described by quantum spin-chain Hamiltonians with a trivial separable eigenstate. For generic Hamiltonians, such a state represents a quantum scar. We show that, typically, a macroscopically-entangled state naturally grows after a single projective measurement of just one spin in the trivial eigenstate; moreover, we identify a condition under which what is growing is a "Schr\"odinger's cat state". Our analysis does not reveal any particular requirement for the entangled state to develop, provided that the trivial eigenstate does not minimise/maximise a local conservation law. We study two examples explicitly: systems described by generic Hamiltonians and a model that exhibits a $U(1)$ hidden symmetry. The latter can be reinterpreted as a 2-leg ladder in which the interactions along the legs are controlled by the local state on the other leg through transistor-like building blocks.
翻訳日:2023-04-21 17:20:05 公開日:2023-04-20
# 認識パラメトリック確率モデルを用いた教師なし表現学習

Unsupervised representation learning with recognition-parametrised probabilistic models ( http://arxiv.org/abs/2209.05661v2 )

ライセンス: Link先を確認
William I.Walker, Hugo Soulat, Changmin Yu, Maneesh Sahani(参考訳) 本稿では,認識パラメータモデル(RPM)に基づく確率的教師なし学習(probabilistic unsupervised learning)への新たなアプローチを提案する。 観測が条件独立であるというキー仮定の下で、RPMはパラメトリック先行分布と観測条件潜在分布を非パラメトリック観測限界と組み合わせる。 このアプローチは、明示的でパラメトリックな生成モデルを必要としない、観測間の潜在依存を捉える柔軟な学習認識モデルにつながる。 rpmは、強力なニューラルネットワークベースの認識においても、離散的潜在子に対する正確な最大類似学習を認めている。 連続格子の場合に適用可能な有効近似法を考案する。 実験では、RPMが高次元データ、弱い間接的監督からの学習画像分類、直接画像レベルの遅延ディリクレ割り当て、多要素時空間データセットに適用された認識パラメトリッドガウス過程因子分析(RP-GPFA)の有効性を示す。 RPMは、動物と人工知能の両方にとって重要な機能である観測データに基づく有意義な潜在構造を発見する強力なフレームワークを提供する。

We introduce a new approach to probabilistic unsupervised learning based on the recognition-parametrised model (RPM): a normalised semi-parametric hypothesis class for joint distributions over observed and latent variables. Under the key assumption that observations are conditionally independent given latents, the RPM combines parametric prior and observation-conditioned latent distributions with non-parametric observation marginals. This approach leads to a flexible learnt recognition model capturing latent dependence between observations, without the need for an explicit, parametric generative model. The RPM admits exact maximum-likelihood learning for discrete latents, even for powerful neural-network-based recognition. We develop effective approximations applicable in the continuous-latent case. Experiments demonstrate the effectiveness of the RPM on high-dimensional data, learning image classification from weak indirect supervision; direct image-level latent Dirichlet allocation; and recognition-parametrised Gaussian process factor analysis (RP-GPFA) applied to multi-factorial spatiotemporal datasets. The RPM provides a powerful framework to discover meaningful latent structure underlying observational data, a function critical to both animal and artificial intelligence.
翻訳日:2023-04-21 17:18:40 公開日:2023-04-20
# mimco: 対照教師との事前学習によるマスク画像モデリング

MimCo: Masked Image Modeling Pre-training with Contrastive Teacher ( http://arxiv.org/abs/2209.03063v2 )

ライセンス: Link先を確認
Qiang Zhou, Chaohui Yu, Hao Luo, Zhibin Wang, Hao Li(参考訳) 近年のマスク付き画像モデリング (MIM) は自己教師付き学習 (SSL) において多くの注目を集めており、入力画像のマスク部分の復元にはターゲットモデルが必要である。 mimに基づく事前学習手法は,多くの下流タスクに移行した場合に新たな最先端性能を実現するが,特にコントラスト学習前学習に基づくものと比較して,学習表現の分離性が低下することが示された。 これにより,MIM事前学習表現の線形分離性がさらに向上し,事前学習性能が向上すると考えられる。 MIMとコントラスト学習は、異なるデータ拡張とトレーニング戦略を利用する傾向があるため、これら2つのプレテキストタスクを組み合わせることは簡単ではない。 そこで本研究では,MIMと2段階事前学習によるコントラスト学習を組み合わせた,新しいフレキシブルな事前学習フレームワークMimCoを提案する。 特に、MimCoは教師モデルとして訓練済みのコントラスト学習モデルを採用し、パッチレベルとイメージレベルの再構築損失の2種類の学習目標で事前訓練されている。 下流タスクの大規模な転送実験は、私たちのMimCo事前トレーニングフレームワークの優れたパフォーマンスを示しています。 ViT-Sを例として、トレーニング済みのMoCov3-ViT-Sを教師モデルとして使用する場合、MimCoはImagenet-1Kで82.53%のトップ1の微調整を実現するために、100エポックの事前トレーニングしか必要としない。

Recent masked image modeling (MIM) has received much attention in self-supervised learning (SSL), which requires the target model to recover the masked part of the input image. Although MIM-based pre-training methods achieve new state-of-the-art performance when transferred to many downstream tasks, the visualizations show that the learned representations are less separable, especially compared to those based on contrastive learning pre-training. This inspires us to think whether the linear separability of MIM pre-trained representation can be further improved, thereby improving the pre-training performance. Since MIM and contrastive learning tend to utilize different data augmentations and training strategies, combining these two pretext tasks is not trivial. In this work, we propose a novel and flexible pre-training framework, named MimCo, which combines MIM and contrastive learning through two-stage pre-training. Specifically, MimCo takes a pre-trained contrastive learning model as the teacher model and is pre-trained with two types of learning targets: patch-level and image-level reconstruction losses. Extensive transfer experiments on downstream tasks demonstrate the superior performance of our MimCo pre-training framework. Taking ViT-S as an example, when using the pre-trained MoCov3-ViT-S as the teacher model, MimCo only needs 100 epochs of pre-training to achieve 82.53% top-1 finetuning accuracy on Imagenet-1K, which outperforms the state-of-the-art self-supervised learning counterparts.
翻訳日:2023-04-21 17:17:48 公開日:2023-04-20
# 計算するか計算しないか? 資源制約エッジコンピューティングにおける適応型スマートセンシング

To Compute or not to Compute? Adaptive Smart Sensing in Resource-Constrained Edge Computing ( http://arxiv.org/abs/2209.02166v2 )

ライセンス: Link先を確認
Luca Ballotta, Giovanni Peserico, Francesco Zanini, Paolo Dini(参考訳) エッジコンピューティングアプリケーション用のスマートセンサのネットワークについて検討し,関心のある信号をサンプリングし,リモートのグローバル監視のために基地局に更新を送信する。 センサーはセンシングと計算機能を備えており、生データを送信したり、送信前に処理することができる。 エッジの限られたハードウェアリソースは、基本的な遅延精度のトレードオフを生成する: 生の測定は不正確だが、タイムリーであるのに対して、正確な処理更新は計算遅延後に利用可能である。 また,センサオンボード処理にデータ圧縮が伴う場合,無線通信による遅延が生測値より大きくなる可能性がある。 したがって、センサが生の測定をいつ送信すべきか、あるいはネットワーク全体の性能を最大化するためにローカル処理に依存するかを決定する必要がある。 このセンシング設計問題に対処するために,計算遅延と通信遅延を組み込んだ推定理論最適化フレームワークをモデル化し,各センサに動的に計算資源を割り当てる強化学習ベースアプローチを提案する。 提案手法の有効性は、ドローンインターネットと自動運転車によるケーススタディによる数値シミュレーションによって検証される。

We consider a network of smart sensors for edge computing application that sample a signal of interest and send updates to a base station for remote global monitoring. Sensors are equipped with sensing and compute, and can either send raw data or process them on-board before transmission. Limited hardware resources at the edge generate a fundamental latency-accuracy trade-off: raw measurements are inaccurate but timely, whereas accurate processed updates are available after computational delay. Also, if sensor on-board processing entails data compression, latency caused by wireless communication might be higher for raw measurements. Hence, one needs to decide when sensors should transmit raw measurements or rely on local processing to maximize overall network performance. To tackle this sensing design problem, we model an estimation-theoretic optimization framework that embeds computation and communication delays, and propose a Reinforcement Learning-based approach to dynamically allocate computational resources at each sensor. Effectiveness of our proposed approach is validated through numerical simulations with case studies motivated by the Internet of Drones and self-driving vehicles.
翻訳日:2023-04-21 17:17:17 公開日:2023-04-20
# 一般化ピーターマン因子による非エルミート系におけるバルクおよびエッジ例外点の検出

Detecting bulk and edge exceptional points in non-Hermitian systems through generalized Petermann factors ( http://arxiv.org/abs/2208.14944v3 )

ライセンス: Link先を確認
Yue-Yu Zou, Yao Zhou, Li-Mei Chen, Peng Ye(参考訳) 非エルミート量子系における非直交性は、非ユニタリティに遡り、複素エネルギースペクトルよりも基礎的かつ普遍的な、非常にエキゾチックな量子現象をもたらす。 本稿では、ピーターマン因子の新しい変種として興味深い量($\eta$)を導入し、非ユニタリティーと関連する非エルミート物理学を直接的かつ効率的に測定する。 非エルミート系のモデルパラメータをチューニングすることにより、$\eta$とその一階微分($\partial \eta$)の不連続性は、本質的に非ユニタリ性によって引き起こされるリッチな物理学を顕著に捉えていることが分かる。 より具体的には、1次元非エルミート位相系において、2つの境界にそれぞれ局在化されている2つの相互直交エッジ状態は、モデルパラメータの関数として$\eta$の不連続の近傍で非直交となる。 理論的解析により、エッジ状態遷移の出現は、位相的エッジ状態における例外点~(EPs)の存在を示す。 我々は,$\partial\eta$ の不連続性について,二段階非エルミートモデルを調べ,$\partial \eta$ の不連続点とバルク状態の eps との接続を確立する。 この関係をより一般的な格子モデルで研究することにより、いくつかのモデルは$\partial\eta$の不連続性を持ち、バルク状態におけるEPの存在を示唆する。

Non-orthogonality in non-Hermitian quantum systems gives rise to tremendous exotic quantum phenomena, which can be fundamentally traced back to non-unitarity and is much more fundamental and universal than complex energy spectrum. In this paper, we introduce an interesting quantity (denoted as $\eta$) as a new variant of the Petermann factor to directly and efficiently measure non-unitarity and the associated non-Hermitian physics. By tuning the model parameters of underlying non-Hermitian systems, we find that the discontinuity of both $\eta$ and its first-order derivative (denoted as $\partial \eta$) pronouncedly captures rich physics that is fundamentally caused by non-unitarity. More concretely, in the 1D non-Hermitian topological systems, two mutually orthogonal edge states that are respectively localized on two boundaries become non-orthogonal in the vicinity of discontinuity of $\eta$ as a function of the model parameter, which is dubbed ``edge state transition''. Through theoretical analysis, we identify that the appearance of edge state transition indicates the existence of exceptional points~(EPs) in topological edge states. Regarding the discontinuity of $\partial\eta$, we investigate a two-level non-Hermitian model and establish a connection between the points of discontinuity of $\partial \eta$ and EPs of bulk states. By studying this connection in more general lattice models, we find that some models have discontinuity of $\partial\eta$, implying the existence of EPs in bulk states.
翻訳日:2023-04-21 17:16:59 公開日:2023-04-20
# 長期的なAI安全と規制の基盤としての否定的人権

Negative Human Rights as a Basis for Long-term AI Safety and Regulation ( http://arxiv.org/abs/2208.14788v2 )

ライセンス: Link先を確認
Ondrej Bajgar and Jan Horenovsky(参考訳) 自律型AIシステムが新しい状況で確実に安全であるためには、有害な行動を認識して回避するための一般的な原則を取り入れる必要がある。 このような原則は規制の拘束システムによって支持される必要があり、基礎となる原則が広く受け入れられる必要がある。 技術的な実装にも十分特化すべきである。 この記事では、法律からインスピレーションを得て、否定的な人権がそのような原則の役割を果たし、国際規制システムと将来のaiシステムのための技術的安全制約を構築するための基盤となるかを説明します。

If autonomous AI systems are to be reliably safe in novel situations, they will need to incorporate general principles guiding them to recognize and avoid harmful behaviours. Such principles may need to be supported by a binding system of regulation, which would need the underlying principles to be widely accepted. They should also be specific enough for technical implementation. Drawing inspiration from law, this article explains how negative human rights could fulfil the role of such principles and serve as a foundation both for an international regulatory system and for building technical safety constraints for future AI systems.
翻訳日:2023-04-21 17:16:27 公開日:2023-04-20
# fedfa: 機能アンカーによるフェデレーション学習によるヘテロジニアスデータの特徴と分類

FedFA: Federated Learning with Feature Anchors to Align Features and Classifiers for Heterogeneous Data ( http://arxiv.org/abs/2211.09299v3 )

ライセンス: Link先を確認
Tailin Zhou, Jun Zhang, Danny H.K. Tsang(参考訳) フェデレーション学習により、複数のクライアントがデータを交換することなく、協調的にモデルをトレーニングできる。 残念ながら、クライアントの異種データでパフォーマンスが著しく低下する。 局所訓練における一般的な解決策は、重量のばらつきや特徴の矛盾を正すために特定の補助損失を設計することである。 しかし、これらのアプローチは、分類器の発散とクライアント間の特徴マッピングの不整合の間の悪循環の存在を無視し、クライアントモデルが発散した分類器で一貫性のない機能空間で更新されるため、期待される性能に届かないことがわかった。 次に、FedFA(Federated Learning with Feature Anchors)というシンプルなフレームワークを提案し、ローカルトレーニング中にクライアント間で特徴マッピングと分類器を調整し、一貫した分類器で共有機能空間でクライアントモデルを更新できるようにする。 この修正によって、類似した分類器と、クライアント間の特徴整合性と分類器の類似性の間の希薄なサイクルがもたらされることを示す。 大規模な実験により、FedFAはラベルと特徴分布スキューの下の様々な画像分類データセット上で、最先端のフェデレーション学習アルゴリズムを著しく上回ることがわかった。

Federated learning allows multiple clients to collaboratively train a model without exchanging their data, thus preserving data privacy. Unfortunately, it suffers significant performance degradation under heterogeneous data at clients. Common solutions in local training involve designing a specific auxiliary loss to regularize weight divergence or feature inconsistency. However, we discover that these approaches fall short of the expected performance because they ignore the existence of a vicious cycle between classifier divergence and feature mapping inconsistency across clients, such that client models are updated in inconsistent feature space with diverged classifiers. We then propose a simple yet effective framework named Federated learning with Feature Anchors (FedFA) to align the feature mappings and calibrate classifier across clients during local training, which allows client models updating in a shared feature space with consistent classifiers. We demonstrate that this modification brings similar classifiers and a virtuous cycle between feature consistency and classifier similarity across clients. Extensive experiments show that FedFA significantly outperforms the state-of-the-art federated learning algorithms on various image classification datasets under label and feature distribution skews.
翻訳日:2023-04-21 17:10:46 公開日:2023-04-20
# 高次元データに対するモデルフリー変数の重要性

Model free variable importance for high dimensional data ( http://arxiv.org/abs/2211.08414v2 )

ライセンス: Link先を確認
Naofumi Hama, Masayoshi Mase and Art B. Owen(参考訳) モデルに依存しない変数重要度法は任意の予測関数で利用できる。 本稿では,予測関数へのアクセスを必要としないモデルフリー手法を提案する。 これは、その機能がプロプライエタリで利用できない、あるいは非常に高価である場合に便利です。 モデルからの残差を研究する際にも有用である。 cohort shapley (cs) 法はモデルフリーであるが、入力空間の次元において指数関数的コストを持つ。 frye et al. (2020) による教師付きon-manifold shapley法もまた、モデルフリーであるが、shapley値問題のために訓練しなければならない2つ目のブラックボックスモデルを入力する必要がある。 IGCSと呼ばれるコホートシャプリーの積分勾配(IG)版を導入し,コストを$\mathcal{O}(nd)$とする。 関連する単位立方体の大部分において、IGCS値関数は、IGCSがCSと一致する多重線型関数に近いことが示される。 IGCSのもう1つの利点は、IGメソッドをバイナリ予測器で使用できるようにすることである。 我々は、IGCSの性能を定量化するために、曲線(ABC)の幾らかの領域を用いる。 高エネルギー物理学の問題は、IGCSがCSとほぼ同じABCを持っていることである。 また、1024変数の計算化学の問題にも用いている。 IGCSはモンテカルロのサンプリングよりはるかに高いABCを実現しています。 コードはhttps://github.com/cohortshapley/cohortintgradで公開されている。

A model-agnostic variable importance method can be used with arbitrary prediction functions. Here we present some model-free methods that do not require access to the prediction function. This is useful when that function is proprietary and not available, or just extremely expensive. It is also useful when studying residuals from a model. The cohort Shapley (CS) method is model-free but has exponential cost in the dimension of the input space. A supervised on-manifold Shapley method from Frye et al. (2020) is also model free but requires as input a second black box model that has to be trained for the Shapley value problem. We introduce an integrated gradient (IG) version of cohort Shapley, called IGCS, with cost $\mathcal{O}(nd)$. We show that over the vast majority of the relevant unit cube that the IGCS value function is close to a multilinear function for which IGCS matches CS. Another benefit of IGCS is that is allows IG methods to be used with binary predictors. We use some area between curves (ABC) measures to quantify the performance of IGCS. On a problem from high energy physics we verify that IGCS has nearly the same ABCs as CS does. We also use it on a problem from computational chemistry in 1024 variables. We see there that IGCS attains much higher ABCs than we get from Monte Carlo sampling. The code is publicly available at https://github.com/cohortshapley/cohortintgrad
翻訳日:2023-04-21 17:10:05 公開日:2023-04-20
# 位置依存型コイン演算子を用いた離散時間量子ウォークのための量子回路

Quantum circuits for discrete-time quantum walks with position-dependent coin operator ( http://arxiv.org/abs/2211.05271v3 )

ライセンス: Link先を確認
Ugo Nzongani and Julien Zylberman and Carlo-Elia Doncecchi and Armando P\'erez and Fabrice Debbasch and Pablo Arnault(参考訳) 本論文の目的は、任意の位置依存のコイン演算子を持つ離散時間量子ウォークを実装する量子回路を構築することである。 ウォーカーの位置はベース2でエンコードされる:$n$ワイヤで、それぞれが1キュービットに対応して、2^n$の位置状態をエンコードする。 従って、任意の位置依存コイン演算子を定義するために必要なデータは、指数関数的に$n$である。 まず,位置依存コイン演算子を実装した回路を提案する。これは指数関数的な深さを持ち,適切な位置依存コイン演算子を逐次実装するという意味ではナイーブである。 次に,全ての深さをancillaeに"移行"し,指数関数的なancillae数のコストでn$で線形となる回路を提案する。 この線形深さ回路の主なアイデアは、異なる位置にすべてのコイン演算子を並列に実装することである。 最後に、Refの結果を拡張します。 実際、十分に滑らかなコイン演算子(ブロック対角ユニタリ)の位置依存について、効率の良い量子回路実装がコイン演算子を誤差$\epsilon$(スペクトルノルムの観点では)まで近似し、その深さと大きさが$O(1/\epsilon)$であることを示す。 効率的な実装の典型的な応用は格子上の相対論的スピン-1/2粒子の量子シミュレーションであり、滑らかな外部ゲージ場と結びついている。 線形深さ回路の典型的な応用は、コイン演算子に空間ノイズがある場合(したがって位置の非スムース依存性)である。

The aim of this paper is to build quantum circuits that implement discrete-time quantum walks having an arbitrary position-dependent coin operator. The position of the walker is encoded in base 2: with $n$ wires, each corresponding to one qubit, we encode $2^n$ position states. The data necessary to define an arbitrary position-dependent coin operator is therefore exponential in $n$. We first propose a circuit implementing the position-dependent coin operator, that is naive, in the sense that it has exponential depth and implements sequentially all appropriate position-dependent coin operators. We then propose a circuit that "transfers" all the depth into ancillae, yielding a final depth that is linear in $n$ at the cost of an exponential number of ancillae. The main idea of this linear-depth circuit is to implement in parallel all coin operators at the different positions. Finally, we extend the result of Ref. [2] from position-dependent unitaries which are diagonal in the position basis to position-dependent $2 \times 2$-block-diagonal unitaries: indeed, we show that for a position dependence of the coin operator (the block-diagonal unitary) which is smooth enough, one can find an efficient quantum-circuit implementation approximating the coin operator up to an error $\epsilon$ (in terms of the spectral norm), the depth and size of which scale as $O(1/\epsilon)$. A typical application of the efficient implementation would be the quantum simulation of a relativistic spin-1/2 particle on a lattice, coupled to a smooth external gauge field; notice that recently, quantum spatial-search schemes have been developed which use gauge fields as the oracle, to mark the vertex to be found [3, 4]. A typical application of the linear-depth circuit would be when there is spatial noise on the coin operator (and hence a non-smooth dependence in the position).
翻訳日:2023-04-21 17:09:40 公開日:2023-04-20
# 超流動$^4$Heの顕微鏡像

Microscopic picture of superfluid $^4$He ( http://arxiv.org/abs/2211.02236v3 )

ライセンス: Link先を確認
Yongle Yu, Hailin Luo(参考訳) 超流動$^4$Heの微視的量子機構は、その多体エネルギーレベルの新しい性質を明らかにすることによって解明する。 遷移点以下の温度では、システムの低層レベルは基本的なグループ化挙動を示し、各レベルは単一のグループに属している。 超流動状態では、系は群特異的に周囲との温度平衡を確立する。 特に、選択されたグループのレベルは当初占有され、熱的に人口密度が上昇するが、残りのレベルはグループ間の遷移の欠如により空白のままである。 超流動速度や熱エネルギー密度などの系のマクロ特性は、占有群の熱分布によって統計的に決定される。 さらに, 超流動の熱エネルギーは流れ速度と異常な関係にあり, 流れ速度が大きいほど熱エネルギーが小さくなると仮定した。 この関係は, メカノ・カロリック効果や噴水効果など, 系の熱運動と流体運動の基本的な結合を浮き彫りにする現象に起因しており, さらに, 4$Heスーパーフローにおいて, 反直観的自己加熱効果の実験的証拠を提示し, 4$Heスーパーフローが, その速度に有意な熱エネルギーをもたらすことを確認した。

We elucidate the microscopic quantum mechanism of superfluid $^4$He by uncovering a novel characteristic of its many-body energy levels. At temperature below the transition point, the system's low-lying levels exhibit a fundamental grouping behavior, wherein each level belongs exclusively to a single group. In a superflow state, the system establishes thermal equilibrium with its surroundings on a group-specific basis. Specifically, the levels of a selected group, initially occupied, become thermally populated, while the remaining groups of levels stay vacant due to absence of transitions between groups. The macroscopic properties of the system, such as its superflow velocity and thermal energy density, are statistically determined by the thermal distribution of the occupied group. Additionally, we infer that the thermal energy of a superflow has an unusual relationship with flow velocity, such that the larger the flow velocity, the smaller the thermal energy. This relationship is responsible for a range of intriguing phenomena, including the mechano-caloric effect and the fountain effect, which highlight a fundamental coupling between the thermal motion and hydrodynamic motion of the system.Furthermore, we present experimental evidence of a counterintuitive self-heating effect in $^4$He superflows, confirming that a $^4$He superflow carries significant thermal energy related to its velocity.
翻訳日:2023-04-21 17:08:39 公開日:2023-04-20
# 磁気トンネル接合をニューロンとシナプスとして用いた極端学習による多周波RF信号の分類

Classification of multi-frequency RF signals by extreme learning, using magnetic tunnel junctions as neurons and synapses ( http://arxiv.org/abs/2211.01131v2 )

ライセンス: Link先を確認
Nathan Leroux, Danijela Markovi\'c, D\'edalo Sanz-Hern\'andez, Juan Trastoy, Paolo Bortolotti, Alejandro Schulman, Luana Benetti, Alex Jenkins, Ricardo Ferreira, Julie Grollier and Alice Mizrahi(参考訳) ニューラルネットワークを用いた高周波(rf)信号から低エネルギーで情報を抽出することは、レーダーから健康まで幅広い応用への重要なニーズである。 これらのRF入力は多重周波数で構成される。 ここでは、磁気トンネル接合が複数の周波数のアナログRF入力を並列に処理し、シナプス演算を行うことができることを示す。 rf信号で符号化されたノイズ画像は、シナプスとニューロンの両方として機能する磁気トンネル接合実験データを用いて、バックプロパゲーションフリーのextreme learning法を用いて分類する。 我々は、同等のソフトウェアニューラルネットワークと同じ精度を達成する。 これらの結果は、組み込み高周波人工知能にとって重要なステップである。

Extracting information from radiofrequency (RF) signals using artificial neural networks at low energy cost is a critical need for a wide range of applications from radars to health. These RF inputs are composed of multiples frequencies. Here we show that magnetic tunnel junctions can process analogue RF inputs with multiple frequencies in parallel and perform synaptic operations. Using a backpropagation-free method called extreme learning, we classify noisy images encoded by RF signals, using experimental data from magnetic tunnel junctions functioning as both synapses and neurons. We achieve the same accuracy as an equivalent software neural network. These results are a key step for embedded radiofrequency artificial intelligence.
翻訳日:2023-04-21 17:08:17 公開日:2023-04-20
# RGMIM:新型コロナウイルス検出のための地域誘導マスク画像モデリング

RGMIM: Region-Guided Masked Image Modeling for COVID-19 Detection ( http://arxiv.org/abs/2211.00313v3 )

ライセンス: Link先を確認
Guang Li, Ren Togo, Takahiro Ogawa, Miki Haseyama(参考訳) 背景と目的: 自己教師付き学習は医療分野におけるコンピュータ支援診断を急速に進めている。 Masked Image Modeling (MIM) は、入力ピクセルのサブセットをマスキングし、マスクされたピクセルを予測しようとする自己教師付き学習手法の1つである。 伝統的なmim法は、しばしばランダムなマスキング戦略を用いる。 通常の画像と比較すると、医療画像は疾患検出に対する小さな関心領域を持つことが多い。 そこで,本研究では,新型コロナウイルスの自動識別による問題点の解決に重点を置いている。 方法:本研究では,新型コロナウイルス検出のための領域誘導マスク画像モデリング法(RGMIM)を提案する。 そこで本研究では,肺マスク情報を用いて有効な地域を特定し,より有用な情報を学習する新しいマスキング手法を提案する。 提案手法は,5つの自己教師型学習手法(MAE,SKD,Cross,BYOL,SimSiam)と対比した。 オープンなCOVID-19 CXRデータセットとマスキング比ハイパーパラメーターの定量的評価を行った。 結果: トレーニングセット全体を使用する場合, rgmimは, 0.962 検出精度を達成した。 具体的には、トレーニングセット(846画像と1,693画像)の5%と10%といった小さなデータボリュームでの新型コロナウイルス検出を他の方法と比較して有意に改善し、トレーニングセットの50%しか使用していない場合でも0.957検出精度を達成した。 結論: RGMIMは、より有効な肺関連領域を隠蔽し、識別的表現の学習と、その後の高精度なCOVID-19検出を容易にする。 RGMIMは、特に限られたトレーニングデータを使用する場合、実験において、最先端の自己教師付き学習方法よりも優れている。

Background and objective: Self-supervised learning is rapidly advancing computer-aided diagnosis in the medical field. Masked image modeling (MIM) is one of the self-supervised learning methods that masks a subset of input pixels and attempts to predict the masked pixels. Traditional MIM methods often employ a random masking strategy. In comparison to ordinary images, medical images often have a small region of interest for disease detection. Consequently, we focus on fixing the problem in this work, which is evaluated by automatic COVID-19 identification. Methods: In this study, we propose a novel region-guided masked image modeling method (RGMIM) for COVID-19 detection in this paper. In our method, we devise a new masking strategy that employed lung mask information to identify valid regions to learn more useful information for COVID-19 detection. The proposed method was contrasted with five self-supervised learning techniques (MAE, SKD, Cross, BYOL, and, SimSiam). We present a quantitative evaluation of open COVID-19 CXR datasets as well as masking ratio hyperparameter studies. Results: When using the entire training set, RGMIM outperformed other comparable methods, achieving 0.962 detection accuracy. Specifically, RGMIM significantly improved COVID-19 detection in small data volumes, such as 5% and 10% of the training set (846 and 1,693 images) compared to other methods, and achieved 0.957 detection accuracy even when only 50% of the training set was used. Conclusions: RGMIM can mask more valid lung-related regions, facilitating the learning of discriminative representations and the subsequent high-accuracy COVID-19 detection. RGMIM outperforms other state-of-the-art self-supervised learning methods in experiments, particularly when limited training data is used.
翻訳日:2023-04-21 17:08:05 公開日:2023-04-20
# bert meets ctc: マスク言語モデルを用いたエンドツーエンド音声認識の新しい定式化

BERT Meets CTC: New Formulation of End-to-End Speech Recognition with Pre-trained Masked Language Model ( http://arxiv.org/abs/2210.16663v2 )

ライセンス: Link先を確認
Yosuke Higuchi, Brian Yan, Siddhant Arora, Tetsuji Ogawa, Tetsunori Kobayashi, Shinji Watanabe(参考訳) 本稿では、接続性時間分類(CTC)にBERTを適用した、エンドツーエンド音声認識の新しい定式化であるBERT-CTCを提案する。 我々の定式化は、従来のCTCで用いられる条件独立仮定を緩和し、BERTの文脈埋め込みによって得られる明示的な出力依存性を通して言語知識を取り入れる。 BERT-CTCは、自己保持機構を介して入力および仮説化された出力シーケンスの完全なコンテキストに対応する。 このメカニズムは、CTCのトレーニング効率を維持しながら、音声とトークンの表現の内/間依存性を学習することをモデルに促す。 推論中、BERT-CTCはマスク予測アルゴリズムとCTCデコードを組み合わせて出力シーケンスを反復的に洗練する。 実験結果から,BERT-CTCは話し方や言語の変化にまたがる従来の手法よりも改善されていることが明らかとなった。 最後に、BERT-CTCのセマンティック表現は、下流言語理解タスクに有益であることを示す。

This paper presents BERT-CTC, a novel formulation of end-to-end speech recognition that adapts BERT for connectionist temporal classification (CTC). Our formulation relaxes the conditional independence assumptions used in conventional CTC and incorporates linguistic knowledge through the explicit output dependency obtained by BERT contextual embedding. BERT-CTC attends to the full contexts of the input and hypothesized output sequences via the self-attention mechanism. This mechanism encourages a model to learn inner/inter-dependencies between the audio and token representations while maintaining CTC's training efficiency. During inference, BERT-CTC combines a mask-predict algorithm with CTC decoding, which iteratively refines an output sequence. The experimental results reveal that BERT-CTC improves over conventional approaches across variations in speaking styles and languages. Finally, we show that the semantic representations in BERT-CTC are beneficial towards downstream spoken language understanding tasks.
翻訳日:2023-04-21 17:07:37 公開日:2023-04-20
# 中間表現規則化によるフェデレーション学習

Federated Learning with Intermediate Representation Regularization ( http://arxiv.org/abs/2210.15827v2 )

ライセンス: Link先を確認
Ye Lin Tun, Chu Myaet Thwal, Yu Min Park, Seong-Bae Park, Choong Seon Hong(参考訳) データ収集を伴う集中型モデルトレーニングとは対照的に、フェデレートドラーニング(FL)は、リモートクライアントがプライベートデータを公開せずにモデルを協調的にトレーニングすることを可能にする。 しかし、モデル性能は通常、多様な特性を持つクライアントによって生成される異種データのためにflで劣化する。 優れたパフォーマンスを維持するための有望な戦略の1つは、ローカルトレーニングがグローバルモデルから遠く離れることを制限することだ。 従来の研究では、局所モデルと大域モデルによって学習された表現間の距離を規則化することでこれを達成している。 しかし、それらはモデルの初期層または出力層に先行する層からの表現のみを考える。 本研究では,中間層表現を局所的トレーニングプロセスに統合することにより,より細かい規則化を実現するfeedintrを提案する。 具体的には、FedIntRは局所モデルと大域モデルの中間層表現の近接性を促進する正規化項を計算する。 さらに、FedIntRは局所表現とグローバル表現の類似性に基づいて各レイヤの正規化項への表現の寄与を自動的に決定する。 我々は,feedintrが最先端のアプローチと同等以上の性能を達成できることを示すために,様々なデータセットを広範囲に実験した。 私たちのコードはhttps://github.com/YLTun/FedIntR.comで利用可能です。

In contrast to centralized model training that involves data collection, federated learning (FL) enables remote clients to collaboratively train a model without exposing their private data. However, model performance usually degrades in FL due to the heterogeneous data generated by clients of diverse characteristics. One promising strategy to maintain good performance is by limiting the local training from drifting far away from the global model. Previous studies accomplish this by regularizing the distance between the representations learned by the local and global models. However, they only consider representations from the early layers of a model or the layer preceding the output layer. In this study, we introduce FedIntR, which provides a more fine-grained regularization by integrating the representations of intermediate layers into the local training process. Specifically, FedIntR computes a regularization term that encourages the closeness between the intermediate layer representations of the local and global models. Additionally, FedIntR automatically determines the contribution of each layer's representation to the regularization term based on the similarity between local and global representations. We conduct extensive experiments on various datasets to show that FedIntR can achieve equivalent or higher performance compared to the state-of-the-art approaches. Our code is available at https://github.com/YLTun/FedIntR.
翻訳日:2023-04-21 17:07:22 公開日:2023-04-20
# MEAformer: メタモダリティハイブリッドのためのマルチモーダルエンティティアライメントトランス

MEAformer: Multi-modal Entity Alignment Transformer for Meta Modality Hybrid ( http://arxiv.org/abs/2212.14454v3 )

ライセンス: Link先を確認
Zhuo Chen, Jiaoyan Chen, Wen Zhang, Lingbing Guo, Yin Fang, Yufeng Huang, Yichi Zhang, Yuxia Geng, Jeff Z. Pan, Wenting Song, Huajun Chen(参考訳) エンティティアライメント(EA)の重要な変種として、マルチモーダルエンティティアライメント(MMEA)は、関連する画像を付加した異なる知識グラフ(KG)にまたがる同一のエンティティを発見することを目的としている。 我々は,現行のMMEAアルゴリズムが多モード実体表現にKGレベルのモダリティ融合戦略をグローバルに採用しているが,個々の実体に対するモダリティ嗜好の変動を無視し,モダリティにかかわる潜在的なノイズ(例えば,ぼやけた画像や関係)に対するロバスト性を損なうことに気付いた。 本稿では,メタモダリティハイブリッドのためのマルチモーダルアライメント・アライメント・トランスフォーマーであるMEAformerを提案する。 曖昧なエンティティの詳細に対処するために、モダルアウェアなハードエンティティ再生戦略がさらに提案されている。 実験結果から,本モデルは教師付き,教師なし,反復的,低リソースを含む複数の訓練シナリオにおいてSOTA性能を達成するだけでなく,パラメータ数,楽観的速度,良好な解釈性も備えていることがわかった。 私たちのコードとデータはhttps://github.com/zjukg/meaformerで入手できます。

As an important variant of entity alignment (EA), multi-modal entity alignment (MMEA) aims to discover identical entities across different knowledge graphs (KGs) with relevant images attached. We noticed that current MMEA algorithms all globally adopt the KG-level modality fusion strategies for multi-modal entity representation but ignore the variation in modality preferences for individual entities, hurting the robustness to potential noise involved in modalities (e.g., blurry images and relations). In this paper, we present MEAformer, a multi-modal entity alignment transformer approach for meta modality hybrid, which dynamically predicts the mutual correlation coefficients among modalities for entity-level feature aggregation. A modal-aware hard entity replay strategy is further proposed for addressing vague entity details. Experimental results show that our model not only achieves SOTA performance on multiple training scenarios including supervised, unsupervised, iterative, and low resource, but also has a comparable number of parameters, optimistic speed, and good interpretability. Our code and data are available at https://github.com/zjukg/MEAformer.
翻訳日:2023-04-21 16:59:59 公開日:2023-04-20
# 超線形収束によるカーネルベース機械学習力場再構成

Reconstructing Kernel-based Machine Learning Force Fields with Super-linear Convergence ( http://arxiv.org/abs/2212.12737v2 )

ライセンス: Link先を確認
Stefan Bl\"ucher and Klaus-Robert M\"uller and Stefan Chmiela(参考訳) カーネルマシンは量子化学の分野で継続的に進歩している。 特に、それらは力場再構成の低データレコンストラクションで成功したことが証明されている。 これは、物理的対称性による多くの等分散と不変性が、より大きなデータセットを補うためにカーネル関数に組み込むことができるためである。 しかしながら、カーネルマシンのスケーラビリティは、トレーニングポイント数における二次メモリとキュービックランタイムの複雑さによって妨げられている。 反復的クリロフ部分空間解法がこれらの負担を克服できることは知られているが、それらの収束は実際に解ける効果的な事前条件に依存している。 効果的なプリコンディショナーは、計算的に安価で数値的にロバストな方法で学習問題を部分的に事前解く必要がある。 ここでは、元のカーネル行列のより洗練された低ランク近似に基づいてプレコンディショナを構築するためのNystr\"om-typeメソッドの幅広いクラスについて考察し、それぞれ異なる計算トレードオフを提供する。 すべての考慮された手法は、支配的なカーネルスペクトルを近似するために誘導(カーネル)列の代表的な部分集合を識別することを目的としている。

Kernel machines have sustained continuous progress in the field of quantum chemistry. In particular, they have proven to be successful in the low-data regime of force field reconstruction. This is because many equivariances and invariances due to physical symmetries can be incorporated into the kernel function to compensate for much larger datasets. So far, the scalability of kernel machines has however been hindered by its quadratic memory and cubical runtime complexity in the number of training points. While it is known, that iterative Krylov subspace solvers can overcome these burdens, their convergence crucially relies on effective preconditioners, which are elusive in practice. Effective preconditioners need to partially pre-solve the learning problem in a computationally cheap and numerically robust manner. Here, we consider the broad class of Nystr\"om-type methods to construct preconditioners based on successively more sophisticated low-rank approximations of the original kernel matrix, each of which provides a different set of computational trade-offs. All considered methods aim to identify a representative subset of inducing (kernel) columns to approximate the dominant kernel spectrum.
翻訳日:2023-04-21 16:59:36 公開日:2023-04-20
# モバイルアプリ開発のためのメタヒューリスティックなエネルギー・アウェア画像圧縮

Metaheuristic-based Energy-aware Image Compression for Mobile App Development ( http://arxiv.org/abs/2212.06313v2 )

ライセンス: Link先を確認
Seyed Jalaleddin Mousavirad, Lu\'is A Alexandre(参考訳) JPEG標準は様々な画像処理アプリケーションで広く使われている。 jpeg標準の主要なコンポーネントの1つは量子化テーブル(qt)であり、画像品質やファイルサイズなどの画像特性において重要な役割を果たす。 近年、人口ベースのメタヒューリスティック(pbmh)アルゴリズムに基づくいくつかの取り組みが、事前にユーザーの意見を考慮していないが、特定の画像の適切なqt(s)を見つけるために行われている。 android開発者を例にとると、小さなサイズのイメージを好むが、最適化プロセスによって高品質なイメージが得られ、巨大なファイルサイズになる。 現在の作業のもう一つの落とし穴は、包括的カバレッジの欠如である。つまり、QT(s)はファイルサイズと品質のすべての組み合わせを提供できない。 そこで本稿では,3つの異なる貢献を提案する。 まず、圧縮プロセスにユーザの意見を含めるために、出力画像のファイルサイズを予めユーザによって制御することができる。 そこで本研究では,人口ベースJPEG画像圧縮のための新たな目的関数を提案する。 第2に,包括的カバレッジの欠如に対処するために,新しい表現を提案する。 提案した表現は,より包括的なカバレッジを提供するだけでなく,背景知識のない特定の画像の品質係数の適切な値も得られる。 表現と目的関数の変化は検索戦略とは独立であり、任意の種類の集団ベースメタヒューリスティック(PBMH)アルゴリズムで使用することができる。 そこで第3の貢献として,22の最先端アルゴリズムと最近導入されたpbmhアルゴリズムに関する総合ベンチマークを提供する。 異なるベンチマーク画像に対する広範な実験と、異なる基準で、JPEG画像圧縮のための新しい定式化が有効であることを示す。

The JPEG standard is widely used in different image processing applications. One of the main components of the JPEG standard is the quantisation table (QT) since it plays a vital role in the image properties such as image quality and file size. In recent years, several efforts based on population-based metaheuristic (PBMH) algorithms have been performed to find the proper QT(s) for a specific image, although they do not take into consideration the user opinion in advance. Take an android developer as an example, who prefers a small-size image, while the optimisation process results in a high-quality image, leading to a huge file size. Another pitfall of the current works is a lack of comprehensive coverage, meaning that the QT(s) can not provide all possible combinations of file size and quality. Therefore, this paper aims to propose three distinct contributions. First, to include the user opinion in the compression process, the file size of the output image can be controlled by a user in advance. To this end, we propose a novel objective function for population-based JPEG image compression. Second, to tackle the lack of comprehensive coverage, we suggest a novel representation. Our proposed representation can not only provide more comprehensive coverage but also find the proper value for the quality factor for a specific image without any background knowledge. Both changes in representation and objective function are independent of the search strategies and can be used with any type of population-based metaheuristic (PBMH) algorithm. Therefore, as the third contribution, we also provide a comprehensive benchmark on 22 state-of-the-art and recently-introduced PBMH algorithms. Our extensive experiments on different benchmark images and in terms of different criteria show that our novel formulation for JPEG image compression can work effectively.
翻訳日:2023-04-21 16:59:09 公開日:2023-04-20
# MegaCRN:時空間モデリングのためのメタグラフ畳み込みリカレントネットワーク

MegaCRN: Meta-Graph Convolutional Recurrent Network for Spatio-Temporal Modeling ( http://arxiv.org/abs/2212.05989v2 )

ライセンス: Link先を確認
Renhe Jiang, Zhaonan Wang, Jiawei Yong, Puneet Jeph, Quanjun Chen, Yasumasa Kobayashi, Xuan Song, Toyotaro Suzumura, Shintaro Fukushima(参考訳) 多変量時系列予測の標準タスクとしての時空間モデリングは、AIコミュニティにおいて重要な研究トピックとなっている。 グラフストリームに暗示される不均一性と非定常性に対処するため,時空間データに対する新しいグラフ構造学習機構として時空間メタグラフ学習を提案する。 具体的には,このアイデアをMeta-Graph Convolutional Recurrent Network(MegaCRN)に実装し,Meta-ノードバンクを利用したMeta-Graph LearnerをGCRNエンコーダに接続する。 我々は,2つのベンチマークデータセット(METR-LAとPEMS-BAY)と,非定常現象のばらつきを含む大規模時空間データセットの総合的な評価を行う。 私たちのモデルは3つのデータセット(27% mae と 34% rmse)すべてにおいて最先端を上回りました。 さらに,一連の質的評価を通じて,異なるパターンを持つ位置と時間スロットを明示的に区別し,異常な状況に対してロバストに適応できることを実証する。 コードとデータセットはhttps://github.com/deepkashiwa20/megacrnで入手できる。

Spatio-temporal modeling as a canonical task of multivariate time series forecasting has been a significant research topic in AI community. To address the underlying heterogeneity and non-stationarity implied in the graph streams, in this study, we propose Spatio-Temporal Meta-Graph Learning as a novel Graph Structure Learning mechanism on spatio-temporal data. Specifically, we implement this idea into Meta-Graph Convolutional Recurrent Network (MegaCRN) by plugging the Meta-Graph Learner powered by a Meta-Node Bank into GCRN encoder-decoder. We conduct a comprehensive evaluation on two benchmark datasets (METR-LA and PEMS-BAY) and a large-scale spatio-temporal dataset that contains a variaty of non-stationary phenomena. Our model outperformed the state-of-the-arts to a large degree on all three datasets (over 27% MAE and 34% RMSE). Besides, through a series of qualitative evaluations, we demonstrate that our model can explicitly disentangle locations and time slots with different patterns and be robustly adaptive to different anomalous situations. Codes and datasets are available at https://github.com/deepkashiwa20/MegaCRN.
翻訳日:2023-04-21 16:58:43 公開日:2023-04-20
# マルチエージェント強化学習におけるスペクトル正規化の効果

Effects of Spectral Normalization in Multi-agent Reinforcement Learning ( http://arxiv.org/abs/2212.05331v2 )

ライセンス: Link先を確認
Kinal Mehta, Anuj Mahajan, Pawan Kumar(参考訳) 信頼できる批評家は、オン・ポリティカルな俳優-批評学習の中心である。 しかし、2つの要因により,マルチエージェントのスパース報酬シナリオにおいて,信頼できる批評家を学ぶことは困難になる。 1) 協調作用空間はエージェントの数で指数関数的に増加する 2) 報酬のばらばらさと環境騒音が組み合わさって, 正確な学習に大量のサンプルが必要となる。 スペクトル正規化 (SN) による批判の正規化は, マルチエージェントによるスパース報酬シナリオにおいても, より堅牢な学習を可能にすることを示す。 実験の結果,レギュラー化された批評家は,複雑なsmacおよびrwareドメインにおけるスパースな報酬経験から素早く学習できることがわかった。 これらの知見は,安定学習批判における正規化の重要性を浮き彫りにした。

A reliable critic is central to on-policy actor-critic learning. But it becomes challenging to learn a reliable critic in a multi-agent sparse reward scenario due to two factors: 1) The joint action space grows exponentially with the number of agents 2) This, combined with the reward sparseness and environment noise, leads to large sample requirements for accurate learning. We show that regularising the critic with spectral normalization (SN) enables it to learn more robustly, even in multi-agent on-policy sparse reward scenarios. Our experiments show that the regularised critic is quickly able to learn from the sparse rewarding experience in the complex SMAC and RWARE domains. These findings highlight the importance of regularisation in the critic for stable learning.
翻訳日:2023-04-21 16:58:21 公開日:2023-04-20
# PowRL: 電力ネットワークのロバスト管理のための強化学習フレームワーク

PowRL: A Reinforcement Learning Framework for Robust Management of Power Networks ( http://arxiv.org/abs/2212.02397v2 )

ライセンス: Link先を確認
Anandsingh Chauhan, Mayank Baranwal, Ansuma Basumatary(参考訳) 世界中の電力網は、いくつかの産業、企業、家庭消費者に不断で信頼性があり、過渡的な電力を提供することによって、社会と経済の重要な役割を担っている。 再生可能エネルギー資源とevが出現し、不安定な発電と高ダイナミックな負荷要求が発生し、過渡安定問題の適切な管理とブラックアウトのイベントのローカライズを通じて、電力ネットワークの堅牢な運用を確保することがますます重要になっている。 本稿では,最新のグリッドインフラストラクチャとグリッドオペレータに対するストレスがますます増大していることを踏まえ,予期せぬネットワークイベントの影響を軽減するとともに,ネットワークの至る所で確実に電力を維持するための強化学習(rl)フレームワーク,powrlを提案する。 PowRLは、グリッドの安全かつ確実な動作(オーバーロードなしで)を保証するために、RL誘導による最適なトポロジ選択に基づく決定とともに、新しいヒューリスティックなオーバーロード管理を活用している。 PowRLはL2RPN(Learning to Run a Power Network)がホストするさまざまな競合データセットでベンチマークされている。 アクションスペースの縮小にもかかわらず、PowRLはL2RPNのNeurIPS 2020チャレンジ(Robustness track)でリーダーボードのトップとなり、L2RPNのWCCI 2020チャレンジではトップのエージェントとなった。 さらに、いくつかのテストシナリオにおいて、PowRLエージェントによる最先端のパフォーマンスを詳細に分析する。

Power grids, across the world, play an important societal and economical role by providing uninterrupted, reliable and transient-free power to several industries, businesses and household consumers. With the advent of renewable power resources and EVs resulting into uncertain generation and highly dynamic load demands, it has become ever so important to ensure robust operation of power networks through suitable management of transient stability issues and localize the events of blackouts. In the light of ever increasing stress on the modern grid infrastructure and the grid operators, this paper presents a reinforcement learning (RL) framework, PowRL, to mitigate the effects of unexpected network events, as well as reliably maintain electricity everywhere on the network at all times. The PowRL leverages a novel heuristic for overload management, along with the RL-guided decision making on optimal topology selection to ensure that the grid is operated safely and reliably (with no overloads). PowRL is benchmarked on a variety of competition datasets hosted by the L2RPN (Learning to Run a Power Network). Even with its reduced action space, PowRL tops the leaderboard in the L2RPN NeurIPS 2020 challenge (Robustness track) at an aggregate level, while also being the top performing agent in the L2RPN WCCI 2020 challenge. Moreover, detailed analysis depicts state-of-the-art performances by the PowRL agent in some of the test scenarios.
翻訳日:2023-04-21 16:58:09 公開日:2023-04-20
# Unite and Conquer: 拡散モデルを用いたプラグ&プレイマルチモーダル合成

Unite and Conquer: Plug & Play Multi-Modal Synthesis using Diffusion Models ( http://arxiv.org/abs/2212.00793v2 )

ライセンス: Link先を確認
Nithin Gopalakrishnan Nair, Wele Gedara Chaminda Bandara and Vishal M. Patel(参考訳) 複数の制約を満たす写真を生成することは、コンテンツ制作業界で幅広い有用性を見出す。 この課題を達成するための重要なハードルは、すべてのモダリティ(すなわち制約)と対応する出力からなるペアデータの必要性である。 さらに、既存のメソッドでは、新しい条件を導入するために、すべてのモダリティにまたがるペアデータの使用を再トレーニングする必要がある。 本稿では拡散確率モデル (DDPM) に基づくこの問題に対する解法を提案する。 他の生成モデルよりも拡散モデルを選択する動機は、拡散モデルの柔軟な内部構造にある。 DDPMの各サンプリングステップはガウス分布に従うので、様々な制約を課した画像を生成するための閉形式解が存在することを示す。 提案手法は,複数のサブタスクで訓練された複数の拡散モデルを結合し,提案するサンプリング戦略により複合タスクを克服する。 また,複数の制約を満たす望ましい結果に導出するために,サンプリング時間のみに様々なデータセットでトレーニングされたオフ・ザ・シェルフ拡散モデルを使用することが可能な,新しい信頼性パラメータも導入する。 提案手法の有効性を実証するために,各種標準マルチモーダルタスクの実験を行った。 詳細はhttps://nithin-gk.github.io/projectpages/multidiff/index.htmlにある。

Generating photos satisfying multiple constraints find broad utility in the content creation industry. A key hurdle to accomplishing this task is the need for paired data consisting of all modalities (i.e., constraints) and their corresponding output. Moreover, existing methods need retraining using paired data across all modalities to introduce a new condition. This paper proposes a solution to this problem based on denoising diffusion probabilistic models (DDPMs). Our motivation for choosing diffusion models over other generative models comes from the flexible internal structure of diffusion models. Since each sampling step in the DDPM follows a Gaussian distribution, we show that there exists a closed-form solution for generating an image given various constraints. Our method can unite multiple diffusion models trained on multiple sub-tasks and conquer the combined task through our proposed sampling strategy. We also introduce a novel reliability parameter that allows using different off-the-shelf diffusion models trained across various datasets during sampling time alone to guide it to the desired outcome satisfying multiple constraints. We perform experiments on various standard multimodal tasks to demonstrate the effectiveness of our approach. More details can be found in https://nithin-gk.github.io/projectpages/Multidiff/index.html
翻訳日:2023-04-21 16:57:42 公開日:2023-04-20
# 連続エピソード制御

Continuous Episodic Control ( http://arxiv.org/abs/2211.15183v2 )

ライセンス: Link先を確認
Zhao Yang, Thomas M. Moerland, Mike Preuss, Aske Plaat(参考訳) 非パラメトリックエピソードメモリは、強化学習タスクにおける高次経験に素早く取り込むのに使うことができる。 報酬シグナルを緩やかにバックプロパタイズする必要があるパラメトリックディープ強化学習アプローチとは対照的に、これらの手法は解を一度だけ発見し、その課題を繰り返し解決する。 しかしながら、エピソディック制御解は離散テーブルに格納されており、このアプローチは離散作用空間問題にのみ適用されている。 そこで本研究では,連続行動空間の問題における逐次決定のための非パラメトリックエピソードメモリアルゴリズムであるContinuous Episodic Control (CEC)を提案する。 いくつかのスパース・リワード連続制御環境において,提案手法は現状のモデルレスRLやメモリ拡張RLアルゴリズムよりも高速に学習でき,長期性能も良好である。 要するに、CECは継続的制御タスクで学ぶための高速なアプローチである。

Non-parametric episodic memory can be used to quickly latch onto high-rewarded experience in reinforcement learning tasks. In contrast to parametric deep reinforcement learning approaches in which reward signals need to be back-propagated slowly, these methods only need to discover the solution once, and may then repeatedly solve the task. However, episodic control solutions are stored in discrete tables, and this approach has so far only been applied to discrete action space problems. Therefore, this paper introduces Continuous Episodic Control (CEC), a novel non-parametric episodic memory algorithm for sequential decision making in problems with a continuous action space. Results on several sparse-reward continuous control environments show that our proposed method learns faster than state-of-the-art model-free RL and memory-augmented RL algorithms, while maintaining good long-run performance as well. In short, CEC can be a fast approach for learning in continuous control tasks.
翻訳日:2023-04-21 16:57:22 公開日:2023-04-20
# 分子システムのためのハイブリッド補助場量子モンテカルロ

Hybrid Auxiliary Field Quantum Monte Carlo for Molecular Systems ( http://arxiv.org/abs/2211.10824v4 )

ライセンス: Link先を確認
Yixiao Chen, Linfeng Zhang, Weinan E, Roberto Car(参考訳) 電子基底状態に対する基底状態多体シュロディンガー方程式を解くために量子モンテカルロ法を提案する。 この方法は変分モンテカルロからの最適化と補助場量子モンテカルロからの伝播を組み合わせ、符号問題を大幅に緩和する。 分子システムへの応用において,動的あるいは静的な電子相関によって支配される構成について,高精度な結果が得られる。

We propose a quantum Monte Carlo approach to solve the ground state many-body Schrodinger equation for the electronic ground state. The method combines optimization from variational Monte Carlo and propagation from auxiliary field quantum Monte Carlo, in a way that significantly alleviates the sign problem. In application to molecular systems, we obtain highly accurate results for configurations dominated by either dynamic or static electronic correlation.
翻訳日:2023-04-21 16:57:07 公開日:2023-04-20
# 共同構造学習と最適輸送によるロバスト分布グラフアライメント

Robust Attributed Graph Alignment via Joint Structure Learning and Optimal Transport ( http://arxiv.org/abs/2301.12721v2 )

ライセンス: Link先を確認
Jianheng Tang, Weiqi Zhang, Jiajin Li, Kangfei Zhao, Fugee Tsung, Jia Li(参考訳) 複数のネットワークにまたがって対応するエンティティを識別することを目的としたグラフアライメントは、さまざまな領域で広く適用されている。 整列グラフは通常、異なるソースから構築されるため、2つのグラフ間の不整合問題と特徴は、現実世界のアプリケーションではユビキタスである。 既存のほとんどのメソッドは 'embed-then-cross-compare'' パラダイムに従っており、各グラフのノード埋め込みを計算し、クロスグラフ埋め込み比較に基づいてノード対応を処理する。 しかし,これらの手法は構造や特徴の不整合が現れると不安定で準最適であることがわかった。 そこで我々は,構造学習と最適伝達アライメントを共同で行う教師なしグラフアライメントフレームワークであるslotalignを提案する。 グラフアライメントをクロスグラフ比較を必要としない2つのグラフ内行列間の最適輸送問題に変換する。 さらに,多視点構造学習を取り入れ,グラフ表現力を高め,グラフ間で継承される構造や特徴の一貫性を低下させる。 さらに,SLOTAlignの連立最適化問題に対処するため,交互スキームに基づくアルゴリズムが開発され,証明可能な収束結果も確立されている。 最後に、6つの教師なしグラフアライメントデータセットとDBP15Kナレッジグラフ(KG)アライメントベンチマークデータセットについて広範な実験を行った。 提案したSLOTAlignは、7つの教師なしグラフアライメント法と5つの特殊なKGアライメント法よりも優れた性能と強靭性を示す。

Graph alignment, which aims at identifying corresponding entities across multiple networks, has been widely applied in various domains. As the graphs to be aligned are usually constructed from different sources, the inconsistency issues of structures and features between two graphs are ubiquitous in real-world applications. Most existing methods follow the ``embed-then-cross-compare'' paradigm, which computes node embeddings in each graph and then processes node correspondences based on cross-graph embedding comparison. However, we find these methods are unstable and sub-optimal when structure or feature inconsistency appears. To this end, we propose SLOTAlign, an unsupervised graph alignment framework that jointly performs Structure Learning and Optimal Transport Alignment. We convert graph alignment to an optimal transport problem between two intra-graph matrices without the requirement of cross-graph comparison. We further incorporate multi-view structure learning to enhance graph representation power and reduce the effect of structure and feature inconsistency inherited across graphs. Moreover, an alternating scheme based algorithm has been developed to address the joint optimization problem in SLOTAlign, and the provable convergence result is also established. Finally, we conduct extensive experiments on six unsupervised graph alignment datasets and the DBP15K knowledge graph (KG) alignment benchmark dataset. The proposed SLOTAlign shows superior performance and strongest robustness over seven unsupervised graph alignment methods and five specialized KG alignment methods.
翻訳日:2023-04-21 16:51:08 公開日:2023-04-20
# 深部MRI再構成のための振り返り k-space Subsampling スキームについて

On Retrospective k-space Subsampling schemes For Deep MRI Reconstruction ( http://arxiv.org/abs/2301.08365v4 )

ライセンス: Link先を確認
George Yiasemis, Clara I. S\'anchez, Jan-Jakob Sonke, Jonas Teuwen(参考訳) 目的:mriをフルサンプリングした$k$-spaceデータの取得には時間がかかる。 2次元直立線サブサンプリング方式は, 従来の高速化手法であるが, 深層学習(DL)を用いた場合, 特に加速係数が高い場合においても, しばしば不正確な再構成が生じる。 非直立線または非直交軌道はMRIスキャナーで代替のサブサンプリングオプションとして実装できる。 本研究は、訓練されたDLモデルにより生成された再構成加速MRIの画質に及ぼす$k$-spaceサブサンプリングスキームの影響について検討する。 方法: Recurrent Variational Network (RecurrentVarNet) をDLベースのMRI再構成アーキテクチャとして用いた。 3つのデータセットから得られた全サンプルのマルチコイルの$k$-space測定は、8つの異なるサブサンプリングスキームを用いて異なる加速度で振り返りにサブサンプリングされた。 実験は,各データセットサブサンプリングスキームペア毎に異なるモデルをトレーニングし,評価するスキームと,各データセットに対して,ランダムに8つのスキームにサブサンプリングされたデータに基づいて1つのモデルをトレーニングし,すべてのスキームでサブサンプリングされたデータに基づいて評価するマルチスキームの2つのフレームワークで実施された。 結果: いずれのフレームワークにおいても,非リクティリニアサブサンプリングデータを用いたrecurrentvarnetsのトレーニングと評価は,特にハイアクセラレーションにおいて,優れたパフォーマンスを示した。 マルチスキーの設定では, スキーム特有の実験と比較して, 線形サブサンプリングデータの再構成性能が向上した。 結語:本研究は,非直線的サブサンプリング測定に基づくDL法を用いて,スキャン時間と画像品質を最適化する可能性を示した。

Purpose: Acquiring fully-sampled MRI $k$-space data is time-consuming, and collecting accelerated data can reduce the acquisition time. Employing 2D Cartesian-rectilinear subsampling schemes is a conventional approach for accelerated acquisitions; however, this often results in imprecise reconstructions, even with the use of Deep Learning (DL), especially at high acceleration factors. Non-rectilinear or non-Cartesian trajectories can be implemented in MRI scanners as alternative subsampling options. This work investigates the impact of the $k$-space subsampling scheme on the quality of reconstructed accelerated MRI measurements produced by trained DL models. Methods: The Recurrent Variational Network (RecurrentVarNet) was used as the DL-based MRI-reconstruction architecture. Cartesian, fully-sampled multi-coil $k$-space measurements from three datasets were retrospectively subsampled with different accelerations using eight distinct subsampling schemes: four Cartesian-rectilinear, two Cartesian non-rectilinear, and two non-Cartesian. Experiments were conducted in two frameworks: scheme-specific, where a distinct model was trained and evaluated for each dataset-subsampling scheme pair, and multi-scheme, where for each dataset a single model was trained on data randomly subsampled by any of the eight schemes and evaluated on data subsampled by all schemes. Results: In both frameworks, RecurrentVarNets trained and evaluated on non-rectilinearly subsampled data demonstrated superior performance, particularly for high accelerations. In the multi-scheme setting, reconstruction performance on rectilinearly subsampled data improved when compared to the scheme-specific experiments. Conclusion: Our findings demonstrate the potential for using DL-based methods, trained on non-rectilinearly subsampled measurements, to optimize scan time and image quality.
翻訳日:2023-04-21 16:50:42 公開日:2023-04-20
# 不確実性定量化を用いた物理システムモデリングのための物理情報場理論

Physics-informed Information Field Theory for Modeling Physical Systems with Uncertainty Quantification ( http://arxiv.org/abs/2301.07609v4 )

ライセンス: Link先を確認
Alex Alberts, Ilias Bilionis(参考訳) データ駆動アプローチと物理知識は、システムをモデル化するための強力なテクニックである。 このようなモデルの目標は、測定を既知の物理法則と組み合わせることで、基礎となる分野を効率的に解くことである。 多くのシステムは、欠落パラメータ、ノイズデータ、不完全物理法則などの未知の要素を含むため、これは不確実な定量化問題として広くアプローチされている。 すべての変数を扱う一般的な手法は、一般に後部を近似するために使用される数値スキームに依存しており、そのような離散化に依存しない方法を持つことが望ましい。 情報場理論(IFT)は、必ずしもガウス的ではない分野の統計を行うために必要なツールを提供する。 IFT を物理インフォームド IFT (PIFT) に拡張し,フィールドを記述する物理法則に関する情報を符号化する。 このPIFTから派生した後部は任意の数値スキームとは独立であり、複数のモードをキャプチャできるため、不適切な問題の解が得られる。 Klein-Gordon方程式を含む解析的な例を通して、我々のアプローチを実証する。 次に, 確率勾配ランジュバン力学の変種を開発し, 関節後方からフィールド上およびモデルパラメータ上にサンプルを抽出した。 本手法は, モデル形式誤差の異なる数値例と非線形微分方程式を含む逆問題に適用する。 加算として、後部がモデル形式の不確実性を自動的に定量化できるメートル法を備える。 このため, 数値実験により, この手法は十分なデータが得られる物理の誤った表現に対しても頑健であることがわかった。 本手法は,物理が信頼できない場合に正しく識別できることを数値的に証明し,その場合,フィールドの学習を回帰問題として自動的に扱う。

Data-driven approaches coupled with physical knowledge are powerful techniques to model systems. The goal of such models is to efficiently solve for the underlying field by combining measurements with known physical laws. As many systems contain unknown elements, such as missing parameters, noisy data, or incomplete physical laws, this is widely approached as an uncertainty quantification problem. The common techniques to handle all the variables typically depend on the numerical scheme used to approximate the posterior, and it is desirable to have a method which is independent of any such discretization. Information field theory (IFT) provides the tools necessary to perform statistics over fields that are not necessarily Gaussian. We extend IFT to physics-informed IFT (PIFT) by encoding the functional priors with information about the physical laws which describe the field. The posteriors derived from this PIFT remain independent of any numerical scheme and can capture multiple modes, allowing for the solution of problems which are ill-posed. We demonstrate our approach through an analytical example involving the Klein-Gordon equation. We then develop a variant of stochastic gradient Langevin dynamics to draw samples from the joint posterior over the field and model parameters. We apply our method to numerical examples with various degrees of model-form error and to inverse problems involving nonlinear differential equations. As an addendum, the method is equipped with a metric which allows the posterior to automatically quantify model-form uncertainty. Because of this, our numerical experiments show that the method remains robust to even an incorrect representation of the physics given sufficient data. We numerically demonstrate that the method correctly identifies when the physics cannot be trusted, in which case it automatically treats learning the field as a regression problem.
翻訳日:2023-04-21 16:50:10 公開日:2023-04-20
# 期待値の量子幾何学

Quantum Geometry of Expectation Values ( http://arxiv.org/abs/2301.05921v2 )

ライセンス: Link先を確認
Chaoming Song(参考訳) 任意の演算子の集合上の期待値の量子幾何学のための新しい枠組みを提案し、この幾何学とこれらの演算子によって生成されるハミルトニアン族固有状態の関係を確立する。 期待値空間の境界は基底状態に対応しており、これはハイゼンベルクの不確実性原理を一般化する自然な境界を示す。 このフレームワークの汎用性を実証するために,ベルの不等式に反する強い非線形量子境界と,密度関数の明示的な構成など,いくつかの実用的応用を提案する。 我々のアプローチは、高次元ヒルベルト空間の線形問題を低次元の非線形アルゲブロ幾何学問題に変換する別の時間非依存量子定式化を提供し、量子システムに対する新たな洞察を得ることを可能にする。

We propose a novel framework for the quantum geometry of expectation values over arbitrary sets of operators and establish a link between this geometry and the eigenstates of Hamiltonian families generated by these operators. We show that the boundary of expectation value space corresponds to the ground state, which presents a natural bound that generalizes Heisenberg's uncertainty principle. To demonstrate the versatility of our framework, we present several practical applications, including providing a stronger nonlinear quantum bound that violates the Bell inequality and an explicit construction of the density functional. Our approach provides an alternative time-independent quantum formulation that transforms the linear problem in a high-dimensional Hilbert space into a nonlinear algebro-geometric problem in a low dimension, enabling us to gain new insights into quantum systems.
翻訳日:2023-04-21 16:49:43 公開日:2023-04-20
# 共振駆動量子ドット3レベル系からのエネルギー時間絡み合い

Energy-time entanglement from a resonantly driven quantum dot three-level system ( http://arxiv.org/abs/2301.05697v2 )

ライセンス: Link先を確認
M. Hohn, K. Barkemeyer, M. von Helversen, L. Bremer, M. Gschrey, J.-H. Schulze, A. Strittmatter, A. Carmele, S. Rodt, S. Bounouar, S. Reitzenstein(参考訳) エンタングルメントは、広範囲にわたる情報の安全な交換を可能にする高度な量子技術における主要な資源である。 エネルギー時間絡み合いは、ファイバベースの量子通信において有利なロバスト性のために特に魅力的であり、フランソン干渉計で実証できる。 連続波励起下での共振駆動型バイエクシトンカスケードからのフランソン型干渉について報告する。 我々の測定では、ベルの不等式(70.7%)を1つ以上の標準偏差で破る限界を超える最大視認率(73$\pm$ 2)%)が得られる。 抜け穴自由違反を満足できないにもかかわらず,本研究は,このようなシステムにおける今後の作業に関する有望な結果を示す。 さらに, 運転強度の影響に関する体系的な研究から, 脱落機構やカスケードエミッションからの逸脱が測定エネルギー時間絡み合いの程度に大きな影響を与えることが示唆された。

Entanglement is a major resource in advanced quantum technology, where it can enable secure exchange of information over large distances. Energy-time entanglement is particularly attractive for its beneficial robustness in fiber-based quantum communication and can be demonstrated in the Franson interferometer. We report on Franson-type interference from a resonantly driven biexciton cascade under continuous wave excitation. Our measurements yield a maximum visibility of (73 $\pm$ 2)% surpassing the limit of violation of Bell's inequality (70.7%) by more than one standard deviation. Despite being unable to satisfy a loophole free violation, our work demonstrates promising results concerning future works on such a system. Furthermore, our systematical studies on the impact of driving strength indicate that dephasing mechanisms and deviations from the cascaded emission have major impact on the degree of the measured energy-time entanglement.
翻訳日:2023-04-21 16:49:30 公開日:2023-04-20
# DiffTalk: 汎用オーディオ駆動ポートフォリオアニメーションのための拡散モデルの構築

DiffTalk: Crafting Diffusion Models for Generalized Audio-Driven Portraits Animation ( http://arxiv.org/abs/2301.03786v2 )

ライセンス: Link先を確認
Shuai Shen, Wenliang Zhao, Zibin Meng, Wanhua Li, Zheng Zhu, Jie Zhou, Jiwen Lu(参考訳) 音声合成はビデオ制作業界にとって有望なアプローチである。 近年, この研究分野において, 生成品質の向上やモデル一般化の促進に多くの努力が注がれている。 しかし,両課題を同時に解決できる作業は少なく,実用的応用には不可欠である。 そこで本稿では,新たに出現する強力な潜在拡散モデルに注目し,音声駆動時間的コヒーレント雑音化プロセス(difftalk)として発話頭部生成をモデル化する。 具体的には、音声信号を単一の駆動要因として使用する代わりに、話し手の制御機構を調査し、参照顔画像とランドマークを人格認識の一般化合成条件として組み込む。 このようにして、提案されたdifftalkは、ソースオーディオと同期して高品質なトークヘッドビデオを生成することができ、さらに重要なことは、さらに微調整することなく、異なるアイデンティティにまたがって自然に一般化することができることである。 さらに、我々のDiffTalkは、無視できる余分な計算コストで高分解能な合成に適しています。 広範な実験により,提案するdifftalkは,高忠実度音声駆動対話型頭部映像を効率的に合成することを示す。 詳しくは \url{https://sstzal.github.io/difftalk/}を参照。

Talking head synthesis is a promising approach for the video production industry. Recently, a lot of effort has been devoted in this research area to improve the generation quality or enhance the model generalization. However, there are few works able to address both issues simultaneously, which is essential for practical applications. To this end, in this paper, we turn attention to the emerging powerful Latent Diffusion Models, and model the Talking head generation as an audio-driven temporally coherent denoising process (DiffTalk). More specifically, instead of employing audio signals as the single driving factor, we investigate the control mechanism of the talking face, and incorporate reference face images and landmarks as conditions for personality-aware generalized synthesis. In this way, the proposed DiffTalk is capable of producing high-quality talking head videos in synchronization with the source audio, and more importantly, it can be naturally generalized across different identities without any further fine-tuning. Additionally, our DiffTalk can be gracefully tailored for higher-resolution synthesis with negligible extra computational cost. Extensive experiments show that the proposed DiffTalk efficiently synthesizes high-fidelity audio-driven talking head videos for generalized novel identities. For more video results, please refer to \url{https://sstzal.github.io/DiffTalk/}.
翻訳日:2023-04-21 16:49:15 公開日:2023-04-20
# 最小組込み組合せ最適化問題に対する3世代D波量子アニールの比較

Comparing Three Generations of D-Wave Quantum Annealers for Minor Embedded Combinatorial Optimization Problems ( http://arxiv.org/abs/2301.03009v3 )

ライセンス: Link先を確認
Elijah Pelofske(参考訳) 量子アニーリング(quantum annealing)は、量子力学的揺らぎを用いてイジング問題の最適解を探すことを目的とした、新しいタイプのアナログ計算である。 D-Wave QPU上に実装されたTransverse Isingモデルにおける量子アニールは、クラウドコンピューティングリソースとして利用可能である。 本稿では,np-hard combinatorial optimization problem (np-hard combinatorial optimization problem) に対する4つの異なるデバイスからなるd-wave量子アニーラの3世代にわたる簡潔なベンチマークについて報告する。 アイシング(QUBO)は、これらの問題の定式化は順序の減少のために補助変数を必要とせず、その全体構造と重みは非常に複雑ではないため、現在のD-Wave量子アニールのサンプリング能力を理解するための単純なテストケースである。 比較的均一なチェーン長を持つ522ドルの全てのマイナーな埋め込みは、キメラ、ペガサス、ゼファーのデバイストポロジーを直接比較するために使用される。 各装置と問題タイプに対して合理的な性能のレベルを決定するために、アニーリング時間とマイナー埋め込みチェーン強度のグリッド検索を行う。 報告されている実験指標は、非破壊鎖サンプルの近似比と連鎖破壊比である。 測定された基底状態分布のエントロピーを用いて、複数の最大傾きを含む場合において、量子異方体が最適な最大傾きをいかに正確にサンプリングするかを定量化する。 zephyrハードウェア接続を持つ最新の量子アニーリングハードウェアは、近似比とチェーンブレーク周波数に関して、全体として最高の性能を発揮した。

Quantum annealing is a novel type of analog computation that aims to use quantum mechanical fluctuations to search for optimal solutions of Ising problems. Quantum annealing in the Transverse Ising model, implemented on D-Wave QPUs, are available as cloud computing resources. In this article we report concise benchmarks across three generations of D-Wave quantum annealers, consisting of four different devices, for the NP-Hard combinatorial optimization problems unweighted maximum clique and unweighted maximum cut on random graphs. The Ising, or equivalently QUBO, formulation of these problems do not require auxiliary variables for order reduction, and their overall structure and weights are not highly complex, which makes these problems simple test cases to understand the sampling capability of current D-Wave quantum annealers. All-to-all minor embeddings of size $52$, with relatively uniform chain lengths, are used for a direct comparison across the Chimera, Pegasus, and Zephyr device topologies. A grid search over annealing times and the minor embedding chain strengths is performed in order to determine the level of reasonable performance for each device and problem type. Experiment metrics that are reported are approximation ratios for non-broken chain samples and chain break proportions. How fairly the quantum annealers sample optimal maximum cliques, for instances which contain multiple maximum cliques, is also quantified using entropy of the measured ground state distributions. The newest generation of quantum annealing hardware, which has a Zephyr hardware connectivity, performed the best overall with respect to approximation ratios and chain break frequencies.
翻訳日:2023-04-21 16:48:53 公開日:2023-04-20
# 単位キュービットチャネルについて

On unital qubit channels ( http://arxiv.org/abs/2301.01358v3 )

ライセンス: Link先を確認
Chi-Kwong Li and Man-Duen Choi(参考訳) 局所ユニタリ変換の下でのユニタリ量子ビットチャネルの正準形式を得る。 特に、単位量子チャネルのチェイ行列の固有値が正準形式の不変量の完全な集合を形成することが示されている。 直ちに、すべてのユニタリキュービットチャネルが4つのユニタリチャネルの平均である。 より一般に、ユニタリな量子ビットチャネルは、対流係数 $p_1, \dots, p_m$ を持つユニタリチャネルの凸結合として表現することができ、また、チャネルのchoi行列の固有値のベクトルによって、$(p_1, \dots, p_m)$ がメジャー化される。 正準形式の単位量子ビットチャネルは、ブロッホ球面を楕円体に変換する。 ブロッホ球面を対応する楕円体に送る自然線型写像の詳細な構造を考察する。

A canonical form for unital qubit channels under local unitary transforms is obtained. In particular, it is shown that the eigenvalues of the Choi matrix of a unital quantum channel form a complete set of invariants of the canonical form. It follows immediately that every unital qubit channel is the average of four unitary channels. More generally, a unital qubit channel can be expressed as the convex combination of unitary channels with convex coefficients $p_1, \dots, p_m$ as long as $2(p_1, \dots, p_m)$ is majorized by the vector of eigenvalues of the Choi matrix of the channel. A unital qubit channel in the canonical form will transform the Bloch sphere onto an ellipsoid. We look into the detailed structure of the natural linear maps sending the Bloch sphere onto a corresponding ellipsoid.
翻訳日:2023-04-21 16:48:25 公開日:2023-04-20
# 意味セグメンテーションのための弱増分学習を支援する基礎モデル

Foundation Model Drives Weakly Incremental Learning for Semantic Segmentation ( http://arxiv.org/abs/2302.14250v2 )

ライセンス: Link先を確認
Chaohui Yu, Qiang Zhou, Jingliang Li, Jianlong Yuan, Zhibin Wang, Fan Wang(参考訳) セグメンテーション手法の現代的漸進的学習は通常、密接なアノテーションに基づいて新しいカテゴリを学ぶ。 有望な結果が得られるが、ピクセルごとのラベリングはコストと時間を要する。 セマンティックセグメンテーションのための弱インクリメンタル学習(WILSS)は、安価で広く利用可能なイメージレベルのラベルから新しいクラスをセグメンテーションすることを目的とした、新しく魅力的なタスクである。 同等の結果にもかかわらず、画像レベルのラベルは各セグメントを特定する詳細を提供できないため、WILSSの性能は制限される。 これにより,画像レベルのラベルが与えられた新しいクラスを,古いクラスを忘れずに改善し,効果的に活用する方法を考えることができる。 本研究では,WILSS のための新しいデータ効率フレームワーク FMWISS を提案する。 具体的には,擬似ラベルを生成するための相補的基礎モデルの知識を抽出するために,事前学習に基づくコセグメンテーションを提案する。 さらに,提案する濃密なコントラスト損失にプラグイン教師を最適化した教師・学生アーキテクチャを用いて,うるさい仮面を最適化する。 さらに,古いクラスの破滅的な忘れ方を改善するために,メモリベースのコピーペースト拡張を導入する。 pascal voc と coco データセットに関する広範な実験により、fmwiss は 15-5 voc 設定において 70.7% と 73.3% を達成し、それぞれ 3.4% と 6.1% で最先端法を上回った。

Modern incremental learning for semantic segmentation methods usually learn new categories based on dense annotations. Although achieve promising results, pixel-by-pixel labeling is costly and time-consuming. Weakly incremental learning for semantic segmentation (WILSS) is a novel and attractive task, which aims at learning to segment new classes from cheap and widely available image-level labels. Despite the comparable results, the image-level labels can not provide details to locate each segment, which limits the performance of WILSS. This inspires us to think how to improve and effectively utilize the supervision of new classes given image-level labels while avoiding forgetting old ones. In this work, we propose a novel and data-efficient framework for WILSS, named FMWISS. Specifically, we propose pre-training based co-segmentation to distill the knowledge of complementary foundation models for generating dense pseudo labels. We further optimize the noisy pseudo masks with a teacher-student architecture, where a plug-in teacher is optimized with a proposed dense contrastive loss. Moreover, we introduce memory-based copy-paste augmentation to improve the catastrophic forgetting problem of old classes. Extensive experiments on Pascal VOC and COCO datasets demonstrate the superior performance of our framework, e.g., FMWISS achieves 70.7% and 73.3% in the 15-5 VOC setting, outperforming the state-of-the-art method by 3.4% and 6.1%, respectively.
翻訳日:2023-04-21 16:42:27 公開日:2023-04-20
# 擬似決定論的量子回路の難読化

Obfuscation of Pseudo-Deterministic Quantum Circuits ( http://arxiv.org/abs/2302.11083v2 )

ライセンス: Link先を確認
James Bartusek, Fuyuki Kitagawa, Ryo Nishimaki, and Takashi Yamakawa(参考訳) 本稿では,古典回路における誤り(QLWE)と量子後仮想ブラックボックス(VBB)の難解性を仮定し,疑似決定論的量子回路の難解化方法を示す。 古典的な量子回路の$Q$の説明を考えると、我々のオブファスケータは任意の入力に対して$Q$を繰り返し評価することができる量子状態$\ket{\widetilde{Q}}$を出力する。 古典回路のvbbオブファシエータを量子後非識別可能性オブファシエータ候補でインスタンス化することで、多項式サイズの疑似決定性量子回路の非識別可能性オブファシエーションの第1候補となる。 特に,本手法はShorのアルゴリズム(SICOMP 1997)を実装するのに十分な性能を持つ回路群に対する,最初の候補オブファスケータである。 提案手法はバルタテックとマラボルタ (ITCS 2022) に従っており、量子計算(CVQC) スキームの古典的検証の検証を妨害することにより、量子回路を難読化する。 我々は、Mahadevの量子完全同型暗号スキーム(FOCS 2018)の評価手順を検証するために使用できる量子 \emph{partitioning} 回路に対して、公に検証可能なCVQCスキームを構築することで、ヌル回路を超えていく。 我々はバルタテック (TCC 2021) の1回限りの安全なスキームを完全再利用可能なスキームにアップグレードし、パブリックデコダブルな \emph{Pauli functional commitment} を通じて実現し、この作業で正式に定義し構成する。 このコミットメントスキームは、受信者の標準とアダマール基底のデコード機能にアクセスできるコミッタに対するバインディングの概念を満たすもので、等価だが衝突耐性のハッシュ関数の文脈で導入されたamos、georgiou、kiayias、zhandry(stoc 2020)の技術に基づいて構築されている。

We show how to obfuscate pseudo-deterministic quantum circuits, assuming the quantum hardness of learning with errors (QLWE) and post-quantum virtual black-box (VBB) obfuscation for classical circuits. Given the classical description of a quantum circuit $Q$, our obfuscator outputs a quantum state $\ket{\widetilde{Q}}$ that can be used to evaluate $Q$ repeatedly on arbitrary inputs. Instantiating the VBB obfuscator for classical circuits with any candidate post-quantum indistinguishability obfuscator gives us the first candidate construction of indistinguishability obfuscation for all polynomial-size pseudo-deterministic quantum circuits. In particular, our scheme is the first candidate obfuscator for a class of circuits that is powerful enough to implement Shor's algorithm (SICOMP 1997). Our approach follows Bartusek and Malavolta (ITCS 2022), who obfuscate \emph{null} quantum circuits by obfuscating the verifier of an appropriate classical verification of quantum computation (CVQC) scheme. We go beyond null circuits by constructing a publicly-verifiable CVQC scheme for quantum \emph{partitioning} circuits, which can be used to verify the evaluation procedure of Mahadev's quantum fully-homomorphic encryption scheme (FOCS 2018). We achieve this by upgrading the one-time secure scheme of Bartusek (TCC 2021) to a fully reusable scheme, via a publicly-decodable \emph{Pauli functional commitment}, which we formally define and construct in this work. This commitment scheme, which satisfies a notion of binding against committers that can access the receiver's standard and Hadamard basis decoding functionalities, is constructed by building on techniques of Amos, Georgiou, Kiayias, and Zhandry (STOC 2020) introduced in the context of equivocal but collision-resistant hash functions.
翻訳日:2023-04-21 16:42:02 公開日:2023-04-20
# Classy Ensemble: 分類のための新しいEnsembleアルゴリズム

Classy Ensemble: A Novel Ensemble Algorithm for Classification ( http://arxiv.org/abs/2302.10580v3 )

ライセンス: Link先を確認
Moshe Sipper(参考訳) 本稿では,クラス毎の精度の重み付けによってモデルを集約する,分類タスクのための新しいアンサンブル生成アルゴリズムであるClassy Ensembleを提案する。 153以上の機械学習データセットをテストすると、Classy Ensembleは、注文ベースのプルーニングとクラスタリングベースのプルーニングという、他のよく知られたアグリゲーションアルゴリズムと、最近導入されたレキシガーデンアンサンブルジェネレータよりも優れています。 次に3つの改善点を紹介します 1) Classy Ensemble と Cluster-based pruning を組み合わせた Classy Cluster Ensemble 2) Fashion MNIST, CIFAR10, CIFAR100, ImageNetの4つの画像データセットに対するクラスアンサンブルの利点を示すディープラーニング実験。 3) 進化的アンサンブル(Classy Evolutionary Ensemble)は、進化的アルゴリズムを用いて、クラスアンサンブルが選択したモデルのセットを選択する。

We present Classy Ensemble, a novel ensemble-generation algorithm for classification tasks, which aggregates models through a weighted combination of per-class accuracy. Tested over 153 machine learning datasets we demonstrate that Classy Ensemble outperforms two other well-known aggregation algorithms -- order-based pruning and clustering-based pruning -- as well as the recently introduced lexigarden ensemble generator. We then present three enhancements: 1) Classy Cluster Ensemble, which combines Classy Ensemble and cluster-based pruning; 2) Deep Learning experiments, showing the merits of Classy Ensemble over four image datasets: Fashion MNIST, CIFAR10, CIFAR100, and ImageNet; and 3) Classy Evolutionary Ensemble, wherein an evolutionary algorithm is used to select the set of models which Classy Ensemble picks from.
翻訳日:2023-04-21 16:40:57 公開日:2023-04-20
# 10都市における大規模浮動車データによる大都市セグメント交通速度

Metropolitan Segment Traffic Speeds from Massive Floating Car Data in 10 Cities ( http://arxiv.org/abs/2302.08761v2 )

ライセンス: Link先を確認
Moritz Neun, Christian Eichenberger, Yanan Xin, Cheng Fu, Nina Wiedemann, Henry Martin, Martin Tomko, Lukas Amb\"uhl, Luca Hermes, Michael Kopp(参考訳) 交通分析は都市の運営や計画に不可欠であるが、ループ検知器以外の密集した都市交通データの利用可能性は依然として乏しい。 我々は,2019~2021年に108日から361日間の収集期間を15分間の解像度で10都市(mt-10)の大規模浮動車データから,道路単位の交通情報,メトロポリタンセグメントの交通速度の大規模データセットを10都市(mets-10)の大規模浮動車データから提供し,2019~2021年に108日から361日間の収集期間を15分間の解像度で提供し,都市圏あたり1500平方キロメートル以上をカバーした。 MeTS-10は、幹線道路からアントウェルペン、バンコク、バルセロナ、ベルリン、シカゴ、イスタンブール、ロンドン、マドリード、メルボルン、モスクワまでの全ての道路の交通速度情報を提供している。 このデータセットは、プライバシが保存する時空間集約で提供されるスピードと車両数で、産業規模の浮動車traffic4castデータを活用する。 データをopenstreetmap道路グラフにマッピングする効率的なマッチングアプローチについて詳述する。 我々は、このデータセットを、ベルリン、ロンドン、マドリードで公開されている静止車検出データと、Uberの交通速度データセット(バルセロナ、ベルリン、ロンドン)と比較することで評価する。 比較は、時空間カバレッジにおけるデータセット間の差異と、binningメソッドによって引き起こされた報告トラフィックのバリエーションを強調する。 MeTS-10は、空間的にスパースな車両検出データの現在の制限を克服し、世界10大都市におけるモビリティと交通パターンの新たな、都市全体の分析を可能にする。 大きな空間的および時間的カバレッジは、交通計画研究における交通調査や交通制御設定における車両検知データなど、他のデータセットとMeTS-10を結合する機会を提供する。

Traffic analysis is crucial for urban operations and planning, while the availability of dense urban traffic data beyond loop detectors is still scarce. We present a large-scale floating vehicle dataset of per-street segment traffic information, Metropolitan Segment Traffic Speeds from Massive Floating Car Data in 10 Cities (MeTS-10), available for 10 global cities with a 15-minute resolution for collection periods ranging between 108 and 361 days in 2019-2021 and covering more than 1500 square kilometers per metropolitan area. MeTS-10 features traffic speed information at all street levels from main arterials to local streets for Antwerp, Bangkok, Barcelona, Berlin, Chicago, Istanbul, London, Madrid, Melbourne and Moscow. The dataset leverages the industrial-scale floating vehicle Traffic4cast data with speeds and vehicle counts provided in a privacy-preserving spatio-temporal aggregation. We detail the efficient matching approach mapping the data to the OpenStreetMap road graph. We evaluate the dataset by comparing it with publicly available stationary vehicle detector data (for Berlin, London, and Madrid) and the Uber traffic speed dataset (for Barcelona, Berlin, and London). The comparison highlights the differences across datasets in spatio-temporal coverage and variations in the reported traffic caused by the binning method. MeTS-10 enables novel, city-wide analysis of mobility and traffic patterns for ten major world cities, overcoming current limitations of spatially sparse vehicle detector data. The large spatial and temporal coverage offers an opportunity for joining the MeTS-10 with other datasets, such as traffic surveys in traffic planning studies or vehicle detector data in traffic control settings.
翻訳日:2023-04-21 16:40:41 公開日:2023-04-20
# InstructABSA:Aspect Based Sentiment Analysisのための指導学習

InstructABSA: Instruction Learning for Aspect Based Sentiment Analysis ( http://arxiv.org/abs/2302.08624v4 )

ライセンス: Link先を確認
Kevin Scaria and Himanshu Gupta and Siddharth Goyal and Saurabh Arjun Sawant and Swaroop Mishra and Chitta Baral(参考訳) 本稿では、ABSAサブタスクの命令学習パラダイム(Aspect Term extract (ATE)、Aspect Term Sentiment Classification (ATSC)、ジョイントタスクモデリング)を用いて、ABSA、Aspect Based Sentiment Analysis (ABSA)を提案する。 提案手法は,各トレーニングサンプルに対して正,負,中立の例を導入し,ABSAサブタスクのモデル(Tk-インストラクト)をチューニングし,大幅な性能改善を実現する。 Sem Eval 2014 15 16データセットの実験結果によると、InstructABSAは以前の最先端(SOTA)アプローチよりも、ABSAサブタスク(ATE、ATSC、ジョイントタスク)の3つのサブタスク(ATE、ATSC、ジョイントタスク)の方が、大きなマージンで、7倍のモデルより優れていた。 特に、InstructABSAは、Rest14 ATEサブタスクのSOTAを5.69%、Rest15 ATSCサブタスクの9.59%、Lapt14 Joint Taskの3.37%を上回っている。 また、3つのサブタスクにまたがる新しいドメインに対する強力な一般化能力も示唆した。

In this paper, we present InstructABSA, Aspect Based Sentiment Analysis (ABSA) using the instruction learning paradigm for the ABSA subtasks: Aspect Term Extraction (ATE), Aspect Term Sentiment Classification (ATSC), and Joint Task modeling. Our method introduces positive, negative, and neutral examples to each training sample, and instruction tunes the model (Tk-Instruct) the ABSA subtasks, yielding significant performance improvements. Experimental results on the Sem Eval 2014, 15, and 16 datasets demonstrate that InstructABSA outperforms the previous state-of-the-art (SOTA) approaches on the three ABSA subtasks (ATE, ATSC, and Joint Task) by a significant margin, outperforming 7x larger models. In particular, InstructABSA surpasses the SOTA on the Rest14 ATE subtask by 5.69% points, Rest15 ATSC subtask by 9.59% points, and on the Lapt14 Joint Task by 3.37% points. Our results also suggest a strong generalization ability to new domains across all three subtasks
翻訳日:2023-04-21 16:39:49 公開日:2023-04-20
# 動的ニューラルネットワークにおける過信の固定

Fixing Overconfidence in Dynamic Neural Networks ( http://arxiv.org/abs/2302.06359v3 )

ライセンス: Link先を確認
Lassi Meronen, Martin Trapp, Andrea Pilzer, Le Yang, Arno Solin(参考訳) 動的ニューラルネットワークは、入力の難易度に計算コストを動的に適応させることにより、現代のディープラーニングモデルのサイズを増大させる、最近の技術である。 このように、モデルは限られた計算予算に調整することができる。 しかしながら、ディープラーニングモデルにおける不確実性推定の質が低ければ、難しいサンプルと簡単なサンプルの区別が困難になる。 この課題に対処するために,動的ニューラルネットワークにおけるポストホック不確実性定量化のための計算効率の高い手法を提案する。 本稿では,最終層を確率論的に処理することで,アレテータ的不確実性と認識的不確実性の両方を適切に定量化し計算し,計算予算を決定する際の意思決定を支援することを示す。 実験では,CIFAR-100, ImageNet, Caltech-256の精度, 精度, 不確実性, 校正誤差について改善点を示す。

Dynamic neural networks are a recent technique that promises a remedy for the increasing size of modern deep learning models by dynamically adapting their computational cost to the difficulty of the inputs. In this way, the model can adjust to a limited computational budget. However, the poor quality of uncertainty estimates in deep learning models makes it difficult to distinguish between hard and easy samples. To address this challenge, we present a computationally efficient approach for post-hoc uncertainty quantification in dynamic neural networks. We show that adequately quantifying and accounting for both aleatoric and epistemic uncertainty through a probabilistic treatment of the last layers improves the predictive performance and aids decision-making when determining the computational budget. In the experiments, we show improvements on CIFAR-100, ImageNet, and Caltech-256 in terms of accuracy, capturing uncertainty, and calibration error.
翻訳日:2023-04-21 16:38:52 公開日:2023-04-20
# GMConv: 畳み込みカーネルの効果的な受容場制御

GMConv: Modulating Effective Receptive Fields for Convolutional Kernels ( http://arxiv.org/abs/2302.04544v3 )

ライセンス: Link先を確認
Qi Chen, Chao Li, Jia Ning, Stephen Lin, Kun He(参考訳) 畳み込みニューラルネットワークでは、従来の畳み込みは、固定N$\times$N受容場(RF)を持つ正方形カーネルを用いて実行される。 しかし、ネットワークにとって最も重要なのは、入力画素が出力画素にどの程度寄与するかを示す効果的な受容場(erf)である。 ERFが通常ガウス分布を示す性質に着想を得て,本研究でガウス・マスク畳み込みカーネル(GMConv)を提案する。 具体的には、GMConvはガウス関数を用いて、核上に配置された同心対称マスクを生成してRFを洗練させる。 gmconvは既存のcnnの標準畳み込みを直接置き換えることができ、標準のバックプロパゲーションによってエンドツーエンドで容易に訓練することができます。 画像分類と物体検出タスクに関する広範な実験を通じて,提案手法を評価した。 いくつかのタスクと標準ベースモデルに対して、我々のアプローチは標準畳み込みと比較できる。 例えば、gmconv for alexnet と resnet-50 を用いて、imagenet 分類における top-1 の精度を 0.98% と 0.85% で向上させる。

In convolutional neural networks, the convolutions are conventionally performed using a square kernel with a fixed N $\times$ N receptive field (RF). However, what matters most to the network is the effective receptive field (ERF) that indicates the extent with which input pixels contribute to an output pixel. Inspired by the property that ERFs typically exhibit a Gaussian distribution, we propose a Gaussian Mask convolutional kernel (GMConv) in this work. Specifically, GMConv utilizes the Gaussian function to generate a concentric symmetry mask that is placed over the kernel to refine the RF. Our GMConv can directly replace the standard convolutions in existing CNNs and can be easily trained end-to-end by standard back-propagation. We evaluate our approach through extensive experiments on image classification and object detection tasks. Over several tasks and standard base models, our approach compares favorably against the standard convolution. For instance, using GMConv for AlexNet and ResNet-50, the top-1 accuracy on ImageNet classification is boosted by 0.98% and 0.85%, respectively.
翻訳日:2023-04-21 16:38:35 公開日:2023-04-20
# MCTS-GEB:Monte Carlo Tree Searchは優れたEグラフビルダー

MCTS-GEB: Monte Carlo Tree Search is a Good E-graph Builder ( http://arxiv.org/abs/2303.04651v3 )

ライセンス: Link先を確認
Guoliang He, Zak Singh, Eiko Yoneki(参考訳) 書き換えシステム [6, 10, 12] は、飽和eグラフを用いて全ての可能な書き直しシーケンスを同時に表現し、最適なものを取り出す最適化手法である等式飽和[9]を広く採用している。 そのため、位相順序問題を避けることで最適な結果が得られる。 しかし,e-グラフが飽和していない場合,すべての可能な書き換えの機会を表現できないため,e-グラフの構築段階において位相順序付けの問題が再導入された。 この問題を解決するために,e-graph構築に強化学習(rl)を適用するドメイン一般書き換えシステムであるmcts-gebを提案する。 MCTS-GEB はモンテカルロ木探索 (MCTS) [3] を用いて最適な電子グラフ構築を効率的に計画するので, 建設段階での位相順序付け問題を効果的に排除し, 適正な時間で性能を向上させることができる。 2つの異なる領域の評価では、MCTS-GEBは最先端のリライトシステムを最大49倍の性能で上回るが、最適化は一般的に1時間以内で実行でき、MCTS-GEBは将来のリライトシステムのための有望なビルディングブロックであることを示している。

Rewrite systems [6, 10, 12] have been widely employing equality saturation [9], which is an optimisation methodology that uses a saturated e-graph to represent all possible sequences of rewrite simultaneously, and then extracts the optimal one. As such, optimal results can be achieved by avoiding the phase-ordering problem. However, we observe that when the e-graph is not saturated, it cannot represent all possible rewrite opportunities and therefore the phase-ordering problem is re-introduced during the construction phase of the e-graph. To address this problem, we propose MCTS-GEB, a domain-general rewrite system that applies reinforcement learning (RL) to e-graph construction. At its core, MCTS-GEB uses a Monte Carlo Tree Search (MCTS) [3] to efficiently plan for the optimal e-graph construction, and therefore it can effectively eliminate the phase-ordering problem at the construction phase and achieve better performance within a reasonable time. Evaluation in two different domains shows MCTS-GEB can outperform the state-of-the-art rewrite systems by up to 49x, while the optimisation can generally take less than an hour, indicating MCTS-GEB is a promising building block for the future generation of rewrite systems.
翻訳日:2023-04-21 16:32:03 公開日:2023-04-20
# 古典的なOracleの下での古典的対量子アドバイス

Classical vs Quantum Advice under Classically-Accessible Oracle ( http://arxiv.org/abs/2303.04298v2 )

ライセンス: Link先を確認
Xingjian Li, Qipeng Liu, Angelos Pelecanos, Takashi Yamakawa(参考訳) BQP/qpoly $\neq$ BQP/poly あるいは QMA $\neq$ QCMA が関係する古典的なオラクルを構築することは、長い間公然とされてきた問題である。 本稿では,BQP/qpoly $\neq$BQP/polyに対して古典的アクセス可能な古典的オラクルを構築する。 ここでは、古典的アクセス可能な古典的オラクルは、量子アルゴリズムでも古典的にのみアクセス可能なオラクルである。 また, 同様の手法を用いて, ナタラジャンとニルケによって最近示された分布量子アクセス可能な古典オラクルに対して, QMA と QCMA の分離の代替的証明を示す。

It is a long-standing open question to construct a classical oracle relative to which BQP/qpoly $\neq$ BQP/poly or QMA $\neq$ QCMA. In this paper, we construct classically-accessible classical oracles relative to which BQP/qpoly $\neq$ BQP/poly. Here, classically-accessible classical oracles are oracles that can be accessed only classically even for quantum algorithms. Based on a similar technique, we also show an alternative proof for separation of QMA and QCMA relative to a distributional quantumly-accessible classical oracles, which was recently shown by Natarajan and Nirkhe.
翻訳日:2023-04-21 16:31:38 公開日:2023-04-20
# 永久双極子を有する量子系における光ポーラロン形成

Optical polaron formation in quantum systems with permanent dipoles ( http://arxiv.org/abs/2303.03996v2 )

ライセンス: Link先を確認
Adam Burgess, Marian Florescu, Dominic Michael Rouse(参考訳) 多くの光学活性系は空間的に非対称な電子軌道を持つ。 これらは恒久的な双極子モーメントを生成し、対応する遷移双極子モーメントよりも強くなり、系のダイナミクスに大きな影響を与え、光の偏光フォック状態を生成する。 我々は、永久双極子によって引き起こされる光子モード偏光を捉える光ポーラロン変換を用いて、これらの系のマスター方程式を導出する。 これはシステムダイナミクスとエミッションスペクトルへの影響を調べるための直感的なフレームワークを提供する。 常設双極子は多重光子過程と光子側バンドを導入し、単一光子遷移双極子過程に大きな変化をもたらす。 外部ドライブの存在下では、永続ダイポールはデコヒーレンスと遷移率の最適化に活用できる追加のプロセスをもたらす。 系の放射スペクトルを導出し、光学ポーラロンの実験的検出可能なシグネチャと、ハミルトニアン系のパラメータ、恒久的双極子の差の大きさ、および系の定常状態の集団を識別できる測定を導出する。

Many optically active systems possess spatially asymmetric electron orbitals. These generate permanent dipole moments, which can be stronger than the corresponding transition dipole moments, significantly affecting the system dynamics and creating polarised Fock states of light. We derive a master equation for these systems by employing an optical polaron transformation that captures the photon mode polarisation induced by the permanent dipoles. This provides an intuitive framework to explore their influence on the system dynamics and emission spectrum. We find that permanent dipoles introduce multiple-photon processes and a photon sideband which causes substantial modifications to single-photon transition dipole processes. In the presence of an external drive, permanent dipoles lead to an additional process that we show can be exploited to optimise the decoherence and transition rates. We derive the emission spectrum of the system, highlighting experimentally detectable signatures of optical polarons, and measurements that can identify the parameters in the system Hamiltonian, the magnitude of the differences in the permanent dipoles, and the steady-state populations of the system.
翻訳日:2023-04-21 16:31:24 公開日:2023-04-20
# CUREE:生態系探査用水中ロボット

CUREE: A Curious Underwater Robot for Ecosystem Exploration ( http://arxiv.org/abs/2303.03943v2 )

ライセンス: Link先を確認
Yogesh Girdhar, Nathan McGuire, Levi Cai, Stewart Jamieson, Seth McCammon, Brian Claus, John E. San Soucie, Jessica E. Todd, T. Aran Mooney(参考訳) サンゴ礁のような複雑な水中生態系を探索し監視するための現在のアプローチは、ダイバーヘルドカメラやスタティックカメラを使った測量、センサーブイの展開である。 これらのアプローチはしばしば、異なるサンゴ礁の生物と生息地の間の相互作用の完全な変動と複雑さを捉えない。 本論文で紹介するCUREEプラットフォームは、科学者が生態系のさまざまな側面を探索できるように、ロボットの行動と知覚アルゴリズムという形でユニークな機能セットを提供する。 これらの能力の例としては、低高度の視覚調査、サウンドスケープサーベイ、生息環境の特性評価、動物追跡などがある。 本研究では,アメリカ領ヴァージン諸島のサンゴ礁における2つの海域展開について述べる。 最初の展開では,サンゴ礁に生息するエビが好まれる生息地タイプを視覚的な調査,生息地特性,音環境調査と組み合わせることで識別できることを示した。 第2の展開では,バラクーダとスティングレイをそれぞれ数分間,中水環境とベント環境において個別に追従することで,CUREEが任意の動物を追尾する能力を示す。

The current approach to exploring and monitoring complex underwater ecosystems, such as coral reefs, is to conduct surveys using diver-held or static cameras, or deploying sensor buoys. These approaches often fail to capture the full variation and complexity of interactions between different reef organisms and their habitat. The CUREE platform presented in this paper provides a unique set of capabilities in the form of robot behaviors and perception algorithms to enable scientists to explore different aspects of an ecosystem. Examples of these capabilities include low-altitude visual surveys, soundscape surveys, habitat characterization, and animal following. We demonstrate these capabilities by describing two field deployments on coral reefs in the US Virgin Islands. In the first deployment, we show that CUREE can identify the preferred habitat type of snapping shrimp in a reef through a combination of a visual survey, habitat characterization, and a soundscape survey. In the second deployment, we demonstrate CUREE's ability to follow arbitrary animals by separately following a barracuda and stingray for several minutes each in midwater and benthic environments, respectively.
翻訳日:2023-04-21 16:31:04 公開日:2023-04-20
# choi状態のモーメントによる非マルコフダイナミクスの評価

Assessing non-Markovian dynamics through moments of the Choi state ( http://arxiv.org/abs/2303.03615v2 )

ライセンス: Link先を確認
Bivas Mallick, Saheli Mukherjee, Ananda G. Maity, and A. S. Majumdar(参考訳) 開量子システムダイナミクスにおける非マルコフ効果は、通常、環境からシステムへの情報のバックフローを示し、ダイナミクスの完全な正の分割可能性の破れを示す。 我々は,Choi-matricesのモーメントに基づいて,情報バックフローを示す非マルコフ力学を目撃するための基準を提供する。 行列の正の半定性によって決定されるモーメント条件は、非マルコフ力学を記述するチョイ状態には成り立たない。 次に,提案する非マルコビアン性検出方式を支持する明示的な例を示す。 最後に、単位力学に対する非マルコフ性に関するモーメントに基づく測度が定式化される。

Non-Markovian effects in open quantum system dynamics usually manifest backflow of information from the environment to the system, indicating complete-positive divisibility breaking of the dynamics. We provide a criterion for witnessing such non-Markovian dynamics exhibiting information backflow, based on the moments of Choi-matrices. The moment condition determined by the positive semi-definiteness of a matrix, does not hold for a Choi-state describing non-Markovian dynamics. We then present some explicit examples in support of our proposed non-Markovianity detection scheme. Finally, a moment based measure of non-Markovianity for unital dynamics is formulated.
翻訳日:2023-04-21 16:30:43 公開日:2023-04-20
# アンサンブルに基づく読み出し関数を用いたグラフレベル表現

Graph-level representations using ensemble-based readout functions ( http://arxiv.org/abs/2303.02023v2 )

ライセンス: Link先を確認
Jakub Binkowski, Albert Sawczyn, Denis Janiak, Piotr Bielak, Tomasz Kajdanowicz(参考訳) グラフ機械学習モデルは、さまざまなアプリケーション領域にうまくデプロイされている。 グラフニューラルネットワーク(GNN)は、表現力のあるノードレベルの表現ベクトルを抽出するエレガントな方法を提供する。 しかし、多くのタスクは、例えば分子応用など、グラフ全体のレベルでの表現を必要とする。 ノードレベルの表現をグラフレベルベクトルに変換するには、いわゆる読み出し関数を適用する必要がある。 本研究では,単純な非学習型モデルや複雑なパラメトリモデルを含む既存の読み出し手法について検討する。 我々は,表現と予測を組み合わせたアンサンブルに基づく読み出し関数の概念を導入する。 実験の結果,このようなアンサンブルは,単純な単一読み出しや,複雑でパラメータ化されたものと同様のパフォーマンスを,モデルの複雑さのほんの一部で実現できることがわかった。

Graph machine learning models have been successfully deployed in a variety of application areas. One of the most prominent types of models - Graph Neural Networks (GNNs) - provides an elegant way of extracting expressive node-level representation vectors, which can be used to solve node-related problems, such as classifying users in a social network. However, many tasks require representations at the level of the whole graph, e.g., molecular applications. In order to convert node-level representations into a graph-level vector, a so-called readout function must be applied. In this work, we study existing readout methods, including simple non-trainable ones, as well as complex, parametrized models. We introduce a concept of ensemble-based readout functions that combine either representations or predictions. Our experiments show that such ensembles allow for better performance than simple single readouts or similar performance as the complex, parametrized ones, but at a fraction of the model complexity.
翻訳日:2023-04-21 16:30:33 公開日:2023-04-20
# 制約付きプロキシ学習によるDeep Ordinal Classificationのためのクラスレイアウト制御

Controlling Class Layout for Deep Ordinal Classification via Constrained Proxies Learning ( http://arxiv.org/abs/2303.00396v2 )

ライセンス: Link先を確認
Cong Wang, Zhiwei Jiang, Yafeng Yin, Zifeng Cheng, Shiping Ge, Qing Gu(参考訳) 深い順序の分類では、順序の分類に特有のよく構造化された特徴空間を学ぶことは、クラス間の順序の性質を適切に捉えるのに役立つ。 直観的には、ユークリッド距離計量を用いると、特徴空間における理想的な順序配置は、サンプルクラスタが空間内の直線に沿ってクラス順に配置されることである。 しかし、機能空間の特定のレイアウトに合致するようにサンプルを強制することは難しい問題である。 そこで本研究では,各順序クラスのプロキシを学習し,それらのプロキシを制約することでクラス全体のレイアウトを調整可能な,制約付きプロキシ学習(Constrained Proxies Learning, CPL)手法を提案する。 具体的には,ハードレイアウト制約とソフトレイアウト制約の2種類の戦略を提案する。 ハードレイアウト制約は、プロキシの生成を直接制御して、厳密な線形レイアウトまたは半円形レイアウト(すなわち厳密な順序レイアウトの2つのインスタンス)に配置させることによって実現される。 ソフトレイアウトの制約は、プロキシレイアウトが常に各プロキシ(つまり緩やかな順序のレイアウト)に対して、アンモダルプロキシとプロキシの類似性分布を生成するように制約することで実現される。 実験により,提案手法は特徴抽出器の同一設定下で従来の深部順序分類法よりも優れていることが示された。

For deep ordinal classification, learning a well-structured feature space specific to ordinal classification is helpful to properly capture the ordinal nature among classes. Intuitively, when Euclidean distance metric is used, an ideal ordinal layout in feature space would be that the sample clusters are arranged in class order along a straight line in space. However, enforcing samples to conform to a specific layout in the feature space is a challenging problem. To address this problem, in this paper, we propose a novel Constrained Proxies Learning (CPL) method, which can learn a proxy for each ordinal class and then adjusts the global layout of classes by constraining these proxies. Specifically, we propose two kinds of strategies: hard layout constraint and soft layout constraint. The hard layout constraint is realized by directly controlling the generation of proxies to force them to be placed in a strict linear layout or semicircular layout (i.e., two instantiations of strict ordinal layout). The soft layout constraint is realized by constraining that the proxy layout should always produce unimodal proxy-to-proxies similarity distribution for each proxy (i.e., to be a relaxed ordinal layout). Experiments show that the proposed CPL method outperforms previous deep ordinal classification methods under the same setting of feature extractor.
翻訳日:2023-04-21 16:30:16 公開日:2023-04-20
# 視覚ナビゲーションのためのRenderable Neural Radiance Map

Renderable Neural Radiance Map for Visual Navigation ( http://arxiv.org/abs/2303.00304v4 )

ライセンス: Link先を確認
Obin Kwon, Jeongho Park, Songhwai Oh(参考訳) 本研究では,3d環境全体の視覚情報を含むように設計された,描画可能な神経放射マップ(rnr-map)である視覚ナビゲーションのための新しいタイプのマップを提案する。 RNR-Mapはグリッド形式であり、各ピクセルの遅延符号で構成されている。 これらの潜在コードは画像観察から埋め込まれており、カメラのポーズによって画像レンダリングを可能にするニューラル・ラミアンス・フィールドに変換できる。 記録された潜伏符号には環境に関する情報が暗黙的に含まれており、RNR-Mapは視覚的に記述される。 RNR-Mapのこのビジュアル情報は、視覚的なローカライゼーションとナビゲーションに有用なガイドラインである。 RNRマップを効果的に活用するローカライズおよびナビゲーションフレームワークを開発する。 提案するカメラトラッキング,視覚的位置決め,画像ゴールナビゲーションのフレームワークを評価する。 実験結果から,RNR-Mapベースのローカライゼーションフレームワークは,他のベースラインと比較して高速かつ競合的な精度で,単一のクエリ画像に基づいて目標位置を見つけることができることがわかった。 また、このローカライゼーションフレームワークは環境変化に対して堅牢であり、異なる環境からのクエリイメージが与えられる場合に最も視覚的に類似した場所を見つける。 提案したナビゲーションフレームワークは,既存の画像ゴールナビゲーション手法よりも,音韻法やアクティベーションノイズの下で,困難なシナリオにおいて優れている。 ナビゲーションフレームワークはNRNSデータセットの湾曲したシナリオで65.7%の成功率を示しており、現在の最先端よりも18.6%改善されている。 プロジェクトページ: https://rllab-snu.github.io/projects/RNR-Map/

We propose a novel type of map for visual navigation, a renderable neural radiance map (RNR-Map), which is designed to contain the overall visual information of a 3D environment. The RNR-Map has a grid form and consists of latent codes at each pixel. These latent codes are embedded from image observations, and can be converted to the neural radiance field which enables image rendering given a camera pose. The recorded latent codes implicitly contain visual information about the environment, which makes the RNR-Map visually descriptive. This visual information in RNR-Map can be a useful guideline for visual localization and navigation. We develop localization and navigation frameworks that can effectively utilize the RNR-Map. We evaluate the proposed frameworks on camera tracking, visual localization, and image-goal navigation. Experimental results show that the RNR-Map-based localization framework can find the target location based on a single query image with fast speed and competitive accuracy compared to other baselines. Also, this localization framework is robust to environmental changes, and even finds the most visually similar places when a query image from a different environment is given. The proposed navigation framework outperforms the existing image-goal navigation methods in difficult scenarios, under odometry and actuation noises. The navigation framework shows 65.7% success rate in curved scenarios of the NRNS dataset, which is an improvement of 18.6% over the current state-of-the-art. Project page: https://rllab-snu.github.io/projects/RNR-Map/
翻訳日:2023-04-21 16:29:52 公開日:2023-04-20
# 経済学研究のための機械学習: いつどのように?

Machine Learning for Economics Research: When What and How? ( http://arxiv.org/abs/2304.00086v2 )

ライセンス: Link先を確認
Ajit Desai(参考訳) 本稿では、機械学習(ML)ツールを研究・政策分析に用いた、著名な経済誌に掲載された論文のキュレートされたレビューを提供する。 本レビューでは,1)MLが経済学で使用される場合,(2)MLモデルが一般的に好まれるか,(3)経済的応用にどのように使用されるか,という3つの重要な疑問に焦点をあてる。 レビューでは、mlが特に非伝統的で非構造化データを処理し、強い非線形性をキャプチャし、予測精度を向上させるために使われていることを強調する。 ディープラーニングモデルは非伝統的なデータに適しているが、アンサンブル学習モデルは伝統的なデータセットに好まれる。 従来のエコノメトリモデルは、低複雑さのデータを分析するのに十分であるが、急速なデジタル化と増大する文献により、経済データの複雑さが増すことは、エコノメトリアンのツールボックスにMLが必須の付加物になりつつあることを示唆している。

This article provides a curated review of selected papers published in prominent economics journals that use machine learning (ML) tools for research and policy analysis. The review focuses on three key questions: (1) when ML is used in economics, (2) what ML models are commonly preferred, and (3) how they are used for economic applications. The review highlights that ML is particularly used to process nontraditional and unstructured data, capture strong nonlinearity, and improve prediction accuracy. Deep learning models are suitable for nontraditional data, whereas ensemble learning models are preferred for traditional datasets. While traditional econometric models may suffice for analyzing low-complexity data, the increasing complexity of economic data due to rapid digitalization and the growing literature suggests that ML is becoming an essential addition to the econometrician's toolbox.
翻訳日:2023-04-21 16:22:40 公開日:2023-04-20
# NISQアルゴリズムにおける効率的な読み出し誤り除去手法の開発と実証

Development and Demonstration of an Efficient Readout Error Mitigation Technique for use in NISQ Algorithms ( http://arxiv.org/abs/2303.17741v2 )

ライセンス: Link先を確認
Andrew Arrasmith, Andrew Patterson, Alice Boughton, and Marco Paini(参考訳) 近似状態推定と密接な関係を持つ古典影法により、比較的少ないショットで複雑な可観測性が推定できる。 これらの手法は、読み出しエラーの影響を対称性のあるランダムな測定値を用いているため、量子ビット数の増加とともに$\mathcal{o}(1)$にスケールするサンプル数だけを必要とする読み出しエラー軽減のための簡易なアプローチが可能であることが示されている。 しかし、これらの技術は各ショットで異なる回路を実行する必要があり、通常、実用上の使用を禁じる遅延量が追加される。 本稿では,リードアウト緩和期待値の近似状態推定と,その手法をRigetti量子コンピューティングハードウェア上で最適に実装する方法を検討する。 本研究では,推定された期待値に対する読み出し誤差の影響を明示的に計算し,その影響を緩和する方法を提案する。 リゲッティ制御システムの改善を活用し、このアプローチの効率的な実装を実証する。 相関したエラーの影響を抑止し、読み出しエラーを正確に緩和できるだけでなく、短時間で10^6$のサンプルを15ドル未満で収集し、処理できることがわかりました。 この開発は、この種のランダム化によるメソッドの実践的利用の道を開く。

The approximate state estimation and the closely related classical shadows methods allow for the estimation of complicated observables with relatively few shots. As these methods make use of random measurements that can symmetrise the effect of readout errors, they have been shown to permit simplified approaches to readout error mitigation which require only a number of samples that scales as $\mathcal{O}(1)$ with increasing numbers of qubits. However, these techniques require executing a different circuit at each shot, adding a typically prohibitive amount of latency that prohibits their practical application. In this manuscript we consider the approximate state estimation of readout-mitigated expectation values, and how to best implement that procedure on the Rigetti quantum computing hardware. We discuss the theoretical aspects involved, providing an explicit computation of the effect of readout error on the estimated expectation values and how to mitigate that effect. Leveraging improvements to the Rigetti control systems, we then demonstrate an efficient implementation of this approach. Not only do we find that we can suppress the effect of correlated errors and accurately mitigate the readout errors, we find that we can do so quickly, collecting and processing $10^6$ samples in less than $1.5$ minutes. This development opens the way for practical uses of methods with this type of randomisation.
翻訳日:2023-04-21 16:22:23 公開日:2023-04-20
# オーバーパラメトリズドケースにおける深部ReLUニューラルネットワークのベイズ自由エネルギー

Bayesian Free Energy of Deep ReLU Neural Network in Overparametrized Cases ( http://arxiv.org/abs/2303.15739v3 )

ライセンス: Link先を確認
Shuya Nagayasu, Sumio Watanabe(参考訳) 人工知能の多くの研究分野において、深層ニューラルネットワークは高次元入力空間上で未知の関数を推定するのに有用であることが示されている。 しかし、その一般化性能は、識別不能で特異な学習機械であるため、理論的な観点からはまだ完全には解明されていない。 さらに、ReLU関数は微分不可能であり、特異学習理論における代数的あるいは解析的手法は適用できない。 本稿では,過度にパラメータ化された場合の深部ReLUニューラルネットワークについて検討し,未知のデータ生成関数を推定するために必要な層数より大きい場合においても,ベイズ自由エネルギーがベイズ確率のマイナス対数限界確率に等しいことを証明した。 ベイジアン一般化誤差は標本サイズの関数としての自由エネルギーの増加と等しいため, 深部ReLUニューラルネットワークが十分に大きければ, あるいは超並列化状態であってもベイジアン一般化誤差は増加しないことを示す。

In many research fields in artificial intelligence, it has been shown that deep neural networks are useful to estimate unknown functions on high dimensional input spaces. However, their generalization performance is not yet completely clarified from the theoretical point of view because they are nonidentifiable and singular learning machines. Moreover, a ReLU function is not differentiable, to which algebraic or analytic methods in singular learning theory cannot be applied. In this paper, we study a deep ReLU neural network in overparametrized cases and prove that the Bayesian free energy, which is equal to the minus log marginal likelihoodor the Bayesian stochastic complexity, is bounded even if the number of layers are larger than necessary to estimate an unknown data-generating function. Since the Bayesian generalization error is equal to the increase of the free energy as a function of a sample size, our result also shows that the Bayesian generalization error does not increase even if a deep ReLU neural network is designed to be sufficiently large or in an opeverparametrized state.
翻訳日:2023-04-21 16:22:00 公開日:2023-04-20
# fishdreamer: 画像の切り出しとセグメンテーションの統合による魚眼意味完成に向けて

FishDreamer: Towards Fisheye Semantic Completion via Unified Image Outpainting and Segmentation ( http://arxiv.org/abs/2303.13842v2 )

ライセンス: Link先を確認
Hao Shi, Yu Li, Kailun Yang, Jiaming Zhang, Kunyu Peng, Alina Roitberg, Yaozu Ye, Huajian Ni, Kaiwei Wang, Rainer Stiefelhagen(参考訳) 本稿では,魚眼画像の密接なテクスチャ,構造,意味を,センサ・フィールド・オブ・ビュー(FoV)を超えて推定する,魚眼セマンティック・コンプリート(FSC)の新たな課題を提起する。 魚眼カメラは通常のピンホールカメラよりもfovが大きいが、そのユニークな特殊な撮像モデルは、画像平面の端にある盲目領域を自然に導く。 これは、セマンティックセグメンテーションのような重要な知覚タスクがブラインドゾーン内で非常に困難になるため、安全クリティカルなアプリケーションには最適である。 以前の作品では、アウトFoVのアウトペイントとインFoVのセグメンテーションは別々に検討されていた。 しかし、これらの2つのタスクは実際には密結合である。 魚眼画像とシーン意味論の密接な絡み合いを共同評価するために,新たな極性認識クロスアテンションモジュール (pca) により拡張されたvitsを活用して,異なる極性分布を考慮しつつ,密接な文脈と意味的一貫性のあるコンテンツ生成をガイドする新しい魚眼モデルを提案する。 新たなタスクとアーキテクチャの貢献に加えて,Cityscapes-BFとKITTI360-BFデータセットを導出して,この新しいトラックのトレーニングと評価を容易にする。 実験により,提案手法が各課題を単独で解決する手法を上回り,魚眼意味補完の代替手法を上回ったことを示す。 コードとデータセットはhttps://github.com/masterhow/fishdreamerで公開されている。

This paper raises the new task of Fisheye Semantic Completion (FSC), where dense texture, structure, and semantics of a fisheye image are inferred even beyond the sensor field-of-view (FoV). Fisheye cameras have larger FoV than ordinary pinhole cameras, yet its unique special imaging model naturally leads to a blind area at the edge of the image plane. This is suboptimal for safety-critical applications since important perception tasks, such as semantic segmentation, become very challenging within the blind zone. Previous works considered the out-FoV outpainting and in-FoV segmentation separately. However, we observe that these two tasks are actually closely coupled. To jointly estimate the tightly intertwined complete fisheye image and scene semantics, we introduce the new FishDreamer which relies on successful ViTs enhanced with a novel Polar-aware Cross Attention module (PCA) to leverage dense context and guide semantically-consistent content generation while considering different polar distributions. In addition to the contribution of the novel task and architecture, we also derive Cityscapes-BF and KITTI360-BF datasets to facilitate training and evaluation of this new track. Our experiments demonstrate that the proposed FishDreamer outperforms methods solving each task in isolation and surpasses alternative approaches on the Fisheye Semantic Completion. Code and datasets are publicly available at https://github.com/MasterHow/FishDreamer.
翻訳日:2023-04-21 16:21:22 公開日:2023-04-20
# 物体検出のための未知のスニッファー: 未知の物体に盲目を向けるな

Unknown Sniffer for Object Detection: Don't Turn a Blind Eye to Unknown Objects ( http://arxiv.org/abs/2303.13769v3 )

ライセンス: Link先を確認
Wenteng Liang, Feng Xue, Yihao Liu, Guofeng Zhong, Anlong Ming(参考訳) 最近提案されたオープンワールドオブジェクトとオープンセット検出は、決して認識されないオブジェクトを発見し、それらを既知のオブジェクトと区別するブレークスルーを達成した。 しかし、既知のクラスから未知のクラスへの知識伝達に関する研究は、十分に深くないため、背景に隠れている未知のクラスを検出する能力が不足している。 本稿では,未知のオブジェクトと未知のオブジェクトの両方を見つけるための未知のスニファー(UnSniffer)を提案する。 まず、一般的なオブジェクト信頼度(GOC)スコアを導入し、既知のサンプルのみを監視に使用し、背景にある未知の不正な抑制を回避する。 特に、既知のオブジェクトから学んだ信頼度スコアは、未知のものまで一般化することができる。 さらに,背景の非対象サンプルをさらに抑制するために,負のエネルギー抑制損失を提案する。 次に、各未知の最良のボックスは、トレーニング中に意味情報を欠いているため、推論中に取得することが難しい。 この問題を解決するために,手動設計による非最大抑圧(NMS)後処理を置き換えるグラフベースの決定手法を提案する。 最後に,未知の物体検出ベンチマーク(Unknown Object Detection Benchmark)を提案する。 実験の結果,本手法は既存の最先端手法よりもはるかに優れていることがわかった。

The recently proposed open-world object and open-set detection have achieved a breakthrough in finding never-seen-before objects and distinguishing them from known ones. However, their studies on knowledge transfer from known classes to unknown ones are not deep enough, resulting in the scanty capability for detecting unknowns hidden in the background. In this paper, we propose the unknown sniffer (UnSniffer) to find both unknown and known objects. Firstly, the generalized object confidence (GOC) score is introduced, which only uses known samples for supervision and avoids improper suppression of unknowns in the background. Significantly, such confidence score learned from known objects can be generalized to unknown ones. Additionally, we propose a negative energy suppression loss to further suppress the non-object samples in the background. Next, the best box of each unknown is hard to obtain during inference due to lacking their semantic information in training. To solve this issue, we introduce a graph-based determination scheme to replace hand-designed non-maximum suppression (NMS) post-processing. Finally, we present the Unknown Object Detection Benchmark, the first publicly benchmark that encompasses precision evaluation for unknown detection to our knowledge. Experiments show that our method is far better than the existing state-of-the-art methods.
翻訳日:2023-04-21 16:20:44 公開日:2023-04-20
# 慣性幾何学的量子論理ゲート

Inertial geometric quantum logic gates ( http://arxiv.org/abs/2303.13674v2 )

ライセンス: Link先を確認
Daniel Turyansky, Oded Ovdat, Roie Dann, Ziv Aqua, Ronnie Kosloff, Barak Dayan, Adi Pick(参考訳) 単一および2量子ビットの量子論理ゲートに対する高速かつ堅牢なプロトコルを提案する。 我々のゲートは、'emph{slowly accelerating} ``inertial'' Hamiltonian の瞬時固有状態によって得られる幾何学的位相に基づいている。 まず慣性集団移動の条件を定義し、次にこれらの条件を満たすパルス形状を求める。 我々はこれらのパルスを用いて慣性量子論理ゲートを実行し、その性能を最適化する。 本手法の適用例として,$^{87}$Rb原子を用いたプロトコルの実装を提案し,偏光および漏洩誤差の影響を解析する。 我々の手法は幾何学ゲートを超えて拡張することができ、断熱量子計算プロトコルの高速化に有用である。

We present rapid and robust protocols for single- and two-qubit quantum logic gates. Our gates are based on geometric phases acquired by instantaneous eigenstates of a \emph{slowly accelerating} ``inertial'' Hamiltonian. We begin by defining conditions for inertial population transfer and, then, find pulse shapes that meet these conditions. We use those pulses to perform inertial quantum logic gates and optimize their performance. As an application of our approach, we propose an implementation of our protocol with $^{87}$Rb atoms and analyze the effect of polarization and leakage errors. Our approach can be extended beyond geometric gates and is useful for speeding up adiabatic quantum computation protocols.
翻訳日:2023-04-21 16:20:24 公開日:2023-04-20
# 円偏光レーザー光の存在下での水素様原子の動的スタークシフト

Dynamic Stark shift of Hydrogen-like atoms in the presence of circularly polarized laser light ( http://arxiv.org/abs/2303.12266v2 )

ライセンス: Link先を確認
Behnam Nikoobakht(参考訳) 円偏光レーザー光の存在下での水素エネルギー準位の動的スタークシフトの解析的導出について述べる。 古典的枠組みを用いて,レーザーと原子の相互作用について検討し,2次量子化レーザーと原子双極子相互作用ハミルトニアンを用いた時間非依存摂動理論にアプローチする。 そこで我々は, 円偏光レーザー光の存在下で, 原子水素の励起過程や, 原子価の低い水素様イオンの励起過程について検討した。 これら2つの方法を用いた水素エネルギー準位の動的交流スタークシフトの導出式は、大きな光子数の極限において同じであることが示されている。

The analytic derivation of the dynamic Stark shift of hydrogenic energy levels in the presence of the circularly polarized laser light is presented. We use the classical framework with considering an adiabatically damped laser+atom interaction and an approach relies on time-independent perturbation theory with a second-quantized laser+atom dipole interaction Hamiltonian. We thus investigate the excitation process in atomic hydrogen or in a hydrogen like ion with low nuclear charge number in the presence of the circularly polarized laser light. The derived formula for the dynamic AC Stark shift of hydrogenic energy levels using these two methods are shown to be same in the limit of large photon numbers.
翻訳日:2023-04-21 16:19:51 公開日:2023-04-20
# ハイブリッド畳み込みに基づくデュアルドメインネットワークによるハイパースペクトル画像超解像

Hyperspectral Image Super-Resolution via Dual-domain Network Based on Hybrid Convolution ( http://arxiv.org/abs/2304.04589v4 )

ライセンス: Link先を確認
Tingting Liu, Yuan Liu, Chuncheng Zhang, Yuan Liyin, Xiubao Sui, Qian Chen(参考訳) 入射エネルギーは限られているため,空間分解能の高いハイパースペクトル画像(HSI)を直接取得することは困難である。 HSIの高次元性と相関性を考えると、HSIの超解像(SR)は補助高分解能画像がない場合の課題である。 さらに,空間的特徴を効果的に抽出し,スペクトル情報を十分に活用することが重要である。 本稿では,ハイブリッド畳み込み(srdnet)に基づくデュアルドメインネットワークと呼ばれる,新しいhsiスーパーレゾリューションアルゴリズムを提案する。 具体的には、双対領域ネットワークは、超スペクトルデータの空間スペクトルと周波数情報をフル活用するように設計されている。 スペクトル間自己相似性を捉えるため、空間領域に自己注意学習機構(HSL)を考案する。 一方、ピラミッド構造は注意の受容領域を高めるために適用され、ネットワークの特徴表現能力をさらに強化する。 さらに、HSIの知覚品質をさらに向上するため、周波数領域のモデルを最適化するために周波数損失(HFL)を導入する。 動的重み付け機構は、空間損失に起因する発生周波数と過度な平滑化を徐々に改善するネットワークを駆動する。 最後に, 高分解能空間と低分解能空間のマッピング関係をよりよく把握するために, 漸進的なアップサンプリング戦略を持つ2dおよび3dユニットのハイブリッドモジュールを用いた。 ベンチマークデータセットを用いた実験では,提案手法がhsiのテクスチャ情報を強化し,最先端の手法よりも優れていることを示す。

Since the number of incident energies is limited, it is difficult to directly acquire hyperspectral images (HSI) with high spatial resolution. Considering the high dimensionality and correlation of HSI, super-resolution (SR) of HSI remains a challenge in the absence of auxiliary high-resolution images. Furthermore, it is very important to extract the spatial features effectively and make full use of the spectral information. This paper proposes a novel HSI super-resolution algorithm, termed dual-domain network based on hybrid convolution (SRDNet). Specifically, a dual-domain network is designed to fully exploit the spatial-spectral and frequency information among the hyper-spectral data. To capture inter-spectral self-similarity, a self-attention learning mechanism (HSL) is devised in the spatial domain. Meanwhile the pyramid structure is applied to increase the acceptance field of attention, which further reinforces the feature representation ability of the network. Moreover, to further improve the perceptual quality of HSI, a frequency loss(HFL) is introduced to optimize the model in the frequency domain. The dynamic weighting mechanism drives the network to gradually refine the generated frequency and excessive smoothing caused by spatial loss. Finally, In order to better fully obtain the mapping relationship between high-resolution space and low-resolution space, a hybrid module of 2D and 3D units with progressive upsampling strategy is utilized in our method. Experiments on a widely used benchmark dataset illustrate that the proposed SRDNet method enhances the texture information of HSI and is superior to state-of-the-art methods.
翻訳日:2023-04-21 16:13:49 公開日:2023-04-20
# ファクトニュース検出のための類似性を考慮したマルチモーダルプロンプト学習

Similarity-Aware Multimodal Prompt Learning for Fake News Detection ( http://arxiv.org/abs/2304.04187v2 )

ライセンス: Link先を確認
Ye Jiang, Xiaomin Yu, Yimin Wang, Xiaoman Xu, Xingyi Song and Diana Maynard(参考訳) 偽ニュース検出の標準パラダイムは、主にテキスト情報を用いてニュースの真偽をモデル化する。 しかし、オンラインフェイクニュースの言説は典型的には微妙であり、専門家は偽ニュースを解読するためにテキスト情報を使う必要がある。 近年,マルチモーダルフェイクニュース検出に注目する研究が,テキストのみの手法を上回っている。 事前学習モデルを用いたユニモーダルな特徴抽出や事前学習モデルを直接微調整するという最近のアプローチは、偽ニュースを検出する新しいパラダイムとなっている。 繰り返しになるが、このパラダイムは大量のトレーニングインスタンスを必要とするか、事前訓練されたモデルのパラメータセット全体を更新する。 さらに、従来のマルチモーダル手法は、非相関な意味表現がマルチモーダル特徴にノイズを注入する可能性を考慮せずに、クロスモーダル特徴を直接融合する。 本稿では,Simisity-Aware Multimodal Prompt Learning (SAMPLE)フレームワークを提案する。 まず,マルチモーダルな偽ニュース検出に即時学習を取り入れた。 プロンプトのみを凍った言語モデルでチューニングするプロンプト学習は、メモリ使用量を大幅に削減し、微調整と比較して同等のパフォーマンスを達成することができる。 我々は3つのプロンプトテンプレートをソフトな言葉遣いで分析し、偽ニュースを検出する。 さらに,マルチモーダル表現の強度を適応的に融合させ,非相関なクロスモーダル特徴によるノイズインジェクションを緩和する類似性認識fusing法を提案する。 評価のために、SAMPLEは2つのベンチマークマルチモーダルデータセットにおけるF1および以前の研究の精度を上回り、偽ニュースを検出する方法の有効性を実証した。 さらにSAMPLEは、少数ショットやデータリッチな設定に関わらず、他のアプローチよりも優れている。

The standard paradigm for fake news detection mainly utilizes text information to model the truthfulness of news. However, the discourse of online fake news is typically subtle and it requires expert knowledge to use textual information to debunk fake news. Recently, studies focusing on multimodal fake news detection have outperformed text-only methods. Recent approaches utilizing the pre-trained model to extract unimodal features, or fine-tuning the pre-trained model directly, have become a new paradigm for detecting fake news. Again, this paradigm either requires a large number of training instances, or updates the entire set of pre-trained model parameters, making real-world fake news detection impractical. Furthermore, traditional multimodal methods fuse the cross-modal features directly without considering that the uncorrelated semantic representation might inject noise into the multimodal features. This paper proposes a Similarity-Aware Multimodal Prompt Learning (SAMPLE) framework. First, we incorporate prompt learning into multimodal fake news detection. Prompt learning, which only tunes prompts with a frozen language model, can reduce memory usage significantly and achieve comparable performances, compared with fine-tuning. We analyse three prompt templates with a soft verbalizer to detect fake news. In addition, we introduce the similarity-aware fusing method to adaptively fuse the intensity of multimodal representation and mitigate the noise injection via uncorrelated cross-modal features. For evaluation, SAMPLE surpasses the F1 and the accuracies of previous works on two benchmark multimodal datasets, demonstrating the effectiveness of the proposed method in detecting fake news. In addition, SAMPLE also is superior to other approaches regardless of few-shot and data-rich settings.
翻訳日:2023-04-21 16:13:11 公開日:2023-04-20
# 松原 n-点関数のスペクトル表現:実核関数とその応用

Spectral representation of Matsubara n-point functions: Exact kernel functions and applications ( http://arxiv.org/abs/2304.03774v2 )

ライセンス: Link先を確認
Johannes Halbinger, Benedikt Schneider and Bj\"orn Sbierski(参考訳) 量子多体物理学の分野において、スペクトル(あるいはリーマン)表現は、ハミルトニアンの固有系が知られている場合、松原 n-点相関関数の計算を単純化する。 これは普遍カーネル関数と行列要素のシステムおよび相関子固有の積を介して表現される。 ここでは、任意の n に対して、ボソニック作用素またはフェルミオン作用素の任意の組み合わせ、および任意の数の異常項に対して、核関数を全一般性で提供する。 応用として、フェルミオンハバード原子と長さSの自由スピンに対するボソニック3点と4点の相関関数を考える。

In the field of quantum many-body physics, the spectral (or Lehmann) representation simplifies the calculation of Matsubara n-point correlation functions if the eigensystem of a Hamiltonian is known. It is expressed via a universal kernel function and a system- and correlator-specific product of matrix elements. Here we provide the kernel functions in full generality, for arbitrary n, arbitrary combinations of bosonic or fermionic operators and an arbitrary number of anomalous terms. As an application, we consider bosonic 3- and 4-point correlation functions for the fermionic Hubbard atom and a free spin of length S, respectively.
翻訳日:2023-04-21 16:12:44 公開日:2023-04-20
# ChatGPTとGPT-4の論理的推論能力の評価

Evaluating the Logical Reasoning Ability of ChatGPT and GPT-4 ( http://arxiv.org/abs/2304.03439v2 )

ライセンス: Link先を確認
Hanmeng Liu, Ruoxi Ning, Zhiyang Teng, Jian Liu, Qiji Zhou, Yue Zhang(参考訳) 論理的推論能力の調和は、包括的な自然言語理解の取り組みである。 Generative Pretrained Transformer 4 (GPT-4) のリリースにより、様々な論理的推論タスクについて GPT-4 のパフォーマンスを学習したいと考えている。 この記事では、LogiQAやReClorといった一般的なベンチマークと、新たにリリースされたAR-LSATなどのデータセットを用いて、複数の論理推論データセットを分析します。 我々は、論理的推論を必要とするベンチマークを用いて、多選択読解と自然言語推論タスクをテストする。 さらに,ChatGPTとGPT-4のロバスト性を調べるために,分布外の論理的推論データセットを構築した。 また,ChatGPTとGPT-4の性能比較を行った。 実験結果から,ChatGPTは,ほとんどの論理的推論ベンチマークにおいて,RoBERTaファインチューニング法よりも優れた性能を示した。 GPT-4 APIへの早期アクセスにより、私たちはGPT-4モデルで激しい実験を行うことができます。 その結果、GPT-4は、ほとんどの論理的推論データセットでさらに高い性能を示すことがわかった。 ベンチマークの中で、ChatGPTとGPT-4はLogiQAやReClorのようなよく知られたデータセットで比較的うまく動作する。 しかし、新しいリリースとアウト・オブ・ディストリビューションデータセットを扱うと、パフォーマンスは大幅に低下する。 chatgptやgpt-4、特にアウトオブディストリビューションや自然言語推論データセットでは、論理的推論は依然として困難である。 プロンプトスタイルの論理推論データセットをベンチマークスイートとしてリリースし、LogiEvalと名付けます。

Harnessing logical reasoning ability is a comprehensive natural language understanding endeavor. With the release of Generative Pretrained Transformer 4 (GPT-4), highlighted as "advanced" at reasoning tasks, we are eager to learn the GPT-4 performance on various logical reasoning tasks. This report analyses multiple logical reasoning datasets, with popular benchmarks like LogiQA and ReClor, and newly-released datasets like AR-LSAT. We test the multi-choice reading comprehension and natural language inference tasks with benchmarks requiring logical reasoning. We further construct a logical reasoning out-of-distribution dataset to investigate the robustness of ChatGPT and GPT-4. We also make a performance comparison between ChatGPT and GPT-4. Experiment results show that ChatGPT performs significantly better than the RoBERTa fine-tuning method on most logical reasoning benchmarks. With early access to the GPT-4 API we are able to conduct intense experiments on the GPT-4 model. The results show GPT-4 yields even higher performance on most logical reasoning datasets. Among benchmarks, ChatGPT and GPT-4 do relatively well on well-known datasets like LogiQA and ReClor. However, the performance drops significantly when handling newly released and out-of-distribution datasets. Logical reasoning remains challenging for ChatGPT and GPT-4, especially on out-of-distribution and natural language inference datasets. We release the prompt-style logical reasoning datasets as a benchmark suite and name it LogiEval.
翻訳日:2023-04-21 16:12:33 公開日:2023-04-20
# 運動的制約付き拡散におけるスケーリングと局在

Scaling and localization in kinetically constrained diffusion ( http://arxiv.org/abs/2304.03276v2 )

ライセンス: Link先を確認
Jung Hoon Han, Ethan Lake, and Sunghan Ro(参考訳) 本研究では, 質量中心を動力学が保存する古典粒子系の拡散について検討する。 この保存法則はいくつかの興味深い結果をもたらす。 有限系では、系の境界付近で指数関数的に局所化される平衡分布が許される。 これはまた平衡に対する特異なアプローチをもたらし、$d$次元では動的指数 $z = 4+d$ のスケーリングを示す。 同様の現象は密度のより高いモーメントを保存するダイナミクスにも起こり、非線形拡散方程式の族を用いて体系的に分類する。 量子設定では、類似のフェルミオン系は実空間フェルミ曲面を形成することが示され、ボソニックバージョンはボース=アインシュタイン凝縮の実空間類似を示す。

We study diffusion in systems of classical particles whose dynamics conserves the total center of mass. This conservation law leads to several interesting consequences. In finite systems, it allows for equilibrium distributions that are exponentially localized near system boundaries. It also yields an unusual approach to equilibrium, which in $d$ dimensions exhibits scaling with dynamical exponent $z = 4+d$. Similar phenomena occur for dynamics that conserves higher moments of the density, which we systematically classify using a family of nonlinear diffusion equations. In the quantum setting, analogous fermionic systems are shown to form real-space Fermi surfaces, while bosonic versions display a real-space analog of Bose-Einstein condensation.
翻訳日:2023-04-21 16:11:55 公開日:2023-04-20
# ParroT: 大規模言語モデルを用いたチャット中の翻訳

ParroT: Translating During Chat Using Large Language Models ( http://arxiv.org/abs/2304.02426v3 )

ライセンス: Link先を確認
Wenxiang Jiao, Jen-tse Huang, Wenxuan Wang, Xing Wang, Shuming Shi and Zhaopeng Tu(参考訳) ChatGPTやGPT-4のような大規模言語モデル(LLM)は、チャット中に達成された様々な機械翻訳機能を含む幅広い自然言語処理(NLP)タスクに顕著な能力を発揮している。 しかし、これらのモデルは制限されたapiを通してのみアクセス可能であり、この分野の新しい研究と進歩の障壁となる。 そこで我々は、オープンソースのLLM(LLaMA-7b, BLOOMZ-7b-mt)と人文翻訳・評価データに基づいて、チャット中の翻訳能力を向上・調整するための$\mathbf{ParroT}$フレームワークを提案する。 具体的には、ParroTは、翻訳データを命令フォロースタイルに再構成し、翻訳プロセスを制御するために追加の要件を組み込む"$\mathbf{Hint}$"フィールドを導入する。 そこで本研究では,翻訳命令,コントラスト命令,エラーガイド命令など,parrotモデルの微調整を行う3つの命令型を提案する。 低階適応(LoRA)により、全モデルまたは部分パラメータを微調整できる。 floresサブセットとwmt22テストセットの実験は、翻訳命令がバニラllmの翻訳性能を大幅に向上させる一方で、エラーガイド命令は、人間が注釈付けした低品質翻訳から学ぶことの重要性を示すさらなる改善につながることを示唆している。 一方、ParroTモデルは、微調整に関わるAlpacaのマルチタスクデータセットで一般的なタスクの能力を維持できる。 実装の詳細については、Githubプロジェクトを参照してください。

Large language models (LLMs) like ChatGPT and GPT-4 have exhibited remarkable abilities on a wide range of natural language processing (NLP) tasks, including various machine translation abilities accomplished during chat. However, these models are only accessible through restricted APIs, which creates barriers to new research and advancements in the field. Therefore, we propose the $\mathbf{ParroT}$ framework to enhance and regulate the translation abilities during chat based on open-sourced LLMs (i.e., LLaMA-7b, BLOOMZ-7b-mt) and human written translation and evaluation data. Specifically, ParroT reformulates translation data into the instruction-following style, and introduces a "$\mathbf{Hint}$" field for incorporating extra requirements to regulate the translation process. Accordingly, we propose three instruction types for finetuning ParroT models, including translation instruction, contrastive instruction, and error-guided instruction. We can finetune either the full models or partial parameters via low rank adaptation (LoRA). Experiments on Flores subsets and WMT22 test sets suggest that translation instruction improves the translation performance of vanilla LLMs significantly while error-guided instruction can lead to a further improvement, which demonstrates the importance of learning from low-quality translations annotated by human. Meanwhile, the ParroT models can also preserve the ability on general tasks with the Alpaca multi-task dataset involved in finetuning. Please refer to our Github project for more implementation details: https://github.com/wxjiao/ParroT
翻訳日:2023-04-21 16:11:44 公開日:2023-04-20
# OpenContrails:GOES-16 ABI上でのコントラル検出のベンチマーク

OpenContrails: Benchmarking Contrail Detection on GOES-16 ABI ( http://arxiv.org/abs/2304.02122v2 )

ライセンス: Link先を確認
Joe Yue-Hei Ng, Kevin McCloskey, Jian Cui, Vincent R. Meijer, Erica Brand, Aaron Sarna, Nita Goyal, Christopher Van Arsdale, Scott Geraedts(参考訳) コントラル(Contrails)は、航空機によって引き起こされる線状氷雲であり、おそらく航空による気候変動の最大の要因である。 コントラル回避は、航空の気候への影響を大幅に減らすための安価な方法である可能性がある。 自動コントラ検出システムは、コントラル回避システムの開発と評価に必須のツールである。 本稿では,GOES-16 Advanced Baseline Imager (ABI)データに基づいて,コントラクション検出モデルのトレーニングと評価を行う,OpenContrailsというラベル付きデータセットを提案する。 本稿では,検出精度を向上させるために時間的コンテキストを組み込んだ反則検出モデルを提案し,評価する。 human labeled datasetとcontrail detection outputsは、gs://goes_contrails_dataset.google cloud storageで公開されている。

Contrails (condensation trails) are line-shaped ice clouds caused by aircraft and are likely the largest contributor of aviation-induced climate change. Contrail avoidance is potentially an inexpensive way to significantly reduce the climate impact of aviation. An automated contrail detection system is an essential tool to develop and evaluate contrail avoidance systems. In this paper, we present a human-labeled dataset named OpenContrails to train and evaluate contrail detection models based on GOES-16 Advanced Baseline Imager (ABI) data. We propose and evaluate a contrail detection model that incorporates temporal context for improved detection accuracy. The human labeled dataset and the contrail detection outputs are publicly available on Google Cloud Storage at gs://goes_contrails_dataset.
翻訳日:2023-04-21 16:11:15 公開日:2023-04-20
# TransPimLib: メモリ内処理システムにおける効率的な超越関数ライブラリ

TransPimLib: A Library for Efficient Transcendental Functions on Processing-in-Memory Systems ( http://arxiv.org/abs/2304.01951v2 )

ライセンス: Link先を確認
Maurus Item, Juan G\'omez-Luna, Yuxin Guo, Geraldo F. Oliveira, Mohammad Sadrosadati, Onur Mutlu(参考訳) プロセッシング・イン・メモリ(PIM)は、現代のコンピューティングシステムにおけるデータ移動のボトルネックを軽減することを約束する。 しかし、現在の実世界のpimシステムは、メモリの近くで処理要素を構築するのが困難でコストがかかるため、ハードウェアが従来のプロセッサ(cpu、gpu)よりも制約が強いという固有の欠点がある。 その結果、汎用PIMアーキテクチャは、かなり限られた命令セットをサポートし、超越関数などの複雑な操作(例えば平方根)を実行するのに苦労する。 これらの操作は、機械学習アプリケーションにおけるアクティベーション機能など、現代のワークロードにおいて特に重要である。 汎用PIMシステムにおける超越関数(およびその他のハード・トゥ・カルキュレート関数)のサポートを提供するため,CORDICに基づく三角関数,双曲関数,指数関数,対数,平方根などのためのライブラリである \emph{TransPimLib} を提案する。 UPMEM PIMアーキテクチャのためのTransPimLibの実装を開発し、マイクロベンチマークと3つのフルワークロード(Blackscholes, Sigmoid, Softmax)を用いて、TransPimLibの手法を性能と精度で徹底的に評価する。 私たちは、すべてのコードとデータセットを、~\url{https://github.com/CMU-SAFARI/transpimlib}でオープンソースにしています。

Processing-in-memory (PIM) promises to alleviate the data movement bottleneck in modern computing systems. However, current real-world PIM systems have the inherent disadvantage that their hardware is more constrained than in conventional processors (CPU, GPU), due to the difficulty and cost of building processing elements near or inside the memory. As a result, general-purpose PIM architectures support fairly limited instruction sets and struggle to execute complex operations such as transcendental functions and other hard-to-calculate operations (e.g., square root). These operations are particularly important for some modern workloads, e.g., activation functions in machine learning applications. In order to provide support for transcendental (and other hard-to-calculate) functions in general-purpose PIM systems, we present \emph{TransPimLib}, a library that provides CORDIC-based and LUT-based methods for trigonometric functions, hyperbolic functions, exponentiation, logarithm, square root, etc. We develop an implementation of TransPimLib for the UPMEM PIM architecture and perform a thorough evaluation of TransPimLib's methods in terms of performance and accuracy, using microbenchmarks and three full workloads (Blackscholes, Sigmoid, Softmax). We open-source all our code and datasets at~\url{https://github.com/CMU-SAFARI/transpimlib}.
翻訳日:2023-04-21 16:11:02 公開日:2023-04-20
# cornerformer: きめ細かい構造再構築のためのコーナー表現の強化

CornerFormer: Boosting Corner Representation for Fine-Grained Structured Reconstruction ( http://arxiv.org/abs/2304.07072v2 )

ライセンス: Link先を確認
Hongbo Tian and Yulong Li and Linzhi Huang and Yue Yang and Weihong Deng(参考訳) 構造化再構成は非自明な密集した予測問題であり、ラスター画像から構造情報(例えば、建物角とエッジ)を抽出し、それを2次元平面グラフに再構成する。 一般的なセグメンテーションや検出問題と比較すると、構造的推論に全体幾何学的情報を活用する能力に大きく依存する。 現在の変圧器ベースのアプローチは、第1モデルのコーナーを検出し、第2モデルのエッジ(コーナーペア)を分類する、2段階的な方法でこの問題に取り組む。 しかし、2段階を異なるモデルに分離し、バックボーンエンコーダのみを共有する。 既存のモデリング戦略と異なり,コーナー表現法が強化されている。 1) 異なる粒度で特徴を共有することにより,コーナー検出とエッジ予測の知識を融合させる。 2)角膜候補は4つの熱マップチャネルにおいてその方向を示す。 質的および定量的評価により,提案手法は隣接する角や微小な縁などの細粒構造をよりよく再構成できることが証明された。 その結果、Cornerでは+1.9\%@F-1、Edgeでは+3.0\%@F-1で最先端モデルより優れている。

Structured reconstruction is a non-trivial dense prediction problem, which extracts structural information (\eg, building corners and edges) from a raster image, then reconstructs it to a 2D planar graph accordingly. Compared with common segmentation or detection problems, it significantly relays on the capability that leveraging holistic geometric information for structural reasoning. Current transformer-based approaches tackle this challenging problem in a two-stage manner, which detect corners in the first model and classify the proposed edges (corner-pairs) in the second model. However, they separate two-stage into different models and only share the backbone encoder. Unlike the existing modeling strategies, we present an enhanced corner representation method: 1) It fuses knowledge between the corner detection and edge prediction by sharing feature in different granularity; 2) Corner candidates are proposed in four heatmap channels w.r.t its direction. Both qualitative and quantitative evaluations demonstrate that our proposed method can better reconstruct fine-grained structures, such as adjacent corners and tiny edges. Consequently, it outperforms the state-of-the-art model by +1.9\%@F-1 on Corner and +3.0\%@F-1 on Edge.
翻訳日:2023-04-21 16:03:58 公開日:2023-04-20
# 第2回単眼深度推定チャレンジ

The Second Monocular Depth Estimation Challenge ( http://arxiv.org/abs/2304.07051v2 )

ライセンス: Link先を確認
Jaime Spencer, C. Stella Qian, Michaela Trescakova, Chris Russell, Simon Hadfield, Erich W. Graf, Wendy J. Adams, Andrew J. Schofield, James Elder, Richard Bowden, Ali Anwar, Hao Chen, Xiaozhi Chen, Kai Cheng, Yuchao Dai, Huynh Thai Hoa, Sadat Hossain, Jianmian Huang, Mohan Jing, Bo Li, Chao Li, Baojun Li, Zhiwen Liu, Stefano Mattoccia, Siegfried Mercelis, Myungwoo Nam, Matteo Poggi, Xiaohua Qi, Jiahui Ren, Yang Tang, Fabio Tosi, Linh Trinh, S. M. Nadim Uddin, Khan Muhammad Umair, Kaixuan Wang, Yufei Wang, Yixing Wang, Mochu Xiang, Guangkai Xu, Wei Yin, Jun Yu, Qi Zhang, Chaoqiang Zhao(参考訳) 本稿では,モノクル深度推定チャレンジ(MDEC)の第2版の結果について述べる。 このエディションは、完全な教師付き、自己監督型、マルチタスク、プロキシの深さを含む、いかなる形式の監視方法にも開放された。 この課題はSynS-Patchesデータセットに基づいており、高品質な高密度の地下構造を持つ幅広い環境が特徴である。 これには、例えば森林や畑のような複雑な自然環境が含まれており、現在のベンチマークでは、非常に過小評価されている。 この課題は、pointcloudやイメージベースのメトリクスで提供されるsataベースラインを上回る8つのユニークな提案を受けた。 上位の監督官は相対的なFスコアを27.62%改善し、上位の監督官は16.61%改善した。 監視された提出は一般的に、データの多様性を改善するために大量のデータセットのコレクションを活用する。 自己監督による提出は、代わりにネットワークアーキテクチャと事前トレーニングされたバックボーンを更新した。 これらの結果は、深度境界における補間アーティファクトの削減、自己監督型室内性能の向上、全体的な自然画像の精度の向上など、将来の研究の道のりを強調しながら、この分野における大きな進歩を示している。

This paper discusses the results for the second edition of the Monocular Depth Estimation Challenge (MDEC). This edition was open to methods using any form of supervision, including fully-supervised, self-supervised, multi-task or proxy depth. The challenge was based around the SYNS-Patches dataset, which features a wide diversity of environments with high-quality dense ground-truth. This includes complex natural environments, e.g. forests or fields, which are greatly underrepresented in current benchmarks. The challenge received eight unique submissions that outperformed the provided SotA baseline on any of the pointcloud- or image-based metrics. The top supervised submission improved relative F-Score by 27.62%, while the top self-supervised improved it by 16.61%. Supervised submissions generally leveraged large collections of datasets to improve data diversity. Self-supervised submissions instead updated the network architecture and pretrained backbones. These results represent a significant progress in the field, while highlighting avenues for future research, such as reducing interpolation artifacts at depth boundaries, improving self-supervised indoor performance and overall natural image accuracy.
翻訳日:2023-04-21 16:03:42 公開日:2023-04-20
# DiffFit: 簡単なパラメータ効率の良い微調整による大拡散モデルの解錠性

DiffFit: Unlocking Transferability of Large Diffusion Models via Simple Parameter-Efficient Fine-Tuning ( http://arxiv.org/abs/2304.06648v2 )

ライセンス: Link先を確認
Enze Xie, Lewei Yao, Han Shi, Zhili Liu, Daquan Zhou, Zhaoqiang Liu, Jiawei Li, Zhenguo Li(参考訳) 拡散モデルは高品質な画像の生成に非常に有効であることが証明されている。 しかし、大規模な事前学習拡散モデルを新しい領域に適用することは、現実世界のアプリケーションにとって重要な課題である。 本稿では,新しい領域への高速適応を可能にする大規模事前学習拡散モデルを微調整するパラメータ効率の高い手法であるdifffitを提案する。 DiffFitは、特定のレイヤでバイアス項と新たに追加されたスケーリング要素のみを微調整するが、トレーニングのスピードアップとモデルストレージコストの削減をもたらす、恥ずかしいほど単純である。 完全な微調整と比較すると、DiffFitは2$\times$トレーニングスピードアップを実現しており、全体のモデルパラメータの約0.12\%を格納する必要がある。 高速適応におけるスケーリング因子の有効性を正当化する直観的理論解析が提案されている。 下流の8つのデータセットでは、DiffFitはより効率的でありながら、完全な微調整よりも優れた、あるいは競争的なパフォーマンスを達成する。 注目すべきは、DiffFitが最小のコストを加えることで、訓練済みの低解像度生成モデルを高解像度に適応できることである。 拡散ベースの手法の中で、DiffFitはImageNet 512$\times$512ベンチマークで3.02の最先端FIDを新たに設定し、公開前のImageNet 256$\times$256チェックポイントから25エポックだけを微調整した。

Diffusion models have proven to be highly effective in generating high-quality images. However, adapting large pre-trained diffusion models to new domains remains an open challenge, which is critical for real-world applications. This paper proposes DiffFit, a parameter-efficient strategy to fine-tune large pre-trained diffusion models that enable fast adaptation to new domains. DiffFit is embarrassingly simple that only fine-tunes the bias term and newly-added scaling factors in specific layers, yet resulting in significant training speed-up and reduced model storage costs. Compared with full fine-tuning, DiffFit achieves 2$\times$ training speed-up and only needs to store approximately 0.12\% of the total model parameters. Intuitive theoretical analysis has been provided to justify the efficacy of scaling factors on fast adaptation. On 8 downstream datasets, DiffFit achieves superior or competitive performances compared to the full fine-tuning while being more efficient. Remarkably, we show that DiffFit can adapt a pre-trained low-resolution generative model to a high-resolution one by adding minimal cost. Among diffusion-based methods, DiffFit sets a new state-of-the-art FID of 3.02 on ImageNet 512$\times$512 benchmark by fine-tuning only 25 epochs from a public pre-trained ImageNet 256$\times$256 checkpoint while being 30$\times$ more training efficient than the closest competitor.
翻訳日:2023-04-21 16:03:14 公開日:2023-04-20
# 意味理解とコミュニケーションのためのニューラルネットワークにおける記号の出現

Emergence of Symbols in Neural Networks for Semantic Understanding and Communication ( http://arxiv.org/abs/2304.06377v2 )

ライセンス: Link先を確認
Yang Chen, Liangxuan Guo, Shan Yu(参考訳) 有意義なシンボルを創造し、コミュニケーション、推論、計画などの高度な認知機能に熟達することができることは、人間の知性にとって必須でユニークなものである。 現在のディープニューラルネットワークは、そのような高次認知機能のためのシンボルを作成する人間の能力にはまだ及ばない。 本稿では,記号生成,意味理解,コミュニケーション機能を備えたニューラルネットワークを付与する解であるsea-netを提案する。 SEA-netは特定のタスクを実行するためにネットワークを動的に構成するシンボルを生成する。 これらのシンボルは合成意味情報をキャプチャし、システムは記号操作や通信によって純粋に新しい関数を取得できる。 さらに,これらの自己生成記号は自然言語に類似した固有構造を示し,人間の脳とニューラルネットワークの両方における記号の生成と理解の基盤となる共通の枠組みを示唆する。 将来的には、コネクショニストとaiのシンボリックなアプローチの強みを両立させるような、より有能なシステムを作るための手段になることを願っています。

Being able to create meaningful symbols and proficiently use them for higher cognitive functions such as communication, reasoning, planning, etc., is essential and unique for human intelligence. Current deep neural networks are still far behind human's ability to create symbols for such higher cognitive functions. Here we propose a solution, named SEA-net, to endow neural networks with ability of symbol creation, semantic understanding and communication. SEA-net generates symbols that dynamically configure the network to perform specific tasks. These symbols capture compositional semantic information that enables the system to acquire new functions purely by symbolic manipulation or communication. In addition, we found that these self-generated symbols exhibit an intrinsic structure resembling that of natural language, suggesting a common framework underlying the generation and understanding of symbols in both human brains and artificial neural networks. We hope that it will be instrumental in producing more capable systems in the future that can synergize the strengths of connectionist and symbolic approaches for AI.
翻訳日:2023-04-21 16:02:45 公開日:2023-04-20
# 物理インフォームドラジアル基底ネットワーク(pirbn) : 非線形pdes解のための局所近似ニューラルネットワーク

Physics-informed radial basis network (PIRBN): A local approximating neural network for solving nonlinear PDEs ( http://arxiv.org/abs/2304.06234v2 )

ライセンス: Link先を確認
Jinshuai Bai, Gui-Rong Liu, Ashish Gupta, Laith Alzubaidi, Xi-Qiao Feng, YuanTong Gu(参考訳) 最近の集中的な研究によると、物理インフォームドニューラルネットワーク(PINN)は訓練後に局所近似器となる傾向にある。 この観察により、この新しい物理インフォームドラジアルベースネットワーク(PIRBN)が、トレーニングプロセス全体を通して局所的な特性を維持することができる。 ディープニューラルネットワークと比較すると、PIRBNは1つの隠蔽層と放射ベース「活性化」機能のみから構成される。 適切な条件下では,勾配降下法を用いたpirbnの訓練がガウス過程に収束することを示した。 さらに、ニューラルタンジェントカーネル(NTK)理論を用いて、PIRBNのトレーニングダイナミクスについて検討した。 また, PIRBNの初期化戦略に関する包括的調査を行った。 数値的な例に基づき、pirbnはpdesを高周波特徴と不適切な計算領域で解く際、pinnよりも効率的で効率的なことが示されている。 さらに, 適応学習, 分解, 損失関数の種類など既存のpinn数値手法をpirbnに適用する。 すべての数値結果を再生できるプログラムはhttps://github.com/JinshuaiBai/PIRBNで見ることができる。

Our recent intensive study has found that physics-informed neural networks (PINN) tend to be local approximators after training. This observation leads to this novel physics-informed radial basis network (PIRBN), which can maintain the local property throughout the entire training process. Compared to deep neural networks, a PIRBN comprises of only one hidden layer and a radial basis "activation" function. Under appropriate conditions, we demonstrated that the training of PIRBNs using gradient descendent methods can converge to Gaussian processes. Besides, we studied the training dynamics of PIRBN via the neural tangent kernel (NTK) theory. In addition, comprehensive investigations regarding the initialisation strategies of PIRBN were conducted. Based on numerical examples, PIRBN has been demonstrated to be more effective and efficient than PINN in solving PDEs with high-frequency features and ill-posed computational domains. Moreover, the existing PINN numerical techniques, such as adaptive learning, decomposition and different types of loss functions, are applicable to PIRBN. The programs that can regenerate all numerical results can be found at https://github.com/JinshuaiBai/PIRBN.
翻訳日:2023-04-21 16:02:27 公開日:2023-04-20
# 動的離散選択モデルのためのデータ駆動状態集約手法

A Data-Driven State Aggregation Approach for Dynamic Discrete Choice Models ( http://arxiv.org/abs/2304.04916v2 )

ライセンス: Link先を確認
Sinong Geng, Houssam Nassif and Carlos A. Manzanares(参考訳) 本研究では,エージェント行動データを用いてエージェント報酬関数(構造的パラメータとも呼ばれる)のパラメータを推定する動的離散選択モデルについて検討する。 そのようなモデルの最大確率推定には、次元の呪いによって制限される動的プログラミングが必要である。 本稿では,状態の選択と集約のためのデータ駆動型手法を提供する新しいアルゴリズムを提案する。 我々の方法は2つの段階で動作する。 第1段階では,フレキシブルな逆強化学習手法を用いてエージェントq関数を推定する。 これらの推定されたq関数とクラスタリングアルゴリズムを用いて、q関数の変化を駆動する最も重要な状態のサブセットを選択する。 第2段階では、これらの選択された「集約」状態を用いて、一般に使用されるネスト固定点アルゴリズムを用いて最大確率推定を行う。 提案手法は,問題次元を小さくすることで次元の呪いを軽減する。 理論的には、関連する推定誤差の有限サンプル境界を導出し、計算複雑性、推定誤差、サンプル複雑性のトレードオフを特徴付ける。 2つの古典的動的離散的選択推定法におけるアルゴリズムの実証的性能を示す。

We study dynamic discrete choice models, where a commonly studied problem involves estimating parameters of agent reward functions (also known as "structural" parameters), using agent behavioral data. Maximum likelihood estimation for such models requires dynamic programming, which is limited by the curse of dimensionality. In this work, we present a novel algorithm that provides a data-driven method for selecting and aggregating states, which lowers the computational and sample complexity of estimation. Our method works in two stages. In the first stage, we use a flexible inverse reinforcement learning approach to estimate agent Q-functions. We use these estimated Q-functions, along with a clustering algorithm, to select a subset of states that are the most pivotal for driving changes in Q-functions. In the second stage, with these selected "aggregated" states, we conduct maximum likelihood estimation using a commonly used nested fixed-point algorithm. The proposed two-stage approach mitigates the curse of dimensionality by reducing the problem dimension. Theoretically, we derive finite-sample bounds on the associated estimation error, which also characterize the trade-off of computational complexity, estimation error, and sample complexity. We demonstrate the empirical performance of the algorithm in two classic dynamic discrete choice estimation applications.
翻訳日:2023-04-21 16:01:40 公開日:2023-04-20
# 一様静電場によって誘起される水素原子に関する教育的再訪

A pedagogical revisit on the hydrogen atom induced by a uniform static electric field ( http://arxiv.org/abs/2304.09480v2 )

ライセンス: Link先を確認
Tran Duong Anh-Tai, Le Minh Khang, Nguyen Duy Vy, Thu D. H. Truong, and Vinh N. T. Pham(参考訳) 本稿では、一様静電場によって誘起される水素原子のスターク効果を教育的に再検討する。 特に、関連するラゲール多項式の積分の一般公式は、研究(Anh-Tai T.D. et al., 2021 AIP Advances 11 085310]で提案された次数nのエルミート多項式の方法を適用することによって導出された。 二次スターク効果は、この式と時間に依存しない非退化摂動理論を水素に適用することによって得られる。 Siegert State法を用いて数値計算を行い,ベンチマークデータとして機能する。 比較は、水素の基底状態といくつかの高励起状態について示され、同等の性質を持つ他の原子に対する二次スターク効果式の適用限界と精度を洞察的に示す。

In this article, we pedagogically revisit the Stark effect of hydrogen atom induced by a uniform static electric field. In particular, a general formula for the integral of associated Laguerre polynomials was derived by applying the method for Hermite polynomials of degree n proposed in the work [Anh-Tai T.D. et al., 2021 AIP Advances 11 085310]. The quadratic Stark effect is obtained by applying this formula and the time-independent non-degenerate perturbation theory to hydrogen. Using the Siegert State method, numerical calculations are performed and serve as data for benchmarking. The comparisons are then illustrated for the ground state and some highly excited states of hydrogen to provide an insightful look at the applicable limit and precision of the quadratic Stark effect formula for other atoms with comparable properties.
翻訳日:2023-04-21 15:56:11 公開日:2023-04-20
# 不均一データレイクの構造ビュー生成のための簡易システムを実現する言語モデル

Language Models Enable Simple Systems for Generating Structured Views of Heterogeneous Data Lakes ( http://arxiv.org/abs/2304.09433v2 )

ライセンス: Link先を確認
Simran Arora and Brandon Yang and Sabri Eyuboglu and Avanika Narayan and Andrew Hojel and Immanuel Trummer and Christopher R\'e(参考訳) データ管理コミュニティの長年の目標は、半構造化ドキュメントを取り込み、人間の努力やドメイン固有のカスタマイズなしにクエリ可能なテーブルを出力する一般的な自動化システムを開発することである。 さまざまな潜在的なドキュメントを考えると、最先端のアートシステムは仮定を単純化し、ドメイン固有のトレーニングを使用します。 本研究では,大規模言語モデル(LLM)を用いて汎用性を維持できるかどうかを問う。 幅広いデータで事前トレーニングされたllmは、自然言語タスク記述に基づいて単純にさまざまな下流タスクを実行することができる。 LLMを用いた簡易プロトタイプシステムEVAPORATEを提案し評価する。 本システムを実装するための基本的な戦略は, LLMに文書から直接値を取り出すように促すか, LLMに抽出を実行するコードを合成させるかの2つである。 この2つのアプローチの間には,コスト品質のトレードオフがある。 コード合成は安価だが、LSMで各文書を直接処理するよりもはるかに正確ではない。 コストを抑えつつ品質を向上させるために,直接抽出よりも優れた品質を実現する拡張コード合成実装EVAPORATE-CODE+を提案する。 我々の重要な洞察は、多くの候補関数を生成し、弱い監督力を使って抽出を組み立てることである。 EVAPORATE-CODE+は最先端技術システムよりも優れるだけでなく、LCMでドキュメントをサブ線形パスする。 これは、LLMが処理しなければならないトークンの数を110倍に減らし、それぞれの10kドキュメントの16の実際の評価設定で平均化している。

A long standing goal of the data management community is to develop general, automated systems that ingest semi-structured documents and output queryable tables without human effort or domain specific customization. Given the sheer variety of potential documents, state-of-the art systems make simplifying assumptions and use domain specific training. In this work, we ask whether we can maintain generality by using large language models (LLMs). LLMs, which are pretrained on broad data, can perform diverse downstream tasks simply conditioned on natural language task descriptions. We propose and evaluate EVAPORATE, a simple, prototype system powered by LLMs. We identify two fundamentally different strategies for implementing this system: prompt the LLM to directly extract values from documents or prompt the LLM to synthesize code that performs the extraction. Our evaluations show a cost-quality tradeoff between these two approaches. Code synthesis is cheap, but far less accurate than directly processing each document with the LLM. To improve quality while maintaining low cost, we propose an extended code synthesis implementation, EVAPORATE-CODE+, which achieves better quality than direct extraction. Our key insight is to generate many candidate functions and ensemble their extractions using weak supervision. EVAPORATE-CODE+ not only outperforms the state-of-the art systems, but does so using a sublinear pass over the documents with the LLM. This equates to a 110x reduction in the number of tokens the LLM needs to process, averaged across 16 real-world evaluation settings of 10k documents each.
翻訳日:2023-04-21 15:55:56 公開日:2023-04-20
# グラフニューラルネットワークを用いた河川ネットワークシステムの異常検出

Graph Neural Network-Based Anomaly Detection for River Network Systems ( http://arxiv.org/abs/2304.09367v2 )

ライセンス: Link先を確認
Katie Buchhorn, Edgar Santos-Fernandez, Kerrie Mengersen, Robert Salomone(参考訳) 水は河川網の活力であり、その品質は水生生態系と人間社会の両方を維持する上で重要な役割を担っている。 水質のリアルタイムモニタリングは, センサ技術に依存しつつある。 異常検出はセンサデータの誤ったパターンを特定するのに不可欠であるが、通常の状況でもデータの複雑さと変動性のために困難な課題となる。 本稿では,河川ネットワークセンサデータに対する異常検出の課題に対する解決法を提案する。 我々はグラフニューラルネットワークモデル、最近提案されたグラフ偏差ネットワーク(GDN)を用いて、グラフ注意に基づく予測を用いて、センサ間の複雑な時空間関係をキャプチャする。 本稿では,学習グラフに基づく別の異常スコアリング手法GDN+を提案する。 モデルの有効性を評価するため,高度に洗練された依存構造と各種のサブシーケンス異常を用いたベンチマークシミュレーション実験を導入する。 このベースラインアプローチであるgdnの強みと弱みを,複雑な実世界の河川ネットワークデータに対する他のベンチマーク手法と比較して検討する。 GDN+は高次元データのベースラインアプローチよりも優れており、解釈性も向上している。 gnnadというソフトウェアも導入しています。

Water is the lifeblood of river networks, and its quality plays a crucial role in sustaining both aquatic ecosystems and human societies. Real-time monitoring of water quality is increasingly reliant on in-situ sensor technology. Anomaly detection is crucial for identifying erroneous patterns in sensor data, but can be a challenging task due to the complexity and variability of the data, even under normal conditions. This paper presents a solution to the challenging task of anomaly detection for river network sensor data, which is essential for accurate and continuous monitoring. We use a graph neural network model, the recently proposed Graph Deviation Network (GDN), which employs graph attention-based forecasting to capture the complex spatio-temporal relationships between sensors. We propose an alternate anomaly scoring method, GDN+, based on the learned graph. To evaluate the model's efficacy, we introduce new benchmarking simulation experiments with highly-sophisticated dependency structures and subsequence anomalies of various types. We further examine the strengths and weaknesses of this baseline approach, GDN, in comparison to other benchmarking methods on complex real-world river network data. Findings suggest that GDN+ outperforms the baseline approach in high-dimensional data, while also providing improved interpretability. We also introduce software called gnnad.
翻訳日:2023-04-21 15:55:33 公開日:2023-04-20
# 領域一般化意味セグメンテーションのための適応スタイライゼーション変調

Adaptive Stylization Modulation for Domain Generalized Semantic Segmentation ( http://arxiv.org/abs/2304.09347v2 )

ライセンス: Link先を確認
Gabriel Tjio, Ping Liu, Chee-Keong Kwoh, Joey Tianyi Zhou(参考訳) モデルトレーニングのための十分なラベル付きデータを得ることは、ほとんどの実生活アプリケーションでは実用的ではない。 そこで我々は,セマンティクスセグメンテーションタスクにおける領域一般化の問題に対処し,追加データの取得とラベル付けの必要性を低減した。 領域一般化に関する最近の研究は、画像における色、スタイル、テクスチャといった様々なドメイン変種の特徴によって、データの多様性を高める。 しかし、過剰なスタイライゼーションや均一なスタイライゼーションは性能を低下させる可能性がある。 パフォーマンスの低下は、マイノリティクラスのピクセルに対して特に顕著であり、多数派クラスのピクセルに比べて、すでに分類が難しい。 そこで本研究では,各画素のスタイライゼーション強度をピクセルの意味的内容に応じて変調するモジュール $ash_{+}$ を導入する。 本研究では,スタイライズドソースドメインイメージにおける元のソースドメイン機能と,スタイライズされた機能の要素別およびチャネル毎の比率をバランスさせるパラメータも導入する。 この学習パラメータは、経験的に決定されたグローバルハイパーパラメータを置き換えることで、出力されたスタイライズされたイメージをより細かく制御することができる。 提案手法の有効性を検証するために複数の実験を行った。 最後に,ベンチマークセマンティックセグメンテーションデータセット(CityscapesおよびSynTHIA)を用いて,本モデルの評価を行った。 定量的・質的比較は,我々のアプローチが最先端のアプローチと競合することを示している。 コードは \url{https://github.com/placeholder} で利用可能である。

Obtaining sufficient labelled data for model training is impractical for most real-life applications. Therefore, we address the problem of domain generalization for semantic segmentation tasks to reduce the need to acquire and label additional data. Recent work on domain generalization increase data diversity by varying domain-variant features such as colour, style and texture in images. However, excessive stylization or even uniform stylization may reduce performance. Performance reduction is especially pronounced for pixels from minority classes, which are already more challenging to classify compared to pixels from majority classes. Therefore, we introduce a module, $ASH_{+}$, that modulates stylization strength for each pixel depending on the pixel's semantic content. In this work, we also introduce a parameter that balances the element-wise and channel-wise proportion of stylized features with the original source domain features in the stylized source domain images. This learned parameter replaces an empirically determined global hyperparameter, allowing for more fine-grained control over the output stylized image. We conduct multiple experiments to validate the effectiveness of our proposed method. Finally, we evaluate our model on the publicly available benchmark semantic segmentation datasets (Cityscapes and SYNTHIA). Quantitative and qualitative comparisons indicate that our approach is competitive with state-of-the-art. Code is made available at \url{https://github.com/placeholder}
翻訳日:2023-04-21 15:55:14 公開日:2023-04-20
# AutoTaskFormer:マルチタスク学習のための視覚変換器検索

AutoTaskFormer: Searching Vision Transformers for Multi-task Learning ( http://arxiv.org/abs/2304.08756v2 )

ライセンス: Link先を確認
Yang Liu, Shen Yan, Yuge Zhang, Kan Ren, Quanlu Zhang, Zebin Ren, Deng Cai, Mi Zhang(参考訳) ビジョントランスフォーマーは、分類やセグメンテーションのような単一のタスクで素晴らしいパフォーマンスを示している。 しかし、現実世界の問題は分離されておらず、複数のタスクを同時に実行できる視覚トランスフォーマーが要求される。 既存のマルチタスクビジョントランスフォーマーは手作りであり、人間の専門知識に大きく依存している。 本稿では,この処理を自動化するために,autotaskformer (automated multi-task vision transformer) と呼ばれる,新しいニューラルネットワーク探索フレームワークを提案する。 AutoTaskFormerは、複数のタスク間で自動的に共有する重みを識別するだけでなく、様々なリソース制約の下でデプロイするための幅広いパラメータ(例えば、頭数やネットワーク深さ)を持つ何千ものよく訓練されたビジョントランスフォーマーも提供する。 小規模(2-task Cityscapesと3-task NYUv2)と大規模(16-task Taskonomy)データセットの両方の実験は、AutoTaskFormerがマルチタスク学習における最先端の手作り視覚変換器より優れていることを示している。 コードとモデル全体がオープンソース化される。

Vision Transformers have shown great performance in single tasks such as classification and segmentation. However, real-world problems are not isolated, which calls for vision transformers that can perform multiple tasks concurrently. Existing multi-task vision transformers are handcrafted and heavily rely on human expertise. In this work, we propose a novel one-shot neural architecture search framework, dubbed AutoTaskFormer (Automated Multi-Task Vision TransFormer), to automate this process. AutoTaskFormer not only identifies the weights to share across multiple tasks automatically, but also provides thousands of well-trained vision transformers with a wide range of parameters (e.g., number of heads and network depth) for deployment under various resource constraints. Experiments on both small-scale (2-task Cityscapes and 3-task NYUv2) and large-scale (16-task Taskonomy) datasets show that AutoTaskFormer outperforms state-of-the-art handcrafted vision transformers in multi-task learning. The entire code and models will be open-sourced.
翻訳日:2023-04-21 15:54:55 公開日:2023-04-20
# マルチモーダルセンサ融合を用いたDEDプリントSS316L部品の表面ポロシティのその場予測

In-situ surface porosity prediction in DED (directed energy deposition) printed SS316L parts using multimodal sensor fusion ( http://arxiv.org/abs/2304.08658v2 )

ライセンス: Link先を確認
Adithyaa Karthikeyan, Himanshu Balhara, Andreas K Lianos, Abhishek Hanchate, Satish TS Bukkapatnam(参考訳) 本研究の目的は,高空間(0.5mm)および時間(1ms)の細孔形成と,ハイブリッド指向型エネルギー堆積法(DED)プロセスで収集したAEおよび他のマルチモーダルセンサデータの時間周波数パターンを関連付けることである。 LIME(Local Interpretable Model-Agnostic Explanations)に説明可能なAI手法を適用すると、AEの特定の高周波波形シグネチャは、DEDプロセスにおいて細孔形成のための2つの主要な経路、すなわち、スパッタイベントと、低熱入力による隣接プリントトラック間の融合に起因していると考えられる。 このアプローチは、印刷されたすべてのボクセル(0.5mm)に細孔が存在することを、リアルタイムに予測するエキサイティングな可能性を開く。 SS316Lの材料試料を印刷し、その後加工しながら、力、AE、振動、温度を含む同期マルチモーダルセンサデータを収集した。 プロセスチェーン中に収集されたセンサデータの時間周波数パターン(スペクトログラム)に基づいて、ボクセル表面における細孔の存在を識別するためにディープ畳み込みニューラルネットワーク分類器を用いた。 その結果, DEDで収集した信号は, ボクセルのポロシティ検出のために加工した信号に比べて感度が高かった(分類試験精度87%)。 石灰分析から得られた基礎的な説明は、高周波ae波形で捕獲されたエネルギーは、融液プール内で比較的低いレーザー-物質相互作用を示す多孔質ボクセルに対して33%低く、そのため隣り合うプリントトラック間の融合や重なりが不十分であることを示唆している。 印刷時にスパッタ現象が流行する多孔質ボクセルは, 他の多孔質ボクセルと比較して, 高周波ae帯のエネルギー含有量が約27%高かった。 AEシグナルからのこれらのシグネチャは、スパッタと不十分な融合による細孔形成の理解をさらに深めることができる。

This study aims to relate the time-frequency patterns of acoustic emission (AE) and other multi-modal sensor data collected in a hybrid directed energy deposition (DED) process to the pore formations at high spatial (0.5 mm) and time (< 1ms) resolutions. Adapting an explainable AI method in LIME (Local Interpretable Model-Agnostic Explanations), certain high-frequency waveform signatures of AE are to be attributed to two major pathways for pore formation in a DED process, namely, spatter events and insufficient fusion between adjacent printing tracks from low heat input. This approach opens an exciting possibility to predict, in real-time, the presence of a pore in every voxel (0.5 mm in size) as they are printed, a major leap forward compared to prior efforts. Synchronized multimodal sensor data including force, AE, vibration and temperature were gathered while an SS316L material sample was printed and subsequently machined. A deep convolution neural network classifier was used to identify the presence of pores on a voxel surface based on time-frequency patterns (spectrograms) of the sensor data collected during the process chain. The results suggest signals collected during DED were more sensitive compared to those from machining for detecting porosity in voxels (classification test accuracy of 87%). The underlying explanations drawn from LIME analysis suggests that energy captured in high frequency AE waveforms are 33% lower for porous voxels indicating a relatively lower laser-material interaction in the melt pool, and hence insufficient fusion and poor overlap between adjacent printing tracks. The porous voxels for which spatter events were prevalent during printing had about 27% higher energy contents in the high frequency AE band compared to other porous voxels. These signatures from AE signal can further the understanding of pore formation from spatter and insufficient fusion.
翻訳日:2023-04-21 15:54:37 公開日:2023-04-20
# 反復計画におけるグループユーティリティの最適化:戦略的・集団的アプローチ

Optimizing Group Utility in Itinerary Planning: A Strategic and Crowd-Aware Approach ( http://arxiv.org/abs/2304.08495v2 )

ライセンス: Link先を確認
Junhua Liu, Kwan Hui Lim, Kristin L. Wood, Menglin Li(参考訳) イテナリーレコメンデーションは複雑なシーケンス予測問題であり、多くの実世界のアプリケーションがある。 このタスクは、複数のユーザーキューイング時間や群衆レベルの最適化、アトラクションの人気、キューイング時間、歩行時間、営業時間といった多くのパラメータを考慮するとさらに困難になる。 既存のソリューションは通常、一人称視点にフォーカスし、利己的なルーティング問題のような自然な群衆の振る舞いによって生じる現実世界の問題に対処できない。 本稿では,実環境におけるグループユーティリティを最適化するStrategic and Crowd-Aware Itinerary Recommendation (SCAIR)アルゴリズムを提案する。 経路推薦戦略をマルコフ決定プロセスとしてモデル化し,線形時間におけるリアルタイム計画と割り当てを可能にする状態符号化機構を提案する。 提案手法は,テーマパークのデータセットを用いて,様々な競合ベースラインに対する評価を行い,4つのテーマパークを横断する利己的なルーティング問題に対して,スカアがこれらのベースラインよりも優れていることを示す。

Itinerary recommendation is a complex sequence prediction problem with numerous real-world applications. This task becomes even more challenging when considering the optimization of multiple user queuing times and crowd levels, as well as numerous involved parameters, such as attraction popularity, queuing time, walking time, and operating hours. Existing solutions typically focus on single-person perspectives and fail to address real-world issues resulting from natural crowd behavior, like the Selfish Routing problem. In this paper, we introduce the Strategic and Crowd-Aware Itinerary Recommendation (SCAIR) algorithm, which optimizes group utility in real-world settings. We model the route recommendation strategy as a Markov Decision Process and propose a State Encoding mechanism that enables real-time planning and allocation in linear time. We evaluate our algorithm against various competitive and realistic baselines using a theme park dataset, demonstrating that SCAIR outperforms these baselines in addressing the Selfish Routing problem across four theme parks.
翻訳日:2023-04-21 15:54:01 公開日:2023-04-20
# シングルスキャン光コヒーレンストモグラフィーのための深層学習に基づく血管抽出

Deep-Learning-based Vasculature Extraction for Single-Scan Optical Coherence Tomography Angiography ( http://arxiv.org/abs/2304.08282v2 )

ライセンス: Link先を確認
Jinpeng Liao, Tianyu Zhang, Yilong Zhang, Chunhui Li, Zhihong Huang(参考訳) 光コヒーレンス断層撮影血管造影(OCTA)は、周囲の静的生体組織から赤血球シグナルを抽出することによりOCTの機能を拡張する非侵襲的な画像モダリティである。 OCTAは皮膚微小血管の分析に有用なツールとして登場し、より正確な診断と治療のモニタリングを可能にしている。 speckle variance (sv)-およびeigen-decomposition (ed)-octaのような既存のオクタード抽出アルゴリズムは、同じ位置においてより多くの繰り返し (nr) oct スキャンを実装し、高品質の血管造影画像を生成する。 しかし、より高いNRは、より長いデータ取得時間を必要とし、予測不可能なモーションアーティファクトをもたらす。 本研究では1回のOCTスキャンのみを用いてOCTA画像を生成する血管抽出パイプラインを提案する。 このパイプラインは、画像パッチ間の空間関係をよりよく学習するために畳み込み投影を利用するvet(vasculature extraction transformer)に基づいている。 SV-OCTA (PSNR: 17.809) とED-OCTA (PSNR: 18.049) による4回のOCTスキャンによるOCTA画像と比較すると、VETによって抽出されたOCTA画像は、必要なデータ取得時間を ~8秒から ~2秒に短縮しつつ、中程度の品質 (PSNR: 17.515) と高い画像コントラストを示す。 視覚観察に基づいて,提案するvetは,スキャンが難しい領域でネックデータと面オクタデータを使用する場合,svおよびedアルゴリズムよりも優れている。 本研究は、VETが高速1回OCTスキャンから血管画像の抽出能力を有しており、患者の正確な診断を容易にすることを示唆している。

Optical coherence tomography angiography (OCTA) is a non-invasive imaging modality that extends the functionality of OCT by extracting moving red blood cell signals from surrounding static biological tissues. OCTA has emerged as a valuable tool for analyzing skin microvasculature, enabling more accurate diagnosis and treatment monitoring. Most existing OCTA extraction algorithms, such as speckle variance (SV)- and eigen-decomposition (ED)-OCTA, implement a larger number of repeated (NR) OCT scans at the same position to produce high-quality angiography images. However, a higher NR requires a longer data acquisition time, leading to more unpredictable motion artifacts. In this study, we propose a vasculature extraction pipeline that uses only one-repeated OCT scan to generate OCTA images. The pipeline is based on the proposed Vasculature Extraction Transformer (VET), which leverages convolutional projection to better learn the spatial relationships between image patches. In comparison to OCTA images obtained via the SV-OCTA (PSNR: 17.809) and ED-OCTA (PSNR: 18.049) using four-repeated OCT scans, OCTA images extracted by VET exhibit moderate quality (PSNR: 17.515) and higher image contrast while reducing the required data acquisition time from ~8 s to ~2 s. Based on visual observations, the proposed VET outperforms SV and ED algorithms when using neck and face OCTA data in areas that are challenging to scan. This study represents that the VET has the capacity to extract vascularture images from a fast one-repeated OCT scan, facilitating accurate diagnosis for patients.
翻訳日:2023-04-21 15:53:42 公開日:2023-04-20
# Low-code LLM: LLM上のビジュアルプログラミング

Low-code LLM: Visual Programming over LLMs ( http://arxiv.org/abs/2304.08103v2 )

ライセンス: Link先を確認
Yuzhe Cai, Shaoguang Mao, Wenshan Wu, Zehua Wang, Yaobo Liang, Tao Ge, Chenfei Wu, Wang You, Ting Song, Yan Xia, Jonathan Tien, Nan Duan(参考訳) 複雑なタスクにllmを効果的に利用することは困難であり、しばしば時間と制御不能な迅速なエンジニアリングプロセスを伴う。 本稿では,人間-LLMインタラクションフレームワークであるLow-code LLMを紹介する。 6種類のシンプルなローコードビジュアルプログラミングインタラクションが組み込まれており、全てクリック、ドラッグ、テキスト編集によってサポートされ、より制御可能で安定したレスポンスを実現する。 グラフィカルなユーザインタフェースとの視覚的なインタラクションを通じて、ユーザーは簡単なプロンプトを書くことなく、自分のアイデアをワークフローに組み込むことができる。 提案するLow-code LLMフレームワークは、複雑なタスクのための構造化計画ワークフローを設計するプランニングLLMと、ユーザ確認ワークフローに従って応答を生成するExecuting LLMから構成される。 制御可能な生成結果,ユーザフレンドリなヒューマン-LLMインタラクション,広く適用可能なシナリオの3つのメリットを強調した。 4つの典型的なアプリケーションを用いてその利点を実証する。 このアプローチを導入することで、人間とLLMのギャップを埋め、複雑なタスクにLLMをより効果的かつ効率的に活用することを目指している。 私たちのシステムは、間もなくLowCodeLLMで公開されます。

Effectively utilizing LLMs for complex tasks is challenging, often involving a time-consuming and uncontrollable prompt engineering process. This paper introduces a novel human-LLM interaction framework, Low-code LLM. It incorporates six types of simple low-code visual programming interactions, all supported by clicking, dragging, or text editing, to achieve more controllable and stable responses. Through visual interaction with a graphical user interface, users can incorporate their ideas into the workflow without writing trivial prompts. The proposed Low-code LLM framework consists of a Planning LLM that designs a structured planning workflow for complex tasks, which can be correspondingly edited and confirmed by users through low-code visual programming operations, and an Executing LLM that generates responses following the user-confirmed workflow. We highlight three advantages of the low-code LLM: controllable generation results, user-friendly human-LLM interaction, and broadly applicable scenarios. We demonstrate its benefits using four typical applications. By introducing this approach, we aim to bridge the gap between humans and LLMs, enabling more effective and efficient utilization of LLMs for complex tasks. Our system will be soon publicly available at LowCodeLLM.
翻訳日:2023-04-21 15:52:46 公開日:2023-04-20
# 周波数規則化:畳み込みニューラルネットワークの情報冗長性を制限する

Frequency Regularization: Restricting Information Redundancy of Convolutional Neural Networks ( http://arxiv.org/abs/2304.07973v2 )

ライセンス: Link先を確認
Chenqiu Zhao, Guanfang Dong, Shupei Zhang, Zijie Tan, Anup Basu(参考訳) 畳み込みニューラルネットワークは多くのコンピュータビジョンタスクで印象的な結果を示している。 しかし、これらのネットワークのサイズが大きくなると、多くのネットワークパラメータによる情報過負荷が懸念される。 本稿では、周波数領域におけるネットワークパラメータの非零要素を制限する周波数正規化を提案する。 提案手法はテンソルレベルで動作し,ほぼすべてのネットワークアーキテクチャに適用可能である。 特に、パラメータのテンソルは周波数領域で維持され、zigzagがテンソル要素をゼロにすることで高周波成分を除去できる。 次に、逆離散コサイン変換(IDCT)を用いて、ネットワークトレーニング中の行列演算のための空間テンソルを再構成する。 画像の高周波成分は重要度が低いことが知られているため、提案された周波数正規化でネットワークを訓練する場合、これらのパラメータの大部分がゼロに設定できる。 LeNet, Alexnet, VGG, Resnet, ViT, UNet, GAN, VAE などの最先端ネットワークアーキテクチャに関する総合的な評価は,提案した周波数正規化の有効性を示している。 非常に小さな精度の低下(2\%未満)の条件下では、0.4Mパラメータを持つLeNet5は776float16数字(1100$\times$以上)でしか表現できず、34Mパラメータを持つUNetは759float16数字(80000$\times$以上)でしか表現できない。

Convolutional neural networks have demonstrated impressive results in many computer vision tasks. However, the increasing size of these networks raises concerns about the information overload resulting from the large number of network parameters. In this paper, we propose Frequency Regularization to restrict the non-zero elements of the network parameters in frequency domain. The proposed approach operates at the tensor level, and can be applied to almost all network architectures. Specifically, the tensors of parameters are maintained in the frequency domain, where high frequency components can be eliminated by zigzag setting tensor elements to zero. Then, the inverse discrete cosine transform (IDCT) is used to reconstruct the spatial tensors for matrix operations during network training. Since high frequency components of images are known to be less critical, a large proportion of these parameters can be set to zero when networks are trained with the proposed frequency regularization. Comprehensive evaluations on various state-of-the-art network architectures, including LeNet, Alexnet, VGG, Resnet, ViT, UNet, GAN, and VAE, demonstrate the effectiveness of the proposed frequency regularization. Under the condition of a very small accuracy decrease (less than 2\%), a LeNet5 with 0.4M parameters can be represented by only 776 float16 numbers(over 1100$\times$), and a UNet with 34M parameters can be represented by only 759 float16 numbers (over 80000$\times$).
翻訳日:2023-04-21 15:52:25 公開日:2023-04-20
# チューナブルレンジ量子回路における動的遷移としてのスクランブルの開始

Onset of scrambling as a dynamical transition in tunable-range quantum circuits ( http://arxiv.org/abs/2304.09833v2 )

ライセンス: Link先を確認
Sridevi Kuriyattil, Tomohiro Hashizume, Gregory Bentsen, and Andrew J. Daley(参考訳) 高速スクランブル多体量子システムでは、情報の拡散と絡み合いがシステムサイズと対数的に増加する時間スケールに基づいて構築される。 これは、多体システムの力学を理解することや、絡み合ったリソース状態やエラー訂正符号を効率的に生成することに対する基本的な関心である。 本研究では,長距離接続のレベルが異なる量子回路におけるスクランブルの開始点を示す動的遷移を同定する。 特に,異なる構造の回路の相互作用範囲の関数として,三成分相互情報は,異なる動的挙動の2つの明確に定義された領域間の遷移点付近のスケーリング崩壊を示す。 従来のパワー-ロー相互作用を持つシステムに加えて、中性原子配列を用いた実験で実現可能な決定論的スパース回路における同じ現象を同定する。

In a fast scrambling many-body quantum system, information is spread and entanglement is built up on a timescale that grows logarithmically with the system size. This is of fundamental interest in understanding the dynamics of many-body systems, as well as in efficiently producing entangled resource states and error correcting codes. In this work, we identify a dynamical transition marking the onset of scrambling in quantum circuits with different levels of long-range connectivity. In particular, we show that as a function of the interaction range for circuits of different structures, the tripartite mutual information exhibits a scaling collapse around a transition point between two clearly defined regimes of different dynamical behaviour. In addition to systems with conventional power-law interactions, we identify the same phenomenon in deterministic, sparse circuits that can be realised in experiments with neutral atom arrays.
翻訳日:2023-04-21 15:44:59 公開日:2023-04-20
# ChatGPTを活用した労働市場の将来 : 予備研究

The Future of ChatGPT-enabled Labor Market: A Preliminary Study ( http://arxiv.org/abs/2304.09823v2 )

ライセンス: Link先を確認
Lan Chen, Xi Chen, Shiyu Wu, Yaqi Yang, Meng Chang, Hengshu Zhu(参考訳) 驚くべき大きな言語モデルとして、chatgptは様々な現実世界のタスクで並行して成功し、日々の生活や仕事においてますます重要な役割を演じています。 しかし、倫理的な問題、特にChatGPTのような人工知能(AGI)が人間の仕事を置き換えるかどうかについても、大きな懸念が持ち上がっている。 そこで,本稿では,人間-AIコンファレンスではなく,人間-AI共生の観点から,ChatGPTを活用した労働市場の将来に関する予備的なデータ駆動研究を紹介する。 具体的には、中国最大のオンラインリクルートプラットフォームであるboss zhipinで、大規模求人データの詳細な分析をまず実施する。 その結果、現在の労働市場の職業の約28%はChatGPT関連のスキルを必要とすることがわかった。 さらに,大規模職業中心知識グラフに基づいて,労働市場における職業スキル関係を予測するための意味情報強化協調フィルタリングアルゴリズムを開発した。 その結果,今後45%の職業がchatgpt関連のスキルを必要とすることがわかった。 特に、技術、製品、オペレーションに関連する産業は、ChatGPT関連のスキルに対して高い熟練度を要求され、一方、製造、サービス、教育、健康科学関連産業は、ChatGPT関連スキルに対してより低い熟練度を要求される。

As a phenomenal large language model, ChatGPT has achieved unparalleled success in various real-world tasks and increasingly plays an important role in our daily lives and work. However, extensive concerns are also raised about the potential ethical issues, especially about whether ChatGPT-like artificial general intelligence (AGI) will replace human jobs. To this end, in this paper, we introduce a preliminary data-driven study on the future of ChatGPT-enabled labor market from the view of Human-AI Symbiosis instead of Human-AI Confrontation. To be specific, we first conduct an in-depth analysis of large-scale job posting data in BOSS Zhipin, the largest online recruitment platform in China. The results indicate that about 28% of occupations in the current labor market require ChatGPT-related skills. Furthermore, based on a large-scale occupation-centered knowledge graph, we develop a semantic information enhanced collaborative filtering algorithm to predict the future occupation-skill relations in the labor market. As a result, we find that additional 45% occupations in the future will require ChatGPT-related skills. In particular, industries related to technology, products, and operations are expected to have higher proficiency requirements for ChatGPT-related skills, while the manufacturing, services, education, and health science related industries will have lower requirements for ChatGPT-related skills.
翻訳日:2023-04-21 15:44:45 公開日:2023-04-20
# 注意に基づくシームズ複合ニューラルネットワークの医用画像認識への応用

Application of attention-based Siamese composite neural network in medical image recognition ( http://arxiv.org/abs/2304.09783v2 )

ライセンス: Link先を確認
Zihao Huang, Xia Chen, Yue Wang, Weixing Xin, Xingtong Lin, Huizhen Li, Haowen Chen, Yizhen Lao(参考訳) 医療画像認識は、しばしば実用上のデータ不足の問題に直面している。 少ない撮影条件下での画像認識と処理は、過剰フィッティング、低い認識精度、低い信頼性、不十分なロバスト性をもたらす。 特徴の違いが微妙であり、認識は視点、背景、咬合、その他の要因に影響され、認識の難しさが増すことが多い。 さらに,細粒度画像では,写真中の有用な特徴情報に不足が生じている。 本研究は,数発画像および細粒画像の認識特性を考慮し,注意とシャムニューラルネットに基づく認識モデルを構築した。 数発のサンプルの問題を考慮し,分類モデルに適したシームズニューラルネットワークを提案する。 注意に基づくニューラルネットワークは、分類効果を改善するためにメインネットワークとして使用される。 このモデルをテストするために、covid-19の肺サンプルが選ばれた。 その結果、画像サンプルの数が少ないほど、通常のニューラルネットワークよりも利点が明らかになることがわかった。

Medical image recognition often faces the problem of insufficient data in practical applications. Image recognition and processing under few-shot conditions will produce overfitting, low recognition accuracy, low reliability and insufficient robustness. It is often the case that the difference of characteristics is subtle, and the recognition is affected by perspectives, background, occlusion and other factors, which increases the difficulty of recognition. Furthermore, in fine-grained images, the few-shot problem leads to insufficient useful feature information in the images. Considering the characteristics of few-shot and fine-grained image recognition, this study has established a recognition model based on attention and Siamese neural network. Aiming at the problem of few-shot samples, a Siamese neural network suitable for classification model is proposed. The Attention-Based neural network is used as the main network to improve the classification effect. Covid- 19 lung samples have been selected for testing the model. The results show that the less the number of image samples are, the more obvious the advantage shows than the ordinary neural network.
翻訳日:2023-04-21 15:44:22 公開日:2023-04-20
# any-to-anyスタイルトランスファー:picassoとda vinciのコラボレーションを実現する

Any-to-Any Style Transfer: Making Picasso and Da Vinci Collaborate ( http://arxiv.org/abs/2304.09728v2 )

ライセンス: Link先を確認
Songhua Liu, Jingwen Ye, Xinchao Wang(参考訳) スタイル転送は、ある画像のスタイルを他の画像のスタイル参照にレンダリングすることを目的としており、芸術的生成や画像編集において広く採用されている。 既存のアプローチでは、スタイルイメージの全体的スタイルをグローバルに適用するか、あるいはスタイルイメージのローカルカラーやテクスチャを、事前に定義された方法でコンテントに移行している。 いずれの場合も、特定のコンテンツとスタイルイメージに対して1つの結果しか生成できないため、柔軟性がなく、異なる好みのユーザを満足させるのが困難である。 そこで本稿では,この欠点に対処するために,任意のスタイル転送と呼ばれる新しい戦略を提案する。 このように、パーソナライズ可能なスタイル転送は人間とコンピュータのインタラクションによって実現される。 提案手法の核心となるのは,(1) 画像のクリックや描画のみによる領域選択を支援するセグメンテーションモジュール,(2) ユーザからの入力をスタイル転送モデルの信号に変換するアテンション融合モジュールである。 個人化可能なスタイル転送の有効性を示す実験。 特に,任意のスタイル転送方式に移植可能なプラグアンドプレイ方式で動作し,制御能力を向上させる。 私たちのコードは href{https://github.com/Huage001/Transfer-Any-Style}{here} で利用可能です。

Style transfer aims to render the style of a given image for style reference to another given image for content reference, and has been widely adopted in artistic generation and image editing. Existing approaches either apply the holistic style of the style image in a global manner, or migrate local colors and textures of the style image to the content counterparts in a pre-defined way. In either case, only one result can be generated for a specific pair of content and style images, which therefore lacks flexibility and is hard to satisfy different users with different preferences. We propose here a novel strategy termed Any-to-Any Style Transfer to address this drawback, which enables users to interactively select styles of regions in the style image and apply them to the prescribed content regions. In this way, personalizable style transfer is achieved through human-computer interaction. At the heart of our approach lies in (1) a region segmentation module based on Segment Anything, which supports region selection with only some clicks or drawing on images and thus takes user inputs conveniently and flexibly; (2) and an attention fusion module, which converts inputs from users to controlling signals for the style transfer model. Experiments demonstrate the effectiveness for personalizable style transfer. Notably, our approach performs in a plug-and-play manner portable to any style transfer method and enhance the controllablity. Our code is available \href{https://github.com/Huage001/Transfer-Any-Style}{here}.
翻訳日:2023-04-21 15:44:06 公開日:2023-04-20
# 参照誘導制御可能なニューラルラジアンスフィールドの塗装

Reference-guided Controllable Inpainting of Neural Radiance Fields ( http://arxiv.org/abs/2304.09677v2 )

ライセンス: Link先を確認
Ashkan Mirzaei, Tristan Aumentado-Armstrong, Marcus A. Brubaker, Jonathan Kelly, Alex Levinshtein, Konstantinos G. Derpanis, Igor Gilitschenski(参考訳) ビュー合成におけるNeRF(Neural Radiance Fields)の人気は、NeRF編集ツールへの欲求につながっている。 ここでは、表示に一貫性があり、制御可能な領域に焦点をあてる。 各ビューにおいて望ましくない領域を規定する典型的なNeRF入力とマスクに加えて、シーンの1つの塗装されたビュー、すなわち参照ビューしか必要としない。 単眼深度推定器を用いて, 塗装された視界を3D位置へバックプロジェクションする。 そして、新規なレンダリング技術により、二者解決者は、非参照ビューにおけるビュー依存効果を構築でき、塗装された領域が任意のビューから一貫して見えるようにする。 単一の参照ビューで教師できない非参照非排除領域に対しては,画像のインペインターに基づく手法を考案し,形状と外観の両方をガイドする。 提案手法は,1つのインペイント画像で生成したシーンをユーザが制御できるというアドバンテージにより,nerfインペイントベースラインよりも優れた性能を示す。 プロジェクトページ: https://ashmrz.github.io/reference-guided-3d

The popularity of Neural Radiance Fields (NeRFs) for view synthesis has led to a desire for NeRF editing tools. Here, we focus on inpainting regions in a view-consistent and controllable manner. In addition to the typical NeRF inputs and masks delineating the unwanted region in each view, we require only a single inpainted view of the scene, i.e., a reference view. We use monocular depth estimators to back-project the inpainted view to the correct 3D positions. Then, via a novel rendering technique, a bilateral solver can construct view-dependent effects in non-reference views, making the inpainted region appear consistent from any view. For non-reference disoccluded regions, which cannot be supervised by the single reference view, we devise a method based on image inpainters to guide both the geometry and appearance. Our approach shows superior performance to NeRF inpainting baselines, with the additional advantage that a user can control the generated scene via a single inpainted image. Project page: https://ashmrz.github.io/reference-guided-3d
翻訳日:2023-04-21 15:43:41 公開日:2023-04-20
# CHATTY: Unsupervised Domain Adaptation の利益と正反対の輸送用語の結合

CHATTY: Coupled Holistic Adversarial Transport Terms with Yield for Unsupervised Domain Adaptation ( http://arxiv.org/abs/2304.09623v2 )

ライセンス: Link先を確認
Chirag P, Mukta Wagle, Ravi Kant Gupta, Pranav Jeevan, Amit Sethi(参考訳) 非教師なしドメイン適応のための収率を持つ包括的逆移動項を結合したchattyと呼ばれる新しい手法を提案する。 ニューラルネットワークの特徴抽出器層をトレーニングするために、ドメイン識別器ヘッドからの勾配を反転させることで、ドメイン不変表現の学習に一般的に使用される。 本研究は, 対向頭部, 訓練目標, 分類器頭部の大幅な修正を提案する。 クラス混同を減らすことを目的としたサブネットワークを導入し,ソースと対象ドメインの分類器出力を学習可能な方法で置き換える。 私たちは、クラスクラスタを互いに遠ざける新しいトランスポートロスを使用してこの動きを制御し、分類器がソースドメインとターゲットドメインの両方の決定バウンダリを見つけやすくします。 この新たな損失を事前提案された損失の慎重な選択に追加した結果、従来のベンチマークデータセットの最先端手法と比較して、UDA結果が改善される。 アブレーション研究と表現空間における対象領域の移動の可視化を用いて,提案する損失項の重要性を示す。

We propose a new technique called CHATTY: Coupled Holistic Adversarial Transport Terms with Yield for Unsupervised Domain Adaptation. Adversarial training is commonly used for learning domain-invariant representations by reversing the gradients from a domain discriminator head to train the feature extractor layers of a neural network. We propose significant modifications to the adversarial head, its training objective, and the classifier head. With the aim of reducing class confusion, we introduce a sub-network which displaces the classifier outputs of the source and target domain samples in a learnable manner. We control this movement using a novel transport loss that spreads class clusters away from each other and makes it easier for the classifier to find the decision boundaries for both the source and target domains. The results of adding this new loss to a careful selection of previously proposed losses leads to improvement in UDA results compared to the previous state-of-the-art methods on benchmark datasets. We show the importance of the proposed loss term using ablation studies and visualization of the movement of target domain sample in representation space.
翻訳日:2023-04-21 15:43:22 公開日:2023-04-20
# 自然言語処理のブリッジングと心理言語学:バスク語とスペイン語における意味的類似性データセット

Bridging Natural Language Processing and Psycholinguistics: computationally grounded semantic similarity datasets for Basque and Spanish ( http://arxiv.org/abs/2304.09616v2 )

ライセンス: Link先を確認
J. Goikoetxea, M. Arantzeta, I. San Martin(参考訳) 本稿では,テキストコーパスと知識ベースという2つの有名な自然言語処理資源に基づく,計算的な単語類似度データセットを提案する。 このデータセットは、語彙処理において重要な役割を果たす変数によって制御される一連の名詞対において、意味的類似性の様々な定量化を提供することによって、精神言語学研究のギャップを埋めることを目的としている。 データセットの作成には3つのステップがあります。 1) 各名詞の4つの重要な精神言語的特徴,具体性,頻度,意味,音韻的近傍密度の計算 2) これら4つの変数にまたがるペア名詞 3)各名詞対に対して3種類の単語類似度測定を割り当て,テキスト,Wordnet,ハイブリッド埋め込みを計算した。 現在のデータセットには、バスク語とヨーロッパスペイン語の名詞ペアの情報が含まれているが、さらに多くの言語に拡張される予定である。

We present a computationally-grounded word similarity dataset based on two well-known Natural Language Processing resources; text corpora and knowledge bases. This dataset aims to fulfil a gap in psycholinguistic research by providing a variety of quantifications of semantic similarity in an extensive set of noun pairs controlled by variables that play a significant role in lexical processing. The dataset creation has consisted in three steps, 1) computing four key psycholinguistic features for each noun; concreteness, frequency, semantic and phonological neighbourhood density; 2) pairing nouns across these four variables; 3) for each noun pair, assigning three types of word similarity measurements, computed out of text, Wordnet and hybrid embeddings. The present dataset includes noun pairs' information in Basque and European Spanish, but further work intends to extend it to more languages.
翻訳日:2023-04-21 15:43:04 公開日:2023-04-20
# BioTrak: ブロックチェーンベースのフードチェーンロジスティクストレーサビリティプラットフォーム

BioTrak: A Blockchain-based Platform for Food Chain Logistics Traceability ( http://arxiv.org/abs/2304.09601v2 )

ライセンス: Link先を確認
A. Spitalleri, I. Kavasidis, V. Cartelli, R. Mineo, F. Rundo, S. Palazzo, C. Spampinato, D. Giordano(参考訳) グローバリゼーションに伴い、食品サプライチェーンは非常に複雑になっている。 このような複雑さは、中間製品と最終製品の品質に悪影響を及ぼす要因をもたらす。 維持温度や輸送時間などのパラメータに関する厳格な制約を尊重し、最高品質を確保し、公衆衛生への有害な影響を最小限に抑える必要がある。 これは多要素の努力であり、関与するすべての利害関係者は可能な限りの成果を達成するためにロジスティクスの負担を受け入れ、管理しなければならない。 しかし、こうした負担は、データストレージ、ビジネスプロセス管理、企業固有の標準運用手順に関する追加の複雑さやコストと結びつき、そのような侵入的操作の影響を軽減するために自動化方法を考案する必要がある。 以上の理由から,本論文では,原料原料から最終製品が消費者に届くまで,食品成分の冷チェーンロジスティクスの監視を含む,トランスフォーメーションおよび輸送プロセスの全チェーンを登録・可視化できるプラットフォームであるBioTrakについて述べる。 プラットフォームには、フードサプライチェーンのステークホルダーがプロセスの最適化を支援するBusiness Process Modellingメソッドと、データの整合性、透明性、説明責任を保証するブロックチェーンの統合が含まれている。

The food supply chain, following its globalization, has become very complex. Such complexities, introduce factors that influence adversely the quality of intermediate and final products. Strict constraints regarding parameters such as maintenance temperatures and transportation times must be respected in order to ensure top quality and reduce to a minimum the detrimental effects to public health. This is a multi-factorial endeavor and all of the involved stakeholders must accept and manage the logistics burden to achieve the best possible results. However, such burden comes together with additional complexities and costs regarding data storage, business process management and company specific standard operating procedures and as such, automated methods must be devised to reduce the impact of such intrusive operations. For the above reasons, in this paper we present BioTrak: a platform capable of registering and visualizing the whole chain of transformation and transportation processes including the monitoring of cold chain logistics of food ingredients starting from the raw material producers until the final product arrives to the end-consumer. The platform includes Business Process Modelling methods to aid food supply chain stakeholders to optimize their processes and also integrates a blockchain for guaranteeing the integrity, transparency and accountability of the data.
翻訳日:2023-04-21 15:42:51 公開日:2023-04-20
# Pseudo-Stereoを用いた単視点ビュー合成

Single-View View Synthesis with Self-Rectified Pseudo-Stereo ( http://arxiv.org/abs/2304.09527v2 )

ライセンス: Link先を確認
Yang Zhou, Hanjie Wu, Wenxi Liu, Zheng Xiong, Jing Qin, Shengfeng He(参考訳) 単一のビューイメージから新しいビューを合成することは、非常に不適切な問題である。 シングルビュービュー合成問題を多視点設定に拡張することにより,学習のあいまいさを軽減する効果的な解を見出す。 具体的には、3次元空間を構成する補助入力として機能する擬似ステレオ視点を生成する前に、信頼性と明示的なステレオを利用する。 このようにして、挑戦的な新しいビュー合成プロセスは、ステレオ合成と3次元再構成の2つのより単純な問題に分解される。 構造的に正確で精細に保存されたステレオ画像を合成するために,誤り領域を識別・再現する自己再現ステレオ合成を提案する。 トレーニングが困難で不正確なワーピングサンプルが2つの戦略によって最初に発見された。 1)低信頼の予測を明らかにするためにネットワークを切断し, 2) ステレオ画像間の双方向マッチングにより不適切なマッピングの発見が可能となる。 これらの領域は、最後に擬似ステレオを形成するために塗装される。 この余分な入力によって、好ましい3D再構成が容易に得られ、任意の3D表現で作業することができる。 広範な実験により,本手法は最先端の単視点映像合成法やステレオ合成法よりも優れていることが示された。

Synthesizing novel views from a single view image is a highly ill-posed problem. We discover an effective solution to reduce the learning ambiguity by expanding the single-view view synthesis problem to a multi-view setting. Specifically, we leverage the reliable and explicit stereo prior to generate a pseudo-stereo viewpoint, which serves as an auxiliary input to construct the 3D space. In this way, the challenging novel view synthesis process is decoupled into two simpler problems of stereo synthesis and 3D reconstruction. In order to synthesize a structurally correct and detail-preserved stereo image, we propose a self-rectified stereo synthesis to amend erroneous regions in an identify-rectify manner. Hard-to-train and incorrect warping samples are first discovered by two strategies, 1) pruning the network to reveal low-confident predictions; and 2) bidirectionally matching between stereo images to allow the discovery of improper mapping. These regions are then inpainted to form the final pseudo-stereo. With the aid of this extra input, a preferable 3D reconstruction can be easily obtained, and our method can work with arbitrary 3D representations. Extensive experiments show that our method outperforms state-of-the-art single-view view synthesis methods and stereo synthesis methods.
翻訳日:2023-04-21 15:42:30 公開日:2023-04-20
# 量子周波数変換器の校正非依存認証

Calibration-Independent Certification of a Quantum Frequency Converter ( http://arxiv.org/abs/2304.09517v2 )

ライセンス: Link先を確認
Matthias Bock, Pavel Sekatski, Jean-Daniel Bancal, Stephan Kucera, Tobias Bauer, Nicolas Sangouard, Christoph Becher, J\"urgen Eschner(参考訳) 本稿では,認証プロセス全体にわたる校正を信頼する必要のない情報源・測定装置の助けを借りて,一元的操作を認証する手法について報告する。 デバイス非依存パラダイムと同様に、認証方法はベルテストに依存しますが、非検出イベントが測定設定から独立しているという1つの追加の仮定を含めることで、高い検出効率の必要性を取り除きます。 提案手法の妥当性を量子周波数変換器の認証により実験的に検証した。 この実験は、1つの$^{40}$ca$^+$イオンと854$\,$nm光子の間で最大に絡み合う2量子ビット状態のヘラルド化から始まる。 その後、サニャック干渉計に埋め込まれた非線形導波路により、通信帯域への絡み合い保存周波数変換を実現する。 得られたイオン−テレコム光子絡み状態は、周波数変換の質を定量化するベル−CHSH試験により特徴づけられる。 平均的な認証忠実度が$\geq 84\,\%$で、効率が$\geq 3.1\times 10^{-6}$で、信頼度が$99\,\%$で、周波数変換が成功した。 これにより、信頼性の高いキャラクタリゼーション手順から量子ネットワークにおける積分変換器の適合性が保証される。

We report on a method to certify a unitary operation with the help of source and measurement apparatuses whose calibration throughout the certification process needs not be trusted. As in the device-independent paradigm our certification method relies on a Bell test, but it removes the need for high detection efficiencies by including the single additional assumption that non-detected events are independent of the measurement settings. The relevance of the proposed method is demonstrated experimentally with the certification of a quantum frequency converter. The experiment starts with the heralded creation of a maximally entangled two-qubit state between a single $^{40}$Ca$^+$ ion and a 854$\,$nm photon. Entanglement preserving frequency conversion to the telecom band is then realized with a non-linear waveguide embedded in a Sagnac interferometer. The resulting ion-telecom photon entangled state is characterized by means of a Bell-CHSH test from which the quality of the frequency conversion is quantified. We demonstrate the successful frequency conversion with an average certified fidelity of $\geq 84\,\%$ and an efficiency $\geq 3.1\times 10^{-6}$ at a confidence level of $99\,\%$. This ensures the suitability of the converter for integration in quantum networks from a trustful characterization procedure.
翻訳日:2023-04-21 15:42:15 公開日:2023-04-20
# 高周波トレーディング予測のための最適出力長短期記憶セル

Optimum Output Long Short-Term Memory Cell for High-Frequency Trading Forecasting ( http://arxiv.org/abs/2304.09840v2 )

ライセンス: Link先を確認
Adamantios Ntakaris, Moncef Gabbouj, Juho Kanniainen(参考訳) 高頻度取引は、正確な株価予測のために情報遅延のない高速データ処理を必要とする。 この高ペースの株価予測は通常、高周波取引に固有の時間不規則のため、シーケンシャルかつ時間に依存しない信号として扱う必要があるベクトルに基づいている。 これらの時間不規則性を考慮したよく文書化されテストされた手法は、long short-term memory neural networkと呼ばれるリカレントニューラルネットワークの一種である。 この種のニューラルネットワークは、セル内の順番が最適かどうかを知らずにゲートや状態を介して逐次的および静的な計算を行うセルに基づいて形成される。 本稿では,最良ゲートや状態を最終出力として選択する,改良されたリアルタイムな長寿命メモリセルを提案する。 私たちの細胞は浅いトポロジーの下で動作しており、最小のルックバック期間を持ち、オンラインでトレーニングされています。 本改訂したセルは,2つの高液量米国株と2つの低液量北欧株で試験されたリミットオーダーブック中価格予測などのオンライン高頻度トレーディング予測タスクにおいて,他のリカレントニューラルネットワークと比較して低い予測誤差を達成している。

High-frequency trading requires fast data processing without information lags for precise stock price forecasting. This high-paced stock price forecasting is usually based on vectors that need to be treated as sequential and time-independent signals due to the time irregularities that are inherent in high-frequency trading. A well-documented and tested method that considers these time-irregularities is a type of recurrent neural network, named long short-term memory neural network. This type of neural network is formed based on cells that perform sequential and stale calculations via gates and states without knowing whether their order, within the cell, is optimal. In this paper, we propose a revised and real-time adjusted long short-term memory cell that selects the best gate or state as its final output. Our cell is running under a shallow topology, has a minimal look-back period, and is trained online. This revised cell achieves lower forecasting error compared to other recurrent neural networks for online high-frequency trading forecasting tasks such as the limit order book mid-price prediction as it has been tested on two high-liquid US and two less-liquid Nordic stocks.
翻訳日:2023-04-21 15:33:28 公開日:2023-04-20
# 磁性誘電体$\delta$-functionプレートのカシミールエネルギー

Casimir energy of $N$ magnetodielectric $\delta$-function plates ( http://arxiv.org/abs/2304.10022v1 )

ライセンス: Link先を確認
Venkat Abhignan(参考訳) N$体におけるカシミール電磁相互作用を調べるために、電気的および磁気的性質を持つ複数の$\delta$-functionプレートを実装した。 我々はそれらの光学特性を用いて、複数の散乱形式を実装して、プレート間のカシミールエネルギーを研究する。 まず,2板および3板構成のグリーン関数を解き,反射係数を求める。 さらに, この係数を多重散乱形式に実装し, 図形ループを用いた多重散乱展開におけるエネルギー密度分布を簡易に表現した。 カシミールエネルギーを導出するというアイデアは体系的なパターンを同定することでn$のプレートに拡張された。

To investigate Casimir electromagnetic interaction in $N$ bodies, we implement multiple $\delta$-function plates with electric and magnetic properties. We use their optical properties to study the Casimir energy between the plates by implementing multiple scattering formalism. We initially solve Green's functions for two and three plates configurations to obtain their reflection coefficients. Further, the coefficients are implemented in multiple scattering formalism, and a simple method was obtained to depict energy density distribution in the multiple scattering expansions using diagrammatic loops. The idea of deriving Casimir energy was extended to $N$ plates by identifying a systematic pattern.
翻訳日:2023-04-21 14:58:37 公開日:2023-04-20
# クラウド,エッジ,エンドデバイス上でのディープニューラルネットワーク分割に関する調査

A Survey on Deep Neural Network Partition over Cloud, Edge and End Devices ( http://arxiv.org/abs/2304.10020v1 )

ライセンス: Link先を確認
Di Xu, Xiang He, Tonghua Su, Zhongjie Wang(参考訳) ディープニューラルネットワーク(DNN)パーティションは、DNNを複数の部分に分割し、特定の場所にオフロードする研究問題である。 近年のマルチアクセスエッジコンピューティングとエッジインテリジェンスの発展により、エッジとエンドデバイスのコンピューティングリソースが制限され、これらのデバイスからクラウドへのリモート転送がコストがかかる場合、DNNパーティションは、DNN推論性能を改善する強力なツールとして考えられてきた。 本稿では,クラウド,エッジ,エンドデバイス上でのDNNパーティションアプローチの最近の進歩と課題を,詳細な文献収集に基づいて包括的に調査する。 DNNパーティションが様々なアプリケーションシナリオでどのように機能するかをレビューし、DNNパーティション問題の統一的な数学的モデルを提供する。 我々は,dnn分割手法のための5次元分類フレームワークを開発した。配置位置,分割粒度,分割制約,最適化目標,最適化アルゴリズムからなる。 既存のDNNパーティションアプローチは、それぞれの次元を特定の値にインスタンス化することで、このフレームワークで完全に定義できます。 さらに、DNNパーティションアプローチの比較と評価のための指標セットを提案する。 これに基づいて,まだ調査されていない,あるいは完全に対処されていない研究課題を特定し,議論する。 この研究がDNNの研究者の分断に役立つことを期待している。

Deep neural network (DNN) partition is a research problem that involves splitting a DNN into multiple parts and offloading them to specific locations. Because of the recent advancement in multi-access edge computing and edge intelligence, DNN partition has been considered as a powerful tool for improving DNN inference performance when the computing resources of edge and end devices are limited and the remote transmission of data from these devices to clouds is costly. This paper provides a comprehensive survey on the recent advances and challenges in DNN partition approaches over the cloud, edge, and end devices based on a detailed literature collection. We review how DNN partition works in various application scenarios, and provide a unified mathematical model of the DNN partition problem. We developed a five-dimensional classification framework for DNN partition approaches, consisting of deployment locations, partition granularity, partition constraints, optimization objectives, and optimization algorithms. Each existing DNN partition approache can be perfectly defined in this framework by instantiating each dimension into specific values. In addition, we suggest a set of metrics for comparing and evaluating the DNN partition approaches. Based on this, we identify and discuss research challenges that have not yet been investigated or fully addressed. We hope that this work helps DNN partition researchers by highlighting significant future research directions in this domain.
翻訳日:2023-04-21 14:58:25 公開日:2023-04-20
# Digital Twin Graph: IoTで実現可能な世界のドメインに依存しない構築、融合、シミュレーション

Digital Twin Graph: Automated Domain-Agnostic Construction, Fusion, and Simulation of IoT-Enabled World ( http://arxiv.org/abs/2304.10018v1 )

ライセンス: Link先を確認
Jiadi Du and Tie Luo(参考訳) IoT開発の発展に伴い、有害なセンサデータが無線ネットワークを介して通信され、複雑な物理世界をミラーしシミュレートするDigital Twinsを構築する機会が生まれる。 Digital Twinは長年、ドメイン知識に大きく依存していると信じられてきたが、私たちはこのことが、人間の専門家の不足とコストのために、参入と開発が遅くなる、と論じている。 本稿では,デジタル双生児を完全自動化し,ドメインに依存しない方法で構築する処理フレームワークに関連した汎用データ構造であるデジタル双生児グラフ(dtg)を提案する。 この研究は、重要なデジタルツイン問題に対処するために、完全にデータ駆動で(非慣習的な)グラフ学習アプローチを取る最初の取り組みを表している。

With the advances of IoT developments, copious sensor data are communicated through wireless networks and create the opportunity of building Digital Twins to mirror and simulate the complex physical world. Digital Twin has long been believed to rely heavily on domain knowledge, but we argue that this leads to a high barrier of entry and slow development due to the scarcity and cost of human experts. In this paper, we propose Digital Twin Graph (DTG), a general data structure associated with a processing framework that constructs digital twins in a fully automated and domain-agnostic manner. This work represents the first effort that takes a completely data-driven and (unconventional) graph learning approach to addresses key digital twin challenges.
翻訳日:2023-04-21 14:58:04 公開日:2023-04-20
# カーネルに基づくモーダル統計手法のための最適カーネル

Optimal Kernel for Kernel-Based Modal Statistical Methods ( http://arxiv.org/abs/2304.10046v1 )

ライセンス: Link先を確認
Ryoya Yamasaki and Toshiyuki Tanaka(参考訳) カーネルベースのモーダル統計手法には、モード推定、回帰、クラスタリングがある。 これらの手法の推定精度は、使用するカーネルと帯域幅に依存する。 本稿では,カーネル関数の選択が評価精度に与える影響について検討する。 特に、最適な帯域幅を使用する際に、解析的に得られた漸近誤差基準を最小化する(マルチバリケート)最適カーネルを、その符号数によって定義される特定のカーネルクラスの中で理論的に示す。

Kernel-based modal statistical methods include mode estimation, regression, and clustering. Estimation accuracy of these methods depends on the kernel used as well as the bandwidth. We study effect of the selection of the kernel function to the estimation accuracy of these methods. In particular, we theoretically show a (multivariate) optimal kernel that minimizes its analytically-obtained asymptotic error criterion when using an optimal bandwidth, among a certain kernel class defined via the number of its sign changes.
翻訳日:2023-04-21 14:49:13 公開日:2023-04-20
# ID-MixGCL:グラフコントラスト学習のためのアイデンティティ混合

ID-MixGCL: Identity Mixup for Graph Contrastive Learning ( http://arxiv.org/abs/2304.10045v1 )

ライセンス: Link先を確認
Gehang Zhang and Bowen Yu and Jiangxia Cao and Xinghua Zhang and Tingwen Liu and Chuan Zhou(参考訳) 最近開発されたグラフコントラスト学習(gcl)アプローチは、ノード/グラフ表現を学ぶために、同じグラフの2つの異なる「ビュー」を比較する。 これらのアプローチの中核的な仮定は、グラフ強化により、いくつかの構造的に異なるが意味的に類似したグラフ構造を生成することが可能であり、したがって、元のグラフ/ノードの同一性ラベルは同一であるべきであるということである。 しかし,本論文では,例えば,分子グラフのノードやエッジに対する摂動がグラフラベルをある程度変化させるなど,この仮定が常に成り立つとは限らないことを考察する。 したがって、グラフ構造の拡張には、対比損失に使用するラベルの適応を伴わなければならないと考える。 このアイデアに基づいて,入力グラフと対応する識別ラベルの同時変調が可能なID-MixGCLを提案する。 実験結果から,ID-MixGCLはCora,IMDB-B,IMDB-Mデータセットにおいて,最先端技術と比較して3~29%の絶対点において,グラフ分類およびノード分類タスクの性能向上を示す。

Recently developed graph contrastive learning (GCL) approaches compare two different "views" of the same graph in order to learn node/graph representations. The core assumption of these approaches is that by graph augmentation, it is possible to generate several structurally different but semantically similar graph structures, and therefore, the identity labels of the original and augmented graph/nodes should be identical. However, in this paper, we observe that this assumption does not always hold, for example, any perturbation to nodes or edges in a molecular graph will change the graph labels to some degree. Therefore, we believe that augmenting the graph structure should be accompanied by an adaptation of the labels used for the contrastive loss. Based on this idea, we propose ID-MixGCL, which allows for simultaneous modulation of both the input graph and the corresponding identity labels, with a controllable degree of change, leading to the capture of fine-grained representations from unlabeled graphs. Experimental results demonstrate that ID-MixGCL improves performance on graph classification and node classification tasks, as demonstrated by significant improvements on the Cora, IMDB-B, and IMDB-M datasets compared to state-of-the-art techniques, by 3-29% absolute points.
翻訳日:2023-04-21 14:49:07 公開日:2023-04-20
# 時間的対象を持つ連続系のトポロジカルガイドアクタ・クリティカルモジュール学習

Topological Guided Actor-Critic Modular Learning of Continuous Systems with Temporal Objectives ( http://arxiv.org/abs/2304.10041v1 )

ライセンス: Link先を確認
Lening Li, Zhentian Qian(参考訳) 本研究では,線形時間論理の高レベル仕様を与えられた連続状態確率力学系の公式なポリシー合成について検討する。 満足度確率を最大化する最適政策を学習するために、動的システムと翻訳されたオートマトンの間に積を取り、最適な計画問題を解く製品システムを構築する。 この製品システムは,報酬のスパーシティをもたらすハイブリッド製品状態空間を有するので,トポロジカルな順序に逆らって,一般化された最適バックアップ順序を導入し,値バックアップを誘導し,学習プロセスを加速する。 この最適計画問題において、一般化された最適バックアップ順序を用いるための最適性証明を提供する。 さらに, トポロジ的順序を適用した場合, アクター-批評家強化学習アルゴリズムを提案する。 このアルゴリズムは高度な数学的手法を活用し、ハイパーパラメータ自己チューニングの特性を享受する。 提案した強化学習アルゴリズムの最適性と収束性を示す。 ハイブリッド製品状態空間における価値関数とポリシー関数の近似にニューラルネットワークを用いる。 さらに、オートマトン状態への整数の割り当ては、ニューラルネットワークによって近似される値やポリシー関数をランク付けすることができる。 順序関係を断ち切るために、モジュール学習と呼ばれる各オートマトン状態の値(政治)関数に個別のニューラルネットワークを使用する。 私たちは2つの実験を行います。 まず、強化学習アルゴリズムの有効性を示すために、古典的な制御タスクであるCartPoleのベースラインと比較する。 第2に、時相仕様のDubins車の動作計画に関する公式なポリシー合成フレームワークの実証的な性能を実証する。

This work investigates the formal policy synthesis of continuous-state stochastic dynamic systems given high-level specifications in linear temporal logic. To learn an optimal policy that maximizes the satisfaction probability, we take a product between a dynamic system and the translated automaton to construct a product system on which we solve an optimal planning problem. Since this product system has a hybrid product state space that results in reward sparsity, we introduce a generalized optimal backup order, in reverse to the topological order, to guide the value backups and accelerate the learning process. We provide the optimality proof for using the generalized optimal backup order in this optimal planning problem. Further, this paper presents an actor-critic reinforcement learning algorithm when topological order applies. This algorithm leverages advanced mathematical techniques and enjoys the property of hyperparameter self-tuning. We provide proof of the optimality and convergence of our proposed reinforcement learning algorithm. We use neural networks to approximate the value function and policy function for hybrid product state space. Furthermore, we observe that assigning integer numbers to automaton states can rank the value or policy function approximated by neural networks. To break the ordinal relationship, we use an individual neural network for each automaton state's value (policy) function, termed modular learning. We conduct two experiments. First, to show the efficacy of our reinforcement learning algorithm, we compare it with baselines on a classic control task, CartPole. Second, we demonstrate the empirical performance of our formal policy synthesis framework on motion planning of a Dubins car with a temporal specification.
翻訳日:2023-04-21 14:48:44 公開日:2023-04-20
# 深層学習を用いたMRO画像における脳腫瘍の多重分類とセグメンテーション

Brain tumor multi classification and segmentation in MRO images using deep learning ( http://arxiv.org/abs/2304.10039v1 )

ライセンス: Link先を確認
Belal Amin, Romario Sameh Samir, Youssef Tarek, Mohammed Ahmed, Rana Ibrahim, Manar Ahmed, Mohamed Hassan(参考訳) 本研究では,MRIによる脳腫瘍の分類と分類のための深層学習モデルを提案する。 この分類モデルはEfficientNetB1アーキテクチャに基づいており、画像は髄膜腫、グリオーマ、下垂体腺腫、腫瘍の4つのクラスに分類される。 セグメンテーションモデルはU-Netアーキテクチャに基づいており、MRI画像から腫瘍を正確にセグメンテーションするように訓練されている。 モデルは、公開データセットで評価され、高い精度とセグメンテーションのメトリクスを達成し、脳腫瘍の診断と治療における臨床使用の可能性を示す。

This study proposes a deep learning model for the classification and segmentation of brain tumors from magnetic resonance imaging (MRI) scans. The classification model is based on the EfficientNetB1 architecture and is trained to classify images into four classes: meningioma, glioma, pituitary adenoma, and no tumor. The segmentation model is based on the U-Net architecture and is trained to accurately segment the tumor from the MRI images. The models are evaluated on a publicly available dataset and achieve high accuracy and segmentation metrics, indicating their potential for clinical use in the diagnosis and treatment of brain tumors.
翻訳日:2023-04-21 14:48:19 公開日:2023-04-20
# オープンワールド連続学習 : 新規性検出と継続学習の統合

Open-World Continual Learning: Unifying Novelty Detection and Continual Learning ( http://arxiv.org/abs/2304.10038v1 )

ライセンス: Link先を確認
Gyuhak Kim, Changnan Xiao, Tatsuya Konishi, Zixuan Ke, Bing Liu(参考訳) AIエージェントは、未知や新奇性のある現実世界でますます使われているため、(1)物体を認識する能力が必要である。 (i)彼らが学んだこと、そして (二)これまで見たことのない、あるいは学んだことのない項目を検出し、(2)新しい項目を徐々に学習し、より知識豊かで強力になる。 1)新奇性検出(newty detection, out-of-distribution, od)、(2)クラスインクリメンタル学習(cil)、すなわち連続学習(continual learning, cl)である。 既存の研究では、OOD検出とCILは全く異なる2つの問題と見なされている。 本稿では,OOD検出がCILに実際に必要であることを理論的に証明する。 まず、CILを2つのサブプロブレム、すなわち in-task prediction (WP) と Task-id prediction (TP) に分解できることを示す。 次に,TPがOOD検出と相関していることを証明する。 鍵となる理論的結果は、WPとOOD検出(TP)がCILアルゴリズムによって明示的に、あるいは暗黙的に定義されるにせよ、優れたWPとOOD検出は必要であり、優れたCILのための十分な条件であり、新規性やOOD検出と継続学習(特にCIL)を統合することである。 この理論に基づく優れたcilアルゴリズムは、自然にオープンワールド学習に利用することができ、新奇性/オード検出と連続学習の両方を実行できる。 理論的な結果に基づいて、CILの精度と連続OOD検出において高いベースラインを大きなマージンで上回る新しいCIL法も設計されている。

As AI agents are increasingly used in the real open world with unknowns or novelties, they need the ability to (1) recognize objects that (i) they have learned and (ii) detect items that they have not seen or learned before, and (2) learn the new items incrementally to become more and more knowledgeable and powerful. (1) is called novelty detection or out-of-distribution (OOD) detection and (2) is called class incremental learning (CIL), which is a setting of continual learning (CL). In existing research, OOD detection and CIL are regarded as two completely different problems. This paper theoretically proves that OOD detection actually is necessary for CIL. We first show that CIL can be decomposed into two sub-problems: within-task prediction (WP) and task-id prediction (TP). We then prove that TP is correlated with OOD detection. The key theoretical result is that regardless of whether WP and OOD detection (or TP) are defined explicitly or implicitly by a CIL algorithm, good WP and good OOD detection are necessary and sufficient conditions for good CIL, which unifies novelty or OOD detection and continual learning (CIL, in particular). A good CIL algorithm based on our theory can naturally be used in open world learning, which is able to perform both novelty/OOD detection and continual learning. Based on the theoretical result, new CIL methods are also designed, which outperform strong baselines in terms of CIL accuracy and its continual OOD detection by a large margin.
翻訳日:2023-04-21 14:48:07 公開日:2023-04-20
# 視覚DNA:ニューロン活性化分布を用いた画像の表現と比較

Visual DNA: Representing and Comparing Images using Distributions of Neuron Activations ( http://arxiv.org/abs/2304.10036v1 )

ライセンス: Link先を確認
Benjamin Ramtoula, Matthew Gadd, Paul Newman, Daniele De Martini(参考訳) 現代のコンピュータビジョンでは、適切なデータセットの選択が不可欠である。 しかし、2つのデータセットがどの程度異なるかを評価する汎用ツールは存在しない。 そこで我々は,ニューロン活性化の分布(DNA)を用いた画像および拡張データセットの表現を提案する。 DNAは、ヒストグラムやガウスアンなどの分布を、事前に訓練された特徴抽出器内のニューロンの活性化に適合し、画像(s)を渡して表現する。 この抽出器は、すべてのデータセットで凍結され、機能空間におけるその一般的な表現力に依存しています。 2つのdnaを比較することで、2つのデータセットが関心のある比較属性に対する粒度制御によってどの程度異なるかを評価することができ、目の前のタスクの要求に合致するように距離を測定する方法をカスタマイズできる。 さらに、DNAはコンパクトで、15メガバイト未満の任意のサイズのデータセットを表す。 本研究では, 条件付きデータセット比較, 合成画像評価, 移動学習, および, 合成猫画像から有名人の顔, 都市運転シーンに至るまで, さまざまなデータセットにまたがって, それらの適用性を評価することでDNAの価値を実証する。

Selecting appropriate datasets is critical in modern computer vision. However, no general-purpose tools exist to evaluate the extent to which two datasets differ. For this, we propose representing images - and by extension datasets - using Distributions of Neuron Activations (DNAs). DNAs fit distributions, such as histograms or Gaussians, to activations of neurons in a pre-trained feature extractor through which we pass the image(s) to represent. This extractor is frozen for all datasets, and we rely on its generally expressive power in feature space. By comparing two DNAs, we can evaluate the extent to which two datasets differ with granular control over the comparison attributes of interest, providing the ability to customise the way distances are measured to suit the requirements of the task at hand. Furthermore, DNAs are compact, representing datasets of any size with less than 15 megabytes. We demonstrate the value of DNAs by evaluating their applicability on several tasks, including conditional dataset comparison, synthetic image evaluation, and transfer learning, and across diverse datasets, ranging from synthetic cat images to celebrity faces and urban driving scenes.
翻訳日:2023-04-21 14:47:35 公開日:2023-04-20
# トポロジカルディープラーニングのアーキテクチャ:トポロジカルニューラルネットワークに関する調査

Architectures of Topological Deep Learning: A Survey on Topological Neural Networks ( http://arxiv.org/abs/2304.10031v1 )

ライセンス: Link先を確認
Mathilde Papillon, Sophia Sanborn, Mustafa Hajij, Nina Miolane(参考訳) 自然界は、その構成要素間の複雑な関係によって特徴づけられる複雑なシステムでいっぱいである:ソーシャルネットワーク内の個人間の社会的相互作用から、タンパク質内の原子間の静電気的相互作用まで。 トポロジカルディープラーニング(topological deep learning, tdl)は、個人が属する社会コミュニティの予測や、タンパク質が薬物開発に適したターゲットとなるかどうかの予測など、これらのシステムに関連するデータから知識を処理および抽出するための包括的なフレームワークを提供する。 TDLは、応用科学以上の分野において、破滅の約束を守る理論的、実践的な利点を示してきた。 しかし、TDL文学の急速な発展は、トポロジカルニューラルネットワーク(TNN)アーキテクチャにおける表記と言語の統合の欠如につながっている。 これは、既存の作業の上に構築し、TNNを新たな現実的な問題にデプロイする上で、真の障害となる。 この問題に対処するため,我々は最近公開されたTNNを,数学的およびグラフィカルな統一表記法を用いて比較する。 tdlの新興分野に関する直感的かつ批判的なレビューを通じて、現在の課題と将来の開発へのエキサイティングな機会に対する貴重な洞察を抽出します。

The natural world is full of complex systems characterized by intricate relations between their components: from social interactions between individuals in a social network to electrostatic interactions between atoms in a protein. Topological Deep Learning (TDL) provides a comprehensive framework to process and extract knowledge from data associated with these systems, such as predicting the social community to which an individual belongs or predicting whether a protein can be a reasonable target for drug development. TDL has demonstrated theoretical and practical advantages that hold the promise of breaking ground in the applied sciences and beyond. However, the rapid growth of the TDL literature has also led to a lack of unification in notation and language across Topological Neural Network (TNN) architectures. This presents a real obstacle for building upon existing works and for deploying TNNs to new real-world problems. To address this issue, we provide an accessible introduction to TDL, and compare the recently published TNNs using a unified mathematical and graphical notation. Through an intuitive and critical review of the emerging field of TDL, we extract valuable insights into current challenges and exciting opportunities for future development.
翻訳日:2023-04-21 14:47:16 公開日:2023-04-20
# Jedi: エントロピーに基づく逆行性パッチの局在と除去

Jedi: Entropy-based Localization and Removal of Adversarial Patches ( http://arxiv.org/abs/2304.10029v1 )

ライセンス: Link先を確認
Bilel Tarchoun, Anouar Ben Khalifa, Mohamed Ali Mahjoub, Nael Abu-Ghazaleh, Ihsen Alouani(参考訳) 現実世界の敵対的物理的パッチは、様々なコンピュータビジョンアプリケーションで最先端のモデルを妥協することに成功した。 入力勾配または特徴分析に基づく既存の防御は、近年のganベースの攻撃によって、自然主義的なパッチを生成している。 本稿では,現実のパッチ攻撃に対して弾力性のある攻撃パッチに対する新たな防御法であるjediを提案する。 jediは情報理論の観点からパッチローカライズ問題に取り組む;(1)エントロピー解析を用いて潜在的なパッチ領域の同定を改善する;(2)高エントロピーカーネルからパッチ領域を完結できるオートエンコーダを用いて、逆パッチのエントロピーが高いこと、(2)逆パッチのローカライズを改善する。 Jediは高精細対位パッチの局所化を実現しており,画像の修復に極めて重要である。 ジェダイは入力エントロピー解析に頼っているため、モデルに依存しず、保護されたモデルのトレーニングや推論を変更することなく、既訓練のオフ・ザ・シェルフモデルに適用することができる。 jediは、さまざまなベンチマークで敵のパッチの平均90%を検出し、成功したパッチ攻撃の最大94%を回復する(それぞれ、lgsと柔術の75%と65%)。

Real-world adversarial physical patches were shown to be successful in compromising state-of-the-art models in a variety of computer vision applications. Existing defenses that are based on either input gradient or features analysis have been compromised by recent GAN-based attacks that generate naturalistic patches. In this paper, we propose Jedi, a new defense against adversarial patches that is resilient to realistic patch attacks. Jedi tackles the patch localization problem from an information theory perspective; leverages two new ideas: (1) it improves the identification of potential patch regions using entropy analysis: we show that the entropy of adversarial patches is high, even in naturalistic patches; and (2) it improves the localization of adversarial patches, using an autoencoder that is able to complete patch regions from high entropy kernels. Jedi achieves high-precision adversarial patch localization, which we show is critical to successfully repair the images. Since Jedi relies on an input entropy analysis, it is model-agnostic, and can be applied on pre-trained off-the-shelf models without changes to the training or inference of the protected models. Jedi detects on average 90% of adversarial patches across different benchmarks and recovers up to 94% of successful patch attacks (Compared to 75% and 65% for LGS and Jujutsu, respectively).
翻訳日:2023-04-21 14:46:56 公開日:2023-04-20
# 治療不適合を伴う因果的調停分析における同定と多元的ロバスト推定

Identification and multiply robust estimation in causal mediation analysis with treatment noncompliance ( http://arxiv.org/abs/2304.10025v1 )

ライセンス: Link先を確認
Chao Cheng and Fan Li(参考訳) 実験および観察的な研究では、介入プログラムが最終的な結果を改善する潜在的なメカニズムを理解することにしばしば関心がある。 因果仲裁分析は、この目的のために開発されたが、主に完全な治療コンプライアンスの場合に限られており、除外制限を必要とするいくつかの例外がある。 本稿では, 排除制限を伴わずに, 非適合治療の有無で因果仲裁を評価するための半パラメトリックフレームワークを構築した。 本研究は, 研究全体の自然媒介効果と, さらに, 潜在的コンプライアンス行動によって特徴づけられるサブ集団内における主要な自然媒介効果を同定するための仮定のセットを提案する。 我々は, 主自然媒介効果の効率的な影響関数を導出し, 推論のための多元的ロバストな推定器の集合を動機付ける。 同定された推定値に対する半パラメトリック効率理論が導出され、乗算ロバスト推定器が提案される。 乗法的ロバストな推定子は、作業モデルの4種類の誤特定の下でそれぞれの推定値に整合性を持ち、四重に頑健である。 さらに,提案する推定器の非パラメトリック拡張について,ニュアサンスパラメータを推定する機械学習器を組み込んで述べる。 中心的無知と媒介者の無知に対処するための感度解析フレームワークを開発した。 提案手法をシミュレーションにより実証し,実データへの適用例を示す。

In experimental and observational studies, there is often interest in understanding the potential mechanism by which an intervention program improves the final outcome. Causal mediation analyses have been developed for this purpose but are primarily restricted to the case of perfect treatment compliance, with a few exceptions that require exclusion restriction. In this article, we establish a semiparametric framework for assessing causal mediation in the presence of treatment noncompliance without exclusion restriction. We propose a set of assumptions to identify the natural mediation effects for the entire study population and further, for the principal natural mediation effects within subpopulations characterized by the potential compliance behaviour. We derive the efficient influence functions for the principal natural mediation effect estimands, which motivate a set of multiply robust estimators for inference. The semiparametric efficiency theory for the identified estimands is derived, based on which a multiply robust estimator is proposed. The multiply robust estimators remain consistent to the their respective estimands under four types of misspecification of the working models and is quadruply robust. We further describe a nonparametric extension of the proposed estimators by incorporating machine learners to estimate the nuisance parameters. A sensitivity analysis framework has been developed for address key identification assumptions-principal ignorability and ignorability of mediator. We demonstrate the proposed methods via simulations and applications to a real data example.
翻訳日:2023-04-21 14:46:33 公開日:2023-04-20
# 連邦のHIVサービスデータは、連邦のHIV監視活動を改善することができるのか?

Too sick for surveillance: Can federal HIV service data improve federal HIV surveillance efforts? ( http://arxiv.org/abs/2304.10023v1 )

ライセンス: Link先を確認
Nick Williams(参考訳) 導入: 連邦のHIVサービスデータとHIV監視を統合する価値は現在不明である。 上流および完全なケースキャプチャーは将来のhiv感染の予防に不可欠である。 方法: 本研究は2005年から2018年にかけて, HIV患者を対象に, ライアン・ホワイト, 社会保障障害保険, メディケア, 小児健康保険プログラム, メディケイドの人口集団を統合し, 人口集団によるHIV予防対策センターと比較した。 サーベイランス・ノウンティ (susk) は, サーベイランス・アグリゲーション・ボリュームがサーベイランス・アグリゲーション・ボリュームを上回ったアグリゲーションから, サービス・ナウンド (susk) 候補アグリゲーションを同定した。 配信手法と深層学習モデルシリーズを用いて,監視事例がサービスケースを超えるSUSK候補集合を同定した。 結果: 医療はSUSKアグリゲーションが最も有力であった。 メディケイドにはSUSKアグリゲーションがあり、ケースは監視と同等に接近する。 ディープラーニングは、監視ケースがサービスケースを超えた場合でも、候補のSUSK集約を検出することができた。 結論:CMSのケースレベルの記録とHIVの監視記録を統合することで、事例発見とライフコースモデルの品質が向上する可能性がある。 文献に記載された人の知識や同意なしに臨床HIVデータの可用性と再利用の両面での倫理的意味は、公衆衛生研究におけるビッグデータ倫理の発展の機会である。 今後の研究は、研究者を支援し、それらを記述する情報が誤用されていないことを保証するために、ビッグデータ倫理を開発するべきである。

Introduction: The value of integrating federal HIV services data with HIV surveillance is currently unknown. Upstream and complete case capture is essential in preventing future HIV transmission. Methods: This study integrated Ryan White, Social Security Disability Insurance, Medicare, Children Health Insurance Programs and Medicaid demographic aggregates from 2005 to 2018 for people living with HIV and compared them with Centers for Disease Control and Prevention HIV surveillance by demographic aggregate. Surveillance Unknown, Service Known (SUSK) candidate aggregates were identified from aggregates where services aggregate volumes exceeded surveillance aggregate volumes. A distribution approach and a deep learning model series were used to identify SUSK candidate aggregates where surveillance cases exceeded services cases in aggregate. Results: Medicare had the most candidate SUSK aggregates. Medicaid may have candidate SUSK aggregates where cases approach parity with surveillance. Deep learning was able to detect candidate SUSK aggregates even where surveillance cases exceed service cases. Conclusions: Integration of CMS case level records with HIV surveillance records can increase case discovery and life course model quality; especially for cases who die after seeking HIV services but before they become surveillance cases. The ethical implications for both the availability and reuse of clinical HIV Data without the knowledge and consent of the persons described remains an opportunity for the development of big data ethics in public health research. Future work should develop big data ethics to support researchers and assure their subjects that information which describes them is not misused.
翻訳日:2023-04-21 14:46:11 公開日:2023-04-20
# 極低解像度顔認識と品質評価のための認識可能性埋め込み

Recognizability Embedding Enhancement for Very Low-Resolution Face Recognition and Quality Estimation ( http://arxiv.org/abs/2304.10066v1 )

ライセンス: Link先を確認
Jacky Chen Long Chai, Tiong-Sik Ng, Cheng-Yaw Low, Jaewoo Park, Andrew Beng Jin Teoh(参考訳) 非常に低解像度の顔認識(VLRFR)は、興味の小さな領域や、取得装置の極端なスタンドオフ距離や広い視角による解像度の低下など、ユニークな課題を生んでいる。 本稿では,視覚的品質ではなく,埋め込み空間における顔の認識性を高めるための原則的アプローチについて検討する。 まず,2つの基準に基づいて,頑健な学習に基づく顔認識能力指標,すなわち認識可能性指標(RI)を定式化する。 (i)認識不能な顔クラスタセンターに対して埋め込まれた各顔の近接 (ii) 正および負のクラスプロトタイプに対する各面の埋め込みの密接さ。 次に、インデックスの逆変換損失を考案し、認識しにくい顔埋め込みを、認識不能な顔クラスタから低riにプッシュすることで、認識可能性の向上を図ります。 さらに、最も認識可能な顔領域に対応するために、知覚性注意機構が導入され、学習を組み込むための説明的および識別的特性が向上する。 提案モデルはエンドツーエンドで学習し,認識可能性を考慮した埋め込み学習と顔品質推定を同時に行う。 vlrfrに対処するために,3つの難解な低解像度データセットと顔品質評価の広範な評価を行った。

Very low-resolution face recognition (VLRFR) poses unique challenges, such as tiny regions of interest and poor resolution due to extreme standoff distance or wide viewing angle of the acquisition devices. In this paper, we study principled approaches to elevate the recognizability of a face in the embedding space instead of the visual quality. We first formulate a robust learning-based face recognizability measure, namely recognizability index (RI), based on two criteria: (i) proximity of each face embedding against the unrecognizable faces cluster center and (ii) closeness of each face embedding against its positive and negative class prototypes. We then devise an index diversion loss to push the hard-to-recognize face embedding with low RI away from unrecognizable faces cluster to boost the RI, which reflects better recognizability. Additionally, a perceptibility attention mechanism is introduced to attend to the most recognizable face regions, which offers better explanatory and discriminative traits for embedding learning. Our proposed model is trained end-to-end and simultaneously serves recognizability-aware embedding learning and face quality estimation. To address VLRFR, our extensive evaluations on three challenging low-resolution datasets and face quality assessment demonstrate the superiority of the proposed model over the state-of-the-art methods.
翻訳日:2023-04-21 14:40:34 公開日:2023-04-20
# 例外的非ヘルミティクスをもつ量子スピン鎖における$\mathcal{pt}$-symmetry breaking

$\mathcal{PT}$-Symmetry breaking in quantum spin chains with exceptional non-Hermiticities ( http://arxiv.org/abs/2304.10064v1 )

ライセンス: Link先を確認
Jacob Muldoon and Yogesh N. Joglekar(参考訳) パリティ時間(\mathcal{PT}$)対称性を持つ非エルミートハミルトニアンによって記述された量子系の実現以来、非エルミート的、量子多体モデルへの関心は着実に成長してきた。 ほとんどの研究は、モデルパラメータを複雑または純粋に虚数にすることから生じる非ハーモニティ性を持つ伝統的な量子スピンモデルに最新にマッピングする。 ここでは、エルミート項を2つのジョルダン正規形式部分に分割することによって生じる非ハーミティー性を持つ新しいモデルのクラスを示す。 このようなモデルにおける$\mathcal{pt}$-thresholdの正確な対角化結果を示し、数値結果を理解するための解析的アプローチを提供する。 驚くべきことに、非エルミートポテンシャルが2つまたは1つのサイトに限定されている場合、量子スピン鎖の大きさに敏感なロバストな$\mathcal{pt}$しきい値が見つかる。 この結果は、多体効果と非ハーミティティー効果の一致を観察できる実験で実現可能な非エルミティアン量子スピン鎖の経路を提供する。

Since the realization of quantum systems described by non-Hermitian Hamiltonians with parity-time ($\mathcal{PT}$) symmetry, interest in non-Hermitian, quantum many-body models has steadily grown. Most studies to-date map to traditional quantum spin models with a non-Hermiticity that arises from making the model parameters complex or purely imaginary. Here, we present a new class of models with non-Hermiticity generated by splitting a Hermitian term into two Jordan-normal form parts. We present exact diagonalization results for the $\mathcal{PT}$-threshold in such models, and provide an analytical approach for understanding the numerical results. Surprisingly, with non-Hermitian potentials confined to two or even a single site, we find a robust $\mathcal{PT}$ threshold that is insensitive to the size of the quantum spin chain. Our results provide a pathway to experimentally feasible non-Hermitian quantum spin chains where the confluence of many-body effects and non-Hermiticity effects can be observed.
翻訳日:2023-04-21 14:40:10 公開日:2023-04-20
# 加速勾配法を理解する:リャプノフ解析とハミルトン支援解釈

Understanding Accelerated Gradient Methods: Lyapunov Analyses and Hamiltonian Assisted Interpretations ( http://arxiv.org/abs/2304.10063v1 )

ライセンス: Link先を確認
Penghui Fu and Zhiqiang Tan(参考訳) 我々は、滑らかな凸関数と強い凸関数をそれぞれ最小化するために、以前研究したよりも一般的な1次アルゴリズムの2つのクラスを定式化する。 我々は、新しい離散リアプノフ解析により、強凸および一般凸設定においてネステロフ法と一致する加速収束率を達成するための十分条件を確立する。 次に、制限常微分方程式(odes)の収束を研究し、対応するアルゴリズムとodeの収束特性の間に現在注目すべきギャップを指摘する。 最後に、ハミルトン関数といくつかの解釈可能な演算を直接ベースとして、ハミルトニアン補助勾配法と呼ばれる新しい離散アルゴリズムのクラスを提案し、その上で、我々の加速条件の有意義かつ統一的な解釈を示す。

We formulate two classes of first-order algorithms more general than previously studied for minimizing smooth and strongly convex or, respectively, smooth and convex functions. We establish sufficient conditions, via new discrete Lyapunov analyses, for achieving accelerated convergence rates which match Nesterov's methods in the strongly and general convex settings. Next, we study the convergence of limiting ordinary differential equations (ODEs) and point out currently notable gaps between the convergence properties of the corresponding algorithms and ODEs. Finally, we propose a novel class of discrete algorithms, called the Hamiltonian assisted gradient method, directly based on a Hamiltonian function and several interpretable operations, and then demonstrate meaningful and unified interpretations of our acceleration conditions.
翻訳日:2023-04-21 14:39:46 公開日:2023-04-20
# 深部同変モデルのリード精度を現実的なサイズの生体分子シミュレーションにスケールする

Scaling the leading accuracy of deep equivariant models to biomolecular simulations of realistic size ( http://arxiv.org/abs/2304.10061v1 )

ライセンス: Link先を確認
Albert Musaelian, Anders Johansson, Simon Batzner, Boris Kozinsky(参考訳) この研究は、深部等変ニューラルネットワークの精度、サンプル効率、ロバスト性を極端に計算スケールにもたらす。 これは、革新的なモデルアーキテクチャ、大規模な並列化、効率的なGPU利用に最適化されたモデルと実装の組み合わせによって実現される。 その結果、アレグロのアーキテクチャは原子論シミュレーションの精度と速度のトレードオフを橋渡しし、量子忠実度における前例のない複雑さの構造における力学の記述を可能にする。 アレッグロのスケーラビリティを説明するため、タンパク質力学のナノ秒間安定シミュレーションを行い、パールマッタースーパーコンピュータ上で全原子44万個のHIVカプシドの原子構造にスケールアップする。 最大1億個の原子と70%の弱いスケーリングから5120 a100 gpuまで、優れた強力なスケーリングを示す。

This work brings the leading accuracy, sample efficiency, and robustness of deep equivariant neural networks to the extreme computational scale. This is achieved through a combination of innovative model architecture, massive parallelization, and models and implementations optimized for efficient GPU utilization. The resulting Allegro architecture bridges the accuracy-speed tradeoff of atomistic simulations and enables description of dynamics in structures of unprecedented complexity at quantum fidelity. To illustrate the scalability of Allegro, we perform nanoseconds-long stable simulations of protein dynamics and scale up to a 44-million atom structure of a complete, all-atom, explicitly solvated HIV capsid on the Perlmutter supercomputer. We demonstrate excellent strong scaling up to 100 million atoms and 70% weak scaling to 5120 A100 GPUs.
翻訳日:2023-04-21 14:39:32 公開日:2023-04-20
# ロバストオンライン学習の最適性

Optimality of Robust Online Learning ( http://arxiv.org/abs/2304.10060v1 )

ライセンス: Link先を確認
Zheng-Chu Guo, Andreas Christmann, Lei Shi(参考訳) 本稿では、再生カーネルヒルベルト空間(RKHS)上の回帰のために、ロバストな損失関数 $\mathcal{L}_{\sigma}$ を用いたオンライン学習アルゴリズムについて検討する。 スケーリングパラメータ $\sigma>0$ を含む損失関数 $\mathcal{l}_{\sigma}$ は、一般的に使用されるロバストな損失の範囲をカバーすることができる。 提案手法は条件平均関数の推定を目的としたオンライン最小二乗回帰のロバストな代替手法である。 適切に選択された$\sigma$ とステップサイズに対して、このオンラインアルゴリズムの最後の反復によって平均平方距離における最適な容量独立収束が得られることを示す。 さらに、基礎となる関数空間に関する追加情報が知られている場合、RKHSの強い収束のために最適なキャパシティ依存率を確立する。 我々の知る限りでは、この2つの結果は既存のオンライン学習の文献に新しいものである。

In this paper, we study an online learning algorithm with a robust loss function $\mathcal{L}_{\sigma}$ for regression over a reproducing kernel Hilbert space (RKHS). The loss function $\mathcal{L}_{\sigma}$ involving a scaling parameter $\sigma>0$ can cover a wide range of commonly used robust losses. The proposed algorithm is then a robust alternative for online least squares regression aiming to estimate the conditional mean function. For properly chosen $\sigma$ and step size, we show that the last iterate of this online algorithm can achieve optimal capacity independent convergence in the mean square distance. Moreover, if additional information on the underlying function space is known, we also establish optimal capacity dependent rates for strong convergence in RKHS. To the best of our knowledge, both of the two results are new to the existing literature of online learning.
翻訳日:2023-04-21 14:39:18 公開日:2023-04-20
# MedMNIST分類用複合ミキサー

Complex Mixer for MedMNIST Classification Decathlon ( http://arxiv.org/abs/2304.10054v1 )

ライセンス: Link先を確認
Zhuoran Zheng and Xiuyi Jia(参考訳) 医学画像分野の発展に伴い、研究者は医学的知識の必要性をブロックするデータセットのクラス、例えば \text{medmnist} (v2) を開発しようとしている。 medmnist (v2) には、多数の小規模 (28 $\times$ 28 または 28 $\times$ 28 $\times$ 28) の医療サンプルと対応する専門家アノテーション (class label) が含まれている。 既存のベースラインモデル(Google AutoML Vision、ResNet-50+3D)は、専門家による意思決定のパフォーマンスに匹敵する、MedMNIST(v2)データセット上で平均70%以上の精度に達することができる。 それでも、MedMNIST (v2) のモデリングには2つの不可能な障害がある。 1) 原画像は,低スケールに収穫され,有効な認識情報が落とされ,分類器は,正確な決定境界の追跡が困難となる。 2) ラベル者の主観的洞察は,ラベル空間に多くの不確実性を引き起こす可能性がある。 これらの問題に対処するため,事前学習フレームワークを備えた複合ミキサー (C-Mixer) を開発し,ランダムマスキングを用いたインセンティブ仮想行列と自己教師型スキームを導入することにより,ラベル空間における情報不足と不確実性の問題を軽減する。 本手法は,標準的なMedMNIST(v2)データセット,カスタマイズされた弱教師付きデータセット,その他の画像強調タスクにおいて,驚くべき可能性を示す。

With the development of the medical image field, researchers seek to develop a class of datasets to block the need for medical knowledge, such as \text{MedMNIST} (v2). MedMNIST (v2) includes a large number of small-sized (28 $\times$ 28 or 28 $\times$ 28 $\times$ 28) medical samples and the corresponding expert annotations (class label). The existing baseline model (Google AutoML Vision, ResNet-50+3D) can reach an average accuracy of over 70\% on MedMNIST (v2) datasets, which is comparable to the performance of expert decision-making. Nevertheless, we note that there are two insurmountable obstacles to modeling on MedMNIST (v2): 1) the raw images are cropped to low scales may cause effective recognition information to be dropped and the classifier to have difficulty in tracing accurate decision boundaries; 2) the labelers' subjective insight may cause many uncertainties in the label space. To address these issues, we develop a Complex Mixer (C-Mixer) with a pre-training framework to alleviate the problem of insufficient information and uncertainty in the label space by introducing an incentive imaginary matrix and a self-supervised scheme with random masking. Our method (incentive learning and self-supervised learning with masking) shows surprising potential on both the standard MedMNIST (v2) dataset, the customized weakly supervised datasets, and other image enhancement tasks.
翻訳日:2023-04-21 14:38:59 公開日:2023-04-20
# 従来の通信と共存する展開繊維の2モードスクイーズ

Two-mode squeezing over deployed fiber coexisting with conventional communications ( http://arxiv.org/abs/2304.10053v1 )

ライセンス: Link先を確認
Joseph C. Chapman, Alexander Miloshevsky, Hsuan-Hao Lu, Nageswara Rao, Muneer Alshowkan, Nicholas A. Peters(参考訳) 圧縮光は連続変数(cv)量子情報科学の重要な資源である。 分散マルチモードスクイージングはcv量子ネットワークと分散量子センシングを実現するために重要である。 これまで、ホモダイン検出で測定されたマルチモードスクイージングは、古典的な信号、すなわち「ダーク」ファイバーを共存させることなく、単室実験に限定されてきた。 ここでは、別個の繊維スプール(5〜km)を通して分布した後、${0.9\pm0.1}$-dB共存二モードスクイーズを測定する。 さらに, 別配置のキャンパス繊維(約250~m, 1.2〜km)による配電後, {0.5\pm0.1}$-dB共存2モードスクイーズの測定を行った。 分布に先立ち、スクイーズモードは、各周波数に、ローカル発振器や従来のネットワーク信号を含むいくつかの古典的な信号と多重化され、スクイーズモードは専用のダークファイバを必要としない。 分散後, トリガーホモダイン検出による後処理のために, ジョイント2モードのスクイージングを測定し, 記録する。 このデモは、分散マルチモードスクイーズに依存する量子ネットワークと量子センシングにおける将来の応用を可能にする。

Squeezed light is a crucial resource for continuous-variable (CV) quantum information science. Distributed multi-mode squeezing is critical for enabling CV quantum networks and distributed quantum sensing. To date, multi-mode squeezing measured by homodyne detection has been limited to single-room experiments without coexisting classical signals, i.e., on ``dark'' fiber. Here, after distribution through separate fiber spools (5~km), ${0.9\pm0.1}$-dB coexistent two-mode squeezing is measured. Moreover, after distribution through separate deployed campus fibers (about 250~m and 1.2~km), ${0.5\pm0.1}$-dB coexistent two-mode squeezing is measured. Prior to distribution, the squeezed modes are each frequency multiplexed with several classical signals -- including the local oscillator and conventional network signals -- demonstrating that the squeezed modes do not need dedicated dark fiber. After distribution, joint two-mode squeezing is measured and recorded for post-processing using triggered homodyne detection in separate locations. This demonstration enables future applications in quantum networks and quantum sensing that rely on distributed multi-mode squeezing.
翻訳日:2023-04-21 14:38:14 公開日:2023-04-20
# HyperTuner: データ分析サービスのための多目的ハイパーパラメータ自動チューニングフレームワーク

HyperTuner: A Cross-Layer Multi-Objective Hyperparameter Auto-Tuning Framework for Data Analytic Services ( http://arxiv.org/abs/2304.10051v1 )

ライセンス: Link先を確認
Hui Dou, Shanshan Zhu, Yiwen Zhang, Pengfei Chen and Zibin Zheng(参考訳) ハイパーパラメータ最適化(HPO)は機械学習モデルにとって不可欠である。 モデル精度に加えて、モデルトレーニング時間やエネルギー消費といった他のチューニング意図も、データ分析サービスプロバイダから注目に値する。 したがって、モデルハイパーパラメータとシステムパラメータの両方を考慮に入れ、多目的マルチパラメータ自動チューニングを実行することが不可欠である。 この挑戦的な目標に向けて,本稿ではHyperTunerを提案する。 定式化された高次元ブラックボックスの多目的最適化問題に対処するため,HyperTuner はまず MOPIR アルゴリズムを用いて多目的パラメータ重要度ランキングを行い,提案した ADUMBO アルゴリズムを用いてパレート最適構成を求める。 それぞれのイテレーションの間、ADUMBOは、生成されたパレート候補セットから最も有望な構成を、新しいよく設計されたメトリクスを最大化することで選択する。 ローカル分散tensorflowクラスタ上でhypertunerを評価し,実験結果から,他の4つのベースラインアルゴリズムと比較して,コンバージェンスと多様性の両面において,pareto構成の面が常に優れていることが分かった。 さらに、異なるトレーニングデータセット、異なる最適化目標、異なる機械学習プラットフォームによる実験は、HyperTunerがさまざまなデータ分析サービスシナリオに適切に適応できることを検証する。

Hyper-parameters optimization (HPO) is vital for machine learning models. Besides model accuracy, other tuning intentions such as model training time and energy consumption are also worthy of attention from data analytic service providers. Hence, it is essential to take both model hyperparameters and system parameters into consideration to execute cross-layer multi-objective hyperparameter auto-tuning. Towards this challenging target, we propose HyperTuner in this paper. To address the formulated high-dimensional black-box multi-objective optimization problem, HyperTuner first conducts multi-objective parameter importance ranking with its MOPIR algorithm and then leverages the proposed ADUMBO algorithm to find the Pareto-optimal configuration set. During each iteration, ADUMBO selects the most promising configuration from the generated Pareto candidate set via maximizing a new well-designed metric, which can adaptively leverage the uncertainty as well as the predicted mean across all the surrogate models along with the iteration times. We evaluate HyperTuner on our local distributed TensorFlow cluster and experimental results show that it is always able to find a better Pareto configuration front superior in both convergence and diversity compared with the other four baseline algorithms. Besides, experiments with different training datasets, different optimization objectives and different machine learning platforms verify that HyperTuner can well adapt to various data analytic service scenarios.
翻訳日:2023-04-21 14:37:49 公開日:2023-04-20
# ニューラル・ラジアンス・フィールド:過去・現在・未来

Neural Radiance Fields: Past, Present, and Future ( http://arxiv.org/abs/2304.10050v1 )

ライセンス: Link先を確認
Ansh Mittal(参考訳) 3D環境や環境のモデリングや解釈といったさまざまな側面は、人間に3Dコンピュータビジョン、コンピュータグラフィックス、機械学習の研究を進めるよう促している。 MildenhallらがNeRF(Neural Radiance Fields)に関する論文で行った試みは、コンピュータグラフィックス、ロボティクス、コンピュータビジョンのブームにつながり、高解像度の低ストレージ拡張現実と仮想現実ベースの3Dモデルは、NeRFに関連する500以上のプレプリントのリセットから注目を集めている。 本論文は, 数学, 幾何学, コンピュータビジョン, コンピュータグラフィックスの基礎を基礎として, これらすべての分野の交点における暗黙の表現に遭遇する困難さを解消し, それらの分野を研究を始める人々にとっての橋渡しとなる。 このサーベイは、レンダリング、インプリシトラーニング、NeRFの歴史、NeRFの研究の進展、そして今日の世界におけるNeRFの潜在的な応用と意味を提供する。 そこで本調査では, 使用するデータセット, 目的関数, アプリケーション解決, 評価基準の観点から, 全NeRF関連研究を分類した。

The various aspects like modeling and interpreting 3D environments and surroundings have enticed humans to progress their research in 3D Computer Vision, Computer Graphics, and Machine Learning. An attempt made by Mildenhall et al in their paper about NeRFs (Neural Radiance Fields) led to a boom in Computer Graphics, Robotics, Computer Vision, and the possible scope of High-Resolution Low Storage Augmented Reality and Virtual Reality-based 3D models have gained traction from res with more than 500 preprints related to NeRFs published. This paper serves as a bridge for people starting to study these fields by building on the basics of Mathematics, Geometry, Computer Vision, and Computer Graphics to the difficulties encountered in Implicit Representations at the intersection of all these disciplines. This survey provides the history of rendering, Implicit Learning, and NeRFs, the progression of research on NeRFs, and the potential applications and implications of NeRFs in today's world. In doing so, this survey categorizes all the NeRF-related research in terms of the datasets used, objective functions, applications solved, and evaluation criteria for these applications.
翻訳日:2023-04-21 14:37:27 公開日:2023-04-20
# 2共振器結合器を用いた超伝導回路における量子ビット結合制御

Control the qubit-qubit coupling in the superconducting circuit with double-resonator couplers ( http://arxiv.org/abs/2304.10047v1 )

ライセンス: Link先を確認
Hui Wang, Yan-Jun Zhao, Hui-Chen Sun, Xun-Wei Xu, Yong Li, Yarui Zheng, Qiang Liu, Rengang Li(参考訳) 2つの固定周波数共振器カプラを用いて2つのxmon量子ビット間の結合強度をチューニングする方式を提案する。 2つの共振器による間接的量子ビット相互作用は互いにオフセットすることができ、2つの量子ビット間の直接結合は必ずしもオフにするためのものではない。 直接クビット・クイブト結合は、スイッチオフとスイッチオンの間の周波数間隔を効果的に抑制し、2階および3階の静的ZZ結合をグローバルに抑制することができる。 共振器カプラとqubits読み出し共振器の周波数差は非常に大きいため、qubits読み出し誤差を抑制するのに有用である。 クビットと2つの共振器の間のクロスカー共鳴過程は、極を誘導し、クビット間のクロストークに影響を与える可能性がある。 二重共振器結合器は超伝導回路の容量と結合強度の制限を解凍することができ、フラックスノイズを低減し、クロストークを世界規模で抑制することができる。

We propose a scheme of using two fixed frequency resonator couplers to tune the coupling strength between two Xmon qubits. The induced indirect qubit-qubit interactions by two resonators could offset with each other, and the direct coupling between two qubits are not necessarily for switching off. The small direct qubit-quibt coupling could effectively suppress the frequency interval between switching off and switching on, and globally suppress the second and third-order static ZZ couplings. The frequencies differences between resonator couplers and qubits readout resonators are very large, this might be helpful for suppressing the qubits readout errors. The cross-kerr resonant processes between a qubit and two resonators might induce pole and affect the crosstalks between qubits. The double resonator couplers could unfreeze the restrictions on capacitances and coupling strengths in the superconducting circuit, and it can also reduce the flux noises and globally suppress the crosstalks.
翻訳日:2023-04-21 14:37:04 公開日:2023-04-20
# ファウショット学習のためのクラスタ・パッチ要素接続

Clustered-patch Element Connection for Few-shot Learning ( http://arxiv.org/abs/2304.10093v1 )

ライセンス: Link先を確認
Jinxiang Lai, Siqian Yang, Junhong Zhou, Wenlong Wu, Xiaochen Chen, Jun Liu, Bin-Bin Gao, Chengjie Wang(参考訳) 弱い特徴表現問題は、長い間、数発の分類タスクの性能に影響を与えてきた。 この問題を軽減するため、最近の研究者は、パッチ機能を組み込んで識別表現を生成することで、サポートとクエリインスタンス間の接続を構築している。 しかし,対象オブジェクトの位置やサイズが固定されていないため,局所パッチには意味的ミスマッチ(前景/背景)が存在することを確認した。 さらに悪いことに、これらのミスマッチは信頼できない類似性信頼をもたらし、複雑な密接な接続は問題を悪化させる。 そこで本研究では,ミスマッチ問題を修正するために,クラスタ化パッチ要素接続(CEC)層を提案する。 cec層はパッチクラスタとエレメント接続操作を利用して、高い類似性を持つ信頼性の高い接続をそれぞれ収集し確立する。 さらに,CEC層に基づくアテンションモジュールと距離メートル法を含むCECNetを提案する。 前者はグローバルクラスタ・パッチの特徴からより差別的な表現を生成するために利用され、後者はペア・フィーチャー間の類似性を確実に測定するために導入される。 我々のCECNetは、分類ベンチマークで最先端の手法よりも優れています。 さらに,cecアプローチを数ショットセグメンテーションと検出タスクに拡張することで,競合性能を実現する。

Weak feature representation problem has influenced the performance of few-shot classification task for a long time. To alleviate this problem, recent researchers build connections between support and query instances through embedding patch features to generate discriminative representations. However, we observe that there exists semantic mismatches (foreground/ background) among these local patches, because the location and size of the target object are not fixed. What is worse, these mismatches result in unreliable similarity confidences, and complex dense connection exacerbates the problem. According to this, we propose a novel Clustered-patch Element Connection (CEC) layer to correct the mismatch problem. The CEC layer leverages Patch Cluster and Element Connection operations to collect and establish reliable connections with high similarity patch features, respectively. Moreover, we propose a CECNet, including CEC layer based attention module and distance metric. The former is utilized to generate a more discriminative representation benefiting from the global clustered-patch features, and the latter is introduced to reliably measure the similarity between pair-features. Extensive experiments demonstrate that our CECNet outperforms the state-of-the-art methods on classification benchmark. Furthermore, our CEC approach can be extended into few-shot segmentation and detection tasks, which achieves competitive performances.
翻訳日:2023-04-21 14:30:14 公開日:2023-04-20
# ビデオに基づく歩行者属性認識のためのCLIPガイド付きビジュアルテキスト融合変換器

Learning CLIP Guided Visual-Text Fusion Transformer for Video-based Pedestrian Attribute Recognition ( http://arxiv.org/abs/2304.10091v1 )

ライセンス: Link先を確認
Jun Zhu, Jiandong Jin, Zihan Yang, Xiaohao Wu, Xiao Wang(参考訳) 既存の歩行者属性認識(PAR)アルゴリズムは主に静的画像に基づいて開発されている。 しかし,重度の咬合や動きのぼやきなど,難易度の高い画像では,その性能は信頼性に乏しい。 本研究では,時間情報を完全に活用できるビデオフレームを用いて,人間の属性を理解することを提案する。 具体的には,映像ベースのparを視覚言語融合問題として定式化し,事前学習した大型モデルクリップを用いて所定の映像フレームの特徴埋め込みを抽出する。 意味情報をより活用するために、属性リストを別の入力として、属性単語/フレーズをスプリット、展開、プロンプトを通じて対応する文に変換する。 次に、CLIPのテキストエンコーダを言語埋め込みに利用する。 平均的な視覚トークンとテキストトークンは連結され、マルチモーダル対話型学習のための融合トランスフォーマーに入力される。 拡張トークンは、歩行者属性予測のための分類ヘッドに供給される。 大規模ビデオベースPARデータセットの大規模な実験により,提案手法の有効性が検証された。

Existing pedestrian attribute recognition (PAR) algorithms are mainly developed based on a static image. However, the performance is not reliable for images with challenging factors, such as heavy occlusion, motion blur, etc. In this work, we propose to understand human attributes using video frames that can make full use of temporal information. Specifically, we formulate the video-based PAR as a vision-language fusion problem and adopt pre-trained big models CLIP to extract the feature embeddings of given video frames. To better utilize the semantic information, we take the attribute list as another input and transform the attribute words/phrase into the corresponding sentence via split, expand, and prompt. Then, the text encoder of CLIP is utilized for language embedding. The averaged visual tokens and text tokens are concatenated and fed into a fusion Transformer for multi-modal interactive learning. The enhanced tokens will be fed into a classification head for pedestrian attribute prediction. Extensive experiments on a large-scale video-based PAR dataset fully validated the effectiveness of our proposed framework.
翻訳日:2023-04-21 14:29:54 公開日:2023-04-20
# MIPI 2023 RGBW核融合への挑戦:方法と結果

MIPI 2023 Challenge on RGBW Fusion: Methods and Results ( http://arxiv.org/abs/2304.10089v1 )

ライセンス: Link先を確認
Qianhui Sun, Qingyu Yang, Chongyi Li, Shangchen Zhou, Ruicheng Feng, Yuekun Dai, Wenxiu Sun, Qingpeng Zhu, Chen Change Loy, Jinwei Gu(参考訳) カメラシステムにおける新しいアルゴリズムによる高度な画像センサの開発と統合は、モバイルプラットフォームでの計算写真や画像の需要の増加とともに普及している。 しかし、研究のための高品質なデータの欠如と、産業や学界からの深い見解交換の機会は、モバイル・インテリジェント・フォトグラフィー・イメージング(MIPI)の開発を妨げている。 第1回MIPIワークショップ@ECCV 2022の成功により、新しい画像センサと撮像アルゴリズムに焦点を当てた4つのトラックを含む第2回MIPIチャレンジを紹介した。 本稿は,MIPI 2023のRGBW Joint Remosaic and Denoiseトラックを要約し,レビューする。 合計81人の参加者が登録され、4チームが最終テストフェーズで結果を提出した。 最終結果は、PSNR、SSIM、LPIPS、KLDなどの客観的指標を用いて評価される。 本論文では,本課題で開発された上位3モデルについて詳述する。 この課題の詳細とデータセットへのリンクはhttps://mipi-challenge.org/MIPI2023/で確認できる。

Developing and integrating advanced image sensors with novel algorithms in camera systems are prevalent with the increasing demand for computational photography and imaging on mobile platforms. However, the lack of high-quality data for research and the rare opportunity for an in-depth exchange of views from industry and academia constrain the development of mobile intelligent photography and imaging (MIPI). With the success of the 1st MIPI Workshop@ECCV 2022, we introduce the second MIPI challenge, including four tracks focusing on novel image sensors and imaging algorithms. This paper summarizes and reviews the RGBW Joint Remosaic and Denoise track on MIPI 2023. In total, 81 participants were successfully registered, and 4 teams submitted results in the final testing phase. The final results are evaluated using objective metrics, including PSNR, SSIM, LPIPS, and KLD. A detailed description of the top three models developed in this challenge is provided in this paper. More details of this challenge and the link to the dataset can be found at https://mipi-challenge.org/MIPI2023/.
翻訳日:2023-04-21 14:29:39 公開日:2023-04-20
# 任意オプタクオクルージョン周辺における回折光通信の学習

Learning Diffractive Optical Communication Around Arbitrary Opaque Occlusions ( http://arxiv.org/abs/2304.10087v1 )

ライセンス: Link先を確認
Md Sadman Sakib Rahman, Tianyi Gan, Emir Arda Deger, Cagatay Isil, Mona Jarrahi, Aydogan Ozcan(参考訳) 屋内および屋外における高いデータレート通信と情報転送のために、自由空間光学系が登場している。 しかし、オクルージョンが光路を遮断すると、自由空間光通信は困難になる。 ここでは,送信機の視野を部分的にあるいは完全に遮る,完全に不透明で任意の形状の障害物の周囲に光学情報を伝達する直接通信方式を初めて実証する。 このスキームでは、電子ニューラルネットワークエンコーダと回折光ネットワークデコーダがディープラーニングを用いて共同で訓練され、任意の形状の不透明な閉塞の周囲の光情報や関心のメッセージが転送される。 回折復号器は、光-物質相互作用を介して光情報を処理する連続した空間工学的受動面を含む。 訓練の後、エンコーダとデコーダのペアは不透明なオクルージョンに関する任意の光学情報を伝えることができ、そこでは情報デコーダは光伝播の速度で発生する。 時間の関数としてサイズや形を変えるオクルージョンに対して、エンコーダニューラルネットワークは、既にデプロイされている物理層を変更することなく、既存の微分デコーダとうまく通信できるように再訓練することができる。 また,この枠組みをテラヘルツスペクトルで実験的に検証し,完全に不透明なオクルージョンの周囲で通信する3dプリント回折デコーダを用いて検証した。 任意の波長で操作できるため、この方式は高速度自由空間通信システムにおいて特に有用である。

Free-space optical systems are emerging for high data rate communication and transfer of information in indoor and outdoor settings. However, free-space optical communication becomes challenging when an occlusion blocks the light path. Here, we demonstrate, for the first time, a direct communication scheme, passing optical information around a fully opaque, arbitrarily shaped obstacle that partially or entirely occludes the transmitter's field-of-view. In this scheme, an electronic neural network encoder and a diffractive optical network decoder are jointly trained using deep learning to transfer the optical information or message of interest around the opaque occlusion of an arbitrary shape. The diffractive decoder comprises successive spatially-engineered passive surfaces that process optical information through light-matter interactions. Following its training, the encoder-decoder pair can communicate any arbitrary optical information around opaque occlusions, where information decoding occurs at the speed of light propagation. For occlusions that change their size and/or shape as a function of time, the encoder neural network can be retrained to successfully communicate with the existing diffractive decoder, without changing the physical layer(s) already deployed. We also validate this framework experimentally in the terahertz spectrum using a 3D-printed diffractive decoder to communicate around a fully opaque occlusion. Scalable for operation in any wavelength regime, this scheme could be particularly useful in emerging high data-rate free-space communication systems.
翻訳日:2023-04-21 14:29:20 公開日:2023-04-20
# NeUDF: ボリュームレンダリングによるニューラルネットワーク非符号距離フィールドのリーン化

NeUDF: Leaning Neural Unsigned Distance Fields with Volume Rendering ( http://arxiv.org/abs/2304.10080v1 )

ライセンス: Link先を確認
Yu-Tao Liu, Li Wang, Jie yang, Weikai Chen, Xiaoxu Meng, Bo Yang, Lin Gao(参考訳) マルチビュー形状の再構成は、ニューラルな暗黙の表面レンダリングの最新の進歩により、目覚ましい進歩を遂げた。 しかし、符号付き距離関数(SDF)に基づく既存の手法は閉曲面に限られており、開表面構造を含む幅広い現実世界の物体を再構成することができない。 本稿では,多視点監視のみで任意の位相を持つ曲面を再構成する,新しいニューラルレンダリングフレームワークであるcoded neudfを紹介する。 任意の面を表す柔軟性を得るために、NeUDFは符号なし距離関数(UDF)を表面表現として利用する。 SDFベースのニューラルレンダラの単純拡張はUDFにスケールできないが,UDFベースのボリュームレンダリングに適した2つの新しい重み関数の定式化を提案する。 さらに,in/outテストがもはや有効ではないオープンサーフェスレンダリングに対処するために,表面方位の曖昧さを解決するための専用正規正規化戦略を提案する。 DTU,MGN,Deep Fashion 3Dなど,多くの課題のあるデータセットに対して,我々の手法を広範囲に評価した。 実験結果から,nEudf は多面的表面再構成,特に開放境界を有する複素形状において,最先端の手法よりも優れることが示された。

Multi-view shape reconstruction has achieved impressive progresses thanks to the latest advances in neural implicit surface rendering. However, existing methods based on signed distance function (SDF) are limited to closed surfaces, failing to reconstruct a wide range of real-world objects that contain open-surface structures. In this work, we introduce a new neural rendering framework, coded NeUDF, that can reconstruct surfaces with arbitrary topologies solely from multi-view supervision. To gain the flexibility of representing arbitrary surfaces, NeUDF leverages the unsigned distance function (UDF) as surface representation. While a naive extension of an SDF-based neural renderer cannot scale to UDF, we propose two new formulations of weight function specially tailored for UDF-based volume rendering. Furthermore, to cope with open surface rendering, where the in/out test is no longer valid, we present a dedicated normal regularization strategy to resolve the surface orientation ambiguity. We extensively evaluate our method over a number of challenging datasets, including DTU}, MGN, and Deep Fashion 3D. Experimental results demonstrate that nEudf can significantly outperform the state-of-the-art method in the task of multi-view surface reconstruction, especially for complex shapes with open boundaries.
翻訳日:2023-04-21 14:28:56 公開日:2023-04-20
# エッジ時間状態を用いた動的グラフ表現学習のためのリカレントトランス

Recurrent Transformer for Dynamic Graph Representation Learning with Edge Temporal States ( http://arxiv.org/abs/2304.10079v1 )

ライセンス: Link先を確認
Shengxiang Hu, Guobing Zou, Shiyi Lin, Liangrui Wu, Chenyang Zhou, Bofeng Zhang, Yixin Chen(参考訳) 動的グラフ表現学習は、現実のアプリケーションでグラフデータ分析が広く求められているため、研究課題のトレンドとして成長している。 再帰的ニューラルネットワーク(rnn)とグラフニューラルネットワーク(gnn)を基盤とする最近の多くの作品の奨励的なパフォーマンスにもかかわらず、時間的スライスによるノード機能に対するエッジ時間状態の影響を明示的にモデル化できていない。 さらに、GNNの過度な過度な不利のため、グローバルな構造的特徴を抽出することは困難であり、パフォーマンスをさらに制限している。 本稿では,まず,各スナップショットのエッジに異なる型と重みを割り当てて,それぞれの時間的状態を明確に表現し,その時間的ノード表現をリカレント学習パラダイムでキャプチャするリカレント差分グラフトランスフォーマ(rdgt)フレームワークを提案する。 4つの実世界のデータセットに対する実験結果は、動的リンク予測タスクにおいて競合する手法を一貫して上回り、離散動的グラフ表現学習におけるRDGTの優位性を示す。

Dynamic graph representation learning is growing as a trending yet challenging research task owing to the widespread demand for graph data analysis in real world applications. Despite the encouraging performance of many recent works that build upon recurrent neural networks (RNNs) and graph neural networks (GNNs), they fail to explicitly model the impact of edge temporal states on node features over time slices. Additionally, they are challenging to extract global structural features because of the inherent over-smoothing disadvantage of GNNs, which further restricts the performance. In this paper, we propose a recurrent difference graph transformer (RDGT) framework, which firstly assigns the edges in each snapshot with various types and weights to illustrate their specific temporal states explicitly, then a structure-reinforced graph transformer is employed to capture the temporal node representations by a recurrent learning paradigm. Experimental results on four real-world datasets demonstrate the superiority of RDGT for discrete dynamic graph representation learning, as it consistently outperforms competing methods in dynamic link prediction tasks.
翻訳日:2023-04-21 14:28:31 公開日:2023-04-20
# リアルタイムアンチエイリアシングニューラルレンダリングのためのマルチスケール表現

Multiscale Representation for Real-Time Anti-Aliasing Neural Rendering ( http://arxiv.org/abs/2304.10075v1 )

ライセンス: Link先を確認
Dongting Hu, Zhenkai Zhang, Tingbo Hou, Tongliang Liu, Huan Fu and Mingming Gong(参考訳) ニューラルレイディアンスフィールド(NeRF)のレンダリングスキームは、シーンにレイを投入することによりピクセルのレンダリングに有効である。 しかし、nerfはトレーニング画像が一様でないスケールでキャプチャされるとぼやけたレンダリング結果をもたらし、テスト画像が遠くの視点で撮影された場合、エイリアシングアーティファクトを生成する。 この問題に対処するため、Mip-NeRFはスケール情報をエンコードする円錐フラストラムとしてマルチスケール表現を提案する。 それでもこのアプローチは、多層パーセプトロン(MLP)のクエリにIPE(Integrated positional encoding)に依存するため、オフラインレンダリングにのみ適している。 この制限を克服するために、リアルタイムアンチエイリアシングレンダリングのための遅延アーキテクチャを備えた明示的なマルチスケール表現であるmip voxel grids (mip-vog)を提案する。 我々のアプローチには、シーン幾何学のための密度 Mip-VoG と、ビュー依存色のための小さな MLP を備えた特徴 Mip-VoG が含まれる。 mip-vogは、レイディファレンシャルから派生したディテールレベル(lod)を使用してシーンスケールをエンコードし、クエリされた3d位置をその特徴と隣接する2つのボクセルグリッドから密度にマッピングする。 私たちの知る限り、私たちのアプローチは、マルチスケールトレーニングとリアルタイムのアンチエイリアスレンダリングを同時に提供する最初の方法です。 マルチスケールデータセットの実験を行い、その結果、我々のアプローチは最先端のリアルタイムレンダリングベースラインよりも優れていることが示された。

The rendering scheme in neural radiance field (NeRF) is effective in rendering a pixel by casting a ray into the scene. However, NeRF yields blurred rendering results when the training images are captured at non-uniform scales, and produces aliasing artifacts if the test images are taken in distant views. To address this issue, Mip-NeRF proposes a multiscale representation as a conical frustum to encode scale information. Nevertheless, this approach is only suitable for offline rendering since it relies on integrated positional encoding (IPE) to query a multilayer perceptron (MLP). To overcome this limitation, we propose mip voxel grids (Mip-VoG), an explicit multiscale representation with a deferred architecture for real-time anti-aliasing rendering. Our approach includes a density Mip-VoG for scene geometry and a feature Mip-VoG with a small MLP for view-dependent color. Mip-VoG encodes scene scale using the level of detail (LOD) derived from ray differentials and uses quadrilinear interpolation to map a queried 3D location to its features and density from two neighboring downsampled voxel grids. To our knowledge, our approach is the first to offer multiscale training and real-time anti-aliasing rendering simultaneously. We conducted experiments on multiscale datasets, and the results show that our approach outperforms state-of-the-art real-time rendering baselines.
翻訳日:2023-04-21 14:28:13 公開日:2023-04-20
# ラベル付けによるマルチノードタスク上のグラフニューラルネットワークの改善

Improving Graph Neural Networks on Multi-node Tasks with Labeling Tricks ( http://arxiv.org/abs/2304.10074v1 )

ライセンス: Link先を確認
Xiyuan Wang, Pan Li, Muhan Zhang(参考訳) 本稿では、グラフニューラルネットワーク(GNN)を用いて、リンクのような複数のノードの集合に対する表現を学習することに関心を持つ。 既存のGNNは主に単一ノード表現を学習するために設計されている。 複数のノードを含むノードセット表現を学習したい場合、GNNが取得した単一ノード表現を直接集約するのが従来の作業である。 本稿では,ノードセット内の複数のノード間の依存性をキャプチャできないという,そのようなアプローチの基本的な限界を示し,個々のノード表現を直接集約することは,複数のノードに対して効果的な結合表現を生み出すことができないと主張する。 簡単な解決策は、ターゲットノードを他のノードと区別することだ。 このアイデアを形式化し、GNNを適用する前に、まずターゲットノードセットとの関係に応じてグラフ内のノードをラベル付けし、マルチノード表現のためにラベル付きグラフで得られたノード表現を集約する「text{labeling trick}」を提案する。 ラベル付けのトリックは、SEAL、Distance Encoding、ID-GNN、NBFNetなど、従来のマルチノード表現学習の成功例を統一する。 グラフのノードセットに加えて、ポーズ、サブセット、ハイパーグラフのラベル付けトリックも拡張します。 ラベル付け手法は, リンク予測, リンク予測, リンク予測, ハイパーエッジ予測, サブグラフ予測など, 様々なタスクにおいて GNN を向上できることを示す。 本研究は,従来のノードラベル方式の優れた性能を説明し,GNNをマルチノード表現学習に活用するための理論的基盤を確立する。

In this paper, we provide a theory of using graph neural networks (GNNs) for \textit{multi-node representation learning}, where we are interested in learning a representation for a set of more than one node such as a link. Existing GNNs are mainly designed to learn single-node representations. When we want to learn a node-set representation involving multiple nodes, a common practice in previous works is to directly aggregate the single-node representations obtained by a GNN. In this paper, we show a fundamental limitation of such an approach, namely the inability to capture the dependence among multiple nodes in a node set, and argue that directly aggregating individual node representations fails to produce an effective joint representation for multiple nodes. A straightforward solution is to distinguish target nodes from others. Formalizing this idea, we propose \text{labeling trick}, which first labels nodes in the graph according to their relationships with the target node set before applying a GNN and then aggregates node representations obtained in the labeled graph for multi-node representations. The labeling trick also unifies a few previous successful works for multi-node representation learning, including SEAL, Distance Encoding, ID-GNN, and NBFNet. Besides node sets in graphs, we also extend labeling tricks to posets, subsets and hypergraphs. Experiments verify that the labeling trick technique can boost GNNs on various tasks, including undirected link prediction, directed link prediction, hyperedge prediction, and subgraph prediction. Our work explains the superior performance of previous node-labeling-based methods and establishes a theoretical foundation for using GNNs for multi-node representation learning.
翻訳日:2023-04-21 14:27:42 公開日:2023-04-20
# ビデオによる決定木におけるコントラスト学習:行動認識から自閉症診断まで

Video-based Contrastive Learning on Decision Trees: from Action Recognition to Autism Diagnosis ( http://arxiv.org/abs/2304.10073v1 )

ライセンス: Link先を確認
Mindi Ruan, Xiangxu Yu, Na Zhang, Chuanbo Hu, Shuo Wang, Xin Li(参考訳) コンピュータに1万の異なる行動を認識させる方法 ディープラーニングは、教師なしと教師なしのアプローチから自己監督のアプローチへと進化してきた。 本稿では,人-人-物間相互作用(HHI)や人-物間相互作用(HOI)を含む,決定木に基づく行動分類のための新しいコントラスト学習ベースのフレームワークを提案する。 キーとなるアイデアは、元のマルチクラスアクション認識を、事前構築された決定木上の一連のバイナリ分類タスクに変換することである。 対照的学習の新たな枠組みとして,周期性や対称性などの行動関連属性をモデル化するためのバックボーンとして,スケルトングラフと相互作用隣接行列(IAM)の設計を提案する。 様々なプレテキストタスクの構築を通じて、より高度な認識タスクをサポートするために組み合わせることができる決定ツリー上の一連のバイナリ分類ノードを得る。 実世界の応用における我々のアプローチの可能性の実験的正当化は、インタラクション認識から対称性検出まで幅広い。 特に,CalTechインタビュービデオデータベースにおいて,ビデオベース自閉症スペクトラム障害 (ASD) 診断の有望な性能を実証した。

How can we teach a computer to recognize 10,000 different actions? Deep learning has evolved from supervised and unsupervised to self-supervised approaches. In this paper, we present a new contrastive learning-based framework for decision tree-based classification of actions, including human-human interactions (HHI) and human-object interactions (HOI). The key idea is to translate the original multi-class action recognition into a series of binary classification tasks on a pre-constructed decision tree. Under the new framework of contrastive learning, we present the design of an interaction adjacent matrix (IAM) with skeleton graphs as the backbone for modeling various action-related attributes such as periodicity and symmetry. Through the construction of various pretext tasks, we obtain a series of binary classification nodes on the decision tree that can be combined to support higher-level recognition tasks. Experimental justification for the potential of our approach in real-world applications ranges from interaction recognition to symmetry detection. In particular, we have demonstrated the promising performance of video-based autism spectrum disorder (ASD) diagnosis on the CalTech interview video database.
翻訳日:2023-04-21 14:27:15 公開日:2023-04-20
# ウェアラブルセンサと機械学習を用いた果実ピッカー活動認識

Fruit Picker Activity Recognition with Wearable Sensors and Machine Learning ( http://arxiv.org/abs/2304.10068v1 )

ライセンス: Link先を確認
Joel Janek Dabrowski and Ashfaqur Rahman(参考訳) 本稿では,ウェアラブルセンサから生成された時系列データに基づいて,果実のピッカー活動を検出する新しい応用法を提案する。 収穫中、果物のピッカーは果物をウェアラブル袋に入れ、これらの袋を果樹園の収穫箱に空にします。 ひとたび満杯になると、これらのビンはすぐに冷却されたパックハウスに運ばれ、摘み取った果物の棚の寿命が向上する。 農家や経営者にとって、収穫箱の管理にピッカーバッグが空になったときの知識が重要であり、収穫した果実が熱中(棚の寿命を減らした)に消耗する時間を最小化できる。 本研究では,ウェアラブルセンサと機械学習を用いた人間の行動認識を用いて,バッグ空きイベントを検出する手法を提案する。 データのラベル付けのための半教師付きアプローチを開発する。 実世界のデータセット上で、特徴に基づく機械学習アンサンブルモデルと深い再帰的畳み込みニューラルネットワークを開発し、テストする。 比較すると、ニューラルネットワークは検出精度が86%に達する。

In this paper we present a novel application of detecting fruit picker activities based on time series data generated from wearable sensors. During harvesting, fruit pickers pick fruit into wearable bags and empty these bags into harvesting bins located in the orchard. Once full, these bins are quickly transported to a cooled pack house to improve the shelf life of picked fruits. For farmers and managers, the knowledge of when a picker bag is emptied is important for managing harvesting bins more effectively to minimise the time the picked fruit is left out in the heat (resulting in reduced shelf life). We propose a means to detect these bag-emptying events using human activity recognition with wearable sensors and machine learning methods. We develop a semi-supervised approach to labelling the data. A feature-based machine learning ensemble model and a deep recurrent convolutional neural network are developed and tested on a real-world dataset. When compared, the neural network achieves 86% detection accuracy.
翻訳日:2023-04-21 14:26:57 公開日:2023-04-20
# 多エージェント非対称進化強化学習による非対称マルチプレイヤーゲーム

Mastering Asymmetrical Multiplayer Game with Multi-Agent Asymmetric-Evolution Reinforcement Learning ( http://arxiv.org/abs/2304.10124v1 )

ライセンス: Link先を確認
Chenglu Sun, Yichi Zhang, Yu Zhang, Ziling Lu, Jingbin Liu, Sijia Xu and Weidong Zhang (AI Lab, Netease)(参考訳) 非対称マルチプレイヤーゲーム(asymmetrical multiplayer game)は、ゲーム内の複数のエージェントが互いに競合したり協力したりすることを含む人気ゲームジャンルである。 ampゲームでトッププレイヤーを倒すことのできる強力なエージェントを、非対称環境におけるバランスの取れない特性から、典型的な自己プレイ訓練手法で訓練することは困難である。 aet(asymmetric-evolution training)は,ampゲームにおいて複数のエージェントを同時にトレーニングできる,新しいマルチエージェント強化学習フレームワークである。 AETプロセスの最適化のために、適応データ調整(ADA)と環境ランダム化(ER)を設計した。 我々はTom \&Jerryという複雑なAMPゲームで我々の手法をテストし、人間のデータを使用しずに訓練されたAIは65試合でトップの人間のプレイヤーに対して98.5%の勝利率を達成することができた。 アブレーション実験は,提案するモジュールがフレームワークに有益であることを示唆した。

Asymmetrical multiplayer (AMP) game is a popular game genre which involves multiple types of agents competing or collaborating with each other in the game. It is difficult to train powerful agents that can defeat top human players in AMP games by typical self-play training method because of unbalancing characteristics in their asymmetrical environments. We propose asymmetric-evolution training (AET), a novel multi-agent reinforcement learning framework that can train multiple kinds of agents simultaneously in AMP game. We designed adaptive data adjustment (ADA) and environment randomization (ER) to optimize the AET process. We tested our method in a complex AMP game named Tom \& Jerry, and our AIs trained without using any human data can achieve a win rate of 98.5% against top human players over 65 matches. The ablation experiments indicated that the proposed modules are beneficial to the framework.
翻訳日:2023-04-21 14:21:11 公開日:2023-04-20
# スパース制約によるカツマーツ法の再帰の線形収束

Linear Convergence of Reshuffling Kaczmarz Methods With Sparse Constraints ( http://arxiv.org/abs/2304.10123v1 )

ライセンス: Link先を確認
Halyun Jeong, Deanna Needell(参考訳) 確率勾配降下法(sgd法)の一種であるkaczmarz法(kz)とその変種は、その単純さと線形方程式系を解くための効率性のために広く研究されてきた。 反復しきい値法 (IHT) は, 圧縮センシングや疎線形回帰, 付加構造を持つ機械学習, 非凸制約を伴う最適化など, 様々な研究分野に普及している。 近年,Kaczmarz-based IHT (KZIHT) と呼ばれるハイブリッド手法が提案されている。 本稿では,kziht に対する最初の理論的収束保証を,再分離データサンプリングスキームを用いた場合の最適統計バイアスまで,スパーシティ制約のある系の解に線形収束することを示す。 また, 周期的閾値付け(KZPT)手法を提案し, KZIHTを一定回数のKZ繰り返しに対してしきい値演算を適用し, 2種類のステップサイズを用いて一般化する。 我々は、ランダムにサブサンプリングされた有界正則系(BOS)と平均ゼロ等方的準ガウス確率行列に対するKZPTに対する線形収束保証を確立し、ニューラルネットワークにおける圧縮センシング、次元縮小、行列スケッチ、および多くの逆問題において最もよく用いられるモデルである。 分析の結果,最適閾値のKZPTはKZIHTより優れていた。 この理論を支持するために、いくつかの数値実験を含む。

The Kaczmarz method (KZ) and its variants, which are types of stochastic gradient descent (SGD) methods, have been extensively studied due to their simplicity and efficiency in solving linear equation systems. The iterative thresholding (IHT) method has gained popularity in various research fields, including compressed sensing or sparse linear regression, machine learning with additional structure, and optimization with nonconvex constraints. Recently, a hybrid method called Kaczmarz-based IHT (KZIHT) has been proposed, combining the benefits of both approaches, but its theoretical guarantees are missing. In this paper, we provide the first theoretical convergence guarantees for KZIHT by showing that it converges linearly to the solution of a system with sparsity constraints up to optimal statistical bias when the reshuffling data sampling scheme is used. We also propose the Kaczmarz with periodic thresholding (KZPT) method, which generalizes KZIHT by applying the thresholding operation for every certain number of KZ iterations and by employing two different types of step sizes. We establish a linear convergence guarantee for KZPT for randomly subsampled bounded orthonormal systems (BOS) and mean-zero isotropic sub-Gaussian random matrices, which are most commonly used models in compressed sensing, dimension reduction, matrix sketching, and many inverse problems in neural networks. Our analysis shows that KZPT with an optimal thresholding period outperforms KZIHT. To support our theory, we include several numerical experiments.
翻訳日:2023-04-21 14:20:54 公開日:2023-04-20
# 古典的ランダムウォークと量子ウォークによるバンドアルゴリズム

Bandit Algorithm Driven by a Classical Random Walk and a Quantum Walk ( http://arxiv.org/abs/2304.10118v1 )

ライセンス: Link先を確認
Tomoki Yamagami, Etsuo Segawa, Takatomo Mihana, Andr\'e R\"ohm, Ryoichi Horisaki, and Makoto Naruse(参考訳) 量子ウォーク(QW)は、古典的ランダムウォーク(RW)が(線形拡散と局所化の共存)持たない性質を持ち、この性質は様々な種類のアプリケーションを実装するために利用される。 本稿では,MAB問題とこれら2つのQWの挙動を関連付けることで,MAB問題に対する量子ウォークに基づくアルゴリズムを提案する。 本稿では,QWに基づく新しいポリシーが,対応するRWベースのポリシーと比較して高い性能を実現していることを示す。

Quantum walks (QWs) have the property that classical random walks (RWs) do not possess -- coexistence of linear spreading and localization -- and this property is utilized to implement various kinds of applications. This paper proposes a quantum-walk-based algorithm for multi-armed-bandit (MAB) problems by associating the two operations that make MAB problems difficult -- exploration and exploitation -- with these two behaviors of QWs. We show that this new policy based on the QWs realizes high performance compared with the corresponding RW-based one.
翻訳日:2023-04-21 14:20:27 公開日:2023-04-20
# SATA: 連続テスト時間適応のためのソースアンカリングとターゲットアライメントネットワーク

SATA: Source Anchoring and Target Alignment Network for Continual Test Time Adaptation ( http://arxiv.org/abs/2304.10113v1 )

ライセンス: Link先を確認
Goirik Chakrabarty, Manogna Sreenivas and Soma Biswas(参考訳) 継続的に変化するテストドメイン/環境に対して、トレーニングされたモデルを適用することは、重要かつ困難なタスクです。 本研究では,オンライン適応に必要な以下の特徴を満たすことを目的とした,新しいフレームワークであるSATAを提案する。 1) 異なる(おそらく小さい)バッチサイズでシームレスに動作し、レイテンシを低減できる。 2) ソースドメインについては引き続きうまく機能するべきである。 3) 調整可能なハイパーパラメータとストレージ要件の最小化。 ソースドメインデータに基づいてトレーニングされたネットワークを前提として、提案したSATAフレームワークは、ソースアンカーベースの自己蒸留を用いてバッチノームアフィンパラメータを変更する。 これにより、モデルに新たに遭遇したドメインの知識が組み込まれていることが保証される。 また、すでに学習済みのセマンティック情報を維持しつつ、対象サンプルの自然なグループ化を確保するために、ソースプロトタイプ駆動コントラストアライメントを提案する。 挑戦的な設定下での3つのベンチマークデータセットの大規模な評価は、現実世界のアプリケーションにおけるSATAの有効性を正当化する。

Adapting a trained model to perform satisfactorily on continually changing testing domains/environments is an important and challenging task. In this work, we propose a novel framework, SATA, which aims to satisfy the following characteristics required for online adaptation: 1) can work seamlessly with different (preferably small) batch sizes to reduce latency; 2) should continue to work well for the source domain; 3) should have minimal tunable hyper-parameters and storage requirements. Given a pre-trained network trained on source domain data, the proposed SATA framework modifies the batch-norm affine parameters using source anchoring based self-distillation. This ensures that the model incorporates the knowledge of the newly encountered domains, without catastrophically forgetting about the previously seen ones. We also propose a source-prototype driven contrastive alignment to ensure natural grouping of the target samples, while maintaining the already learnt semantic information. Extensive evaluation on three benchmark datasets under challenging settings justify the effectiveness of SATA for real-world applications.
翻訳日:2023-04-21 14:20:16 公開日:2023-04-20
# 難易度オブジェクト記述子を用いたクラッタ型汎用オブジェクトの強化学習

Reinforcement Learning for Picking Cluttered General Objects with Dense Object Descriptors ( http://arxiv.org/abs/2304.10108v1 )

ライセンス: Link先を確認
Hoang-Giang Cao, Weihao Zeng, I-Chen Wu(参考訳) 複雑なジオメトリと様々なスタック構成のため、散らばった一般的なオブジェクトを選択するのは難しい作業です。 多くの先行研究はピッキングにポーズ推定を用いるが、乱雑なオブジェクトではポーズ推定が難しい。 本稿では,リッチオブジェクト構造を表現できる高密度クラッタオブジェクトディスクリプタであるクラッタオブジェクトディスクリプタ(cods)を提案し,その中間出力とともに事前学習されたcodsネットワークを用いてピッキングポリシをトレーニングする。 さらに、我々は強化学習で政策を訓練し、政策が監督なしに選択を学習できるようにする。 実験により,我々のcodは,見抜いたり,見つからなかったりする物体を一貫して表現できることを実証し,選択方針が頑健にクラッタ化された一般物体を選択できることを実証した。 その結果、実験環境では、トレーニングシナリオの2倍も散らばっている、目に見えない対象の96.69%を選択できる。

Picking cluttered general objects is a challenging task due to the complex geometries and various stacking configurations. Many prior works utilize pose estimation for picking, but pose estimation is difficult on cluttered objects. In this paper, we propose Cluttered Objects Descriptors (CODs), a dense cluttered objects descriptor that can represent rich object structures, and use the pre-trained CODs network along with its intermediate outputs to train a picking policy. Additionally, we train the policy with reinforcement learning, which enable the policy to learn picking without supervision. We conduct experiments to demonstrate that our CODs is able to consistently represent seen and unseen cluttered objects, which allowed for the picking policy to robustly pick cluttered general objects. The resulting policy can pick 96.69% of unseen objects in our experimental environment which is twice as cluttered as the training scenarios.
翻訳日:2023-04-21 14:20:00 公開日:2023-04-20
# 機械学習による自動調達詐欺検出

Automatic Procurement Fraud Detection with Machine Learning ( http://arxiv.org/abs/2304.10105v1 )

ライセンス: Link先を確認
Jin Bai, Tong Qiu(参考訳) 調達詐欺は、ほぼすべてのフリーマーケットにおいて常に重大な問題であるが、監査部門は、それを検出する際に情報ソースからの報告に強く依存している。 当社の寛大な共同オペレータであるSF Expressは、2015年から2017年にかけて同社の社内で、調達に関連するデータベースへのアクセスを共有していました。 各調達イベントを9つの特徴として表現することにより、疑わしい調達を識別し、不正タイプを分類するニューラルネットワークモデルを構築する。 調達データベースから収集した50000以上のサンプルをテストすることによって、このようなモデル -- 改善の余地はあるものの -- が調達詐欺の検出に有用であることを証明しました。

Although procurement fraud is always a critical problem in almost every free market, audit departments still have a strong reliance on reporting from informed sources when detecting them. With our generous cooperator, SF Express, sharing the access to the database related with procurements took place from 2015 to 2017 in their company, our team studies how machine learning techniques could help with the audition of one of the most profound crime among current chinese market, namely procurement frauds. By representing each procurement event as 9 specific features, we construct neural network models to identify suspicious procurements and classify their fraud types. Through testing our models over 50000 samples collected from the procurement database, we have proven that such models -- despite having space for improvements -- are useful in detecting procurement frauds.
翻訳日:2023-04-21 14:19:43 公開日:2023-04-20
# eTag: 組み込み蒸留とタスク指向生成によるクラスインクリメンタルラーニング

eTag: Class-Incremental Learning with Embedding Distillation and Task-Oriented Generation ( http://arxiv.org/abs/2304.10103v1 )

ライセンス: Link先を確認
Libo Huang, Yan Zeng, Chuanguang Yang, Zhulin An, Boyu Diao, and Yongjun Xu(参考訳) クラスインクリメンタル学習(cil:class-incremental learning)は、ニューラルネットワークの破滅的な忘れ方問題を解決することを目的としている。 最も成功したCILメソッドは、格納された例の助けを借りて特徴抽出器を漸進的に訓練するか、格納されたプロトタイプで特徴分布を推定する。 しかし、保存されている例えはデータプライバシーの懸念に反するが、保存されているプロトタイプは適切な機能の配布と合理的に一致しない可能性があるため、現実世界のCILアプリケーションの探索を妨げている。 本稿では, cil に対して \textit{e}mbedding 蒸留法と \textit{ta}sk-oriented \textit{g}eneration (\textit{etag}) 法を提案する。 代わりにeTagは、ニューラルネットワークを漸進的にトレーニングする、データフリーな方法を実現する。 特徴抽出器が忘れないように、eTagはネットワークの中間ブロックの埋め込みを蒸留する。 さらに、eTagは生成ネットワークが適切な機能を生成し、上位インクリメンタルな分類器のニーズに適合する。 実験の結果,提案するeTagはCIFAR-100の最先端手法よりも優れており,ImageNet-sub\footnote{Ourコードは補助材料で利用可能であることがわかった。

Class-Incremental Learning (CIL) aims to solve the neural networks' catastrophic forgetting problem, which refers to the fact that once the network updates on a new task, its performance on previously-learned tasks drops dramatically. Most successful CIL methods incrementally train a feature extractor with the aid of stored exemplars, or estimate the feature distribution with the stored prototypes. However, the stored exemplars would violate the data privacy concerns, while the stored prototypes might not reasonably be consistent with a proper feature distribution, hindering the exploration of real-world CIL applications. In this paper, we propose a method of \textit{e}mbedding distillation and \textit{Ta}sk-oriented \textit{g}eneration (\textit{eTag}) for CIL, which requires neither the exemplar nor the prototype. Instead, eTag achieves a data-free manner to train the neural networks incrementally. To prevent the feature extractor from forgetting, eTag distills the embeddings of the network's intermediate blocks. Additionally, eTag enables a generative network to produce suitable features, fitting the needs of the top incremental classifier. Experimental results confirmed that our proposed eTag considerably outperforms the state-of-the-art methods on CIFAR-100 and ImageNet-sub\footnote{Our code is available in the Supplementary Materials.
翻訳日:2023-04-21 14:19:30 公開日:2023-04-20
# Federated compositional Deep AUC Maximization

Federated Compositional Deep AUC Maximization ( http://arxiv.org/abs/2304.10101v1 )

ライセンス: Link先を確認
Xinwen Zhang, Yihan Zhang, Tianbao Yang, Richard Souvenir, Hongchang Gao(参考訳) プライバシーと大規模学習のバランスをとるという約束により、連合学習が注目を集めている。 しかし、既存のアプローチのほとんどは、バランスのとれたデータに関する問題に焦点を当てており、異なるクラスのサンプル数が高度にバランスの取れない多くの実世界のアプリケーションでは、予測性能は満足のいくものではない。 この課題に対処するために,曲線下領域(AUC)のスコアを直接最適化することにより,不均衡なデータに対する新しいフェデレート学習手法を開発した。 特に, auc最大化問題を連立構成最小最適化問題として定式化し, 運動量アルゴリズムを用いた局所確率的組成勾配降下法を開発し, 計算と通信の複雑度の境界を与える。 私たちの知る限りでは、このような好ましい理論結果を達成するのはこれが初めてです。 最後に,本手法の有効性を実験的に検証した。

Federated learning has attracted increasing attention due to the promise of balancing privacy and large-scale learning; numerous approaches have been proposed. However, most existing approaches focus on problems with balanced data, and prediction performance is far from satisfactory for many real-world applications where the number of samples in different classes is highly imbalanced. To address this challenging problem, we developed a novel federated learning method for imbalanced data by directly optimizing the area under curve (AUC) score. In particular, we formulate the AUC maximization problem as a federated compositional minimax optimization problem, develop a local stochastic compositional gradient descent ascent with momentum algorithm, and provide bounds on the computational and communication complexities of our algorithm. To the best of our knowledge, this is the first work to achieve such favorable theoretical results. Finally, extensive experimental results confirm the efficacy of our method.
翻訳日:2023-04-21 14:19:00 公開日:2023-04-20
# 2メモリ強化学習

Two-Memory Reinforcement Learning ( http://arxiv.org/abs/2304.10098v1 )

ライセンス: Link先を確認
Zhao Yang, Thomas. M. Moerland, Mike Preuss, Aske Plaat(参考訳) 深層強化学習は重要な経験的成功を示しているが、報酬情報の伝播が遅く、パラメトリックニューラルネットワークの更新が遅いため、比較的遅い傾向にある。 一方、非パラメトリックエピソードメモリは、表現学習を必要としない高速な学習代替手段を提供し、アクション選択のステートアクション値として最大エピソードリターンを使用する。 エピソディックメモリと強化学習には、それぞれ独自の強みと弱みがある。 人間は学習中に複数のメモリシステムを同時に利用し、それら全てから恩恵を受けることができる。 本研究では,2次元記憶と強化学習を組み合わせた2次元記憶強化学習エージェント (2M) を提案する。 2Mエージェントは、強調記憶部の速度と強化学習部の最適性と一般化能力を利用して相互に補完する。 実験により, 2M エージェントはよりデータ効率が高く, 純粋なエピソード記憶と純粋強化学習と, 最先端のメモリ増強 RL エージェントの両方に優れることが示された。 さらに、提案手法は、任意のエピソディックメモリエージェントと他のオフポリシー強化学習アルゴリズムを組み合わせるのに使用できる汎用フレームワークを提供する。

While deep reinforcement learning has shown important empirical success, it tends to learn relatively slow due to slow propagation of rewards information and slow update of parametric neural networks. Non-parametric episodic memory, on the other hand, provides a faster learning alternative that does not require representation learning and uses maximum episodic return as state-action values for action selection. Episodic memory and reinforcement learning both have their own strengths and weaknesses. Notably, humans can leverage multiple memory systems concurrently during learning and benefit from all of them. In this work, we propose a method called Two-Memory reinforcement learning agent (2M) that combines episodic memory and reinforcement learning to distill both of their strengths. The 2M agent exploits the speed of the episodic memory part and the optimality and the generalization capacity of the reinforcement learning part to complement each other. Our experiments demonstrate that the 2M agent is more data efficient and outperforms both pure episodic memory and pure reinforcement learning, as well as a state-of-the-art memory-augmented RL agent. Moreover, the proposed approach provides a general framework that can be used to combine any episodic memory agent with other off-policy reinforcement learning algorithms.
翻訳日:2023-04-21 14:18:43 公開日:2023-04-20
# シーンスタイルのテキスト編集

Scene Style Text Editing ( http://arxiv.org/abs/2304.10097v1 )

ライセンス: Link先を確認
Tonghua Su, Fuxiang Yang, Xiang Zhou, Donglin Di, Zhongjie Wang, Songze Li(参考訳) そこで本研究では,原文シーンを維持しながら,テキスト内容と原文画像のテキストスタイルを変更する「シーンスタイルテキスト編集(Scene Style Text Editing, SSTE)」というタスクを提案する。 既存の方法は、回転角度、色、フォントタイプなど、前景のテキストのスタイルを微調整することを無視している。 この課題に対処するために,我々は,前景のテキストスタイルを潜在機能空間に埋め込んで調整する,QuadNetという4重フレームワークを提案する。 具体的には、QuadNetは背景塗装、スタイルエンコーダ、コンテンツエンコーダ、フュージョンジェネレータの4つの部分で構成される。 背景塗装は、ソーステキストコンテンツを消去し、高度に本物のテクスチャで適切な背景を復元する。 スタイルエンコーダは、フォアグラウンドテキストのスタイル埋め込みを抽出する。 コンテンツエンコーダは、コンテンツ編集を実装するために、潜在機能空間にターゲットテキスト表現を提供する。 融合生成装置は、上記部品から得られた情報を合成し、レンダリングされたテキスト画像を生成する。 本手法は,文字列レベルのアノテーションだけで実世界のデータセット上で有望な動作を行うことができる。 私たちの知る限りでは、潜在的な機能領域で深くセマンティック編集することで、前景のテキストコンテンツやスタイルを巧みに操作した最初の作品です。 クワッドネットは、フォトリアリスティックなフォアグラウンドテキストを生成し、テキストコンテンツの編集時に現実世界のシーンでソーステキストの影を避けることができる。

In this work, we propose a task called "Scene Style Text Editing (SSTE)", changing the text content as well as the text style of the source image while keeping the original text scene. Existing methods neglect to fine-grained adjust the style of the foreground text, such as its rotation angle, color, and font type. To tackle this task, we propose a quadruple framework named "QuadNet" to embed and adjust foreground text styles in the latent feature space. Specifically, QuadNet consists of four parts, namely background inpainting, style encoder, content encoder, and fusion generator. The background inpainting erases the source text content and recovers the appropriate background with a highly authentic texture. The style encoder extracts the style embedding of the foreground text. The content encoder provides target text representations in the latent feature space to implement the content edits. The fusion generator combines the information yielded from the mentioned parts and generates the rendered text images. Practically, our method is capable of performing promisingly on real-world datasets with merely string-level annotation. To the best of our knowledge, our work is the first to finely manipulate the foreground text content and style by deeply semantic editing in the latent feature space. Extensive experiments demonstrate that QuadNet has the ability to generate photo-realistic foreground text and avoid source text shadows in real-world scenes when editing text content.
翻訳日:2023-04-21 14:18:22 公開日:2023-04-20
# 言語モデルにおけるアソシエーションバイアスの独立性と経験的公正性について

On the Independence of Association Bias and Empirical Fairness in Language Models ( http://arxiv.org/abs/2304.10153v1 )

ライセンス: Link先を確認
Laura Cabello and Anna Katrine J{\o}rgensen and Anders S{\o}gaard(参考訳) 事前訓練された言語モデルによる社会的影響により、研究者は、保護された属性と価値負荷された用語の強い関連性を探究するようになった。 このような研究は、偏見や公平性のためのモデル、あるいはそのようなプローブの「表現バイアス」は、偏見と公正性の密接な関係を示唆する「公平性によって動機づけられる」と言われている。 相関バイアス (caliskan et al., 2022) と経験的公平性 (shen et al., 2022) を区別することで概念的明確化を行い, 両者が独立可能であることを示す。 しかし、私たちの主な貢献は、これが驚きではない理由を示しています。 この目的のために、まず思考実験を行い、バイアスと経験的公平性が完全に直交できることを示す。 次に、最も広く使われている言語モデルにまたがって、バイアスメトリクスと公正メトリクスの間に相関がないという実証的な証拠を提供する。 最後に,社会学的,心理学的文献を調査し,この文献がこれらの指標が無関係であることを期待する上で,いかに十分な支援を提供するかを示す。

The societal impact of pre-trained language models has prompted researchers to probe them for strong associations between protected attributes and value-loaded terms, from slur to prestigious job titles. Such work is said to probe models for bias or fairness-or such probes 'into representational biases' are said to be 'motivated by fairness'-suggesting an intimate connection between bias and fairness. We provide conceptual clarity by distinguishing between association biases (Caliskan et al., 2022) and empirical fairness (Shen et al., 2022) and show the two can be independent. Our main contribution, however, is showing why this should not come as a surprise. To this end, we first provide a thought experiment, showing how association bias and empirical fairness can be completely orthogonal. Next, we provide empirical evidence that there is no correlation between bias metrics and fairness metrics across the most widely used language models. Finally, we survey the sociological and psychological literature and show how this literature provides ample support for expecting these metrics to be uncorrelated.
翻訳日:2023-04-21 14:10:48 公開日:2023-04-20
# フレキシブルK近傍分類器:イオン移動度分析に基づく屋内局在化の導出と応用

Flexible K Nearest Neighbors Classifier: Derivation and Application for Ion-mobility Spectrometry-based Indoor Localization ( http://arxiv.org/abs/2304.10151v1 )

ライセンス: Link先を確認
Philipp M\"uller(参考訳) K Nearest Neighbors (KNN)分類器は指紋による局所化や医学など多くの分野で広く使われている。 ラベルなしサンプルに最も近いkラベル付きサンプルのクラスメンバーシップに基づいて、ラベルなしサンプルのクラスメンバーシップを決定する。 Kの選択は様々な研究や提案されたKNN変異のトピックである。 しかし、他の全ての変種を上回ることは証明されていない。 この論文では、K近傍の近傍が実際に未標識標本に近いことを保証する新しいKNN変種が提案され、その途中でKが見つかる。 提案アルゴリズムは, 理論的シナリオにおいて標準KNNと比較し, イオン移動度スペクトロメトリ指紋に基づく屋内局在化を行う。 これは、同じ計算要求を必要とするにもかかわらず、試験中のknよりも高い分類精度を達成する。

The K Nearest Neighbors (KNN) classifier is widely used in many fields such as fingerprint-based localization or medicine. It determines the class membership of unlabelled sample based on the class memberships of the K labelled samples, the so-called nearest neighbors, that are closest to the unlabelled sample. The choice of K has been the topic of various studies and proposed KNN-variants. Yet no variant has been proven to outperform all other variants. In this paper a new KNN-variant is proposed which ensures that the K nearest neighbors are indeed close to the unlabelled sample and finds K along the way. The proposed algorithm is tested and compared to the standard KNN in theoretical scenarios and for indoor localization based on ion-mobility spectrometry fingerprints. It achieves a higher classification accuracy than the KNN in the tests, while requiring having the same computational demand.
翻訳日:2023-04-21 14:10:27 公開日:2023-04-20
# 超高速4波混合分光法による量子ドット分子のコヒーレントカップリング制御

Controlled Coherent Coupling in a Quantum Dot Molecule Revealed by Ultrafast Four-Wave Mixing Spectroscopy ( http://arxiv.org/abs/2304.10148v1 )

ライセンス: Link先を確認
Daniel Wigger, Johannes Schall, Marielle Deconinck, Nikolai Bart, Pawe{\l} Mrowi\'nski, Mateusz Krzykowski, Krzysztof Gawarecki, Martin von Helversen, Ronny Schmidt, Lucas Bremer, Frederik Bopp, Dirk Reuter, Andreas D. Wieck, Sven Rodt, Julien Renard, Gilles Nogues, Arne Ludwig, Pawe{\l} Machnikowski, Jonathan J. Finley, Stephan Reitzenstein, Jacek Kasprzak(参考訳) 量子ドット分子は、光学特性の広い調整性と電荷とスピン物理学に関連する異なるエネルギースケールのカバレッジのため、量子技術応用の有望な候補と考えられている。 従来の光学分光法により、2つの量子ドットで共有される異なる励起電荷錯体のトンネル結合を研究してきたが、光活性トリオン遷移の量子コヒーレンスに着目したコヒーレント制御されたドット間トンネル結合の最初のデモンストレーションについて報告する。 超高速4波混合分光法を用いて1つのトリオン錯体に共振して量子コヒーレンスを生成し、それを別のトリオン配置で観測する。 異なる複雑性のレベルに関する理論的モデリングの助けを借りて、基礎となる結合メカニズムと動的プロセスについて指導的な説明を与える。

Semiconductor quantum dot molecules are considered as promising candidates for quantum technological applications due to their wide tunability of optical properties and coverage of different energy scales associated with charge and spin physics. While previous works have studied the tunnel-coupling of the different excitonic charge complexes shared by the two quantum dots by conventional optical spectroscopy, we here report on the first demonstration of a coherently controlled inter-dot tunnel-coupling focusing on the quantum coherence of the optically active trion transitions. We employ ultrafast four-wave mixing spectroscopy to resonantly generate a quantum coherence in one trion complex, transfer it to and probe it in another trion configuration. With the help of theoretical modelling on different levels of complexity we give an instructive explanation of the underlying coupling mechanism and dynamical processes.
翻訳日:2023-04-21 14:10:13 公開日:2023-04-20
# ChatGPTは人間生成ラベルを再現できるか? ソーシャル・コンピューティングの課題に関する研究

Can ChatGPT Reproduce Human-Generated Labels? A Study of Social Computing Tasks ( http://arxiv.org/abs/2304.10145v1 )

ライセンス: Link先を確認
Yiming Zhu, Peixian Zhang, Ehsan-Ul Haq, Pan Hui, Gareth Tyson(参考訳) ChatGPTのリリースにより、大きな言語モデル(LLM)が人間のインテリジェンスに取って代わる可能性があることが判明した。 本稿では,ChatGPTがソーシャル・コンピューティング・タスクにおいて人為的ラベルアノテーションを再現する可能性について考察する。 このような成果は、社会コンピューティング研究のコストと複雑さを大幅に削減することができる。 そこで、ChatGPTを用いて、姿勢検出(2x)、感情分析、ヘイトスピーチ、ボット検出を含む5つのセミナルデータセットを再ラベルする。 この結果から,ChatGPTはこれらのデータアノテーションタスクを処理できる可能性を秘めていますが,いくつかの課題が残っています。 ChatGPTは平均精度0.609を得る。 感情分析データセットのパフォーマンスは最高であり、ChatGPTは64.9%のツイートを正しく注釈付けしている。 しかし、パフォーマンスは個々のラベルによって大きく異なります。 この研究は、新しい分析ラインを開き、人的アノテーションタスクに対するchatgptの利用に関する将来の研究の基盤として機能すると信じています。

The release of ChatGPT has uncovered a range of possibilities whereby large language models (LLMs) can substitute human intelligence. In this paper, we seek to understand whether ChatGPT has the potential to reproduce human-generated label annotations in social computing tasks. Such an achievement could significantly reduce the cost and complexity of social computing research. As such, we use ChatGPT to re-label five seminal datasets covering stance detection (2x), sentiment analysis, hate speech, and bot detection. Our results highlight that ChatGPT does have the potential to handle these data annotation tasks, although a number of challenges remain. ChatGPT obtains an average precision 0.609. Performance is highest for the sentiment analysis dataset, with ChatGPT correctly annotating 64.9% of tweets. Yet, we show that performance varies substantially across individual labels. We believe this work can open up new lines of analysis and act as a basis for future research into the exploitation of ChatGPT for human annotation tasks.
翻訳日:2023-04-21 14:09:57 公開日:2023-04-20
# 量子アニーラによるカーネル学習

Kernel Learning by quantum annealer ( http://arxiv.org/abs/2304.10144v1 )

ライセンス: Link先を確認
Yasushi Hasegawa, Hiroki Oshiyama and Masayuki Ohzeki(参考訳) ボルツマン機械は量子アニーラを用いた様々な応用の1つである。 本稿では,Boltzmann マシンのカーネル行列への応用について述べる。 我々は、シフト不変なカーネル関数がフーリエ変換によってスペクトル分布の期待値で表現できるという事実に焦点を当てる。 この変換を用いて、ランダムフーリエ特徴(RFF)は周波数をサンプリングし、カーネル関数を近似する。 本稿では,ボルツマンマシンを用いて,データに適したスペクトル分布を求める手法を提案する。 その結果,ガウス分布を用いた手法と予測精度は同等であることが判明した。 また,ガウス分布では実現不可能なスペクトル分布を生成可能であることを示す。

The Boltzmann machine is one of the various applications using quantum annealer. We propose an application of the Boltzmann machine to the kernel matrix used in various machine-learning techniques. We focus on the fact that shift-invariant kernel functions can be expressed in terms of the expected value of a spectral distribution by the Fourier transformation. Using this transformation, random Fourier feature (RFF) samples the frequencies and approximates the kernel function. In this paper, furthermore, we propose a method to obtain a spectral distribution suitable for the data using a Boltzmann machine. As a result, we show that the prediction accuracy is comparable to that of the method using the Gaussian distribution. We also show that it is possible to create a spectral distribution that could not be feasible with the Gaussian distribution.
翻訳日:2023-04-21 14:09:41 公開日:2023-04-20
# 対向移動性向上のための高レベル機能の多様化

Diversifying the High-level Features for better Adversarial Transferability ( http://arxiv.org/abs/2304.10136v1 )

ライセンス: Link先を確認
Zhiyuan Wang, Zeliang Zhang, Siyuan Liang, Xiaosen Wang(参考訳) ディープニューラルネットワーク(DNN)に対する敵対的攻撃の脅威を考えると、現実のアプリケーションを攻撃するための転送可能性を高めるために多くの研究が提案されている。 しかし、既存の攻撃はしばしば高度な勾配計算や入力変換を用いるが、ホワイトボックスモデルは無視する。 DNNは優れた性能のために過度にパラメータ化されているという事実に着想を得て、より伝達可能な対向例のために高次特徴(DHF)を多様化することを提案する。 特にDHFは、高レベルの特徴をランダムに変換し、各イテレーションの勾配を計算する際に良質なサンプルの特徴と混合することにより、高レベルの特徴を摂動させる。 パラメータの冗長性のため、このような変換は分類性能に影響を与えるものではなく、異なるモデル間で不変な特徴を特定するのに役立つ。 ImageNetデータセットの実証的な評価は、DHFが既存のモーメントベースの攻撃の転送性を効果的に改善できることを示している。 入力変換に基づく攻撃に組み込まれ、dhfはより転送可能な攻撃例を生成し、複数の防御モデルを攻撃する際、ベースラインを明確なマージンで上回り、様々な攻撃への一般化と転送可能性の向上に高い効果を示す。

Given the great threat of adversarial attacks against Deep Neural Networks (DNNs), numerous works have been proposed to boost transferability to attack real-world applications. However, existing attacks often utilize advanced gradient calculation or input transformation but ignore the white-box model. Inspired by the fact that DNNs are over-parameterized for superior performance, we propose diversifying the high-level features (DHF) for more transferable adversarial examples. In particular, DHF perturbs the high-level features by randomly transforming the high-level features and mixing them with the feature of benign samples when calculating the gradient at each iteration. Due to the redundancy of parameters, such transformation does not affect the classification performance but helps identify the invariant features across different models, leading to much better transferability. Empirical evaluations on ImageNet dataset show that DHF could effectively improve the transferability of existing momentum-based attacks. Incorporated into the input transformation-based attacks, DHF generates more transferable adversarial examples and outperforms the baselines with a clear margin when attacking several defense models, showing its generalization to various attacks and high effectiveness for boosting transferability.
翻訳日:2023-04-21 14:09:30 公開日:2023-04-20
# nsパルスレーザーアニーリングによるシリコン中の通信エミッタの効率的な活性化

Efficient activation of telecom emitters in silicon upon ns pulsed laser annealing ( http://arxiv.org/abs/2304.10132v1 )

ライセンス: Link先を確認
G. Andrini, G. Zanelli, S. Ditalia Tchernij, E. Corte, E. Nieto Hernandez, A. Verna, M. Cocuzza, E. Bernardi, S. Virz\`i, P. Traina, I.P. Degiovanni, M. Genovese, P. Olivero, J. Forneris(参考訳) 最近の光学活性な通信エミッタのデモンストレーションにより、シリコンは固体量子フォトニックプラットフォームの有力な候補となった。 特にG中心の製造は、従来の熱アニールによる炭素豊富なシリコンで実証されている。 しかし、ウェハスケールでの高yield制御されたエミッターの製造には、イオン注入後の活性化を可能にする適切な熱力学的経路の同定が必要である。 本稿では,高純度シリコン基板中のg中心のnsパルスレーザーアニーリングによる効率的な活性化を示す。 提案手法は, 短時間の非定常パルスの供給によるG中心の非侵襲的局所活性化を可能にし, 発光体の構造転移性に関する従来の急速熱アニールの限界を克服する。 有限要素解析は、この技術の強い非定常性を強調し、従来の長い熱処理に対して根本的に異なる欠陥工学能力を提供し、集積フォトニック回路や導波路に埋め込まれたエミッタの直接的かつ制御された製造への道を開く。

The recent demonstration of optically active telecom emitters makes silicon a compelling candidate for solid state quantum photonic platforms. Particularly fabrication of the G center has been demonstrated in carbon-rich silicon upon conventional thermal annealing. However, the high-yield controlled fabrication of these emitters at the wafer-scale still requires the identification of a suitable thermodynamic pathway enabling its activation following ion implantation. Here we demonstrate the efficient activation of G centers in high-purity silicon substrates upon ns pulsed laser annealing. The proposed method enables the non-invasive, localized activation of G centers by the supply of short non-stationary pulses, thus overcoming the limitations of conventional rapid thermal annealing related to the structural metastability of the emitters. A finite-element analysis highlights the strong non-stationarity of the technique, offering radically different defect-engineering capabilities with respect to conventional longer thermal treatments, paving the way to the direct and controlled fabrication of emitters embedded in integrated photonic circuits and waveguides.
翻訳日:2023-04-21 14:09:06 公開日:2023-04-20
# 画像分類におけるボトルネック概念の学習

Learning Bottleneck Concepts in Image Classification ( http://arxiv.org/abs/2304.10131v1 )

ライセンス: Link先を確認
Bowen Wang, Liangzhi Li, Yuta Nakashima, Hajime Nagahara(参考訳) ディープニューラルネットワークの振る舞いの解釈と説明は多くのタスクに不可欠である。 説明可能なAIは、この課題に対処する手段を提供する。 しかし、そのような説明を解釈するには専門家の知識が必要である。 解釈可能性に対する最近の試みでは、概念ベースのフレームワークを採用し、いくつかの概念とモデル決定の間の高レベルな関係を与えている。 本稿では,概念を明示的に管理することなく,対象課題を訓練することで学習した概念の存在/吸収のみをイメージとして表現するボトルネック概念学習者(botcl)を提案する。 自己スーパービジョンと調整された正規化器を使用して、学習された概念を人間に理解できるようにする。 画像分類タスクをテストベッドとして使用することにより,botclがニューラルネットワークを再構築する可能性を実証した。 コードはhttps://github.com/wbw520/BotCLで入手できる。

Interpreting and explaining the behavior of deep neural networks is critical for many tasks. Explainable AI provides a way to address this challenge, mostly by providing per-pixel relevance to the decision. Yet, interpreting such explanations may require expert knowledge. Some recent attempts toward interpretability adopt a concept-based framework, giving a higher-level relationship between some concepts and model decisions. This paper proposes Bottleneck Concept Learner (BotCL), which represents an image solely by the presence/absence of concepts learned through training over the target task without explicit supervision over the concepts. It uses self-supervision and tailored regularizers so that learned concepts can be human-understandable. Using some image classification tasks as our testbed, we demonstrate BotCL's potential to rebuild neural networks for better interpretability. Code is available at https://github.com/wbw520/BotCL and a simple demo is available at https://botcl.liangzhili.com/.
翻訳日:2023-04-21 14:08:48 公開日:2023-04-20
# 信頼度予測のための事前学習モデルからのサンプル難読化

Learning Sample Difficulty from Pre-trained Models for Reliable Prediction ( http://arxiv.org/abs/2304.10127v1 )

ライセンス: Link先を確認
Peng Cui, Dan Zhang, Zhijie Deng, Yinpeng Dong, Jun Zhu(参考訳) 大規模事前学習されたモデルは、様々なシナリオやアプリケーションで顕著な成功を収めているが、下流モデルの予測信頼性を改善するためにそれらを活用する方法は、望ましくないほど過小評価されている。 さらに、現代のニューラルネットワークは校正が不十分で、固有のサンプルの難しさやデータの不確実性に関わらず、自信過剰な予測がなされている。 そこで本研究では,大規模な事前学習モデルを用いて,サンプル難易度を考慮したエントロピー正規化による下流モデルトレーニングを指導する。 大規模データセットに晒され、下流のトレーニングクラスに過度に適合しない事前学習されたモデルは、各トレーニングサンプルの難易度を特徴空間ガウスモデルと相対的マハラノビス距離計算によって測定できる。 重要なことは、サンプルの難易度に基づいて過信予測を適応的にペナルティ化することにより、様々な挑戦的なベンチマークの精度と不確実性校正を同時に改善し、信頼性のある予測のための競争基準を一貫して上回ることである。

Large-scale pre-trained models have achieved remarkable success in a variety of scenarios and applications, but how to leverage them to improve the prediction reliability of downstream models is undesirably under-explored. Moreover, modern neural networks have been found to be poorly calibrated and make overconfident predictions regardless of inherent sample difficulty and data uncertainty. To address this issue, we propose to utilize large-scale pre-trained models to guide downstream model training with sample difficulty-aware entropy regularization. Pre-trained models that have been exposed to large-scale datasets and do not overfit the downstream training classes enable us to measure each training sample difficulty via feature-space Gaussian modeling and relative Mahalanobis distance computation. Importantly, by adaptively penalizing overconfident prediction based on the sample's difficulty, we simultaneously improve accuracy and uncertainty calibration on various challenging benchmarks, consistently surpassing competitive baselines for reliable prediction.
翻訳日:2023-04-21 14:08:34 公開日:2023-04-20
# グラフニューラルネットワークの分離: 複数の単純なgnnを同時に学習する

Decouple Graph Neural Networks: Train Multiple Simple GNNs Simultaneously Instead of One ( http://arxiv.org/abs/2304.10126v1 )

ライセンス: Link先を確認
Hongyuan Zhang, Yanan Zhu, Xuelong Li(参考訳) グラフニューラルネットワーク(gnn)は深刻な非効率に苦しむ。 これは主に、層の増加に伴うノード依存性の指数的な成長に起因する。 確率最適化アルゴリズムの適用を極端に制限し、GNNのトレーニングには通常時間がかかります。 この問題に対処するために,従来のフォワードトレーニング(FT)と後方トレーニング(BT)で構成された,より効率的なトレーニングを行うための,複数の単純なモジュールとして多層GNNを分離することを提案する。 提案手法では,各モジュールは単純さからグラフ情報の歪みを伴わない確率的アルゴリズムにより,ftで効率的に学習することができる。 FTの一方的な情報配信を回避し,より深い部分で浅いモジュールを十分に訓練するために,前モジュールが後者のモジュールを知覚する後方トレーニング機構を開発する。 後方トレーニングでは、逆情報配信が分離されたモジュールと前方情報配信に導入される。 分離と欲望のトレーニングが表現能力にどのように影響するかを検討するために,線形加群によって生じる誤差が,ほとんどの場合,教師なしタスクに蓄積されないことを理論的に証明する。 理論および実験の結果,提案手法は合理的な性能と高い効率性を示す。

Graph neural networks (GNN) suffer from severe inefficiency. It is mainly caused by the exponential growth of node dependency with the increase of layers. It extremely limits the application of stochastic optimization algorithms so that the training of GNN is usually time-consuming. To address this problem, we propose to decouple a multi-layer GNN as multiple simple modules for more efficient training, which is comprised of classical forward training (FT)and designed backward training (BT). Under the proposed framework, each module can be trained efficiently in FT by stochastic algorithms without distortion of graph information owing to its simplicity. To avoid the only unidirectional information delivery of FT and sufficiently train shallow modules with the deeper ones, we develop a backward training mechanism that makes the former modules perceive the latter modules. The backward training introduces the reversed information delivery into the decoupled modules as well as the forward information delivery. To investigate how the decoupling and greedy training affect the representational capacity, we theoretically prove that the error produced by linear modules will not accumulate on unsupervised tasks in most cases. The theoretical and experimental results show that the proposed framework is highly efficient with reasonable performance.
翻訳日:2023-04-21 14:08:14 公開日:2023-04-20
# スマートマニュファクチャリングにおけるサイバーセキュリティ(脅威、景観問題)

Cyber Security in Smart Manufacturing (Threats, Landscapes Challenges) ( http://arxiv.org/abs/2304.10180v1 )

ライセンス: Link先を確認
Rahat Masum(参考訳) インダストリアル4.0(Industrial 4.0)は、IT(Information Technology)とOT(Operational Technology)の2つの分野における超接続型デジタル産業のブレンドである。 このアマルガメート機会により、スマート製造は、製造装置が独自のインテリジェンスを持つ生産資産と、システムワイドインテリジェンスがサイバー層によって提供される。 しかし、スマートマニュファクチャリングは、既存の運用プロセスの脆弱性により、サイバー脅威の主要なターゲットの1つになっている。 スマートマニュファクチャリングは、サイバー物理システムから付加物製造、自動運転車、クラウドベースのiiot(産業用iot)、ロボット生産に至るまで、幅広い生産産業をカバーしているため、サイバー脅威は、ネットワークによる製造リソースの接続方法、工場生産のためのプロセスチェーンの統合方法など、この点において際立っている。 サイバーセキュリティの機密性、完全性、可用性は、安全な製造を保証するデジタルスレッドとして知られる適切な運用スレッドモデルに不可欠な存在を暴露する。 本稿では,既存の脅威モデル,攻撃ベクトル,スマートマニュファクチャリングのディジタルスレッドに関する今後の課題から文献調査を行う。

Industry 4.0 is a blend of the hyper-connected digital industry within two world of Information Technology (IT) and Operational Technology (OT). With this amalgamate opportunity, smart manufacturing involves production assets with the manufacturing equipment having its own intelligence, while the system-wide intelligence is provided by the cyber layer. However Smart manufacturing now becomes one of the prime targets of cyber threats due to vulnerabilities in the existing process of operation. Since smart manufacturing covers a vast area of production industries from cyber physical system to additive manufacturing, to autonomous vehicles, to cloud based IIoT (Industrial IoT), to robotic production, cyber threat stands out with this regard questioning about how to connect manufacturing resources by network, how to integrate a whole process chain for a factory production etc. Cybersecurity confidentiality, integrity and availability expose their essential existence for the proper operational thread model known as digital thread ensuring secure manufacturing. In this work, a literature survey is presented from the existing threat models, attack vectors and future challenges over the digital thread of smart manufacturing.
翻訳日:2023-04-21 14:02:17 公開日:2023-04-20
# scoda: 実スキャンのためのドメイン適応形状補完

SCoDA: Domain Adaptive Shape Completion for Real Scans ( http://arxiv.org/abs/2304.10179v1 )

ライセンス: Link先を確認
Yushuang Wu, Zizheng Yan, Ce Chen, Lai Wei, Xiao Li, Guanbin Li, Yihao Li, Shuguang Cui, Xiaoguang Han(参考訳) 点雲からの3D形状の完成は、特に現実世界のオブジェクトのスキャンによる難しい作業である。 実スキャンのための3d形状基底真理のpaucityを考えると、既存の研究は主に3dコンピュータ支援設計モデルのような合成データにこのタスクをベンチマークすることに焦点を当てている。 しかし、合成データと実データの間の領域ギャップは、これらの方法の一般化可能性を制限する。 そこで本研究では,合成データから実スキャン形状完了の領域適応のための新しいタスクであるSCoDAを提案する。 新しいデータセットであるScanSalonには、熟練アーティストがスキャンに基づいて作成する精巧な3Dモデルが多数含まれている。 この課題に対処するために,知識伝達のための新しいクロスドメイン特徴融合法と,実データから頑健な学習を行うための新しいボリューム整合自己学習フレームワークを提案する。 広範な実験により,本手法は6%~7%のmiou改善に有効であることを証明した。

3D shape completion from point clouds is a challenging task, especially from scans of real-world objects. Considering the paucity of 3D shape ground truths for real scans, existing works mainly focus on benchmarking this task on synthetic data, e.g. 3D computer-aided design models. However, the domain gap between synthetic and real data limits the generalizability of these methods. Thus, we propose a new task, SCoDA, for the domain adaptation of real scan shape completion from synthetic data. A new dataset, ScanSalon, is contributed with a bunch of elaborate 3D models created by skillful artists according to scans. To address this new task, we propose a novel cross-domain feature fusion method for knowledge transfer and a novel volume-consistent self-training framework for robust learning from real data. Extensive experiments prove our method is effective to bring an improvement of 6%~7% mIoU.
翻訳日:2023-04-21 14:01:53 公開日:2023-04-20
# 連続学習における2次影響の規則化

Regularizing Second-Order Influences for Continual Learning ( http://arxiv.org/abs/2304.10177v1 )

ライセンス: Link先を確認
Zhicheng Sun, Yadong Mu, Gang Hua(参考訳) 継続的学習は、過去の知識を破滅的に忘れずに、非定常データストリームで学ぶことを目的としている。 一般的なリプレイベース手法では、参照データを保持する小さなバッファでリハーサルを行い、繊細なサンプル選択戦略が必要となる。 しかし、既存の選別スキームは、通常、連続する選別ラウンド間の干渉を見越して、継続する選別の有用性を最大化することだけを求める。 そこで本研究では,影響関数に基づくフレームワークにおける逐次選択ステップの相互作用を解析する。 我々は、リプレイバッファにおける偶発バイアスを徐々に増幅し、選択プロセスに悪影響を及ぼす新しい2階の影響を識別する。 2次効果を正則化するために,2つの広く採用されている基準と明確な関係を持つ新しい選択目標を提案する。 さらに,提案手法を最適化するための効率的な実装を提案する。 複数の連続学習ベンチマークの実験は、最先端手法に対する我々のアプローチの利点を実証している。 コードはhttps://github.com/feifeiobama/InfluenceCLで入手できる。

Continual learning aims to learn on non-stationary data streams without catastrophically forgetting previous knowledge. Prevalent replay-based methods address this challenge by rehearsing on a small buffer holding the seen data, for which a delicate sample selection strategy is required. However, existing selection schemes typically seek only to maximize the utility of the ongoing selection, overlooking the interference between successive rounds of selection. Motivated by this, we dissect the interaction of sequential selection steps within a framework built on influence functions. We manage to identify a new class of second-order influences that will gradually amplify incidental bias in the replay buffer and compromise the selection process. To regularize the second-order effects, a novel selection objective is proposed, which also has clear connections to two widely adopted criteria. Furthermore, we present an efficient implementation for optimizing the proposed criterion. Experiments on multiple continual learning benchmarks demonstrate the advantage of our approach over state-of-the-art methods. Code is available at https://github.com/feifeiobama/InfluenceCL.
翻訳日:2023-04-21 14:01:40 公開日:2023-04-20
# 重みアンカーを用いたロバスト深層強化学習スケジューリング

Robust Deep Reinforcement Learning Scheduling via Weight Anchoring ( http://arxiv.org/abs/2304.10176v1 )

ライセンス: Link先を確認
Steffen Gracla, Edgar Beck, Carsten Bockelmann, Armin Dekorsy(参考訳) シミュレーションから現実へのギャップを越える場合、データ駆動学習手法の堅牢性に疑問が残る。 重みアンカーは,連続学習から知られている手法であり,ニューラルネットワークにおける望ましい行動の育成と固定を行う。 ウェイトアンカーは、他の学習問題の解に近い学習問題の解を見つけるために用いられる。 これにより、望ましい行動を無視したり学習しないことなく、最適な環境で学習を行うことができる。 本手法は、QoS非効率な離散リソーススケジューリングと、頻度の低い優先度メッセージの併用を例に示す。 その結果,本手法はシミュレーション環境の強化技術に匹敵する性能を示し,ロバスト性とステアビリティを著しく向上させた。

Questions remain on the robustness of data-driven learning methods when crossing the gap from simulation to reality. We utilize weight anchoring, a method known from continual learning, to cultivate and fixate desired behavior in Neural Networks. Weight anchoring may be used to find a solution to a learning problem that is nearby the solution of another learning problem. Thereby, learning can be carried out in optimal environments without neglecting or unlearning desired behavior. We demonstrate this approach on the example of learning mixed QoS-efficient discrete resource scheduling with infrequent priority messages. Results show that this method provides performance comparable to the state of the art of augmenting a simulation environment, alongside significantly increased robustness and steerability.
翻訳日:2023-04-21 14:01:23 公開日:2023-04-20
# 発症前の急性腎臓損傷予測のための動的ベイズネットワークの自動化

Automated Dynamic Bayesian Networks for Predicting Acute Kidney Injury Before Onset ( http://arxiv.org/abs/2304.10175v1 )

ライセンス: Link先を確認
David Gordon, Panayiotis Petousis, Anders O. Garlid, Keith Norris, Katherine Tuttle, Susanne B. Nicholas, Alex A.T. Bui (on behalf of CURE-CKD)(参考訳) 動的ベイズネットワーク(DBN)の構造を学ぶためのいくつかのアルゴリズムは、決定されたグラフトポロジーに影響を与える変数の優先順序を必要とする。 しかし、特に徹底的な探索が非現実的であるため、特徴の重要性が不明な場合、この順序を決定する方法がよくわからない。 本稿では、変数順序付けとネットワークのエンドツーエンド学習を体系的に通知する自動化フレームワークであるRAUS( Ranking Approachs for Unknown Structures)を紹介する。 RAUSは既存の統計手法(クラマーV、チ二乗テスト、情報ゲイン)を利用して、可変順序付け、生成されたネットワークトポロジ、DBN性能を比較する。 RAUSはDBNの専門知識に制限のあるエンドユーザに対して,コマンドラインインターフェースによるモデル実装を可能にする。 入院中の臨床検査データから急性腎不全(aki)の予知に関するrausの評価を行った。 電子健康記録(EHR)とKDIGO(Kidney Disease Improving Global Outcomes)の基準から67,460人の患者の経時的観察を行い,AKIの事象を定義した。 RAUSは複数のDBNを同時に学習し、将来のAKIイベントを異なる時点(AKIの前24時間、48時間、72時間)で予測する。 また,学習した秋季予測モデルと変数順序付けの結果をベースライン手法(ロジスティック回帰,ランダムフォレスト,極端な勾配ブースティング)と比較した。 RAUSが生成したDBNは、AKIの24時間以内に受信機動作特性曲線(AUCROC)の下で73~83%、AKIの48時間以内に71~79%のAUCROCを達成した。 この自動フレームワークからの洞察は、臨床診断支援のためのDBNの効率的な実装と解釈に役立つ。 RAUSのソースコードはGitHubでhttps://github.com/dgrdn08/RAUS で公開されている。

Several algorithms for learning the structure of dynamic Bayesian networks (DBNs) require an a priori ordering of variables, which influences the determined graph topology. However, it is often unclear how to determine this order if feature importance is unknown, especially as an exhaustive search is usually impractical. In this paper, we introduce Ranking Approaches for Unknown Structures (RAUS), an automated framework to systematically inform variable ordering and learn networks end-to-end. RAUS leverages existing statistical methods (Cramers V, chi-squared test, and information gain) to compare variable ordering, resultant generated network topologies, and DBN performance. RAUS enables end-users with limited DBN expertise to implement models via command line interface. We evaluate RAUS on the task of predicting impending acute kidney injury (AKI) from inpatient clinical laboratory data. Longitudinal observations from 67,460 patients were collected from our electronic health record (EHR) and Kidney Disease Improving Global Outcomes (KDIGO) criteria were then applied to define AKI events. RAUS learns multiple DBNs simultaneously to predict a future AKI event at different time points (i.e., 24-, 48-, 72-hours in advance of AKI). We also compared the results of the learned AKI prediction models and variable orderings to baseline techniques (logistic regression, random forests, and extreme gradient boosting). The DBNs generated by RAUS achieved 73-83% area under the receiver operating characteristic curve (AUCROC) within 24-hours before AKI; and 71-79% AUCROC within 48-hours before AKI of any stage in a 7-day observation window. Insights from this automated framework can help efficiently implement and interpret DBNs for clinical decision support. The source code for RAUS is available in GitHub at https://github.com/dgrdn08/RAUS .
翻訳日:2023-04-21 14:01:12 公開日:2023-04-20
# 高精細・自由制御型トーキングヘッドビデオ生成

High-Fidelity and Freely Controllable Talking Head Video Generation ( http://arxiv.org/abs/2304.10168v1 )

ライセンス: Link先を確認
Yue Gao, Yuan Zhou, Jinglu Wang, Xiao Li, Xiang Ming, Yan Lu(参考訳) トーキングヘッド生成は、与えられたソースidとターゲットモーションに基づいてビデオを生成することである。 しかし、現在の手法では、生成されたビデオの品質と制御性を制限するいくつかの課題に直面している。 まず、生成された顔はしばしば予期せぬ変形と激しい歪みがある。 第2に、駆動画像はポーズや表情などの移動関連情報を明示的に区別せず、生成中の異なる属性の操作を制限する。 第3に、生成されたビデオは、隣接するフレーム間で抽出されたランドマークの不整合のために、フリックなアーティファクトを持つ傾向がある。 本稿では,頭部ポーズと表情を自由に制御できる高忠実な音声ヘッドビデオを生成する新しいモデルを提案する。 本手法は,自己指導型学習ランドマークと3次元顔モデルに基づくランドマークを併用して動作をモデル化する。 また,顔の歪みを伴わずに効果的に動きを伝達する動き認識機能アライメントモジュールを提案する。 さらに,合成音声ヘッドビデオのスムース性も向上し,特徴的コンテキスト適応と伝搬モジュールを備える。 我々は,挑戦的データセットのモデルを評価し,その最先端性能を実証する。 詳細はhttps://yuegao.me/PECHead.comで確認できる。

Talking head generation is to generate video based on a given source identity and target motion. However, current methods face several challenges that limit the quality and controllability of the generated videos. First, the generated face often has unexpected deformation and severe distortions. Second, the driving image does not explicitly disentangle movement-relevant information, such as poses and expressions, which restricts the manipulation of different attributes during generation. Third, the generated videos tend to have flickering artifacts due to the inconsistency of the extracted landmarks between adjacent frames. In this paper, we propose a novel model that produces high-fidelity talking head videos with free control over head pose and expression. Our method leverages both self-supervised learned landmarks and 3D face model-based landmarks to model the motion. We also introduce a novel motion-aware multi-scale feature alignment module to effectively transfer the motion without face distortion. Furthermore, we enhance the smoothness of the synthesized talking head videos with a feature context adaptation and propagation module. We evaluate our model on challenging datasets and demonstrate its state-of-the-art performance. More information is available at https://yuegao.me/PECHead.
翻訳日:2023-04-21 14:00:37 公開日:2023-04-20
# FOMC分数の解析:言語モデルの正確性と制約

Analyzing FOMC Minutes: Accuracy and Constraints of Language Models ( http://arxiv.org/abs/2304.10164v1 )

ライセンス: Link先を確認
Wonseong Kim, Jan Frederic Sp\"orer, Siegfried Handschuh(参考訳) 本論文は、FOMCの公式声明が金融市場および経済予測に与える影響についての洞察を得るために、連邦公開市場委員会(FOMC)が予定した会合後に公表した公式声明で使用される言語を分析する。 この研究は、FOMCが文章で感情を表現しないように注意し、経済状況をカバーする一連のテンプレートに従うことを明らかにした。 この分析には、VADERやFinBERTといった高度な言語モデリング技術と、GPT-4を用いた試行試験が使用されている。 その結果、FinBERTはネガティブ感情を正確に予測する他の手法よりも優れていた。 しかし、本研究は、現在のnlp技術を用いたfomcテキストの分析の課題と限界を強調し、言語モデルの強化と代替アプローチの探求の可能性を示唆している。

This research article analyzes the language used in the official statements released by the Federal Open Market Committee (FOMC) after its scheduled meetings to gain insights into the impact of FOMC official statements on financial markets and economic forecasting. The study reveals that the FOMC is careful to avoid expressing emotion in their sentences and follows a set of templates to cover economic situations. The analysis employs advanced language modeling techniques such as VADER and FinBERT, and a trial test with GPT-4. The results show that FinBERT outperforms other techniques in predicting negative sentiment accurately. However, the study also highlights the challenges and limitations of using current NLP techniques to analyze FOMC texts and suggests the potential for enhancing language models and exploring alternative approaches.
翻訳日:2023-04-21 14:00:18 公開日:2023-04-20
# ハイブリッド量子ニューラルネットワークを用いた深層強化学習

Deep Reinforcement Learning Using Hybrid Quantum Neural Network ( http://arxiv.org/abs/2304.10159v1 )

ライセンス: Link先を確認
Hao-Yuan Chen(参考訳) 量子計算は、より高次元のデータを扱う機械学習アルゴリズムの現在の限界を前進させ、深層ニューラルネットワークモデルの全体的なトレーニングパラメータを減少させる強い意味を持つ。 ゲート型量子コンピュータをベースとしたパラメータ化量子回路は,深部Q学習法を用いてモデルレス強化学習問題を解くために設計された。 この研究は、その可能性を調査し、評価した。 そのため、最新のQiskitとPyTorchフレームワークに基づく新しいPQCが、完全な古典的なディープニューラルネットワークとPQCを統合せずに比較するように設計され、訓練された。 研究の終わりにこの研究は、迷路問題や他の強化学習問題を解くための深層量子学習の開発に関する結論と展望を引き合いに出した。

Quantum computation has a strong implication for advancing the current limitation of machine learning algorithms to deal with higher data dimensions or reducing the overall training parameters for a deep neural network model. Based on a gate-based quantum computer, a parameterized quantum circuit was designed to solve a model-free reinforcement learning problem with the deep-Q learning method. This research has investigated and evaluated its potential. Therefore, a novel PQC based on the latest Qiskit and PyTorch framework was designed and trained to compare with a full-classical deep neural network with and without integrated PQC. At the end of the research, the research draws its conclusion and prospects on developing deep quantum learning in solving a maze problem or other reinforcement learning problems.
翻訳日:2023-04-21 14:00:03 公開日:2023-04-20
# トークン操作は言語間伝達に役立つか? 非標準言語におけるPOSタグ付けに関する研究

Does Manipulating Tokenization Aid Cross-Lingual Transfer? A Study on POS Tagging for Non-Standardized Languages ( http://arxiv.org/abs/2304.10158v1 )

ライセンス: Link先を確認
Verena Blaschke, Hinrich Sch\"utze, Barbara Plank(参考訳) 事前訓練された言語モデル(PLM)を微調整する際の課題の1つは、トークン化ツールが事前訓練された言語に最適化されていることである。 これは例えば、ある言語上でPLMを微調整し、標準化された正書法を使わずに、密接な関係のある言語多様体のデータ上でそれらを評価する際に観察できる。 言語的類似性が高いにもかかわらず、トークン化はもはやターゲットデータの意味のある表現には対応せず、例えば音声のタグ付けなどのパフォーマンスが低い。 本研究では,3つの異なる家系の7つの言語でPLMを微調整し,そのゼロショット性能を近縁な非標準化多様体で解析する。 我々は、ソースおよびターゲットデータのトークン化におけるばらつきと、微調整ステップ中にトークン化を操作することで、それらを調整する方法を考える。 全体として、ソースのサブワードに分割される単語の割合とターゲットデータ(スプリットワード比の差)との類似性は、ターゲットデータにおけるモデルパフォーマンスの最も強い予測因子であることがわかった。

One of the challenges with finetuning pretrained language models (PLMs) is that their tokenizer is optimized for the language(s) it was pretrained on, but brittle when it comes to previously unseen variations in the data. This can for instance be observed when finetuning PLMs on one language and evaluating them on data in a closely related language variety with no standardized orthography. Despite the high linguistic similarity, tokenization no longer corresponds to meaningful representations of the target data, leading to low performance in, e.g., part-of-speech tagging. In this work, we finetune PLMs on seven languages from three different families and analyze their zero-shot performance on closely related, non-standardized varieties. We consider different measures for the divergence in the tokenization of the source and target data, and the way they can be adjusted by manipulating the tokenization during the finetuning step. Overall, we find that the similarity between the percentage of words that get split into subwords in the source and target data (the split word ratio difference) is the strongest predictor for model performance on target data.
翻訳日:2023-04-21 13:59:49 公開日:2023-04-20
# 短期歯科用CBCT再建術における運動アーチファクトの検出

Motion Artifacts Detection in Short-scan Dental CBCT Reconstructions ( http://arxiv.org/abs/2304.10154v1 )

ライセンス: Link先を確認
Abdul Salam Rasmi Asraf Ali and Andrea Fusiello and Claudio Landi and Cristina Sarti and Anneke Annassia Putri Siswadi(参考訳) Cone Beam Computed Tomography (CBCT) は歯科診断や治療計画に広く用いられている。 CBCT 画像は長い取得時間を持ち、その結果、患者は動く可能性が高い。 この動きは、再構成されたデータに重大なアーティファクトを引き起こし、誤診につながる可能性がある。 既存の動き補正アルゴリズムは、一部の問題のみに対処し、停止、正確性、実行速度による不整合に苦しむ。 一方、適切な重み付け法を併用したモーションフリープロジェクションのサブセットを用いたショートスキャン再構成は、ほとんどの診断目的に十分な臨床画像品質が得られる。 そこで, 本研究では, 補正アルゴリズムを使わずに, クリーンショートスキャン体積を再構成できるような, 走査射影の無運動部分を抽出するために, フレームワークを用いた。 動作アーティファクトはスライスに基づく予測スキームを用いてディープラーニングを用いて検出され、続いてボリューム平均化により最終的な結果が得られる。 データ不足に対処するために,現実的なモーションシミュレーション戦略とデータ拡張が実装されている。 このフレームワークは、実際のモーション影響データでテストし、モデルがシミュレーションされたモーションデータでのみトレーニングされた。 このことは、さらなる研究のために提案されたフレームワークを幅広い運動事例に適用できる可能性を示している。

Cone Beam Computed Tomography (CBCT) is widely used in dentistry for diagnostics and treatment planning. CBCT Imaging has a long acquisition time and consequently, the patient is likely to move. This motion causes significant artifacts in the reconstructed data which may lead to misdiagnosis. Existing motion correction algorithms only address this issue partially, struggling with inconsistencies due to truncation, accuracy, and execution speed. On the other hand, a short-scan reconstruction using a subset of motion-free projections with appropriate weighting methods can have a sufficient clinical image quality for most diagnostic purposes. Therefore, a framework is used in this study to extract the motion-free part of the scanned projections with which a clean short-scan volume can be reconstructed without using correction algorithms. Motion artifacts are detected using deep learning with a slice-based prediction scheme followed by volume averaging to get the final result. A realistic motion simulation strategy and data augmentation has been implemented to address data scarcity. The framework has been validated by testing it with real motion-affected data while the model was trained only with simulated motion data. This shows the feasibility to apply the proposed framework to a broad variety of motion cases for further research.
翻訳日:2023-04-21 13:59:28 公開日:2023-04-20
# 文書レベルのニューラルマシン翻訳のためのパラクロール探索

Exploring Paracrawl for Document-level Neural Machine Translation ( http://arxiv.org/abs/2304.10216v1 )

ライセンス: Link先を確認
Yusser Al Ghussin, Jingyi Zhang, Josef van Genabith(参考訳) document-level neural machine translation (nmt) は多くのデータセットで文レベルのnmtを上回っている。 しかし、文書レベルのnmtは、主に文書レベルのnmtのための大規模一般ドメイン訓練データがないため、実世界の翻訳システムでは広く採用されていない。 文書レベルの翻訳学習におけるParacrawlの有効性を検討する。 Paracrawlは、インターネットからクロールされた大規模な並列コーパスで、さまざまなドメインのデータを含んでいる。 公式のParacrawlコーパスは並列文(並列Webページから抽出された)としてリリースされたため、以前の作品ではParacrawlを使用して文レベルの翻訳を学習しただけだった。 本研究では,自動文アライメントを用いてパラクロール並列webページからパラレルパラレル段落を抽出し,抽出したパラレル段落を並列文書として文書レベルの翻訳モデルを訓練する。 パラクロールからパラクロールのパラパラパラパラパラパラグラフのみを用いて訓練した文書レベルのNMTモデルを用いて,TED,News,Europarlの実際の文書を翻訳し,文レベルのNMTモデルより優れていることを示す。 また,Paracrawlデータを用いて訓練した文書レベルのモデルが,文脈対応の代名詞翻訳に役立つことを示す。

Document-level neural machine translation (NMT) has outperformed sentence-level NMT on a number of datasets. However, document-level NMT is still not widely adopted in real-world translation systems mainly due to the lack of large-scale general-domain training data for document-level NMT. We examine the effectiveness of using Paracrawl for learning document-level translation. Paracrawl is a large-scale parallel corpus crawled from the Internet and contains data from various domains. The official Paracrawl corpus was released as parallel sentences (extracted from parallel webpages) and therefore previous works only used Paracrawl for learning sentence-level translation. In this work, we extract parallel paragraphs from Paracrawl parallel webpages using automatic sentence alignments and we use the extracted parallel paragraphs as parallel documents for training document-level translation models. We show that document-level NMT models trained with only parallel paragraphs from Paracrawl can be used to translate real documents from TED, News and Europarl, outperforming sentence-level NMT models. We also perform a targeted pronoun evaluation and show that document-level models trained with Paracrawl data can help context-aware pronoun translation.
翻訳日:2023-04-21 13:52:41 公開日:2023-04-20
# ai革命が資産管理に与える影響

The impact of the AI revolution on asset management ( http://arxiv.org/abs/2304.10212v1 )

ライセンス: Link先を確認
Michael Kopp(参考訳) 機械学習の特殊な形態であるディープラーニングの最近の進歩は、機械に与えられた驚くべき能力に繋がった: フリーフローのテキストを読み、理解したり、人間との理性や交渉をしたり、言語間でテキストを翻訳したり、決定を下す方法を学び、ある結果の最大化など。 今日、機械は癌の検出、タンパク質構造の予測、薬物の設計、核融合炉の制御などに革命をもたらした。 これらの能力はまだ初期段階にあるが、その継続的な洗練と応用が人間の活動のほとんど全ての社会的、経済的領域に技術的影響をもたらすことは明らかである。 本稿では、aiがアセットマネージメント全般にどのように影響するかについて、私の見解を共有します。そして、あるファンドがディープラーニングを実際にどの程度活用しているか、そして深層学習による大きなディスラプションリスクが存在するかどうかを評価するための簡単な基準を読者に提供するためのメンタルフレームワークを提供します。

Recent progress in deep learning, a special form of machine learning, has led to remarkable capabilities machines can now be endowed with: they can read and understand free flowing text, reason and bargain with human counterparts, translate texts between languages, learn how to take decisions to maximize certain outcomes, etc. Today, machines have revolutionized the detection of cancer, the prediction of protein structures, the design of drugs, the control of nuclear fusion reactors etc. Although these capabilities are still in their infancy, it seems clear that their continued refinement and application will result in a technological impact on nearly all social and economic areas of human activity, the likes of which we have not seen before. In this article, I will share my view as to how AI will likely impact asset management in general and I will provide a mental framework that will equip readers with a simple criterion to assess whether and to what degree a given fund really exploits deep learning and whether a large disruption risk from deep learning exist.
翻訳日:2023-04-21 13:52:20 公開日:2023-04-20
# Spiking-Fer: イベントカメラによる表情認識のためのスパイクニューラルネットワーク

Spiking-Fer: Spiking Neural Network for Facial Expression Recognition With Event Cameras ( http://arxiv.org/abs/2304.10211v1 )

ライセンス: Link先を確認
Sami Barchid, Benjamin Allaert, Amel Aissaoui, Jos\'e Mennesson, Chaabane Dj\'eraba(参考訳) 顔の表情認識(FER)は、特に大規模なディープラーニングモデルの使用により、近年大きな進歩を見せている活発な研究領域である。 しかし、このようなアプローチは特にエネルギー集約的であり、エッジデバイスでは展開が困難である。 この問題に対処するため、Spiking Neural Networks(SNN)とイベントカメラの組み合わせは、より少ないエネルギー消費でスパースおよび非同期イベントを処理できる有望な代替手段である。 本稿では,fer のイベントカメラを最初に使用した "Event-based FER" と題して,一般的な FER データセットをイベントストリームに変換することで,関連するベンチマークを提案する。 この新しい課題に対処するために,我々は,深い畳み込み型snモデルである"spiking-fer"を提案し,類似したニューラルネットワーク(ann)と比較する。 実験により、提案手法はannアーキテクチャに匹敵する性能を達成し、最大65.39倍のエネルギー消費を削減できることが示されている。 さらに,各種イベントベースデータ拡張手法の実験的検討を行い,イベントベースFERに特有の効率的な変換について考察した。

Facial Expression Recognition (FER) is an active research domain that has shown great progress recently, notably thanks to the use of large deep learning models. However, such approaches are particularly energy intensive, which makes their deployment difficult for edge devices. To address this issue, Spiking Neural Networks (SNNs) coupled with event cameras are a promising alternative, capable of processing sparse and asynchronous events with lower energy consumption. In this paper, we establish the first use of event cameras for FER, named "Event-based FER", and propose the first related benchmarks by converting popular video FER datasets to event streams. To deal with this new task, we propose "Spiking-FER", a deep convolutional SNN model, and compare it against a similar Artificial Neural Network (ANN). Experiments show that the proposed approach achieves comparable performance to the ANN architecture, while consuming less energy by orders of magnitude (up to 65.39x). In addition, an experimental study of various event-based data augmentation techniques is performed to provide insights into the efficient transformations specific to event-based FER.
翻訳日:2023-04-21 13:51:59 公開日:2023-04-20
# 非線形電磁力学における共振モードの生成:量子摂動アプローチ

Resonant generation of electromagnetic modes in nonlinear electrodynamics: Quantum perturbative approach ( http://arxiv.org/abs/2304.10209v1 )

ライセンス: Link先を確認
Ilia Kopchinskii and Petr Satunin(参考訳) この論文は、純粋量子場理論の観点から、オイラー・ハイゼンベルク電磁力学における閉空洞における高次調和音の共鳴生成を研究する。 境界条件を導いた矩形キャビティ内の電磁場の量子状態について検討し、キャビティモードの3つの量子を1つ(3ドルから1ドルプロセス)にマージするための断面積を計算し、2つのキャビティモードの量子化(2ドルから2ドルプロセス)を散乱させる。 本研究では, 任意のアスペクト比を持つキャビティに対して, マージ過程の振幅が消えることを示し, キャビティモードの平面波分解に基づく説明を提供する。 反対に、散乱振幅は特定のキャビティアスペクト比に対して非ゼロである。 この2-to 2$の散乱は、周波数$\omega_1 - \omega_2$と周波数$\omega_1$と$\omega_2$との2つのコヒーレント状態の相互作用において、高次高調波の量子を生成するための重要な基本過程である。 このプロセスでは、実効場理論アプローチにおける共鳴高次高調波生成の前の結果を支持する散逸を伴うモデルにおいて、最終状態の平均量子数を計算する。

The paper studies resonant generation of higher-order harmonics in a closed cavity in Euler-Heisenberg electrodynamics from the point of view of pure quantum field theory. We consider quantum states of the electromagnetic field in a rectangular cavity with conducting boundary conditions, and calculate the cross-section for the merging of three quanta of cavity modes into a single one ($3 \to 1$ process) as well as the scattering of two cavity mode quanta ($2 \to 2$ process). We show that the amplitude of the merging process vanishes for a cavity with an arbitrary aspect ratio, and provide an explanation based on plane wave decomposition for cavity modes. Contrary, the scattering amplitude is nonzero for specific cavity aspect ratio. This $2 \to 2$ scattering is a crucial elementary process for the generation of a quantum of a high-order harmonics with frequency $2\omega_1 - \omega_2$ in an interaction of two coherent states of cavity modes with frequencies $\omega_1$ and $\omega_2$. For this process we calculate the mean number of quanta in the final state in a model with dissipation, which supports the previous result of resonant higher-order harmonics generation in an effective field theory approach.
翻訳日:2023-04-21 13:51:40 公開日:2023-04-20
# SREL:Sパラメータパターンを用いたCu配線の非破壊的故障診断のための重度レーティングアンサンブル学習

SREL: Severity Rating Ensemble Learning for Non-Destructive Fault Diagnosis of Cu Interconnects using S-parameter Patterns ( http://arxiv.org/abs/2304.10207v1 )

ライセンス: Link先を確認
Tae Yeob Kang, Haebom Lee, Sungho Suh(参考訳) プロセッサの動作周波数とクロック速度が年々増加するにつれて、相互接続は電子システム全体の信頼性と性能の両方に影響を及ぼす。 配線の故障検出と診断は、電子の予後と健康管理(PHM)に不可欠である。 しかし、電気信号を予後因子として利用する既存の研究は、欠陥の根本原因を識別できないこと、さらに破壊的な評価を必要とすること、誤報をもたらす騒音に対する脆弱性など、限界がある。 そこで我々は,Cu配線の欠陥の非破壊検出と診断を実現し,早期検出,高い診断精度,耐雑音性を実現した。 我々の知る限り、この研究はまず、電気信号パターンを用いて根本原因と重症度を同時に分析する。 本稿では,sパラメータパターンが故障診断能力を有し,学習アルゴリズムに有効な入力データであることを実験的に示す。 さらに,診断精度とノイズロバスト性を高めるために,新しい重度評価アンサンブル学習(SREL)手法を提案する。 提案手法は,最大99.3%の精度で従来の機械学習やマルチクラス畳み込みニューラルネットワーク(cnn)を上回り,ノイズレベルが増加する。

As operating frequencies and clock speeds in processors have increased over the years, interconnects affect both the reliability and performance of entire electronic systems. Fault detection and diagnosis of the interconnects are crucial for prognostics and health management (PHM) of electronics. However, existing research works utilizing electrical signals as prognostic factors have limitations, such as the inability to distinguish the root cause of defects, which eventually requires additional destructive evaluation, and vulnerability to noise that results in a false alarm. Herein, we realize the non-destructive detection and diagnosis of defects in Cu interconnects, achieving early detection, high diagnostic accuracy, and noise robustness. To the best of our knowledge, this study first simultaneously analyzes the root cause and severity using electrical signal patterns. In this paper, we experimentally show that S-parameter patterns have the ability for fault diagnosis and they are effective input data for learning algorithms. Furthermore, we propose a novel severity rating ensemble learning (SREL) approach to enhance diagnostic accuracy and noise-robustness. Our method, with a maximum accuracy of 99.3%, outperforms conventional machine learning and multi-class convolutional neural networks (CNN) as additional noise levels increase.
翻訳日:2023-04-21 13:51:14 公開日:2023-04-20
# CoT-MoTE:Mixture-of-Textual-Experts for Passage Retrievalによるコンテクチュアルマスク付きオートエンコーダの事前学習

CoT-MoTE: Exploring ConTextual Masked Auto-Encoder Pre-training with Mixture-of-Textual-Experts for Passage Retrieval ( http://arxiv.org/abs/2304.10195v1 )

ライセンス: Link先を確認
Guangyuan Ma, Xing Wu, Peng Wang, Songlin Hu(参考訳) パッセージ検索は、オープンドメインコーパスの大規模なコレクションから関連するパッセージを取得することを目的としている。 モノリシックなデュアルエンコーダによる経路抽出のためのボトルネック事前学習において,コンテキストマスク自動符号化が有効であることが証明されている。 シームまたは完全に分離されたデュアルエンコーダは、クエリやパスを遅延埋め込み空間にエンコードするための事前訓練および微調整段階において、基本的な検索アーキテクチャとして採用されることが多い。 しかし、単に双対エンコーダのパラメータを共有したり分離したりすると、埋め込み空間の偏りが不均衡になる。 本研究では,Mixture-of-Textual-Experts (CoT-MoTE) を用いたコンテキストマスク自動エンコーダの事前学習を提案する。 具体的には、クエリとパスの異なる特性を個別にエンコードするために、テキスト固有の専門家を組み込む。 一方、共有自己注意層は、統一された注意モデリングのために維持される。 大規模パス検索ベンチマークの結果,検索性能は安定的に向上した。 定量分析はまた、潜伏埋め込み空間のよりバランスの取れた識別を示す。

Passage retrieval aims to retrieve relevant passages from large collections of the open-domain corpus. Contextual Masked Auto-Encoding has been proven effective in representation bottleneck pre-training of a monolithic dual-encoder for passage retrieval. Siamese or fully separated dual-encoders are often adopted as basic retrieval architecture in the pre-training and fine-tuning stages for encoding queries and passages into their latent embedding spaces. However, simply sharing or separating the parameters of the dual-encoder results in an imbalanced discrimination of the embedding spaces. In this work, we propose to pre-train Contextual Masked Auto-Encoder with Mixture-of-Textual-Experts (CoT-MoTE). Specifically, we incorporate textual-specific experts for individually encoding the distinct properties of queries and passages. Meanwhile, a shared self-attention layer is still kept for unified attention modeling. Results on large-scale passage retrieval benchmarks show steady improvement in retrieval performances. The quantitive analysis also shows a more balanced discrimination of the latent embedding spaces.
翻訳日:2023-04-21 13:50:53 公開日:2023-04-20
# 量子相関における原因と効果のアルゴリズム同定の実現

Realization of algorithmic identification of cause and effect in quantum correlations ( http://arxiv.org/abs/2304.10192v1 )

ライセンス: Link先を確認
Zhao-An Wang, Yu Meng, Zheng-Hao Liu, Yi-Tao Wang, Shang Yu, Wei Liu, Zhi-Peng Li, Yuan-Ze Yang, Nai-Jie Guo, Xiao-Dong Zeng, Jian-Shun Tang, Chuan-Feng Li, and Guang-Can Guo(参考訳) 実験データから変数間の因果関係を明らかにする因果推論は、科学研究の複数のサブフィールドに応用されている。 相関の量子的観点は、ライヒェンバッハの原理による限界を克服し、観測データのみを用いて因果推論を可能にすることを約束する。 しかし、量子因果推論が一般にどのように運用上の利点をもたらすかはまだ明らかではない。 そこで本研究では,2つの基本因果構造が生成する2量子ビットの統計相関を観測的シナリオで同定できるアルゴリズムを実験的に考案し,因果推論における因果推論の普遍的優位性を明らかにした。 さらに,データ処理アルゴリズムにおいて広く求められている因果探索法の説明可能性と安定性について述べる。 完全な観察的アプローチを用いて,量子因果関係を一般の設定で研究する方法を提案する。

Causal inference revealing causal dependencies between variables from empirical data has found applications in multiple sub-fields of scientific research. A quantum perspective of correlations holds the promise of overcoming the limitation by Reichenbach's principle and enabling causal inference with only the observational data. However, it is still not clear how quantum causal inference can provide operational advantages in general cases. Here, we have devised a photonic setup and experimentally realized an algorithm capable of identifying any two-qubit statistical correlations generated by the two basic causal structures under an observational scenario, thus revealing a universal quantum advantage in causal inference over its classical counterpart. We further demonstrate the explainability and stability of our causal discovery method which is widely sought in data processing algorithms. Employing a fully observational approach, our result paves the way for studying quantum causality in general settings.
翻訳日:2023-04-21 13:50:37 公開日:2023-04-20
# mc-dropoutによるスパイクニューラルネットワークの効率的な不確実性推定

Efficient Uncertainty Estimation in Spiking Neural Networks via MC-dropout ( http://arxiv.org/abs/2304.10191v1 )

ライセンス: Link先を確認
Tao Sun, Bojian Yin, Sander Bohte(参考訳) スパイキングニューラルネットワーク(SNN)は、生物学的ニューロンのスパースとイベント駆動通信のモデルとして注目され、ニューロモルフィックハードウェアにおけるエネルギー効率の高い応用への期待が高まっている。 従来のニューラルネットワーク(anns)と同様に、自動運転車や医療診断、高周波取引など、高スループットアプリケーションにおける意思決定において予測的不確実性が重要である。 しかし、SNNにおける不確実性推定の議論は限られており、人工ニューラルネットワーク(ANN)における不確実性推定のアプローチはSNNに直接適用されない。 本稿では,SNNにおける不確実性推定のためのモンテカルロ(MC)ドロップアウトに基づく効率的な手法を提案する。 提案手法は,snsの時間ステップ機構を利用して,高い精度と不確実性を示すとともに,トレーニングや推論において大きなオーバーヘッドを生じさせることなく,計算効率の高いmc-dropoutを実現する。

Spiking neural networks (SNNs) have gained attention as models of sparse and event-driven communication of biological neurons, and as such have shown increasing promise for energy-efficient applications in neuromorphic hardware. As with classical artificial neural networks (ANNs), predictive uncertainties are important for decision making in high-stakes applications, such as autonomous vehicles, medical diagnosis, and high frequency trading. Yet, discussion of uncertainty estimation in SNNs is limited, and approaches for uncertainty estimation in artificial neural networks (ANNs) are not directly applicable to SNNs. Here, we propose an efficient Monte Carlo(MC)-dropout based approach for uncertainty estimation in SNNs. Our approach exploits the time-step mechanism of SNNs to enable MC-dropout in a computationally efficient manner, without introducing significant overheads during training and inference while demonstrating high accuracy and uncertainty quality.
翻訳日:2023-04-21 13:50:21 公開日:2023-04-20
# モバイルネットワークにおける「社会経済」フェアネスの大規模検討

A Large-scale Examination of "Socioeconomic" Fairness in Mobile Networks ( http://arxiv.org/abs/2304.10190v1 )

ライセンス: Link先を確認
Souneil Park, Pavol Mulinka, Diego Perino(参考訳) インターネットアクセスは、民間部門で運用されているのに対して、公共の場でのニーズが普遍化している特別なリソースである。 Mobile Network Operators (MNOs) は、管理、計画、最適化に力を入れているが、そのような活動と社会経済の公正さを結びつけるものではない。 本稿では,利用者の社会経済状態とネットワークパフォーマンスの関係を理解するための第一歩を踏み出し,ネットワークの展開と管理における潜在的差別について検討する。 本研究の範囲は,都市地理,ネットワーク資源の展開,データ消費,デバイス分布など多岐にわたる。 本研究では,モバイルネットワークに対する地理社会経済的な視点を実現する新しい手法を開発した。 結果は、複数の都市の実際のインフラに基づいており、数百万のユーザーが社会経済の規模を密にカバーしている。 本報告では, フェアネス状態, 各種構造因子との関係, および潜在的クラス固有解について, 徹底的に検討する。

Internet access is a special resource of which needs has become universal across the public whereas the service is operated in the private sector. Mobile Network Operators (MNOs) put efforts for management, planning, and optimization; however, they do not link such activities to socioeconomic fairness. In this paper, we make a first step towards understanding the relation between socioeconomic status of customers and network performance, and investigate potential discrimination in network deployment and management. The scope of our study spans various aspects, including urban geography, network resource deployment, data consumption, and device distribution. A novel methodology that enables a geo-socioeconomic perspective to mobile network is developed for the study. The results are based on an actual infrastructure in multiple cities, covering millions of users densely covering the socioeconomic scale. We report a thorough examination of the fairness status, its relationship with various structural factors, and potential class specific solutions.
翻訳日:2023-04-21 13:49:55 公開日:2023-04-20
# 建築設計イデオロギーにおけるテキストから画像への生成

Using Text-to-Image Generation for Architectural Design Ideation ( http://arxiv.org/abs/2304.10182v1 )

ライセンス: Link先を確認
Ville Paananen, Jonas Oppenlaender, Aku Visuri(参考訳) テキスト対画像生成の最近の進歩は、建築設計において認識されている。 本研究は,建築設計プロセスの初期段階におけるクリエイティビティ支援におけるテキストから画像へのジェネレータの可能性を検討する最初の試みである。 我々は17人の建築学生とともに実験室で研究を行い,3つの人気テキスト・ツー・イメージ・ジェネレータ(Midjourney,Stable Diffusion,DALL-E)を用いた文化センターのコンセプトを開発した。 標準化されたアンケートやグループインタビューを通じて、デザイン制約を慎重に検討する場合、画像生成が設計プロセスの意義ある部分になることが判明した。 生成ツールは、アイデアのセレンディピタブルな発見と想像的な考え方をサポートし、設計プロセスを豊かにする。 イメージジェネレータの課題をいくつか特定し,創造性を支援するソフトウェア開発や教育者への配慮と,デザイナーの想像力に富む考え方の強調を行った。 テキストから画像へのジェネレータの限界と可能性を理解することによって、アーキテクトとデザイナーは、この技術を設計プロセスと教育で活用し、イノベーションと効果的なコンセプトのコミュニケーションを促進することができる。

The recent progress of text-to-image generation has been recognized in architectural design. Our study is the first to investigate the potential of text-to-image generators in supporting creativity during the early stages of the architectural design process. We conducted a laboratory study with 17 architecture students, who developed a concept for a culture center using three popular text-to-image generators: Midjourney, Stable Diffusion, and DALL-E. Through standardized questionnaires and group interviews, we found that image generation could be a meaningful part of the design process when design constraints are carefully considered. Generative tools support serendipitous discovery of ideas and an imaginative mindset, enriching the design process. We identified several challenges of image generators and provided considerations for software development and educators to support creativity and emphasize designers' imaginative mindset. By understanding the limitations and potential of text-to-image generators, architects and designers can leverage this technology in their design process and education, facilitating innovation and effective communication of concepts.
翻訳日:2023-04-21 13:49:24 公開日:2023-04-20
# フィルタアウェアモデル予測制御

Filter-Aware Model-Predictive Control ( http://arxiv.org/abs/2304.10246v1 )

ライセンス: Link先を確認
Baris Kayalibay, Atanas Mirchev, Ahmed Agha, Patrick van der Smagt, Justin Bayer(参考訳) 部分的に観測可能な問題は、コスト削減と情報収集のトレードオフを引き起こす。 それらは信念空間を計画することで最適に解決できるが、しばしば高額である。 モデル予測制御(MPC)は、状態推定器を使用して状態に対する信念を形成し、状態空間を計画する代替アプローチを取る。 これは計画中の将来の観測を無視し、その結果、自分たちの状態推定の確実性を積極的に増加または維持することができない。 信念空間の計画と、その将来的正確性についてのみ推論することで、そのダイナミクスを完全に無視する中間点を見出す。 我々のアプローチであるフィルタ対応MPCは、状態推定器の予測誤差である「追跡可能性」によって情報の損失を補う。 モデルに基づくシミュレーションは、追跡性をニューラルネットワークに凝縮し、高速な計画を可能にすることを示す。 視覚ナビゲーション,日々の現実的な環境,および2リンクロボットアームを含む実験において,フィルタアウェアmpcが通常のmpcを大幅に改善することを示す。

Partially-observable problems pose a trade-off between reducing costs and gathering information. They can be solved optimally by planning in belief space, but that is often prohibitively expensive. Model-predictive control (MPC) takes the alternative approach of using a state estimator to form a belief over the state, and then plan in state space. This ignores potential future observations during planning and, as a result, cannot actively increase or preserve the certainty of its own state estimate. We find a middle-ground between planning in belief space and completely ignoring its dynamics by only reasoning about its future accuracy. Our approach, filter-aware MPC, penalises the loss of information by what we call "trackability", the expected error of the state estimator. We show that model-based simulation allows condensing trackability into a neural network, which allows fast planning. In experiments involving visual navigation, realistic every-day environments and a two-link robot arm, we show that filter-aware MPC vastly improves regular MPC.
翻訳日:2023-04-21 13:44:08 公開日:2023-04-20
# 軽量画像超解像のための全アグリゲーションネットワーク

Omni Aggregation Networks for Lightweight Image Super-Resolution ( http://arxiv.org/abs/2304.10244v1 )

ライセンス: Link先を確認
Hang Wang, Xuanhong Chen, Bingbing Ni, Yutian Liu, Jinfan Liu(参考訳) 軽量なViTフレームワークは画像超解像を著しく進歩させてきたが、その一次元の自己認識モデリングは、同質のアグリゲーションスキームと同様に、その有効受容場(ERF)を空間次元とチャネル次元の両方からより包括的な相互作用を含むように制限している。 これらの欠点に対処するため、新しいOmni-SRアーキテクチャの下で2つの拡張されたコンポーネントを提案する。 まず,空間次元とチャネル次元の両方からピクセル相互作用を同時にモデル化し,全軸(すなわち空間とチャネル)間のポテンシャル相関をマイニングする,密接な相互作用原理に基づく全自己着(osa)ブロックを提案する。 メインストリームのウィンドウ分割戦略と組み合わせることで、OSAは魅力的な計算予算で優れたパフォーマンスを達成することができる。 第二に, 浅層モデルにおける準最適erf(即ち早期飽和)を緩和し, 局所伝播とメソ/グローバル相互作用を容易にし, 全規模集約構築ブロックを作成するマルチスケールインタラクションスキームを提案する。 大規模な実験により、Omni-SRは軽量超高解像度ベンチマーク(例: 26.95 dB@Urban100 $\times 4$、パラメータは792K)で最高性能を達成した。 我々のコードは \url{https://github.com/Francis0625/Omni-SR} で入手できる。

While lightweight ViT framework has made tremendous progress in image super-resolution, its uni-dimensional self-attention modeling, as well as homogeneous aggregation scheme, limit its effective receptive field (ERF) to include more comprehensive interactions from both spatial and channel dimensions. To tackle these drawbacks, this work proposes two enhanced components under a new Omni-SR architecture. First, an Omni Self-Attention (OSA) block is proposed based on dense interaction principle, which can simultaneously model pixel-interaction from both spatial and channel dimensions, mining the potential correlations across omni-axis (i.e., spatial and channel). Coupling with mainstream window partitioning strategies, OSA can achieve superior performance with compelling computational budgets. Second, a multi-scale interaction scheme is proposed to mitigate sub-optimal ERF (i.e., premature saturation) in shallow models, which facilitates local propagation and meso-/global-scale interactions, rendering an omni-scale aggregation building block. Extensive experiments demonstrate that Omni-SR achieves record-high performance on lightweight super-resolution benchmarks (e.g., 26.95 dB@Urban100 $\times 4$ with only 792K parameters). Our code is available at \url{https://github.com/Francis0625/Omni-SR}.
翻訳日:2023-04-21 13:43:50 公開日:2023-04-20
# フーリエニューラルオペレーターサーロゲートモデルによる3次元地震波の伝播予測

Fourier Neural Operator Surrogate Model to Predict 3D Seismic Waves Propagation ( http://arxiv.org/abs/2304.10242v1 )

ライセンス: Link先を確認
Fanny Lehmann, Filippo Gatti, Micha\"el Bertin, Didier Clouteau(参考訳) 近年のニューラルネットワークの普及に伴い、科学的機械学習は高忠実度数値シミュレーションに関連する不確かさを定量化する新しいソリューションを提供する。 畳み込みニューラルネットワーク(CNN)や物理情報ニューラルネットワーク(PINN)といった従来のニューラルネットワークは、事前に定義された構成のソリューションの予測に制限される。 ニューラル作用素を用いて、弾性波動方程式のような偏微分方程式の一般解を様々なパラメータで学習することができる。 地震学におけるニューラル作用素の応用はほとんどない。 いずれも2次元に制限されていたが、3次元効果の重要性はよく知られている。 本研究では, フーリエ・ニューラル・オペレーター(FNO)を用いて3次元地質学的記述から地動時系列を推定する。 高忠実度シミュレーションコードであるsem3dを用いて3万の異なる地質から生成された地動の広範なデータベースを構築した。 このデータベースを用いて,基礎となる地質学が大きな不均一性を示す場合でも,FNOは正確な基底運動を生成可能であることを示す。 中程度から大規模までの強度測定は特によく再現されている。 フーリエニューラル演算子の3次元地震学応用について述べる。 データベースの汎用性により,堆積盆地などの地質学的特徴が地盤運動に与える影響を評価できる可能性が示唆された。

With the recent rise of neural operators, scientific machine learning offers new solutions to quantify uncertainties associated with high-fidelity numerical simulations. Traditional neural networks, such as Convolutional Neural Networks (CNN) or Physics-Informed Neural Networks (PINN), are restricted to the prediction of solutions in a predefined configuration. With neural operators, one can learn the general solution of Partial Differential Equations, such as the elastic wave equation, with varying parameters. There have been very few applications of neural operators in seismology. All of them were limited to two-dimensional settings, although the importance of three-dimensional (3D) effects is well known. In this work, we apply the Fourier Neural Operator (FNO) to predict ground motion time series from a 3D geological description. We used a high-fidelity simulation code, SEM3D, to build an extensive database of ground motions generated by 30,000 different geologies. With this database, we show that the FNO can produce accurate ground motion even when the underlying geology exhibits large heterogeneities. Intensity measures at moderate and large periods are especially well reproduced. We present the first seismological application of Fourier Neural Operators in 3D. Thanks to the generalizability of our database, we believe that our model can be used to assess the influence of geological features such as sedimentary basins on ground motion, which is paramount to evaluating site effects.
翻訳日:2023-04-21 13:43:20 公開日:2023-04-20
# 単眼内視鏡における深度推定のための幾何認識深層ネットワーク

A geometry-aware deep network for depth estimation in monocular endoscopy ( http://arxiv.org/abs/2304.10241v1 )

ライセンス: Link先を確認
Yongming Yang, Shuwei Shao, Tao Yang, Peng Wang, Zhuo Yang, Chengdong Wu, Hao Liu(参考訳) 単眼深度推定は,外科的部位の空間的知覚と3次元ナビゲーションを行うために重要である。 しかし、既存の手法の多くは重要な幾何学的構造的整合性を無視し、必然的に3次元再構成の性能劣化と歪みを引き起こす。 この問題に対処するために,ステップエッジ構造に不明瞭なエッジ変動をペナライズする勾配損失と,頻繁な小さな構造に対する感度を明示する正規損失を導入し,グローバルな幾何学的解剖構造を制約するためにサンプルグリッドに空間情報を分散する幾何整合損失を提案する。 さらに, 反射および照明変動下で解剖学的構造を捉える合成RGB-Depthデータセットを開発した。 提案手法は,異なるデータセットおよび臨床画像に対して広範囲に検証され,エンドSLAMデータセットの平均RMSE値は0.066(胃),0.029(小腸),0.139(大腸)となる。 平均rmse値はコロンディフデータセット上で12.604 (t1-l1), 9.930 (t2-l2), 13.893 (t3-l3) である。 実験結果から,本手法は従来の競合より優れ,より一貫した深度マップと合理的な解剖構造を生成することがわかった。 本手法の内視鏡的映像からの術中3次元構造知覚の質は,内視鏡ナビゲーションのためのビデオCT登録アルゴリズムの精度要件を満たす。 データセットとソースコードはhttps://github.com/YYM-SIA/INGMI-MRで入手できる。

Monocular depth estimation is critical for endoscopists to perform spatial perception and 3D navigation of surgical sites. However, most of the existing methods ignore the important geometric structural consistency, which inevitably leads to performance degradation and distortion of 3D reconstruction. To address this issue, we introduce a gradient loss to penalize edge fluctuations ambiguous around stepped edge structures and a normal loss to explicitly express the sensitivity to frequently small structures, and propose a geometric consistency loss to spreads the spatial information across the sample grids to constrain the global geometric anatomy structures. In addition, we develop a synthetic RGB-Depth dataset that captures the anatomical structures under reflections and illumination variations. The proposed method is extensively validated across different datasets and clinical images and achieves mean RMSE values of 0.066 (stomach), 0.029 (small intestine), and 0.139 (colon) on the EndoSLAM dataset. The generalizability of the proposed method achieves mean RMSE values of 12.604 (T1-L1), 9.930 (T2-L2), and 13.893 (T3-L3) on the ColonDepth dataset. The experimental results show that our method exceeds previous state-of-the-art competitors and generates more consistent depth maps and reasonable anatomical structures. The quality of intraoperative 3D structure perception from endoscopic videos of the proposed method meets the accuracy requirements of video-CT registration algorithms for endoscopic navigation. The dataset and the source code will be available at https://github.com/YYM-SIA/LINGMI-MR.
翻訳日:2023-04-21 13:42:58 公開日:2023-04-20
# 光励起サブ波長分子集合体におけるカシャ則のスケーリング則

Scaling law for Kasha's rule in photoexcited subwavelength molecular aggregates ( http://arxiv.org/abs/2304.10236v1 )

ライセンス: Link先を確認
Raphael Holzinger, Nico S. Bassler, Helmut Ritsch and Claudiu Genes(参考訳) 分子集合体の光物理学を量子光学の観点から研究し、カシャの規則と呼ばれる集団電子励起の高速非放射緩和のためのスケーリング法則の導出に焦点を当てた。 深いサブ波長分離では、量子エミッタアレイは集合状態のエネルギー的に広い多様体を示し、非局在電子励起は集合のモノマー間の近接場双極子-双極子交換に由来する。 可視光による光励起は、ほぼ独占的に対称な集合状態であり、h-アグリゲーションとして知られる配置では、最も高いエネルギー(ヒプソクロミックシフト)を持つ。 分子内振動モードを経由する超高速の非放射緩和は、低エネルギー、低ラジカル状態、すなわち蛍光の効果的な抑制をもたらす。 本処理により, この緩和過程の近似線形スケーリング則を, 利用可能な低エネルギー振動モードの数で導出し, 隣接するモノマー間の双極子-双極子相互作用強度と直接比例することを示す。

We study the photophysics of molecular aggregates from a quantum optics perspective, with emphasis on deriving scaling laws for the fast non-radiative relaxation of collective electronic excitations, referred to as Kasha's rule. At deep subwavelength separations, quantum emitter arrays exhibit an energetically broad manifold of collective states with delocalized electronic excitations originating from near field dipole-dipole exchanges between the aggregate's monomers. Photoexcitation with visible light addresses almost exclusively symmetric collective states, which for an arrangement known as H-aggregate, have the highest energies (hypsochromic shift). The extremely fast subsequent non-radiative relaxation via intramolecular vibrational modes then populates lower energy, subradiant states which results in the effective inhibition of fluorescence. Our treatment allows for the derivation of an approximate linear scaling law of this relaxation process with the number of available low energy vibrational modes and reveals its direct proportionality to the dipole-dipole interaction strength between neighbouring monomers.
翻訳日:2023-04-21 13:42:29 公開日:2023-04-20
# 鋳物フォトニクスプラットフォームによる固体量子システムの異種統合

Heterogeneous integration of solid state quantum systems with a foundry photonics platform ( http://arxiv.org/abs/2304.10227v1 )

ライセンス: Link先を確認
Hao-Cheng Weng, Jorge Monroy-Ruz, Jonathan C. F. Matthews, John G. Rarity, Krishna C. Balram and Joe A. Smith(参考訳) ダイヤモンド色中心は、物質量子ビットとなり、光子間の決定論的相互作用を媒介し、単一の光子放出体として作用する光順応可能な固体スピンである。 有用な量子コンピュータは数百万の論理量子ビットから構成される。 量子コンピュータの構築に役立てるためには、スピンフォトンインタフェースはスケーラブルになり、大量製造可能なフォトニクスやエレクトロニクスと互換性を持つ必要がある。 ここでは、ナノダイアモンド中のNV中心と、標準180nmCMOSファウントリープロセスからの低蛍光性窒化ケイ素フォトニクスとの異種結合を示す。 ナノダイアモンドは、導波路上の規則的な配列の既定の部位の上に、単一の後処理ステップで配置される。 光ファイバーアレイを用いて6つの集積ナノダイヤモンドサイトからなるアレイからnv中心を選択的に励起し、各ケースの光発光(pl)をチップ上の導波路回路に回収する。 オンチップ・ハンベリー・ブラウンとtwiss相互相関測定による単一光子放射の検証を行った。 我々の研究は、個別の光学活性スピンの大規模な配列を、離散的な光学的セットアップを必要とせず同時に扱うための、単純で効果的な経路を開く。 これは、NV中心ナノダイヤモンドとCMOSフォトニクスの異種結合によって実現される。

Diamond colour centres are promising optically-addressable solid state spins that can be matter-qubits, mediate deterministic interaction between photons and act as single photon emitters. Useful quantum computers will comprise millions of logical qubits. To become useful in constructing quantum computers, spin-photon interfaces must therefore become scalable and be compatible with mass-manufacturable photonics and electronics. Here we demonstrate heterogeneous integration of NV centres in nanodiamond with low-fluorescence silicon nitride photonics from a standard 180 nm CMOS foundry process. Nanodiamonds are positioned over pre-defined sites in a regular array on a waveguide, in a single post-processing step. Using an array of optical fibres, we excite NV centres selectively from an array of six integrated nanodiamond sites, and collect the photoluminescence (PL) in each case into waveguide circuitry on-chip. We verify single photon emission by an on-chip Hanbury Brown and Twiss cross-correlation measurement, which is a key characterisation experiment otherwise typically performed routinely with discrete optics. Our work opens up a simple and effective route to simultaneously address large arrays of individual optically-active spins at scale, without requiring discrete bulk optical setups. This is enabled by the heterogeneous integration of NV centre nanodiamonds with CMOS photonics.
翻訳日:2023-04-21 13:42:13 公開日:2023-04-20
# コントラスト学習によるマンモグラフィ画像解析のための領域一般化

Domain Generalization for Mammographic Image Analysis via Contrastive Learning ( http://arxiv.org/abs/2304.10226v1 )

ライセンス: Link先を確認
Zheren Li, Zhiming Cui, Lichi Zhang, Sheng Wang, Chenjin Lei, Xi Ouyang, Dongdong Chen, Zixu Zhuang, Xiangyu Zhao, Yajia Gu, Zaiyi Liu, Chunling Liu, Dinggang Shen, Jie-Zhi Cheng(参考訳) マンモグラフィ画像解析は,近年の深層学習の進歩に伴い著しい進歩を遂げたコンピュータ支援診断システムにおける根本的な問題である。 しかし、ディープラーニングモデルの構築には、画像のスタイルや品質の面で大きく、十分に多様なトレーニングデータが必要である。 特に、イメージスタイルの多様性は、主にベンダーファクタに起因する可能性がある。 しかし、できるだけ多くのベンダーからのマンモグラム収集は非常に高価であり、実験室規模の研究には非実用的である。 これにより、限られた資源で様々なベンダーにディープラーニングモデルの一般化能力をさらに高めるため、新しいコントラスト学習方式が開発される。 具体的には、バックボーンネットワークはまず、さまざまなベンダースタイルに不変機能を組み込むためのマルチスタイルでマルチビューで教師なしの自己学習スキームで訓練される。 その後、バックボーンネットワークは、マス検出、マルチビューマスマッチング、バイラッド分類、乳房密度分類、特定の教師付き学習といった下流タスクに再調整される。 提案手法は,4つのベンダーと2つの公開データセットのマンモグラムを用いて評価した。 実験結果から,本手法は目視領域と目視領域の両方における解析性能を効果的に向上し,多くの最先端(SOTA)一般化手法より優れていることが示唆された。

Mammographic image analysis is a fundamental problem in the computer-aided diagnosis scheme, which has recently made remarkable progress with the advance of deep learning. However, the construction of a deep learning model requires training data that are large and sufficiently diverse in terms of image style and quality. In particular, the diversity of image style may be majorly attributed to the vendor factor. However, mammogram collection from vendors as many as possible is very expensive and sometimes impractical for laboratory-scale studies. Accordingly, to further augment the generalization capability of deep learning models to various vendors with limited resources, a new contrastive learning scheme is developed. Specifically, the backbone network is firstly trained with a multi-style and multi-view unsupervised self-learning scheme for the embedding of invariant features to various vendor styles. Afterward, the backbone network is then recalibrated to the downstream tasks of mass detection, multi-view mass matching, BI-RADS classification and breast density classification with specific supervised learning. The proposed method is evaluated with mammograms from four vendors and two unseen public datasets. The experimental results suggest that our approach can effectively improve analysis performance on both seen and unseen domains, and outperforms many state-of-the-art (SOTA) generalization methods.
翻訳日:2023-04-21 13:41:49 公開日:2023-04-20
# Multi-view Vision-Prompt Fusion Network: 2次元事前学習モデルによる3Dポイントクラウドデータ共有学習の促進

Multi-view Vision-Prompt Fusion Network: Can 2D Pre-trained Model Boost 3D Point Cloud Data-scarce Learning? ( http://arxiv.org/abs/2304.10224v1 )

ライセンス: Link先を確認
Haoyang Peng, Baopu Li, Bo Zhang, Xin Chen, Tao Chen, Hongyuan Zhu(参考訳) ポイントクラウドベースの3d深層モデルは、自動運転やハウスロボットなど、多くのアプリケーションで広く応用されている。 自然言語処理における最近の急進的な学習に触発されて、この研究は、少数の3Dポイントクラウド分類のための新しいMulti-view Vision-Prompt Fusion Network (MvNet)を提案する。 MvNetは、既存のベースラインモデルの大規模なアノテーション付き3Dポイントクラウドデータへの過度な依存を軽減できる、数発の分類を実現するために、市販の2D事前訓練モデルを活用する可能性を調査している。 具体的には、mvnetはまず3dポイントクラウドを様々なビューのマルチビュー画像機能にエンコードする。 そして、3Dポイントクラウドデータと2D事前学習モデルのギャップを埋めるために、異なるビューからの情報を効果的に融合する新しいマルチビュープロンプト融合モジュールを開発した。 次に、2D画像プロンプトのセットを導出し、少数の3Dポイントクラウド分類のための大規模事前学習画像モデルに適した事前知識を記述する。 ModelNet、ScanObjectNN、ShapeNetデータセットに関する大規模な実験は、MvNetが3Dの複数ショットポイントのクラウドイメージ分類のために新しい最先端のパフォーマンスを達成することを実証している。 この作業のソースコードは近く公開される予定だ。

Point cloud based 3D deep model has wide applications in many applications such as autonomous driving, house robot, and so on. Inspired by the recent prompt learning in natural language processing, this work proposes a novel Multi-view Vision-Prompt Fusion Network (MvNet) for few-shot 3D point cloud classification. MvNet investigates the possibility of leveraging the off-the-shelf 2D pre-trained models to achieve the few-shot classification, which can alleviate the over-dependence issue of the existing baseline models towards the large-scale annotated 3D point cloud data. Specifically, MvNet first encodes a 3D point cloud into multi-view image features for a number of different views. Then, a novel multi-view prompt fusion module is developed to effectively fuse information from different views to bridge the gap between 3D point cloud data and 2D pre-trained models. A set of 2D image prompts can then be derived to better describe the suitable prior knowledge for a large-scale pre-trained image model for few-shot 3D point cloud classification. Extensive experiments on ModelNet, ScanObjectNN, and ShapeNet datasets demonstrate that MvNet achieves new state-of-the-art performance for 3D few-shot point cloud image classification. The source code of this work will be available soon.
翻訳日:2023-04-21 13:41:29 公開日:2023-04-20
# k-center contrastive learningと調整可能な決定境界を用いた効果的なオープンインテント分類

Effective Open Intent Classification with K-center Contrastive Learning and Adjustable Decision Boundary ( http://arxiv.org/abs/2304.10220v1 )

ライセンス: Link先を確認
Xiaokang Liu, Jianquan Li, Jingjing Mu, Min Yang, Ruifeng Xu, and Benyou Wang(参考訳) open intent classification(オープンインテント分類)は、未知の(オープン)インテントを識別しながら、既知のインテントを対応するクラスに正しく分類することを目的としている。 本稿では、オープンインテント分類の有効性を改善するために、新しいK中心コントラスト学習と調整可能な決定境界学習(CLAB)を導入する。 まず、ラベル付きトレーニングインスタンスで機能エンコーダを事前トレーニングし、既知の意図から未知の意図に知識を伝達する。 具体的には,k中心のコントラスト学習アルゴリズムを考案し,識別的かつバランスのとれたインテントの特徴を学習し,オープンインテントを認識するモデルの一般化を改善した。 次に,ADBESを拡張・縮小し,適切な決定条件を決定するための調整可能な決定境界学習法を提案する。 具体的には、決定中心と決定境界の半径からなる、既知の各意図クラスに対する決定境界を学習する。 次に、決定境界の半径を拡大して、クラス外インスタンスが決定境界から遠く離れている場合、より多くのクラス内インスタンスに対応できるようにし、そうでなければ、決定境界の半径を縮小します。 3つのベンチマークデータセットの大規模な実験により,オープンインテント分類法の有効性が明らかとなった。 再現性のために、 https://github.com/lxk00/CLAP

Open intent classification, which aims to correctly classify the known intents into their corresponding classes while identifying the new unknown (open) intents, is an essential but challenging task in dialogue systems. In this paper, we introduce novel K-center contrastive learning and adjustable decision boundary learning (CLAB) to improve the effectiveness of open intent classification. First, we pre-train a feature encoder on the labeled training instances, which transfers knowledge from known intents to unknown intents. Specifically, we devise a K-center contrastive learning algorithm to learn discriminative and balanced intent features, improving the generalization of the model for recognizing open intents. Second, we devise an adjustable decision boundary learning method with expanding and shrinking (ADBES) to determine the suitable decision conditions. Concretely, we learn a decision boundary for each known intent class, which consists of a decision center and the radius of the decision boundary. We then expand the radius of the decision boundary to accommodate more in-class instances if the out-of-class instances are far from the decision boundary; otherwise, we shrink the radius of the decision boundary. Extensive experiments on three benchmark datasets clearly demonstrate the effectiveness of our method for open intent classification. For reproducibility, we submit the code at: https://github.com/lxk00/CLAP
翻訳日:2023-04-21 13:41:08 公開日:2023-04-20
# BB84プロトコルの完了時刻の解析

An Analysis of the Completion Time of the BB84 Protocol ( http://arxiv.org/abs/2304.10218v1 )

ライセンス: Link先を確認
Sounak Kar, Jean-Yves Le Boudec(参考訳) BB84 QKDプロトコルは、送信側と受信側が、伝送されたキュービットの一定部分を分解して盗聴やノイズを検出し、残りを秘密鍵として使用するようにデコードできるという考えに基づいている。 現在のハードウェア基盤の下では、量子状態のデコヒーレンスは完全あるいは効率的なテレポーテーションを実行する上で重要な課題となり、テレポーテーションベースのプロトコルは成功を観察するために何度も実行されなければならない。 したがって、そのようなプロトコルのパフォーマンス分析は通常、単一の試行期間ではなく、完了までの時間、すなわち成功までの時間を考える。 さらに、デコヒーレンスにより、量子状態は記憶の中で待たなければならないが、生成相の成功または失敗は関連する当事者に伝達されるため、試行の成功は一般にその試みの個々のフェーズの持続時間に依存する。 本研究では、送信側と受信側が単一の量子リピータを介して接続され、その間の唯一の量子チャネルが敵対的な攻撃を見られない設定において、bb84プロトコルの完了時刻の性能解析を行う。 テレポーテーションの生成および通信フェーズの特定の分布形式を仮定し、完了時間のMGFを計算し、その後、CDFとテール確率の有界値の推定を導出する方法を提供する。 この結果は, プロトコルを複数回実行することなく, テレポーテーションの基本位相を特徴付けるパラメータを用いて, 完了時間(テール)の挙動を評価するのに役立つ。 また,集約されたテレポーテーション時間を用いて完了時間を表現することで,完了時間を生成するための効率的なシミュレーションスキームを提供する。 我々は,本手法を実規模シミュレーションと比較し,両者の良好な一致を観察する。

The BB84 QKD protocol is based on the idea that the sender and the receiver can reconcile a certain fraction of the teleported qubits to detect eavesdropping or noise and decode the rest to use as a private key. Under the present hardware infrastructure, decoherence of quantum states poses a significant challenge to performing perfect or efficient teleportation, meaning that a teleportation-based protocol must be run multiple times to observe success. Thus, performance analyses of such protocols usually consider the completion time, i.e., the time until success, rather than the duration of a single attempt. Moreover, due to decoherence, the success of an attempt is in general dependent on the duration of individual phases of that attempt, as quantum states must wait in memory while the success or failure of a generation phase is communicated to the relevant parties. In this work, we do a performance analysis of the completion time of the BB84 protocol in a setting where the sender and the receiver are connected via a single quantum repeater and the only quantum channel between them does not see any adversarial attack. Assuming certain distributional forms for the generation and communication phases of teleportation, we provide a method to compute the MGF of the completion time and subsequently derive an estimate of the CDF and a bound on the tail probability. This result helps us gauge the (tail) behaviour of the completion time in terms of the parameters characterising the elementary phases of teleportation, without having to run the protocol multiple times. We also provide an efficient simulation scheme to generate the completion time, which relies on expressing the completion time in terms of aggregated teleportation times. We numerically compare our approach with a full-scale simulation and observe good agreement between them.
翻訳日:2023-04-21 13:40:43 公開日:2023-04-20
# 深層学習とリスク管理システムを用いた社会的距離検出

Social Distance Detection Using Deep Learning And Risk Management System ( http://arxiv.org/abs/2304.10259v1 )

ライセンス: Link先を確認
Dr. Sangeetha R.G, Jaya Aravindh V. V(参考訳) 3年後に発生した新型コロナウイルスの流行は、多くの進化とともに再び世界を襲った。 人類に対する影響は、すでに深刻である。 我々は、このパンデミックに対して「対面マスク」と「ソーシャルディスタンシング」を義務付けることで、身を守ることができる。 すべての集まりにおける保護マスクの必要性は、インドの多くの民間機関で要求されている。 実質的な人的資源利用の結果、個人はインドのような巨大な人口を抱える国全体を調査し、マスク着用の実施と社会距離の維持が不可能かどうかを判断する。 COVID-19 Social Distancing Detector System(COVID-19 Social Distancing Detector System)は、CNNモジュールに高度なセマンティックデータを統合して、社会的距離を維持し、特定の領域内の違反を同時に監視する、ディープラーニングを利用するシングルステージ検出器である。 現在のセキュリティ映像、CCTVカメラ、コンピュータビジョン(CV)をデプロイすることで、社会的分離の災難を経験している人々を特定することもできる。 安全と安全のためのツールを提供するため、この技術は労働力に基づく監視システムの必要性を解消するが、マニュアル管理機関は、実行された違反を監視、追跡、通知するためにいまだに必要である。 大学、病院、政府のオフィス、学校、建設現場など、あらゆるインフラでこの技術を利用することができる。 そのため、社会的距離検知システムとともに映像ストリームを報告・分析するリスク管理システムは、我々の保護と安全、および愛する人々の安全を確保するのに役立つかもしれない。 さらに,プロジェクト全体の展開と改善についても議論する。

An outbreak of the coronavirus disease which occurred three years later and it has hit the world again with many evolutions. The effects on the human race have already been profound. We can only safeguard ourselves against this pandemic by mandating a "Face Mask" also maintaining the "Social Distancing." The necessity of protective face masks in all gatherings is required by many civil institutions in India. As a result of the substantial human resource utilization, personally examining the whole country with a huge population like India, to determine whether the execution of mask wearing and social distance maintained is unfeasible. The COVID-19 Social Distancing Detector System is a single-stage detector that employs deep learning to integrate high-end semantic data to a CNN module in order to maintain social distances and simultaneously monitor violations within a specified region. By deploying current Security footages, CCTV cameras, and computer vision (CV), it will also be able to identify those who are experiencing the calamity of social separation. Providing tools for safety and security, this technology disposes the need for a labor-force based surveillance system, yet a manual governing body is still required to monitor, track, and inform on the violations that are committed. Any sort of infrastructure, including universities, hospitals, offices of the government, schools, and building sites, can employ the technology. Therefore, the risk management system created to report and analyze video streams along with the social distance detector system might help to ensure our protection and security as well as the security of our loved ones. Furthermore, we will discuss about deployment and improvement of the project overall.
翻訳日:2023-04-21 13:33:45 公開日:2023-04-20
# あらゆるものを一度にまとめる:創発的デコヒーレントな歴史の数値的実証

Everything Everywhere All At Once: A First Principles Numerical Demonstration of Emergent Decoherent Histories ( http://arxiv.org/abs/2304.10258v1 )

ライセンス: Link先を確認
Philipp Strasberg, Teresa E. Reinhard, Joseph Schindler(参考訳) 歴史形式論の中では、デコヒーレンス関数は孤立量子系における古典性の出現を研究する公式なツールであるが、第一原理からの明確な評価は報告されていない。 正確な数値対角化に基づいて,最大5回の履歴評価を行う。 非可積分多体系の遅くて粗い可観測性に対する創発的古典性を見つけ、ヒルベルト空間次元を4桁以上変化させることで有限サイズのスケーリング則を抽出する。 具体的には、量子効果の指数関数的な抑制を系の粒子数関数として予測し観測する。 これは、環境によって引き起こされたデコヒーレンス、量子ダーウィン主義、マルコフ近似、アンサンブル平均に頼ることなく、最小の理論的枠組みにおける多世界解釈の望ましい基礎問題の解を示唆する。 我々は、宇宙の波動関数、量子力学の解釈、時間の矢印に対する結果の意義について論じる。

Within the histories formalism the decoherence functional is a formal tool to investigate the emergence of classicality in isolated quantum systems, yet an explicit evaluation of it from first principles has not been reported. We provide such an evaluation for up to five-time histories based on exact numerical diagonalization. We find emergent classicality for slow and coarse observables of a non-integrable many-body system and extract a finite size scaling law by varying the Hilbert space dimension over four orders of magnitude. Specifically, we conjecture and observe an exponential suppression of quantum effects as a function of the particle number of the system. This suggests a solution to the preferred basis problem of the many worlds interpretation within a minimal theoretical framework, without relying on environmentally induced decoherence, quantum Darwinism, Markov approxmations or ensemble averages. We discuss the implications of our results for the wave function of the Universe, interpretations of quantum mechanics and the arrow(s) of time.
翻訳日:2023-04-21 13:33:17 公開日:2023-04-20
# mediapipe全体を用いたインド手話認識

Indian Sign Language Recognition Using Mediapipe Holistic ( http://arxiv.org/abs/2304.10256v1 )

ライセンス: Link先を確認
Dr. Velmathi G, Kaushal Goyal(参考訳) 聴覚障害者は毎日重要なコミュニケーション障害に直面している。 彼らの聞き取りができないため、手話を理解していない人とのコミュニケーションが困難になる。 さらに、教育、職業、社会的文脈の難しさも示している。 代替のコミュニケーションチャネルを提供することで、テクノロジーはこれらの障害を克服する上で重要な役割を果たすことができる。 聴覚障害者と聴覚障害者のコミュニケーションを容易にする技術は手話認識である。 インドの手話言語をテキストや音声に変換するために,手話認識のための堅牢なシステムを構築する。 提案システムの評価と,CNNとLSTMモデルの比較を行う。 静的手話とジェスチャ手話の両方があるため、それらの区別には堅牢なモデルが必要である。 本研究では,CNNモデルが静的手話認識のためにLSTMモデルよりも文字や文字を捕えることを発見したが,手,顔,ジェスチャー手話句や文のポーズをモニタすることで,CNNよりも優れていた。 手話依存の聴覚障害と難聴者のコミュニケーション能力を高めるため、テキスト対記号言語パラダイムの作成は不可欠である。 sign-to-text翻訳はコミュニケーションの一面にすぎないが、聴覚障害者や難聴者全員がテキストの読み書きに熟達しているわけではない。 教育やリテラシーの問題から、書き言葉の理解が難しい場合もある。 したがって、テキスト対記号言語パラダイムは、テキストベースの情報を理解し、様々な社会的、教育的、専門的な設定に参加することができる。 キーワード:聴覚障害、難聴、DHH、インド手話、CNN、LSTM、静的およびジェスチャー手話、テキスト・トゥ・サイン言語モデル、MediaPipe Holistic、手話認識、SLR、SLT

Deaf individuals confront significant communication obstacles on a daily basis. Their inability to hear makes it difficult for them to communicate with those who do not understand sign language. Moreover, it presents difficulties in educational, occupational, and social contexts. By providing alternative communication channels, technology can play a crucial role in overcoming these obstacles. One such technology that can facilitate communication between deaf and hearing individuals is sign language recognition. We will create a robust system for sign language recognition in order to convert Indian Sign Language to text or speech. We will evaluate the proposed system and compare CNN and LSTM models. Since there are both static and gesture sign languages, a robust model is required to distinguish between them. In this study, we discovered that a CNN model captures letters and characters for recognition of static sign language better than an LSTM model, but it outperforms CNN by monitoring hands, faces, and pose in gesture sign language phrases and sentences. The creation of a text-to-sign language paradigm is essential since it will enhance the sign language-dependent deaf and hard-of-hearing population's communication skills. Even though the sign-to-text translation is just one side of communication, not all deaf or hard-of-hearing people are proficient in reading or writing text. Some may have difficulty comprehending written language due to educational or literacy issues. Therefore, a text-to-sign language paradigm would allow them to comprehend text-based information and participate in a variety of social, educational, and professional settings. Keywords: deaf and hard-of-hearing, DHH, Indian sign language, CNN, LSTM, static and gesture sign languages, text-to-sign language model, MediaPipe Holistic, sign language recognition, SLR, SLT
翻訳日:2023-04-21 13:32:59 公開日:2023-04-20
# PED-ANOVA:任意部分空間におけるハイパーパラメータの重要性の効率的な定量化

PED-ANOVA: Efficiently Quantifying Hyperparameter Importance in Arbitrary Subspaces ( http://arxiv.org/abs/2304.10255v1 )

ライセンス: Link先を確認
Shuhei Watanabe, Archit Bansal, Frank Hutter(参考訳) 近年のディープラーニングにおけるハイパーパラメータ最適化(hpo)の普及は、優れたハイパーパラメータ(hp)空間設計が強力なモデルのトレーニングに果たす役割を強調している。 逆に、優れたHP空間を設計することは、異なるHPの役割を理解することに依存する。 これはHP Importance (HPI)の研究を動機付けており、例えば、機能的ANOVA(f-ANOVA)の一般的な方法である。 しかし、オリジナルのf-アノヴァの定式化はアルゴリズム設計に最も関係のある部分空間、例えばトップパフォーマンスで定義された部分空間には適用できない。 この問題を解決するために、任意の部分空間に対して f-ANOVA の新たな定式化を導き、Pearson divergence (PED) を用いて HPI の閉形式計算を可能にするアルゴリズムを提案する。 PED-ANOVAと呼ばれるこの新しいアルゴリズムは,異なる部分空間における重要なHPの同定に成功し,計算効率も極めて高いことを示す。

The recent rise in popularity of Hyperparameter Optimization (HPO) for deep learning has highlighted the role that good hyperparameter (HP) space design can play in training strong models. In turn, designing a good HP space is critically dependent on understanding the role of different HPs. This motivates research on HP Importance (HPI), e.g., with the popular method of functional ANOVA (f-ANOVA). However, the original f-ANOVA formulation is inapplicable to the subspaces most relevant to algorithm designers, such as those defined by top performance. To overcome this problem, we derive a novel formulation of f-ANOVA for arbitrary subspaces and propose an algorithm that uses Pearson divergence (PED) to enable a closed-form computation of HPI. We demonstrate that this new algorithm, dubbed PED-ANOVA, is able to successfully identify important HPs in different subspaces while also being extremely computationally efficient.
翻訳日:2023-04-21 13:32:31 公開日:2023-04-20
# 視覚の主セマンティクス保存による画像テキスト検索

Image-text Retrieval via preserving main Semantics of Vision ( http://arxiv.org/abs/2304.10254v1 )

ライセンス: Link先を確認
Xu Zhang, Xinzheng Niu, Philippe Fournier-Viger, Xudong Dai(参考訳) 画像テキスト検索はクロスモーダル検索の主要なタスクの1つである。 このタスクに対するいくつかのアプローチは、画像とテキストを共通空間にマッピングし、2つのモダリティ間の対応を生成する。 しかし、画像の内容(セマンティックス)の豊かさのため、画像内の冗長な二次情報は偽の一致を引き起こす可能性がある。 本稿では,画像の主コンテンツに着目したモデルを支援するために,視覚意味損失(vsl)として実装する意味的最適化手法を提案する。 このアプローチは、人々が通常、メインコンテンツを記述することによって画像のコンテンツに注釈をつける方法にインスパイアされています。 これにより、画像に対応する注釈付きテキストを活用して、画像の主コンテンツのキャプチャをモデル支援し、二次コンテンツの負の影響を低減できる。 2つのベンチマークデータセット(MSCOCOとFlickr30K)の大規模な実験により,本手法の優れた性能が示された。 コードは、https://github.com/ZhangXu0963/VSLで入手できる。

Image-text retrieval is one of the major tasks of cross-modal retrieval. Several approaches for this task map images and texts into a common space to create correspondences between the two modalities. However, due to the content (semantics) richness of an image, redundant secondary information in an image may cause false matches. To address this issue, this paper presents a semantic optimization approach, implemented as a Visual Semantic Loss (VSL), to assist the model in focusing on an image's main content. This approach is inspired by how people typically annotate the content of an image by describing its main content. Thus, we leverage the annotated texts corresponding to an image to assist the model in capturing the main content of the image, reducing the negative impact of secondary content. Extensive experiments on two benchmark datasets (MSCOCO and Flickr30K) demonstrate the superior performance of our method. The code is available at: https://github.com/ZhangXu0963/VSL.
翻訳日:2023-04-21 13:32:11 公開日:2023-04-20
# 拡散モデルと検索におけるデータ拡張の展望

A data augmentation perspective on diffusion models and retrieval ( http://arxiv.org/abs/2304.10253v1 )

ライセンス: Link先を確認
Max F. Burg, Florian Wenzel, Dominik Zietlow, Max Horn, Osama Makansi, Francesco Locatello, Chris Russell(参考訳) 拡散モデルはテキストキューからフォトリアリスティックな画像を生成するのに優れている。 当然、これらの生成能力を用いて、分類などの下流タスクのためのトレーニングデータセットを増強する多くのアプローチが提案されている。 しかし拡散モデルは、大きなノイズに支配されているが、それでも注釈付きデータセットで訓練されている。 拡散モデルの一般化能力が,事前学習プロセスの付加データに留まらず,下流性能の向上に繋がるかどうかが疑問視されている。 拡散モデルから画像を生成する既存の手法の体系的評価を行い、データ拡張の利点を評価するために新しい拡張について検討する。 対象データに対する拡散モデルのパーソナライズが,より簡単なプロンプト戦略よりも優れていることを見出しつつ,最寄りの探索手順を通じて,拡散モデルのトレーニングデータのみを用いることで,下流性能がさらに向上することを示す。 全体として,データ拡張のための拡散モデルの限界を探索すると同時に,ダウンストリームビジョンタスクのパフォーマンスを改善するための新たなトレーニングデータを生成する可能性も強調する。

Diffusion models excel at generating photorealistic images from text-queries. Naturally, many approaches have been proposed to use these generative abilities to augment training datasets for downstream tasks, such as classification. However, diffusion models are themselves trained on large noisily supervised, but nonetheless, annotated datasets. It is an open question whether the generalization capabilities of diffusion models beyond using the additional data of the pre-training process for augmentation lead to improved downstream performance. We perform a systematic evaluation of existing methods to generate images from diffusion models and study new extensions to assess their benefit for data augmentation. While we find that personalizing diffusion models towards the target data outperforms simpler prompting strategies, we also show that using the training data of the diffusion model alone, via a simple nearest neighbor retrieval procedure, leads to even stronger downstream performance. Overall, our study probes the limitations of diffusion models for data augmentation but also highlights its potential in generating new training data to improve performance on simple downstream vision tasks.
翻訳日:2023-04-21 13:31:55 公開日:2023-04-20
# 機械学習による降水アンサンブル予測システムの置き換えに向けて

Towards replacing precipitation ensemble predictions systems using machine learning ( http://arxiv.org/abs/2304.10251v1 )

ライセンス: Link先を確認
R\"udiger Brecht and Alex Bihlo(参考訳) 降水の分布や強度に影響を与えるいくつかの重要なプロセスが、地球規模の気象予測モデルよりも低いため、他の気象分野と比べて降水の予測は正確ではない。 これはより高い解像度のシミュレーションを必要とする。 予測に関連する不確実性予測を生成するため、シミュレーションのアンサンブルを同時に実行する。 しかし、計算コストはここでは制限要因である。 したがって、シミュレーションからアンサンブルシステムを生成する代わりに、ニューラルネットワークを使用する傾向がある。 残念ながら、高解像度アンサンブルの実行データは利用できない。 本研究では,高分解能トレーニングデータを必要とせずに,高分解能降水に対するアンサンブル天気予報を生成する新しい手法を提案する。 本手法は, 降水パターンの複雑なパターンを学習し, 多様な現実的な降水場を生成するために, 利用可能な制御予測のみを用いて, 現実的な降水アンサンブル部材を生成する。 我々は,高分解能で現実的な降水アンサンブル部材を生成できることを実証する。 我々は、RMSE、CRPS、ランクヒストグラム、ROC曲線などの評価指標を用いて、生成したアンサンブルがECMWF IFSアンサンブルとほぼ同一であることを示す。

Precipitation forecasts are less accurate compared to other meteorological fields because several key processes affecting precipitation distribution and intensity occur below the resolved scale of global weather prediction models. This requires to use higher resolution simulations. To generate an uncertainty prediction associated with the forecast, ensembles of simulations are run simultaneously. However, the computational cost is a limiting factor here. Thus, instead of generating an ensemble system from simulations there is a trend of using neural networks. Unfortunately the data for high resolution ensemble runs is not available. We propose a new approach to generating ensemble weather predictions for high-resolution precipitation without requiring high-resolution training data. The method uses generative adversarial networks to learn the complex patterns of precipitation and produce diverse and realistic precipitation fields, allowing to generate realistic precipitation ensemble members using only the available control forecast. We demonstrate the feasibility of generating realistic precipitation ensemble members on unseen higher resolutions. We use evaluation metrics such as RMSE, CRPS, rank histogram and ROC curves to demonstrate that our generated ensemble is almost identical to the ECMWF IFS ensemble.
翻訳日:2023-04-21 13:31:37 公開日:2023-04-20
# 低レベル視覚における入射神経表現の再検討

Revisiting Implicit Neural Representations in Low-Level Vision ( http://arxiv.org/abs/2304.10250v1 )

ライセンス: Link先を確認
Wentian Xu and Jianbo Jiao(参考訳) 近年,コンピュータビジョンにおいてインプシットニューラル表現(INR)が出現している。 これは、ニューラル半径場(NeRF)のような離散画像データから高密度な3Dモデルのような連続的な信号のパラメータ化に有効であることが示されている。 しかし、INRは2次元画像処理タスクでは不十分である。 InRの基本的定義と構造を考えると、画像復元などの低レベル視力問題におけるその有効性に関心がある。 本稿では,inrを再検討し,画像のデノイジング,超解像,インパインティング,デブラリングなどの低レベル画像復元タスクへの応用について検討する。 広範な実験評価は、限られたリソースで複数の低レベルのビジョンタスクにおいてinrが優れたパフォーマンスを示し、2db以上の性能を誇っている。 コードとモデルはhttps://github.com/wentxul/linrで入手できる。

Implicit Neural Representation (INR) has been emerging in computer vision in recent years. It has been shown to be effective in parameterising continuous signals such as dense 3D models from discrete image data, e.g. the neural radius field (NeRF). However, INR is under-explored in 2D image processing tasks. Considering the basic definition and the structure of INR, we are interested in its effectiveness in low-level vision problems such as image restoration. In this work, we revisit INR and investigate its application in low-level image restoration tasks including image denoising, super-resolution, inpainting, and deblurring. Extensive experimental evaluations suggest the superior performance of INR in several low-level vision tasks with limited resources, outperforming its counterparts by over 2dB. Code and models are available at https://github.com/WenTXuL/LINR
翻訳日:2023-04-21 13:31:18 公開日:2023-04-20
# 大きな対称スパイクテンソル上のホバーリングデフレ

Hotelling Deflation on Large Symmetric Spiked Tensors ( http://arxiv.org/abs/2304.10248v1 )

ライセンス: Link先を確認
Mohamed El Amine Seddik, Jos\'e Henrique de Morais Goulart, Maxime Guillaud(参考訳) 本稿では,添加ガウス雑音により崩壊する大きなテンソルに含まれる低ランク対称スパイクを推定するためにデフレ化アルゴリズムを適用した。 具体的には,逐次rank-1近似により得られたベクトルのアライメントと推定重みの観点で,スパイク成分間の非自明な(固定された)相関を仮定して,デフレの大次元的性能を精度良く評価する。 本解析により,ノイズの存在下でのデフレ機構の理解が可能となり,より効率的な信号推定法の設計に活用できる。

This paper studies the deflation algorithm when applied to estimate a low-rank symmetric spike contained in a large tensor corrupted by additive Gaussian noise. Specifically, we provide a precise characterization of the large-dimensional performance of deflation in terms of the alignments of the vectors obtained by successive rank-1 approximation and of their estimated weights, assuming non-trivial (fixed) correlations among spike components. Our analysis allows an understanding of the deflation mechanism in the presence of noise and can be exploited for designing more efficient signal estimation methods.
翻訳日:2023-04-21 13:30:42 公開日:2023-04-20
# ワイヤレスメタバースの7つの世界と経験 : 挑戦と機会

The Seven Worlds and Experiences of the Wireless Metaverse: Challenges and Opportunities ( http://arxiv.org/abs/2304.10282v1 )

ライセンス: Link先を確認
Omar Hashash, Christina Chaccour, Walid Saad, Tao Yu, Kei Sakaguchi, Merouane Debbah(参考訳) ワイヤレスのメタバースは、物理的、デジタル、仮想の世界の交差点で多様なユーザー体験を生み出す。 これらの経験は、3つの世界の構成要素(例えば、拡張現実(XR)ユーザーとアバター)の間の新しい相互作用を可能にする。 しかし、驚くべきことに、現在まで、メタバース世界、構成要素、経験の完全なセット、そしてそれらの関連する相互作用が次世代の通信およびコンピューティングシステムに与える影響を識別する全体論的ビジョンは存在しない。 本稿では,このメタバースを7つの世界と,以下を含む経験の交点に蒸留する,無制限でワイヤレスなメタバースの全体論的ビジョンを提案する。 一 物理的、デジタル的及び仮想世界 ii) サイバー、拡張、ライブ、および並列体験。 そして、これらの経験が様々なメタバース成分、すなわち、どのように相互作用をもたらすかを明確にする。 a) 人間とアバターと b)コネクテッド・インテリジェンス・システムとそのデジタル・ツイン(dts) そして、これらの経験と相互作用をサポートするメタバース対応ネットワークを確立するために対処しなければならない、ワイヤレス、コンピューティング、人工知能(AI)の課題について検討する。 特に、DTのエンドツーエンド同期の必要性と、認知アバターにおける人間レベルのAIと推論能力の役割を強調します。 さらに,今後のメタバースの探求に火を点けるようなオープンな質問の続編を述べる。 我々は、将来の無線システムに対する制限のないメタバースの展開を推奨する一連の勧告で締めくくります。

The wireless metaverse will create diverse user experiences at the intersection of the physical, digital, and virtual worlds. These experiences will enable novel interactions between the constituents (e.g., extended reality (XR) users and avatars) of the three worlds. However, remarkably, to date, there is no holistic vision that identifies the full set of metaverse worlds, constituents, and experiences, and the implications of their associated interactions on next-generation communication and computing systems. In this paper, we present a holistic vision of a limitless, wireless metaverse that distills the metaverse into an intersection of seven worlds and experiences that include the: i) physical, digital, and virtual worlds, along with the ii) cyber, extended, live, and parallel experiences. We then articulate how these experiences bring forth interactions between diverse metaverse constituents, namely, a) humans and avatars and b) connected intelligence systems and their digital twins (DTs). Then, we explore the wireless, computing, and artificial intelligence (AI) challenges that must be addressed to establish metaverse-ready networks that support these experiences and interactions. We particularly highlight the need for end-to-end synchronization of DTs, and the role of human-level AI and reasoning abilities for cognitive avatars. Moreover, we articulate a sequel of open questions that should ignite the quest for the future metaverse. We conclude with a set of recommendations to deploy the limitless metaverse over future wireless systems.
翻訳日:2023-04-21 13:25:26 公開日:2023-04-20
# 非エルミート模型における高次例外点の相関

Correlations at higher-order exceptional points in non-Hermitian models ( http://arxiv.org/abs/2304.10280v1 )

ライセンス: Link先を確認
Doru Sticlet, C\u{a}t\u{a}lin Pa\c{s}cu Moca, Bal\'azs D\'ora(参考訳) 高次例外点を持つ$\mathcal{PT}$-symmetric non-Hermitian 1次元モデルの空間相関の減衰について検討する。 特定の相関長を超えて、エルミート系に比べて非エルミート系における相関の強い抑制を示す異常なパワーロー挙動を発達させる。 相関長は、スペクトルが隙間のないにもかかわらず、短距離での対数成長から大距離での一定値への変化を示す絡み合いエントロピーにも反映される。 2種類の異なるモデルが研究され、どちらも粒子-ホール対称性によって制約された類似のスペクトルを持つ。 最初のモデルは任意の高次例外点を生成する実験的に魅力的な方法を提供し、一般スピンに対するディラックハミルトニアンの非エルミート拡大を表す。 臨界点では、例外点の順序に関係なく、相関値 $\sim 1/x^2$ と $1/x^3$ の減衰を示す。 第2のモデルは一方向ホッピングを用いて構築され、特別な点の順序に依存する力の法則を持つ$\sim 1/x^a$, $a\ge 2$の相関の抑制が強化される。

We investigate the decay of spatial correlations of $\mathcal{PT}$-symmetric non-Hermitian one-dimensional models that host higher-order exceptional points. Beyond a certain correlation length, they develop anomalous power-law behavior that indicates strong suppression of correlations in the non-Hermitian setups as compared to the Hermitian ones. The correlation length is also reflected in the entanglement entropy where it marks a change from logarithmic growth at short distance to a constant value at large distance, characteristic of an insulator, despite the spectrum being gapless. Two different families of models are investigated, both having a similar spectrum constrained by particle-hole symmetry. The first model offers an experimentally attractive way to generate arbitrary higher-order exceptional points and represents a non-Hermitian extension of the Dirac Hamiltonian for general spin. At the critical point it displays a decay of the correlations $\sim 1/x^2$ and $1/x^3$ irrespective of the order of the exceptional point. The second model is constructed using unidirectional hopping and display enhanced suppression of correlations $\sim 1/x^a$, $a\ge 2$ with a power law that depends on the order of the exceptional point.
翻訳日:2023-04-21 13:24:50 公開日:2023-04-20
# 生成的アートだけでなく, 芸術分析におけるコンテンツ型不連続の安定拡散

Not Only Generative Art: Stable Diffusion for Content-Style Disentanglement in Art Analysis ( http://arxiv.org/abs/2304.10278v1 )

ライセンス: Link先を確認
Yankun Wu, Yuta Nakashima, Noa Garcia(参考訳) 内容と様式の二重性は芸術の本質に固有のものである。 人間にとって、これら2つの要素は明らかに異なる: 内容は芸術作品のオブジェクトや概念を指し、その表現方法のスタイルを指す。 この双対性はコンピュータビジョンにとって重要な課題となる。 物体や概念の視覚的な外観は、著者の感情、社会的傾向、芸術運動などを反映するスタイルによって調節され、その深い理解は間違いなく両方を扱う必要がある。 アート分析の一般的なパラダイムに向けた有望なステップは、コンテンツとスタイルを歪めることである。一方、アートの単一側面を削るために人間のアノテーションに頼ることは、セマンティックな概念と絵画の視覚的な外観を学ぶのに制限がある。 そこで我々は,最近の生成モデルで得られた芸術的知識を蒸留し,内容やスタイルを乱す手法であるGOYAを提案する。 実験の結果,合成画像はアートの実際の分布のプロキシとして十分に機能し,GOYAは2つの要素を別々に表現し,既存の手法よりも多くの情報を保持することができることがわかった。

The duality of content and style is inherent to the nature of art. For humans, these two elements are clearly different: content refers to the objects and concepts in the piece of art, and style to the way it is expressed. This duality poses an important challenge for computer vision. The visual appearance of objects and concepts is modulated by the style that may reflect the author's emotions, social trends, artistic movement, etc., and their deep comprehension undoubtfully requires to handle both. A promising step towards a general paradigm for art analysis is to disentangle content and style, whereas relying on human annotations to cull a single aspect of artworks has limitations in learning semantic concepts and the visual appearance of paintings. We thus present GOYA, a method that distills the artistic knowledge captured in a recent generative model to disentangle content and style. Experiments show that synthetically generated images sufficiently serve as a proxy of the real distribution of artworks, allowing GOYA to separately represent the two elements of art while keeping more information than existing methods.
翻訳日:2023-04-21 13:24:19 公開日:2023-04-20
# 強化学習によるロバスト非線形集合点制御

Robust nonlinear set-point control with reinforcement learning ( http://arxiv.org/abs/2304.10277v1 )

ライセンス: Link先を確認
Ruoqi Zhang, Per Mattsson, Torbj\"orn Wigren(参考訳) 近年,非線形制御問題に対する強化学習への関心が高まっている。 しかし、標準的な強化学習アルゴリズムは、一見単純なセットポイント制御問題でもしばしば苦労する。 本稿では,高非線形な集合点制御問題においても,3つのアイデアが強化学習法を改善することを主張する。 1)振幅探査を支援するために先行フィードバックコントローラを使用する。 2) 統合エラーを使用する。 3)モデルアンサンブルでのトレーニング。 これらのアイデアが組み合わさって、より効率的なトレーニングと、エラーのモデル化に堅牢で、現実の非線形システムに直接デプロイできるトレーニングされたセットポイントコントローラが実現される。 この主張は、実世界の非線形カスケードタンクプロセスと、シミュレーションされた強い非線形pH制御システムによって支持される。

There has recently been an increased interest in reinforcement learning for nonlinear control problems. However standard reinforcement learning algorithms can often struggle even on seemingly simple set-point control problems. This paper argues that three ideas can improve reinforcement learning methods even for highly nonlinear set-point control problems: 1) Make use of a prior feedback controller to aid amplitude exploration. 2) Use integrated errors. 3) Train on model ensembles. Together these ideas lead to more efficient training, and a trained set-point controller that is more robust to modelling errors and thus can be directly deployed to real-world nonlinear systems. The claim is supported by experiments with a real-world nonlinear cascaded tank process and a simulated strongly nonlinear pH-control system.
翻訳日:2023-04-21 13:23:59 公開日:2023-04-20
# 強化学習におけるオブザーバフィードバックフィードフォワード制御構造

Observer-Feedback-Feedforward Controller Structures in Reinforcement Learning ( http://arxiv.org/abs/2304.10276v1 )

ライセンス: Link先を確認
Ruoqi Zhang, Per Mattson, Torbj\"orn Wigren(参考訳) 本稿では,構造化ニューラルネットワークを用いた強化学習に基づく非線形適応制御を提案する。 焦点は、状態とフィードフォワードオブザーバと状態フィードバックとフィードフォワードコントローラの別々のニューラルネットワークを備えた、部分的に観測可能なシステムである。 オブザーバダイナミクスはリカレントニューラルネットワークによってモデル化され、コントローラには標準ネットワークが使用される。 本稿では,本論文で論じたように,再帰的ニューラルネットワークへのオブザーバダイナミクスと,フィードバックとフィードフォワードネットワークへの状態フィードバックを分離する。 構造化されたアプローチは計算の複雑さを減らし、強化学習ベースのコントローラに1つのニューラルネットワークを使用する場合と比較して理解可能な構造を与える。 シミュレーションで示されるように、提案された構造はトレーニングが大幅に速くなるという付加的かつ主要な利点を持っている。 フィードフォワード構造を含む2つの方法が提示され、1つは状態フィードバック制御と古典フィードフォワード制御とが関連している。 後者の手法では、測定された外乱のみを処理する別個のリカレントニューラルネットワークにより、さらなる構造を導入する。 非線形カスケード2重タンクプロセスにおけるシミュレーションにより評価すると, 最大構造を有する手法が最も優れ, フィードフォワード外乱排除効果も良好である。

The paper proposes the use of structured neural networks for reinforcement learning based nonlinear adaptive control. The focus is on partially observable systems, with separate neural networks for the state and feedforward observer and the state feedback and feedforward controller. The observer dynamics are modelled by recurrent neural networks while a standard network is used for the controller. As discussed in the paper, this leads to a separation of the observer dynamics to the recurrent neural network part, and the state feedback to the feedback and feedforward network. The structured approach reduces the computational complexity and gives the reinforcement learning based controller an {\em understandable} structure as compared to when one single neural network is used. As shown by simulation the proposed structure has the additional and main advantage that the training becomes significantly faster. Two ways to include feedforward structure are presented, one related to state feedback control and one related to classical feedforward control. The latter method introduces further structure with a separate recurrent neural network that processes only the measured disturbance. When evaluated with simulation on a nonlinear cascaded double tank process, the method with most structure performs the best, with excellent feedforward disturbance rejection gains.
翻訳日:2023-04-21 13:23:47 公開日:2023-04-20
# NeuSort:ニューロモルフィックモデルを用いた自動適応スパイクソーティング手法

NeuSort: An Automatic Adaptive Spike Sorting Approach with Neuromorphic Models ( http://arxiv.org/abs/2304.10273v1 )

ライセンス: Link先を確認
Hang Yu, Yu Qi, Gang Pan(参考訳) 単一電極記録から異なるニューロンのスパイク事象を分類するスパイクソートは、神経データ処理と解析において不可欠で広く使われているステップである。 近年の脳-機械インタフェースの開発により、外部機器やクローズドループ・ニューロプロテーゼのオンライン制御が可能となり、オンラインスパイクソートが求められるようになった。 ほとんどの既存のスパイクソーターはオフラインで動作し、すなわちデータ収集の後にソートする。 しかし、オフラインスパイクソーターは通常、神経信号の不安定性のためにオンラインタスクのパフォーマンス低下に苦しむ。 オンラインプロセスでは、時間とともにニューロンの性質が変化し(波形変形など)、新しいニューロンが出現する。 したがって、静的スパイクソータはその性能を維持するために周期的な再調整を必要とする。 本研究では,ニューロモルフィックモデル(neusort)に基づく新しいオンラインスパイクソータを提案する。 NeuSortは、波形変形に対して個々のニューロンの活動をしっかり追跡し、新しいニューロンをリアルタイムで自動的に認識する。 NeuSortの適応能力は、生物学的ニューラルネットワークにインスパイアされた可塑性学習規則に従って、ニューロモルフィックモデルのオンラインパラメータ更新によって達成される。 合成信号とニューロ信号の両方の実験結果は、ニューソレットがスパイキングイベントを自動分類し、ニューロ信号の非定常状況に対処できることを示した。 NeuSortはまた、ニューロモルフィックチップを用いた超低エネルギーコスト計算も提供する。

Spike sorting, which classifies spiking events of different neurons from single electrode recordings, is an essential and widely used step in neural data processing and analysis. The recent development of brain-machine interfaces enables online control of external devices and closed-loop neuroprosthetics using single-unit activity, making online spike sorting desired. Most existing spike sorters work in an offline manner, i.e., sorting after data collection. However, offline spike sorters usually suffer from performance degradation in online tasks due to the instability of neural signals. In an online process, neuronal properties can change over time (such as waveform deformations), and new neurons can appear. Therefore, a static spike sorter requires periodic recalibration to maintain its performance. This study proposes a novel online spike sorter based on neuromorphic models (NeuSort), which can adaptively adjust itself to cope with changes in neural signals. NeuSort can robustly track individual neurons' activities against waveform deformations and automatically recognize new coming neurons in real-time. The adaptation ability of NeuSort is achieved by online parameter updates of the neuromorphic model, according to the plasticity learning rule inspired by biological neural systems. Experimental results on both synthetic and neural signal datasets demonstrate that NeuSort can classify spiking events automatically and cope with non-stationary situations in neural signals. NeuSort also provides ultra-low energy cost computation with neuromorphic chips.
翻訳日:2023-04-21 13:23:28 公開日:2023-04-20
# PreIM3D: 単一画像からの3次元連続精密画像属性編集

PREIM3D: 3D Consistent Precise Image Attribute Editing from a Single Image ( http://arxiv.org/abs/2304.10263v1 )

ライセンス: Link先を確認
Jianhui Li, Jianmin Li, Haoji Zhang, Shilong Liu, Zhengyi Wang, Zihao Xiao, Kaiwen Zheng, Jun Zhu(参考訳) 本稿では,実際に広く応用されている3d対応画像属性編集問題について検討する。 最近の方法では、共有エンコーダをトレーニングして3dジェネレータの潜在空間に画像をマッピングしたり、画像毎の潜在コード最適化を行い、潜在空間で画像を編集することで問題を解決している。 入力ビュー付近での有望な結果にもかかわらず、大きなカメラポーズで生成された画像の3d不整合や、編集中の不特定属性に影響するような不正確な画像属性編集に苦しんでいる。 より効率的な画像反転のために、すべての画像に対して共有エンコーダを訓練する。 大規模なカメラポーズにおける3Dの不整合を軽減するために,2つの新しい手法,交互トレーニングスキームと多視点アイデンティティ損失を提案する。 不正確な画像編集については,実画像の潜在空間と生成画像とのギャップを問題としている。 GANモデルの潜在空間と反転多様体を比較し、逆多様体の編集が定量的および定性的な評価においてより良い結果が得られることを示した。 大規模な実験により,本手法は従来よりも3次元一貫した画像を生成し,より正確な画像編集を実現する。 ソースコードと事前訓練済みのモデルについては、プロジェクトのページを参照してください。

We study the 3D-aware image attribute editing problem in this paper, which has wide applications in practice. Recent methods solved the problem by training a shared encoder to map images into a 3D generator's latent space or by per-image latent code optimization and then edited images in the latent space. Despite their promising results near the input view, they still suffer from the 3D inconsistency of produced images at large camera poses and imprecise image attribute editing, like affecting unspecified attributes during editing. For more efficient image inversion, we train a shared encoder for all images. To alleviate 3D inconsistency at large camera poses, we propose two novel methods, an alternating training scheme and a multi-view identity loss, to maintain 3D consistency and subject identity. As for imprecise image editing, we attribute the problem to the gap between the latent space of real images and that of generated images. We compare the latent space and inversion manifold of GAN models and demonstrate that editing in the inversion manifold can achieve better results in both quantitative and qualitative evaluations. Extensive experiments show that our method produces more 3D consistent images and achieves more precise image editing than previous work. Source code and pretrained models can be found on our project page: https://mybabyyh.github.io/Preim3D/
翻訳日:2023-04-21 13:22:43 公開日:2023-04-20
# クロスモーダル多段階コントラスト学習による音声翻訳の改善

Improving Speech Translation by Cross-Modal Multi-Grained Contrastive Learning ( http://arxiv.org/abs/2304.10309v1 )

ライセンス: Link先を確認
Hao Zhang, Nianwen Si, Yaqi Chen, Wenlin Zhang, Xukui Yang, Dan Qu, and Wei-Qiang Zhang(参考訳) エンド・ツー・エンド音声翻訳(E2E-ST)モデルは,低レイテンシと低エラー伝搬のため,徐々に主流のパラダイムになりつつある。 しかし、タスクの複雑さとデータ不足のため、そのようなモデルをうまく訓練するのは簡単ではない。 E2E-STモデルの性能は通常、対応する機械翻訳(MT)モデルに劣る。 このような観察に基づいて、既存の手法では様々な制約を課すことで暗黙的な知識伝達を行うために共有機構を用いることが多い。 しかし、最終モデルは、単独で訓練されたMTモデルよりも、MTタスクでしばしば悪化するので、この手法の知識伝達能力も制限される。 これらの問題に対処するため,E2E-STに対するFCCL(Fine- and Coarse- Granularity Contrastive Learning)アプローチを提案する。 本手法の重要な要素は、文・フレームレベルでのコントラスト学習を応用し、豊富な意味情報を含む音声表現抽出のための包括的ガイドを与えることである。さらに、mtモデルにおける表現変性を緩和する簡易なホワイトニング手法を採用し、コントラスト学習に悪影響を及ぼす。 MuST-Cベンチマーク実験の結果,提案手法は8つの言語対に対して最先端のE2E-STベースラインを大幅に上回ることがわかった。 さらなる分析は、FCCLが文法構造情報から能力を解放し、より多くの層に意味情報を学習させることを示唆している。

The end-to-end speech translation (E2E-ST) model has gradually become a mainstream paradigm due to its low latency and less error propagation. However, it is non-trivial to train such a model well due to the task complexity and data scarcity. The speech-and-text modality differences result in the E2E-ST model performance usually inferior to the corresponding machine translation (MT) model. Based on the above observation, existing methods often use sharingmechanisms to carry out implicit knowledge transfer by imposing various constraints. However, the final model often performs worse on the MT task than the MT model trained alone, which means that the knowledge transfer ability of this method is also limited. To deal with these problems, we propose the FCCL (Fine- and Coarse- Granularity Contrastive Learning) approach for E2E-ST, which makes explicit knowledge transfer through cross-modal multi-grained contrastive learning. A key ingredient of our approach is applying contrastive learning at both sentence- and frame-level to give the comprehensive guide for extracting speech representations containing rich semantic information.In addition, we adopt a simple whitening method to alleviate the representation degeneration in the MT model, which adversely affects contrast learning. Experiments on the MuST-C benchmark show that our proposed approach significantly outperforms the state-of-the-art E2E-ST baselines on all eight language pairs. Further analysis indicates that FCCL can free up its capacity from learning grammatical structure information and force more layers to learn semantic information.
翻訳日:2023-04-21 13:14:33 公開日:2023-04-20
# FIANCEE: 条件付き初期出力による敵ネットワークの高速推論

FIANCEE: Faster Inference of Adversarial Networks via Conditional Early Exits ( http://arxiv.org/abs/2304.10306v1 )

ライセンス: Link先を確認
Polina Karpikova (1 and 2), Radionova Ekaterina (1), Anastasia Yaschenko (1 and 2), Andrei Spiridonov (1), Leonid Kostyushko (3), Riccardo Fabbricatore (1), Aleksei Ivakhnenko (1) ((1) Samsung AI Center, (2) Higher School of Economics, (3) Lomonosov Moscow State University)(参考訳) 生成DNNは画像合成の強力なツールであるが、計算負荷によって制限されている。 一方、訓練されたモデルと、例えば特徴の範囲内で生成するタスクが与えられた場合、出力画像の品質は、異なる特徴を持つ画像間で均一に分配される。 従って、いくつかのケースではモデルの複雑さを抑え、高品質を維持します。 そこで本研究では, 初期出口分岐を元のアーキテクチャに追加し, 出力のレンダリングがいかに難しいかに応じて動的に計算経路を切り替えることで, 計算量を削減する手法を提案する。 提案手法を2種類のSOTAモデルに適用し, セマンティックマップから生成し, 顔表現の相互再現を行い, 独自の低品質しきい値で画像を出力可能であることを示す。 LPIPS <=0.1のしきい値の場合、計算結果を最大半分まで減少させる。 これは、顔の合成や品質損失を含む必要があるリアルタイムアプリケーションに特に関係しているが、ほとんどの入力は複雑なインスタンスよりも少ない計算を必要とする。

Generative DNNs are a powerful tool for image synthesis, but they are limited by their computational load. On the other hand, given a trained model and a task, e.g. faces generation within a range of characteristics, the output image quality will be unevenly distributed among images with different characteristics. It follows, that we might restrain the models complexity on some instances, maintaining a high quality. We propose a method for diminishing computations by adding so-called early exit branches to the original architecture, and dynamically switching the computational path depending on how difficult it will be to render the output. We apply our method on two different SOTA models performing generative tasks: generation from a semantic map, and cross-reenactment of face expressions; showing it is able to output images with custom lower-quality thresholds. For a threshold of LPIPS <=0.1, we diminish their computations by up to a half. This is especially relevant for real-time applications such as synthesis of faces, when quality loss needs to be contained, but most of the inputs need fewer computations than the complex instances.
翻訳日:2023-04-21 13:14:06 公開日:2023-04-20
# ビデオコピー検出のための機能互換プログレッシブラーニング

Feature-compatible Progressive Learning for Video Copy Detection ( http://arxiv.org/abs/2304.10305v1 )

ライセンス: Link先を確認
Wenhao Wang, Yifan Sun, Yi Yang(参考訳) ビデオコピー検出(VCD)は、未承認または複製されたビデオコンテンツのインスタンスを特定するために開発された。 本稿では,meta ai video similarity challenge (vsc22), cvpr 2023に対する第1および第2のソリューションを提案する。 この課題に対抗すべく,VCDのためのFCPL(Feature-Compatible Progressive Learning)を提案する。 FCPLは相互に互換性のある特徴を生成する様々なモデルを訓練しており、複数の異なるモデルから派生した特徴を直接比較することができる。 この相互互換性は機能アンサンブルを可能にする。 プログレッシブラーニングを実装し,ラベル付き真実ペアを活用することで,性能を効果的に向上する。 FCPLが他の競合相手よりも優れていることを示す実験結果が得られた。 私たちのコードはhttps://github.com/WangWenhao0716/VSC-DescriptorTrack-Submissionとhttps://github.com/WangWenhao0716/VSC-MatchingTrack-Submissionで利用可能です。

Video Copy Detection (VCD) has been developed to identify instances of unauthorized or duplicated video content. This paper presents our first and second solutions to the Meta AI Video Similarity Challenge (VSC22), CVPR 2023. In order to compete in this challenge, we propose Feature-Compatible Progressive Learning (FCPL) for VCD. FCPL trains various models that produce mutually-compatible features, meaning that the features derived from multiple distinct models can be directly compared with one another. We find this mutual compatibility enables feature ensemble. By implementing progressive learning and utilizing labeled ground truth pairs, we effectively gradually enhance performance. Experimental results demonstrate the superiority of the proposed FCPL over other competitors. Our code is available at https://github.com/WangWenhao0716/VSC-DescriptorTrack-Submission and https://github.com/WangWenhao0716/VSC-MatchingTrack-Submission.
翻訳日:2023-04-21 13:13:46 公開日:2023-04-20
# 停止するマルチアームバンディットモデルの最適活性化

Optimal Activation of Halting Multi-Armed Bandit Models ( http://arxiv.org/abs/2304.10302v1 )

ライセンス: Link先を確認
Wesley Cowan, Michael N. Katehakis, Sheldon M. Ross(参考訳) 本研究では,"slstoping bandit}モデルにおける動的割り当て問題の新しいタイプについて検討する。 応用として,古典的なGittins指数分解結果の新たな証明と,一般の減価償却とコミットメントの下での 'Multi-armed bandits' の著者による最近の結果を得る。 '

We study new types of dynamic allocation problems the {\sl Halting Bandit} models. As an application, we obtain new proofs for the classic Gittins index decomposition result and recent results of the authors in `Multi-armed bandits under general depreciation and commitment.'
翻訳日:2023-04-21 13:13:29 公開日:2023-04-20
# SARF:Few-shot Relation Reasoningのための自己指導型学習支援システム

SARF: Aliasing Relation Assisted Self-Supervised Learning for Few-shot Relation Reasoning ( http://arxiv.org/abs/2304.10297v1 )

ライセンス: Link先を確認
Lingyuan Meng, Ke Liang, Bin Xiao, Sihang Zhou, Yue Liu, Meng Liu, Xihong Yang, Xinwang Liu(参考訳) 知識グラフ(FS-KGR)に基づく推論は,近年,その実用性から注目が集まっている,長い尾関係の推測を目的としている。 以前の方法の事前トレーニングは、手動でメタリレーショナルセットを構築する必要があり、多くの労働コストを発生させる。 自己教師付き学習(SSL)はこの問題に対処するためのソリューションとして扱われるが、FS-KGRタスクの初期段階にある。 さらに、既存の手法の多くは、アリアシング関係(AR)から有益な情報、すなわち、類似した文脈意味論とターゲットデータ-ポーア関係とのデータリッチな関係を活用することを無視している。 そこで本研究では,fs-kgr支援のためのエイリアシング関係を利用した自己教師付き学習モデルを提案する。 具体的には、SSL推論モジュール、ARアシスト機構、融合モジュール、スコアリング関数の4つの主要コンポーネントをモデルとして設計する。 まず,共起パターンの表現を生成的に生成する。 一方, Aliasing relations の表現はAR-assist 機構における推論を強化するために学習される。 さらに、複数の戦略、すなわち単純な総和と学習可能な融合が表現融合のために提供される。 最後に、生成した表現をスコアリングに使用する。 3つのベンチマークによる大規模な実験により、SARFは、ほとんどの場合において他の手法と比較して最先端のパフォーマンスを達成することが示された。

Few-shot relation reasoning on knowledge graphs (FS-KGR) aims to infer long-tail data-poor relations, which has drawn increasing attention these years due to its practicalities. The pre-training of previous methods needs to manually construct the meta-relation set, leading to numerous labor costs. Self-supervised learning (SSL) is treated as a solution to tackle the issue, but still at an early stage for FS-KGR task. Moreover, most of the existing methods ignore leveraging the beneficial information from aliasing relations (AR), i.e., data-rich relations with similar contextual semantics to the target data-poor relation. Therefore, we proposed a novel Self-Supervised Learning model by leveraging Aliasing Relations to assist FS-KGR, termed SARF. Concretely, four main components are designed in our model, i.e., SSL reasoning module, AR-assisted mechanism, fusion module, and scoring function. We first generate the representation of the co-occurrence patterns in a generative manner. Meanwhile, the representations of aliasing relations are learned to enhance reasoning in the AR-assist mechanism. Besides, multiple strategies, i.e., simple summation and learnable fusion, are offered for representation fusion. Finally, the generated representation is used for scoring. Extensive experiments on three few-shot benchmarks demonstrate that SARF achieves state-of-the-art performance compared with other methods in most cases.
翻訳日:2023-04-21 13:13:22 公開日:2023-04-20
# エンドツーエンド音声翻訳のための非パラメトリック知識蒸留

Decouple Non-parametric Knowledge Distillation For End-to-end Speech Translation ( http://arxiv.org/abs/2304.10295v1 )

ライセンス: Link先を確認
Hao Zhang, Nianwen Si, Yaqi Chen, Wenlin Zhang, Xukui Yang, Dan Qu, Zhen Li(参考訳) 既存の技術はしばしば、訓練中に追加入力として書き起こしを必要とするような、強力な機械翻訳(MT)から音声翻訳(ST)モデルへの知識伝達を試みる。 しかし、文字の書き起こしは必ずしも可能ではなく、STモデルの性能を改善する方法、すなわちデータ効率が文献で研究されることはめったにない。 本稿では,非パラメトリック知識蒸留(dnkd)をデータの観点から分離し,データ効率を向上させることを提案する。 我々の方法は知識蒸留パラダイムに従っている。 しかし、高度MTモデルから教師分布を得る代わりに、k-Nearest-Neighbor(kNN)検索により非パラメトリックデータストアから構築し、転写とMTモデルへの依存を除去する。 次に,古典的な知識蒸留損失を目標蒸留と非目標蒸留に分離し,非目標ロジット間の知識の効果を高める。 MuST-Cコーパスの実験により,本手法は転写を必要とせず,強いベースラインに対して一貫した改善を達成できることが示されている。

Existing techniques often attempt to make knowledge transfer from a powerful machine translation (MT) to speech translation (ST) model with some elaborate techniques, which often requires transcription as extra input during training. However, transcriptions are not always available, and how to improve the ST model performance without transcription, i.e., data efficiency, has rarely been studied in the literature. In this paper, we propose Decoupled Non-parametric Knowledge Distillation (DNKD) from data perspective to improve the data efficiency. Our method follows the knowledge distillation paradigm. However, instead of obtaining the teacher distribution from a sophisticated MT model, we construct it from a non-parametric datastore via k-Nearest-Neighbor (kNN) retrieval, which removes the dependence on transcription and MT model. Then we decouple the classic knowledge distillation loss into target and non-target distillation to enhance the effect of the knowledge among non-target logits, which is the prominent "dark knowledge". Experiments on MuST-C corpus show that, the proposed method can achieve consistent improvement over the strong baseline without requiring any transcription.
翻訳日:2023-04-21 13:12:59 公開日:2023-04-20
# optogpt:光多層薄膜構造における逆設計の基礎モデル

OptoGPT: A Foundation Model for Inverse Design in Optical Multilayer Thin Film Structures ( http://arxiv.org/abs/2304.10294v1 )

ライセンス: Link先を確認
Taigao Ma, Haozhu Wang, L. Jay Guo(参考訳) ファンデーションモデルは、多種多様な大規模データでトレーニングされた様々な下流タスクに対処できる大規模な機械学習モデルであり、自然言語処理、コンピュータビジョン、強化学習の研究トレンドをリードする。 しかし、光多層膜構造逆設計の基礎モデルは存在しない。 現在の逆設計アルゴリズムは、大域的な設計空間の探索に失敗したり、計算効率が低かったりする。 このギャップを埋めるため,OptoGPT (Optito Generative Pretrained Transformer) を提案する。 OptoGPTはデコーダのみのトランスフォーマーで、特定のスペクトルターゲットに基づいて自動回帰的に設計を生成する。 1) 各層における材料(最大18種類の異なるタイプ)と厚さを選択しながら、レイヤ数(最大20個)を決定することで、自律的なグローバルデザイン探索を行う。 2) 構造色,吸収剤,フィルタ,分散ブラッグリフレクタ,ファブリペロ共振器を0.1秒以内に効率よく設計する(シミュレーション速度に匹敵する)。 3)多様な意匠を出力できる能力、及び 4) ユーザ定義制約のシームレスな統合。 光ターゲット、材料選択、設計制約に関する設計障壁を克服することで、光多層膜構造逆設計の基礎モデルとして機能することができる。

Foundation models are large machine learning models that can tackle various downstream tasks once trained on diverse and large-scale data, leading research trends in natural language processing, computer vision, and reinforcement learning. However, no foundation model exists for optical multilayer thin film structure inverse design. Current inverse design algorithms either fail to explore the global design space or suffer from low computational efficiency. To bridge this gap, we propose the Opto Generative Pretrained Transformer (OptoGPT). OptoGPT is a decoder-only transformer that auto-regressively generates designs based on specific spectrum targets. Trained on a large dataset of 10 million designs, our model demonstrates remarkable capabilities: 1) autonomous global design exploration by determining the number of layers (up to 20) while selecting the material (up to 18 distinct types) and thickness at each layer, 2) efficient designs for structural color, absorbers, filters, distributed brag reflectors, and Fabry-Perot resonators within 0.1 seconds (comparable to simulation speeds), 3) the ability to output diverse designs, and 4) seamless integration of user-defined constraints. By overcoming design barriers regarding optical targets, material selections, and design constraints, OptoGPT can serve as a foundation model for optical multilayer thin film structure inverse design.
翻訳日:2023-04-21 13:12:38 公開日:2023-04-20
# 集合点制御のための強化学習支援

Aiding reinforcement learning for set point control ( http://arxiv.org/abs/2304.10289v1 )

ライセンス: Link先を確認
Ruoqi Zhang, Per Mattsson, Torbj\"orn Wigren(参考訳) 強化学習は大幅に改善されているが、最先端のアルゴリズムは一見単純なセットポイントフィードバック制御の問題に苦戦している。 この理由の1つは、学習したコントローラが最初にシステムダイナミクスを十分にエキサイティングできないため、適切な制御のために十分な情報を得るのに長い時間がかかる可能性があるためである。 本論文は,単純な誘導フィードバックコントローラ,例えば比例制御器を用いた強化学習の強化に寄与する。 セットポイント制御における鍵となる利点は、強化学習制御器の収束特性を大幅に改善する大幅に改善された励起である。 これは、迅速かつ正確な収束が必要な実世界の制御において非常に重要である。 提案手法をシミュレーションおよび実世界のダブルタンクプロセスで評価し,有望な結果を得た。

While reinforcement learning has made great improvements, state-of-the-art algorithms can still struggle with seemingly simple set-point feedback control problems. One reason for this is that the learned controller may not be able to excite the system dynamics well enough initially, and therefore it can take a long time to get data that is informative enough to learn for good control. The paper contributes by augmentation of reinforcement learning with a simple guiding feedback controller, for example, a proportional controller. The key advantage in set point control is a much improved excitation that improves the convergence properties of the reinforcement learning controller significantly. This can be very important in real-world control where quick and accurate convergence is needed. The proposed method is evaluated with simulation and on a real-world double tank process with promising results.
翻訳日:2023-04-21 13:12:17 公開日:2023-04-20
# メタヒューリスティックアプローチによる推定と明示的分類の不確実性

A Meta-heuristic Approach to Estimate and Explain Classifier Uncertainty ( http://arxiv.org/abs/2304.10284v1 )

ライセンス: Link先を確認
Andrew Houston, Georgina Cosma(参考訳) 信頼は機械学習(ML)モデルの採用に影響を与える重要な要因である。 質的研究により、エンドユーザー、特に医療分野において、意思決定において不確実性を表現できるモデルが必要であることが判明した。 しかしながら、既存の意思決定の不確かさを定量化するためのアプローチはモデルに依存していないし、あるいは素人やエンドユーザが容易に理解できない複雑な統計的導出に依存しているため、モデルの意思決定プロセスを説明する上ではあまり役に立たない。 本研究は,ヒトとMLの意思決定に相互に関係する因子の観点から,インスタンスの複雑性を特徴付けるクラス非依存型メタヒューリスティックスを提案する。 これらの尺度は、誤分類のリスクを推定するメタラーニングフレームワークに統合される。 提案したフレームワークは、誤分類のリスクのあるインスタンスを識別する予測確率を上回った。 提案された測度とフレームワークは、より複雑なインスタンスのモデル開発を改善するとともに、モデルの棄却と説明の新しい手段を提供する。

Trust is a crucial factor affecting the adoption of machine learning (ML) models. Qualitative studies have revealed that end-users, particularly in the medical domain, need models that can express their uncertainty in decision-making allowing users to know when to ignore the model's recommendations. However, existing approaches for quantifying decision-making uncertainty are not model-agnostic, or they rely on complex statistical derivations that are not easily understood by laypersons or end-users, making them less useful for explaining the model's decision-making process. This work proposes a set of class-independent meta-heuristics that can characterize the complexity of an instance in terms of factors are mutually relevant to both human and ML decision-making. The measures are integrated into a meta-learning framework that estimates the risk of misclassification. The proposed framework outperformed predicted probabilities in identifying instances at risk of being misclassified. The proposed measures and framework hold promise for improving model development for more complex instances, as well as providing a new means of model abstention and explanation.
翻訳日:2023-04-21 13:12:05 公開日:2023-04-20
# 不均衡テキストデータセットの予測改善に拡張は有効か?

Is augmentation effective to improve prediction in imbalanced text datasets? ( http://arxiv.org/abs/2304.10283v1 )

ライセンス: Link先を確認
Gabriel O. Assun\c{c}\~ao and Rafael Izbicki and Marcos O. Prates(参考訳) 不均衡データセットは機械学習モデルに重大な課題を示し、しばしばバイアス付き予測につながる。 この問題に対処するため、自然言語処理(NLP)において、マイノリティクラスのための新しいサンプルを生成するためにデータ拡張技術が広く用いられている。 しかし,本論文では,不均衡データセットの予測を改善するためには常にデータ拡張が必要であるという共通の仮定に挑戦する。 代わりに、データ拡張なしで分類器のカットオフを調整することで、オーバーサンプリング手法と同じような結果が得られると論じる。 我々の研究は、この主張を支持する理論的および実証的な証拠を提供する。 本研究は,不均衡なデータを扱うための異なるアプローチの強みと限界をよりよく理解し,研究者や実践者が特定のタスクに使用する方法に関するインフォームドな判断を行うのに役立つ。

Imbalanced datasets present a significant challenge for machine learning models, often leading to biased predictions. To address this issue, data augmentation techniques are widely used in natural language processing (NLP) to generate new samples for the minority class. However, in this paper, we challenge the common assumption that data augmentation is always necessary to improve predictions on imbalanced datasets. Instead, we argue that adjusting the classifier cutoffs without data augmentation can produce similar results to oversampling techniques. Our study provides theoretical and empirical evidence to support this claim. Our findings contribute to a better understanding of the strengths and limitations of different approaches to dealing with imbalanced data, and help researchers and practitioners make informed decisions about which methods to use for a given task.
翻訳日:2023-04-21 13:11:47 公開日:2023-04-20
# 映像行動認識のための連続学習手法のベースライン

A baseline on continual learning methods for video action recognition ( http://arxiv.org/abs/2304.10335v1 )

ライセンス: Link先を確認
Giulia Castagnolo, Concetto Spampinato, Francesco Rundo, Daniela Giordano, Simone Palazzo(参考訳) 近年,従来の教師付きモデルの長期的限界を解決することを目的として,研究コミュニティから継続的な学習が注目されている。 しかし,本研究のほとんどが,単純な画像分類シナリオにおける連続学習に取り組んできた。 本稿では,映像行動認識における最先端の連続学習手法のベンチマークを示す。 時間次元による複雑さの増加に加えて、ビデオ設定は、トップパーパフォーミングリハーサルメソッドの計算リソースに対するより強い要求を課している。 メモリ要求の増大に対処するため,リハーサル法に2つの方法に依存しない変種を提示し,モデル信頼度とデータ情報を用いて記憶可能なサンプルを選択する。 実験の結果,リハーサル法は他の手法よりも優れていることがわかった。さらに,提案したメモリ効率の変動は,バッファサイズが小さい一定の性能を維持するのに有効であることがわかった。

Continual learning has recently attracted attention from the research community, as it aims to solve long-standing limitations of classic supervisedly-trained models. However, most research on this subject has tackled continual learning in simple image classification scenarios. In this paper, we present a benchmark of state-of-the-art continual learning methods on video action recognition. Besides the increased complexity due to the temporal dimension, the video setting imposes stronger requirements on computing resources for top-performing rehearsal methods. To counteract the increased memory requirements, we present two method-agnostic variants for rehearsal methods, exploiting measures of either model confidence or data information to select memorable samples. Our experiments show that, as expected from the literature, rehearsal methods outperform other approaches; moreover, the proposed memory-efficient variants are shown to be effective at retaining a certain level of performance with a smaller buffer size.
翻訳日:2023-04-21 13:05:42 公開日:2023-04-20
# 発散最適化による視覚認識のための雑音領域適応

Noisy Universal Domain Adaptation via Divergence Optimization for Visual Recognition ( http://arxiv.org/abs/2304.10333v1 )

ライセンス: Link先を確認
Qing Yu and Atsushi Hashimoto and Yoshitaka Ushiku(参考訳) ラベル付きソースドメインから未ラベルのターゲットドメインに学習した知識を転送するために、多くの研究がユニバーサルドメイン適応(UniDA)に取り組んでおり、ソースドメインとターゲットドメインのラベルセットに制約はない。 しかし、既存のUniDAメソッドは正しいアノテーションを持つソースサンプルに依存している。 実世界の限られたリソースのため、一部のアプリケーションでは、ソースドメイン内の完全なラベル付きデータを大量に取得することは困難である。 そこで本研究では,ソースドメインからのノイズラベル付きデータと未知のクラス分布を持つ対象ドメインからのラベル付きドメインデータを用いて分類器を訓練する,ノイズ付きunidaという新しい現実的なシナリオを提案する。 本稿では,Nuisy UniDAで直面する課題のすべてを同時に解決するために,マルチヘッド畳み込みニューラルネットワークフレームワークを提案する。 我々のネットワークは、単一の共通特徴生成器と、様々な決定境界を持つ複数の分類器から構成される。 各種分類器の出力のばらつきを最適化することにより、ソースドメイン内のノイズサンプルを検出し、ターゲットドメイン内の未知のクラスを特定し、ソースとターゲットドメインの分布を調整できる。 提案手法は,様々なドメイン適応シナリオを徹底的に解析した結果,既存手法のほとんどを上回った。 ソースコードは \url{https://github.com/yu1ut/divergence-optimization} で入手できる。

To transfer the knowledge learned from a labeled source domain to an unlabeled target domain, many studies have worked on universal domain adaptation (UniDA), where there is no constraint on the label sets of the source domain and target domain. However, the existing UniDA methods rely on source samples with correct annotations. Due to the limited resources in the real world, it is difficult to obtain a large amount of perfectly clean labeled data in a source domain in some applications. As a result, we propose a novel realistic scenario named Noisy UniDA, in which classifiers are trained using noisy labeled data from the source domain as well as unlabeled domain data from the target domain that has an uncertain class distribution. A multi-head convolutional neural network framework is proposed in this paper to address all of the challenges faced in the Noisy UniDA at once. Our network comprises a single common feature generator and multiple classifiers with various decision bounds. We can detect noisy samples in the source domain, identify unknown classes in the target domain, and align the distribution of the source and target domains by optimizing the divergence between the outputs of the various classifiers. The proposed method outperformed the existing methods in most of the settings after a thorough analysis of the various domain adaption scenarios. The source code is available at \url{https://github.com/YU1ut/Divergence-Optimization}.
翻訳日:2023-04-21 13:05:26 公開日:2023-04-20
# GNNを用いた実ネットワーク構成からの細胞被覆学習

Learning Cellular Coverage from Real Network Configurations using GNNs ( http://arxiv.org/abs/2304.10328v1 )

ライセンス: Link先を確認
Yifei Jin, Marios Daoutis, Sarunas Girdzijauskas, Aristides Gionis(参考訳) セルカバレッジの品質評価は自己組織化ネットワークにとって重要な課題である。 実世界のシナリオでは、ネットワーク設計と最適化の間にほとんど真実が得られないため、ディープラーニングによるカバレッジ品質評価手法は大規模にスケールできない。 さらに、細胞の構成の変動を適切に捉えるために、表現的な埋め込みを生産するのに不足する。 この課題に対処するために、タスクをグラフ表現で定式化し、模範的なパフォーマンスを示す最先端のグラフニューラルネットワークを適用できるようにします。 我々は,複数のKPIを推定するための高品質なセル構成埋め込みを同時に生成できる新しいトレーニングフレームワークを提案する。 当社のフレームワークは,大量のラベル付きサンプルを使用してトレーニングされたモデルと同等の精度を示している。

Cellular coverage quality estimation has been a critical task for self-organized networks. In real-world scenarios, deep-learning-powered coverage quality estimation methods cannot scale up to large areas due to little ground truth can be provided during network design & optimization. In addition they fall short in produce expressive embeddings to adequately capture the variations of the cells' configurations. To deal with this challenge, we formulate the task in a graph representation and so that we can apply state-of-the-art graph neural networks, that show exemplary performance. We propose a novel training framework that can both produce quality cell configuration embeddings for estimating multiple KPIs, while we show it is capable of generalising to large (area-wide) scenarios given very few labeled cells. We show that our framework yields comparable accuracy with models that have been trained using massively labeled samples.
翻訳日:2023-04-21 13:05:04 公開日:2023-04-20
# 人間と機械の科学的理解のためのベンチマークに向けて

Towards a Benchmark for Scientific Understanding in Humans and Machines ( http://arxiv.org/abs/2304.10327v1 )

ライセンス: Link先を確認
Kristian Gonzalez Barman, Sascha Caron, Tom Claassen, Henk de Regt(参考訳) 科学的理解は科学の基本的な目標であり、世界を説明することができる。 現在、エージェントの科学的理解を計測する方法は、人間であれ、人工知能システムであれ、存在しない。 明確なベンチマークがなければ、異なるレベルの科学的理解とアプローチを評価し比較することは困難である。 本稿では,科学哲学のツールを活用した科学的理解のためのベンチマークを作成するためのフレームワークを提案する。 我々は、真の理解を特定のタスクを実行する能力として認識すべき行動概念を採用する。 我々は、科学的理解の異なるレベルを計測できる質問セット、情報検索、説明を作成するための情報を整理する能力、異なる状況下での物事の違いを推測する能力を考えることで、この概念を拡張した。 これらの一連のテストによって形成されるScientific Understanding Benchmark (SUB)は、異なるアプローチの評価と比較を可能にする。 ベンチマークは、信頼の確立、品質管理の確保、パフォーマンス評価の基盤を提供する上で、重要な役割を果たす。 機械と人間の科学的理解を一致させることで、その有用性を改善し、究極的には科学的理解を前進させ、機械内の新しい洞察を見つけるのに役立つ。

Scientific understanding is a fundamental goal of science, allowing us to explain the world. There is currently no good way to measure the scientific understanding of agents, whether these be humans or Artificial Intelligence systems. Without a clear benchmark, it is challenging to evaluate and compare different levels of and approaches to scientific understanding. In this Roadmap, we propose a framework to create a benchmark for scientific understanding, utilizing tools from philosophy of science. We adopt a behavioral notion according to which genuine understanding should be recognized as an ability to perform certain tasks. We extend this notion by considering a set of questions that can gauge different levels of scientific understanding, covering information retrieval, the capability to arrange information to produce an explanation, and the ability to infer how things would be different under different circumstances. The Scientific Understanding Benchmark (SUB), which is formed by a set of these tests, allows for the evaluation and comparison of different approaches. Benchmarking plays a crucial role in establishing trust, ensuring quality control, and providing a basis for performance evaluation. By aligning machine and human scientific understanding we can improve their utility, ultimately advancing scientific understanding and helping to discover new insights within machines.
翻訳日:2023-04-21 13:04:51 公開日:2023-04-20
# パンオプティカルセグメンテーションにおけるセンシング事例と意味セグメンテーション

Ensembling Instance and Semantic Segmentation for Panoptic Segmentation ( http://arxiv.org/abs/2304.10326v1 )

ライセンス: Link先を確認
Mehmet Yildirim, Yogesh Langhe(参考訳) 我々は、2019年のCOCOパン光学セグメンテーションのソリューションを実演する。 まずインスタンスのセグメンテーションとセマンティクスのセグメンテーションを別々に行い、2つのセグメンテーションを組み合わせることで、panopticセグメンテーション結果を生成する。 性能を向上させるために,トレーニングデータにおけるデータ不均衡問題に対処するために,サンプルセグメンテーションにMask R-CNNのエキスパートモデルをいくつか追加する。 セグメンテーションでは,様々なバックボーンを持つモデルを訓練し,セグメンテーション結果をさらに強化するアンサンブル戦略を用いた。 最後に,インスタンスセグメンテーションとセマンティクスセグメンテーションの様々な組み合わせを分析し,最終的なpanopticセグメンテーション結果に対する性能について報告する。 当社のベストモデルは、2019年のCOCOパノプティカルテストデーブデータでPQ$47.1を達成する。

We demonstrate our solution for the 2019 COCO panoptic segmentation task. Our method first performs instance segmentation and semantic segmentation separately, then combines the two to generate panoptic segmentation results. To enhance the performance, we add several expert models of Mask R-CNN in instance segmentation to tackle the data imbalance problem in the training data; also HTC model is adopted yielding our best instance segmentation results. In semantic segmentation, we trained several models with various backbones and use an ensemble strategy which further boosts the segmentation results. In the end, we analyze various combinations of instance and semantic segmentation, and report on their performance for the final panoptic segmentation results. Our best model achieves $PQ$ 47.1 on 2019 COCO panoptic test-dev data.
翻訳日:2023-04-21 13:04:31 公開日:2023-04-20
# dropdim:トランスフォーマーネットワークのための正規化手法

DropDim: A Regularization Method for Transformer Networks ( http://arxiv.org/abs/2304.10321v1 )

ライセンス: Link先を確認
Hao Zhang, Dan Qu, Keji Shao, and Xukui Yang(参考訳) 本稿では,トランスフォーマーのキーコンポーネントであるセルフアテンション機構を定式化する構造的ドロップアウト方式dropdimを提案する。 ニューロンをランダムにドロップする一般的なドロップアウト法とは対照的に、DropDimは埋め込み次元の一部をドロップアウトする。 このように、意味情報を完全に破棄することができる。 このように、異なる埋め込み次元間の過剰な共役は破壊され、自己注意は特定の埋め込み次元を消去した意味のある特徴を符号化せざるを得ない。 MUST-C英語-ドイツ語データセット上で実行される幅広いタスクの実験により、DropDimはモデル性能を効果的に改善し、過剰適合を低減し、他の正規化手法と相補的な効果を示す。 ラベルの平滑化と組み合わせると、WERはASRタスクで19.1%から15.1%に減少し、BLEU値はMTタスクで26.90から28.38に増加する。 st タスクでは、モデルは bleu スコア 22.99 に達し、強力なベースラインと比較して 1.86 bleu ポイントが増加する。

We introduceDropDim, a structured dropout method designed for regularizing the self-attention mechanism, which is a key component of the transformer. In contrast to the general dropout method, which randomly drops neurons, DropDim drops part of the embedding dimensions. In this way, the semantic information can be completely discarded. Thus, the excessive coadapting between different embedding dimensions can be broken, and the self-attention is forced to encode meaningful featureswith a certain number of embedding dimensions erased. Experiments on a wide range of tasks executed on the MUST-C English-Germany dataset show that DropDim can effectively improve model performance, reduce over-fitting, and show complementary effects with other regularization methods. When combined with label smoothing, the WER can be reduced from 19.1% to 15.1% on the ASR task, and the BLEU value can be increased from26.90 to 28.38 on the MT task. On the ST task, the model can reach a BLEU score of 22.99, an increase by 1.86 BLEU points compared to the strong baseline.
翻訳日:2023-04-21 13:04:17 公開日:2023-04-20
# gansの適応コンセンサス最適化方法

Adaptive Consensus Optimization Method for GANs ( http://arxiv.org/abs/2304.10317v1 )

ライセンス: Link先を確認
Sachin Kumar Danisetty, Santhosh Reddy Mylaram, Pawan Kumar(参考訳) そこで本研究では,adam と rmsprop を用いた生成型逆ネットワークの学習のための2次勾配に基づく手法を提案する。 提案手法は, 顕著な2次法と比較して, 類似の精度を得るのが高速である。 最先端の手法とは異なり、線形系を解く必要はなく、あるいは追加の混合二次微分項も必要としない。 提案手法に対応する固定点反復法を導出し,提案手法が収束していることを示す。 提案手法は,最近提案された他の最先端2次手法と比較して,画像の質や質が向上している。 ADAMのような一階法と比較すると、開始スコアが大幅に向上する。 提案手法は, ffhq, lsun, cifar10, mnist, fashion mnistなどの一般的なデータセットを用いて, ijcnn 2023} で入力された画像生成タスクに対して比較検証を行う。 コード: \url{https://github.com/misterpawan/acom}

We propose a second order gradient based method with ADAM and RMSprop for the training of generative adversarial networks. The proposed method is fastest to obtain similar accuracy when compared to prominent second order methods. Unlike state-of-the-art recent methods, it does not require solving a linear system, or it does not require additional mixed second derivative terms. We derive the fixed point iteration corresponding to proposed method, and show that the proposed method is convergent. The proposed method produces better or comparable inception scores, and comparable quality of images compared to other recently proposed state-of-the-art second order methods. Compared to first order methods such as ADAM, it produces significantly better inception scores. The proposed method is compared and validated on popular datasets such as FFHQ, LSUN, CIFAR10, MNIST, and Fashion MNIST for image generation tasks\footnote{Accepted in IJCNN 2023}. Codes: \url{https://github.com/misterpawan/acom}
翻訳日:2023-04-21 13:03:56 公開日:2023-04-20
# Search-Map-Search: 行動認識のためのフレーム選択パラダイム

Search-Map-Search: A Frame Selection Paradigm for Action Recognition ( http://arxiv.org/abs/2304.10316v1 )

ライセンス: Link先を確認
Mingjun Zhao, Yakun Yu, Xiaoli Wang, Lei Yang and Di Niu(参考訳) ビデオ理解タスクにおけるディープラーニングの成功にもかかわらず、ビデオ内のすべてのフレームの処理は計算コストが高く、多くの場合、リアルタイムアプリケーションでは不要である。 フレーム選択は、最も情報的で代表的なフレームを抽出して、モデルがビデオコンテンツをよりよく理解できるようにする。 既存のフレーム選択手法では、フレーム毎の重要度予測に基づいて個別にフレームをサンプリングするか、フレーム間のインタラクションを考慮せずに強化学習エージェントを採用して、トレーニングにコストがかかり、潜在的な安定性の問題を引き起こす可能性がある。 既存の手法の限界を克服するために,ヒューリスティック検索と教師付き学習の利点を組み合わせた検索マップ探索学習パラダイムを提案し,ビデオから最適なフレームの組み合わせを1つのエンティティとして選択する。 検索と学習を組み合わせることで,提案手法は,低推論オーバーヘッドを伴いながら,フレーム間インタラクションをよりよく捉えることができる。 具体的には,まず,各学習映像上で階層的探索を行い,下流課題において最も誤差の少ないフレームの最適組み合わせを探索する手法を提案する。 その後、特徴マッピング関数が学習され、対象とする最適なフレームの組み合わせの表現にビデオのフレームをマッピングする。 推論中、未発見の動画上で別の検索を行い、特徴表現が投影された特徴表現に近いフレームの組み合わせを選択する。 複数のアクション認識ベンチマークに基づく広範囲な実験により、フレーム選択法がアクション認識モデルの性能を効果的に改善し、多くの競合ベースラインを上回ることを示した。

Despite the success of deep learning in video understanding tasks, processing every frame in a video is computationally expensive and often unnecessary in real-time applications. Frame selection aims to extract the most informative and representative frames to help a model better understand video content. Existing frame selection methods either individually sample frames based on per-frame importance prediction, without considering interaction among frames, or adopt reinforcement learning agents to find representative frames in succession, which are costly to train and may lead to potential stability issues. To overcome the limitations of existing methods, we propose a Search-Map-Search learning paradigm which combines the advantages of heuristic search and supervised learning to select the best combination of frames from a video as one entity. By combining search with learning, the proposed method can better capture frame interactions while incurring a low inference overhead. Specifically, we first propose a hierarchical search method conducted on each training video to search for the optimal combination of frames with the lowest error on the downstream task. A feature mapping function is then learned to map the frames of a video to the representation of its target optimal frame combination. During inference, another search is performed on an unseen video to select a combination of frames whose feature representation is close to the projected feature representation. Extensive experiments based on several action recognition benchmarks demonstrate that our frame selection method effectively improves performance of action recognition models, and significantly outperforms a number of competitive baselines.
翻訳日:2023-04-21 13:03:40 公開日:2023-04-20
# 自己教師と視覚的接地事前訓練による映画ボックスオフィス予測

Movie Box Office Prediction With Self-Supervised and Visually Grounded Pretraining ( http://arxiv.org/abs/2304.10311v1 )

ライセンス: Link先を確認
Qin Chao, Eunsoo Kim, Boyang Li(参考訳) 映画製作への投資は、映画収入が長期的かつ二モーダルな分布を持つため、高いリスクを伴う。 ボックスオフ収益の正確な予測は不確実性を緩和し、投資を促進する可能性がある。 しかし、アクター、ディレクター、ユーザー生成コンテンツ関連キーワードの効果的な表現を学習することは、依然として難しい問題である。 本研究では,自己指導型事前学習の効果について検討し,映画ポスターからのコンテンツキーワードの視覚的グラウンド化を提案する。 35,794本の映画からなる大規模なデータセットの実験は、自己監督型トレーニングと視覚的グラウンドティングの大きな利点を示している。 特に、視覚的グラウンドトレーニングは、コンテンツキーワードで映画を学ぶことを大幅に改善し、同じアーキテクチャで微調整されたBERTモデルと比較して14.5%の性能向上を達成した。

Investments in movie production are associated with a high level of risk as movie revenues have long-tailed and bimodal distributions. Accurate prediction of box-office revenue may mitigate the uncertainty and encourage investment. However, learning effective representations for actors, directors, and user-generated content-related keywords remains a challenging open problem. In this work, we investigate the effects of self-supervised pretraining and propose visual grounding of content keywords in objects from movie posters as a pertaining objective. Experiments on a large dataset of 35,794 movies demonstrate significant benefits of self-supervised training and visual grounding. In particular, visual grounding pretraining substantially improves learning on movies with content keywords and achieves 14.5% relative performance gains compared to a finetuned BERT model with identical architecture.
翻訳日:2023-04-21 13:03:16 公開日:2023-04-20
# la3: 効率的なラベル認識オートオーグメント

LA3: Efficient Label-Aware AutoAugment ( http://arxiv.org/abs/2304.10310v1 )

ライセンス: Link先を確認
Mingjun Zhao, Shan Lu, Zixuan Wang, Xiaoli Wang and Di Niu(参考訳) 自動拡張は、ディープニューラルネットワークトレーニングの一般化性を改善するために、データ拡張ポリシーを探索する新興かつ効果的な技術である。 既存の作業のほとんどは、サンプルやクラスの変更を考慮せずに、所定のデータセット内のすべてのデータサンプルに適用可能な統一ポリシーの構築に重点を置いている。 本稿では,ラベル情報を利用したラベル認識自動拡張(LA3)と呼ばれる新しい2段階データ拡張アルゴリズムを提案し,異なるラベルのサンプルに対して個別に拡張ポリシーを学習する。 la3は2つの学習段階から構成されており、第1段階では、ニューラルネットワークによって支援されるベイズ最適化によって、各ラベルに対して個々の拡張法を評価し、ランク付けする。 また,第2段階では,実効性の選択と相補性強化から複合強化ポリシーを構築し,優れた性能向上を実現し,典型的なモデルトレーニングに容易に展開することができる。 LA3 は CIFAR-10 と CIFAR-100 の既存の手法よりも優れた性能のマッチングを達成し,ResNet-50 では 79.97% の精度を達成し,計算コストの低減を図っている。

Automated augmentation is an emerging and effective technique to search for data augmentation policies to improve generalizability of deep neural network training. Most existing work focuses on constructing a unified policy applicable to all data samples in a given dataset, without considering sample or class variations. In this paper, we propose a novel two-stage data augmentation algorithm, named Label-Aware AutoAugment (LA3), which takes advantage of the label information, and learns augmentation policies separately for samples of different labels. LA3 consists of two learning stages, where in the first stage, individual augmentation methods are evaluated and ranked for each label via Bayesian Optimization aided by a neural predictor, which allows us to identify effective augmentation techniques for each label under a low search cost. And in the second stage, a composite augmentation policy is constructed out of a selection of effective as well as complementary augmentations, which produces significant performance boost and can be easily deployed in typical model training. Extensive experiments demonstrate that LA3 achieves excellent performance matching or surpassing existing methods on CIFAR-10 and CIFAR-100, and achieves a new state-of-the-art ImageNet accuracy of 79.97% on ResNet-50 among auto-augmentation methods, while maintaining a low computational cost.
翻訳日:2023-04-21 13:03:03 公開日:2023-04-20
# マルチエージェント強化学習における条件付き協調行動の解釈可能性

Interpretability for Conditional Coordinated Behavior in Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2304.10375v1 )

ライセンス: Link先を確認
Yoshinari Motokawa and Toshiharu Sugawara(参考訳) 本稿では,条件付き協調行動の解釈性を向上させるために,分散注意アクターアーキテクチャ (distributed attentional actor architecture after conditional attention, da6-x) というモデルフリー強化学習アーキテクチャを提案する。 基礎となる原理は、エージェントのグローバルな位置のような環境の条件状態を表すサリエンシベクトルを再利用することである。 したがって、DA6-Xの柔軟性を持つエージェントは、意思決定プロセス中に条件状態の付加情報を考慮し、優れた性能を示す。 オブジェクト収集ゲームにおいて,従来の手法と比較し,提案手法の有効性を実験的に評価した。 DA6-Xから注意重みを可視化することにより,様々な条件条件を正しく識別し,状況依存的な協調行動の学習に成功し,エージェントの解釈性の向上と性能の向上を実現した。

We propose a model-free reinforcement learning architecture, called distributed attentional actor architecture after conditional attention (DA6-X), to provide better interpretability of conditional coordinated behaviors. The underlying principle involves reusing the saliency vector, which represents the conditional states of the environment, such as the global position of agents. Hence, agents with DA6-X flexibility built into their policy exhibit superior performance by considering the additional information in the conditional states during the decision-making process. The effectiveness of the proposed method was experimentally evaluated by comparing it with conventional methods in an objects collection game. By visualizing the attention weights from DA6-X, we confirmed that agents successfully learn situation-dependent coordinated behaviors by correctly identifying various conditional states, leading to improved interpretability of agents along with superior performance.
翻訳日:2023-04-21 12:56:12 公開日:2023-04-20
# 完全パッシブ量子鍵分布の原理実証

Proof-of-Principle Demonstration of Fully-Passive Quantum Key Distribution ( http://arxiv.org/abs/2304.10374v1 )

ライセンス: Link先を確認
Chengqiu Hu, Wenyuan Wang, Kai-Sum Chan, Zhenghan Yuan, Hoi-Kwong Lo(参考訳) 最近の研究は、完全にパッシブな変調プロトコルのセキュリティを体系的に分析している。 そこで我々は,このゲインスイッチング手法とポストセレクション方式を併用して,7.2dB,11.6dB,16.7dBのチャネル損失を偏光符号化した完全受動量子鍵分布の実証・実証を行う。 偏光符号化システムにおける能動変調自由QKDの実現可能性を示す。

Recent research has systematically analyzed the security of a fully passive modulation protocol. Based on this, we utilize the gain-switching technique in combination with the post-selection scheme and perform a proof-of-principle demonstration of a fully passive quantum key distribution with polarization encoding at channel losses of 7.2 dB, 11.6 dB, and 16.7 dB. Our work demonstrates the feasibility of active-modulation-free QKD in polarization-encoded systems.
翻訳日:2023-04-21 12:55:55 公開日:2023-04-20
# 言語間関係抽出のためのPrompt-Learning

Prompt-Learning for Cross-Lingual Relation Extraction ( http://arxiv.org/abs/2304.10354v1 )

ライセンス: Link先を確認
Chiaming Hsu, Changtong Zan, Liang Ding, Longyue Wang, Xiaoting Wang, Weifeng Liu, Fu Lin, Wenbin Hu(参考訳) 関係抽出(RE)は、ある文内のエンティティ間の関係を予測する情報抽出において重要なタスクである。 しかし、特に言語間関係抽出(XRE)が必要な現実のシナリオでは、事前訓練されたREモデルを他の言語に拡張することは困難である。 多言語事前学習言語モデル(plm)から多様な下流タスクへ知識を移行するプロンプトラーニングの最近の進歩にもかかわらず、xreを改善するためのプロンプトによる多言語plmの有効利用に関する研究は限られている。 本稿では,Prompt-XREと呼ばれる,Prompt-Tuningに基づく新しいXREアルゴリズムを提案する。 本手法の有効性を評価するため,ハードプロンプト,ソフトプロンプト,ハイブリッドプロンプトなどいくつかのプロンプトテンプレートを設計,実装し,競合する多言語PLM(特にmBART)の性能を実証的に検証した。 複数の言語にわたる低リソースACE05ベンチマークで実施した大規模な実験により、我々のPrompt-XREアルゴリズムは、Vanilla multilingual PLMと他の既存モデルの両方よりも大幅に優れており、XREの最先端性能を実現していることが示された。 大規模データスケールにおけるPrompt-XREの一般化をさらに示すため、WMT 2017並列コーパスから抽出した0.9万の英漢ペアを含む新しいXREデータセットWMT17-EnZh XREを構築し、リリースする。 WMT17-EnZh XREの実験は、他の競争基盤線に対する我々のPrompt-XREの有効性を示す。 コードと新たに構築されたデータセットは、 \url{https://github.com/HSU-CHIA-MING/Prompt-XRE}で無料で利用できる。

Relation Extraction (RE) is a crucial task in Information Extraction, which entails predicting relationships between entities within a given sentence. However, extending pre-trained RE models to other languages is challenging, particularly in real-world scenarios where Cross-Lingual Relation Extraction (XRE) is required. Despite recent advancements in Prompt-Learning, which involves transferring knowledge from Multilingual Pre-trained Language Models (PLMs) to diverse downstream tasks, there is limited research on the effective use of multilingual PLMs with prompts to improve XRE. In this paper, we present a novel XRE algorithm based on Prompt-Tuning, referred to as Prompt-XRE. To evaluate its effectiveness, we design and implement several prompt templates, including hard, soft, and hybrid prompts, and empirically test their performance on competitive multilingual PLMs, specifically mBART. Our extensive experiments, conducted on the low-resource ACE05 benchmark across multiple languages, demonstrate that our Prompt-XRE algorithm significantly outperforms both vanilla multilingual PLMs and other existing models, achieving state-of-the-art performance in XRE. To further show the generalization of our Prompt-XRE on larger data scales, we construct and release a new XRE dataset- WMT17-EnZh XRE, containing 0.9M English-Chinese pairs extracted from WMT 2017 parallel corpus. Experiments on WMT17-EnZh XRE also show the effectiveness of our Prompt-XRE against other competitive baselines. The code and newly constructed dataset are freely available at \url{https://github.com/HSU-CHIA-MING/Prompt-XRE}.
翻訳日:2023-04-21 12:55:46 公開日:2023-04-20
# チュートリアル:量子アニールにおける校正の洗練

Tutorial: Calibration refinement in quantum annealing ( http://arxiv.org/abs/2304.10352v1 )

ライセンス: Link先を確認
Kevin Chern, Kelly Boothby, Jack Raymond, Pau Farr\'e, and Andrew D. King(参考訳) 量子アニールは古典的および量子イジングモデルをシミュレートし最適化するための強力なプラットフォームとして登場した。 他の量子および/またはアナログコンピューティングデバイスと同様に、量子アニールはクロストーク、デバイス変動、環境騒音などの非理想性に影響を受けやすい。 キャリブレーションの改良や「シミング」によるこれらの効果の補正は、性能を著しく向上させるが、しばしば解決される問題と量子アニール器自体の両方において対称性を利用するアドホックな手法に依存する。 このチュートリアルでは、これらのメソッドのデミスティフィケーションを試みる。 本稿では,Isingモデルで活用可能な対称性を見つける方法を紹介し,これらの対称性を用いて不必要なバイアスを抑える方法について論じる。 複雑さの増大の例をいくつか取り上げ、完全なPythonコードを提供しています。 キュービット接続グラフにおける小部分グラフのコピーの発見と一般化グラフ自己同型によるイジングモデルの対称性の自動発見という,2つの重要なタスクに対する自動手法を含む。 コードはhttps://github.com/dwavesystems/shimming-tutorialで入手できる。

Quantum annealing has emerged as a powerful platform for simulating and optimizing classical and quantum Ising models. Quantum annealers, like other quantum and/or analog computing devices, are susceptible to nonidealities including crosstalk, device variation, and environmental noise. Compensating for these effects through calibration refinement or "shimming" can significantly improve performance, but often relies on ad-hoc methods that exploit symmetries in both the problem being solved and the quantum annealer itself. In this tutorial we attempt to demystify these methods. We introduce methods for finding exploitable symmetries in Ising models, and discuss how to use these symmetries to suppress unwanted bias. We work through several examples of increasing complexity, and provide complete Python code. We include automated methods for two important tasks: finding copies of small subgraphs in the qubit connectivity graph, and automatically finding symmetries of an Ising model via generalized graph automorphism. Code is available at https://github.com/dwavesystems/shimming-tutorial.
翻訳日:2023-04-21 12:55:15 公開日:2023-04-20
# 多エージェント強化学習における時空間的逐次意思決定によるstackelberg平衡誘導

Inducing Stackelberg Equilibrium through Spatio-Temporal Sequential Decision-Making in Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2304.10351v1 )

ライセンス: Link先を確認
Bin Zhang, Lijuan Li, Zhiwei Xu, Dapeng Li and Guoliang Fan(参考訳) マルチエージェント強化学習(marl)では、自己関心エージェントは均衡を確立し、ゲーム構造に応じて協調を図る。 しかしながら、既存のmarlアプローチは、主にマルコフゲーム(mg)フレームワークにおける全てのエージェントの同時アクションに縛られ、非同期アクションコーディネーションによる均衡戦略の形成を考える作品はほとんどない。 ナッシュ均衡に対するスタックルバーグ均衡(SE)の利点を考慮すると、MGから導かれる時空間的逐次決定構造を構築し、全てのエージェントが共有する条件付きハイパーネットワークに基づくNレベル政策モデルを提案する。 このアプローチは対称的実行を伴う非対称なトレーニングを可能にし、各エージェントは、上位エージェントによる決定に最適な条件で応答する。 エージェントはパラメータ共有を維持しながら異種なseポリシーを学習できるため、学習とストレージのコストが削減され、エージェントの数が増えるにつれてスケーラビリティが向上する。 実験により,提案手法は繰り返し行列ゲームシナリオにおいてSEポリシーに効果的に収束し,協調タスクや混合タスクを含む極めて複雑な設定で良好に機能することが示された。

In multi-agent reinforcement learning (MARL), self-interested agents attempt to establish equilibrium and achieve coordination depending on game structure. However, existing MARL approaches are mostly bound by the simultaneous actions of all agents in the Markov game (MG) framework, and few works consider the formation of equilibrium strategies via asynchronous action coordination. In view of the advantages of Stackelberg equilibrium (SE) over Nash equilibrium, we construct a spatio-temporal sequential decision-making structure derived from the MG and propose an N-level policy model based on a conditional hypernetwork shared by all agents. This approach allows for asymmetric training with symmetric execution, with each agent responding optimally conditioned on the decisions made by superior agents. Agents can learn heterogeneous SE policies while still maintaining parameter sharing, which leads to reduced cost for learning and storage and enhanced scalability as the number of agents increases. Experiments demonstrate that our method effectively converges to the SE policies in repeated matrix game scenarios, and performs admirably in immensely complex settings including cooperative tasks and mixed tasks.
翻訳日:2023-04-21 12:54:58 公開日:2023-04-20
# 機械系に特有の非エルミート潜在対称性によって保護される安定な例外鎖の実験的実現

Experimental realization of stable exceptional chains protected by non-Hermitian latent symmetries unique to mechanical systems ( http://arxiv.org/abs/2304.10347v1 )

ライセンス: Link先を確認
Xiaohan Cui, Ruo-Yang Zhang, Xulong Wang, Wei Wang, Guancong Ma, C.T. Chan(参考訳) 例外点の直線は対称性を必要としない三次元非エルミートパラメータ空間において堅牢である。 しかし、より精巧な例外構造を考えると、対称性の役割は批判的になる。 そのような場合の1つは例外連鎖 (EC) であり、これは複数の例外線 (EL) の交叉または浸透によって形成される。 本研究では,非エルミート古典力学系を考察し,二次力学方程式に内在する対称性が,elsの源のない原理と組み合わせてecsの出現を保証できることを明らかにする。 この対称性は、一階schr\"odinger-like方程式に根ざした一般的な形式論には存在しない非エルミート一般化潜在対称性として理解することができ、これまでほとんど見過ごされてきた。 アクティブ・メカニカル・オシレータ・システムを用いてECを実験的に確認し特徴付ける。 さらに,連鎖点におけるELs集合の固有値ブレイディングを測定することで,EC形成機構の根底をなす指向ELsのソースフリー原理を実証する。 我々の研究は非エルミート退化の多様性を豊かにするだけでなく、二階力学系における非エルミート物理学の新たな可能性も強調する。

Lines of exceptional points are robust in the 3-dimensional non-Hermitian parameter space without requiring any symmetry. However, when more elaborate exceptional structures are considered, the role of symmetry becomes critical. One such case is the exceptional chain (EC), which is formed by the intersection or osculation of multiple exceptional lines (ELs). In this study, we investigate a non-Hermitian classical mechanical system and reveal that a symmetry intrinsic to second-order dynamical equations, in combination with the source-free principle of ELs, guarantees the emergence of ECs. This symmetry can be understood as a non-Hermitian generalized latent symmetry, which is absent in prevailing formalisms rooted in first-order Schr\"odinger-like equations and has largely been overlooked so far. We experimentally confirm and characterize the ECs using an active mechanical oscillator system. Moreover, by measuring eigenvalue braiding around the ELs meeting at a chain point, we demonstrate the source-free principle of directed ELs that underlies the mechanism for EC formation. Our work not only enriches the diversity of non-Hermitian degeneracies, but also highlights the new potential for non-Hermitian physics in second-order dynamical systems.
翻訳日:2023-04-21 12:54:37 公開日:2023-04-20
# 高次元における介入的探傷:nli例

Interventional Probing in High Dimensions: An NLI Case Study ( http://arxiv.org/abs/2304.10346v1 )

ライセンス: Link先を確認
Julia Rozanova, Marco Valentino, Lucas Cordeiro, Andre Freitas(参考訳) 特に、自然言語推論タスク(NLI)の「自然な論理」の断片と中間的な意味的特徴である。 自然論理の場合には、中間的特徴と包含ラベルの関係は明確に知られている:このように、これはnliモデルの表現に関する介入研究の熟成条件を提供し、より強い因果的予想と介入的探索法のより深い批判的分析を可能にする。 本研究では,これらの意味的特徴がnli分類に与える影響を調べるために,新たに既存の表現レベルの介入を行い,アムネティック・プロビング(学習線形プローブによる特徴の除去)を行い,mnestic probing変遷(プローブ選択されたものを除くすべての次元を無視する)を導入する。 さらに,これらの方法の限界を考察し,介入的探索研究の効果を損なういくつかの落とし穴を概説する。

Probing strategies have been shown to detect the presence of various linguistic features in large language models; in particular, semantic features intermediate to the "natural logic" fragment of the Natural Language Inference task (NLI). In the case of natural logic, the relation between the intermediate features and the entailment label is explicitly known: as such, this provides a ripe setting for interventional studies on the NLI models' representations, allowing for stronger causal conjectures and a deeper critical analysis of interventional probing methods. In this work, we carry out new and existing representation-level interventions to investigate the effect of these semantic features on NLI classification: we perform amnesic probing (which removes features as directed by learned linear probes) and introduce the mnestic probing variation (which forgets all dimensions except the probe-selected ones). Furthermore, we delve into the limitations of these methods and outline some pitfalls have been obscuring the effectivity of interventional probing studies.
翻訳日:2023-04-21 12:54:16 公開日:2023-04-20
# DocMAE:自己教師型表現学習による文書化

DocMAE: Document Image Rectification via Self-supervised Representation Learning ( http://arxiv.org/abs/2304.10341v1 )

ライセンス: Link先を確認
Shaokai Liu, Hao Feng, Wengang Zhou, Houqiang Li, Cong Liu, Feng Wu(参考訳) 文書画像の修正に多大な努力が払われているが、そのような歪んだ画像の効果的な表現をいかに学ぶかはまだ未定である。 本稿では,文書画像修正のための新しい自己教師型フレームワークDocMAEを提案する。 私たちのモチベーションは、マスク付きオートエンコーダを利用して文書画像の構造的手がかり、すなわち文書境界とテキスト行をエンコードすることにあります。 具体的には、背景を除いた文書画像のランダムなパッチをマスクし、失明したピクセルを再構成する。 このような自己指導型学習手法により、文書境界の復元とテキスト行の欠如により、変形文書の本質的な構造を学習することが奨励される。 下流修正作業における転送性能は,本手法の有効性を検証する。 本手法の有効性を示すために広範な実験を行った。

Tremendous efforts have been made on document image rectification, but how to learn effective representation of such distorted images is still under-explored. In this paper, we present DocMAE, a novel self-supervised framework for document image rectification. Our motivation is to encode the structural cues in document images by leveraging masked autoencoder to benefit the rectification, i.e., the document boundaries, and text lines. Specifically, we first mask random patches of the background-excluded document images and then reconstruct the missing pixels. With such a self-supervised learning approach, the network is encouraged to learn the intrinsic structure of deformed documents by restoring document boundaries and missing text lines. Transfer performance in the downstream rectification task validates the effectiveness of our method. Extensive experiments are conducted to demonstrate the effectiveness of our method.
翻訳日:2023-04-21 12:53:59 公開日:2023-04-20
# ニューラルネットワークを用いた原子炉コアパラメータの進化予測

Prediction of the evolution of the nuclear reactor core parameters using artificial neural network ( http://arxiv.org/abs/2304.10337v1 )

ライセンス: Link先を確認
Krzysztof Palmi, Wojciech Kubinski, Piotr Darnowski(参考訳) MIT BEAVRSベンチマークに基づく原子炉は、典型的な発電用加圧水炉(PWR)として使用された。 PARCS v3.2 Nodal-diffusionコアシミュレータは、原子炉の動作をエミュレートし、ANNのトレーニングと検証データを生成するためにフルコアの原子炉物理学ソルバとして使用された。 ANNは、GoogleのTensorFlow 2.0ライブラリで専用のPython 3.8コードで実装された。 この取り組みは、後にANNの開発プロセスで使用されたPARCSシミュレータによって生成されたデータの適切な自動変換プロセスに基づいていた。 ネットワークの隠蔽層におけるニューロンの最適な数を見つけるために異なるANNアーキテクチャを試すなど、ANN予測結果の精度向上を可能にする様々な手法が研究された。 結果は後に文献で提案された建築と比較された。 選択した最良のアーキテクチャ予測は、異なるコアパラメータとコアローディングパターンに依存することに対して行われた。 本研究では, プラントの経済活動の目標の一つとして考えられるように, 所定のコア負荷パターンに対する燃料サイクル長の予測に特に焦点をあてた。 例えば、初期コアローディングパターンに依存する単一燃料サイクルの長さは、非常に正確な精度(>99%)で予測された。 この研究は、原子炉設計問題の解決におけるニューラルネットワークの有用性の探求に寄与する。 ANNの適用により、デザイナは過剰なコアシミュレータの実行を回避し、より詳細な設計検討を行う前に、可能なソリューションの空間をより迅速に探索することができる。

A nuclear reactor based on MIT BEAVRS benchmark was used as a typical power generating Pressurized Water Reactor (PWR). The PARCS v3.2 nodal-diffusion core simulator was used as a full-core reactor physics solver to emulate the operation of a reactor and to generate training, and validation data for the ANN. The ANN was implemented with dedicated Python 3.8 code with Google's TensorFlow 2.0 library. The effort was based to a large extent on the process of appropriate automatic transformation of data generated by PARCS simulator, which was later used in the process of the ANN development. Various methods that allow obtaining better accuracy of the ANN predicted results were studied, such as trying different ANN architectures to find the optimal number of neurons in the hidden layers of the network. Results were later compared with the architectures proposed in the literature. For the selected best architecture predictions were made for different core parameters and their dependence on core loading patterns. In this study, a special focus was put on the prediction of the fuel cycle length for a given core loading pattern, as it can be considered one of the targets for plant economic operation. For instance, the length of a single fuel cycle depending on the initial core loading pattern was predicted with very good accuracy (>99%). This work contributes to the exploration of the usefulness of neural networks in solving nuclear reactor design problems. Thanks to the application of ANN, designers can avoid using an excessive amount of core simulator runs and more rapidly explore the space of possible solutions before performing more detailed design considerations.
翻訳日:2023-04-21 12:53:44 公開日:2023-04-20
# 制御可能な神経シンボリックレグレッション

Controllable Neural Symbolic Regression ( http://arxiv.org/abs/2304.10336v1 )

ライセンス: Link先を確認
Tommaso Bendinelli, Luca Biggio, Pierre-Alexandre Kamienny(参考訳) 記号回帰において、目標は、演算子、変数、定数などの数学的記号の最小使用で実験データに正確に適合する解析式を見つけることである。 しかし、可能な表現の組合せ空間は、従来の進化的アルゴリズムが妥当な時間内に正しい表現を見つけるのを難しくする可能性がある。 この問題に対処するために、データのパターンを素早く識別し、分析式を生成するニューラルシンボリック回帰(NSR)アルゴリズムが開発された。 しかし、これらの手法は、現在の形式では、自然科学や工学の分野でしばしば必要とされる、ユーザ定義の事前知識を組み込む能力に欠ける。 この制限を克服するために,ニューラルシンボリック回帰仮説 (Neural Symbolic Regression with hypothesis, NSRwH) と呼ばれる新しいニューラルシンボリック回帰法を提案する。 提案する条件付き深層学習モデルは, 予測された表現構造を制御しつつ, 精度の面で非条件付き学習モデルよりも優れていることを示す。

In symbolic regression, the goal is to find an analytical expression that accurately fits experimental data with the minimal use of mathematical symbols such as operators, variables, and constants. However, the combinatorial space of possible expressions can make it challenging for traditional evolutionary algorithms to find the correct expression in a reasonable amount of time. To address this issue, Neural Symbolic Regression (NSR) algorithms have been developed that can quickly identify patterns in the data and generate analytical expressions. However, these methods, in their current form, lack the capability to incorporate user-defined prior knowledge, which is often required in natural sciences and engineering fields. To overcome this limitation, we propose a novel neural symbolic regression method, named Neural Symbolic Regression with Hypothesis (NSRwH) that enables the explicit incorporation of assumptions about the expected structure of the ground-truth expression into the prediction process. Our experiments demonstrate that the proposed conditioned deep learning model outperforms its unconditioned counterparts in terms of accuracy while also providing control over the predicted expression structure.
翻訳日:2023-04-21 12:53:21 公開日:2023-04-20
# LiDAR-NeRF:ニューラルネットワークによる新しいLiDARビュー合成

LiDAR-NeRF: Novel LiDAR View Synthesis via Neural Radiance Fields ( http://arxiv.org/abs/2304.10406v1 )

ライセンス: Link先を確認
Tang Tao, Longfei Gao, Guangrun Wang, Peng Chen, Dayang Hao, Xiaodan Liang, Mathieu Salzmann, Kaicheng Yu(参考訳) 我々は,新しいタスクであるlidarセンサのビュー合成を提案する。 スタイルトランスファーニューラルネットワークを備えた従来のモデルベースのLiDARシミュレータは、新しいビューのレンダリングに応用できるが、ゲームエンジンに頼っているレンダラーが差別化できないため、正確で現実的なLiDARパターンの生成に不足している。 我々は、私たちの知る限り、最初の微分可能なLiDARレンダラーを定式化し、ニューラル放射場(NeRF)を利用して3Dポイントの幾何学と属性を共同学習できるエンドツーエンドフレームワークLiDAR-NeRFを提案する。 提案手法の有効性を評価するため,NeRF-MVLと呼ばれるオブジェクト中心の多視点LiDARデータセットを構築した。 それは、複数のLiDARセンサーで捉えた360度視点から見る9つのカテゴリの物体の観測を含んでいる。 シーンレベルのKITTI-360データセットおよびオブジェクトレベルのNeRF-MVLに関する広範な実験により、我々のLiDAR-NeRFがモデルベースアルゴリズムを大幅に上回っていることが示された。

We introduce a new task, novel view synthesis for LiDAR sensors. While traditional model-based LiDAR simulators with style-transfer neural networks can be applied to render novel views, they fall short in producing accurate and realistic LiDAR patterns, because the renderers they rely on exploit game engines, which are not differentiable. We address this by formulating, to the best of our knowledge, the first differentiable LiDAR renderer, and propose an end-to-end framework, LiDAR-NeRF, leveraging a neural radiance field (NeRF) to enable jointly learning the geometry and the attributes of 3D points. To evaluate the effectiveness of our approach, we establish an object-centric multi-view LiDAR dataset, dubbed NeRF-MVL. It contains observations of objects from 9 categories seen from 360-degree viewpoints captured with multiple LiDAR sensors. Our extensive experiments on the scene-level KITTI-360 dataset, and on our object-level NeRF-MVL show that our LiDAR- NeRF surpasses the model-based algorithms significantly.
翻訳日:2023-04-21 12:47:19 公開日:2023-04-20
# 準高調波準電荷超伝導量子ビットのBlochnium

The quartic Blochnium: an anharmonic quasicharge superconducting qubit ( http://arxiv.org/abs/2304.10401v1 )

ライセンス: Link先を確認
Luca Chirolli, Matteo Carrega, Francesco Giazotto(参考訳) 準電荷超伝導量子ビットはトランスモンの双対を実現し、ジョセフソン接合上に閉じた非常に大きなインダクタンスにより、フラックスや電荷の変動に対して強い堅牢性を示す。 同時に、スペクトルの弱いアンハーモニック性が親トランスモンから受け継がれ、リークエラーが発生し、マルチキュービットのセットアップでは周波数の混雑が発生しやすい。 本稿では、クォート超インダクタを用いた新しい設計を提案し、スペクトルに十分な不調和性を与える。 クォート状態はジョセフソン接合ループの適切に設計された連鎖によって達成され、外部フラックスに深刻な依存を伴わずに強い量子ゆらぎを避ける。

The quasicharge superconducting qubit realizes the dual of the transmon and shows strong robustness to flux and charge fluctuations thanks to a very large inductance closed on a Josephson junction. At the same time, a weak anharmonicity of the spectrum is inherited from the parent transmon, that introduces leakage errors and is prone to frequency crowding in multi-qubit setups. We propose a novel design that employs a quartic superinductor and confers a good degree of anharmonicity to the spectrum. The quartic regime is achieved through a properly designed chain of Josephson junction loops that avoids strong quantum fluctuations without introducing a severe dependence on the external flux.
翻訳日:2023-04-21 12:46:58 公開日:2023-04-20
# グラフ構造データに基づくマルチラベルノード分類

Multi-label Node Classification On Graph-Structured Data ( http://arxiv.org/abs/2304.10398v1 )

ライセンス: Link先を確認
Tianqi Zhao, Ngan Thi Dong, Alan Hanjalic, Megha Khosla(参考訳) グラフニューラルネットワーク(GNN)は、グラフ上のノード分類タスクの最先端の改善を示している。 これらの改善は、多クラス分類シナリオで大きく実証されているが、各ノードが複数のラベルを持つことができるより一般的で現実的なシナリオは、これまでほとんど注目されなかった。 マルチラベルノード分類に焦点をあてる最初の課題は、公開されているマルチラベルグラフデータセットの限られた数である。 したがって、最初の貢献として、3つの実世界の生物学的データセットを収集し、リリースし、チューニング可能なプロパティを持つデータセットを生成するマルチラベルグラフジェネレータを開発しました。 高いラベル類似性(高いホモフィリー)は通常、GNNの成功によるものであるが、我々は、マルチラベルシナリオは、これまでマルチクラスシナリオで定義されたホモフィリーとヘテロフィリーの通常の意味論に従わないと論じる。 第2の貢献として,マルチラベルシナリオのホモフィリを定義することに加えて,特徴量とラベル相関情報を動的に融合してラベル変形表現を学習する新しいアプローチを開発した。 最後に、我々は10ドルのメソッドと9ドルのデータセットで大規模な比較研究を行い、このアプローチの有効性も示しています。 ベンチマークは \url{https://anonymous.4open.science/r/LFLF-5D8C/} で公開しています。

Graph Neural Networks (GNNs) have shown state-of-the-art improvements in node classification tasks on graphs. While these improvements have been largely demonstrated in a multi-class classification scenario, a more general and realistic scenario in which each node could have multiple labels has so far received little attention. The first challenge in conducting focused studies on multi-label node classification is the limited number of publicly available multi-label graph datasets. Therefore, as our first contribution, we collect and release three real-world biological datasets and develop a multi-label graph generator to generate datasets with tunable properties. While high label similarity (high homophily) is usually attributed to the success of GNNs, we argue that a multi-label scenario does not follow the usual semantics of homophily and heterophily so far defined for a multi-class scenario. As our second contribution, besides defining homophily for the multi-label scenario, we develop a new approach that dynamically fuses the feature and label correlation information to learn label-informed representations. Finally, we perform a large-scale comparative study with $10$ methods and $9$ datasets which also showcase the effectiveness of our approach. We release our benchmark at \url{https://anonymous.4open.science/r/LFLF-5D8C/}.
翻訳日:2023-04-21 12:46:46 公開日:2023-04-20
# CKBP v2:Commonsense Knowledge Base Populationのエキスパートアノテーション評価セット

CKBP v2: An Expert-Annotated Evaluation Set for Commonsense Knowledge Base Population ( http://arxiv.org/abs/2304.10392v1 )

ライセンス: Link先を確認
Tianqing Fang, Quyet V. Do, Sehyun Choi, Weiqi Wang, Yangqiu Song(参考訳) CSKB(Populating Commonsense Knowledge Bases)は、NLPにおいて重要かつ困難なタスクであり、未知のイベントやエンティティを持つ外部ソースからの知識に対処する。 Fang et al. (2021a) は CKBP v1 の評価セットを持つ CSKB Population ベンチマークを提案した。 しかし、CKBP v1では、誤答のかなりの割合に苦しむクラウドソースアノテーションを採用しており、ランダムサンプリングの結果、評価セットは外部知識ソースとうまく一致していない。 本稿では,クラウドソースのアノテーションを使わずに専門家を雇い,評価セットをより代表的にするために,多種多様な敵のサンプルを追加することで,上記2つの問題に対処した,高品質なcskb人口ベンチマークであるckbp v2を紹介する。 我々は,CSKB集団の最先端手法を今後の研究比較のための新しい評価セットで比較する広範囲な実験を行った。 実験の結果,ChatGPT のような大規模言語モデル (LLM) においても,人口タスクは依然として困難であることがわかった。 コードとデータはhttps://github.com/HKUST-KnowComp/CSKB-Populationで公開されている。

Populating Commonsense Knowledge Bases (CSKB) is an important yet hard task in NLP, as it tackles knowledge from external sources with unseen events and entities. Fang et al. (2021a) proposed a CSKB Population benchmark with an evaluation set CKBP v1. However, CKBP v1 adopts crowdsourced annotations that suffer from a substantial fraction of incorrect answers, and the evaluation set is not well-aligned with the external knowledge source as a result of random sampling. In this paper, we introduce CKBP v2, a new high-quality CSKB Population benchmark, which addresses the two mentioned problems by using experts instead of crowd-sourced annotation and by adding diversified adversarial samples to make the evaluation set more representative. We conduct extensive experiments comparing state-of-the-art methods for CSKB Population on the new evaluation set for future research comparisons. Empirical results show that the population task is still challenging, even for large language models (LLM) such as ChatGPT. Codes and data are available at https://github.com/HKUST-KnowComp/CSKB-Population.
翻訳日:2023-04-21 12:46:25 公開日:2023-04-20
# 分割弦とホログラフィック絡みエントロピー

Segmented strings and holographic entanglement entropy ( http://arxiv.org/abs/2304.10389v1 )

ライセンス: Link先を確認
Bercel Boldis, P\'eter L\'evay(参考訳) 本稿では,真空状態から計算したミンコフスキー時空${\mathbb r}^{d-1,1}$ における,ads_{d+1}$ 背景に伝播するセグメント文字列とcft_d$ サブシステムのホログラフィック絡み合いエントロピーとの接続を確立する。 本稿では,$AdS$側において適切な単位で測定された文字列セグメントのワールドシート面積を,$d$の場合,$CFT$側のエンタングルメントエントロピーの特定の組み合わせに接続可能であることを示す。 特別な場合、$AdS_3$ に対して、この組み合わせはちょうど共変ホログラフィックエンタングルメントエントロピーの提案に対する強い部分加法性の証明に現れるものであることを証明する。 より正確には、4gl$(g$はニュートン定数、$l$はads$長さ)の単位の分割されたストリング領域は、ブーストされた空間的な間隔である$a$,$b$と$c$から生じる台座状配置で計算された条件付き相互情報$i(a,c\vert b)$である。 このような構成の因果ダイヤモンドは、ストリングワールドシートをホログラム的に一意に再構成するための情報を符号化する。 この再建に関わる因果ダイヤモンドの4つの特別な点(2つの交差するダイヤモンドの未来と過去の先端に対応する)が特異な性質を持つことを証明している。 それらは、加速された慣性フレームまたは一定加速度で進行する非慣性フレーム、すなわち双曲運動を示す、因果的に順序付けられた連続した事象の集合を表す。 このようなフレームの加速度は、対応する文字列セグメントのワールドシートの正規ベクトルと関連している。 また, 離散化ナムブ・ゴト作用の変動は, トーダ方程式の形の境界理論における絡み合いエントロピーの方程式を導くことを示した。

In this paper we establish a connection between segmented strings propagating in an $AdS_{d+1}$ background and the holographic entanglement entropies of $CFT_d$ subsystems in Minkowski spacetime ${\mathbb R}^{d-1,1}$, calculated for the vacuum state. We show that the area of the world sheet of a string segment measured in appropriate units on the $AdS$ side can be connected to certain combinations of entanglement entropies on the $CFT$ side if $d$ is even. For the special case of $AdS_3$ we prove that this combination is precisely the one showing up in proofs of strong subadditivity for the covariant holographic entanglement entropy proposal. More precisely: the segmented stringy area in units of $4GL$ ($G$ is Newton's constant and $L$ is the $AdS$ length) is just the conditional mutual information $I(A,C\vert B)$ calculated for a trapezoid configuration arising from boosted spacelike intervals $A$,$B$ and $C$. The causal diamonds of such a configuration encode information for a unique reconstruction of the string world sheet in a holographic manner. We prove that the four special points of the causal diamonds involved in this reconstruction (corresponding to the future and past tips of two intersecting diamonds) have a peculiar property. They are representing a causally ordered set of consecutive events in boosted inertial frames or in noninertial ones proceeding with constant acceleration, i.e. exhibiting hyperbolic motion. The acceleration of such frames is related to the normal vector of the world sheet of the corresponding string segment. It is also shown that the variation of the discretized Nambu-Goto action leads to an equation for entanglement entropies in the boundary theory of the form of a Toda equation.
翻訳日:2023-04-21 12:46:06 公開日:2023-04-20
# 深層学習を用いた乳癌検出

Breast cancer detection using deep learning ( http://arxiv.org/abs/2304.10386v1 )

ライセンス: Link先を確認
Gayathri Girish, Ponnathota Spandana, Badrish Vasu(参考訳) 目的:本論文は,マイクロ波イメージング画像の再構成画像から乳がん検出の深層学習モデルを提案し,乳がん診断と治療に大きな影響を及ぼす可能性のある乳がん検出の精度と効率を向上させることを目的とする。 方法: このフレームワークは特徴抽出のための異なる畳み込みニューラルネットワーク(CNN)アーキテクチャと腫瘍検出のための領域ベースCNNから構成される。 DenseNet201、ResNet50、InceptionV3、InceptionResNetV3、MobileNetV2、NASNetMobile、NASNetLargeの7つの異なるアーキテクチャを使用します。 MRI由来の乳房ファントムのデータセットを用いた。 結果:NASNetLargeは、88.41%、27.82%の精度でCNNモデルに使用できる最高のアーキテクチャである。 モデルのAUCが0.786であることを考えると、現在の形式での使用に適していると結論付けることができる。 影響:女性における主な死因の1つは乳癌であり、早期診断は患者の治療効果を高める上で不可欠である。 非侵襲性と高分解能画像を生成する能力のため、マイクロ波イメージングは乳がん検診の潜在的なツールである。 腫瘍の複雑さにより、マイクロ波画像において適切な検出が困難になる。 この研究の結果、深層学習はマイクロ波画像における乳癌検出に多くの可能性を秘めていることが示された。

Objective: This paper proposes a deep learning model for breast cancer detection from reconstructed images of microwave imaging scan data and aims to improve the accuracy and efficiency of breast tumor detection, which could have a significant impact on breast cancer diagnosis and treatment. Methods: Our framework consists of different convolutional neural network (CNN) architectures for feature extraction and a region-based CNN for tumor detection. We use 7 different architectures: DenseNet201, ResNet50, InceptionV3, InceptionResNetV3, MobileNetV2, NASNetMobile and NASNetLarge and compare its performance to find the best architecture out of the seven. An experimental dataset of MRI-derived breast phantoms was used. Results: NASNetLarge is the best architecture which can be used for the CNN model with accuracy of 88.41% and loss of 27.82%. Given that the model's AUC is 0.786, it can be concluded that it is suitable for use in its present form, while it could be improved upon and trained on other datasets that are comparable. Impact: One of the main causes of death in women is breast cancer, and early identification is essential for enhancing the results for patients. Due to its non-invasiveness and capacity to produce high-resolution images, microwave imaging is a potential tool for breast cancer screening. The complexity of tumors makes it difficult to adequately detect them in microwave images. The results of this research show that deep learning has a lot of potential for breast cancer detection in microwave images
翻訳日:2023-04-21 12:45:34 公開日:2023-04-20
# 双線形リスク関数評価における二次量子スピードアップ

Quadratic quantum speedup in evaluating bilinear risk functions ( http://arxiv.org/abs/2304.10385v1 )

ライセンス: Link先を確認
Quadratic quantum speedup in evaluating bilinear risk functions Gabriele Agliardi, Corey O'Meara, Kavitha Yogaraj, Kumar Ghosh, Piergiacomo Sabino, Marina Fern\'andez-Campoamor, Giorgio Cortiana, Juan Bernab\'e-Moreno, Francesco Tacchino, Antonio Mezzacapo, and Omar Shehab(参考訳) 多重線型形式上の非線形関数の計算は、リスク解析の応用における一般的な問題である。 例えば、エネルギー経済学の分野では、数百万のシナリオを効率的にシミュレーションするための正確でタイムリーなリスク管理が要求される。 非線形関数の多項式近似に基づく新しいハイブリッド量子古典アルゴリズムを開発し,実装の相違点の比較を行った。 入力データセットに効率的なローディングユニタリがある場合、形式が双線型で近似多項式が第二次であるとき、多対数因子まで、二次量子速度アップが証明される。 また,回路の深さと幅のバランスを調整できる双方向符号化も強化し,内部積の計算に活用可能な改良版を提案する。 最後に、最近IBMの量子デバイスに導入された動的回路機能を利用して、量子アダマール製品回路の平均深度を下げる。 原理の証明はIBM Quantumシステム上で実装され、検証される。

Computing nonlinear functions over multilinear forms is a general problem with applications in risk analysis. For instance in the domain of energy economics, accurate and timely risk management demands for efficient simulation of millions of scenarios, largely benefiting from computational speedups. We develop a novel hybrid quantum-classical algorithm based on polynomial approximation of nonlinear functions and compare different implementation variants. We prove a quadratic quantum speedup, up to polylogarithmic factors, when forms are bilinear and approximating polynomials have second degree, if efficient loading unitaries are available for the input data sets. We also enhance the bidirectional encoding, that allows tuning the balance between circuit depth and width, proposing an improved version that can be exploited for the calculation of inner products. Lastly, we exploit the dynamic circuit capabilities, recently introduced on IBM Quantum devices, to reduce the average depth of the Quantum Hadamard Product circuit. A proof of principle is implemented and validated on IBM Quantum systems.
翻訳日:2023-04-21 12:45:09 公開日:2023-04-20
# ステロイドのpdl : 交叉と逆を伴うpdlの表現的拡張について

PDL on Steroids: on Expressive Extensions of PDL with Intersection and Converse ( http://arxiv.org/abs/2304.10381v1 )

ライセンス: Link先を確認
Diego Figueira, Santiago Figueira, Edwin Pin(参考訳) 本稿では,PDL(Propositional Dynamic Logic)に根ざした表現論理群であるCPDL+を紹介する。 表現力の面では、CPDL+ は交叉と逆(ICPDL)で拡張された PDL を厳密に含み、また Conjunctive Queries (CQ)、 Conjunctive Regular Path Queries (CRPQ)、あるいはその既知の拡張 (Regular Queries と CQPDL) も含む。 CPDL+の表現力, バイシミュレーション特性, 満足度, モデル検査について検討した。 我々は、cpdl+ の自然な部分クラスは、式の基礎となるグラフのツリー幅によって定義できると主張する。 その結果,木幅2のcpdl+式はicpdlと同値であり,木幅1のcpdl+式とも一致することがわかった。 しかし、木幅2を超えると、木幅の増加は表現力を増加させる。 固定木幅公式のクラスごとの表現力は小石を用いたバイシミュレートゲームで特徴づける。 この特徴から,CPDL+は木のようなモデル特性を持つことを示す。 固定木幅式上での2ExpTimeでは,ICPDLの複雑さと一致して満足度が決定可能であることを示す。 また、満足度をExpTimeに下げるクラスも示します。 最後に、固定木幅式に対するモデルチェック問題は、フルクラスCPDL+とは対照的に \ptime であることを示す。

We introduce CPDL+, a family of expressive logics rooted in Propositional Dynamic Logic (PDL). In terms of expressive power, CPDL+ strictly contains PDL extended with intersection and converse (a.k.a. ICPDL) as well as Conjunctive Queries (CQ), Conjunctive Regular Path Queries (CRPQ), or some known extensions thereof (Regular Queries and CQPDL). We investigate the expressive power, characterization of bisimulation, satisfiability, and model checking for CPDL+. We argue that natural subclasses of CPDL+ can be defined in terms of the tree-width of the underlying graphs of the formulas. We show that the class of CPDL+ formulas of tree-width 2 is equivalent to ICPDL, and that it also coincides with CPDL+ formulas of tree-width 1. However, beyond tree-width 2, incrementing the tree-width strictly increases the expressive power. We characterize the expressive power for every class of fixed tree-width formulas in terms of a bisimulation game with pebbles. Based on this characterization, we show that CPDL+ has a tree-like model property. We prove that the satisfiability problem is decidable in 2ExpTime on fixed tree-width formulas, coinciding with the complexity of ICPDL. We also exhibit classes for which satisfiability is reduced to ExpTime. Finally, we establish that the model checking problem for fixed tree-width formulas is in \ptime, contrary to the full class CPDL+.
翻訳日:2023-04-21 12:44:43 公開日:2023-04-20
# GPT-NER:大規模言語モデルによるエンティティ認識

GPT-NER: Named Entity Recognition via Large Language Models ( http://arxiv.org/abs/2304.10428v1 )

ライセンス: Link先を確認
Shuhe Wang, Xiaofei Sun, Xiaoya Li, Rongbin Ouyang, Fei Wu, Tianwei Zhang, Jiwei Li, Guoyin Wang(参考訳) 大規模言語モデル(LLM)が様々なNLPタスクでSOTAのパフォーマンスを達成したにもかかわらず、NERの性能は教師付きベースラインよりもはるかに低い。 これは NER と LLM の2つのタスクの間にギャップがあるためである: 前者はシーケンシャルラベリングタスクであり、後者はテキスト生成モデルである。 本稿では,この問題を解決するため,GPT-NERを提案する。 gpt-nerは、シーケンスラベリングタスクをllmで容易に適応可能な生成タスクに変換することで、ギャップを橋渡しする。例えば、入力テキスト"columbus is a city"にある場所エンティティを見つけるタスクを変換して、"@@columbus# is a city"というテキストシーケンスを生成し、特別なトークン@@##が抽出するエンティティをマークする。 LLMがNULL入力をエンティティとして過剰にラベル付けする強い傾向を持つLLMの「ハロシン化」問題に効率よく対処するため、抽出されたエンティティがラベル付きエンティティタグに属しているかどうかを問うことで自己検証戦略を提案する。 我々は広く採用されている5つのNERデータセットで実験を行い、GPT-NERは完全に教師付きベースラインに匹敵する性能を達成しています。 さらに重要なことに、gpt-nerは低リソースと少数ショットのセットアップにおいて、トレーニングデータの量が極めて少ない場合、教師付きモデルよりもはるかに優れたパフォーマンスを示すことが分かりました。 これは、ラベル付きサンプルの数が限られている実世界のNERアプリケーションにおけるGPT-NERの機能を示す。

Despite the fact that large-scale Language Models (LLM) have achieved SOTA performances on a variety of NLP tasks, its performance on NER is still significantly below supervised baselines. This is due to the gap between the two tasks the NER and LLMs: the former is a sequence labeling task in nature while the latter is a text-generation model. In this paper, we propose GPT-NER to resolve this issue. GPT-NER bridges the gap by transforming the sequence labeling task to a generation task that can be easily adapted by LLMs e.g., the task of finding location entities in the input text "Columbus is a city" is transformed to generate the text sequence "@@Columbus## is a city", where special tokens @@## marks the entity to extract. To efficiently address the "hallucination" issue of LLMs, where LLMs have a strong inclination to over-confidently label NULL inputs as entities, we propose a self-verification strategy by prompting LLMs to ask itself whether the extracted entities belong to a labeled entity tag. We conduct experiments on five widely adopted NER datasets, and GPT-NER achieves comparable performances to fully supervised baselines, which is the first time as far as we are concerned. More importantly, we find that GPT-NER exhibits a greater ability in the low-resource and few-shot setups, when the amount of training data is extremely scarce, GPT-NER performs significantly better than supervised models. This demonstrates the capabilities of GPT-NER in real-world NER applications where the number of labeled examples is limited.
翻訳日:2023-04-21 12:38:47 公開日:2023-04-20
# バイオインフォマティクス知識グラフのデータ探索のための人工知能チャットボットの可能性について

On the Potential of Artificial Intelligence Chatbots for Data Exploration of Federated Bioinformatics Knowledge Graphs ( http://arxiv.org/abs/2304.10427v1 )

ライセンス: Link先を確認
Ana-Claudia Sima and Tarcisio Mendes de Farias(参考訳) 本稿では,ChatGPTのような人工知能(AI)チャットボットが,フェデレートされた知識グラフへのデータアクセスを促進する役割について述べる。 特に、バイオインフォマティクスの分野からの例を紹介し、データセットを記述するための会話型AIの潜在的な使用法を説明するとともに、ドメインエキスパートの利益のためにデータセットをまたいだクエリの生成と説明を行う。

In this paper, we present work in progress on the role of artificial intelligence (AI) chatbots, such as ChatGPT, in facilitating data access to federated knowledge graphs. In particular, we provide examples from the field of bioinformatics, to illustrate the potential use of Conversational AI to describe datasets, as well as generate and explain (federated) queries across datasets for the benefit of domain experts.
翻訳日:2023-04-21 12:38:16 公開日:2023-04-20
# 大規模言語モデルによる完全自律プログラミング

Fully Autonomous Programming with Large Language Models ( http://arxiv.org/abs/2304.10423v1 )

ライセンス: Link先を確認
Vadim Liventsev and Anastasiia Grishina and Aki H\"arm\"a and Leon Moonen(参考訳) 現在、Large Language Models (LLMs) によるプログラム合成のアプローチでは、正しい解法にセマンティックに類似したプログラムを生成する傾向があり(テキスト類似度測定や人的評価によって測定される)、間違った入力や出力フォーマットのような小さな欠陥によって単体テストによって測定されるような低またはゼロの精度を達成する。 これにより、最初にソリューションのドラフトを生成し、その後に失敗したテストに対処するプログラム修復フェーズを生成する、synthetic、execute、debug(sed)と呼ばれるアプローチが要求される。 この手法を命令駆動型LLMに効果的に適用するには、どのプロンプトがLLMの命令として最適かを判断し、失敗したプログラムを修復して新たに生成されたプログラムに置き換えるバランスをとる必要がある。 これらのトレードオフを経験的に検討し、代替、修復、ハイブリッドなデバッグ戦略と、テンプレートベースおよびモデルベースのプロンプトジェネレーション手法を比較した。 我々は,openai codexをllmおよびプログラム合成ベンチマーク2として,問題記述と評価テストのデータベースとして使用する。 結果として得られたフレームワークは、修復フェーズなしでのcodexの従来の使用と、従来の遺伝的プログラミングアプローチを上回っている。

Current approaches to program synthesis with Large Language Models (LLMs) exhibit a "near miss syndrome": they tend to generate programs that semantically resemble the correct answer (as measured by text similarity metrics or human evaluation), but achieve a low or even zero accuracy as measured by unit tests due to small imperfections, such as the wrong input or output format. This calls for an approach known as Synthesize, Execute, Debug (SED), whereby a draft of the solution is generated first, followed by a program repair phase addressing the failed tests. To effectively apply this approach to instruction-driven LLMs, one needs to determine which prompts perform best as instructions for LLMs, as well as strike a balance between repairing unsuccessful programs and replacing them with newly generated ones. We explore these trade-offs empirically, comparing replace-focused, repair-focused, and hybrid debug strategies, as well as different template-based and model-based prompt-generation techniques. We use OpenAI Codex as the LLM and Program Synthesis Benchmark 2 as a database of problem descriptions and tests for evaluation. The resulting framework outperforms both conventional usage of Codex without the repair phase and traditional genetic programming approaches.
翻訳日:2023-04-21 12:38:05 公開日:2023-04-20
# 付加磁場と有効負温度による量子オットーエンジンの高効率化

Enhanced efficiency in quantum Otto engine via additional magnetic field and effective negative temperature ( http://arxiv.org/abs/2304.10420v1 )

ライセンス: Link先を確認
Arghya Maity, Aditi Sen De(参考訳) 4ストロークの量子オットーエンジンは、正のスピン温度で1つ、正のスピン温度で1つ、有効の負のスピン温度で2つの熱貯水池の間で実行されると性能が向上する。 x,y)-平面内の磁場とともに、z-方向に新たな磁場を導入する。 また, 衝撃は単調ではないが, 付加磁場の強度の増加に伴い効率が向上することを示す。 具体的には、効率の利得を示す駆動時間に応じて、磁界の閾値を報告する。 この利点は、システムが運転時間とより一貫性を持ち、l1-ノルムのコヒーレンス尺度を用いて評価することによる可能性がある。 さらに, パラメータ空間における乱れが存在する場合でも, 追加磁場で効率良く得られるインクリメントが持続することがわかった。

A four-stroke quantum Otto engine can outperform when conducted between two thermal reservoirs, one at a positive spin temperature and the other one at an effective negative spin temperature. Along with a magnetic field in the (x,y)-plane, we introduce an additional magnetic field in the z-direction. We demonstrate that the efficiency increases with the increase in the strength of the additional magnetic field although the impact is not monotonic. Specifically, we report a threshold value of the magnetic field, depending on the driving time which exhibits a gain in efficiency. We argue that this benefit may result from the system being more coherent with driving time, which we assess using the l1-norm coherence measure. Moreover, we find that the increment obtained in efficiency with an additional magnetic field endures even in presence of disorder in parameter space.
翻訳日:2023-04-21 12:37:41 公開日:2023-04-20
# SINC:同時行動生成のための3次元人体運動の空間構成

SINC: Spatial Composition of 3D Human Motions for Simultaneous Action Generation ( http://arxiv.org/abs/2304.10417v1 )

ライセンス: Link先を確認
Nikos Athanasiou, Mathis Petrovich, Michael J. Black and G\"ul Varol(参考訳) 我々のゴールは、同時動作を記述したテキスト入力が与えられた3次元の人間の動きを合成することである。 このような同時的な動きを「空間構成」と呼ぶ。 ある作用から別の作用へ遷移しようとする時間的構成とは対照的に、空間的合成は、どの作用にどの身体部位が関与しているかを理解し、それらを同時に移動させる必要がある。 動作と身体部位の対応が強力な言語モデルにエンコードされているという観察に触発され,GPT-3に「アクション・ネーム」に関係している身体部位は何か?」などのテキストを入力し,部品リストと少数ショット例も提供する。 このアクション部分マッピングを前提として,2つの動作の身体部分を組み合わせて,2つの動作を空間的に構成する最初の自動手法を確立する。 しかし、構成動作によるトレーニングデータは、常にコンビネータによって制限される。 したがって、このアプローチでさらに合成データを作成し、それを用いてsinc(simultaneous action compositions for 3d human motions)と呼ばれる新しい最先端テキストからモーションへの生成モデルを訓練する。 本実験では,合成gptガイドによる合成動作の学習により,テキスト対モーション生成が向上することを示す。

Our goal is to synthesize 3D human motions given textual inputs describing simultaneous actions, for example 'waving hand' while 'walking' at the same time. We refer to generating such simultaneous movements as performing 'spatial compositions'. In contrast to temporal compositions that seek to transition from one action to another, spatial compositing requires understanding which body parts are involved in which action, to be able to move them simultaneously. Motivated by the observation that the correspondence between actions and body parts is encoded in powerful language models, we extract this knowledge by prompting GPT-3 with text such as "what are the body parts involved in the action <action name>?", while also providing the parts list and few-shot examples. Given this action-part mapping, we combine body parts from two motions together and establish the first automated method to spatially compose two actions. However, training data with compositional actions is always limited by the combinatorics. Hence, we further create synthetic data with this approach, and use it to train a new state-of-the-art text-to-motion generation model, called SINC ("SImultaneous actioN Compositions for 3D human motions"). In our experiments, we find training on additional synthetic GPT-guided compositional motions improves text-to-motion generation.
翻訳日:2023-04-21 12:37:25 公開日:2023-04-20
# NTIRE 2023 電界画像超解像の挑戦:データセット,方法,結果

NTIRE 2023 Challenge on Light Field Image Super-Resolution: Dataset, Methods and Results ( http://arxiv.org/abs/2304.10415v1 )

ライセンス: Link先を確認
Yingqian Wang, Longguang Wang, Zhengyu Liang, Jungang Yang, Radu Timofte, Yulan Guo(参考訳) 本報告では,標準バイコビック分解条件下でのLF画像の高分解能化を目的とした,光フィールド(LF)画像超解像(SR)に関する最初のNTIRE課題を要約する。 この課題は、バリデーションとテストのための NTIRE-2023 と呼ばれる新しいLFデータセットを開発し、モデル開発を容易にする BasicLFSR と呼ばれるツールボックスを提供する。 シングルイメージSRと比較して、LF画像SRの最大の課題は、様々な異なる視点から補完的な角情報を利用する方法にある。 合計で148人の参加者がチャレンジを登録し、11チームがベースラインメソッドLF-InterNet \cite{LF-InterNet}よりも高いPSNRスコアで結果を提出した。 これらの新たな手法は、LF画像SRにおける新しい最先端の状態を設定し、例えば、既存の最先端のDistgSSR \cite{DistgLF}よりも約1dBのPSNR改善を実現する。 参加者が提案するソリューションを報告し,その共通傾向と有用な手技を要約する。 この課題が今後の研究を刺激し、LF画像SRの新しいアイデアを刺激することを期待している。

In this report, we summarize the first NTIRE challenge on light field (LF) image super-resolution (SR), which aims at super-resolving LF images under the standard bicubic degradation with a magnification factor of 4. This challenge develops a new LF dataset called NTIRE-2023 for validation and test, and provides a toolbox called BasicLFSR to facilitate model development. Compared with single image SR, the major challenge of LF image SR lies in how to exploit complementary angular information from plenty of views with varying disparities. In total, 148 participants have registered the challenge, and 11 teams have successfully submitted results with PSNR scores higher than the baseline method LF-InterNet \cite{LF-InterNet}. These newly developed methods have set new state-of-the-art in LF image SR, e.g., the winning method achieves around 1 dB PSNR improvement over the existing state-of-the-art method DistgSSR \cite{DistgLF}. We report the solutions proposed by the participants, and summarize their common trends and useful tricks. We hope this challenge can stimulate future research and inspire new ideas in LF image SR.
翻訳日:2023-04-21 12:37:01 公開日:2023-04-20
# 局所オプティマスを用いた移動受容型ハイパーヒューリスティック・コーパス:ジャンプとクリフの劇的差異

How the Move Acceptance Hyper-Heuristic Copes With Local Optima: Drastic Differences Between Jumps and Cliffs ( http://arxiv.org/abs/2304.10414v1 )

ライセンス: Link先を確認
Benjamin Doerr, Arthur Dremaux, Johannes Lutzeyer, and Aur\'elien Stumpf(参考訳) 最近の研究で、Lissovoi, Oliveto, and Warwicker (Artificial Intelligence (2023)) は、Move Acceptance Hyper-Heuristic (MAHH) がマルチモーダル崖ベンチマークの局所的な最適化を著しく効率よく残していることを示した。 ほぼすべての崖幅に対して$O(n^3)$ランタイムを使用すると、MAHHは単純なエリート主義進化アルゴリズム(EA)の$\Theta(n^d)$ランタイムよりも大幅にパフォーマンスが向上する。 もっとも顕著なマルチモーダルベンチマークでは、ジャンプ関数は与えられたランタイム推定値である$O(n^{2m} m^{-\Theta(m)})$と$\Omega(2^{\Omega(m)})$、ギャップサイズが$m \ge 2$の場合にはかなり離れており、MAHHの実際の性能は依然としてオープンな問題である。 この作業では、この問題を解決します。 MAHH選択パラメータ~$p$の任意の選択に対して、ギャップサイズ$m = o(n^{1/2})$が少なくとも$\Omega(n^{2m-1} / (2m-1)! )$. これにより、典型的な$o(n^m)$ランタイムを持つ単純な楕円型進化アルゴリズムよりもはるかに遅いmahとなる。 また、局所的な1ビット演算子の代わりにグローバルビットワイズ演算子を持つMAHHは、時間$O(\min\{m n^m,\frac{n^{2m-1}}{m! Omega(m)^{m-2}}\})$、基本的には$(1+1)$ EA と MAHH の最適化時間の最小値である。 これは、局所最適化にいくつかの方法を組み合わせることは実りあるアプローチであることを示している。

In recent work, Lissovoi, Oliveto, and Warwicker (Artificial Intelligence (2023)) proved that the Move Acceptance Hyper-Heuristic (MAHH) leaves the local optimum of the multimodal cliff benchmark with remarkable efficiency. With its $O(n^3)$ runtime, for almost all cliff widths $d,$ the MAHH massively outperforms the $\Theta(n^d)$ runtime of simple elitist evolutionary algorithms (EAs). For the most prominent multimodal benchmark, the jump functions, the given runtime estimates of $O(n^{2m} m^{-\Theta(m)})$ and $\Omega(2^{\Omega(m)})$, for gap size $m \ge 2$, are far apart and the real performance of MAHH is still an open question. In this work, we resolve this question. We prove that for any choice of the MAHH selection parameter~$p$, the expected runtime of the MAHH on a jump function with gap size $m = o(n^{1/2})$ is at least $\Omega(n^{2m-1} / (2m-1)!)$. This renders the MAHH much slower than simple elitist evolutionary algorithms with their typical $O(n^m)$ runtime. We also show that the MAHH with the global bit-wise mutation operator instead of the local one-bit operator optimizes jump functions in time $O(\min\{m n^m,\frac{n^{2m-1}}{m!\Omega(m)^{m-2}}\})$, essentially the minimum of the optimization times of the $(1+1)$ EA and the MAHH. This suggests that combining several ways to cope with local optima can be a fruitful approach.
翻訳日:2023-04-21 12:36:32 公開日:2023-04-20
# ソフトマックス回帰に触発されたアテンションスキーム

Attention Scheme Inspired Softmax Regression ( http://arxiv.org/abs/2304.10411v1 )

ライセンス: Link先を確認
Yichuan Deng, Zhihang Li, Zhao Song(参考訳) 大きな言語モデル(LLM)は、人間の社会に変革をもたらした。 LLMにおける鍵計算の1つはソフトマックス単位である。 この操作はLLMにおいて重要であり、入力語列が与えられた場合、モデルが次の単語やフレーズにまたがる分布を生成することができる。 この分布は、モデルによって割り当てられた確率に基づいて、最も可能性の高い次の単語またはフレーズを選択するために使用される。 softmaxユニットは、ニューラルネットワークの重みとバイアスを調整することによって、モデルがデータから学習できるようにするため、llmのトレーニングにおいて重要な役割を果たす。 中央経路法を用いて線形計画を解くような凸最適化の分野において。 ソフトマックス関数はポテンシャル関数の進行と安定性を制御する重要なツールとして使われてきた[Cohen, Lee and Song STOC 2019, Brand SODA 2020]。 この研究はソフトマックス単位にインスピレーションを与え、ソフトマックス回帰問題を定義する。 形式的には、行列 $a \in \mathbb{r}^{n \times d}$ とベクトル $b \in \mathbb{r}^n$ が与えられたとき、目標は greedy 型アルゴリズムを使って \begin{align*} \min_{x} \| \langle \exp(ax), {\bf 1}_n \rangle^{-1} \exp(ax) - b \|_2^2 を解くことである。 ある意味では、我々の証明可能な収束結果は、実際にソフトマックス関数を訓練するためにグリーディアルゴリズムを使用できる理由を理論的に支援する。

Large language models (LLMs) have made transformed changes for human society. One of the key computation in LLMs is the softmax unit. This operation is important in LLMs because it allows the model to generate a distribution over possible next words or phrases, given a sequence of input words. This distribution is then used to select the most likely next word or phrase, based on the probabilities assigned by the model. The softmax unit plays a crucial role in training LLMs, as it allows the model to learn from the data by adjusting the weights and biases of the neural network. In the area of convex optimization such as using central path method to solve linear programming. The softmax function has been used a crucial tool for controlling the progress and stability of potential function [Cohen, Lee and Song STOC 2019, Brand SODA 2020]. In this work, inspired the softmax unit, we define a softmax regression problem. Formally speaking, given a matrix $A \in \mathbb{R}^{n \times d}$ and a vector $b \in \mathbb{R}^n$, the goal is to use greedy type algorithm to solve \begin{align*} \min_{x} \| \langle \exp(Ax), {\bf 1}_n \rangle^{-1} \exp(Ax) - b \|_2^2. \end{align*} In certain sense, our provable convergence result provides theoretical support for why we can use greedy algorithm to train softmax function in practice.
翻訳日:2023-04-21 12:35:36 公開日:2023-04-20
# 自律走行における物体検出とセマンティックセグメンテーションのためのレーダー・カメラ融合

Radar-Camera Fusion for Object Detection and Semantic Segmentation in Autonomous Driving: A Comprehensive Review ( http://arxiv.org/abs/2304.10410v1 )

ライセンス: Link先を確認
Shanliang Yao, Runwei Guan, Xiaoyu Huang, Zhuoxiao Li, Xiangyu Sha, Yong Yue, Eng Gee Lim, Hyungjoon Seo, Ka Lok Man, Xiaohui Zhu, Yutao Yue(参考訳) ディープラーニング技術によって、自動運転における認識技術は近年急速に発展している。 正確で堅牢な認識能力を達成するために、自動運転車は複数のセンサーを備えており、センサーの融合が知覚システムの重要な部分となっている。 これらの融合センサーのうち、レーダーやカメラは、照明や気象条件に関わらず、周囲の環境を補完的かつ費用対効果で認識することができる。 本稿では,レーダカメラ融合の包括的ガイドライン,特に物体検出とセマンティックセグメンテーションに関連する知覚タスクに焦点を当てることを目的としている。 レーダーとカメラセンサーの原理に基づいて、我々はデータ処理プロセスと表現を掘り下げ、その後、詳細な分析とレーダーカメラ融合データセットの要約を行う。 レーダー・カメラ融合における方法論のレビューにおいて,我々は「なぜヒューズなのか」,「ヒューズに何」,「ヒューズにどこで」,「ヒューズにいつ」,「どのようにヒューズするか」といった疑問を提起し,その後,この分野における様々な課題と潜在的な研究方向について議論した。 データセットとフュージョンメソッドの検索と比較を容易にするため、インタラクティブなWebサイトも提供する。

Driven by deep learning techniques, perception technology in autonomous driving has developed rapidly in recent years. To achieve accurate and robust perception capabilities, autonomous vehicles are often equipped with multiple sensors, making sensor fusion a crucial part of the perception system. Among these fused sensors, radars and cameras enable a complementary and cost-effective perception of the surrounding environment regardless of lighting and weather conditions. This review aims to provide a comprehensive guideline for radar-camera fusion, particularly concentrating on perception tasks related to object detection and semantic segmentation. Based on the principles of the radar and camera sensors, we delve into the data processing process and representations, followed by an in-depth analysis and summary of radar-camera fusion datasets. In the review of methodologies in radar-camera fusion, we address interrogative questions, including "why to fuse", "what to fuse", "where to fuse", "when to fuse", and "how to fuse", subsequently discussing various challenges and potential research directions within this domain. To ease the retrieval and comparison of datasets and fusion methods, we also provide an interactive website: https://XJTLU-VEC.github.io/Radar-Camera-Fusion.
翻訳日:2023-04-21 12:35:03 公開日:2023-04-20
# 量子メモリのデバイス非依存認証に向けて

Towards the device-independent certification of a quantum memory ( http://arxiv.org/abs/2304.10408v1 )

ライセンス: Link先を確認
Pavel Sekatski, Jean-Daniel Bancal, Marie Ioannou, Mikael Afzelius, Nicolas Brunner(参考訳) 量子記憶は将来の量子通信ネットワークの主要な要素の1つである。 そのため、彼らの認証は重要な課題である。 ここでは,量子記憶の効率的な認証手法を提案する。 ソースや測定装置の事前特徴化が不要なデバイス非依存的なアプローチを考えることで,量子記憶のためのロバストな自己テスト手法を開発した。 次に、最近の固体アンサンブル量子メモリ実験において、0.87の忠実性を確認し、緩和されたシナリオでこの技術の実際的妥当性を示す。 より一般的に,本手法は量子チャネルを実装した任意のデバイスの特徴付けに適用される。

Quantum memories represent one of the main ingredients of future quantum communication networks. Their certification is therefore a key challenge. Here we develop efficient certification methods for quantum memories. Considering a device-independent approach, where no a priori characterisation of sources or measurement devices is required, we develop a robust self-testing method for quantum memories. We then illustrate the practical relevance of our technique in a relaxed scenario by certifying a fidelity of 0.87 in a recent solid-state ensemble quantum memory experiment. More generally, our methods apply for the characterisation of any device implementing a qubit identity quantum channel.
翻訳日:2023-04-21 12:34:39 公開日:2023-04-20
# 勾配降下に対する角度に基づく動的学習率

Angle based dynamic learning rate for gradient descent ( http://arxiv.org/abs/2304.10457v1 )

ライセンス: Link先を確認
Neel Mishra, Pawan Kumar(参考訳) そこで本研究では,分類タスクにおける勾配に基づく降下手法の適応学習率を得るための,新しい手法を提案する。 この新たな勾配は、現在の勾配と直交する方向から計算され、角度履歴に基づいて適応学習率を決定するのに役立ち、既存の最先端オプティマイザと比較して相対的に精度が向上する。 ResNet,DenseNet,EfficientNet,VGGといった画像分類アーキテクチャを備えたベンチマークデータセットの多種多様さから,本手法がほとんどのデータセットにおいて最も精度の高いものとなることが判明した。 さらに,本手法が収束していることを示す。

In our work, we propose a novel yet simple approach to obtain an adaptive learning rate for gradient-based descent methods on classification tasks. Instead of the traditional approach of selecting adaptive learning rates via the decayed expectation of gradient-based terms, we use the angle between the current gradient and the new gradient: this new gradient is computed from the direction orthogonal to the current gradient, which further helps us in determining a better adaptive learning rate based on angle history, thereby, leading to relatively better accuracy compared to the existing state-of-the-art optimizers. On a wide variety of benchmark datasets with prominent image classification architectures such as ResNet, DenseNet, EfficientNet, and VGG, we find that our method leads to the highest accuracy in most of the datasets. Moreover, we prove that our method is convergent.
翻訳日:2023-04-21 12:28:50 公開日:2023-04-20
# Phoenix: 言語を越えたChatGPTの民主化

Phoenix: Democratizing ChatGPT across Languages ( http://arxiv.org/abs/2304.10453v1 )

ライセンス: Link先を確認
Zhihong Chen, Feng Jiang, Junying Chen, Tiannan Wang, Fei Yu, Guiming Chen, Hongbo Zhang, Juhao Liang, Chen Zhang, Zhiyi Zhang, Jianquan Li, Xiang Wan, Benyou Wang, Haizhou Li(参考訳) 本稿では,ChatGPTを言語全体にわたって民主化する取り組みについて述べる。 オープンソースの英語モデルと中国語モデルの競合性能を実現しつつ、リソースの少ない言語(ラテン語と非ラテン語の両方をカバーする)でも優れている大きな言語モデル「phoenix」をリリースする。 この作業は、特にOpenAIやローカルなゴーバーメントの制限により、人々がChatGPTを使えない国では、ChatGPTをよりアクセスしやすいものにする上で有益であると考えています。 私たちのデータ、コード、モデルはhttps://github.com/FreedomIntelligence/LLMZoo.comで利用可能です。

This paper presents our efforts to democratize ChatGPT across language. We release a large language model "Phoenix", achieving competitive performance among open-source English and Chinese models while excelling in languages with limited resources (covering both Latin and non-Latin languages). We believe this work will be beneficial to make ChatGPT more accessible, especially in countries where people cannot use ChatGPT due to restrictions from OpenAI or local goverments. Our data, code, and models are available at https://github.com/FreedomIntelligence/LLMZoo.
翻訳日:2023-04-21 12:28:37 公開日:2023-04-20
# relight my nerf: 現実世界のオブジェクトの新しいビュー合成とリライトのためのデータセット

ReLight My NeRF: A Dataset for Novel View Synthesis and Relighting of Real World Objects ( http://arxiv.org/abs/2304.10448v1 )

ライセンス: Link先を確認
Marco Toschi, Riccardo De Matteo, Riccardo Spezialetti, Daniele De Gregorio, Luigi Di Stefano, Samuele Salti(参考訳) 本稿では,観測されていない光条件下でのニューラルラジアンス場(NeRF)からの新たなビューのレンダリング問題に焦点を当てる。 この目的のために我々は,ワンライト・アット・タイム(OLAT)条件下で現実世界の物体をフレーミングするReNe(Relighting NeRF)と呼ばれる新しいデータセットを導入する。 我々の買収パイプラインは、それぞれカメラと全方向ポイントワイド光源という2つのロボットアームの保持を活用している。 複雑な幾何学と難解な素材を持つ様々な物体を描いた合計20のシーンを公開する。 各シーンには、40の異なるオーラト条件の下で50の異なる視点から取得された2000の画像が含まれている。 データセットを活用することにより,バニラ型NeRFアーキテクチャのリライティング能力に関するアブレーション研究を行い,新しい光条件下でオブジェクトの新たなビューを描画できる軽量アーキテクチャを特定し,データセットの非自明なベースラインを確立する。 datasetとbenchmarkはhttps://eyecan-ai.github.io/reneで入手できる。

In this paper, we focus on the problem of rendering novel views from a Neural Radiance Field (NeRF) under unobserved light conditions. To this end, we introduce a novel dataset, dubbed ReNe (Relighting NeRF), framing real world objects under one-light-at-time (OLAT) conditions, annotated with accurate ground-truth camera and light poses. Our acquisition pipeline leverages two robotic arms holding, respectively, a camera and an omni-directional point-wise light source. We release a total of 20 scenes depicting a variety of objects with complex geometry and challenging materials. Each scene includes 2000 images, acquired from 50 different points of views under 40 different OLAT conditions. By leveraging the dataset, we perform an ablation study on the relighting capability of variants of the vanilla NeRF architecture and identify a lightweight architecture that can render novel views of an object under novel light conditions, which we use to establish a non-trivial baseline for the dataset. Dataset and benchmark are available at https://eyecan-ai.github.io/rene.
翻訳日:2023-04-21 12:28:27 公開日:2023-04-20
# メンタルヘルスの長期的文脈を捉えるための言語モデルのドメイン特化学習

Domain-specific Continued Pretraining of Language Models for Capturing Long Context in Mental Health ( http://arxiv.org/abs/2304.10447v1 )

ライセンス: Link先を確認
Shaoxiong Ji, Tianlin Zhang, Kailai Yang, Sophia Ananiadou, Erik Cambria, J\"org Tiedemann(参考訳) 事前訓練された言語モデルは、様々な自然言語処理アプリケーションで使われている。 メンタルヘルス領域では、ドメイン固有の言語モデルが事前訓練され、リリースされ、メンタルヘルス状態の早期検出が容易になる。 Redditなどのソーシャル投稿は通常、長い文書である。 しかし、メンタルヘルス領域におけるロングシーケンスモデリングのためのドメイン固有の事前学習モデルは存在しない。 本稿では,精神保健の長期的状況を把握するために,ドメイン固有の事前訓練を行う。 具体的には、XLNetとLongformerに基づいて、MentalXLNetとMentalLongformerをトレーニング、リリースする。 これら2つの領域特異的事前学習モデルのメンタルヘルス分類性能と長距離能力を評価した。 私たちのモデルはHuggingFaceでリリースされています。

Pretrained language models have been used in various natural language processing applications. In the mental health domain, domain-specific language models are pretrained and released, which facilitates the early detection of mental health conditions. Social posts, e.g., on Reddit, are usually long documents. However, there are no domain-specific pretrained models for long-sequence modeling in the mental health domain. This paper conducts domain-specific continued pretraining to capture the long context for mental health. Specifically, we train and release MentalXLNet and MentalLongformer based on XLNet and Longformer. We evaluate the mental health classification performance and the long-range ability of these two domain-specific pretrained models. Our models are released in HuggingFace.
翻訳日:2023-04-21 12:28:07 公開日:2023-04-20
# 複数の摂動境界内における強固性認定

Certified Adversarial Robustness Within Multiple Perturbation Bounds ( http://arxiv.org/abs/2304.10446v1 )

ライセンス: Link先を確認
Soumalya Nandi, Sravanti Addepalli, Harsh Rangwani and R. Venkatesh Babu(参考訳) ランダムスムーシング(Randomized smoothing, RRS)は、逆行攻撃に対するよく知られた防御であり、推論中に入力のランダムノイズ摂動の下で最も起こりうるクラスを予測することによって、スムースな分類子を生成する。 最初の研究は、ガウス分布からサンプリングされたノイズを用いた$\ell_2$ノルム摂動に対するロバスト性に焦点を当てたが、その後の研究は、異なるノイズ分布が他の$\ell_p$ノルム境界にもロバスト性をもたらすことを示した。 一般に、特定のノイズ分布は与えられた$\ell_p$ に基づく攻撃に対して防御するために最適である。 本研究では,複数の摂動境界に対して同時に認証された対向ロバスト性を改善することを目的とする。 そこで我々はまず,異なる雑音分布を用いて得られた証明を効果的に組み合わせて,複数の摂動境界に対する最適結果を得る,新しい「textit{certification scheme」を提案する。 さらに,$\ell_1$と$\ell_2$摂動ノルムの両方で同時に認証を改善するための \textit{regularized training scheme} とともに,新しい \textit{training noise distribution} を提案する。 事前の作業とは対照的に、トレーニングや認定に使用する固定ノイズレベルよりも、同じ自然な(クリーンな)精度で異なるトレーニングアルゴリズムの証明された堅牢性を比較する。 また、同じノイズ量で分類器を訓練し、証明することが最良の結果をもたらすという議論を実証的に無効にしている。 提案手法は、$\ell_1$と$\ell_2$摂動境界の双方にわたって、ACR(Average Certified Radius)メトリックの改善を実現する。

Randomized smoothing (RS) is a well known certified defense against adversarial attacks, which creates a smoothed classifier by predicting the most likely class under random noise perturbations of inputs during inference. While initial work focused on robustness to $\ell_2$ norm perturbations using noise sampled from a Gaussian distribution, subsequent works have shown that different noise distributions can result in robustness to other $\ell_p$ norm bounds as well. In general, a specific noise distribution is optimal for defending against a given $\ell_p$ norm based attack. In this work, we aim to improve the certified adversarial robustness against multiple perturbation bounds simultaneously. Towards this, we firstly present a novel \textit{certification scheme}, that effectively combines the certificates obtained using different noise distributions to obtain optimal results against multiple perturbation bounds. We further propose a novel \textit{training noise distribution} along with a \textit{regularized training scheme} to improve the certification within both $\ell_1$ and $\ell_2$ perturbation norms simultaneously. Contrary to prior works, we compare the certified robustness of different training algorithms across the same natural (clean) accuracy, rather than across fixed noise levels used for training and certification. We also empirically invalidate the argument that training and certifying the classifier with the same amount of noise gives the best results. The proposed approach achieves improvements on the ACR (Average Certified Radius) metric across both $\ell_1$ and $\ell_2$ perturbation bounds.
翻訳日:2023-04-21 12:27:58 公開日:2023-04-20
# Knapsack最適化によるニューラルネットワークのセキュア化

Securing Neural Networks with Knapsack Optimization ( http://arxiv.org/abs/2304.10442v1 )

ライセンス: Link先を確認
Yakir Gorski, Shai Avidan(参考訳) ディープラーニング推論は、データと畳み込みニューラルネットワーク(CNN)を結合する。 これは、ユーザがデータのプライバシを保持したい場合や、サービスプロバイダが自身のCNNの重みを明らかにしたくない場合に問題となる。 セキュアな推論は、2人の当事者がそれぞれのプライバシーの懸念を保ちながら、推論結果のみをユーザに開示するプロトコルに参加することを可能にする。 これはマルチパーティ計算 (mpc) と呼ばれる。 MPCアルゴリズムの最大のボトルネックは通信であり、当事者はデータを前後に送らなければならない。 CNN(すなわち畳み込み)の線形成分は、最小限の通信で効率的に行うことができるが、非線形部分(すなわちReLU)は通信帯域の大部分を必要とする。 安全な推論を加速する方法を2つ提案する。 1つ目は、多くの畳み込みのrelu結果が高い相関関係にあるという観測に基づく。 したがって,1ピクセル当たりのReLU演算をパッチ当たりのReLU演算で置き換える。 ネットワーク内の各レイヤは、異なるサイズのパッチの恩恵を受けるだろう。我々は、新しい問題をknapsack問題に還元することで、最適なパッチサイズのセットを選択するアルゴリズムを考案する。 Secure Inferenceを高速化する第2の方法は、セキュアなReLU操作に必要なビット比較の数を削減することである。 ResNet50バックボーンを用いたImageNetの分類、ResNet18バックボーンを用いたCIFAR100の分類、MobileNetV2バックボーンを用いたADE20Kのセマンティックセマンティックセマンティックセマンティックセマンティックセマンティクス、ResNet50バックボーンを用いたPascal VOC 2012のセマンティクスセマンティクスセマンティクス。 ソースコードは、$\href{https://github.com/yg320/secure_inference}{\text{https://github.com/yg320/secure_inference}}$です。

Deep learning inference brings together the data and the Convolutional Neural Network (CNN). This is problematic in case the user wants to preserve the privacy of the data and the service provider does not want to reveal the weights of his CNN. Secure Inference allows the two parties to engage in a protocol that preserves their respective privacy concerns, while revealing only the inference result to the user. This is known as Multi-Party Computation (MPC). A major bottleneck of MPC algorithms is communication, as the parties must send data back and forth. The linear component of a CNN (i.e. convolutions) can be done efficiently with minimal communication, but the non-linear part (i.e., ReLU) requires the bulk of communication bandwidth. We propose two ways to accelerate Secure Inference. The first is based on the observation that the ReLU outcome of many convolutions is highly correlated. Therefore, we replace the per pixel ReLU operation by a ReLU operation per patch. Each layer in the network will benefit from a patch of a different size and we devise an algorithm to choose the optimal set of patch sizes through a novel reduction of the problem to a knapsack problem. The second way to accelerate Secure Inference is based on cutting the number of bit comparisons required for a secure ReLU operation. We demonstrate the cumulative effect of these tools in the semi-honest secure 3-party setting for four problems: Classifying ImageNet using ResNet50 backbone, classifying CIFAR100 using ResNet18 backbone, semantic segmentation of ADE20K using MobileNetV2 backbone and semantic segmentation of Pascal VOC 2012 using ResNet50 backbone. Our source code is publicly available: $\href{https://github.com/yg320/secure_inference}{\text{https://github.com/yg320/secure_inference}}$
翻訳日:2023-04-21 12:27:24 公開日:2023-04-20
# 道路ゲノム:自律運転におけるシーン理解のためのトポロジー推論ベンチマーク

Road Genome: A Topology Reasoning Benchmark for Scene Understanding in Autonomous Driving ( http://arxiv.org/abs/2304.10440v1 )

ライセンス: Link先を確認
Huijie Wang, Zhenbo Liu, Yang Li, Tianyu Li, Li Chen, Chonghao Sima, Yuting Wang, Shengyin Jiang, Feng Wen, Hang Xu, Ping Luo, Junchi Yan, Wei Zhang, Jun Yao, Yu Qiao, Hongyang Li(参考訳) 複雑な交通環境を理解することは自動運転車にとって不可欠である。 既存の自動走行のベンチマークでは、主にシーン理解を、例えばバニラ検出やセグメンテーション手法で車線を知覚するといった知覚問題として捉えている。 したがって、認識パイプラインは、特に高精細(HD)マップを使わずに、自動運転車が正しい運転を行うための限られた情報を提供すると論じる。 例えば、複雑な交差点で間違った交通信号に追従すると、壊滅的な事故が起こる。 道路ゲノム(openlane-v2)を導入することで,景観構造のトポロジー推論のタスクに,コミュニティの関心を移し,認識を超えた一歩を踏み出そうとしている。 道路ゲノムの目的は交通要素と車線間の認識された実体の関係を調査することで景観構造を理解することである。 一般的なデータセットの上に構築されたこのベンチマークは、さまざまな現実世界のシナリオからキャプチャされた2000のマルチビューイメージからなる。 ループ内の高品質な手動チェックでデータをアノテートします。 3つのサブタスクは、openlaneから受け継いだ3dレーン検出を含む、道路ゲノムのgistを侵害する。 今後、トップクラスの会場でチャレンジを開催する予定です。

Understanding the complex traffic environment is crucial for self-driving vehicles. Existing benchmarks in autonomous driving mainly cast scene understanding as perception problems, e.g., perceiving lanelines with vanilla detection or segmentation methods. As such, we argue that the perception pipeline provides limited information for autonomous vehicles to drive in the right way, especially without the aid of high-definition (HD) map. For instance, following the wrong traffic signal at a complicated crossroad would lead to a catastrophic incident. By introducing Road Genome (OpenLane-V2), we intend to shift the community's attention and take a step further beyond perception - to the task of topology reasoning for scene structure. The goal of Road Genome is to understand the scene structure by investigating the relationship of perceived entities among traffic elements and lanes. Built on top of prevailing datasets, the newly minted benchmark comprises 2,000 sequences of multi-view images captured from diverse real-world scenarios. We annotate data with high-quality manual checks in the loop. Three subtasks compromise the gist of Road Genome, including the 3D lane detection inherited from OpenLane. We have/will host Challenges in the upcoming future at top-tiered venues.
翻訳日:2023-04-21 12:26:48 公開日:2023-04-20
# 表構造認識法の再現性と再現性に関する研究

A Study on Reproducibility and Replicability of Table Structure Recognition Methods ( http://arxiv.org/abs/2304.10439v1 )

ライセンス: Link先を確認
Kehinde Ajayi, Muntabhir Hasan Choudhury, Sarah Rajtmajer, and Jian Wu(参考訳) 人工知能(ai)の再現性に関する懸念が浮上し、研究者はこの分野で公表された発見を直接再現する試みが失敗したと報告している。 リプリケータビリティ(Replicability)は、新しいデータ上で同じ手順で発見を確認できる能力であり、十分に研究されていない。 本稿では,テーブル構造認識(TSR)における16論文のコーパスの再現性と複製性について検討する。 原著者が提供したコードとデータセットを用いて、公開結果を再現しようと試みる。 次に,オリジナルと類似したデータセットと,科学論文から抽出された386の注釈付き表からなる新しいデータセットであるgentsrを用いて再現性を調べる。 研究対象となった16論文のうち, 原本と一致する結果が4件に留まった。 4つの論文のうち2つは、IoU値の類似したデータセットを用いて複製可能であると同定されている。 新しいデータセットを使って複製可能な紙は見当たらない。 我々は、不再現性と不適合性の原因を観察する。 すべてのコードとデータはcodeoceanのhttps://codeocean.com/capsule/6680116/treeで入手できる。

Concerns about reproducibility in artificial intelligence (AI) have emerged, as researchers have reported unsuccessful attempts to directly reproduce published findings in the field. Replicability, the ability to affirm a finding using the same procedures on new data, has not been well studied. In this paper, we examine both reproducibility and replicability of a corpus of 16 papers on table structure recognition (TSR), an AI task aimed at identifying cell locations of tables in digital documents. We attempt to reproduce published results using codes and datasets provided by the original authors. We then examine replicability using a dataset similar to the original as well as a new dataset, GenTSR, consisting of 386 annotated tables extracted from scientific papers. Out of 16 papers studied, we reproduce results consistent with the original in only four. Two of the four papers are identified as replicable using the similar dataset under certain IoU values. No paper is identified as replicable using the new dataset. We offer observations on the causes of irreproducibility and irreplicability. All code and data are available on Codeocean at https://codeocean.com/capsule/6680116/tree.
翻訳日:2023-04-21 12:26:28 公開日:2023-04-20
# 格子QCDにおけるプレコンディショナのためのゲージ等価プール層

Gauge-equivariant pooling layers for preconditioners in lattice QCD ( http://arxiv.org/abs/2304.10438v1 )

ライセンス: Link先を確認
Christoph Lehner and Tilo Wettig(参考訳) 格子QCDのためのマルチグリッドプレコンディショナーモデルにおいて、ゲージ同変のプーリングとアンプール層が従来の制限や拡張層と同様に機能できることを実証する。 これらの層は粗い格子上のゲージの自由度を導入し、粗い格子上で明示的にゲージ等価な層を使用できる。 粗い格子ゲージ場の構築とプレコンディショナーモデルにおけるその効率性について検討する。 粗い格子ゲージ場に対するgalerkin構成を用いた複合マルチグリッドニューラルネットワークは、臨界的なスローダウンを解消する。

We demonstrate that gauge-equivariant pooling and unpooling layers can perform as well as traditional restriction and prolongation layers in multigrid preconditioner models for lattice QCD. These layers introduce a gauge degree of freedom on the coarse grid, allowing for the use of explicitly gauge-equivariant layers on the coarse grid. We investigate the construction of coarse-grid gauge fields and study their efficiency in the preconditioner model. We show that a combined multigrid neural network using a Galerkin construction for the coarse-grid gauge field eliminates critical slowing down.
翻訳日:2023-04-21 12:26:10 公開日:2023-04-20
# 中国語大言語モデルの安全性評価

Safety Assessment of Chinese Large Language Models ( http://arxiv.org/abs/2304.10436v1 )

ライセンス: Link先を確認
Hao Sun, Zhexin Zhang, Jiawen Deng, Jiale Cheng, Minlie Huang(参考訳) ChatGPTやGPT-4といった大規模言語モデルの急速な普及に伴い、安全上の懸念に対して注意が払われている。 これらのモデルは侮辱や差別的な内容を生み出し、誤った社会的価値観を反映し、詐欺や誤解を招く情報の拡散といった悪意ある目的に使用できる。 大規模言語モデル(LLM)の幅広い応用には,安全性の評価と向上が不可欠である。 LLMの安全な展開を促進するため,中国のLLM安全性評価ベンチマークを開発した。 8種類の典型的な安全シナリオと6種類のより困難な命令攻撃という2つの視点から、llmsの総合的な安全性性能について検討した。 ベンチマークは、テストプロンプトを提供し、評価したモデルから生成された応答の安全性を評価する、簡単なプロセスに基づいています。 評価では,LSMの強力な評価能力を活用し,安全評価装置として開発する。 このベンチマークに加えて,安全性評価を行い,openai gpt シリーズなど中国の著名な llm を含む15 llm を分析し,興味深い知見を得た。 例えば、命令攻撃は全てのLLMの安全性の問題を明らかにする傾向にある。 さらに、安全で責任があり倫理的なAIの開発と展開を促進するために、LLMによる100万の強化プロンプトや応答を含むセーフティプロンプトを公開します。

With the rapid popularity of large language models such as ChatGPT and GPT-4, a growing amount of attention is paid to their safety concerns. These models may generate insulting and discriminatory content, reflect incorrect social values, and may be used for malicious purposes such as fraud and dissemination of misleading information. Evaluating and enhancing their safety is particularly essential for the wide application of large language models (LLMs). To further promote the safe deployment of LLMs, we develop a Chinese LLM safety assessment benchmark. Our benchmark explores the comprehensive safety performance of LLMs from two perspectives: 8 kinds of typical safety scenarios and 6 types of more challenging instruction attacks. Our benchmark is based on a straightforward process in which it provides the test prompts and evaluates the safety of the generated responses from the evaluated model. In evaluation, we utilize the LLM's strong evaluation ability and develop it as a safety evaluator by prompting. On top of this benchmark, we conduct safety assessments and analyze 15 LLMs including the OpenAI GPT series and other well-known Chinese LLMs, where we observe some interesting findings. For example, we find that instruction attacks are more likely to expose safety issues of all LLMs. Moreover, to promote the development and deployment of safe, responsible, and ethical AI, we publicly release SafetyPrompts including 100k augmented prompts and responses by LLMs.
翻訳日:2023-04-21 12:26:02 公開日:2023-04-20
# 言語前置詞を用いたビデオからの署名アバターの再構成

Reconstructing Signing Avatars From Video Using Linguistic Priors ( http://arxiv.org/abs/2304.10482v1 )

ライセンス: Link先を確認
Maria-Paola Forte and Peter Kulits and Chun-Hao Huang and Vasileios Choutas and Dimitrios Tzionas and Katherine J. Kuchenbecker and Michael J. Black(参考訳) 手話(SL)は、世界中の7000万人の聴覚障害者のコミュニケーションの主要な方法である。 孤立標識のビデオ辞書は中核的なSL学習ツールである。 これらを3Dアバターで置き換えることで、学習とAR/VRアプリケーションの実現を支援し、技術やオンラインメディアへのアクセスを改善することができる。 しかし、SLビデオから表現力のある3Dアバターを推定する試みはほとんど行われていない。 SLに普遍的に適用可能な新しい言語的先行概念を導入し、孤立した記号のあいまいさを解決する3Dハンドポーズに制約を与える。 提案手法sgnifyは,手指の微細なポーズ,表情,体の動きを,野生単眼slビデオから完全に自動で計測する。 商用モーションキャプチャシステムを用いて,モノクロ映像と同期した3Dアバターを定量的に評価する。 sgnifyは、slビデオで最先端の3dボディポーズと形状推定方法を上回る。 知覚的研究によると、SGNifyの3D再構成は従来の方法よりも理解しやすく自然であり、ソースビデオと同等である。 コードとデータは $\href{http://sgnify.is.tue.mpg.de}{\text{sgnify.is.tue.mpg.de}}$ で入手できる。

Sign language (SL) is the primary method of communication for the 70 million Deaf people around the world. Video dictionaries of isolated signs are a core SL learning tool. Replacing these with 3D avatars can aid learning and enable AR/VR applications, improving access to technology and online media. However, little work has attempted to estimate expressive 3D avatars from SL video; occlusion, noise, and motion blur make this task difficult. We address this by introducing novel linguistic priors that are universally applicable to SL and provide constraints on 3D hand pose that help resolve ambiguities within isolated signs. Our method, SGNify, captures fine-grained hand pose, facial expression, and body movement fully automatically from in-the-wild monocular SL videos. We evaluate SGNify quantitatively by using a commercial motion-capture system to compute 3D avatars synchronized with monocular video. SGNify outperforms state-of-the-art 3D body-pose- and shape-estimation methods on SL videos. A perceptual study shows that SGNify's 3D reconstructions are significantly more comprehensible and natural than those of previous methods and are on par with the source videos. Code and data are available at $\href{http://sgnify.is.tue.mpg.de}{\text{sgnify.is.tue.mpg.de}}$.
翻訳日:2023-04-21 12:18:40 公開日:2023-04-20
# ランダム量子回路を用いた魔法の相転移

Phase transition in magic with random quantum circuits ( http://arxiv.org/abs/2304.10481v1 )

ライセンス: Link先を確認
Pradeep Niroula, Christopher David White, Qingfeng Wang, Sonika Johri, Daiwei Zhu, Christopher Monroe, Crystal Noel, Michael J. Gullans(参考訳) マジック(magic)は、単純なゲート演算を用いた普遍的フォールトトレラント量子コンピューティングを可能にする量子状態の特性である。 マジックが生成または破壊されるメカニズムを理解することは、効率的で実用的なフォールトトレラント計算への重要なステップである。 コヒーレントエラーを受けるランダム安定化符号は、解析的、数値的、実験的プローブによって特徴付けられる魔法の位相遷移を示す。 クリティカルエラーレート以下では、スタビライザシンドロームの測定値が回路に蓄積されたマジックを除去し、コヒーレントエラーに対して効果的に保護する。 魔法の資源理論におけるそのようなリッチな振る舞いをより深く理解すれば、より効率的なマジック状態生成のための量子スピードアップと舗装経路の起源に光を当てることができる。

Magic is a property of quantum states that enables universal fault-tolerant quantum computing using simple sets of gate operations. Understanding the mechanisms by which magic is created or destroyed is, therefore, a crucial step towards efficient and practical fault-tolerant computation. We observe that a random stabilizer code subject to coherent errors exhibits a phase transition in magic, which we characterize through analytic, numeric and experimental probes. Below a critical error rate, stabilizer syndrome measurements remove the accumulated magic in the circuit, effectively protecting against coherent errors; above the critical error rate syndrome measurements concentrate magic. A better understanding of such rich behavior in the resource theory of magic could shed more light on origins of quantum speedup and pave pathways for more efficient magic state generation.
翻訳日:2023-04-21 12:18:17 公開日:2023-04-20
# 共有EPRペアによるセキュアな計算(またはゼロ知識でのテレポート方法)

Secure Computation with Shared EPR Pairs (Or: How to Teleport in Zero-Knowledge) ( http://arxiv.org/abs/2304.10480v1 )

ライセンス: Link先を確認
James Bartusek, Dakshita Khurana, Akshayaram Srinivasan(参考訳) 送信者は、どの文字列が受信されたかを知らずに、2つの文字列のうちの1つを非対話的に受信者に送信できるか? 対称キープリミティブのみを(ブラックボックス)使用する最小の対話型セキュアなマルチパーティ計算が存在するか? これらの質問に対する肯定的な回答は、当事者が共用EPRペアにアクセス可能なモデルで提供し、このリソースの暗号的パワーを実証する。 まず、共有eprペアモデルにおいてランダム受信ビットを持つ一発(すなわち単一メッセージ)の文字列 oblivious transfer (ot) プロトコルを構築し、lwe の(サブ指数的)硬さを仮定する。 これに基づいて、量子チャネルによるセキュアなテレポーテーションが可能であることを示す。 具体的には、量子演算が$Q$である場合、(量子)入力が$\rho$の送信者は単一の古典的メッセージを送信し、$Q(\rho)$を受信機に安全に送信することができる。 すなわち、送信者から入力$\rho$を受け取り、他の情報を明らかにすることなく、確実に$Q(\rho)$を受信者に届ける理想的な量子チャネルを実現する。 これは、共有eprペアモデルにおいて、(1)非対話的セキュアな一方向 \emph{classical} ランダム化関数の計算、(2)標準(サブ指数的)ハードネス仮定による qma の nizk、(3)非対話的 \emph{zero-knowledge} 状態合成プロトコル、という多くの応用をもたらす。 次に、(量子アクセス可能な)ランダムオラクルモデルにおいて、共用EPRペアモデルにおいて、古典関数のための2ラウンド(全最適)セキュアなマルチパーティ計算プロトコルを構築する。

Can a sender non-interactively transmit one of two strings to a receiver without knowing which string was received? Does there exist minimally-interactive secure multiparty computation that only makes (black-box) use of symmetric-key primitives? We provide affirmative answers to these questions in a model where parties have access to shared EPR pairs, thus demonstrating the cryptographic power of this resource. First, we construct a one-shot (i.e., single message) string oblivious transfer (OT) protocol with random receiver bit in the shared EPR pairs model, assuming the (sub-exponential) hardness of LWE. Building on this, we show that {\em secure teleportation through quantum channels} is possible. Specifically, given the description of any quantum operation $Q$, a sender with (quantum) input $\rho$ can send a single classical message that securely transmits $Q(\rho)$ to a receiver. That is, we realize an ideal quantum channel that takes input $\rho$ from the sender and provably delivers $Q(\rho)$ to the receiver without revealing any other information. This immediately gives a number of applications in the shared EPR pairs model: (1) non-interactive secure computation of unidirectional \emph{classical} randomized functionalities, (2) NIZK for QMA from standard (sub-exponential) hardness assumptions, and (3) a non-interactive \emph{zero-knowledge} state synthesis protocol. Next, we construct a two-round (round-optimal) secure multiparty computation protocol for classical functionalities in the shared EPR pairs model that is \emph{unconditionally-secure} in the (quantum-accessible) random oracle model.
翻訳日:2023-04-21 12:18:02 公開日:2023-04-20
# 急速回転する量子気体中のキラルエッジ輸送の観測

Observation of chiral edge transport in a rapidly-rotating quantum gas ( http://arxiv.org/abs/2304.10468v1 )

ライセンス: Link先を確認
Ruixiao Yao, Sungjae Chi, Biswaroop Mukherjee, Airlia Shaffer, Martin Zwierlein, and Richard J. Fletcher(参考訳) トポロジカル物質の境界における粒子の摩擦のない方向伝播は、輸送において最も顕著な現象の1つである。 これらのキラルエッジモードは整数と分数量子ホール効果の中心にあり、ノイズや障害に対する異常な堅牢性はホールの伝導率の量子化を反映している。 その中心的重要性にもかかわらず、エッジモードの制御可能な注入と、その伝播、構造、ダイナミクスの直接イメージングは困難である。 ここでは,光学境界に閉じ込められた急速回転するボゾン超流動層における個々のキラルエッジ状態の蒸留を実証する。 壁のシャープネスを調整し, 伝播速度が壁の急勾配に比例する軟壁挙動と, キラルフリー粒子を呈する硬壁構造との円滑な交差関係を明らかにする。 境界に沿った原子のスキップ運動から、地上と第1の励起エッジバンドの間のエネルギーギャップを分光的に推測し、その進化を、ソフト境界のために分割されたバルクランダウ準位から硬壁限界まで明らかにする。

The frictionless, directional propagation of particles at the boundary of topological materials is one of the most striking phenomena in transport. These chiral edge modes lie at the heart of the integer and fractional quantum Hall effects, and their extraordinary robustness against noise and disorder reflects the quantization of Hall conductivity in these systems. Despite their central importance, controllable injection of edge modes, and direct imaging of their propagation, structure, and dynamics, is challenging. Here, we demonstrate the distillation of individual chiral edge states in a rapidly-rotating bosonic superfluid confined by an optical boundary. Tuning the wall sharpness, we reveal the smooth crossover between soft wall behaviour in which the propagation speed is proportional to wall steepness, and the hard wall regime exhibiting chiral free particles. From the skipping motion of atoms along the boundary, we spectroscopically infer the energy gap between the ground and first excited edge bands, and reveal its evolution from the bulk Landau level splitting for a soft boundary, to the hard wall limit.
翻訳日:2023-04-21 12:17:26 公開日:2023-04-20
# 効率のよい深層強化学習はオーバーフィッティングを規制する必要がある

Efficient Deep Reinforcement Learning Requires Regulating Overfitting ( http://arxiv.org/abs/2304.10466v1 )

ライセンス: Link先を確認
Qiyang Li, Aviral Kumar, Ilya Kostrikov, Sergey Levine(参考訳) 試行錯誤によってポリシーを学習する深層強化学習アルゴリズムは、環境と積極的に相互作用することによって収集される限られた量のデータから学ぶ必要がある。 多くの先行研究で、データ効率のRLを実現するために適切な正規化技術が不可欠であることが示されているが、データ効率のRLにおけるボトルネックの一般的な理解はいまだ不明である。 したがって、すべての領域でうまく機能する普遍的なテクニックを考案することは困難である。 本稿では, 非定常性, 過度な作用分布シフト, 過度な適合性などの仮説を検証し, 試料効率の高い深部RLの一次ボトルネックの解明を試みる。 我々は、状態ベースのDeepMind制御スイート(DMC)タスクに対して、制御された体系的な方法で徹底的な実証分析を行い、トランジションの検証セットにおける高時間差(TD)エラーが、深いRLアルゴリズムの性能に重大な影響を及ぼす主要な原因であることを示す。 この観察により、深いRLを効率的にするためのロバストな原理が得られ、教師付き学習から任意の形式の正規化手法を利用することで、検証TD誤差をヒルクライミングすることができる。 検証TDエラーをターゲットとした簡単なオンラインモデル選択法は,状態ベースDMCおよびGymタスク間で有効であることを示す。

Deep reinforcement learning algorithms that learn policies by trial-and-error must learn from limited amounts of data collected by actively interacting with the environment. While many prior works have shown that proper regularization techniques are crucial for enabling data-efficient RL, a general understanding of the bottlenecks in data-efficient RL has remained unclear. Consequently, it has been difficult to devise a universal technique that works well across all domains. In this paper, we attempt to understand the primary bottleneck in sample-efficient deep RL by examining several potential hypotheses such as non-stationarity, excessive action distribution shift, and overfitting. We perform thorough empirical analysis on state-based DeepMind control suite (DMC) tasks in a controlled and systematic way to show that high temporal-difference (TD) error on the validation set of transitions is the main culprit that severely affects the performance of deep RL algorithms, and prior methods that lead to good performance do in fact, control the validation TD error to be low. This observation gives us a robust principle for making deep RL efficient: we can hill-climb on the validation TD error by utilizing any form of regularization techniques from supervised learning. We show that a simple online model selection method that targets the validation TD error is effective across state-based DMC and Gym tasks.
翻訳日:2023-04-21 12:17:08 公開日:2023-04-20
# ビデオ認識のための学習可能なアライメントを用いた暗黙の時間モデル

Implicit Temporal Modeling with Learnable Alignment for Video Recognition ( http://arxiv.org/abs/2304.10465v1 )

ライセンス: Link先を確認
Shuyuan Tu, Qi Dai, Zuxuan Wu, Zhi-Qi Cheng, Han Hu, Yu-Gang Jiang(参考訳) コントラスト言語画像事前訓練(CLIP)は,様々な画像タスクにおいて顕著な成功を収めている。 しかし、CLIPを効果的な時間的モデリングで拡張する方法はまだオープンで重要な問題である。 既存の因子化または共同時空間モデリングは、効率と性能のトレードオフである。 直進管内における時間情報モデリングは文献に広く採用されているが, 簡単なフレームアライメントは時間的注意を伴わずに十分重要である。 そこで本稿では,極めて高い性能を達成しつつ,時間的モデリングの労力を最小限に抑える新しいImplicit Learnable Alignment(ILA)手法を提案する。 具体的には、フレーム対について、相互情報リッチ領域として機能し、各フレームで対話点を予測する。 インタラクティブポイント周辺の機能を強化することで、2つのフレームは暗黙的にアライメントされる。 整列された特徴は単一のトークンにプールされ、その後の空間的自己アテンションに利用されます。 ビデオにおける時間的自己注意のコストや不足を排除できる。 ベンチマークに関する広範な実験は、モジュールの優越性と汎用性を示している。 特に、提案されたiraは、swin-lやvivit-hに比べてはるかに少ないフロップで、kinetics-400で88.7%のtop-1精度を達成している。 コードはhttps://github.com/Francis-Rings/ILA で公開されている。

Contrastive language-image pretraining (CLIP) has demonstrated remarkable success in various image tasks. However, how to extend CLIP with effective temporal modeling is still an open and crucial problem. Existing factorized or joint spatial-temporal modeling trades off between the efficiency and performance. While modeling temporal information within straight through tube is widely adopted in literature, we find that simple frame alignment already provides enough essence without temporal attention. To this end, in this paper, we proposed a novel Implicit Learnable Alignment (ILA) method, which minimizes the temporal modeling effort while achieving incredibly high performance. Specifically, for a frame pair, an interactive point is predicted in each frame, serving as a mutual information rich region. By enhancing the features around the interactive point, two frames are implicitly aligned. The aligned features are then pooled into a single token, which is leveraged in the subsequent spatial self-attention. Our method allows eliminating the costly or insufficient temporal self-attention in video. Extensive experiments on benchmarks demonstrate the superiority and generality of our module. Particularly, the proposed ILA achieves a top-1 accuracy of 88.7% on Kinetics-400 with much fewer FLOPs compared with Swin-L and ViViT-H. Code is released at https://github.com/Francis-Rings/ILA .
翻訳日:2023-04-21 12:16:40 公開日:2023-04-20
# 自然言語によるプログラミングの学習

Learning to Program with Natural Language ( http://arxiv.org/abs/2304.10464v1 )

ライセンス: Link先を確認
Yiduo Guo, Yaobo Liang, Chenfei Wu, Wenshan Wu, Dongyan Zhao, Nan Duan(参考訳) 大規模言語モデル(LLM)は、様々な基本自然言語タスクにおいて顕著な性能を示し、人工知能の実現への期待を高めている。 複雑なタスクをより完了させるためには、タスクをプログラムし、それからプログラムに従ってテストサンプルの特定のソリューションを生成する必要がある。 タスク手順を記述するための新しいプログラミング言語として自然言語を使うことを提案し,人間とllmの両方で容易に理解できるようにする。 LLMは自然言語プログラムを直接生成できるが、これらのプログラムは事実の誤りや不完全なステップを含む可能性がある。 そこで本研究では,複雑なタスクの学習データセットから自然言語プログラムを学習し,学習プログラムを用いて推論をガイドする学習 to Program (LP)法を提案する。 AMPS(高校数学)とMath(競争数学問題)のデータセットに関する実験は、我々のアプローチの有効性を実証している。 AMPSデータセットから10タスクでChatGPTをテストする場合、我々のLPメソッドの平均性能は、直接ゼロショットテストのパフォーマンスを18.3$\%$で上回った。 コードは \url{https://github.com/microsoft/naturallanguageprogram} でリリースします。

Large Language Models (LLMs) have shown remarkable performance in various basic natural language tasks, which raises hopes for achieving Artificial General Intelligence. To better complete complex tasks, we need LLMs to program for the task and then follow the program to generate a specific solution for the test sample. We propose using natural language as a new programming language to describe task procedures, making them easily understandable to both humans and LLMs. LLMs are capable of directly generating natural language programs, but these programs may still contain factual errors or incomplete steps. Therefore, we further propose the Learning to Program (LP) method to ask LLMs themselves to learn natural language programs from the training dataset of complex tasks and then use the learned program to guide inference. Our experiments on the AMPS (high school math) and Math (competition mathematics problems) datasets demonstrate the effectiveness of our approach. When testing ChatGPT on 10 tasks from the AMPS dataset, our LP method's average performance outperformed the direct zero-shot test performance by 18.3$\%$. We release our code at \url{https://github.com/microsoft/NaturalLanguageProgram}.
翻訳日:2023-04-21 12:16:21 公開日:2023-04-20
# 2次元非可換アノンに対する生成と消滅作用素

Creation and annihilation operators for 2D non-abelian anyons ( http://arxiv.org/abs/2304.10462v1 )

ライセンス: Link先を確認
Nicetu Tibau Vidal and Lucia Vilchez-Estevez(参考訳) 我々は、任意の2次元非アーベル・アノン理論に対する生成および消滅作用素を、アノン図形形式から代数構造を研究することによって定義する。 我々は fibonacci anyons の生成演算子を明示的に構築する。 粒子タイプごとの単一の生成演算子だけでは不十分であり、全ての代替核融合チャネルに対して追加生成演算子が必要である。 これらの生成および消滅演算子の観点から、物理的に許容される任意の可観測性を表現する。 最後に、2D Fibonacci Hubbard Hamiltonian を Fibonacci の生成と消滅演算子の観点から表現し、これらの生成と消滅演算子に基づくシミュレーション手法の開発についてコメントする。

We define creation and annihilation operators for any 2D non-abelian anyon theory by studying the algebraic structure from the anyon diagrammatic formalism. We construct the creation operators for Fibonacci anyons explicitly. We obtain that a single creation operator per particle type is not enough; we need an extra creation operator for every alternative fusion channel. We express any physically allowed observable in terms of these creation and annihilation operators. Finally, we express the 2D Fibonacci Hubbard Hamiltonian in terms of the Fibonacci creation and annihilation operators, and we comment on developing methods for simulation based on these creation and annihilation operators.
翻訳日:2023-04-21 12:16:01 公開日:2023-04-20
# 離散時間量子ウォークの位置依存型コイン演算子に対する可変深さ量子回路

Adjustable-depth quantum circuit for position-dependent coin operators of discrete-time quantum walks ( http://arxiv.org/abs/2304.10460v1 )

ライセンス: Link先を確認
Ugo Nzongani and Pablo Arnault(参考訳) 位置依存のコイン演算子を持つ離散時間量子ウォークには多くの応用がある。 十分に滑らかな位置依存に対しては、Refで提供される。 [1] 効率の良いコイン演算子の近似量子回路実装。 量子回路実装が完全である(例えば、滑らかな位置依存の場合、完全な精度を持つために、または、非スムース位置依存を扱うために)が、回路の深さが指数関数的にスケールしない場合、refの線形深さ回路を利用することができる。 [1] は指数的な数のアンシラを導入するコストで線形となる深さを達成する。 本稿では、位置依存型コイン演算子の正確な実装のための調整可能な深度量子回路を提案する。 この調整可能な深度回路は (i)線形奥行き回路を用いて平行に適用する場合は、コイン操作者の特定のパックのみ(元の線形奥行き回路[1]のように、すべてでなく)、各パックが深さに線形に寄与する。 (二)これらのパックを順次適用し、深さに指数的に寄与する。

Discrete-time quantum walks with position-dependent coin operators have numerous applications. For a position dependence that is sufficiently smooth, it has been provided in Ref. [1] an approximate quantum-circuit implementation of the coin operator that is efficient. If we want the quantum-circuit implementation to be exact (e.g., either, in the case of a smooth position dependence, to have a perfect precision, or in order to treat a non-smooth position dependence), but the depth of the circuit not to scale exponentially, then we can use the linear-depth circuit of Ref. [1], which achieves a depth that is linear at the cost of introducing an exponential number of ancillas. In this paper, we provide an adjustable-depth quantum circuit for the exact implementation of the position-dependent coin operator. This adjustable-depth circuit consists in (i) applying in parallel, with a linear-depth circuit, only certain packs of coin operators (rather than all of them as in the original linear-depth circuit [1]), each pack contributing linearly to the depth, and in (ii) applying sequentially these packs, which contributes exponentially to the depth.
翻訳日:2023-04-21 12:15:49 公開日:2023-04-20
# 配向相における長寿命一重項状態とその相転移から等方相への生存

Long-lived singlet state in oriented phase and its survival across the phase transition into isotropic phase ( http://arxiv.org/abs/2304.10459v1 )

ライセンス: Link先を確認
Vishal Varma, and T S Mahesh(参考訳) 等方性相における核スピン対の長寿命一重項状態(LLS)は、液体NMRにおいて広く研究され利用されてきたが、異方性相におけるLSSの報告はほとんどない。 本稿では,液晶溶媒のネマティック相に部分的に配向した一対の核スピンにおけるLSSの観察を報告する。 スピンは残留双極子-双極子カップリングを介して強く相互作用する。 配向相におけるLSSは、通常のスピン格子緩和時間定数(T_1$)の最大3倍長寿命である。 加熱すると、システムはネマティックから等方相への相転移を起こし、llsは対応する$t_1$の最大5倍の寿命を持つ。 興味深いことに、配向相で調製されたLSSは、ネマティックから等方相への相転移を生き残ることができる。 配向相におけるllsの応用として, 液晶溶媒中の溶質分子の小さな移動拡散係数を測定するために, その長寿命を利用する。 最後に、LSSへのアクセスをロックまたはアンロックするために位相遷移を利用することを提案する。

While long-lived singlet states (LLS) of nuclear spin pairs in the isotropic phase have been extensively studied and utilized in the liquid state NMR, there are hardly any reports of LLS in anisotropic phases. Here we report observing LLS in a pair of nuclear spins partially oriented in the nematic phase of a liquid crystal solvent. The spins are strongly interacting via the residual dipole-dipole coupling. We observe LLS in the oriented phase living up to three times longer than the usual spin-lattice relaxation time constant ($T_1$). Upon heating, the system undergoes a phase transition from nematic into isotropic phase, wherein the LLS is up to five times longer lived than the corresponding $T_1$. Interestingly, we find that the LLS prepared in the oriented phase can survive the phase transition from the nematic to the isotropic phase. As an application of LLS in the oriented phase, we utilize its longer life to measure the small translational diffusion coefficient of solute molecules in the liquid crystal solvent. Finally, we propose utilizing the phase transition to lock or unlock access to LLS.
翻訳日:2023-04-21 12:15:30 公開日:2023-04-20
# 対照的なチューニング:マスク付きオートエンコーダーを忘れる助けになる

Contrastive Tuning: A Little Help to Make Masked Autoencoders Forget ( http://arxiv.org/abs/2304.10520v1 )

ライセンス: Link先を確認
Johannes Lehner and Benedikt Alkin and Andreas F\"urst and Elisabeth Rumetshofer and Lukas Miklautz and Sepp Hochreiter(参考訳) Masked Image Modeling (MIM)メソッドは、Masked Autoencoders (MAE)のように、入力のリッチな表現を効率的に学習する。 しかし、ダウンストリームタスクへの適応には、リッチな機能はオブジェクトだけでなく、関連する画像背景もキャプチャするので、十分な量のラベル付きデータが必要である。 対照的に、インスタンス識別(ID)メソッドはオブジェクトにフォーカスする。 本研究では,mimの効率性とスケーラビリティを,大量のラベル付きデータがない下で下流分類を行うidの能力と組み合わせる方法について検討する。 そこで,本研究では,近近近距離学習(NNCLR)を事前学習したMAEに適用する,Masked Autoencoder Contrastive Tuning(MAE-CT)を提案する。 MAE-CTは、ラベルを使わずにオブジェクトのセマンティッククラスタを形成するようなリッチな機能をチューニングする。 大型で巨大なViT(Vision Transformer)モデルに適用すると、MAE-CTは、線形プローブ、k-NN、ローショット分類の精度、および教師なしクラスタリングの精度において、ImageNetで訓練された以前の自己教師付きメソッドにマッチまたは拡張する。 特に、画像の増大なしに同様の結果が得られる。 ID法は一般に手作りの強化に頼っているが、近接するルックアップは十分であり、このデータ駆動強化効果はモデルサイズによって改善される。 MAE-CTは計算効率が良い。 例えば、maeが事前トレーニングしたvit-l/16から、mae-ctはイメージネットの低ショット精度を67.7%から72.6%に、リニアプローブ精度を76.0%から80.2%に、k-nn精度を60.6%から79.1%にアップする。

Masked Image Modeling (MIM) methods, like Masked Autoencoders (MAE), efficiently learn a rich representation of the input. However, for adapting to downstream tasks, they require a sufficient amount of labeled data since their rich features capture not only objects but also less relevant image background. In contrast, Instance Discrimination (ID) methods focus on objects. In this work, we study how to combine the efficiency and scalability of MIM with the ability of ID to perform downstream classification in the absence of large amounts of labeled data. To this end, we introduce Masked Autoencoder Contrastive Tuning (MAE-CT), a sequential approach that applies Nearest Neighbor Contrastive Learning (NNCLR) to a pre-trained MAE. MAE-CT tunes the rich features such that they form semantic clusters of objects without using any labels. Applied to large and huge Vision Transformer (ViT) models, MAE-CT matches or excels previous self-supervised methods trained on ImageNet in linear probing, k-NN and low-shot classification accuracy as well as in unsupervised clustering accuracy. Notably, similar results can be achieved without additional image augmentations. While ID methods generally rely on hand-crafted augmentations to avoid shortcut learning, we find that nearest neighbor lookup is sufficient and that this data-driven augmentation effect improves with model size. MAE-CT is compute efficient. For instance, starting from a MAE pre-trained ViT-L/16, MAE-CT increases the ImageNet 1% low-shot accuracy from 67.7% to 72.6%, linear probing accuracy from 76.0% to 80.2% and k-NN accuracy from 60.6% to 79.1% in just five hours using eight A100 GPUs.
翻訳日:2023-04-21 12:10:29 公開日:2023-04-20
# 局所粒子軌道のモンテカルロ生成

Monte Carlo generation of localised particle trajectories ( http://arxiv.org/abs/2304.10518v1 )

ライセンス: Link先を確認
Ivan Ahumada and James P. Edwards(参考訳) 我々は,局所的相互作用のサンプリングを改善するファインマン経路積分のモンテカルロシミュレーションの修正を導入する。 新しいアルゴリズムは、重要なサンプリングを思い起こさせる相互作用領域に集中するように設計された単純な背景電位で軌道を生成する。 これはシステムの統計的サンプリングを改善し、ブラウン運動に固有の空間拡散に起因する長年の「アンダーサンプリング問題」を克服する。 我々は、経路積分軌道上のウィルソン線の値分布に関する以前の分析研究を用いて、このアプローチの有効性を証明し、いくつかの単純な量子力学系の改良を示す。

We introduce modifications to Monte Carlo simulations of the Feynman path integral that improve sampling of localised interactions. The new algorithms generate trajectories in simple background potentials designed to concentrate them about the interaction region, reminiscent of importance sampling. This improves statistical sampling of the system and overcomes a long-time "undersampling problem" caused by the spatial diffusion inherent in Brownian motion. We prove the validity of our approach using previous analytic work on the distribution of values of the Wilson line over path integral trajectories and illustrate the improvements on some simple quantum mechanical systems
翻訳日:2023-04-21 12:09:51 公開日:2023-04-20
# 医用画像解析のためのsegment anythingモデル--実験的検討

Segment Anything Model for Medical Image Analysis: an Experimental Study ( http://arxiv.org/abs/2304.10517v1 )

ライセンス: Link先を確認
Maciej A. Mazurowski, Haoyu Dong, Hanxue Gu, Jichen Yang, Nicholas Konz, Yixin Zhang(参考訳) 医用画像のセグメンテーションモデルは、データアノテーションの可用性と取得費用が限られているため、いまだに困難である。 Segment Anything Model (SAM)は10億以上のアノテーションに基づいてトレーニングされた基礎モデルであり、主に自然画像を対象としており、ユーザ定義の関心対象をインタラクティブな方法でセグメント化することを目的としている。 自然画像における印象的な性能にもかかわらず、医療画像領域に移行する際にモデルがどのように影響を受けるかは不明だ。 本稿では,様々な形態や解剖から11の医用画像データセットを収集し,samの医療画像のセグメント化能力について広範な評価を行った。 実験では,対話的セグメンテーションをシミュレートする標準手法を用いて点プロンプトを生成した。 実験の結果,1回のプロンプトに基づくSAMのパフォーマンスは,脊椎MRIデータセットの0.1135から股関節X線データセットの0.8650まで,タスクやデータセットによって大きく異なることがわかった。 腫瘍のセグメンテーションのような他の多くのシナリオでは、不明瞭なプロンプトと貧弱なプロンプトを持つ、よく知られたオブジェクトを含むタスクのパフォーマンスは高いように見える。 複数のプロンプトが提供されると、パフォーマンスがわずかに改善されるだけでなく、オブジェクトが連続していないデータセットも改善される。 RITMと比較すると、SAMは1つのプロンプトに対してより優れた性能を示したが、2つのメソッドの同様の性能はより多くのプロンプトに対して高い性能を示した。 ゼロショット学習のセットアップでは、samはいくつかのデータセットで印象的なパフォーマンスを示すが、他のデータセットではパフォーマンスが低かった。 SAMは、モデルとして、そして学習パラダイムとして、医療画像領域に影響を及ぼすかもしれないが、この領域に適応する適切な方法を特定するためには、広範な研究が必要である。

Training segmentation models for medical images continues to be challenging due to the limited availability and acquisition expense of data annotations. Segment Anything Model (SAM) is a foundation model trained on over 1 billion annotations, predominantly for natural images, that is intended to be able to segment the user-defined object of interest in an interactive manner. Despite its impressive performance on natural images, it is unclear how the model is affected when shifting to medical image domains. Here, we perform an extensive evaluation of SAM's ability to segment medical images on a collection of 11 medical imaging datasets from various modalities and anatomies. In our experiments, we generated point prompts using a standard method that simulates interactive segmentation. Experimental results show that SAM's performance based on single prompts highly varies depending on the task and the dataset, i.e., from 0.1135 for a spine MRI dataset to 0.8650 for a hip x-ray dataset, evaluated by IoU. Performance appears to be high for tasks including well-circumscribed objects with unambiguous prompts and poorer in many other scenarios such as segmentation of tumors. When multiple prompts are provided, performance improves only slightly overall, but more so for datasets where the object is not contiguous. An additional comparison to RITM showed a much better performance of SAM for one prompt but a similar performance of the two methods for a larger number of prompts. We conclude that SAM shows impressive performance for some datasets given the zero-shot learning setup but poor to moderate performance for multiple other datasets. While SAM as a model and as a learning paradigm might be impactful in the medical imaging domain, extensive research is needed to identify the proper ways of adapting it in this domain.
翻訳日:2023-04-21 12:09:42 公開日:2023-04-20
# なぜChatGPTは疑問に答えるに足りないのか?

Why Does ChatGPT Fall Short in Answering Questions Faithfully? ( http://arxiv.org/abs/2304.10513v1 )

ライセンス: Link先を確認
Shen Zheng, Jie Huang, Kevin Chen-Chuan Chang(参考訳) ChatGPTのような大規模言語モデルの最近の進歩は、人間の生活の様々な側面に影響を与える大きな可能性を示している。 しかし、ChatGPTは誠実さなどの側面で依然として課題に直面している。 質問応答を代表的アプリケーションとして捉え、なぜChatGPTが質問に忠実に答えないのかを理解する。 この問題に対処するため,我々はchatgptの障害を複雑なオープンドメイン質問応答で分析し,その障害下の能力を特定する。 具体的には、chatgptの失敗を理解、事実性、特異性、推論の4つのタイプに分類する。 さらに、QA失敗に関連する3つの重要な能力、すなわち、知識記憶、知識関連、知識推論を指摘します。 また,これらの能力に着目した実験を行い,忠実性を高めるための潜在的アプローチを提案する。 その結果, モデルに詳細な外部知識を付与し, 知識関連を示唆し, 推論の指導を行うことで, モデルをより忠実に解答できる可能性が示唆された。

Recent advancements in Large Language Models, such as ChatGPT, have demonstrated significant potential to impact various aspects of human life. However, ChatGPT still faces challenges in aspects like faithfulness. Taking question answering as a representative application, we seek to understand why ChatGPT falls short in answering questions faithfully. To address this question, we attempt to analyze the failures of ChatGPT in complex open-domain question answering and identifies the abilities under the failures. Specifically, we categorize ChatGPT's failures into four types: comprehension, factualness, specificity, and inference. We further pinpoint three critical abilities associated with QA failures: knowledge memorization, knowledge association, and knowledge reasoning. Additionally, we conduct experiments centered on these abilities and propose potential approaches to enhance faithfulness. The results indicate that furnishing the model with fine-grained external knowledge, hints for knowledge association, and guidance for reasoning can empower the model to answer questions more faithfully.
翻訳日:2023-04-21 12:09:10 公開日:2023-04-20
# 「物質使用障害は検出できるか?」 : ダークウェブからソーシャルメディア上での知識と時間意識の分類

"Can We Detect Substance Use Disorder?": Knowledge and Time Aware Classification on Social Media from Darkweb ( http://arxiv.org/abs/2304.10512v1 )

ライセンス: Link先を確認
Usha Lokala, Orchid Chetia Phukan, Triyasha Ghosh Dastidar, Francois Lamy, Raminta Daniulaityte, Amit Sheth(参考訳) 現在では、オピオイドや物質乱用が増加しており、この現象は「オピオイド危機」と呼ばれている。 物質使用と精神の健康との関係は広く研究されており、一つは「物質誤用は精神の健康を損なう」という関係である。 しかし、この関係に関する証拠の欠如により、オピオイドは法的な手段でほとんどアクセスできない。 本研究は,オピオイドを暗号市場上場を通じて販売するソーシャルメディア上での物質使用状況を分析した。 我々は、薬物乱用オントロジー、最先端のディープラーニング、知識を意識したBERTベースのモデルを使用して、ソーシャルメディア投稿に対する感情と感情を生成し、ソーシャルメディア上のユーザの認識を理解する。 どんな薬が恐怖と悲しみを 引き起こしたのか? または、人々が愛したり、感謝している薬の種類? どの薬を否定的に考えるのか? オピオイドは感情的な反応をほとんど起こさないのです 我々は、暗号市場データのクロールと、フェンタニル、フェンタニルアナログ、および他の新規合成オピオイドのポスト抽出におけるその利用について論じる。 また、生成した感情や感情に関連するトピック分析を行い、どのトピックが様々な薬物に対する人々の反応と関連しているかを理解する。 さらに,これらの特徴に基づいて構築された時間認識ニューラルモデルを分析し,薬物関連記事の歴史的感情と感情活動について検討した。 最も効果的なモデルは、薬物使用障害を特定するために(macrof1=82.12、recall =83.58)よく機能する(統計的に有意)。

Opioid and substance misuse is rampant in the United States today, with the phenomenon known as the "opioid crisis". The relationship between substance use and mental health has been extensively studied, with one possible relationship being: substance misuse causes poor mental health. However, the lack of evidence on the relationship has resulted in opioids being largely inaccessible through legal means. This study analyzes the substance use posts on social media with opioids being sold through crypto market listings. We use the Drug Abuse Ontology, state-of-the-art deep learning, and knowledge-aware BERT-based models to generate sentiment and emotion for the social media posts to understand users' perceptions on social media by investigating questions such as: which synthetic opioids people are optimistic, neutral, or negative about? or what kind of drugs induced fear and sorrow? or what kind of drugs people love or are thankful about? or which drugs people think negatively about? or which opioids cause little to no sentimental reaction. We discuss how we crawled crypto market data and its use in extracting posts for fentanyl, fentanyl analogs, and other novel synthetic opioids. We also perform topic analysis associated with the generated sentiments and emotions to understand which topics correlate with people's responses to various drugs. Additionally, we analyze time-aware neural models built on these features while considering historical sentiment and emotional activity of posts related to a drug. The most effective model performs well (statistically significant) with (macroF1=82.12, recall =83.58) to identify substance use disorder.
翻訳日:2023-04-21 12:08:55 公開日:2023-04-20
# 化学データを検閲して二重利用リスクを軽減

Censoring chemical data to mitigate dual use risk ( http://arxiv.org/abs/2304.10510v1 )

ライセンス: Link先を確認
Quintina L. Campbell, Jonathan Herington, Andrew D. White(参考訳) モデルが有益な目的と悪意のある目的の両方に使用できる機械学習アプリケーションの二重利用は、大きな課題となる。 これは化学において特に関心事となり、敏感なラベル(例えば毒性情報)を含む化学データセットは、新しい毒素や化学兵器を識別する予測モデルの開発に使用できる。 そこで本研究では,深層ニューラルネットワークを有益領域に訓練するためのデータの有用性を維持しつつ,データセットを選択的に通知するモデル非依存手法を提案する。 本研究では,提案手法の有効性を最小二乗数,多層パーセプトロン,グラフニューラルネットワークで評価する。 本研究は,選択的にノイズの多いデータセットが,機密情報を含むデータセットの安全な共有が実現可能であることを示唆する。 また、感度データを省略することでモデルの分散が増大し、二重利用が軽減される。 この研究は、よりセキュアで協調的なデータ共有プラクティスとより安全な機械学習アプリケーションを化学で実現するための将来の研究の基盤として提案されている。

The dual use of machine learning applications, where models can be used for both beneficial and malicious purposes, presents a significant challenge. This has recently become a particular concern in chemistry, where chemical datasets containing sensitive labels (e.g. toxicological information) could be used to develop predictive models that identify novel toxins or chemical warfare agents. To mitigate dual use risks, we propose a model-agnostic method of selectively noising datasets while preserving the utility of the data for training deep neural networks in a beneficial region. We evaluate the effectiveness of the proposed method across least squares, a multilayer perceptron, and a graph neural network. Our findings show selectively noised datasets can induce model variance and bias in predictions for sensitive labels with control, suggesting the safe sharing of datasets containing sensitive information is feasible. We also find omitting sensitive data often increases model variance sufficiently to mitigate dual use. This work is proposed as a foundation for future research on enabling more secure and collaborative data sharing practices and safer machine learning applications in chemistry.
翻訳日:2023-04-21 12:08:26 公開日:2023-04-20
# 非凸非スムース最適化問題に対する射影的近位勾配降下:クルディカ・ロジャシェヴィチ(kl)特性のない高速収束

Projective Proximal Gradient Descent for A Class of Nonconvex Nonsmooth Optimization Problems: Fast Convergence Without Kurdyka-Lojasiewicz (KL) Property ( http://arxiv.org/abs/2304.10499v1 )

ライセンス: Link先を確認
Yingzhen Yang, Ping Li(参考訳) 非凸および非滑らかな最適化問題は、統計と機械学習にとって重要かつ困難である。 本稿では,非凸・非平滑な最適化問題のクラスを非凸・非平滑な非平滑な正規化項から解き,非凸・非平滑な最適化問題であるPGD(Projected Proximal Gradient Descent)を提案する。 クルディカ・オジャシエヴィチ(K\L{}ojasiewicz)の性質に基づく非凸および非滑らか問題に対する加速PGD法の既存の収束解析とは対照的に、PPGDの局所的高速収束を示す新しい理論解析を提供する。 リプシッツ連続勾配を持つ滑らかで凸目的関数上の一階法の局所収束率である、穏やかな仮定の下での非凸および非滑らか問題のクラス上の有限な$k_0$に対する反復数 $k \ge k_0$ に対して、ppgd が高速収束率 $\co(1/k^2)$ を達成することが証明された。 実験の結果, PPGDの有効性が示された。

Nonconvex and nonsmooth optimization problems are important and challenging for statistics and machine learning. In this paper, we propose Projected Proximal Gradient Descent (PPGD) which solves a class of nonconvex and nonsmooth optimization problems, where the nonconvexity and nonsmoothness come from a nonsmooth regularization term which is nonconvex but piecewise convex. In contrast with existing convergence analysis of accelerated PGD methods for nonconvex and nonsmooth problems based on the Kurdyka-\L{}ojasiewicz (K\L{}) property, we provide a new theoretical analysis showing local fast convergence of PPGD. It is proved that PPGD achieves a fast convergence rate of $\cO(1/k^2)$ when the iteration number $k \ge k_0$ for a finite $k_0$ on a class of nonconvex and nonsmooth problems under mild assumptions, which is locally Nesterov's optimal convergence rate of first-order methods on smooth and convex objective function with Lipschitz continuous gradient. Experimental results demonstrate the effectiveness of PPGD.
翻訳日:2023-04-21 12:08:07 公開日:2023-04-20
# 外電場におけるナノ構造金属格子による陽子の近接場回折:talbot自己イメージングにおける非対称性とサイドバンド

Near-field diffraction of protons by a nanostructured metallic grating under external electric field: Asymmetry and sidebands in Talbot self-imaging ( http://arxiv.org/abs/2304.10497v1 )

ライセンス: Link先を確認
Sushanta Barman and Sudeep Bhattacharjee(参考訳) 近距離場回折における自己イメージングは、タルボット干渉法における物質波のコヒーレント操作の実用的な応用である。 ナノ構造金属格子による陽子の近接場回折 (a)制服。 (b)空間的変調、及び (c)時間変調電場について検討した。 量子系に対する一般化有限差分時間領域(gfdtd-q)法を用いた時間依存schr\"odinger方程式を解いて、陽子に対する2次元ガウス波パケットの時間領域シミュレーションを行う。 均一電界の強度(e_0$)と配向(\theta$)が縞模様,ピーク強度,縞シフト,視認性などの回折特性に及ぼす影響について検討した。 その結果, 印加電場 (\delta e_0$ $=0.1$ v/m) と配向 (\delta \theta$$$=0.1^o$) のわずかな変化であっても, タルボットの縞は横方向に大きく変化することがわかった。 空間的に変調された電場から生じる電位障壁は、変調長(\lambda'$)がデブロリー波長(\lambda_{dB}$)と等しいとき、タルボットパターンにおいて大きな歪みを引き起こす。 振動の頻度 (\omega$) が$\omega_0$ (=2\pi/t_0$) のオーダーである場合、振動場からウェーブパケットへのエネルギーの効率的な転送により、talbotパターンでサイドバンドが観察される。 本研究は,一様電場制御精密計測において有用であり,talbot干渉に基づく高感度電場センサを開発し,マターウェーブの光学的セットアップを高精度に調整する。 さらに、Talbot fringeのサイドバンドは、物質波干渉計における運動量スプリッタとして正確な道具として使用できる。

Self-imaging in near-field diffraction is a practical application of coherent manipulation of matter waves in Talbot interferometry. In this work, near-field diffraction of protons by a nanostructured metallic grating under the influence of (a) uniform, (b) spatially modulated, and (c) temporally modulated electric fields are investigated. Time-domain simulations of two-dimensional Gaussian wave packets for protons are performed by solving the time-dependent Schr\"odinger's equation using the generalized finite difference time domain (GFDTD-Q) method for quantum systems. Effects of strength ($E_0$) and orientation ($\theta$) of the uniform electric field on the diffraction properties, such as fringe pattern, intensity of the peaks, fringe shift, and visibility, are investigated. The results show that the Talbot fringes shift significantly in the transverse direction even for a small change in the applied electric field ($\Delta E_0$ $=0.1$ V/m) and its orientation ($\Delta \theta$ $=0.1^o$). The potential barriers arising from a spatially modulated electric field are observed to cause significant distortions in the Talbot patterns when the modulation length ($\lambda'$) is equal to the de Broglie wavelength ($\lambda_{dB}$). Sidebands are observed in the Talbot pattern due to the efficient transfer of energy from the oscillating field to the wave packet when the frequency of oscillation ($\omega$) is of the order of $\omega_0$ ($=2\pi/T_0$), where $T_0$ is the interaction time. This study will be helpful in uniform electric field-controlled precision metrology, developing a highly sensitive electric field sensor based on Talbot interference, and precisely aligning the matter wave optical setup. Furthermore, the sidebands in the Talbot fringe can be used as a precise tool as momentum splitter in matter wave interferometry.
翻訳日:2023-04-21 12:07:38 公開日:2023-04-20
# 分割問題に対するグローバーのオラクルの位相的保護

Topologically protected Grover's oracle for the Partition Problem ( http://arxiv.org/abs/2304.10488v1 )

ライセンス: Link先を確認
Nikolai A. Sinitsyn and Bin Yan(参考訳) NPP(Number Partitioning Problem)はNP完全計算問題の1つである。 その明確な厳密解は一般に指数関数的に大きいn$ソリューション候補のチェックを必要とする。 ここでは、この問題の高速解への経路を$\sqrt{n}$ pseudo-adiabatic quantum annealing step で記述する。 量子アニーリングの有限持続時間による誤差は、アニーリング時間が対数的に$N$のみでスケールした場合に抑制できると主張する。 さらに,我々の断熱オラクルは,物理パラメータの小さな不確実性と遅い時間依存性やアニーリングプロトコルの選択に対して頑健であるという意味で,トポロジカルに保護されている。

The Number Partitioning Problem (NPP) is one of the NP-complete computational problems. Its definite exact solution generally requires a check of all $N$ solution candidates, which is exponentially large. Here we describe a path to the fast solution of this problem in $\sqrt{N}$ quasi-adiabatic quantum annealing steps. We argue that the errors due to the finite duration of the quantum annealing can be suppressed if the annealing time scales with $N$ only logarithmically. Moreover, our adiabatic oracle is topologically protected, in the sense that it is robust against small uncertainty and slow time-dependence of the physical parameters or the choice of the annealing protocol.
翻訳日:2023-04-21 12:07:00 公開日:2023-04-20
# 軌道投入の統計的解析から構築したサイズ一貫性波動関数アンサッツ

A Size-Consistent Wave-function Ansatz Built from Statistical Analysis of Orbital Occupations ( http://arxiv.org/abs/2304.10484v1 )

ライセンス: Link先を確認
Valerii Chuiko, Paul W. Ayers(参考訳) 量子多体問題への直接的アプローチは、いわゆる「次元の曲線」に苦しむ: 正確な波動関数を完全に特定するのに必要とされるパラメータの数は、システムのサイズが大きくなるにつれて指数関数的に増加する。 これは、カップルクラスタ理論や相関積状態(CPS)のような方法を含む波動関数をパラメータ化する方法の正確な発展を動機付けている。 近年、ニューラルネットワークアーキテクチャの直接的な応用と、従来の波動関数パラメトリゼーションとボルツマンマシンの組合せの両方に基づく機械学習アプローチへの関心が高まっている。 これらの手法はすべて原理的には完全であるが、通常は多項式数のパラメータで適用され、適用性が制限される。 この研究の目的は、サイズ一貫性があり、急速に収束し、数値的にロバストな波動関数パラメトリゼーションへの新しいアプローチを示すことである。 具体的には、(最小二乗最適化の数に関して)急速に収束する階層型ansatzを提案する。 このアプローチの汎用性は、小さな分子や1次元ハバードモデルを含む無相関、弱相関、強相関系に適用することで検証される。

Direct approaches to the quantum many-body problem suffer from the so-called "curse of dimensionality": the number of parameters needed to fully specify the exact wavefunction grows exponentially with increasing system size. This motivates the develop of accurate, but approximate, ways to parametrize the wavefunction, including methods like couple cluster theory and correlator product states (CPS). Recently, there has been interest in approaches based on machine learning both direct applications of neural network architecture and the combinations of conventional wavefunction parametrizations with various Boltzmann machines. While all these methods can be exact in principle, they are usually applied with only a polynomial number of parameters, limiting their applicability. This research's objective is to present a fresh approach to wavefunction parametrization that is size-consistent, rapidly convergent, and robust numerically. Specifically, we propose a hierarchical ansatz that converges rapidly (with respect to the number of least-squares optimization). The general utility of this approach is verified by applying it to uncorrelated, weakly-correlated, and strongly-correlated systems, including small molecules and the one-dimensional Hubbard model.
翻訳日:2023-04-21 12:06:46 公開日:2023-04-20
# 実時間ビュー合成のためのニューラル・デュプレックス・ラジアンス・フィールドの学習

Learning Neural Duplex Radiance Fields for Real-Time View Synthesis ( http://arxiv.org/abs/2304.10537v1 )

ライセンス: Link先を確認
Ziyu Wan, Christian Richardt, Alja\v{z} Bo\v{z}i\v{c}, Chao Li, Vijay Rengarajan, Seonghyeon Nam, Xiaoyu Xiang, Tuotuo Li, Bo Zhu, Rakesh Ranjan, Jing Liao(参考訳) neural radiance fields(nerfs)は、前例のない視覚品質を持つ新しいビュー合成を可能にする。 しかし、フォトリアリスティック画像をレンダリングするには、NeRFは各ピクセルに対して数百の深層パーセプトロン(MLP)評価を必要とする。 これは非常に高価で、最新の強力なGPUでもリアルタイムレンダリングが実現できない。 本稿では,超並列グラフィックスレンダリングパイプラインと完全互換な,高効率なメッシュベースニューラルネットワーク表現にnerfを蒸留・焼成する新しい手法を提案する。 2層2重メッシュ上に符号化された神経放射能特徴としてシーンを表現し,高信頼な光-表面交差区間から収集した放射能情報を学習することにより,3次元表面再構成における固有不正確性を効果的に克服する。 近傍の画素の局所的幾何学的関係を活かすために,NeRFのMLPの代わりにスクリーン空間の畳み込みを活用し,高品質な外観を実現する。 最後に、新しい多視点蒸留最適化戦略により、フレームワーク全体の性能をさらに向上させる。 提案手法の有効性と優位性を,各種標準データセットの広範な実験を通じて実証する。

Neural radiance fields (NeRFs) enable novel view synthesis with unprecedented visual quality. However, to render photorealistic images, NeRFs require hundreds of deep multilayer perceptron (MLP) evaluations - for each pixel. This is prohibitively expensive and makes real-time rendering infeasible, even on powerful modern GPUs. In this paper, we propose a novel approach to distill and bake NeRFs into highly efficient mesh-based neural representations that are fully compatible with the massively parallel graphics rendering pipeline. We represent scenes as neural radiance features encoded on a two-layer duplex mesh, which effectively overcomes the inherent inaccuracies in 3D surface reconstruction by learning the aggregated radiance information from a reliable interval of ray-surface intersections. To exploit local geometric relationships of nearby pixels, we leverage screen-space convolutions instead of the MLPs used in NeRFs to achieve high-quality appearance. Finally, the performance of the whole framework is further boosted by a novel multi-view distillation optimization strategy. We demonstrate the effectiveness and superiority of our approach via extensive experiments on a range of standard datasets.
翻訳日:2023-04-21 12:00:07 公開日:2023-04-20
# 反復再重み付け最小化による画像回復のためのスパースと低ランクの事前学習

Learning Sparse and Low-Rank Priors for Image Recovery via Iterative Reweighted Least Squares Minimization ( http://arxiv.org/abs/2304.10536v1 )

ライセンス: Link先を確認
Stamatios Lefkimmiatis and Iaroslav Koshelev(参考訳) 学習したスパース制約とローランク制約の下で画像回復のための新しい最適化アルゴリズムを導入し、$\ell_p^p$-vector と $\mathcal S_p^p$ Schatten-matrix quasi-norms for $0\! <p\! それぞれle1$である。 提案アルゴリズムは,信号の復号化に$\ell_1$と最小限の核ノルム制約で使用するIRLS法を一般化する。 さらに、我々の全体最小化アプローチを、逆の低レベルコンピュータビジョン問題に対処するために使用するリカレントネットワークとして解釈する。 この収束によって、IRLS戦略が提供できることが保証されるため、メモリ効率の高い暗黙のバックプロパゲーションスキームを用いて、派生した再構成ネットワークをトレーニングすることができる。 ネットワークの性能を評価するために,画像劣化,超解像,復号化,スパースリカバリなど,いくつかの逆問題に対する既存手法との比較を行った。 我々の再構成結果は、非常に競争力があり、多くの場合、学習したモデルよりもパラメータ数が桁違いに高い既存の未ロールネットワークよりも優れています。

We introduce a novel optimization algorithm for image recovery under learned sparse and low-rank constraints, which we parameterize as weighted extensions of the $\ell_p^p$-vector and $\mathcal S_p^p$ Schatten-matrix quasi-norms for $0\!<p\!\le1$, respectively. Our proposed algorithm generalizes the Iteratively Reweighted Least Squares (IRLS) method, used for signal recovery under $\ell_1$ and nuclear-norm constrained minimization. Further, we interpret our overall minimization approach as a recurrent network that we then employ to deal with inverse low-level computer vision problems. Thanks to the convergence guarantees that our IRLS strategy offers, we are able to train the derived reconstruction networks using a memory-efficient implicit back-propagation scheme, which does not pose any restrictions on their effective depth. To assess our networks' performance, we compare them against other existing reconstruction methods on several inverse problems, namely image deblurring, super-resolution, demosaicking and sparse recovery. Our reconstruction results are shown to be very competitive and in many cases outperform those of existing unrolled networks, whose number of parameters is orders of magnitude higher than that of our learned models.
翻訳日:2023-04-21 11:59:49 公開日:2023-04-20
# Farm3D:2D拡散による人工3D動物の学習

Farm3D: Learning Articulated 3D Animals by Distilling 2D Diffusion ( http://arxiv.org/abs/2304.10535v1 )

ライセンス: Link先を確認
Tomas Jakab, Ruining Li, Shangzhe Wu, Christian Rupprecht, Andrea Vedaldi(参考訳) 我々は,事前学習した2次元拡散画像生成装置から,映像の「自由」な仮想的監視から,カテゴリー別3次元再構成を学習するFarm3Dを提案する。 最近のアプローチでは、オブジェクトカテゴリの単眼画像の集合と、任意のオブジェクトの発生の3d形状、アルベド、照明、視点を予測する単眼ネットワークから学ぶことができる。 本稿では,そのような再構成ネットワークをスクラッチから学習するための仮想トレーニングデータを生成するために,安定拡散のような画像生成器を用いたフレームワークを提案する。 さらに,さらに学習を改善するためのスコアとして拡散モデルを含める。 この考え方は、視点や照明などの再構成のいくつかの側面をランダム化し、再構成された3Dオブジェクトの合成ビューを生成し、2Dネットワークに画像の品質を評価し、再構成者にフィードバックを提供することである。 本手法は, テキストプロンプト毎に1つの3dアセットを数時間で生成する蒸留作業と異なり, 任意の画像, 実画像, 生成画像から制御可能な3dアセットを, わずか数秒で出力できる単眼再構成ネットワークを生成する。 本ネットワークは,単眼的再構成や合成などの解析や,ビデオゲームなどのリアルタイムアプリケーションのための明瞭なアセット生成に使用することができる。

We present Farm3D, a method to learn category-specific 3D reconstructors for articulated objects entirely from "free" virtual supervision from a pre-trained 2D diffusion-based image generator. Recent approaches can learn, given a collection of single-view images of an object category, a monocular network to predict the 3D shape, albedo, illumination and viewpoint of any object occurrence. We propose a framework using an image generator like Stable Diffusion to generate virtual training data for learning such a reconstruction network from scratch. Furthermore, we include the diffusion model as a score to further improve learning. The idea is to randomise some aspects of the reconstruction, such as viewpoint and illumination, generating synthetic views of the reconstructed 3D object, and have the 2D network assess the quality of the resulting image, providing feedback to the reconstructor. Different from work based on distillation which produces a single 3D asset for each textual prompt in hours, our approach produces a monocular reconstruction network that can output a controllable 3D asset from a given image, real or generated, in only seconds. Our network can be used for analysis, including monocular reconstruction, or for synthesis, generating articulated assets for real-time applications such as video games.
翻訳日:2023-04-21 11:59:21 公開日:2023-04-20
# Nerfbusters:原因不明のNeRFからゴーストなアーティファクトを除去する

Nerfbusters: Removing Ghostly Artifacts from Casually Captured NeRFs ( http://arxiv.org/abs/2304.10532v1 )

ライセンス: Link先を確認
Frederik Warburg, Ethan Weber, Matthew Tancik, Aleksander Holynski, Angjoo Kanazawa(参考訳) カジュアルに捕獲されたニューラル・ラジアンス・フィールド(nerfs)は、カメラの軌道の外でレンダリングする際にフローターや欠陥のある幾何学などの人工物に苦しむ。 既存の評価プロトコルは、通常、トレーニングキャプチャの8番目のフレームごとに画像品質のみを評価するため、これらの効果をキャプチャしないことが多い。 新規視点合成の進歩を推し進めるために,2つのカメラトラジェクトリがシーンに記録され,一方がトレーニングに,もう一方が評価に使用される新しいデータセットと評価手順を提案する。 このより困難な状況下では、既存の手作りの正規化器はフローターを除去したり、風景形状を改良したりしない。 そこで我々は, 局所的な3次元先行値と新しい密度に基づくスコア蒸留サンプリング損失を利用した3次元拡散法を提案する。 このデータ駆動型プリエントはフローターを取り除き,カジュアルキャプチャのためのシーン形状を改善する。

Casually captured Neural Radiance Fields (NeRFs) suffer from artifacts such as floaters or flawed geometry when rendered outside the camera trajectory. Existing evaluation protocols often do not capture these effects, since they usually only assess image quality at every 8th frame of the training capture. To push forward progress in novel-view synthesis, we propose a new dataset and evaluation procedure, where two camera trajectories are recorded of the scene: one used for training, and the other for evaluation. In this more challenging in-the-wild setting, we find that existing hand-crafted regularizers do not remove floaters nor improve scene geometry. Thus, we propose a 3D diffusion-based method that leverages local 3D priors and a novel density-based score distillation sampling loss to discourage artifacts during NeRF optimization. We show that this data-driven prior removes floaters and improves scene geometry for casual captures.
翻訳日:2023-04-21 11:59:00 公開日:2023-04-20
# マルチモーダル顔生成・編集のための協調拡散

Collaborative Diffusion for Multi-Modal Face Generation and Editing ( http://arxiv.org/abs/2304.10530v1 )

ライセンス: Link先を確認
Ziqi Huang, Kelvin C.K. Chan, Yuming Jiang, Ziwei Liu(参考訳) 拡散モデルは最近強力な生成ツールとして現れる。 大きな進展にもかかわらず、既存の拡散モデルは主に一様制御、すなわち拡散過程は条件の1つの様相によってのみ駆動される。 ユーザの創造性をさらに解き放つためには、例えば、顔の形(マスク駆動)を描きながら、年齢(テキスト駆動)を記述して顔を生成し編集するなど、複数のモードで同時に制御できることが望ましい。 本研究では,事前学習した単モーダル拡散モデルと協調して複数モーダル顔の生成と編集を行うコラボレーティブ拡散について述べる。 私たちの重要な洞察は、異なるモダリティによって駆動される拡散モデルは、両側の接続が確立できる潜在分別ステップにおいて本質的に相補的であるということです。 具体的には,事前学習された各ユニモーダルモデルに対する空間-時間影響関数を予測し,マルチモーダル化ステップを適応的に提示するメタネットワークである動的ディフューザを提案する。 協調拡散は、ユニモーダル拡散モデルから生成能力を協調するだけでなく、複数のユニモーダル操作を統合してマルチモーダル編集を行う。 画像品質と条件整合性の両方において,我々のフレームワークの優位性を示す。

Diffusion models arise as a powerful generative tool recently. Despite the great progress, existing diffusion models mainly focus on uni-modal control, i.e., the diffusion process is driven by only one modality of condition. To further unleash the users' creativity, it is desirable for the model to be controllable by multiple modalities simultaneously, e.g., generating and editing faces by describing the age (text-driven) while drawing the face shape (mask-driven). In this work, we present Collaborative Diffusion, where pre-trained uni-modal diffusion models collaborate to achieve multi-modal face generation and editing without re-training. Our key insight is that diffusion models driven by different modalities are inherently complementary regarding the latent denoising steps, where bilateral connections can be established upon. Specifically, we propose dynamic diffuser, a meta-network that adaptively hallucinates multi-modal denoising steps by predicting the spatial-temporal influence functions for each pre-trained uni-modal model. Collaborative Diffusion not only collaborates generation capabilities from uni-modal diffusion models, but also integrates multiple uni-modal manipulations to perform multi-modal editing. Extensive qualitative and quantitative experiments demonstrate the superiority of our framework in both image quality and condition consistency.
翻訳日:2023-04-21 11:58:42 公開日:2023-04-20
# Articulated SE(3) Equivarianceを用いたニューラル・ヒューマン・フィッティングの発見

Generalizing Neural Human Fitting to Unseen Poses With Articulated SE(3) Equivariance ( http://arxiv.org/abs/2304.10528v1 )

ライセンス: Link先を確認
Haiwen Feng, Peter Kulits, Shichen Liu, Michael J. Black, and Victoria Abrevaya(参考訳) 我々は, 雲データにパラメトリック人体モデル(smpl)を適合させる問題に対処する。 最適化に基づく手法では注意深い初期化が必要であり、局所的なオプティマに閉じ込められやすい。 学習ベースの手法はこれに対処するが、入力ポーズがトレーニング中に見られるものから遠く離れている場合、うまく一般化しない。 厳密な点雲に対しては、SE(3)-同変ネットワークを利用することで顕著な一般化が達成されているが、これらの手法は明瞭な対象に作用しない。 本研究では、このアイデアを人体に拡張し、点雲からのSMPLモデル推定のための新しい部分ベースSE(3)等価ニューラルネットワークArtEqを提案する。 具体的には,局所so(3)不変性を利用して部分検出ネットワークを学習し,articulated se(3) shape-invariant と pose-equivariant を用いて回帰形状とポーズを訓練した。 この新しい同変ポーズ回帰加群は自着層の置換同変特性を利用して回転同分散を保存する。 実験の結果、arteqはトレーニング中に見えないポーズに一般化でき、最適化された改善ステップを必要とせずに、最先端のメソッドを74.5%上回っている。 さらに, 提案手法は, 提案手法に比べて3桁以上高速であり, パラメータは97.3%減少している。 コードとモデルは、https://arteq.is.tue.mpg.deで研究目的に利用できる。

We address the problem of fitting a parametric human body model (SMPL) to point cloud data. Optimization-based methods require careful initialization and are prone to becoming trapped in local optima. Learning-based methods address this but do not generalize well when the input pose is far from those seen during training. For rigid point clouds, remarkable generalization has been achieved by leveraging SE(3)-equivariant networks, but these methods do not work on articulated objects. In this work we extend this idea to human bodies and propose ArtEq, a novel part-based SE(3)-equivariant neural architecture for SMPL model estimation from point clouds. Specifically, we learn a part detection network by leveraging local SO(3) invariance, and regress shape and pose using articulated SE(3) shape-invariant and pose-equivariant networks, all trained end-to-end. Our novel equivariant pose regression module leverages the permutation-equivariant property of self-attention layers to preserve rotational equivariance. Experimental results show that ArtEq can generalize to poses not seen during training, outperforming state-of-the-art methods by 74.5%, without requiring an optimization refinement step. Further, compared with competing works, our method is more than three orders of magnitude faster during inference and has 97.3% fewer parameters. The code and model will be available for research purposes at https://arteq.is.tue.mpg.de.
翻訳日:2023-04-21 11:58:19 公開日:2023-04-20
# 深層ニューラルネットワークの多次元不確かさ定量化

Multidimensional Uncertainty Quantification for Deep Neural Networks ( http://arxiv.org/abs/2304.10527v1 )

ライセンス: Link先を確認
Xujiang Zhao(参考訳) ディープニューラルネットワーク(dnn)は非常に注目を集め、画像やビデオ分析、自然言語処理、レコメンデーションシステム、薬物発見など、様々な応用で大きな成功を収めている。 しかし、異なる根本原因に由来する固有の不確実性は、DNNが実世界の問題に対して堅牢で信頼性の高い解決策を見つけるための深刻なハードルとして認識されている。 このような不確実性に対する考慮の欠如は、不要なリスクを引き起こす可能性がある。 例えば、自動運転車は道路上の人間を誤検出することができる。 ディープラーニングベースの医療アシスタントは、がんを良性腫瘍と誤診することがある。 本研究では、DNNの異なる不確実性要因を計測し、それを用いて多様な意思決定問題をより効果的に解決する方法を検討する。 本論文の第1部では,不確実性(証拠の欠如による不確実性)や不協和性(すなわち矛盾する証拠による不確実性)といった,異なる根本原因に起因する複数の不確実性を定量化する汎用学習フレームワークを開発した。 異なる不確実性タイプ間の関係を理論的に解析する。 さらに, 不協和が誤分類検出に最も有効であり, 迷路は外分布(ood)検出に最も有効であることを示す。 論文の第2部では,OODオブジェクトがDNNの半教師付き学習(SSL)に与える影響について検討し,OODに対する既存のSSLアルゴリズムの堅牢性を改善するための新しいフレームワークを開発した。 論文の最後の部分では,複数ラベルの時間的ニューラルネットワークに対して,複数の不確かさタイプを量化する汎用学習フレームワークを構築した。 さらに,初期事象検出のためのサブシーケンスの不確かさを定量化するために,新しい不確実性融合演算子を開発した。

Deep neural networks (DNNs) have received tremendous attention and achieved great success in various applications, such as image and video analysis, natural language processing, recommendation systems, and drug discovery. However, inherent uncertainties derived from different root causes have been realized as serious hurdles for DNNs to find robust and trustworthy solutions for real-world problems. A lack of consideration of such uncertainties may lead to unnecessary risk. For example, a self-driving autonomous car can misdetect a human on the road. A deep learning-based medical assistant may misdiagnose cancer as a benign tumor. In this work, we study how to measure different uncertainty causes for DNNs and use them to solve diverse decision-making problems more effectively. In the first part of this thesis, we develop a general learning framework to quantify multiple types of uncertainties caused by different root causes, such as vacuity (i.e., uncertainty due to a lack of evidence) and dissonance (i.e., uncertainty due to conflicting evidence), for graph neural networks. We provide a theoretical analysis of the relationships between different uncertainty types. We further demonstrate that dissonance is most effective for misclassification detection and vacuity is most effective for Out-of-Distribution (OOD) detection. In the second part of the thesis, we study the significant impact of OOD objects on semi-supervised learning (SSL) for DNNs and develop a novel framework to improve the robustness of existing SSL algorithms against OODs. In the last part of the thesis, we create a general learning framework to quantity multiple uncertainty types for multi-label temporal neural networks. We further develop novel uncertainty fusion operators to quantify the fused uncertainty of a subsequence for early event detection.
翻訳日:2023-04-21 11:57:53 公開日:2023-04-20
# ソーシャルメディアの規制と監査のためのユーザ駆動フレームワーク

A User-Driven Framework for Regulating and Auditing Social Media ( http://arxiv.org/abs/2304.10525v1 )

ライセンス: Link先を確認
Sarah H. Cen, Aleksander Madry, Devavrat Shah(参考訳) 人々は自分の観察する情報に基づいて判断し、決定する。 その情報の一部は提供されるだけでなく、ソーシャルメディアプラットフォームによって注意深く収集される。 議員は、プラットフォームは監視なしでは運用すべきではないとほぼ同意するが、ソーシャルメディアの規制についてはほとんど合意がない。 しかし、「受け入れ可能な」コンテンツの厳格でグローバルな標準を作成することは不可能である(例えば、アメリカ合衆国では、通信規制法第230条と修正第1条と互換性がない)という合意がある。 本研究では,フレキシブルでユーザ主導のベースラインに対して,アルゴリズムフィルタリングを規制することを提案する。 このようなベースラインに従ってソーシャルメディアプラットフォームを規制および監査するための具体的なフレームワークを提供する。 特に、ベースラインフィードの概念を紹介します:ユーザがフィルタリングせずに見ることができるコンテンツ(例えば、Twitterでは、これは時系列タイムラインかもしれません)。 プラットフォームフィルタのフィードには,各ベースラインフィードと「類似」情報コンテンツが含まれており,類似度を測定するための基本的手法を設計する必要がある。 このアプローチは、規制がユーザーエージェンシーを増加させるという関連する提案に動機づけられている。 プラットフォームがこの要件を尊重するかどうかをチェックする監査手順を提案する。 特に、監査にはプラットフォームのフィルタリングアルゴリズムへのブラックボックスアクセスのみが必要で、プライベートユーザ情報へのアクセスや推論は行わない。 監査の強さに関する理論的保証を提供する。 さらに、フィルタフィードとベースラインフィードの密接性を要求することは、大きなパフォーマンスコストを課したり、エコーチャンバーを生成したりしないことを示した。

People form judgments and make decisions based on the information that they observe. A growing portion of that information is not only provided, but carefully curated by social media platforms. Although lawmakers largely agree that platforms should not operate without any oversight, there is little consensus on how to regulate social media. There is consensus, however, that creating a strict, global standard of "acceptable" content is untenable (e.g., in the US, it is incompatible with Section 230 of the Communications Decency Act and the First Amendment). In this work, we propose that algorithmic filtering should be regulated with respect to a flexible, user-driven baseline. We provide a concrete framework for regulating and auditing a social media platform according to such a baseline. In particular, we introduce the notion of a baseline feed: the content that a user would see without filtering (e.g., on Twitter, this could be the chronological timeline). We require that the feeds a platform filters contain "similar" informational content as their respective baseline feeds, and we design a principled way to measure similarity. This approach is motivated by related suggestions that regulations should increase user agency. We present an auditing procedure that checks whether a platform honors this requirement. Notably, the audit needs only black-box access to a platform's filtering algorithm, and it does not access or infer private user information. We provide theoretical guarantees on the strength of the audit. We further show that requiring closeness between filtered and baseline feeds does not impose a large performance cost, nor does it create echo chambers.
翻訳日:2023-04-21 11:57:24 公開日:2023-04-20
# Narrow One-Hidden-Layer ReLU ネットワークの学習

Learning Narrow One-Hidden-Layer ReLU Networks ( http://arxiv.org/abs/2304.10524v1 )

ライセンス: Link先を確認
Sitan Chen, Zehao Dou, Surbhi Goel, Adam R Klivans, Raghu Meka(参考訳) 我々は,$d$次元の入力に対するガウス分布に関して,$k$ reluアクティベーションの線形結合を学ぶためのよく検討された問題を考える。 我々は$k$が定数であるときに成功する最初の多項式時間アルゴリズムを与える。 以前の多項式時間学習者は、正の結合係数や隠れ重みベクトルの行列など、ネットワーク上の追加の仮定を必要とする。 提案手法は,高次モーメントテンソルのランダム収縮解析に基づく。 我々はマルチスケール解析を用いて、十分に近いニューロンが一緒に崩壊し、事前の作業で発生する条件づけの問題を回避することができると主張する。 これにより、個々のニューロンを発見するための反復的な手順を設計できる。

We consider the well-studied problem of learning a linear combination of $k$ ReLU activations with respect to a Gaussian distribution on inputs in $d$ dimensions. We give the first polynomial-time algorithm that succeeds whenever $k$ is a constant. All prior polynomial-time learners require additional assumptions on the network, such as positive combining coefficients or the matrix of hidden weight vectors being well-conditioned. Our approach is based on analyzing random contractions of higher-order moment tensors. We use a multi-scale analysis to argue that sufficiently close neurons can be collapsed together, sidestepping the conditioning issues present in prior work. This allows us to design an iterative procedure to discover individual neurons.
翻訳日:2023-04-21 11:56:56 公開日:2023-04-20
# GenCorres: 結合入射型形状生成モデルによる連続形状マッチング

GenCorres: Consistent Shape Matching via Coupled Implicit-Explicit Shape Generative Models ( http://arxiv.org/abs/2304.10523v1 )

ライセンス: Link先を確認
Haitao Yang, Xiangru Huang, Bo Sun, Chandrajit Bajaj, Qixing Huang(参考訳) 本稿では,新しいunsupervised joint shape matching (JSM)アプローチであるGenCorresを紹介する。 gencorresの基本的な考え方は、非組織的な変形可能な形状コレクションに適合するパラメトリックメッシュジェネレータを学習し、隣接する合成形状間の変形を制約し、局所剛性や局所共形性などの幾何学的構造を保存することである。 GenCorresは既存のJSM技術よりも3つの魅力的な利点を示している。 まず、GenCorresは入力形状よりもはるかに大きく、JSMのデータ駆動力を完全に活用する合成形状コレクションの中でJSMを実行する。 第2に、GenCorresは一貫した形状マッチングとペアワイズマッチングを統一する(すなわち、隣接する合成形状間の変形先行を強制する)。 第3に、ジェネレータは一貫した形状対応の簡潔な符号化を提供する。 しかし,非組織形状からメッシュジェネレータを学習することは困難である。 それぞれの形状に適切な初期適合性が必要で、局所的な最小限に簡単に閉じ込められる。 gencorresは、2つの任意の形状の間の中間形状を提供する入力形状から暗黙のジェネレータを学習することでこの問題に対処している。 本稿では,隣接する暗黙曲面間の対応を計算し,幾何学的構造を保ち,サイクル整合性を持たせるための新しいアプローチを提案する。 暗黙のジェネレータの合成形状は、メッシュジェネレータを学習するための初期フィッティング(テンプレートベースの変形)を誘導する。 実験の結果、GenCorresはベンチマークデータセット上で最先端のJSM技術よりもかなり優れていた。 GenCorresの合成形状は局所的な幾何学的特徴を保ち、最先端の変形可能な形状生成器に対して競争性能を得る。

This paper introduces GenCorres, a novel unsupervised joint shape matching (JSM) approach. The basic idea of GenCorres is to learn a parametric mesh generator to fit an unorganized deformable shape collection while constraining deformations between adjacent synthetic shapes to preserve geometric structures such as local rigidity and local conformality. GenCorres presents three appealing advantages over existing JSM techniques. First, GenCorres performs JSM among a synthetic shape collection whose size is much bigger than the input shapes and fully leverages the data-driven power of JSM. Second, GenCorres unifies consistent shape matching and pairwise matching (i.e., by enforcing deformation priors between adjacent synthetic shapes). Third, the generator provides a concise encoding of consistent shape correspondences. However, learning a mesh generator from an unorganized shape collection is challenging. It requires a good initial fitting to each shape and can easily get trapped by local minimums. GenCorres addresses this issue by learning an implicit generator from the input shapes, which provides intermediate shapes between two arbitrary shapes. We introduce a novel approach for computing correspondences between adjacent implicit surfaces and force the correspondences to preserve geometric structures and be cycle-consistent. Synthetic shapes of the implicit generator then guide initial fittings (i.e., via template-based deformation) for learning the mesh generator. Experimental results show that GenCorres considerably outperforms state-of-the-art JSM techniques on benchmark datasets. The synthetic shapes of GenCorres preserve local geometric features and yield competitive performance gains against state-of-the-art deformable shape generators.
翻訳日:2023-04-21 11:56:46 公開日:2023-04-20