このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230729となっている論文です。

PDF登録状況(公開日: 20230729)

TitleAuthorsAbstract論文公表日・翻訳日
# 輸送方程式に基づく物理情報ニューラルネットワークによる建築材料の降伏強度予測

Transport Equation based Physics Informed Neural Network to predict the Yield Strength of Architected Materials ( http://arxiv.org/abs/2312.00003v1 )

ライセンス: Link先を確認
Akshansh Mishra(参考訳) 本研究では,輸送方程式に基づく部分微分方程式(PDE)の解法として物理情報ニューラルネットワーク(PINN)モデルを適用した。 主な目的は、PINNモデルに組み込まれた異なるアクティベーション関数が予測性能に与える影響を分析し、特に平均二乗誤差(MSE)と平均絶対誤差(MAE)を評価することである。 この研究で使用されるデータセットは、ストラットの直径、単位細胞の大きさ、および対応する収量ストレス値に関連する様々な入力パラメータからなる。 本研究の目的は、PINNモデルの有効性と、現実のアプリケーションにおいて複雑なPDEを解決するための適切なアクティベーション関数を選択することの重要性を理解することである。 その結果、アクティベーション関数の選択は、特定の問題に対するモデルの予測精度に最小限の影響を与える可能性が示唆された。 PINNモデルは、提供されたデータセットの過度な適合を避ける能力を示している。 この研究は、特定の実世界のアプリケーションでアクティベーション関数を選択しながら、パフォーマンスと計算効率のバランスを取ることの重要性を強調している。 これらの貴重な発見は、様々な科学・工学分野におけるPDEの解決に有効なツールとして、PINNの理解と採用の促進に寄与する。

In this research, the application of the Physics-Informed Neural Network (PINN) model is explored to solve transport equation-based Partial Differential Equations (PDEs). The primary objective is to analyze the impact of different activation functions incorporated within the PINN model on its predictive performance, specifically assessing the Mean Squared Error (MSE) and Mean Absolute Error (MAE). The dataset used in the study consists of a varied set of input parameters related to strut diameter, unit cell size, and the corresponding yield stress values. Through this investigation the aim is to understand the effectiveness of the PINN model and the significance of choosing appropriate activation functions for solving complex PDEs in real-world applications. The outcomes suggest that the choice of activation function may have minimal influence on the model's predictive accuracy for this particular problem. The PINN model showcases exceptional generalization capabilities, indicating its capacity to avoid overfitting with the provided dataset. The research underscores the importance of striking a balance between performance and computational efficiency while selecting an activation function for specific real-world applications. These valuable findings contribute to advancing the understanding and potential adoption of PINN as an effective tool for solving challenging PDEs in diverse scientific and engineering domains.
翻訳日:2024-01-15 15:08:56 公開日:2023-07-29
# CHRONOS: 脆弱性レポートによるライブラリのゼロショット識別

CHRONOS: Time-Aware Zero-Shot Identification of Libraries from Vulnerability Reports ( http://arxiv.org/abs/2301.03944v4 )

ライセンス: Link先を確認
Yunbo Lyu, Thanh Le-Cong, Hong Jin Kang, Ratnadira Widyasari, Zhipeng Zhao, Xuan-Bach D. Le, Ming Li, David Lo(参考訳) ライブラリの脆弱性を開発者に警告するツールは、セキュリティ研究者がメンテナンスする最新の脆弱性データベースに依存する。 これらのデータベースは、各脆弱性に関連するライブラリを記録する。 しかしながら、脆弱性レポートはすべてのライブラリを明示的にリストするものではなく、人間による分析がすべての関連するライブラリを決定する必要がある。 人間の分析は遅くて費用がかかるため、自動化アプローチの必要性が高まる。 研究者や実践者は、極端なマルチラベル学習(XML)を使用して脆弱性レポートからライブラリを自動的に識別することを提案した。 最先端のxml技術は有望なパフォーマンスを示したが、実験の設定は現実に何が起こるかに実際に適合しない。 以前の研究では、レポートの時系列順序を考慮せずに、モデルのトレーニングとテストのための脆弱性レポートデータをランダムに分割していた。 これは、時系列的に新しいレポートでモデルをトレーニングし、時系列的に古いレポートでモデルをテストする可能性がある。 しかし、実際には、しばしば時系列的に新しい報告を受け取り、これは以前に見つからなかった図書館に関連している可能性がある。 この実践的な環境下では、脆弱性報告の時系列順序を考慮して、F1が0.7から0.28に減少するなど、現在のXML技術の性能が大幅に低下するのを観察する。 ゼロショット学習に基づく実用的なライブラリ識別手法であるCHRONOSを提案する。 クロノスの斬新さは3倍である。 まず、chronosは脆弱性レポートの時系列順を考慮し、実用的なパイプラインに適合する。 第二に、CHRONOSは慎重に設計されたデータ拡張ステップを使用して脆弱性記述とラベルのデータを強化する。 第三に、Chronosは、キャッシュを使用して脆弱性レポートの時間的順序付けを利用して、予測を優先順位付けする。

Tools that alert developers about library vulnerabilities depend on accurate, up-to-date vulnerability databases which are maintained by security researchers. These databases record the libraries related to each vulnerability. However, the vulnerability reports may not explicitly list every library and human analysis is required to determine all the relevant libraries. Human analysis may be slow and expensive, which motivates the need for automated approaches. Researchers and practitioners have proposed to automatically identify libraries from vulnerability reports using extreme multi-label learning (XML). While state-of-the-art XML techniques showed promising performance, their experiment settings do not practically fit what happens in reality. Previous studies randomly split the vulnerability reports data for training and testing their models without considering the chronological order of the reports. This may unduly train the models on chronologically newer reports while testing the models on chronologically older ones. However, in practice, one often receives chronologically new reports, which may be related to previously unseen libraries. Under this practical setting, we observe that the performance of current XML techniques declines substantially, e.g., F1 decreased from 0.7 to 0.28 under experiments without and with consideration of chronological order of vulnerability reports. We propose a practical library identification approach, namely CHRONOS, based on zero-shot learning. The novelty of CHRONOS is three-fold. First, CHRONOS fits into the practical pipeline by considering the chronological order of vulnerability reports. Second, CHRONOS enriches the data of the vulnerability descriptions and labels using a carefully designed data enhancement step. Third, CHRONOS exploits the temporal ordering of the vulnerability reports using a cache to prioritize prediction of...
翻訳日:2023-10-24 13:35:47 公開日:2023-07-29
# 自然言語処理のための世代間テスト生成

Intergenerational Test Generation for Natural Language Processing Applications ( http://arxiv.org/abs/2302.10499v2 )

ライセンス: Link先を確認
Pin Ji, Yang Feng, Weitao Huang, Jia Liu, Zhihong Zhao(参考訳) 現代のNLPアプリケーションの開発は、パフォーマンスを評価するために、多くの手動でラベル付けされたテストを含む様々なベンチマークデータセットに依存することが多い。 データセットの構築には多くのリソースが費やされることが多いが、保持されたデータのパフォーマンスは実際のアプリケーションシナリオでその能力を適切に反映していないため、大きな誤解と金銭的損失を引き起こす可能性がある。 そこで本研究では,様々なNLPアプリケーションの誤動作を検出する自動テスト生成手法を提案する。 本手法は,古典言語学の文解析プロセスに基づいて設計されており,基本的な文法的要素や副詞を適切なオラクル情報で文法的に正しいテストに組み込むことができる。 この手法をNLPLegoに実装し、テスト生成を自動化するためにシード文の可能性を完全に活用する。 NLPLegoは、シード文をテンプレートとアジュネートに分解し、特定の順序でコンテキストに適したアジュネートを組み立てることで新しい文を生成する。 タスク固有の方法とは異なり、NLPLegoによって生成されたテストは導出関係と変分度が異なるため、適切なメタモルフィック関係の構築が容易になる。 したがって、NLPLegoは一般的なもので、様々なNLPアプリケーションのテスト要件を満たすことができる。 NLPLegoを検証するために、我々は4つの最先端モデルにおける失敗を識別する3つの共通NLPタスクを実験した。 SQuAD 2.0、SST、QQPのシードテストにより、NLPLegoは3つのタスクでそれぞれ95.7%の精度で1,732, 5301, 261,879の不正な振る舞いを検知した。

The development of modern NLP applications often relies on various benchmark datasets containing plenty of manually labeled tests to evaluate performance. While constructing datasets often costs many resources, the performance on the held-out data may not properly reflect their capability in real-world application scenarios and thus cause tremendous misunderstanding and monetary loss. To alleviate this problem, in this paper, we propose an automated test generation method for detecting erroneous behaviors of various NLP applications. Our method is designed based on the sentence parsing process of classic linguistics, and thus it is capable of assembling basic grammatical elements and adjuncts into a grammatically correct test with proper oracle information. We implement this method into NLPLego, which is designed to fully exploit the potential of seed sentences to automate the test generation. NLPLego disassembles the seed sentence into the template and adjuncts and then generates new sentences by assembling context-appropriate adjuncts with the template in a specific order. Unlike the taskspecific methods, the tests generated by NLPLego have derivation relations and different degrees of variation, which makes constructing appropriate metamorphic relations easier. Thus, NLPLego is general, meaning it can meet the testing requirements of various NLP applications. To validate NLPLego, we experiment with three common NLP tasks, identifying failures in four state-of-art models. Given seed tests from SQuAD 2.0, SST, and QQP, NLPLego successfully detects 1,732, 5301, and 261,879 incorrect behaviors with around 95.7% precision in three tasks, respectively.
翻訳日:2023-10-24 13:16:55 公開日:2023-07-29
# 構文誘導型マルチタスク学習によるターダッケン型コード生成

A Syntax-Guided Multi-Task Learning Approach for Turducken-Style Code Generation ( http://arxiv.org/abs/2303.05061v2 )

ライセンス: Link先を確認
Guang Yang, Yu Zhou, Xiang Chen, Xiangyu Zhang, Yiran Xu, Tingting Han, Taolue Chen(参考訳) 事前訓練された言語モデルの開発により、自動コード生成技術は近年大きな可能性を秘めている。 しかし、特に命令型プログラムに宣言型コードスニペットが組み込まれているタルダッケン型のコードの場合、生成されたコードはターゲット言語の構文上の制約を満たすのが難しい。 本研究では,構文制約の欠如を,(1)構文制約の効率的な表現,(2)構文情報の効果的な統合,(3)スケーラブルな構文優先復号アルゴリズムの3つの重要な課題にまとめる。 これらの課題に対処するために,構文誘導型マルチタスク学習手法TurduckenGenを提案する。 具体的には、まず型情報をコードトークンに明示的に付加し、構文制約の表現をキャプチャします。 次に,構文制約表現を用いたコード生成を補助タスクとして形式化し,モデルの構文制約学習を可能にする。 そして、コンパイラフィードバックの助けを借りて、複数の候補から構文的に正しいコードを正確に選択する。 広範な実験と包括的分析により、2つのtulduckenスタイルのコードデータセット上で6つの最先端ベースラインと比較した結果,このアプローチの有効性と汎用性が実証された。 最後に、人間による研究を行い、私たちのアプローチによって生成されたコード品質は、コードの可読性とセマンティックな類似性の観点から、ベースラインよりも優れていることがわかった。

Due to the development of pre-trained language models, automated code generation techniques have shown great promise in recent years. However, the generated code is difficult to meet the syntactic constraints of the target language, especially in the case of Turducken-style code, where declarative code snippets are embedded within imperative programs. In this study, we summarize the lack of syntactic constraints into three significant challenges: (1) the efficient representation of syntactic constraints, (2) the effective integration of syntactic information, and (3) the scalable syntax-first decoding algorithm. To address these challenges, we propose a syntax-guided multi-task learning approach TurduckenGen. Specifically, we first explicitly append the type information to the code tokens to capture the representation of syntactic constraints. Then we formalize code generation with syntactic constraint representation as an auxiliary task to enable the model to learn the syntactic constraints of the code. Finally, the syntactically correct code is selected accurately from the multiple candidates with the help of the compiler feedback. Extensive experiments and comprehensive analysis demonstrate the effectiveness and general applicability of our approach after being compared with six state-of-the-art baselines on two Turducken-style code datasets. Finally, we conducted a human study and found the code quality generated by our approach is better than baselines in terms of code readability and semantic similarity.
翻訳日:2023-10-24 13:07:40 公開日:2023-07-29
# イベント駆動マルチスレッドプログラムのためのステートレスモデルチェックの調整

Tailoring Stateless Model Checking for Event-Driven Multi-Threaded Programs ( http://arxiv.org/abs/2307.15930v1 )

ライセンス: Link先を確認
Parosh Aziz Abdulla, Mohamed Faouzi Atig, Frederik Meyer B{\o}nneland, Sarbojit Das, Bengt Jonsson, Magnus L{\aa}ng, and Konstantinos Sagonas(参考訳) イベント駆動型マルチスレッドプログラミングは並列計算を構築する上で重要なイディオムである。 Stateless Model Checking (SMC) は、特に動的部分順序減少(DPOR)と組み合わせた場合、マルチスレッドプログラムの有効な検証手法である。 既存のSMC技術は、イベントが競合しない場合でも、イベント処理の可能な全ての順序を探索するので、イベント駆動プログラムを扱うのに効果がないことが多い。 イベント駆動型マルチスレッドプログラムに適したDPORアルゴリズムであるEvent-DPORを提案する。 マルチスレッドプログラムのための最適DPORアルゴリズムであるOptimal-DPORに基づいており、イベント駆動プログラムにどのように拡張できるかを示す。 全てのプログラムのイベントdporの正しさと、大きなサブクラスの最適性を証明する。 複雑化の1つは、新しい実行の冗長性をチェックするevent-dporの操作がnp-hardであることである。 実装と実験により, ハンドラスレッドをロックを用いてシミュレートする他のツールと比較して, Event-DPORは, 各種プログラムにおける他の最先端DPORアルゴリズムよりも指数関数的に高速であり, 不要な実行探索を完全に回避できることを示した。

Event-driven multi-threaded programming is an important idiom for structuring concurrent computations. Stateless Model Checking (SMC) is an effective verification technique for multi-threaded programs, especially when coupled with Dynamic Partial Order Reduction (DPOR). Existing SMC techniques are often ineffective in handling event-driven programs, since they will typically explore all possible orderings of event processing, even when events do not conflict. We present Event-DPOR , a DPOR algorithm tailored to event-driven multi-threaded programs. It is based on Optimal-DPOR, an optimal DPOR algorithm for multi-threaded programs; we show how it can be extended for event-driven programs. We prove correctness of Event-DPOR for all programs, and optimality for a large subclass. One complication is that an operation in Event-DPOR, which checks for redundancy of new executions, is NP-hard, as we show in this paper; we address this by a sequence of inexpensive (but incomplete) tests which check for redundancy efficiently. Our implementation and experimental evaluation show that, in comparison with other tools in which handler threads are simulated using locks, Event-DPOR can be exponentially faster than other state-of-the-art DPOR algorithms on a variety of programs and manages to completely avoid unnecessary exploration of executions.
翻訳日:2023-10-23 16:02:42 公開日:2023-07-29
# Ad-hoc polymorphic delimited continuation

Ad-hoc polymorphic delimited continuations ( http://arxiv.org/abs/2307.16073v1 )

ライセンス: Link先を確認
Bo Yang(参考訳) ライブラリ定義キーワードからなる拡張可能なドメイン固有言語を作成するためのフレームワークを設計,実装した。 他のプログラミング言語のファーストクラス言語機能は、我々のフレームワークの助けを借りてライブラリとして実装できます。 フレームワークの中核となる概念は型クラスDslであり、これは非制限連続のアドホックな多型バージョンと、より一般的なモナドバージョンの両方とみなすことができる。 したがって、既存のモナド効果系よりも効率的で簡潔な静的型付き拡張可能な効果系としても使用できる。

We designed and implemented a framework for creating extensible domain-specific languages that consists of library-defined keywords. First-class language features in other programming languages can be implemented as libraries with the help of our framework. The core concept in our framework is the type class Dsl, which can be considered as both the ad-hoc polymorphic version of a delimited continuation and a more generic version of Monad. Thus it can be also used as a statically typed extensible effect system that is more efficient and more concise than existing Monad-based effect systems.
翻訳日:2023-10-23 15:48:51 公開日:2023-07-29
# 脳波画像分類のための特徴強調

Feature Reweighting for EEG-based Motor Imagery Classification ( http://arxiv.org/abs/2308.02515v1 )

ライセンス: Link先を確認
Taveena Lotey, Prateek Keserwani, Debi Prosad Dogra, and Partha Pratim Roy(参考訳) 非侵襲脳波(EEG)信号を用いた運動画像(MI)の分類は、被験者の四肢運動の意図を予測するために用いられるため、重要な目的である。 最近の研究では、畳み込みニューラルネットワーク(CNN)に基づく手法がMI-EEG分類に広く利用されている。 MI-EEG信号分類のためのニューラルネットワークのトレーニングの課題は、低信号対雑音比、非定常性、非線形性、EEG信号の複雑さである。 ノイズの多いMI-EEG信号上のCNNベースのネットワークによって計算される特徴は、無関係な情報を含んでいる。 その後、ノイズや無関係な特徴から計算されたcnnベースのネットワークの特徴マップは、無関係な情報を含む。 したがって、多くの非帰属的特徴はしばしばニューラルネットワークのトレーニングを誤解し、分類性能を低下させる。 したがって、この問題に対処するために、新しい特徴の再重み付け手法が提案されている。 提案手法は, 時間的・チャネル的特徴写像の非関連を抑える特徴重み付けモジュールというノイズ低減機構を提供する。 提案手法の特徴重み付けモジュールは特徴マップを重み付けするスコアを生成し,無関係な情報の影響を低減する。 実験結果から,提案手法はPhysto EEG-MMIDBおよびBCI Competition IV 2aデータセットのMI-EEG信号の分類を最先端の手法と比較して,それぞれ9.34%,3.82%改善した。

Classification of motor imagery (MI) using non-invasive electroencephalographic (EEG) signals is a critical objective as it is used to predict the intention of limb movements of a subject. In recent research, convolutional neural network (CNN) based methods have been widely utilized for MI-EEG classification. The challenges of training neural networks for MI-EEG signals classification include low signal-to-noise ratio, non-stationarity, non-linearity, and high complexity of EEG signals. The features computed by CNN-based networks on the highly noisy MI-EEG signals contain irrelevant information. Subsequently, the feature maps of the CNN-based network computed from the noisy and irrelevant features contain irrelevant information. Thus, many non-contributing features often mislead the neural network training and degrade the classification performance. Hence, a novel feature reweighting approach is proposed to address this issue. The proposed method gives a noise reduction mechanism named feature reweighting module that suppresses irrelevant temporal and channel feature maps. The feature reweighting module of the proposed method generates scores that reweight the feature maps to reduce the impact of irrelevant information. Experimental results show that the proposed method significantly improved the classification of MI-EEG signals of Physionet EEG-MMIDB and BCI Competition IV 2a datasets by a margin of 9.34% and 3.82%, respectively, compared to the state-of-the-art methods.
翻訳日:2023-08-14 01:20:11 公開日:2023-07-29
# マスター方程式解法としての言語モデル

Language models as master equation solvers ( http://arxiv.org/abs/2308.02514v1 )

ライセンス: Link先を確認
Chuanbo Liu and Jin Wang(参考訳) マスター方程式は確率力学系のモデリングにおいて基本的重要性を持つが、状態空間の次元を持つ状態や軌道の数の増加によりマスター方程式を解くことは困難である。 本研究では,マスター方程式を解くための機械学習手法として,言語モデルの再構築を提案する。 我々は、入力コンテキストと正確に一致する状態結合確率分布に直接、レートパラメータ、初期条件、時間値をマッピングするプロンプトベースのニューラルネットワークを設計する。 このようにして、マスター方程式の解を最も一般的な形に近似する。 本稿では,強化学習フレームワーク内でポリシ勾配アルゴリズムを用いてネットワークをトレーニングし,変動型自己回帰モデルによるフィードバック報酬を与える。 本手法を代表例に適用することにより,多元系および高次元系の高精度な観測を行う。 トレーニングされたネットワークはまた、外挿能力を示し、予測可能性を未確認データにまで拡張する。 本研究は, 言語モデルとマスター方程式の関連を立証し, 事前学習された1つの大規模モデルを用いてマスター方程式を解く可能性を強調した。

Master equations are of fundamental importance in modeling stochastic dynamical systems.However, solving master equations is challenging due to the exponential increase in the number of possible states or trajectories with the dimension of the state space. In this study, we propose repurposing language models as a machine learning approach to solve master equations. We design a prompt-based neural network to map rate parameters, initial conditions, and time values directly to the state joint probability distribution that exactly matches the input contexts. In this way, we approximate the solution of the master equation in its most general form. We train the network using the policy gradient algorithm within the reinforcement learning framework, with feedback rewards provided by a set of variational autoregressive models. By applying this approach to representative examples, we observe high accuracy for both multi-module and high-dimensional systems. The trained network also exhibits extrapolating ability, extending its predictability to unseen data. Our findings establish the connection between language models and master equations, highlighting the possibility of using a single pretrained large model to solve any master equation.
翻訳日:2023-08-14 01:19:47 公開日:2023-07-29
# 広帯域指向性可視性

Broadband directional invisibility ( http://arxiv.org/abs/2308.03689v1 )

ライセンス: Link先を確認
Farhang Loran and Ali Mostafazadeh(参考訳) 本研究では,2次元および3次元の電位散乱における広帯域方向可視性の十分条件と,一般の誘電体(異方性,活性性,損失性)の不均一性による電磁波の散乱を3次元で求める。 より具体的には、正の実数 $\alpha$ と単位ベクトルの集合 $\Omega$ が与えられたとき、入射波数 $k$ が $\alpha$(すなわち $k\in(0,\alpha]$) を超えないときに完全(非近似)な可視性を示す相互作用ポテンシャル(または電磁散乱の場合の媒体の誘電率と透過性テンソル)の明示的な条件と、入射波ベクトルの方向が$\Omega$ を超えることを提供する。 これらの条件を満たすポテンシャルと誘電体媒体の明示的な例を構築した。

We address the problem of finding sufficient conditions for broadband directional invisibility in potential scattering in two and three dimensions as well as the scattering of electromagnetic waves by inhomogeneities of a general (possibly anisotropic, active, or lossy) dielectric medium in three dimensions. More specifically, given a positive real number $\alpha$ and a set of unit vectors $\Omega$, we provide explicit conditions on the interaction potential (or the permittivity and permeability tensors of the medium in the case of electromagnetic scattering) under which it displays perfect (non-approximate) invisibility whenever the incident wavenumber $k$ does not exceed $\alpha$ (i.e., $k\in(0,\alpha]$) and the direction of the incident wave vector ranges over $\Omega$. We construct explicit examples of potentials and dielectric media fulfilling these conditions.
翻訳日:2023-08-14 00:50:12 公開日:2023-07-29
# 半導体ベースの量子ビットデバイスにおける加熱のための干渉ランダム場双極子欠陥モデル

Interacting Random-field Dipole Defect Model for Heating in Semiconductor-based Qubit Devices ( http://arxiv.org/abs/2308.00711v1 )

ライセンス: Link先を確認
Yujun Choi and Robert Joynt(参考訳) 半導体量子ビットデバイスは、操作中に重要なデバイスパラメータのドリフトに悩まされる。 最も重要な例はqubitの動作周波数の変化である。 この効果は、ゲート操作を適用する際のシステムの加熱と直接関係しているように見える。 この現象の主な特徴は、相互作用するランダムフィールドガラスであると考えられる場合、電荷ノイズを発生させる2段階のシステムによって説明できることを示す。 この理論の最も顕著な特徴は、周波数シフトが温度で非単調となることである。 この理論の成功は、2レベルシステムの可能なモデルをかなり狭めている。

Semiconductor qubit devices suffer from the drift of important device parameters as they are operated. The most important example is a shift in qubit operating frequencies. This effect appears to be directly related to the heating of the system as gate operations are applied. We show that the main features of this phenomenon can be explained by the two-level systems that can also produce charge noise, if these systems are considered to form an interacting random-field glass. The most striking feature of the theory is that the frequency shift can be non-monotonic in temperature. The success of the theory narrows considerably the possible models for the two-level systems.
翻訳日:2023-08-03 15:09:28 公開日:2023-07-29
# クラス特徴のグローバル寄与分析のための集合クラス活性化マップの可視化に向けて

Towards the Visualization of Aggregated Class Activation Maps to Analyse the Global Contribution of Class Features ( http://arxiv.org/abs/2308.00710v1 )

ライセンス: Link先を確認
Igor Cherepanov, David Sessler, Alex Ulmer, Hendrik L\"ucke-Tieke, J\"orn Kohlhammer(参考訳) ディープラーニング(DL)モデルは、分類タスクにおいて顕著なパフォーマンスを達成する。 しかし、高い複雑性を持つモデルは、理解可能な説明が示されない限り、多くのリスクに敏感なアプリケーションでは使用できない。 説明可能な人工知能(xAI)は、DLのようなAIシステムの意思決定を説明する研究に焦点を当てている。 我々は、分類に寄与するデータサンプルの各特徴の重要性を可視化する最近のクラス活性化マップ(CAM)を拡張した。 本稿では,複数のサンプルからCAMを集約し,意味的構造化データの分類のグローバルな説明を示す。 このアグリゲーションによって、アナリストは洗練された仮定を作り、さらにドリルダウンの視覚化で分析することができる。 グローバルCAMの視覚的表現は、各特徴が2つの指標を含む正方形のグリフで与える影響を示している。 正方形の色は、この特徴の分類の影響を示している。 充填された正方形の大きさは、単一サンプル間の衝撃の変動性を記述する。 さらなる分析を必要とする興味深い機能には、これらの値の分布を提供する詳細なビューが必要である。 我々は,サンプルをフィルタし,CAMを精製し,関連するサンプルのみを表示するインタラクティブなヒストグラムを提案する。 我々のアプローチでは,分析者が高次元データの重要な特徴を検出し,世界的説明視覚化に基づいてAIモデルに調整を導出することができる。

Deep learning (DL) models achieve remarkable performance in classification tasks. However, models with high complexity can not be used in many risk-sensitive applications unless a comprehensible explanation is presented. Explainable artificial intelligence (xAI) focuses on the research to explain the decision-making of AI systems like DL. We extend a recent method of Class Activation Maps (CAMs) which visualizes the importance of each feature of a data sample contributing to the classification. In this paper, we aggregate CAMs from multiple samples to show a global explanation of the classification for semantically structured data. The aggregation allows the analyst to make sophisticated assumptions and analyze them with further drill-down visualizations. Our visual representation for the global CAM illustrates the impact of each feature with a square glyph containing two indicators. The color of the square indicates the classification impact of this feature. The size of the filled square describes the variability of the impact between single samples. For interesting features that require further analysis, a detailed view is necessary that provides the distribution of these values. We propose an interactive histogram to filter samples and refine the CAM to show relevant samples only. Our approach allows an analyst to detect important features of high-dimensional data and derive adjustments to the AI model based on our global explanation visualization.
翻訳日:2023-08-03 15:09:19 公開日:2023-07-29
# 量子コンピュータを用いたスピンチェーン系における境界条件と乱れの影響の研究

To Study the Effect of Boundary Conditions and Disorder in Spin Chain Systems Using Quantum Computers ( http://arxiv.org/abs/2308.00786v1 )

ライセンス: Link先を確認
Muhammad Arsalan Ali(参考訳) 凝縮物質物理学は、現代の科学研究と技術の進歩において重要な役割を担い、材料の挙動とその基本的な性質に関する洞察を提供する。 凝縮物質物理学における複雑な現象やシステムを理解することは、その固有の複雑さのために重要な課題となる。 長年にわたり、凝縮物質物理学の謎を解き明かすための計算手法が重要視されてきたが、それらは大規模システムと量子効果を正確にシミュレーションする際の制限に直面している。 量子シミュレーションと量子計算技術は、これらの制限に対処するための有望なツールとして登場し、凝縮物質物理学の理解に革命をもたらす可能性がある。 本稿では,ハイゼンベルクのスピン鎖系におけるアンダーソン局在のシミュレーションに焦点をあて,量子コンピュータを用いた閉鎖系および開鎖系における障害の影響について検討する。

Condensed matter physics plays a crucial role in modern scientific research and technological advancements, providing insights into the behavior of materials and their fundamental properties. Understanding complex phenomena and systems in condensed matter physics poses significant challenges due to their inherent intricacies. Over the years, computational approaches have been pivotal in unraveling the mysteries of condensed matter physics, but they face limitations when dealing with large-scale systems and simulating quantum effects accurately. Quantum simulation and quantum computation techniques have emerged as promising tools for addressing these limitations, offering the potential to revolutionize our understanding of condensed matter physics. In this paper, we focus on the simulation of Anderson localization in the Heisenberg spin chain systems and explore the effects of disorder on closed and open chain systems using quantum computers.
翻訳日:2023-08-03 14:50:49 公開日:2023-07-29
# ボーアのコペンハーゲン解釈は現実主義であり、測定問題を解く

How Bohr's Copenhagen interpretation is realist and solves the measurement problem ( http://arxiv.org/abs/2308.00814v1 )

ライセンス: Link先を確認
Govind Krishnan.V(参考訳) 量子力学の解釈の分野は、測定問題を解く試みとして現れた。 このことは、ニールス・ボーアが量子力学のインストゥルメンタル・ビューを採り入れて測定問題に対処することを避けたという認識を強めた。 この見解は誤りであり、ボーアの量子力学の解釈は現実主義者である。 さらに、ボーアの解釈は教科書の量子力学とは異なる(フォン・ノイマンやポール・ディラックによる)が、測定問題を解くことに成功している。 ボーアが認識論的枠組みの限界内で測定問題を解くという主張は数人の著者によってなされているが、ボーアの計画が曖昧かつ完全に測定問題を克服しているというケースはほとんどない。 私はボーアが測定問題を完全に排除したと強く主張する。 このために、私はボーアの解釈を理解するために2つの新しい仮定を行った。 この論文は、ボーアの解釈を、オルソドックス量子力学の傘の下にまとめられ、伝統的に測定問題の影響を受けやすいと考えられてきた様々な見解から切り離そうとしている。 これはボーアの解釈が、測定問題への解を提供し、実在論のオントロジーにコミットする隠れ変数理論、崩壊モデル、モーダル解釈などと共に分類されるべきであることを示している。

The field of interpretation of quantum mechanics emerged in an attempt to solve the measurement problem. This turned on the perception that Niels Bohr avoided addressing the measurement problem by taking an instrumentalist view of quantum mechanics. I argue that this view is mistaken and Bohr's interpretation of quantum mechanics is realist. Moreover, Bohr's interpretation, which is different from textbook quantum mechanics (which is due more to Von Neumann and Paul Dirac), succeeds in solving the measurement problem. While the claim that Bohr dissolves the measurement problem within the limits of the epistemological framework he assumes has been made by a few authors, rarely has the case been made that Bohr's project unambiguously and completely overcomes the measurement problem. I make the strong case that Bohr eliminated the measurement problem altogether. For this, I put forward two new postulates through which to make sense of Bohr's interpretation. The article thus seeks to single out Bohr's interpretation from the various views that go together under the umbrella of orthodox quantum mechanics, and which have been traditionally considered susceptible to the measurement problem. It shows that Bohr's interpretation should be classified along with those like hidden variable theories, collapse models, modal interpretations etc., which offer a solution to the measurement problem and are committed to a realist ontology.
翻訳日:2023-08-03 14:41:43 公開日:2023-07-29
# 先行検索のためのパラグラフの資源性の分析

Analysing the Resourcefulness of the Paragraph for Precedence Retrieval ( http://arxiv.org/abs/2308.01203v1 )

ライセンス: Link先を確認
Bhoomeendra Singh Sisodiya, Narendra Babu Unnam, P. Krishna Reddy, Apala Das, K.V.K. Santhy, V. Balakista Reddy(参考訳) 法律実務者を支援するための法的情報を抽出する手法の開発が活発な研究分野である。 この点について、メタデータ、引用、キーワード、文、段落など、様々な種類の情報を活用することで研究が進められている。 あらゆる文書と同様に、法的文書は段落で構成されている。 本稿では,先行検索の性能を向上させるために,判断間の類似性を捉える上で,段落レベルの情報の資源性を分析した。 その結果,数段の相互作用で判断の類似性を捉えることができ,基本文書レベルの方法よりも識別力が向上することが判明した。 また,インド最高裁判所判断課題における先行検索のための2つのベンチマークデータセットの比較結果から,第1段落レベルの手法が最先端手法と同等の性能を示すことが示された。

Developing methods for extracting relevant legal information to aid legal practitioners is an active research area. In this regard, research efforts are being made by leveraging different kinds of information, such as meta-data, citations, keywords, sentences, paragraphs, etc. Similar to any text document, legal documents are composed of paragraphs. In this paper, we have analyzed the resourcefulness of paragraph-level information in capturing similarity among judgments for improving the performance of precedence retrieval. We found that the paragraph-level methods could capture the similarity among the judgments with only a few paragraph interactions and exhibit more discriminating power over the baseline document-level method. Moreover, the comparison results on two benchmark datasets for the precedence retrieval on the Indian supreme court judgments task show that the paragraph-level methods exhibit comparable performance with the state-of-the-art methods
翻訳日:2023-08-03 12:30:25 公開日:2023-07-29
# ディープニューラルネットワークにおけるテスト選択法のロバスト性評価

Evaluating the Robustness of Test Selection Methods for Deep Neural Networks ( http://arxiv.org/abs/2308.01314v1 )

ライセンス: Link先を確認
Qiang Hu, Yuejun Guo, Xiaofei Xie, Maxime Cordy, Wei Ma, Mike Papadakis and Yves Le Traon(参考訳) ディープラーニングベースのシステムをテストすることは重要だが、収集した生データのラベル付けに必要な時間と労力のために難しい。 ラベル付けの労力を軽減するため、テスト要件を満たしながらテストデータのサブセットのみをラベル付けする必要がある複数のテスト選択方法が提案されている。 しかし,このような結果が報告された手法は,例えば元のテストデータ上でのテストなど,単純なシナリオでのみ評価される。 それらは常に信頼できるものなのでしょうか? 本稿では,テスト選択手法がテストに失敗する時期と程度について検討する。 具体的には,まず,11の選抜方法の潜在的な落とし穴を,その構成に基づいて特定する。 第2に,データセット毎に2つのモデルアーキテクチャを持つ5つのデータセットについて検討を行い,これらの落とし穴の存在を実証的に確認する。 さらに,落とし穴がこれらの手法の信頼性を損なうことを示す。 具体的には,断層検出法は,以下の試験データに悩まされる。 1) 正しく分類されるが不確実である、又は 2)誤分類だが自信がある。 驚くべきことに、そのような方法によって達成されたテスト相対カバレッジは最大86.85%低下する。 一方,性能推定手法は中間層出力の選択に敏感である。 このような手法の有効性は、不適切な層を用いる場合、ランダム選択よりもさらに悪い可能性がある。

Testing deep learning-based systems is crucial but challenging due to the required time and labor for labeling collected raw data. To alleviate the labeling effort, multiple test selection methods have been proposed where only a subset of test data needs to be labeled while satisfying testing requirements. However, we observe that such methods with reported promising results are only evaluated under simple scenarios, e.g., testing on original test data. This brings a question to us: are they always reliable? In this paper, we explore when and to what extent test selection methods fail for testing. Specifically, first, we identify potential pitfalls of 11 selection methods from top-tier venues based on their construction. Second, we conduct a study on five datasets with two model architectures per dataset to empirically confirm the existence of these pitfalls. Furthermore, we demonstrate how pitfalls can break the reliability of these methods. Concretely, methods for fault detection suffer from test data that are: 1) correctly classified but uncertain, or 2) misclassified but confident. Remarkably, the test relative coverage achieved by such methods drops by up to 86.85%. On the other hand, methods for performance estimation are sensitive to the choice of intermediate-layer output. The effectiveness of such methods can be even worse than random selection when using an inappropriate layer.
翻訳日:2023-08-03 12:04:14 公開日:2023-07-29
# スパース観測による二次テンソルの回復保証

Recovery Guarantees for Quadratic Tensors with Sparse Observations ( http://arxiv.org/abs/1811.00148v2 )

ライセンス: Link先を確認
Hongyang R. Zhang, Vatsal Sharan, Moses Charikar, Yingyu Liang(参考訳) テンソルの欠落点を予測するテンソル完備化問題を考える。 一般的に使用されるCPモデルは三重積形式を持つが、三重積ではなく対積の和である二次モデルの代替系は、レコメンデーションシステムのような応用から出現している。 非凸法(non-convex method)は二次モデルを学ぶための選択法であり、サンプルの複雑さと誤差の保証について検討する。 我々の主な結果は、サンプルの数が次元において線型であるので、平均二乗誤差対象の局所最小値はすべて大域最小値であり、元のテンソルを復元するということである。 我々は, 合成データと実世界のデータを用いた実験により, 理論結果を仮定し, 観測量が限られているcpモデルよりも, 二次モデルの方が優れた性能を示す。

We consider the tensor completion problem of predicting the missing entries of a tensor. The commonly used CP model has a triple product form, but an alternate family of quadratic models, which are the sum of pairwise products instead of a triple product, have emerged from applications such as recommendation systems. Non-convex methods are the method of choice for learning quadratic models, and this work examines their sample complexity and error guarantee. Our main result is that with the number of samples being only linear in the dimension, all local minima of the mean squared error objective are global minima and recover the original tensor. We substantiate our theoretical results with experiments on synthetic and real-world data, showing that quadratic models have better performance than CP models where there are a limited amount of observations available.
翻訳日:2023-08-02 18:44:44 公開日:2023-07-29
# 衛星による大気チャネル上の量子鍵分布:レビューと研究課題

Satellite-based Quantum Key Distribution over Atmospheric Channels: Reviews and Research Challenges ( http://arxiv.org/abs/2308.00011v1 )

ライセンス: Link先を確認
Hong-fu Chou, Vu Nguyen Ha, Hayder Al-Hraishawi, Luis Manuel Garces-Socarras, Jorge Luis Gonzalez-Rios, Juan Carlos Merlano-Duncan, Symeon Chatzinotas(参考訳) 超セキュアな量子ネットワークは、量子力学的概念を活用して、非通過データ転送セキュリティを提供する。 原則として、よく知られた量子鍵分布(QKD)は、無条件のセキュリティを実現し、6G無線システムの信頼性を懸念する。 長距離衛星対地進化量子ネットワークは、低軌道衛星を介して地上のノードにユビキタスな鍵を分配する。 秘密鍵列は量子状態へと符号化され、量子チャネルを介して大気を通して送られる。 しかし、高品質な量子通信を実現するには、展開範囲、物理層伝送、セキュリティにより多くの労力が必要となる。 本稿では,衛星ベースのQKDネットワークと長距離量子状態伝達(QST)の量子状態とチャネル特性について検討する。 さらに、透過率統計、チャネルパラメータの推定と攻撃レジリエンス、衛星ベースのQKDネットワークにおける量子状態転送、大気チャネル上でのウェーブパケット形成技術など、いくつかの課題を強調した。 さらに,次世代の衛星型qkdネットワークに向けたさらなる研究を進めるため,大気透過およびウェーブパック形成技術に対するqstの検討を行う2つの課題を提起した。

The ultra-secure quantum network leverages quantum mechanical concepts to deliver unsurpassed data transfer security. In principle, the well-known quantum key distribution (QKD) achieves unconditional security, which raises concerns about the trustworthiness of 6G wireless systems. The long-distance satellite-to-ground evolving quantum network distributes keys that are ubiquitous to the node on the ground through low-orbit satellites. As the secret key sequence is encoded into quantum states, it is sent through the atmosphere via a quantum channel. However, achieving high-quality quantum communication requires more effort in deployment ranges, physical layer transmission, and security. In this paper, we first study the quantum states and channel properties for satellite-based QKD networks and long-range quantum state transfer (QST). Moreover, we highlight some challenges, such as transmissivity statistics, estimation of channel parameters and attack resilience, quantum state transfer for satellite-based QKD networks, and wavepacket shaping techniques over atmospheric channels. Furthermore, we underline two open challenges that consider the QST to the atmospheric transmission and wavepacket shaping techniques via atmospheric channels in order to encourage further research toward the next generation of satellite-based QKD networks.
翻訳日:2023-08-02 16:49:29 公開日:2023-07-29
# 効率的なトランスフォーマモデルを用いた単調マルチスピーカー音声分離

Monaural Multi-Speaker Speech Separation Using Efficient Transformer Model ( http://arxiv.org/abs/2308.00010v1 )

ライセンス: Link先を確認
S. Rijal, R. Neupane, S. P. Mainali, S. K. Regmi and S. Maharjan(参考訳) コックテールパーティー問題は、複数の話者との混合音声から個々の話者を区別または区別することが難しいシナリオである。 この分野ではいくつかの研究が行われてきたが、モデルのサイズと複雑さは音声分離の正確性と堅牢性によって引き離されている。 月次多話者音声分離」はトランスフォーマーアーキテクチャとその効率的な形式に基づく音声分離モデルを示す。 このモデルは、多様な話者の発話を含むLibriMixデータセットでトレーニングされている。 モデルは、2つの異なる話者源を混合オーディオ入力から分離する。 提案モデルでは,音声分離モデルの性能と最小限のトレードオフを伴って,音声分離モデルの計算複雑性の低減にアプローチし,その目標に向かって大きな動きを示した。 このプロジェクトは、コアにおける計算効率を伴う音声分離の分野における継続的な研究への貢献の高まりを予見する。

Cocktail party problem is the scenario where it is difficult to separate or distinguish individual speaker from a mixed speech from several speakers. There have been several researches going on in this field but the size and complexity of the model is being traded off with the accuracy and robustness of speech separation. "Monaural multi-speaker speech separation" presents a speech-separation model based on the Transformer architecture and its efficient forms. The model has been trained with the LibriMix dataset containing diverse speakers' utterances. The model separates 2 distinct speaker sources from a mixed audio input. The developed model approaches the reduction in computational complexity of the speech separation model, with minimum tradeoff with the performance of prevalent speech separation model and it has shown significant movement towards that goal. This project foresees, a rise in contribution towards the ongoing research in the field of speech separation with computational efficiency at its core.
翻訳日:2023-08-02 16:49:09 公開日:2023-07-29
# 冠動脈疾患評価における3次元ディープラーニング分類器とその説明可能性

A 3D deep learning classifier and its explainability when assessing coronary artery disease ( http://arxiv.org/abs/2308.00009v1 )

ライセンス: Link先を確認
Wing Keung Cheung, Jeremy Kalindjian, Robert Bell, Arjun Nair, Leon J. Menezes, Riyaz Patel, Simon Wan, Kacy Chou, Jiahang Chen, Ryo Torii, Rhodri H. Davies, James C. Moon, Daniel C. Alexander, Joseph Jacob(参考訳) 冠動脈疾患(CAD)の早期発見と診断は、命を救い、医療費を削減できる。 本研究では,3次元resnet-50深層学習モデルを提案し,ct冠動脈造影画像を用いて健常者とcad患者を直接分類する。 提案手法は2次元Resnet-50モデルを23.65%向上させる。 Grad-GAMの使用による説明性も提供される。 さらに,3次元CAD分類を2次元のセマンティックセマンティックセマンティックセグメンテーションにリンクし,説明可能性の向上と正確な異常位置推定を行う。

Early detection and diagnosis of coronary artery disease (CAD) could save lives and reduce healthcare costs. In this study, we propose a 3D Resnet-50 deep learning model to directly classify normal subjects and CAD patients on computed tomography coronary angiography images. Our proposed method outperforms a 2D Resnet-50 model by 23.65%. Explainability is also provided by using a Grad-GAM. Furthermore, we link the 3D CAD classification to a 2D two-class semantic segmentation for improved explainability and accurate abnormality localisation.
翻訳日:2023-08-02 16:48:55 公開日:2023-07-29
# データ中心型深層学習による気道セグメンテーション

A data-centric deep learning approach to airway segmentation ( http://arxiv.org/abs/2308.00008v1 )

ライセンス: Link先を確認
Wing Keung Cheung, Ashkan Pakzad, Nesrin Mogulkoc, Sarah Needleman, Bojidar Rangelov, Eyjolfur Gudmundsson, An Zhao, Mariam Abbas, Davina McLaverty, Dimitrios Asimakopoulos, Robert Chapman, Recep Savas, Sam M Janes, Yipeng Hu, Daniel C. Alexander, John R Hurst, Joseph Jacob(参考訳) 気道樹木の異常の形態と分布は、様々な慢性呼吸器疾患の診断と疾患の特徴化を可能にする。 この点において,気道分断は気道全体の輪郭形成において重要な役割を担い,病気の程度と重症度の推定を可能にする。 本研究では,気道木を分割するデータ中心の深層学習手法を提案する。 提案手法は補間と画像分割を利用してデータの有用性と品質を向上させる。 そして、異なる規模でセグメント化された気道木を集約するアンサンブル学習戦略を実行する。 セグメンテーション性能(dice類似度係数)の観点からは,複合損失を用いた場合のベースラインモデルの平均を2.5%上回っている。 さらに,提案手法はGPU使用率が低く,柔軟性も高く,任意の2次元ディープラーニングモデルにデプロイ可能である。

The morphology and distribution of airway tree abnormalities enables diagnosis and disease characterisation across a variety of chronic respiratory conditions. In this regard, airway segmentation plays a critical role in the production of the outline of the entire airway tree to enable estimation of disease extent and severity. In this study, we propose a data-centric deep learning technique to segment the airway tree. The proposed technique utilises interpolation and image split to improve data usefulness and quality. Then, an ensemble learning strategy is implemented to aggregate the segmented airway trees at different scales. In terms of segmentation performance (dice similarity coefficient), our method outperforms the baseline model by 2.5% on average when a combined loss is used. Further, our proposed technique has a low GPU usage and high flexibility enabling it to be deployed on any 2D deep learning model.
翻訳日:2023-08-02 16:48:46 公開日:2023-07-29
# 点アノテーション確率マップ : tolerating annotation noise による密接なオブジェクトの数え上げに向けて

Point Annotation Probability Map: Towards Dense Object Counting by Tolerating Annotation Noise ( http://arxiv.org/abs/2308.00530v1 )

ライセンス: Link先を確認
Yuehai Chen(参考訳) 混雑したシーンでオブジェクトを数えることは、コンピュータビジョンにとって課題である。 現在のディープラーニングに基づくアプローチは、しばしばガウス密度回帰問題として定式化する。 このようなブルートフォース回帰は効果的ではあるが、人間のアノテーションプロセスから生じるアノテーションノイズを適切に考慮せず、異なる分布に導く可能性がある。 我々は,濃密なオブジェクトカウントタスクにおいて,アノテーションノイズを考慮することが有益であると推測する。 アノテーションノイズに対する強いロバスト性を得るために、調整可能な帯域幅と形状パラメータを持つ一般化ガウス分布(GGD)関数を利用して学習目標点アノテーション確率マップ、PAPMを形成する。 具体的には、まず手書きのPAPM法(HD-PAPM)を提案し、GGDに基づく関数を設計し、アノテーションノイズを許容する。 エンドツーエンドのトレーニングでは、ハンドデザインのPAPMは特定のネットワークやデータセットに最適ではないかもしれない。 適応学習型PAPM法(AL-PAPM)を提案する。 アノテーションノイズに対するロバスト性を改善するため,GGDに基づく効率的な輸送コスト関数を設計する。 このようなトランスポートコストの制約により、より優れたpapmプレゼンテーションは、ポイントアノテーションからエンドツーエンドの方法で最適なトランスポートフレームワークで適応的に学習することができる。 大規模な実験により提案手法の優位性を示した。

Counting objects in crowded scenes remains a challenge to computer vision. The current deep learning based approach often formulate it as a Gaussian density regression problem. Such a brute-force regression, though effective, may not consider the annotation noise properly which arises from the human annotation process and may lead to different distributions. We conjecture that it would be beneficial to consider the annotation noise in the dense object counting task. To obtain strong robustness against annotation noise, generalized Gaussian distribution (GGD) function with a tunable bandwidth and shape parameter is exploited to form the learning target point annotation probability map, PAPM. Specifically, we first present a hand-designed PAPM method (HD-PAPM), in which we design a function based on GGD to tolerate the annotation noise. For end-to-end training, the hand-designed PAPM may not be optimal for the particular network and dataset. An adaptively learned PAPM method (AL-PAPM) is proposed. To improve the robustness to annotation noise, we design an effective transport cost function based on GGD. With such transport cost constraints, a better PAPM presentation could be adaptively learned with an optimal transport framework from point annotation in an end-to-end manner. Extensive experiments show the superiority of our proposed methods.
翻訳日:2023-08-02 14:01:29 公開日:2023-07-29
# 離散ニューラルネットと多形学習

Discrete neural nets and polymorphic learning ( http://arxiv.org/abs/2308.00677v1 )

ライセンス: Link先を確認
Charlotte Aten(参考訳) 1970年代のMurski\u{i} のような普遍代数からの定理は、1980年代のシベンコの線に沿ったニューラルネットに対する普遍近似結果と著しく類似している。 ここでは、これらの結果を統一した設定に配置するニューラルネットワークの古典的な概念の離散的類似性を考える。 関係構造の多型に基づく学習アルゴリズムを導入し、古典的な学習課題にどのように使用するかを示す。

Theorems from universal algebra such as that of Murski\u{i} from the 1970s have a striking similarity to universal approximation results for neural nets along the lines of Cybenko's from the 1980s. We consider here a discrete analogue of the classical notion of a neural net which places these results in a unified setting. We introduce a learning algorithm based on polymorphisms of relational structures and show how to use it for a classical learning task.
翻訳日:2023-08-02 13:21:32 公開日:2023-07-29
# オフライン分散マルチエージェント強化学習

Offline Decentralized Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2108.01832v2 )

ライセンス: Link先を確認
Jiechuan Jiang and Zongqing Lu(参考訳) 多くの実世界のマルチエージェント協調作業では、コストとリスクが高いため、エージェントは環境と継続的に対話し、学習中に経験を収集することはできないが、オフラインデータセットから学ぶ必要がある。 しかし、各エージェントのデータセットにおける遷移ダイナミクスは、実行時に他のエージェントの学習ポリシーによって引き起こされるものとは大きく異なり、値推定において大きなエラーが発生する。 その結果、エージェントは非協調的な低パフォーマンスポリシーを学ぶ。 本稿では,非分散型マルチエージェント強化学習のためのフレームワークを提案する。これは,値偏差と遷移正規化を利用して,遷移確率を意図的に修正する。 値偏差は高値次状態の遷移確率を楽観的に増加させ、遷移正規化は次の状態の遷移確率を正規化する。 エージェントは共に、ハイパフォーマンスでコーディネートされたポリシーを学ぶことができる。 理論的には、変化した非定常遷移ダイナミクスの下でのq-learningの収束を証明する。 経験的に、このフレームワークは既存のオフライン強化学習アルゴリズムで簡単に構築でき、様々なマルチエージェントタスクで大幅に改善できることを示した。

In many real-world multi-agent cooperative tasks, due to high cost and risk, agents cannot continuously interact with the environment and collect experiences during learning, but have to learn from offline datasets. However, the transition dynamics in the dataset of each agent can be much different from the ones induced by the learned policies of other agents in execution, creating large errors in value estimates. Consequently, agents learn uncoordinated low-performing policies. In this paper, we propose a framework for offline decentralized multi-agent reinforcement learning, which exploits value deviation and transition normalization to deliberately modify the transition probabilities. Value deviation optimistically increases the transition probabilities of high-value next states, and transition normalization normalizes the transition probabilities of next states. They together enable agents to learn high-performing and coordinated policies. Theoretically, we prove the convergence of Q-learning under the altered non-stationary transition dynamics. Empirically, we show that the framework can be easily built on many existing offline reinforcement learning algorithms and achieve substantial improvement in a variety of multi-agent tasks.
翻訳日:2023-08-02 01:24:34 公開日:2023-07-29
# 試験状態法によるノイズチャネル上の量子鍵分布

Quantum key distribution over noisy channels by the testing state method ( http://arxiv.org/abs/2107.01962v5 )

ライセンス: Link先を確認
Hao Shu, Chang-Yue Zhang, Yue-Qiu Chen, Zhu-Jun Zheng, Shao-Ming Fei(参考訳) 量子鍵分布(QKD)は、量子情報理論の最も有名な応用である。 QKDのアイデアは理解が難しいわけではないが、実践的な実装では、例えばチャネルのノイズなど、多くの問題を解決する必要がある。 従来の研究は通常、チャネルの推定を議論し、ノイズの強度に依存して実現可能性と効率が向上する誤り訂正手順や、絡み合った蒸留手順を補助する手法を採用しており、全ての状態が蒸留できるわけではないが、状態の大量消費をもたらすことがよくある。 本稿では,ポーリ雑音,振幅減衰雑音,位相減衰雑音,集合雑音,混合雑音などのノイズチャネル上でのqkdについて,蒸留を伴わない強度で検討することを目的とした。 そこで本研究では,QKDプロトコルを任意の強度ノイズチャネルの誤差なく実装するテスト状態法を提案する。 メソッドはエラー訂正手順として見ることができ、他のタスクにも使用できる。

Quantum key distribution(QKD) might be the most famous application of quantum information theory. The idea of QKD is not difficult to understand but in practical implementations, many problems are needed to be solved, for example, the noise of the channels. Previous works usually discuss the estimate of the channels and employ error-correcting procedures, whose feasibility and efficiency depend on the strength of the noise, or assist with entanglement distillation procedures, which often result in a large consumption of states while not all states can be distilled. This paper aims to study QKD over noisy channels including Pauli noises, amplitude damping noises, phase damping noises, collective noises as well as mixtures of them, in any strength without distillations. We provide a method, called the testing state method, to implement QKD protocols without errors over arbitrarily strength noisy channels. The method can be viewed as an error-correcting procedure, and can also be employed for other tasks.
翻訳日:2023-08-02 01:24:17 公開日:2023-07-29
# flip flop memory and beyond: 鍵となる洞察によるリカレントニューラルネットワークのトレーニング

Exploring Flip Flop memories and beyond: training recurrent neural networks with key insights ( http://arxiv.org/abs/2010.07858v4 )

ライセンス: Link先を確認
Cecilia Jarne(参考訳) 異なるタスクを実行するためにニューラルネットワークをトレーニングすることは、さまざまな分野にまたがる。 特に、リカレントニューラルネットワーク(RNN)は計算神経科学に大きな関心を持っている。 TensorflowやKerasといった機械学習専用のオープンソースフレームワークは、私たちが現在使用している技術の発展に大きな変化をもたらしています。 この研究は、時間処理タスク、特に3ビットフリップフロップメモリの実装を包括的に調査し記述することで、大きな貢献をすることを目的としている。 私たちは、方程式、タスクパラメトリゼーション、ソフトウェア開発を含むモデリングプロセス全体を調べます。 得られたネットワークは、可視化および分析ツールの配列によって支援され、ダイナミックスを解明するために慎重に分析される。 さらに、提供されるコードは多様なタスクやシステムのモデリングを容易にするのに十分な汎用性がある。 さらに, メモリ状態を次元的に低減された空間内の立方体の頂点に効率よく保存し, 以前の結果を異なるアプローチで補う方法を提案する。

Training neural networks to perform different tasks is relevant across various disciplines. In particular, Recurrent Neural Networks (RNNs) are of great interest in Computational Neuroscience. Open-source frameworks dedicated to Machine Learning, such as Tensorflow and Keras have produced significant changes in the development of technologies that we currently use. This work aims to make a significant contribution by comprehensively investigating and describing the implementation of a temporal processing task, specifically a 3-bit Flip Flop memory. We delve into the entire modelling process, encompassing equations, task parametrization, and software development. The obtained networks are meticulously analyzed to elucidate dynamics, aided by an array of visualization and analysis tools. Moreover, the provided code is versatile enough to facilitate the modelling of diverse tasks and systems. Furthermore, we present how memory states can be efficiently stored in the vertices of a cube in the dimensionally reduced space, supplementing previous results with a distinct approach.
翻訳日:2023-08-02 01:22:48 公開日:2023-07-29
# 量子認識論と構成主義

Quantum epistemology and constructivism ( http://arxiv.org/abs/2009.00321v2 )

ライセンス: Link先を確認
Patrick Fraser, Nuriya Nurgalieva, L\'idia del Rio(参考訳) 構成主義の認識論は、全ての真理が理解できると仮定する。 構成主義は、科学的理論を用いた推論から得られた帰化認識論や知識とどの程度適合するかを問うことができる。 量子理論が物理世界の構造を正しく記述し、どの測定結果が単位確率で観測されるかという量子論的推論を知識として記述した場合、構成主義は維持できないことを示す。 我々の導出は直観主義論理と量子命題論理の両方と互換性がある。 この結果はフレイチーガー=レンナーの定理に含意されるが、独立に重要である。

Constructivist epistemology posits that all truths are knowable. One might ask to what extent constructivism is compatible with naturalized epistemology and knowledge obtained from inference-making using successful scientific theories. If quantum theory correctly describes the structure of the physical world, and if quantum theoretic inferences about which measurement outcomes will be observed with unit probability count as knowledge, we demonstrate that constructivism cannot be upheld. Our derivation is compatible with both intuitionistic and quantum propositional logic. This result is implied by the Frauchiger-Renner theorem, though it is of independent importance as well.
翻訳日:2023-08-02 01:22:12 公開日:2023-07-29
# 偏微分方程式学習のための物理インフォームドニューラル演算子

Physics-Informed Neural Operator for Learning Partial Differential Equations ( http://arxiv.org/abs/2111.03794v4 )

ライセンス: Link先を確認
Zongyi Li, Hongkai Zheng, Nikola Kovachki, David Jin, Haoxuan Chen, Burigede Liu, Kamyar Azizzadenesheli, Anima Anandkumar(参考訳) 本稿では、与えられたパラメトリック偏微分方程式(pde)の解作用素を学習するために、トレーニングデータと物理制約を組み合わせた物理インフォームドニューラル演算子(pino)を提案する。 PINOは、演算子を学ぶために異なる解像度でデータとPDE制約を組み込んだ最初のハイブリッドアプローチである。 具体的には、PINOでは、粗分解能トレーニングデータと高分解能で課されるPDE制約を組み合わせる。 得られたPINOモデルは、多くの人気のあるPDEファミリーの基底構造解演算子を正確に近似することができ、ゼロショット超解像の下でも精度が劣化しない。 PINOは、連続演算子の普遍近似として保証され、メッシュ精錬の限界における離散化収束であるフーリエニューラル演算子(FNO)フレームワークを使用している。 より高分解能なFNOにPDE制約を加えることにより、基底トラス作用素の高忠実度再構成が得られる。 さらに、PINOはトレーニングデータを使用せず、PDE制約のみを課す設定に成功し、従来のアプローチであるPhysics-Informed Neural Network (PINN)は、例えばコルモゴロフフローのようなマルチスケールの動的システムにおいて最適化上の課題のために失敗する。

In this paper, we propose physics-informed neural operators (PINO) that combine training data and physics constraints to learn the solution operator of a given family of parametric Partial Differential Equations (PDE). PINO is the first hybrid approach incorporating data and PDE constraints at different resolutions to learn the operator. Specifically, in PINO, we combine coarse-resolution training data with PDE constraints imposed at a higher resolution. The resulting PINO model can accurately approximate the ground-truth solution operator for many popular PDE families and shows no degradation in accuracy even under zero-shot super-resolution, i.e., being able to predict beyond the resolution of training data. PINO uses the Fourier neural operator (FNO) framework that is guaranteed to be a universal approximator for any continuous operator and discretization-convergent in the limit of mesh refinement. By adding PDE constraints to FNO at a higher resolution, we obtain a high-fidelity reconstruction of the ground-truth operator. Moreover, PINO succeeds in settings where no training data is available and only PDE constraints are imposed, while previous approaches, such as the Physics-Informed Neural Network (PINN), fail due to optimization challenges, e.g., in multi-scale dynamic systems such as Kolmogorov flows.
翻訳日:2023-08-02 01:15:43 公開日:2023-07-29
# cmx:トランスフォーマーを用いたrgb-x意味セグメンテーションのためのクロスモーダル融合

CMX: Cross-Modal Fusion for RGB-X Semantic Segmentation with Transformers ( http://arxiv.org/abs/2203.04838v4 )

ライセンス: Link先を確認
Jiaming Zhang, Huayao Liu, Kailun Yang, Xinxin Hu, Ruiping Liu, Rainer Stiefelhagen(参考訳) 画像分割に基づくシーン理解は自動運転車の重要な構成要素である。 補足的モダリティ(X-モダリティ)から補足的特徴を活用することにより,RGB画像の画素ワイズセマンティックセマンティックセマンティックセマンティクスを向上することができる。 しかし、多種多様なセンサをモダリティに依存しないモデルでカバーすることは、異なるモダリティ間のセンサ特性の変化により未解決の問題のままである。 本稿では,従来のモダリティ固有手法とは異なり,RGB-Xセマンティックセマンティックセグメンテーションのための統合融合フレームワークCMXを提案する。 しばしばサプリメントや不確実性を含む様々なモダリティをうまく一般化するためには、モダリティ融合には統合されたクロスモーダル相互作用が不可欠である。 具体的には、1つのモードから特徴を活用して2つのモード特徴を校正し、他のモードの特徴を正すクロスモーダル特徴整形モジュール(CM-FRM)を設計する。 修正された特徴ペアを用いて、混合前に長距離コンテキストの十分な交換を行うためにFeature Fusion Module (FFM)をデプロイする。 CMXを初めて検証するために、RGB、すなわち深さ、熱、偏光、事象、LiDARに相補する5つのモードを統一する。 5つのRGB-Depthベンチマーク、RGB-Thermal、RGB-Polarization、RGB-LiDARデータセットで最先端のパフォーマンスを達成するため、CMXは多様なマルチモーダル融合によく対応している。 さらに,データ融合の汎用性を検討するために,イベントスケープデータセットに基づくrgbイベントセマンティクスセグメンテーションベンチマークを構築し,cmxが新たな最先端を設定する。 CMXのソースコードはhttps://github.com/huaaaliu/RGBX_Semantic_Segmentationで公開されている。

Scene understanding based on image segmentation is a crucial component of autonomous vehicles. Pixel-wise semantic segmentation of RGB images can be advanced by exploiting complementary features from the supplementary modality (X-modality). However, covering a wide variety of sensors with a modality-agnostic model remains an unresolved problem due to variations in sensor characteristics among different modalities. Unlike previous modality-specific methods, in this work, we propose a unified fusion framework, CMX, for RGB-X semantic segmentation. To generalize well across different modalities, that often include supplements as well as uncertainties, a unified cross-modal interaction is crucial for modality fusion. Specifically, we design a Cross-Modal Feature Rectification Module (CM-FRM) to calibrate bi-modal features by leveraging the features from one modality to rectify the features of the other modality. With rectified feature pairs, we deploy a Feature Fusion Module (FFM) to perform sufficient exchange of long-range contexts before mixing. To verify CMX, for the first time, we unify five modalities complementary to RGB, i.e., depth, thermal, polarization, event, and LiDAR. Extensive experiments show that CMX generalizes well to diverse multi-modal fusion, achieving state-of-the-art performances on five RGB-Depth benchmarks, as well as RGB-Thermal, RGB-Polarization, and RGB-LiDAR datasets. Besides, to investigate the generalizability to dense-sparse data fusion, we establish an RGB-Event semantic segmentation benchmark based on the EventScape dataset, on which CMX sets the new state-of-the-art. The source code of CMX is publicly available at https://github.com/huaaaliu/RGBX_Semantic_Segmentation.
翻訳日:2023-08-02 00:55:25 公開日:2023-07-29
# ニューラルネットワークにおける因果関係の発見と知識注入

Causal Discovery and Knowledge Injection for Contestable Neural Networks ( http://arxiv.org/abs/2205.09787v3 )

ライセンス: Link先を確認
Fabrizio Russo and Francesca Toni(参考訳) ニューラルネットワークは機械学習タスクの解決に効果的であることが証明されているが、関連する因果関係を学ぶかどうかは不明だが、ブラックボックスの性質はモデルラーがそれらを理解しデバッグすることが困難である。 本稿では,ニューラルネットワークを内蔵したマシンが学習した因果グラフを露呈し,機械に再注入する前に因果グラフを修正して機械と競合することを可能にすることによって,これらの問題を克服する新しい手法を提案する。 学習したモデルは、グラフに準拠し、専門家の知識に準拠することが保証されている。 モデル動作にウィンドウを構築し,知識注入を可能にすることにより,データから発見された因果構造に基づいてネットワークをデバッグし,予測の基盤となる。 実および合成表データを用いた実験により,本手法は,soma正規化ネットワークと比較して,入力層が最大7倍小さく,予測性能が2.4倍まで向上することを示した。

Neural networks have proven to be effective at solving machine learning tasks but it is unclear whether they learn any relevant causal relationships, while their black-box nature makes it difficult for modellers to understand and debug them. We propose a novel method overcoming these issues by allowing a two-way interaction whereby neural-network-empowered machines can expose the underpinning learnt causal graphs and humans can contest the machines by modifying the causal graphs before re-injecting them into the machines. The learnt models are guaranteed to conform to the graphs and adhere to expert knowledge, some of which can also be given up-front. By building a window into the model behaviour and enabling knowledge injection, our method allows practitioners to debug networks based on the causal structure discovered from the data and underpinning the predictions. Experiments with real and synthetic tabular data show that our method improves predictive performance up to 2.4x while producing parsimonious networks, up to 7x smaller in the input layer, compared to SOTA regularised networks.
翻訳日:2023-08-02 00:45:02 公開日:2023-07-29
# 重力場のための絡み合いウェッジ

Entanglement Wedges for Gravitating Regions ( http://arxiv.org/abs/2208.04993v4 )

ライセンス: Link先を確認
Raphael Bousso and Geoff Penington(参考訳) テンソルネットワークの性質に動機づけられて、任意の重力領域 $a$ を一般化された絡み合い wedge $e\supset a$ に割り当てることができると仮定し、e$ の準局所作用素は、準局所作用素が $a$ で生成する全代数においてホログラフィック表現を持つ。 宇宙は漸近的に平坦または広告である必要はなく、a$は漸近的または弱い重力的である必要もない。 静的コーシー曲面 $\Sigma$ 上で、$E$ は一般化エントロピーを最小化する $a$ のスーパーセットである。 e$ は非閉包定理と強部分加法的およびネスティングの適切な形式を満たすことが証明される。 もし$a$がAdSの共形境界の一部の$A$近くにあるなら、我々の提案は$A$に適用されるQuantum Minimal Surfaceの処方令に還元される。 この提案の共変拡張についても論じるが、完全に満足できるものはない。 我々の結果は、半古典的記述の空間的な値である$e$の情報は、それでもその記述を破る顕微鏡的な演算子によって$a$から回復できるという予想と一致している。 したがって、一般時空における量子重力の重要な非局所的特徴であるホログラフィック符号化の範囲を$E$で定量化する。

Motivated by properties of tensor networks, we conjecture that an arbitrary gravitating region $a$ can be assigned a generalized entanglement wedge $E\supset a$, such that quasi-local operators in $E$ have a holographic representation in the full algebra generated by quasi-local operators in $a$. The universe need not be asymptotically flat or AdS, and $a$ need not be asymptotic or weakly gravitating. On a static Cauchy surface $\Sigma$, we propose that $E$ is the superset of $a$ that minimizes the generalized entropy. We prove that $E$ satisfies a no-cloning theorem and appropriate forms of strong subadditivity and nesting. If $a$ lies near a portion $A$ of the conformal boundary of AdS, our proposal reduces to the Quantum Minimal Surface prescription applied to $A$. We also discuss possible covariant extensions of this proposal, although none prove completely satisfactory. Our results are consistent with the conjecture that information in $E$ that is spacelike to $a$ in the semiclassical description can nevertheless be recovered from $a$, by microscopic operators that break that description. We thus propose that $E$ quantifies the range of holographic encoding, an important nonlocal feature of quantum gravity, in general spacetimes.
翻訳日:2023-08-02 00:36:32 公開日:2023-07-29
# mctnet:光リモートセンシング画像の変更検出のためのマルチスケールcnn-transformerネットワーク

MCTNet: A Multi-Scale CNN-Transformer Network for Change Detection in Optical Remote Sensing Images ( http://arxiv.org/abs/2210.07601v3 )

ライセンス: Link先を確認
Weiming Li, Lihui Xue, Xueqian Wang, and Gang Li(参考訳) リモートセンシング画像における変化検出(cd)タスクのために、ディープ畳み込みニューラルネットワーク(cnns)ベースの手法が最近、グローバル特徴抽出能力を改善するためにトランスフォーマーモジュールを集約した。 しかし、深層cnnとトランスフォーマーモジュールの単純な単一スケール統合により、小さな変更領域でcdパフォーマンスが低下した。 この問題に対処するために,MCTNetと呼ばれるマルチスケールCNN変換器構造に基づくハイブリッドネットワークを提案する。 特に,変換器モジュールからグローバルな特徴を適応的に集約するConvTransブロックを設計し,CNN層からローカルな特徴を抽出する。 MCTNetは,既存の最先端CD法よりも優れた検出性能を示す。

For the task of change detection (CD) in remote sensing images, deep convolution neural networks (CNNs)-based methods have recently aggregated transformer modules to improve the capability of global feature extraction. However, they suffer degraded CD performance on small changed areas due to the simple single-scale integration of deep CNNs and transformer modules. To address this issue, we propose a hybrid network based on multi-scale CNN-transformer structure, termed MCTNet, where the multi-scale global and local information are exploited to enhance the robustness of the CD performance on changed areas with different sizes. Especially, we design the ConvTrans block to adaptively aggregate global features from transformer modules and local features from CNN layers, which provides abundant global-local features with different scales. Experimental results demonstrate that our MCTNet achieves better detection performance than existing state-of-the-art CD methods.
翻訳日:2023-08-02 00:26:34 公開日:2023-07-29
# 確率勾配ランジュバン力学における関数中心極限定理と大数の強則

Functional Central Limit Theorem and Strong Law of Large Numbers for Stochastic Gradient Langevin Dynamics ( http://arxiv.org/abs/2210.02092v2 )

ライセンス: Link先を確認
Attila Lovas and Mikl\'os R\'asonyi(参考訳) 本稿では,機械学習の重要な最適化アルゴリズムである確率勾配ランゲヴィンダイナミクス(SGLD)の混合特性について検討する。 データストリームは独立ではないと仮定されるので、SGLD はマルコフ連鎖ではなく、単にランダムな環境での 'emph{Markov chain' であり、数学的処理をかなり複雑にする。 我々は、大数の強い法則と、SGLDの関数中心極限定理を導出する。

We study the mixing properties of an important optimization algorithm of machine learning: the stochastic gradient Langevin dynamics (SGLD) with a fixed step size. The data stream is not assumed to be independent hence the SGLD is not a Markov chain, merely a \emph{Markov chain in a random environment}, which complicates the mathematical treatment considerably. We derive a strong law of large numbers and a functional central limit theorem for SGLD.
翻訳日:2023-08-02 00:26:17 公開日:2023-07-29
# 非古典性の評価基準の実験的実証

Experimental demonstration of the criterion for the prepare-and-measure nonclassicality ( http://arxiv.org/abs/2209.15209v3 )

ライセンス: Link先を確認
Maolin Luo, Xiaoqian Zhang and Xiaoqi Zhou(参考訳) 準備と測定理論は、物理系の次元性の観点から古典理論と量子力学の不整合性を明らかにする新しいタイプの量子パラドックスであり、与えられた量子状態がベルの非古典性を示すことができるかどうかを決定するのと同様に、与えられた量子状態が準備と測定の非古典性を示すことができるかどうかを決定するために、同様の基準が必要である。 最近、poderiniとal。 [植物相研究2,043106(2020)]は、このような非古典性の準備・測定の基準を提示した。 本研究は, 52種類の異なる量子状態がそれぞれ準備され, 試験され, 準備と測定の非古典性を示すことができるかどうかを判定し, 実験結果が理論的な期待値とよく一致していることを実験的に検証する。 ここで実験的に検証された基準は、将来の非古典性の準備と測定に関する研究に広く使われる可能性がある。

The prepare-and-measure theory is a new type of quantum paradox that reveals the incompatibility between classical theory and quantum mechanics in terms of the dimensionality of physical systems.Just as the Horodecki criterion can determine whether given quantum states are capable of exhibiting Bell nonclassicality, a similar criterion is needed for the prepare-and-measure theory to determine whether given uantum states can exhibit the prepare-and-measure nonclassicality. Recently, Poderini et al. [Phys. Rev. Research 2, 043106 (2020)] presented such a criterion for the prepare-and-measure nonclassicality. In this work, we experimentally validate this criterion -- 52 different sets of quantum states are prepared and tested one by one using this criterion to determine whether they can exhibit the prepare-and-measure nonclassicality, and the experimental results are in good agreement with the theoretical expectations. The criterion experimentally verified here has the potential to be widely used in future research on the prepare-and-measure nonclassicality.
翻訳日:2023-08-02 00:25:45 公開日:2023-07-29
# MLIC:学習画像圧縮のためのマルチ参照エントロピーモデル

MLIC: Multi-Reference Entropy Model for Learned Image Compression ( http://arxiv.org/abs/2211.07273v4 )

ライセンス: Link先を確認
Wei Jiang, Jiayu Yang, Yongqi Zhai, Peirong Ning, Feng Gao, Ronggang Wang(参考訳) 近年,学習画像の圧縮性能は著しく向上している。 潜在表現の分布を推定するエントロピーモデルは、速度分散性能の向上に重要な役割を果たしている。 しかし、ほとんどのエントロピーモデルは1次元の相関のみを捉えるが、潜在表現はチャネル回り、局所空間、大域的な空間相関を含む。 この問題に対処するため、Multi-Reference Entropy Model (MEM) と高度なバージョンMEM$^+$を提案する。 これらのモデルは潜在表現に存在する異なる種類の相関を捉える。 具体的には、まず潜在表現をスライスに分割する。 現在のスライスを復号する際には、予め復号されたスライスをコンテキストとして使用し、それまでのスライスのアテンションマップを用いて、現在のスライスにおける大域的相関を予測する。 ローカルコンテキストをキャプチャするために,性能劣化を回避する2つの拡張チェッカーボードコンテキストキャプチャ技術を導入する。 MEM と MEM$^+$ に基づいて,画像圧縮モデル MLIC と MLIC$^+$ を提案する。 我々のMLICおよびMLIC$^+$モデルは、PSNRで測定されたVTM-17.0と比較して、Kodakデータセット上でのBDレートが8.05\%$と11.39\%$に減少する。

Recently, learned image compression has achieved remarkable performance. The entropy model, which estimates the distribution of the latent representation, plays a crucial role in boosting rate-distortion performance. However, most entropy models only capture correlations in one dimension, while the latent representation contain channel-wise, local spatial, and global spatial correlations. To tackle this issue, we propose the Multi-Reference Entropy Model (MEM) and the advanced version, MEM$^+$. These models capture the different types of correlations present in latent representation. Specifically, We first divide the latent representation into slices. When decoding the current slice, we use previously decoded slices as context and employ the attention map of the previously decoded slice to predict global correlations in the current slice. To capture local contexts, we introduce two enhanced checkerboard context capturing techniques that avoids performance degradation. Based on MEM and MEM$^+$, we propose image compression models MLIC and MLIC$^+$. Extensive experimental evaluations demonstrate that our MLIC and MLIC$^+$ models achieve state-of-the-art performance, reducing BD-rate by $8.05\%$ and $11.39\%$ on the Kodak dataset compared to VTM-17.0 when measured in PSNR.
翻訳日:2023-08-02 00:17:33 公開日:2023-07-29
# オープンボキャブラリー物体検出のための細粒度ビジュアルテキストプロンプト駆動自己学習

Fine-grained Visual-Text Prompt-Driven Self-Training for Open-Vocabulary Object Detection ( http://arxiv.org/abs/2211.00849v2 )

ライセンス: Link先を確認
Yanxin Long, Jianhua Han, Runhui Huang, Xu Hang, Yi Zhu, Chunjing Xu, Xiaodan Liang(参考訳) ゼロショット分類における視覚言語手法(VLM)の成功に触発された最近の研究は、事前学習されたVLMのローカライゼーション能力を活用して、未確認クラスの擬似ラベルを自己学習的に生成することにより、オブジェクト検出にこの線を拡張しようとしている。 しかしながら、現在のVLMは、通常、グローバルな画像埋め込みと整列した文の埋め込みで事前訓練されているため、それらを直接使用するには、検出のコアであるオブジェクトインスタンスの微粒なアライメントが欠如している。 本稿では,より強力な細粒度アライメントにより現在の自己学習パラダイムを強化するために,細粒度ビジュアルテキストプロンプト適応ステージを導入するオープンボキャブラリー検出(vtp-ovd)のための,簡便かつ効果的な細粒度ビジュアルテキストプロンプト駆動自己学習パラダイムを提案する。 適応段階では、学習可能なテキストプロンプトを用いて細粒度アライメントを可能とし、補助的なピクセルワイズ予測タスクを解決する。 さらに,事前学習したVLMを下流タスクに適応させるために,視覚枝に対して事前のタスク情報(つまり,カテゴリを予測する必要がある)を提供する視覚プロンプトモジュールを提案する。 実験の結果,COCOの未確認クラスでは,31.5% mAPなど,オープン語彙オブジェクト検出の最先端性能が得られた。

Inspired by the success of vision-language methods (VLMs) in zero-shot classification, recent works attempt to extend this line of work into object detection by leveraging the localization ability of pre-trained VLMs and generating pseudo labels for unseen classes in a self-training manner. However, since the current VLMs are usually pre-trained with aligning sentence embedding with global image embedding, the direct use of them lacks fine-grained alignment for object instances, which is the core of detection. In this paper, we propose a simple but effective fine-grained Visual-Text Prompt-driven self-training paradigm for Open-Vocabulary Detection (VTP-OVD) that introduces a fine-grained visual-text prompt adapting stage to enhance the current self-training paradigm with a more powerful fine-grained alignment. During the adapting stage, we enable VLM to obtain fine-grained alignment by using learnable text prompts to resolve an auxiliary dense pixel-wise prediction task. Furthermore, we propose a visual prompt module to provide the prior task information (i.e., the categories need to be predicted) for the vision branch to better adapt the pre-trained VLM to the downstream tasks. Experiments show that our method achieves the state-of-the-art performance for open-vocabulary object detection, e.g., 31.5% mAP on unseen classes of COCO.
翻訳日:2023-08-02 00:16:38 公開日:2023-07-29
# 潜在マルチモーダル機能的グラフィカルモデル推定

Latent Multimodal Functional Graphical Model Estimation ( http://arxiv.org/abs/2210.17237v2 )

ライセンス: Link先を確認
Katherine Tsai, Boxin Zhao, Sanmi Koyejo, Mladen Kolar(参考訳) 統合多モード機能データ取得は、複数のモードから同時に測定される機能データを、神経学および生物学的科学における最近の工学的ブレークスルーによって実現された、エキサイティングな現代的なアプローチとして出現している。 このようなデータを取得するための顕著な動機の1つは、マルチモーダル信号を組み合わせることで基盤となる接続の新しい発見を可能にすることである。 科学的な関心にもかかわらず、マルチモーダル関数データに基づくグラフを推定する原理的な統計手法には差がある。 そこで本研究では,データ生成過程をモデル化し,観測空間から潜在空間への演算子マッピングを同定する新しい統合フレームワークを提案する。 次に変換演算子と潜在グラフを同時に推定する推定器を開発する。 この推定子は、多変量から関数的設定へ厳密に拡張する部分相関演算子に基づいている。 提案手法は, 統計的誤差を定量化して定常点に収束する推定器で有効である。 さらに,緩やかな条件下での潜伏グラフの回復を示す。 本研究は、脳の機能的接続を示すグラフを同時に取得したマルチモーダル脳イメージングデータを解析することに適用する。 共同推定の利点を支えるシミュレーションと実験結果を提案する。

Joint multimodal functional data acquisition, where functional data from multiple modes are measured simultaneously from the same subject, has emerged as an exciting modern approach enabled by recent engineering breakthroughs in the neurological and biological sciences. One prominent motivation to acquire such data is to enable new discoveries of the underlying connectivity by combining multimodal signals. Despite the scientific interest, there remains a gap in principled statistical methods for estimating the graph underlying multimodal functional data. To this end, we propose a new integrative framework that models the data generation process and identifies operators mapping from the observation space to the latent space. We then develop an estimator that simultaneously estimates the transformation operators and the latent graph. This estimator is based on the partial correlation operator, which we rigorously extend from the multivariate to the functional setting. Our procedure is provably efficient, with the estimator converging to a stationary point with quantifiable statistical error. Furthermore, we show recovery of the latent graph under mild conditions. Our work is applied to analyze simultaneously acquired multimodal brain imaging data where the graph indicates functional connectivity of the brain. We present simulation and empirical results that support the benefits of joint estimation.
翻訳日:2023-08-02 00:15:46 公開日:2023-07-29
# 時空対称性を持つ理論非依存ランダム性生成

Theory-independent randomness generation with spacetime symmetries ( http://arxiv.org/abs/2210.14811v2 )

ライセンス: Link先を確認
Caroline L. Jones, Stefan L. Ludescher, Albert Aloy, Markus P. Mueller(参考訳) 時空対称性の破断に基づく半デバイス非依存プロトコルのクラスを導入する。 特に、物理系の空間回転への応答が観測される事象の確率をいかに制約するかを特徴付ける:我々の設定では、量子相関の集合は、量子物理学を仮定せずに回転対称性から生じる。 実用的なレベルでは、デバイスを信じたり量子論を仮定したりすることなく安全な乱数を生成することができる。 基本レベルでは、事象の確率(量子力学でよく見られる)と時空の性質(相対性理論でよく見られる)の間の相互作用を探索する理論に依存しない枠組みを開設する。

We introduce a class of semi-device-independent protocols based on the breaking of spacetime symmetries. In particular, we characterise how the response of physical systems to spatial rotations constrains the probabilities of events that may be observed: in our setup, the set of quantum correlations arises from rotational symmetry without assuming quantum physics. On a practical level, our results allow for the generation of secure random numbers without trusting the devices or assuming quantum theory. On a fundamental level, we open a theory-agnostic framework for probing the interplay between probabilities of events (as prevalent in quantum mechanics) and the properties of spacetime (as prevalent in relativity).
翻訳日:2023-08-02 00:15:13 公開日:2023-07-29
# ニューラルネットワークとインデックスによるクラスタリング

Clustering with Neural Network and Index ( http://arxiv.org/abs/2212.03853v5 )

ライセンス: Link先を確認
Gangli Liu(参考訳) ニューラルネットワークとインデックス(cnni)を用いたクラスタリングと呼ばれる新しいモデルを導入した。 CNNIはニューラルネットワークを使ってデータポイントをクラスタ化する。 ニューラルネットワークのトレーニングは教師付き学習を模倣し、内部クラスタリング評価指標が損失関数として機能する。 新しいモデルの実現可能性をテストする実験を行い、K平均やガウス混合モデル(GMM)のような他のクラスタリングモデルと比較した。 cnniはmmj-scを備えており、非凸形状(非平坦形状)データを扱うことができる最初のパラメトリック(誘導的)クラスタリングモデルを実現している。

A new model called Clustering with Neural Network and Index (CNNI) is introduced. CNNI uses a Neural Network to cluster data points. Training of the Neural Network mimics supervised learning, with an internal clustering evaluation index acting as the loss function. An experiment is conducted to test the feasibility of the new model, and compared with results of other clustering models like K-means and Gaussian Mixture Model (GMM). The result shows CNNI can work properly for clustering data; CNNI equipped with MMJ-SC, achieves the first parametric (inductive) clustering model that can deal with non-convex shaped (non-flat geometry) data.
翻訳日:2023-08-02 00:06:22 公開日:2023-07-29
# 対話におけるノイズの発生源と対処方法

Sources of Noise in Dialogue and How to Deal with Them ( http://arxiv.org/abs/2212.02745v2 )

ライセンス: Link先を確認
Derek Chen, Zhou Yu(参考訳) トレーニング対話システムは、しばしば騒がしいトレーニング例や予期せぬユーザ入力を扱う。 それらの頻度にもかかわらず、現在、対話ノイズの正確な調査がなく、各ノイズタイプがタスクパフォーマンスに与える影響を明確に把握していない。 本稿では,対話システムで発生する雑音の分類を初めて構築することによって,このギャップを解消する。 さらに、様々なレベルのノイズや種類のノイズを受けるとき、異なるモデルがどのように振る舞うかを示す一連の実験を行った。 この結果から,既存の復号化アルゴリズムが扱う誤りのラベル付けには極めて堅牢であるが,性能は対話特有のノイズに悩まされていることが明らかとなった。 これらの観察に基づいて,対話的設定に特化したデータクリーニングアルゴリズムを設計し,対象対話に対する概念実証として適用する。

Training dialogue systems often entails dealing with noisy training examples and unexpected user inputs. Despite their prevalence, there currently lacks an accurate survey of dialogue noise, nor is there a clear sense of the impact of each noise type on task performance. This paper addresses this gap by first constructing a taxonomy of noise encountered by dialogue systems. In addition, we run a series of experiments to show how different models behave when subjected to varying levels of noise and types of noise. Our results reveal that models are quite robust to label errors commonly tackled by existing denoising algorithms, but that performance suffers from dialogue-specific noise. Driven by these observations, we design a data cleaning algorithm specialized for conversational settings and apply it as a proof-of-concept for targeted dialogue denoising.
翻訳日:2023-08-02 00:06:11 公開日:2023-07-29
# 部分付加性円錐と量子エントロピー円錐の関係について

On the relation between the subadditivity cone and the quantum entropy cone ( http://arxiv.org/abs/2211.11858v2 )

ライセンス: Link先を確認
Temple He, Veronika E. Hubeny, Massimiliano Rota(参考訳) 多元量子系が与えられたとき、いくつかのサブシステム間で相互独立性を課す方法と、それらの要求を満たす量子状態が存在するような相関が存在する方法とは何だろうか? この問題とその関連概念はarXiv:1912.01041で導入され、arXiv:2204.00075ではホログラフィックエントロピー円錐の導出の中心であると主張した。 ここでは、arXiv:1912.01041 で開始された \textit{strong subadditivity} (SSA) によって許容される PMI の一般情報理論解析を継続する。 これらのpmisの計算が、部分加法(sa)の飽和に必要な条件から従う、より弱い制約である \textit{klein's condition} (kc) によってssaが置き換えられるとき、いかに単純化されるかを示す。 部分順序集合の言語で KC を定式化することにより、KC と互換性のある PMI の集合が格子を形成することを示す。 私たちの主な結果の1つは、その境界上に量子状態によって実現可能な全ての極端な光線(ベル対を除く)を含む、sa錐の特定の低次元面の同定です。 4つ以上のパーティでは、KCはSSAよりも厳格に弱いが、SSAと互換性のあるPMIはKC互換のものから容易に引き出すことができる。 1次元の PMI の特別の場合、KC と SSA は実際には同値である。 プレゼンテーションを自己完結させるため,格子理論の重要成分を必要に応じて検討する。

Given a multipartite quantum system, what are the possible ways to impose mutual independence among some subsystems, and the presence of correlations among others, such that there exists a quantum state which satisfies these demands? This question and the related notion of a \textit{pattern of marginal independence} (PMI) were introduced in arXiv:1912.01041, and then argued in arXiv:2204.00075 to be central in the derivation of the holographic entropy cone. Here we continue the general information theoretic analysis of the PMIs allowed by \textit{strong subadditivity} (SSA) initiated in arXiv:1912.01041. We show how the computation of these PMIs simplifies when SSA is replaced by a weaker constraint, dubbed \textit{Klein's condition} (KC), which follows from the necessary condition for the saturation of subadditivity (SA). Formulating KC in the language of partially ordered sets, we show that the set of PMIs compatible with KC forms a lattice, and we investigate several of its structural properties. One of our main results is the identification of a specific lower dimensional face of the SA cone that contains on its boundary all the extreme rays (beyond Bell pairs) that can possibly be realized by quantum states. We verify that for four or more parties, KC is strictly weaker than SSA, but nonetheless the PMIs compatible with SSA can easily be derived from the KC-compatible ones. For the special case of 1-dimensional PMIs, we conjecture that KC and SSA are in fact equivalent. To make the presentation self-contained, we review the key ingredients from lattice theory as needed.
翻訳日:2023-08-02 00:04:36 公開日:2023-07-29
# 機械学習の音響反転によるリアルタイム音声感情検出に対するプライバシ

Privacy against Real-Time Speech Emotion Detection via Acoustic Adversarial Evasion of Machine Learning ( http://arxiv.org/abs/2211.09273v2 )

ライセンス: Link先を確認
Brian Testa, Yi Xiao, Avery Gump, and Asif Salekin(参考訳) 感情監視(Emotional Surveillance)は、プライバシーの懸念が高まりつつある分野だ。 これらの懸念は、監視ユースケースをサポートする複数のセンサーを備えたユビキタスIoTデバイスによって悪化する。 ここでは、スマートスピーカーに接続された音声感情認識(SER)分類器の使用という、そのようなユースケースについて考察する。 この研究は、スマートスピーカーの利便性を損なうことなく、スマートスピーカーに接続されたブラックボックスSER分類器を回避する能力を示す。 このプライバシーの懸念は、機械学習の敵対的回避のレンズを通して考慮される。 遺伝的プログラミング(dare-gp)による感情の音響認識を打破するソリューションは,非侵襲的付加音響摂動(aaps)を生成するために遺伝的プログラミングを用いる。 これらのAAPの進化を制限することにより、SER分類器の性能を低下させながら、転写精度を保護できる。 これらのAAPの付加的な性質は、発話とユーザ位置に依存しない方法で、固定されたユーザに対してこれらのAAPを生成するアプローチとともに、SER分類器のリアルタイム、実世界の回避をサポートする。 DARE-GPによるスペクトル特徴の使用は、音声の感情的内容の基盤となるもので、AAPの転送性は以前は見つからなかったブラックボックスのSER分類器が可能である。 さらに、DARE-GPは最先端のSER回避技術よりも優れており、知識のある敵が使用する防御に対して堅牢である。 本研究の評価は、市販の市販スマートスピーカー2台に対して音響評価を行い、単一のAAPがブラックボックス分類器を70%以上回避できる結果となった。 最終的な評価では、DARE-GPがスマートスピーカーのウェイクワードで自動的に起動される実世界のリアルタイムデプロイメントの有効性を評価するために、ウェイクワードシステムと統合された小さなフォームファクタシステム(ラズベリーpi)にAAP再生をデプロイした。

Emotional Surveillance is an emerging area with wide-reaching privacy concerns. These concerns are exacerbated by ubiquitous IoT devices with multiple sensors that can support these surveillance use cases. The work presented here considers one such use case: the use of a speech emotion recognition (SER) classifier tied to a smart speaker. This work demonstrates the ability to evade black-box SER classifiers tied to a smart speaker without compromising the utility of the smart speaker. This privacy concern is considered through the lens of adversarial evasion of machine learning. Our solution, Defeating Acoustic Recognition of Emotion via Genetic Programming (DARE-GP), uses genetic programming to generate non-invasive additive audio perturbations (AAPs). By constraining the evolution of these AAPs, transcription accuracy can be protected while simultaneously degrading SER classifier performance. The additive nature of these AAPs, along with an approach that generates these AAPs for a fixed set of users in an utterance and user location-independent manner, supports real-time, real-world evasion of SER classifiers. DARE-GP's use of spectral features, which underlay the emotional content of speech, allows the transferability of AAPs to previously unseen black-box SER classifiers. Further, DARE-GP outperforms state-of-the-art SER evasion techniques and is robust against defenses employed by a knowledgeable adversary. The evaluations in this work culminate with acoustic evaluations against two off-the-shelf commercial smart speakers, where a single AAP could evade a black box classifier over 70% of the time. The final evaluation deployed AAP playback on a small-form-factor system (raspberry pi) integrated with a wake-word system to evaluate the efficacy of a real-world, real-time deployment where DARE-GP is automatically invoked with the smart speaker's wake word.
翻訳日:2023-08-02 00:04:09 公開日:2023-07-29
# トポロジカル秩序における混合状態絡み合い対策

Mixed-State Entanglement Measures in Topological Order ( http://arxiv.org/abs/2301.08207v2 )

ライセンス: Link先を確認
Chao Yin, Shang Liu(参考訳) 量子絡み合いは、従来の順序パラメータを欠く位相的順序の特に有用な特徴である。 本研究では,2つの空間領域間の位相的に秩序づけられた状態の絡み合いについて,いわゆる「計算可能な交叉ノルム(CCNR)」の負性度と,よりよく知られた部分転位(PT)の負性度を用いて検討する。 まず、エンタングルメント測度を計算し、(2+1)dチャーン・シモンズ場の理論において、ある簡約条件の下で、およびすべての次元の格子モデルに適用されるパウリ安定化形式の両方の一般式を得る。 場の理論的な結果はトポロジカルかつ普遍的であると予想されるが、格子結果は非トポロジカル・非ユニバーサル項も含んでいる。 これは実用上重要な連続-格子比較の重要な問題を提起する。 2つの空間領域と残りの部分系が3つの交叉を持たない場合、両絡み合い測度において位相的および普遍的な項を抽出する一般的な戦略を提案する。 2+1)D $Z_2$ トーリックコードモデルの例も紹介されている。 しかし,三等分点の存在下では,ptネガティビティのサブリーディングピースは位相的ではなく,局所的な三等分点形状に依存しており,これは場理論計算における技術的な微妙さと調和していることが示唆された。

Quantum entanglement is a particularly useful characterization of topological orders which lack conventional order parameters. In this work, we study the entanglement in topologically ordered states between two arbitrary spatial regions, using two distinct mixed-state entanglement measures: the so-called "computable cross-norm or realignment" (CCNR) negativity, and the more well-known partial-transpose (PT) negativity. We first generally compute the entanglement measures: We obtain general expressions both in (2+1)D Chern-Simons field theories under certain simplifying conditions, and in the Pauli stabilizer formalism that applies to lattice models in all dimensions. While the field-theoretic results are expected to be topological and universal, the lattice results contain nontopological/nonuniversal terms as well. This raises the important problem of continuum-lattice comparison which is crucial for practical applications. When the two spatial regions and the remaining subsystem do not have triple intersection, we solve the problem by proposing a general strategy for extracting the topological and universal terms in both entanglement measures. Examples in the (2+1)D $Z_2$ toric code model are also presented. In the presence of trisection points, however, our result suggests that the subleading piece in the PT negativity is not topological and depends on the local geometry of the trisections, which is in harmonics with a technical subtlety in the field-theoretic calculation.
翻訳日:2023-08-01 23:58:10 公開日:2023-07-29
# ACQ: 注意補正による生成的データフリー量子化の改善

ACQ: Improving Generative Data-free Quantization Via Attention Correction ( http://arxiv.org/abs/2301.07266v2 )

ライセンス: Link先を確認
Jixing Li, Xiaozhou Guo, Benzhe Dai, Guoliang Gong, Min Jin, Gang Chen, Wenyu Mao and Huaxiang Lu(参考訳) データフリー量子化は、真のサンプルにアクセスすることなくモデル量子化を実現することを目的としている。 データプライバシを含むアプリケーション指向のコンテキストにおいて重要である。 ノイズベクトルをジェネレータを介して合成サンプルに変換することは、生成データ自由量子化と呼ばれる一般的なデータ自由量子化法である。 しかし, 合成試料と真正試料の間には, 注意の相違がある。 これは常に無視され、量子化性能を制限する。 第一に、同じクラスの合成サンプルは均質な注意を向けやすいため、量子化ネットワークは限られた注意モードしか学習できない。 第2に、evalモードとトレーニングモードの合成サンプルは異なる注意を払っている。 したがって、バッチ正規化統計マッチングは不正確な傾向にある。 本稿では, 合成試料の注目を集めるためにACQを提案する。 階級内注目の均質化に関して、注目中心位置条件生成器を確立する。 注目センター整合損失により制限され、注目センター位置を発電機の条件入力として扱い、合成サンプルを誘導し、多様な注意を得る。 さらに, 同一条件下での合成試料の対向損失を設計し, 発生元が過度に注意を払わないようにし, モード崩壊を引き起こす可能性がある。 異なるネットワークモードでの合成サンプルの注意の類似性を改善するために, 正確なbn統計マッチングを保証する一貫性ペナルティを導入する。 実験の結果,ACQは合成試料の注意問題を効果的に改善することが示された。 様々なトレーニング設定の下で、ACQは最高の量子化性能を達成する。 Resnet18とResnet50の4ビット量子化では、ACQはそれぞれ67.55%と72.23%の精度に達する。

Data-free quantization aims to achieve model quantization without accessing any authentic sample. It is significant in an application-oriented context involving data privacy. Converting noise vectors into synthetic samples through a generator is a popular data-free quantization method, which is called generative data-free quantization. However, there is a difference in attention between synthetic samples and authentic samples. This is always ignored and restricts the quantization performance. First, since synthetic samples of the same class are prone to have homogenous attention, the quantized network can only learn limited modes of attention. Second, synthetic samples in eval mode and training mode exhibit different attention. Hence, the batch-normalization statistics matching tends to be inaccurate. ACQ is proposed in this paper to fix the attention of synthetic samples. An attention center position-condition generator is established regarding the homogenization of intra-class attention. Restricted by the attention center matching loss, the attention center position is treated as the generator's condition input to guide synthetic samples in obtaining diverse attention. Moreover, we design adversarial loss of paired synthetic samples under the same condition to prevent the generator from paying overmuch attention to the condition, which may result in mode collapse. To improve the attention similarity of synthetic samples in different network modes, we introduce a consistency penalty to guarantee accurate BN statistics matching. The experimental results demonstrate that ACQ effectively improves the attention problems of synthetic samples. Under various training settings, ACQ achieves the best quantization performance. For the 4-bit quantization of Resnet18 and Resnet50, ACQ reaches 67.55% and 72.23% accuracy, respectively.
翻訳日:2023-08-01 23:57:42 公開日:2023-07-29
# 混乱した頭:拡散モデルが対面生成でGANを上回った

Diffused Heads: Diffusion Models Beat GANs on Talking-Face Generation ( http://arxiv.org/abs/2301.03396v2 )

ライセンス: Link先を確認
Micha{\l} Stypu{\l}kowski, Konstantinos Vougioukas, Sen He, Maciej Zi\k{e}ba, Stavros Petridis, Maja Pantic(参考訳) 顔の生成は、これまで、追加の参照ビデオからのガイダンスなしで、頭の動きや自然な表情を作り出すのに苦労してきた。 近年の拡散型生成モデルの開発により、より現実的で安定したデータ合成が可能となり、画像およびビデオ生成の性能は他の生成モデルを上回るものとなった。 本研究では,人間の頭部の映像を生成するのに1つの識別画像と音声シーケンスしか必要としない自己回帰拡散モデルを提案する。 我々のソリューションは、頭の動き、点滅などの表情を幻覚させ、特定の背景を保存することができる。 2つの異なるデータセットでモデルを評価し、両者で最先端の結果を得る。

Talking face generation has historically struggled to produce head movements and natural facial expressions without guidance from additional reference videos. Recent developments in diffusion-based generative models allow for more realistic and stable data synthesis and their performance on image and video generation has surpassed that of other generative models. In this work, we present an autoregressive diffusion model that requires only one identity image and audio sequence to generate a video of a realistic talking human head. Our solution is capable of hallucinating head movements, facial expressions, such as blinks, and preserving a given background. We evaluate our model on two different datasets, achieving state-of-the-art results on both of them.
翻訳日:2023-08-01 23:56:17 公開日:2023-07-29
# データ設計: 機械学習のための積極的なデータ収集とイテレーション

Designing Data: Proactive Data Collection and Iteration for Machine Learning ( http://arxiv.org/abs/2301.10319v2 )

ライセンス: Link先を確認
Aspen Hopkins, Fred Hohman, Luca Zappella, Xavier Suau Cuadros and Dominik Moritz(参考訳) データ収集の多様性の欠如は、機械学習(ML)アプリケーションに重大な障害を引き起こしている。 ML開発者はコンパイル後の介入を行うが、これらは時間がかかり、包括的ではない。 したがって、データセットが実世界の変動性を反映しているかどうかを評価するためには、データ収集、イテレーション、モデルのトレーニングを追跡および管理する新しい方法が必要である。 本稿では,HCIの概念とML手法を結合するデータ収集手法である設計データを提案する。 本プロセスは,(1)事前収集計画,(1)予測されるデータ分布を柔軟にプロンプトし文書化すること,(2) 多様性を体系的にサンプリングするコレクションモニタリング,(3) 密度推定を用いたモデルに不慣れなサンプルを識別するデータファミリアリティを含む。 データ収集とモデリングタスクに設計データを適用する。 私たちは、'設計'データセットでトレーニングされたモデルが、同じようなサイズだがターゲットの少ないデータセットでトレーニングされたモデルよりも、交差するグループ間でより一般化され、データセットのデバッグにデータ習熟性が有効であることを発見しました。

Lack of diversity in data collection has caused significant failures in machine learning (ML) applications. While ML developers perform post-collection interventions, these are time intensive and rarely comprehensive. Thus, new methods to track & manage data collection, iteration, and model training are necessary for evaluating whether datasets reflect real world variability. We present designing data, an iterative approach to data collection connecting HCI concepts with ML techniques. Our process includes (1) Pre-Collection Planning, to reflexively prompt and document expected data distributions; (2) Collection Monitoring, to systematically encourage sampling diversity; and (3) Data Familiarity, to identify samples that are unfamiliar to a model using density estimation. We apply designing data to a data collection and modeling task. We find models trained on ''designed'' datasets generalize better across intersectional groups than those trained on similarly sized but less targeted datasets, and that data familiarity is effective for debugging datasets.
翻訳日:2023-08-01 23:44:53 公開日:2023-07-29
# 透明性ギャップのブリッジ: 説明可能なAIはAI法から何を学ぶことができるのか?

Bridging the Transparency Gap: What Can Explainable AI Learn From the AI Act? ( http://arxiv.org/abs/2302.10766v5 )

ライセンス: Link先を確認
Balint Gyevnar, Nick Ferguson, Burkhard Schafer(参考訳) 欧州連合は、AIシステムの透明性に関する詳細な要件を導入する人工知能法を提案した。 これらの要件の多くは、説明可能なAI(XAI)の分野によって対処できるが、透明性に関する法律とXAIの間には根本的な違いがある。 この法律は透明性を、説明責任、人権、持続可能なイノベーションなど、より広い価値をサポートする手段と見なしている。 対照的にxaiは透明性を狭義の終わりと見ており、社会技術的文脈を考慮せずに複雑なアルゴリズム特性を説明することに焦点を当てている。 私たちはこの違いを '`transparency gap'' と呼びます。 透明性のギャップに対処できないため、XAIはさまざまな透明性問題を未解決のまま残すリスクを負う。 このギャップを埋めるため、我々は透明性の基本的な定義をxaiと欧州の規制 -- 法と関連する一般データ保護規則 (gdpr) -- の用語を概観し、明確化する。 XAIと規制の異なる見解を比較することで、透明性の範囲の定義、XAIの法的地位の明確化、適合性評価の問題への対処、データセットの説明可能性の構築という、実践的な作業が透明性ギャップを埋める4つの軸に到達します。

The European Union has proposed the Artificial Intelligence Act which introduces detailed requirements of transparency for AI systems. Many of these requirements can be addressed by the field of explainable AI (XAI), however, there is a fundamental difference between XAI and the Act regarding what transparency is. The Act views transparency as a means that supports wider values, such as accountability, human rights, and sustainable innovation. In contrast, XAI views transparency narrowly as an end in itself, focusing on explaining complex algorithmic properties without considering the socio-technical context. We call this difference the ``transparency gap''. Failing to address the transparency gap, XAI risks leaving a range of transparency issues unaddressed. To begin to bridge this gap, we overview and clarify the terminology of how XAI and European regulation -- the Act and the related General Data Protection Regulation (GDPR) -- view basic definitions of transparency. By comparing the disparate views of XAI and regulation, we arrive at four axes where practical work could bridge the transparency gap: defining the scope of transparency, clarifying the legal status of XAI, addressing issues with conformity assessment, and building explainability for datasets.
翻訳日:2023-08-01 23:36:51 公開日:2023-07-29
# 非線形確率力学系の効率的な量子アルゴリズム

Efficient Quantum Algorithms for Nonlinear Stochastic Dynamical Systems ( http://arxiv.org/abs/2303.02463v3 )

ライセンス: Link先を確認
Abeynaya Gnanasekaran, Amit Surana, Tuhin Sahai(参考訳) 本稿では、Fokker-Planck方程式(FPE)を用いて非線形確率微分方程式(SDE)を解くための効率的な量子アルゴリズムを提案する。 空間と時間のFPEを2つのよく知られた数値スキーム、すなわち Chang-Cooper と暗黙の有限差分を用いて識別する。 次に、量子線形系アルゴリズムを用いて、得られた線形方程式系の解を計算する。 これら2つのスキームの詳細な誤差解析と複雑性解析を行い、提案アルゴリズムが一定の条件下で、所定の$\epsilon$エラー境界内でFPEの解を、状態次元$d$の多項式依存で確実に計算できることを実証する。 古典的数値的手法は次元とともに指数関数的にスケールするので、上記の条件下では従来の手法よりも高速に計算できる。

In this paper, we propose efficient quantum algorithms for solving nonlinear stochastic differential equations (SDE) via the associated Fokker-Planck equation (FPE). We discretize the FPE in space and time using two well-known numerical schemes, namely Chang-Cooper and implicit finite difference. We then compute the solution of the resulting system of linear equations using the quantum linear systems algorithm. We present detailed error and complexity analyses for both these schemes and demonstrate that our proposed algorithms, under certain conditions, provably compute the solution to the FPE within prescribed $\epsilon$ error bounds with polynomial dependence on state dimension $d$. Classical numerical methods scale exponentially with dimension, thus, our approach, under the aforementioned conditions, provides an \emph{exponential speed-up} over traditional approaches.
翻訳日:2023-08-01 23:27:07 公開日:2023-07-29
# TopSpark: 自律移動エージェント上でのエネルギー効率の高いスパイクニューラルネットワークのタイムステップ最適化手法

TopSpark: A Timestep Optimization Methodology for Energy-Efficient Spiking Neural Networks on Autonomous Mobile Agents ( http://arxiv.org/abs/2303.01826v2 )

ライセンス: Link先を確認
Rachmad Vidya Wicaksana Putra, Muhammad Shafique(参考訳) 自律移動エージェントは、低消費電力/エネルギー効率の機械学習(ml)アルゴリズムが必要であり、移動エージェントは通常バッテリーで駆動されるため、多様な環境に適応しながらmlベースのタスクを完了させる。 これらの要件は、スパース計算による低消費電力/エネルギー処理と、異なる環境に適応するためのバイオインスパイアされた学習メカニズムによる効率的なオンライン学習を提供することにより、スパイキングニューラルネットワーク(SNN)によって満たされる。 最近の研究では、スパイクのシーケンス(時間ステップ)を処理するために各ニューロンの計算時間を短縮することで、snsのエネルギー消費を最適化できることが研究されている。 しかし、最先端技術は、推論のみの固定時間ステップ設定を決定するために集中的な設計探索に依存しており、SNNがトレーニングと推論の両方において更なるエネルギー効率向上を達成するのを妨げている。 これらの技術は、SNNが実行時に効率的なオンライン学習を行うことを制限する。 そこで我々は,TopSparkを提案する。TopSparkは適応時間ステップの削減を利用して,トレーニングと推論の両方においてエネルギー効率のよいSNN処理を実現し,その精度を時間ステップの削減なしにSNNの精度に近づける。 TopSparkの考え方には、異なるタイムステップの精度への影響を分析すること、異なるタイムステップの正確性に重大な影響を与えるニューロンパラメータを特定すること、SNNがスパイキングアクティビティを減らして学習と推論を効果的に実行するパラメータ拡張を使用すること、設計要件を満たすための正確性、レイテンシ、エネルギーのトレードオフ戦略を開発することが含まれる。 結果は、TopSparkがSNNのレイテンシを3.9倍削減し、平均で3.5倍(トレーニング)と3.3倍(推論)のエネルギー消費を、異なるネットワークサイズ、学習ルール、ワークロードにわたって削減し、タイムステップの削減なしにSNNの2%以内の精度を維持していることを示している。

Autonomous mobile agents require low-power/energy-efficient machine learning (ML) algorithms to complete their ML-based tasks while adapting to diverse environments, as mobile agents are usually powered by batteries. These requirements can be fulfilled by Spiking Neural Networks (SNNs) as they offer low power/energy processing due to their sparse computations and efficient online learning with bio-inspired learning mechanisms for adapting to different environments. Recent works studied that the energy consumption of SNNs can be optimized by reducing the computation time of each neuron for processing a sequence of spikes (timestep). However, state-of-the-art techniques rely on intensive design searches to determine fixed timestep settings for only inference, thereby hindering the SNNs from achieving further energy efficiency gains in both training and inference. These techniques also restrict the SNNs from performing efficient online learning at run time. Toward this, we propose TopSpark, a novel methodology that leverages adaptive timestep reduction to enable energy-efficient SNN processing in both training and inference, while keeping its accuracy close to the accuracy of SNNs without timestep reduction. The ideas of TopSpark include: analyzing the impact of different timesteps on the accuracy; identifying neuron parameters that have a significant impact on accuracy in different timesteps; employing parameter enhancements that make SNNs effectively perform learning and inference using less spiking activity; and developing a strategy to trade-off accuracy, latency, and energy to meet the design requirements. The results show that, TopSpark saves the SNN latency by 3.9x as well as energy consumption by 3.5x (training) and 3.3x (inference) on average, across different network sizes, learning rules, and workloads, while maintaining the accuracy within 2% of SNNs without timestep reduction.
翻訳日:2023-08-01 23:26:49 公開日:2023-07-29
# ドメイン類似度に基づく重み付けを用いたマルチソースソフト擬似ラベル学習

Multi-Source Soft Pseudo-Label Learning with Domain Similarity-based Weighting for Semantic Segmentation ( http://arxiv.org/abs/2303.00979v2 )

ライセンス: Link先を確認
Shigemichi Matsuzaki, Hiroaki Masuzawa, Jun Miura(参考訳) 本稿では,対象データセットと必ずしも関係のない複数のソースデータセットを用いたセマンティックセマンティックセマンティクスのためのドメイン適応トレーニング手法について述べる。 複数のソースモデルから予測対象確率を統合することで,ソフトな擬似ラベル生成手法を提案する。 各ソースモデルの予測は、ソースとターゲットデータセット間の推定領域類似度に基づいて重み付けされ、ターゲットとより類似したソースに基づいてトレーニングされたモデルの寄与を強調し、合理的な擬似ラベルを生成する。 また,それらのエントロピーを考慮したソフト擬似ラベルを用いたトレーニング手法を提案する。 実験では,従来の作業と既存のマルチソースドメイン適応手法との比較や性能向上,および様々なターゲット環境への適用性を示した。

This paper describes a method of domain adaptive training for semantic segmentation using multiple source datasets that are not necessarily relevant to the target dataset. We propose a soft pseudo-label generation method by integrating predicted object probabilities from multiple source models. The prediction of each source model is weighted based on the estimated domain similarity between the source and the target datasets to emphasize contribution of a model trained on a source that is more similar to the target and generate reasonable pseudo-labels. We also propose a training method using the soft pseudo-labels considering their entropy to fully exploit information from the source datasets while suppressing the influence of possibly misclassified pixels. The experiments show comparative or better performance than our previous work and another existing multi-source domain adaptation method, and applicability to a variety of target environments.
翻訳日:2023-08-01 23:25:55 公開日:2023-07-29
# 単純なデータ拡張による拡散モデル対象をELBOとして理解する

Understanding Diffusion Model Objectives as the ELBO with Simple Data Augmentation ( http://arxiv.org/abs/2303.00848v4 )

ライセンス: Link先を確認
Diederik P. Kingma and Ruiqi Gao(参考訳) 最も高い知覚品質を達成するために、最先端拡散モデルは、最大可能性とエビデンス下界(ELBO)の目的とは大きく異なる目的で最適化される。 本研究では,拡散モデルの目的がELBOと密接に関連していることを明らかにする。 具体的には,様々な騒音レベルにおけるelboの重み付き積分に共通に使用される拡散モデルがすべて等価であることを示し,その重み付けが使用する特定の目的に依存することを示した。 単調な重み付けの条件下では、接続はさらに近くなり、拡散の目的はELBOと等しくなり、単純なデータ拡張、すなわちガウス雑音摂動と結合する。 この条件は、多くの最先端拡散モデルに当てはまることを示す。 実験では、新しい単調重み付けを探索し、その効果を実証し、高分解能imagenetベンチマークで最先端のfidスコアを得る。

To achieve the highest perceptual quality, state-of-the-art diffusion models are optimized with objectives that look very different from the maximum likelihood and the Evidence Lower Bound (ELBO) objectives. In this work, we reveal that diffusion model objectives are actually closely related to the ELBO. Specifically, we show that all commonly used diffusion model objectives equate to a weighted integral of ELBOs over different noise levels, where the weighting depends on the specific objective used. Under the condition of monotonic weighting, the connection is even closer: the diffusion objective then equals the ELBO, combined with simple data augmentation, namely Gaussian noise perturbation. We show that this condition holds for a number of state-of-the-art diffusion models. In experiments, we explore new monotonic weightings and demonstrate their effectiveness, achieving state-of-the-art FID scores on the high-resolution ImageNet benchmark.
翻訳日:2023-08-01 23:25:42 公開日:2023-07-29
# 教師なしの病理検出: 最先端技術への深入り

Unsupervised Pathology Detection: A Deep Dive Into the State of the Art ( http://arxiv.org/abs/2303.00609v3 )

ライセンス: Link先を確認
Ioannis Lagogiannis, Felix Meissen, Georgios Kaissis and Daniel Rueckert(参考訳) 深い教師なしのアプローチは、大きなラベル付きデータセットの必要性を軽減し、どんな稀な病理も検出できるような教師付きアプローチよりも一般化可能であることを約束するため、医学画像の病理検出やセグメンテーションなどの応用に注目が集まっている。 非教師なし異常検出(UAD)の文献が継続的に増加し,新たなパラダイムが出現するにつれ,SOTA(State-of-the-art)を再評価し,将来的な研究方向性を特定するために,新たな手法を共通のフレームワークで継続的に評価し,ベンチマークすることが不可欠である。 そこで我々は,複数の医学的データセット上での最先端のUAD法の選択を多種多様に評価し,脳MRIにおいて確立されたSOTAと比較した。 本実験により, 産業・医学文献から新たに開発された特徴モデリング手法は, 従来に比べて性能が向上し, 様々なモダリティやデータセットに新たなSOTAを設定できることが実証された。 さらに,このような手法は,最近開発された自己教師付き事前学習アルゴリズムの恩恵を受けることができることを示す。 最後に,選択したモデルとデータセットのユニークな特徴についてさらなる洞察を得るために,一連の実験を行う。 コードはhttps://github.com/iolag/upd_study/で確認できます。

Deep unsupervised approaches are gathering increased attention for applications such as pathology detection and segmentation in medical images since they promise to alleviate the need for large labeled datasets and are more generalizable than their supervised counterparts in detecting any kind of rare pathology. As the Unsupervised Anomaly Detection (UAD) literature continuously grows and new paradigms emerge, it is vital to continuously evaluate and benchmark new methods in a common framework, in order to reassess the state-of-the-art (SOTA) and identify promising research directions. To this end, we evaluate a diverse selection of cutting-edge UAD methods on multiple medical datasets, comparing them against the established SOTA in UAD for brain MRI. Our experiments demonstrate that newly developed feature-modeling methods from the industrial and medical literature achieve increased performance compared to previous work and set the new SOTA in a variety of modalities and datasets. Additionally, we show that such methods are capable of benefiting from recently developed self-supervised pre-training algorithms, further increasing their performance. Finally, we perform a series of experiments in order to gain further insights into some unique characteristics of selected models and datasets. Our code can be found under https://github.com/iolag/UPD_study/.
翻訳日:2023-08-01 23:25:08 公開日:2023-07-29
# SPDF:大規模言語モデルのためのスパース事前学習と深度微調整

SPDF: Sparse Pre-training and Dense Fine-tuning for Large Language Models ( http://arxiv.org/abs/2303.10464v2 )

ライセンス: Link先を確認
Vithursan Thangarasa, Abhay Gupta, William Marshall, Tianda Li, Kevin Leong, Dennis DeCoste, Sean Lie, Shreyas Saxena(参考訳) 事前学習と微調整のパラダイムは、自然言語処理(NLP)における多くのブレークスルーに寄与している。 下流タスクを直接トレーニングする代わりに、言語モデルはクロスドメインの知識を持つ大規模なデータセット(Pile、MassiveTextなど)で事前トレーニングされ、タスク固有のデータ(自然言語生成、テキスト要約など)で微調整される。 モデルとデータセットのサイズをスケールすることは、llmのパフォーマンスを改善するのに役立ったが、残念なことに、これは非常に厳しい計算コストにつながる。 事前学習のLLMは微調整よりもFLOPの桁数が多く、モデル容量は2つのフェーズ間で同じであることが多い。 FLOPの学習効率向上のために,2相間のモデル容量を分離し,Sparse Pre-training and Dense Fine-tuning (SPDF)を導入することを提案する。 本研究では,非構造的重み空間を用いて,事前訓練(スパース事前訓練)中にのみ重みのサブセットを訓練し,ゼロ重みを学習させることにより表現能力の回復を図ることの利点を示す。 その結果,1.3bパラメータのgpt-3xlモデルに最大75%のスパース性が誘導され,前訓練フロップの2.5倍削減が得られた。 複数の下流タスクを厳格に評価することにより、スパーシリティ、タスクの複雑さ、データセットサイズとの関係も確立する。 本研究は,下流タスクに対する事前学習されたテキスト表現の利点を保ちながら,重み空間を用いた訓練用FLOPのごく一部において,大規模GPTモデルをトレーニングするための有望な方向を示す。

The pre-training and fine-tuning paradigm has contributed to a number of breakthroughs in Natural Language Processing (NLP). Instead of directly training on a downstream task, language models are first pre-trained on large datasets with cross-domain knowledge (e.g., Pile, MassiveText, etc.) and then fine-tuned on task-specific data (e.g., natural language generation, text summarization, etc.). Scaling the model and dataset size has helped improve the performance of LLMs, but unfortunately, this also lead to highly prohibitive computational costs. Pre-training LLMs often require orders of magnitude more FLOPs than fine-tuning and the model capacity often remains the same between the two phases. To achieve training efficiency w.r.t training FLOPs, we propose to decouple the model capacity between the two phases and introduce Sparse Pre-training and Dense Fine-tuning (SPDF). In this work, we show the benefits of using unstructured weight sparsity to train only a subset of weights during pre-training (Sparse Pre-training) and then recover the representational capacity by allowing the zeroed weights to learn (Dense Fine-tuning). We demonstrate that we can induce up to 75% sparsity into a 1.3B parameter GPT-3 XL model resulting in a 2.5x reduction in pre-training FLOPs, without a significant loss in accuracy on the downstream tasks relative to the dense baseline. By rigorously evaluating multiple downstream tasks, we also establish a relationship between sparsity, task complexity and dataset size. Our work presents a promising direction to train large GPT models at a fraction of the training FLOPs using weight sparsity, while retaining the benefits of pre-trained textual representations for downstream tasks.
翻訳日:2023-08-01 23:18:07 公開日:2023-07-29
# 時系列予測のための新しい特徴表現を用いた説明可能な並列RCNN

Explainable Parallel RCNN with Novel Feature Representation for Time Series Forecasting ( http://arxiv.org/abs/2305.04876v3 )

ライセンス: Link先を確認
Jimeng Shi, Rukmangadh Myana, Vitalii Stebliankin, Azam Shirali and Giri Narasimhan(参考訳) データサイエンスにおける正確な時系列予測は根本的な課題である。 天気や人間の介入といった外部の共変量に影響されることが多く、多くの応用において合理的な精度で予測できる。 我々はそれらを予測された未来の共変量と呼ぶ。 しかし、自己回帰モデルを用いて時系列を反復的に予測しようとする既存の手法は、指数関数的なエラー蓄積をもたらす。 他の戦略では、エンコーダとデコーダの過去と未来は、それぞれ、履歴と将来のデータを別々に扱うことで制限される。 これらの制限に対処するために、過去のデータと将来の共変数を融合させ、それらの相互作用を考慮できるように、新しい特徴表現戦略 -- シフト -- が提案されている。 時系列の複雑なダイナミクスを抽出するために,RNNとCNNを組み合わせた並列ディープラーニングフレームワークを開発した。 また、スキップ接続技術を用いてモデルの性能を向上させる。 3つのデータセットに関する広範な実験により,本手法の有効性が明らかになった。 最後に,grad-camアルゴリズムを用いてモデル解釈可能性を示す。

Accurate time series forecasting is a fundamental challenge in data science. It is often affected by external covariates such as weather or human intervention, which in many applications, may be predicted with reasonable accuracy. We refer to them as predicted future covariates. However, existing methods that attempt to predict time series in an iterative manner with autoregressive models end up with exponential error accumulations. Other strategies hat consider the past and future in the encoder and decoder respectively limit themselves by dealing with the historical and future data separately. To address these limitations, a novel feature representation strategy -- shifting -- is proposed to fuse the past data and future covariates such that their interactions can be considered. To extract complex dynamics in time series, we develop a parallel deep learning framework composed of RNN and CNN, both of which are used hierarchically. We also utilize the skip connection technique to improve the model's performance. Extensive experiments on three datasets reveal the effectiveness of our method. Finally, we demonstrate the model interpretability using the Grad-CAM algorithm.
翻訳日:2023-08-01 22:58:32 公開日:2023-07-29
# 共変量情報を用いた確率計画のためのデータ駆動型近似決定規則

Data-driven Piecewise Affine Decision Rules for Stochastic Programming with Covariate Information ( http://arxiv.org/abs/2304.13646v2 )

ライセンス: Link先を確認
Yiyang Zhang, Junyi Liu, Xiaobo Zhao(参考訳) 本稿では,共変量情報を用いた確率的プログラミング(SP)に着目し,特徴から最適決定への直接マッピングの学習を目的とした,非凸片方向アフィン決定規則(PADR)内に組み込んだ経験的リスク最小化(ERM)手法を提案する。 本研究では,制約のない問題に対するPADRに基づくERMモデルの漸近一貫性結果と制約のない問題に対する漸近一貫性結果を確立する。 非凸かつ微分不可能なEMM問題を解くため、拡張確率的偏極最小化アルゴリズムを開発し、複雑性解析とともに(強い)方向の定常性に対する漸近収束を確立する。 提案手法は,理論的整合性保証と計算的トラクタビリティを備えた,幅広い非凸SP問題に適用可能であることを示す。 本研究では, PADRを用いたERM法において, 各種条件下での最先端手法と比較して, コスト低減, 計算時間短縮, 特徴量に対するロバスト性, 基礎となる依存性の非線形性など, 優れた性能を示す。

Focusing on stochastic programming (SP) with covariate information, this paper proposes an empirical risk minimization (ERM) method embedded within a nonconvex piecewise affine decision rule (PADR), which aims to learn the direct mapping from features to optimal decisions. We establish the nonasymptotic consistency result of our PADR-based ERM model for unconstrained problems and asymptotic consistency result for constrained ones. To solve the nonconvex and nondifferentiable ERM problem, we develop an enhanced stochastic majorization-minimization algorithm and establish the asymptotic convergence to (composite strong) directional stationarity along with complexity analysis. We show that the proposed PADR-based ERM method applies to a broad class of nonconvex SP problems with theoretical consistency guarantees and computational tractability. Our numerical study demonstrates the superior performance of PADR-based ERM methods compared to state-of-the-art approaches under various settings, with significantly lower costs, less computation time, and robustness to feature dimensions and nonlinearity of the underlying dependency.
翻訳日:2023-08-01 22:57:10 公開日:2023-07-29
# 3次元顔モデルの実現に向けて

Towards Realistic Generative 3D Face Models ( http://arxiv.org/abs/2304.12483v2 )

ライセンス: Link先を確認
Aashish Rai, Hiresh Gupta, Ayush Pandey, Francisco Vicente Carrasco, Shingo Jason Takagi, Amaury Aubel, Daeil Kim, Aayush Prakash, Fernando de la Torre(参考訳) 近年,アニメーション,合成データ生成,デジタルアバターなどの応用によって2次元顔モデルが大幅に進歩している。 しかし、3D情報がないため、これらの2Dモデルは、ポーズ、表情、照明といった顔の特徴を正確に切り離すのに苦労し、編集能力を制限します。 そこで本稿では,既存の2次元生成モデルを用いて高品質なアルベドと高精度な3次元形状を実現するための3次元制御可能な生成顔モデルを提案する。 2次元顔生成モデルとセマンティック顔操作を組み合わせることで、詳細な3次元顔の編集を可能にする。 提案手法は形状とアルベドの交互降下最適化手法を用いる。 異なるレンダリングは高品質な形状とアルベドを3D監督なしで訓練するために使われる。 さらに、この手法は、形状再構成のためのよく知られたNoWベンチマークにおいて、最先端のSOTA法よりも優れている。 また、新しいポーズでレンダリングされた顔のアイデンティティを平均10%の精度で復元する際に、SOTA再構成モデルよりも優れている。 さらに, 3次元顔のテキスト編集につながる潜在空間を利用して, 3次元顔における表現の直接制御を示す。

In recent years, there has been significant progress in 2D generative face models fueled by applications such as animation, synthetic data generation, and digital avatars. However, due to the absence of 3D information, these 2D models often struggle to accurately disentangle facial attributes like pose, expression, and illumination, limiting their editing capabilities. To address this limitation, this paper proposes a 3D controllable generative face model to produce high-quality albedo and precise 3D shape leveraging existing 2D generative models. By combining 2D face generative models with semantic face manipulation, this method enables editing of detailed 3D rendered faces. The proposed framework utilizes an alternating descent optimization approach over shape and albedo. Differentiable rendering is used to train high-quality shapes and albedo without 3D supervision. Moreover, this approach outperforms the state-of-the-art (SOTA) methods in the well-known NoW benchmark for shape reconstruction. It also outperforms the SOTA reconstruction models in recovering rendered faces' identities across novel poses by an average of 10%. Additionally, the paper demonstrates direct control of expressions in 3D faces by exploiting latent space leading to text-based editing of 3D faces.
翻訳日:2023-08-01 22:56:51 公開日:2023-07-29
# 言語モデルは実践的話者の境界である:ベイズ的認知モデルの観点からのRLHFを理解する

Language Models are Bounded Pragmatic Speakers: Understanding RLHF from a Bayesian Cognitive Modeling Perspective ( http://arxiv.org/abs/2305.17760v5 )

ライセンス: Link先を確認
Khanh Nguyen(参考訳) 言語モデルはどのように考えるのか? 本稿では,言語モデルの異なるバリエーションの操作を特徴付ける有界プラガマ話者と呼ばれる確率論的認知モデルを定式化する。 具体的には、人間のフィードバックから強化学習を施した大規模言語モデル(Ouyang et al., 2022)が、心理学者が人間に帰属する高速・低速モデル(Kahneman, 2011)と概念的に類似した思考モデルであることを示す。 本稿では,人間フィードバックからの強化学習の限界を思考の素早いモデルとして議論し,この枠組みを拡張するための道筋を提案する。 本研究は,言語モデルの理解,評価,発展に関する洞察を得るために,認知的確率的モデリングアプローチを採用することの価値を強調する。

How do language models "think"? This paper formulates a probabilistic cognitive model called the bounded pragmatic speaker, which can characterize the operation of different variations of language models. Specifically, we demonstrate that large language models fine-tuned with reinforcement learning from human feedback (Ouyang et al., 2022) embody a model of thought that conceptually resembles a fast-and-slow model (Kahneman, 2011), which psychologists have attributed to humans. We discuss the limitations of reinforcement learning from human feedback as a fast-and-slow model of thought and propose avenues for expanding this framework. In essence, our research highlights the value of adopting a cognitive probabilistic modeling approach to gain insights into the comprehension, evaluation, and advancement of language models.
翻訳日:2023-08-01 21:03:17 公開日:2023-07-29
# チャットGPT, 大規模言語モデル, 生成AI時代の科学 : 研究倫理と応答方法への挑戦

Science in the Era of ChatGPT, Large Language Models and Generative AI: Challenges for Research Ethics and How to Respond ( http://arxiv.org/abs/2305.15299v4 )

ライセンス: Link先を確認
Evangelos Pournaras(参考訳) ChatGPTのような人工知能(AI)の大規模な言語モデルは、科学と研究に顕著だが議論の余地がある。 本稿では,創造的AIの出現にともなう科学行為における認識論的課題,倫理的・整合性リスクについてレビューする。 これは、高品質な研究倫理レビューのための、新たなタイムリーな基礎を築き上げることを目的としています。 研究機器と主題としてのAI言語モデルの役割は、科学者、参加者、レビュアーに対する倫理的意味とともに精査されている。 研究倫理レビューの新しい新たなプラクティスについて議論され、ai時代のより責任ある研究行為に対する反応を形成する10の推奨事項がまとめられている。

Large language models of artificial intelligence (AI), such as ChatGPT, find remarkable but controversial applicability in science and research. This paper reviews epistemological challenges, ethical and integrity risks in science conduct in the advent of generative AI. This is with the aim to lay new timely foundations for a high-quality research ethics review. The role of AI language models as a research instrument and subject is scrutinized along with ethical implications for scientists, participants and reviewers. New emerging practices for research ethics review are discussed, concluding with ten recommendations that shape a response for a more responsible research conduct in the era of AI.
翻訳日:2023-08-01 21:01:41 公開日:2023-07-29
# ロバストネスから説明可能性へ、そして再び戻る

From Robustness to Explainability and Back Again ( http://arxiv.org/abs/2306.03048v2 )

ライセンス: Link先を確認
Xuanxiang Huang, Joao Marques-Silva(参考訳) eXplainable Artificial Intelligence (XAI)のアドホックな手法とは対照的に、形式的な説明責任は厳密さの重要な保証を提供する。 しかし、形式的な説明可能性はいくつかの分類器のスケーラビリティの低下によって妨げられ、最も重要なのはニューラルネットワークである。 結果として、信頼できるaiを提供するための他のアプローチを補完するために、形式的な説明が役立つかどうかの懸念がある。 本稿では,形式的説明可能性のスケーラビリティの限界に対処し,形式的説明を計算するための新しいアルゴリズムを提案する。 斬新なアルゴリズムは、代わりに多数のロバストネスクエリに答えて説明を計算し、そのようなクエリの数は、機能数に対して最も線形である。 その結果,提案アルゴリズムは形式的説明可能性の実践的複雑さと頑健さの直接的な関係を確立する。 より重要なことに、本論文は形式的説明の定義を一般化し、異なる距離ノルムに基づくロバストネスツールの使用を可能にするとともに、目標となるロバストネスの程度を推論することを可能にする。 提案手法の有効性を検証する実験を行った。

In contrast with ad-hoc methods for eXplainable Artificial Intelligence (XAI), formal explainability offers important guarantees of rigor. However, formal explainability is hindered by poor scalability for some families of classifiers, the most significant being neural networks. As a result, there are concerns as to whether formal explainability might serve to complement other approaches in delivering trustworthy AI. This paper addresses the limitation of scalability of formal explainability, and proposes novel algorithms for computing formal explanations. The novel algorithm computes explanations by answering instead a number of robustness queries, and such that the number of such queries is at most linear on the number of features. Consequently, the proposed algorithm establishes a direct relationship between the practical complexity of formal explainability and that of robustness. More importantly, the paper generalizes the definition of formal explanation, thereby allowing the use of robustness tools that are based on different distance norms, and also by reasoning in terms of some target degree of robustness. The experiments validate the practical efficiency of the proposed approach.
翻訳日:2023-08-01 20:54:18 公開日:2023-07-29
# 衛星画像を用いた長距離UAV熱測地

Long-range UAV Thermal Geo-localization with Satellite Imagery ( http://arxiv.org/abs/2306.02994v3 )

ライセンス: Link先を確認
Jiuhong Xiao, Daniel Tortei, Eloy Roura, Giuseppe Loianno(参考訳) カメラやサーマルセンサーなどの搭載センサーは、無人航空機(uav)ナビゲーションにおけるgps(global positioning system)の効果的な代替手段として登場した。 GPSは信号損失やスプーフィングの問題に悩まされるため、研究者は衛星RGB画像を用いたビジュアルジオローカライゼーション(VG)のようなカメラベースの手法を探索してきた。 さらに、TGは低照度環境下での長距離UAV飛行において重要である。 本稿では,衛星RGB画像を用いた新しい熱的ジオローカライズフレームワークを提案する。 実験結果は, 自己相似的特徴を有する熱画像においても, 熱的局所化性能の信頼性を実現するための提案手法の有効性を示す。 UAVで収集した実データに対する我々のアプローチを評価する。 また,衛星画像と熱的局所化のための熱熱画像と非対の衛星画像のデータセットである \textit{boson-nighttime} も公開する。 我々の知る限り、この研究は、長距離飛行における衛星RGB画像を用いた熱的ジオローカライズ法を初めて提案したものである。

Onboard sensors, such as cameras and thermal sensors, have emerged as effective alternatives to Global Positioning System (GPS) for geo-localization in Unmanned Aerial Vehicle (UAV) navigation. Since GPS can suffer from signal loss and spoofing problems, researchers have explored camera-based techniques such as Visual Geo-localization (VG) using satellite RGB imagery. Additionally, thermal geo-localization (TG) has become crucial for long-range UAV flights in low-illumination environments. This paper proposes a novel thermal geo-localization framework using satellite RGB imagery, which includes multiple domain adaptation methods to address the limited availability of paired thermal and satellite images. The experimental results demonstrate the effectiveness of the proposed approach in achieving reliable thermal geo-localization performance, even in thermal images with indistinct self-similar features. We evaluate our approach on real data collected onboard a UAV. We also release the code and \textit{Boson-nighttime}, a dataset of paired satellite-thermal and unpaired satellite images for thermal geo-localization with satellite imagery. To the best of our knowledge, this work is the first to propose a thermal geo-localization method using satellite RGB imagery in long-range flights.
翻訳日:2023-08-01 20:53:58 公開日:2023-07-29
# イベントストリームに基づく認識のためのポイントボクセル吸収グラフ表現学習

Point-Voxel Absorbing Graph Representation Learning for Event Stream based Recognition ( http://arxiv.org/abs/2306.05239v2 )

ライセンス: Link先を確認
Bo Jiang, Chengguo Yuan, Xiao Wang, Zhimin Bao, Lin Zhu, Yonghong Tian, Jin Tang(参考訳) サンプリングされた点とボクセル法は通常、密度の高い事象をスパースに分解するために用いられる。 その後の一般的な方法は、スパースポイント/ボクセルをノードとして扱い、グラフニューラルネットワーク(GNN)を採用してイベントデータの表現を学ぶグラフモデルを活用することである。 しかし、性能は良好であるが、主に2つの問題により結果が制限されている。 1) 既存のイベントGNNは一般に、すべてのノード埋め込みをイベントデータ表現全体のグラフレベル表現にまとめるために、追加の最大値(または平均値)プーリング層を採用しています。 しかし、このアプローチはグラフノードの重要性を捉えることができず、ノード表現を完全に認識することができない。 (2) 既存の手法では一般にスパースポイントまたはボクセルグラフ表現モデルを用いるため、これらの2種類の表現モデル間の相補性を考慮しない。 これらの問題に対処するために,イベントストリームデータ表現のためのグラフ表現学習を吸収するデュアルポイントボクセルを提案する。 具体的には、入力イベントストリームを前提として、まずスパースイベントクラウドとボクセルグリッドに変換し、それぞれに二重吸収グラフモデルを構築する。 次に,二重吸収グラフ表現と学習のための新しい吸収型グラフ畳み込みネットワーク(agcn)を設計する。 提案したAGCNの重要な側面は、ノードの重要性を効果的に捉え、導入した吸収ノードを通して全てのノード表現を要約するノード表現を十分に認識する能力である。 複数のイベントベースの分類ベンチマークデータセットに関する広範な実験により、フレームワークの有効性が完全に検証された。

Sampled point and voxel methods are usually employed to downsample the dense events into sparse ones. After that, one popular way is to leverage a graph model which treats the sparse points/voxels as nodes and adopts graph neural networks (GNNs) to learn the representation of event data. Although good performance can be obtained, however, their results are still limited mainly due to two issues. (1) Existing event GNNs generally adopt the additional max (or mean) pooling layer to summarize all node embeddings into a single graph-level representation for the whole event data representation. However, this approach fails to capture the importance of graph nodes and also fails to be fully aware of the node representations. (2) Existing methods generally employ either a sparse point or voxel graph representation model which thus lacks consideration of the complementary between these two types of representation models. To address these issues, we propose a novel dual point-voxel absorbing graph representation learning for event stream data representation. To be specific, given the input event stream, we first transform it into the sparse event cloud and voxel grids and build dual absorbing graph models for them respectively. Then, we design a novel absorbing graph convolutional network (AGCN) for our dual absorbing graph representation and learning. The key aspect of the proposed AGCN is its ability to effectively capture the importance of nodes and thus be fully aware of node representations in summarizing all node representations through the introduced absorbing nodes. Extensive experiments on multiple event-based classification benchmark datasets fully validated the effectiveness of our framework.
翻訳日:2023-08-01 20:43:44 公開日:2023-07-29
# 不均衡データセットを用いたオフライン強化学習

Offline Reinforcement Learning with Imbalanced Datasets ( http://arxiv.org/abs/2307.02752v2 )

ライセンス: Link先を確認
Li Jiang, Sijie Chen, Jielin Qiu, Haoran Xu, Wai Kin Chan, Zhao Ding(参考訳) 現在のオフライン強化学習(RL)研究におけるベンチマークの利用は、モデル開発における実際のデータセット分布の不均衡を無視している。 現実世界のオフラインRLデータセットは、探索や安全性の考慮が難しいため、状態空間上で不均衡になることが多い。 本稿では、オフラインRLにおける不均衡データセットの特性を規定する。そこでは、状態カバレッジは、歪んだポリシーを特徴とする電力法分布に従う。 理論的および実証的に、保守的q-learning(cql)のような分布的制約に基づくオフラインrlメソッドは、不均衡データセットの下でポリシーを抽出するのに効果がないことを示した。 自然知性に触発されて,cqlを検索プロセスで拡張し,過去の関連する経験を思い出し,不均衡データセットによって生じる課題を効果的に軽減する,オフラインrl手法を提案する。 我々は,D4RLの変種を利用して,不均衡なデータセットの文脈における複数のタスクに対する手法の評価を行った。 実験により,本手法が他のベースラインよりも優れていることを示す。

The prevalent use of benchmarks in current offline reinforcement learning (RL) research has led to a neglect of the imbalance of real-world dataset distributions in the development of models. The real-world offline RL dataset is often imbalanced over the state space due to the challenge of exploration or safety considerations. In this paper, we specify properties of imbalanced datasets in offline RL, where the state coverage follows a power law distribution characterized by skewed policies. Theoretically and empirically, we show that typically offline RL methods based on distributional constraints, such as conservative Q-learning (CQL), are ineffective in extracting policies under the imbalanced dataset. Inspired by natural intelligence, we propose a novel offline RL method that utilizes the augmentation of CQL with a retrieval process to recall past related experiences, effectively alleviating the challenges posed by imbalanced datasets. We evaluate our method on several tasks in the context of imbalanced datasets with varying levels of imbalance, utilizing the variant of D4RL. Empirical results demonstrate the superiority of our method over other baselines.
翻訳日:2023-08-01 20:34:41 公開日:2023-07-29
# FreeDrag:インタラクティブなポイントベースの画像編集に必要なのはポイントトラッキングではない

FreeDrag: Point Tracking is Not What You Need for Interactive Point-based Image Editing ( http://arxiv.org/abs/2307.04684v2 )

ライセンス: Link先を確認
Pengyang Ling, Lin Chen, Pan Zhang, Huaian Chen, Yi Jin(参考訳) 画像編集の複雑で多様な要求に応えるには、画像コンテンツの精密で柔軟な操作が不可欠である。 近年,DragGANは点ベース操作による編集結果の大幅な向上を実現している。 しかし, DragGANは, DragGANが望まれるハンドポイントを効果的に追跡することの難しさに直面するミストラッキングと, トラックされたポイントがハンドルポイントと類似する他の領域内にあるあいまいなトラッキングに苦慮している。 上記の問題に対処するため,我々は,draggan のポイント指向手法におけるポイントトラッキングの負担をなくすための機能指向アプローチを採用する freedrag を提案する。 FreeDragには、適応テンプレート機能、ライン検索、ファジィローカライゼーション技術が組み込まれ、安定的で効率的なポイントベースの画像編集を行う。 広範な実験により,提案手法はdragganより優れており,類似した構造や詳細,多点目標下での課題シナリオにおいて,安定したポイントベース編集が可能となった。

To serve the intricate and varied demands of image editing, precise and flexible manipulation of image content is indispensable. Recently, DragGAN has achieved impressive editing results through point-based manipulation. However, we have observed that DragGAN struggles with miss tracking, where DragGAN encounters difficulty in effectively tracking the desired handle points, and ambiguous tracking, where the tracked points are situated within other regions that bear resemblance to the handle points. To deal with the above issues, we propose FreeDrag, which adopts a feature-oriented approach to free the burden on point tracking within the point-oriented methodology of DragGAN. The FreeDrag incorporates adaptive template features, line search, and fuzzy localization techniques to perform stable and efficient point-based image editing. Extensive experiments demonstrate that our method is superior to the DragGAN and enables stable point-based editing in challenging scenarios with similar structures, fine details, or under multi-point targets.
翻訳日:2023-08-01 20:24:07 公開日:2023-07-29
# テキストの語彙多様性の測定:2倍長問題

Measuring Lexical Diversity in Texts: The Twofold Length Problem ( http://arxiv.org/abs/2307.04626v2 )

ライセンス: Link先を確認
Yves Bestgen(参考訳) 語彙多様性の推定に対するテキストの長さの影響は、1世紀以上にわたって科学界の注目を集めてきた。 多くの指標が提案され、評価するために多くの研究がなされているが、問題は残る。 この方法論的レビューは、言語学習研究において最も一般的に用いられる指標だけでなく、長さ問題自体の批判的分析と、提案する解を評価する方法論を提供する。 英語学習者のテキストの3つのデータセットの分析により、確率的あるいはアルゴリズム的アプローチを用いてすべてのテキストを同じ長さに減らすインデックスは、長さ依存性の問題を解くが、これらのインデックスはすべて2番目の問題に対処できず、テキストの長さを決定するパラメータに対する感度が低下した。 本稿では,語彙多様性分析の最適化を推奨する。

The impact of text length on the estimation of lexical diversity has captured the attention of the scientific community for more than a century. Numerous indices have been proposed, and many studies have been conducted to evaluate them, but the problem remains. This methodological review provides a critical analysis not only of the most commonly used indices in language learning studies, but also of the length problem itself, as well as of the methodology for evaluating the proposed solutions. The analysis of three datasets of English language-learners' texts revealed that indices that reduce all texts to the same length using a probabilistic or an algorithmic approach solve the length dependency problem; however, all these indices failed to address the second problem, which is their sensitivity to the parameter that determines the length to which the texts are reduced. The paper concludes with recommendations for optimizing lexical diversity analysis.
翻訳日:2023-08-01 20:23:48 公開日:2023-07-29
# 感度インフォーム多項式カオス展開と深部生成ネットワークを用いた地質コンプレックスによるベイズ旅行時間トモグラフィの効率化

Efficient Bayesian travel-time tomography with geologically-complex priors using sensitivity-informed polynomial chaos expansion and deep generative networks ( http://arxiv.org/abs/2307.04228v3 )

ライセンス: Link先を確認
Giovanni Angelo Meles, Macarena Amaya, Shiran Levy, Stefano Marelli, Niklas Linde(参考訳) モンテカルロ・マルコフ・チェーン (mcmc) 法は、事前分布の正確なキャラクタリゼーションと確率の効率的な評価という2つの基本的な課題に直面する。 トモグラフィーに関するベイズ研究の文脈では、主成分分析(PCA)は、計算集約的な全物理前方解法を置き換えるために多項式カオス展開(PCE)に基づく正確な代理モデルの実装を可能にすると同時に、事前分布の直接的な定義を容易にする。 PCAが、より深い生成モデル(VAE)のような、事前の配布方法を簡単に定義する手段を提供していないシナリオに直面する場合、実行可能なオプションとして使用できる。 しかしながら、VAEの潜伏パラメータとフォワードモデリングの出力との間の複雑な非線形関係を捉えることができるサロゲートを正確に生成することは、注目すべき課題である。 実際、PCEモデルは、入力-出力関係が比較的低次多変量多項式によって効果的に近似できる場合に高い精度を提供するが、この条件は通常、深層生成モデルから派生した潜時変数を利用する際には未成熟である。 本研究では,prio表現の観点からのvaeの優れた再構成性能と,ベイズ地中レーダ(gpr)トモグラフィの文脈におけるpca-pceサロゲートモデル精度を組み合わせた手法を提案する。 MCMCプロセス内では、VOEのパラメトリゼーションが事前探索とサンプル提案に利用される。 同時に、VAEサンプルのグローバルまたはローカルに定義された主成分を検査対象とするPCEを用いてモデリングを行う。

Monte Carlo Markov Chain (MCMC) methods commonly confront two fundamental challenges: the accurate characterization of the prior distribution and the efficient evaluation of the likelihood. In the context of Bayesian studies on tomography, principal component analysis (PCA) can in some cases facilitate the straightforward definition of the prior distribution, while simultaneously enabling the implementation of accurate surrogate models based on polynomial chaos expansion (PCE) to replace computationally intensive full-physics forward solvers. When faced with scenarios where PCA does not offer a direct means of easily defining the prior distribution alternative methods like deep generative models (e.g., variational autoencoders (VAEs)), can be employed as viable options. However, accurately producing a surrogate capable of capturing the intricate non-linear relationship between the latent parameters of a VAE and the outputs of forward modeling presents a notable challenge. Indeed, while PCE models provide high accuracy when the input-output relationship can be effectively approximated by relatively low-degree multivariate polynomials, this condition is typically unmet when utilizing latent variables derived from deep generative models. In this contribution, we present a strategy that combines the excellent reconstruction performances of VAE in terms of prio representation with the accuracy of PCA-PCE surrogate modeling in the context of Bayesian ground penetrating radar (GPR) travel-time tomography. Within the MCMC process, the parametrization of the VAE is leveraged for prior exploration and sample proposal. Concurrently, modeling is conducted using PCE, which operates on either globally or locally defined principal components of the VAE samples under examination.
翻訳日:2023-08-01 20:22:54 公開日:2023-07-29
# ESMC:パラメータ制約によるクリック後変換率の空間マルチタスクモデル

ESMC: Entire Space Multi-Task Model for Post-Click Conversion Rate via Parameter Constraint ( http://arxiv.org/abs/2307.09193v2 )

ライセンス: Link先を確認
Zhenhao Jiang, Biao Zeng, Hao Feng, Jin Liu, Jicong Fan, Jie Zhang, Jia Jia, Ning Hu, Xingyu Chen, Xuguang Lan(参考訳) 大規模なオンラインレコメンデータシステムは、CTR(Click-Through Rate)とCVR(Post-Click Conversion Rate)という2つの基本的なタスクを担当するインターネット全体に広がっている。 しかし、従来のCVR推定器は、よく知られたサンプル選択バイアスとデータスパーシリティの問題に悩まされている。 この2つの問題に対処するために、Exposure_click_purchaseの意思決定パスをトレースするスペースモデルが提案された。 さらに、一部の研究者は、クリックと購入の間に購入関連の行動があり、ユーザーの意思決定意図をよりよく引き起こし、レコメンデーションパフォーマンスを向上させることができると観察した。 したがって、意思決定パスは"Exposure_click_in-shop action_purchase"に拡張され、条件付き確率アプローチでモデル化できる。 それでも、条件付き確率の連鎖則が常に成り立つとは限らない。 確率空間混乱 (psc) 問題を報告し, 接地と推定の差を数学的に導出する。 本稿では,パラメータ制約 (ESMC) によるポストクリック変換率の空間マルチタスクモデルと,Syamese Network (ESMS) による空間マルチタスクモデルとグローバルドメインにおける空間マルチタスクモデル (ESMG) の2つの選択肢を提案する。 具体的には,「Exposure_click_in-shop action」と「in-shop action_purchase」を個別に扱う。 第1経路は条件付き確率で処理され、第2経路はパラメータ制約戦略で処理される。 大規模レコメンデーションシステムにおけるオフライン環境とオンライン環境の両方における実験は,提案手法が最先端モデルよりも優れていることを示している。 実際のデータセットがリリースされる。

Large-scale online recommender system spreads all over the Internet being in charge of two basic tasks: Click-Through Rate (CTR) and Post-Click Conversion Rate (CVR) estimations. However, traditional CVR estimators suffer from well-known Sample Selection Bias and Data Sparsity issues. Entire space models were proposed to address the two issues via tracing the decision-making path of "exposure_click_purchase". Further, some researchers observed that there are purchase-related behaviors between click and purchase, which can better draw the user's decision-making intention and improve the recommendation performance. Thus, the decision-making path has been extended to "exposure_click_in-shop action_purchase" and can be modeled with conditional probability approach. Nevertheless, we observe that the chain rule of conditional probability does not always hold. We report Probability Space Confusion (PSC) issue and give a derivation of difference between ground-truth and estimation mathematically. We propose a novel Entire Space Multi-Task Model for Post-Click Conversion Rate via Parameter Constraint (ESMC) and two alternatives: Entire Space Multi-Task Model with Siamese Network (ESMS) and Entire Space Multi-Task Model in Global Domain (ESMG) to address the PSC issue. Specifically, we handle "exposure_click_in-shop action" and "in-shop action_purchase" separately in the light of characteristics of in-shop action. The first path is still treated with conditional probability while the second one is treated with parameter constraint strategy. Experiments on both offline and online environments in a large-scale recommendation system illustrate the superiority of our proposed methods over state-of-the-art models. The real-world datasets will be released.
翻訳日:2023-08-01 20:14:41 公開日:2023-07-29
# 量子不協和状態の不斉半デバイス非依存性

Asymmetric One-Sided Semi-Device-Independent Steerability of Quantum Discordant States ( http://arxiv.org/abs/2307.09116v2 )

ライセンス: Link先を確認
Chellasamy Jebarathinam, Debarshi Das, R. Srikanth(参考訳) 超局所性と超非ステアビリティは、それぞれ特定の局所状態と非ステアブル状態における量子相関の操作的特徴を与える。 このような量子相関状態は非零量子不一致を持つ。 超局所性によって指摘される量子相関には、双方向の非零量子ディスコルドが必要である。 一方,本研究では,超unsteerabilityの証明には2方向非ゼロ量子ディスコドは不要であることを示す。 この目的のために、一方向量子不協和状態の超unsteerabilityを示す。 このことは、一方向超不安定の存在と超局所性のない超不安定の存在を暗示する。 非零量子不協和状態の超unsteerabilityは、片側半デバイス非依存な方法でのステアビリティの発生を意味する。 一方向ステアビリティがベル局所状態に対して一方向デバイス非依存的に発生するのと同じように、一方向ステアビリティは一方向半デバイス非依存な状態でも起こりうることを示した。

Superlocality and superunsteerability provide operational characterization of quantum correlations in certain local and unsteerable states respectively. Such quantum correlated states have a nonzero quantum discord. A two-way nonzero quantum discord is necessary for quantum correlations pointed out by superlocality. On the other hand, in this work, we demonstrate that a two-way nonzero quantum discord is not necessary to demonstrate superunsteerability. To this end, we demonstrate superunsteerability for one-way quantum discordant states. This in turn implies the existence of one-way superunsteerability and also the presence of superunsteerability without superlocality. Superunsteerability for nonzero quantum discord states implies the occurence of steerability in a one-sided semi-device-independent way. Just like one-way steerability occurs for certain Bell-local states in a one-sided device-independent way, our result shows that one-way steerability can also occur for certain nonsuperlocal states but in a one-sided semi-device-independent way.
翻訳日:2023-08-01 20:14:12 公開日:2023-07-29
# 準古典状態の量子的性質と最大単一光子速度

Quantum Nature of Quasi-Classical States and Highest Possible Single-Photon Rate ( http://arxiv.org/abs/2307.08916v2 )

ライセンス: Link先を確認
Moslem Mahdavifar(参考訳) 準古典状態の純粋に量子力学的効果の観測は、これらの状態が現実的な放射源であり、光子数に不足がないため、最も重要である。 したがって、他の単一光子源ほどスケーラビリティの問題に直面することはなく、光子損失に対してより堅牢である。 さらに、これらの状態は標準量子極限を定義する。 したがって、量子シグネチャを見つけることは、最も高い1光子レートを示唆する。 本稿では,この概念を理論的に既知の力学を用いて実証し,実験結果を提示する。 実験により、連続波源からの軌道角運動量の投射を伴う状態を用いて量子情報の転送から2光子束を実現した。 我々の研究は量子光学と量子情報の領域における準古典状態のより多様で実践的な利用に向けた一歩である。

Observation of the purely quantum mechanical effects of quasi-classical states is of utmost importance since these states are realistic sources of radiation and do not have any shortage in photon numbers. Therefore, they do not face the scalability problem as much as other single-photon sources do, which makes them much more robust against photon loss. Moreover, these states define the standard quantum limit. Hence, finding their quantum signature hints to the highest possible single-photon rate. In this manuscript, we attempt to demonstrate this idea theoretically using known dynamics and then present supporting experimental results. Through our experiment, we realize two-photon bunching from the transfer of quantum information using such states with the projection of orbital angular momentum from a continuous wave source. Our work is a step forward towards a more diverse and practical use of quasi-classical states in the domain of quantum optics and quantum information.
翻訳日:2023-08-01 20:13:56 公開日:2023-07-29
# DISPEL: ドメイン特化解放によるドメインの一般化

DISPEL: Domain Generalization via Domain-Specific Liberating ( http://arxiv.org/abs/2307.07181v2 )

ライセンス: Link先を確認
Chia-Yuan Chang, Yu-Neng Chuang, Guanchu Wang, Mengnan Du, Zou Na(参考訳) ドメイン一般化(domain generalization)は、限られたソースドメインのみをトレーニングすることで、未発見のテストドメインでうまく機能する一般化モデルを学ぶことを目的としている。 しかし、既存のドメイン一般化アプローチは、しばしば予測不能なノイズをもたらすか、ドメインラベルの収集を必要とする。 これらの課題に対処するために、基礎となる特徴群をドメイン共有機能とドメイン固有機能に分類することで、異なる視点からドメイン一般化問題を考察する。 それでも、ドメイン固有の特徴は、入力データと区別することが困難である。 本研究では,埋め込み空間における未定義かつ識別不能なドメイン特有な特徴をフィルタする,処理後の細粒度マスキング手法であるdomain-specific liberating (dispel)を提案する。 具体的には、disPELは、各入力データに固有のマスクを生成するマスクジェネレータを使用して、ドメイン固有の特徴をフィルタリングする。 DISPELフレームワークは、どの微調整モデルにも非常に柔軟に適用できる。 我々は,設計対象の損失を最適化することにより,一般化性能を保証するための一般化誤差を導出する。 5つのベンチマーク実験の結果は、DIPSELが既存の手法より優れており、様々なアルゴリズムをさらに一般化できることを示している。

Domain generalization aims to learn a generalization model that can perform well on unseen test domains by only training on limited source domains. However, existing domain generalization approaches often bring in prediction-irrelevant noise or require the collection of domain labels. To address these challenges, we consider the domain generalization problem from a different perspective by categorizing underlying feature groups into domain-shared and domain-specific features. Nevertheless, the domain-specific features are difficult to be identified and distinguished from the input data. In this work, we propose DomaIn-SPEcific Liberating (DISPEL), a post-processing fine-grained masking approach that can filter out undefined and indistinguishable domain-specific features in the embedding space. Specifically, DISPEL utilizes a mask generator that produces a unique mask for each input data to filter domain-specific features. The DISPEL framework is highly flexible to be applied to any fine-tuned models. We derive a generalization error bound to guarantee the generalization performance by optimizing a designed objective loss. The experimental results on five benchmarks demonstrate DISPEL outperforms existing methods and can further generalize various algorithms.
翻訳日:2023-08-01 20:12:53 公開日:2023-07-29
# CopyRNeRF:神経放射場のCopyRightを保護する

CopyRNeRF: Protecting the CopyRight of Neural Radiance Fields ( http://arxiv.org/abs/2307.11526v2 )

ライセンス: Link先を確認
Ziyuan Luo and Qing Guo and Ka Chun Cheung and Simon See and Renjie Wan(参考訳) ニューラル・ラジアンス・フィールド(NeRF)は、メディアの主要な表現である可能性がある。 NeRFのトレーニングは容易な作業ではないため、モデル著作権の保護が優先されるべきである。 本稿では,著作権保護ソリューションの長所と短所を分析し,NeRFの原色表現を透かし色表現に置き換えることで,NeRFモデルの著作権を保護することを提案する。 次に,NRFの2次元レンダリングにおけるロバストなメッセージ抽出を保証するために,歪み耐性レンダリング方式を設計する。 提案手法は,オプションソリューションと比較して高いレンダリング品質とビット精度を維持しつつ,NeRFモデルの著作権を直接保護することができる。

Neural Radiance Fields (NeRF) have the potential to be a major representation of media. Since training a NeRF has never been an easy task, the protection of its model copyright should be a priority. In this paper, by analyzing the pros and cons of possible copyright protection solutions, we propose to protect the copyright of NeRF models by replacing the original color representation in NeRF with a watermarked color representation. Then, a distortion-resistant rendering scheme is designed to guarantee robust message extraction in 2D renderings of NeRF. Our proposed method can directly protect the copyright of NeRF models while maintaining high rendering quality and bit accuracy when compared among optional solutions.
翻訳日:2023-08-01 20:05:26 公開日:2023-07-29
# 単一qudit符号化によるフォールトトレラント計算

Fault-Tolerant Computing with Single Qudit Encoding ( http://arxiv.org/abs/2307.10761v2 )

ライセンス: Link先を確認
Matteo Mezzadri, Alessandro Chiesa, Luca Lepori and Stefano Carretta(参考訳) 本稿では,単一マルチレベルquditに符号化された論理量子ビットを用いた安定化器符号のフォールトトレラント実装に対する一般的なアプローチを提案する。 提案方式は、補正と普遍量子計算を可能にする。 分子スピン四重項のシミュレーションにより,quditサイズの論理的誤りをほぼ指数関数的に抑制することを示した。 結果として得られた小さなquditのパフォーマンスは、数千単位のqubitコードと比較すると驚くべきものだ。

We present a general approach for the Fault Tolerant implementation of stabilizer codes with a logical qubit encoded into a single multi-level qudit, preventing the explosion of resources of multi-qubit codes. The proposed scheme allows for correction and universal quantum computation. We demonstrate its effectiveness by simulations on molecular spin qudits, finding an almost exponential suppression of logical errors with the qudit size. The resulting performance on a small qudit is remarkable when compared to qubit codes using thousands of units.
翻訳日:2023-08-01 20:04:22 公開日:2023-07-29
# 機械学習システムの信頼性に関する全体論的評価

A Holistic Assessment of the Reliability of Machine Learning Systems ( http://arxiv.org/abs/2307.10586v2 )

ライセンス: Link先を確認
Anthony Corso, David Karamadian, Romeo Valentin, Mary Cooper, Mykel J. Kochenderfer(参考訳) 機械学習(ml)システムは、医療、輸送、軍、国家安全保障などの高リスク設定に浸透するにつれて、信頼性に関する懸念が高まっている。 顕著な進歩にもかかわらず、これらのシステムの性能は敵の攻撃や環境の変化によって著しく低下し、過度な予測、入力障害の検出の失敗、予期せぬシナリオで一般化できないことにつながる。 本稿では,MLシステムの信頼性に関する総合評価手法を提案する。 分散精度,分散シフトロバスト性,逆ロバスト性,キャリブレーション,分散検出の5つの特性を評価した。 信頼性スコアも導入され、システム全体の信頼性を評価するために使用される。 異なるアルゴリズムアプローチのパフォーマンスに関する洞察を提供するため,最先端技術を特定し,分類し,提案する信頼性指標と信頼性スコアを用いて実世界のタスクの選択を評価する。 500モデル以上のモデルを分析すると、あるメトリックに対する設計は必ずしも他のメトリックを制約するわけではないが、特定のアルゴリズム技術は複数のメトリクスの信頼性を同時に向上させることができることが分かる。 この研究は、MLの信頼性をより包括的に理解し、将来の研究開発のロードマップを提供する。

As machine learning (ML) systems increasingly permeate high-stakes settings such as healthcare, transportation, military, and national security, concerns regarding their reliability have emerged. Despite notable progress, the performance of these systems can significantly diminish due to adversarial attacks or environmental changes, leading to overconfident predictions, failures to detect input faults, and an inability to generalize in unexpected scenarios. This paper proposes a holistic assessment methodology for the reliability of ML systems. Our framework evaluates five key properties: in-distribution accuracy, distribution-shift robustness, adversarial robustness, calibration, and out-of-distribution detection. A reliability score is also introduced and used to assess the overall system reliability. To provide insights into the performance of different algorithmic approaches, we identify and categorize state-of-the-art techniques, then evaluate a selection on real-world tasks using our proposed reliability metrics and reliability score. Our analysis of over 500 models reveals that designing for one metric does not necessarily constrain others but certain algorithmic techniques can improve reliability across multiple metrics simultaneously. This study contributes to a more comprehensive understanding of ML reliability and provides a roadmap for future research and development.
翻訳日:2023-08-01 20:04:14 公開日:2023-07-29
# 言語モデルを用いた多電子schr\"odinger方程式の直接解法

Direct Solving the Many-Electron Schr\"odinger Equation with a Language Model ( http://arxiv.org/abs/2307.09343v2 )

ライセンス: Link先を確認
Honghui Shang, Chu Guo, Yangjun Wu, Jinlong Yang(参考訳) マルチ電子シュリンガー方程式の解は、TransformerベースのニューラルネットワークアーキテクチャであるQiankunNetによって直接得られる。これは外部のトレーニングデータを必要としないアプローチで、以前のフェルミオンアンザッツと比較して第一原理計算の精度と効率を著しく改善する。 注意機構を本手法に統合することにより,複雑な量子相関を効果的に捉えることができる。 また, サンプリング精度と効率を向上させるために, バッチサンプリング戦略を用いる。 また,変形型ansatzに切断型構成インタラクションソリューションを組み込んだ事前学習ステージを導入し,高い表現性を確保し,計算効率をさらに向上させる。 qiankunnetは、量子化学計算において前例のない効率を達成するためのトランスフォーマーベースの言語モデルのパワーを示す。 この手法は化学発見のための新しい道を開き、計算コストを抑えた大規模シュリンガー方程式を解く可能性を秘めている。

The solution to the many-electron Schr\"odinger equation is directly obtained through a Transformer-based neural-network architecture -- QiankunNet -- an approach that doesn't require external training data and significantly improves the accuracy and efficiency of first-principles calculations compared to previous Fermionic ansatz. By integrating the attention mechanism into our methodology, we effectively capture intricate quantum correlations. In addition, we utilize a batched sampling strategy to significantly improve both the sampling accuracy and efficiency. We also introduce a pre-training stage that incorporates the truncated configuration interaction solution into the variational ansatz, thereby ensuring high expressiveness and further improving computational efficiency. QiankunNet demonstrates the power of the Transformer-based language model in achieving unprecedented efficiency in quantum chemistry calculations. This methodology opens new avenues for chemical discovery and holds potential to solve large-scale Schr\"odinger equations with modest computational costs.
翻訳日:2023-08-01 20:03:18 公開日:2023-07-29
# 心血管モデルのシミュレーションによる推論

Simulation-based Inference for Cardiovascular Models ( http://arxiv.org/abs/2307.13918v2 )

ライセンス: Link先を確認
Antoine Wehenkel, Jens Behrmann, Andrew C. Miller, Guillermo Sapiro, Ozan Sener, Marco Cuturi, J\"orn-Henrik Jacobsen(参考訳) 過去数十年間、血液力学シミュレーターは着実に進化し、シリコン中の循環器系を研究するためのツールとなった。 このようなツールは、生理的パラメータから全身血行動態をシミュレートするために日常的に使用されているが、波形を可算な生理的パラメータにマッピングする逆問題の解決は、有望かつ困難なままである。 シミュレーションベース推論 (SBI) の進歩により, この逆問題を統計的推論として捉えた。 代替アプローチとは対照的に、SBIは興味のあるパラメータに対して \textit{posterior distributions} を提供し、 \textit{individual} 測定に対して不確実性の \textit{multi-dimensional} 表現を提供する。 本研究は, 臨床関心の5つのバイオマーカーのシリコン内不確実性解析を行い, 測定精度を比較した。 心拍数推定の可能性など、既知の事実の確証のほかに、標準的なケア指標から新しいバイオマーカーを推定する可能性についても注目する。 SBIは、パラメータ推定が異なる不確実な状態を示すサブポピュレーションの存在など、標準感度分析では捉えられない事実上の関連した発見を明らかにしている。 最後に,in-vivoとin-silicoのギャップをミームiii波形データベースを用いて検討し,心血管シミュレーションが実世界データ解析にどのように寄与するかを批判的に論じる。

Over the past decades, hemodynamics simulators have steadily evolved and have become tools of choice for studying cardiovascular systems in-silico. While such tools are routinely used to simulate whole-body hemodynamics from physiological parameters, solving the corresponding inverse problem of mapping waveforms back to plausible physiological parameters remains both promising and challenging. Motivated by advances in simulation-based inference (SBI), we cast this inverse problem as statistical inference. In contrast to alternative approaches, SBI provides \textit{posterior distributions} for the parameters of interest, providing a \textit{multi-dimensional} representation of uncertainty for \textit{individual} measurements. We showcase this ability by performing an in-silico uncertainty analysis of five biomarkers of clinical interest comparing several measurement modalities. Beyond the corroboration of known facts, such as the feasibility of estimating heart rate, our study highlights the potential of estimating new biomarkers from standard-of-care measurements. SBI reveals practically relevant findings that cannot be captured by standard sensitivity analyses, such as the existence of sub-populations for which parameter estimation exhibits distinct uncertainty regimes. Finally, we study the gap between in-vivo and in-silico with the MIMIC-III waveform database and critically discuss how cardiovascular simulations can inform real-world data analysis.
翻訳日:2023-08-01 19:55:41 公開日:2023-07-29
# プログラム間の変数マッピングのためのグラフニューラルネットワーク -- 拡張バージョン

Graph Neural Networks For Mapping Variables Between Programs -- Extended Version ( http://arxiv.org/abs/2307.13014v2 )

ライセンス: Link先を確認
Pedro Orvalho and Jelle Piepenbrock and Mikol\'a\v{s} Janota and Vasco Manquinho(参考訳) プログラムの自動解析は、コンピュータ科学の多くの分野、特にフォーマルメソッドと人工知能において重要な研究領域である。 プログラム等価性の問題の不確定性のため、2つのプログラムを比較することは極めて困難である。 通常、2つのプログラムを比較するためには、両方のプログラムの変数セットの関係が必要である。 したがって、2つのプログラム間の変数のマッピングは、プログラム等価性、プログラム解析、プログラム修復、クローン検出などのタスクのパノパリーに有用である。 本研究では,両プログラムの抽象構文木(AST)に基づく2つのプログラム間の変数の集合をグラフニューラルネットワーク(GNN)でマッピングする手法を提案する。 変数マッピングの強みを示すため,初級プログラミング課題(IPAs)において,初心者プログラマの間でよく調査された,繰り返し発生するバグを修正するためのプログラム修復作業に,これらのマッピングのユースケースを3つ提示する。 4166組の不正/訂正プログラムのデータセットにおける実験結果から,評価データセットの83%を正しくマッピングできることがわかった。 また,プログラムの修復に関する現状は,プログラムの構造に大きく依存しているため,不正確なプログラムの約72%しか修復できないことを示した。 対照的に、変数マッピングのみに基づくアプローチでは、約88.5%を修復できる。

Automated program analysis is a pivotal research domain in many areas of Computer Science -- Formal Methods and Artificial Intelligence, in particular. Due to the undecidability of the problem of program equivalence, comparing two programs is highly challenging. Typically, in order to compare two programs, a relation between both programs' sets of variables is required. Thus, mapping variables between two programs is useful for a panoply of tasks such as program equivalence, program analysis, program repair, and clone detection. In this work, we propose using graph neural networks (GNNs) to map the set of variables between two programs based on both programs' abstract syntax trees (ASTs). To demonstrate the strength of variable mappings, we present three use-cases of these mappings on the task of program repair to fix well-studied and recurrent bugs among novice programmers in introductory programming assignments (IPAs). Experimental results on a dataset of 4166 pairs of incorrect/correct programs show that our approach correctly maps 83% of the evaluation dataset. Moreover, our experiments show that the current state-of-the-art on program repair, greatly dependent on the programs' structure, can only repair about 72% of the incorrect programs. In contrast, our approach, which is solely based on variable mappings, can repair around 88.5%.
翻訳日:2023-08-01 19:54:21 公開日:2023-07-29
# 教育 5.0: 要件, 実現技術, 今後の方向性

Education 5.0: Requirements, Enabling Technologies, and Future Directions ( http://arxiv.org/abs/2307.15846v1 )

ライセンス: Link先を確認
Shabir Ahmad, Sabina Umirzakova, Ghulam Mujtaba, Muhammad Sadiq Amin, Taegkeun Whangbo(参考訳) 私たちは現在、人生がデジタル世界へと移行したポストパンデミックの時代にあります。 これは教育や学習を含む生活の多くの側面に影響を与えている。 education 5.0は、デジタル技術を活用して学習の障壁を排除し、学習方法を強化し、全体的な幸福を促進することで、教育における5番目の産業革命を指す。 教育5.0の概念は、最新の技術と教育方法を活用する学習者中心の環境を構築することに焦点を当てた、教育分野の新しいパラダイムである。 本稿では,人工知能,ブロックチェーン,バーチャルおよび拡張現実など,教育5.0の重要な要件と実現を可能にする技術について検討する。 これらの技術が教育の将来に与える影響について分析し、パーソナライゼーションの向上、エンゲージメントの向上、教育へのアクセス向上などについて考察する。 さらに,教育5.0に関する課題と倫理的考察について検討し,これらの課題に対処するための戦略を提案する。 最後に,この分野における継続的な研究,コラボレーション,イノベーションなどを含む, education 5.0 の開発に向けた今後の方向性に関する洞察を提供する。 総じて,教育5.0の概要,要件,技術の実現,今後の方向性について述べるとともに,教育を変革し,学生の学習成果を改善するための,この新しいパラダイムの可能性を強調する。

We are currently in a post-pandemic era in which life has shifted to a digital world. This has affected many aspects of life, including education and learning. Education 5.0 refers to the fifth industrial revolution in education by leveraging digital technologies to eliminate barriers to learning, enhance learning methods, and promote overall well-being. The concept of Education 5.0 represents a new paradigm in the field of education, one that is focused on creating a learner-centric environment that leverages the latest technologies and teaching methods. This paper explores the key requirements of Education 5.0 and the enabling technologies that make it possible, including artificial intelligence, blockchain, and virtual and augmented reality. We analyze the potential impact of these technologies on the future of education, including their ability to improve personalization, increase engagement, and provide greater access to education. Additionally, we examine the challenges and ethical considerations associated with Education 5.0 and propose strategies for addressing these issues. Finally, we offer insights into future directions for the development of Education 5.0, including the need for ongoing research, collaboration, and innovation in the field. Overall, this paper provides a comprehensive overview of Education 5.0, its requirements, enabling technologies, and future directions, and highlights the potential of this new paradigm to transform education and improve learning outcomes for students.
翻訳日:2023-08-01 19:16:23 公開日:2023-07-29
# トラップイオン量子コンピュータにおける高精度運動モード評価のためのパルス最適化

Pulse optimization for high-precision motional-mode characterization in trapped-ion quantum computers ( http://arxiv.org/abs/2307.15841v1 )

ライセンス: Link先を確認
Qiyao Liang, Mingyu Kang, Ming Li, Yunseong Nam(参考訳) 量子コンピュータの高忠実度演算は、特性解析を通じて物理系の正確な知識を必要とする。 閉じ込められたイオンの運動による絡み合いの発生には、モード周波数やラムディッケパラメータといった運動モードパラメータの正確な知識が不可欠である。 残念なことに、最先端のモード特徴付けスキームは、単一のモードをターゲットとする周波数空間における隣接モードの不要な励起のために、十分にスケーラブルで正確な方法でモードパラメータを描画することができない。 本稿では,クロスモード結合の効果を積極的に沈黙させるような特性評価実験において,パルス設計の自由度を活用した代替手法を提案する。 さらに,実験的なドリフトや不正確さのキャラクタリゼーションによりモード周波数が正確に分かっていない場合でも,ラムダイクパラメータを正確に特徴付ける安定化手法を考案する。 3イオン鎖のシミュレーションにおいて,本手法を広範囲に評価し,形状パルスが従来の正方形パルスを大きく上回るパラメータレジームについて考察した。

High-fidelity operation of quantum computers requires precise knowledge of the physical system through characterization. For motion-mediated entanglement generation in trapped ions, it is crucial to have precise knowledge of the motional-mode parameters such as the mode frequencies and the Lamb-Dicke parameters. Unfortunately, the state-of-the-art mode-characterization schemes do not easily render the mode parameters in a sufficiently scalable and accurate fashion, due to the unwanted excitation of adjacent modes in the frequency space when targeting a single mode, an effect known as the \textit{cross-mode coupling}. Here, we develop an alternative scheme that leverages the degrees of freedom in pulse design for the characterization experiment such that the effects of the cross-mode coupling is actively silenced. Further, we devise stabilization methods to accurately characterize the Lamb-Dicke parameters even when the mode frequencies are not precisely known due to experimental drifts or characterization inaccuracies. We extensively benchmark our scheme in simulations of a three-ion chain and discuss the parameter regimes in which the shaped pulses significantly outperform the traditional square pulses.
翻訳日:2023-08-01 19:15:42 公開日:2023-07-29
# 深層学習を用いた医用画像分割におけるクロス次元転送学習

Cross-dimensional transfer learning in medical image segmentation with deep learning ( http://arxiv.org/abs/2307.15872v1 )

ライセンス: Link先を確認
Hicham Messaoudi, Ahror Belaid, Douraied Ben Salem, Pierre-Henri Conze(参考訳) 過去10年間で、畳み込みニューラルネットワークが登場し、様々な画像分析やコンピュータビジョンアプリケーションにおける最先端の進歩を遂げてきた。 2d画像分類ネットワークの性能は、常に改善され、何百万もの自然画像のデータベース上で訓練されている。 しかし, 医用画像解析の進歩は, 限られた注釈付きデータと取得制約によって妨げられている。 これらの制限は、医療画像データの量によってさらに顕著になる。 本稿では,自然画像に訓練された2次元分類ネットワークの効率を,2次元,3次元,マルチモーダルの医用画像セグメンテーションアプリケーションへ効率的に転送する方法を提案する。 この方法では, 2次元事前学習エンコーダを高次元のu-netに埋め込み, 2次元のセグメンテーションネットワークを高次元のu-netに拡張して, 重みの伝達を行う, という2つの原則に基づいて, 新たなアーキテクチャを設計した。 提案したネットワークはMR, CT, 超音波画像の様々なモードからなるベンチマークでテストされた。 われわれの2Dネットワークは、心エコー画像データセグメンテーションに特化したCAMUSチャレンジでトップにランクインし、最先端の技術を抜いた。 CHAOSチャレンジの2D/3D MRおよびCT腹部画像について,Dice, RAVD, ASSD, MSSDの課題論文に記載されている他の2Dベースの手法よりも優れており,オンライン評価プラットフォームでは第3位である。 BraTS 2022に応用した3Dネットワークは, 腫瘍全体の91.69% (91.22%) , 腫瘍コア全体の83.23% (84.77%) , 重量(次元)移動に基づく腫瘍増強のための81.75% (83.88%) に到達し, 有望な結果を得た。 実験および定性的な結果から,多次元医用画像分割法の有効性が示された。

Over the last decade, convolutional neural networks have emerged and advanced the state-of-the-art in various image analysis and computer vision applications. The performance of 2D image classification networks is constantly improving and being trained on databases made of millions of natural images. However, progress in medical image analysis has been hindered by limited annotated data and acquisition constraints. These limitations are even more pronounced given the volumetry of medical imaging data. In this paper, we introduce an efficient way to transfer the efficiency of a 2D classification network trained on natural images to 2D, 3D uni- and multi-modal medical image segmentation applications. In this direction, we designed novel architectures based on two key principles: weight transfer by embedding a 2D pre-trained encoder into a higher dimensional U-Net, and dimensional transfer by expanding a 2D segmentation network into a higher dimension one. The proposed networks were tested on benchmarks comprising different modalities: MR, CT, and ultrasound images. Our 2D network ranked first on the CAMUS challenge dedicated to echo-cardiographic data segmentation and surpassed the state-of-the-art. Regarding 2D/3D MR and CT abdominal images from the CHAOS challenge, our approach largely outperformed the other 2D-based methods described in the challenge paper on Dice, RAVD, ASSD, and MSSD scores and ranked third on the online evaluation platform. Our 3D network applied to the BraTS 2022 competition also achieved promising results, reaching an average Dice score of 91.69% (91.22%) for the whole tumor, 83.23% (84.77%) for the tumor core, and 81.75% (83.88%) for enhanced tumor using the approach based on weight (dimensional) transfer. Experimental and qualitative results illustrate the effectiveness of our methods for multi-dimensional medical image segmentation.
翻訳日:2023-08-01 19:08:01 公開日:2023-07-29
# 不均一参加者に対する効果的な半教師付き連合学習

Efficient Semi-Supervised Federated Learning for Heterogeneous Participants ( http://arxiv.org/abs/2307.15870v1 )

ライセンス: Link先を確認
Zhipeng Sun, Yang Xu, Hongli Xu, Zhiyuan Wang(参考訳) フェデレーション学習(federated learning, fl)は、複数のクライアントがプライベートデータ上で協調的に機械学習モデルをトレーニングできるようにする。 しかし、幅広いアプリケーションのための大規模モデルのトレーニングとデプロイは、リソース制約のある環境では困難である。 幸いにも、SFL(Split Federated Learning)は、クライアント上での計算と通信の負担を軽減することで優れたソリューションを提供する。SFLは、しばしばクライアント上でのローカルトレーニングのためのラベル付きデータを仮定するが、実際にはそうではない。 本稿では,ラベル付きデータがサーバ上に存在するシナリオにおいて,モデルをトレーニングするための新しいシステムであるpseudo-clustering semi-sflを提案する。 クラスタリング規則化を導入することで、データ非IIDness下でのモデルパフォーマンスを改善することができる。 さらに,モデル収束に関する理論的および実験的研究により,ラベル付きおよびラベル付きデータに対する一貫性のないトレーニングプロセスがクラスタリング正規化の有効性に影響を及ぼすことが明らかとなった。 そこで我々は,教師付きトレーニングイテレーションの数を動的に調整し,トレーニングの不整合を緩和する,グローバルな更新頻度適応のための制御アルゴリズムを開発した。 ベンチマークモデルとデータセットに関する広範囲な実験により,本システムはトレーニング時間の3.3倍のスピードアップを提供し,目標精度に達しながら通信コストを約80.1%削減し,非iidシナリオにおいて最大6.9%の精度向上を達成した。

Federated Learning (FL) has emerged to allow multiple clients to collaboratively train machine learning models on their private data. However, training and deploying large models for broader applications is challenging in resource-constrained environments. Fortunately, Split Federated Learning (SFL) offers an excellent solution by alleviating the computation and communication burden on the clients SFL often assumes labeled data for local training on clients, however, it is not the case in practice.Prior works have adopted semi-supervised techniques for leveraging unlabeled data in FL, but data non-IIDness poses another challenge to ensure training efficiency. Herein, we propose Pseudo-Clustering Semi-SFL, a novel system for training models in scenarios where labeled data reside on the server. By introducing Clustering Regularization, model performance under data non-IIDness can be improved. Besides, our theoretical and experimental investigations into model convergence reveal that the inconsistent training processes on labeled and unlabeled data impact the effectiveness of clustering regularization. Upon this, we develop a control algorithm for global updating frequency adaptation, which dynamically adjusts the number of supervised training iterations to mitigate the training inconsistency. Extensive experiments on benchmark models and datasets show that our system provides a 3.3x speed-up in training time and reduces the communication cost by about 80.1% while reaching the target accuracy, and achieves up to 6.9% improvement in accuracy under non-IID scenarios compared to the state-of-the-art.
翻訳日:2023-08-01 19:07:24 公開日:2023-07-29
# polyak--{\l}ojasiewicz条件下でのミニマックス最適化のための高速確率アルゴリズム

Faster Stochastic Algorithms for Minimax Optimization under Polyak--{\L}ojasiewicz Conditions ( http://arxiv.org/abs/2307.15868v1 )

ライセンス: Link先を確認
Lesi Chen, Boyuan Yao, Luo Luo(参考訳) 本稿では,polyak--{\L}ojasiewicz (PL)条件下での最小最適化のための確率的一階アルゴリズムについて考察する。 目的関数 $f(x,y)$ は$x$ で$\mu_x$-pl、$y$で$\mu_y$-plであり、$f_i(x,y)$は$l$-smoothである。 spider-gda は${\mathcal o}\left((n + \sqrt{n}\,\kappa_x\kappa_y^2)\log (1/\epsilon)\right)$ stochastic first-order oracle (sfo) の複雑さより優れた${\mathcal o}\big(n + n^{2/3}\kappa_x\kappa_y^2)\log (1/\epsilon)\big)$、ここで $\kappa_x\triangleq l/\mu_x$ と $\kappa_y\triangleq l/\mu_x$ は${\mathcal o}\big(n + n^{2/3}\kappa_x\kappa_y^2)\log (1/\epsilon)\big)$である。 非条件の場合、計算コストをさらに削減するための高速化アルゴリズムを提供する。 これは$\tilde{{\mathcal O}}\big((n+\sqrt{n}\,\kappa_x\kappa_y)\log^2 (1/\epsilon)\big)$ SFO upper bound when $\kappa_y \gtrsim \sqrt{n}$である。 我々のアイデアは、目的関数が1つの変数のpl条件のみを満たすというより一般的な設定にも適用できる。 数値実験により提案手法の優位性を検証した。

This paper considers stochastic first-order algorithms for minimax optimization under Polyak--{\L}ojasiewicz (PL) conditions. We propose SPIDER-GDA for solving the finite-sum problem of the form $\min_x \max_y f(x,y)\triangleq \frac{1}{n} \sum_{i=1}^n f_i(x,y)$, where the objective function $f(x,y)$ is $\mu_x$-PL in $x$ and $\mu_y$-PL in $y$; and each $f_i(x,y)$ is $L$-smooth. We prove SPIDER-GDA could find an $\epsilon$-optimal solution within ${\mathcal O}\left((n + \sqrt{n}\,\kappa_x\kappa_y^2)\log (1/\epsilon)\right)$ stochastic first-order oracle (SFO) complexity, which is better than the state-of-the-art method whose SFO upper bound is ${\mathcal O}\big((n + n^{2/3}\kappa_x\kappa_y^2)\log (1/\epsilon)\big)$, where $\kappa_x\triangleq L/\mu_x$ and $\kappa_y\triangleq L/\mu_y$. For the ill-conditioned case, we provide an accelerated algorithm to reduce the computational cost further. It achieves $\tilde{{\mathcal O}}\big((n+\sqrt{n}\,\kappa_x\kappa_y)\log^2 (1/\epsilon)\big)$ SFO upper bound when $\kappa_y \gtrsim \sqrt{n}$. Our ideas also can be applied to the more general setting that the objective function only satisfies PL condition for one variable. Numerical experiments validate the superiority of proposed methods.
翻訳日:2023-08-01 19:06:58 公開日:2023-07-29
# 顔面微小表現認識によるうつ病の捕捉

Catching Elusive Depression via Facial Micro-Expression Recognition ( http://arxiv.org/abs/2307.15862v1 )

ライセンス: Link先を確認
Xiaohui Chen and Tie Luo(参考訳) うつ病は一般的な精神疾患であり、連続的なうつ病の症状を引き起こし、感情的な苦悩を引き起こす。 うつ病の1つのカテゴリは「Concealed Depression」であり、患者は意図的または意図せずに、外的楽観主義を通じて真の感情を隠す。 そこで本研究では,顔面微小表現(fmes)を用いて真の感情の検出と認識を行い,うつ病の診断法を提案する。 しかし、FMEの極めて低い強度と微妙な性質は、その認識を困難にしている。 課題に対処するための顔のランドマークに基づくRegional-of-Interest(ROI)アプローチを提案し,携帯型モバイルデバイス(例えば自宅)を用いた自己診断を可能にする,低コストかつプライバシ保護ソリューションについて述べる。 本稿では,本手法の有効性を検証し,臨床応用における今後の課題と今後の方向性について考察する。

Depression is a common mental health disorder that can cause consequential symptoms with continuously depressed mood that leads to emotional distress. One category of depression is Concealed Depression, where patients intentionally or unintentionally hide their genuine emotions through exterior optimism, thereby complicating and delaying diagnosis and treatment and leading to unexpected suicides. In this paper, we propose to diagnose concealed depression by using facial micro-expressions (FMEs) to detect and recognize underlying true emotions. However, the extremely low intensity and subtle nature of FMEs make their recognition a tough task. We propose a facial landmark-based Region-of-Interest (ROI) approach to address the challenge, and describe a low-cost and privacy-preserving solution that enables self-diagnosis using portable mobile devices in a personal setting (e.g., at home). We present results and findings that validate our method, and discuss other technical challenges and future directions in applying such techniques to real clinical settings.
翻訳日:2023-08-01 19:05:58 公開日:2023-07-29
# 差別者は何ができるか? 生成型adversarial networkのボックスフリーオーナシップ検証に向けて

What can Discriminator do? Towards Box-free Ownership Verification of Generative Adversarial Network ( http://arxiv.org/abs/2307.15860v1 )

ライセンス: Link先を確認
Ziheng Huang, Boheng Li, Yan Cai, Run Wang, Shangwei Guo, Liming Fang, Jing Chen, Lina Wang(参考訳) 近年、GAN(Generative Adversarial Network)とその変種は画像合成において前例のない成功を収めている。 しかし、十分に訓練されたGANは違法な盗難や漏洩の脅威にさらされている。 リモートオーナシップ検証に関する以前の研究では、ディフェンダーが疑わしいモデルを特定の入力でクエリできるブラックボックス設定を想定しています。 そこで本稿では,入力(ボックスフリー設定)を選択せずに,出力のみをチェックしてオーナシップの検証を行う,GANのための新しいIP保護方式を提案する。 具体的には、識別器の未経験のポテンシャルを利用して、ペア生成器によって学習された一意な分布をキャプチャする超球面を学習する。 2つの一般的なGANタスクと10以上のGANアーキテクチャの広範な評価は、オーナシップを効果的に検証するための提案手法を実証する。 提案手法は,一般的な入力ベース削除攻撃に免疫があり,他の攻撃に対して頑健であることを示す。 ソースコードとモデルはhttps://github.com/abstractteen/gan_holdership_verificationで入手できる。

In recent decades, Generative Adversarial Network (GAN) and its variants have achieved unprecedented success in image synthesis. However, well-trained GANs are under the threat of illegal steal or leakage. The prior studies on remote ownership verification assume a black-box setting where the defender can query the suspicious model with specific inputs, which we identify is not enough for generation tasks. To this end, in this paper, we propose a novel IP protection scheme for GANs where ownership verification can be done by checking outputs only, without choosing the inputs (i.e., box-free setting). Specifically, we make use of the unexploited potential of the discriminator to learn a hypersphere that captures the unique distribution learned by the paired generator. Extensive evaluations on two popular GAN tasks and more than 10 GAN architectures demonstrate our proposed scheme to effectively verify the ownership. Our proposed scheme shown to be immune to popular input-based removal attacks and robust against other existing attacks. The source code and models are available at https://github.com/AbstractTeen/gan_ownership_verification
翻訳日:2023-08-01 19:05:38 公開日:2023-07-29
# 製品項目分類のためのマルチアウトプットヘッドアンサンブル

Multi-output Headed Ensembles for Product Item Classification ( http://arxiv.org/abs/2307.15858v1 )

ライセンス: Link先を確認
Hotaka Shiokawa and Pradipto Das and Arthur Toth and Justin Chiu(参考訳) 本稿では,大規模電子商取引カタログの商品分類の問題を再検討する。 電子商取引カタログの分類は数千のジャンルから構成されており、商店が継続的にアップロードするアイテムが割り当てられている。 商人によるジャンルの割り当ては、しばしば間違っているが、自動的に生成されたトレーニングセットにおいて、基底真理ラベルとして扱われる。 分類学分類のこの問題は、スケール可能な訓練セットが利用できないため、非常に顕著になる。 このようなシナリオでは、複数の分類器を組み合わせることで、単一の分類器からの一般化性能の悪さと戦うことが一般的である。 平均的なアンサンブルと融合に基づく分類器の単純さと堅牢性から恩恵を受けることができる拡張可能な深層学習に基づく分類モデルフレームワークを提案する。 メタデータ機能や低レベルの機能エンジニアリングを使って、分類性能を向上することも可能です。 ハイパーパラメータ最適化を用いたロバストな業界標準ベースラインモデルに対するこれらの改善を示す。 さらに、実際のeコマースカタログへの継続的な挿入、削除、更新により、A/Bテストや手動アノテーションを使用したデプロイメントのモデルパフォーマンスの評価がボトルネックとなる。 この目的のために,従来の精度とリコールの尺度に加えて,より優れた洞察を提供するユーザセッションを用いたモデルパフォーマンス評価手法を提案する。

In this paper, we revisit the problem of product item classification for large-scale e-commerce catalogs. The taxonomy of e-commerce catalogs consists of thousands of genres to which are assigned items that are uploaded by merchants on a continuous basis. The genre assignments by merchants are often wrong but treated as ground truth labels in automatically generated training sets, thus creating a feedback loop that leads to poorer model quality over time. This problem of taxonomy classification becomes highly pronounced due to the unavailability of sizable curated training sets. Under such a scenario it is common to combine multiple classifiers to combat poor generalization performance from a single classifier. We propose an extensible deep learning based classification model framework that benefits from the simplicity and robustness of averaging ensembles and fusion based classifiers. We are also able to use metadata features and low-level feature engineering to boost classification performance. We show these improvements against robust industry standard baseline models that employ hyperparameter optimization. Additionally, due to continuous insertion, deletion and updates to real-world high-volume e-commerce catalogs, assessing model performance for deployment using A/B testing and/or manual annotation becomes a bottleneck. To this end, we also propose a novel way to evaluate model performance using user sessions that provides better insights in addition to traditional measures of precision and recall.
翻訳日:2023-08-01 19:05:20 公開日:2023-07-29
# アイスキューブ実験による最近のニュートリノ振動

Recent neutrino oscillation result with the IceCube experiment ( http://arxiv.org/abs/2307.15855v1 )

ライセンス: Link先を確認
Shiqi Yu, Jessie Micallef (for the IceCube Collaboration)(参考訳) アイスキューブ・サウスポールニュートリノ天文台(IceCube South Pole Neutrino Observatory)は、南極点の1立方キロメートルの氷で観測されるチェレンコフ検出器である。 アイスキューブの主な科学的目標は、天体物理からのtevニュートリノの放射を検出することである。 アイスキューブアレイの下部中央にはDeepCoreと呼ばれるサブ検出器があり、これはアイスキューブのエネルギー閾値を下げ、GeVスケールのニュートリノを観測し、大気中のニュートリノ振動の研究に窓を開ける。 物理感度の進歩は、最近、DeepCore検出器におけるニュートリノ相互作用を再構築するために畳み込みニューラルネットワークを用いて達成されている。 本研究では,cnnで再構成されたニュートリノ試料を用いた大気ミューオンニュートリノの消失解析から得られた最近の氷キューブを,既存の地球規模の測定と比較した。

The IceCube South Pole Neutrino Observatory is a Cherenkov detector instrumented in a cubic kilometer of ice at the South Pole. IceCube's primary scientific goal is the detection of TeV neutrino emissions from astrophysical sources. At the lower center of the IceCube array, there is a subdetector called DeepCore, which has a denser configuration that makes it possible to lower the energy threshold of IceCube and observe GeV-scale neutrinos, opening the window to atmospheric neutrino oscillations studies. Advances in physics sensitivity have recently been achieved by employing Convolutional Neural Networks to reconstruct neutrino interactions in the DeepCore detector. In this contribution, the recent IceCube result from the atmospheric muon neutrino disappearance analysis using the CNN-reconstructed neutrino sample is presented and compared to the existing worldwide measurements.
翻訳日:2023-08-01 19:04:58 公開日:2023-07-29
# NVCiM DNN加速器の右補償ガウス雑音による実効性向上

Improving Realistic Worst-Case Performance of NVCiM DNN Accelerators through Training with Right-Censored Gaussian Noise ( http://arxiv.org/abs/2307.15853v1 )

ライセンス: Link先を確認
Zheyu Yan, Yifan Qin, Wujie Wen, Xiaobo Sharon Hu, Yiyu Shi(参考訳) 非揮発性メモリ(NVM)デバイス上に構築されたCompute-in-Memory(CiM)は、データ処理能力とエネルギー効率の向上により、ディープニューラルネットワーク(DNN)の高速化を約束している。 残念ながら、よく訓練されたモデルパラメータは、NVMデバイスにマッピングされた後、デバイスの変化によって意図した値から大きくずれることがあり、これらのCiMベースのDNNアクセラレータでは顕著な性能低下が生じる。 この問題に対処するためのソリューションの長いリストがある。 しかし、彼らは主にCiM DNNアクセラレータの平均性能の改善に焦点を当てている。 自動運転車など、安全に重要な多くのアプリケーションにとって欠かせないデバイスバリエーションの影響下での最悪のパフォーマンスを保証するには、はるかに少ない。 本稿では,CiM加速器上で実行されたDNNモデルの現実的な最悪の性能を,k-th- percentile Performance (KPP) を用いて捉えることを提案する。 KPPの特性とノイズ注入に基づくDNNトレーニングの形式的解析により、従来のガウスノイズとは対照的に、新しいガウスノイズを注入することで、DNNのKPPを大幅に改善することを示した。 さらに, トレーニング過程において, このガウス雑音を注入する最適なハイパーパラメータを自動決定する手法を提案する。 本手法は,デバイス変動の影響下でのDNNロバスト性向上のための最先端手法と比較して,最大26%のKPP改善を実現している。

Compute-in-Memory (CiM), built upon non-volatile memory (NVM) devices, is promising for accelerating deep neural networks (DNNs) owing to its in-situ data processing capability and superior energy efficiency. Unfortunately, the well-trained model parameters, after being mapped to NVM devices, can often exhibit large deviations from their intended values due to device variations, resulting in notable performance degradation in these CiM-based DNN accelerators. There exists a long list of solutions to address this issue. However, they mainly focus on improving the mean performance of CiM DNN accelerators. How to guarantee the worst-case performance under the impact of device variations, which is crucial for many safety-critical applications such as self-driving cars, has been far less explored. In this work, we propose to use the k-th percentile performance (KPP) to capture the realistic worst-case performance of DNN models executing on CiM accelerators. Through a formal analysis of the properties of KPP and the noise injection-based DNN training, we demonstrate that injecting a novel right-censored Gaussian noise, as opposed to the conventional Gaussian noise, significantly improves the KPP of DNNs. We further propose an automated method to determine the optimal hyperparameters for injecting this right-censored Gaussian noise during the training process. Our method achieves up to a 26% improvement in KPP compared to the state-of-the-art methods employed to enhance DNN robustness under the impact of device variations.
翻訳日:2023-08-01 19:04:44 公開日:2023-07-29
# Buckingham $\pi$ Theorem に基づく次元のないポリシー: 数値結果の一般化には良い方法か?

Dimensionless Policies based on the Buckingham $\pi$ Theorem: Is it a good way to Generalize Numerical Results? ( http://arxiv.org/abs/2307.15852v1 )

ライセンス: Link先を確認
Alexandre Girard(参考訳) そう、文脈、運動制御問題を定義する変数のリストは次元的に類似している。 ここでは,無次元変数を用いた問題定式化の修正により,特定の系に対して生成した最適制御則を次元的に類似した系の部分空間に数値的に再利用できることを示す。 これはトルク制限反転振子を揺動させる古典的な運動制御問題に対して、数値的に生成された最適制御器を用いて実証される。 また、文脈変数の空間における領域であるレジームの概念についても論じ、次元的類似性の条件を緩和するのに役立つ。 さらに、文脈特異的なポリシーの入力と出力の次元的スケーリングの適用は、ディメンショナリ類似系の解析方程式における新しいシステムパラメータの置換と等価かについて議論する。 このアプローチがより複雑な高次元問題に対するポリシーの一般化にも役立つかどうかは不明だ。

Yes if the context, the list of variables defining the motion control problem, is dimensionally similar. Here we show that by modifying the problem formulation using dimensionless variables, we can re-use the optimal control law generated numerically for a specific system to a sub-space of dimensionally similar systems. This is demonstrated, with numerically generated optimal controllers, for the classic motion control problem of swinging-up a torque-limited inverted pendulum. We also discuss the concept of regime, a region in the space of context variables, that can help relax the condition on dimensional similarity. Futhermore, we discuss how applying dimensionnal scaling of the input and output of a context-specific policy is equivalent to substituing the new systems parameters in an analytical equation for dimentionnaly similar systems. It remains to be seen if this approach can also help generalizing policies for more complex high-dimensional problems.
翻訳日:2023-08-01 19:04:17 公開日:2023-07-29
# 項目応答理論を用いた包括的アルゴリズムポートフォリオ評価

Comprehensive Algorithm Portfolio Evaluation using Item Response Theory ( http://arxiv.org/abs/2307.15850v1 )

ライセンス: Link先を確認
Sevvandi Kandanaarachchi, Kate Smith-Miles(参考訳) 項目対応理論 (IRT) は, 学生の能力, 質問の難易度, 差別力を評価するために, 教育心理学の分野において提案されている。 近年、IRTは、学生が現在アルゴリズムである1つの分類データセット上で、機械学習アルゴリズムのパフォーマンスを評価するために応用され、テスト質問はアルゴリズムによって分類される観察である。 本稿では,アルゴリズム性能の重要な側面を記述した,アルゴリズムの一貫性や異常性といった,よりリッチな特徴スイートを同時に引き出すとともに,データセットのリポジトリをまたいだアルゴリズムのポートフォリオを評価するためのIRTベースのフレームワークを提案する。 これらの特徴は、追加のデータセットの特徴計算を必要としない、従来のIRTモデルの新しい逆転と再解釈から生じる。 我々は、このフレームワークを幅広いアプリケーション向けにアルゴリズムポートフォリオ上でテストし、洞察に富むアルゴリズム評価ツールとして、この手法の幅広い適用性を示す。 さらに、IRTパラメータの説明可能な性質は、アルゴリズムポートフォリオの理解を深めます。

Item Response Theory (IRT) has been proposed within the field of Educational Psychometrics to assess student ability as well as test question difficulty and discrimination power. More recently, IRT has been applied to evaluate machine learning algorithm performance on a single classification dataset, where the student is now an algorithm, and the test question is an observation to be classified by the algorithm. In this paper we present a modified IRT-based framework for evaluating a portfolio of algorithms across a repository of datasets, while simultaneously eliciting a richer suite of characteristics - such as algorithm consistency and anomalousness - that describe important aspects of algorithm performance. These characteristics arise from a novel inversion and reinterpretation of the traditional IRT model without requiring additional dataset feature computations. We test this framework on algorithm portfolios for a wide range of applications, demonstrating the broad applicability of this method as an insightful algorithm evaluation tool. Furthermore, the explainable nature of IRT parameters yield an increased understanding of algorithm portfolios.
翻訳日:2023-08-01 19:04:02 公開日:2023-07-29
# Sat2Cap:衛星画像からの微細テキスト記述のマッピング

Sat2Cap: Mapping Fine-Grained Textual Descriptions from Satellite Images ( http://arxiv.org/abs/2307.15904v1 )

ライセンス: Link先を確認
Aayush Dhakal, Adeel Ahmad, Subash Khanal, Srikumar Sastry, Nathan Jacobs(参考訳) 本稿では,自由形式のテキスト記述(あるいはキャプション)を用いた地図作成手法を提案する。 テキストマップをゼロショットマッピング(zero-shot mapping)として作成するこの新たな作業について言及する。 以前の研究は、オーバーヘッド画像を使用して一定の属性セットを予測するモデルを開発することでマッピングタスクにアプローチしてきた。 しかしながら、これらのモデルは、訓練された特定のタスクのみを解決することができるため、非常に制限的です。 一方、テキストのマッピングは、最小限の制限で、さまざまなマッピング問題を解決することができます。 これを実現するために、我々はSat2Capと呼ばれる対照的な学習フレームワークをペアのオーバーヘッドと地上レベルの画像の大規模なデータセットでトレーニングする。 与えられた場所について、我々のモデルは地上の風景のCLIP埋め込みを予測する。 Sat2Capは、時間とともに変化する動的概念を学習できるように、時間的情報にも条件付けされている。 実験の結果,モデルがきめ細かな概念をうまく捉え,時間変化に効果的に対応できることが判明した。 当社のアプローチでは、テキストラベルデータを必要としないため、トレーニングのスケーラブル化が容易です。 コード、データセット、モデルは公開される予定だ。

We propose a novel weakly supervised approach for creating maps using free-form textual descriptions (or captions). We refer to this new line of work of creating textual maps as zero-shot mapping. Prior works have approached mapping tasks by developing models that predict over a fixed set of attributes using overhead imagery. However, these models are very restrictive as they can only solve highly specific tasks for which they were trained. Mapping text, on the other hand, allows us to solve a large variety of mapping problems with minimal restrictions. To achieve this, we train a contrastive learning framework called Sat2Cap on a new large-scale dataset of paired overhead and ground-level images. For a given location, our model predicts the expected CLIP embedding of the ground-level scenery. Sat2Cap is also conditioned on temporal information, enabling it to learn dynamic concepts that vary over time. Our experimental results demonstrate that our models successfully capture fine-grained concepts and effectively adapt to temporal variations. Our approach does not require any text-labeled data making the training easily scalable. The code, dataset, and models will be made publicly available.
翻訳日:2023-08-01 18:56:54 公開日:2023-07-29
# UniBriVL:ロバストな普遍表現と音声駆動拡散モデルの生成

UniBriVL: Robust Universal Representation and Generation of Audio Driven Diffusion Models ( http://arxiv.org/abs/2307.15898v1 )

ライセンス: Link先を確認
Sen Fang, Bowen Gao, Yangjian Wu, Jingwen Cai, Teik Toe Teoh(参考訳) マルチモーダルな大規模モデルは、様々な性能および下流タスクにおいてその利点が認められている。 これらのモデルの開発は、将来的な人工知能の実現に不可欠である。 本稿では,Briging-Vision-and-Language(BriVL)に基づくUniBriVLという新しいユニバーサル言語表現学習手法を提案する。 Universal BriVLは、音声、画像、テキストを共有空間に埋め込み、様々なマルチモーダルアプリケーションの実現を可能にする。 本手法は,頑健な言語(テキストと音声の両方)表現学習における大きな課題に対処し,音声と画像の相関を効果的に捉える。 さらに、unibrivlから生成された画像の質的評価を実証し、音声から画像を作成する際の我々のアプローチの可能性を強調する。 実験の結果,下流作業におけるUniBriVLの有効性と,音声から適切な画像を選択する能力が示された。 提案手法は,音声認識,音楽信号処理,キャプションシステムなど,様々な応用の可能性を秘めている。

Multimodal large models have been recognized for their advantages in various performance and downstream tasks. The development of these models is crucial towards achieving general artificial intelligence in the future. In this paper, we propose a novel universal language representation learning method called UniBriVL, which is based on Bridging-Vision-and-Language (BriVL). Universal BriVL embeds audio, image, and text into a shared space, enabling the realization of various multimodal applications. Our approach addresses major challenges in robust language (both text and audio) representation learning and effectively captures the correlation between audio and image. Additionally, we demonstrate the qualitative evaluation of the generated images from UniBriVL, which serves to highlight the potential of our approach in creating images from audio. Overall, our experimental results demonstrate the efficacy of UniBriVL in downstream tasks and its ability to choose appropriate images from audio. The proposed approach has the potential for various applications such as speech recognition, music signal processing, and captioning systems.
翻訳日:2023-08-01 18:56:36 公開日:2023-07-29
# オンラインマッチング:大規模レコメンデーションのためのリアルタイムバンディットシステム

Online Matching: A Real-time Bandit System for Large-scale Recommendations ( http://arxiv.org/abs/2307.15893v1 )

ライセンス: Link先を確認
Xinyang Yi, Shao-Chuan Wang, Ruining He, Hariharan Chandrasekaran, Charles Wu, Lukasz Heldt, Lichan Hong, Minmin Chen, Ed H. Chi(参考訳) 過去10年間、業界規模のレコメンデーションシステムのためのディープラーニングベースのモデルが多くの成功をおさめてきた。 これらのモデルは通常、バッチ形式でオフラインでトレーニングされる。 ユーザの過去のレコメンデーションプラットフォームとのインタラクションを捉えるのに効果的だが、バッチ学習はモデル更新の待ち時間が長く、システムのバイアスに弱いため、分散シフトに適応し、新しいアイテムやユーザの関心を探求することが難しい。 オンライン学習ベースのアプローチ(例えばマルチアームのバンディット)は、これらの課題に取り組む上で有望な理論的結果を示しているが、大規模レコメンデーションシステムにおける実際の実装は限られている。 まず、オンラインのアプローチのスケーラビリティは、大規模なオンライントラフィックの確保と、バンドのパラメータのタイムリーな更新の確保において大きな課題となる。 さらに、レコメンデーションシステムにおける不確実性を探究することは、好ましくないユーザエクスペリエンスをもたらすことが容易であり、エクスプロイトと探索の間のトレードオフを効果的にバランスさせる複雑な戦略を考案する必要性を強調します。 本稿では,ユーザによるアイテムへの直接的なフィードバックをリアルタイムに学習する,スケーラブルなクローズドループバンディットシステムであるOnline Matchingを紹介する。 本システム構築には,エンド・ツー・エンドのシステムアーキテクチャを包括的に展示したハイブリッドな "オフライン+オンライン" アプローチを提案する。 本稿では,LinUCBアルゴリズムの新たな拡張であるDiag-LinUCBを提案する。 我々はYouTubeでライブ実験を行い、オンラインマッチングが、現在のプラットフォームにおける新鮮なコンテンツ発見とアイテム探索の能力を高めることができることを示す。

The last decade has witnessed many successes of deep learning-based models for industry-scale recommender systems. These models are typically trained offline in a batch manner. While being effective in capturing users' past interactions with recommendation platforms, batch learning suffers from long model-update latency and is vulnerable to system biases, making it hard to adapt to distribution shift and explore new items or user interests. Although online learning-based approaches (e.g., multi-armed bandits) have demonstrated promising theoretical results in tackling these challenges, their practical real-time implementation in large-scale recommender systems remains limited. First, the scalability of online approaches in servicing a massive online traffic while ensuring timely updates of bandit parameters poses a significant challenge. Additionally, exploring uncertainty in recommender systems can easily result in unfavorable user experience, highlighting the need for devising intricate strategies that effectively balance the trade-off between exploitation and exploration. In this paper, we introduce Online Matching: a scalable closed-loop bandit system learning from users' direct feedback on items in real time. We present a hybrid "offline + online" approach for constructing this system, accompanied by a comprehensive exposition of the end-to-end system architecture. We propose Diag-LinUCB -- a novel extension of the LinUCB algorithm -- to enable distributed updates of bandits parameter in a scalable and timely manner. We conduct live experiments in YouTube and show that Online Matching is able to enhance the capabilities of fresh content discovery and item exploration in the present platform.
翻訳日:2023-08-01 18:56:18 公開日:2023-07-29
# 1ステップサイズしか持たない新しい勾配TDアルゴリズム:$L$-$\lambda$Smoothnessを用いた収束速度解析

A new Gradient TD Algorithm with only One Step-size: Convergence Rate Analysis using $L$-$\lambda$ Smoothness ( http://arxiv.org/abs/2307.15892v1 )

ライセンス: Link先を確認
Hengshuai Yao(参考訳) gtd(gradient temporal difference)アルゴリズム(sutton et al., 2008, 2009)は、線形関数近似によるオフポリシー学習のための収束保証を持つ最初の$o(d)$(d$ is the number features)アルゴリズムである。 Liu et al. (2015) and Dalal et. al. (2018) は、GTD, GTD2 および TDC の収束率は、ある$\alpha \in (0,1)$に対して$O(t^{-\alpha/2})$であることを示した。 この境界はタイト(dalal et al., 2020)であり、$o(1/\sqrt{t})$よりも遅い。 GTDアルゴリズムには2つのステップサイズパラメータがあり、チューニングが難しい。 文献では、gtdの「シングルタイムスケール」な定式化がある。 しかし、この定式化はまだ2つのステップサイズパラメータを持つ。 本稿では,期待されたtd更新(NEU)目標のノルムを最小化するための,真に単一時間スケールのGTDアルゴリズムを提案する。 我々は、Impression GTDと呼ばれる新しいアルゴリズムが少なくとも$O(1/t)$の速さで収束していることを証明する。 さらに、期待される滑らかさの一般化(Gower et al. 2019)により、$L$-$\lambda$ smoothness と呼ばれる新しい GTD が線型速度でさらに速く収束することを証明することができる。 私たちのレートは、より弱い仮定の下でより厳密な境界で、Gowerらの結果も改善します。 印象 gtd の他に,yao と liu (2008) による他の 3 つの gtd アルゴリズム,a-transpose-td (sutton et al., 2008) と呼ばれるアルゴリズム,および a-transpose-td の対数も証明した。 4つのGTDアルゴリズムの収束速度は、1つのGTDフレームワークで証明され、そこでは$L$-$\lambda$滑らかさが適用される。 Random walk, Boyan chain, and Baird counterexample の実証結果は、Impression GTD が既存の GTD アルゴリズムよりもはるかに早く、オン・ポリティクスとオフ・ポリティクスの両方の学習問題に収束し、大きな範囲で優れたステップサイズを達成していることを示している。

Gradient Temporal Difference (GTD) algorithms (Sutton et al., 2008, 2009) are the first $O(d)$ ($d$ is the number features) algorithms that have convergence guarantees for off-policy learning with linear function approximation. Liu et al. (2015) and Dalal et. al. (2018) proved the convergence rates of GTD, GTD2 and TDC are $O(t^{-\alpha/2})$ for some $\alpha \in (0,1)$. This bound is tight (Dalal et al., 2020), and slower than $O(1/\sqrt{t})$. GTD algorithms also have two step-size parameters, which are difficult to tune. In literature, there is a "single-time-scale" formulation of GTD. However, this formulation still has two step-size parameters. This paper presents a truly single-time-scale GTD algorithm for minimizing the Norm of Expected td Update (NEU) objective, and it has only one step-size parameter. We prove that the new algorithm, called Impression GTD, converges at least as fast as $O(1/t)$. Furthermore, based on a generalization of the expected smoothness (Gower et al. 2019), called $L$-$\lambda$ smoothness, we are able to prove that the new GTD converges even faster, in fact, with a linear rate. Our rate actually also improves Gower et al.'s result with a tighter bound under a weaker assumption. Besides Impression GTD, we also prove the rates of three other GTD algorithms, one by Yao and Liu (2008), another called A-transpose-TD (Sutton et al., 2008), and a counterpart of A-transpose-TD. The convergence rates of all the four GTD algorithms are proved in a single generic GTD framework to which $L$-$\lambda$ smoothness applies. Empirical results on Random walks, Boyan chain, and Baird counterexample show that Impression GTD converges much faster than existing GTD algorithms for both on-policy and off-policy learning problems, with well-performing step-sizes in a big range.
翻訳日:2023-08-01 18:55:48 公開日:2023-07-29
# ロバスト政策評価のための一次政策最適化

First-order Policy Optimization for Robust Policy Evaluation ( http://arxiv.org/abs/2307.15890v1 )

ライセンス: Link先を確認
Yan Li and Guanghui Lan(参考訳) 我々は,$\mathrm{s}$-rectangular ambiguity 集合を用いたロバストマルコフ決定過程のポリシー評価に対するポリシー最適化の視点を採用する。 この手法は一階政策評価(frpe)と呼ばれ、決定論的(オフライン)と確率的(オンライン)の設定の両方においてロバストな政策評価のための最初の統一フレームワークを提供する。 特に、決定論的設定における線形収束と、確率的設定におけるサンプル複雑性を $\tilde{\mathcal{o}}(1/\epsilon^2)$ と定めている。 FRPE はまた自然に $(\mathrm{s}, \mathrm{a})$-正方形曖昧性集合で頑健な状態-作用値関数を評価するまで拡張する。 大規模頑健なMDPの確率的政策最適化のための開発結果の適用について検討する。

We adopt a policy optimization viewpoint towards policy evaluation for robust Markov decision process with $\mathrm{s}$-rectangular ambiguity sets. The developed method, named first-order policy evaluation (FRPE), provides the first unified framework for robust policy evaluation in both deterministic (offline) and stochastic (online) settings, with either tabular representation or generic function approximation. In particular, we establish linear convergence in the deterministic setting, and $\tilde{\mathcal{O}}(1/\epsilon^2)$ sample complexity in the stochastic setting. FRPE also extends naturally to evaluating the robust state-action value function with $(\mathrm{s}, \mathrm{a})$-rectangular ambiguity sets. We discuss the application of the developed results for stochastic policy optimization of large-scale robust MDPs.
翻訳日:2023-08-01 18:54:58 公開日:2023-07-29
# バイアスド・ラダー超流動における渦電流の空間反転対称性の破れ

Spatial inversion symmetry breaking of vortex current in biased-ladder superfluid ( http://arxiv.org/abs/2307.15889v1 )

ライセンス: Link先を確認
Weijie Huang and Yao Yao(参考訳) 均一なアベリアゲージ場が存在する場合の2脚はしご上の相互作用するボソンのクエンチダイナミクスについて検討する。 このモデルには様々な創発的量子位相があり、2本の脚のz_{2}$対称性を破る超流動バイアスド・ラダー位相に焦点を当てている。 我々は、渦電流と粒子密度の非対称な拡散、すなわち、電流が右に粒子様であり、左に波状であり、空間反転対称性の自発的な破れを示す。 反発強度を低下させることで, 粒子状電流は波状電流よりも強いことがわかった。 絡み合いエントロピーの進化は、多体局在の問題を示す時間とともに対数的成長を示す。

We investigate the quench dynamics of interacting bosons on a two-leg ladder in presence of a uniform Abelian gauge field. The model hosts a variety of emergent quantum phases, and we focus on the superfluid biased-ladder phase breaking the $Z_{2}$ symmetry of two legs. We observe an asymmetric spreading of vortex current and particle density, i.e., the current behaves particle-like on the right and wave-like on the left, indicating spontaneous breaking of the spatial inversion symmetry. By decreasing the repulsion strength, it is found the particle-like current is more robust than the wave-like one. The evolution of entanglement entropy manifests logarithmic growth with time suggesting many-body localization matters.
翻訳日:2023-08-01 18:54:41 公開日:2023-07-29
# ブループリント量子コンピューティングシステム

Blueprinting quantum computing systems ( http://arxiv.org/abs/2307.15883v1 )

ライセンス: Link先を確認
Simon J. Devitt(参考訳) 量子コンピューティングシステムの開発は、核磁気共鳴とイオントラップハードウェアを用いた物理プラットフォームの最初の提案が提案された1990年代半ば以降、学術研究の中心となっている。 これらの最初の提案は非常に基本的なもので、基本的には普遍的な量子計算を達成するために分離して制御できる物理量子ビット(二段階量子システム)を同定する。 過去30年間で、量子アーキテクチャの設計は大幅に変化し、量子コンピュータの構築に関わる投資、グループ、企業の規模は指数関数的に増加した。 量子コンピュータのアーキテクチャ設計は、完全にエラー訂正されたマシンであり、数十億の物理キュービットでないと数百万のマシンで構成される可能性がある。 これらのデザインは、学術グループや企業の青写真としての役割を増し、物理量子ビットの性質と運用、および各物理システムに必要な周辺環境と制御インフラの両方を考慮して、より詳細化されつつある。 本稿では、私が取り組んでいるいくつかのアーキテクチャ構造についてレビューし、それぞれが国家量子コンピューティングプログラムまたは量子スタートアップによって採用されている。

The development of quantum computing systems has been a staple of academic research since the mid-1990s when the first proposal for physical platforms were proposed using Nuclear Magnetic Resonance and Ion-Trap hardware. These first proposals were very basic, essentially consisting of identifying a physical qubit (two-level quantum system) that could be isolated and controlled to achieve universal quantum computation. Over the past thirty years, the nature of quantum architecture design has changed significantly and the scale of investment, groups and companies involved in building quantum computers has increased exponentially. Architectural design for quantum computers examines systems at scale: fully error-corrected machines, potentially consisting of millions if not billions of physical qubits. These designs increasingly act as blueprints for academic groups and companies and are becoming increasingly more detailed, taking into account both the nature and operation of the physical qubits themselves and also peripheral environmental and control infrastructure that is required for each physical system. In this paper, several architectural structures that I have worked on will be reviewed, each of which has been adopted by either a national quantum computing program or a quantum startup.
翻訳日:2023-08-01 18:54:30 公開日:2023-07-29
# 2段蒸留による全体電位推定

Effective Whole-body Pose Estimation with Two-stages Distillation ( http://arxiv.org/abs/2307.15880v1 )

ライセンス: Link先を確認
Zhendong Yang, Ailing Zeng, Chun Yuan, Yu Li(参考訳) 全身ポーズ推定は、画像内の人体、手、顔、足のキーポイントを局所化する。 この課題は、マルチスケールのボディパーツ、低解像度領域の微粒化ローカライゼーション、データ不足などによって困難である。 一方、人間中心の理解と生成に極めて効率的で正確なポーズ推定器を適用することは急務である。 本研究では,その効果と効率を向上させるために,2段階のポーズ \textbf{d}istillation for \textbf{w}hole-body \textbf{p}ose estimator, \textbf{dwpose} を提案する。 第1段階蒸留は、教師の中間機能と最終ロジットを利用して、目に見えるキーポイントと見えないキーポイントの両方を利用して、学生をスクラッチから監督しながら重量減少戦略を設計する。 第2段階は、生徒モデル自体を蒸留し、パフォーマンスをさらに向上させる。 従来の自己知識蒸留とは異なり、この段階は生徒の頭部を微調整し、プラグアンドプレイの訓練戦略として20%のトレーニング時間しか持たない。 データ制限のために、様々な表情と実生活アプリケーションのための手振りを含むUBodyデータセットを探索する。 総合的な実験により,提案手法の優位性を示した。 RTMPose-lの全身APは64.8%から66.5%に大幅に増加し,65.3%のAPでRTMPose-xの教師を抜いた。 私たちは、さまざまな下流タスクを満たすために、小さなものから大きなものまで、さまざまなサイズのモデルをリリースします。 私たちのコードとモデルはhttps://github.com/idea-research/dwposeで利用可能です。

Whole-body pose estimation localizes the human body, hand, face, and foot keypoints in an image. This task is challenging due to multi-scale body parts, fine-grained localization for low-resolution regions, and data scarcity. Meanwhile, applying a highly efficient and accurate pose estimator to widely human-centric understanding and generation tasks is urgent. In this work, we present a two-stage pose \textbf{D}istillation for \textbf{W}hole-body \textbf{P}ose estimators, named \textbf{DWPose}, to improve their effectiveness and efficiency. The first-stage distillation designs a weight-decay strategy while utilizing a teacher's intermediate feature and final logits with both visible and invisible keypoints to supervise the student from scratch. The second stage distills the student model itself to further improve performance. Different from the previous self-knowledge distillation, this stage finetunes the student's head with only 20% training time as a plug-and-play training strategy. For data limitations, we explore the UBody dataset that contains diverse facial expressions and hand gestures for real-life applications. Comprehensive experiments show the superiority of our proposed simple yet effective methods. We achieve new state-of-the-art performance on COCO-WholeBody, significantly boosting the whole-body AP of RTMPose-l from 64.8% to 66.5%, even surpassing RTMPose-x teacher with 65.3% AP. We release a series of models with different sizes, from tiny to large, for satisfying various downstream tasks. Our codes and models are available at https://github.com/IDEA-Research/DWPose.
翻訳日:2023-08-01 18:54:13 公開日:2023-07-29
# 属性法による太陽フレア予測のための全ディスク深層学習モデル

Explaining Full-disk Deep Learning Model for Solar Flare Prediction using Attribution Methods ( http://arxiv.org/abs/2307.15878v1 )

ライセンス: Link先を確認
Chetraj Pandey, Rafal A. Angryk and Berkay Aydin(参考訳) 本論文は,太陽フレア予測のための深層学習手法の研究の進展に寄与し,特に見過ごされやすい近辺のフレアに着目し,帰属法を用いてモデル予測のポストホックな定性的説明を提供する。 太陽フレア予測モデルを提案する。このモデルでは、24時間以内に発生する可能性のある2値の予測モードを用いて、1時間ごとのフルディスク線磁図画像を用いてトレーニングを行う。 クラス不均衡に対処するために,データ拡張法とクラス重み付け法を融合し,true skill statistic (tss) とheidke skill score (hss) を用いてモデル全体の性能を評価する。 さらに,3つの帰属法,すなわち誘導勾配重み付けクラス活性化マッピング,統合勾配,深いシャプリー付加説明を適用し,モデルの予測を説明と相互評価した。 分析の結果,太陽フレアのフルディスク予測は活動領域(AR)の特徴と一致していることがわかった。 特に,本研究の主な成果は,(1)深層学習モデルが平均的TSS=0.51とSS=0.35を達成し,(2)太陽フレア付近の予測能力がさらに向上し,(2)モデル説明の質的解析により,全円板磁気図から中央および近傍のARに関連する特徴を特定し,それに応じた予測を行うことを示した。 言い換えれば、我々のモデルは、近山地帯でも火花ARの形状とテクスチャに基づく特徴を学習し、これは、運用予測に重要な意味を持つ、新しくて重要な能力である。

This paper contributes to the growing body of research on deep learning methods for solar flare prediction, primarily focusing on highly overlooked near-limb flares and utilizing the attribution methods to provide a post hoc qualitative explanation of the model's predictions. We present a solar flare prediction model, which is trained using hourly full-disk line-of-sight magnetogram images and employs a binary prediction mode to forecast $\geq$M-class flares that may occur within the following 24-hour period. To address the class imbalance, we employ a fusion of data augmentation and class weighting techniques; and evaluate the overall performance of our model using the true skill statistic (TSS) and Heidke skill score (HSS). Moreover, we applied three attribution methods, namely Guided Gradient-weighted Class Activation Mapping, Integrated Gradients, and Deep Shapley Additive Explanations, to interpret and cross-validate our model's predictions with the explanations. Our analysis revealed that full-disk prediction of solar flares aligns with characteristics related to active regions (ARs). In particular, the key findings of this study are: (1) our deep learning models achieved an average TSS=0.51 and HSS=0.35, and the results further demonstrate a competent capability to predict near-limb solar flares and (2) the qualitative analysis of the model explanation indicates that our model identifies and uses features associated with ARs in central and near-limb locations from full-disk magnetograms to make corresponding predictions. In other words, our models learn the shape and texture-based characteristics of flaring ARs even at near-limb areas, which is a novel and critical capability with significant implications for operational forecasting.
翻訳日:2023-08-01 18:53:40 公開日:2023-07-29
# GraphDAC: 動的空域構成に対するグラフ解析的アプローチ

GraphDAC: A Graph-Analytic Approach to Dynamic Airspace Configuration ( http://arxiv.org/abs/2307.15876v1 )

ライセンス: Link先を確認
Ke Feng, Dahai Liu, Yongxin Liu, Hong Liu, Houbing Song(参考訳) 現在のナショナル・エアスペース・システム(nas)は、航空輸送の増加により容量が拡大しており、古い戦術前計画に基づいている。 本研究では,よりダイナミックな空域構成(DAC)アプローチを提案する。 提案手法は,エアスペースを制約組込みグラフとして構築し,その次元を圧縮し,スペクトルクラスタリング対応適応アルゴリズムを適用し,共同空港群を生成し,ワークロードを均等に分散する。 様々な交通条件下において,本実験は負荷不均衡の50%削減を示す。 この研究は最終的に、最適化された空域構成のためのレコメンデーションシステムの基礎となるだろう。 https://github.com/KeFenge2022/GraphDAC.gitで公開されている。

The current National Airspace System (NAS) is reaching capacity due to increased air traffic, and is based on outdated pre-tactical planning. This study proposes a more dynamic airspace configuration (DAC) approach that could increase throughput and accommodate fluctuating traffic, ideal for emergencies. The proposed approach constructs the airspace as a constraints-embedded graph, compresses its dimensions, and applies a spectral clustering-enabled adaptive algorithm to generate collaborative airport groups and evenly distribute workloads among them. Under various traffic conditions, our experiments demonstrate a 50\% reduction in workload imbalances. This research could ultimately form the basis for a recommendation system for optimized airspace configuration. Code available at https://github.com/KeFenge2022/GraphDAC.git
翻訳日:2023-08-01 18:53:05 公開日:2023-07-29
# GeneMask: 短いショット学習を可能にする遺伝子配列の高速事前学習

GeneMask: Fast Pretraining of Gene Sequences to Enable Few-Shot Learning ( http://arxiv.org/abs/2307.15933v1 )

ライセンス: Link先を確認
Soumyadeep Roy, Jonas Wallat, Sowmya S Sundaram, Wolfgang Nejdl, Niloy Ganguly(参考訳) DNABertやLOGOといった大規模言語モデルは、最適な遺伝子表現を学習することを目的としており、ヒト参照ゲノム全体をトレーニングしている。 しかしながら、標準的なトークン化スキームは、k-merのような単純なトークンのスライディングウィンドウを含んでおり、遺伝子ベースのセマンティクスを一切利用せず、容易に予測可能なシーケンスを(簡単な)マスキングし、その後に非効率なマスケッド言語モデリング(MLM)のトレーニングに繋がる可能性がある。 そこで,我々は遺伝子配列の位置をランダムにマスセンタとして同定し,最も高い正規化ポイントワイズ相互情報(npmi)を用いてマスセンタ周辺のスパンを局所的に選択するmlm学習のための新しいマスキングアルゴリズムであるgenemaskを提案する。 ゲノミクス領域に人間の理解可能な意味論がない(対照的に、単語やフレーズのような意味単位がNLPで本質的に利用可能である)場合、GeneMaskベースのモデルは、4つのベンチマーク遺伝子配列分類データセット(10から1000ショット)でSOTAモデル(DNABertとLOGO)を大幅に上回っている。 さらに、GeneMaskベースのDNABertモデルは、オリジナルのSOTAモデルのエポック数の10分の1以下で訓練されている。 また,最上位のPMIトークンと保存DNAシークエンスモチーフとの相関が強く,潜伏したゲノム情報の取り込みを示す可能性がある。 トレーニングされたモデルを含む)コードとデータセットはhttps://github.com/roysoumya/GeneMask.comで公開されている。

Large-scale language models such as DNABert and LOGO aim to learn optimal gene representations and are trained on the entire Human Reference Genome. However, standard tokenization schemes involve a simple sliding window of tokens like k-mers that do not leverage any gene-based semantics and thus may lead to (trivial) masking of easily predictable sequences and subsequently inefficient Masked Language Modeling (MLM) training. Therefore, we propose a novel masking algorithm, GeneMask, for MLM training of gene sequences, where we randomly identify positions in a gene sequence as mask centers and locally select the span around the mask center with the highest Normalized Pointwise Mutual Information (NPMI) to mask. We observe that in the absence of human-understandable semantics in the genomics domain (in contrast, semantic units like words and phrases are inherently available in NLP), GeneMask-based models substantially outperform the SOTA models (DNABert and LOGO) over four benchmark gene sequence classification datasets in five few-shot settings (10 to 1000-shot). More significantly, the GeneMask-based DNABert model is trained for less than one-tenth of the number of epochs of the original SOTA model. We also observe a strong correlation between top-ranked PMI tokens and conserved DNA sequence motifs, which may indicate the incorporation of latent genomic information. The codes (including trained models) and datasets are made publicly available at https://github.com/roysoumya/GeneMask.
翻訳日:2023-08-01 18:47:30 公開日:2023-07-29
# 部分観測マルコフ決定過程における動的深部強化学習アルゴリズム

Dynamic deep-reinforcement-learning algorithm in Partially Observed Markov Decision Processes ( http://arxiv.org/abs/2307.15931v1 )

ライセンス: Link先を確認
Saki Omi, Hyo-Sang Shin, Namhoon Cho, Antonios Tsourdos(参考訳) 近年, 強化学習が大幅に改善され, 近年, 実世界の実践への関心が高まっている。 多くの場合、非静的な乱れのため、エージェントがパフォーマンスを維持することが困難になる。 この乱れは部分的に観測可能なマルコフ決定過程と呼ばれる環境をもたらす。 一般に、部分観測可能なマルコフ決定プロセスは、追加の推定器を導入することで処理されるか、強化学習の文脈でリカレントニューラルネットワークを利用する。 どちらのケースも、軌道上のシーケンシャルな情報を処理する必要がある。 しかし、考慮すべき情報とそれらを扱うネットワーク構造の効果を研究する研究はごくわずかである。 本研究は,部分可観測マルコフ決定過程を解決するための行動系列包含の利点を示す。 LSTMネットワークを用いた最新の深層強化学習アルゴリズムの1つを拡張するために,いくつかの構造とアプローチが提案されている。 開発したアルゴリズムは観測に付加される様々な外乱に対する制御器性能の頑健性を示した。

Reinforcement learning has been greatly improved in recent studies and an increased interest in real-world implementation has emerged in recent years. In many cases, due to the non-static disturbances, it becomes challenging for the agent to keep the performance. The disturbance results in the environment called Partially Observable Markov Decision Process. In common practice, Partially Observable Markov Decision Process is handled by introducing an additional estimator, or Recurrent Neural Network is utilized in the context of reinforcement learning. Both of the cases require to process sequential information on the trajectory. However, there are only a few studies investigating the effect of information to consider and the network structure to handle them. This study shows the benefit of action sequence inclusion in order to solve Partially Observable Markov Decision Process. Several structures and approaches are proposed to extend one of the latest deep reinforcement learning algorithms with LSTM networks. The developed algorithms showed enhanced robustness of controller performance against different types of external disturbances that are added to observation.
翻訳日:2023-08-01 18:46:59 公開日:2023-07-29
# 振動量子井戸における傾斜ワイル半金属中のファノ共鳴

Fano resonances in tilted Weyl semimetals in an oscillating quantum well ( http://arxiv.org/abs/2307.15928v1 )

ライセンス: Link先を確認
Souvik Das, Arnab Maity, Rajib Sarkar, Anirudha Menon, Tanay Nag, Banasri Basu(参考訳) 傾いたワイル半金属の低エネルギーモデルを考えると、周期的に駆動される量子井戸による電子伝達を、傾きに対して横方向に向けて研究する。 我々は、フロケ散乱理論の形式主義を採用し、フロケ側バンドと準有界状態のマッチングの結果としてファノ共鳴の出現を考察する。 ファノ共鳴エネルギーは傾き強度と直線的に変化し、準有界状態の傾きが上記の因子に依存することを示唆する。 傾きに平行な運動量(垂直)の値が与えられると、2つのファノ共鳴間のエネルギーギャップが、傾き方向に対して隣接する2つの横運動量(直線)の値に現れ、傾きの強さの変化に敏感(敏感)であることが分かる。 このような傾きの強さとコリナー運動量の結合(疎結合)挙動は、ポテンシャル井戸内の準有界状態エネルギーの傾きと通常の部分から理解することができる。 我々は、静的分散における傾き項と同じ準有界状態エネルギーの傾き媒介部分の正確な形状を決定的に検証するために、ワイル点の他の傾きパラメータとキラリティを変化させる。 我々の研究は、傾きとファノ共鳴の間の複雑な相互作用を理解するために、準バウンド状態エネルギーの傾きを媒介する部分を探索する方法である。

Considering low-energy model of tilted Weyl semimetal, we study the electronic transmission through a periodically driven quantum well, oriented in the transverse direction with respect to the tilt. We adopt the formalism of Floquet scattering theory and investigate the emergence of Fano resonances as an outcome of matching between the Floquet sidebands and quasi-bound states. The Fano resonance energy changes linearly with the tilt strength suggesting the fact that tilt-mediated part of quasi-bound states energies depends on the above factor. Given a value of momentum parallel (perpendicular) to the tilt, we find that the energy gap between two Fano resonances, appearing for two adjacent values of transverse (collinear) momentum with respect to the tilt direction, is insensitive (sensitive) to the change in the tilt strength. Such a coupled (decoupled) behavior of tilt strength and the collinear (transverse) momentum can be understood from the tilt-mediated and normal parts of the quasi-bound state energies inside the potential well. We vary the other tilt parameters and chirality of the Weyl points to conclusively verify exact form of the tilt-mediated part of the quasi-bound state energy that is the same as the tilt term in the static dispersion. Our work paves the way to probe the tilt-mediated part of quasi-bound state energy for understanding the complex interplay between the tilt and Fano resonance.
翻訳日:2023-08-01 18:46:47 公開日:2023-07-29
# ATESA-B{\AE}RT:アスペクトベース感覚分析のための異種アンサンブル学習モデル

ATESA-B{\AE}RT: A Heterogeneous Ensemble Learning Model for Aspect-Based Sentiment Analysis ( http://arxiv.org/abs/2307.15920v1 )

ライセンス: Link先を確認
Elena-Simona Apostol and Alin-Georgian Pisic\u{a} and Ciprian-Octavian Truic\u{a}(参考訳) オンラインレビューの増加により、異なる製品やサービスに関する顧客の意見を決定するための感情分析モデルの開発が可能となった。 これまで、感情分析はレビューの全体極性を決定する効果的なツールであることが証明されてきた。 サービスや製品をよりよく理解するために,アスペクトレベルの粒度を向上するために,アスペクトベースの感情分析の課題は,まずアスペクトを特定し,ユーザの意見を決定することである。 このタスクの複雑さは、同じレビューがそれぞれ独自の極性を持つ複数の側面を提示できるという事実にある。 現在のソリューションはそのようなデータではパフォーマンスが悪い。 Aspect-Based Sentiment Analysisのための異種アンサンブル学習モデルであるATESA-B{\AE}RTを提案することでこの問題に対処する。 まず,問題を2つのサブタスク,すなわちアスペクト項抽出とアスペクト項知覚分析に分割する。 第2に、サブタスク毎に6つのトランスフォーマーベースの学習者に対して、textit{argmax}マルチクラス分類を用いる。 2つのデータセットの初期実験は、ATESA-B{\AE}RTが多くの問題を解きながら現在の最先端のソリューションより優れていることを証明している。

The increasing volume of online reviews has made possible the development of sentiment analysis models for determining the opinion of customers regarding different products and services. Until now, sentiment analysis has proven to be an effective tool for determining the overall polarity of reviews. To improve the granularity at the aspect level for a better understanding of the service or product, the task of aspect-based sentiment analysis aims to first identify aspects and then determine the user's opinion about them. The complexity of this task lies in the fact that the same review can present multiple aspects, each with its own polarity. Current solutions have poor performance on such data. We address this problem by proposing ATESA-B{\AE}RT, a heterogeneous ensemble learning model for Aspect-Based Sentiment Analysis. Firstly, we divide our problem into two sub-tasks, i.e., Aspect Term Extraction and Aspect Term Sentiment Analysis. Secondly, we use the \textit{argmax} multi-class classification on six transformers-based learners for each sub-task. Initial experiments on two datasets prove that ATESA-B{\AE}RT outperforms current state-of-the-art solutions while solving the many aspects problem.
翻訳日:2023-08-01 18:46:19 公開日:2023-07-29
# 拡張可能なグラフニューラルネットワークによる大気質モニタリングと予測

Opportunistic Air Quality Monitoring and Forecasting with Expandable Graph Neural Networks ( http://arxiv.org/abs/2307.15916v1 )

ライセンス: Link先を確認
Jingwei Zuo, Wenbin Li, Michele Baldo and Hakim Hacid(参考訳) 近年,大気汚染モニタリングと予測が研究の話題となっている。 近年, 都市部におけるデータ収集施設の整備により, 大気質予測へのデータ駆動型アプローチが注目されている。 固定インフラストラクチャは通常、国立研究所やit巨人によってデプロイされるが、既存のインフラのない地域での予測など、多様なパーソナライズされたシナリオの要件を満たすために不足することが多い。 その結果、予算の少ない小規模機関や企業では、データ収集により柔軟なインフラを導入することで、調整されたソリューションを求めることを余儀なくされる。 本稿では,既存および新たに付加されたインフラから収集したデータを異なる空間構造でダイジェストする拡張可能なグラフアテンションネットワーク(EGAT)モデルを提案する。 さらに,提案手法を空気質予測モデルに組み込むことにより,空間構造を進化させるシナリオに適用することができる。 この提案は、purpleairの実際の空気質データに基づいて検証される。

Air Quality Monitoring and Forecasting has been a popular research topic in recent years. Recently, data-driven approaches for air quality forecasting have garnered significant attention, owing to the availability of well-established data collection facilities in urban areas. Fixed infrastructures, typically deployed by national institutes or tech giants, often fall short in meeting the requirements of diverse personalized scenarios, e.g., forecasting in areas without any existing infrastructure. Consequently, smaller institutes or companies with limited budgets are compelled to seek tailored solutions by introducing more flexible infrastructures for data collection. In this paper, we propose an expandable graph attention network (EGAT) model, which digests data collected from existing and newly-added infrastructures, with different spatial structures. Additionally, our proposal can be embedded into any air quality forecasting models, to apply to the scenarios with evolving spatial structures. The proposal is validated over real air quality data from PurpleAir.
翻訳日:2023-08-01 18:45:58 公開日:2023-07-29
# moisesdb: 4-stem以上のソース分離のためのデータセット

Moisesdb: A dataset for source separation beyond 4-stems ( http://arxiv.org/abs/2307.15913v1 )

ライセンス: Link先を確認
Igor Pereira, Felipe Ara\'ujo, Filip Korzeniowski, Richard Vogl(参考訳) 本稿では,音楽音源分離のためのmoisesdbデータセットを提案する。 45人のアーティストの240曲で構成され、12のジャンルをカバーしている。 それぞれの歌に対して,2階層の階層分類で構成された個々の音声ソースを提供する。 これにより、データ不足による4つのステム(ドラム、ベース、その他のボーカル)の使用制限を超えて、きめ細かいソース分離システムの構築と評価が容易になる。 このデータセットの採用を容易にするために,MoisesDBをダウンロード,処理,使用するためのPythonライブラリを公開しています。 データセットの内容に関する詳細なドキュメンテーションと分析に加えて、この研究は、さまざまな分離粒度(4, 5, 6幹)のオープンソース分離モデルのベースライン結果を提供し、それらの結果について議論する。

In this paper, we introduce the MoisesDB dataset for musical source separation. It consists of 240 tracks from 45 artists, covering twelve musical genres. For each song, we provide its individual audio sources, organized in a two-level hierarchical taxonomy of stems. This will facilitate building and evaluating fine-grained source separation systems that go beyond the limitation of using four stems (drums, bass, other, and vocals) due to lack of data. To facilitate the adoption of this dataset, we publish an easy-to-use Python library to download, process and use MoisesDB. Alongside a thorough documentation and analysis of the dataset contents, this work provides baseline results for open-source separation models for varying separation granularities (four, five, and six stems), and discuss their results.
翻訳日:2023-08-01 18:45:42 公開日:2023-07-29
# 量子メモリ品質が絡み合い支援通信に及ぼす影響

The Impact of Quantum Memory Quality on Entanglement Assisted Communication ( http://arxiv.org/abs/2307.15911v1 )

ライセンス: Link先を確認
Stephen DiAdamo, Janis N\"otzel(参考訳) この研究は、量子エンタングルメント資源が古典情報の伝達を高い速度で行うことができるエンタングルメント支援通信を探求する。 ネットワークトラフィックレベルに基づいて,絡み合いが事前に分散されるシナリオを考察し,アイドルノードが絡み合いを発生・保存する環境をシミュレートし,その後メッセージの送信を高速化する。 本稿では,量子メモリのノイズモデルを用いた通信モデルを様々なシナリオで解析し,エンタングルメントストレージにより協調データ処理のためのデータ伝送速度が向上する量子エンハンス型分散コンピューティング環境に適用する。 我々はプロトコルを提案し,教師なしクラスタリングの分散バージョンを示す。 その結果,量子ビットチャネルの場合,エンタングルメント生成率が高く,ストレージ要件が小さい場合,エンタングルメント支援により古典的限界を超える可能性があることがわかった。

This work explores entanglement-assisted communication, where quantum entanglement resources enable the transmission of classical information at an enhanced rate. We consider a scenario where entanglement is distributed ahead of time based on network traffic levels, and simulate a setting where idle nodes generate and store entanglement to later transmit messages at an accelerated rate. We analyze this communication model using noise models for quantum memory in various scenarios, and extend our investigation to a quantum-enhanced distributed computing environment, where entanglement storage enhances data transmission rates for cooperative data processing. We propose a protocol and demonstrate a distributed version of unsupervised clustering. Our results show that, for qubit channels, high rates of entanglement generation and modest storage requirements can surpass the classical limit with entanglement assistance.
翻訳日:2023-08-01 18:45:28 公開日:2023-07-29
# 時間窓を用いた確率的時空間制約下での強化学習

Reinforcement Learning Under Probabilistic Spatio-Temporal Constraints with Time Windows ( http://arxiv.org/abs/2307.15910v1 )

ライセンス: Link先を確認
Xiaoshan Lin, Abbasali Koochakzadeh, Yasin Yazicioglu, Derya Aksaray(参考訳) 時間窓を持つ複雑な時空間制約下での強化学習(rl)のための自動理論手法を提案する。 この問題は、境界時間論理制約の下でマルコフ決定プロセスを用いて定式化される。 このような制約を満たす最適ポリシーを最終的に学習できる既存のRL法とは異なり、本提案手法は学習を通して制約満足度が望ましい確率を強制する。 これは、有界時相論理制約を全オートマトンに翻訳し、遷移確率、すなわち各遷移確率に対する上下一対の境界に関する利用可能な事前情報に基づいて「安全でない」動作を避けることによって達成される。 制約満足度の結果の確率に関する理論的保証を提供する。 また,ロボットが時間的論理制約としてエンコードされた周期的ピックアップ・デリバリータスクを遂行しながら,ハイリワード領域を発見する環境を探索するシナリオにおいて,数値的な結果を提供する。

We propose an automata-theoretic approach for reinforcement learning (RL) under complex spatio-temporal constraints with time windows. The problem is formulated using a Markov decision process under a bounded temporal logic constraint. Different from existing RL methods that can eventually learn optimal policies satisfying such constraints, our proposed approach enforces a desired probability of constraint satisfaction throughout learning. This is achieved by translating the bounded temporal logic constraint into a total automaton and avoiding "unsafe" actions based on the available prior information regarding the transition probabilities, i.e., a pair of upper and lower bounds for each transition probability. We provide theoretical guarantees on the resulting probability of constraint satisfaction. We also provide numerical results in a scenario where a robot explores the environment to discover high-reward regions while fulfilling some periodic pick-up and delivery tasks that are encoded as temporal logic constraints.
翻訳日:2023-08-01 18:45:13 公開日:2023-07-29
# 二元化ニューラルネットワークの合成に対するオートマトン理論のアプローチ

An Automata-Theoretic Approach to Synthesizing Binarized Neural Networks ( http://arxiv.org/abs/2307.15907v1 )

ライセンス: Link先を確認
Ye Tao, Wanwei Liu, Fu Song, Zhen Liang, Ji Wang and Hongxu Zhu(参考訳) ディープニューラルネットワーク(DNN、別名NN)は様々なタスクで広く使われており、成功することが証明されている。 しかし、それに伴う高価なコンピューティングとストレージのコストは、リソース制限されたデバイスへのデプロイメントを重大な懸念にしている。 この問題を解決するために、量子化は、浮動小数点数を低幅の固定点表現に量子化することにより、DNNのコストを少ない精度で削減する有効な方法として登場した。 量子ニューラルネットワーク(QNN)が開発され、二項化ニューラルネットワーク(BNN)は特殊なケースとしてバイナリ値に制限されている。 ニューラルネットワークに関するもうひとつの懸念は、脆弱性と解釈可能性の欠如だ。 DNNの信頼できる研究にもかかわらず、QNNにはいくつかのアプローチが提案されている。 そこで本稿では,指定された特性を満たすbnnを合成する自動理論的手法を提案する。 具体的には、BLTLと呼ばれる時間論理を仕様言語として定義する。 各BLTL式は有限語上のオートマトンに変換可能であることを示す。 状態展開問題に対処するため,実実装におけるテーブルーベースアプローチを提案する。 合成過程において,SMTソルバを用いてモデル(BNN)の存在を検出する。 特に,学習前のネットワークのハイパーパラメータを決定する方法として,本手法を実験的に評価し,BNNの個々人の公正性と局所ロバスト性を改善する上で,精度を高く保ちながらその効果を実証する。

Deep neural networks, (DNNs, a.k.a. NNs), have been widely used in various tasks and have been proven to be successful. However, the accompanied expensive computing and storage costs make the deployments in resource-constrained devices a significant concern. To solve this issue, quantization has emerged as an effective way to reduce the costs of DNNs with little accuracy degradation by quantizing floating-point numbers to low-width fixed-point representations. Quantized neural networks (QNNs) have been developed, with binarized neural networks (BNNs) restricted to binary values as a special case. Another concern about neural networks is their vulnerability and lack of interpretability. Despite the active research on trustworthy of DNNs, few approaches have been proposed to QNNs. To this end, this paper presents an automata-theoretic approach to synthesizing BNNs that meet designated properties. More specifically, we define a temporal logic, called BLTL, as the specification language. We show that each BLTL formula can be transformed into an automaton on finite words. To deal with the state-explosion problem, we provide a tableau-based approach in real implementation. For the synthesis procedure, we utilize SMT solvers to detect the existence of a model (i.e., a BNN) in the construction process. Notably, synthesis provides a way to determine the hyper-parameters of the network before training.Moreover, we experimentally evaluate our approach and demonstrate its effectiveness in improving the individual fairness and local robustness of BNNs while maintaining accuracy to a great extent.
翻訳日:2023-08-01 18:44:57 公開日:2023-07-29
# 非線形スペクトル特徴選択のためのマルチビュースパースラプラシアン固有写像

Multi-view Sparse Laplacian Eigenmaps for nonlinear Spectral Feature Selection ( http://arxiv.org/abs/2307.15905v1 )

ライセンス: Link先を確認
Gaurav Srivastava, Mahesh Jangid(参考訳) 高次元データセットの複雑性は、過剰フィッティング、計算複雑性、結果解釈の困難など、機械学習モデルに重大な課題をもたらす。 これらの課題に対処するためには、データの本質的構造を捉えた機能の情報的サブセットを特定することが不可欠である。 本研究では,データの複数ビューを効果的に結合し,スパーシティ制約を強制し,基本データ構造をキャプチャする機能のサブセットを特定するためにスケーラブルな最適化アルゴリズムを用いる特徴選択のためのマルチビュースパースラプラシアン固有マップ(msle)を提案する。 MSLEは、高次元データのより堅牢で情報的な表現を構築するために、データの複数のビューを活用するグラフベースのアプローチである。 この方法はスパース固有分解を適用してデータの次元を小さくし、特徴集合を小さくする。 スパース係数とラプラシアングラフ行列の更新を交互に繰り返す反復アルゴリズムを用いて最適化問題を解く。 スパース係数はソフトスレッショルド演算子を用いて更新され、グラフラプラシアン行列は正規化グラフラプラシアンを用いて更新される。 筆者らは,MSLE手法の性能を評価するために,561個の特徴からなるUCI-HARデータセットの実験を行い,特徴空間を10~90%削減した。 その結果,機能領域を90%削減した後でも,SVM(Support Vector Machine)はエラー率2.72%を維持していることがわかった。 さらに、著者らはSVMが96.69%の精度を示し、全体の特徴空間を80%削減していると考えている。

The complexity of high-dimensional datasets presents significant challenges for machine learning models, including overfitting, computational complexity, and difficulties in interpreting results. To address these challenges, it is essential to identify an informative subset of features that captures the essential structure of the data. In this study, the authors propose Multi-view Sparse Laplacian Eigenmaps (MSLE) for feature selection, which effectively combines multiple views of the data, enforces sparsity constraints, and employs a scalable optimization algorithm to identify a subset of features that capture the fundamental data structure. MSLE is a graph-based approach that leverages multiple views of the data to construct a more robust and informative representation of high-dimensional data. The method applies sparse eigendecomposition to reduce the dimensionality of the data, yielding a reduced feature set. The optimization problem is solved using an iterative algorithm alternating between updating the sparse coefficients and the Laplacian graph matrix. The sparse coefficients are updated using a soft-thresholding operator, while the graph Laplacian matrix is updated using the normalized graph Laplacian. To evaluate the performance of the MSLE technique, the authors conducted experiments on the UCI-HAR dataset, which comprises 561 features, and reduced the feature space by 10 to 90%. Our results demonstrate that even after reducing the feature space by 90%, the Support Vector Machine (SVM) maintains an error rate of 2.72%. Moreover, the authors observe that the SVM exhibits an accuracy of 96.69% with an 80% reduction in the overall feature space.
翻訳日:2023-08-01 18:44:33 公開日:2023-07-29
# 高光性Zn処理ハロゲン化ペロブスカイトナノ結晶の高効率単一光子生成への応用

Highly photostable Zn-treated halide perovskite nanocrystals for efficient single photon generation ( http://arxiv.org/abs/2307.15959v1 )

ライセンス: Link先を確認
Marianna D'Amato, Lucien Belzane, Corentin Dabard, Mathieu Silly, Gilles Patriarche, Quentin Glorieux, Hanna Le Jeannic, Emmanuel Lhuillier and Alberto Bramati(参考訳) 純粋な単一光子放出を達成することは、光学量子コンピューティングから量子鍵分布、量子メトロロジーまで、様々な量子技術にとって不可欠である。 固体量子放出体では、コロイド型鉛ハロゲン化ペロブスカイト(lhp)ナノ結晶(ncs)が興味深い構造と光学的性質のために注目を集めており、単光子源(spss)にアピールしている。 しかし、量子技術応用における実用的利用は、環境による不安定さによって妨げられている。 本研究では,Zn処理した$CsPbBr_3$コロイドNCをPbサイトにおけるZn^{2+$イオンドーピングにより製造・特性評価し,希釈および照明下での安定性の向上を示した。 これらのドープNCは、高い単光子純度を示し、ミリ秒以下の時間スケールでの点滅を減少させ、飽和レベルよりはるかに高い励起パワーの明るい状態の安定性を示す。 この合成手法がLHPベースのSPSの性能を最適化する可能性を強調し、量子技術応用のためのナノフォトニクスシステムへの統合が期待できる。

Achieving pure single-photon emission is essential for a range of quantum technologies, from optical quantum computing to quantum key distribution to quantum metrology. Among solid-state quantum emitters, colloidal lead halide perovskite (LHP) nanocrystals (NCs) have garnered significant attention due to their interesting structural and optical properties, which make them appealing single-photon sources (SPSs). However, their practical utilization for quantum technology applications has been hampered by environment-induced instabilities. In this study, we fabricate and characterize in a systematic manner Zn-treated $CsPbBr_3$ colloidal NCs obtained through $Zn^{2+}$ ion doping at the Pb-site, demonstrating improved stability under dilution and illumination. These doped NCs exhibit high single-photon purity, reduced blinking on a sub-millisecond timescale and stability of the bright state for excitation powers well above the saturation levels. Our findings highlight the potential of this synthesis approach to optimize the performance of LHP-based SPSs, opening up interesting prospects for their integration into nanophotonic systems for quantum technology applications.
翻訳日:2023-08-01 18:37:24 公開日:2023-07-29
# XMem++: 注釈付きフレームからのプロダクションレベルのビデオセグメンテーション

XMem++: Production-level Video Segmentation From Few Annotated Frames ( http://arxiv.org/abs/2307.15958v1 )

ライセンス: Link先を確認
Maksym Bekuzarov, Ariana Bermudez, Joon-Young Lee, Hao Li(参考訳) ユーザ誘導ビデオセグメンテーションの進歩にもかかわらず、高度に複雑なシーンを一貫して抽出することは、特に生産において労働集約的な作業である。 フレームの大多数が注釈を付ける必要があることは珍しくない。 本稿では,既存のメモリベースモデルを改善する,新しい半教師付きビデオオブジェクトセグメンテーション(SSVOS)モデルであるXMem++を提案する。 既存の手法の多くは単一フレームアノテーションに焦点をあてるが,本手法では同一オブジェクトや領域の外観が異なる複数のユーザ選択フレームを効果的に扱うことができる。 本手法はフレームアノテーションの必要な数を低く保ちつつ,一貫性の高い結果を抽出することができる。 さらに,アノテーションの次の最適なフレームを計算する,反復的かつ注意に基づくフレーム提案機構を導入する。 提案手法はリアルタイムであり,各ユーザの入力後の再学習を必要としない。 また、新しいデータセットであるpumavosも導入しています。 我々は,既存の手法よりもフレームアノテーションを著しく少なくしながら,難易度(部分的・複数クラス)のセグメンテーションシナリオと長ビデオ上でのSOTA性能を実証する。

Despite advancements in user-guided video segmentation, extracting complex objects consistently for highly complex scenes is still a labor-intensive task, especially for production. It is not uncommon that a majority of frames need to be annotated. We introduce a novel semi-supervised video object segmentation (SSVOS) model, XMem++, that improves existing memory-based models, with a permanent memory module. Most existing methods focus on single frame annotations, while our approach can effectively handle multiple user-selected frames with varying appearances of the same object or region. Our method can extract highly consistent results while keeping the required number of frame annotations low. We further introduce an iterative and attention-based frame suggestion mechanism, which computes the next best frame for annotation. Our method is real-time and does not require retraining after each user input. We also introduce a new dataset, PUMaVOS, which covers new challenging use cases not found in previous benchmarks. We demonstrate SOTA performance on challenging (partial and multi-class) segmentation scenarios as well as long videos, while ensuring significantly fewer frame annotations than any existing method.
翻訳日:2023-08-01 18:36:59 公開日:2023-07-29
# スピン星系におけるxyz模型の絡み合い:異方性対場誘起ダイナミクス

Entanglement in XYZ model on a spin-star system: Anisotropy vs. field-induced dynamics ( http://arxiv.org/abs/2307.15949v1 )

ライセンス: Link先を確認
Jithin G. Krishnan, Harikrishnan K. J., Amit Kumar Pal(参考訳) 我々は、$n=n_0+n_p$ spin-$\frac{1}{2}$ particle のスターネットワークを考え、そこでは、$n_0$ Central spins と $n_p$ peripheral spins の相互作用は XYZ-type である。 極限$n_0/n_p\ll 1$ において、奇数$n$ の場合、基底状態は二重縮退するが、$n$ であっても、n$ が大きければエネルギーギャップは無視され、emph{ Effective} 二重縮退を誘導する。 同じ限界において、xy$-anisotropy $\gamma$ を消滅させるために、部分トレースベースまたは測定ベースのアプローチで計算された周辺スピン上の二成分の絡み合いは、通常、パーティションのサイズが$\sim n_p/2$であるような対数成長を示す。 この機能は $\gamma\neq 0$ で消え、これは \emph{anisotropy effect} と呼ばれる。 興味深いことに、系が全てのスピンに一定強度の磁場を導入することで平衡を外すと、時間平均された時間的二成分のエンタングルメントは、$\gamma$の値に関係なく、n_p$の対数成長を示す。 さらに、モデルの$n_0/n_p\gg 1$および$n_0/n_p\rightarrow 1$制限について検討し、二部体の周辺エンタングルメントの挙動が$n_0/n_p\ll 1$制限のものと質的に異なることを示す。

We consider a star-network of $n=n_0+n_p$ spin-$\frac{1}{2}$ particles, where interaction between $n_0$ central spins and $n_p$ peripheral spins are of the XYZ-type. In the limit $n_0/n_p\ll 1$, we show that for odd $n$, the ground state is doubly degenerate, while for even $n$, the energy gap becomes negligible when $n$ is large, inducing an \emph{effective} double degeneracy. In the same limit, we show that for vanishing $xy$-anisotropy $\gamma$, bipartite entanglement on the peripheral spins computed using either a partial trace-based, or a measurement-based approach exhibits a logarithmic growth with $n_p$, where the sizes of the partitions are typically $\sim n_p/2$. This feature disappears for $\gamma\neq 0$, which we refer to as the \emph{anisotropy effect}. Interestingly, when the system is taken out of equilibrium by the introduction of a magnetic field of constant strength on all spins, the time-averaged bipartite entanglement on the periphery at the long-time limit exhibits a logarithmic growth with $n_p$ irrespective of the value of $\gamma$. We further study the $n_0/n_p\gg 1$ and $n_0/n_p\rightarrow 1$ limits of the model, and show that the behaviour of bipartite peripheral entanglement is qualitatively different from that of the $n_0/n_p\ll 1$ limit.
翻訳日:2023-08-01 18:36:38 公開日:2023-07-29
# 超幾何学的微分作用素の超対称性量子力学

Supersymmetric Quantum Mechanics of Hypergeometric-like Differential Operators ( http://arxiv.org/abs/2307.15948v1 )

ライセンス: Link先を確認
Tianchun Zhou(参考訳) 超対称量子力学(SUSYQM)の体系的反復アルゴリズムは、主超幾何学的微分作用素(HLDO)の等質化を解き、関連するHLDO自体の等質化と解を従来の方法からの入力なしに生成する。 これらは、2種類の活性な超対称性変換と運動量作用素写像を考案し、HLDOの2つの自明な非対称因数分解における同じ等式を2つの異なる超対称因子化 Schr\\odinger 方程式に変換する。 静止反復流は、繰り返し交互に作用し、いくつかの一般化された通勤者関係を組み込んで、現在のレベルの等式を次のレベルの等式に再正規化することにより、完全に制御される。 これらのアルゴリズムは、2つの異なる種類の量子運動量運動エネルギー演算子と超ポテンシャルがこの作用素に根ざしているという2つの基本的な事実に沸騰する同じhldoに対して、なぜ一連の主関数と関連する固有関数が同時に存在するのかという疑問に対する単純なsusiqm答えを与える。 2つのアクティブな超対称性は、主HLDOまたはそれに関連するアルゴリズムに対してSUSYQMアルゴリズムの非標準座標表現と標準座標表現の同型性を確立するため、これらのアルゴリズムは等効率の座標表現で構築することができる。 本論文で開発した反復型SUSYQMアルゴリズムは, 比較的高い効率性, 代数的要素の独立性, および論理的独立性から, 主HLDOとその従兄弟の固有値問題の解法に取って代わるものとなる。

Systematic iterative algorithms of supersymmetric quantum mechanics (SUSYQM) type for solving the eigenequation of principal hypergeometric-like differential operator (HLDO) and for generating the eigenequation of associated HLDO itself as well its solutions are developed, without any input from traditional methods. These are initiated by devising two types of active supersymmetrization transformations and momentum operator maps, which work to transform the same eigenequation of HLDO in its two trivial asymmetric factorizations into two distinct supersymmetrically factorized Schr\"odinger equations. The rest iteration flows are completely controlled by repeatedly performing intertwining action and incorporating some generalized commutator relations to renormalize the superpartner equation of the eigenequation of present level into that of next level. These algorithms therefore provide a simple SUSYQM answer to the question regarding why there exist simultaneously a series of principal as well as associated eigenfunctions for the same HLDO, which boils down to two basic facts: two distinct types of quantum momentum kinetic energy operators and superpotentials are rooted in this operator; each initial superpotential can proliferate into a hierarchy of descendant ones in a shape-invariant fashion. The two active supersymmetrizations establish the isomorphisms between the nonstandard and standard coordinate representations of the SUSYQM algorithm either for principal HLDO or for its associated one, so these algorithms can be constructed in either coordinate representation with equal efficiency. Due to their relatively high efficiency, algebraic elementariness and logical independence, the iterative SUSYQM algorithms developed in this paper could become the hopefuls for supplanting some traditional methods for solving the eigenvalue problems of principal HLDOs and their associated cousins.
翻訳日:2023-08-01 18:36:02 公開日:2023-07-29
# ネットワークトポロジが完全分散学習に及ぼす影響:予備的検討

The effect of network topologies on fully decentralized learning: a preliminary investigation ( http://arxiv.org/abs/2307.15947v1 )

ライセンス: Link先を確認
Luigi Palmieri, Lorenzo Valerio, Chiara Boldrini and Andrea Passarella(参考訳) 分散機械学習システムでは、データは複数のデバイスまたはノードに分割され、それぞれが独自のデータを使用してローカルモデルをトレーニングする。 これらのローカルモデルは共有され、新しいデータに対して正確な予測を行うグローバルモデルを作成する。 本稿では,ノード間の直接協調により学習される機械学習モデルの性能にノードを接続するネットワークトポロジの役割について検討する。 我々は,異なるタイプのトポロジが「知識の拡散」に与える影響,すなわちネットワーク上の他のノードで利用可能なデータにおける学習パターンから得られる知識を,ノードがそれぞれのローカルモデルに組み込む能力について検討する。 具体的には,多かれ少なかれ連結ノード(ハブと葉)とマクロネットワーク特性(主に次数分布とモジュラリティ)のプロセスにおける異なる役割を強調する。 中でも,ネットワークコンポーネント間の弱い接続であっても情報拡散には十分であることがわかったが,知識拡散には不十分である可能性がある。 より直感的に見れば、ハブは知識の普及において葉よりも重要な役割を担っていることが分かるが、これはそれ自体が重い尾の分布だけでなく、「ハブ」が葉よりも適度に多くのつながりを持っている場合にも現れている。 最後に、密に編まれたコミュニティが知識の拡散を著しく妨げていることを示す。

In a decentralized machine learning system, data is typically partitioned among multiple devices or nodes, each of which trains a local model using its own data. These local models are then shared and combined to create a global model that can make accurate predictions on new data. In this paper, we start exploring the role of the network topology connecting nodes on the performance of a Machine Learning model trained through direct collaboration between nodes. We investigate how different types of topologies impact the "spreading of knowledge", i.e., the ability of nodes to incorporate in their local model the knowledge derived by learning patterns in data available in other nodes across the networks. Specifically, we highlight the different roles in this process of more or less connected nodes (hubs and leaves), as well as that of macroscopic network properties (primarily, degree distribution and modularity). Among others, we show that, while it is known that even weak connectivity among network components is sufficient for information spread, it may not be sufficient for knowledge spread. More intuitively, we also find that hubs have a more significant role than leaves in spreading knowledge, although this manifests itself not only for heavy-tailed distributions but also when "hubs" have only moderately more connections than leaves. Finally, we show that tightly knit communities severely hinder knowledge spread.
翻訳日:2023-08-01 18:35:27 公開日:2023-07-29
# PIMbot:社会ジレンマにおけるマルチロボット強化学習のためのポリシーとインセンティブ操作

PIMbot: Policy and Incentive Manipulation for Multi-Robot Reinforcement Learning in Social Dilemmas ( http://arxiv.org/abs/2307.15944v1 )

ライセンス: Link先を確認
Shahab Nikkhoo, Zexin Li, Aritra Samanta, Yufei Li and Cong Liu(参考訳) 近年の研究では、ロボットが自己利益と集団利益のトレードオフに直面している社会ジレンマにおいて、効果的なマルチロボット協調を可能にするための強化学習(RL)の可能性を示している。 しかし, コミュニケーションミスや対人ロボットなどの環境要因が協調に影響を及ぼす可能性があり, 異なる結果を達成するために, マルチロボットコミュニケーションをどのように操作するかを検討することが重要である。 本稿では,多ロボット協調における報酬関数の操作方法として,ポリシーとインセンティブ操作という2つの異なる形態の操作方法を提案する。 本研究は,近年のマルチエージェントRLソーシャルジレンマにおいて,インセンティブ化にユニークな報酬関数を利用する新たな操作方法を提案する。 提案するPIMbot機構を利用することで,ロボットが社会的ジレンマ環境を効果的に操作することができる。 pimbotは、タスク結果に対するポジティブな影響とネガティブな影響の両方をもたらす可能性があり、ポジティブな影響は、選択されたロボットに対して、グローバルに最適かつ最大化された報酬への収束を早める。 逆に、負の影響はタスク全体のパフォーマンスに悪影響を及ぼす可能性がある。 本稿では,ガゼボ模擬マルチロボット環境における提案手法の有効性を示す総合的な実験結果を示す。 私たちの研究は、ロボット間通信の操作方法に関する洞察を提供し、様々なロボットアプリケーションに影響を与えます。 8%, ロボット工学, 輸送, 製造業を含む。

Recent research has demonstrated the potential of reinforcement learning (RL) in enabling effective multi-robot collaboration, particularly in social dilemmas where robots face a trade-off between self-interests and collective benefits. However, environmental factors such as miscommunication and adversarial robots can impact cooperation, making it crucial to explore how multi-robot communication can be manipulated to achieve different outcomes. This paper presents a novel approach, namely PIMbot, to manipulating the reward function in multi-robot collaboration through two distinct forms of manipulation: policy and incentive manipulation. Our work introduces a new angle for manipulation in recent multi-agent RL social dilemmas that utilize a unique reward function for incentivization. By utilizing our proposed PIMbot mechanisms, a robot is able to manipulate the social dilemma environment effectively. PIMbot has the potential for both positive and negative impacts on the task outcome, where positive impacts lead to faster convergence to the global optimum and maximized rewards for any chosen robot. Conversely, negative impacts can have a detrimental effect on the overall task performance. We present comprehensive experimental results that demonstrate the effectiveness of our proposed methods in the Gazebo-simulated multi-robot environment. Our work provides insights into how inter-robot communication can be manipulated and has implications for various robotic applications. %, including robotics, transportation, and manufacturing.
翻訳日:2023-08-01 18:35:04 公開日:2023-07-29
# CMDA:夜間セマンティックセグメンテーションのためのクロスモーダルドメイン適応

CMDA: Cross-Modality Domain Adaptation for Nighttime Semantic Segmentation ( http://arxiv.org/abs/2307.15942v1 )

ライセンス: Link先を確認
Ruihao Xia, Chaoqiang Zhao, Meng Zheng, Ziyan Wu, Qiyu Sun, Yang Tang(参考訳) ほとんどの夜間セマンティックセグメンテーション研究は、ドメイン適応アプローチと画像入力に基づいている。 しかし、従来のカメラのダイナミックレンジが低かったため、画像は低照度条件で構造の詳細と境界情報を捉えられなかった。 イベントカメラは、新しい形態の視覚センサーとして、高ダイナミックレンジの従来のカメラを補完するものだ。 そこで本稿では,夜間セマンティックセマンティックセグメンテーションのためのマルチモーダル(画像とイベント)情報を活用するための,教師なしクロスモーダルドメイン適応(CMDA)フレームワークを提案する。 CMDAでは,動作情報抽出のための画像運動抽出装置と画像コンテンツ抽出装置を設計し,異なるモダリティ(画像からイベント)とドメイン(日から夜)のギャップを埋めるため,画像からコンテンツ情報を抽出する。 また、最初の画像イベント夜間セマンティクスセグメンテーションデータセットも導入する。 提案手法の有効性を示すために,公開画像データセットと提案画像イベントデータセットの併用実験を行った。 コード、モデル、データセットはhttps://github.com/XiaRho/CMDA.comでオープンソース化しています。

Most nighttime semantic segmentation studies are based on domain adaptation approaches and image input. However, limited by the low dynamic range of conventional cameras, images fail to capture structural details and boundary information in low-light conditions. Event cameras, as a new form of vision sensors, are complementary to conventional cameras with their high dynamic range. To this end, we propose a novel unsupervised Cross-Modality Domain Adaptation (CMDA) framework to leverage multi-modality (Images and Events) information for nighttime semantic segmentation, with only labels on daytime images. In CMDA, we design the Image Motion-Extractor to extract motion information and the Image Content-Extractor to extract content information from images, in order to bridge the gap between different modalities (Images to Events) and domains (Day to Night). Besides, we introduce the first image-event nighttime semantic segmentation dataset. Extensive experiments on both the public image dataset and the proposed image-event dataset demonstrate the effectiveness of our proposed approach. We open-source our code, models, and dataset at https://github.com/XiaRho/CMDA.
翻訳日:2023-08-01 18:34:43 公開日:2023-07-29
# 予測オートスケーリングにおける連続学習

Continual Learning in Predictive Autoscaling ( http://arxiv.org/abs/2307.15941v1 )

ライセンス: Link先を確認
Hongyan Hao, Zhixuan Chu, Shiyi Zhu, Gangwei Jiang, Yan Wang, Caigao Jiang, James Zhang, Wei Jiang, Siqiao Xue, Jun Zhou(参考訳) Predictive Autoscaling is used to forecast the workloads of servers and prepare the resources in advance to ensure service level objectives (SLOs) in dynamic cloud environments.However, in practice, its prediction task often suffers from performance degradation under abnormal traffics caused by external events (such as sales promotional activities and applications' re-configurations), for which a common solution is to re-train the model with data of a long historical period, but at the expense of high computational and storage costs.To better address this problem, we propose a replay-based continual learning method, i.e., Density-based Memory Selection and Hint-based Network Learning Model (DMSHM), using only a small part of the historical log to achieve accurate predictions.First, we discover the phenomenon of sample overlap when applying replay-based continual learning in prediction tasks. In order to surmount this challenge and effectively integrate new sample distribution, we propose a density-based sample selection strategy that utilizes kernel density estimation to calculate sample density as a reference to compute sample weight, and employs weight sampling to construct a new memory set.Then we implement hint-based network learning based on hint representation to optimize the parameters.Finally, we conduct experiments on public and industrial datasets to demonstrate that our proposed method outperforms state-of-the-art continual learning methods in terms of memory capacity and prediction accuracy. さらに,実産業応用におけるDMSHMの顕著な実践性を示した。

Predictive Autoscaling is used to forecast the workloads of servers and prepare the resources in advance to ensure service level objectives (SLOs) in dynamic cloud environments.However, in practice, its prediction task often suffers from performance degradation under abnormal traffics caused by external events (such as sales promotional activities and applications' re-configurations), for which a common solution is to re-train the model with data of a long historical period, but at the expense of high computational and storage costs.To better address this problem, we propose a replay-based continual learning method, i.e., Density-based Memory Selection and Hint-based Network Learning Model (DMSHM), using only a small part of the historical log to achieve accurate predictions.First, we discover the phenomenon of sample overlap when applying replay-based continual learning in prediction tasks. In order to surmount this challenge and effectively integrate new sample distribution, we propose a density-based sample selection strategy that utilizes kernel density estimation to calculate sample density as a reference to compute sample weight, and employs weight sampling to construct a new memory set.Then we implement hint-based network learning based on hint representation to optimize the parameters.Finally, we conduct experiments on public and industrial datasets to demonstrate that our proposed method outperforms state-of-the-art continual learning methods in terms of memory capacity and prediction accuracy. Furthermore, we demonstrate remarkable practicability of DMSHM in real industrial applications.
翻訳日:2023-08-01 18:34:24 公開日:2023-07-29
# 言語モデルにおける複雑なスキルの創出の理論

A Theory for Emergence of Complex Skills in Language Models ( http://arxiv.org/abs/2307.15936v1 )

ライセンス: Link先を確認
Sanjeev Arora, Anirudh Goyal(参考訳) 今日のAI製品の主要な要因は、パラメータセットとトレーニングコーパスのスケールアップ時に、言語モデルに新たなスキルが現れることだ。 この現象はよく理解されておらず、勾配に基づくトレーニングの数学的解析による力学的な説明は困難である。 本論文は,LSMの有名な(かつ実証的な)スケーリング法則と単純な統計的枠組みを用いて,出現を解析し,異なるアプローチをとる。 貢献は以下の通り。 (a)LLMのクロスエントロピー損失を言語課題の根底にある基本的なスキルの能力に関連付ける統計的枠組み。 (b)スケーリング法則は、事前学習モデルが非常に効率的に学習できる誘導バイアスの強い形を意味することを示す数学的解析。 これを非公式に「em slingshot generalization」と呼ぶが、これは通常の一般化理論に違反するスキルの能力レベルを与えると見なされているからである。 (c)スリングショットの一般化の鍵となる例は、基本スキルそのものの能力と同じスケーリングと同等の速度で、$k$-tuplesのスキルを含むタスクを実行する能力が現われることである。

A major driver of AI products today is the fact that new skills emerge in language models when their parameter set and training corpora are scaled up. This phenomenon is poorly understood, and a mechanistic explanation via mathematical analysis of gradient-based training seems difficult. The current paper takes a different approach, analysing emergence using the famous (and empirical) Scaling Laws of LLMs and a simple statistical framework. Contributions include: (a) A statistical framework that relates cross-entropy loss of LLMs to competence on the basic skills that underlie language tasks. (b) Mathematical analysis showing that the Scaling Laws imply a strong form of inductive bias that allows the pre-trained model to learn very efficiently. We informally call this {\em slingshot generalization} since naively viewed it appears to give competence levels at skills that violate usual generalization theory. (c) A key example of slingshot generalization, that competence at executing tasks involving $k$-tuples of skills emerges essentially at the same scaling and same rate as competence on the elementary skills themselves.
翻訳日:2023-08-01 18:34:06 公開日:2023-07-29
# 免疫レパートリー分類と疾患関連免疫受容体配列同定のためのノイズラベル学習式

A Noisy-Label-Learning Formulation for Immune Repertoire Classification and Disease-Associated Immune Receptor Sequence Identification ( http://arxiv.org/abs/2307.15934v1 )

ライセンス: Link先を確認
Mingcai Chen, Yu Zhao, Zhonghuang Wang, Bing He and Jianhua Yao(参考訳) 免疫レパートリー分類(Immune repertoire classification)は、典型的なマルチインスタンス学習(MIL)問題であり、新しいワクチンや免疫療法に転換的な貢献をする計算生物学におけるフロンティア研究のトピックである。 しかし、バッグレベルのラベルを直接インスタンスに割り当てる従来のインスタンススペースMILは、大量のノイズラベルと極めて低い目撃率に悩まされている。 そこで本研究では,免疫レパートリー分類課題を解決するためのノイズラベル学習定式化を提案する。 シーケンスレベルの分類器に対して,レパートリーレベルのラベルを不正確な監視を行うために,ロバストなトレーニング戦略を設計する: 初期ラベルは非対称に滑らか化され,トレーニングプロセスを通じてモデルの予測を用いて徐々に修正される。 さらに、同一アーキテクチャであるがパラメータの初期化が異なる2つのモデルが同時に訓練され、自己学習型スキーマにおける既知の「確認バイアス」問題を修復する。 その結果、正確なシーケンスレベルの分類と、その後にレパートリーレベルの分類が得られる。 ケトメガロウイルス(CMV)および癌データセットを用いた実験は, シークエンスレベルおよびレパートリーレベルの課題に対する方法の有効性と優れた性能を示す。

Immune repertoire classification, a typical multiple instance learning (MIL) problem, is a frontier research topic in computational biology that makes transformative contributions to new vaccines and immune therapies. However, the traditional instance-space MIL, directly assigning bag-level labels to instances, suffers from the massive amount of noisy labels and extremely low witness rate. In this work, we propose a noisy-label-learning formulation to solve the immune repertoire classification task. To remedy the inaccurate supervision of repertoire-level labels for a sequence-level classifier, we design a robust training strategy: The initial labels are smoothed to be asymmetric and are progressively corrected using the model's predictions throughout the training process. Furthermore, two models with the same architecture but different parameter initialization are co-trained simultaneously to remedy the known "confirmation bias" problem in the self-training-like schema. As a result, we obtain accurate sequence-level classification and, subsequently, repertoire-level classification. Experiments on the Cytomegalovirus (CMV) and Cancer datasets demonstrate our method's effectiveness and superior performance on sequence-level and repertoire-level tasks.
翻訳日:2023-08-01 18:33:47 公開日:2023-07-29
# RGB-D-Fusion:画像条件付きヒューマノイドの深度拡散

RGB-D-Fusion: Image Conditioned Depth Diffusion of Humanoid Subjects ( http://arxiv.org/abs/2307.15988v1 )

ライセンス: Link先を確認
Sascha Kirch (1), Valeria Olyunina (2), Jan Ond\v{r}ej (2), Rafael Pag\'es (2), Sergio Martin (1), Clara P\'erez-Molina (1) ((1) UNED - Universidad Nacional de Educaci\'on a Distancia, Madrid, Spain, (2) Volograms ltd, Dublin, Ireland)(参考訳) RGB-D-Fusionは,ヒューマノイドの低分解能単分子RGB画像から高分解能深度マップを生成するマルチモーダル条件付き拡散確率モデルである。 RGB-D-Fusionは、まず、画像条件付きデノナイズ拡散確率モデルを用いて低分解能深度マップを生成し、次いで低分解能RGB-D画像に条件付き第2のデノナイズ拡散確率モデルを用いて深度マップを増幅する。 さらに,超高分解能モデルのロバスト性を高めるため,新しい拡張手法であるディープノイズ増強手法を導入する。

We present RGB-D-Fusion, a multi-modal conditional denoising diffusion probabilistic model to generate high resolution depth maps from low-resolution monocular RGB images of humanoid subjects. RGB-D-Fusion first generates a low-resolution depth map using an image conditioned denoising diffusion probabilistic model and then upsamples the depth map using a second denoising diffusion probabilistic model conditioned on a low-resolution RGB-D image. We further introduce a novel augmentation technique, depth noise augmentation, to increase the robustness of our super-resolution model.
翻訳日:2023-08-01 18:28:58 公開日:2023-07-29
# 半監督型医用画像分類のためのクラス別分布アライメント

Class-Specific Distribution Alignment for Semi-Supervised Medical Image Classification ( http://arxiv.org/abs/2307.15987v1 )

ライセンス: Link先を確認
Zhongzheng Huang, Jiawei Wu, Tao Wang, Zuoyong Li, Anastasia Ioannou(参考訳) 深層ニューラルネットワークが医療画像分類に成功しても,データアノテーションは時間を要する上に,疾患の相対的不足によりクラス分布が不均衡であるため,課題は残る。 そこで本研究では,高度に不均衡なデータセットから学ぶのに適した自己学習に基づく半教師付き学習フレームワークであるクラス固有分布アライメント(csda)を提案する。 具体的には,まず分布のアライメントに対する新たな視点として,その過程を辺縁予測によるベクトル空間の基底の変化として考慮し,次にCSDAを導出し,ラベル付きデータとラベルなしデータの両方でクラス依存の辺縁予測を捕捉し,多数クラスへの偏りを避ける。 さらに,各クラスに対して比例バランスの取れないサンプル数を維持するための可変条件キュー(vcq)モジュールを提案する。 ham10000, chexpert, kvasirの3つの公開データセットにおける実験により, 半教師あり皮膚疾患, 胸部疾患, 内視鏡的画像分類課題において, 競合する性能が得られた。

Despite the success of deep neural networks in medical image classification, the problem remains challenging as data annotation is time-consuming, and the class distribution is imbalanced due to the relative scarcity of diseases. To address this problem, we propose Class-Specific Distribution Alignment (CSDA), a semi-supervised learning framework based on self-training that is suitable to learn from highly imbalanced datasets. Specifically, we first provide a new perspective to distribution alignment by considering the process as a change of basis in the vector space spanned by marginal predictions, and then derive CSDA to capture class-dependent marginal predictions on both labeled and unlabeled data, in order to avoid the bias towards majority classes. Furthermore, we propose a Variable Condition Queue (VCQ) module to maintain a proportionately balanced number of unlabeled samples for each class. Experiments on three public datasets HAM10000, CheXpert and Kvasir show that our method provides competitive performance on semi-supervised skin disease, thoracic disease, and endoscopic image classification tasks.
翻訳日:2023-08-01 18:28:45 公開日:2023-07-29
# ブーストモデルを用いた意思決定木モデルによる車両価格予測

Vehicle Price Prediction By Aggregating decision tree model With Boosting Model ( http://arxiv.org/abs/2307.15982v1 )

ライセンス: Link先を確認
Auwal Tijjani Amshi(参考訳) 使用済み車両の価格を予測することは、多くのユーザーにとってより興味深く必要な問題だ。 正確な予測のために考慮すべき属性の数が多いため、車両価格の予測は難しい課題である。 予測プロセスにおける大きなステップは、データの収集と事前処理である。 このプロジェクトでは、機械学習アルゴリズムの不要なノイズを避けるために、データの標準化、標準化、クリーン化のためにpythonスクリプトが構築された。 このプロジェクトで使用されるデータセットは、異なる予測手法を用いて同様の研究を行う際に非常に有用である。 データセットに基づいて多くの仮定がなされた。 提案システムでは,決定木モデルとグラディエントブースティング予測モデルを用いて,他のモデルと組み合わせて精度の高い予測を行うとともに,提案モデルの評価を行い,有望な性能を示す。 同じデータセットの助けを借りた中古車の将来の価格予測は、異なるモデルから構成される。

Predicting the price of used vehicles is a more interesting and needed problem by many users. Vehicle price prediction can be a challenging task due to the high number of attributes that should be considered for accurate prediction. The major step in the prediction process is the collection and pre-processing of the data. In this project, python scripts were built to normalize, standardize, and clean data to avoid unnecessary noise for machine learning algorithms. The data set used in this project can be very valuable in conducting similar research using different prediction techniques. Many assumptions were made on the basis of the data set. The proposed system uses a Decision tree model and Gradient boosting predictive model, which are combined in other to get closed to accurate prediction, the proposed model was evaluated and it gives a promising performance. The future price prediction of used vehicles with the help of the same data set will comprise different models.
翻訳日:2023-08-01 18:28:22 公開日:2023-07-29
# GaitASMS:適応型空間表現とマルチスケール時間集約による歩行認識

GaitASMS: Gait Recognition by Adaptive Structured Spatial Representation and Multi-Scale Temporal Aggregation ( http://arxiv.org/abs/2307.15981v1 )

ライセンス: Link先を確認
Yan Sun, Hu Long, Xueling Feng, and Mark Nixon(参考訳) 歩行認識は、最も有望なビデオベースのバイオメトリック技術の一つである。 シルエットと動きの端は最も有意義な特徴であり、以前の研究ではこれらを別々に探索し、顕著な結果を得た。 しかし、咬合や視角の変化により、その歩行認識性能は予め定義された空間分割戦略に影響されることが多い。 さらに、伝統的な時間プールは通常、歩行において特有の時間情報を無視する。 上記の課題に対処するため,GaitASMSと呼ばれる新しい歩行認識フレームワークを提案し,適応型空間表現を効果的に抽出し,マルチスケールの時間情報を自然に集約する。 アダプティブ構造化表現抽出モジュール(ASRE)は、適応エッジマスクを用いてシルエットのエッジを分離し、セマンティック潜在空間における表現を最大化する。 さらに、msta(multi-scale temporal aggregation module)は、時間集約構造による長短時間情報の効果的なモデリングを実現する。 さらに, 長期閉塞のサンプル空間を豊かにし, モデルの一般化を促進するために, ランダムマスクと呼ばれる新しいデータ拡張法を提案する。 2つのデータセットで実施された大規模な実験は、特に複雑なシーン(BGとCL)において提案手法の競争上の優位性を示す。 CASIA-Bデータセットでは、GaitASMSは平均93.5\%の精度を達成し、BGとCLでそれぞれランク1の精度を3.4\%と6.3\%で上回る。 アブレーション実験はASREとMSTAの有効性を示した。

Gait recognition is one of the most promising video-based biometric technologies. The edge of silhouettes and motion are the most informative feature and previous studies have explored them separately and achieved notable results. However, due to occlusions and variations in viewing angles, their gait recognition performance is often affected by the predefined spatial segmentation strategy. Moreover, traditional temporal pooling usually neglects distinctive temporal information in gait. To address the aforementioned issues, we propose a novel gait recognition framework, denoted as GaitASMS, which can effectively extract the adaptive structured spatial representations and naturally aggregate the multi-scale temporal information. The Adaptive Structured Representation Extraction Module (ASRE) separates the edge of silhouettes by using the adaptive edge mask and maximizes the representation in semantic latent space. Moreover, the Multi-Scale Temporal Aggregation Module (MSTA) achieves effective modeling of long-short-range temporal information by temporally aggregated structure. Furthermore, we propose a new data augmentation, denoted random mask, to enrich the sample space of long-term occlusion and enhance the generalization of the model. Extensive experiments conducted on two datasets demonstrate the competitive advantage of proposed method, especially in complex scenes, i.e. BG and CL. On the CASIA-B dataset, GaitASMS achieves the average accuracy of 93.5\% and outperforms the baseline on rank-1 accuracies by 3.4\% and 6.3\%, respectively, in BG and CL. The ablation experiments demonstrate the effectiveness of ASRE and MSTA.
翻訳日:2023-08-01 18:28:09 公開日:2023-07-29
# 模倣学習における初期状態介入

Initial State Interventions for Deconfounded Imitation Learning ( http://arxiv.org/abs/2307.15980v1 )

ライセンス: Link先を確認
Samuel Pfrommer, Yatong Bai, Hyunin Lee, Somayeh Sojoudi(参考訳) 模倣学習は因果的混乱に苦しむ。 この現象は、学習されたポリシーが専門家の行動に因果的に影響を与えず、代わりに急激な相関関係にある特徴に出席するときに起こる。 因果的に混乱したエージェントは、低いオープンループ制御損失を生じるが、デプロイ時にクローズループ性能は低下する。 我々は,観察空間の異方性表現において観察者共起者をマスキングする問題を考える。 提案するマスキングアルゴリズムは,初期システム状態における通常の介入機能を活用し,エキスパートクエリや専門家報酬関数,因果グラフ仕様といった要件を回避する。 特定の仮定の下では、このアルゴリズムは専門家に因果的に影響を及ぼす観察を誤って隠蔽しないという意味で保守的であることを理論的に証明する。 マスキングアルゴリズムは、cartopole と reacher の2つの図式制御系の動作クローニングに適用される。

Imitation learning suffers from causal confusion. This phenomenon occurs when learned policies attend to features that do not causally influence the expert actions but are instead spuriously correlated. Causally confused agents produce low open-loop supervised loss but poor closed-loop performance upon deployment. We consider the problem of masking observed confounders in a disentangled representation of the observation space. Our novel masking algorithm leverages the usual ability to intervene in the initial system state, avoiding any requirement involving expert querying, expert reward functions, or causal graph specification. Under certain assumptions, we theoretically prove that this algorithm is conservative in the sense that it does not incorrectly mask observations that causally influence the expert; furthermore, intervening on the initial state serves to strictly reduce excess conservatism. The masking algorithm is applied to behavior cloning for two illustrative control systems: CartPole and Reacher.
翻訳日:2023-08-01 18:27:27 公開日:2023-07-29
# 周波数領域における生成モデルの指紋

Fingerprints of Generative Models in the Frequency Domain ( http://arxiv.org/abs/2307.15977v1 )

ライセンス: Link先を確認
Tianyun Yang, Juan Cao, Danding Wang, Chang Xu(参考訳) 既存の研究では、CNNベースの生成モデルは生成された画像にユニークな指紋を残すことが確認されている。 生成モデルでどのように形成されるかは分析されていない。 周波数領域のネットワーク成分を解釈し,周波数分布とスペクトルに現れる格子状パターンの相違点を導出する。 これらの知見を利用して低コストな合成モデルを開発し、実際の生成モデルで観測される周波数パターンをエミュレートする画像を生成する。 得られた指紋抽出装置は,GAN,VAE,フロー,拡散などの実際のCNNベース生成モデルの検証,識別,解析において,優れた転写性を示す。

It is verified in existing works that CNN-based generative models leave unique fingerprints on generated images. There is a lack of analysis about how they are formed in generative models. Interpreting network components in the frequency domain, we derive sources for frequency distribution and grid-like pattern discrepancies exhibited on the spectrum. These insights are leveraged to develop low-cost synthetic models, which generate images emulating the frequency patterns observed in real generative models. The resulting fingerprint extractor pre-trained on synthetic data shows superior transferability in verifying, identifying, and analyzing the relationship of real CNN-based generative models such as GAN, VAE, Flow, and diffusion.
翻訳日:2023-08-01 18:27:02 公開日:2023-07-29
# ブロックチェーンによる医療メタバースのための連合学習:最適なデータフレッシュネスを持つユーザ中心のインセンティブメカニズム

Blockchain-empowered Federated Learning for Healthcare Metaverses: User-centric Incentive Mechanism with Optimal Data Freshness ( http://arxiv.org/abs/2307.15975v1 )

ライセンス: Link先を確認
Jiawen Kang, Jinbo Wen, Dongdong Ye, Bingkun Lai, Tianhao Wu, Zehui Xiong, Jiangtian Nie, Dusit Niyato, Yang Zhang, Shengli Xie(参考訳) メタバースの革命的な役割を考えると、医療のメタバースは変革的な力として現れ、没入的でパーソナライズされたサービスを提供するインテリジェントな医療システムを生み出している。 医療メタバースは、ユーザに効果的な意思決定とデータ分析を可能にする。 しかし、機密データ漏洩のリスクやデータセキュリティやフレッシュネスのセンシングの問題、データ共有のインセンティブに関する懸念など、医療メタバースの構築には依然として重大な課題がある。 本稿では,医療メタバースのための分散フェデレーション学習(fl)に基づく,ユーザ中心のプライバシー保護フレームワークをまず設計する。 医療メタバースのプライバシー保護をさらに改善するために、クロスチェーン強化FLフレームワークを使用して、センシングデータセキュリティを強化する。 このフレームワークは、メインチェーンと複数のサブチェーンを備えた階層的なクロスチェーンアーキテクチャを使用して、仮想空間と物理空間の両方で、分散、プライバシ保存、セキュアなデータトレーニングを実行する。 さらに,情報時代(AoI)を有効データ更新指標として利用し,ユーザ中心のセンシングデータ共有を動機付けるために,プロスペクト理論(PT)に基づくAoIベースの契約理論モデルを提案する。 このモデルは、ptを利用してサービスプロバイダの主観的なユーティリティをよりよく捉えます。 最後に,医療メタバースにおける提案手法の有効性を数値的に検証した。

Given the revolutionary role of metaverses, healthcare metaverses are emerging as a transformative force, creating intelligent healthcare systems that offer immersive and personalized services. The healthcare metaverses allow for effective decision-making and data analytics for users. However, there still exist critical challenges in building healthcare metaverses, such as the risk of sensitive data leakage and issues with sensing data security and freshness, as well as concerns around incentivizing data sharing. In this paper, we first design a user-centric privacy-preserving framework based on decentralized Federated Learning (FL) for healthcare metaverses. To further improve the privacy protection of healthcare metaverses, a cross-chain empowered FL framework is utilized to enhance sensing data security. This framework utilizes a hierarchical cross-chain architecture with a main chain and multiple subchains to perform decentralized, privacy-preserving, and secure data training in both virtual and physical spaces. Moreover, we utilize Age of Information (AoI) as an effective data-freshness metric and propose an AoI-based contract theory model under Prospect Theory (PT) to motivate sensing data sharing in a user-centric manner. This model exploits PT to better capture the subjective utility of the service provider. Finally, our numerical results demonstrate the effectiveness of the proposed schemes for healthcare metaverses.
翻訳日:2023-08-01 18:26:41 公開日:2023-07-29
# 個人化フェデレーション学習のバックドア化

You Can Backdoor Personalized Federated Learning ( http://arxiv.org/abs/2307.15971v1 )

ライセンス: Link先を確認
Tiandi Ye, Cen Chen, Yinggui Wang, Xiang Li and Ming Gao(参考訳) バックドア攻撃は、連合学習システムのセキュリティに重大な脅威をもたらす。 しかし、既存の研究は主に、すべてのクライアントが単一のグローバルモデルをトレーニングするために協力する一般的なFLシナリオにおけるバックドア攻撃と防御に焦点を当てている。 \citet{qin2023revisiting}は、各クライアントがそのローカルデータに基づいてパーソナライズされたモデルを構築する、パーソナライズされたフェデレーション学習(pFL)シナリオにおけるバックドアアタックの最初の研究を行う。 この研究は、部分的なモデル共有を伴うpFL法がバックドア攻撃に対するロバスト性を著しく向上させることを示した。 本稿では, 部分的モデル共有を伴うpFL法は, 防御がない場合にも, バックドア攻撃に対して脆弱であることを示す。 本稿では,BapFL,BapFL+,Gen-BapFLの3つのバックドア攻撃手法を提案する。 特に、bapflの重要な原則は、グローバルパラメータにバックドアを埋め込みながらクリーンなローカルパラメータを維持することである。 bapfl+は、ローカルパラメータにガウスノイズを導入することで、良性クライアントへの攻撃成功を一般化する。 さらに、悪意のあるクライアントの協力を前提として、メタ学習技術を活用して攻撃一般化をさらに強化するGen-BapFLを提案する。 モデル共有を部分的に行う2つの古典的pFL手法であるFedPerとLG-FedAvgに対する攻撃手法の評価を行った。 4つのFLベンチマークデータセットに対する大規模な実験により,提案手法の有効性が示された。 さらに,提案する攻撃に対する各種防御戦略の防御効果を評価し,勾配ノルムクリッピングが特に有効であることを見出した。 pfl法はバックドア攻撃の有無で常に安全とは限らないので、pflシナリオにおける攻撃と防御に関するさらなる研究を刺激したい。

Backdoor attacks pose a significant threat to the security of federated learning systems. However, existing research primarily focuses on backdoor attacks and defenses within the generic FL scenario, where all clients collaborate to train a single global model. \citet{qin2023revisiting} conduct the first study of backdoor attacks in the personalized federated learning (pFL) scenario, where each client constructs a personalized model based on its local data. Notably, the study demonstrates that pFL methods with partial model-sharing can significantly boost robustness against backdoor attacks. In this paper, we whistleblow that pFL methods with partial model-sharing are still vulnerable to backdoor attacks in the absence of any defense. We propose three backdoor attack methods: BapFL, BapFL+, and Gen-BapFL, and we empirically demonstrate that they can effectively attack the pFL methods. Specifically, the key principle of BapFL lies in maintaining clean local parameters while implanting the backdoor into the global parameters. BapFL+ generalizes the attack success to benign clients by introducing Gaussian noise to the local parameters. Furthermore, we assume the collaboration of malicious clients and propose Gen-BapFL, which leverages meta-learning techniques to further enhances attack generalization. We evaluate our proposed attack methods against two classic pFL methods with partial model-sharing, FedPer and LG-FedAvg. Extensive experiments on four FL benchmark datasets demonstrate the effectiveness of our proposed attack methods. Additionally, we assess the defense efficacy of various defense strategies against our proposed attacks and find that Gradient Norm-Clipping is particularly effective. It is crucial to note that pFL method is not always secure in the presence of backdoor attacks, and we hope to inspire further research on attack and defense in pFL scenarios.
翻訳日:2023-08-01 18:26:09 公開日:2023-07-29
# 帰納的ノード表現学習のためのグラフ凝縮

Graph Condensation for Inductive Node Representation Learning ( http://arxiv.org/abs/2307.15967v1 )

ライセンス: Link先を確認
Xinyi Gao, Tong Chen, Yilong Zang, Wentao Zhang, Quoc Viet Hung Nguyen, Kai Zheng, Hongzhi Yin(参考訳) グラフニューラルネットワーク(GNN)は、大規模グラフを扱う際に重大な計算上の問題に直面する。 この制限に対処するために、グラフ凝縮は、性能を維持しながら効率よくGNNを訓練する小さな合成グラフを構築する、有望な手法として登場した。 しかし、ノード間のトポロジ構造のため、グラフの凝縮は観測されたトレーニングノードとその対応する構造のみを凝縮することに制限され、不明瞭なデータを効果的に処理する能力に欠ける。 したがって、元の大きなグラフは推論段階でも帰納的ノードへのメッセージ転送を実行するために必要であり、結果としてかなりの計算量が必要となる。 そこで本研究では,従来のノードから合成ノードへの一対多のノードマッピングを明示的に学習し,新しいノードを合成グラフにシームレスに統合して帰納的表現学習を行う。 これにより、元の大きなグラフよりもずっと効率的である合成グラフ上での直接情報伝達が可能になる。 具体的には、mcondはトランスダクティブとインダクティブの観点から革新的な損失項を持つ交互最適化スキームを採用し、グラフ凝縮とノードマッピング学習の相互促進を促進する。 インダクティブ推論におけるアプローチの有効性を実証した。 redditデータセットでは、mcondは最大121.5倍の推論スピードアップと55.9倍のストレージ要件の削減を実現している。

Graph neural networks (GNNs) encounter significant computational challenges when handling large-scale graphs, which severely restricts their efficacy across diverse applications. To address this limitation, graph condensation has emerged as a promising technique, which constructs a small synthetic graph for efficiently training GNNs while retaining performance. However, due to the topology structure among nodes, graph condensation is limited to condensing only the observed training nodes and their corresponding structure, thus lacking the ability to effectively handle the unseen data. Consequently, the original large graph is still required in the inference stage to perform message passing to inductive nodes, resulting in substantial computational demands. To overcome this issue, we propose mapping-aware graph condensation (MCond), explicitly learning the one-to-many node mapping from original nodes to synthetic nodes to seamlessly integrate new nodes into the synthetic graph for inductive representation learning. This enables direct information propagation on the synthetic graph, which is much more efficient than on the original large graph. Specifically, MCond employs an alternating optimization scheme with innovative loss terms from transductive and inductive perspectives, facilitating the mutual promotion between graph condensation and node mapping learning. Extensive experiments demonstrate the efficacy of our approach in inductive inference. On the Reddit dataset, MCond achieves up to 121.5x inference speedup and 55.9x reduction in storage requirements compared with counterparts based on the original graph.
翻訳日:2023-08-01 18:25:35 公開日:2023-07-29
# マトリックス補正による推薦学習

Recommendation Unlearning via Matrix Correction ( http://arxiv.org/abs/2307.15960v1 )

ライセンス: Link先を確認
Jiahao Liu, Dongsheng Li, Hansu Gu, Tun Lu, Jiongran Wu, Peng Zhang, Li Shang, Ning Gu(参考訳) レコメンダシステムは、ユーザにパーソナライズされたサービスを提供するために重要であるが、収集された膨大な量のユーザデータは、プライバシ(機密データなど)、セキュリティ(悪意のあるデータなど)、ユーティリティ(有害データなど)に関する懸念を引き起こしている。 これらの課題に対処するため、レコメンデーションアンラーニングは有望なアプローチとして現れ、特定のデータやモデルを忘れることを可能にし、センシティブ/悪意/有害なユーザデータのリスクを軽減する。 しかし、既存の手法は完全性、実用性、効率のバランスをとるのに苦労することが多い。 本稿では,非学習を推奨するためのインタラクション・マッピング・マトリクス補正(IMCorrect)手法を提案する。 まず,多くのコラボレーティブ・フィルタリング(CF)アルゴリズムをマッピングベースのアプローチとして定式化できることを明らかにする。 そして、IMCorrectは、相互作用行列を補正し、マッピング行列を補正することで、全てコストのかかるモデル再訓練なしに、効率よく非学習を実現することができる。 既存のメソッドとは異なり、IMCorrectはホワイトボックスモデルであり、さまざまなレコメンデーションアンラーニングシナリオを扱う際の柔軟性を提供する。 さらに、新しいデータから漸進的に学習するユニークな能力があり、実用性をさらに向上します。 誤りの有効性を検証するため,総合的な実験を行い,不正確性は完全性,実用性,効率において優れており,多くのレコメンデーション未学習シナリオに適用できることを示した。

Recommender systems are important for providing personalized services to users, but the vast amount of collected user data has raised concerns about privacy (e.g., sensitive data), security (e.g., malicious data) and utility (e.g., toxic data). To address these challenges, recommendation unlearning has emerged as a promising approach, which allows specific data and models to be forgotten, mitigating the risks of sensitive/malicious/toxic user data. However, existing methods often struggle to balance completeness, utility, and efficiency, i.e., compromising one for the other, leading to suboptimal recommendation unlearning. In this paper, we propose an Interaction and Mapping Matrices Correction (IMCorrect) method for recommendation unlearning. Firstly, we reveal that many collaborative filtering (CF) algorithms can be formulated as mapping-based approach, in which the recommendation results can be obtained by multiplying the user-item interaction matrix with a mapping matrix. Then, IMCorrect can achieve efficient recommendation unlearning by correcting the interaction matrix and enhance the completeness and utility by correcting the mapping matrix, all without costly model retraining. Unlike existing methods, IMCorrect is a whitebox model that offers greater flexibility in handling various recommendation unlearning scenarios. Additionally, it has the unique capability of incrementally learning from new data, which further enhances its practicality. We conducted comprehensive experiments to validate the effectiveness of IMCorrect and the results demonstrate that IMCorrect is superior in completeness, utility, and efficiency, and is applicable in many recommendation unlearning scenarios.
翻訳日:2023-08-01 18:25:04 公開日:2023-07-29
# 開放型量子バッテリの速度調整による性能向上

Enhancing the performance of an open quantum battery by adjusting its velocity ( http://arxiv.org/abs/2307.16006v1 )

ライセンス: Link先を確認
B. Mojaveri, R. Jafarzadeh Bahrbeig, M. A. Fasihi, and S. Babanzadeh(参考訳) オープン量子電池(QB)の性能は、周囲環境との相互作用によりデコヒーレンスにより著しく制限される。 したがって、充電プロセスのデコヒーレンスに対する保護は、QBを実現する上で非常に重要である。 本研究では,qubit-battery と qubit-charger からなる qubit-based open qb の帯電プロセスを開発し,各qubit が独立したキャビティ貯水池内を移動する問題に対処する。 その結果、マルコフ力学と非マルコフ力学の両方において、充電エネルギー、効率、エルゴトロピーといった充電特性は、充電器とバッテリキュービットの速度を増大させ、定期的に増加することがわかった。 興味深いことに、充電器とバッテリがより高い速度で移動すると、充電器の初期エネルギーはマルコフ力学のバッテリに完全に転送される。 この状況では、総蓄積エネルギーを長時間作業として抽出することが可能である。 その結果,オープン移動量子ビットシステムはロバストで信頼性の高いqbであり,実験的な実装に有望な候補であることがわかった。

The performance of open quantum batteries (QBs) is severely limited by decoherence due to the interaction with the surrounding environment. So, protecting the charging processes against decoherence is of great importance for realizing QBs. In this work we address this issue by developing a charging process of a qubit-based open QB composed of a qubit-battery and a qubit-charger, where each qubit moves inside an independent cavity reservoir. Our results show that, in both the Markovian and non-Markovian dynamics, the charging characteristics, including the charging energy, efficiency and ergotropy, regularly increase with increasing the speed of charger and battery qubits. Interestingly, when the charger and battery move with higher velocities, the initial energy of the charger is completely transferred to the battery in the Markovian dynamics. In this situation, it is possible to extract the total stored energy as work for a long time. Our findings show that open moving-qubit systems are robust and reliable QBs, thus making them a promising candidate for experimental implementations.
翻訳日:2023-08-01 18:16:43 公開日:2023-07-29
# 合成データ生成とトランスフォーマモデルを用いた古文書における物体検出の強化

Enhancing Object Detection in Ancient Documents with Synthetic Data Generation and Transformer-Based Models ( http://arxiv.org/abs/2307.16005v1 )

ライセンス: Link先を確認
Zahra Ziran, Francesco Leotta, Massimo Mecella(参考訳) 古代文書の研究は、我々の過去を垣間見ることができる。 しかし、これらの文書でよく見られる画像品質の低さと複雑な詳細は、正確な物体検出に重大な課題をもたらす。 本研究の目的は,偽陽性を低減し,精度を向上させることで,古文書の物体検出性を向上させることである。 そこで本研究では,画像特徴抽出のオブジェクト検出プロセスへの統合とともに,計算仲介による合成データセットの作成を含む手法を提案する。 我々のアプローチには、オブジェクトをコンポーネント部品に関連付け、異なるシンボルと文書要素を識別するための視覚的特徴マップを導入することが含まれる。 実験により, 改良された物体検出が古文書の分野に大きな影響を与え, 詳細な分析が可能となり, 貴重な歴史的遺物の理解が深まることを実証した。

The study of ancient documents provides a glimpse into our past. However, the low image quality and intricate details commonly found in these documents present significant challenges for accurate object detection. The objective of this research is to enhance object detection in ancient documents by reducing false positives and improving precision. To achieve this, we propose a method that involves the creation of synthetic datasets through computational mediation, along with the integration of visual feature extraction into the object detection process. Our approach includes associating objects with their component parts and introducing a visual feature map to enable the model to discern between different symbols and document elements. Through our experiments, we demonstrate that improved object detection has a profound impact on the field of Paleography, enabling in-depth analysis and fostering a greater understanding of these valuable historical artifacts.
翻訳日:2023-08-01 18:16:23 公開日:2023-07-29
# ツイスト幾何による量子熱機械の実現

Quantum heat machines enabled by twisted geometry ( http://arxiv.org/abs/2307.16001v1 )

ライセンス: Link先を確認
Cleverson Filgueiras, Moises Rojas, Edilberto O. Silva, Carlos Romero(参考訳) 本稿では,非相互作用型2次元電子ガスによって駆動されるオットーサイクル熱機械のねじれ形状に対する動作を解析する。 この構造上のエネルギー量子化と、ヘリコイドの単位長さ当たりの完全ねじれ数の断熱変換の両方により、出力作業、効率、動作モードの機械性能を変化させることができることを示す。 変形は, 圧縮されたか, 静止位置から伸びたばねの変形と考える。 古典的に認識不能なオットーマシンを非圧縮性サンプルで実現することも可能である。 システムのエネルギーレベルの間隔は、圧縮または伸張されている量である。 これらの特徴は、純粋な量子力学的起源である効果的な幾何誘起量子ポテンシャルの存在に起因する。

In this paper, we analyze the operation of an Otto cycle heat machine driven by a non-interacting two-dimensional electron gas on a twisted geometry. We show that due to both the energy quantization on this structure and the adiabatic transformation of the number of complete twists per unit length of a helicoid, the machine performance in terms of output work, efficiency, and operation mode can be altered. We consider the deformations as in a spring, which is either compressed or stretched from its resting position. The realization of classically inconceivable Otto machines with an incompressible sample can be realized as well. The energy-level spacing of the system is the quantity that is being either compressed or stretched. These features are due to the existence of an effective geometry-induced quantum potential which is of pure quantum-mechanical origin.
翻訳日:2023-08-01 18:16:09 公開日:2023-07-29
# ヒットフレーム検出のためのシャトルコック飛行方向予測用変圧器

Transformer on Shuttlecock Flying Direction Prediction for Hit-frame Detection ( http://arxiv.org/abs/2307.16000v1 )

ライセンス: Link先を確認
Yu-Hang Chien, Fang Yu(参考訳) スポーツ専門家は、常に最高水準での演奏を迫られているため、コーチや選手が手作業の労力を減らし、自動ツールを使用してパフォーマンスを体系的に評価できるスポーツ分析の恩恵を受けることができる。 本研究では,最新の深層学習技術を用いて,マッチビデオからヒットフレームを自動的に検出し,バドミントンにおけるスポーツ分析の進歩を目指す。 ヒットフレームに含まれるデータは、後にプレイヤーのストロークやオンコートの動きを合成したり、トレーニングタスクの分析や競争戦略などの下流のアプリケーションにも利用できる。 本研究で提案するアプローチは,ラリーワイズビデオトリミング,プレーヤとコートキーポイント検出,シャトルコック飛行方向予測,ヒットフレーム検出など,いくつかの自動手順を含む。 本研究では,映像トリミングにおけるショットアングル認識の精度99%,シャトルコック飛行方向予測におけるキーポイントシーケンスの適用精度92%以上を達成し,ラリーワイドビデオトリミングとヒットフレーム検出の評価結果を報告する。

Sports professionals constantly under pressure to perform at the highest level can benefit from sports analysis, which allows coaches and players to reduce manual efforts and systematically evaluate their performance using automated tools. This research aims to advance sports analysis in badminton, systematically detecting hit-frames automatically from match videos using modern deep learning techniques. The data included in hit-frames can subsequently be utilized to synthesize players' strokes and on-court movement, as well as for other downstream applications such as analyzing training tasks and competition strategy. The proposed approach in this study comprises several automated procedures like rally-wise video trimming, player and court keypoints detection, shuttlecock flying direction prediction, and hit-frame detection. In the study, we achieved 99% accuracy on shot angle recognition for video trimming, over 92% accuracy for applying player keypoints sequences on shuttlecock flying direction prediction, and reported the evaluation results of rally-wise video trimming and hit-frame detection.
翻訳日:2023-08-01 18:15:58 公開日:2023-07-29
# RoCar:大規模言語モデルに対する関係ネットワークに基づく評価手法

RoCar: A Relationship Network-based Evaluation Method to Large Language Models ( http://arxiv.org/abs/2307.15997v1 )

ライセンス: Link先を確認
Ming Wang, Wenfang Wu, Chongyun Gao, Daling Wang, Shi Feng and Yifei Zhang(参考訳) 大規模言語モデル(LLM)が注目されている。 しかし、その能力の複雑さのため、LLMの能力を合理的に評価する方法はまだ解決すべき課題である。 定義した基本スキーマを用いてタスクグラフをランダムに構築し、タスクグラフに基づいて自然言語評価タスクを生成し、LCMの推論と記憶能力をそれぞれ評価するRoCar法を提案する。 タスク構築プロセスの非常に大きなランダム性のため、テスト対象のllmが評価タスクを直接学習していないことを保証することができ、評価方法の公平性を保証することができる。

Large language models (LLMs) have received increasing attention. However, due to the complexity of its capabilities, how to rationally evaluate the capabilities of LLMs is still a task to be solved. We propose the RoCar method, which utilizes the defined basic schemas to randomly construct a task graph and generates natural language evaluation tasks based on the task graph to evaluate the reasoning and memory abilities of LLMs respectively. Due to the very large randomness of the task construction process, it is possible to ensure that none of the LLMs to be tested has directly learned the evaluation tasks, guaranteeing the fairness of the evaluation method.
翻訳日:2023-08-01 18:15:38 公開日:2023-07-29
# UPFL:新しい顧客に向けた教師なしの個人化フェデレーション学習

UPFL: Unsupervised Personalized Federated Learning towards New Clients ( http://arxiv.org/abs/2307.15994v1 )

ライセンス: Link先を確認
Tiandi Ye, Cen Chen, Yinggui Wang, Xiang Li and Ming Gao(参考訳) パーソナライズされた連合学習は、データの多様性の課題に対処するための有望なアプローチとして大きな注目を集めている。 本稿では,フェデレート学習における比較的未探索の問題に対処する。 フェデレーションモデルがトレーニングされ、デプロイされ、ラベルのない新しいクライアントが結合すると、新しいクライアントにパーソナライズされたモデルを提供することは、非常に難しいタスクになります。 この課題に対処するために,適応リスク最小化手法を教師なしの連合学習設定に拡張し,本手法であるfeedtaを提案する。 我々はさらに、プロキシ正規化による適応モデルのトレーニングの強化と、エントロピーによる適応の早期停止という、2つの単純かつ効果的な最適化戦略でFedTTAをさらに改善する。 さらに,デバイスの不均一性に対処するために,FedTTA向けに設計された知識蒸留損失を提案する。 提案したFedTTAとその変異体の有効性を示すため,11基に対する5つのデータセットの大規模な実験を行った。 コードはhttps://github.com/anonymous-federated-learning/codeで入手できる。

Personalized federated learning has gained significant attention as a promising approach to address the challenge of data heterogeneity. In this paper, we address a relatively unexplored problem in federated learning. When a federated model has been trained and deployed, and an unlabeled new client joins, providing a personalized model for the new client becomes a highly challenging task. To address this challenge, we extend the adaptive risk minimization technique into the unsupervised personalized federated learning setting and propose our method, FedTTA. We further improve FedTTA with two simple yet effective optimization strategies: enhancing the training of the adaptation model with proxy regularization and early-stopping the adaptation through entropy. Moreover, we propose a knowledge distillation loss specifically designed for FedTTA to address the device heterogeneity. Extensive experiments on five datasets against eleven baselines demonstrate the effectiveness of our proposed FedTTA and its variants. The code is available at: https://github.com/anonymous-federated-learning/code.
翻訳日:2023-08-01 18:15:28 公開日:2023-07-29
# 大規模言語モデルのためのコーディブルテキスト透かしに向けて

Towards Codable Text Watermarking for Large Language Models ( http://arxiv.org/abs/2307.15992v1 )

ライセンス: Link先を確認
Lean Wang, Wenkai Yang, Deli Chen, Hao Zhou, Yankai Lin, Fandong Meng, Jie Zhou, Xu Sun(参考訳) 大規模言語モデル (LLM) は, 流布度やリアリズムが増大するテキストを生成するため, LLM の悪用を防ぐために, テキストのソースを特定する必要性が高まっている。 テキスト透かし技術は、LLMによって生成されたテキストを、生成されたテキストに隠れたパターンを注入することによって区別する上で、信頼性が証明されている。 しかし,従来のLLMの透かし方式はエンコーディング非効率であり(LLMから生成されるか否かに関わらず1ビットの情報のみを含む),異なるLLMアプリケーションシナリオにおける多様な情報エンコーディングニーズ(モデルバージョン,生成時間,ユーザIDなど)を柔軟に満たすことができない。 本研究では,テキスト透かしがよりカスタマイズ可能な情報を運ぶことができるCTWL (Codable Text Watermarking for LLMs) に関する,最初の体系的研究を行う。 まず, LLM透かし技術の分類について検討し, CTWLの数学的定式化について述べる。 また,(1)透かし成功率,(2)各種腐敗に対するロバスト性,(3)ペイロード情報の符号化率,(4)符号化・復号効率,(5)生成されたテキストの品質への影響など,ctwlの総合評価システムを提供する。 これらの非パレート改善指標の要件を満たすために,情報エンコーディングのための利用可能かつ使用不能な語彙がほぼ同等の確率を持つことを保証する動機に基づいて,バランスマーキングというctwl手法を考案する。 既存の作業から拡張されたランダムな語彙分割と比較して、確率均衡な語彙分割は生成したテキストの品質を著しく向上させることができる。 広範な実験結果から,本手法は総合評価で直接ベースラインを上回った。

As large language models (LLMs) generate texts with increasing fluency and realism, there is a growing need to identify the source of texts to prevent the abuse of LLMs. Text watermarking techniques have proven reliable in distinguishing whether a text is generated by LLMs by injecting hidden patterns into the generated texts. However, we argue that existing watermarking methods for LLMs are encoding-inefficient (only contain one bit of information - whether it is generated from an LLM or not) and cannot flexibly meet the diverse information encoding needs (such as encoding model version, generation time, user id, etc.) in different LLMs application scenarios. In this work, we conduct the first systematic study on the topic of Codable Text Watermarking for LLMs (CTWL) that allows text watermarks to carry more customizable information. First of all, we study the taxonomy of LLM watermarking technology and give a mathematical formulation for CTWL. Additionally, we provide a comprehensive evaluation system for CTWL: (1) watermarking success rate, (2) robustness against various corruptions, (3) coding rate of payload information, (4) encoding and decoding efficiency, (5) impacts on the quality of the generated text. To meet the requirements of these non-Pareto-improving metrics, we devise a CTWL method named Balance-Marking, based on the motivation of ensuring that available and unavailable vocabularies for encoding information have approximately equivalent probabilities. Compared to the random vocabulary partitioning extended from the existing work, a probability-balanced vocabulary partition can significantly improve the quality of the generated text. Extensive experimental results have shown that our method outperforms a direct baseline under comprehensive evaluation.
翻訳日:2023-08-01 18:15:12 公開日:2023-07-29
# 不要なスクリプトのための分離したシーンテキスト検出器

Separate Scene Text Detector for Unseen Scripts is Not All You Need ( http://arxiv.org/abs/2307.15991v1 )

ライセンス: Link先を確認
Prateek Keserwani, Taveena Lotey, Rohit Keshari, and Partha Pratim Roy(参考訳) ワイルドなテキスト検出はよく知られた問題であり、複数のスクリプトを扱いながらより困難になる。 過去10年間で、いくつかのスクリプトが研究コミュニティの注目を集め、優れた検出性能を達成した。 しかし、深層学習に基づくテキスト検出を訓練するためのスクリプトの多くはローソースである。 新しいスクリプトの個別のトレーニングが必要か? シーンテキスト検出の分野では未検討のクエリである。 本稿では,この問題を認識し,トレーニング中に存在しないスクリプトを検知する手法を提案する。 この研究では、スクリプト間のテキスト検出を理解するために分析が行われており、一方でトレーニングされ、もう一方でテストされている。 テキストアノテーション(単語レベル/行レベル)の同一性が,文字横断検出において重要であることがわかった。 スクリプト間のテキストアノテーションの異なる性質は、クロススクリプトテキスト検出性能を低下させる。 さらに,未確認のスクリプト検出には,ベクトル埋め込みを用いてスクリプトカテゴリに対応するテキストのストローク情報をマッピングする。 提案手法は、ゼロショット設定下でよく知られた多言語シーンテキストデータセットを用いて検証する。 その結果,本手法が自然画像のスクリプト検出に有用であることが示唆された。

Text detection in the wild is a well-known problem that becomes more challenging while handling multiple scripts. In the last decade, some scripts have gained the attention of the research community and achieved good detection performance. However, many scripts are low-resourced for training deep learning-based scene text detectors. It raises a critical question: Is there a need for separate training for new scripts? It is an unexplored query in the field of scene text detection. This paper acknowledges this problem and proposes a solution to detect scripts not present during training. In this work, the analysis has been performed to understand cross-script text detection, i.e., trained on one and tested on another. We found that the identical nature of text annotation (word-level/line-level) is crucial for better cross-script text detection. The different nature of text annotation between scripts degrades cross-script text detection performance. Additionally, for unseen script detection, the proposed solution utilizes vector embedding to map the stroke information of text corresponding to the script category. The proposed method is validated with a well-known multi-lingual scene text dataset under a zero-shot setting. The results show the potential of the proposed method for unseen script detection in natural images.
翻訳日:2023-08-01 18:14:40 公開日:2023-07-29
# 拡散復元モデルを用いた超音波画像再構成

Ultrasound Image Reconstruction with Denoising Diffusion Restoration Models ( http://arxiv.org/abs/2307.15990v1 )

ライセンス: Link先を確認
Yuxin Zhang, Cl\'ement Huneau, J\'er\^ome Idier, Diana Mateus(参考訳) 超音波画像再構成は、伝統的に$l_1$または$l_2$ノルムを用いてペナルティ化最適化によって解決された線形逆問題やウェーブレットに基づく用語として、おおむねキャストされる。 しかし、そのような正規化関数は、しばしばスパーシリティと滑らかさのバランスをとるのに苦労する。 有望な代替手段は、学習前の知識を現実に近づけることである。 本稿では,DDRM(Denoising Diffusion Restoration Models, 拡散回復モデル)の枠組みを基礎として, 自然画像を用いた回復タスクを考案した。 本稿では,超音波逆問題モデルDRUSとWDRUSに対するDDRMの2つの適応性を提案する。 合成およびPICMUSデータを用いた実験により, 単平面波を用いて, DASや最先端手法に匹敵する画質が得られることが示された。 コードはhttps://github.com/yuxin-zhang-jasmine/drus-v1で入手できる。

Ultrasound image reconstruction can be approximately cast as a linear inverse problem that has traditionally been solved with penalized optimization using the $l_1$ or $l_2$ norm, or wavelet-based terms. However, such regularization functions often struggle to balance the sparsity and the smoothness. A promising alternative is using learned priors to make the prior knowledge closer to reality. In this paper, we rely on learned priors under the framework of Denoising Diffusion Restoration Models (DDRM), initially conceived for restoration tasks with natural images. We propose and test two adaptions of DDRM to ultrasound inverse problem models, DRUS and WDRUS. Our experiments on synthetic and PICMUS data show that from a single plane wave our method can achieve image quality comparable to or better than DAS and state-of-the-art methods. The code is available at: https://github.com/Yuxin-Zhang-Jasmine/DRUS-v1.
翻訳日:2023-08-01 18:14:26 公開日:2023-07-29
# 自動駆動のための自由空間光フローモデリング

Freespace Optical Flow Modeling for Automated Driving ( http://arxiv.org/abs/2307.15989v1 )

ライセンス: Link先を確認
Yi Feng, Ruge Zhang, Jiayuan Du, Qijun Chen, Rui Fan(参考訳) 光の流れと相違は、自律運転知覚の2つの視覚的特徴である。 これらは障害物やレーン検出など、さまざまな用途で使用されてきた。 U-V-Disparity」という概念は文献で広く研究されているが、光学的流れに匹敵する概念は比較的注目されていない。 従来の動き解析アルゴリズムは、環境情報と幾何学的制約の完全利用を制限する2つの連続したビデオフレーム間の対応によって光の流れを推定する。 そこで我々は,3次元駆動環境における形状情報を完全に活用して,衝突自由空間(乾燥可能な領域,あるいは単に自由空間とも呼ばれる)における光学的流れをモデル化する新しい手法を提案する。 我々は,光学フローの明示的な表現を提供し,光学フロー成分と垂直座標との二次関係を導出する。 いくつかの公開データセットに関する広範囲な実験を通じて,モデルの高精度と堅牢性を示す。 さらに,提案する自由空間オプティカルフローモデルは,自動運転分野における多様なアプリケーション群を誇示し,自由空間検出や車両のローカライゼーションなどにおいて幾何学的制約を与える。 ソースコードをhttps://mias.group/FSOF.comで公開しました。

Optical flow and disparity are two informative visual features for autonomous driving perception. They have been used for a variety of applications, such as obstacle and lane detection. The concept of "U-V-Disparity" has been widely explored in the literature, while its counterpart in optical flow has received relatively little attention. Traditional motion analysis algorithms estimate optical flow by matching correspondences between two successive video frames, which limits the full utilization of environmental information and geometric constraints. Therefore, we propose a novel strategy to model optical flow in the collision-free space (also referred to as drivable area or simply freespace) for intelligent vehicles, with the full utilization of geometry information in a 3D driving environment. We provide explicit representations of optical flow and deduce the quadratic relationship between the optical flow component and the vertical coordinate. Through extensive experiments on several public datasets, we demonstrate the high accuracy and robustness of our model. Additionally, our proposed freespace optical flow model boasts a diverse array of applications within the realm of automated driving, providing a geometric constraint in freespace detection, vehicle localization, and more. We have made our source code publicly available at https://mias.group/FSOF.
翻訳日:2023-08-01 18:14:07 公開日:2023-07-29
# 量子テレポーテーションによるmott絶縁体とpseudogap金属のアンシラ波動関数

Ancilla wavefunctions of Mott insulator and pseudogap metal through quantum teleportation ( http://arxiv.org/abs/2307.16038v1 )

ライセンス: Link先を確認
Boran Zhou and Ya-Hui Zhang(参考訳) 有限Uの弱モット状態は量子スピン液体を探すには素晴らしい領域であるが、スピン液体と電荷のゆらぎを捉える波動関数を記述することは困難である。 複雑なジャストロー因子を用いる従来の方法では、下層のスピン液体が非自明な射影対称性群(psg)を持つと困難になる。 この問題を解決するために、アシラ量子ビットを用いた量子テレポーテーションにより、モット絶縁体に対する新しいクラス波動関数を提供する。 我々は主にフェルミオンハバードモデルの半充填に焦点を当てている。 我々の波動関数における1つの変分パラメータ$\phi$がモット電荷ギャップを連続的にチューニングすることを証明する。 一般格子上では、$\phi=+\infty$ の波動関数は、慣れ親しんだgutzwiller射影波動関数を無限の u において回復することを示す: $\phi=\frac{u}{2}$ の波動関数は、大きな u 条件で期待されるように、逆シュリーファー・ウルフ変換を y/u$ の線型次数で適用することと同値である。 ゲージ理論の記述から、波動関数は局所化されたスピンモーメントを記述するスピノンセクタから分離された電子セクタを持つことが分かる。 電荷ギャップ $\delta_c$ は 2\phi$ であることが示され、波動関数は一般格子上の小さな電荷ギャップを持つレジームでうまく動作すると推測する。 テンソルネットワークを用いて波動関数を表現し、この予想を1次元で数値的に確認する。 数値的なパワーを超えて、アンシラ波動関数は帯域幅を調整した金属絶縁体遷移を理解するための新しい概念図を提供する。 この新しい枠組みでは、原則として通常のフェルミ液体とモット絶縁体の間の分数フェルミ液体(fl*)相の狭い領域が存在する可能性がある。

Weak Mott regime with finite U is a wonderful region to search for quantum spin liquid, but it is challenging to write down a wavefunction capturing both spin liquid and charge fluctuations. Conventional methods using complicated Jastrow factors have difficulties when the underlying spin liquid has a non-trivial projective symmetry group (PSG). To cure this problem, here we provide a new class wavefunction for Mott insulator through quantum teleportation using ancilla qubits. We primarily focus on half filling of the fermionic Hubbard model. We will prove that a single variation parameter $\Phi$ in our wavefunction tunes the Mott charge gap continuously. On a generic lattice, we show that the wavefunction at $\Phi=+\infty$ recovers the familiar Gutzwiller projectived wavefunction at infinite U. The wavefunction at $\Phi=\frac{U}{2}$ is equivalent to applying the inverse Schrieffer Wolff transformation at linear order of $t/U$, as expected in large but finite U regime. From a gauge theory description we can show that the wavefunction has an electronic sector decoupled from a spinon sector describing localized spin moments. The charge gap $\Delta_c$ can be shown to be $2\Phi$ and we conjecture that the wavefunction works well down to the regime with small charge gap on a generic lattice. We represent the wavefunction using tensor network and numerically confirm this conjecture in one dimension. Beyond the numerical power, the ancilla wavefunction also provides a new conceptual picture to understand the bandwidth tuned metal insulator transition. In this new framework, there can in principle exist a narrow region of fractional Fermi liquid (FL*) phase between the usual Fermi liquid and the Mott insulator, a scenario which is not captured by the conventional slave rotor theory and thus was usually outlooked.
翻訳日:2023-08-01 18:08:27 公開日:2023-07-29
# 機械学習を用いたスフィンゴシン1リン酸受容体1の結合親和性を高めた新規リガンドの開発

Developing novel ligands with enhanced binding affinity for the sphingosine 1-phosphate receptor 1 using machine learning ( http://arxiv.org/abs/2307.16037v1 )

ライセンス: Link先を確認
Colin Zhang, Yang Ha(参考訳) 多発性硬化症 (Multiple sclerosis, MS) は、米国の約100万人に影響を及ぼす神経疾患である。 スフィンゴシン-1-リン酸受容体1(s1pr1)は、s1pr1のリガンドであるシポニモドのタンパク質標的であり、2019年にfdaによってms治療のために承認された。 この目的のために、化学式を数式ベクトルに変換し、シポニモッドに基づいて500以上の分子変種を生成するオートエンコーダ機械学習モデルを微調整し、そのうち25の化合物がS1PR1に高い結合親和性を示した。 このモデルでは、これらのリガンドを1時間以内に生成することができた。 これらの化合物を濾過すると、薬のような性質と合成が容易な6つの候補が発見される。 さらに, これらのリガンドの結合相互作用の解析により, S1PR1への高結合親和性に寄与するいくつかの化学的性質を明らかにした。 本研究は、機械学習が創薬プロセスを加速し、タンパク質と薬物の相互作用に関する新たな知見を明らかにすることを実証する。

Multiple sclerosis (MS) is a debilitating neurological disease affecting nearly one million people in the United States. Sphingosine-1-phosphate receptor 1, or S1PR1, is a protein target for MS. Siponimod, a ligand of S1PR1, was approved by the FDA in 2019 for MS treatment, but there is a demonstrated need for better therapies. To this end, we finetuned an autoencoder machine learning model that converts chemical formulas into mathematical vectors and generated over 500 molecular variants based on siponimod, out of which 25 compounds had higher predicted binding affinity to S1PR1. The model was able to generate these ligands in just under one hour. Filtering these compounds led to the discovery of six promising candidates with good drug-like properties and ease of synthesis. Furthermore, by analyzing the binding interactions for these ligands, we uncovered several chemical properties that contribute to high binding affinity to S1PR1. This study demonstrates that machine learning can accelerate the drug discovery process and reveal new insights into protein-drug interactions.
翻訳日:2023-08-01 18:07:51 公開日:2023-07-29
# モンテカルロシミュレーションに基づくニューラル分類器

Neural Classifiers based Monte Carlo simulation ( http://arxiv.org/abs/2307.16035v1 )

ライセンス: Link先を確認
Elouan Argouarc'h, Fran\c{c}ois Desbouvries(参考訳) アクセプタンス・リジェクション (AR)、独立メトロポリス・ヘイスティングス (IMH) または重要サンプリング (IS) モンテカルロ (MC) シミュレーションアルゴリズムは全て確率密度関数 (pdfs) の計算比率を含む。 一方、分類器は混合密度モデル、すなわち2つのpdfの凸線形結合によって生成されたラベル付きサンプルを判別し、この2つの密度の比を近似するために使用できる。 このシミュレーションと分類手法の橋渡しにより、ラベル付きトレーニングデータセットからのみ構築されるpdf-ratiosに基づくシミュレーションアルゴリズムを提案することができる。

Acceptance-rejection (AR), Independent Metropolis Hastings (IMH) or importance sampling (IS) Monte Carlo (MC) simulation algorithms all involve computing ratios of probability density functions (pdfs). On the other hand, classifiers discriminate labellized samples produced by a mixture density model, i.e., a convex linear combination of two pdfs, and can thus be used for approximating the ratio of these two densities. This bridge between simulation and classification techniques enables us to propose (approximate) pdf-ratios-based simulation algorithms which are built only from a labellized training data set.
翻訳日:2023-08-01 18:07:32 公開日:2023-07-29
# ヨルダン・ウィグナー変換による魔法状態による量子計算のシミュレーション

Simulation of quantum computation with magic states via Jordan-Wigner transformations ( http://arxiv.org/abs/2307.16034v1 )

ライセンス: Link先を確認
Michael Zurel, Lawrence Z. Cohen and Robert Raussendorf(参考訳) ある準確率表現における否定性は、量子計算の利点にとって必要条件である。 ここでは、マジック状態モデルにおける量子計算に関して、この性質を示す新しい準確率表現を定義する。 これは一般化されたジョルダン・ウィグナー変換に基づいており、$\Lambda$ polytopes に基づく普遍量子計算の確率表現と密接な関係を持つ。 キュービットの数ごとに、共有頂点を持つ$\Lambda$ polytopeに含まれるポリトープを定義する。 これは、入力状態が正に表現されるマジック状態量子回路のための効率的な古典的シミュレーションアルゴリズムとなり、正に表現できる状態の観点で以前の表現よりも優れている。

Negativity in certain quasiprobability representations is a necessary condition for a quantum computational advantage. Here we define a new quasiprobability representation exhibiting this property with respect to quantum computations in the magic state model. It is based on generalized Jordan-Wigner transformations and it has a close connection to the probability representation of universal quantum computation based on the $\Lambda$ polytopes. For each number of qubits it defines a polytope contained in the $\Lambda$ polytope with some shared vertices. It leads to an efficient classical simulation algorithm for magic state quantum circuits for which the input state is positively represented, and it outperforms previous representations in terms of the states that can be positively represented.
翻訳日:2023-08-01 18:07:18 公開日:2023-07-29
# 視覚変換器と説明可能なAIを利用したCoVid-19検出

CoVid-19 Detection leveraging Vision Transformers and Explainable AI ( http://arxiv.org/abs/2307.16033v1 )

ライセンス: Link先を確認
Pangoth Santhosh Kumar, Kundrapu Supriya, Mallikharjuna Rao K(参考訳) 肺疾患は世界中の多くの地域で一般的な健康問題である。 死亡原因のトップ30のうち5つに責任があるため、世界中の人々の健康と生活の質に重大なリスクがある。 その中には、新型コロナウイルス19号、肺炎、結核などが含まれる。 早期に肺疾患を診断することが重要である。 この目的のために、機械学習や画像処理など様々なモデルが開発されている。 早期の症状が診断されるほど、患者の完全な回復と長期生存の可能性が高まる。 深層学習アルゴリズムのおかげで、医療画像に基づく肺疾患の自律的、迅速、正確な同定が期待できる。 convolutional neural networks(cnn)、vanilla neural networks(バニラニューラルネットワーク)、visual geometry group based networks(vgg)、 capsule networks(カプセルネットワーク)など、いくつかの異なるディープラーニング戦略が、肺疾患予測の目標に使用されている。 標準CNNは、回転、傾いた、その他の異常な画像方向を扱う場合、性能が劣る。 その結果,本研究の範囲内では,肺疾患の診断のための視覚変換器によるアプローチ・ツー・エンドの枠組みが提案されている。 アーキテクチャでは、データ拡張、提案されたモデルのトレーニング、モデルの評価がすべて含まれています。 肺炎,コビッド19などの肺疾患を検出する目的で,コビッド19ラジオグラフィーデータベースなどのデータセットを用いて,CCT(Compact Convolution Transformers)モデルを試験・評価した。 このモデルは、Covid 19 Radiography Databaseのトレーニングと検証の両方の目的のために、より良い精度を達成した。

Lung disease is a common health problem in many parts of the world. It is a significant risk to people health and quality of life all across the globe since it is responsible for five of the top thirty leading causes of death. Among them are COVID 19, pneumonia, and tuberculosis, to name just a few. It is critical to diagnose lung diseases in their early stages. Several different models including machine learning and image processing have been developed for this purpose. The earlier a condition is diagnosed, the better the patient chances of making a full recovery and surviving into the long term. Thanks to deep learning algorithms, there is significant promise for the autonomous, rapid, and accurate identification of lung diseases based on medical imaging. Several different deep learning strategies, including convolutional neural networks (CNN), vanilla neural networks, visual geometry group based networks (VGG), and capsule networks , are used for the goal of making lung disease forecasts. The standard CNN has a poor performance when dealing with rotated, tilted, or other aberrant picture orientations. As a result of this, within the scope of this study, we have suggested a vision transformer based approach end to end framework for the diagnosis of lung disorders. In the architecture, data augmentation, training of the suggested models, and evaluation of the models are all included. For the purpose of detecting lung diseases such as pneumonia, Covid 19, lung opacity, and others, a specialised Compact Convolution Transformers (CCT) model have been tested and evaluated on datasets such as the Covid 19 Radiography Database. The model has achieved a better accuracy for both its training and validation purposes on the Covid 19 Radiography Database.
翻訳日:2023-08-01 18:07:08 公開日:2023-07-29
# 局所ヒルベルト空間の分割:mpsに基づく大きな局所次元へのアプローチ

Splitting the local Hilbert space: MPS-based approach to large local dimensions ( http://arxiv.org/abs/2307.16031v1 )

ライセンス: Link先を確認
Naushad Ahmad Kamar and Mohammad Maghrebi(参考訳) 大きな、あるいは無限の局所ヒルベルト空間次元は、量子系をシミュレートする上で重要な計算課題となる。 本研究では,一次元量子系を大きな局所ヒルベルト空間次元でシミュレートするための行列積状態 (mps) に基づく手法を提案する。 この目的のために、我々は局所ヒルベルト空間を1つのサイトに対応する2つのサイトに分け、それぞれより小さいヒルベルト空間次元を持つ。 この手法の利点は、標準のアルゴリズム構造を変更することなく、時間依存変動原理(TDVP)のようなMPSベースの手法に容易に統合できることである。 本稿では,tdvpを用いて,多数のボソニックモードと相互作用するスピンの原型的モデルであるスピンボソンモデルのダイナミクスをシミュレートする手法を実装した。 提案手法をベンチマークし,先行研究と良好な一致を見出す。

A large, or even infinite, local Hilbert space dimension poses a significant computational challenge for simulating quantum systems. In this work, we present a matrix product state (MPS)-based method for simulating one-dimensional quantum systems with a large local Hilbert space dimension, an example being bosonic systems with a large on-site population. To this end, we \textit{split} the local Hilbert space corresponding to one site into two sites, each with a smaller Hilbert space dimension. An advantage of this method is that it can be easily integrated into MPS-based techniques such as time-dependent variational principle (TDVP) without changing their standard algorithmic structure. Here, we implement our method using the TDVP to simulate the dynamics of the spin-boson model, a prototypical model of a spin interacting with a large bath of bosonic modes. We benchmark our method against and find excellent agreement with previous studies.
翻訳日:2023-08-01 18:06:42 公開日:2023-07-29
# MUSE: 異種グラフのためのマルチビューコントラスト学習

MUSE: Multi-View Contrastive Learning for Heterophilic Graphs ( http://arxiv.org/abs/2307.16026v1 )

ライセンス: Link先を確認
Mengyi Yuan, Minjie Chen, Xiang Li(参考訳) 近年,従来のGNNにおけるラベル依存や一般化性能の低下に対処する上で,自己教師型学習が有望なアプローチとして出現している。 しかし、既存の自己教師付き手法は、連結ノードの類似ノード表現を生じるホモフィリー仮定のため、疎グラフに対して有効性が限られている。 本研究では,異種グラフ,すなわちMUSEに対するマルチビューコントラスト学習モデルを提案する。 具体的には,コントラスト学習により強化されたGNNを用いて,エゴノードとその近傍の情報を取得する2つのビューを構築する。 そして、これらの2つのビューから情報を統合してノード表現を融合します。 融合コントラストは、融合ノード表現の有効性を高めるために利用される。 さらに,情報融合における隣接文脈情報の影響が,異なるegoノード間で異なる可能性があることを考慮し,局所的およびグローバルレベルでのノード間類似性の多様性をモデル化するために情報融合コントローラを用いる。 最後に、教師なしノード表現学習と情報融合制御器の相互強化を保証するための交互学習方式を採用する。 9つのベンチマークデータセット上で,MUSEの性能を評価するために広範囲な実験を行った。 本研究は,MUSEがノード分類およびクラスタリングタスクに与える影響を示す。

In recent years, self-supervised learning has emerged as a promising approach in addressing the issues of label dependency and poor generalization performance in traditional GNNs. However, existing self-supervised methods have limited effectiveness on heterophilic graphs, due to the homophily assumption that results in similar node representations for connected nodes. In this work, we propose a multi-view contrastive learning model for heterophilic graphs, namely, MUSE. Specifically, we construct two views to capture the information of the ego node and its neighborhood by GNNs enhanced with contrastive learning, respectively. Then we integrate the information from these two views to fuse the node representations. Fusion contrast is utilized to enhance the effectiveness of fused node representations. Further, considering that the influence of neighboring contextual information on information fusion may vary across different ego nodes, we employ an information fusion controller to model the diversity of node-neighborhood similarity at both the local and global levels. Finally, an alternating training scheme is adopted to ensure that unsupervised node representation learning and information fusion controller can mutually reinforce each other. We conduct extensive experiments to evaluate the performance of MUSE on 9 benchmark datasets. Our results show the effectiveness of MUSE on both node classification and clustering tasks.
翻訳日:2023-08-01 18:06:28 公開日:2023-07-29
# LOTUS: タスクベースのUS表現を最適化する学習

LOTUS: Learning to Optimize Task-based US representations ( http://arxiv.org/abs/2307.16021v1 )

ライセンス: Link先を確認
Yordanka Velikova, Mohammad Farid Azampour, Walter Simson, Vanessa Gonzalez Duque, Nassir Navab(参考訳) 超音波画像における臓器の解剖学的セグメンテーションは多くの臨床応用、特に診断とモニタリングに不可欠である。 既存のディープニューラルネットワークは、臨床で許容されるパフォーマンスを達成するために、トレーニングのために大量のラベル付きデータを必要とする。 しかし,超音波ではスペックルやクラッタなどの特性のため,正確なセグメンテーション境界の取得が困難であり,画像のピクセル単位の正確なラベル付けは医師の専門知識に大きく依存している。 対照的に、CTスキャンは高分解能でコントラストが向上し、臓器の識別が緩和される。 本稿では,タスクベース超音速画像表現を最適化する学習手法を提案する。 シミュレーション媒体としてアノテーテッドctセグメンテーションマップを与えられた場合, 超音波訓練データを生成するために, レイキャストによる組織内音響伝搬をモデル化する。 我々の超音波シミュレータは完全に微分可能であり、下流セグメンテーションタスクによって導かれる物理ベースの超音波画像を生成するためのパラメータを最適化することを学ぶ。 さらに,実画像とシミュレーション画像のイメージ適応ネットワークを訓練し,エンドツーエンドのトレーニング環境でのus画像の合成と自動セグメント化を同時に行う。 提案手法は大動脈と血管の分節作業で評価され,定量的に評価できる。 さらに,他の臓器に最適化された画像表現の質的結果も行う。

Anatomical segmentation of organs in ultrasound images is essential to many clinical applications, particularly for diagnosis and monitoring. Existing deep neural networks require a large amount of labeled data for training in order to achieve clinically acceptable performance. Yet, in ultrasound, due to characteristic properties such as speckle and clutter, it is challenging to obtain accurate segmentation boundaries, and precise pixel-wise labeling of images is highly dependent on the expertise of physicians. In contrast, CT scans have higher resolution and improved contrast, easing organ identification. In this paper, we propose a novel approach for learning to optimize task-based ultra-sound image representations. Given annotated CT segmentation maps as a simulation medium, we model acoustic propagation through tissue via ray-casting to generate ultrasound training data. Our ultrasound simulator is fully differentiable and learns to optimize the parameters for generating physics-based ultrasound images guided by the downstream segmentation task. In addition, we train an image adaptation network between real and simulated images to achieve simultaneous image synthesis and automatic segmentation on US images in an end-to-end training setting. The proposed method is evaluated on aorta and vessel segmentation tasks and shows promising quantitative results. Furthermore, we also conduct qualitative results of optimized image representations on other organs.
翻訳日:2023-08-01 18:06:07 公開日:2023-07-29
# Fuzzy Logic Visual Network (FLVN):視覚特徴マッチングのためのニューロシンボリックアプローチ

Fuzzy Logic Visual Network (FLVN): A neuro-symbolic approach for visual features matching ( http://arxiv.org/abs/2307.16019v1 )

ライセンス: Link先を確認
Francesco Manigrasso and Lia Morra and Fabrizio Lamberti(参考訳) ニューロシンボリック統合は、ディープニューラルネットワークの学習能力とシンボリックナレッジ表現のパワーを組み合わせることを目的としている。 特に、論理テンソルネットワーク(ltns)は、実テンソル間の微分可能演算として一階論理言語を基礎にすることで、論理公理の形で背景知識を取り入れることができる。 しかし、ゼロショット学習(ZSL)分類を改善するこのアプローチの潜在的な利点について研究する研究はほとんどない。 本研究では、ニューロシンボリックLTNフレームワーク内で視覚的セマンティックな埋め込み空間を学習するタスクを定式化するFuzzy Logic Visual Network(FLVN)を提案する。 FLVNは以前の知識をクラス階層(クラスとマクロクラス)の形で組み入れ、堅牢な高レベルの帰納バイアスを持つ。 後者は、例えば、クラスレベルの属性の例外を処理し、同じクラスのイメージ間の類似性を強制し、目に見えるクラスへの早期の過剰フィットを防止し、全体的なパフォーマンスを改善することを可能にする。 FLVN は一般ZSL(GZSL)ベンチマーク AWA2 と CUB でそれぞれ 1.3% と 3% 向上した。 全体として、計算オーバーヘッドの少ない最近のZSL手法と競合する性能を実現する。 FLVNはhttps://gitlab.com/grains2/flvn.comで入手できる。

Neuro-symbolic integration aims at harnessing the power of symbolic knowledge representation combined with the learning capabilities of deep neural networks. In particular, Logic Tensor Networks (LTNs) allow to incorporate background knowledge in the form of logical axioms by grounding a first order logic language as differentiable operations between real tensors. Yet, few studies have investigated the potential benefits of this approach to improve zero-shot learning (ZSL) classification. In this study, we present the Fuzzy Logic Visual Network (FLVN) that formulates the task of learning a visual-semantic embedding space within a neuro-symbolic LTN framework. FLVN incorporates prior knowledge in the form of class hierarchies (classes and macro-classes) along with robust high-level inductive biases. The latter allow, for instance, to handle exceptions in class-level attributes, and to enforce similarity between images of the same class, preventing premature overfitting to seen classes and improving overall performance. FLVN reaches state of the art performance on the Generalized ZSL (GZSL) benchmarks AWA2 and CUB, improving by 1.3% and 3%, respectively. Overall, it achieves competitive performance to recent ZSL methods with less computational overhead. FLVN is available at https://gitlab.com/grains2/flvn.
翻訳日:2023-08-01 18:05:48 公開日:2023-07-29
# データ可視化による対話システム間結婚:自然言語対話による対話型データ可視化

Marrying Dialogue Systems with Data Visualization: Interactive Data Visualization Generation from Natural Language Conversations ( http://arxiv.org/abs/2307.16013v1 )

ライセンス: Link先を確認
Yuanfeng Song and Xuefang Zhao and Raymond Chi-Wing Wong(参考訳) データビジュアライゼーション(DV)は、大量のデータに対する洞察を実証する効果により、市場で広く普及しているツールとなっている。 DVの使用障壁を低減するため、自然言語質問(NLQ)や可視化翻訳(正式にはtext-to-vis)といった自動DVタスクが研究コミュニティで研究されている。 しかし、テキスト・トゥ・ビジュはNLQをうまく整理し、単一の文で表すと仮定する。 しかし、現実世界では、DVシステムとユーザ間の連続的な交換によって複雑なDVが必要である。 本稿では,ユーザとシステム間の一連のインタラクションを通じてDVを構築することを目的とした,会話型テキスト可視化のためのCoVisというタスクを提案する。 文献では研究されていないタスクであるため、まずダイアル・NVBenchというベンチマークデータセットを構築し、ユーザからのクエリのシーケンスとシステムからの応答の対話セッションを含む。 そこで我々は,これらのDV関連クエリに応答するマルチモーダルニューラルネットワークMMCoVisNetを提案する。 特にMMCoVisNetはまず対話コンテキストを完全に理解し、対応する応答を決定する。 そして、アダプティブデコーダを使用して適切な応答を提供します。 (i)一般的な応答を生成するために直接テキストデコーダが使用される。 (ii)SQL形式のデコーダを適用してデータクエリ応答を合成し、 (iii) DV型デコーダは適切なDVを構築しようとする。 提案するベンチマークデータセットに対するmmcovisnetと他のベースラインの比較評価を行った。 実験の結果,MMCoVisNetは既存のベースラインよりも優れた性能を示し,最先端の性能を実現している。

Data visualization (DV) has become the prevailing tool in the market due to its effectiveness into illustrating insights in vast amounts of data. To lower the barrier of using DVs, automatic DV tasks, such as natural language question (NLQ) to visualization translation (formally called text-to-vis), have been investigated in the research community. However, text-to-vis assumes the NLQ to be well-organized and expressed in a single sentence. However, in real-world settings, complex DV is needed through consecutive exchanges between the DV system and the users. In this paper, we propose a new task named CoVis, short for Conversational text-to-Visualization, aiming at constructing DVs through a series of interactions between users and the system. Since it is the task which has not been studied in the literature, we first build a benchmark dataset named Dial-NVBench, including dialogue sessions with a sequence of queries from a user and responses from the system. Then, we propose a multi-modal neural network named MMCoVisNet to answer these DV-related queries. In particular, MMCoVisNet first fully understands the dialogue context and determines the corresponding responses. Then, it uses adaptive decoders to provide the appropriate replies: (i) a straightforward text decoder is used to produce general responses, (ii) an SQL-form decoder is applied to synthesize data querying responses, and (iii) a DV-form decoder tries to construct the appropriate DVs. We comparatively evaluate MMCoVisNet with other baselines over our proposed benchmark dataset. Experimental results validate that MMCoVisNet performs better than existing baselines and achieves a state-of-the-art performance.
翻訳日:2023-08-01 18:05:23 公開日:2023-07-29
# ロボット運動計画におけるインシシト行動クローンと動的運動プリミティブを用いた強化学習

Using Implicit Behavior Cloning and Dynamic Movement Primitive to Facilitate Reinforcement Learning for Robot Motion Planning ( http://arxiv.org/abs/2307.16062v1 )

ライセンス: Link先を確認
Zengjie Zhang, Jayden Hong, Amir Soufi Enayati, and Homayoun Najjaran(参考訳) 多自由度ロボットの運動計画のための強化学習(RL)は、遅い訓練速度と低い一般化性の観点からも、依然として低効率に悩まされている。 本稿では、暗黙的行動クローニング(IBC)と動的運動プリミティブ(DMP)を用いて、非政治的RLエージェントのトレーニング速度と一般化性を向上する新しいRLベースのロボット動作計画フレームワークを提案する。 IBCは人間の実演データを利用してRLの訓練速度を活用し、DMPはより単純な計画空間に運動計画を転送するヒューリスティックモデルとして機能する。 これをサポートするために、同様の研究に使用できるピック・アンド・プレイス実験を使用して、人間のデモデータセットを作成する。 シミュレーションにおける比較研究により、従来のrlエージェントよりも高速で高いスコアの学習速度で提案手法の利点が明らかになった。 実ロボット実験は,提案手法が簡単な組立作業に適用可能であることを示す。 我々の研究は、ロボットアプリケーションにおけるRLの性能を活用するために、モーションプリミティブと人間のデモを利用する新しい視点を提供する。

Reinforcement learning (RL) for motion planning of multi-degree-of-freedom robots still suffers from low efficiency in terms of slow training speed and poor generalizability. In this paper, we propose a novel RL-based robot motion planning framework that uses implicit behavior cloning (IBC) and dynamic movement primitive (DMP) to improve the training speed and generalizability of an off-policy RL agent. IBC utilizes human demonstration data to leverage the training speed of RL, and DMP serves as a heuristic model that transfers motion planning into a simpler planning space. To support this, we also create a human demonstration dataset using a pick-and-place experiment that can be used for similar studies. Comparison studies in simulation reveal the advantage of the proposed method over the conventional RL agents with faster training speed and higher scores. A real-robot experiment indicates the applicability of the proposed method to a simple assembly task. Our work provides a novel perspective on using motion primitives and human demonstration to leverage the performance of RL for robot applications.
翻訳日:2023-08-01 17:57:24 公開日:2023-07-29
# HandMIM:3Dハンドメッシュ推定のためのPose-Aware Self-Supervised Learning

HandMIM: Pose-Aware Self-Supervised Learning for 3D Hand Mesh Estimation ( http://arxiv.org/abs/2307.16061v1 )

ライセンス: Link先を確認
Zuyan Liu, Gaojie Lin, Congyi Wang, Min Zheng, Feida Zhu(参考訳) 膨大な数のハンドイメージが時間とともに生成される中、教師付きハンドメッシュ推定のためのラベルのないイメージからの知識を解放することは、新たな課題である。 この問題を解決するため、半教師と自己監督のアプローチが提案されているが、検出モデルや従来のresnetバックボーンに依存して制限されている。 本稿では,視覚的分類作業におけるマスク付き画像モデリング(MIM)の急速な進歩に触発されて,3Dハンドメッシュパラメータの回帰のための自己教師付き事前学習戦略を提案する。 提案手法は,ポーズ認識意味クラストークンを学習するための教師学習フレームワークに疑似キーポイントアライメントモジュールを含む,統一的かつ多元的戦略を含む。 詳細な局所性を持つパッチトークンに対しては,MIM事前学習に基づく教師と学生のネットワーク間の自己蒸留方式を採用する。 低レベル回帰タスクをより適させるため、画素再構成タスクを多レベル表現学習に組み込む。 さらに,単純なバニラビジョントランスフォーマ(vit)をバックボーンとして,強力なポーズ推定ベースラインを設計し,回帰用トークンの後にpymafヘッドをアタッチする。 提案手法であるHandMIMは,様々なハンドメッシュ推定タスクにおいて高い性能を発揮することを示す。 特にHandMIMは、FreiHANDテストセットとHO3Dv2テストセットに対して、それぞれ6.29mmと8.00mm PAVPE(Vertex-Point-Error)を達成し、3Dハンドメッシュ推定に新たな最先端記録を確立するなど、最適化されたアーキテクチャよりも優れている。

With an enormous number of hand images generated over time, unleashing pose knowledge from unlabeled images for supervised hand mesh estimation is an emerging yet challenging topic. To alleviate this issue, semi-supervised and self-supervised approaches have been proposed, but they are limited by the reliance on detection models or conventional ResNet backbones. In this paper, inspired by the rapid progress of Masked Image Modeling (MIM) in visual classification tasks, we propose a novel self-supervised pre-training strategy for regressing 3D hand mesh parameters. Our approach involves a unified and multi-granularity strategy that includes a pseudo keypoint alignment module in the teacher-student framework for learning pose-aware semantic class tokens. For patch tokens with detailed locality, we adopt a self-distillation manner between teacher and student network based on MIM pre-training. To better fit low-level regression tasks, we incorporate pixel reconstruction tasks for multi-level representation learning. Additionally, we design a strong pose estimation baseline using a simple vanilla vision Transformer (ViT) as the backbone and attach a PyMAF head after tokens for regression. Extensive experiments demonstrate that our proposed approach, named HandMIM, achieves strong performance on various hand mesh estimation tasks. Notably, HandMIM outperforms specially optimized architectures, achieving 6.29mm and 8.00mm PAVPE (Vertex-Point-Error) on challenging FreiHAND and HO3Dv2 test sets, respectively, establishing new state-of-the-art records on 3D hand mesh estimation.
翻訳日:2023-08-01 17:57:07 公開日:2023-07-29
# eコマースにおけるスポンサー付き検索のための位置バイアス緩和によるクリック変換マルチタスクモデル

Click-Conversion Multi-Task Model with Position Bias Mitigation for Sponsored Search in eCommerce ( http://arxiv.org/abs/2307.16060v1 )

ライセンス: Link先を確認
Yibo Wang, Yanbing Xue, Bo Liu, Musen Wen, Wenting Zhao, Stephen Guo, Philip S. Yu(参考訳) 位置バイアス( position bias)は、検索の実際の関連性に関わらず検索結果リストの上位項目に集中する傾向のある現象であり、多くのランキングシステムで一般的である。 トレーニングデータの位置バイアスはランキングモデルに偏りを生じさせ、不公平な項目ランキング、クリックスルーレート(CTR)、コンバージョンレート(CVR)予測をもたらす。 項目CTRとCVR予測の両方における位置バイアスを緩和するため、位置バイアスのないCTRとCVR予測モデルとして、位置認識クリック変換(PACC)と位置埋め込みによるPACC(PACC-PE)を提案する。 PACCは確率分解に基づいて構築され、位置情報を確率としてモデル化する。 PACC-PEは、ニューラルネットワークを使用して製品固有の位置情報を埋め込みとしてモデル化する。 Eコマースが支援する製品検索データセットの実験から,提案したモデルではランキングの有効性が向上し,CTRおよびCVR予測における位置バイアスを大幅に軽減できることが示された。

Position bias, the phenomenon whereby users tend to focus on higher-ranked items of the search result list regardless of the actual relevance to queries, is prevailing in many ranking systems. Position bias in training data biases the ranking model, leading to increasingly unfair item rankings, click-through-rate (CTR), and conversion rate (CVR) predictions. To jointly mitigate position bias in both item CTR and CVR prediction, we propose two position-bias-free CTR and CVR prediction models: Position-Aware Click-Conversion (PACC) and PACC via Position Embedding (PACC-PE). PACC is built upon probability decomposition and models position information as a probability. PACC-PE utilizes neural networks to model product-specific position information as embedding. Experiments on the E-commerce sponsored product search dataset show that our proposed models have better ranking effectiveness and can greatly alleviate position bias in both CTR and CVR prediction.
翻訳日:2023-08-01 17:56:39 公開日:2023-07-29
# 一般化ベルシナリオ:局所隠れ変数モデルに対する妨害的影響

Generalized Bell scenarios: disturbing consequences on local-hidden-variable models ( http://arxiv.org/abs/2307.16058v1 )

ライセンス: Link先を確認
Andr\'e Mazzari, Gabriel Ruffolo, Carlos Vieira, Tassius Temistocles, Rafael Rabelo and Marcelo Terra Cunha(参考訳) ベルの非局所性とコッチェン・スペックの文脈性は量子論の基礎の主要な話題である。 どちらも古典的よりも強い相関関係に関係しており、前者は通常は空間的に分離された系を指し、後者は単一の系を考える。 近年,これらの現象の統一的な枠組みが提案されている。 この記事では、このフレームワークに関する新しい結果をレビューし、拡張し、入手します。 ローカルモデル内の文脈的および妨害的特徴を探求し、異なる局所集合をそれらの間の非自明な関係で定義することができる。 量子相関の集合とこれらの局所集合との関係も考慮され、量子後局所挙動が発見される。 さらに、局所的かつ非文脈的であるが、これらの2つの古典的特徴が同じ隠れ変数モデルで表現できないような相関の例を示す。 ファイン・アブラムスキー・ブランデンブルクの定理の拡張についても論じる。

Bell nonlocality and Kochen-Specker contextuality are among the main topics of foundations of quantum theory. Both of them are related to stronger-than-classical correlations, with the former usually referring to spatially separated systems while the latter considering a single system. In recent works, a unified framework for these phenomena was presented. This article reviews, expands and obtains new results regarding this framework. Contextual and disturbing features inside the local models are explored, which allows for the definition of different local sets with a non-trivial relation among them. The relations between the set of quantum correlations and these local sets are also considered, and post-quantum local behaviours are found. Moreover, examples of correlations that are both local and non-contextual but such that these two classical features cannot be expressed by the same hidden variable model are shown. Extensions of the Fine-Abramsky-Brandenburger theorem are also discussed.
翻訳日:2023-08-01 17:56:21 公開日:2023-07-29
# 物理におけるエージェンシーの最小主義的説明

A minimalist account of agency in physics ( http://arxiv.org/abs/2307.16054v1 )

ライセンス: Link先を確認
Ali Barzegar, Emilia Margoni, Daniele Oriti(参考訳) 私たちは、最小主義的、スケーラブルで、自然化されたitアカウントを開発することを目的とした、トップダウンアプローチを採用しています。 一般的な定義を提供した後、いくつかの拡張や改善の可能性、適用範囲、最近の代理店口座との比較、提案への反対の可能性について検討する。 私たちが強い(トノニのような)ものと弱い(ロヴェリのような)特徴に分類することに関して、我々の代理という概念は中間的な立場に置かれる。我々の意図は、量子力学の解釈、物理法則の性質に関する議論、ベイズ主義などの様々な文脈において、この中心的な説明の利点を正確に綴じることである。

We adopt a top-down approach to agency aimed at developing a minimalist, scalable and naturalized account of it. After providing a general definition, we explore some possible extensions and refinements, domain of applicability, as well as a comparison with other recent accounts of agency, and possible objections to our proposal. With respect to what we classify as strong (such as Tononi's) and weak (such as Rovelli's) characterizations, our notion of agency situates itself in a middle position - our intent being precisely that of spelling out the advantages of this median account within a variety of contexts, such as the interpretation of quantum mechanics, the debate on the nature of physical laws and Bayesianism.
翻訳日:2023-08-01 17:56:07 公開日:2023-07-29
# 機械学習による強磁性層のフィボナッチ準結晶積層における異方性磁気相の解離

Unveiling Exotic Magnetic Phases in Fibonacci Quasicrystalline Stacking of Ferromagnetic Layers through Machine Learning ( http://arxiv.org/abs/2307.16052v1 )

ライセンス: Link先を確認
Pablo S. Cornaglia, Matias Nu\~nez, D. J. Garcia(参考訳) 本研究では,van der waals磁性体を用いて実現可能な強磁性層のフィボナッチ準結晶積層の包括的理論的解析を行う。 我々は,この準結晶系における幾何学的フラストレーションと磁気秩序の複雑な関係を示す2層間磁気相互作用を含む磁性ヘテロ構造のモデルを構築した。 パラメータ空間をナビゲートし、異なる磁気位相を識別するために、このシステムの複雑な磁気挙動を明らかにするための強力なツールであることが証明された機械学習アプローチを用いる。 モデルパラメータの関数として磁性相図の詳細な説明を提供する。 特に、強磁性交互ヘリカル相である他のコリナー相および非コリナー相が発見される。 この非線形準周期強磁性配置では、磁化はスタック高さと対数的に減少する。

In this study, we conduct a comprehensive theoretical analysis of a Fibonacci quasicrystalline stacking of ferromagnetic layers, potentially realizable using van der Waals magnetic materials. We construct a model of this magnetic heterostructure, which includes up to second neighbor interlayer magnetic interactions, that displays a complex relationship between geometric frustration and magnetic order in this quasicrystalline system. To navigate the parameter space and identify distinct magnetic phases, we employ a machine learning approach, which proves to be a powerful tool in revealing the complex magnetic behavior of this system. We offer a thorough description of the magnetic phase diagram as a function of the model parameters. Notably, we discover among other collinear and non-collinear phases, a unique ferromagnetic alternating helical phase. In this non-collinear quasiperiodic ferromagnetic configuration the magnetization decreases logarithmically with the stack height.
翻訳日:2023-08-01 17:55:53 公開日:2023-07-29
# 自発・位相同期スピントルク振動子の単一スピン分光

Single-spin spectroscopy of spontaneous and phase-locked spin torque oscillator dynamics ( http://arxiv.org/abs/2307.16049v1 )

ライセンス: Link先を確認
Adrian Solyom, Michael Caouette-Mansour, Brandon Ruffolo, Patrick Braganca, Lilian Childress, and Jack Sankey(参考訳) スピン軌道トルクにより駆動される強磁性パーマロイナノワイヤの強磁場ダイナミクスを測定するために,n-$v$磁力計を用いた。 具体的には、自発直流駆動磁気振動と位相同期の両方の光学的検出された磁気共鳴(ODMR)シグネチャを第2高調波駆動に観察し、静電特性を捉える単純なマクロスピンモデルを開発した。 また,新たなODMR機能(第2SWモードに関連する)や1モードのサッピングパワーなど,マクロスピンモデル以外のダイナミクスのシグネチャも観察する。 本研究は,N-$V$スピン波の結合機構に関するさらなる知見を提供し,ナノスケール磁気振動子のサブ波長N-$V$走査プローブ顕微鏡の新しいモダリティを示す。

We employ N-$V$ magnetometry to measure the stray field dynamics of a ferromagnetic permalloy nanowire driven by spin-orbit torques. Specifically, we observe the optically detected magnetic resonance (ODMR) signatures of both spontaneous DC-driven magnetic oscillations and phase-locking to a second harmonic drive, developing a simple macrospin model that captures the salient features. We also observe signatures of dynamics beyond the macrospin model, including an additional ODMR feature (associated with a second SW mode) and one mode sapping power from another. Our results provide additional insight into N-$V$-spin wave coupling mechanisms, and represent a new modality for sub-wavelength N-$V$ scanned probe microscopy of nanoscale magnetic oscillators.
翻訳日:2023-08-01 17:55:39 公開日:2023-07-29
# 局所因果発見における構造的制約--標的変数の直接原因を特定する

Structural restrictions in local causal discovery: identifying direct causes of a target variable ( http://arxiv.org/abs/2307.16048v1 )

ライセンス: Link先を確認
Juraj Bodik, Val\'erie Chavez-Demoulin(参考訳) 観測的関節分布から対象変数の直接原因の集合を学習する問題を考察する。 因果構造を表す有向非巡回グラフ(DAG)を学習することは科学の基本的な問題である。 完全なDAGが分布から特定できる場合、例えば非線形ガウスデータ生成過程を仮定するなど、いくつかの結果が知られている。 多くの場合、我々は完全なDAGではなく、1つのターゲット変数(局所因果構造)の直接的な原因を特定することにのみ関心を持っている。 本稿では,対象変数のデータ生成過程について,その分布から直接原因の集合を識別できるさまざまな仮定について検討する。 その間、我々は基本的にターゲット変数以外の変数に仮定をしない。 本研究では,有限個のランダムサンプルから直接原因を推定する2つの実用的なアルゴリズムを提案し,いくつかのベンチマークデータセットでの有効性を示す。 この枠組みを適用して、各国の出生率の低下の直接的な原因を学習する。

We consider the problem of learning a set of direct causes of a target variable from an observational joint distribution. Learning directed acyclic graphs (DAGs) that represent the causal structure is a fundamental problem in science. Several results are known when the full DAG is identifiable from the distribution, such as assuming a nonlinear Gaussian data-generating process. Often, we are only interested in identifying the direct causes of one target variable (local causal structure), not the full DAG. In this paper, we discuss different assumptions for the data-generating process of the target variable under which the set of direct causes is identifiable from the distribution. While doing so, we put essentially no assumptions on the variables other than the target variable. In addition to the novel identifiability results, we provide two practical algorithms for estimating the direct causes from a finite random sample and demonstrate their effectiveness on several benchmark datasets. We apply this framework to learn direct causes of the reduction in fertility rates in different countries.
翻訳日:2023-08-01 17:55:22 公開日:2023-07-29
# ルーマニア語学術用語リストの自動抽出:データと方法

Automatic Extraction of the Romanian Academic Word List: Data and Methods ( http://arxiv.org/abs/2307.16045v1 )

ライセンス: Link先を確認
Ana-Maria Bucur, Andreea Dinc\u{a}, M\u{a}d\u{a}lina Chitez and Roxana Rogobete(参考訳) 本稿では,ルーマニアの学術用語リスト(Ro-AWL)の自動抽出に使用される方法論とデータについて述べる。 学術用語リストはL2とL1の教育文脈で有用である。 ルーマニア語については、今のところそのような資料は存在しない。 ro-awlはコーパスと計算言語学の手法とl2アカデミックライティングの手法を組み合わせたものである。 2種類のデータを使用します (a)ROMBACコーパスに基づくルーマニア周波数リスト等の既存のデータ (b)専門家のアカデミック・ライティング・コーパスなど、自己コンパイルされたデータ。 学術用語リストを構築するには,英語の学術用語リストを構築するための方法論に従う。 Ro-AWL特徴量(一般分布,POS分布)の4つのディシプリナデータセットへの分布は,これまでの研究と一致している。 Ro-AWLは無料で利用可能であり、教育、研究、NLPアプリケーションに利用できる。

This paper presents the methodology and data used for the automatic extraction of the Romanian Academic Word List (Ro-AWL). Academic Word Lists are useful in both L2 and L1 teaching contexts. For the Romanian language, no such resource exists so far. Ro-AWL has been generated by combining methods from corpus and computational linguistics with L2 academic writing approaches. We use two types of data: (a) existing data, such as the Romanian Frequency List based on the ROMBAC corpus, and (b) self-compiled data, such as the expert academic writing corpus EXPRES. For constructing the academic word list, we follow the methodology for building the Academic Vocabulary List for the English language. The distribution of Ro-AWL features (general distribution, POS distribution) into four disciplinary datasets is in line with previous research. Ro-AWL is freely available and can be used for teaching, research and NLP applications.
翻訳日:2023-08-01 17:55:05 公開日:2023-07-29
# okapi:人間のフィードバックによる強化学習を伴う多言語における命令調整型大規模言語モデル

Okapi: Instruction-tuned Large Language Models in Multiple Languages with Reinforcement Learning from Human Feedback ( http://arxiv.org/abs/2307.16039v1 )

ライセンス: Link先を確認
Viet Dac Lai, Chien Van Nguyen, Nghia Trung Ngo, Thuat Nguyen, Franck Dernoncourt, Ryan A. Rossi, Thien Huu Nguyen(参考訳) 大規模言語モデル(LLM)の開発における重要な技術は、モデルの応答と人間の期待を一致させ、印象的な学習能力を実現するための命令チューニングである。 教師付き微調整(SFT)と人間からのフィードバックからの強化学習(RLHF)を特徴付ける2つの指導チューニングアプローチは、現在、最高の商用LCM(例えばChatGPT)を製造するために適用されている。 研究開発におけるLLMのアクセシビリティ向上のために、AlpacaやVicunaなど、命令で調整されたオープンソースのLLMも最近導入されている。 しかし、既存のオープンソース LLM は英語やいくつかのポピュラーな言語に対してのみ教育を受けており、世界中の多くの言語への影響とアクセシビリティを妨げている。 複数の言語でのLLMのインストラクションチューニングを探求するごく最近の研究の中で、SFTは複数の言語のためのインストラクションチューニングLLMの唯一のアプローチとして使われている。 多様な言語におけるRLHFに基づく微調整 LLM には大きなギャップが残されており、RLHF が多言語命令チューニングの性能を向上できるかという重要な疑問が提起されている。 この問題を解決するために,複数の言語を対象としたRLHFに基づく命令調整型LLMシステムであるOkapiを提案する。 okapiは26の多様な言語で命令と応答ランクのデータを導入し、将来の多言語llm研究の実験と開発を促進する。 また,複数の言語で生成llmを評価するためのベンチマークデータセットも提示する。 実験では,異なるベースモデルとデータセットに対して,SFT上の多言語命令に対するRLHFの利点を実証した。 我々のフレームワークとリソースは \url{https://github.com/nlp-uoregon/Okapi} でリリースされます。

A key technology for the development of large language models (LLMs) involves instruction tuning that helps align the models' responses with human expectations to realize impressive learning abilities. Two major approaches for instruction tuning characterize supervised fine-tuning (SFT) and reinforcement learning from human feedback (RLHF), which are currently applied to produce the best commercial LLMs (e.g., ChatGPT). To improve the accessibility of LLMs for research and development efforts, various instruction-tuned open-source LLMs have also been introduced recently, e.g., Alpaca, Vicuna, to name a few. However, existing open-source LLMs have only been instruction-tuned for English and a few popular languages, thus hindering their impacts and accessibility to many other languages in the world. Among a few very recent work to explore instruction tuning for LLMs in multiple languages, SFT has been used as the only approach to instruction-tune LLMs for multiple languages. This has left a significant gap for fine-tuned LLMs based on RLHF in diverse languages and raised important questions on how RLHF can boost the performance of multilingual instruction tuning. To overcome this issue, we present Okapi, the first system with instruction-tuned LLMs based on RLHF for multiple languages. Okapi introduces instruction and response-ranked data in 26 diverse languages to facilitate the experiments and development of future multilingual LLM research. We also present benchmark datasets to enable the evaluation of generative LLMs in multiple languages. Our experiments demonstrate the advantages of RLHF for multilingual instruction over SFT for different base models and datasets. Our framework and resources are released at \url{https://github.com/nlp-uoregon/Okapi}.
翻訳日:2023-08-01 17:54:53 公開日:2023-07-29
# adr-gnn:advection-diffusion-reaction graphニューラルネットワーク

ADR-GNN: Advection-Diffusion-Reaction Graph Neural Networks ( http://arxiv.org/abs/2307.16092v1 )

ライセンス: Link先を確認
Moshe Eliasof, Eldad Haber, Eran Treister(参考訳) グラフニューラルネットワーク(GNN)は,グラフ構造化データの学習表現において顕著な成功を収めている。 しかし、GNNはいまだに、対流を含む複雑な現象をモデル化する際の課題に直面している。 本稿では,ADR-GNNと呼ばれるAdvection-Diffusion-Reactionシステムに基づく新しいGNNアーキテクチャを提案する。 アドベクションは情報の流れをモデル化し、拡散は情報の局所的な平滑化を捉え、反応はチャネル内の情報の非線形変換を表す。 本研究では, ADR-GNNの定性的挙動の解析を行い, 対流, 拡散, 反応の組み合わせの利点を示す。 実世界のノード分類と時空間データセットに基づいてADR-GNNを評価し,現状のネットワークと比較して競争性能の向上や性能向上を図っている。

Graph neural networks (GNNs) have shown remarkable success in learning representations for graph-structured data. However, GNNs still face challenges in modeling complex phenomena that involve advection. In this paper, we propose a novel GNN architecture based on Advection-Diffusion-Reaction systems, called ADR-GNN. Advection models the directed transportation of information, diffusion captures the local smoothing of information, and reaction represents the non-linear transformation of information in channels. We provide an analysis of the qualitative behavior of ADR-GNN, that shows the benefit of combining advection, diffusion, and reaction. To demonstrate its efficacy, we evaluate ADR-GNN on real-world node classification and spatio-temporal datasets, and show that it improves or offers competitive performance compared to state-of-the-art networks.
翻訳日:2023-08-01 17:47:37 公開日:2023-07-29
# フーリエニューラル演算子を用いた急速浸水予測

Rapid Flood Inundation Forecast Using Fourier Neural Operator ( http://arxiv.org/abs/2307.16090v1 )

ライセンス: Link先を確認
Alexander Y. Sun, Zhi Li, Wonhyun Lee, Qixing Huang, Bridget R. Scanlon, Clint Dawson(参考訳) 洪水浸水予測は洪水発生前後の緊急計画に重要な情報を提供する。 リアルタイム浸水予測ツールはまだ不足している。 近年,高分解能な流体力学モデリングが普及しつつあるが,道路の洪水範囲やリアルタイムのビルディングレベルは依然として計算的に要求されている。 本稿では,洪水範囲と浸水深度予測のためのハイブリッドプロセスベースおよびデータ駆動機械学習(ML)アプローチを提案する。 本研究では,高効率ML法であるフーリエニューラル演算子(FNO)を代理モデルとして用いた。 FNOモデルは、ヒューストン(テキサス州)の都市部で、6つの歴史的な嵐イベントからシミュレートされた水深(15分間隔)を用いて訓練され、2つのホールトアウトイベントでテストされる。 その結果、FNOはベースラインのU-Netモデルより優れていた。 テストされたすべてのリードタイム(最大3時間)において高い予測可能性を維持し、新しいサイトに適用するとうまく動作し、強力な一般化スキルを示唆する。

Flood inundation forecast provides critical information for emergency planning before and during flood events. Real time flood inundation forecast tools are still lacking. High-resolution hydrodynamic modeling has become more accessible in recent years, however, predicting flood extents at the street and building levels in real-time is still computationally demanding. Here we present a hybrid process-based and data-driven machine learning (ML) approach for flood extent and inundation depth prediction. We used the Fourier neural operator (FNO), a highly efficient ML method, for surrogate modeling. The FNO model is demonstrated over an urban area in Houston (Texas, U.S.) by training using simulated water depths (in 15-min intervals) from six historical storm events and then tested over two holdout events. Results show FNO outperforms the baseline U-Net model. It maintains high predictability at all lead times tested (up to 3 hrs) and performs well when applying to new sites, suggesting strong generalization skill.
翻訳日:2023-08-01 17:47:24 公開日:2023-07-29
# PD-SEG: ディープセグメンテーションネットワークによる人口分散による住環境改善

PD-SEG: Population Disaggregation Using Deep Segmentation Networks For Improved Built Settlement Mask ( http://arxiv.org/abs/2307.16084v1 )

ライセンス: Link先を確認
Muhammad Abdul Rahman and Muhammad Ahmad Waseem and Zubair Khalid and Muhammad Tahir and Momin Uppal(参考訳) 開発・計画のための資源の最適利用に関する政策レベルの意思決定手順および学術研究は、正確な人口密度統計に依存する。 worldpopとmetaが提供する現在の最先端データセットは、パキスタンのような発展途上国のためのこの目標を達成するには成功していない。 30m×30mの解像度で正確な人口数を推定するために、ディープセグメンテーションネットワークと衛星画像を用いて得られた正確な決済マスクを用いる。 関心のポイント(POI)データは、非居住領域を除外するためにも使用される。

Any policy-level decision-making procedure and academic research involving the optimum use of resources for development and planning initiatives depends on accurate population density statistics. The current cutting-edge datasets offered by WorldPop and Meta do not succeed in achieving this aim for developing nations like Pakistan; the inputs to their algorithms provide flawed estimates that fail to capture the spatial and land-use dynamics. In order to precisely estimate population counts at a resolution of 30 meters by 30 meters, we use an accurate built settlement mask obtained using deep segmentation networks and satellite imagery. The Points of Interest (POI) data is also used to exclude non-residential areas.
翻訳日:2023-08-01 17:47:07 公開日:2023-07-29
# 機械学習のための物理システムにおけるサンプリングノイズ対策 -基本限界と固有タスク-

Tackling Sampling Noise in Physical Systems for Machine Learning Applications: Fundamental Limits and Eigentasks ( http://arxiv.org/abs/2307.16083v1 )

ライセンス: Link先を確認
Fangjun Hu, Gerasimos Angelatos, Saeed A. Khan, Marti Vives, Esin T\"ureci, Leon Bello, Graham E. Rowlands, Guilhem J. Ribeill, Hakan E. T\"ureci(参考訳) 学習に使用する物理系の表現能力は,抽出した出力のノイズの存在によって制限される。 生物学的、アナログ、量子システムには存在するが、学習に対するノイズの正確な影響はまだ完全には理解されていない。 教師付き学習に着目し,有限サンプリング雑音下での一般物理系の可解表現能力(REC)を評価する数学的枠組みを提案し,そのエクストリーム,固有タスクを抽出する手法を提案する。 固有タスクは、与えられた物理システムが最小限の誤差で近似できる関数のネイティブセットである。 量子系のRECは、量子測定の基本理論によって制限され、任意の有限サンプリング物理系のRECに対して厳密な上界が得られることを示す。 次に,低雑音固有タスクの抽出が,分類や過度適合性などの機械学習タスクのパフォーマンス向上につながるという実証的証拠を提供する。 本稿では,量子システムの相関が固有タスクのノイズ低減により学習能力を高めることを示唆する。 これらの結果の適用性は超伝導量子プロセッサの実験で実証されている。 我々の発見は量子機械学習とセンシングの応用に幅広い影響を及ぼす。

The expressive capacity of physical systems employed for learning is limited by the unavoidable presence of noise in their extracted outputs. Although present in biological, analog, and quantum systems, the precise impact of noise on learning is not yet fully understood. Focusing on supervised learning, we present a mathematical framework for evaluating the resolvable expressive capacity (REC) of general physical systems under finite sampling noise, and provide a methodology for extracting its extrema, the eigentasks. Eigentasks are a native set of functions that a given physical system can approximate with minimal error. We show that the REC of a quantum system is limited by the fundamental theory of quantum measurement, and obtain a tight upper bound for the REC of any finitely-sampled physical system. We then provide empirical evidence that extracting low-noise eigentasks can lead to improved performance for machine learning tasks such as classification, displaying robustness to overfitting. We present analyses suggesting that correlations in the measured quantum system enhance learning capacity by reducing noise in eigentasks. The applicability of these results in practice is demonstrated with experiments on superconducting quantum processors. Our findings have broad implications for quantum machine learning and sensing applications.
翻訳日:2023-08-01 17:46:55 公開日:2023-07-29
# EnrichEvent: イベント抽出の進化のためのコンテキスト情報によるソーシャルデータ強化

EnrichEvent: Enriching Social Data with Contextual Information for Emerging Event Extraction ( http://arxiv.org/abs/2307.16082v1 )

ライセンス: Link先を確認
Mohammadali Sefidi Esfahani, Mohammad Akbari(参考訳) ソーシャルプラットフォームは、リアルタイムイベントに関する情報を広めて議論するための重要なプラットフォームとして登場し、ニュース価値のあるイベントを早期に発見する絶好の機会を提供している。 しかし、イベント検出の既存のアプローチのほとんどは、キーワードバーストネスやネットワーク構造のみを利用してホットイベントを検出する。 したがって、彼らはしばしば、イベントや社会データの困難な性質に関するトレンド状態に到達する前に、新興の社会イベントを識別できない。 社会データ、例えばツイートは、誤ったスペル、不完全さ、曖昧さ、不規則な言葉、そして意見の側面のバリエーションによって特徴づけられる。 さらに、限られた文脈知識を利用したイベントの進化的特徴の学習は、機械学習モデルにとってほとんど実現不可能である。 本稿では,これらの問題に対処するために,ストリーミングソーシャルデータの語彙的,意味的,文脈的表現を利用するフレームワークを提案する。 特に,文脈的知識を活かして,最初の出現における意味的関連ツイートの検出や,生成したクラスタの品質向上に活用する。 次に、各イベントのクラスタチェーンを生成し、時間を通してイベントの進化的な変化を示す。 本研究は,ソーシャルイベントの検出と識別における提案フレームワークの有効性を検証するため,フレームワークを評価するための広範な実験を行った。

Social platforms have emerged as a crucial platform for disseminating and discussing information about real-life events, which offers an excellent opportunity for early detection of newsworthy events. However, most existing approaches for event detection solely exploit keyword burstiness or network structures to detect hot events. Thus, they often fail to identify emerging social events before reaching a trending state regarding the challenging nature of events and social data. Social data, e.g., tweets, is characterized by misspellings, incompleteness, ambiguity, and irregular language, as well as variation in aspects of opinions. Moreover, learning the evolving characteristics of the events utilizing limited contextual knowledge is almost infeasible for machine learning models. To address these problems, in this paper, we propose a framework that exploits the lexical, semantic, and contextual representations of streaming social data. In particular, we leverage contextual knowledge to detect semantically related tweets in their earliest emergence and enhance the quality of produced clusters. We next produce a cluster chains for each event to show the evolving variation of the event through time. We conducted extensive experiments to evaluate our framework, validating the effectiveness of the proposed framework in detecting and distinguishing social events.
翻訳日:2023-08-01 17:46:36 公開日:2023-07-29
# スリーブをロールアップする:協調的で魅力的なタスク指向対話システム

Roll Up Your Sleeves: Working with a Collaborative and Engaging Task-Oriented Dialogue System ( http://arxiv.org/abs/2307.16081v1 )

ライセンス: Link先を確認
Lingbo Mo, Shijie Chen, Ziru Chen, Xiang Deng, Ashley Lewis, Sunit Singh, Samuel Stevens, Chang-You Tai, Zhen Wang, Xiang Yue, Tianshu Zhang, Yu Su, Huan Sun(参考訳) 我々は,ユーザ中心のタスク指向デジタルアシスタントであるtacobotを紹介する。 幅広い料理とハウツータスクをカバーし,協調的かつ魅力的な対話体験を提供することを目標としている。 頑健な検索エンジンがサポートする言語理解、対話管理、応答生成コンポーネントを備えたtacobotは、効率的なタスク支援を実現する。 対話体験を向上させるために,LLMを用いた一連のデータ拡張戦略を探索し,先進的なニューラルモデルを継続的に訓練する。 TacoBotは、最初のAlexa Prize TaskBot Challengeに参加して、私たちのチームが10の競合チームの中で3位を獲得しました。 タスク指向対話システムを展開する実践的な例として,オープンソースのフレームワークとしてTacoBotを提供している。

We introduce TacoBot, a user-centered task-oriented digital assistant designed to guide users through complex real-world tasks with multiple steps. Covering a wide range of cooking and how-to tasks, we aim to deliver a collaborative and engaging dialogue experience. Equipped with language understanding, dialogue management, and response generation components supported by a robust search engine, TacoBot ensures efficient task assistance. To enhance the dialogue experience, we explore a series of data augmentation strategies using LLMs to train advanced neural models continuously. TacoBot builds upon our successful participation in the inaugural Alexa Prize TaskBot Challenge, where our team secured third place among ten competing teams. We offer TacoBot as an open-source framework that serves as a practical example for deploying task-oriented dialogue systems.
翻訳日:2023-08-01 17:46:15 公開日:2023-07-29
# 3次元ポーズ推定のための反復グラフフィルタリングネットワーク

Iterative Graph Filtering Network for 3D Human Pose Estimation ( http://arxiv.org/abs/2307.16074v1 )

ライセンス: Link先を確認
Zaedul Islam and A. Ben Hamza(参考訳) グラフ畳み込みネットワーク(GCN)は3次元人間のポーズ推定に有効な手法であることが証明されている。 人体の骨格構造をグラフとして自然にモデル化することで、GCNは関節間の空間的関係を捉え、基礎となるポーズの効率的な表現を学ぶことができる。 しかし、ほとんどのGCNベースの手法は共有重み行列を用いており、関節間の異なる複雑な関係を正確に捉えることは困難である。 本稿では,画像中の2次元関節位置の集合から3次元関節位置を予測することを目的とした,人間のポーズ推定のための反復グラフフィルタリングフレームワークを提案する。 提案手法はガウス・シーデル反復法によるラプラシア正規化によるグラフフィルタリングの反復解法に基づく。 この反復解に動機づけられて,重みと隣接変調,スキップ接続,および層正規化を伴う純粋畳み込みブロックを用いたガウス・サイデルネットワーク(gs-net)アーキテクチャを設計した。 隣接変調(adjacency modulation)は、身体関節の固有の接続を超えたエッジの学習を促進し、人間の骨格を反映する調整されたグラフ構造をもたらす一方、スキップ接続は、ネットワークの深さが増加するにつれて入力層の初期特徴から重要な情報を維持するのに役立つ。 提案モデルを2つの標準ベンチマークデータセット上で評価し,3次元人格推定のための強力なベースライン手法の包括的セットと比較した。 実験の結果,本手法は両データセットのベースラインメソッドを上回っており,最先端の性能を実現していることがわかった。 さらに,モデルアーキテクチャの異なるコンポーネントの寄与を解析するためにアブレーション研究を行い,スキップ接続と隣接変調がモデル性能の向上に寄与することを示した。

Graph convolutional networks (GCNs) have proven to be an effective approach for 3D human pose estimation. By naturally modeling the skeleton structure of the human body as a graph, GCNs are able to capture the spatial relationships between joints and learn an efficient representation of the underlying pose. However, most GCN-based methods use a shared weight matrix, making it challenging to accurately capture the different and complex relationships between joints. In this paper, we introduce an iterative graph filtering framework for 3D human pose estimation, which aims to predict the 3D joint positions given a set of 2D joint locations in images. Our approach builds upon the idea of iteratively solving graph filtering with Laplacian regularization via the Gauss-Seidel iterative method. Motivated by this iterative solution, we design a Gauss-Seidel network (GS-Net) architecture, which makes use of weight and adjacency modulation, skip connection, and a pure convolutional block with layer normalization. Adjacency modulation facilitates the learning of edges that go beyond the inherent connections of body joints, resulting in an adjusted graph structure that reflects the human skeleton, while skip connections help maintain crucial information from the input layer's initial features as the network depth increases. We evaluate our proposed model on two standard benchmark datasets, and compare it with a comprehensive set of strong baseline methods for 3D human pose estimation. Our experimental results demonstrate that our approach outperforms the baseline methods on both datasets, achieving state-of-the-art performance. Furthermore, we conduct ablation studies to analyze the contributions of different components of our model architecture and show that the skip connection and adjacency modulation help improve the model performance.
翻訳日:2023-08-01 17:46:01 公開日:2023-07-29
# i}r\`{o}y\`{i}nspeech:多目的yor\`{u}b\'{a}音声コーパス

\`{I}r\`{o}y\`{i}nSpeech: A multi-purpose Yor\`{u}b\'{a} Speech Corpus ( http://arxiv.org/abs/2307.16071v1 )

ライセンス: Link先を確認
Tolulope Ogunremi, Kola Tubosun, Anuoluwapo Aremu, Iroro Orife, David Ifeoluwa Adelani(参考訳) 高品質で自由に利用できるYor\`{u}b\'{a} 音声の量を増やしたいという欲求に影響された新しいデータセットである \`{I}r\`{o}y\`{i}nSpeech corpus を導入する。 我々は、TSタスクとASRタスクの両方に使用できる多目的データセットをリリースする。 オープンライセンス(cc-by-4.0)の下でニュース・クリエイティブ・ライティング・ドメインからテキスト文をキュレートし,複数の話者が各文を記録させた。 われわれの5000通の音声をCommon Voiceプラットフォームに提供し、オンラインで書き起こしをクラウドソースしています。 データセットには合計38.5時間のデータがあり、80人のボランティアが記録している。

We introduce the \`{I}r\`{o}y\`{i}nSpeech corpus -- a new dataset influenced by a desire to increase the amount of high quality, freely available, contemporary Yor\`{u}b\'{a} speech. We release a multi-purpose dataset that can be used for both TTS and ASR tasks. We curated text sentences from the news and creative writing domains under an open license i.e., CC-BY-4.0 and had multiple speakers record each sentence. We provide 5000 of our utterances to the Common Voice platform to crowdsource transcriptions online. The dataset has 38.5 hours of data in total, recorded by 80 volunteers.
翻訳日:2023-08-01 17:45:31 公開日:2023-07-29
# 放射状複素軌道:低レベル安定性と高レベル挙動

Imitating Complex Trajectories: Bridging Low-Level Stability and High-Level Behavior ( http://arxiv.org/abs/2307.14619v2 )

ライセンス: Link先を確認
Adam Block, Daniel Pfrommer, Max Simchowitz(参考訳) 非線形力学系における確率的、非マルコフ的、潜在的にマルチモーダル(すなわち「複雑」)な専門家の模倣を研究するための理論的枠組みを提案する。 我々のフレームワークは、専門家によるデモンストレーションに関する模倣ポリシーを安定化させるために、低レベルのコントローラーセイザーが学習され、あるいは暗黙的に位置コマンド制御を行う。 私たちはそれを示します a) 適切な低レベルの安定保証及び b)我々が「トータル変分連続性」(total variation continuity, tvc)と呼ぶ学習した方針の確率的連続性特性は、演者の状態分布に対する行動を正確に推定する模倣者である。 次に、一般的なデータ拡張レジームと新しいアルゴリズムのトリックを組み合わせることで、TVCが最小限の精度の劣化で確保できることを示し、実行時に拡張ノイズを追加する。 拡散モデルによりパラメータ化されたポリシーの保証をインスタンス化し、学習者が(雑音増大した)エキスパートポリシーのスコアを正確に推定した場合、擬似軌道の分布は自然の最適輸送距離における演者分布に近くなることを示す。 提案手法は,無関心な手法である雑音提示トラジェクタ間の複雑なカップリングを構成する。 アルゴリズムによる推薦を実証的に検証することで結論づける。

We propose a theoretical framework for studying the imitation of stochastic, non-Markovian, potentially multi-modal (i.e. "complex" ) expert demonstrations in nonlinear dynamical systems. Our framework invokes low-level controllers - either learned or implicit in position-command control - to stabilize imitation policies around expert demonstrations. We show that with (a) a suitable low-level stability guarantee and (b) a stochastic continuity property of the learned policy we call "total variation continuity" (TVC), an imitator that accurately estimates actions on the demonstrator's state distribution closely matches the demonstrator's distribution over entire trajectories. We then show that TVC can be ensured with minimal degradation of accuracy by combining a popular data-augmentation regimen with a novel algorithmic trick: adding augmentation noise at execution time. We instantiate our guarantees for policies parameterized by diffusion models and prove that if the learner accurately estimates the score of the (noise-augmented) expert policy, then the distribution of imitator trajectories is close to the demonstrator distribution in a natural optimal transport distance. Our analysis constructs intricate couplings between noise-augmented trajectories, a technique that may be of independent interest. We conclude by empirically validating our algorithmic recommendations.
翻訳日:2023-08-01 11:17:16 公開日:2023-07-29
# tedi: 長期運動合成のための時間的エンタングル拡散

TEDi: Temporally-Entangled Diffusion for Long-Term Motion Synthesis ( http://arxiv.org/abs/2307.15042v2 )

ライセンス: Link先を確認
Zihan Zhang, Richard Liu, Kfir Aberman, Rana Hanocka(参考訳) 少量の増分で試料を合成する拡散過程の段階的な性質は、画像合成において前例のない品質を示し、最近モーション領域で研究されたデノイジン拡散確率モデル(ddpm)の重要な要素である。 本研究では,動き列の時間軸に漸進拡散の概念(拡散時間軸に沿って動作)を適用することを提案する。 私たちのキーとなる考え方は、DDPMフレームワークを拡張して、時間的に異なるデノイングをサポートし、2つの軸を絡み合わせることです。 特殊な定式化を用いて, 任意に長いフレーム列を自動生成するポーズの組を含む動きバッファを反復的にデノベートする。 定常拡散時間軸では、各拡散ステップでは、フレームがバッファの先頭から削除された新しいクリーンなフレームを生成し、それに加えられた新しく描画されたノイズベクトルを生成するように、運動の時間軸のみを増加させる。 この新しいメカニズムは、キャラクターアニメーションや他のドメインへの応用により、長期動作合成のための新しいフレームワークへの道を開く。

The gradual nature of a diffusion process that synthesizes samples in small increments constitutes a key ingredient of Denoising Diffusion Probabilistic Models (DDPM), which have presented unprecedented quality in image synthesis and been recently explored in the motion domain. In this work, we propose to adapt the gradual diffusion concept (operating along a diffusion time-axis) into the temporal-axis of the motion sequence. Our key idea is to extend the DDPM framework to support temporally varying denoising, thereby entangling the two axes. Using our special formulation, we iteratively denoise a motion buffer that contains a set of increasingly-noised poses, which auto-regressively produces an arbitrarily long stream of frames. With a stationary diffusion time-axis, in each diffusion step we increment only the temporal-axis of the motion such that the framework produces a new, clean frame which is removed from the beginning of the buffer, followed by a newly drawn noise vector that is appended to it. This new mechanism paves the way towards a new framework for long-term motion synthesis with applications to character animation and other domains.
翻訳日:2023-08-01 11:11:52 公開日:2023-07-29
# MATNilm: 限定ラベルデータによるマルチアプライアンスタスク非侵入負荷モニタリング

MATNilm: Multi-appliance-task Non-intrusive Load Monitoring with Limited Labeled Data ( http://arxiv.org/abs/2307.14778v2 )

ライセンス: Link先を確認
Jing Xiong, Tianqi Hong, Dongbo Zhao, and Yu Zhang(参考訳) 非侵入負荷監視(NILM)は、家全体の電力使用信号の合計を分散することにより、各種家電の状況と消費電力を特定する。 効率的かつ正確な負荷監視は、ユーザプロファイルの設定、インテリジェントな家庭用エネルギー管理、ピーク負荷シフトを容易にする。 これは、電力分配ネットワークの全体的な効率を改善することによって、エンドユーザとユーティリティの両方にとって有益である。 既存のアプローチは主に、各アプライアンス用の個別モデルの開発に焦点を当てている。 これらのアプローチは一般的に、収集が難しい大量の家庭用ラベルデータに依存します。 本稿では,ラベル付きデータによる分散性能を高める訓練効率のよいサンプル拡張(SA)方式を用いたマルチアプライアンス・タスク・フレームワークを提案する。 各アプライアンスに対して、回帰および分類タスクのための共有階層分割構造を開発する。 また,全機器の時空間相関を捉えるための2次元アテンション機構も提案する。 1日間のトレーニングデータと限られたアプライアンス操作プロファイルだけで、提案されたsaアルゴリズムは、完全なデータセットでトレーニングする場合と同等のテスト性能を達成できる。 シミュレーションの結果,提案手法は多くのベースラインモデルよりも大幅に性能が向上した。 相対誤差は平均で50%以上低減できる。 この作業のコードはhttps://github.com/jxiong22/matnilmで入手できる。

Non-intrusive load monitoring (NILM) identifies the status and power consumption of various household appliances by disaggregating the total power usage signal of an entire house. Efficient and accurate load monitoring facilitates user profile establishment, intelligent household energy management, and peak load shifting. This is beneficial for both the end-users and utilities by improving the overall efficiency of a power distribution network. Existing approaches mainly focus on developing an individual model for each appliance. Those approaches typically rely on a large amount of household-labeled data which is hard to collect. In this paper, we propose a multi-appliance-task framework with a training-efficient sample augmentation (SA) scheme that boosts the disaggregation performance with limited labeled data. For each appliance, we develop a shared-hierarchical split structure for its regression and classification tasks. In addition, we also propose a two-dimensional attention mechanism in order to capture spatio-temporal correlations among all appliances. With only one-day training data and limited appliance operation profiles, the proposed SA algorithm can achieve comparable test performance to the case of training with the full dataset. Finally, simulation results show that our proposed approach features a significantly improved performance over many baseline models. The relative errors can be reduced by more than 50% on average. The codes of this work are available at https://github.com/jxiong22/MATNilm
翻訳日:2023-08-01 11:09:13 公開日:2023-07-29