このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20221230となっている論文です。

PDF登録状況(公開日: 20221230)

TitleAuthorsAbstract論文公表日・翻訳日
# ニューラルネットワークによる$^{171}$yb$^{+}$量子磁気センサ

A Neural Network Assisted $^{171}$Yb$^{+}$ Quantum Magnetometer ( http://arxiv.org/abs/2203.05849v2 )

ライセンス: Link先を確認
Yan Chen, Yue Ban, Ran He, Jin-Ming Cui, Yun-Feng Huang, Chuan-Feng Li, Guang-Can Guo, and Jorge Casanova(参考訳) 多用途の磁力計は、幅広いパラメータで対象フィールドに曝されると可読性のある応答を返す必要がある。 本研究では,適切に訓練されたニューラルネットワークを用いた原子センサである$^{171}$yb$^{+}を組み合わせることで,異なる課題シナリオで対象フィールドを探索できることを実験的に実証する。 特に,単発計測による連続データ取得の限界事例を含む,大ショットノイズの存在下での無線周波数(rf)フィールドを特徴付ける。 さらに, ニューラルネットワークを組み込むことにより, 原子磁気センサの動作機構を, rf駆動が標準調和行動以上の応答を誘発するシナリオへと大きく拡張する。 本研究では,一般量子センシングタスクのデータ処理段階でニューラルネットワークを統合することで,センサ応答に含まれる情報を解読する利点を示す。

A versatile magnetometer must deliver a readable response when exposed to target fields in a wide range of parameters. In this work, we experimentally demonstrate that the combination of $^{171}$Yb$^{+}$ atomic sensors with adequately trained neural networks enables to investigate target fields in distinct challenging scenarios. In particular, we characterize radio frequency (RF) fields in the presence of large shot noise, including the limit case of continuous data acquisition via single-shot measurements. Furthermore, by incorporating neural networks we significantly extend the working regime of atomic magnetometers into scenarios in which the RF driving induces responses beyond their standard harmonic behavior. Our results indicate the benefits to integrate neural networks at the data processing stage of general quantum sensing tasks to decipher the information contained in the sensor responses.
翻訳日:2023-02-22 09:31:19 公開日:2022-12-30
# アクティブディレクトリ環境におけるkerberosチケットの偽造検出

Detecting Forged Kerberos Tickets in an Active Directory Environment ( http://arxiv.org/abs/2301.00044v1 )

ライセンス: Link先を確認
Thomas Grippo, Hisham A. Kholidy(参考訳) Active Directoryは、ネットワーク上のユーザとデバイスを管理する最も人気のあるサービスである。 企業世界で広く展開しているため、脅威俳優のターゲットとして人気がある。 active directoryとその認証プロトコルであるkerberosをターゲットとする攻撃は多いが、チケット偽造攻撃は最も危険である。 kerberosの弱点を悪用することで、攻撃者は自身のチケットを作成し、ネットワーク上のサービスへの不正アクセスを得ることができる。 この種の攻撃は危険であり、検出が困難である。 複数のサービスにまたがるWindowsのセキュリティログを分析するには、強力な集中ログ収集システムが必要になるかもしれない。 これにより、ネットワーク内でこれらの偽造チケットを見つけるための、さらなる可視性が得られる。

Active Directory is the most popular service to manage users and devices on the network. Its widespread deployment in the corporate world has made it a popular target for threat actors. While there are many attacks that target Active Directory and its authentication protocol Kerberos, ticket forgery attacks are among the most dangerous. By exploiting weaknesses in Kerberos, attackers can craft their own tickets that allow them to gain unauthorized access to services on the network. These types of attacks are both dangerous and hard to detect. They may require a powerful centralized log collecting system to analyze Windows security logs across multiple services. This would give additional visibility to be able to find these forged tickets in the network.
翻訳日:2023-02-19 13:24:07 公開日:2022-12-30
# 英国の学校におけるサイバーセキュリティとオンライン安全教育: twitterのデータを通して

Cyber Security and Online Safety Education for Schools in the UK: Looking through the Lens of Twitter Data ( http://arxiv.org/abs/2212.13742v2 )

ライセンス: Link先を確認
Jamie Knott, Haiyue Yuan, Matthew Boakes, Shujun Li(参考訳) 近年、デジタル技術は様々な形で成長している。 その結果、多くの学齢期児童がデジタル世界にさらされている。 子どもたちはよりデジタル技術を使っているので、学校は子供たちにサイバーセキュリティとオンラインの安全についてもっと教える必要がある。 このため、サイバーセキュリティやオンラインの安全について生徒に教え、彼らのスキルを学んで改善する学校プログラムやプロジェクトも増えている。 しかし、多くのプログラムやプロジェクトにもかかわらず、どれだけ多くの学校が参加しているかの証拠は多くなく、その言葉の広まりを助けた。 この研究は、非常に活発で高度なサイバーセキュリティ教育プロファイルを持つ英国の学校における、サイバーセキュリティとオンライン安全教育の規模と範囲について、1500以上の学校の公開ツイートから学ぶ方法を示している。 記述統計や視覚化といった単純な手法と、感情分析やトピックモデリングといった高度な自然言語処理(nlp)技術を用いることで、英国の学校がサイバーセキュリティやオンライン安全教育活動でtwitterでどのように行ってきたのか、新たな知見と洞察を得ることができます。 私たちの研究は、サイバーセキュリティに関心を持ち、学校でオンライン安全性を教える人々や組織に知らせる、大規模で現実世界の証拠をもたらしました。

In recent years, digital technologies have grown in many ways. As a result, many school-aged children have been exposed to the digital world a lot. Children are using more digital technologies, so schools need to teach kids more about cyber security and online safety. Because of this, there are now more school programmes and projects that teach students about cyber security and online safety and help them learn and improve their skills. Still, despite many programmes and projects, there is not much proof of how many schools have taken part and helped spread the word about them. This work shows how we can learn about the size and scope of cyber security and online safety education in schools in the UK, a country with a very active and advanced cyber security education profile, using nearly 200k public tweets from over 15k schools. By using simple techniques like descriptive statistics and visualisation as well as advanced natural language processing (NLP) techniques like sentiment analysis and topic modelling, we show some new findings and insights about how UK schools as a sector have been doing on Twitter with their cyber security and online safety education activities. Our work has led to a range of large-scale and real-world evidence that can help inform people and organisations interested in cyber security and teaching online safety in schools.
翻訳日:2023-02-19 13:20:57 公開日:2022-12-30
# 公正信用スコア決定のためのアルゴリズム的意思決定法

Algorithmic decision making methods for fair credit scoring ( http://arxiv.org/abs/2209.07912v2 )

ライセンス: Link先を確認
Darie Moldovan(参考訳) ローン申請者の信用度を評価する機械学習の有用性は、数十年前から証明されている。 しかし、自動的な決定はグループや個人に対して異なる扱いをし、差別を引き起こす可能性がある。 本論文は、金融機関の5つの公正度指標、精度、潜在的利益に基づいて、パフォーマンスを議論する上位12のバイアス緩和手法をベンチマークする。 本研究は,正確性と利益を保ちながら公平性を達成することの難しさを示す。 さらには、最高のパフォーマンスと最悪のパフォーマンスをいくつか強調し、実験的な機械学習と、その産業アプリケーションとのギャップを埋めるのに役立ちます。

The utility of machine learning in evaluating the creditworthiness of loan applicants has been proofed since decades ago. However, automatic decisions may lead to different treatments over groups or individuals, potentially causing discrimination. This paper benchmarks 12 top bias mitigation methods discussing their performance based on 5 different fairness metrics, accuracy achieved, and potential profits for the financial institutions. Our findings show the difficulties in achieving fairness while preserving accuracy and profits. Additionally, it highlights some of the best and worst performers and helps bridging the gap between experimental machine learning and its industrial application.
翻訳日:2023-02-19 11:14:44 公開日:2022-12-30
# ラッカ多項式の高次モーメントの高速化と安定化

Accelerated and Improved Stabilization for High Order Moments of Racah Polynomials ( http://arxiv.org/abs/2302.00596v1 )

ライセンス: Link先を確認
Basheera M. Mahmmod and Sadiq H. Abdulhussain and Tom\'a\v{s} Suk(参考訳) 最も効果的な直交モーメントの1つ、離散ラカ多項式(DRP)とそのモーメントは、画像処理やコンピュータビジョンを含む科学の多くの分野で使われている。 モーメントは多項式基底関数上の信号の射影である。 ラカ多項式はウィルソンによって導入され、Zhuによって画像処理のために修正され、離散的なサンプル集合上で直交する。 しかし, モーメントオーダーが高い場合には, 数値不安定の問題を経験する。 本稿では,改良安定化(ImSt)と呼ばれるDRP係数の計算アルゴリズムを提案する。 提案されたアルゴリズムでは、{drp平面は多項式の大きさとdrpパラメータの値に依存するため、非対称な4つの部分に分割されている。 対数ガンマ関数(logarithmic gamma function)は、初期値を計算するのに使われ、多項式の大きさだけでなく、幅広いdrpパラメータ値の初期値の計算を可能にする。 さらに、初期値に基づいて初期集合の値を計算するために新しい公式が用いられる。 さらに,アルゴリズムの特定部分における安定化条件の利用を最適化した。 ImStは、現在のアルゴリズムよりも高次になるまで、幅広いパラメータを扱う。 いくつかの実験で他の方法と比較した。

One of the most effective orthogonal moments, discrete Racah polynomials (DRPs) and their moments are used in many disciplines of sciences, including image processing, and computer vision. Moments are the projections of a signal on the polynomial basis functions. Racah polynomials were introduced by Wilson and modified by Zhu for image processing and they are orthogonal on a discrete set of samples. However, when the moment order is high, they experience the issue of numerical instability. In this paper, we propose a new algorithm for the computation of DRPs coefficients called Improved Stabilization (ImSt). In the proposed algorithm, {the DRP plane is partitioned into four parts, which are asymmetric because they rely on the values of the polynomial size and the DRP parameters.} The logarithmic gamma function is utilized to compute the initial values, which empower the computation of the initial value for a wide range of DRP parameter values as well as large size of the polynomials. In addition, a new formula is used to compute the values of the initial sets based on the initial value. Moreover, we optimized the use of the stabilizing condition in specific parts of the algorithm. ImSt works for wider range of parameters until higher degree than the current algorithms. We compare it with the other methods in a number of experiments.
翻訳日:2023-02-05 04:19:51 公開日:2022-12-30
# ストロークに基づくレンダリング:ヒューリスティックスからディープラーニングへ

Stroke-based Rendering: From Heuristics to Deep Learning ( http://arxiv.org/abs/2302.00595v1 )

ライセンス: Link先を確認
Florian Nolte, Andrew Melnik, Helge Ritter(参考訳) ここ数年、ディープラーニングモデルによる芸術的なイメージ作成は、かなりの勢いを増している。 これらのモデルの多くはピクセル空間で直接動作し、ラスタ画像を生成する。 しかし、ほとんどの人間が、例えば、絵を描くための一連の形やストロークを計画することで、アートワークを作る方法ではない。 最近のディープラーニング手法の発展は、ストローク画とピクセル写真生成のギャップを埋めるのに役立つ。 本調査は,ストロークベースのレンダリングアルゴリズムにおける共通課題とアプローチの構造化的導入と理解を提供することを目的としている。 これらのアルゴリズムは、単純なルールベースのヒューリスティックからストローク最適化やディープ強化エージェントまで、さまざまなベクトルグラフィックスとニューラルレンダリングで画像を描くように訓練されている。

In the last few years, artistic image-making with deep learning models has gained a considerable amount of traction. A large number of these models operate directly in the pixel space and generate raster images. This is however not how most humans would produce artworks, for example, by planning a sequence of shapes and strokes to draw. Recent developments in deep learning methods help to bridge the gap between stroke-based paintings and pixel photo generation. With this survey, we aim to provide a structured introduction and understanding of common challenges and approaches in stroke-based rendering algorithms. These algorithms range from simple rule-based heuristics to stroke optimization and deep reinforcement agents, trained to paint images with differentiable vector graphics and neural rendering.
翻訳日:2023-02-05 04:19:34 公開日:2022-12-30
# 量子キブルズレーク機構による長距離横場イジングモデルの臨界挙動の探索

Probing critical behavior of long-range transverse-field Ising model through quantum Kibble-Zurek mechanism ( http://arxiv.org/abs/2208.03060v2 )

ライセンス: Link先を確認
B.-W. Li and Y.-K. Wu and Q.-X. Mei and R. Yao and W.-Q. Lian and M.-L. Cai and Y. Wang and B.-X. Qi and L. Yao and L. He and Z.-C. Zhou and L.-M. Duan(参考訳) 閉じ込められたイオン量子シミュレータは、数十個のイオンに対して異なる物理モデルの質的性質を実証した。 特に、線形イオン鎖はレーザー駆動下での長距離イジング相互作用を自然に保持し、量子相転移、局在化、熱分解、情報伝達などの様々な現象に用いられている。 短期的な実用化のためには、パラメータの小さな誤差に対して堅牢なノイズの多い量子シミュレータのより定量的な応用を見つけることが中心的な課題である。 本稿では,61個のイオンを用いた長距離逆場イジングモデルの量子シミュレーションを行い,キブルズレーク機構による量子相転移の臨界挙動を探索する。 結合係数の校正と検証により, 有限サイズ効果のない臨界指数を抽出するために, イオン数を増加させる同じモデルを実現する。 強磁性相互作用の場合、実験結果は以前の数値予測とよく一致する。 反強磁性の場合、信号は弱すぎて相互作用のフラストレーションのために臨界指数に適合しないが、それでも理論と一致する。

The trapped ion quantum simulator has demonstrated qualitative properties of different physical models for up to tens of ions. In particular, a linear ion chain naturally hosts long-range Ising interactions under the laser driving, which has been used for various phenomena such as quantum phase transition, localization, thermalization and information propagation. For near-term practical usage, a central task is to find more quantitative applications of the noisy quantum simulators that are robust to small errors in the parameters. Here we report the quantum simulation of a long-range transverse-field Ising model using up to 61 ions and probe the critical behavior of its quantum phase transition through the Kibble-Zurek mechanism. By calibrating and verifying the coupling coefficients, we realize the same model for increasing ion numbers, so as to extract a critical exponent free of the finite size effect. For ferromagnetic interaction, our experimental result agrees well with the previous numerical predictions. As for the anti-ferromagnetic case, signals are too weak to fit a critical exponent due to the frustration in the interaction, but still consistent with the theory.
翻訳日:2023-02-02 04:56:17 公開日:2022-12-30
# ta-da: 科学的キーフレーズ識別と分類のためのトピックアウェアドメイン適応(学生抽象)

TA-DA: Topic-Aware Domain Adaptation for Scientific Keyphrase Identification and Classification (Student Abstract) ( http://arxiv.org/abs/2301.06902v1 )

ライセンス: Link先を確認
R\u{a}zvan-Alexandru Sm\u{a}du, George-Eduard Zaharia, Andrei-Marius Avram, Dumitru-Clementin Cercel, Mihai Dascalu, Florin Pop(参考訳) キーワードの識別と分類は自然言語処理と情報検索のタスクであり、メイントピックに関連する与えられたテキストから関連する単語のグループを抽出する。 本研究は,科学文書からキーフレーズを抽出することに焦点を当てる。 本稿では,キーワード抽出のためのトピック対応ドメイン適応フレームワークであるTA-DAを紹介した。 提案手法は,F1スコアの正確な一致で,ベースラインモデルの性能を最大5%向上させる。

Keyphrase identification and classification is a Natural Language Processing and Information Retrieval task that involves extracting relevant groups of words from a given text related to the main topic. In this work, we focus on extracting keyphrases from scientific documents. We introduce TA-DA, a Topic-Aware Domain Adaptation framework for keyphrase extraction that integrates Multi-Task Learning with Adversarial Training and Domain Adaptation. Our approach improves performance over baseline models by up to 5% in the exact match of the F1-score.
翻訳日:2023-01-29 14:18:11 公開日:2022-12-30
# 雑音生成モデルのための画像埋め込み

Image Embedding for Denoising Generative Models ( http://arxiv.org/abs/2301.07485v1 )

ライセンス: Link先を確認
Andrea Asperti, Davide Evangelista, Samuele Marro, Fabio Merizzi(参考訳) 拡散モデルの普及は、単純で安定した訓練、優れた生成品質、安定した確率的基礎など、いくつかの理由から、生成モデリングの分野で人気が高まっている。 本稿では,デノナイジング拡散モデルの潜在空間に,デノナイジングが元の画像となる適切な「ノイズ」像を埋め込むという問題に対処する。 特に,その逆拡散過程の決定論的性質から,拡散暗黙モデルに着目する。 本研究の副次として, 拡散モデルの潜伏空間の構造, 探索, 意味軌道の定義, および編集目的の符号化の操作・条件について, より深い知見を得た。 本研究で注目されている特に興味深い特性は,この生成モデルのクラスの特徴であり,逆拡散過程を実装するネットワークからの潜在表現の独立性である。 言い換えれば、共通のシードは異なるネットワーク(それぞれが同じデータセットでトレーニングされた)に渡され、最終的に同じイメージになる。

Denoising Diffusion models are gaining increasing popularity in the field of generative modeling for several reasons, including the simple and stable training, the excellent generative quality, and the solid probabilistic foundation. In this article, we address the problem of {\em embedding} an image into the latent space of Denoising Diffusion Models, that is finding a suitable ``noisy'' image whose denoising results in the original image. We particularly focus on Denoising Diffusion Implicit Models due to the deterministic nature of their reverse diffusion process. As a side result of our investigation, we gain a deeper insight into the structure of the latent space of diffusion models, opening interesting perspectives on its exploration, the definition of semantic trajectories, and the manipulation/conditioning of encodings for editing purposes. A particularly interesting property highlighted by our research, which is also characteristic of this class of generative models, is the independence of the latent representation from the networks implementing the reverse diffusion process. In other words, a common seed passed to different networks (each trained on the same dataset), eventually results in identical images.
翻訳日:2023-01-29 14:08:08 公開日:2022-12-30
# フェルミオンウィグナー汎関数論

Fermionic Wigner functional theory ( http://arxiv.org/abs/2209.13223v5 )

ライセンス: Link先を確認
Filippus S. Roux(参考訳) グラスマン汎函数位相空間はフェルミオンウィグナー汎函数の定義のために定式化される。 定式化は、ボゾン二次作用素に類似する適切なフェルミオン作用素の同定から始まる段階的な過程に従う。 マヨラナのオペレーターはこの目的のために十分ではない。 代わりに、フェルミオン型ボゴリューボフ作用素の集合が用いられる。 これらの作用素の固有状態は直交基底を提供し、双対空間はエルミート共役をスピン変換で補強することによって定義される。 これらの基底は、ウィグナー汎函数がボソニックケースに類似して定義できるという観点で二次基底として機能する。

A Grassmann functional phase space is formulated for the definition of fermionic Wigner functionals. The formulation follows a stepwise process, starting with the identification of suitable fermionic operators that are analogues to bosonic quadrature operators. The Majorana operators do not suffice for this purpose. Instead, a set of fermionic Bogoliubov operators are used. The eigenstates of these operators are shown to provide orthogonal bases, provided that the dual space is defined by augmenting the Hermitian conjugation with a spin transformation. These bases serve as quadrature bases in terms of which the Wigner functionals can be defined analogues to the bosonic case.
翻訳日:2023-01-25 00:31:26 公開日:2022-12-30
# 量子マネーを破って稼ぐもう1つのラウンド:格子からそれを構築しない方法など

Another Round of Breaking and Making Quantum Money: How to Not Build It from Lattices, and More ( http://arxiv.org/abs/2211.11994v2 )

ライセンス: Link先を確認
Jiahui Liu, Hart Montgomery, Mark Zhandry(参考訳) 量子マネーの公的な検証は、ウィーズナーが量子力学を使って偽造に対する紙幣を構築するという先駆的なアイデア以来、量子暗号における中心的な対象の1つとなっている。 これまでのところ、公に検証可能な量子マネースキームは、標準仮定から確実に安全である。 本研究は,量子マネーを公に検証するための負および正の結果を提供する。 ※第一部において、格子からの量子マネースキームのある種の自然なクラスは安全でないことを示す一般的な定理を与える。 この定理を用いて、Khesin, Lu, Shor の最近の量子マネースキームを破る。 ※第2部では、Farhiらによる結び目から量子マネーの考え方を抽象化した不変通貨(invariant money)と呼ぶ量子マネーと量子ライティングを構築するためのフレームワークを提案する。 (ITCS'12)。 この枠組みの定式化に加えて、銀行でさえ紙幣を複製できない量子マネーの強化である量子稲妻の安全性を暗示する古典的な知識から着想を得た、具体的な計算問題も提供する。 *暗号グループアクションを用いたオラクル構築や、復号化可能な関数暗号からのインスタンス化、楕円曲線上の等質性、結び目など、我々のフレームワークの潜在的なインスタンス化について論じる。

Public verification of quantum money has been one of the central objects in quantum cryptography ever since Wiesner's pioneering idea of using quantum mechanics to construct banknotes against counterfeiting. So far, we do not know any publicly-verifiable quantum money scheme that is provably secure from standard assumptions. In this work, we provide both negative and positive results for publicly verifiable quantum money. **In the first part, we give a general theorem, showing that a certain natural class of quantum money schemes from lattices cannot be secure. We use this theorem to break the recent quantum money scheme of Khesin, Lu, and Shor. **In the second part, we propose a framework for building quantum money and quantum lightning we call invariant money which abstracts some of the ideas of quantum money from knots by Farhi et al.(ITCS'12). In addition to formalizing this framework, we provide concrete hard computational problems loosely inspired by classical knowledge-of-exponent assumptions, whose hardness would imply the security of quantum lightning, a strengthening of quantum money where not even the bank can duplicate banknotes. **We discuss potential instantiations of our framework, including an oracle construction using cryptographic group actions and instantiations from rerandomizable functional encryption, isogenies over elliptic curves, and knots.
翻訳日:2023-01-19 04:15:36 公開日:2022-12-30
# 受動光学成分を用いた偏光束縛光子の励起放出促進

Enhancing the stimulated emission of polarization-entangled photons using passive optical components ( http://arxiv.org/abs/2211.14979v2 )

ライセンス: Link先を確認
Ryo Nozaki, Yoshiro Sato, Yoshitaka Shimada, Taku Suzuki, Kei Yasuno, Yuta Ikai, Wataru Ueda, Kaito Shimizu, Emi Yukawa, and Kaoru. Sanaka(参考訳) 偏光子対の明るい源は量子情報技術にとって必須の要素である。 一般に、偏光束縛光子の励起放出を高めるために、電気光学変調器などの活性光学成分を組み合わせた共振器を導入する必要がある。 レーザーパルスを同期させることにより、共振器内で励起された絡み合った光子を出力する時系列演算を行うことは技術的に困難である。 本稿では、受動光成分のみを有する共振器を用いた偏光子対の励起放出を増大させる手法を提案する。 本稿では,スキームの理論的な側面を示し,ダブルパス構成におけるスキームの原理実証実験を行う。

Bright sources of polarization-entangled photon pairs are essential components for quantum information technologies. In general, it is necessary to introduce a resonator that combines active optical components such as an electric optical modulator to enhance the stimulated emission of polarization-entangled photons. It is technically difficult to perform the time series operation to output the stimulated entangled photons in the resonator by synchronizing laser pulses. In this paper, we propose a scheme to scale up the stimulated emission of polarization-entangled photon pairs using a resonator with only passive optical components. We show the theoretical aspects of the scheme and also perform a proof-of-principle experimental demonstration of the scheme in a double-pass configuration.
翻訳日:2023-01-17 15:18:11 公開日:2022-12-30
# カルタン分解による近接最適回路構成

Near-optimal Circuit construction via Cartan decomposition ( http://arxiv.org/abs/2212.12934v2 )

ライセンス: Link先を確認
Maximilian Balthasar Mansky, Santiago Londo\~no Castillo, Victor Ramos Puigvert, Claudia Linnhoff-Popien(参考訳) リー代数のカルタン分解を量子回路に適用する可能性を示す。 このアプローチは、任意の所望のユニタリ演算に効率的に到達できる回路を合成するために使用できる。 提案手法では,関連するリー代数の代数的生成子の量子回路表現を明示的に表現し,カルタン分解を直接量子コンピュータに実装する。 この構成は再帰的であり、各キュービット上の生成回路や回転行列に回路を拡大することができ、再帰的アルゴリズムにより生成回路自体をCNOTおよびSWAPゲートで明示的に表現できることが分かる。 提案手法は標準CNOT実装とは独立であり,他の回路素子にも容易に適用可能である。 その汎用性に加えて、CNOTゲートで作業する場合、ほぼ最適数も達成し、漸近的なCNOTコストが$\frac{23}{24}4n$ for $n$ qubitsに達する。

We show the applicability of the Cartan decomposition of Lie algebras to Quantum Circuits. This approach can be used to synthesize circuits that can efficiently reach any desired unitary operation. Our method finds explicit quantum circuit representations of the algebraic generators of the relevant Lie algebras allowing the direct implementation of a Cartan decomposition on a quantum computer. The construction is recursive and allows us to expand any circuit down to generators and rotation matrices on individual qubits, where through our recursive algorithm we find that the generators themselves can be expressed with CNOT and SWAP gates explicitly. Our approach is independent of the standard CNOT implementation and can be easily adapted to other cross-qubit circuit elements. In addition to its versatility, we also achieve near-optimal counts when working with CNOT gates, achieving an asymptotic CNOT cost of $\frac{23}{24}4n$ for $n$ qubits.
翻訳日:2023-01-09 05:37:14 公開日:2022-12-30
# フォン・ノイマン代数における漸近平衡定理

Asymptotic Equipartition Theorems in von Neumann algebras ( http://arxiv.org/abs/2212.14700v1 )

ライセンス: Link先を確認
Omar Fawzi, Li Gao, and Mizanur Rahaman(参考訳) 情報理論における漸近的平等性(AEP)は、独立かつ同一に分散された状態(すなわち、同じ状態)が一様状態と類似した振る舞いをすることを示す。 特に、適切な滑らか化により、このような状態に対して、min と max の相対エントロピーは漸近的に相対エントロピーと一致する。 本稿では、いくつかの同値性質を一般フォン・ノイマン環上の状態へ一般化する。 まず、フォン・ノイマン環上の i.d. 状態の滑らかな最大相対エントロピーが、量子相対エントロピーによって与えられる漸近速度を持つことを示す。 実際、AEPは状態だけでなく、適切な制限のある量子チャネルにも適用される。 さらに、i.i.d.仮定を超えて、量子チャネルのシーケンシャルなプロセスによって生成される状態に対して、滑らかなマックス相対エントロピーは適切なチャネル相対エントロピーの和によって上界することができることを示す。 我々の主な技術的貢献は、一般のフォン・ノイマン代数の文脈に量子チャネルの連鎖則を拡張し、置換子チャネルを持つチャネル相対エントロピーに対する加法的結果を与えることである。

The Asymptotic Equipartition Property (AEP) in information theory establishes that independent and identically distributed (i.i.d.) states behave in a way that is similar to uniform states. In particular, with appropriate smoothing, for such states both the min and the max relative entropy asymptotically coincide with the relative entropy. In this paper, we generalize several such equipartition properties to states on general von Neumann algebras. First, we show that the smooth max relative entropy of i.i.d. states on a von Neumann algebra has an asymptotic rate given by the quantum relative entropy. In fact, our AEP not only applies to states, but also to quantum channels with appropriate restrictions. In addition, going beyond the i.i.d. assumption, we show that for states that are produced by a sequential process of quantum channels, the smooth max relative entropy can be upper bounded by the sum of appropriate channel relative entropies. Our main technical contributions are to extend to the context of general von Neumann algebras a chain rule for quantum channels, as well as an additivity result for the channel relative entropy with a replacer channel.
翻訳日:2023-01-09 04:15:18 公開日:2022-12-30
# 光円錐弦の平滑化について

The Rough with the Smooth of the Light Cone String ( http://arxiv.org/abs/2212.14822v1 )

ライセンス: Link先を確認
Norbert Dragon and Florian Oppermann(参考訳) ポアンカーイ群のユニタリ表現の生成元は滑らかな波動関数を滑らかな波動関数に写像する代数を生成する。 この数学的結果は、以前は非有界作用素の代数的処理が正当化されると仮定した物理学者にとって非常に歓迎されている。 しかし、滑らかさは、滑らかな波動関数を滑らかでない函数に写像する粗い作用素がポアンカルの対称性と矛盾する副作用を持つ:それらの生成元との積は定義できない。 粗かつ滑らかな作用素は共通代数のメンバーではない。 transverse heisenberg pairs $x^i$ and $p^j$, $i,j\in \{1,\dots d-2\}$, $p_z = p^{d-1}$, $p^+=(p^0 + p_z)/\sqrt{2}$, 光円錐弦で起こるように、大まかに質量のない多重集合に作用する。 それらの代数の領域は回転によって自身に写像されず、ローレンツ変換だけに留まる。 これは全ての次元において真であり、ボソニック弦の臨界次元 $d=26$ の代数的計算を無意味にする: no dimension $d > 2$ では、光円錐弦はローレンツ群のユニタリ表現を許容する。 無質量多重は空間的位置演算子 $\vec x$ と矛盾し、空間的モーメントの変換を生成する。

The generators of unitary representations of the Poincar\'e group generate an algebra which maps smooth wavefunctions to smooth wavefunctions. This mathematical result is highly welcome to physicists, who previously just assumed their algebraic treatment of unbounded operators be justified. The smoothness, however, has the side effect that rough operators, which map smooth wavefunctions to functions which are not smooth, are inconsistent with Poincar\'e symmetry: their product with the generators cannot be defined. Rough and smooth operators are not members of a common algebra. Transverse Heisenberg pairs $X^i$ and $P^j$, $i,j\in \{1,\dots D-2\}$, $P_z = P^{D-1}$, which commute with $P^+=(P^0 + P_z)/\sqrt{2}$, as they occur in the light cone string, act roughly on massless multiplets. The domain of their algebra is not mapped to itself by rotations, leave alone Lorentz transformations. This is true in all dimensions and makes the algebraic calculation of the critical dimension, $D=26$, of the bosonic string meaningless: in no dimension $D > 2$ does the light cone string admit a unitary representation of the Lorentz group. Massless multiplets are inconsistent with a spatial position operator $\vec X$, which generates translations of the spatial momentum.
翻訳日:2023-01-09 04:07:32 公開日:2022-12-30
# 固体コヒーレントスピン-光子界面としての結晶中の遷移金属イオンアンサンブル:酸化マグネシウムのニッケルの場合

Transition metal ion ensembles in crystals as solid-state coherent spin-photon interfaces: The case of nickel in magnesium oxide ( http://arxiv.org/abs/2212.14827v1 )

ライセンス: Link先を確認
E. Poem, S. Gupta, I. Morris, K. Klink, L. Singh, T. Zhong, J. N. Becker, and O. Firstenberg(参考訳) スピン-光子界面として機能する固体系を見つけるための一般的なガイドラインを提案し, 種々の結晶中の遷移金属イオンがこれらのガイドラインに従うことを示す。 例示として,酸化マグネシウム中の二価ニッケルイオンに着目した。 電子スピン共鳴分光法およびこれらのイオンの高密度アンサンブルの偏光感光性光蛍光分光法を行い、それを見つける。 (i)基底状態の電子スピンは数マイクロ秒間液体ヘリウム温度でコヒーレントであり、 (II) 直交偏光の光学遷移によって2つの基底状態スピン準位に対向できるエネルギー的によく分離された励起状態が存在する。 後者は、高速でコヒーレントな光スピン制御が可能であることを意味する。 次に、偏光パルスを用いた基底状態スピンの光初期化と制御のためのスキームと、この材料系における近テレコム波長の雑音のない広帯域量子光学メモリを実現するための2つのスキームを提案する。

We present general guidelines for finding solid-state systems that could serve as coherent spin-photon interfaces and show that transition metal ions in various crystals could comply with these guidelines. As an illustrative example, we focus on divalent nickel ions in magnesium oxide. We perform electron spin resonance spectroscopy and polarization-sensitive magneto-optical fluorescence spectroscopy of a dense ensemble of these ions, and find that (i) the ground-state electron spin stays coherent at liquid-helium temperatures for several microseconds, and (ii) there exists energetically well-isolated excited states which can couple to two ground state spin sublevels via optical transitions of orthogonal polarizations. The latter implies that fast, coherent optical spin control is possible. We then propose schemes for optical initialization and control of the ground-state spin using polarized optical pulses, as well as two schemes for implementing a noise-free, broadband quantum-optical memory at near-telecom wavelengths in this material system.
翻訳日:2023-01-09 04:06:59 公開日:2022-12-30
# pxpモデルにおけるサブハーモニック忠実度回復

Subharmonic fidelity revival in a driven PXP model ( http://arxiv.org/abs/2301.00020v1 )

ライセンス: Link先を確認
HaRu K. Park and SungBin Lee(参考訳) PXPモデルは、量子多体傷(quantum many-body scars)と呼ばれる特別な非エルゴード状態の集合をホストする。 量子スカーリングの結果の1つは、波動関数の忠実性の周期的復活である。 特定の生成物のPXPモデルで量子忠実回復が起こり、化学的ポテンシャルの周期的な駆動は量子回復の規模を増大させ、サブハーモニック応答を示すリバイバルの周波数を変えることができることが報告されている。 PXPモデルにおける周期駆動の効果は、特定の摂動状態の限界において研究されているが、そのような回復と周波数変化の一般的なメカニズムはほとんど研究されていない。 本研究では, PXPモデルにおける周期運転が, 忠実度回復を系統的に制御する方法について検討する。 特に、ネールの状態と呼ばれる製品状態に着目し、運転状態を分析して再生の規模を拡大したり、再生の頻度を変化させたりする。 このような制御の理由を明らかにするために、グラフ理論解析におけるpxpモデルと自由スピン1/2モデルの類似性を検討し、pxpモデルにおける量子忠実性機能は自由スピン1/2モデルによってよく説明されていることを示す。 また、駆動パラメータの一定の制限下では、忠実度再現の主な特徴を説明する分析的アプローチも行われる。 この結果から,周期的に駆動されるPXPモデルの特徴を把握し,その(サブ)ハーモニック応答と制御を理解するための道を開いた。

The PXP model hosts a special set of nonergodic states, referred to as quantum many-body scars. One of the consequences of quantum scarring is the periodic revival of the wave function fidelity. It has been reported that quantum fidelity revival occurs in the PXP model for certain product states, and periodic driving of chemical potential can enhance the magnitude of quantum revival, and can even change the frequencies of revival showing the subharmonic response. Although the effect of the periodic driving in the PXP model has been studied in the limit of certain perturbative regimes, the general mechanism of such enhanced revival and frequency change has been barely studied. In this work, we investigate how periodic driving in the PXP model can systematically control the fidelity revival. Particularly, focusing on the product state so called a Neel state, we analyze the condition of driving to enhance the magnitude of revival or change the frequencies of revival. To clarify the reason of such control, we consider the similarities between the PXP model and the free spin-1/2 model in graph theoretical analysis, and show that the quantum fidelity feature in the PXP model is well explained by the free spin-1/2 model. In addition, under certain limit of the driving parameters, analytic approach to explain the main features of the fidelity revival is also performed. Our results give an insight of the scarring nature of the periodically driven PXP model and pave the way to understand their (sub-)harmonic responses and controls.
翻訳日:2023-01-09 04:06:40 公開日:2022-12-30
# 量子重ね合わせを脱離するホライズンを殺す

Killing Horizons Decohere Quantum Superpositions ( http://arxiv.org/abs/2301.00026v1 )

ライセンス: Link先を確認
Daine L. Danielson, Gautam Satishchandran, Robert M. Wald(参考訳) 我々は最近、質量の大きい(あるいは荷電された)天体が量子空間上の重ね合わせに置かれる場合、その近傍にブラックホールが存在するだけで、最終的に重ね合わせは解消されることを示した。 本稿では、より一般的に、静止重ね合わせのデコヒーレンスがキリング地平線を持つ任意の時空で起こることを示す。 これは、事実上、天体の長距離場がキリング地平線に登録され、その地平線を通して「ソフト地平線重力子/光子」の束を必要とするためである。 キリング地平線は量子重ね合わせの「どの経路」情報を収集し、有限時間で任意の量子重ね合わせをデコヒートする。 特に、平時時における量子重ね合わせにおける一様加速体の場合を分析することは指導的である。 リンドラーの視点から見ると、重ね合わせはリンドラーの地平線を(リンドラーの)エネルギーで伝播する「ソフト・グラビトン/フォトン」によって解かれている。 このデコヒーレンス効果は、ウンルー放射の存在によって生じるデコヒーレンスと、それより大きいデコヒーレンスとの違いを示す。 さらに、慣性の観点から、デコヒーレンスは、高周波数(慣性)グラビトン/光子からヌル無限遠点への放射によるものであることを示す。 (リンドラー地平線を伝播する重力子/光子の概念は、零無限度に伝播する重力子/光子の概念と同じである。) また,ド・ジッター時空における宇宙地平線の存在による空間的重ね合わせのデコヒーレンスを解析した。 我々は、リンドラーと宇宙論の両方の場合において、そのような量子重ね合わせのデコヒーレンス時間の推定を提供する。

We recently showed that if a massive (or charged) body is put in a quantum spatial superposition, the mere presence of a black hole in its vicinity will eventually decohere the superposition. In this paper we show that, more generally, decoherence of stationary superpositions will occur in any spacetime with a Killing horizon. This occurs because, in effect, the long-range field of the body is registered on the Killing horizon which, we show, necessitates a flux of "soft horizon gravitons/photons" through the horizon. The Killing horizon thereby harvests "which path" information of quantum superpositions and will decohere any quantum superposition in a finite time. It is particularly instructive to analyze the case of a uniformly accelerating body in a quantum superposition in flat spacetime. As we show, from the Rindler perspective the superposition is decohered by "soft gravitons/photons" that propagate through the Rindler horizon with negligible (Rindler) energy. We show that this decoherence effect is distinct from--and larger than--the decoherence resulting from the presence of Unruh radiation. We further show that from the inertial perspective, the decoherence is due to the radiation of high frequency (inertial) gravitons/photons to null infinity. (The notion of gravitons/photons that propagate through the Rindler horizon is the same notion as that of gravitons/photons that propagate to null infinity.) We also analyze the decoherence of a spatial superposition due to the presence of a cosmological horizon in de Sitter spacetime. We provide estimates of the decoherence time for such quantum superpositions in both the Rindler and cosmological cases.
翻訳日:2023-01-09 04:06:14 公開日:2022-12-30
# 波長可変遮断半径を持つrydberg原子配列のゲージ理論による記述

Gauge theory description of Rydberg atom arrays with a tunable blockade radius ( http://arxiv.org/abs/2212.14644v1 )

ライセンス: Link先を確認
Yanting Cheng and Chengshu Li(参考訳) ゲージ理論の観点からは、波長可変遮断半径を持つリドバーグ原子鎖について考察する。 閉包半径が1つの格子間隔である場合、この系はpxpモデルを用いて定式化することができ、ゲージ理論、格子シュウィンガーモデルにおいて閉包-解凍遷移と同値であることが知られている$\mathbb{z}_2$イジング相転移が存在する。 さらにブロック半径が増加すると、PXPモデルに隣人(NNN)相互作用を加えることができる。 ゲージ理論の観点からNNN相互作用の解釈と有限NNN相互作用が分解挙動をどのように変化させるかについて議論し、対応する実験プロトコルを提案する。 ブロック半径が2つの格子間隔に達すると、モデルはPPXPPモデルに還元される。 PPXPPモデルと等価な新しいゲージ理論が定式化され、2つの定式化の相が定式化される。 これらの結果は、rydberg量子シミュレータで実験的に研究される。

We discuss a Rydberg atom chain with a tunable blockade radius from the gauge theoretic perspective. When the blockade radius is one lattice spacing, this system can be formulated in terms of the PXP model, and there is a $\mathbb{Z}_2$ Ising phase transition known to be equivalent to a confinement-deconfinement transition in a gauge theory, the lattice Schwinger model. Further increasing the blockade radius, one can add a next-nearest neighbor (NNN) interaction into the PXP model. We discuss the interpretation of NNN interaction in terms of the gauge theory and how finite NNN interaction alters the deconfinement behavior and propose a corresponding experimental protocol. When the blockade radius reaches two lattice spacing, the model reduces to the PPXPP model. A novel gauge theory equivalent to the PPXPP model is formulated, and the phases in the two formulations are delineated. These results are readily explored experimentally in Rydberg quantum simulators.
翻訳日:2023-01-09 03:56:03 公開日:2022-12-30
# 境界パワースペクトルを持つ自由および相互作用スカラー場理論におけるクリロフ複素性

Krylov Complexity in Free and Interacting Scalar Field Theories with Bounded Power Spectrum ( http://arxiv.org/abs/2212.14702v1 )

ライセンス: Link先を確認
Hugo A. Camargo, Viktor Jahnke, Keun-Young Kim, Mitsuhiro Nishida(参考訳) 有限温度での$d$次元における自由および相互作用する巨大なスカラー場の量子論において、Krylov複雑性として知られる作用素成長の概念を研究する。 連続運動量空間における質量,摂動相互作用による一ループ自己エネルギー,有限紫外遮断の影響を考察する。 これらの変形は、ランチョス係数とクリロフ複雑性の挙動を変化させ、前者の「スタガー」を2つのファミリーに、後者の指数的成長率を減少させ、漸近的な振る舞いの遷移を誘導する。 また,質量ギャップの存在とスタガリングの性質との関係,および連続理論における紫外カットオフと格子理論との関係についても考察した。

We study a notion of operator growth known as Krylov complexity in free and interacting massive scalar quantum field theories in $d$-dimensions at finite temperature. We consider the effects of mass, one-loop self-energy due to perturbative interactions, and finite ultraviolet cutoffs in continuous momentum space. These deformations change the behavior of Lanczos coefficients and Krylov complexity and induce effects such as the "staggering" of the former into two families, a decrease in the exponential growth rate of the latter, and transitions in their asymptotic behavior. We also discuss the relation between the existence of a mass gap and the property of staggering, and the relation between our ultraviolet cutoffs in continuous theories and lattice theories.
翻訳日:2023-01-09 03:55:44 公開日:2022-12-30
# HHLアルゴリズムを短期量子コンピューティングに適用する:非単位量子多体理論への応用

Adapting the HHL algorithm to near-term quantum computing: application to non-unitary quantum many-body theory ( http://arxiv.org/abs/2212.14781v1 )

ライセンス: Link先を確認
Nishanth Baskaran, Abhishek Singh Rawat, Dibyajyoti Chakravarti, Akshaya Jayashankar, K. Sugisaki, D. Mukherjee, and V. S. Prasannaa(参考訳) 近年の量子化学における近・長期の量子アルゴリズムの変種を考案する努力は、量子多体理論を量子コンピューティングの枠組みで扱うための既知の従来のアプローチを超越する力を与えてくれます。 本研究では、量子多体理論方程式(線形結合クラスタ(LCC)方程式)の解法として、量子線形解法(HHLアルゴリズム)を用いて、分子系の相関エネルギーの正確な推定値を得る。 LCC方程式は、量子コンピューティングにおいて通常慣れているユニタリ作用素とは対照的に、非ユニタリ波動作用素を含むことに注意する必要がある。 この研究の重要な特徴は、相関エネルギーの精度をある程度保ちながら、回路深さを著しく低減するためにHHLアルゴリズムを変更することである。 この目的のために、パイプラインベースの最適化手順と組み合わせて、縮小hhlアプローチを定式化し、実装し、検証する。 我々は11量子ビットIonQマシン上で2つの基本的ハードウェア計算を行い、最初のものは1ドルH_2$分子のポテンシャルエネルギー曲線であり、LCCに適応したHHLがハードウェアで動作することを示す。 第2の計算では、この浅い実装は$h_3^+$分子のハードウェアに合理的な結果をもたらすことを示した。

Tremendous efforts in recent years towards devising variants of near- and long-term quantum algorithms for quantum chemistry provide us with an impetus to go beyond known conventional approaches to treat quantum many-body theory in the framework of quantum computing. In this work, we identify that a quantum linear solver (the HHL algorithm) can be employed to solve quantum many-body theoretic equations (linearized coupled cluster (LCC) equations), and implement it to obtain precise estimates of the correlation energy of molecular systems. It is important to note that LCC equations involve a non-unitary wave operator, as opposed to the unitary operators that one is usually accustomed to, in quantum computing. A key feature of the work involves modifying the HHL algorithm to reduce circuit depth significantly while retaining the precision in correlation energies to a significant degree. To this end, we formulate, implement, and verify the reduced HHL approach in combination with a pipeline-based optimization procedure. We carry out two proof-of-principle hardware computations on the 11-qubit IonQ machine, with the first being the potential energy curve for the $H_2$ molecule, to demonstrate that HHL adapted to LCC works on hardware. In the second computation, we show that our shallow-depth implementation yields reasonable results on hardware for the $H_3^+$ molecule.
翻訳日:2023-01-09 03:55:31 公開日:2022-12-30
# 高周波拡散光学における導波路キャビティ散乱

Waveguide-Cavity Scattering in High-Frequency Dissipative Optomechanics ( http://arxiv.org/abs/2212.14533v1 )

ライセンス: Link先を確認
Andr\'e G. Primo, Pedro V. Pinho, Rodrigo Benevides, Simon Gr\"oblacher, Gustavo S. Wiederhecker and Thiago P. Mayer Alegre(参考訳) マイクロ波と光領域間のコヒーレントな情報伝達は、将来の量子ネットワークの基本的な構成要素である。 これらの広く異なる周波数を橋渡しする方法は、低損失光モードと相互作用する高周波ナノメカニカル共振器を使用することである。 最先端の光機械装置は、光学結合を強化するためにキャビティ内の比較的大きな光子集団を必要とするが、望ましくない光吸収から生じる熱は、量子状態において最終的にその動作を妨げる熱フォノンを生成する。 この問題を解決する方法の1つは、散逸光学を使うことである。 この枠組みでは、光子は導波路から共振器に直接散乱し、大きなキャビティ内光子集団の必要性を減らすことができる。 このような散逸的な光力学的相互作用は低い機械的周波数でのみ実証され、フォトニックドメインとフォノニックドメイン間の量子状態の移動が妨げられた。 ここでは、光線幅よりも機械周波数が大きいサイドバンド分解系で作動する最初の散逸型オプティメカティカルシステムを示す。 この前例のない体制を探求し、光学スペクトルと機械的スペクトルの両方を再構成するときに散逸的な光学結合が与える影響を実証する。 この数値は, 機械周波数の2次跳躍と, 従来の研究に比べて10倍の散逸性オプテメカカルカップリング速度を示す。 本実験は,無ノイズに近い量子環境下での強い消散性光機械デバイスへの道を開く。

The coherent transduction of information between microwave and optical domains is a fundamental building block for future quantum networks. A promising way to bridge these widely different frequencies is using high-frequency nanomechanical resonators interacting with low-loss optical modes. State-of-the-art optomechanical devices require a relatively large photon population in the cavity to enhance the acousto-optic coupling, the heat arising from undesirable optical absorption, however, generates thermal phonons that ultimately hinder their operation in the quantum regime. One way to overcome this problem is by using dissipative optomechanics. In this framework, photons can be scattered directly from a waveguide into a resonator, reducing the need for a large intra-cavity photon population. Hitherto, such dissipative optomechanical interaction was only demonstrated at low mechanical frequencies, precluding the quantum state transfer between photonic and phononic domains. Here, we show the first dissipative optomechanical system operating in the sideband-resolved regime, where the mechanical frequency is larger than the optical linewidth. Exploring this unprecedented regime, we demonstrate the impact of dissipative optomechanical coupling in reshaping both mechanical and optical spectra. Our figures represent a two-order-of-magnitude leap in the mechanical frequency and a tenfold increase in the dissipative optomechanical coupling rate compared to previous works. The present demonstration opens a path to strongly dissipative optomechanical devices with nearly noiseless operation in the quantum regime.
翻訳日:2023-01-09 03:20:36 公開日:2022-12-30
# 非慣性フレームにおけるGHZ様状態のシステム環境ダイナミクス

System-environment dynamics of GHZ-like states in noninertial frames ( http://arxiv.org/abs/2212.14536v1 )

ライセンス: Link先を確認
Tinggui Zhang, Hong Yang and Shao-Ming Fei(参考訳) 量子コヒーレンス、量子絡み合い、量子非局所性は、量子情報の前提となる重要な資源である。 しかし、デコヒーレンスは量子システムが外部環境と相互作用するときに起こる。 非慣性フレームにおける3量子GHZ様状態の動的進化を, 1 または 2 つの量子ビットがデコヒーレンスを受ける際に研究する。 振幅減衰チャネルの下では、量子デコヒーレンスとunruh効果は初期状態に対して大きく異なる影響を与える可能性がある。 さらに、真の三部体の絡み合いと量子コヒーレンスは、進化中に突然死する可能性がある。 量子コヒーレンスは量子デコヒーレンスとunruh効果に強く抵抗し、量子の絡み合いと3つの中で最も脆弱な量子非局所性をもたらす。 この結果は相対論的量子情報学の新しい研究視点を提供する。

Quantum coherence, quantum entanglement and quantum nonlocality are important resources in quantum information precessing. However, decoherence happens when a quantum system interacts with the external environments. We study the dynamical evolution of the three-qubit GHZ-like states in non-inertial frame when one and/or two qubits undergo decoherence. Under the amplitude damping channel we show that the quantum decoherence and the Unruh effect may have quite different influences on the initial state. Moreover, the genuine tripartite entanglement and the quantum coherence may suffer sudden death during the evolution. The quantum coherence is most resistent to the quantum decoherence and the Unruh effect, then comes the quantum entanglement and the quantum nonlocality which is most fragile among the three. The results provide a new research perspective for relativistic quantum informatics.
翻訳日:2023-01-09 03:20:12 公開日:2022-12-30
# 有限温度における普遍非アベリア位相量子コンピュータのフォールトトレラント誤差補正

Fault-tolerant error correction for a universal non-Abelian topological quantum computer at finite temperature ( http://arxiv.org/abs/2301.00054v1 )

ライセンス: Link先を確認
Alexis Schotte, Lander Burgelman, Guanyu Zhu(参考訳) 本研究では, 対生成過程と測定誤差で表される熱雑音の存在下で, トーラス上のフィボナッチアロンの二次元モデルとして構築された量子メモリの耐故障誤差補正について検討した。 修正手順は、G\'acsとHarringtonの作品に由来するセルオートマトンデコーダに基づいている。 数値シミュレーションにより,このコードがフォールトトレラントに動作し,しきい値挙動が存在する可能性が示唆された。 したがって、フォールトトレラントな普遍的非可換位相量子コンピュータの存在の強い証拠を提供する。

We study fault-tolerant error correction in a quantum memory constructed as a two-dimensional model of Fibonacci anyons on a torus, in the presence of thermal noise represented by pair-creation processes and measurement errors. The correction procedure is based on the cellular automaton decoders originating in the works of G\'acs and Harrington. Through numerical simulations, we observe that this code behaves fault-tolerantly and that threshold behavior is likely present. Hence, we provide strong evidence for the existence of a fault-tolerant universal non-Abelian topological quantum computer.
翻訳日:2023-01-09 03:19:35 公開日:2022-12-30
# 量子置換パッドを用いたFIPS互換量子セキュア通信

FIPS Compliant Quantum Secure Communication using Quantum Permutation Pad ( http://arxiv.org/abs/2301.00062v1 )

ライセンス: Link先を確認
Alex He and Dafu Lou and Eric She and Shangjie Guo and Hareesh Watson and Sibyl Weng and Maria Perepechaenko and Rand Kuang(参考訳) 量子コンピューティングは、ショアのアルゴリズムが1994年に提案されて以来、急速に発展してきた。 量子コンピューティングファームのマルチクラウドサービスは現在利用可能である。 そのうちの1つはIBMの量子コンピューティングで、2025年に4158キュービットを超えるKookaburraシステムを示すロードマップを公開している。 post-quantum cryptography(pqc)の標準化のために、national institute of standards and technology(nist)は先頃、キーカプセル化機構(kem)、kyber、デジタル署名のための3つのアルゴリズムによる標準化の最初の候補を発表した。 NISTはまた、量子セーフなデジタル署名アルゴリズムを2023年6月1日に発表した。 このタイムラインはfips認証の量子セーフtlsプロトコルが予測に時間がかかることを示している。 しかし、"steal now, crack later"戦術は、今日では将来の量子脅威アクターからデータを保護する必要がある。 nistはpqcをサポートするためにtls 1.3のハイブリッドモードの使用を推奨した。 ハイブリッドモードは特定のケースで機能するが、ハイブリッド化暗号モジュールに対するFIPS認証は依然として必要かもしれない。 本稿では,量子セーフデータを用いたTLS 1.3プロトコルを実現するネストモードを提案する。 ネストしたTLS 1.3のハンドシェイキングフェーズとPQCと対称暗号化フェーズのパフォーマンスへの影響について検討した。 ネストモードを使用したパフォーマンスに対する大きな影響は、AESによるデータ対称暗号化にある。 この性能低下を克服するために,データ暗号化に量子置換パッドを用いた量子暗号を用いることを提案する。

Quantum computing has entered fast development track since Shor's algorithm was proposed in 1994. Multi-cloud services of quantum computing farms are currently available. One of which, IBM quantum computing, presented a road map showing their Kookaburra system with over 4158 qubits will be available in 2025. For the standardization of Post-Quantum Cryptography or PQC, the National Institute of Standards and Technology or NIST recently announced the first candidates for standardization with one algorithm for key encapsulation mechanism (KEM), Kyber, and three algorithms for digital signatures. NIST has also issued a new call for quantum-safe digital signature algorithms due June 1, 2023. This timeline shows that FIPS-certified quantum-safe TLS protocol would take a predictably long time. However, "steal now, crack later" tactic requires protecting data against future quantum threat actors today. NIST recommended the use of a hybrid mode of TLS 1.3 with its extensions to support PQC. The hybrid mode works for certain cases but FIPS certification for the hybridized cryptomodule might still be required. This paper proposes to take a nested mode to enable TLS 1.3 protocol with quantum-safe data, which can be made available today and is FIPS compliant. We discussed the performance impacts of the handshaking phase of the nested TLS 1.3 with PQC and the symmetric encryption phase. The major impact on performance using the nested mode is in the data symmetric encryption with AES. To overcome this performance reduction, we suggest using quantum encryption with a quantum permutation pad for the data encryption with a minor performance reduction of less than 10 percent.
翻訳日:2023-01-09 03:19:24 公開日:2022-12-30
# 量子回路のリサイズ化

Quantum Circuit Resizing ( http://arxiv.org/abs/2301.00720v1 )

ライセンス: Link先を確認
Movahhed Sadeghi, Soheil Khadirsharbiyani, Mahmut Taylan Kandemir(参考訳) 既存の量子系は非常に限定的な物理量子ビット数を提供し、物理量よりも多くの論理量子ビットを持つ量子アルゴリズム/回路を実行しようとするとコンパイル時にエラーが発生する。 既存の量子システムが、近い将来、大きな回路を収容できる十分な数の量子ビットを提供できると期待することは現実的ではないので、小さなシステムで何らかの形で大きな回路を実行できる戦略を探求する必要がある。 本稿ではまず,回路のリサイズに最も適した量子ビットの同定を行う。 その結果、ほとんどの量子プログラムには、より少ない量子ビットを用いた回路をシリアル/シークエンシャルに実行するために中間プログラムで再利用できる量子ビットが存在することがわかった。 この観察により、我々はコンパイラベースのアプローチを設計し、実装し、評価する。 i) シリアル回路の実行に最も有用であるqubitを識別すること。 二 回路のサイズを最小化するために、各工程で再利用するクビットを選択すること。 三 ショットの実用的実装による中間測定(MM)遅延を最小限に抑え、回路信頼性を向上させる。 さらに,本手法は回路を逐次実行することを目的としているため,並列ゲート数の削減によるクロストーク誤差の最適化も可能である。 実験結果から,提案手法が有効であることが示唆された。 i) 最初は小さな回路に収まらない大規模な回路を、小さな量子ハードウェア上で実行し、 (ii) 対象の量子ハードウェアにオリジナルプログラムとシリアライズプログラムの両方が収まると、結果のpstを2.1倍向上させることができる。

Existing quantum systems provide very limited physical qubit counts, trying to execute a quantum algorithm/circuit on them that have a higher number of logical qubits than physically available lead to a compile-time error. Given that it is unrealistic to expect existing quantum systems to provide, in near future, sufficient number of qubits that can accommodate large circuit, there is a pressing need to explore strategies that can somehow execute large circuits on small systems. In this paper, first, we perform an analysis to identify the qubits that are most suitable for circuit resizing. Our results reveal that, in most quantum programs, there exist qubits that can be reused mid-program to serially/sequentially execute the circuit employing fewer qubits. Motivated by this observation, we design, implement and evaluate a compiler-based approach that i) identifies the qubits that can be most beneficial for serial circuit execution; ii) selects those qubits to reuse at each step of execution for size minimization of the circuit; and iii) minimizes Middle Measurement (MM) delays due to impractical implementation of shots to improve the circuit reliability. Furthermore, since our approach intends to execute the circuits sequentially, the crosstalk errors can also be optimized as a result of the reduced number of concurrent gates. The experimental results indicate that our proposed approach can (i) execute large circuits that initially cannot fit into small circuits, on small quantum hardware, and (ii) can significantly improve the PST of the results by 2.1X when both original and our serialized programs can fit into the target quantum hardware.
翻訳日:2023-01-09 03:18:47 公開日:2022-12-30
# 開量子系力学に対する非マルコフマスター方程式の正性保存--確率シュレーディンガー方程式のアプローチ

Positivity Preserving non-Markovian Master Equation for Open Quantum System Dynamics: Stochastic Schr\"{o}dinger Equation Approach ( http://arxiv.org/abs/2212.13362v2 )

ライセンス: Link先を確認
Wufu Shi, Yusui Chen, Quanzhen Ding, Ting Yu and Jin Wang(参考訳) 正の保存は、開量子系力学の正確な非マルコフマスター方程式において自然に保証される。 しかし、多くの近似非マルコフマスター方程式では、還元密度行列の正値性は保証されない。 本稿では,確率的シュリンガー方程式,特に量子状態拡散方程式から生成される非マルコフマスター方程式を保存する時間局所摂動と正の一般クラスを提供する。 本手法は多種多様な非マルコフ環境を適応するための適用範囲を広げたものである。 一般結果の具体例として, ボゾン環境に結合した散逸3レベル系に対する正の保存主方程式を示す。 本稿では,先行する近似非マルコフマスター方程式が正則性を保たない理由を解析して数値シミュレーションを説明する。 我々の研究は超高速量子プロセスと強結合系における非マルコフ力学の研究の道を開いた。

Positivity preservation is naturally guaranteed in exact non-Markovian master equations for open quantum system dynamics. However, in many approximated non-Markovian master equations, the positivity of the reduced density matrix is not guaranteed. In this paper, we provide a general class of time-local perturbative and positivity preserving non-Markovian master equations generated from stochastic Schr\"odinger equations, particularly quantum-state-diffusion equations. Our method has an expanded range of applicability for accommodating a vast variety of non-Markovian environments. We show the positivity preserving master equation for a dissipative three-level system coupled to a bosonic environment as a particular example of our general result. We illustrate the numerical simulations with an analysis explaining why the previous approximated non-Markovian master equations cannot preserve positivity. Our work paves the way for studying the non-Markovian dynamics in ultrafast quantum processes and strong-coupling systems.
翻訳日:2023-01-09 02:50:27 公開日:2022-12-30
# 超伝導アナログシミュレータにおけるポーラロン励起のスペクトル特性

Spectral features of polaronic excitations in a superconducting analog simulator ( http://arxiv.org/abs/2212.14859v1 )

ライセンス: Link先を確認
Julian K. Nauth and Vladimir M. Stojanovic(参考訳) 導電性超伝導量子ビットとマイクロ波共振器を用いたアナログ量子シミュレータのフレームワーク内でのポーラロン励起のスペクトル特性について検討する。 このシステムは、無分散フォノンへのスピンレスフェルミオン励起の非局所結合を記述する格子模型をエミュレートする。 このモデルは、有効励起-フォノンカップリング強度の臨界値に対する鋭い水平交差遷移によって特徴づけられ、遷移点の上方では、このモデルの基底状態は強装された励起(小さなポーラロン)に対応する。 第一種類のチェビシェフ多項式の拡張に基づき、カーネル-多項法を用いて、このシステムの運動量-周波数分解スペクトル関数を複数の異なる準運動量で幅広い周波数で評価する。 実験と接触するために,ramsey 干渉プロトコルの一般化された (マルチキュービット) バージョンに基づく局所的 (シングルキュービット) アドレタビリティを持つシステムにおける動的応答関数を抽出する手法とのリンクを確立する。

We investigate spectral properties of polaronic excitations within the framework of an analog quantum simulator based on inductively coupled superconducting qubits and microwave resonators. This system emulates a lattice model that describes a nonlocal coupling of an itinerant spinless-fermion excitation to dispersionless phonons. The model is characterized by a sharp, level-crossing transition for a critical value of the effective excitation-phonon coupling strength; above the transition point, the ground state of this model corresponds to a heavily-dressed excitation (small polaron). Using the kernel-polynomial method, based on an expansion in Chebyshev polynomials of the first kind, we evaluate the momentum-frequency resolved spectral function of this system for a broad range of frequencies at several different quasimomenta. To make contact with experiments, we establish a link with a method for extracting dynamical-response functions in systems with local (single-qubit) addressability, which is based on a generalized (multi-qubit) version of the Ramsey interference protocol.
翻訳日:2023-01-09 02:43:31 公開日:2022-12-30
# 高しきい値とバイアス付き核融合失敗に対するテーラー核融合による誤差補正

Tailoring fusion-based error correction for high thresholds to biased fusion failures ( http://arxiv.org/abs/2301.00019v1 )

ライセンス: Link先を確認
Kaavya Sahay, Jahan Claes, Shruti Puri(参考訳) 2ビットのPauli演算子$Z\otimes Z$ および $X\otimes X$ または fusions の測定結果に基づいて,XZXクラスタ状態による誤り訂正のためのフォールトトレラント(FT)アーキテクチャを導入する。 我々の構造は、主に核融合時のX$測定の失敗を引き起こすノイズに対して有効であるように調整されている。 この特徴は、二重レールフォトニック量子ビットを持つ線形光量子コンピューティングにおいて実用的な利点をもたらし、融合が失敗した場合、X\otimes X$測定結果のみを消去する。 このプラットフォームに我々の構築を適用することで、光子当たりゼロ損失率の実験的な状態において、融合失敗に対するFT閾値が25\%を超える記録的な高い値が得られ、ハードウェア要件が大幅に簡素化される。

We introduce fault-tolerant (FT) architectures for error correction with the XZZX cluster state based on performing measurements of two-qubit Pauli operators $Z\otimes Z$ and $X\otimes X$, or fusions, on a collection of few-body entangled resource states. Our construction is tailored to be effective against noise that predominantly causes faulty $X\otimes X$ measurements during fusions. This feature offers practical advantage in linear optical quantum computing with dual-rail photonic qubits, where failed fusions only erase $X\otimes X$ measurement outcomes. By applying our construction to this platform, we find a record high FT threshold to fusion failures exceeding $25\%$ in the experimentally relevant regime of non-zero loss rate per photon, considerably simplifying hardware requirements.
翻訳日:2023-01-09 02:43:13 公開日:2022-12-30
# 有限サンプリング量子ビット系における表現能力の限界

Fundamental Limits to Expressive Capacity of Finitely Sampled Qubit-Based Systems ( http://arxiv.org/abs/2301.00042v1 )

ライセンス: Link先を確認
Fangjun Hu, Gerasimos Angelatos, Saeed A. Khan, Marti Vives, Esin T\"ureci, Leon Bello, Graham E. Rowlands, Guilhem J. Ribeill, Hakan E. T\"ureci(参考訳) 量子システムによる学習の表現能力は、測定中に発生する量子サンプリングノイズによって根本的に制限される。 ノイズは量子システムの可解性を制限することを示唆する研究があるが、その学習への正確な影響は未解決のままである。 本研究では, 有限個の射影量から量子ビット系の表現能力を定量化するためのフレームワークを開発し, 超伝導量子プロセッサの実験と比較した表現能力とそれに対応する精度限界を厳密に計算する。 有限サンプリング量子系が近似できる固有関数集合を固有タスク (eigentasks) と呼ぶ。 次に,ノイズやオーバーフィッティングに頑健な方法で分類などのタスクのパフォーマンスを低ノイズ固有タスクがいかに改善するかを示す。 また,固有タスクにおける雑音低減による学習能力の向上を示唆する実験および数値解析を行った。 我々の結果は量子機械学習とセンシングアプリケーションに大きく関係している。

The expressive capacity for learning with quantum systems is fundamentally limited by the quantum sampling noise incurred during measurement. While studies suggest that noise limits the resolvable capacity of quantum systems, its precise impact on learning remains an open question. We develop a framework for quantifying the expressive capacity of qubit-based systems from finite numbers of projective measurements, and calculate a tight bound on the expressive capacity and the corresponding accuracy limit that we compare to experiments on superconducting quantum processors. We uncover the native function set a finitely-sampled quantum system can approximate, called eigentasks. We then demonstrate how low-noise eigentasks improve performance for tasks such as classification in a way that is robust to noise and overfitting. We also present experimental and numerical analyses suggesting that entanglement enhances learning capacity by reducing noise in eigentasks. Our results are broadly relevant to quantum machine learning and sensing applications.
翻訳日:2023-01-09 02:42:55 公開日:2022-12-30
# 変分量子アルゴリズムのゲートエラーロバスト性について

On the gate-error robustness of variational quantum algorithms ( http://arxiv.org/abs/2301.00048v1 )

ライセンス: Link先を確認
Daniil Rabinovich and Ernesto Campos and Soumik Adhikary and Ekaterina Pankovets and Dmitry Vinichenko and Jacob Biamonte(参考訳) 変分アルゴリズムは、現代のデバイスの限界内で動作し、性能制限エラーに苦しむように設計されている。 ここでは,変分量子アルゴリズムに自然に存在するゲートエラーの実験的関連モデルを明らかにする。 このノイズモデルの下で量子状態が変動的にデコヒーレントし、変動パラダイムのエネルギー近似に対する摂動として現れるかを研究する。 最適化回路の摂動解析により、安定補題によって課される受入基準が満たされている雑音閾値を決定することができる。 我々は,3$-SATインスタンスの変分量子近似最適化アルゴリズムと最大10$キュービット,30$レイヤーの非構造化検索との比較を行った。 最後に、特定のゲートにおけるエラーが、準備状態の品質にかなり小さい影響をもたらすことを観察する。 そこで本研究では,アルゴリズムの実行時間を最小限あるいは最小限に抑えることができ,性能に影響を与えないことを示す。

Variational algorithms are designed to work within the limitations of contemporary devices and suffer from performance limiting errors. Here we identify an experimentally relevant model for gate errors, natural to variational quantum algorithms. We study how a quantum state prepared variationally decoheres under this noise model, which manifests as a perturbation to the energy approximation in the variational paradigm. A perturbative analysis of an optimized circuit allows us to determine the noise threshold for which the acceptance criteria imposed by the stability lemma remains satisfied. We benchmark the results against the variational quantum approximate optimization algorithm for $3$-SAT instances and unstructured search with up to $10$ qubits and $30$ layers. Finally, we observe that errors in certain gates have a significantly smaller impact on the quality of the prepared state. Motivated by this, we show that it is possible to reduce the execution time of the algorithm with minimal to no impact on the performance.
翻訳日:2023-01-09 02:42:42 公開日:2022-12-30
# 量子確率の参照フレーム独立性

The reference-frame independence of quantum probabilities ( http://arxiv.org/abs/2301.00692v1 )

ライセンス: Link先を確認
Benliang Li(参考訳) 参照フレームの変化下での単一粒子波動関数の変換則について検討する。 仮定が上げられ、量子確率の参照フレーム独立に関するいくつかの基本的な側面が探求される。

We investigate the transformation rule of a single particle wave-function under a change of reference frame. A postulate is raised, and some fundamental aspects regarding the reference-frame independence of quantum probabilities are explored.
翻訳日:2023-01-09 02:42:26 公開日:2022-12-30
# 一般多部量子系における絡み合いのない非局所性

Nonlocality without entanglement in general multipartite quantum systems ( http://arxiv.org/abs/2212.14523v1 )

ライセンス: Link先を確認
Xiao-Fan Zhen, Shao-Ming Fei, and Hui-Juan Zuo(参考訳) 量子状態の非局所集合の構築は近年多くの注目を集めている。 まず直交保存局所測定の自明性に関連する2つのレマを導入する。 次に、$(\mathbb{c}^{d})^{\otimes n}$ における非局所集合 $n(d-1)+1$直交積状態の一般構成を提案する。 非局所直交積状態の集合は、任意の次元を持つ多部量子系に対しても前進する。 我々の新規な構成は、より少ないメンバーを持つ非局所的な直交積状態を生み出し、より効率的に絡み合うことなく非局所性の現象を明らかにする。

The construction of nonlocal sets of quantum states has attracted much attention in recent years. We first introduce two Lemmas related to the triviality of orthogonality-preserving local measurements. Then we propose a general construction of nonlocal set of $n(d-1)+1$ orthogonal product states in $(\mathbb{C}^{d})^{\otimes n}$. The sets of nonlocal orthogonal product states are also put forward for the multipartite quantum systems with arbitrary dimensions. Our novel construction gives rise to nonlocal sets of orthogonal product states with much less members and thus reveals the phenomenon of nonlocality without entanglement more efficiently.
翻訳日:2023-01-09 02:34:24 公開日:2022-12-30
# 自明かつ非自明な準備の量子的違反:非局所性とステアリング

Quantum violation of trivial and non-trivial preparation non-contextuality: Nonlocality and Steering ( http://arxiv.org/abs/2212.14568v1 )

ライセンス: Link先を確認
Prabuddha Roy and A. K. Pan(参考訳) 本稿では,量子ステアリングと非自明な準備コンテキストとの直接接続について述べる。 2つのパーティー2つの測定結果ごとに$(2-2)$ bellのシナリオでは、ベルの非局所性の議論は自明な準備条件の証明となるが、逆は成立しない。 当事者の1つ(例えばアリス)が2つ以上のジコトミック可観測物の測定を行った場合、アリスの可観測物の間の非自明な関数関係の集合を見つけることができる。 我々は、アリスの観測可能量の間の適切な非自明な関係の存在は、別の空間的に分離されたパーティー(例えば、ボブ)の終点における量子状態の不安定性を保証するかもしれないと論じる。 興味深いことに、そのような制約はオントロジモデルにおいて非文脈性仮定として解釈できる。 さらに、aliceの可観測性に関する上記の非自明な条件を用いて線形ステアリング不等式に変換できるベル不等式を2種類示す。 このようなステアリング不等式は、非自明な準備非文脈的不等式と見なすこともできる。 ベル式ファミリーの局所境界は、追加の非自明な条件下で減少するので、非自明な準備の非文脈的あるいは局所的境界の違反によって、ベル式と同じ族から量子ステアリングと非局所性のテストを提供し、量子ステアリングと非自明な準備の文脈との直接的な接続を確立する。

This paper illustrates a direct connection between quantum steering and non-trivial preparation contextuality. In two party-two measurement per party-two outcomes per measurement $(2-2-2)$ Bell scenario, any argument of Bell nonlocality is a proof of trivial preparation contextuality; however, the converse may not hold. If one of the parties (say, Alice) performs the measurements of more than two dichotomic observables, then it is possible to find a set of non-trivial functional relations between Alice's observables. We argue that the existence of a suitable set of such non-trivial relations between Alice's observables may warrant the unsteerability of quantum states at the end of another spatially separated party (say, Bob). Interestingly, such constraints can be read as non-trivial preparation non-contextuality assumptions in an ontological model. We further demonstrate two types of Bell inequalities that can be converted into linear steering inequalities using the aforementioned non-trivial conditions on Alice's observables. Such steering inequalities can also be considered as non-trivial preparation noncontextual inequalities. Since the local bound of the family of Bell expression gets reduced under the additional non-trivial conditions, it provides a test of quantum steering and nonlocality from the same family of Bell expressions depending upon its violation of the non-trivial preparation non-contextual or the local bound, thereby establishing a direct connection between quantum steering and non-trivial preparation contextuality.
翻訳日:2023-01-09 02:34:14 公開日:2022-12-30
# 変分量子アルゴリズムによる摂動理論の検討

Investigation of Perturbation Theory with Variational Quantum Algorithm ( http://arxiv.org/abs/2212.14575v1 )

ライセンス: Link先を確認
H.Davoodi Yeganeh(参考訳) 変分量子アルゴリズムは、ノイズ・中間スケール量子(NISQ)技術の下で量子コンピューティングを実装する最も有望なシステムの一つである。 変分量子アルゴリズムにおいて、パラメトリ化アンサッツおよび変分パラメータで表される波動関数は、量子コンピュータからの計測出力に基づいて古典コンピュータで反復更新される。 本稿では、摂動理論をこれらのアルゴリズムを用いて検討し、変動量子アルゴリズムを用いて摂動理論の量子力学をシミュレートする可能性を期待する。 解析計算とよく一致した詳細な例を用いたアルゴリズムの使用について説明する。

Variational Quantum Algorithms are among the most promising systems to implement quantum computing under the Noisy-Intermediate Scale Quantum (NISQ) technology. In variational quantum algorithm, wavefunction represented by a parametrized ansatz and variational parameters are updated iteratively with a classical computer based on the measurement outputs from the quantum computer. In this paper, we investigate perturbation theory with these algorithms and prospect the possibility of using the variational quantum algorithm to simulate quantum dynamics in perturbation theory. We illustrate the use of algorithms with detailed examples which are in good agreement with analytical calculations
翻訳日:2023-01-09 02:33:43 公開日:2022-12-30
# Kerrパラメトリック発振器の量子状態トモグラフィ

Quantum state tomography for Kerr parametric oscillators ( http://arxiv.org/abs/2212.14627v1 )

ライセンス: Link先を確認
Yuta Suzuki, Shiro Kawabata, Tsuyoshi Yamamoto, Shumpei Masuda(参考訳) 回路QEDアーキテクチャで実装されたカーパラメトリック発振器(KPO)は量子ビットとして動作することができる。 量子アニールと普遍量子計算へのそれらの応用は激しく研究されている。 これらのアプリケーションにとって、KPOs状態の読み出しは実用上重要である。 反射計測を用いたKPOのための状態トモグラフィー手法を開発した。 kpoの状態に対する反射係数の感度を調べ、反射係数が密度行列要素の一部と相関していることを確認し、反射測定と単一量子ゲートが状態トモグラフィを構成することができる。

Kerr parametric oscillators (KPOs) implemented in the circuit QED architecture can operate as qubits. Their applications to quantum annealing and universal quantum computation have been studied intensely. For these applications, the readout of the state of KPOs is of practical importance. We develop a scheme of state tomography for KPOs with reflection measurement. We examine the sensitivity of the reflection coefficient to the state of the KPO and find that the reflection coefficient has correlation with a part of the density-matrix elements, and thus the reflection measurement and single-qubit gates can constitute state tomography.
翻訳日:2023-01-09 02:33:34 公開日:2022-12-30
# schrodingerizationによる偏微分方程式の量子シミュレーション:技術的詳細

Quantum simulation of partial differential equations via Schrodingerisation: technical details ( http://arxiv.org/abs/2212.14703v1 )

ライセンス: Link先を確認
Shi Jin, Nana Liu and Yue Yu(参考訳) そこで, [jin, liu, yu, arxiv: 2212.13969] で導入されたシュロディンゲライズ法を用いて, 一般線形偏微分方程式の量子シミュレーションによる解法を提案する。 この方法は線形偏微分方程式を「シュロディンガー化」あるいはハミルトニアン系に変換し、ワープ位相変換と呼ばれる新しい単純変換を用いる。 ここでは、より詳細な技術的議論を行い、このアプローチをより詳細かつ教育的な方法で拡張します。 これを、熱、対流、フォッカープランク、ボルツマン、ブラックシェール方程式など、より多くの偏微分方程式の例に適用する。 このアプローチは、Vlasov-Fokker-Planck方程式や非線形常微分方程式のリウヴィル表現方程式など、一般的な線形偏微分方程式のシュロディンゲーズにも拡張することができる。

We study a new method - called Schrodingerisation introduced in [Jin, Liu, Yu, arXiv: 2212.13969] - for solving general linear partial differential equations with quantum simulation. This method converts linear partial differential equations into a `Schrodingerised' or Hamiltonian system, using a new and simple transformation called the warped phase transformation. Here we provide more in-depth technical discussions and expand on this approach in a more detailed and pedagogical way. We apply this to more examples of partial differential equations, including heat, convection, Fokker-Planck, linear Boltzmann and Black-Scholes equations. This approach can also be extended to Schrodingerise general linear partial differential equations, including the Vlasov-Fokker-Planck equation and the Liouville representation equation for nonlinear ordinary differential equations.
翻訳日:2023-01-09 02:33:26 公開日:2022-12-30
# 非ガウス的絡み合いの局所ガウス雑音に対する超弾性

Superior resilience of non-Gaussian entanglement against local Gaussian noises ( http://arxiv.org/abs/2212.14745v1 )

ライセンス: Link先を確認
Sergey Filippov, Alena Termanova(参考訳) 絡み合い分布課題は、局所雑音を受ける際に可能な限り長く絡み合うために、初期絡み合い状態をどのように準備すべきかという問題に遭遇する。 連続変数状態と局所ガウスチャネルの領域において、最も強固な絡み合いを持つ最適初期状態もガウス的であると仮定するのは誘惑的であるが、そうではない。 ここで、特定の非ガウジアン二モード状態は、決定論的局所減衰または増幅(減衰係数/パワーが$\kappa_i$ で、ノイズパラメータ $\mu_i$ for modes $i=1,2$) が $\kappa_1 \mu_2^2 + \kappa_2 \mu_1^2 < \frac{1}{4}(\kappa_1 + \kappa_2) (1 + \kappa_1 \kappa_2)$ であることを示す。 これらの結果は、量子情報科学における ‘Gaussian world' パラダイムをシフトさせる(ガウスのチャネルを含む最適化問題の解はガウスの状態で達成される)。

Entanglement distribution task encounters a problem of how the initial entangled state should be prepared in order to remain entangled the longest possible time when subjected to local noises. In the realm of continuous-variable states and local Gaussian channels it is tempting to assume that the optimal initial state with the most robust entanglement is Gaussian too; however, this is not the case. Here we prove that specific non-Gaussian two-mode states remain entangled under the effect of deterministic local attenuation or amplification (Gaussian channels with the attenuation factor/power gain $\kappa_i$ and the noise parameter $\mu_i$ for modes $i=1,2$) whenever $\kappa_1 \mu_2^2 + \kappa_2 \mu_1^2 < \frac{1}{4}(\kappa_1 + \kappa_2) (1 + \kappa_1 \kappa_2)$, which is a strictly larger area of parameters as compared to where Gaussian entanglement is able to tolerate noise. These results shift the ``Gaussian world'' paradigm in quantum information science (within which solutions to optimization problems involving Gaussian channels are supposed to be attained at Gaussian states).
翻訳日:2023-01-09 02:33:07 公開日:2022-12-30
# 最適絡み込み証人から得られるミラー作用素の構造について

On the structure of mirrored operators obtained from optimal entanglement witnesses ( http://arxiv.org/abs/2212.14820v1 )

ライセンス: Link先を確認
Anindita Bera, Joonwoo Bae, Beatrix C. Hiesmayr, and Dariusz Chru\'sci\'nski(参考訳) 絡み合い証人(英: Entanglement witnesses、EWs)は、絡み合い状態の検証において多用途のツールである。 ミラー化EWの枠組みは、ミラー化EWと呼ばれる双子のEWを導入することで、与えられたEWのパワーを2倍にし、ミラー化に関連する2つのEWは、分離可能な状態の集合をより効率的に結合することができる。 本研究では, 最適EWから得られるミラー作用素が正の作用素か分解可能なEWであるかを主張する予想について検討し, 有界絡み状態としても知られる正の偏移絡状態が検出できないことを示す。 この予想は最適な ews の多くの既知の例を研究することによって達成される。 しかし、最適でないものから得られるミラー化されたEWも分解不可能である。 また、極端分解可能な目撃者から得られたミラー演算子は正の半定値であることを示す。 興味深いことに、よく知られた構造的物理的近似の予想に違反する証人は、我々の予想を満たす。 これら2つの予想の複雑な関係を議論し、分離性問題の新たな構造を明らかにする。

Entanglement witnesses (EWs) are a versatile tool in the verification of entangled states. The framework of mirrored EW doubles the power of a given EW by introducing its twin -- a mirrored EW -- whereby two EWs related by mirroring can bound the set of separable states more efficiently. In this work, we investigate the relation between the EWs and its mirrored ones, and present a conjecture which claims that the mirrored operator obtained from an optimal EW is either a positive operator or a decomposable EW, which implies that positive-partial-transpose entangled states, also known as the bound entangled states, cannot be detected. This conjecture is reached by studying numerous known examples of optimal EWs. However, the mirrored EWs obtained from the non-optimal ones can be non-decomposable as well. We also show that mirrored operators obtained from the extremal decomposable witnesses are positive semi-definite. Interestingly, the witnesses that violate the well known conjecture of Structural Physical Approximation, do satisfy our conjecture. The intricate relation between these two conjectures is discussed and it reveals a novel structure of the separability problem.
翻訳日:2023-01-09 02:32:29 公開日:2022-12-30
# スケールするPMDPにおけるタスクガイドIRL

Task-Guided IRL in POMDPs that Scales ( http://arxiv.org/abs/2301.01219v1 )

ライセンス: Link先を確認
Franck Djeumou and Christian Ellis and Murat Cubuktepe and Craig Lennon and Ufuk Topcu(参考訳) 逆強化学習(IRL)では、学習エージェントが専門家のデモンストレーションを用いて、基礎となるタスクを符号化する報酬関数を推論する。 しかし、既存のIRL技術の多くは、エージェントが環境に関する完全な情報にアクセスできることをしばしば非現実的に仮定している。 部分観測可能なマルコフ決定過程(POMDP)において、IRLのアルゴリズムを開発することにより、この仮定を除去する。 既存のIRL技術の2つの限界に対処する。 まず、専門家と学習者の情報非対称性のため、過剰な量のデータを必要とする。 第2に、これらのIRL技術のほとんどは、計算的に難解な前方問題(報酬関数を与えられた最適ポリシーを計算)をPOMDPで解く必要がある。 時相論理で表されるタスク仕様をirlに組み込むことにより,情報非対称性を低減し,データ効率を向上させる。 このような仕様は、デモに加えて学習者の事前情報として解釈することができる。 さらに、アルゴリズムは、エントロピーとは対照的にデモンストレーションの可能性を測る尺度として、因果エントロピーに基づくアルゴリズムの複雑さの共通源を避ける。 しかしながら、結果として生じる問題は、いわゆる前方問題による非凸である。 我々は,局所的最適方針に収束することを保証した逐次線形計画法によって,前方問題の本質的非凸性をスケーラブルに解く。 高忠実度Unityシミュレータの実験を含む一連の例では、限られた量のデータと数万の状態のPMDPであっても、提案アルゴリズムは与えられた側情報を利用して専門家に類似した振る舞いを誘導しながら、タスクを満たす報酬関数とポリシーを学習する。

In inverse reinforcement learning (IRL), a learning agent infers a reward function encoding the underlying task using demonstrations from experts. However, many existing IRL techniques make the often unrealistic assumption that the agent has access to full information about the environment. We remove this assumption by developing an algorithm for IRL in partially observable Markov decision processes (POMDPs). We address two limitations of existing IRL techniques. First, they require an excessive amount of data due to the information asymmetry between the expert and the learner. Second, most of these IRL techniques require solving the computationally intractable forward problem -- computing an optimal policy given a reward function -- in POMDPs. The developed algorithm reduces the information asymmetry while increasing the data efficiency by incorporating task specifications expressed in temporal logic into IRL. Such specifications may be interpreted as side information available to the learner a priori in addition to the demonstrations. Further, the algorithm avoids a common source of algorithmic complexity by building on causal entropy as the measure of the likelihood of the demonstrations as opposed to entropy. Nevertheless, the resulting problem is nonconvex due to the so-called forward problem. We solve the intrinsic nonconvexity of the forward problem in a scalable manner through a sequential linear programming scheme that guarantees to converge to a locally optimal policy. In a series of examples, including experiments in a high-fidelity Unity simulator, we demonstrate that even with a limited amount of data and POMDPs with tens of thousands of states, our algorithm learns reward functions and policies that satisfy the task while inducing similar behavior to the expert by leveraging the provided side information.
翻訳日:2023-01-04 14:22:51 公開日:2022-12-30
# 電子商取引利用者の配送オプション選択

E-commerce users' preferences for delivery options ( http://arxiv.org/abs/2301.00666v1 )

ライセンス: Link先を確認
Yuki Oyama, Daisuke Fukuda, Naoto Imura, Katsuhiro Nishinari(参考訳) 多くのeコマースマーケットプレースでは、ユーザのニーズに応えて、迅速な配送オプションを無償で提供しています。 したがって、Eコマース利用者の配送オプションの好みを理解することが、ロジスティクスポリシーの設計の鍵となる。 そこで本研究では,全国3大都市圏の利用者4,062名を対象に,異なる配送オプションと時間帯の中から選択課題に直面した選択調査を設計した。 このデータを解析するために、味の不均一性を捉える混合ロジットモデルと柔軟な置換パターンを推定した。 モデル推定の結果,料金,時間,時間スロットサイズを含むデリバリ属性が,デリバリオプション選択の重要な要因であることがわかった。 また, 年齢, 性別, テレワーク頻度, 配送ボックスの存在など, ユーザの嗜好と社会デマログラフィー的特徴との関係についても示唆した。 さらに,納期短縮(VODT)と時間スロット短縮(VOTS)の2つの価値を分析し,非半パラメトリック手法を用いて分布をデータ指向で推定した。 VODTは回答者の間で大きな異質性を持っているが、推定中央値VODTは25.6 JPY/日であり、回答者の半数以上が26 JPYで配達手数料が引き上げられた場合、即ち迅速な配達オプションは必要ではなく、安くもほぼ無料でも要求することが多いことを示唆している。 さらに、VOTSは低く、中央値が5.0JPY/hourであり、つまり、ユーザーは金銭的な用語で時間スロットサイズの削減を高く評価していない。 電子商取引ユーザーの好みに関するこれらの知見は、ラストマイル配送のためのサービスのレベルを設計し、その効率を大幅に向上させるのに役立つ。

Many e-commerce marketplaces offer their users fast delivery options for free to meet the increasing needs of users, imposing an excessive burden on city logistics. Therefore, understanding e-commerce users' preference for delivery options is a key to designing logistics policies. To this end, this study designs a stated choice survey in which respondents are faced with choice tasks among different delivery options and time slots, which was completed by 4,062 users from the three major metropolitan areas in Japan. To analyze the data, mixed logit models capturing taste heterogeneity as well as flexible substitution patterns have been estimated. The model estimation results indicate that delivery attributes including fee, time, and time slot size are significant determinants of the delivery option choices. Associations between users' preferences and socio-demographic characteristics, such as age, gender, teleworking frequency and the presence of a delivery box, were also suggested. Moreover, we analyzed two willingness-to-pay measures for delivery, namely, the value of delivery time savings (VODT) and the value of time slot shortening (VOTS), and applied a non-semiparametric approach to estimate their distributions in a data-oriented manner. Although VODT has a large heterogeneity among respondents, the estimated median VODT is 25.6 JPY/day, implying that more than half of the respondents would wait an additional day if the delivery fee were increased by only 26 JPY, that is, they do not necessarily need a fast delivery option but often request it when cheap or almost free. Moreover, VOTS was found to be low, distributed with the median of 5.0 JPY/hour; that is, users do not highly value the reduction in time slot size in monetary terms. These findings on e-commerce users' preferences can help in designing levels of service for last-mile delivery to significantly improve its efficiency.
翻訳日:2023-01-03 16:28:08 公開日:2022-12-30
# 市場中立株ポートフォリオ取引のためのロバスト機械学習パイプライン

Robust machine learning pipelines for trading market-neutral stock portfolios ( http://arxiv.org/abs/2301.00790v1 )

ライセンス: Link先を確認
Thomas Wong and Mauricio Barahona(参考訳) 深層学習アルゴリズムの金融データへの適用は、非定常性が高いため、制度変更時に過度に適合するモデルに繋がる可能性があるため困難である。 本研究では,Numeraiのトーナメントデータセットをモチベーションの例として用いて,市場環境の変化に頑健な表型データに基づいて,市場中立の株式ポートフォリオを取引するための機械学習パイプラインを提案する。 パイプライン構築ブロックとして,グラディエントブースティング決定木(GBDT)やニューラルネットワークなど,さまざまな機械学習モデルを評価した。 ドロップアウトディスプレイを用いたGBDTモデルは, 比較的低複雑性で, 計算コストの低減が図られている。 次に, オンライン学習手法が予測後処理に利用され, 結果が向上することを示す。 特に、動的特徴中立化(Dynamic feature neutralization)は、モデルの再トレーニングを必要とせず、任意の機械学習モデルに予測後に適用できる効率的な手順であり、揮発性市場条件の低下を減らすことで堅牢性を改善する。 さらに,最近のモデル性能に基づく動的モデル選択によるモデルアンサンブルの作成は,シャープと静寂の比率を改善することにより,ベースラインよりもパフォーマンスが向上することを示す。 また,異なるデータ分割とランダム種子間のパイプラインのロバスト性を評価し,再現性も良好に評価した。

The application of deep learning algorithms to financial data is difficult due to heavy non-stationarities which can lead to over-fitted models that underperform under regime changes. Using the Numerai tournament data set as a motivating example, we propose a machine learning pipeline for trading market-neutral stock portfolios based on tabular data which is robust under changes in market conditions. We evaluate various machine-learning models, including Gradient Boosting Decision Trees (GBDTs) and Neural Networks with and without simple feature engineering, as the building blocks for the pipeline. We find that GBDT models with dropout display high performance, robustness and generalisability with relatively low complexity and reduced computational cost. We then show that online learning techniques can be used in post-prediction processing to enhance the results. In particular, dynamic feature neutralisation, an efficient procedure that requires no retraining of models and can be applied post-prediction to any machine learning model, improves robustness by reducing drawdown in volatile market conditions. Furthermore, we demonstrate that the creation of model ensembles through dynamic model selection based on recent model performance leads to improved performance over baseline by improving the Sharpe and Calmar ratios. We also evaluate the robustness of our pipeline across different data splits and random seeds with good reproducibility of results.
翻訳日:2023-01-03 16:27:33 公開日:2022-12-30
# 電子商取引における情報抽出のためのジェネレーティブ・アドバイザリ・ネットワークによるクエリ拡張

Modified Query Expansion Through Generative Adversarial Networks for Information Extraction in E-Commerce ( http://arxiv.org/abs/2301.00036v1 )

ライセンス: Link先を確認
Altan Cakir and Mert Gurkan(参考訳) 本研究は,eコマースにおける情報検索の有効性を高めるために,GAN(Generative Adversarial Network)を用いたクエリ拡張(QE)の代替手法を提案する。 テキスト入力から意味情報を提案する合成クエリでクエリを拡張し、キーワードを解消する改良型QE条件付きGAN(mQE-CGAN)フレームワークを提案する。 我々は、シーケンス-シーケンス変換トランスモデルを生成器として訓練し、キーワードを生成し、再帰ニューラルネットワークモデルを識別器として使用し、逆出力を生成器で分類する。 改良されたCGANフレームワークでは、クエリドキュメントコーパスから収集されたさまざまな意味的な洞察が生成プロセスに導入される。 これらの知見をジェネレータモデルの条件として活用し,クエリ拡張タスクの有効性について考察する。 実験により,mQE-CGANフレームワークにおける条件構造の利用により,生成シーケンスと参照ドキュメント間の意味的類似性が,ベースラインモデルと比較して10%近く向上することを示した。

This work addresses an alternative approach for query expansion (QE) using a generative adversarial network (GAN) to enhance the effectiveness of information search in e-commerce. We propose a modified QE conditional GAN (mQE-CGAN) framework, which resolves keywords by expanding the query with a synthetically generated query that proposes semantic information from text input. We train a sequence-to-sequence transformer model as the generator to produce keywords and use a recurrent neural network model as the discriminator to classify an adversarial output with the generator. With the modified CGAN framework, various forms of semantic insights gathered from the query document corpus are introduced to the generation process. We leverage these insights as conditions for the generator model and discuss their effectiveness for the query expansion task. Our experiments demonstrate that the utilization of condition structures within the mQE-CGAN framework can increase the semantic similarity between generated sequences and reference documents up to nearly 10% compared to baseline models
翻訳日:2023-01-03 16:23:45 公開日:2022-12-30
# ランク付けにおけるバイアス表現群の検出

Detection of Groups with Biased Representation in Ranking ( http://arxiv.org/abs/2301.00719v1 )

ライセンス: Link先を確認
Yuval Moskovitch, Jinyang Li, H. V. Jagadish(参考訳) 多くの重要なドメインにおける意思決定のための実生活ツールは、ランキング結果に基づいている。 アルゴリズム的公正に対する意識の高まりに伴い、近年の研究では、ランク付けにおける公平性の尺度が提示されている。 これらの定義の多くは、妥当な$k$ に対して、上位$k$ランクの項目において、異なる ``protected groups'' の表現を考える。 保護されたグループを考えると、アルゴリズムの公正性を確認することは簡単な作業である。 しかし、グループの定義は事前に不明である。 本稿では,保護されたグループを事前に定義する必要をなくし,上位ランクの項目に偏りのあるグループを検出する問題について検討する。 そのような群の数は指数関数的であり、問題を難しくする。 本研究では,グローバル表現境界と比例表現という2つの異なるフェアネス尺度に対する効率的な探索アルゴリズムを提案する。 次に,shapley値の概念を利用した群表現におけるバイアスを説明する手法を提案する。 本研究は,提案手法のスケーラビリティを実証し,提案アルゴリズムの有用性を実証する実験により結論付けた。

Real-life tools for decision-making in many critical domains are based on ranking results. With the increasing awareness of algorithmic fairness, recent works have presented measures for fairness in ranking. Many of those definitions consider the representation of different ``protected groups'', in the top-$k$ ranked items, for any reasonable $k$. Given the protected groups, confirming algorithmic fairness is a simple task. However, the groups' definitions may be unknown in advance. In this paper, we study the problem of detecting groups with biased representation in the top-$k$ ranked items, eliminating the need to pre-define protected groups. The number of such groups possible can be exponential, making the problem hard. We propose efficient search algorithms for two different fairness measures: global representation bounds, and proportional representation. Then we propose a method to explain the bias in the representations of groups utilizing the notion of Shapley values. We conclude with an experimental study, showing the scalability of our approach and demonstrating the usefulness of the proposed algorithms.
翻訳日:2023-01-03 16:13:42 公開日:2022-12-30
# 10億サンプルのK中心クラスタリングのための大域的最適化アルゴリズム

A Global Optimization Algorithm for K-Center Clustering of One Billion Samples ( http://arxiv.org/abs/2301.00061v1 )

ライセンス: Link先を確認
Jiayang Ren, Ningning You, Kaixun Hua, Chaojie Ji, Yankai Cao(参考訳) 本稿では,クラスタ内距離の最大化を目的とした,K中心クラスタリング問題に対する実用的なグローバル最適化アルゴリズムを提案する。 このアルゴリズムは、縮小空間分岐と境界スキームに基づいており、中心の領域に分岐するだけで、有限個のステップでグローバル最適への収束を保証する。 効率を向上させるため,我々は2段階の分解可能な下限を設計,その解は閉じた形で導出できることを示した。 さらに,本研究では,境界の締め付け,サンプルの削減,並列化など,中心領域を狭めるいくつかの加速手法を提案する。 合成および実世界のデータセットに関する大規模な研究により、我々のアルゴリズムは、シリアルモードで1000万サンプル、並列モードで10億サンプルに対して、K中心の問題を4時間以内にグローバルに最適に解けることを示した。 さらに,最先端のヒューリスティック法と比較して,本アルゴリズムにより得られた大域的最適度は,合成および実世界のデータセットすべてにおいて,平均25.8%の目標関数を減少させることができる。

This paper presents a practical global optimization algorithm for the K-center clustering problem, which aims to select K samples as the cluster centers to minimize the maximum within-cluster distance. This algorithm is based on a reduced-space branch and bound scheme and guarantees convergence to the global optimum in a finite number of steps by only branching on the regions of centers. To improve efficiency, we have designed a two-stage decomposable lower bound, the solution of which can be derived in a closed form. In addition, we also propose several acceleration techniques to narrow down the region of centers, including bounds tightening, sample reduction, and parallelization. Extensive studies on synthetic and real-world datasets have demonstrated that our algorithm can solve the K-center problems to global optimal within 4 hours for ten million samples in the serial mode and one billion samples in the parallel mode. Moreover, compared with the state-of-the-art heuristic methods, the global optimum obtained by our algorithm can averagely reduce the objective function by 25.8% on all the synthetic and real-world datasets.
翻訳日:2023-01-03 16:06:15 公開日:2022-12-30
# 行列乗算: 強い一様解答可能なノズルの検証

Matrix Multiplication: Verifying Strong Uniquely Solvable Puzzles ( http://arxiv.org/abs/2301.00074v1 )

ライセンス: Link先を確認
Matthew Anderson, Zongliang Ji and Anthony Yang Xu(参考訳) コーンとウマンスは、ある群代数の埋め込み計算に基づく高速行列乗法アルゴリズムを開発するためのフレームワークを提案した。 その後、kleinberg と szegedy による研究で、彼らはこれを strong uniquely solvable puzzles (strong usps) と呼ばれる組合せ対象の探索と結びつけた。 我々はこれらのオブジェクトの体系的なコンピュータ支援検索を開始する。 我々は,強いUSPであることを確認するために,$\mathrm{SAT}$と$\mathrm{IP}$に還元された制約に基づくアルゴリズムを開発し,実装する。 我々は、幅$k \le 5$の強いUSPの最大サイズに関する厳密な境界を生成し、従来の作業よりも大きい小さな幅のパズルを構築し、$k \le 12$の強いUSPサイズの上限を改善する。 我々の研究は、小さな定数幅のパズルのみを扱うが、強いUSPは、指数$\omega \le 2.66$でO(n^\omega)$時間で動作するような行列乗法アルゴリズムを暗示する。 我々のアルゴリズムは最速のアルゴリズムには勝てないが、我々の研究は証拠を提供し、おそらく、現在知られているものよりも効率的な行列乗算アルゴリズムを暗示する強力な usp の族を見つける道筋を提供する。

Cohn and Umans proposed a framework for developing fast matrix multiplication algorithms based on the embedding computation in certain groups algebras. In subsequent work with Kleinberg and Szegedy, they connected this to the search for combinatorial objects called strong uniquely solvable puzzles (strong USPs). We begin a systematic computer-aided search for these objects. We develop and implement constraint-based algorithms build on reductions to $\mathrm{SAT}$ and $\mathrm{IP}$ to verify that puzzles are strong USPs, and to search for large strong USPs. We produce tight bounds on the maximum size of a strong USP for width $k \le 5$, construct puzzles of small width that are larger than previous work, and improve the upper bounds on strong USP size for $k \le 12$. Although our work only deals with puzzles of small-constant width, the strong USPs we find imply matrix multiplication algorithms that run in $O(n^\omega)$ time with exponent $\omega \le 2.66$. While our algorithms do not beat the fastest algorithms, our work provides evidence and, perhaps, a path to finding families of strong USPs that imply matrix multiplication algorithms that are more efficient than those currently known.
翻訳日:2023-01-03 15:55:17 公開日:2022-12-30
# 安全・快適な自動運転のためのハイブリッド深部強化学習と計画

Hybrid Deep Reinforcement Learning and Planning for Safe and Comfortable Automated Driving ( http://arxiv.org/abs/2301.00650v1 )

ライセンス: Link先を確認
Dikshant Gupta, Mathias Klusch(参考訳) 我々は,POMDPにおける自動運転車の衝突のないナビゲーション問題を解決するためのハイブリッド学習手法HyLEARを提案する。 HyLEARは、中間学習を利用してハイブリッドプランナーの知識を深い強化学習者に埋め込んで、安全で快適な運転ポリシーを素早く決定する。 特に、歩行者経路予測とリスク対応経路計画と、運転行動規範に基づく推論とを組み合わせたハイブリッドプランナーであって、運転方針が可能な限り、乗り心地及び所定の運転行動規則の組を考慮したものである。 臨界交通シナリオのCARLA-CTS1ベンチマークによる実験結果から,HyLEARは安全・乗り心地において選択したベースラインを大幅に上回っていることがわかった。

We present a novel hybrid learning method, HyLEAR, for solving the collision-free navigation problem for self-driving cars in POMDPs. HyLEAR leverages interposed learning to embed knowledge of a hybrid planner into a deep reinforcement learner to faster determine safe and comfortable driving policies. In particular, the hybrid planner combines pedestrian path prediction and risk-aware path planning with driving-behavior rule-based reasoning such that the driving policies also take into account, whenever possible, the ride comfort and a given set of driving-behavior rules. Our experimental performance analysis over the CARLA-CTS1 benchmark of critical traffic scenarios revealed that HyLEAR can significantly outperform the selected baselines in terms of safety and ride comfort.
翻訳日:2023-01-03 15:46:54 公開日:2022-12-30
# メモリ拡張型検索辞書に基づく自動音声認識のための言語モデル

Memory Augmented Lookup Dictionary based Language Modeling for Automatic Speech Recognition ( http://arxiv.org/abs/2301.00066v1 )

ライセンス: Link先を確認
Yukun Feng and Ming Tu and Rui Xia and Chuanzeng Huang and Yuxuan Wang(参考訳) 近年の研究では、外部言語モデル(LM)を用いることで、エンドツーエンドの自動音声認識(ASR)が有効であることが示されている。 しかし、トレーニングセットで頻繁に現れるトークンの予測は依然として非常に難しい。 ロングテール予測問題は多くの応用で広く研究されてきたが、asrとlmsの研究によってのみ解決された。 本稿では,lm用の新しいメモリ拡張検索辞書ベースのトランスフォーマアーキテクチャを提案する。 新しく導入されたルックアップ辞書は、トレーニングセットにリッチなコンテキスト情報を組み込んでおり、ロングテールトークンを正確に予測するのに不可欠である。 中国語と英語のデータ集合に対する集中的な実験により,提案手法はワード/文字誤り率とテールトークン誤り率に大きな差を伴って,ベースライントランスフォーマーLMより優れていることを示した。 これは復号効率に影響を与えることなく達成される。 全体としては,提案手法がasr復号性能,特にロングテールトークンの高速化に有効であることを示す。

Recent studies have shown that using an external Language Model (LM) benefits the end-to-end Automatic Speech Recognition (ASR). However, predicting tokens that appear less frequently in the training set is still quite challenging. The long-tail prediction problems have been widely studied in many applications, but only been addressed by a few studies for ASR and LMs. In this paper, we propose a new memory augmented lookup dictionary based Transformer architecture for LM. The newly introduced lookup dictionary incorporates rich contextual information in training set, which is vital to correctly predict long-tail tokens. With intensive experiments on Chinese and English data sets, our proposed method is proved to outperform the baseline Transformer LM by a great margin on both word/character error rate and tail tokens error rate. This is achieved without impact on the decoding efficiency. Overall, we demonstrate the effectiveness of our proposed method in boosting the ASR decoding performance, especially for long-tail tokens.
翻訳日:2023-01-03 15:30:33 公開日:2022-12-30
# GANExplainer: GANベースのグラフニューラルネットワーク説明器

GANExplainer: GAN-based Graph Neural Networks Explainer ( http://arxiv.org/abs/2301.00012v1 )

ライセンス: Link先を確認
Yiqiao Li, Jianlong Zhou, Boyuan Zheng, Fang Chen(参考訳) グラフニューラルネットワーク(GNN)ベースのテクニックをリンク予測、ノード分類、グラフ分類といった幅広いアプリケーションに迅速に展開することで、GNNの説明可能性は、予測的かつ信頼性の高い意思決定に欠かせない要素となっている。 したがって、グラフニューラルネットワーク(GNN)が特定の予測を多くのアプリケーションで行う理由を説明することが重要である。 最近、いくつかのGNNの説明器が提案されている。 しかし、正確な正確な説明は得られていない。 これらの制約を緩和するために,gan(generative adversarial network)アーキテクチャに基づいたganexplainerを提案する。 GANExplainerは、説明を作成するジェネレータと、ジェネレータ開発を支援するディスクリミネータで構成されている。 本稿では,GANExplainerの性能を他の最先端手法と比較することにより,モデルの説明精度について検討する。 合成データセットを用いた実験結果から,ganexplainerは,その代替品と比較して,説明精度を最大35\%向上できることがわかった。

With the rapid deployment of graph neural networks (GNNs) based techniques into a wide range of applications such as link prediction, node classification, and graph classification the explainability of GNNs has become an indispensable component for predictive and trustworthy decision-making. Thus, it is critical to explain why graph neural network (GNN) makes particular predictions for them to be believed in many applications. Some GNNs explainers have been proposed recently. However, they lack to generate accurate and real explanations. To mitigate these limitations, we propose GANExplainer, based on Generative Adversarial Network (GAN) architecture. GANExplainer is composed of a generator to create explanations and a discriminator to assist with the Generator development. We investigate the explanation accuracy of our models by comparing the performance of GANExplainer with other state-of-the-art methods. Our empirical results on synthetic datasets indicate that GANExplainer improves explanation accuracy by up to 35\% compared to its alternatives.
翻訳日:2023-01-03 15:30:00 公開日:2022-12-30
# Behave-XAI:行動表現データの深い説明可能な学習

Behave-XAI: Deep Explainable Learning of Behavioral Representational Data ( http://arxiv.org/abs/2301.00016v1 )

ライセンス: Link先を確認
Rossi Kamal, Zuzana Kubincova(参考訳) 人工知能の最新トレンドによると、AIシステムは、一般的な、特定の決定、それが提供するサービスについて明確にする必要がある。 消費者だけが満足しており、例えば、分類結果が与えられた時間の結果である理由を説明する。 これは実際には、感情、アクティビティ、天気など、デジタルプラットフォームへのユーザの関与がコンテキストから決定される行動マイニングシナリオに、説明可能な、あるいは人間の理解可能なaiを使用するモチベーションになります。 しかし、aiシステムの出力は常に体系的に正しく、しばしば体系的に正しいわけではないが、明らかに完全ではないため、なぜ決定が下されるのかといった混乱が生じる。 下にある理由は何か? この文脈で、我々はまず深層畳み込みニューラルネットワークアーキテクチャにおける行動マイニング問題を定式化する。 最終的に,ユーザの生理的および環境的センサ読み取りから時系列データが存在するために,再帰的ニューラルネットワークを適用する。 モデルが開発されると、ユーザーの前でxaiモデルの出現と共に説明が提示される。 この重要なステップは、ユーザーが従来のAIよりも説明を好み、説明の信頼性を判断する広範囲なトライアルである。

According to the latest trend of artificial intelligence, AI-systems needs to clarify regarding general,specific decisions,services provided by it. Only consumer is satisfied, with explanation , for example, why any classification result is the outcome of any given time. This actually motivates us using explainable or human understandable AI for a behavioral mining scenario, where users engagement on digital platform is determined from context, such as emotion, activity, weather, etc. However, the output of AI-system is not always systematically correct, and often systematically correct, but apparently not-perfect and thereby creating confusions, such as, why the decision is given? What is the reason underneath? In this context, we first formulate the behavioral mining problem in deep convolutional neural network architecture. Eventually, we apply a recursive neural network due to the presence of time-series data from users physiological and environmental sensor-readings. Once the model is developed, explanations are presented with the advent of XAI models in front of users. This critical step involves extensive trial with users preference on explanations over conventional AI, judgement of credibility of explanation.
翻訳日:2023-01-03 15:29:44 公開日:2022-12-30
# ステレオマッチングのための画像結合ボリューム伝搬

Image-Coupled Volume Propagation for Stereo Matching ( http://arxiv.org/abs/2301.00695v1 )

ライセンス: Link先を確認
Oh-Hun Kwon, Eduard Zell(参考訳) メモリ要求の4Dコストボリュームと、特徴マッチングのための計算集約的な3D畳み込みに依存している。 2つの異なる概念を1つの深く統合されたフレームワークに統合し、共生関係を実現する4Dコストボリュームを処理する新しい方法を提案する。 特徴マッチング部はベースラインに沿ってマッチング画素対を識別し、並行画像ボリューム部は深度からモノへのcnnにインスパイアされる。 しかし、画像特徴から直接深度を予測する代わりに、画素マッチングのあいまいさを解決するための追加のコンテキストを提供する。 技術的には、4Dコストボリュームの処理を2D伝搬部と3D伝搬部とに分離する。 左画像の特徴マップから始めて、2D伝搬は、幾何学的文脈に視覚的特徴を加えることで、コストボリュームの3D伝搬部を異なる層で支援する。 両部品を組み合わせることで、マッチング部の3次元畳み込み層の規模を精度を犠牲にすることなく安全に低減することができる。 KITTI2012とETH3Dベンチマークでは、エンドツーエンドのトレーニング済みCNNが第2位にランクされ、第1ランクの手法よりもはるかに高速であることが示された。 さらに,画像とマッチングボリュームの結合は,定性解析によって示されるように,微細な詳細性を向上させる。

Several leading methods on public benchmarks for depth-from-stereo rely on memory-demanding 4D cost volumes and computationally intensive 3D convolutions for feature matching. We suggest a new way to process the 4D cost volume where we merge two different concepts in one deeply integrated framework to achieve a symbiotic relationship. A feature matching part is responsible for identifying matching pixels pairs along the baseline while a concurrent image volume part is inspired by depth-from-mono CNNs. However, instead of predicting depth directly from image features, it provides additional context to resolve ambiguities during pixel matching. More technically, the processing of the 4D cost volume is separated into a 2D propagation and a 3D propagation part. Starting from feature maps of the left image, the 2D propagation assists the 3D propagation part of the cost volume at different layers by adding visual features to the geometric context. By combining both parts, we can safely reduce the scale of 3D convolution layers in the matching part without sacrificing accuracy. Experiments demonstrate that our end-to-end trained CNN is ranked 2nd on KITTI2012 and ETH3D benchmarks while being significantly faster than the 1st-ranked method. Furthermore, we notice that the coupling of image and matching-volume improves fine-scale details as demonstrated by our qualitative analysis.
翻訳日:2023-01-03 15:21:12 公開日:2022-12-30
# imitator:パーソナライズされた音声駆動3d顔アニメーション

Imitator: Personalized Speech-driven 3D Facial Animation ( http://arxiv.org/abs/2301.00023v1 )

ライセンス: Link先を確認
Balamurugan Thambiraja, Ikhsanul Habibie, Sadegh Aliakbarian, Darren Cosker, Christian Theobalt, Justus Thies(参考訳) 音声駆動の3d顔アニメーションは、ゲーム、キャラクターアニメーション、仮想現実、テレプレゼンスシステムなどで広く研究されている。 State-of-the-artメソッドは、ターゲットアクターの顔トポロジーを変形させ、ターゲットアクターの個人固有の話し方や顔の慣用性を考慮して入力オーディオを同期させる。 そこで本研究では,短い入力映像から身元特定の詳細を学習し,対象俳優の身元特定発話スタイルと顔特徴に合致した新たな表情表現を生成する,音声駆動表情合成手法であるイミテータを提案する。 具体的には,音声駆動式に先立って使用する大規模な表情データセット上で,スタイル非依存トランスフォーマーをトレーニングする。 この先程に基づいて、短い参照ビデオに基づいて、識別特化音声スタイルを最適化する。 先行訓練のために,検出されたバイラビアル子音に基づく新たな損失関数を導入し,口唇閉鎖を確実にし,生成した表現のリアリズムを改善する。 提案手法は,詳細な実験とユーザスタディを通じて,ターゲットアクターの発話スタイルを保ちながら,入力音声から時間的コヒーレントな表情を生成することを示す。

Speech-driven 3D facial animation has been widely explored, with applications in gaming, character animation, virtual reality, and telepresence systems. State-of-the-art methods deform the face topology of the target actor to sync the input audio without considering the identity-specific speaking style and facial idiosyncrasies of the target actor, thus, resulting in unrealistic and inaccurate lip movements. To address this, we present Imitator, a speech-driven facial expression synthesis method, which learns identity-specific details from a short input video and produces novel facial expressions matching the identity-specific speaking style and facial idiosyncrasies of the target actor. Specifically, we train a style-agnostic transformer on a large facial expression dataset which we use as a prior for audio-driven facial expressions. Based on this prior, we optimize for identity-specific speaking style based on a short reference video. To train the prior, we introduce a novel loss function based on detected bilabial consonants to ensure plausible lip closures and consequently improve the realism of the generated expressions. Through detailed experiments and a user study, we show that our approach produces temporally coherent facial expressions from input audio while preserving the speaking style of the target actors.
翻訳日:2023-01-03 15:04:24 公開日:2022-12-30
# 仮想カテーテルパス最適化による冠動脈CTおよび血管内画像の形態学的非剛性登録

Morphology-based non-rigid registration of coronary computed tomography and intravascular images through virtual catheter path optimization ( http://arxiv.org/abs/2301.00060v1 )

ライセンス: Link先を確認
Karim Kadry, Abhishek Karmakar, Andreas Schuh, Kersten Peterson, Michiel Schaap, David Marlevi, Charles Taylor, Elazer Edelman, and Farhad Nezami(参考訳) 冠動脈造影(CCTA)は閉塞性冠動脈疾患の存在,範囲,重症度に関する情報を提供する。 ccta由来の指標を分析した大規模臨床研究は、通常、高忠実度3d血管内イメージングの形で地上検証を必要とする。 しかし,手動による血管内画像とCCTA画像との整合性は,時間とユーザに依存している。 さらに、血管内モダリティは、画像カテーテル経路の歪みに起因するいくつかの非剛性運動誘発歪みに悩まされる。 そこで本研究では, 血管内画像とccta画像との剛体および非剛体マッチングのための半自動セグメンテーションに基づく枠組みを提案する。 血管内画像の冠状動脈形態を再現するために,CCTAデータをサンプリングする最適な \emph{virtual catheter path} の発見という観点から,この問題を定式化する。 縦型および回転型登録のための基礎的真理として,分岐ランドマークを用いた患者40ドルのコホートを用いて,共同登録枠組みを検証する。 以上の結果から, 縦方向(平均3.3フレーム)と回転方向(平均28.6度)では, 光分岐アライメントの他の共登録法を有意に上回った。 自動マルチモーダル血管内データ融合のための差別化可能なフレームワークを提供することにより,大規模マルチモーダル臨床研究に必要な手作業を大幅に削減するとともに,機械学習によるコレジゲーション手法の開発のための確かな基盤を提供する。

Coronary Computed Tomography Angiography (CCTA) provides information on the presence, extent, and severity of obstructive coronary artery disease. Large-scale clinical studies analyzing CCTA-derived metrics typically require ground-truth validation in the form of high-fidelity 3D intravascular imaging. However, manual rigid alignment of intravascular images to corresponding CCTA images is both time consuming and user-dependent. Moreover, intravascular modalities suffer from several non-rigid motion-induced distortions arising from distortions in the imaging catheter path. To address these issues, we here present a semi-automatic segmentation-based framework for both rigid and non-rigid matching of intravascular images to CCTA images. We formulate the problem in terms of finding the optimal \emph{virtual catheter path} that samples the CCTA data to recapitulate the coronary artery morphology found in the intravascular image. We validate our co-registration framework on a cohort of $n=40$ patients using bifurcation landmarks as ground truth for longitudinal and rotational registration. Our results indicate that our non-rigid registration significantly outperforms other co-registration approaches for luminal bifurcation alignment in both longitudinal (mean mismatch: 3.3 frames) and rotational directions (mean mismatch: 28.6 degrees). By providing a differentiable framework for automatic multi-modal intravascular data fusion, our developed co-registration modules significantly reduces the manual effort required to conduct large-scale multi-modal clinical studies while also providing a solid foundation for the development of machine learning-based co-registration approaches.
翻訳日:2023-01-03 15:03:59 公開日:2022-12-30
# 動的推論のためのベイズ学習

Bayesian Learning for Dynamic Inference ( http://arxiv.org/abs/2301.00032v1 )

ライセンス: Link先を確認
Aolin Xu, Peng Guan(参考訳) 伝統的な統計学的推論は、興味の量の推定は、その量の将来の進化に影響を与えないという意味で静的である。 しかし、いくつかの逐次推定問題では、推定すべき量の将来値は現在の値の推定に依存する。 この種の推定問題は動的推論問題として定式化されている。 本研究では、未知量生成モデルがランダムモデルパラメータに従ってランダムに描画されると仮定された動的推論のためのベイズ学習問題を定式化する。 推論損失を最小限に抑えるために、オフラインとオンラインの両方で最適なベイズ学習ルールを導出する。 さらに、動的推論の学習はメタ問題として機能し、教師付き学習、模倣学習、強化学習を含む一般的な機械学習問題を、その特別なケースや変種としてキャストすることができる。 この統一されたメタ問題を十分に理解することで、幅広い機械学習問題にも光を当てることになる。

The traditional statistical inference is static, in the sense that the estimate of the quantity of interest does not affect the future evolution of the quantity. In some sequential estimation problems however, the future values of the quantity to be estimated depend on the estimate of its current value. This type of estimation problems has been formulated as the dynamic inference problem. In this work, we formulate the Bayesian learning problem for dynamic inference, where the unknown quantity-generation model is assumed to be randomly drawn according to a random model parameter. We derive the optimal Bayesian learning rules, both offline and online, to minimize the inference loss. Moreover, learning for dynamic inference can serve as a meta problem, such that all familiar machine learning problems, including supervised learning, imitation learning and reinforcement learning, can be cast as its special cases or variants. Gaining a good understanding of this unifying meta problem thus sheds light on a broad spectrum of machine learning problems as well.
翻訳日:2023-01-03 14:44:56 公開日:2022-12-30
# 長期記憶とTOPSISによる深部反復学習

Deep Recurrent Learning Through Long Short Term Memory and TOPSIS ( http://arxiv.org/abs/2301.00693v1 )

ライセンス: Link先を確認
Rossi Kamal, Zuzana Kubincova, Mosaddek Hossain Kamal, Upama Kabir(参考訳) エンタープライズリソース計画(ERP)ソフトウェアは、企業のビジネスプロセス内でソフトウェアフローを維持するために、リソースとデータをまとめます。 しかし、クラウドコンピューティングの安価で簡単で迅速な管理の約束は、ビジネスオーナーにモノリシックからデータセンター/クラウドベースのERPへの移行を迫る。 クラウドERP開発には、計画、実装、テスト、アップグレードといった循環的なプロセスが伴うため、その採用はディープリカレントニューラルネットワーク問題として実現されている。 最終的に、長寿命メモリ(LSTM)とTOPSISに基づく分類アルゴリズムが提案され、それぞれ採用特徴を識別およびランク付けする。 我々の理論モデルは、キープレーヤー、サービス、アーキテクチャ、機能を明確にすることで、参照モデル上で検証される。 技術,イノベーション,抵抗問題を考慮した質的調査を行い,主要な採用要因に関する仮説を定式化する。

Enterprise resource planning (ERP) software brings resources, data together to keep software-flow within business processes in a company. However, cloud computing's cheap, easy and quick management promise pushes business-owners for a transition from monolithic to a data-center/cloud based ERP. Since cloud-ERP development involves a cyclic process, namely planning, implementing, testing and upgrading, its adoption is realized as a deep recurrent neural network problem. Eventually, a classification algorithm based on long short term memory (LSTM) and TOPSIS is proposed to identify and rank, respectively, adoption features. Our theoretical model is validated over a reference model by articulating key players, services, architecture, functionalities. Qualitative survey is conducted among users by considering technology, innovation and resistance issues, to formulate hypotheses on key adoption factors.
翻訳日:2023-01-03 14:37:13 公開日:2022-12-30
# ガイド遊びからの学習:単純な補助的タスクによる敵模倣学習の探索の改善

Learning from Guided Play: Improving Exploration for Adversarial Imitation Learning with Simple Auxiliary Tasks ( http://arxiv.org/abs/2301.00051v1 )

ライセンス: Link先を確認
Trevor Ablett, Bryan Chan, Jonathan Kelly(参考訳) 逆模倣学習(Adversarial mimicion learning, AIL)は、後者が被る分布シフトを低減する教師付き模倣学習の代替として人気がある。 しかし、AILはオンライン強化学習フェーズにおいて効果的な探索を必要とする。 本研究は,ailで学習した方針が専門的分布と十分に一致する場合に,所望のタスクを十分に学習することなく,標準的かつナイーブな探索アプローチが最適の局所的最大値として現れることを示す。 これは特に、専門家と専門家でない状態-アクションペアの違いが微妙な操作タスクでは破滅的です。 本稿では,主課題に加えて,複数の探索的補助課題のエキスパートによる実演を活用できるフレームワークであるLearning from Guided Play (LfGP)を紹介する。 これらの補助的なタスクを追加することで、エージェントは標準のAILが無視することを学べる状態や行動を探さざるを得なくなる。 さらに、この特別な定式化により、メインタスク間の専門家データの再利用が可能になる。 実験結果から,多タスクロボット操作領域において,lfgpはailと行動クローンの両方よりも有意に優れており,また,これらのベースラインよりもエキスパートサンプル効率が高いことが示された。 この性能の差を説明するために,局所的な最大値と貧弱な探索の結合を強調する玩具問題のさらなる解析と,ailから学習したモデルとlfgpとの差異を可視化する。

Adversarial imitation learning (AIL) has become a popular alternative to supervised imitation learning that reduces the distribution shift suffered by the latter. However, AIL requires effective exploration during an online reinforcement learning phase. In this work, we show that the standard, naive approach to exploration can manifest as a suboptimal local maximum if a policy learned with AIL sufficiently matches the expert distribution without fully learning the desired task. This can be particularly catastrophic for manipulation tasks, where the difference between an expert and a non-expert state-action pair is often subtle. We present Learning from Guided Play (LfGP), a framework in which we leverage expert demonstrations of multiple exploratory, auxiliary tasks in addition to a main task. The addition of these auxiliary tasks forces the agent to explore states and actions that standard AIL may learn to ignore. Additionally, this particular formulation allows for the reusability of expert data between main tasks. Our experimental results in a challenging multitask robotic manipulation domain indicate that LfGP significantly outperforms both AIL and behaviour cloning, while also being more expert sample efficient than these baselines. To explain this performance gap, we provide further analysis of a toy problem that highlights the coupling between a local maximum and poor exploration, and also visualize the differences between the learned models from AIL and LfGP.
翻訳日:2023-01-03 14:26:55 公開日:2022-12-30
# 大規模言語モデルを用いたターゲットフィッシングキャンペーン

Targeted Phishing Campaigns using Large Scale Language Models ( http://arxiv.org/abs/2301.00665v1 )

ライセンス: Link先を確認
Rabimba Karanjai(参考訳) 本研究では, GPT-3 や GPT-2 などの自然言語モデル (NLM) が有効なフィッシングメールを生成する可能性を探究する。 フィッシングメール(英: phishing email)は、個人を騙して機密情報を暴露したり、攻撃者に利益をもたらす行動を起こそうとする詐欺メッセージである。 本研究では, テキストの品質, スパムフィルタをバイパスする能力, 個人を騙す成功率など, さまざまな基準に基づいて, メール生成におけるNLMの性能を評価する枠組みを提案する。 評価の結果、nlmは検出が難しいフィッシングメールを生成でき、個人を騙すのに成功率が高いが、その効果は特定のnlmと使用するトレーニングデータによって異なることがわかった。 本研究は,NLMがフィッシング攻撃の頻度に重大な影響を与える可能性を示唆し,悪質な目的のためにNLMを使用することによる倫理的およびセキュリティ上の影響について,さらなる研究の必要性を強調した。

In this research, we aim to explore the potential of natural language models (NLMs) such as GPT-3 and GPT-2 to generate effective phishing emails. Phishing emails are fraudulent messages that aim to trick individuals into revealing sensitive information or taking actions that benefit the attackers. We propose a framework for evaluating the performance of NLMs in generating these types of emails based on various criteria, including the quality of the generated text, the ability to bypass spam filters, and the success rate of tricking individuals. Our evaluations show that NLMs are capable of generating phishing emails that are difficult to detect and that have a high success rate in tricking individuals, but their effectiveness varies based on the specific NLM and training data used. Our research indicates that NLMs could have a significant impact on the prevalence of phishing attacks and emphasizes the need for further study on the ethical and security implications of using NLMs for malicious purposes.
翻訳日:2023-01-03 14:15:52 公開日:2022-12-30
# 多相流計における異常挙動検出のための時系列予測

Time series Forecasting to detect anomalous behaviours in Multiphase Flow Meters ( http://arxiv.org/abs/2301.00014v1 )

ライセンス: Link先を確認
Tommaso Barbariol, Davide Masiero, Enrico Feltresi, Gian Antonio Susto(参考訳) 多相フローメータ(MPFM)のための自己診断のための異常検出(AD)システムを開発した。 このシステムは、時系列予測のための機械学習アルゴリズムに依存しており、過去のデータはモデルをトレーニングし、センサの振る舞いを予測し、異常を検出するために使用されている。

An Anomaly Detection (AD) System for Self-diagnosis has been developed for Multiphase Flow Meter (MPFM). The system relies on machine learning algorithms for time series forecasting, historical data have been used to train a model and to predict the behavior of a sensor and, thus, to detect anomalies.
翻訳日:2023-01-03 14:09:15 公開日:2022-12-30
# 関連情報に基づく自己組織化保存グラフ構造学習

Self-organization Preserved Graph Structure Learning with Principle of Relevant Information ( http://arxiv.org/abs/2301.00015v1 )

ライセンス: Link先を確認
Qingyun Sun, Jianxin Li, Beining Yang, Xingcheng Fu, Hao Peng, Philip S. Yu(参考訳) ほとんどのグラフニューラルネットワークは、観測された構造が接地ノードの関係を描写していると仮定して、メッセージパッシングパラダイムに従う。 しかし、実世界のグラフは常に不完全、ノイズ、冗長であるため、この基本的な仮定は常に満足できない。 統一的な方法で固有のグラフ構造を明らかにする方法は、未検討のままである。 pri-gslは,関連情報の原則に導かれるグラフ構造学習フレームワークであり,自己組織化を識別し,隠れ構造を明らかにするための,単純で統一的なフレームワークを提供する。 PRI-GSLは、フォン・ノイマンエントロピーと量子ジェンセン=シャノン発散によって定量化された最も関連性が最も低い冗長情報を含む構造を学ぶ。 PRI-GSLは、グラフウェーブレットによる量子連続歩行の進化を取り入れ、ノード構造の役割を符号化し、ノードがグラフ構造と相互作用し自己組織化する様子を示す。 大規模な実験はPRI-GSLの優れた有効性と堅牢性を示す。

Most Graph Neural Networks follow the message-passing paradigm, assuming the observed structure depicts the ground-truth node relationships. However, this fundamental assumption cannot always be satisfied, as real-world graphs are always incomplete, noisy, or redundant. How to reveal the inherent graph structure in a unified way remains under-explored. We proposed PRI-GSL, a Graph Structure Learning framework guided by the Principle of Relevant Information, providing a simple and unified framework for identifying the self-organization and revealing the hidden structure. PRI-GSL learns a structure that contains the most relevant yet least redundant information quantified by von Neumann entropy and Quantum Jensen-Shannon divergence. PRI-GSL incorporates the evolution of quantum continuous walk with graph wavelets to encode node structural roles, showing in which way the nodes interplay and self-organize with the graph structure. Extensive experiments demonstrate the superior effectiveness and robustness of PRI-GSL.
翻訳日:2023-01-03 14:09:10 公開日:2022-12-30
# 成功によるタスク優先化による強化学習

Reinforcement Learning with Success Induced Task Prioritization ( http://arxiv.org/abs/2301.00691v1 )

ライセンス: Link先を確認
Maria Nesterova, Alexey Skrynnik, Aleksandr Panov(参考訳) 多くの困難な強化学習(RL)問題は、効果的な政策の訓練に応用可能なタスクの分散を設計する必要がある。 このタスクの分布はカリキュラムによって指定できる。 カリキュラムは、学習の結果を改善し、それを加速することを目的としています。 本稿では,各タスクの成功率に基づいてタスクシーケンスを生成する自動カリキュラム学習フレームワークであるSuccess induced Task Prioritization (SITP)を紹介する。 この設定では、各タスクは独自の設定を持つアルゴリズムで生成された環境インスタンスである。 アルゴリズムはエージェントに最速の学習を提供するタスクの順序を選択する。 学習の次の段階におけるタスクを選択する確率は、そのパフォーマンススコアを前段で評価することにより決定される。 複数のエージェント(pogema)とprocgenベンチマークのための部分観測可能なグリッド環境で実験を行った。 我々は,SITPが他のカリキュラム設計手法と一致するか,あるいは上回っていることを示す。 提案手法は,任意の標準RLフレームワークにわずかな修正を加えて実装可能であり,計算オーバーヘッドを最小限に抑えることができる。

Many challenging reinforcement learning (RL) problems require designing a distribution of tasks that can be applied to train effective policies. This distribution of tasks can be specified by the curriculum. A curriculum is meant to improve the results of learning and accelerate it. We introduce Success Induced Task Prioritization (SITP), a framework for automatic curriculum learning, where a task sequence is created based on the success rate of each task. In this setting, each task is an algorithmically created environment instance with a unique configuration. The algorithm selects the order of tasks that provide the fastest learning for agents. The probability of selecting any of the tasks for the next stage of learning is determined by evaluating its performance score in previous stages. Experiments were carried out in the Partially Observable Grid Environment for Multiple Agents (POGEMA) and Procgen benchmark. We demonstrate that SITP matches or surpasses the results of other curriculum design methods. Our method can be implemented with handful of minor modifications to any standard RL framework and provides useful prioritization with minimal computational overhead.
翻訳日:2023-01-03 14:08:24 公開日:2022-12-30
# ニューラルネットワーク翻訳のためのアクティブラーニング

Active Learning for Neural Machine Translation ( http://arxiv.org/abs/2301.00688v1 )

ライセンス: Link先を確認
Neeraj Vashistha, Kriti Singh, Ramakant Shakya(参考訳) 機械翻訳機構は、異なる自然言語間で自動的にテキストを翻訳し、ニューラル機械翻訳(nmt)はその合理的な文脈分析と流れる翻訳精度で注目を集めている。 しかし、教師付きデータのような関連するトレーニング属性を持たない低リソース言語を処理することは、現在自然言語処理(NLP)の課題である。 NMTツールキットのJoey NMTにActive Learningと呼ばれるテクニックを組み込んで、低リソース言語翻訳の十分な精度と堅牢な予測を行った。 セミ教師付き機械学習戦略であるactive learningによって、トレーニングアルゴリズムは、選択したクエリ技術を使用してラベルを取得するのに最も有益なラベルなしデータを決定する。 検証対象のサンプルを選択するためのモデル駆動獲得関数を2つ実装した。 本研究は、トランスフォーマーベースのNMTシステム、ベースラインモデル(BM)、フルトレーニングモデル(FTM)、アクティブラーニング最小信頼モデル(ALLCM)、アクティブラーニングマージンサンプリングベースモデル(ALMSM)を用いて、英語をヒンディー語に翻訳する。 システム結果の評価にはblu(bilingual evaluation understudy)メトリックが用いられてきた。 BLEUのBM、FTM、ALLCM、ALMSMのスコアはそれぞれ16.26、22.56、24.54、24.20である。 本稿では,能動的学習手法がモデルの早期収束と翻訳システム全体の品質向上に寄与することを示す。

The machine translation mechanism translates texts automatically between different natural languages, and Neural Machine Translation (NMT) has gained attention for its rational context analysis and fluent translation accuracy. However, processing low-resource languages that lack relevant training attributes like supervised data is a current challenge for Natural Language Processing (NLP). We incorporated a technique known Active Learning with the NMT toolkit Joey NMT to reach sufficient accuracy and robust predictions of low-resource language translation. With active learning, a semi-supervised machine learning strategy, the training algorithm determines which unlabeled data would be the most beneficial for obtaining labels using selected query techniques. We implemented two model-driven acquisition functions for selecting the samples to be validated. This work uses transformer-based NMT systems; baseline model (BM), fully trained model (FTM) , active learning least confidence based model (ALLCM), and active learning margin sampling based model (ALMSM) when translating English to Hindi. The Bilingual Evaluation Understudy (BLEU) metric has been used to evaluate system results. The BLEU scores of BM, FTM, ALLCM and ALMSM systems are 16.26, 22.56 , 24.54, and 24.20, respectively. The findings in this paper demonstrate that active learning techniques helps the model to converge early and improve the overall quality of the translation system.
翻訳日:2023-01-03 14:00:55 公開日:2022-12-30
# マスケード言語モデルによる条件の整合性について

On the Inconsistencies of Conditionals Learned by Masked Language Models ( http://arxiv.org/abs/2301.00068v1 )

ライセンス: Link先を確認
Tom Young, Yang You(参考訳) シーケンス内のマスクトークンを予測する学習は、大規模言語モデルの強力な事前学習目標であることが示されている。 トレーニング後、このようなマスキング言語モデルは、双方向コンテキストで条件付けられたトークンの分布を提供することができる。 この短い草案では、このような双方向条件は、しばしばかなりの矛盾、すなわち、一緒に考えるときの一貫性のある関節分布から導出できないことを示す。 マスク付き言語モデルの一般的なスタイルである t5 形式と bert 形式に対して,bigram の単純なシナリオにおいて,このような矛盾を経験的に定量化する。 例えば、T5モデルは2つの類似のビッグラムに関して、その好みを混乱させることが多い。 このような矛盾は、BERTスタイルのMLMによって学習された双方向条件に基づくサンプリングシーケンスの研究における理論的落とし穴となる可能性がある。 この現象はまた、マスクの量によってT5スタイルのMLMが相違する結果をもたらすことを意味しており、これは特定の信頼の問題を表している可能性がある。

Learning to predict masked tokens in a sequence has been shown to be a powerful pretraining objective for large-scale language models. After training, such masked language models can provide distributions of tokens conditioned on bidirectional context. In this short draft, we show that such bidirectional conditionals often demonstrate considerable inconsistencies, i.e., they can not be derived from a coherent joint distribution when considered together. We empirically quantify such inconsistencies in the simple scenario of bigrams for two common styles of masked language models: T5-style and BERT-style. For example, we show that T5 models often confuse its own preference regarding two similar bigrams. Such inconsistencies may represent a theoretical pitfall for the research work on sampling sequences based on the bidirectional conditionals learned by BERT-style MLMs. This phenomenon also means that T5-style MLMs capable of infilling will generate discrepant results depending on how much masking is given, which may represent a particular trust issue.
翻訳日:2023-01-03 13:49:48 公開日:2022-12-30
# オーディオディープフェイク検出における敵攻撃対策

Defense Against Adversarial Attacks on Audio DeepFake Detection ( http://arxiv.org/abs/2212.14597v1 )

ライセンス: Link先を確認
Piotr Kawa, Marcin Plata, Piotr Syga(参考訳) オーディオDeepFakesは、ディープラーニング手法を用いて人工的に生成された発声であり、主にリスナーを騙すことを目的としている。 彼らの品質は、ニュースの信頼性や破壊など、セキュリティとプライバシーの面で深刻な脅威をもたらすのに十分である。 脅威を回避するために,複数のニューラルネットワークを用いた生成音声検出手法が提案されている。 本研究は,入力データに表面的(人によって見分けにくい)変化を加えることで,検出器の性能を低下させる敵対的攻撃の話題を扱っている。 本研究の貢献は,2つのシナリオ(ホワイトボックスとトランスファービリティ機構)における敵意攻撃に対する3つの検出アーキテクチャのロバスト性の評価と,本手法による敵意トレーニングによる後続強化を含む。

Audio DeepFakes are artificially generated utterances created using deep learning methods with the main aim to fool the listeners, most of such audio is highly convincing. Their quality is sufficient to pose a serious threat in terms of security and privacy, such as the reliability of news or defamation. To prevent the threats, multiple neural networks-based methods to detect generated speech have been proposed. In this work, we cover the topic of adversarial attacks, which decrease the performance of detectors by adding superficial (difficult to spot by a human) changes to input data. Our contribution contains evaluating the robustness of 3 detection architectures against adversarial attacks in two scenarios (white-box and using transferability mechanism) and enhancing it later by the use of adversarial training performed by our novel adaptive training method.
翻訳日:2023-01-02 17:56:32 公開日:2022-12-30
# 1次元操作gansによる実世界の音声のブラインド復元

Blind Restoration of Real-World Audio by 1D Operational GANs ( http://arxiv.org/abs/2212.14618v1 )

ライセンス: Link先を確認
Turker Ince, Serkan Kiranyaz, Ozer Can Devecioglu, Muhammad Salman Khan, Muhammad Chowdhury, and Moncef Gabbouj(参考訳) 目的: 文献に音声復元のための多くの研究が提案されているが、その多くは孤立した修復問題、例えば脱音や脱残といった問題に焦点をあて、他の成果物を無視している。 また,信号対歪比(SDR)の固定数が限られた雑音環境や残響環境を仮定することが一般的である。 しかし、現実のオーディオは、残響、センサーノイズ、様々なタイプ、重大さ、持続時間を含むバックグラウンドオーディオの混合によって、しばしば破壊される。 本研究では,実世界の音声信号の視覚的復元を,時間的・スペクトル的客観的な指標を用いたOp-GAN(Operational Generative Adversarial Networks)により提案する手法について,各アーチファクトのタイプや重大さに関わらず,復元された音声信号の品質を向上させる。 方法: 1DオペレーショナルGANは、劣化した音声信号のブラインド復元に最適化された生成ニューロンモデルで使用される。 結果:提案手法は,実世界のオーディオ信号を模倣するために,ランダムに混ざったアーチファクトをランダムにブレンドしたデータセットとgtzan-rar(non-speech)データセットに対して広く評価されている。 平均的な7.2dbと4.9dbのsdr改善がそれぞれ達成されており、これはベースライン法と比較すると相当である。 意義:これは、広いsdr範囲とアーティファクトタイプで前例のないパフォーマンスを達成しつつ、実世界のオーディオを直接(時間領域)復元するユニークな能力を持つブラインドオーディオ復元における先駆的な研究である。 結論: 1D Op-GANは、性能が大幅に向上し、堅牢で計算に有効な実世界のオーディオ再生を実現することができる。 ソースコードと生成された実世界のオーディオデータセットは、専用のgithubリポジトリ1で研究コミュニティと共有される。

Objective: Despite numerous studies proposed for audio restoration in the literature, most of them focus on an isolated restoration problem such as denoising or dereverberation, ignoring other artifacts. Moreover, assuming a noisy or reverberant environment with limited number of fixed signal-to-distortion ratio (SDR) levels is a common practice. However, real-world audio is often corrupted by a blend of artifacts such as reverberation, sensor noise, and background audio mixture with varying types, severities, and duration. In this study, we propose a novel approach for blind restoration of real-world audio signals by Operational Generative Adversarial Networks (Op-GANs) with temporal and spectral objective metrics to enhance the quality of restored audio signal regardless of the type and severity of each artifact corrupting it. Methods: 1D Operational-GANs are used with generative neuron model optimized for blind restoration of any corrupted audio signal. Results: The proposed approach has been evaluated extensively over the benchmark TIMIT-RAR (speech) and GTZAN-RAR (non-speech) datasets corrupted with a random blend of artifacts each with a random severity to mimic real-world audio signals. Average SDR improvements of over 7.2 dB and 4.9 dB are achieved, respectively, which are substantial when compared with the baseline methods. Significance: This is a pioneer study in blind audio restoration with the unique capability of direct (time-domain) restoration of real-world audio whilst achieving an unprecedented level of performance for a wide SDR range and artifact types. Conclusion: 1D Op-GANs can achieve robust and computationally effective real-world audio restoration with significantly improved performance. The source codes and the generated real-world audio datasets are shared publicly with the research community in a dedicated GitHub repository1.
翻訳日:2023-01-02 17:56:14 公開日:2022-12-30
# 分離ノード同定に基づくNISQ対応コミュニティ検出

NISQ-ready community detection based on separation-node identification ( http://arxiv.org/abs/2212.14717v1 )

ライセンス: Link先を確認
Jonas Stein, Dominik Ott, Mirco Schoenfeld, Sebastian Feld(参考訳) ネットワーク構造の解析は、生物学から社会学まで、多くの科学分野に不可欠である。 これらのネットワークを分割にクラスタリングする計算タスク、すなわちコミュニティ検出問題の解決は一般にNPハードであり、ヒューリスティックな解は不可欠である。 迅速なヒューリスティックスの研究は、量子コンピューティングの新興技術における特に有望なアプローチの開発につながった。 確立された量子コミュニティ検出手法のハードウェア要求により,QUBOベースの新しいアプローチを導入し,ノード数のみを必要とし,QUBO行列を入力グラフの隣接行列としてスパースとして表現する。 QUBO行列の空間性は、典型的には非常に密集しているため、分離ノードという新しい概念によって大幅に改善される。 このアプローチは、すべてのノードをコミュニティに直接割り当てる代わりに、分離ノードセットの識別に依存します。 分離ノードセットから特定されたコミュニティコアにノードを割り当てるために欲深いヒューリスティックを用いることで、その後の実験結果は概念実証をもたらす。 この研究は、大規模実世界の問題インスタンスのネットワーク構造解析に対する量子コンピュータの応用を触媒する、nisqが準備した量子コミュニティ検出への有望なアプローチを示している。

The analysis of network structure is essential to many scientific areas, ranging from biology to sociology. As the computational task of clustering these networks into partitions, i.e., solving the community detection problem, is generally NP-hard, heuristic solutions are indispensable. The exploration of expedient heuristics has led to the development of particularly promising approaches in the emerging technology of quantum computing. Motivated by the substantial hardware demands for all established quantum community detection approaches, we introduce a novel QUBO based approach that only needs number-of-nodes many qubits and is represented by a QUBO-matrix as sparse as the input graph's adjacency matrix. The substantial improvement on the sparsity of the QUBO-matrix, which is typically very dense in related work, is achieved through the novel concept of separation-nodes. Instead of assigning every node to a community directly, this approach relies on the identification of a separation-node set, which -- upon its removal from the graph -- yields a set of connected components, representing the core components of the communities. Employing a greedy heuristic to assign the nodes from the separation-node sets to the identified community cores, subsequent experimental results yield a proof of concept. This work hence displays a promising approach to NISQ ready quantum community detection, catalyzing the application of quantum computers for the network structure analysis of large scale, real world problem instances.
翻訳日:2023-01-02 17:55:31 公開日:2022-12-30
# 低所得国・中所得国における集中治療室患者のAIを用いた心エコー図の機械学習ケーススタディ

A Machine Learning Case Study for AI-empowered echocardiography of Intensive Care Unit Patients in low- and middle-income countries ( http://arxiv.org/abs/2212.14510v1 )

ライセンス: Link先を確認
Xochicale Miguel and Thwaites Louise and Yacoub Sophie and Pisani Luigi and Tran Huy Nhat Phung and Kerdegari Hamideh and King Andrew and Gomez Alberto(参考訳) LMICにおけるICU患者のデータを用いたリアルタイムAIを用いた心エコー図法の臨床翻訳の課題について,機械学習(ML)を用いた研究事例を報告する。 このようなMLケーススタディには、LMICの31人のICU患者の2D Ultrasoundビデオからのデータ準備、キュレーション、ラベル付け、モデル選択、アピカル四面体ビューの分類のための3つのより薄いニューラルネットワークの検証と展開が含まれる。 MLヒューリスティックスの結果、限られたデータセットで4CVを分類するために、より薄いネットワークの実装、検証、応用が期待できることを示した。 私たちはこの研究を結論付けます。 (a)人口、疾患の多様性を改善するためのデータセット b) LMIC の ICU で臨床翻訳を行うために,より薄いモデルを実行し,低コストなハードウェアで実装するためのさらなる調査の必要性。 この作業を再現するコードやその他のリソースは、https://github.com/vital-ultrasound/ai-assisted-echocardiography-for-low-resource-countriesで入手できる。

We present a Machine Learning (ML) study case to illustrate the challenges of clinical translation for a real-time AI-empowered echocardiography system with data of ICU patients in LMICs. Such ML case study includes data preparation, curation and labelling from 2D Ultrasound videos of 31 ICU patients in LMICs and model selection, validation and deployment of three thinner neural networks to classify apical four-chamber view. Results of the ML heuristics showed the promising implementation, validation and application of thinner networks to classify 4CV with limited datasets. We conclude this work mentioning the need for (a) datasets to improve diversity of demographics, diseases, and (b) the need of further investigations of thinner models to be run and implemented in low-cost hardware to be clinically translated in the ICU in LMICs. The code and other resources to reproduce this work are available at https://github.com/vital-ultrasound/ai-assisted-echocardiography-for-low-resource-countries.
翻訳日:2023-01-02 17:50:32 公開日:2022-12-30
# ニューラルネットワークによるポントリャーギン最適制御

Pontryagin Optimal Controller via Neural Networks ( http://arxiv.org/abs/2212.14566v1 )

ライセンス: Link先を確認
Chengyang Gu, Yize Chen(参考訳) 実世界の最適制御問題は、システムダイナミクスが高度に非線形であるか、あるいは非凸目的や制約を含んでいるか、あるいはダイナミクスが未知である場合があり、最適な制御アクションを数値的に解くのが難しいため、困難なタスクである。 本稿では,ニューラルネットワークをポントリャーギンの最小原理(PMP)と統合し,計算効率の良いフレームワークNN-PMPを提案する。 結果として生じるコントローラは未知の複雑な力学を持つシステムに実装することができる。 ニューラルネットワークによってパラメータ化された正確なサーロゲートモデルを利用するだけでなく、pmp条件を介して最適なアクションシーケンスと共に最適条件を効率的に回復することができる。 非線形火星基地運用におけるおもちゃの例と実世界の損失エネルギー貯蔵の例は、提案したNN-PMPが最適解を見つけるための汎用的で汎用的な計算ツールであることを実証している。 線形力学を近似した数値最適化解法と比べ,NN-PMPはより効率的なシステムモデリングと制御目的の観点から高い性能を実現する。

Solving real-world optimal control problems are challenging tasks, as the system dynamics can be highly non-linear or including nonconvex objectives and constraints, while in some cases the dynamics are unknown, making it hard to numerically solve the optimal control actions. To deal with such modeling and computation challenges, in this paper, we integrate Neural Networks with the Pontryagin's Minimum Principle (PMP), and propose a computationally efficient framework NN-PMP. The resulting controller can be implemented for systems with unknown and complex dynamics. It can not only utilize the accurate surrogate models parameterized by neural networks, but also efficiently recover the optimality conditions along with the optimal action sequences via PMP conditions. A toy example on a nonlinear Martian Base operation along with a real-world lossy energy storage arbitrage example demonstrates our proposed NN-PMP is a general and versatile computation tool for finding optimal solutions. Compared with solutions provided by the numerical optimization solver with approximated linear dynamics, NN-PMP achieves more efficient system modeling and higher performance in terms of control objectives.
翻訳日:2023-01-02 17:50:13 公開日:2022-12-30
# 流体力学シミュレーションのためのノード要素ハイパーグラフメッセージパッシング

Node-Element Hypergraph Message Passing for Fluid Dynamics Simulations ( http://arxiv.org/abs/2212.14545v1 )

ライセンス: Link先を確認
Rui Gao, Indu Kant Deo, Rajeev K. Jaiman(参考訳) 近年のディープラーニング研究は、メッシュベースの連続体力学シミュレーションにグラフニューラルネットワークを適用している。 これらのフレームワークのほとんどは、各エッジが2つのノードを接続するグラフで動作する。 有限要素法におけるデータ接続にインスパイアされ、エッジではなく要素でノードを接続し、効果的にハイパーグラフを形成する。 このようなノード要素ハイパーグラフ上にメッセージパッシングネットワークを実装し,流体のモデリングにおけるネットワークの能力について検討する。 このネットワークは、円柱周りの流体の流れと翼配置という2つの一般的なベンチマーク問題でテストされている。 その結果,ノード要素ハイパーグラフ上に定義されたメッセージパッシングネットワークは,通常のグラフ上に定義されたベースライン一般化メッセージパッシングネットワークと比較して,より安定かつ正確な時間的ロールアウト予測を生成できることがわかった。 活性化関数の調整とトレーニング損失の調整とともに、この研究は、グラフニューラルネットワークを用いたメッシュベースの流体シミュレーションの今後の探索のための、新たな強力なベースラインを確立することを期待する。

A recent trend in deep learning research features the application of graph neural networks for mesh-based continuum mechanics simulations. Most of these frameworks operate on graphs in which each edge connects two nodes. Inspired by the data connectivity in the finite element method, we connect the nodes by elements rather than edges, effectively forming a hypergraph. We implement a message-passing network on such a node-element hypergraph and explore the capability of the network for the modeling of fluid flow. The network is tested on two common benchmark problems, namely the fluid flow around a circular cylinder and airfoil configurations. The results show that such a message-passing network defined on the node-element hypergraph is able to generate more stable and accurate temporal roll-out predictions compared to the baseline generalized message-passing network defined on a normal graph. Along with adjustments in activation function and training loss, we expect this work to set a new strong baseline for future explorations of mesh-based fluid simulations with graph neural networks.
翻訳日:2023-01-02 17:43:01 公開日:2022-12-30
# 有効寿命推定のための共形予測間隔

Conformal Prediction Intervals for Remaining Useful Lifetime Estimation ( http://arxiv.org/abs/2212.14612v1 )

ライセンス: Link先を確認
Alireza Javanmardi and Eyke H\"ullermeier(参考訳) 予後管理と健康管理の主な目的は、システムや機器が不正確な動作を開始する前にまだ作業中の状態にあるという、残りの有用な寿命(rul)を推定することである。 近年、RUL推定に多くの機械学習アルゴリズムが提案されており、主により正確なRUL予測を提供することに重点を置いている。 しかしながら、システム障害の固有のランダム性、将来の状態に関する知識の欠如、基礎となる予測モデルの不正確さなど、問題に不確実性があるため、RULを正確に予測することは不可能である。 したがって、RUL予測とともに不確実性を定量化することが最も重要である。 本研究では,対象変数(RULの場合の間隔)の可能な値の集合を点予測ではなく予測することで不確実性を表す共形予測(CP)フレームワークについて検討する。 非常に穏やかな技術的仮定の下で、CP は、実際の値(真の RUL )が事前特定可能な確実性を持った予測セットによってカバーされることを正式に保証する。 我々は,任意の単点rul予測器に適合するcpアルゴリズムを3つ検討し,有効区間予測器とした。 最後に, 2つの単一点RUL予測器, 深部畳み込みニューラルネットワーク, 勾配向上を適合させ, その性能をC-MAPSS(Commercial Modular Aero-Propulsion System Simulation)データセットで示す。

The main objective of Prognostics and Health Management is to estimate the Remaining Useful Lifetime (RUL), namely, the time that a system or a piece of equipment is still in working order before starting to function incorrectly. In recent years, numerous machine learning algorithms have been proposed for RUL estimation, mainly focusing on providing more accurate RUL predictions. However, there are many sources of uncertainty in the problem, such as inherent randomness of systems failure, lack of knowledge regarding their future states, and inaccuracy of the underlying predictive models, making it infeasible to predict the RULs precisely. Hence, it is of utmost importance to quantify the uncertainty alongside the RUL predictions. In this work, we investigate the conformal prediction (CP) framework that represents uncertainty by predicting sets of possible values for the target variable (intervals in the case of RUL) instead of making point predictions. Under very mild technical assumptions, CP formally guarantees that the actual value (true RUL) is covered by the predicted set with a degree of certainty that can be prespecified. We study three CP algorithms to conformalize any single-point RUL predictor and turn it into a valid interval predictor. Finally, we conformalize two single-point RUL predictors, deep convolutional neural networks and gradient boosting, and illustrate their performance on the Commercial Modular Aero-Propulsion System Simulation (C-MAPSS) data sets.
翻訳日:2023-01-02 17:42:45 公開日:2022-12-30
# 無線通信における遅延と信頼性最適化のための非同期ハイブリッド強化学習

Asynchronous Hybrid Reinforcement Learning for Latency and Reliability Optimization in the Metaverse over Wireless Communications ( http://arxiv.org/abs/2212.14749v1 )

ライセンス: Link先を確認
Wenhan Yu, Terence Jie Chua, Jun Zhao(参考訳) 無線通信と高性能拡張現実(XR)の技術進歩により、メタバースの開発が促進された。 メタバースアプリケーションへの需要が高まり、現実世界のシーンのリアルタイムデジタルツインニングが増加している。 それでも、2d物理世界画像の3d仮想世界シーンへのレプリケーションは計算集約的で、計算オフロードを必要とする。 送信シーン次元(3Dとは対照的に2D)の差は、アップリンク(UL)とダウンリンク(DL)の非対称データサイズにつながる。 システムの信頼性と低レイテンシを確保するため,ULの段階では,複数の拡張現実ユーザ(XU)によってキャプチャされた物理世界シーンのデータサイズが,メタバースコンソール(MC)にアップロードされ,解釈・レンダリングされるような,非同期な関節UL-DLシナリオを検討する。 DLステージでは、より大きな3D仮想世界シーンをXUに送信する必要がある。 演算オフロードおよびチャネル割り当てに関する決定は、UL段階で最適化され、MCは、UL送信段階でチャネルに割り当てられたユーザの電力割り当てを最適化する。 そこからいくつかの問題が生じる。 (i)対話型マルチプロセスチェーン、特に非同期マルコフ決定プロセス(AMDP) (ii)複数工程における共同最適化、及び (iii)高次元目的関数、又はハイブリッド報酬シナリオ。 システムの信頼性と低レイテンシを確保するために,Asynchronous Actors Hybrid Critic (AAHC) と呼ばれる新しいマルチエージェント強化学習アルゴリズム構造を設計する。 大規模な実験では、提案されたベースラインと比較して、AAHCは好ましいトレーニング時間でより良い解を得る。

Technology advancements in wireless communications and high-performance Extended Reality (XR) have empowered the developments of the Metaverse. The demand for Metaverse applications and hence, real-time digital twinning of real-world scenes is increasing. Nevertheless, the replication of 2D physical world images into 3D virtual world scenes is computationally intensive and requires computation offloading. The disparity in transmitted scene dimension (2D as opposed to 3D) leads to asymmetric data sizes in uplink (UL) and downlink (DL). To ensure the reliability and low latency of the system, we consider an asynchronous joint UL-DL scenario where in the UL stage, the smaller data size of the physical world scenes captured by multiple extended reality users (XUs) will be uploaded to the Metaverse Console (MC) to be construed and rendered. In the DL stage, the larger-size 3D virtual world scenes need to be transmitted back to the XUs. The decisions pertaining to computation offloading and channel assignment are optimized in the UL stage, and the MC will optimize power allocation for users assigned with a channel in the UL transmission stage. Some problems arise therefrom: (i) interactive multi-process chain, specifically Asynchronous Markov Decision Process (AMDP), (ii) joint optimization in multiple processes, and (iii) high-dimensional objective functions, or hybrid reward scenarios. To ensure the reliability and low latency of the system, we design a novel multi-agent reinforcement learning algorithm structure, namely Asynchronous Actors Hybrid Critic (AAHC). Extensive experiments demonstrate that compared to proposed baselines, AAHC obtains better solutions with preferable training time.
翻訳日:2023-01-02 17:41:57 公開日:2022-12-30
# 動的サンプリングに基づくディープ階層量子化圧縮アルゴリズム

Deep Hierarchy Quantization Compression algorithm based on Dynamic Sampling ( http://arxiv.org/abs/2212.14760v1 )

ライセンス: Link先を確認
Wan Jiang, Gang Liu, Xiaofeng Chen, Yipeng Zhou(参考訳) 従来の分散機械学習とは異なり、フェデレーション学習はトレーニングのためにデータをローカルに保存し、それをサーバに集約することで、従来の分散機械学習で発生するデータセキュリティ問題を解決する。 しかしながら、トレーニングプロセス中にモデルパラメータの送信は、ネットワーク帯域幅にかなりの負荷を課す可能性がある。 モデルパラメータの大部分がモデルパラメータ送信時に冗長であることが指摘されている。 本稿では,選択した部分モデルパラメータのデータ分布則について検討し,さらにモデルを圧縮し,モデルパラメータの階層的量子化を通じてデータ伝達によってもたらされるネットワーク負荷を低減する,深い階層的量子化圧縮アルゴリズムを提案する。 また,モデルの収束を加速するために,クライアントの選択に動的サンプリング戦略を採用する。 公開データセットの異なる実験結果から,提案アルゴリズムの有効性が示された。

Unlike traditional distributed machine learning, federated learning stores data locally for training and then aggregates the models on the server, which solves the data security problem that may arise in traditional distributed machine learning. However, during the training process, the transmission of model parameters can impose a significant load on the network bandwidth. It has been pointed out that the vast majority of model parameters are redundant during model parameter transmission. In this paper, we explore the data distribution law of selected partial model parameters on this basis, and propose a deep hierarchical quantization compression algorithm, which further compresses the model and reduces the network load brought by data transmission through the hierarchical quantization of model parameters. And we adopt a dynamic sampling strategy for the selection of clients to accelerate the convergence of the model. Experimental results on different public datasets demonstrate the effectiveness of our algorithm.
翻訳日:2023-01-02 17:41:31 公開日:2022-12-30
# 高次元PCAのサンプリング感度

Resampling Sensitivity of High-Dimensional PCA ( http://arxiv.org/abs/2212.14531v1 )

ライセンス: Link先を確認
Haoyu Wang(参考訳) データに対する統計手法やアルゴリズムの安定性や感度に関する研究は、機械学習や統計学において重要な問題である。 データの再サンプリング中のアルゴリズムの性能は、その安定性を測定する基本的な方法であり、アルゴリズムの一般化やプライバシと密接に関連している。 本稿では,主成分分析(PCA)における再サンプリング感度について検討する。 n \times p $ ランダム行列 $ \mathbf{X} $ を与えられたとき、$ \mathbf{X}^{[k]} $ を $ \mathbf{X} $ から得た行列とし、$ k を $ \mathbf{X} $ のランダムに選択したエントリを再サンプリングする。 $ \mathbf{v} $ と $ \mathbf{v}^{[k]} $ は $ \mathbf{X} $ と $ \mathbf{X}^{[k]} $ の主成分を表す。 比例成長体制 $ p/n \to \xi \in (0,1] $ では、PCAの感度/安定性遷移の鋭い閾値を確立する。 k \gg n^{5/3} $ のとき、主成分 $ \mathbf{v} $ と $ \mathbf{v}^{[k]} $ は漸近的に直交する。 一方、$ k \ll n^{5/3} $ のとき、主成分 $ \mathbf{v} $ と $ \mathbf{v}^{[k]} $ は漸近的に共線型である。 言い換えると、PCAは入力データに敏感であり、入力の無視部分でも再サンプリングすることで出力が完全に変化する可能性がある。

The study of stability and sensitivity of statistical methods or algorithms with respect to their data is an important problem in machine learning and statistics. The performance of the algorithm under resampling of the data is a fundamental way to measure its stability and is closely related to generalization or privacy of the algorithm. In this paper, we study the resampling sensitivity for the principal component analysis (PCA). Given an $ n \times p $ random matrix $ \mathbf{X} $, let $ \mathbf{X}^{[k]} $ be the matrix obtained from $ \mathbf{X} $ by resampling $ k $ randomly chosen entries of $ \mathbf{X} $. Let $ \mathbf{v} $ and $ \mathbf{v}^{[k]} $ denote the principal components of $ \mathbf{X} $ and $ \mathbf{X}^{[k]} $. In the proportional growth regime $ p/n \to \xi \in (0,1] $, we establish the sharp threshold for the sensitivity/stability transition of PCA. When $ k \gg n^{5/3} $, the principal components $ \mathbf{v} $ and $ \mathbf{v}^{[k]} $ are asymptotically orthogonal. On the other hand, when $ k \ll n^{5/3} $, the principal components $ \mathbf{v} $ and $ \mathbf{v}^{[k]} $ are asymptotically colinear. In words, we show that PCA is sensitive to the input data in the sense that resampling even a negligible portion of the input may completely change the output.
翻訳日:2023-01-02 17:35:15 公開日:2022-12-30
# 二重ロバスト関数推定のためのアンダースムーシングとサンプル分割について

On Undersmoothing and Sample Splitting for Estimating a Doubly Robust Functional ( http://arxiv.org/abs/2212.14857v1 )

ライセンス: Link先を確認
Sean McGrath, Rajarshi Mukherjee(参考訳) 因果推論と条件付き独立性テストの文献にまたがる応用を目撃した2重ロバストな非パラメトリック汎関数に対する最小レート・オプティマイタ構築の問題を考える。 そのような関数に対する最小値速度-最適推定器は、一般的にプラグインとワンステップ型推定器の高次偏差補正によって構成される。 本稿では,プラグインと1ステップバイアス補正推定器の最適性および/またはサブ最適性に関する関心の並列問題について考察する。 具体的には、ニュアサンス関数推定器を構築する際に、アンダースモーシング法とサンプル分割法を用いることで、ニュアザンス関数のすべてのh\"older smoothnessクラス(すなわち、拡張度スコアと結果回帰)の収束率を最小化することができ、共変量の限界密度が十分正規であることを確かめる。 さらに,これらの推定器のクラスに対して適切な下界を示すことにより,最小収束率を得るために,ニュアサンス関数推定器を過小評価する必要性を実証する。

We consider the problem of constructing minimax rate-optimal estimators for a doubly robust nonparametric functional that has witnessed applications across the causal inference and conditional independence testing literature. Minimax rate-optimal estimators for such functionals are typically constructed through higher-order bias corrections of plug-in and one-step type estimators and, in turn, depend on estimators of nuisance functions. In this paper, we consider a parallel question of interest regarding the optimality and/or sub-optimality of plug-in and one-step bias-corrected estimators for the specific doubly robust functional of interest. Specifically, we verify that by using undersmoothing and sample splitting techniques when constructing nuisance function estimators, one can achieve minimax rates of convergence in all H\"older smoothness classes of the nuisance functions (i.e. the propensity score and outcome regression) provided that the marginal density of the covariates is sufficiently regular. Additionally, by demonstrating suitable lower bounds on these classes of estimators, we demonstrate the necessity to undersmooth the nuisance function estimators to obtain minimax optimal rates of convergence.
翻訳日:2023-01-02 17:34:43 公開日:2022-12-30
# 統計的推定における重み付きデータの量子化:(Near)ミニマックスレート、共変量化、均一回復

Quantizing Heavy-tailed Data in Statistical Estimation: (Near) Minimax Rates, Covariate Quantization, and Uniform Recovery ( http://arxiv.org/abs/2212.14562v1 )

ライセンス: Link先を確認
Junren Chen, Michael K. Ng, Di Wang(参考訳) 本稿では,いくつかの基本統計的推定問題における重み付きデータの量子化について検討する。 我々は,一様量子化に先立ってデータを切断し,適切に処理することを提案する。 提案手法では, 推定誤差の最小化速度は, 提案手法が生成する量子化データからのみ達成可能である。 特に, 共分散推定, 圧縮センシング, 行列完全度について, 量子化が乗法係数をわずかに悪化させるだけという具体的な結果が得られた。 さらに,共変量(つまり,ベクトル)と応答が量子化される圧縮センシングの研究を行った。 共変量化の下では、共分散行列推定器は正の半定性に欠けるため、回復プログラムは非凸であるが、全ての局所最小化器は最適誤差境界付近で楽しむことが証明される。 さらに, 製品プロセスの濃度不等式と被覆議論により, 重み付き雑音を伴う量子化圧縮センシングのための最小値均一回復保証をほぼ確立する。

This paper studies the quantization of heavy-tailed data in some fundamental statistical estimation problems, where the underlying distributions have bounded moments of some order. We propose to truncate and properly dither the data prior to a uniform quantization. Our major standpoint is that (near) minimax rates of estimation error are achievable merely from the quantized data produced by the proposed scheme. In particular, concrete results are worked out for covariance estimation, compressed sensing, and matrix completion, all agreeing that the quantization only slightly worsens the multiplicative factor. Besides, we study compressed sensing where both covariate (i.e., sensing vector) and response are quantized. Under covariate quantization, although our recovery program is non-convex because the covariance matrix estimator lacks positive semi-definiteness, all local minimizers are proved to enjoy near optimal error bound. Moreover, by the concentration inequality of product process and covering argument, we establish near minimax uniform recovery guarantee for quantized compressed sensing with heavy-tailed noise.
翻訳日:2023-01-02 17:33:00 公開日:2022-12-30
# UBIWEAR:mHealth介入を促進する知的身体活動予測のためのエンドツーエンドのデータ駆動フレームワーク

UBIWEAR: An end-to-end, data-driven framework for intelligent physical activity prediction to empower mHealth interventions ( http://arxiv.org/abs/2212.14731v1 )

ライセンス: Link先を確認
Asterios Bampakis, Sofia Yfantidou, Athena Vakali(参考訳) 身体活動は個人の健康と健康にとって不可欠であることは間違いない。 しかし、身体的不活動の世界的な流行は、大きな個人的・社会経済的影響を引き起こしている。 近年、多くの研究が、ポジティブな健康行動変化を生み出すための自己追跡技術の能力を示している。 この研究は、自己追跡を通じて身体活動を促進するパーソナライズされ適応的な目標設定技術の可能性によって動機付けられている。 この目的のために,知的身体活動予測のためのエンドツーエンドフレームワークであるUBIWEARを提案する。 これを実現するために,身体活動予測タスクのロバストなベンチマークとして,多数の機械学習とディープラーニングのパラダイムを実験した。 モデルをトレーニングするために、何千ものユーザから収集したオープンで大規模なデータセットである"myheart counts"を使っています。 また,実世界のノイズデータに対するデータラングを容易にするために,自己追跡型データプリプロセッシングのための規範的フレームワークを提案する。 我々の最善のモデルは1087ステップのmaeを達成し、絶対誤差の面では技術水準より65%低く、身体活動予測タスクの実行可能性を証明するとともに、将来の研究への道を開く。

It is indisputable that physical activity is vital for an individual's health and wellness. However, a global prevalence of physical inactivity has induced significant personal and socioeconomic implications. In recent years, a significant amount of work has showcased the capabilities of self-tracking technology to create positive health behavior change. This work is motivated by the potential of personalized and adaptive goal-setting techniques in encouraging physical activity via self-tracking. To this end, we propose UBIWEAR, an end-to-end framework for intelligent physical activity prediction, with the ultimate goal to empower data-driven goal-setting interventions. To achieve this, we experiment with numerous machine learning and deep learning paradigms as a robust benchmark for physical activity prediction tasks. To train our models, we utilize, "MyHeart Counts", an open, large-scale dataset collected in-the-wild from thousands of users. We also propose a prescriptive framework for self-tracking aggregated data preprocessing, to facilitate data wrangling of real-world, noisy data. Our best model achieves a MAE of 1087 steps, 65% lower than the state of the art in terms of absolute error, proving the feasibility of the physical activity prediction task, and paving the way for future research.
翻訳日:2023-01-02 17:27:07 公開日:2022-12-30
# 抑うつ・不安検出のためのマルチモーダル深層学習システム

Multi-modal deep learning system for depression and anxiety detection ( http://arxiv.org/abs/2212.14490v1 )

ライセンス: Link先を確認
Brian Diep, Marija Stanojevic, Jekaterina Novikova(参考訳) 従来の不安やうつ病のスクリーニングは、これらの状態を効果的に監視し治療する上で障害となる。 しかし、最近のNLPと音声モデリングの進歩により、テキスト、音響、手作り言語に基づく特徴は、将来のメンタルヘルススクリーニングと状態検出の基礎を共同で形成することができる。 音声は個人の認知状態に関する豊富な知見の源であり、言論のさまざまな側面を活用することで、うつ病や不安に対する新しいデジタルバイオマーカーを開発することができる。 そこで本稿では,自己管理型音声タスクからの抑うつと不安のスクリーニングを行うマルチモーダルシステムを提案する。 提案モデルでは,音声とテキストの深層学習機能と,臨床的に検証されたドメイン知識から情報を得る手作り機能を統合する。 その結果,手作り特徴量の増加は,うつ病の0.58から0.63,不安の0.54から0.57という,手作り特徴の基準値と比較して,全体の分類f1スコアが向上することがわかった。 本研究は,抑うつと不安に対する音声ベースのバイオマーカーが,デジタルヘルスの将来に有意義な可能性を示唆している。

Traditional screening practices for anxiety and depression pose an impediment to monitoring and treating these conditions effectively. However, recent advances in NLP and speech modelling allow textual, acoustic, and hand-crafted language-based features to jointly form the basis of future mental health screening and condition detection. Speech is a rich and readily available source of insight into an individual's cognitive state and by leveraging different aspects of speech, we can develop new digital biomarkers for depression and anxiety. To this end, we propose a multi-modal system for the screening of depression and anxiety from self-administered speech tasks. The proposed model integrates deep-learned features from audio and text, as well as hand-crafted features that are informed by clinically-validated domain knowledge. We find that augmenting hand-crafted features with deep-learned features improves our overall classification F1 score comparing to a baseline of hand-crafted features alone from 0.58 to 0.63 for depression and from 0.54 to 0.57 for anxiety. The findings of our work suggest that speech-based biomarkers for depression and anxiety hold significant promise in the future of digital health.
翻訳日:2023-01-02 17:26:46 公開日:2022-12-30
# ドローン群による閉塞除去のための合成開口センシング

Synthetic Aperture Sensing for Occlusion Removal with Drone Swarms ( http://arxiv.org/abs/2212.14692v1 )

ライセンス: Link先を確認
Rakesh John Amala Arokia Nathan, Indrajit Kurmi and Oliver Bimber(参考訳) 我々は、捜索救助任務中に失われた人など、森林の密集した地域での被写体の検出と追跡に、自律型ドローン群がいかに効率的であるかを実証する。 局所的観察条件の探索と最適化、例えば咬合密度や目標視角の斜め性は、事前定義されたウェイポイントに基づいた以前のブラインドサンプリング戦略よりもはるかに高速で信頼性の高い結果をもたらす。 適応したリアルタイム粒子群最適化と新しい目的関数が提示され、動的かつ高度にランダムな葉の条件を扱うことができる。 合成開口センシングは我々の基本的なサンプリング原理であり、高度に広角かつ適応可能な空中レンズの光学信号の近似にドローン群を用いる。

We demonstrate how efficient autonomous drone swarms can be in detecting and tracking occluded targets in densely forested areas, such as lost people during search and rescue missions. Exploration and optimization of local viewing conditions, such as occlusion density and target view obliqueness, provide much faster and much more reliable results than previous, blind sampling strategies that are based on pre-defined waypoints. An adapted real-time particle swarm optimization and a new objective function are presented that are able to deal with dynamic and highly random through-foliage conditions. Synthetic aperture sensing is our fundamental sampling principle, and drone swarms are employed to approximate the optical signals of extremely wide and adaptable airborne lenses.
翻訳日:2023-01-02 17:26:27 公開日:2022-12-30
# 構成可能な合成誤差を用いた医用画像セグメンテーション評価のためのパフォーマンス指標の選択

Informing selection of performance metrics for medical image segmentation evaluation using configurable synthetic errors ( http://arxiv.org/abs/2212.14828v1 )

ライセンス: Link先を確認
Shuyue Guan, Ravi K. Samala, Weijie Chen(参考訳) 医療画像における機械学習に基づくセグメンテーションは、診断から放射線治療計画への臨床応用に広く用いられている。 セグメンテーションされた医療画像は、異なるセグメンテーション性能指標の特性を調べるのに有用であり、測定値の選択を知らせる。 正規幾何形状は、しばしばセグメンテーションエラーを合成し、パフォーマンスメトリクスの特性を示すために用いられるが、実際の画像における解剖学的変異の複雑さが欠如している。 本研究では,実際の医用画像から抽出した解剖学的対象物の参照(真実)マスクを調整し,セグメンテーションをエミュレートするツールを提案する。 我々のツールは、定義された真理の輪郭を修正し、異なるタイプのセグメンテーションエラーをユーザ設定可能なパラメータセットでエミュレートするように設計されている。 Glioma Image Segmentation for Radiotherapy (GLIS-RT) データベースで230の患者画像から地中真理オブジェクトを定義した。 各オブジェクトに対して、セグメンテーション合成ツールを使用して、セグメンテーションの10バージョン(例えば、10のシミュレートされたセグメンテーションまたはアルゴリズム)を合成しました。 そして、すべての合成セグメントを評価するために20のパフォーマンスメトリクスを適用しました。 特定タイプのセグメンテーションエラーをキャプチャする機能を含む,これらの指標の特性を実証した。 これらの指標の本質的な特性を分析し,セグメンテーション誤差を分類することによって,セグメンテーション性能指標の選択を支援する決定木ツールの開発を目指している。

Machine learning-based segmentation in medical imaging is widely used in clinical applications from diagnostics to radiotherapy treatment planning. Segmented medical images with ground truth are useful for investigating the properties of different segmentation performance metrics to inform metric selection. Regular geometrical shapes are often used to synthesize segmentation errors and illustrate properties of performance metrics, but they lack the complexity of anatomical variations in real images. In this study, we present a tool to emulate segmentations by adjusting the reference (truth) masks of anatomical objects extracted from real medical images. Our tool is designed to modify the defined truth contours and emulate different types of segmentation errors with a set of user-configurable parameters. We defined the ground truth objects from 230 patient images in the Glioma Image Segmentation for Radiotherapy (GLIS-RT) database. For each object, we used our segmentation synthesis tool to synthesize 10 versions of segmentation (i.e., 10 simulated segmentors or algorithms), where each version has a pre-defined combination of segmentation errors. We then applied 20 performance metrics to evaluate all synthetic segmentations. We demonstrated the properties of these metrics, including their ability to capture specific types of segmentation errors. By analyzing the intrinsic properties of these metrics and categorizing the segmentation errors, we are working toward the goal of developing a decision-tree tool for assisting in the selection of segmentation performance metrics.
翻訳日:2023-01-02 17:25:42 公開日:2022-12-30
# 分散カーネルによる変化区間の検出

Detecting Change Intervals with Isolation Distributional Kernel ( http://arxiv.org/abs/2212.14630v1 )

ライセンス: Link先を確認
Yang Cao, Ye Zhu, Kai Ming Ting, Flora D. Salim, Hong Xian Li, Gang Li(参考訳) データ分散の急激な変化を検出することは、ストリーミングデータ分析において最も重要なタスクの1つです。 多くの教師なし変更点検出(unsupervised change-point detection:cpd)法は、これらの変更を特定するために最近提案されているが、微妙な変更やスケーラビリティの貧弱さ、ノイズ点に対する感度の低下に苦しめられている。 これらの課題を克服するため,我々はcpd問題をcid(change-interval detection)問題の特別な場合として一般化した。 次に,最近のアイソレーション分散カーネル(IDK)に基づいて,iCIDと呼ばれるCID手法を提案する。 iCIDは、2つの非同次時間隣接間隔の間に高い相同性スコアがある場合、変化間隔を識別する。 データ依存特性とIDKの有限特徴写像により、iCIDは、ノイズポイントの許容範囲で、データストリーム内の様々なタイプの変化点を効率的に識別できる。 さらに、提案されているオンラインおよびオフラインバージョンのicidには、キーパラメータの設定を最適化する機能がある。 iCIDの有効性と効率は、合成データセットと実世界のデータセットの両方で体系的に検証されている。

Detecting abrupt changes in data distribution is one of the most significant tasks in streaming data analysis. Although many unsupervised Change-Point Detection (CPD) methods have been proposed recently to identify those changes, they still suffer from missing subtle changes, poor scalability, or/and sensitive to noise points. To meet these challenges, we are the first to generalise the CPD problem as a special case of the Change-Interval Detection (CID) problem. Then we propose a CID method, named iCID, based on a recent Isolation Distributional Kernel (IDK). iCID identifies the change interval if there is a high dissimilarity score between two non-homogeneous temporal adjacent intervals. The data-dependent property and finite feature map of IDK enabled iCID to efficiently identify various types of change points in data streams with the tolerance of noise points. Moreover, the proposed online and offline versions of iCID have the ability to optimise key parameter settings. The effectiveness and efficiency of iCID have been systematically verified on both synthetic and real-world datasets.
翻訳日:2023-01-02 17:18:07 公開日:2022-12-30
# 貯水池カーネルとボルテラ級数

Reservoir kernels and Volterra series ( http://arxiv.org/abs/2212.14641v1 )

ライセンス: Link先を確認
Lukas Gonon, Lyudmila Grigoryeva, and Juan-Pablo Ortega(参考訳) 普遍カーネルは、セクションが有限次元ユークリッド空間の入力と出力を持つフェーディングメモリカテゴリの因果および時間不変フィルタを近似する形で構成される。 このカーネルは、解析的なフェーディングメモリフィルタで利用可能なボルテラ級数展開の状態空間表現と関連する貯水池関数を用いて構築される。 そのため、ボルテラ貯水池カーネルと呼ばれる。 状態空間表現と対応する貯水池特徴写像は無限次元テンソル代数空間上で定義されるが、カーネル写像は、表現定理を用いた推定問題において、特定のデータセットに対して容易に計算可能な明示的再帰によって特徴づけられる。 我々は,bitcoin価格予測に関する一般的なデータサイエンスアプリケーションにおいて,volterraリザーバカーネルの性能を示す。

A universal kernel is constructed whose sections approximate any causal and time-invariant filter in the fading memory category with inputs and outputs in a finite-dimensional Euclidean space. This kernel is built using the reservoir functional associated with a state-space representation of the Volterra series expansion available for any analytic fading memory filter. It is hence called the Volterra reservoir kernel. Even though the state-space representation and the corresponding reservoir feature map are defined on an infinite-dimensional tensor algebra space, the kernel map is characterized by explicit recursions that are readily computable for specific data sets when employed in estimation problems using the representer theorem. We showcase the performance of the Volterra reservoir kernel in a popular data science application in relation to bitcoin price prediction.
翻訳日:2023-01-02 17:17:49 公開日:2022-12-30
# データストリームから学ぶ:概要と最新情報

Learning from Data Streams: An Overview and Update ( http://arxiv.org/abs/2212.14720v1 )

ライセンス: Link先を確認
Jesse Read and Indr\.e \v{Z}liobait\.e(参考訳) データストリームのコンテキストにおける機械学習に関する文献は、広く成長しています。 しかしながら、データストリーム学習タスクに関する定義上の前提の多くは、実際に保持するには強すぎるか、あるいは教師あり学習の文脈では満たせないような矛盾さえある。 アルゴリズムは、しばしば明確に定義されていない基準に基づいて選択・設計され、問題設定は明確に定義されず、非現実的な設定でテストされ、より広範な文献における関連するアプローチとは分離される。 これは、このような文脈で考えられた多くのアプローチが現実世界に影響を及ぼす可能性と、誤った研究の焦点を伝播するリスクに疑問を呈する。 本稿では,概念の漂流と時間的依存の現代的考察に基づいて,教師付きデータストリーム学習の基本的定義と設定を改訂し,教師付きデータストリーム学習の課題を構成するものを新たに検討し,そのような課題に対処するアルゴリズムの再検討を行う。 実世界のデータストリームを扱うインダストリアル・プレイヤーの非公式な調査によって、この定式化と概観を通じ、我々は推奨する。 データストリームからの学習には、シングルパスやオンライン学習のアプローチ、あるいは特定の学習環境が必須ではない、という点が重視されています。 一方、文献の他の分野では、時間的依存や概念の漂流を扱うための技術が確立されている。 データストリームコミュニティにとって、私たちは、しばしば技術的な制約や学習モードの仮定を扱うことから、堅牢性、プライバシー、解釈可能性といった学術的および産業的環境におけるデータストリームの学習にますます関係している問題へと、研究の焦点を移すことを奨励します。

The literature on machine learning in the context of data streams is vast and growing. However, many of the defining assumptions regarding data-stream learning tasks are too strong to hold in practice, or are even contradictory such that they cannot be met in the contexts of supervised learning. Algorithms are chosen and designed based on criteria which are often not clearly stated, for problem settings not clearly defined, tested in unrealistic settings, and/or in isolation from related approaches in the wider literature. This puts into question the potential for real-world impact of many approaches conceived in such contexts, and risks propagating a misguided research focus. We propose to tackle these issues by reformulating the fundamental definitions and settings of supervised data-stream learning with regard to contemporary considerations of concept drift and temporal dependence; and we take a fresh look at what constitutes a supervised data-stream learning task, and a reconsideration of algorithms that may be applied to tackle such tasks. Through and in reflection of this formulation and overview, helped by an informal survey of industrial players dealing with real-world data streams, we provide recommendations. Our main emphasis is that learning from data streams does not impose a single-pass or online-learning approach, or any particular learning regime; and any constraints on memory and time are not specific to streaming. Meanwhile, there exist established techniques for dealing with temporal dependence and concept drift, in other areas of the literature. For the data streams community, we thus encourage a shift in research focus, from dealing with often-artificial constraints and assumptions on the learning mode, to issues such as robustness, privacy, and interpretability which are increasingly relevant to learning in data streams in academic and industrial settings.
翻訳日:2023-01-02 17:17:38 公開日:2022-12-30
# 注意ネットワークの解釈可能性について

On the Interpretability of Attention Networks ( http://arxiv.org/abs/2212.14776v1 )

ライセンス: Link先を確認
Lakshmi Narayan Pandey, Rahul Vashisht and Harish G. Ramaswamy(参考訳) 注意機構は、いくつかの成功したディープラーニングアーキテクチャのコアコンポーネントを形成し、"出力は入力の小さな(しかし未知の)セグメントにのみ依存する"というキーアイデアに基づいている。 注意機構を持つ訓練されたモデルでは、出力に責任を持つ入力のセグメントをエンコードする中間モジュールの出力が、ネットワークの 'reasoning' を覗く手段としてしばしば使用される。 我々は,注意モデルアーキテクチャで使用する場合,選択依存分類 (sdc) と呼ぶ分類問題の変種に対して,このような概念をより正確に述べる。 このような設定下では,注意モデルが正確でありながら解釈できない様々なエラーモードを示し,トレーニングの結果,そのようなモデルが発生することを示す。 この動作を強調し緩和できる様々な状況を説明します。 最後に,sdcタスクの解釈可能性の客観的定義を用いて,分散性を促進するために設計された注意モデル学習アルゴリズムを評価し,これらのアルゴリズムが解釈性の向上に役立つことを示す。

Attention mechanisms form a core component of several successful deep learning architectures, and are based on one key idea: ''The output depends only on a small (but unknown) segment of the input.'' In several practical applications like image captioning and language translation, this is mostly true. In trained models with an attention mechanism, the outputs of an intermediate module that encodes the segment of input responsible for the output is often used as a way to peek into the `reasoning` of the network. We make such a notion more precise for a variant of the classification problem that we term selective dependence classification (SDC) when used with attention model architectures. Under such a setting, we demonstrate various error modes where an attention model can be accurate but fail to be interpretable, and show that such models do occur as a result of training. We illustrate various situations that can accentuate and mitigate this behaviour. Finally, we use our objective definition of interpretability for SDC tasks to evaluate a few attention model learning algorithms designed to encourage sparsity and demonstrate that these algorithms help improve interpretability.
翻訳日:2023-01-02 17:17:07 公開日:2022-12-30
# 交換性レンズと潜在変数モデルによる注意の分析

An Analysis of Attention via the Lens of Exchangeability and Latent Variable Models ( http://arxiv.org/abs/2212.14852v1 )

ライセンス: Link先を確認
Yufeng Zhang, Boyi Liu, Qi Cai, Lingxiao Wang, Zhaoran Wang(参考訳) 注意機構により、トランスフォーマーは重要な経験的成功を達成する。 トランスフォーマーが長い列に対して関係推論を行い望ましい表現を生成するという直感的な理解にもかかわらず、注意メカニズムがそれを達成するための厳密な理論を欠いている。 特に興味深い疑問がいくつか残っています (a)何が望ましい表現になるのか? b) 注意機構は、フォワードパス内の望ましい表現をどうやって推測するのですか? c) トレーニング前手順は、後ろ向きのパスを通じて望ましい表現を推測するためにどのように学習するか? BERT や ViT の場合と同様に、入力トークンは位置エンコーディングを含むため、しばしば交換可能である。 交換可能性の概念は入力サイズに不変な潜在変数モデルを誘導し、理論的解析を可能にする。 -答える (a)表現において、入力トークンの十分かつ最小限の表現の存在を確立する。 特に、そのような表現は、出力ラベルの予測や下流タスクの解決において中心的な役割を果たす潜在変数の入力トークンの後方分布をインスタンス化する。 -答える (b) 推定において, 所望パラメータに対する注意が, 入力サイズが減少している近似誤差まで遅延後部を推定することを証明する。 具体的には、キーが与えられた値の条件付き平均に注意がどう近似するかを定量化し、長い列のリレーショナル推論を特徴付ける。 -答える (c) 学習において, 教師付き目標と自己監督型目標の両方が, 経験的リスク最小化によって, 入力サイズに依存しない一般化誤差まで, 所望のパラメータを学習できることを示す。 特に、自己教師付き設定では、下流タスクを解決する上で重要な条件番号を特定する。

With the attention mechanism, transformers achieve significant empirical successes. Despite the intuitive understanding that transformers perform relational inference over long sequences to produce desirable representations, we lack a rigorous theory on how the attention mechanism achieves it. In particular, several intriguing questions remain open: (a) What makes a desirable representation? (b) How does the attention mechanism infer the desirable representation within the forward pass? (c) How does a pretraining procedure learn to infer the desirable representation through the backward pass? We observe that, as is the case in BERT and ViT, input tokens are often exchangeable since they already include positional encodings. The notion of exchangeability induces a latent variable model that is invariant to input sizes, which enables our theoretical analysis. - To answer (a) on representation, we establish the existence of a sufficient and minimal representation of input tokens. In particular, such a representation instantiates the posterior distribution of the latent variable given input tokens, which plays a central role in predicting output labels and solving downstream tasks. - To answer (b) on inference, we prove that attention with the desired parameter infers the latent posterior up to an approximation error, which is decreasing in input sizes. In detail, we quantify how attention approximates the conditional mean of the value given the key, which characterizes how it performs relational inference over long sequences. - To answer (c) on learning, we prove that both supervised and self-supervised objectives allow empirical risk minimization to learn the desired parameter up to a generalization error, which is independent of input sizes. Particularly, in the self-supervised setting, we identify a condition number that is pivotal to solving downstream tasks.
翻訳日:2023-01-02 17:16:50 公開日:2022-12-30
# IoTにおけるゼロデイアタックのための移動目標防御機構選択のためのRLとフィンガープリント

RL and Fingerprinting to Select Moving Target Defense Mechanisms for Zero-day Attacks in IoT ( http://arxiv.org/abs/2212.14647v1 )

ライセンス: Link先を確認
Alberto Huertas Celdr\'an, Pedro Miguel S\'anchez S\'anchez, Jan von der Assen, Timo Schenk, G\'er\^ome Bovet, Gregorio Mart\'inez P\'erez, Burkhard Stiller(参考訳) サイバー犯罪者は、シングルボードコンピュータ(SBC)のようなリソース制限されたデバイスに影響を与えるゼロデイ攻撃に向かっている。 完全なセキュリティが非現実的であると仮定すると、移動目標防衛(MTD)は標的攻撃面を動的に変化させることで攻撃を緩和する有望なアプローチである。 それでも、ゼロデイアタックに適したmtdテクニックを選択することは、オープンチャレンジです。 強化学習(RL)は、試行錯誤によるMTD選択を最適化する効果的な手法であるが、文献は失敗する。 i)実世界のシナリオにおけるrlおよびmtdソリューションの性能評価 二 行動指紋がSBCの状態を表すのに適しているか、及び 三 sbcにおける資源の消費量の算定 これらの制限を改善するために、SBCにおける異種ゼロデイ攻撃を緩和する正しいMTDメカニズムを学ぶためのオンラインRLベースのフレームワークを提案する。 このフレームワークは、振る舞いフィンガープリントをSBCの状態を表現し、RLは悪意のある状態を緩和するMTD技術を学ぶ。 Raspberry Piがスペクトルセンサーとして動作する実際のIoTクラウドセンシングシナリオにデプロイされている。 さらに詳しくは、raspberry piは、コマンド&コントロールマルウェア、ルートキット、ランサムウェアの異なるサンプルに感染し、その後、既存の4つのmtd技術から選択される。 一連の実験は、全ての攻撃(有害なルートキットを除く)を緩和し、ストレージ1MBを消費し、55%のCPUと80%のRAMを利用する、適切なMTD技術を学ぶためのフレームワークの適合性を実証した。

Cybercriminals are moving towards zero-day attacks affecting resource-constrained devices such as single-board computers (SBC). Assuming that perfect security is unrealistic, Moving Target Defense (MTD) is a promising approach to mitigate attacks by dynamically altering target attack surfaces. Still, selecting suitable MTD techniques for zero-day attacks is an open challenge. Reinforcement Learning (RL) could be an effective approach to optimize the MTD selection through trial and error, but the literature fails when i) evaluating the performance of RL and MTD solutions in real-world scenarios, ii) studying whether behavioral fingerprinting is suitable for representing SBC's states, and iii) calculating the consumption of resources in SBC. To improve these limitations, the work at hand proposes an online RL-based framework to learn the correct MTD mechanisms mitigating heterogeneous zero-day attacks in SBC. The framework considers behavioral fingerprinting to represent SBCs' states and RL to learn MTD techniques that mitigate each malicious state. It has been deployed on a real IoT crowdsensing scenario with a Raspberry Pi acting as a spectrum sensor. More in detail, the Raspberry Pi has been infected with different samples of command and control malware, rootkits, and ransomware to later select between four existing MTD techniques. A set of experiments demonstrated the suitability of the framework to learn proper MTD techniques mitigating all attacks (except a harmfulness rootkit) while consuming <1 MB of storage and utilizing <55% CPU and <80% RAM.
翻訳日:2023-01-02 17:15:32 公開日:2022-12-30
# MLおよびハードウェアベースのIoTデバイスの指紋認証と識別に対する敵攻撃と防御

Adversarial attacks and defenses on ML- and hardware-based IoT device fingerprinting and identification ( http://arxiv.org/abs/2212.14677v1 )

ライセンス: Link先を確認
Pedro Miguel S\'anchez S\'anchez, Alberto Huertas Celdr\'an, G\'er\^ome Bovet, Gregorio Mart\'inez P\'erez(参考訳) ここ数年で、デプロイされるIoTデバイスの数が爆発的に増加し、数十億に達した。 しかし、この開発とともに新たなサイバーセキュリティの問題が現れた。 これらの問題のいくつかは、不正なデバイスのデプロイ、悪意のあるコード修正、マルウェアのデプロイ、脆弱性のエクスプロイトである。 この事実は、行動監視に基づく新しいデバイス識別メカニズムの必要性を動機づけている。 さらに、これらのソリューションは最近、この分野の進歩と処理能力の向上により、機械学習とディープラーニングの技術を活用している。 対照的に、攻撃者は停止状態に留まらず、IoTデバイス識別ソリューションに適用されるコンテキスト修正とML/DL評価回避に焦点を当てた敵攻撃を開発した。 本研究は,ハードウェア動作に基づく個別デバイス識別の性能,コンテキストやML/DLによる攻撃の影響,防御技術を用いてレジリエンスを改善する方法について検討する。 この意味では、個々のデバイス識別のためのハードウェア性能挙動に基づくLSTM-CNNアーキテクチャを提案する。 そして、同じソフトウェアを実行する45のRaspberry Piデバイスから収集されたハードウェアパフォーマンスデータセットを用いて、提案したアーキテクチャと比較した。 LSTM-CNNは以前のソリューションを改善し、すべてのデバイスに対して平均F1スコア+0.96、最小TPR0.8を達成する。 その後、ML/DLに焦点をあてた対向攻撃を以前のモデルに対して適用し、ロバスト性を検証した。 温度ベースのコンテキスト攻撃では、識別を妨害できなかった。 しかし,ML/DLによる回避攻撃は成功した。 最後に, 回避攻撃に対するモデルレジリエンスを向上させるため, 性能を低下させることなく, 対向訓練およびモデル蒸留防御技術を選択する。

In the last years, the number of IoT devices deployed has suffered an undoubted explosion, reaching the scale of billions. However, some new cybersecurity issues have appeared together with this development. Some of these issues are the deployment of unauthorized devices, malicious code modification, malware deployment, or vulnerability exploitation. This fact has motivated the requirement for new device identification mechanisms based on behavior monitoring. Besides, these solutions have recently leveraged Machine and Deep Learning techniques due to the advances in this field and the increase in processing capabilities. In contrast, attackers do not stay stalled and have developed adversarial attacks focused on context modification and ML/DL evaluation evasion applied to IoT device identification solutions. This work explores the performance of hardware behavior-based individual device identification, how it is affected by possible context- and ML/DL-focused attacks, and how its resilience can be improved using defense techniques. In this sense, it proposes an LSTM-CNN architecture based on hardware performance behavior for individual device identification. Then, previous techniques have been compared with the proposed architecture using a hardware performance dataset collected from 45 Raspberry Pi devices running identical software. The LSTM-CNN improves previous solutions achieving a +0.96 average F1-Score and 0.8 minimum TPR for all devices. Afterward, context- and ML/DL-focused adversarial attacks were applied against the previous model to test its robustness. A temperature-based context attack was not able to disrupt the identification. However, some ML/DL state-of-the-art evasion attacks were successful. Finally, adversarial training and model distillation defense techniques are selected to improve the model resilience to evasion attacks, without degrading its performance.
翻訳日:2023-01-02 17:14:47 公開日:2022-12-30
# se(3)-同変光場からの再構成

SE(3)-Equivariant Reconstruction from Light Field ( http://arxiv.org/abs/2212.14871v1 )

ライセンス: Link先を確認
Yinshuang Xu, Jiahui Lei, Kostas Daniilidis(参考訳) 近年の幾何学的コンピュータビジョンの進歩は、シーンをニューラルラディアンス場として捉え、複数のビューからの再構成と新しいビューレンダリングに大きな進歩を見せている。 このようなアプローチはレコンストラクションのパラダイムを変えたが、多くのビューを必要とし、オブジェクトの形状を事前に利用しない。 一方、深層学習では、単一の画像から形状を推測するために、事前の使用方法が示されている。 しかし、そのようなアプローチでは、オブジェクトは標準的なポーズで再構成されるか、トレーニング中にオブジェクトのポーズが知られていると仮定する必要がある。 本稿では,カメラの相対的なポーズを考慮し,数枚の画像から再構成するための同変前処理の計算方法について述べる。 提案した再構成は$SE(3)$-gauge同変であり、これは世界枠の選択に同変であることを意味する。 これを実現するために、光場畳み込みを定義し、元の光場畳み込みが計算的かつ記憶的に難解であるため、光場畳み込みが$SE(2)$畳み込みによってどのように近似できるかを示し、光場から世界フレームの変換とビューの回転に同値な$\mathbb{R}^3$への写像を設計する。 変換拡張を行うことなく,ロト翻訳データセットのロバストな結果を得ることにより,同値性を示す。

Recent progress in geometric computer vision has shown significant advances in reconstruction and novel view rendering from multiple views by capturing the scene as a neural radiance field. Such approaches have changed the paradigm of reconstruction but need a plethora of views and do not make use of object shape priors. On the other hand, deep learning has shown how to use priors in order to infer shape from single images. Such approaches, though, require that the object is reconstructed in a canonical pose or assume that object pose is known during training. In this paper, we address the problem of how to compute equivariant priors for reconstruction from a few images, given the relative poses of the cameras. Our proposed reconstruction is $SE(3)$-gauge equivariant, meaning that it is equivariant to the choice of world frame. To achieve this, we make two novel contributions to light field processing: we define light field convolution and we show how it can be approximated by intra-view $SE(2)$ convolutions because the original light field convolution is computationally and memory-wise intractable; we design a map from the light field to $\mathbb{R}^3$ that is equivariant to the transformation of the world frame and to the rotation of the views. We demonstrate equivariance by obtaining robust results in roto-translated datasets without performing transformation augmentation.
翻訳日:2023-01-02 17:08:39 公開日:2022-12-30
# マルチマルジナル最適輸送による集計データからの潜在人口流の推定

Estimating Latent Population Flows from Aggregated Data via Inversing Multi-Marginal Optimal Transport ( http://arxiv.org/abs/2212.14527v1 )

ライセンス: Link先を確認
Sikun Yang, Hongyuan Zha(参考訳) 累積カウントデータから潜在人口フローを推定する問題について検討する。 この問題は、プライバシーの問題や測定の不確実性のために個々の軌道が利用できない場合に発生する。 代わりに、集計された観測は、状態間の人口フローを推定するために離散時間点上で測定される。 関連する研究のほとんどは、時間均質マルコフ過程の遷移パラメータを学習することで問題に取り組む。 しかし、実際の人口の流れは交通渋滞や気象条件など様々な不確実性の影響を受けている。 したがって、多くの場合、時間均質マルコフモデルは、より複雑な人口の流れの貧弱な近似である。 この難しさを回避するため、制約された辺縁で自然に集約された観測を表現し、コスト関数によって時間依存遷移行列をエンコードするマルチマルジナル最適輸送(MOT)の定式化を利用する。 特に、MOTフレームワークのコスト関数を学習することにより、集約データからの遷移フローを推定し、時間変化の動的パターンを捉えることを提案する。 実世界の遷移フローを推定する手法よりも,提案アルゴリズムの精度が向上したことを示す。

We study the problem of estimating latent population flows from aggregated count data. This problem arises when individual trajectories are not available due to privacy issues or measurement fidelity. Instead, the aggregated observations are measured over discrete-time points, for estimating the population flows among states. Most related studies tackle the problems by learning the transition parameters of a time-homogeneous Markov process. Nonetheless, most real-world population flows can be influenced by various uncertainties such as traffic jam and weather conditions. Thus, in many cases, a time-homogeneous Markov model is a poor approximation of the much more complex population flows. To circumvent this difficulty, we resort to a multi-marginal optimal transport (MOT) formulation that can naturally represent aggregated observations with constrained marginals, and encode time-dependent transition matrices by the cost functions. In particular, we propose to estimate the transition flows from aggregated data by learning the cost functions of the MOT framework, which enables us to capture time-varying dynamic patterns. The experiments demonstrate the improved accuracy of the proposed algorithms than the related methods in estimating several real-world transition flows.
翻訳日:2023-01-02 17:05:32 公開日:2022-12-30
# 知覚理解による視覚表現学習の改善

Improving Visual Representation Learning through Perceptual Understanding ( http://arxiv.org/abs/2212.14504v1 )

ライセンス: Link先を確認
Samyakh Tukra, Frederick Hoffman, Ken Chatfield(参考訳) 本稿では,より高次なシーンレベルの特徴の学習を明示的に奨励することにより,モデルによって学習される表現を改良したマスキングオートエンコーダ(mae)の拡張を提案する。 私たちはこうしています (i)生成画像と実画像との知覚的類似性用語の導入 (II) マルチスケールトレーニングや適応型識別器増強を含む, 対人訓練文献からのいくつかのテクニックを取り入れた。 これらの組み合わせにより、ピクセル再構成だけでなく、画像内のより高レベルな詳細をキャプチャーする表現も改善される。 さらに,提案手法である知覚的maeが,従来の手法よりも下流タスクの方が優れた性能をもたらすことを示す。 我々はImageNet-1Kで78.1%の精度で線形探索を行い、微調整時に88.1%まで到達し、他の下流タスクでも同様の結果が得られる。

We present an extension to masked autoencoders (MAE) which improves on the representations learnt by the model by explicitly encouraging the learning of higher scene-level features. We do this by: (i) the introduction of a perceptual similarity term between generated and real images (ii) incorporating several techniques from the adversarial training literature including multi-scale training and adaptive discriminator augmentation. The combination of these results in not only better pixel reconstruction but also representations which appear to capture better higher-level details within images. More consequentially, we show how our method, Perceptual MAE, leads to better performance when used for downstream tasks outperforming previous methods. We achieve 78.1% top-1 accuracy linear probing on ImageNet-1K and up to 88.1% when fine-tuning, with similar results for other downstream tasks, all without use of additional pre-trained models or data.
翻訳日:2023-01-02 16:59:57 公開日:2022-12-30
# Scale-MAE:マルチスケール地理空間表現学習のためのスケール対応マスケードオートエンコーダ

Scale-MAE: A Scale-Aware Masked Autoencoder for Multiscale Geospatial Representation Learning ( http://arxiv.org/abs/2212.14532v1 )

ライセンス: Link先を確認
Colorado J. Reed, Ritwik Gupta, Shufan Li, Sarah Brockman, Christopher Funk, Brian Clipp, Christopher Funk, Salvatore Candido, Matt Uyttendaele, Trevor Darrell(参考訳) リモートセンシングイメージは、異なるセンサーが異なる空間スケールで補完的なデータを収集する地球全体像を提供する。 大規模で事前訓練されたモデルは通常、様々な条件やスケールを模倣するために強化されたイメージで微調整され、その結果、様々なタスクに様々な空間スケールの画像で使用される。 このようなモデルは、データ内のスケール固有の情報を見渡す。 本稿では,事前学習プロセスを通じて,異なる既知のスケールでデータ間の関係を明示的に学習する事前学習手法であるScale-MAEを提案する。 scale-maeは、画像がカバーする地球の面積が画像解像度ではなくvit位置符号化のスケールを決定する既知の入力スケールで入力画像をマスクすることにより、ネットワークを事前学習する。 Scale-MAEは、マスクされた画像を標準のViTバックボーンで符号化し、その後、帯域通過フィルタを介してマスクされた画像を復号し、低周波画像の低/高周波画像の再構成を行う。 その結果,低周波画像と高周波画像の両方を再構成することで,リモートセンシング画像のマルチスケール表現が堅牢になることがわかった。 Scale-MAEは8つのリモートセンシングデータセットに対して平均5.0\%の非パラメトリックkNN分類の改善を達成し、様々な評価尺度に対するSpaceNetビルディングセグメンテーション転送タスクに対して0.9$ mIoUから3.8$ mIoUの改善を得られる。

Remote sensing imagery provides comprehensive views of the Earth, where different sensors collect complementary data at different spatial scales. Large, pretrained models are commonly finetuned with imagery that is heavily augmented to mimic different conditions and scales, with the resulting models used for various tasks with imagery from a range of spatial scales. Such models overlook scale-specific information in the data. In this paper, we present Scale-MAE, a pretraining method that explicitly learns relationships between data at different, known scales throughout the pretraining process. Scale-MAE pretrains a network by masking an input image at a known input scale, where the area of the Earth covered by the image determines the scale of the ViT positional encoding, not the image resolution. Scale-MAE encodes the masked image with a standard ViT backbone, and then decodes the masked image through a bandpass filter to reconstruct low/high frequency images at lower/higher scales. We find that tasking the network with reconstructing both low/high frequency images leads to robust multiscale representations for remote sensing imagery. Scale-MAE achieves an average of a $5.0\%$ non-parametric kNN classification improvement across eight remote sensing datasets compared to current state-of-the-art and obtains a $0.9$ mIoU to $3.8$ mIoU improvement on the SpaceNet building segmentation transfer task for a range of evaluation scales.
翻訳日:2023-01-02 16:59:42 公開日:2022-12-30
# 未拘束道路用細粒度車両検出(FGVD)データセット

A Fine-Grained Vehicle Detection (FGVD) Dataset for Unconstrained Roads ( http://arxiv.org/abs/2212.14569v1 )

ライセンス: Link先を確認
Prafful Kumar Khoba, Chirag Parikh, Rohit Saluja, Ravi Kiran Sarvadevabhatla, C. V. Jawahar(参考訳) 以前のきめ細かいデータセットは主に分類に焦点を当てており、しばしばコントロールされた設定でキャプチャされ、カメラはオブジェクトにフォーカスする。 車両に搭載された移動カメラから捉えた,野生初の細粒度車両検出(fgvd)データセットを紹介する。 シーンイメージは5502枚あり、3レベル階層に整理された複数の車両の210個の細粒度ラベルがある。 以前の分類データセットには、さまざまな種類の車も含まれていたが、FGVDデータセットでは、二輪車、オートリックショー、トラックを分類するための新しいクラスラベルが導入されている。 FGVDデータセットは、タイプ、スケール、ポーズ、オクルージョン、照明条件のクラス内およびクラス間のバリエーションを持つ複雑な交通シナリオにおいて、車両が存在するため、難しい。 現在のyolov5やfaster rcnnのようなオブジェクト検出器は、階層的モデリングが欠如しているため、データセットでパフォーマンスが悪くなります。 FGVDデータセット上に既存のオブジェクト検出器のベースライン結果を提供するとともに、FGVDタスクのための既存の検出器と最近の階層残留ネットワーク(HRN)分類器の組み合わせの結果も提示する。 最後に,fgvd車両画像は細粒度データセットの分類が最も困難であることを示す。

The previous fine-grained datasets mainly focus on classification and are often captured in a controlled setup, with the camera focusing on the objects. We introduce the first Fine-Grained Vehicle Detection (FGVD) dataset in the wild, captured from a moving camera mounted on a car. It contains 5502 scene images with 210 unique fine-grained labels of multiple vehicle types organized in a three-level hierarchy. While previous classification datasets also include makes for different kinds of cars, the FGVD dataset introduces new class labels for categorizing two-wheelers, autorickshaws, and trucks. The FGVD dataset is challenging as it has vehicles in complex traffic scenarios with intra-class and inter-class variations in types, scale, pose, occlusion, and lighting conditions. The current object detectors like yolov5 and faster RCNN perform poorly on our dataset due to a lack of hierarchical modeling. Along with providing baseline results for existing object detectors on FGVD Dataset, we also present the results of a combination of an existing detector and the recent Hierarchical Residual Network (HRN) classifier for the FGVD task. Finally, we show that FGVD vehicle images are the most challenging to classify among the fine-grained datasets.
翻訳日:2023-01-02 16:59:14 公開日:2022-12-30
# NIRVANA: 適応型ネットワークによる映像のニューラルインシシタン表現と自己回帰的パッチワイドモデリング

NIRVANA: Neural Implicit Representations of Videos with Adaptive Networks and Autoregressive Patch-wise Modeling ( http://arxiv.org/abs/2212.14593v1 )

ライセンス: Link先を確認
Shishira R Maiya, Sharath Girish, Max Ehrlich, Hanyu Wang, Kwot Sin Lee, Patrick Poirson, Pengxiang Wu, Chen Wang, Abhinav Shrivastava(参考訳) Inlicit Neural Representations (INR)は、最近、高品質なビデオ圧縮のための強力なツールであることが示されている。 しかし、ビデオの時間的冗長性を明示的に活用しないため、既存の作品には制限があるため、エンコーディング時間が長い。 さらに、これらの手法には、より長いビデオや高解像度にスケールしない固定されたアーキテクチャがある。 これらの問題に対処するために、NIRVANAを提案する。これは、動画をフレームのグループとして扱い、パッチワイズ予測を行う各グループに個別のネットワークを適合させる。 この設計は、各グループ内の計算を空間的および時間的次元で共有し、ビデオのエンコーディング時間を短縮する。 ビデオ表現は自己回帰的にモデル化され、ネットワークは前のグループのモデルからの重みを使って初期化された現在のグループに適合する。 さらに効率を高めるために,トレーニング中にネットワークパラメータの量子化を行い,ポストホックな刈り取りや量子化を必要としない。 従来のUVGデータセットと比較すると、NIRVANAは同じ圧縮速度を維持しつつ、符号化品質を37.36から37.70(PSNR)に改善し、符号化速度を12倍に向上させる。 より高解像度で長時間のビデオに苦しむ以前のビデオINRとは対照的に,我々のアルゴリズムはパッチワイドで自己回帰的な設計のため,非常に柔軟で自然にスケールする。 さらに,フレーム間移動の異なる動画に適応することで,可変ビットレート圧縮を実現する。 nirvanaは、より多くのgpuで6倍のデコード速度とスケールを実現し、様々なデプロイシナリオに実用的です。

Implicit Neural Representations (INR) have recently shown to be powerful tool for high-quality video compression. However, existing works are limiting as they do not explicitly exploit the temporal redundancy in videos, leading to a long encoding time. Additionally, these methods have fixed architectures which do not scale to longer videos or higher resolutions. To address these issues, we propose NIRVANA, which treats videos as groups of frames and fits separate networks to each group performing patch-wise prediction. This design shares computation within each group, in the spatial and temporal dimensions, resulting in reduced encoding time of the video. The video representation is modeled autoregressively, with networks fit on a current group initialized using weights from the previous group's model. To further enhance efficiency, we perform quantization of the network parameters during training, requiring no post-hoc pruning or quantization. When compared with previous works on the benchmark UVG dataset, NIRVANA improves encoding quality from 37.36 to 37.70 (in terms of PSNR) and the encoding speed by 12X, while maintaining the same compression rate. In contrast to prior video INR works which struggle with larger resolution and longer videos, we show that our algorithm is highly flexible and scales naturally due to its patch-wise and autoregressive designs. Moreover, our method achieves variable bitrate compression by adapting to videos with varying inter-frame motion. NIRVANA achieves 6X decoding speed and scales well with more GPUs, making it practical for various deployment scenarios.
翻訳日:2023-01-02 16:58:52 公開日:2022-12-30
# DRG-Net:Multi-lesion Segmentationの相互学習と糖尿病網膜症における分類

DRG-Net: Interactive Joint Learning of Multi-lesion Segmentation and Classification for Diabetic Retinopathy Grading ( http://arxiv.org/abs/2212.14615v1 )

ライセンス: Link先を確認
Hasan Md Tusfiqur, Duy M. H. Nguyen, Mai T. N. Truong, Triet A. Nguyen, Binh T. Nguyen, Michael Barz, Hans-Juergen Profitlich, Ngoc T. T. Than, Ngan Le, Pengtao Xie, Daniel Sonntag(参考訳) 糖尿病網膜症(DR)は、世界でも主要な視力喪失の原因であり、早期のDR検出は、視力喪失を予防し、適切な治療を支援するために必要である。 本研究では,対話型機械学習を活用し,drg-netと呼ばれる共同学習フレームワークを導入し,疾患のグレーディングとマルチレズンセグメンテーションの両方を効果的に学習する。 私たちのDRG-Netは2つのモジュールから構成されています。 一 DRG-AI-システムであって、DRグレーディングを分類し、病変領域をローカライズし、視覚的説明を提供するもの (II)DRG-Expert-Interactionはユーザからフィードバックを受け、DRG-AI-Systemを改善する。 スパースデータを扱うために,wasserstein距離と逆学習に基づくエントロピー最小化を用いた不変特徴表現抽出に転送学習機構を用いる。 また,低位・高位両方の特徴を考慮した新たな注意戦略を提案し,重要な病変情報を自動的に選択し,説明可能な特性を提供する。 人間のインタラクションの観点からは,専門家がシステムの予測を修正できるツールとしてDRG-Netがさらに開発され,システム全体の更新に使用される可能性がある。 また,アテンション機構と障害特徴と分類特徴との間の損失関数の制約により,ユーザのフィードバックにおける一定のノイズレベルを考慮すれば,このアプローチは頑健である。 IDRIDとFGADRという2つの大きなDRデータセット上でDRG-Netをベンチマークし、最先端のディープラーニングネットワークと比較した。 DRG-Netは、他のSOTAアプローチよりも優れているだけでなく、弱い管理方法であっても、ユーザのフィードバックによって効果的に更新される。

Diabetic Retinopathy (DR) is a leading cause of vision loss in the world, and early DR detection is necessary to prevent vision loss and support an appropriate treatment. In this work, we leverage interactive machine learning and introduce a joint learning framework, termed DRG-Net, to effectively learn both disease grading and multi-lesion segmentation. Our DRG-Net consists of two modules: (i) DRG-AI-System to classify DR Grading, localize lesion areas, and provide visual explanations; (ii) DRG-Expert-Interaction to receive feedback from user-expert and improve the DRG-AI-System. To deal with sparse data, we utilize transfer learning mechanisms to extract invariant feature representations by using Wasserstein distance and adversarial learning-based entropy minimization. Besides, we propose a novel attention strategy at both low- and high-level features to automatically select the most significant lesion information and provide explainable properties. In terms of human interaction, we further develop DRG-Net as a tool that enables expert users to correct the system's predictions, which may then be used to update the system as a whole. Moreover, thanks to the attention mechanism and loss functions constraint between lesion features and classification features, our approach can be robust given a certain level of noise in the feedback of users. We have benchmarked DRG-Net on the two largest DR datasets, i.e., IDRID and FGADR, and compared it to various state-of-the-art deep learning networks. In addition to outperforming other SOTA approaches, DRG-Net is effectively updated using user feedback, even in a weakly-supervised manner.
翻訳日:2023-01-02 16:58:22 公開日:2022-12-30
# マルチモダリティフェース偽造手がかりを用いた階層的偽造分類器

Hierarchical Forgery Classifier On Multi-modality Face Forgery Clues ( http://arxiv.org/abs/2212.14629v1 )

ライセンス: Link先を確認
Decheng Liu, Zeyang Zheng, Chunlei Peng, Yukai Wang, Nannan Wang, Xinbo Gao(参考訳) 顔の偽造検出は、個人のプライバシーと社会保障において重要な役割を果たす。 敵対的生成モデルの開発により、高品質な偽造画像は現実から人間への区別がますます困難になっている。 既存の方法は、常に偽造検出タスクを共通のバイナリまたはマルチラベルの分類と見なし、可視光スペクトルや近赤外線シナリオなど、多様な多モードの偽造画像の探索を無視する。 本稿では,マルチモダリティ・シナリオにおいて,ロバストなパッチベースのハイブリッドドメイン表現を効果的に学習し,偽造認証を強化するマルチモダリティ顔偽造検出(hfc-mffd)のための階層的偽造分類器を提案する。 局所空間ハイブリッドドメイン特徴モジュールは、局所的な顔領域における画像領域と周波数領域の両方において、強い識別的偽造手掛かりを探索するために設計されている。 さらに、クラス不均衡問題を緩和し、さらに検出性能を高めるために、特定の階層型顔偽造分類器を提案する。 代表的マルチモダリティフェースフォージェリーデータセットの実験結果は、最先端アルゴリズムと比較して提案するhfc-mffdの性能が優れていることを示している。 ソースコードとモデルはhttps://github.com/EdWhites/HFC-MFFDで公開されている。

Face forgery detection plays an important role in personal privacy and social security. With the development of adversarial generative models, high-quality forgery images become more and more indistinguishable from real to humans. Existing methods always regard as forgery detection task as the common binary or multi-label classification, and ignore exploring diverse multi-modality forgery image types, e.g. visible light spectrum and near-infrared scenarios. In this paper, we propose a novel Hierarchical Forgery Classifier for Multi-modality Face Forgery Detection (HFC-MFFD), which could effectively learn robust patches-based hybrid domain representation to enhance forgery authentication in multiple-modality scenarios. The local spatial hybrid domain feature module is designed to explore strong discriminative forgery clues both in the image and frequency domain in local distinct face regions. Furthermore, the specific hierarchical face forgery classifier is proposed to alleviate the class imbalance problem and further boost detection performance. Experimental results on representative multi-modality face forgery datasets demonstrate the superior performance of the proposed HFC-MFFD compared with state-of-the-art algorithms. The source code and models are publicly available at https://github.com/EdWhites/HFC-MFFD.
翻訳日:2023-01-02 16:57:54 公開日:2022-12-30
# 画像の順序解析のための2つの新しいパラメータ

Two new parameters for the ordinal analysis of images ( http://arxiv.org/abs/2212.14643v1 )

ライセンス: Link先を確認
Christoph Bandt and Katharina Wittfeld(参考訳) 局所パターンは、統計物理学や画像処理において重要な役割を果たす。 リベイロらによって2次元の順序パターンが研究され、液晶の絵画や画像の分類のために置換エントロピーと複雑性が決定された。 ここで、隣り合うピクセルの2対2のパターンは3つのタイプで示される。 2つのパラメータで表されるこれらのタイプの統計には、テクスチャを記述および識別するための関連する情報が含まれている。 パラメータは最も安定で等方性構造に有益である。

Local patterns play an important role in statistical physics as well as in image processing. Two-dimensional ordinal patterns were studied by Ribeiro et al. who determined permutation entropy and complexity in order to classify paintings and images of liquid crystals. Here we find that the 2 by 2 patterns of neighboring pixels come in three types. The statistics of these types, expressed by two parameters, contains the relevant information to describe and distinguish textures. The parameters are most stable and informative for isotropic structures.
翻訳日:2023-01-02 16:57:34 公開日:2022-12-30
# NeRF-Gaze: 注視推定のための頭部方向パラメトリックモデル

NeRF-Gaze: A Head-Eye Redirection Parametric Model for Gaze Estimation ( http://arxiv.org/abs/2212.14710v1 )

ライセンス: Link先を確認
Pengwei Yin, Jiawu Dai, Jingjing Wang, Di Xie and Shiliang Pu(参考訳) 視線推定は多くの視覚的タスクの基礎となる。 しかし、3Dアノテーションによる視線データセット取得の高コストは、視線推定モデルの最適化と適用を妨げる。 そこで本研究では,ニューラル・ラミアンス・フィールドに基づく新しい頭部向けリダイレクト・パラメトリック・モデルを提案する。 さらに,本モデルでは,顔と眼を分離して別個のニューラルレンダリングを行うことが可能であり,顔,アイデンティティ,照明,視線方向の属性を別々に制御することを目的としている。 このように、異なる顔帰属に属する潜在コードを教師なしで操作することで、多様な3d対応の視線データセットを得ることができる。 いくつかのベンチマークにおいて、領域一般化および領域適応における手法の有効性を示す実験を行った。

Gaze estimation is the fundamental basis for many visual tasks. Yet, the high cost of acquiring gaze datasets with 3D annotations hinders the optimization and application of gaze estimation models. In this work, we propose a novel Head-Eye redirection parametric model based on Neural Radiance Field, which allows dense gaze data generation with view consistency and accurate gaze direction. Moreover, our head-eye redirection parametric model can decouple the face and eyes for separate neural rendering, so it can achieve the purpose of separately controlling the attributes of the face, identity, illumination, and eye gaze direction. Thus diverse 3D-aware gaze datasets could be obtained by manipulating the latent code belonging to different face attributions in an unsupervised manner. Extensive experiments on several benchmarks demonstrate the effectiveness of our method in domain generalization and domain adaptation for gaze estimation tasks.
翻訳日:2023-01-02 16:57:02 公開日:2022-12-30
# 多変量占有時間系列をもつ静止環境における教師なし4次元lidar移動物体分割

Unsupervised 4D LiDAR Moving Object Segmentation in Stationary Settings with Multivariate Occupancy Time Series ( http://arxiv.org/abs/2212.14750v1 )

ライセンス: Link先を確認
Thomas Kreutz, Max M\"uhlh\"auser, and Alejandro Sanchez Guinea(参考訳) 本研究では,静止センサから記録された4次元LiDARデータにおける非教師なし移動物体セグメンテーション(MOS)の問題に対処する。 深層学習に基づくLiDAR MOSの最先端の手法は、アノテートされた真実データに強く依存する。 静止環境におけるこのギャップを埋めるために,教師なしMOSの問題を時系列クラスタリング問題に緩和する多変量時系列に基づく新しい4次元LiDAR表現を提案する。 具体的には,voxelレベルとその周辺地域の時空間的占有変化を捉えた多変量占有時系列(mots)によるvoxelの占有率変化のモデル化を提案する。 教師なしのMOSを実行するために、ニューラルネットワークを自己教師された方法でトレーニングし、MOTSをボクセルレベルの特徴表現にエンコードし、クラスタリングアルゴリズムによって移動または静止に分割することができる。 Raw KITTIデータセットによる静止シーンの実験では、完全に教師なしのアプローチが、教師付き最先端アプローチに匹敵するパフォーマンスを達成することが示された。

In this work, we address the problem of unsupervised moving object segmentation (MOS) in 4D LiDAR data recorded from a stationary sensor, where no ground truth annotations are involved. Deep learning-based state-of-the-art methods for LiDAR MOS strongly depend on annotated ground truth data, which is expensive to obtain and scarce in existence. To close this gap in the stationary setting, we propose a novel 4D LiDAR representation based on multivariate time series that relaxes the problem of unsupervised MOS to a time series clustering problem. More specifically, we propose modeling the change in occupancy of a voxel by a multivariate occupancy time series (MOTS), which captures spatio-temporal occupancy changes on the voxel level and its surrounding neighborhood. To perform unsupervised MOS, we train a neural network in a self-supervised manner to encode MOTS into voxel-level feature representations, which can be partitioned by a clustering algorithm into moving or stationary. Experiments on stationary scenes from the Raw KITTI dataset show that our fully unsupervised approach achieves performance that is comparable to that of supervised state-of-the-art approaches.
翻訳日:2023-01-02 16:56:48 公開日:2022-12-30
# タスク制約付きマルチエージェント確率計画のためのオークションベースの協調戦略

An Auction-based Coordination Strategy for Task-Constrained Multi-Agent Stochastic Planning with Submodular Rewards ( http://arxiv.org/abs/2212.14624v1 )

ライセンス: Link先を確認
Ruifan Liu, Hyo-Sang Shin, Bonbon Yan, and Antonios Tsourdos(参考訳) 輸送、物流、捜索、救助、協調監視といった多くの分野において、実行の不確実性を考慮してタスクを割り当てる準備が整っている。 既存のタスク調整アルゴリズムは確率過程を無視したり、計算強度に悩まされる。 本稿では,問題の弱結合性と事前調整の機会を生かして,タスク制約付きマルコフ決定プロセス(MDPs)に問題を形成した新たな定式化スコア関数を用いた分散オークション型コーディネーション戦略を提案する。 提案手法は,サブモジュラー報酬関数を前提とした収束と少なくとも50%の最適性を保証する。 さらに,大規模アプリケーションの実装においては,提案手法の近似的変種であるディープオークション(deep auction)も提案されており,mdp構築の難しさを回避できるニューラルネットワークの利用が提案されている。 有名なアクター・クリティック・アーキテクチャにインスパイアされた2つのトランスフォーマーは、それぞれ観測結果を行動確率と累積報酬にマッピングするために使用される。 最後に、ドローンの配送における2つの提案されたアプローチの性能を実演する。そこでは、ドローンリーグの確率的計画が、時間窓を備えた確率論的価格決定型車両ルーティング問題(VRP)に投じられる。 シミュレーション結果は、ソリューションの品質、計画効率、スケーラビリティの観点から最先端の手法と比較される。

In many domains such as transportation and logistics, search and rescue, or cooperative surveillance, tasks are pending to be allocated with the consideration of possible execution uncertainties. Existing task coordination algorithms either ignore the stochastic process or suffer from the computational intensity. Taking advantage of the weakly coupled feature of the problem and the opportunity for coordination in advance, we propose a decentralized auction-based coordination strategy using a newly formulated score function which is generated by forming the problem into task-constrained Markov decision processes (MDPs). The proposed method guarantees convergence and at least 50% optimality in the premise of a submodular reward function. Furthermore, for the implementation on large-scale applications, an approximate variant of the proposed method, namely Deep Auction, is also suggested with the use of neural networks, which is evasive of the troublesome for constructing MDPs. Inspired by the well-known actor-critic architecture, two Transformers are used to map observations to action probabilities and cumulative rewards respectively. Finally, we demonstrate the performance of the two proposed approaches in the context of drone deliveries, where the stochastic planning for the drone league is cast into a stochastic price-collecting Vehicle Routing Problem (VRP) with time windows. Simulation results are compared with state-of-the-art methods in terms of solution quality, planning efficiency and scalability.
翻訳日:2023-01-02 16:33:00 公開日:2022-12-30
# 線形時間不変確率空間モデルに対するPAC-Bayesian型誤差境界

PAC-Bayesian-Like Error Bound for a Class of Linear Time-Invariant Stochastic State-Space Models ( http://arxiv.org/abs/2212.14838v1 )

ライセンス: Link先を確認
Deividas Eringis, John Leth, Zheng-Hua Tan, Rafal Wisniewski, Mihaly Petreczky(参考訳) 本稿では,線形時間不変確率状態空間モデル(略してLTI系)に対して,入力を持つ確率力学系のクラスに対して,PAC-Bayesian型誤差境界を導出する。 このタイプのシステムは制御工学や計量学で広く使われており、特にリカレントニューラルネットワークの特殊な例を表している。 本論文では, 1)入力を伴う確率的LTIシステムの学習問題を定式化する。 2) PAC-Bayesian-like error bound for such systems。 3) この誤差の様々な結果について議論する。

In this paper we derive a PAC-Bayesian-Like error bound for a class of stochastic dynamical systems with inputs, namely, for linear time-invariant stochastic state-space models (stochastic LTI systems for short). This class of systems is widely used in control engineering and econometrics, in particular, they represent a special case of recurrent neural networks. In this paper we 1) formalize the learning problem for stochastic LTI systems with inputs, 2) derive a PAC-Bayesian-Like error bound for such systems, 3) discuss various consequences of this error bound.
翻訳日:2023-01-02 16:23:01 公開日:2022-12-30
# 分散ランダム特徴を用いた非インタラクティブサーロゲートモデリングとクラッシュ性解析への応用

Non-intrusive surrogate modelling using sparse random features with applications in crashworthiness analysis ( http://arxiv.org/abs/2212.14507v1 )

ライセンス: Link先を確認
Maternus Herold, Anna Veselovska, Jonas Jehle, and Felix Krahmer(参考訳) 効率的なサロゲートモデリングは、データ駆動シナリオにおける不確実性定量化の重要な要件である。 本研究では,Sparse Random Featuresを自己教師付き次元減少と組み合わせた代理モデリングに利用する新しい手法について述べる。 クラッシュ性解析から得られた合成データおよび実データに関する他の方法と比較する。 その結果,この手法は,最先端のサーロゲートモデリング手法,多項式カオス展開,ニューラルネットワークよりも優れていることがわかった。

Efficient surrogate modelling is a key requirement for uncertainty quantification in data-driven scenarios. In this work, a novel approach of using Sparse Random Features for surrogate modelling in combination with self-supervised dimensionality reduction is described. The method is compared to other methods on synthetic and real data obtained from crashworthiness analyses. The results show a superiority of the here described approach over state of the art surrogate modelling techniques, Polynomial Chaos Expansions and Neural Networks.
翻訳日:2023-01-02 16:22:51 公開日:2022-12-30
# chatgptのローンチ後、スタンス検出技術はどのように進化するか?

How would Stance Detection Techniques Evolve after the Launch of ChatGPT? ( http://arxiv.org/abs/2212.14548v1 )

ライセンス: Link先を確認
Bowen Zhang, Daijun Ding, Liwen Jing(参考訳) 姿勢検出とは、与えられたテキストにおいて、対象とする立場(敵意、敵意)を抽出することを指す。 こうした研究は、ソーシャルメディアコンテンツの拡散とともに注目を集めている。 従来のスタンス検出処理フレームワークでは,テキスト分類タスクに変換する。 ディープラーニングモデルはすでに、そのような問題を解決するためにルールベースのモデルと従来の機械学習モデルを置き換える。 現在のディープニューラルネットワークは、ソーシャルメディア投稿におけるラベル付きデータと情報不足と、ディープラーニングモデルの説明不能な性質という、2つの大きな課題に直面している。 2022年11月30日、新しい訓練済み言語モデルであるchatGPTが発売された。 姿勢検出タスクでは,SemEval-2016 や P-Stance などの一般的なデータセットに対して,ChatGPT が SOTA あるいは類似のパフォーマンスを達成可能であることを示す。 同時に、chatgptは、既存のモデルの能力を超えている独自の予測の説明を提供することができる。 分類結果を提供することができない場合の説明は特に有用である。 ChatGPTは、NLPにおけるスタンス検出タスクのための最高のAIモデルになり得るか、少なくともこの分野の研究パラダイムを変更する可能性がある。 ChatGPTはまた、姿勢検出のための説明的AIを構築する可能性を開く。

Stance detection refers to the task of extracting the standpoint (Favor, Against or Neither) towards a target in given texts. Such research gains increasing attention with the proliferation of social media contents. The conventional framework of handling stance detection is converting it into text classification tasks. Deep learning models have already replaced rule-based models and traditional machine learning models in solving such problems. Current deep neural networks are facing two main challenges which are insufficient labeled data and information in social media posts and the unexplainable nature of deep learning models. A new pre-trained language model chatGPT was launched on Nov 30, 2022. For the stance detection tasks, our experiments show that ChatGPT can achieve SOTA or similar performance for commonly used datasets including SemEval-2016 and P-Stance. At the same time, ChatGPT can provide explanation for its own prediction, which is beyond the capability of any existing model. The explanations for the cases it cannot provide classification results are especially useful. ChatGPT has the potential to be the best AI model for stance detection tasks in NLP, or at least change the research paradigm of this field. ChatGPT also opens up the possibility of building explanatory AI for stance detection.
翻訳日:2023-01-02 16:21:29 公開日:2022-12-30
# ドイツ連合契約の遠隔読解:BERTに基づくテキスト分類による政策位置の認識

Distant Reading of the German Coalition Deal: Recognizing Policy Positions with BERT-based Text Classification ( http://arxiv.org/abs/2212.14648v1 )

ライセンス: Link先を確認
Michael Zylla and Thomas Haider(参考訳) 自動テキスト分析は政治科学において広く使われているツールとなっている。 本研究では,2021年の連立協定における各政党の貢献を識別するために,ドイツ政党宣言に基づいて訓練されたbertモデルを用いた。

Automated text analysis has become a widely used tool in political science. In this research, we use a BERT model trained on German party manifestos to identify the individual parties' contribution to the coalition agreement of 2021.
翻訳日:2023-01-02 16:21:09 公開日:2022-12-30
# 階層学習のためのエントロピーモデル

An Entropy-Based Model for Hierarchical Learning ( http://arxiv.org/abs/2212.14681v1 )

ライセンス: Link先を確認
Amir R. Asadi(参考訳) 機械学習は、コンピュータがデータと経験から学ぶ人工知能に対する支配的なアプローチである。 教師付き学習の枠組みでは、コンピュータがデータから正確かつ効率的に学習するためには、学習モデルを通じてデータ分布および対象機能に関する補助情報を提供する必要がある。 この補助情報の概念は、統計学習理論における正規化の概念に関連している。 実世界のデータセットに共通する特徴は、データドメインがマルチスケールであり、ターゲット関数がうまく機能し、スムーズであることだ。 本稿では,この多スケールデータ構造を活用した学習モデルを提案し,その統計的・計算的利点について考察する。 階層的学習モデルは、人間の論理的かつ進歩的な学習メカニズムにインスパイアされ、解釈可能なレベルを持つ。 モデルは、データインスタンスとターゲット関数の複雑さに応じて計算資源を割り当てる。 この特性には、多くのユーザのためのモデルのトレーニングやトレーニングの中断時の推論速度の向上や、計算上の節約など、複数のメリットがある。 マルチスケールエントロピーを用いた学習機構の統計的解析を行い,一様収束境界よりもはるかに強い保証が得られることを示した。

Machine learning is the dominant approach to artificial intelligence, through which computers learn from data and experience. In the framework of supervised learning, for a computer to learn from data accurately and efficiently, some auxiliary information about the data distribution and target function should be provided to it through the learning model. This notion of auxiliary information relates to the concept of regularization in statistical learning theory. A common feature among real-world datasets is that data domains are multiscale and target functions are well-behaved and smooth. In this paper, we propose a learning model that exploits this multiscale data structure and discuss its statistical and computational benefits. The hierarchical learning model is inspired by the logical and progressive easy-to-hard learning mechanism of human beings and has interpretable levels. The model apportions computational resources according to the complexity of data instances and target functions. This property can have multiple benefits, including higher inference speed and computational savings in training a model for many users or when training is interrupted. We provide a statistical analysis of the learning mechanism using multiscale entropies and show that it can yield significantly stronger guarantees than uniform convergence bounds.
翻訳日:2023-01-02 16:15:41 公開日:2022-12-30
# ResGrad: テキストから音声への拡散確率モデル

ResGrad: Residual Denoising Diffusion Probabilistic Models for Text to Speech ( http://arxiv.org/abs/2212.14518v1 )

ライセンス: Link先を確認
Zehua Chen, Yihan Wu, Yichong Leng, Jiawei Chen, Haohe Liu, Xu Tan, Yang Cui, Ke Wang, Lei He, Sheng Zhao, Jiang Bian, Danilo Mandic(参考訳) 拡散確率モデル(DDPM)は,高忠実度サンプルを生成する能力の強いため,テキスト音声合成において出現している。 しかし、高次元のデータ空間における反復的な洗練プロセスは推論速度が遅くなり、リアルタイムシステムでの応用が制限される。 以前の研究では、推論ステップの数を最小化し、サンプル品質を犠牲にすることで、スピードアップを探求している。 そこで本研究では,ddpmベースのttsモデルの高いサンプル品質を実現しつつ,推定速度を向上させるために,既存のttsモデルの出力スペクトル(例えばfastspeech)を洗練することを学ぶ軽量拡散モデルresgradを提案する。 2)モデル出力と対応する接地音声との残差を予測する。 ResGradにはいくつかの利点がある。 1) 音声をスクラッチから合成する必要のあるDDPMの他の加速度法と比較して,ResGradは, 生成対象を接地トラスメルスペクトルから残留物に変更することにより, タスクの複雑さを低減し, より軽量なモデルとなり, より小さなリアルタイム因子となる。 2) ResGrad は,既存の TTS モデルのプラグアンドプレイ方式で,このモデルを再学習することなく,推論プロセスに使用される。 単一話者データセットLJSpeechと、複数の話者(LibriTTS)と高いサンプリングレート(VCTK)を持つより難しい2つのデータセット上でResGradを検証する。 実験の結果, 他のDDPMの高速化法と比較した。 1) ResGradは, 実時間係数で測定した同じ推論速度で, より良い試料品質を実現する。 2) 類似した音声品質を有するresgradは, ベースライン法よりも10倍以上高速に音声合成を行う。 オーディオサンプルはhttps://resgrad1.github.io/で入手できる。

Denoising Diffusion Probabilistic Models (DDPMs) are emerging in text-to-speech (TTS) synthesis because of their strong capability of generating high-fidelity samples. However, their iterative refinement process in high-dimensional data space results in slow inference speed, which restricts their application in real-time systems. Previous works have explored speeding up by minimizing the number of inference steps but at the cost of sample quality. In this work, to improve the inference speed for DDPM-based TTS model while achieving high sample quality, we propose ResGrad, a lightweight diffusion model which learns to refine the output spectrogram of an existing TTS model (e.g., FastSpeech 2) by predicting the residual between the model output and the corresponding ground-truth speech. ResGrad has several advantages: 1) Compare with other acceleration methods for DDPM which need to synthesize speech from scratch, ResGrad reduces the complexity of task by changing the generation target from ground-truth mel-spectrogram to the residual, resulting into a more lightweight model and thus a smaller real-time factor. 2) ResGrad is employed in the inference process of the existing TTS model in a plug-and-play way, without re-training this model. We verify ResGrad on the single-speaker dataset LJSpeech and two more challenging datasets with multiple speakers (LibriTTS) and high sampling rate (VCTK). Experimental results show that in comparison with other speed-up methods of DDPMs: 1) ResGrad achieves better sample quality with the same inference speed measured by real-time factor; 2) with similar speech quality, ResGrad synthesizes speech faster than baseline methods by more than 10 times. Audio samples are available at https://resgrad1.github.io/.
翻訳日:2023-01-02 16:15:24 公開日:2022-12-30
# 大腸癌組織像からの腫瘍-間質比の自動評価におけるドメイン特異的転写学習

Domain-specific transfer learning in the automated scoring of tumor-stroma ratio from histopathological images of colorectal cancer ( http://arxiv.org/abs/2212.14652v1 )

ライセンス: Link先を確認
Liisa Pet\"ainen, Juha P. V\"ayrynen, Pekka Ruusuvuori, Ilkka P\"ol\"onen, Sami \"Ayr\"am\"o and Teijo Kuopio(参考訳) 腫瘍-ストロマ比 (TSR) は多くの種類の固形腫瘍の予後因子である。 本研究では,大腸癌の病理組織像からTSRの自動推定法を提案する。 この方法は、大腸癌組織をヘマトキシリン-エオシン染色標本に分類するために訓練された畳み込みニューラルネットワークに基づいており、ストローマ、腫瘍、その他の3つのクラスに分類される。 モデルのトレーニングは、1343のスライドイメージからなるデータセットを使用して行われた。 領域特異的なデータ,すなわち大腸癌組織学的データセットを用いて,3種類の異なるトレーニング設定を適用した。 最も正確な3つのモデルが分類器として選択され、TSR値が予測され、その結果が病理学者による視覚的TSR推定と比較された。 その結果,畳み込みニューラルネットワークモデルの事前学習においてドメイン固有データが使用される場合,分類精度は向上しないことが示唆された。 ストローマ, 腫瘍, その他の症例の分類精度は, 独立したテストセットで96.1$\%であった。 3つのクラスの中で、最良のモデルはクラス腫瘍の最高精度(99.3$\%$)を得た。 TSRが最良のモデルで予測されたとき、予測値と経験者による評価値との相関は0.57であった。 さらに, 大腸癌のTSR値と他の臨床病理学的因子と患者の生存率との関連について検討する必要がある。

Tumor-stroma ratio (TSR) is a prognostic factor for many types of solid tumors. In this study, we propose a method for automated estimation of TSR from histopathological images of colorectal cancer. The method is based on convolutional neural networks which were trained to classify colorectal cancer tissue in hematoxylin-eosin stained samples into three classes: stroma, tumor and other. The models were trained using a data set that consists of 1343 whole slide images. Three different training setups were applied with a transfer learning approach using domain-specific data i.e. an external colorectal cancer histopathological data set. The three most accurate models were chosen as a classifier, TSR values were predicted and the results were compared to a visual TSR estimation made by a pathologist. The results suggest that classification accuracy does not improve when domain-specific data are used in the pre-training of the convolutional neural network models in the task at hand. Classification accuracy for stroma, tumor and other reached 96.1$\%$ on an independent test set. Among the three classes the best model gained the highest accuracy (99.3$\%$) for class tumor. When TSR was predicted with the best model, the correlation between the predicted values and values estimated by an experienced pathologist was 0.57. Further research is needed to study associations between computationally predicted TSR values and other clinicopathological factors of colorectal cancer and the overall survival of the patients.
翻訳日:2023-01-02 16:14:51 公開日:2022-12-30
# 肺炎検出における深部CNNアーキテクチャの比較検討

A Comparison Study of Deep CNN Architecture in Detecting of Pneumonia ( http://arxiv.org/abs/2212.14744v1 )

ライセンス: Link先を確認
Al Mohidur Rahman Porag, Md. Mahedi Hasan, Dr. Md Taimur Ahad(参考訳) 細菌やウイルスによって引き起こされる呼吸器感染症である肺炎は、特に高レベルの汚染、悪質な生活環境、過密が頻繁に観察される発展途上国や貧困国において、医療インフラの不足とともに多くの人々に影響を及ぼす。 胸水は、肺を液体が満たし、呼吸が複雑になる状態であり、肺炎によって引き起こされる。 肺炎の早期発見は治療の確保と生存率の向上に不可欠である。 肺炎の診断に一般的に用いられるアプローチは胸部x線撮影である。 本研究の目的は,デジタルX線画像における細菌およびウイルス性肺炎の自動診断法を開発することである。 本稿ではまず, 著者の手法を概説し, 肺炎の信頼性診断分野における最近の進展について概説する。 本研究では,最先端の深層畳み込みニューラルネットワークを用いて,画像に基づいて植物疾患を分類し,その性能を検証した。 ディープラーニングアーキテクチャは経験的に比較される。 VGG19, ResNet with 152v2, Resnext101, Seresnet152, Mobilenettv2, DenseNet with 201 Layerがテストされている。 実験データは病気と健康なX線画像の2つのグループから構成される。 植物病に対する適切な対応をできるだけ早く行うためには、迅速な疾患識別モデルが望ましい。 DenseNet201ではオーバーフィットや性能劣化は見られず,エポック数の増加とともに精度が向上する傾向にある。 さらに、DenseNet201は、非常に少ないパラメータと妥当な計算時間で最先端のパフォーマンスを達成する。 このアーキテクチャは、テストの正確さで競争に勝り、95%のスコアを得た。 各アーキテクチャはkerasを使ってトレーニングされ、バックエンドとしてtheanoを使用した。

Pneumonia, a respiratory infection brought on by bacteria or viruses, affects a large number of people, especially in developing and impoverished countries where high levels of pollution, unclean living conditions, and overcrowding are frequently observed, along with insufficient medical infrastructure. Pleural effusion, a condition in which fluids fill the lung and complicate breathing, is brought on by pneumonia. Early detection of pneumonia is essential for ensuring curative care and boosting survival rates. The approach most usually used to diagnose pneumonia is chest X-ray imaging. The purpose of this work is to develop a method for the automatic diagnosis of bacterial and viral pneumonia in digital x-ray pictures. This article first presents the authors' technique, and then gives a comprehensive report on recent developments in the field of reliable diagnosis of pneumonia. In this study, here tuned a state-of-the-art deep convolutional neural network to classify plant diseases based on images and tested its performance. Deep learning architecture is compared empirically. VGG19, ResNet with 152v2, Resnext101, Seresnet152, Mobilenettv2, and DenseNet with 201 layers are among the architectures tested. Experiment data consists of two groups, sick and healthy X-ray pictures. To take appropriate action against plant diseases as soon as possible, rapid disease identification models are preferred. DenseNet201 has shown no overfitting or performance degradation in our experiments, and its accuracy tends to increase as the number of epochs increases. Further, DenseNet201 achieves state-of-the-art performance with a significantly a smaller number of parameters and within a reasonable computing time. This architecture outperforms the competition in terms of testing accuracy, scoring 95%. Each architecture was trained using Keras, using Theano as the backend.
翻訳日:2023-01-02 16:14:34 公開日:2022-12-30
# 6G産業用無線サブネットの電力制御:グラフニューラルネットワークによるアプローチ

Power Control for 6G Industrial Wireless Subnetworks: A Graph Neural Network Approach ( http://arxiv.org/abs/2212.14051v1 )

ライセンス: Link先を確認
Daniel Abode, Ramoni Adeogun, Gilberto Berardinelli(参考訳) 第6世代(6G)産業用ワイヤレスサブネットは、ロボットや生産モジュールの制御操作のために有線接続を置き換えることが期待されている。 集中電力制御のような干渉管理技術は、そのようなサブネットの密集配置におけるスペクトル効率を向上させることができる。 しかし、集中型電力制御のための既存のソリューションでは、すべての希望および干渉リンクの完全なチャネル状態情報(csi)を必要とする場合がある。 本稿では,グラフニューラルネットワーク(GNN)に基づく産業用サブネットワークの集中型電力制御手法を提案する。 提案手法では,一般に中央コントローラで知られているサブネットワークの位置情報と,実行中の所望のリンクチャネル利得の知識のみを必要とする。 シミュレーションの結果,提案手法は,ランタイム操作において完全なCSIを必要とするベンチマーク方式と同様のスペクトル効率を実現することがわかった。 また、訓練段階における展開密度および環境特性の変化に対するロバスト性を検証する。

6th Generation (6G) industrial wireless subnetworks are expected to replace wired connectivity for control operation in robots and production modules. Interference management techniques such as centralized power control can improve spectral efficiency in dense deployments of such subnetworks. However, existing solutions for centralized power control may require full channel state information (CSI) of all the desired and interfering links, which may be cumbersome and time-consuming to obtain in dense deployments. This paper presents a novel solution for centralized power control for industrial subnetworks based on Graph Neural Networks (GNNs). The proposed method only requires the subnetwork positioning information, usually known at the central controller, and the knowledge of the desired link channel gain during the execution phase. Simulation results show that our solution achieves similar spectral efficiency as the benchmark schemes requiring full CSI in runtime operations. Also, robustness to changes in the deployment density and environment characteristics with respect to the training phase is verified.
翻訳日:2023-01-02 16:14:04 公開日:2022-12-30
# 線形二次ガウス制御の直接潜在モデル学習は可能か?

Can Direct Latent Model Learning Solve Linear Quadratic Gaussian Control? ( http://arxiv.org/abs/2212.14511v1 )

ライセンス: Link先を確認
Yi Tian, Kaiqing Zhang, Russ Tedrake, Suvrit Sra(参考訳) 本研究では,未知の部分観測系を制御することを目的として,潜在的に高次元の観測から状態表現を学習するタスクについて検討する。 我々は,ある潜在状態空間における動的モデルが観測を再構築することなく,計画(例えばコスト)に直接関連する量を予測することによって学習される,直接潜在モデル学習手法を追求する。 特に、線形二次ガウス制御(LQG)を解くための直感的なコスト駆動型状態表現学習手法に着目する。 その結果, 直接学習した潜在モデルを用いて, 最適に近い状態表現関数とオプティマイズに近い制御器を見出すための有限サンプルの保証が確立された。 我々の知る限り、様々な実証的な成功にもかかわらず、このようなコスト駆動の潜在モデル学習者が有限サンプル保証を享受しているかどうかは不明だった。 私たちの研究は、マルチステップコストを予測する価値、すなわち理論の鍵となるアイデア、特に状態表現を学ぶ上で経験的に価値のあるアイデアを強調するものです。

We study the task of learning state representations from potentially high-dimensional observations, with the goal of controlling an unknown partially observable system. We pursue a direct latent model learning approach, where a dynamic model in some latent state space is learned by predicting quantities directly related to planning (e.g., costs) without reconstructing the observations. In particular, we focus on an intuitive cost-driven state representation learning method for solving Linear Quadratic Gaussian (LQG) control, one of the most fundamental partially observable control problems. As our main results, we establish finite-sample guarantees of finding a near-optimal state representation function and a near-optimal controller using the directly learned latent model. To the best of our knowledge, despite various empirical successes, prior to this work it was unclear if such a cost-driven latent model learner enjoys finite-sample guarantees. Our work underscores the value of predicting multi-step costs, an idea that is key to our theory, and notably also an idea that is known to be empirically valuable for learning state representations.
翻訳日:2023-01-02 16:13:08 公開日:2022-12-30
# ボロノイグラム:散乱データによる境界変動関数の最小推定

The Voronoigram: Minimax Estimation of Bounded Variation Functions From Scattered Data ( http://arxiv.org/abs/2212.14514v1 )

ライセンス: Link先を確認
Addison J. Hu, Alden Green, Ryan J. Tibshirani(参考訳) 多変量関数 $f_0$ of bounded variation (bv) を、ランダムな設計点において y_i = f_0(x_i) + z_i$ から推定する問題は、x_i \in \mathbb{r}^d$, $i=1,\ldots,n$ である。 設計点のボロノイ図を定式化する推定器について検討し、次に全変分(TV)の離散的な概念に従って正規化する最適化問題を解く: パラメータの重み付き絶対差の和 $\theta_i,\theta_j$ (函数の値 $f_0(x_i),f_0(x_j)$) の任意の近傍セル $i,j$。 これは、ボロノイ図上で区分的に定数な関数にドメインを限定すると、テレビの通常の連続体(測定-理論)の概念に従って正則化する変分最適化問題と同値である。 それゆえ、検討中の回帰推定器は(シュランケン)局所的平均化をボロノイ細胞の適応的に形成された結合上で行い、これをボロノイグラム(voronoigram)と呼び、koenker (2005) のアイデアに従い、tukey's regressogram (tukey, 1961) からインスピレーションを得ている。 この論文における我々の貢献は、概念的および理論的フロンティアの両方にまたがる: 他のグラフに基づく離散化を用いたテレビ規則化推定器と比較して、ボロノイグラムのユニークな性質を議論する; ボロノイテレビ汎函数の漸近極限を導出する; ボロノイグラムが本質的に有界なBV関数を推定するための最小値(対数因子まで)であることを証明する。

We consider the problem of estimating a multivariate function $f_0$ of bounded variation (BV), from noisy observations $y_i = f_0(x_i) + z_i$ made at random design points $x_i \in \mathbb{R}^d$, $i=1,\ldots,n$. We study an estimator that forms the Voronoi diagram of the design points, and then solves an optimization problem that regularizes according to a certain discrete notion of total variation (TV): the sum of weighted absolute differences of parameters $\theta_i,\theta_j$ (which estimate the function values $f_0(x_i),f_0(x_j)$) at all neighboring cells $i,j$ in the Voronoi diagram. This is seen to be equivalent to a variational optimization problem that regularizes according to the usual continuum (measure-theoretic) notion of TV, once we restrict the domain to functions that are piecewise constant over the Voronoi diagram. The regression estimator under consideration hence performs (shrunken) local averaging over adaptively formed unions of Voronoi cells, and we refer to it as the Voronoigram, following the ideas in Koenker (2005), and drawing inspiration from Tukey's regressogram (Tukey, 1961). Our contributions in this paper span both the conceptual and theoretical frontiers: we discuss some of the unique properties of the Voronoigram in comparison to TV-regularized estimators that use other graph-based discretizations; we derive the asymptotic limit of the Voronoi TV functional; and we prove that the Voronoigram is minimax rate optimal (up to log factors) for estimating BV functions that are essentially bounded.
翻訳日:2023-01-02 16:12:35 公開日:2022-12-30
# パネルデータのための不均一な合成学習

Heterogeneous Synthetic Learner for Panel Data ( http://arxiv.org/abs/2212.14580v1 )

ライセンス: Link先を確認
Ye Shen, Runzhe Wan, Hengrui Cai, Rui Song(参考訳) 新しいパーソナライゼーションの時代において、異種治療効果(HTE)の学習は多くの応用において避けられない傾向にある。 しかし、既存のHTE推定手法の多くは独立に同じ分布の観測に重点を置いており、共通パネルデータ設定における非定常性や時間依存性を処理できない。 一方、パネルデータのために開発された治療評価器は、一般的に個々の情報を無視する。 本稿では,このギャップを埋めるため,パネルデータにおけるhte推定の研究を初期化する。 非パネルデータに対する最先端HTE推定器を活用し、フレキシブルデータ生成を可能にする合成制御法を一般化することにより、HTE識別可能性の異なる仮定の下で、対応する異種片側合成学習者、すなわちH1SLとH2SLを提案する。 提案した推定器の収束率を確立する。 提案手法の既存手法よりも優れた性能を, 広範囲な数値実験により実証した。

In the new era of personalization, learning the heterogeneous treatment effect (HTE) becomes an inevitable trend with numerous applications. Yet, most existing HTE estimation methods focus on independently and identically distributed observations and cannot handle the non-stationarity and temporal dependency in the common panel data setting. The treatment evaluators developed for panel data, on the other hand, typically ignore the individualized information. To fill the gap, in this paper, we initialize the study of HTE estimation in panel data. Under different assumptions for HTE identifiability, we propose the corresponding heterogeneous one-side and two-side synthetic learner, namely H1SL and H2SL, by leveraging the state-of-the-art HTE estimator for non-panel data and generalizing the synthetic control method that allows flexible data generating process. We establish the convergence rates of the proposed estimators. The superior performance of the proposed methods over existing ones is demonstrated by extensive numerical studies.
翻訳日:2023-01-02 16:11:51 公開日:2022-12-30
# 深層補強学習のバックボーンとしての変圧器

Transformer in Transformer as Backbone for Deep Reinforcement Learning ( http://arxiv.org/abs/2212.14538v1 )

ライセンス: Link先を確認
Hangyu Mao, Rui Zhao, Hao Chen, Jianye Hao, Yiqun Chen, Dong Li, Junge Zhang, Zhen Xiao(参考訳) ディープ・ネットワークと強化学習(RL)アルゴリズムの設計はどちらもディープ・RLにとって重要である。 この作品は前者に焦点を当てている。 以前の手法では、cnn、lstm、 attentionなどのモジュールでネットワークを構築する。 最近の手法では、Transformerとこれらのモジュールを組み合わせてパフォーマンスを改善している。 しかし、混合モジュールで構成されるネットワークをトレーニングするためには、面倒な最適化スキルが必要であるため、実際に使用するのが不便である。 本稿では,オンラインとオフラインの両方の設定に対して,既製のバックボーンを提供することを目的とした,deep rl用の \emph{pure transformer-based networks}の設計を提案する。 具体的には, 2つのトランスを非常に自然な方法でカスケードするトランスフォーマイントランス(tit)バックボーンを提案する。インナーは1つの観測を処理し,アウターは観測履歴を処理する。 実験により、TITは異なる設定で、一貫して満足なパフォーマンスを達成できることが示された。

Designing better deep networks and better reinforcement learning (RL) algorithms are both important for deep RL. This work focuses on the former. Previous methods build the network with several modules like CNN, LSTM and Attention. Recent methods combine the Transformer with these modules for better performance. However, it requires tedious optimization skills to train a network composed of mixed modules, making these methods inconvenient to be used in practice. In this paper, we propose to design \emph{pure Transformer-based networks} for deep RL, aiming at providing off-the-shelf backbones for both the online and offline settings. Specifically, the Transformer in Transformer (TIT) backbone is proposed, which cascades two Transformers in a very natural way: the inner one is used to process a single observation, while the outer one is responsible for processing the observation history; combining both is expected to extract spatial-temporal representations for good decision-making. Experiments show that TIT can achieve satisfactory performance in different settings, consistently.
翻訳日:2023-01-02 16:05:33 公開日:2022-12-30
# 有限結果空間上の相対確率:その公理化、性質および応用に関する体系的検討

Relative Probability on Finite Outcome Spaces: A Systematic Examination of its Axiomatization, Properties, and Applications ( http://arxiv.org/abs/2212.14555v1 )

ライセンス: Link先を確認
Max Sklar(参考訳) この研究は、確率を絶対測度ではなく相対測度として捉えることを提案する。 この概念を実証するために, 有限結果空間に着目し, 相対確率関数の要件を定める3つの基本公理を考案する。 次に、これらの関数の例のライブラリとそれらを構成するシステムを提供します。 さらに、ベイズ推論の相対版とそのデジタル実装について議論する。 最後に、相対確率空間の位相閉包を証明し、限界の下で情報を保存する能力を強調した。

This work proposes a view of probability as a relative measure rather than an absolute one. To demonstrate this concept, we focus on finite outcome spaces and develop three fundamental axioms that establish requirements for relative probability functions. We then provide a library of examples of these functions and a system for composing them. Additionally, we discuss a relative version of Bayesian inference and its digital implementation. Finally, we prove the topological closure of the relative probability space, highlighting its ability to preserve information under limits.
翻訳日:2023-01-02 16:03:36 公開日:2022-12-30
# スパースプロトタイプを用いたvon Mises-Fisher分布の混合

Mixture of von Mises-Fisher distribution with sparse prototypes ( http://arxiv.org/abs/2212.14591v1 )

ライセンス: Link先を確認
Fabrice Rossi (CEREMADE), Florian Barbaro (SAMM)(参考訳) von Mises-Fisher分布の混合は、単位超球面上のデータをクラスタリングするのに使うことができる。 これは特にテキストのような高次元の方向データに適応する。 本稿では,l1のペナル化確率を用いてフォン・ミーゼス混合を推定する。 これにより、クラスタリングの解釈性が向上するスパースプロトタイプが実現される。 本稿では,この推定のための予測最大化 (EM) アルゴリズムを導入し,提案アルゴリズムに追従する経路を持つ疎度項と可能性項とのトレードオフを探索する。 モデルの振る舞いはシミュレーションデータに基づいて研究され,本手法の利点を実データベンチマークで示す。 また、財務報告に関する新たなデータセットを導入し、探索分析のための手法の利点を示す。

Mixtures of von Mises-Fisher distributions can be used to cluster data on the unit hypersphere. This is particularly adapted for high-dimensional directional data such as texts. We propose in this article to estimate a von Mises mixture using a l 1 penalized likelihood. This leads to sparse prototypes that improve clustering interpretability. We introduce an expectation-maximisation (EM) algorithm for this estimation and explore the trade-off between the sparsity term and the likelihood one with a path following algorithm. The model's behaviour is studied on simulated data and, we show the advantages of the approach on real data benchmark. We also introduce a new data set on financial reports and exhibit the benefits of our method for exploratory analysis.
翻訳日:2023-01-02 16:03:28 公開日:2022-12-30
# CNNに基づくプラグ・アンド・プレイ正規化による後方サンプリングとポストスタック地震インバージョンへの応用

Posterior sampling with CNN-based, Plug-and-Play regularization with applications to Post-Stack Seismic Inversion ( http://arxiv.org/abs/2212.14595v1 )

ライセンス: Link先を確認
Muhammad Izzatullah, Tariq Alkhalifah, Juan Romero, Miguel Corrales, Nick Luiken, Matteo Ravasi(参考訳) 不確かさの定量化は逆問題に不可欠であり、意思決定者に反転結果に関する貴重な情報を提供する可能性がある。 例えば、地震の逆転は、地震データの帯域制限とノイズの性質のため、悪名高い逆問題である。 したがって、インバージョンプロセスに関連する不確かさを定量化し、その後の解釈と意思決定プロセスを容易にすることが重要となる。 この参照の枠組みの中で、ターゲット後方からのサンプリングは、地震インバージョンの不確かさを定量化する基本的なアプローチを提供する。 しかしながら、確率的逆転における適切な事前情報の選択は、後部サンプルに地質学的リアリズムを提供するサンプリングベース推論の能力に影響を与えるため、極めて重要である。 このような制限を克服するために,CNNベースのデノイザを用いて,Kulback-Leibler分散損失を暗黙的に正規化し,後続推論を行う正規化変分推論フレームワークを提案する。 我々はこの新しいアルゴリズムをPlug-and-Play Stein Variational Gradient Descent (PnP-SVGD)と呼び、地下構造を代表する高解像度で信頼性の高いサンプルを作成する能力を示した。 提案手法を検証するため, 総合地震データとフィールド地震データの両方で数値実験を行った。

Uncertainty quantification is crucial to inverse problems, as it could provide decision-makers with valuable information about the inversion results. For example, seismic inversion is a notoriously ill-posed inverse problem due to the band-limited and noisy nature of seismic data. It is therefore of paramount importance to quantify the uncertainties associated to the inversion process to ease the subsequent interpretation and decision making processes. Within this framework of reference, sampling from a target posterior provides a fundamental approach to quantifying the uncertainty in seismic inversion. However, selecting appropriate prior information in a probabilistic inversion is crucial, yet non-trivial, as it influences the ability of a sampling-based inference in providing geological realism in the posterior samples. To overcome such limitations, we present a regularized variational inference framework that performs posterior inference by implicitly regularizing the Kullback-Leibler divergence loss with a CNN-based denoiser by means of the Plug-and-Play methods. We call this new algorithm Plug-and-Play Stein Variational Gradient Descent (PnP-SVGD) and demonstrate its ability in producing high-resolution, trustworthy samples representative of the subsurface structures, which we argue could be used for post-inference tasks such as reservoir modelling and history matching. To validate the proposed method, numerical tests are performed on both synthetic and field post-stack seismic data.
翻訳日:2023-01-02 16:03:17 公開日:2022-12-30
# スペクトル解析のための主成分本数とほぼトレーニングフリーモデル

Essential Number of Principal Components and Nearly Training-Free Model for Spectral Analysis ( http://arxiv.org/abs/2212.14623v1 )

ライセンス: Link先を確認
Yifeng Bie and Shuai You and Xinrui Li and Xuekui Zhang and Tao Lu(参考訳) 本研究では,多成分スペクトル解析において,本質情報保持に必要な主成分および非機能主成分の数は,混合系における独立成分数と同じであることを示す。 異なる気体分子間の相互独立性のため、主成分から混合物成分への1対1の投影が確立され、スペクトル定量化が大幅に単純化される。 さらに、各構成成分の臼歯の絶滅係数の知識により、その係数から直接完全主成分集合を抽出することができ、学習モデルにトレーニングサンプルを必要とせずに済む。 他の手法と比較して,提案手法はメモリサイズが小さい高速かつ高精度なスペクトル定量化ソリューションを提供する。

Through a study of multi-gas mixture datasets, we show that in multi-component spectral analysis, the number of functional or non-functional principal components required to retain the essential information is the same as the number of independent constituents in the mixture set. Due to the mutual in-dependency among different gas molecules, near one-to-one projection from the principal component to the mixture constituent can be established, leading to a significant simplification of spectral quantification. Further, with the knowledge of the molar extinction coefficients of each constituent, a complete principal component set can be extracted from the coefficients directly, and few to none training samples are required for the learning model. Compared to other approaches, the proposed methods provide fast and accurate spectral quantification solutions with a small memory size needed.
翻訳日:2023-01-02 16:02:51 公開日:2022-12-30
# 画像の自動クロッピングに対する経験に基づく直接生成手法

An Experience-based Direct Generation approach to Automatic Image Cropping ( http://arxiv.org/abs/2212.14561v1 )

ライセンス: Link先を確認
Casper Christensen and Aneesh Vartakavi(参考訳) 自動イメージクロッピングは、多くの実用的な下流アプリケーションで難しいタスクである。 タスクは、しばしばサブプロブレムに分割され、クロップ候補を生成し、視覚的に重要な領域を見つけ、最も魅力的な候補を選ぶための美学を決定する。 先行的なアプローチは、それぞれに1つまたは複数のサブプロームをモデル化し、しばしばそれらをシーケンシャルに組み合わせます。 本研究では,画像美観を明示的にモデル化せず,複数の作物候補を評価したり,視覚的に有意な領域を検知したりすることなく,画像を直接収穫する新しい畳み込みニューラルネットワーク(cnn)を提案する。 私たちのモデルは経験豊富なエディタが切り取った大規模なデータセットでトレーニングされ、複数の固定アスペクト比のバウンディングボックスを同時に予測できます。 クロッピング画像のアスペクト比は,美学に影響を与える重要な要因であると考えられる。 自動画像トリミングの以前のアプローチでは、おそらくこのタスクにデータセットが不足しているため、出力のアスペクト比を強制しなかった。 そこで,本稿では,2つの課題に対する公開データセットのベンチマークを行った。第1に,アスペクト比に係わらない美的イメージクロッピング,第2に,特定のアスペクト比の出力を必要とするサムネイル生成だが,美学は重要ではない。 当社の戦略は,両タスクの既存手法と競合するか,あるいはパフォーマンスがよいことを示す。 さらに,1段階モデルの方がトレーニングが容易で,既存の2段階あるいはエンドツーエンドの推論方法よりもはるかに高速です。 定性的評価実験を行い,本モデルが未知のデータセットから多種多様な画像に一般化でき,収穫後の原画像の組成特性をよく保持できることを示した。 画像の美学や視覚的な注意領域を明示的にモデル化することは,画像クロッピングアルゴリズムを構築する上で必ずしも必要ではないことを示す。

Automatic Image Cropping is a challenging task with many practical downstream applications. The task is often divided into sub-problems - generating cropping candidates, finding the visually important regions, and determining aesthetics to select the most appealing candidate. Prior approaches model one or more of these sub-problems separately, and often combine them sequentially. We propose a novel convolutional neural network (CNN) based method to crop images directly, without explicitly modeling image aesthetics, evaluating multiple crop candidates, or detecting visually salient regions. Our model is trained on a large dataset of images cropped by experienced editors and can simultaneously predict bounding boxes for multiple fixed aspect ratios. We consider the aspect ratio of the cropped image to be a critical factor that influences aesthetics. Prior approaches for automatic image cropping, did not enforce the aspect ratio of the outputs, likely due to a lack of datasets for this task. We, therefore, benchmark our method on public datasets for two related tasks - first, aesthetic image cropping without regard to aspect ratio, and second, thumbnail generation that requires fixed aspect ratio outputs, but where aesthetics are not crucial. We show that our strategy is competitive with or performs better than existing methods in both these tasks. Furthermore, our one-stage model is easier to train and significantly faster than existing two-stage or end-to-end methods for inference. We present a qualitative evaluation study, and find that our model is able to generalize to diverse images from unseen datasets and often retains compositional properties of the original images after cropping. Our results demonstrate that explicitly modeling image aesthetics or visual attention regions is not necessarily required to build a competitive image cropping algorithm.
翻訳日:2023-01-02 15:57:37 公開日:2022-12-30
# 機械学習とサーモグラフィによる建築物のひび割れの検出と分類

Machine Learning and Thermography Applied to the Detection and Classification of Cracks in Building ( http://arxiv.org/abs/2212.14730v1 )

ライセンス: Link先を確認
Angela Busheska, Nara Almeida, Nicholas Sabella, Eudes de A. Rocha(参考訳) 建設業の環境への影響により、既存の建物を再利用し、エネルギー効率を高めることが優先課題となっている。 しかし、土地開発業者に対する正当な懸念は、建物の保存状態と関連している。 そのため、赤外線サーモグラフィは、亀裂や湿度などの病状を検出することで、これらの建物の保存状態を特徴付ける強力なツールとして用いられてきた。 熱カメラは、どんな物質からも放射される放射線を検知し、それを温度で色付けされた画像に変換する。 異常な温度変化は病態の存在を示す可能性があるが、熱画像を読むことはそれほど簡単ではないかもしれない。 この研究プロジェクトは、赤外線サーモグラフィと機械学習(ml)を組み合わせることで、ステークホルダーが既存の建物を効率的に正確に病理や欠陥を特定して再利用する可能性を高めることを目的としている。 この研究プロジェクトの特定のフェーズでは、コンボリューショナルニューラルネットワーク(DCNN)のイメージ分類機械学習モデルを使用して、1つの建物で3つのレベルの亀裂を区別しました。 このモデルの精度は、2つの異なるサーマルカメラから取得したmsxと熱画像と(マルチソース情報による)融合画像とで比較され、入力データとネットワークが検出結果に与える影響を検証した。

Due to the environmental impacts caused by the construction industry, repurposing existing buildings and making them more energy-efficient has become a high-priority issue. However, a legitimate concern of land developers is associated with the buildings' state of conservation. For that reason, infrared thermography has been used as a powerful tool to characterize these buildings' state of conservation by detecting pathologies, such as cracks and humidity. Thermal cameras detect the radiation emitted by any material and translate it into temperature-color-coded images. Abnormal temperature changes may indicate the presence of pathologies, however, reading thermal images might not be quite simple. This research project aims to combine infrared thermography and machine learning (ML) to help stakeholders determine the viability of reusing existing buildings by identifying their pathologies and defects more efficiently and accurately. In this particular phase of this research project, we've used an image classification machine learning model of Convolutional Neural Networks (DCNN) to differentiate three levels of cracks in one particular building. The model's accuracy was compared between the MSX and thermal images acquired from two distinct thermal cameras and fused images (formed through multisource information) to test the influence of the input data and network on the detection results.
翻訳日:2023-01-02 15:57:07 公開日:2022-12-30
# シンボリックビジュアル強化学習:オブジェクトレベルの抽象化と微分可能な表現検索を備えたスケーラブルなフレームワーク

Symbolic Visual Reinforcement Learning: A Scalable Framework with Object-Level Abstraction and Differentiable Expression Search ( http://arxiv.org/abs/2212.14849v1 )

ライセンス: Link先を確認
Wenqing Zheng, S P Sharan, Zhiwen Fan, Kevin Wang, Yihan Xi, Zhangyang Wang(参考訳) 学習効率が高く解釈可能なポリシは強化学習(RL)において,特に複雑な場面の視覚的RL設定において難しい課題となっている。 ニューラルネットワークは競争力のある性能を達成したが、結果として得られるポリシーは、しばしば過度にパラメータ化されたブラックボックスである。 最近のシンボリックRLフレームワークは、ポリシー学習とシンボリックプランニングの両方を扱うために高レベルのドメイン固有プログラミングロジックを設計できることを示した。 しかし、これらのアプローチは機能学習の少ないコード化されたプリミティブに依存しており、高次元の視覚シーンに適用すると、画像が複雑なオブジェクト相互作用を持つ場合、スケーラビリティの問題に悩まされ、性能が低下する可能性がある。 これらの課題に対処するために,部分微分可能最適化を用いて個別のシンボルポリシーを発見する新しいシンボリック学習手法である \textit{Differentiable Symbolic Expression Search} (DiffSES) を提案する。 生のピクセルレベルの入力の代わりにオブジェクトレベルの抽象化を使用することで、DiffSESはシンボリック表現のシンプルさとスケーラビリティの利点を活用すると同時に、ニューラルネットワークの長所を機能学習と最適化に活用することができる。 我々の実験は、DiffSESが最先端の記号的RL法よりもシンプルでスケーラブルな記号的ポリシーを、より少ない量の記号的事前知識で生成できることを実証した。

Learning efficient and interpretable policies has been a challenging task in reinforcement learning (RL), particularly in the visual RL setting with complex scenes. While neural networks have achieved competitive performance, the resulting policies are often over-parameterized black boxes that are difficult to interpret and deploy efficiently. More recent symbolic RL frameworks have shown that high-level domain-specific programming logic can be designed to handle both policy learning and symbolic planning. However, these approaches rely on coded primitives with little feature learning, and when applied to high-dimensional visual scenes, they can suffer from scalability issues and perform poorly when images have complex object interactions. To address these challenges, we propose \textit{Differentiable Symbolic Expression Search} (DiffSES), a novel symbolic learning approach that discovers discrete symbolic policies using partially differentiable optimization. By using object-level abstractions instead of raw pixel-level inputs, DiffSES is able to leverage the simplicity and scalability advantages of symbolic expressions, while also incorporating the strengths of neural networks for feature learning and optimization. Our experiments demonstrate that DiffSES is able to generate symbolic policies that are simpler and more and scalable than state-of-the-art symbolic RL methods, with a reduced amount of symbolic prior knowledge.
翻訳日:2023-01-02 15:48:25 公開日:2022-12-30
# パーソナライズされた食材分布のクラスタリング技術の比較分析

Comparative Analysis of Clustering Techniques for Personalized Food Kit Distribution ( http://arxiv.org/abs/2212.14874v1 )

ライセンス: Link先を確認
Jude Francis, Rowan K Baby, Jacob Abraham and Ajmal P.S(参考訳) ケララ政府はパンデミックによる無料食材キットの供給頻度を増大させたが、これらは静的であり、消費者の個人的な嗜好を示すものではない。 本稿では,コンジョイント分析に基づく調査により得られた実世界のデータセットのスケールダウン版において,様々なクラスタリング手法の比較分析を行う。 k平均のようなセンタロイドベースの手法で実施したクラスタリングを解析し、svdと共に結果をプロットし、最終的にこの2つのうちどちらが優れているかを結論付ける。 クラスタが定式化されると、各クラスタの商品も決定される。 また、クラスタリングは特定のクラスタ損失閾値に基づいて再割り当てによってさらに強化される。 これにより、個人のニーズに合わせた食品キットを設計するための最も効率的なクラスタリング技術が最終的に得られる。

The Government of Kerala had increased the frequency of supply of free food kits owing to the pandemic, however, these items were static and not indicative of the personal preferences of the consumers. This paper conducts a comparative analysis of various clustering techniques on a scaled-down version of a real-world dataset obtained through a conjoint analysis-based survey. Clustering carried out by centroid-based methods such as k means is analyzed and the results are plotted along with SVD, and finally, a conclusion is reached as to which among the two is better. Once the clusters have been formulated, commodities are also decided upon for each cluster. Also, clustering is further enhanced by reassignment, based on a specific cluster loss threshold. Thus, the most efficacious clustering technique for designing a food kit tailored to the needs of individuals is finally obtained.
翻訳日:2023-01-02 15:46:39 公開日:2022-12-30
# 確率勾配Descenceによる文脈帯域のオンライン統計的推測

Online Statistical Inference for Contextual Bandits via Stochastic Gradient Descent ( http://arxiv.org/abs/2212.14883v1 )

ライセンス: Link先を確認
Xi Chen and Zehua Lai and He Li and Yichen Zhang(参考訳) ビッグデータの急速な発展により、決定ルールを再帰的に更新し、オンライン決定を行うことで、最適な決定ルールを学ぶことがこれまで以上に容易になった。 逐次意思決定の文脈的バンディットフレームワークにおけるモデルパラメータのオンライン統計推定について検討した。 重み付き確率的勾配降下によって決定ルールを更新できるオンラインおよび適応型データ収集環境のための汎用フレームワークを提案する。 確率勾配の異なる重み付けスキームを許容し、パラメータ推定器の漸近正規性を確立する。 提案した推定器は,逆確率重みによる従来の平均SGD手法よりも漸近効率を著しく向上させる。 また,線形回帰設定における重みの最適性解析も行う。 提案した推定器のバハドゥール表現を提供し、バハドゥール表現の残りの項は適応データ収集による古典的なSGDと比較して収束速度が遅いことを示す。

With the fast development of big data, it has been easier than before to learn the optimal decision rule by updating the decision rule recursively and making online decisions. We study the online statistical inference of model parameters in a contextual bandit framework of sequential decision-making. We propose a general framework for online and adaptive data collection environment that can update decision rules via weighted stochastic gradient descent. We allow different weighting schemes of the stochastic gradient and establish the asymptotic normality of the parameter estimator. Our proposed estimator significantly improves the asymptotic efficiency over the previous averaged SGD approach via inverse probability weights. We also conduct an optimality analysis on the weights in a linear regression setting. We provide a Bahadur representation of the proposed estimator and show that the remainder term in the Bahadur representation entails a slower convergence rate compared to classical SGD due to the adaptive data collection.
翻訳日:2023-01-02 15:46:28 公開日:2022-12-30
# hitea:階層型時間認識ビデオ言語プレトレーニング

HiTeA: Hierarchical Temporal-Aware Video-Language Pre-training ( http://arxiv.org/abs/2212.14546v1 )

ライセンス: Link先を確認
Qinghao Ye, Guohai Xu, Ming Yan, Haiyang Xu, Qi Qian, Ji Zhang, Fei Huang(参考訳) ビデオ言語事前学習は、下流の様々なビデオ言語タスクのパフォーマンスを向上した。 しかし、従来のほとんどの手法は、典型的な画像言語事前学習パラダイムをビデオ言語事前学習に直接継承または適応しており、ビデオ特有の特徴、すなわち時間的特性を十分に活用していない。 本稿では,モーメントとテキスト間のクロスモーダルアライメントとビデオテキストペアの時間的関係をモデル化する2つの新しい事前学習タスクを含む,階層型時空間対応ビデオ言語事前学習フレームワークhiteaを提案する。 具体的には、ビデオ中のモーメントを探索するモーダルなモーメント探索タスクを提案し、その結果、詳細なモーメント表現が得られる。 さらに、時間分解能の異なるビデオテキストペア全体を多モーダル時間関係探索タスクと整列させることにより、固有時間関係をキャプチャする。 さらに,データセットとビデオ言語事前学習モデルの時間依存度を評価するために,シャッフルテストを導入する。 特に時間指向データセット(SSv2-TemplateやSSv2-Labelなど)では,それぞれ8.6%,11.1%の改善が見られた。 HiTeAはまた、下流タスクに直接ゼロショットで転送する際の強力な一般化能力を示す。 ModelsとデモはModelScopeで利用できる。

Video-language pre-training has advanced the performance of various downstream video-language tasks. However, most previous methods directly inherit or adapt typical image-language pre-training paradigms to video-language pre-training, thus not fully exploiting the unique characteristic of video, i.e., temporal. In this paper, we propose a Hierarchical Temporal-Aware video-language pre-training framework, HiTeA, with two novel pre-training tasks for modeling cross-modal alignment between moments and texts as well as the temporal relations of video-text pairs. Specifically, we propose a cross-modal moment exploration task to explore moments in videos, which results in detailed video moment representation. Besides, the inherent temporal relations are captured by aligning video-text pairs as a whole in different time resolutions with multi-modal temporal relation exploration task. Furthermore, we introduce the shuffling test to evaluate the temporal reliance of datasets and video-language pre-training models. We achieve state-of-the-art results on 15 well-established video-language understanding and generation tasks, especially on temporal-oriented datasets (e.g., SSv2-Template and SSv2-Label) with 8.6% and 11.1% improvement respectively. HiTeA also demonstrates strong generalization ability when directly transferred to downstream tasks in a zero-shot manner. Models and demo will be available on ModelScope.
翻訳日:2023-01-02 15:46:15 公開日:2022-12-30
# ハイパーボールに基づく新しいクラスタ内部評価指標

A novel cluster internal evaluation index based on hyper-balls ( http://arxiv.org/abs/2212.14524v1 )

ライセンス: Link先を確認
Jiang Xie, Pengfei Zhao, Shuyin Xia, Guoyin Wang, Dongdong Cheng(参考訳) クラスタ分析において、品質を評価し、最適なクラスタ数を決定することが重要である。 本稿では,データセットの多面的特徴付けを行い,ハイパーボールを得る。 ハイパーボール(HCVI)に基づくクラスタ内部評価指標を定義する。 さらに,hcviに基づくクラスタの最適数を決定する一般的な方法を提案する。 提案手法は,いくつかの古典的手法によるクラスタリング結果を評価し,任意の形状のノイズやクラスタを含むデータセットに対して最適なクラスタ数を決定する。 合成および実データ集合の実験結果から,新たな指標が既存の指標より優れていたことが示唆された。

It is crucial to evaluate the quality and determine the optimal number of clusters in cluster analysis. In this paper, the multi-granularity characterization of the data set is carried out to obtain the hyper-balls. The cluster internal evaluation index based on hyper-balls(HCVI) is defined. Moreover, a general method for determining the optimal number of clusters based on HCVI is proposed. The proposed methods can evaluate the clustering results produced by the several classic methods and determine the optimal cluster number for data sets containing noises and clusters with arbitrary shapes. The experimental results on synthetic and real data sets indicate that the new index outperforms existing ones.
翻訳日:2023-01-02 15:38:26 公開日:2022-12-30
# pomrl: 地平線を増すことなく学習を計画する

POMRL: No-Regret Learning-to-Plan with Increasing Horizons ( http://arxiv.org/abs/2212.14530v1 )

ライセンス: Link先を確認
Khimya Khetarpal, Claire Vernade, Brendan O'Donoghue, Satinder Singh, Tom Zahavy(参考訳) エージェントがタスク毎に限られたインタラクションを持つ関連するタスクのシーケンスを提示するオンラインメタ強化学習(rl)環境において,モデル不確実性下での計画の問題について検討する。 エージェントは各タスクにおけるその経験を利用して、遷移モデルとタスク上の分散の両方を見積もることができる。 我々は,タスク間の基盤構造をメタ学習し,各タスクの計画に利用するアルゴリズムを提案する。 我々の結論は、タスク数が増え、タスクがより似ていると、タスクに対する平均的な後悔が減少することを示唆している。 古典的な単一タスク設定では、計画の地平線は推定モデルの精度、すなわちタスク内のサンプル数に依存することが知られている。 本稿では,この発見をメタRLに一般化し,タスク数に対する計画的地平の依存性について検討する。 理論的な結果から,徐々に増加する割引要因を選択するためのヒューリスティックスを導出し,その意義を実証的に検証した。

We study the problem of planning under model uncertainty in an online meta-reinforcement learning (RL) setting where an agent is presented with a sequence of related tasks with limited interactions per task. The agent can use its experience in each task and across tasks to estimate both the transition model and the distribution over tasks. We propose an algorithm to meta-learn the underlying structure across tasks, utilize it to plan in each task, and upper-bound the regret of the planning loss. Our bound suggests that the average regret over tasks decreases as the number of tasks increases and as the tasks are more similar. In the classical single-task setting, it is known that the planning horizon should depend on the estimated model's accuracy, that is, on the number of samples within task. We generalize this finding to meta-RL and study this dependence of planning horizons on the number of tasks. Based on our theoretical findings, we derive heuristics for selecting slowly increasing discount factors, and we validate its significance empirically.
翻訳日:2023-01-02 15:38:18 公開日:2022-12-30
# ComplAI: Black-Box Supervised Machine Learning Modelの多要素評価のための統一フレームワークの理論

ComplAI: Theory of A Unified Framework for Multi-factor Assessment of Black-Box Supervised Machine Learning Models ( http://arxiv.org/abs/2212.14599v1 )

ライセンス: Link先を確認
Arkadipta De, Satya Swaroop Gudipudi, Sourab Panchanan, Maunendra Sankar Desarkar(参考訳) 人工知能の進歩は、ビジネスから医療、ライフスタイルから教育まで、世界中の人々の生活を改善する新たな機会を生み出している。 例えば、特定のドメイン固有の予測を行うために、ユーザの人口動態と行動特性をプロファイルするシステムもある。 このような予測は、しばしば、直接的または間接的にユーザーの生活に影響を与える(例えば、ローン支払い、保険カバレッジの決定、ショートリストアプリケーションなど)。 その結果、このようなAI対応システムに対する懸念も高まっている。 これらの懸念に対処するため、これらのシステムは、開発者やエンドユーザに対して、透明性、公正、説明可能な責任を負うよう義務付けられている。 本稿では,ドリフトシナリオにおける説明可能性,ロバスト性,パフォーマンス,公平性,モデル行動の検証,分析,定量化を行うユニークなフレームワークであるcomplaiについて述べる。 このフレームワークはユーザーを助ける (a)モデルを接続し、説明を可能にする。 (b)ロバスト性、ドリフト感受性、公平性など、モデルの異なる側面を評価し、可視化すること。 (c)全体の観点から異なるモデル(異なるモデルファミリーから、または異なるハイパーパラメータ設定を通して得られる)を比較することにより、モデル改善のためのアクション可能なリコースが容易になる。 モデル非依存であり、さまざまな教師付き機械学習シナリオ(バイナリ分類、マルチクラス分類、回帰)とフレームワークで動作する。 任意のMLライフサイクルフレームワークとシームレスに統合できる。 したがって、すでにデプロイされているこのフレームワークは、そのような実システムの開発プロセスを規制するために責任あるaiシステムの重要な側面を統合することを目的としている。

The advances in Artificial Intelligence are creating new opportunities to improve lives of people around the world, from business to healthcare, from lifestyle to education. For example, some systems profile the users using their demographic and behavioral characteristics to make certain domain-specific predictions. Often, such predictions impact the life of the user directly or indirectly (e.g., loan disbursement, determining insurance coverage, shortlisting applications, etc.). As a result, the concerns over such AI-enabled systems are also increasing. To address these concerns, such systems are mandated to be responsible i.e., transparent, fair, and explainable to developers and end-users. In this paper, we present ComplAI, a unique framework to enable, observe, analyze and quantify explainability, robustness, performance, fairness, and model behavior in drift scenarios, and to provide a single Trust Factor that evaluates different supervised Machine Learning models not just from their ability to make correct predictions but from overall responsibility perspective. The framework helps users to (a) connect their models and enable explanations, (b) assess and visualize different aspects of the model, such as robustness, drift susceptibility, and fairness, and (c) compare different models (from different model families or obtained through different hyperparameter settings) from an overall perspective thereby facilitating actionable recourse for improvement of the models. It is model agnostic and works with different supervised machine learning scenarios (i.e., Binary Classification, Multi-class Classification, and Regression) and frameworks. It can be seamlessly integrated with any ML life-cycle framework. Thus, this already deployed framework aims to unify critical aspects of Responsible AI systems for regulating the development process of such real systems.
翻訳日:2023-01-02 15:38:01 公開日:2022-12-30
# ラベル効率の良い時系列異常検出

Label-Efficient Interactive Time-Series Anomaly Detection ( http://arxiv.org/abs/2212.14621v1 )

ライセンス: Link先を確認
Hong Guo, Yujing Wang, Jieyu Zhang, Zhengjie Lin, Yunhai Tong, Lei Yang, Luoxing Xiong and Congrui Huang(参考訳) 時系列異常検出は重要な課題であり、業界に広く応用されている。 手動データアノテーションは高価で非効率であるため、ほとんどのアプリケーションは教師なしの異常検出手法を採用しているが、その結果は通常、エンドユーザにとっては最適ではない。 これにより、顧客は個々のインスタンスに注釈を付けるのではなく、ヒューリスティックなルールを書くことで、データにラベルを付けることができる。 しかし,時系列領域では,時系列データが数値的に連続的で理解が難しいため,適切なラベル付け関数を記述することは困難である。 本稿では,ラベル効率の良い対話型時系列異常検出システム(LEIAD)を提案する。 この目的を達成するために、少数のラベル付きデータのみを使用してラベル付け関数を自動生成しながら、弱い監督と活発な学習を協調的に統合する。 これらの技法は相補的であり、互いに強化された方法で促進することができる。 本研究では,3つの時系列異常検出データセットについて実験を行い,弱監視領域とアクティブ学習領域の両方において,提案手法が既存の解よりも優れていることを示す。 また、このシステムは実用性を示すために、業界で実際のシナリオでテストされている。

Time-series anomaly detection is an important task and has been widely applied in the industry. Since manual data annotation is expensive and inefficient, most applications adopt unsupervised anomaly detection methods, but the results are usually sub-optimal and unsatisfactory to end customers. Weak supervision is a promising paradigm for obtaining considerable labels in a low-cost way, which enables the customers to label data by writing heuristic rules rather than annotating each instance individually. However, in the time-series domain, it is hard for people to write reasonable labeling functions as the time-series data is numerically continuous and difficult to be understood. In this paper, we propose a Label-Efficient Interactive Time-Series Anomaly Detection (LEIAD) system, which enables a user to improve the results of unsupervised anomaly detection by performing only a small amount of interactions with the system. To achieve this goal, the system integrates weak supervision and active learning collaboratively while generating labeling functions automatically using only a few labeled data. All of these techniques are complementary and can promote each other in a reinforced manner. We conduct experiments on three time-series anomaly detection datasets, demonstrating that the proposed system is superior to existing solutions in both weak supervision and active learning areas. Also, the system has been tested in a real scenario in industry to show its practicality.
翻訳日:2023-01-02 15:37:31 公開日:2022-12-30
# 分布強化学習によるリスク感応政策

Risk-Sensitive Policy with Distributional Reinforcement Learning ( http://arxiv.org/abs/2212.14743v1 )

ライセンス: Link先を確認
Thibaut Th\'eate and Damien Ernst(参考訳) 古典的強化学習(rl)手法は一般的に、期待される結果の最大化による意思決定政策の設計に関係している。 それでもこのアプローチは、実行されたアクションに関連する潜在的なリスクを考慮していない。 そこで本研究では,リスクに敏感な逐次的意思決定方針を導出する分布RLに基づく新たな手法を提案する。 中心となる考え方は、一般的にRLの学習スキームの中核に立っている$Q$関数を、期待されるリターンとリスクの両方を考慮して別の関数に置き換えることである。 リスクに基づくユーティリティ関数 $u$ は、任意の分散rlアルゴリズムによって自然に学習されるランダムリターン分布 $z$ から抽出することができる。 これにより、リスク最小化と期待リターンの最大化との完全なトレードオフを、リスク回避手法とは対照的にカバーすることができる。 基本的に、この研究は、分散rlアルゴリズムを最小限修正し、その結果の意思決定プロセスの解釈可能性を重視して、リスクに敏感なポリシーを学習するための、真に実用的な、アクセス可能なソリューションをもたらす。

Classical reinforcement learning (RL) techniques are generally concerned with the design of decision-making policies driven by the maximisation of the expected outcome. Nevertheless, this approach does not take into consideration the potential risk associated with the actions taken, which may be critical in certain applications. To address that issue, the present research work introduces a novel methodology based on distributional RL to derive sequential decision-making policies that are sensitive to the risk, the latter being modelled by the tail of the return probability distribution. The core idea is to replace the $Q$ function generally standing at the core of learning schemes in RL by another function taking into account both the expected return and the risk. Named the risk-based utility function $U$, it can be extracted from the random return distribution $Z$ naturally learnt by any distributional RL algorithm. This enables to span the complete potential trade-off between risk minimisation and expected return maximisation, in contrast to fully risk-averse methodologies. Fundamentally, this research yields a truly practical and accessible solution for learning risk-sensitive policies with minimal modification to the distributional RL algorithm, and with an emphasis on the interpretability of the resulting decision-making process.
翻訳日:2023-01-02 15:37:10 公開日:2022-12-30
# シーケンシャルサービス領域設計とタイミングのための深いリアルオプションポリシー

A deep real options policy for sequential service region design and timing ( http://arxiv.org/abs/2212.14800v1 )

ライセンス: Link先を確認
Srushti Rath, Joseph Y. J. Chow(参考訳) 様々な都市機関やモビリティオペレーターが革新的なモビリティソリューションに向かっているため、モビリティサービスエリアの設計とタイミング、すなわち「リアルオプション」 (RO) のキャストにおいて、適切な投資決定に戦略的柔軟性が必要である。 この問題は、そのような投資において複数の相互作用するROによってますます困難になる。 非定常確率変数を用いたマルコフ決定プロセスとして,マルチシーケンシャルなサービス領域設計と移動オンデマンドサービスのタイミング問題のためのスケーラブルな機械学習ベースのROフレームワークを提案する。 文学における価値関数近似政策は、多オプション最小二乗モンテカルロシミュレーションを用いて、遅延オプション(crポリシー)として一連の相互依存投資決定の政策価値を得る。 目標は、サービス領域に含まれる一連のゾーンの最適な選択とタイミングを決定することである。 しかし、以前の作業では、可能なすべての投資シーケンスの明示的な列挙が必要だった。 このような列挙の組合せ複雑性に対処するために,効率的なリカレントニューラルネットワーク(RNN)に基づくML法(CR-RNNポリシー)を用いた新しい変種ROポリシーを提案し,列挙の必要性を予見し,大規模実装に適したネットワーク設計とタイミングポリシーを提案する。 ニューヨーク市(NYC)における複数のサービス領域のシナリオに関する実験では、提案手法により全体の計算コストが大幅に削減され(総投資シーケンスの90%以上のRO評価の時間短縮が達成される)、ベンチマークと比べてゼロからほぼゼロの差が生じる。 ブルックリンのMoDサービス拡張のためのシーケンシャルサービス領域設計のケーススタディでは、CR-RNNポリシーを用いて最適なRO投資戦略を決定すると、計算時間を大幅に短縮し(約5.4倍)、同様の性能(CRポリシー値の0.5%)が得られることが示されている。

As various city agencies and mobility operators navigate toward innovative mobility solutions, there is a need for strategic flexibility in well-timed investment decisions in the design and timing of mobility service regions, i.e. cast as "real options" (RO). This problem becomes increasingly challenging with multiple interacting RO in such investments. We propose a scalable machine learning based RO framework for multi-period sequential service region design & timing problem for mobility-on-demand services, framed as a Markov decision process with non-stationary stochastic variables. A value function approximation policy from literature uses multi-option least squares Monte Carlo simulation to get a policy value for a set of interdependent investment decisions as deferral options (CR policy). The goal is to determine the optimal selection and timing of a set of zones to include in a service region. However, prior work required explicit enumeration of all possible sequences of investments. To address the combinatorial complexity of such enumeration, we propose a new variant "deep" RO policy using an efficient recurrent neural network (RNN) based ML method (CR-RNN policy) to sample sequences to forego the need for enumeration, making network design & timing policy tractable for large scale implementation. Experiments on multiple service region scenarios in New York City (NYC) shows the proposed policy substantially reduces the overall computational cost (time reduction for RO evaluation of > 90% of total investment sequences is achieved), with zero to near-zero gap compared to the benchmark. A case study of sequential service region design for expansion of MoD services in Brooklyn, NYC show that using the CR-RNN policy to determine optimal RO investment strategy yields a similar performance (0.5% within CR policy value) with significantly reduced computation time (about 5.4 times faster).
翻訳日:2023-01-02 15:36:46 公開日:2022-12-30
# HPointLoc:合成RGB-D画像を用いた点ベース屋内位置認識

HPointLoc: Point-based Indoor Place Recognition using Synthetic RGB-D Images ( http://arxiv.org/abs/2212.14649v1 )

ライセンス: Link先を確認
Dmitry Yudin, Yaroslav Solomentsev, Ruslan Musaev, Aleksei Staroverov, Aleksandr I. Panov(参考訳) 本稿では,屋内環境における視覚位置認識とループ検出を同時に行うことを目的とした,hpointlocと呼ばれる新しいデータセットを提案する。 ループ検出サブタスクは、オンボードのrgb-dカメラを持つロボットが同じ場所(``point)を異なる角度で移動できる場合に特に重要となる。 データセットはpopular habitat simulatorに基づいており、独自のセンサーデータとmatterport3dのようなオープンデータセットの両方を使用して、フォトリアリスティックな屋内シーンを生成することができる。 HPointLocデータセットにおける位置認識問題の解法について検討するために,我々はPNTRと呼ばれる新しいモジュラーアプローチを提案する。 まず、Patch-NetVLAD法で画像検索を行い、キーポイントを抽出し、R2D2、LoFTR、SuperPointをSuperGlueでマッチングし、最終的にTEASER++でカメラポーズ最適化ステップを実行する。 このような場所認識問題に対する解決策は、既存の出版物では研究されていない。 PNTRアプローチは、HPointLocデータセット上で最高の品質指標を示しており、無人車両のローカライゼーションシステムで実際に使われる可能性が高い。 提案されたデータセットとフレームワークは、https://github.com/metra4ok/hpointloc。

We present a novel dataset named as HPointLoc, specially designed for exploring capabilities of visual place recognition in indoor environment and loop detection in simultaneous localization and mapping. The loop detection sub-task is especially relevant when a robot with an on-board RGB-D camera can drive past the same place (``Point") at different angles. The dataset is based on the popular Habitat simulator, in which it is possible to generate photorealistic indoor scenes using both own sensor data and open datasets, such as Matterport3D. To study the main stages of solving the place recognition problem on the HPointLoc dataset, we proposed a new modular approach named as PNTR. It first performs an image retrieval with the Patch-NetVLAD method, then extracts keypoints and matches them using R2D2, LoFTR or SuperPoint with SuperGlue, and finally performs a camera pose optimization step with TEASER++. Such a solution to the place recognition problem has not been previously studied in existing publications. The PNTR approach has shown the best quality metrics on the HPointLoc dataset and has a high potential for real use in localization systems for unmanned vehicles. The proposed dataset and framework are publicly available: https://github.com/metra4ok/HPointLoc.
翻訳日:2023-01-02 15:30:55 公開日:2022-12-30
# バローツインを用いた深層能動学習

Deep Active Learning Using Barlow Twins ( http://arxiv.org/abs/2212.14658v1 )

ライセンス: Link先を確認
Jaya Krishna Mandivarapu, Blake Camp, Rolando Estrada(参考訳) 畳み込みニューラルネットワーク(cnn)の一般化性能は、トレーニング画像の量、品質、多様性によって大きく左右される。 実世界の多くのアプリケーションでは、トレーニングデータは簡単に取得できるが、ラベル付けには高価で時間がかかる。 タスクのアクティブラーニングの目標は、アノテーション後のトレーニングに使用できるラベルのないプールから、最も情報に富んだサンプルを引き出すことである。 総合的な目的から,大規模コンピュータビジョンベンチマークにおける教師あり手法による性能差を埋めることによって,自己教師あり学習が注目されている。 近年、ssl(self-supervised learning)は、入力サンプルの歪みに不変で、ローテーション、太陽化、クロッピングなど、人工的に生成された歪みに非分散を符号化できる低レベル表現を生成することが示されている。 本稿では,この2つの手法を,自己教師付き学習メインフォールドを用いた能動学習の角度から,BarlowTwins(DALBT)を用いたDeep Active Learningを提案する。これは,Barlow Twinsの自己教師付き損失フレームワークとともに訓練された分類器の組み合わせを用いた,すべてのデータセットに対する能動学習手法である。

The generalisation performance of a convolutional neural networks (CNN) is majorly predisposed by the quantity, quality, and diversity of the training images. All the training data needs to be annotated in-hand before, in many real-world applications data is easy to acquire but expensive and time-consuming to label. The goal of the Active learning for the task is to draw most informative samples from the unlabeled pool which can used for training after annotation. With total different objective, self-supervised learning which have been gaining meteoric popularity by closing the gap in performance with supervised methods on large computer vision benchmarks. self-supervised learning (SSL) these days have shown to produce low-level representations that are invariant to distortions of the input sample and can encode invariance to artificially created distortions, e.g. rotation, solarization, cropping etc. self-supervised learning (SSL) approaches rely on simpler and more scalable frameworks for learning. In this paper, we unify these two families of approaches from the angle of active learning using self-supervised learning mainfold and propose Deep Active Learning using BarlowTwins(DALBT), an active learning method for all the datasets using combination of classifier trained along with self-supervised loss framework of Barlow Twins to a setting where the model can encode the invariance of artificially created distortions, e.g. rotation, solarization, cropping etc.
翻訳日:2023-01-02 15:30:33 公開日:2022-12-30
# DGFont++: 教師なしフォント生成のためのロバストな変形可能な生成ネットワーク

DGFont++: Robust Deformable Generative Networks for Unsupervised Font Generation ( http://arxiv.org/abs/2212.14742v1 )

ライセンス: Link先を確認
Xinyuan Chen, Yangchen Xie, Li Sun and Yue Lu(参考訳) 人間の専門家がいない自動フォント生成は実用的で重大な問題であり、特に多数の文字からなる言語では問題となる。 フォント生成の既存の方法は、しばしば教師付き学習である。 膨大な数のペアデータが必要ですが、収集には労力とコストがかかります。 対照的に、一般的な教師なし画像から画像への変換方法はフォント生成には適用されない。 本研究では,教師なしフォント生成のための頑健な変形可能な生成ネットワーク(DGFont++)を提案する。 フォント間の局所パターンや幾何学的変換を学習するための特徴変形スキップ接続(FDSC)を提案する。 FDSCは、一対の変位マップを予測し、予測マップを用いて、低レベルのコンテンツ特徴マップに変形可能な畳み込みを適用する。 FDSCの出力をミキサーに供給して最終結果を生成する。 さらに,フォントの類似性と類似性を理解することにより,フォントのロバストなスタイル表現を学ぶために,対照的自己教師付き学習を導入する。 異なるスタイルを区別するために、マルチタスク判別器でモデルを訓練し、各スタイルを独立して判別できるようにします。 逆損失に加えて、生成画像とコンテンツ画像間のドメイン不変特性を制限するために、別の2つの再構成損失が採用されている。 FDSCとそれを用いた損失関数の活用により,空間情報を維持し,教師なしで高品質なキャラクタ画像を生成することができる。 実験により,本モデルは最先端手法よりも高品質なキャラクタ画像を生成することができることを示した。

Automatic font generation without human experts is a practical and significant problem, especially for some languages that consist of a large number of characters. Existing methods for font generation are often in supervised learning. They require a large number of paired data, which are labor-intensive and expensive to collect. In contrast, common unsupervised image-to-image translation methods are not applicable to font generation, as they often define style as the set of textures and colors. In this work, we propose a robust deformable generative network for unsupervised font generation (abbreviated as DGFont++). We introduce a feature deformation skip connection (FDSC) to learn local patterns and geometric transformations between fonts. The FDSC predicts pairs of displacement maps and employs the predicted maps to apply deformable convolution to the low-level content feature maps. The outputs of FDSC are fed into a mixer to generate final results. Moreover, we introduce contrastive self-supervised learning to learn a robust style representation for fonts by understanding the similarity and dissimilarities of fonts. To distinguish different styles, we train our model with a multi-task discriminator, which ensures that each style can be discriminated independently. In addition to adversarial loss, another two reconstruction losses are adopted to constrain the domain-invariant characteristics between generated images and content images. Taking advantage of FDSC and the adopted loss functions, our model is able to maintain spatial information and generates high-quality character images in an unsupervised manner. Experiments demonstrate that our model is able to generate character images of higher quality than state-of-the-art methods.
翻訳日:2023-01-02 15:30:06 公開日:2022-12-30
# サロゲートによる誘導:ジェネリックな診断攻撃に向けて

Guidance Through Surrogate: Towards a Generic Diagnostic Attack ( http://arxiv.org/abs/2212.14875v1 )

ライセンス: Link先を確認
Muzammal Naseer, Salman Khan, Fatih Porikli and Fahad Shahbaz Khan(参考訳) 敵のトレーニングは、ディープニューラルネットワークを敵の攻撃に対して堅牢にするための効果的なアプローチである。 近年, 高い清浄度を維持するだけでなく, PGD などの敵攻撃に対して高い堅牢性を示す, 異なる敵攻撃防御法が提案されている。 高い敵の強靭性は、攻撃が敵の傾きの方向を見つけられなかった場合にも生じうる(「段階的なマスキング」と呼ばれる現象)。 本研究では,ラベル平滑化が逆行訓練に及ぼす影響を,勾配マスキングの潜在的原因の1つとして分析する。 次に,攻撃最適化における局所最小化を回避するための誘導機構を開発し,G-PGAと呼ばれる新たな攻撃を誘導する。 攻撃手法は,サロゲートモデルからの誘導により最適逆方向を求める「マッチと騙し」損失に基づいている。 我々の修正された攻撃は、ランダムに再起動したり、多数の攻撃を繰り返したり、最適なステップサイズを探す必要はない。 さらに,提案したG-PGAは汎用的であり,Auto-Attackの場合のアンサンブル攻撃戦略と組み合わせることで,効率性と収束速度の向上を実現している。 効果的な攻撃以上に、G-PGAは敵防御における勾配マスキングによる解離性堅牢性を明らかにするための診断ツールとして用いられる。

Adversarial training is an effective approach to make deep neural networks robust against adversarial attacks. Recently, different adversarial training defenses are proposed that not only maintain a high clean accuracy but also show significant robustness against popular and well studied adversarial attacks such as PGD. High adversarial robustness can also arise if an attack fails to find adversarial gradient directions, a phenomenon known as `gradient masking'. In this work, we analyse the effect of label smoothing on adversarial training as one of the potential causes of gradient masking. We then develop a guided mechanism to avoid local minima during attack optimization, leading to a novel attack dubbed Guided Projected Gradient Attack (G-PGA). Our attack approach is based on a `match and deceive' loss that finds optimal adversarial directions through guidance from a surrogate model. Our modified attack does not require random restarts, large number of attack iterations or search for an optimal step-size. Furthermore, our proposed G-PGA is generic, thus it can be combined with an ensemble attack strategy as we demonstrate for the case of Auto-Attack, leading to efficiency and convergence speed improvements. More than an effective attack, G-PGA can be used as a diagnostic tool to reveal elusive robustness due to gradient masking in adversarial defenses.
翻訳日:2023-01-02 15:21:50 公開日:2022-12-30
# バッチレス正規化: メモリに1つのインスタンスでアクティベーションを正規化する方法

Batchless Normalization: How to Normalize Activations with just one Instance in Memory ( http://arxiv.org/abs/2212.14729v1 )

ライセンス: Link先を確認
Benjamin Berger (Leibniz Universit\"at Hannover)(参考訳) ニューラルネットワークのトレーニングにおいて、バッチ正規化には多くのメリットがある。 しかし、欠点もある。 バッチ統計計算ではバッチ内のすべてのインスタンスを同時に処理する必要があるのに対して,バッチ正規化がなければ,重み勾配を蓄積しながら1つずつ処理することが可能だ。 もう一つの欠点は、分布パラメータ(平均偏差と標準偏差)が、勾配勾配を使って訓練されていないが特別な処理を必要とし、実装を複雑にするという点で他のモデルパラメータと異なることである。 本稿では,これらの問題に対処するための単純かつ簡単な方法を示す。 要するに、各活性化に対して、活性化を正規化するために使用されるガウス分布の負の対数可能性の最小化を引き起こす損失に項を加えるという考え方である。 その他のメリットとして、より大きなモデルをトレーニングするためのハードウェア要件を低くすることで、AI研究の民主化に寄与することが期待できる。

In training neural networks, batch normalization has many benefits, not all of them entirely understood. But it also has some drawbacks. Foremost is arguably memory consumption, as computing the batch statistics requires all instances within the batch to be processed simultaneously, whereas without batch normalization it would be possible to process them one by one while accumulating the weight gradients. Another drawback is that that distribution parameters (mean and standard deviation) are unlike all other model parameters in that they are not trained using gradient descent but require special treatment, complicating implementation. In this paper, I show a simple and straightforward way to address these issues. The idea, in short, is to add terms to the loss that, for each activation, cause the minimization of the negative log likelihood of a Gaussian distribution that is used to normalize the activation. Among other benefits, this will hopefully contribute to the democratization of AI research by means of lowering the hardware requirements for training larger models.
翻訳日:2023-01-02 15:21:09 公開日:2022-12-30
# EnsembleCRF NERラベルとデータ拡張付きT5テキストジェネレータを用いた線形プログラミング語問題定式化

Linear programming word problems formulation using EnsembleCRF NER labeler and T5 text generator with data augmentations ( http://arxiv.org/abs/2212.14657v1 )

ライセンス: Link先を確認
JiangLong He, Mamatha N, Shiv Vignesh, Deepak Kumar, Akshay Uppal(参考訳) 線形プログラム語問題におけるラベル予測のためのアンサンブル手法を提案する。 実体識別と意味表現は、NL4Optコンペティションで解決すべき2種類のタスクである。 本稿では,最初のタスクに対して名前付きエンティティを識別するアンサンブルCRF法を提案する。 分析の結果、与えられたタスクに対して単一のモデルが改善しないことがわかりました。 一連の予測モデルがエンティティを予測します。 生成された結果を組み合わせて、アンサンブルCRF法でコンセンサス結果を生成する。 第2タスクの表現文を生成するために,アンサンブルテキスト生成器を提案する。 出力のオーバーフローのため、問題を複数の小さなタスクに分割しようと考えた。 単一のモデルはプロンプトに基づいて異なる表現を生成する。 生成された全てのテキストは結合してアンサンブルを形成し、線形計画問題の数学的意味を生成する。

We propose an ensemble approach to predict the labels in linear programming word problems. The entity identification and the meaning representation are two types of tasks to be solved in the NL4Opt competition. We propose the ensembleCRF method to identify the named entities for the first task. We found that single models didn't improve for the given task in our analysis. A set of prediction models predict the entities. The generated results are combined to form a consensus result in the ensembleCRF method. We present an ensemble text generator to produce the representation sentences for the second task. We thought of dividing the problem into multiple small tasks due to the overflow in the output. A single model generates different representations based on the prompt. All the generated text is combined to form an ensemble and produce a mathematical meaning of a linear programming problem.
翻訳日:2023-01-02 15:20:31 公開日:2022-12-30
# 文脈長探索によるブラックボックス言語モデル説明

Black-box language model explanation by context length probing ( http://arxiv.org/abs/2212.14815v1 )

ライセンス: Link先を確認
Ond\v{r}ej C\'ifka, Antoine Liutkus(参考訳) 大規模言語モデルの普及が進み、説明可能性の向上の必要性が浮き彫りになっている。 本稿では,文脈長の予測を利用可能な文脈長の関数として追跡し,異なる文脈に差分重要度スコアを割り当てることにより,因果言語モデルの新たな説明手法である文脈長探索を提案する。 この技術はモデルに依存しず、トークンレベルの確率の計算以上のモデル内部へのアクセスに依存しない。 学習済みの大規模言語モデルに文脈長探索を適用し、長距離依存の研究の可能性を含むいくつかの初期分析と洞察を提供する。 ソースコードとメソッドのデモが公開されている。

The increasingly widespread adoption of large language models has highlighted the need for improving their explainability. We present context length probing, a novel explanation technique for causal language models, based on tracking the predictions of a model as a function of the length of available context, and allowing to assign differential importance scores to different contexts. The technique is model-agnostic and does not rely on access to model internals beyond computing token-level probabilities. We apply context length probing to large pre-trained language models and offer some initial analyses and insights, including the potential for studying long-range dependencies. The source code and a demo of the method are available.
翻訳日:2023-01-02 15:19:47 公開日:2022-12-30
# chatgptは薬を飲みやすくする: 簡易放射線医学レポートの探索的ケーススタディ

ChatGPT Makes Medicine Easy to Swallow: An Exploratory Case Study on Simplified Radiology Reports ( http://arxiv.org/abs/2212.14882v1 )

ライセンス: Link先を確認
Katharina Jeblick, Balthasar Schachtner, Jakob Dexl, Andreas Mittermeier, Anna Theresa St\"uber, Johanna Topalis, Tobias Weber, Philipp Wesp, Bastian Sabel, Jens Ricke, Michael Ingrisch(参考訳) chatgptは、人間らしく本物に見えるテキストを生成することができる言語モデルであり、研究コミュニティを超えて大きな注目を集めている。 ChatGPTの説得力のあるパフォーマンスは、ユーザがそれをさまざまなダウンストリームタスクに適用するインセンティブを与え、そのモデルに独自の医療報告を簡素化するよう促すことを期待する。 この現象を調査するために,探索的なケーススタディを行った。 アンケート調査では15名の放射線科医に対して,chatgptにより簡易化された放射線検査の質を評価するように依頼した。 ほとんどの放射線科医は、単純化された報告は実際に正確であり、完全であり、患者に有害ではないことに同意した。 それでも、誤記、重要な医学所見の欠如、潜在的に有害な経過が報告された。 さらなる研究が必要であるが、この研究の最初の洞察は、ChatGPTのような大きな言語モデルを用いて、放射線学やその他の医学領域における患者中心のケアを改善する大きな可能性を示している。

The release of ChatGPT, a language model capable of generating text that appears human-like and authentic, has gained significant attention beyond the research community. We expect that the convincing performance of ChatGPT incentivizes users to apply it to a variety of downstream tasks, including prompting the model to simplify their own medical reports. To investigate this phenomenon, we conducted an exploratory case study. In a questionnaire, we asked 15 radiologists to assess the quality of radiology reports simplified by ChatGPT. Most radiologists agreed that the simplified reports were factually correct, complete, and not potentially harmful to the patient. Nevertheless, instances of incorrect statements, missed key medical findings, and potentially harmful passages were reported. While further studies are needed, the initial insights of this study indicate a great potential in using large language models like ChatGPT to improve patient-centered care in radiology and other medical domains.
翻訳日:2023-01-02 15:19:37 公開日:2022-12-30
# 生成モデルのためのMAUVEスコア:理論と実践

MAUVE Scores for Generative Models: Theory and Practice ( http://arxiv.org/abs/2212.14578v1 )

ライセンス: Link先を確認
Krishna Pillutla, Lang Liu, John Thickstun, Sean Welleck, Swabha Swayamdipta, Rowan Zellers, Sewoong Oh, Yejin Choi, Zaid Harchaoui(参考訳) ジェネレーティブAIは成熟し、大規模なモデルが人間の手書きのテキストと著しく写実的な画像と区別できないようなテキストを生成するようになった。 生成されたデータの分布がターゲットの実データ分布にどの程度近いかを自動測定することは、既存のモデルを診断し、より良いモデルを開発するための重要なステップである。 本報告では,テキストや画像の生成モデルで発生するような分布のペア間の比較尺度であるMAUVEについて述べる。 これらのスコアは、生成モデルにおける2種類のエラーをキャプチャする分岐フロンティアの統計的な要約である。 ベクトル量子化,非パラメトリック推定,分類子に基づく推定,パラメトリックガウス近似の4つの評価方法を検討した。 我々はベクトル量子化アプローチに統計的境界を与える。 実験により,提案するスコアはf$-divergencesの範囲と組み合わせ,統計的推定手法は,人間の判断に関連付けられ,生成されたテキストの既知の特性を識別することによって,人文テキストと現代ニューラルネットワークモデルの分布の間のギャップを定量化できることがわかった。 論文の締めくくりは、他のaiドメインへの応用例を示し、実践的な推奨について論じることである。

Generative AI has matured to a point where large-scale models can generate text that seems indistinguishable from human-written text and remarkably photorealistic images. Automatically measuring how close the distribution of generated data is to the target real data distribution is a key step in diagnosing existing models and developing better models. We present MAUVE, a family of comparison measures between pairs of distributions such as those encountered in the generative modeling of text or images. These scores are statistical summaries of divergence frontiers capturing two types of errors in generative modeling. We explore four approaches to statistically estimate these scores: vector quantization, non-parametric estimation, classifier-based estimation, and parametric Gaussian approximations. We provide statistical bounds for the vector quantization approach. Empirically, we find that the proposed scores paired with a range of $f$-divergences and statistical estimation methods can quantify the gaps between the distributions of human-written text and those of modern neural language models by correlating with human judgments and identifying known properties of the generated texts. We conclude the paper by demonstrating its applications to other AI domains and discussing practical recommendations.
翻訳日:2023-01-02 15:12:39 公開日:2022-12-30
# セマンティックスケールの不均衡に夢中になる

Delving into Semantic Scale Imbalance ( http://arxiv.org/abs/2212.14613v1 )

ライセンス: Link先を確認
Yanbiao Ma, Licheng Jiao, Fang Liu, Yuxin Li, Shuyuan Yang, Xu Liu(参考訳) ロングテールデータによって引き起こされるモデルバイアスは広く研究されている。 しかし、サンプル数に基づく尺度では、(1)十分なデータが与えられた場合、分類性能の向上は、追加のサンプルで限界となるという3つの現象を同時に説明することはできない。 2)データ不足時にトレーニングサンプル数が減少するにつれて,分類性能は急激に低下する。 (3) サンプルバランスデータセットでトレーニングされたモデルでは,クラスによってバイアスが異なる。 本研究では,クラスの特徴的多様性を測定するために使用されるクラスの意味的スケールを定義し,定量化する。 最初の2つの現象を完全に記述したセマンティックスケールの限界効果があることを実験的に発見するのはエキサイティングである。 さらに, サンプルバランスデータにおいても, 複数のデータセットのモデルバイアスを正確に反映し, クラスバランス研究の新しい視点を明らかにする意味尺度の不均衡の定量的測定を提案する。 意味的スケールの不均衡が普及していることから,一般的な損失改善スキームや,反復中に意味的スケールをリアルタイムで計算することの難しさを克服した動的再重み付けトレーニングフレームワークなど,意味的スケールバランス学習を提案する。 総合的な実験により、動的セマンティック・スケール・バランス・ラーニングにより、モデルは大規模で長い尾と長い尾の無い自然および医学的なデータセットにおいて、常に優れた性能を発揮することが示される。

Model bias triggered by long-tailed data has been widely studied. However, measure based on the number of samples cannot explicate three phenomena simultaneously: (1) Given enough data, the classification performance gain is marginal with additional samples. (2) Classification performance decays precipitously as the number of training samples decreases when there is insufficient data. (3) Model trained on sample-balanced datasets still has different biases for different classes. In this work, we define and quantify the semantic scale of classes, which is used to measure the feature diversity of classes. It is exciting to find experimentally that there is a marginal effect of semantic scale, which perfectly describes the first two phenomena. Further, the quantitative measurement of semantic scale imbalance is proposed, which can accurately reflect model bias on multiple datasets, even on sample-balanced data, revealing a novel perspective for the study of class imbalance. Due to the prevalence of semantic scale imbalance, we propose semantic-scale-balanced learning, including a general loss improvement scheme and a dynamic re-weighting training framework that overcomes the challenge of calculating semantic scales in real-time during iterations. Comprehensive experiments show that dynamic semantic-scale-balanced learning consistently enables the model to perform superiorly on large-scale long-tailed and non-long-tailed natural and medical datasets, which is a good starting point for mitigating the prevalent but unnoticed model bias.
翻訳日:2023-01-02 15:10:34 公開日:2022-12-30
# 関連部分空間の探索によるニューラルネットワーク予測の遠絡説明

Disentangled Explanations of Neural Network Predictions by Finding Relevant Subspaces ( http://arxiv.org/abs/2212.14855v1 )

ライセンス: Link先を確認
Pattarawat Chormai, Jan Herrmann, Klaus-Robert M\"uller, Gr\'egoire Montavon(参考訳) 説明可能なAIは、MLモデルの不透明な決定戦略を、ユーザが解釈可能な説明に変換する。 しかし、このような説明は、複雑な決定戦略全体に入る可能性のある複数の要因を絡み合っている。 本稿では,より抽象的な概念にマッピング可能な活性化空間内の関連する部分空間を見つけ,概念と入力特徴の同時帰属を可能にすることで,説明を解消することを提案する。 所望の表現を自動的に抽出するために,PCAの原理と部分空間解析を説明に拡張した新しい部分空間解析式を提案する。 これらの新しい分析は、主成分分析 (PRCA) と解離関連部分空間分析 (DRSA) と呼ばれ、従来の分散やクルトーシスよりも、投射活性化の関連性を最適化する。 これにより、予測と説明に真に関係する部分空間、特に予測モデルが不変である活性化や概念を無視した部分空間に、より強い焦点が当てられる。 私たちのアプローチは、Shapley ValueやIntegrated Gradients、LRPといった一般的な属性技術と連携するのに十分です。 提案手法は,ベンチマークと3つのユースケースで示すように,実用上有用であり,技術状況と良好に比較できることを示す。

Explainable AI transforms opaque decision strategies of ML models into explanations that are interpretable by the user, for example, identifying the contribution of each input feature to the prediction at hand. Such explanations, however, entangle the potentially multiple factors that enter into the overall complex decision strategy. We propose to disentangle explanations by finding relevant subspaces in activation space that can be mapped to more abstract human-understandable concepts and enable a joint attribution on concepts and input features. To automatically extract the desired representation, we propose new subspace analysis formulations that extend the principle of PCA and subspace analysis to explanations. These novel analyses, which we call principal relevant component analysis (PRCA) and disentangled relevant subspace analysis (DRSA), optimize relevance of projected activations rather than the more traditional variance or kurtosis. This enables a much stronger focus on subspaces that are truly relevant for the prediction and the explanation, in particular, ignoring activations or concepts to which the prediction model is invariant. Our approach is general enough to work alongside common attribution techniques such as Shapley Value, Integrated Gradients, or LRP. Our proposed methods show to be practically useful and compare favorably to the state of the art as demonstrated on benchmarks and three use cases.
翻訳日:2023-01-02 15:10:09 公開日:2022-12-30