このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230103となっている論文です。

PDF登録状況(公開日: 20230103)

TitleAuthorsAbstract論文公表日・翻訳日
# キャビティ光子に強く結合した損失双極子鎖における無秩序輸送

Disorder-enhanced transport in a chain of lossy dipoles strongly coupled to cavity photons ( http://arxiv.org/abs/2207.10584v2 )

ライセンス: Link先を確認
Thomas F. Allard, Guillaume Weick(参考訳) 多モード光学キャビティに結合した1次元の損失双極子の無秩序鎖を顕微鏡で導出したハミルトニアンを用いて検討した。 極性励起をホストするこのようなシステムは、強力な光物質結合の下で、幅広いプラットフォームで実験的に実現することができる。 固有スペクトルと駆動散逸輸送特性の両方を分析することで、強結合状態において、無結合状態がほとんど無結合の暗くなり、フォトニックな部分を獲得し、ポラリトニックな長距離輸送特性を継承できることがわかった。 重要視される双極子がより失われると,この不規則な輸送機構はますます注目されるようになる。

We study the interplay between disorder and light-matter coupling by considering a disordered one-dimensional chain of lossy dipoles coupled to a multimode optical cavity, through a microscopically derived Hamiltonian. Such a system, hosting polaritonic excitations, may be realized experimentally in a wide range of platforms under strong light-matter coupling. By analyzing both the eigenspectrum and the driven-dissipative transport properties of our system, we find that in the strong-coupling regime, increasing disorder leads almost uncoupled dark states to acquire a photonic part, allowing them to inherit polaritonic long-range transport characteristics. Crucially, we show that this disorder-enhanced transport mechanism is increasingly noticeable when the considered dipoles are lossier.
翻訳日:2023-02-04 05:23:09 公開日:2023-01-03
# FitAik:最小二乗の原子遷移確率を計算するパッケージ。 Er+ランタニドイオンへの応用

FitAik: a package to calculate least-square fitted atomic transitions probabilities. Application to the Er+ lanthanide ion ( http://arxiv.org/abs/2207.14001v3 )

ライセンス: Link先を確認
Maxence Lepers, Olivier Dulieu, Jean-Fran\c{c}ois Wyart (posthumously)(参考訳) 本稿では,計算および実験による原子遷移確率の最小二乗フィットを調整可能な量として$\langle n\ell |r| n'\ell' \rangle$ ($r$ the electronic radial coordinate) という単電子遷移積分を用いて実現する新しい方法を提案する。 \textit{fitaik} は cowan コードスイートにインターフェースされており、入力ファイルを自動的に書き込んで出力ファイルを読み込む。 我々は、計算されたアインシュタイン係数と実験的なアインシュタイン係数の一致が非常に良いことが判明したer$^{+}$イオンの例を用いて、この方法を説明する。 emph{FitAik}のソースコードはGitLabで確認でき、計算されたアインシュタイン係数は私たちの新しいデータベースCaDDiACに格納されます。 これらはまた、er$^+$の動的双極子偏光率を計算するためにも用いられる。

We present a new method implemented in our new package \textit{FitAik}, to perform least-squares fitting of calculated and experimental atomic transition probabilities, by using the mono-electronic transition integrals $\langle n\ell |r| n'\ell' \rangle$ (with $r$ the electronic radial coordinate) as adjustable quantities. \textit{FitAik} is interfaced to the Cowan suite of codes, for which it automatically writes input files and reads output files. We illustrate our procedure with the example of Er$^{+}$ ion, for which the agreement between calculated and experimental Einstein coefficients is found to be very good. The source code of \emph{FitAik} can be found on GitLab, and the calculated Einstein coefficients are stored in our new database CaDDiACs. They are also used to calculate the dynamic dipole polarizability of Er$^+$.
翻訳日:2023-02-03 05:10:03 公開日:2023-01-03
# ノイズ耐性超電導量子ビットのマルチモードアーキテクチャ

Multi-mode architectures for noise-resilient superconducting qubits ( http://arxiv.org/abs/2208.02520v2 )

ライセンス: Link先を確認
Alessio Calzona, Matteo Carrega(参考訳) 量子情報を堅牢でデコヒーレンスのない方法で効率的に保存し、操作するための新しい戦略の開発が大きな関心を集めている。 情報を量子ビットにエンコードする提案は、緩和と非強調のプロセスに対して同時に無神経である。 中でも、その汎用性と制御度が高いことから、超伝導量子ビットはこの方向に大きく研究されている。 本稿では,ハードウェアレベルでのデコヒーレンスに対する本質的保護を有する新しい超伝導回路の実装の背景にある基本的な概念とアイデアについて考察する。 特に、主な焦点はマルチモード超伝導回路であり、パラダイム的な例はいわゆる0-\pi$回路である。 従来のジョセフソン要素に基づく作業原理と可能な物理実装について報告し,最近の実験的実現を提示し,製造法とキャラクタリゼーションについて論じた。

Great interest revolves around the development of new strategies to efficiently store and manipulate quantum information in a robust and decoherence-free fashion. Several proposals have been put forward to encode information into qubits that are simultaneously insensitive to relaxation and to dephasing processes. Among all, given their versatility and high degree of control, superconducting qubits have been largely investigated in this direction. Here, we present a survey on the basic concepts and ideas behind the implementation of novel superconducting circuits with intrinsic protection against decoherence at a hardware level. In particular, the main focus is on multi-mode superconducting circuits, the paradigmatic example being the so-called $0-\pi$ circuit. We report on their working principle and possible physical implementations based on conventional Josephson elements, presenting recent experimental realizations, discussing both fabrication methods and characterizations.
翻訳日:2023-02-02 07:32:29 公開日:2023-01-03
# パターン指向アプローチによる対応型AIの運用:金融サービスにおけるチャットボットを事例として

Operationalising Responsible AI Using a Pattern-Oriented Approach: A Case Study on Chatbots in Financial Services ( http://arxiv.org/abs/2301.05517v1 )

ライセンス: Link先を確認
Qinghua Lu, Yuxiu Luo, Liming Zhu, Mingjian Tang, Xiwei Xu, Jon Whittle(参考訳) 責任AI(Responsible AI)とは、人間、社会、環境に利益をもたらす方法でAIシステムを開発し、利用するプラクティスであり、ネガティブな結果のリスクを最小限に抑える。 さまざまな責任あるAI原則が最近リリースされた。 しかし、これらの原則は非常に抽象的で実用的ではない。 さらに、アルゴリズムレベルのソリューションでは、通常、狭い原則(フェアネスやプライバシなど)に限定されている。 ギャップを埋めるために、私たちはパターン指向のアプローチを採用し、システムの観点から責任あるAIを運用するための責任あるAIパターンカタログを構築します。 本稿ではまず,責任あるaiを大規模に運用する上での課題を概説するとともに,責任あるaiパターンカタログを使用してこれらの課題に対処する方法について紹介する。 そこで本研究では,チャットボット開発ユースケースを用いて,パターンカタログの有用性を評価するケーススタディについて論じる。

Responsible AI is the practice of developing and using AI systems in a way that benefits the humans, society, and environment, while minimising the risk of negative consequences. Various responsible AI principles have been released recently. However, those principles are very abstract and not practical enough. Further, significant efforts have been put on algorithm-level solutions which are usually confined to a narrow set of principles (such as fairness and privacy). To bridge the gap, we adopt a pattern-oriented approach and build a responsible AI pattern catalogue for operationalising responsible AI from a system perspective. In this article, we first summarise the major challenges in operationalising responsible AI at scale and introduce how we use responsible AI pattern catalogue to address those challenges. Then, we discuss the case study we have conducted using the chatbot development use case to evaluate the usefulness of the pattern catalogue.
翻訳日:2023-01-29 14:15:26 公開日:2023-01-03
# ブランド関連ポーラリティ関連トピックのユーザレビュー

Tracking Brand-Associated Polarity-Bearing Topics in User Reviews ( http://arxiv.org/abs/2301.07183v1 )

ライセンス: Link先を確認
Runcong Zhao and Lin Gui and Hanqi Yan and Yulan He(参考訳) オンライン顧客レビューのモニタリングは、顧客満足度を測定し、評判を管理するビジネス組織にとって重要である。 本稿では,時間的に順序付けられた時間間隔に整理された製品レビューから,ブランド関連感情スコアと極性を含むトピックを自動的に検出・追跡する動的ブランドトピックモデル(dBTM)を提案する。 dBTMは、潜在ブランドの極性スコアと、ガウス状態空間モデルによる時間経過に伴うトピックワードの分布の進化をモデル化する。 また、スムーズなトピック遷移とブランドスコア予測を改善するために、各時間間隔でトピックワードの更新を制御するメタ学習戦略も組み込まれている。 MakeupAlleyレビューとホテルレビューデータセットから構築されたデータセットで評価されている。 実験の結果,dBTMはブランドランキングにおいて多くの競争的ベースラインを上回り,トピックコヒーレンスとユニークさのバランスを良好に達成し,時間間隔で偏極性を持つトピックを抽出した。

Monitoring online customer reviews is important for business organisations to measure customer satisfaction and better manage their reputations. In this paper, we propose a novel dynamic Brand-Topic Model (dBTM) which is able to automatically detect and track brand-associated sentiment scores and polarity-bearing topics from product reviews organised in temporally-ordered time intervals. dBTM models the evolution of the latent brand polarity scores and the topic-word distributions over time by Gaussian state space models. It also incorporates a meta learning strategy to control the update of the topic-word distribution in each time interval in order to ensure smooth topic transitions and better brand score predictions. It has been evaluated on a dataset constructed from MakeupAlley reviews and a hotel review dataset. Experimental results show that dBTM outperforms a number of competitive baselines in brand ranking, achieving a good balance of topic coherence and uniqueness, and extracting well-separated polarity-bearing topics across time intervals.
翻訳日:2023-01-29 14:07:50 公開日:2023-01-03
# 報酬外挿による遺伝的模倣学習

Genetic Imitation Learning by Reward Extrapolation ( http://arxiv.org/abs/2301.07182v1 )

ライセンス: Link先を確認
Boyuan Zheng, Jianlong Zhou and Fang Chen(参考訳) 模倣学習は様々な領域で顕著な性能を示す。 しかし、模倣学習は多くの前提条件によって制限されている。 研究コミュニティは、目に見えない状態を避けるための確率的政策の追加、アクションラベルの必要性の排除、最適以下のデモンストレーションからの学習など、これらの制約を緩和するための集中的な研究を行っている。 そこで本研究では,遺伝的アルゴリズムと模倣学習を統合したGenILという手法を提案する。 遺伝的アルゴリズムの関与は、様々なリターンで軌道を再現することでデータ効率を改善し、より正確でコンパクトな報酬関数パラメータを推定するモデルを支援する。 我々は,AtariとMujocoの両ドメインでGenILを試験し,入力データに制限がある場合,外挿精度,ロバスト性,全体的なポリシー性能に対して,従来の外挿法よりも優れた性能を示した。

Imitation learning demonstrates remarkable performance in various domains. However, imitation learning is also constrained by many prerequisites. The research community has done intensive research to alleviate these constraints, such as adding the stochastic policy to avoid unseen states, eliminating the need for action labels, and learning from the suboptimal demonstrations. Inspired by the natural reproduction process, we proposed a method called GenIL that integrates the Genetic Algorithm with imitation learning. The involvement of the Genetic Algorithm improves the data efficiency by reproducing trajectories with various returns and assists the model in estimating more accurate and compact reward function parameters. We tested GenIL in both Atari and Mujoco domains, and the result shows that it successfully outperforms the previous extrapolation methods over extrapolation accuracy, robustness, and overall policy performance when input data is limited.
翻訳日:2023-01-29 14:07:33 公開日:2023-01-03
# DynInt: 大規模クリックスルー速度予測のための動的相互作用モデリング

DynInt: Dynamic Interaction Modeling for Large-scale Click-Through Rate Prediction ( http://arxiv.org/abs/2301.08139v1 )

ライセンス: Link先を確認
YaChen Yan, Liubo Li(参考訳) 機能インタラクションの学習は、広告ランキングとレコメンデーションシステムにおける大規模なCTR予測の成功の鍵である。 業界では、そのような問題をモデル化するためにディープニューラルネットワークベースのモデルが広く採用されている。 研究者たちは、エンドツーエンドで機能インタラクションを検索し、モデル化するための、さまざまなニューラルネットワークアーキテクチャを提案した。 しかし、ほとんどの手法は静的な特徴相互作用のみを学習し、深いCTRモデルの表現能力を完全に活用していない。 本稿では,新しいモデルDynIntを提案する。 高次相互作用を動的かつデータ依存に再帰的に学習するPolynomial-Interaction-Network (PIN)を拡張することで、DynIntはさらに動的高次相互作用をモデリングするための2つのモード、動的アクティベーションと動的パラメータを導出した。 動的アクティベーションモードでは、インスタンス対応アクティベーションゲーティングネットワークによる学習相互作用の強度を適応的に調整する。 動的パラメータモードでは、パラメータを異なる定式化で再パラメータ化し、インスタンス認識パラメータ生成ネットワークでパラメータを動的に生成する。 インスタンス認識ゲーティング機構と動的パラメータ生成により、PINは潜在的な産業アプリケーションのための動的相互作用をモデル化できる。 提案モデルを実装し,実世界のデータセットにおけるモデル性能を評価する。 実験結果は,最先端モデルに対するDynIntの有効性と有効性を示した。

Learning feature interactions is the key to success for the large-scale CTR prediction in Ads ranking and recommender systems. In industry, deep neural network-based models are widely adopted for modeling such problems. Researchers proposed various neural network architectures for searching and modeling the feature interactions in an end-to-end fashion. However, most methods only learn static feature interactions and have not fully leveraged deep CTR models' representation capacity. In this paper, we propose a new model: DynInt. By extending Polynomial-Interaction-Network (PIN), which learns higher-order interactions recursively to be dynamic and data-dependent, DynInt further derived two modes for modeling dynamic higher-order interactions: dynamic activation and dynamic parameter. In dynamic activation mode, we adaptively adjust the strength of learned interactions by instance-aware activation gating networks. In dynamic parameter mode, we re-parameterize the parameters by different formulations and dynamically generate the parameters by instance-aware parameter generation networks. Through instance-aware gating mechanism and dynamic parameter generation, we enable the PIN to model dynamic interaction for potential industry applications. We implement the proposed model and evaluate the model performance on real-world datasets. Extensive experiment results demonstrate the efficiency and effectiveness of DynInt over state-of-the-art models.
翻訳日:2023-01-29 13:58:46 公開日:2023-01-03
# 遺伝的アルゴリズムによる反射面効率の向上

Improving Reflexive Surfaces Efficiency with Genetic Algorithms ( http://arxiv.org/abs/2301.08332v1 )

ライセンス: Link先を確認
A. Steklain, M. Adames, F. Ganacim(参考訳) 本稿では,レシーバの位置が従来のパラボラアンテナと異なるデバイスにおいて,反射面の効率を向上させるために遺伝的アルゴリズムを提案する。 この手法により、ARAPUCA光検出器の効率を向上させることができることを示す。

We propose using a Genetic Algorithm to improve the efficiency of reflexive surfaces in devices where the receiver's position is different from the classic parabolic antenna. With this technique, we show that we can improve the efficiency of the ARAPUCA photodetector.
翻訳日:2023-01-29 13:48:08 公開日:2023-01-03
# 計算病理学のための報告ガイドライン環境のナビゲート:レビュー

Navigating the reporting guideline environment for computational pathology: A review ( http://arxiv.org/abs/2301.09985v1 )

ライセンス: Link先を確認
Clare McGenity, Darren Treanor(参考訳) 新しい人工知能(AI)発見の応用は、医療研究を変えつつある。 しかし、この発展途上の分野で報告の基準は変動しており、潜在的研究の無駄につながる。 本研究の目的は、計算病理学に携わる研究者が利用できる資源と報告ガイドラインを強調することである。 報告ガイドラインと拡張のためのEQUATOR Networkライブラリは、2022年8月まで体系的に検索され、適用可能なリソースが特定された。 包括的および排除的基準を用い,様々な研究段階および様々な研究形態における実用性について指導を行った。 有用なリソースやガイダンスを簡単に識別するための要約を作成するために、アイテムがコンパイルされた。 病理AI研究に適用可能な70以上のリソースが特定された。 ガイドラインは、現在の研究タイプとAI研究の対象領域である文学と研究優先順位、発見、臨床試験、実装とポストインプリメンテーションとガイドラインの2つに分けられた。 研究の複数の段階で有用なガイドラインと現在開発中のガイドラインも強調された。 これらのグループのガイドラインへのリンクを含む概要表が開発され、がんAI研究に携わる人々を支援し、研究の完全な報告を行った。 複製と研究廃棄物の問題は、ai研究において認識される問題である。 レポートガイドラインは、研究の複製に必要な重要な情報がジャーナルの記事や要約に含まれることを保証するテンプレートとして使用できる。 報告ガイドラインは、多くの研究タイプで利用可能で有用であるが、研究者がそれらを活用し、ジャーナルがそれらを採用するように促すには、さらなる認識が必要である。 このレビューとリソースの要約は、レポートの完全性を改善することを目的として、研究者へのガイダンスを強調している。

The application of new artificial intelligence (AI) discoveries is transforming healthcare research. However, the standards of reporting are variable in this still evolving field, leading to potential research waste. The aim of this work is to highlight resources and reporting guidelines available to researchers working in computational pathology. The EQUATOR Network library of reporting guidelines and extensions was systematically searched up to August 2022 to identify applicable resources. Inclusion and exclusion criteria were used and guidance was screened for utility at different stages of research and for a range of study types. Items were compiled to create a summary for easy identification of useful resources and guidance. Over 70 published resources applicable to pathology AI research were identified. Guidelines were divided into key categories, reflecting current study types and target areas for AI research: Literature & Research Priorities, Discovery, Clinical Trial, Implementation and Post-Implementation & Guidelines. Guidelines useful at multiple stages of research and those currently in development were also highlighted. Summary tables with links to guidelines for these groups were developed, to assist those working in cancer AI research with complete reporting of research. Issues with replication and research waste are recognised problems in AI research. Reporting guidelines can be used as templates to ensure the essential information needed to replicate research is included within journal articles and abstracts. Reporting guidelines are available and useful for many study types, but greater awareness is needed to encourage researchers to utilise them and for journals to adopt them. This review and summary of resources highlights guidance to researchers, aiming to improve completeness of reporting.
翻訳日:2023-01-29 13:39:28 公開日:2023-01-03
# IMUセンサを用いた高速特徴点マッチングアルゴリズム

A Fast Feature Point Matching Algorithm Based on IMU Sensor ( http://arxiv.org/abs/2301.10293v1 )

ライセンス: Link先を確認
Lu Cao(参考訳) 同時ローカライゼーションとマッピング(SLAM)では、画像特徴点マッチングプロセスが多くの時間を消費する。 組み込みシステムのような低電力システムの容量はほぼ限られている。 各画像情報のタイムリーな処理を保証することは困難である。 SLAMにおける特徴点のマッチングに要する時間を削減するため、画像特徴点マッチングの効率を最適化するために慣性測定ユニット(IMU)を用いるアルゴリズムを提案する。 2つの画像特徴点をマッチングする場合、提示されたアルゴリズムは特徴点をマッチングするために画像全体をトラバースする必要がない。 従来のアルゴリズムと比較した結果,本手法は画像特徴点マッチング時間の消費を大幅に削減した。 すべての結論は、IMUが画像特徴点マッチングの効率を最適化し、SLAMのリアルタイム性能を改善する方法の研究に役立つ。

In simultaneous localization and mapping (SLAM), image feature point matching process consume a lot of time. The capacity of low-power systems such as embedded systems is almost limited. It is difficult to ensure the timely processing of each image information. To reduce time consuming when matching feature points in SLAM, an algorithm of using inertial measurement unit (IMU) to optimize the efficiency of image feature point matching is proposed. When matching two image feature points, the presented algorithm does not need to traverse the whole image for matching feature points, just around the predicted point within a small range traversal search to find matching feature points. After compared with the traditional algorithm, the experimental results show that this method has greatly reduced the consumption of image feature points matching time. All the conclusions will help research how to use the IMU optimize the efficiency of image feature point matching and improve the real-time performance in SLAM.
翻訳日:2023-01-29 13:21:38 公開日:2023-01-03
# 非エルミートチャーン絶縁体のエッジスペクトルの解明

Unravelling the edge spectra of non-Hermitian Chern insulators ( http://arxiv.org/abs/2209.06774v2 )

ライセンス: Link先を確認
James Bartlett, Erhai Zhao(参考訳) 非エルミート系チャーン系絶縁体はヘルミート系の従兄弟とは一面に違い、その端のスペクトルは驚くほど豊かで一致している。 例えば、バルクスペクトルがチャーン数$\pm 1$の2つのバンドからなる単純な場合であっても、スラブ幾何学におけるエッジスペクトルは、モデルパラメータによっては、両辺に1つまたは2つのエッジ状態を持つかもしれない。 このゆるやかなバルクエッジ対応の違反は、バルクチャーン数が依然として有用トポロジカル不変量であるかどうか疑問を呈し、バルクハミルトンスペクトルの無数のエッジスペクトルを予測し説明できる作業理論を要求し、バルクエッジ対応を復元する。 一般化ブリルアンゾーン (gbz) の概念とブロックトープリッツ行列の漸近的性質に基づいて, エッジ相図を徹底的に理解するために, このような理論をどのように設定できるかを概説する。 この手順は、2バンドチャーン絶縁体の標準例であるQi-Wu-Zhangモデルの3つの非エルミート一般化を解いて比較することによって説明される。 驚くべきことに、多くの場合、位相境界とエッジ状態の数と位置を解析的に得ることができる。 また, エネルギーモメンタムスペクトルが膜を横切るエッジモードを有する連続膜を形成する非エルミート半金属相についても解析を行った。 GBZ 上のチャーン数を定義する部分集合は、一般に滑らかな多様体ではなく特異点を持つかもしれない。 ここで示したアプローチは、2次元または3次元の非エルミート型絶縁体または半金属のより複雑なモデルに一般化することができる。

Non-Hermitian Chern insulators differ from their Hermitian cousins in one key aspect: their edge spectra are incredibly rich and confounding. For example, even in the simple case where the bulk spectrum consists of two bands with Chern number $\pm 1$, the edge spectrum in the slab geometry may have one or two edge states on both edges, or only at one of the edges, depending on the model parameters. This blatant violation of the familiar bulk-edge correspondence casts doubt on whether the bulk Chern number can still be a useful topological invariant, and demands a working theory that can predict and explain the myriad of edge spectra from the bulk Hamiltonian to restore the bulk-edge correspondence. We outline how such a theory can be set up to yield a thorough understanding of the edge phase diagram based on the notion of the generalized Brillouin zone (GBZ) and the asymptotic properties of block Toeplitz matrices. The procedure is illustrated by solving and comparing three non-Hermitian generalizations of the Qi-Wu-Zhang model, a canonical example of two-band Chern insulators. We find that, surprisingly, in many cases the phase boundaries and the number and location of the edge states can be obtained analytically. Our analysis also reveals a non-Hermitian semimetal phase whose energy-momentum spectrum forms a continuous membrane with the edge modes transversing the hole, or genus, of the membrane. Subtleties in defining the Chern number over GBZ, which in general is not a smooth manifold and may have singularities, are demonstrated using examples. The approach presented here can be generalized to more complicated models of non-Hermitian insulators or semimetals in two or three dimensions.
翻訳日:2023-01-26 16:49:45 公開日:2023-01-03
# 非アベリア対称性は絡み合いエントロピーを増加させる

Non-Abelian symmetry can increase entanglement entropy ( http://arxiv.org/abs/2209.14303v2 )

ライセンス: Link先を確認
Shayan Majidy, Aleksander Lasek, David A. Huse, Nicole Yunger Halpern(参考訳) 量子論の柱は、絡み合いと作用素の通勤失敗を含む。 Page曲線は、多体系の二部交絡をランダムな純粋状態で定量化する。 この絡み合いは、互いに通勤する広範な観測可能量(Abelian ``charges'')を制約すれば減少することが知られている。 非可換電荷は互いに可換にならず、量子熱力学に現在興味を持っている。 例えば、非可換電荷はエントロピー生成速度を減少させ、固有状態の熱化による有限サイズ偏差を増大させることを示した。 量子熱力学を多体物理学に橋渡し、電荷の非可換性(対称性の非可換性)がページ曲線に与える影響を定量化する。 まず, 2つのモデルを構築し, 電荷が可換であるかどうかを比較検討する。 解析的および数値的に非可換チャージケースがより絡み合いを持つことを示す。 したがって、電荷の非交換は絡み合いを促進する。

The pillars of quantum theory include entanglement and operators' failure to commute. The Page curve quantifies the bipartite entanglement of a many-body system in a random pure state. This entanglement is known to decrease if one constrains extensive observables that commute with each other (Abelian ``charges''). Non-Abelian charges, which fail to commute with each other, are of current interest in quantum thermodynamics. For example, noncommuting charges were shown to reduce entropy-production rates and may enhance finite-size deviations from eigenstate thermalization. Bridging quantum thermodynamics to many-body physics, we quantify the effects of charges' noncommutation -- of a symmetry's non-Abelian nature -- on Page curves. First, we construct two models that are closely analogous but differ in whether their charges commute. We show analytically and numerically that the noncommuting-charge case has more entanglement. Hence charges' noncommutation can promote entanglement.
翻訳日:2023-01-24 19:27:21 公開日:2023-01-03
# XENONNTデータを用いた自然波動関数崩壊モデルに関する新しい限界

New Limits on Spontaneous Wave Function Collapse Models with the XENONnT Data ( http://arxiv.org/abs/2209.15082v2 )

ライセンス: Link先を確認
Inwook Kim(参考訳) 我々は、量子力学の客観的波動関数崩壊モデルにより予測された自発X線放射特性のXENONnTデータの解析を行った。 極めて低い背景と大きな露光により、xenonntデータは、ghirardi、rhimini、weberによって提案された連続的自発的局在(csl)モデルの理論的に予測された崩壊パラメータを完全に排除することができる。 以上の結果から, ホワイトノイズ仮定によるCSLモデルの最も単純なバージョンは, 量子力学の長年にわたる測定問題に対する答えを得られず, 理論のより複雑なバージョンを追求する動機となる可能性が示唆された。 結果がDi\'{o}si-Penrose重力波関数崩壊モデルで解釈された場合、我々の極限は前の限界を5.7倍改善する。 より正確な背景モデリングを用いた詳細な分析により、限界をさらに改善することができる。

We have analyzed recently published XENONnT data for the spontaneous X-ray emission signature predicted by the objective wave function collapse model of quantum mechanics. With extremely low background and large exposure, XENONnT data can be used to completely exclude the theoretically predicted collapse parameters of continuous spontaneous localization~(CSL) model suggested by Ghirardi, Rhimini and Weber. Our result strongly suggests that the simplest version of the CSL model with the white-noise assumption is unlikely to provide answers to the long-standing measurement problem of quantum mechanics and motivates pursuits of more complex versions of the theory. If the result is interpreted with the Di\'{o}si-Penrose gravitational wave function collapse model, our limit improves the previous limit by a factor of 5.7. Detailed analysis using more precise background modelling can further improve the limits.
翻訳日:2023-01-24 10:06:23 公開日:2023-01-03
# Schr\\odinger-Newton方程式に対する相対論的効果

Relativistic effects on the Schr\"odinger-Newton equation ( http://arxiv.org/abs/2210.06195v2 )

ライセンス: Link先を確認
David Brizuela, Albert Duran-Cabac\'es(参考訳) Schr\\odinger-Newton モデルは自己重力量子粒子を記述しており、波動関数の重力崩壊とマクロな物体の局在を説明するためにしばしば引用される。 しかし、このモデルは全く相対論的ではない。 したがって、相対論的効果がこの系の性質を損なうかどうかを研究するために、ある相対論的補正を1次ニュートン次数まで考慮してシュリンガー・ニュートン方程式の修正を導出する。 モデルの構築は、曲線の背景に伝播する相対論的粒子のハミルトニアンを考えることから始まる。 単純さのために、背景計量は球対称であると仮定され、その後最初のニュートン次数に拡張される。 系の正準量子化を行い、通常の解釈に従うと、波動関数の加群の正方形は質量分布を定義し、これは重力ポテンシャルのポアソン方程式の源となる。 非相対論的の場合と同様に、この構成はポアソン方程式とシュレーディンガー方程式を結合し、複雑な非線形系をもたらす。 したがって、初期ガウス波パケットのダイナミクスは数値的に解析される。 我々は波動関数の自然な分散が非相対論的の場合よりも遅いことを観察する。 さらに、最終ローカライズされた定常状態に達する場合、波動関数のピークはより小さな半径に位置する。 したがって、相対論的補正は、波動関数の重力局在の説明として、粒子の自己重力を増加させ、このモデルの妥当性を高めるのに有効である。

The Schr\"odinger-Newton model describes self-gravitating quantum particles, and it is often cited to explain the gravitational collapse of the wave function and the localization of macroscopic objects. However, this model is completely nonrelativistic. Thus, in order to study whether the relativistic effects may spoil the properties of this system, we derive a modification of the Schr\"odinger-Newton equation by considering certain relativistic corrections up to the first post-Newtonian order. The construction of the model begins by considering the Hamiltonian of a relativistic particle propagating on a curved background. For simplicity, the background metric is assumed to be spherically symmetric and it is then expanded up to the first post-Newtonian order. After performing the canonical quantization of the system, and following the usual interpretation, the square of the module of the wave function defines a mass distribution, which in turn is the source of the Poisson equation for the gravitational potential. As in the nonrelativistic case, this construction couples the Poisson and the Schr\"odinger equations and leads to a complicated nonlinear system. Hence, the dynamics of an initial Gaussian wave packet is then numerically analyzed. We observe that the natural dispersion of the wave function is slower than in the nonrelativistic case. Furthermore, for those cases that reach a final localized stationary state, the peak of the wave function happens to be located at a smaller radius. Therefore, the relativistic corrections effectively contribute to increase the self-gravitation of the particle and strengthen the validity of this model as an explanation for the gravitational localization of the wave function.
翻訳日:2023-01-22 19:44:47 公開日:2023-01-03
# キャビティ光学における機械振動子のキャラクタリゼーションのための量子状態純度と平均フォノン数

Quantum state purity versus average phonon number for characterization of mechanical oscillators in cavity optomechanics ( http://arxiv.org/abs/2211.04425v3 )

ライセンス: Link先を確認
K. B{\o}rkje and F. Marin(参考訳) ガウス状態の量子発振子は、非相互作用振動子の固有状態の基底を参照する平均占有数によって特徴づけられる。 量子状態純度はそのような状態のより適切な特性であり、任意の次元の振動子に適用できると主張する。 一次元発振器の場合、状態純度は、発振器の量子状態が熱的である数状態基底に対して定義される熱的占有数に直接関係する。 したがって、これは自然に平均的な職業数のより汎用的な定義を導入する。 特に1次元および2次元の機械振動子の最適サイドバンド冷却について検討し、量子バックアクション限界で達成可能な最大機械状態の正確な解析式を導出する。 1次元発振器の場合、純度に関連する熱占有数は弱結合状態における平均フォノン数によってよく近似できるが、超強光機械的結合状態や発振器の共鳴周波数が強く再正規化されている場合では両者が異なる。

Quantum oscillators in Gaussian states are often characterized by average occupation numbers that refer to a basis of eigenstates of the non-interacting oscillator Hamiltonian. We argue that quantum state purity is a more appropriate characteristic of such states, which can be applied to oscillators of any dimensionality. For a one-dimensional oscillator, the state purity is directly related to a thermal occupation number defined with respect to the number state basis in which the oscillator's quantum state is thermal. Thus, it naturally introduces a more versatile definition of an average occupation number. We study optomechanical sideband cooling of one- and two-dimensional mechanical oscillators in particular, and derive exact analytical expressions for the maximal mechanical state purity achievable in the quantum backaction limit. In the case of a one-dimensional oscillator, we show that the thermal occupation number related to purity can be well approximated by the average phonon number in the weak-coupling regime, but that the two differ in the regime of ultrastrong optomechanical coupling or in cases where the oscillator's resonance frequency is strongly renormalized.
翻訳日:2023-01-19 23:04:58 公開日:2023-01-03
# 準生成N電子価摂動理論によるスピン軌道結合のシミュレーション

Simulating Spin-Orbit Coupling With Quasidegenerate N-Electron Valence Perturbation Theory ( http://arxiv.org/abs/2211.06466v3 )

ライセンス: Link先を確認
Rajat Majumder, Alexander Yu. Sokolov(参考訳) 完全内部縮約された2次準世代N電子価摂動理論(SO-QDNEVPT2)におけるスピン軌道結合効果の最初の実装について述べる。 SO-QDNEVPT2アプローチは、静的電子相関の記述と、動的相関とスピン軌道結合の効率的な処理を組み合わせた地上および励起状態エネルギーと発振器強度の計算を可能にする。 2成分のbreit-pauli hamiltonianのレベルで1および2体のスピン軌道相互作用を完全に記述したso-qdnevpt2に加えて、スピン軌道平均場近似(somf-qdnevpt2)を利用した簡易なアプローチも実装している。 これらの方法の精度は、14と16の水素化物、3dと4dの遷移金属イオン、2つのアクチニド(ネプツニルとプルトニル)に対して試験される。 SO-QDNEVPT2およびSOMF-QDNEVPT2を用いて計算した14分子と16分子のゼロフィールド分割は、実験データとよく一致している。 3d遷移金属イオンでは,SO-QDNEVPT2法はSOMF-QDNEVPT2法よりもかなり精度が高いが,4dイオンでは2法の性能に有意な差はない。 最後に, アクチニド二酸化硫黄に対して, SO-QDNEVPT2 と SOMF-QDNEVPT2 の結果が, これらの系のこれまでの理論的研究のデータとよく一致していることを示す。 以上の結果から,SO-QDNEVPT2とSOMF-QDNEVPT2は,スピン軌道結合を比較的低い計算コストで処理するためのマルチ参照手法として有望であることが示された。

We present the first implementation of spin-orbit coupling effects in fully internally contracted second-order quasidegenerate N-electron valence perturbation theory (SO-QDNEVPT2). The SO-QDNEVPT2 approach enables the computations of ground- and excited-state energies and oscillator strengths combining the description of static electron correlation with an efficient treatment of dynamic correlation and spin-orbit coupling. In addition to SO-QDNEVPT2 with the full description of one- and two-body spin-orbit interactions at the level of two-component Breit-Pauli Hamiltonian, our implementation also features a simplified approach that takes advantage of spin-orbit mean-field approximation (SOMF-QDNEVPT2). The accuracy of these methods is tested for the group 14 and 16 hydrides, 3d and 4d transition metal ions, and two actinide dioxides (neptunyl and plutonyl dications). The zero-field splittings of group 14 and 16 molecules computed using SO-QDNEVPT2 and SOMF-QDNEVPT2 are in a good agreement with the available experimental data. For the 3d transition metal ions, the SO-QDNEVPT2 method is significantly more accurate than SOMF-QDNEVPT2, while no substantial difference in the performance of two methods is observed for the 4d ions. Finally, we demonstrate that for the actinide dioxides the results of SO-QDNEVPT2 and SOMF-QDNEVPT2 are in a good agreement with the data from previous theoretical studies of these systems. Overall, our results demonstrate that SO-QDNEVPT2 and SOMF-QDNEVPT2 are promising multireference methods for treating spin-orbit coupling with a relatively low computational cost.
翻訳日:2023-01-19 18:09:58 公開日:2023-01-03
# 位相ゲージ場と複合粒子双対性

Topological Gauge Fields and the Composite Particle Duality ( http://arxiv.org/abs/2211.06668v2 )

ライセンス: Link先を確認
Gerard Valent\'i-Rojas, Aneirin J. Baker, Alessio Celi, and Patrik \"Ohberg(参考訳) トポロジカルゲージ場をトポロジカル電流によって強制される非自明な場構成として導入する。 これらの分野は重要な統計ゲージ場の形式を決定づけ、それらの統計を解釈する。 合成粒子像の基礎となる物理機構を議論し、任意の次元におけるボソニゼーションの概念と自然に関係するゲージ形式の双対性であると主張する。 これは、密度依存ゲージポテンシャルをもたらすフラックスアタッチメントの一般化バージョンを取得することに基づいている。 我々は,よく知られた結果を回収し,古い論争を解決し,そのようなゲージ場の出現の微視的メカニズムを提案する。 また、超低温原子プラットフォームにおける実験的実現の可能性についても概説する。

We introduce topological gauge fields as nontrivial field configurations enforced by topological currents. These fields crucially determine the form of statistical gauge fields that couple to matter and transmute their statistics. We discuss the physical mechanism underlying the composite particle picture and argue that it is a duality of gauge forms that naturally relates to the notion of bosonisation in arbitrary dimensions. This is based on obtaining a generalised version of flux attachment, which yields a density-dependent gauge potential. We recover well-known results, resolve old controversies, and suggest a microscopic mechanism for the emergence of such a gauge field. We also outline potential directions for experimental realisations in ultracold atom platforms.
翻訳日:2023-01-19 17:47:32 公開日:2023-01-03
# 脳波発作識別のための教師なし多変量時系列変圧器

Unsupervised Multivariate Time-Series Transformers for Seizure Identification on EEG ( http://arxiv.org/abs/2301.03470v1 )

ライセンス: Link先を確認
\.Ilkay Y{\i}ld{\i}z Potter, George Zerveas, Carsten Eickhoff, Dominique Duncan(参考訳) てんかんは最も一般的な神経疾患の1つで、典型的には発作のエピソードを通して観察される。 てんかん発作は、通常、脳電図(eeg)記録によって監視される。 脳波の確率的性質は、高度に訓練された専門家による手動検査による発作の識別を面倒な試みとし、自動識別の使用を動機付けている。 自動識別に関する文献は主に、取得が困難な発作を含む脳波セグメントの専門ラベルを必要とする教師付き学習方法に焦点を当てている。 これらの観察により, 異常検出問題として発作同定を行う。 そこで本研究では,初となる非教師なしトランスフォーマーモデルを用いて生脳波の発作同定を行う。 教師なし損失関数を介してトランスフォーマエンコーダを含むオートエンコーダを訓練し、脳波などの時系列データに特有の新しいマスキング戦略を導入する。 訓練では、発作を含まない脳波記録を使用し、一方、発作は推定時に再構成エラーについて識別される。 提案手法を3つのベンチマークEEGデータセットで評価し, 発作と非地震窓の区別を行った。 提案手法は, 教師付き学習者よりも, 最大16%のリコール, 9%の精度, 9%のエリアを受信者動作特性曲線 (AUC) で検出し, 高度に不均衡なデータに特有な利点を見出した。 正確な発作同定を行うことで, 高価なラベル収集や手作業による特徴抽出を必要とせず, 広くアクセスし, 早期にてんかん進展を検出できる。

Epilepsy is one of the most common neurological disorders, typically observed via seizure episodes. Epileptic seizures are commonly monitored through electroencephalogram (EEG) recordings due to their routine and low expense collection. The stochastic nature of EEG makes seizure identification via manual inspections performed by highly-trained experts a tedious endeavor, motivating the use of automated identification. The literature on automated identification focuses mostly on supervised learning methods requiring expert labels of EEG segments that contain seizures, which are difficult to obtain. Motivated by these observations, we pose seizure identification as an unsupervised anomaly detection problem. To this end, we employ the first unsupervised transformer-based model for seizure identification on raw EEG. We train an autoencoder involving a transformer encoder via an unsupervised loss function, incorporating a novel masking strategy uniquely designed for multivariate time-series data such as EEG. Training employs EEG recordings that do not contain any seizures, while seizures are identified with respect to reconstruction errors at inference time. We evaluate our method on three publicly available benchmark EEG datasets for distinguishing seizure vs. non-seizure windows. Our method leads to significantly better seizure identification performance than supervised learning counterparts, by up to 16% recall, 9% accuracy, and 9% Area under the Receiver Operating Characteristics Curve (AUC), establishing particular benefits on highly imbalanced data. Through accurate seizure identification, our method could facilitate widely accessible and early detection of epilepsy development, without needing expensive label collection or manual feature extraction.
翻訳日:2023-01-15 22:59:58 公開日:2023-01-03
# 階層構造を用いた高レベル合成とモノのインターネットを用いたセンサ信号処理

Sensor Signal Processing using High-Level Synthesis and Internet of Things with a Layered Architecture ( http://arxiv.org/abs/2301.03356v1 )

ライセンス: Link先を確認
CS Reddy and Krishna Anand(参考訳) センサルータはモノのインターネット(Internet of Things)アプリケーションにおいて重要な役割を担い、ネットワーク信号の伝送能力はクラウドシステムからセンサーへの通信能力と逆転プロセスに制限される。 高いレベルの合成でデータを処理するために、さまざまなアーキテクチャ層を持つ堅牢な認識フレームワークについて説明する。 アプリケーションがクラウドシステムで発生するモノのインターネットの助けを借りて、ノードを直感的に感知するように設計されている。 本稿では,高レベル合成DBMF(データベース管理機能)ツールによるIOTアプリケーションの考案を検知するために,4層新しい設計フレームワークを組み込んだ組込みPEを提案する。

Sensor routers play a crucial role in the sector of Internet of Things applications, in which the capacity for transmission of the network signal is limited from cloud systems to sensors and its reversal process. It describes a robust recognized framework with various architected layers to process data at high level synthesis. It is designed to sense the nodes instinctually with the help of Internet of Things where the applications arise in cloud systems. In this paper embedded PEs with four-layer new design framework architecture is proposed to sense the devises of IOT applications with the support of high-level synthesis DBMF (database management function) tool.
翻訳日:2023-01-15 22:59:32 公開日:2023-01-03
# マルチオミクスデータのためのグラフコントラスト学習

Graph Contrastive Learning for Multi-omics Data ( http://arxiv.org/abs/2301.02242v1 )

ライセンス: Link先を確認
Nishant Rajadhyaksha and Aarushi Chitkara(参考訳) オミクスデータを扱う技術の発展には、情報を完全に活用し、人間の病気をよりよく理解するための新しい計算方法が必要である。 本稿では,マルチオミクスデータセットの下流分類タスクにおいて,グラフ構造と情報を活用するためのグラフコントラスト学習の導入の効果について検討する。 我々は、教師付き学習タスクのためのマルチオミクスデータを統合するためのいくつかのアプラーチを上回り、MOGCL(Multi-Omics Graph Contrastive Learner)という学習フレームワークを提案する。 比較手法による事前学習グラフモデルと教師あり方式の微調整は,マルチオミクスデータ分類のための効率的な戦略であることを示す。

Advancements in technologies related to working with omics data require novel computation methods to fully leverage information and help develop a better understanding of human diseases. This paper studies the effects of introducing graph contrastive learning to help leverage graph structure and information to produce better representations for downstream classification tasks for multi-omics datasets. We present a learnining framework named Multi-Omics Graph Contrastive Learner(MOGCL) which outperforms several aproaches for integrating multi-omics data for supervised learning tasks. We show that pre-training graph models with a contrastive methodology along with fine-tuning it in a supervised manner is an efficient strategy for multi-omics data classification.
翻訳日:2023-01-15 22:59:06 公開日:2023-01-03
# 6G無線ネットワークにおける大規模最適化のための機械学習

Machine Learning for Large-Scale Optimization in 6G Wireless Networks ( http://arxiv.org/abs/2301.03377v1 )

ライセンス: Link先を確認
Yandong Shi, Lixiang Lian, Yuanming Shi, Zixin Wang, Yong Zhou, Liqun Fu, Lin Bai, Jun Zhang and Wei Zhang(参考訳) 第6世代(6G)無線システムは、超高密度、大規模でダイナミックな異質性、機能要件の多様化、機械学習能力といった特徴を持つ「接続物」から「接続知性」へのパラダイムシフトを可能にするため、高効率なインテリジェントアルゴリズムの必要性が高まっている。 古典的な最適化に基づくアルゴリズムは通常、データリンクの高精度な数学的モデルを必要とし、現実的な6Gアプリケーションでは計算コストの高い性能に悩まされる。 ドメイン知識(例えば最適化モデルや理論ツール)に基づいて、機械学習(ml)は、6gにおける多くの複雑な大規模最適化問題に対して有望で実行可能な方法論である。 本稿では,6G無線ネットワークの多様な領域における最も代表的な「最適化学習」手法について,基礎となる最適化問題の本質的特徴を特定し,最適化の観点から特定の設計されたMLフレームワークについて検討する。 特に、アルゴリズムの展開、構造最適化のための分岐境界学習、確率最適化のためのディープ強化学習、セマンティック最適化のためのエンドツーエンド学習、分散最適化のための連合学習、様々な重要なワイヤレスアプリケーションから発生する大規模最適化問題を解く。 そこで本研究では,従来の手法に関して,MLに基づく最適化アルゴリズムの優れた性能に光を当て6Gネットワークにおける高度なML技術開発のための洞察力のあるガイダンスを提供する。

The sixth generation (6G) wireless systems are envisioned to enable the paradigm shift from "connected things" to "connected intelligence", featured by ultra high density, large-scale, dynamic heterogeneity, diversified functional requirements and machine learning capabilities, which leads to a growing need for highly efficient intelligent algorithms. The classic optimization-based algorithms usually require highly precise mathematical model of data links and suffer from poor performance with high computational cost in realistic 6G applications. Based on domain knowledge (e.g., optimization models and theoretical tools), machine learning (ML) stands out as a promising and viable methodology for many complex large-scale optimization problems in 6G, due to its superior performance, generalizability, computational efficiency and robustness. In this paper, we systematically review the most representative "learning to optimize" techniques in diverse domains of 6G wireless networks by identifying the inherent feature of the underlying optimization problem and investigating the specifically designed ML frameworks from the perspective of optimization. In particular, we will cover algorithm unrolling, learning to branch-and-bound, graph neural network for structured optimization, deep reinforcement learning for stochastic optimization, end-to-end learning for semantic optimization, as well as federated learning for distributed optimization, for solving challenging large-scale optimization problems arising from various important wireless applications. Through the in-depth discussion, we shed light on the excellent performance of ML-based optimization algorithms with respect to the classical methods, and provide insightful guidance to develop advanced ML techniques in 6G networks.
翻訳日:2023-01-15 22:57:00 公開日:2023-01-03
# 観測エントロピーを用いたウィットネス量子カオス

Witnessing quantum chaos using observational entropy ( http://arxiv.org/abs/2212.01585v2 )

ライセンス: Link先を確認
Sreeram PG, Ranjan Modak and S. Aravinda(参考訳) 量子キックトップ (qkt) モデルの観測エントロピー (oe) について検討し, その古典的エントロピーは, キックパラメータの強度に応じて, 正則, 混合, カオスの各相を持つ。 我々は,OEが周期的に粗粒長で対数的に成長するのに対して,OEはカオス的状態においてより高速であることを示す。 動態学では,OEの短時間成長速度がシステムのカオス性の尺度として機能することを示し,この結果と時間外相関器(OTOC)との比較を行った。 さらに、深い量子状態においては、OEから得られる結果はOTOCの結果よりもはるかに堅牢であることを示す。 最後に,サドルポイントスクランブルと真のカオスを区別するために,oeの長期的挙動についても検討した。

We study observation entropy (OE) for the Quantum kicked top (QKT) model, whose classical counterpart possesses different phases: regular, mixed, or chaotic, depending on the strength of the kicking parameter. We show that OE grows logarithmically with coarse-graining length beyond a critical value in the regular phase, while OE growth is much faster in the chaotic regime. In the dynamics, we demonstrate that the short-time growth rate of OE acts as a measure of the chaoticity in the system, and we compare our results with out-of-time-ordered correlators (OTOC). Moreover, we show that in the deep quantum regime, the results obtained from OE are much more robust compared to OTOC results. Finally, we also investigate the long-time behaviour of OE to distinguish between saddle-point scrambling and true chaos, where the former shows large persistent fluctuations compared to the latter.
翻訳日:2023-01-09 19:35:12 公開日:2023-01-03
# 量子システムとアイデンティティ:「置換不変性」に反する

Quantum Systems and Identity: Against "Permutation Invariance" ( http://arxiv.org/abs/2301.00502v2 )

ライセンス: Link先を確認
Ruth E. Kastner(参考訳) アイデンティティ、個人性、差別性の相互関係に関する広範な哲学的文献がある。 この議論から「置換不変性」という概念が生まれ、量子系に適用すると主張されている。 私は、実際にはそのような不変性は存在せず、対称性状態におけるラベルの置換を理解する最善の方法は、置換不変性に等価な本質の交換ではなく、ヘッケシティの交換であると論じている。 私は、haecceityの最も強い概念(すなわち「古典的haecceity」)は量子レベルでは適用されないが、量子系における対称性の必要性を適切に考慮するために、より弱いhaecceityが関与しなければならず、私が量子haecceityと呼ぶ。

There is an extensive philosophical literature on the interrelated issues of identity, individuality, and distinguishability. Out of this discussion has arisen a concept called "permutation invariance" that is asserted to apply to quantum systems. I argue that in fact there is no such invariance, and that the best way to understand the permutation of labels in the symmetrized states is as an exchange of haecceities, rather than as an exchange of essences equivalent to permutation invariance. I argue that the strongest notion of haecceity (i.e., "classical haecceity") does not apply at the quantum level, but that in order to properly account for the need for symmetrization in quantum systems, a weaker kind of haecceity must be involved, which I call quantum haecceity.
翻訳日:2023-01-09 01:19:58 公開日:2023-01-03
# ベルの不等式と最大実効量子力学

Bell Inequalities and Maximally Realistic Causal Quantum Mechanics ( http://arxiv.org/abs/2301.00119v2 )

ライセンス: Link先を確認
S. M. Roy(参考訳) DeBB)\cite{DeBB} Causal Quantum Mechanics はベルの発見において、量子力学がEPR局所現実(英語版) \cite{EPR1935} に違反しているというベルの発見において重要な役割を担った。 Aspect et al \cite{Aspect1981} の実験は、2つの光子の平面分極とベルの不等式を$\sqrt 2 $ で破る間の量子的相関を確認した。 楕円偏光子を用いた同様の実験は、ベルの不等式を同じ因子で量子違反することを示すことができる。 極大に現実的な因果量子力学の構成を$n-$D構成空間 \cite{Roy-Singh 1995} で要約する。 位相空間ベルの不等式と'Marginal Theorems' \cite{Auberson2002} は重要な役割を果たす。

The De Broglie-Bohm (DeBB)\cite{DeBB} Causal Quantum Mechanics played a crucial role in Bell's discovery \cite{Bell1964} that quantum mechanics violates EPR local reality \cite{EPR1935}, and also in Bell's search for an exact quantum mechanics. The experiments of Aspect et al \cite{Aspect1981} confirm quantum correlations between plane polarizations of two photons and violation of Bell's inequalities by a factor $\sqrt 2 $. I prove that similar experiments with elliptic polarizers can also show quantum violations of Bell's inequality by the same factor. I summarize our construction of a maximally realistic causal quantum mechanics in $n-$dimensional configuration space \cite{Roy-Singh1995}. Phase space Bell inequalities and 'Marginal Theorems' \cite{Auberson2002} play a crucial role.
翻訳日:2023-01-09 01:11:55 公開日:2023-01-03
# 2次元スピン系における高次カテゴリー対称性とゲージ

Higher categorical symmetries and gauging in two-dimensional spin systems ( http://arxiv.org/abs/2301.01259v1 )

ライセンス: Link先を確認
Clement Delcamp, Apoorv Tiwari(参考訳) 二次元スピン系の高次カテゴリー対称性を体系的に研究する枠組みを提案する。 エキゾチックではあるが、そのような一般化された対称性は自然に可逆対称性をゲージするときに双対対称性として現れることが示されている。 我々のフレームワークは双対性へのアプローチに依存しており、双対量子格子モデルは、いくつかの入力融合2-カテゴリよりもモジュール2-カテゴリを選択する場合にのみ異なる。 通常の対称性を持つ任意の2次元スピン系が与えられたとき、その任意の部分対称性の(分割された)ゲージを実行する方法を説明する。 次に、入力融合2-カテゴリの森田双対に符号化された対称性構造を対応する加群2-カテゴリに対して示す。 我々は、超場イジングモデルの特定の有限群一般化に特化してこのアプローチを実証し、高群の高次表現の融合2-圏に組織化された格子対称性作用素を明示的に定義する。

We present a framework to systematically investigate higher categorical symmetries in two-dimensional spin systems. Though exotic, such generalised symmetries have been shown to naturally arise as dual symmetries upon gauging invertible symmetries. Our framework relies on an approach to dualities whereby dual quantum lattice models only differ in a choice of module 2-category over some input fusion 2-category. Given an arbitrary two-dimensional spin system with an ordinary symmetry, we explain how to perform the (twisted) gauging of any of its sub-symmetries. We then demonstrate that the resulting model has a symmetry structure encoded into the Morita dual of the input fusion 2-category with respect to the corresponding module 2-category. We exemplify this approach by specialising to certain finite group generalisations of the transverse-field Ising model, for which we explicitly define lattice symmetry operators organised into fusion 2-categories of higher representations of higher groups.
翻訳日:2023-01-08 22:31:43 公開日:2023-01-03
# NP完全頂点色問題に対する量子フェーシビリティラベリング

Quantum Feasibility Labeling for NP-complete Vertex Coloring Problem ( http://arxiv.org/abs/2301.01589v1 )

ライセンス: Link先を確認
Junpeng Zhan(参考訳) 多くの重要な科学と工学の問題は、コンピュータ科学と数学において重要なNP完全問題に変換できる。 現在、既存の古典アルゴリズムや量子アルゴリズムではこれらの問題を多項式時間で解くことはできない。 そこで本研究では,np完全問題である頂点彩色問題に対して,可能な解すべてをラベル付けする量子化可能性ラベル付け(qfl)アルゴリズムを提案する。 前回の研究で提案した変分量子サーチ(VQS)アルゴリズムは、26キュービットまでで、非構造化データベースから良い要素を見つけるための指数的な高速化を実現している。 ラベルと関連する可能な解を入力として、VQSは頂点色問題に対するすべての実現可能な解を見つけることができる。 QFLが要求する量子ビット数と回路深さは、頂点の数、エッジの数、頂点色問題の色数の多項式関数である。 QFLとVQSは多項式時間でNP完全問題を解く最初のアルゴリズムであり、VQSが任意の量子ビットに対して効率的であることが証明される。

Many important science and engineering problems can be converted into NP-complete problems which are of significant importance in computer science and mathematics. Currently, neither existing classical nor quantum algorithms can solve these problems in polynomial time. To overcome this difficulty, this paper proposes a quantum feasibility labeling (QFL) algorithm to label all possible solutions to the vertex coloring problem, which is a well-known NP-complete problem. The variational quantum search (VQS) algorithm proposed in my previous work has been demonstrated, up to 26 qubits, to achieve an exponential speedup in finding good element(s) from an unstructured database. Using the labels and the associated possible solutions as input, the VQS can find all feasible solutions to the vertex coloring problem. The number of qubits and the circuit depth required by the QFL each is a polynomial function of the number of vertices, the number of edges, and the number of colors of a vertex coloring problem. The QFL together with the VQS could be the first algorithm to solve an NP-complete problem in polynomial time, provided that the VQS is proved to be efficient for any number of qubits.
翻訳日:2023-01-08 22:27:10 公開日:2023-01-03
# モジュラーハミルトン多項式からの資源単調の列

Sequences of resource monotones from modular Hamiltonian polynomials ( http://arxiv.org/abs/2301.01053v1 )

ライセンス: Link先を確認
Ra\'ul Arias, Jan de Boer, Giuseppe Di Giulio, Esko Keski-Vakkuri, Erik Tonni(参考訳) モジュラーハミルトニアンにおける多項式の期待値から構築した、2つのエンタングルメント単調の無限列を導入する。 これらのモノトンは、大きな状態遷移で満たさなければならない不等式の無限列を生成する。 我々はこれを情報消去のために示し、モジュラーハミルトニアンのパワーの期待値の線形結合によって境界付けられた作業コストの「ランドウアーの不等式」の無限列を導出する。 これらの不等式は有限次元系における作業コストの下限を改善し、モジュラーハミルトニアンのエントロピーや分散よりも消去状態の詳細に依存する。 同様に、環境に結合したシステムの限界エントロピー生成に対する下限を導出することができる。 これらの無限列の絡み合いモノトンはまた、より一般的な過程において単調な相対的量化子、すなわち、固定点フルランク状態 $\sigma$-majorization に関するいわゆる $\sigma$-majorization を含むものを生み出し、そのような量化子をリソースモノトンと呼ぶ。 熱力学への応用として、それらはクラウシウスの不等式に対する有限次元補正を導出することができる。 最後に、(もし何かが)場の理論における主化の役割について直観的に考えるために、臨界点における離散化理論における状態の対を比較し、主化が連鎖全体の大きさに対する二分割の大きさに依存するかを研究する。

We introduce two infinite sequences of entanglement monotones, which are constructed from expectation values of polynomials in the modular Hamiltonian. These monotones yield infinite sequences of inequalities that must be satisfied in majorizing state transitions. We demonstrate this for information erasure, deriving an infinite sequence of "Landauer inequalities" for the work cost, bounded by linear combinations of expectation values of powers of the modular Hamiltonian. These inequalities give improved lower bounds for the work cost in finite dimensional systems, and depend on more details of the erased state than just on its entropy and variance of modular Hamiltonian. Similarly one can derive lower bounds for marginal entropy production for a system coupled to an environment. These infinite sequences of entanglement monotones also give rise to relative quantifiers that are monotonic in more general processes, namely those involving so-called $\sigma$-majorization with respect to a fixed point full rank state $\sigma$; such quantifiers are called resource monotones. As an application to thermodynamics, one can use them to derive finite-dimension corrections to the Clausius inequality. Finally, in order to gain some intuition for what (if anything) plays the role of majorization in field theory, we compare pairs of states in discretized theories at criticality and study how majorization depends on the size of the bipartition with respect to the size of the entire chain.
翻訳日:2023-01-08 22:18:27 公開日:2023-01-03
# PT対称性と準エルミート量子論の運用基盤」へのコメント

Comment on 'The operational foundations of PT-symmetric and quasi-Hermitian quantum theory' ( http://arxiv.org/abs/2301.01215v1 )

ライセンス: Link先を確認
Miloslav Znojil(参考訳) 準エルミート量子論(qhqt)におけるアートの現状の解明 : alase et al (j) の最近の論文に触発されて Phys a: 数学。 Theor 55 (2022) 244003, paper [1]) が提供されている。 著者の主な発見(つまり、QHQTが標準量子論を拡張しない)は、新しいものではないことを指摘した。 著者の「一般確率論の枠組み」 (GPT) における証明方法に関する関連するコメントでは、この文脈においても、数学的に一貫した GPT のような理論が文献で既に利用可能である(エフェクト代数(英語版)と呼ばれる結果に言及する)。 第3に、`'intriguing open question'' についての `what possible constraints, if any, leads to a meaningful extension'' は仮の回答である: 制約は、準エルミティティーの一般化された非定常バージョンである。

An elucidation of the current state of art in quasi-Hermitian quantum theory (QHQT) as inspired by the recent paper by Alase et al (J. Phys. A: Math. Theor. 55 (2022) 244003, paper [1]) is offered. We point out that the author's main discovery (viz., that the QHQT does not extend the standard quantum theory) is not new. In a related comment on the author's method of proof performed in ``the framework of general probabilistic theories'' (GPT) we add that also in this context a few other, mathematically consistent GPT-like theories are already available in the literature (pars pro toto we mention the results using the so called effect algebras). Thirdly, the ``intriguing open question'' about ``what possible constraints, if any, could lead to such a meaningful extension'' is given a tentative answer: The constraint could be just the generalized, non-stationary version of the quasi-Hermiticity.
翻訳日:2023-01-08 22:17:58 公開日:2023-01-03
# 人工結晶中の異方性超流動密度の観察

Observation of anisotropic superfluid density in an artificial crystal ( http://arxiv.org/abs/2301.01258v1 )

ライセンス: Link先を確認
Junheng Tao, Mingshu Zhao, Ian Spielman(参考訳) 原子超流体(sf)ボース・アインシュタイン凝縮体の1次元光学格子内の音の異方性速度を実験的に理論的に検討した。 音速は SF 密度に由来するため、これは SF 密度自体が異方性であることを意味する。 その結果、光格子によって音速が減少し、sf密度が同調的に低下することがわかった。 この還元は、純粋なボース凝縮相における通常の流体の出現を伴う。 sf密度の低減は、超流動性と密度変調の共存から推測される超固性の観点から初めて予測された[a. j. leggett, phys. rev. lett. 1543--1546 (1970)]。 さらに,ハサミモード実験におけるシステムの慣性モーメントを測定し,回転流の存在を実証する。 このようなことから、自然に形成された密度秩序ではなく、課せられる超固体の性質に光を当てた。

We experimentally and theoretically investigate the anisotropic speed of sound of an atomic superfluid (SF) Bose-Einstein condensate in a 1D optical lattice. Because the speed of sound derives from the SF density, this implies that the SF density is itself anisotropic. We find that the speed of sound is decreased by the optical lattice, and the SF density is concomitantly reduced. This reduction is accompanied by the appearance of a normal fluid in the purely Bose condensed phase. The reduction in SF density -- first predicted [A. J. Leggett, Phys. Rev. Lett. 1543--1546 (1970)] in the context of supersolidity -- results from the coexistence of superfluidity and density modulations, but is agnostic about the origin of the modulations. We additionally measure the moment of inertia of the system in a scissors mode experiment, demonstrating the existence of rotational flow. As such we shed light on some supersolid properties using imposed, rather than spontaneously formed, density-order.
翻訳日:2023-01-08 22:17:10 公開日:2023-01-03
# リングレーザージャイロスコープにおけるサブショットノイズ感度

Sub-shot-noise sensitivity in a ring laser gyroscope ( http://arxiv.org/abs/2301.01386v1 )

ライセンス: Link先を確認
Angela D. V. Di Virgilio, Francesco Bajardi, Andrea Basti, Nicol\`o Beverini, Giorgio Carelli, Donatella Ciampini, Giuseppe Di Somma, Francesco Fuso, Enrico Maccioni, Paolo Marsili, Antonello Ortolan, Alberto Porzio, and David Vitali(参考訳) prad/secよりも感度が良い絶対角回転速度測定は基礎科学調査に有用である。 この点に関して、大きなフレームアースベースのリングレーザージャイロスコープは、帯域幅、長期動作、感度に関するトップインスツルメンテーションである。 古典的な感度制限は、通常2つの独立した伝播モードと見なされる空洞内を伝播する2つのビームのショットノイズによって与えられる。 これにより、各ビームに関連付けられたショットノイズの総和が与えられる。 ここでは、ギンゲリーノ能動リングレーザーのプロトタイプ上限雑音は、10$^{-15}$ rad/secに近い前例のない感度を持つことを示す。 これは、これまでのリングレーザーのショットノイズによる理論予測よりも10倍多い。

Absolute angular rotation rate measurements with sensitivity better than prad/sec would be beneficial for fundamental science investigations. On this regard, large frame Earth based ring laser gyroscopes are top instrumentation as far as bandwidth, long term operation and sensitivity are concerned. Their classical sensitivity limit is given by the shot-noise of the two beams counter propagating inside the cavity usually considered as two independent propagating modes. Thus, it is given by the sum of the shot-noise associated to each beam. Here we prove that the GINGERINO active ring laser prototype upper limiting noise allows an unprecedented sensitivity close to 10$^{-15}$ rad/sec. This is more than a factor 10 better than the theoretical prediction so far accounted for ring lasers shot-noise.
翻訳日:2023-01-08 22:16:44 公開日:2023-01-03
# 置換対称性原理を超えたボソニック抑制法則の家族

Families of bosonic suppression laws beyond the permutation symmetry principle ( http://arxiv.org/abs/2301.02192v1 )

ライセンス: Link先を確認
Matheus Eiji Ohno Bezerra and Valery Shchesnovich(参考訳) 入力におけるフォック状態を持つ多光子干渉、いわゆる香港・ウー・マンデルディップを一般化するゼロ伝達則における量子振幅の正確なキャンセルは、量子情報と計算において有用なツールである。 最近、全てのボソニック抑制法則は入力量子状態と干渉計のユニタリ行列の共通の置換対称性から従うことが示唆された。 フォック状態の干渉に対する再帰関係を用いることで、置換対称性の原理では説明できないビームスプリッターとトリッターの抑制則が豊富に存在することが分かる。 以上の結果から,ユニタリマルチポート上のフォック状態と干渉すると,非対称ユニタリマルチポート上においても任意のボソン総数に対する抑圧則が全族存在することが明らかとなった。

Exact cancellation of quantum amplitudes in multiphoton interferences with Fock states at input, the so-called suppression or zero transmission laws generalizing the Hong-Ou-Mandel dip, are useful tool in quantum information and computation. It was recently suggested that all bosonic suppression laws follow from a common permutation symmetry in the input quantum state and the unitary matrix of interferometer. By using the recurrence relations for interference of Fock states, we find a wealth of suppression laws on the beamsplitter and tritter which are not explained by the permutation symmetry principle. Our results reveal that in interference with Fock states on unitary multiports there are whole families of suppression laws for arbitrary total number of bosons even on asymmetric unitary multiports, beyond the previously formulated permutation symmetry principle.
翻訳日:2023-01-08 22:00:55 公開日:2023-01-03
# NV-Center Relaxometry における電荷変換の影響

Impact of Charge Conversion on NV-Center Relaxometry ( http://arxiv.org/abs/2301.01063v1 )

ライセンス: Link先を確認
Isabel Cardoso Barbosa, Jonas Gutsche, Artur Widera(参考訳) ダイヤモンド中の窒素空孔(NV)中心を用いるリラクサメトリーは、近傍の常磁性分子によって引き起こされる色中心の特徴的スピン緩和(T_1$)の減少を検出するために、生物学や物理学において不可欠である。 しかし、このパルスレーザー測定では負電荷のnv中心のみが検出されるが、レーザー励起の必然的な結果は中性電荷のnv状態への変換であり、負電荷のnv中心の$t_1$時間や応答信号を支配することさえある。 本研究では,520,$nmの励起レーザとマイクロ波励起を併用したナノダイアモンド中のNVアンサンブルの緩和測定を行い,両電荷状態の蛍光信号を独立ビームパスで同時に記録する。 レーザーパワー毎の蛍光スペクトルに対する蛍光強度比を関連づけて,$T_1$-time測定における両電荷状態の比をモニタし,励起パワー依存電荷変換を系統的に開示する。 飽和度以下のレーザー強度でも電荷変換は観察され、高い強度では電荷変換はスピン緩和よりも優れている。 これらの結果は、緩和時間前における低励起パワーと蛍光正規化の必要性を浮き彫りにして、T_1$時刻を正確に決定し、センシングダイヤモンドに近い常磁性種を特徴付ける。

Relaxometry schemes employing nitrogen-vacancy (NV) centers in diamonds are essential in biology and physics to detect a reduction of the color centers' characteristic spin relaxation ($T_1$) time caused by, e.g., paramagnetic molecules in proximity. However, while only the negatively-charged NV center is to be probed in these pulsed-laser measurements, an inevitable consequence of the laser excitation is the conversion to the neutrally-charged NV state, interfering with the result for the negatively-charged NV centers' $T_1$ time or even dominating the response signal. In this work, we perform relaxometry measurements on an NV ensemble in nanodiamond combining a $520\,$nm excitation laser and microwave excitation while simultaneously recording the fluorescence signals of both charge states via independent beam paths. Correlating the fluorescence intensity ratios to the fluorescence spectra at each laser power, we monitor the ratios of both charge states during the $T_1$-time measurement and systematically disclose the excitation-power-dependent charge conversion. Even at laser intensities below saturation, we observe charge conversion, while at higher intensities, charge conversion outweighs spin relaxation. These results underline the necessity of low excitation power and fluorescence normalization before the relaxation time to accurately determine the $T_1$ time and characterize paramagnetic species close to the sensing diamond.
翻訳日:2023-01-08 22:00:07 公開日:2023-01-03
# 高調波発振器の時間最適輸送:解析解

Time-Optimal Transport of a Harmonic Oscillator: Analytic Solution ( http://arxiv.org/abs/2301.01112v1 )

ライセンス: Link先を確認
Gerhard C. Hegerfeldt(参考訳) 調和振動子(h.o.)としてモデル化された量子力学系を持つトラップの実験輸送により、対応する古典的問題を考察する。 距離dを超えるワゴンにおける古典的h.o.の最速輸送のためのプロトコルが導出され、最初にも最後にもワゴンは静止しており、h.o.はその平衡位置にあり、また静止している。 ワゴンの加速は束縛されていると仮定される。 固定発振器周波数 \Omega の場合、加速度には一般に3つのスイッチがあり、特別な値は \Omega のみである。 後者の場合、最適な輸送時間は、発振器のないワゴンのT_absである。 最適な輸送時間とスイッチ時間を決定する。 一時は後ろ向きに進む方が有利な場合もある。 また、時間依存の \Omega(t) は \Omega_ と \Omega+ で束縛される。 この場合、振る舞いは {\Omega}_+ に敏感に依存し、詳細に綴られる。 特に、Omega_+ により、T_abs は連続的に多くの方法で得られる。

Motivated by the experimental transport of a trap with a quantum mechanical system modeled as a harmonic oscillator (h.o.) the corresponding classical problem is investigated. Protocols for the fastest possible transport of a classical h.o. in a wagon over a distance d are derived where both initially and finally the wagon is at rest and the h.o. is in its equilibrium position and also at rest. The acceleration of the wagon is assumed to be bounded. For fixed oscillator frequency \Omega it is shown that there are in general three switches in the acceleration and for special values of \Omega only one switch. In the latter case the optimal transport time is T_abs , that of a wagon without oscillator. The optimal transport time and the switch times are determined. It is shown that in some cases it is advantageous to go backwards for a while. In addition a time-dependent \Omega(t), bounded by \Omega_ and \Omega+ , is allowed. In this case the behavior depends sensitively on {\Omega}_+ and is spelled out in detail. In particular, depending on \Omega_+ , T_abs may be obtained in continuously many ways.
翻訳日:2023-01-08 21:59:44 公開日:2023-01-03
# 完全鍵のないワンタイムユニバーサルハッシュ量子デジタル署名

One-Time Universal Hashing Quantum Digital Signatures without Perfect Keys ( http://arxiv.org/abs/2301.01132v1 )

ライセンス: Link先を確認
Bing-Hong Li, Yuan-Mei Xie, Xiao-Yu Cao, Chen-Long Li, Yao Fu, Hua-Lei Yin, Zeng-Bing Chen(参考訳) 量子デジタルシグネチャ(QDS)は、量子法則により3つのリモートパーティ間で相関ビット列を生成し、非監査、認証、メッセージの整合性を保証する。 近年,量子非対称暗号化とユニバーサルハッシュ関数を利用した1回のユニバーサルハッシュqdsフレームワークが提案され,長いメッセージのハッシュ値に直接署名することで署名率を大幅に改善し,無条件のセキュリティを確保する。 しかし、量子鍵分布と同様に、このフレームワークは、巨大な行列演算を導入し、大きな計算資源を消費し、時間遅延と失敗の確率を増大させるプライバシー増幅を実行することによって、完全な秘密の鍵を利用する。 本稿では,プライベート通信とは異なり,情報漏洩の少ない不完全な量子鍵を,セキュリティを損なうことなくディジタル署名や認証に使用できることを証明し,従来のシングルビット方式と比較して,メガビットメッセージ署名の署名率を8桁改善できることを示す。 我々の研究は、データ後処理の遅延を著しく低減し、任意の量子鍵生成プロトコルと互換性がある。 シミュレーションでは、2光子ツインフィールド鍵生成プロトコルを例として、シグナーと受信機の間に600kmのファイバ距離でQDSを実際に実装することができる。 我々の研究は、不完全な秘密性を持つ量子鍵の暗号的応用を初めて提供し、将来の量子ネットワークにおけるデジタル署名の実践的かつアジャイルな実装への道を開く。

Quantum digital signatures (QDS), generating correlated bit strings among three remote parties for signatures through quantum law, can guarantee non-repudiation, authenticity and integrity of messages. Recently, one-time universal hashing QDS framework, exploiting the quantum asymmetric encryption and universal hash functions, was proposed to significantly improve the signature rate and ensure unconditional security by directly signing the hash value of long messages. However, similar to quantum key distribution, this framework utilizes keys with perfect secrecy via performing privacy amplification that introduces huge matrix operations, thus consuming large computational resources, causing time delays and increasing failure probability. Here, we prove that, different from private communication, imperfect quantum keys with limited information leakage can be used for digital signatures and authentication without compromising the security while having eight orders of magnitude improvement on signature rate for signing a megabit message compared with conventional single-bit schemes. Our work significantly reduces the time delay for data postprocessing and is compatible with any quantum key generation protocols. In our simulation, taking two-photon twin-field key generation protocol as an example, QDS can be practically implemented over a fiber distance of 600 km between the signer and receiver. Our work for the first time offers a cryptographic application of quantum keys with imperfect secrecy and paves a way for the practical and agile implementation of digital signatures in a future quantum network.
翻訳日:2023-01-08 21:59:27 公開日:2023-01-03
# 精密電子力学の量子シミュレーションは古典的平均場法よりも効率的である

Quantum simulation of exact electron dynamics can be more efficient than classical mean-field methods ( http://arxiv.org/abs/2301.01203v1 )

ライセンス: Link先を確認
Ryan Babbush, William J. Huggins, Dominic W. Berry, Shu Fay Ung, Andrew Zhao, David R. Reichman, Hartmut Neven, Andrew D. Baczewski and Joonho Lee(参考訳) 電子基底状態のシミュレーションのための量子アルゴリズムは、hartree-fockや密度汎関数理論のような一般的な平均場アルゴリズムよりも遅いが、精度は高い。 したがって、量子コンピュータは電子相関を扱うための最も正確でコストのかかる古典的手法の競合であると見なされている。 しかし、ある第一量子化量子アルゴリズムが指数関数的に少ない空間と、従来の実時間に依存したハートリーフォックや密度汎関数理論よりも基底集合サイズでの演算を多項式的に少なくした電子系の正確な時間発展を可能にすることを示す境界を締めくくった。 量子アルゴリズムにおける観測値のサンプリングはスピードアップを減少させるが、多くのサンプルがベースセットサイズで多対数的にしかスケーリングしないため、$k$粒子還元密度行列のすべての要素を推定できることを示す。 また,最初の量子化平均場状態生成のためのより効率的な量子アルゴリズムも導入し,時間発展のコストよりも安価であると考えられる。 量子スピードアップは有限温度シミュレーションにおいて最も顕著であり、潜在的な量子長所を持つ電子動力学問題のいくつかを示唆する。

Quantum algorithms for simulating electronic ground states are slower than popular classical mean-field algorithms such as Hartree-Fock and density functional theory, but offer higher accuracy. Accordingly, quantum computers have been predominantly regarded as competitors to only the most accurate and costly classical methods for treating electron correlation. However, here we tighten bounds showing that certain first quantized quantum algorithms enable exact time evolution of electronic systems with exponentially less space and polynomially fewer operations in basis set size than conventional real-time time-dependent Hartree-Fock and density functional theory. Although the need to sample observables in the quantum algorithm reduces the speedup, we show that one can estimate all elements of the $k$-particle reduced density matrix with a number of samples scaling only polylogarithmically in basis set size. We also introduce a more efficient quantum algorithm for first quantized mean-field state preparation that is likely cheaper than the cost of time evolution. We conclude that quantum speedup is most pronounced for finite temperature simulations and suggest several practically important electron dynamics problems with potential quantum advantage.
翻訳日:2023-01-08 21:59:02 公開日:2023-01-03
# 混合量子状態の幾何学的位相:干渉計測とウルマン位相の比較研究

Geometric phases of mixed quantum states: A comparative study of interferometric and Uhlmann phases ( http://arxiv.org/abs/2301.01210v1 )

ライセンス: Link先を確認
Xu-Yang Hou, Xin Wang, Zheng Zhou, Hao Guo, and Chih-Chun Chien(参考訳) 混合量子状態の2つの幾何学的位相、すなわちインターフェロメトリー相とウルマン相は、純粋な状態のベリー相の一般化である。 2つの幾何学的位相をレビューし、それらの平行移動条件を調べた後、両条件に適合する巡回過程のクラスをそれぞれ定義し、それぞれの相を蓄積する。 これらのプロセスは、2つのフェーズの公正な比較を促進する。 2段階と3段階の系の厳密な解を示し、2段階を対比する。 干渉位相は3段階の系でのみ有限温度遷移を示すが、2段階の系ではウールマン相は両方の場合で有限温度遷移を示す。 したがって、2つの幾何学的位相を有限温度位相指標として使うと、混合状態のトポロジーの豊かな物理が示される。

Two geometric phases of mixed quantum states, known as the interferometric phase and Uhlmann phase, are generalizations of the Berry phase of pure states. After reviewing the two geometric phases and examining their parallel-transport conditions, we specify a class of cyclic processes that are compatible with both conditions and therefore accumulate both phases through their definitions, respectively. Those processes then facilitate a fair comparison between the two phases. We present exact solutions of two-level and three-level systems to contrast the two phases. While the interferometric phase exhibits finite-temperature transitions only in the three-level system but not the two-level system, the Uhlmann phase shows finite-temperature transitions in both cases. Thus, using the two geometric phases as finite-temperature topological indicators demonstrates the rich physics of topology of mixed states.
翻訳日:2023-01-08 21:58:41 公開日:2023-01-03
# 推進型オープンシステムにおける絡み合いと作業統計

Entanglement and work statistics in the driven open system ( http://arxiv.org/abs/2301.00915v1 )

ライセンス: Link先を確認
He Wang, Jin Wang(参考訳) 駆動2量子システムにおける絡み合いと作業統計について検討する。 周期駆動の制御は、静電システムの貯留層工学とは対照的に、より汎用性と普遍性を有している。 擬似定常状態の絡み合いは,特定のパラメータ領域において外部駆動により効果的に増幅できることがわかった。 この駆動は、絡み合いが発生する温度や温度差の範囲を広げる。 効果的なハミルトニアンの観点から、駆動の付加は、準定常状態を決定する上で重要な量子ビット間カップリングとシステムバスカップリングを変化させる。 作業統計も調査されている。 駆動系は、連続量子熱機械として、準定常状態で連続的に定常的に出力する。 モードとそれに対応する動作は、運転の変更によって異なる。 また、駆動がハミルトニアンを効果的に変化させ、さらにシステムと浴場と作業貯水池との間のエネルギー交換のモードが変化することも理解することができる。

We study the entanglement and work statistics in a driven two-qubit system. The regulation of periodic driving has much more versatility and universality in contrast to reservoir engineering in static systems. We found the quasi-steady state entanglement can be amplified effectively by the external drive in certain parameter regimes. The drive extends the range of temperatures or temperature differences at which entanglement can emerge. From the view of the effective Hamiltonian, the addition of the driving alters the inter-qubit coupling and system-bath coupling, which are crucial in determining the quasi-steady state. The work statistics are also investigated. The driven system, as a continuous quantum thermal machine, output work continuously and steadily at the quasi-steady state. There is a distinct operation of modes and corresponding performance by changing driving. It can also be understood that the drive changes the effective Hamiltonian, and further the modes of energy exchanges between the system and the baths as well as the work reservoir.
翻訳日:2023-01-08 21:42:47 公開日:2023-01-03
# ピンホール量子ゴーストイメージング

Pinhole quantum ghost imaging ( http://arxiv.org/abs/2301.00994v1 )

ライセンス: Link先を確認
Andres Vega, Sina Saravi, Thomas Pertsch, Frank Setzpfandt(参考訳) バイフォトニクスに基づく量子ゴーストイメージング方式を提案する。バイフォトンの生成に適切な大きさのコリメートポンプビームを用いることで、撮像を実現するためのレンズの必要性を回避できる。 この方式は従来のピンホールカメラと類似しており、従来のピンホールサイズに相当するものはポンプビームの幅だけでなく、非線形結晶の厚さやバイフォトンの波長にも依存している。

We propose a quantum ghost imaging scheme based on biphotons, that, by using a collimated pump beam of the right size for biphoton generation, obviates the need for lenses to achieve imaging. The scheme is found to be analogous to the classical pinhole camera, where we show that the equivalent to the classical pinhole size depends mainly on the width of the pump beam, but also on the thickness of the nonlinear crystal and the wavelengths of the biphoton.
翻訳日:2023-01-08 21:42:34 公開日:2023-01-03
# 低温原子系量子メモリにおける25次元フォトニック・クエットの高効率貯蔵

Highly efficient storage of 25-dimensional photonic qudit in a cold-atom-based quantum memory ( http://arxiv.org/abs/2301.00999v1 )

ライセンス: Link先を確認
Ming-Xin Dong, Wei-Hang Zhang, Lei Zeng, Ying-Hao Ye, Da-Chuang Li, Guang-Can Guo, Dong-Sheng Ding, and Bao-Sen Shi(参考訳) 高次元のヒルベルト空間に効率的な量子メモリを構築することは、高次元量子リピータを確立するための基本的な要件の1つであり、情報容量の増大やノイズレジリエンスの強化のような2次元量子システムよりも多くの利点を提供する。 これまでのところ、効率的な高次元量子メモリを実現する方法に関する報告はない。 ここでは、最大25次元のヒルベルト空間において60%近いストレージ効率で動作可能な量子メモリを実験的に実現する。 提案手法は、逆サイズ不変軌道角運動量モードに符号化される原子と光子の空間モード非依存相互作用を利用する。 特に,25個の光子の空間モードに対して均一な記憶効率と低クロストーク障害を特徴とし,高次元ヒルベルト空間内の25個の固有状態からプログラムされた任意のキュート状態の保存を可能にし,最終的に25次元キュート状態の保存に寄与する。 これらの結果は、長距離高次元量子ネットワークと量子情報処理の実装に大いに期待できる。

Building an efficient quantum memory in high-dimensional Hilbert spaces is one of the fundamental requirements for establishing high-dimensional quantum repeaters, where it offers many advantages over two-dimensional quantum systems, such as a larger information capacity and enhanced noise resilience. To date, there have been no reports about how to achieve an efficient high-dimensional quantum memory. Here, we experimentally realize a quantum memory that is operational in Hilbert spaces of up to 25 dimensions with a storage efficiency of close to 60%. The proposed approach exploits the spatial-mode-independent interaction between atoms and photons which are encoded in transverse size-invariant orbital angular momentum modes. In particular, our memory features uniform storage efficiency and low cross-talk disturbance for 25 individual spatial modes of photons, thus allowing storing arbitrary qudit states programmed from 25 eigenstates within the high-dimensional Hilbert spaces, and eventually contributing to the storage of a 25-dimensional qudit state. These results would have great prospects for the implementation of long-distance high-dimensional quantum networks and quantum information processing.
翻訳日:2023-01-08 21:42:22 公開日:2023-01-03
# 量子コンピュータを用いたエネルギー市場の基本モデルの不確実性下での最適化に向けて

Towards optimization under uncertainty for fundamental models in energy markets using quantum computers ( http://arxiv.org/abs/2301.01108v1 )

ライセンス: Link先を確認
M.C. Braun, T. Decker, N. Hegemann, S.F. Kerstan, F. Lorenz(参考訳) エネルギー生産における単位コミットメント問題を,古典的アルゴリズムや量子コンピュータで解ける2次非制約二元最適化(QUBO)問題として定式化する手法を提案する。 我々は,再生可能エネルギー供給,電力需要,機械故障の不確実性を検討するための最初のアプローチを提案する。 このような量子コンピュータ上の不確実性の下で、udpのコスト削減ソリューションを見つける方法を示す。 また、異なる問題サイズで研究を行い、シミュレーションアニールの結果と量子アニールマシンの結果を比較した。

We present a method to formulate the unit commitment problem in energy production as quadratic unconstrained binary optimization (QUBO) problem, which can be solved by classical algorithms and quantum computers. We suggest a first approach to consider uncertainties in the renewable energy supply, power demand and machine failures. We show how to find cost-saving solutions of the UCP under these uncertainties on quantum computers. We also conduct a study with different problem sizes and we compare results of simulated annealing with results from quantum annealing machines.
翻訳日:2023-01-08 21:42:02 公開日:2023-01-03
# 二元ガウスボソンサンプリングを用いたサンプル効率的なグラフ分類

Sample efficient graph classification using binary Gaussian boson sampling ( http://arxiv.org/abs/2301.01232v1 )

ライセンス: Link先を確認
Amanuel Anteneh and Olivier Pfister(参考訳) 本稿では,グラフ構造データを用いた分類の機械学習タスクのための量子アルゴリズムのバリエーションを提案する。 このアルゴリズムは、gaussian boson sampling (gbs) に基づく量子コンピューティングの短期モデルに基づく特徴抽出戦略を実装している。 しかし、この問題に対して現在提案されているアルゴリズムとは異なり、GBSセットアップは光子数解決検出器とは対照的にバイナリ(光/光)検出器のみを必要とする。 これらの検出器は技術的に単純であり、室温で動作するため、我々のアルゴリズムはより複雑で、物理的ハードウェアに実装するコストも少なくなる。 また,2値GBS検出イベントの確率を特徴付けるトロントニアンと呼ばれる行列関数とグラフ理論の関連性についても検討する。

We present a variation of a quantum algorithm for the machine learning task of classification with graph-structured data. The algorithm implements a feature extraction strategy that is based on Gaussian boson sampling (GBS) a near term model of quantum computing. However, unlike the currently proposed algorithms for this problem, our GBS setup only requires binary (light/no light) detectors, as opposed to photon number resolving detectors. These detectors are technologically simpler and can operate at room temperature, making our algorithm less complex and less costly to implement on the physical hardware. We also investigate the connection between graph theory and the matrix function called the Torontonian which characterizes the probabilities of binary GBS detection events.
翻訳日:2023-01-08 21:41:52 公開日:2023-01-03
# 単位キュービットチャネルについて

On unital qubit channels ( http://arxiv.org/abs/2301.01358v1 )

ライセンス: Link先を確認
Chi-Kwong Li and Man-Duen Choi(参考訳) 局所ユニタリ変換の下でのユニタリ量子ビットチャネルの正準形式を得る。 特に、ユニタリ量子チャネルのチェイ行列の固有値は正準形式の完全不変量であることが示されている。 直ちに、すべてのユニタリキュービットチャネルが4つのユニタリチャネルの平均である。 より一般に、ユニタリな量子ビットチャネルは、凸係数 $p_1, \dots, p_m$ を持つユニタリチャネルの凸結合として表現でき、$(p_1, \dots, p_m)$ は、チャネルのchoi行列の固有値のベクトルによって最大化される。 任意のユニタリ写像 $\Phi$ on $2\times 2$ matrices Preserving trace and Hermitian matrices が線型写像 $\phi$ on ${\mathbb R}^3$ に対応するという事実により、${\mathbb R}^3$ でブロッホ(単位)球面を楕円体 ${\mathcal E}$ に変換することは、$\Phi$ がユニタリキュービットチャネルであることと、$\phi$ が特殊直交行列の凸結合であることは同値である。

A canonical form for unital qubit channels under local unitary transforms is obtained. In particular, it is shown that the eigenvalues of the Choi matrix of a unital quantum channel are complete invariant of the canonical form. It follows immediately that every unital qubit channel is the average of four unitary channels. More generally, a unital qubit channel can be expressed as the convex combination of unitary channels with convex coefficients $p_1, \dots, p_m$ as long as $(p_1, \dots, p_m)$ is majorized by the vector of eigenvalues of the Choi matrix of the channel. By the fact that every unital map $\Phi$ on $2\times 2$ matrices preserving trace and Hermitian matrices corresponds to a linear map $\phi$ on ${\mathbb R}^3$ that will transform the Bloch (unit) sphere in ${\mathbb R}^3$ to an ellipsoid ${\mathcal E}$, it is shown that $\Phi$ is a unital qubit channel if and only if $\phi$ is a convex combination of special orthogonal matrices.
翻訳日:2023-01-08 21:41:40 公開日:2023-01-03
# 放射線曝露による遺伝子発現プロファイルの包括的解析による低線量放射線応答の分子的特徴

Comprehensive analysis of gene expression profiles to radiation exposure reveals molecular signatures of low-dose radiation response ( http://arxiv.org/abs/2301.01769v1 )

ライセンス: Link先を確認
Xihaier Luo and Sean McCorkle and Gilchan Park and Vanessa Lopez-Marrero and Shinjae Yoo and Edward R. Dougherty and Xiaoning Qian and Francis J. Alexander and Byung-Jun Yoon(参考訳) 放射線照射には様々な原因があり、放射線治療や診断のための医療用露光が最も一般的な人為的な光源である。 放射線照射後、どのように遺伝子発現が調節されるかを理解し、線量依存的な遺伝子発現パターンの存在を調べることは、放射線治療、医療放射線診断、その他の環境暴露による健康リスクに幅広い影響を及ぼす。 本稿では,低線量被曝による遺伝子発現プロファイルの包括的解析を行い,そのような応答を基盤とする遺伝子発現制御の可能性について検討する。 この目的を達成するために、我々は、既知の経路に属する特定の遺伝子群が、放射線レベルと一致する方法で調節される協調した発現パターンを示すかどうかを決定するための統計的枠組みを用いる。 本研究の結果から,低線量放射線と高線量放射線の分子応答を反映する複雑なシグネチャが存在することが示唆された。

There are various sources of ionizing radiation exposure, where medical exposure for radiation therapy or diagnosis is the most common human-made source. Understanding how gene expression is modulated after ionizing radiation exposure and investigating the presence of any dose-dependent gene expression patterns have broad implications for health risks from radiotherapy, medical radiation diagnostic procedures, as well as other environmental exposure. In this paper, we perform a comprehensive pathway-based analysis of gene expression profiles in response to low-dose radiation exposure, in order to examine the potential mechanism of gene regulation underlying such responses. To accomplish this goal, we employ a statistical framework to determine whether a specific group of genes belonging to a known pathway display coordinated expression patterns that are modulated in a manner consistent with the radiation level. Findings in our study suggest that there exist complex yet consistent signatures that reflect the molecular response to radiation exposure, which differ between low-dose and high-dose radiation.
翻訳日:2023-01-06 14:35:29 公開日:2023-01-03
# 局所ステップによる分散勾配追従

Decentralized Gradient Tracking with Local Steps ( http://arxiv.org/abs/2301.01313v1 )

ライセンス: Link先を確認
Yue Liu, Tao Lin, Anastasia Koloskova, Sebastian U. Stich(参考訳) 勾配追跡(gt)は、ネットワーク上の分散最適化問題を解決するために設計されたアルゴリズムである(機械学習モデルのトレーニングなど)。 GTの重要な特徴は、ノード間のデータの均一性を克服するトラッキングメカニズムである。 我々は,GTのデータ独立性を継承しつつ,GTにおける通信効率のよいローカル更新を可能にする分散トラッキング機構である$K$-GTを開発した。 滑らかな非凸関数上での$K$-GTの収束率を証明し、局所的なステップの数を表す線形係数$K$によって漸近的に通信オーバーヘッドを減少させることを示す。 本稿では,mnistデータセットを用いた非凸ニューラルネットワーク学習タスクにおいて,凸および非凸ベンチマーク問題に対する不均一性補正の頑健性と有効性を示す。

Gradient tracking (GT) is an algorithm designed for solving decentralized optimization problems over a network (such as training a machine learning model). A key feature of GT is a tracking mechanism that allows to overcome data heterogeneity between nodes. We develop a novel decentralized tracking mechanism, $K$-GT, that enables communication-efficient local updates in GT while inheriting the data-independence property of GT. We prove a convergence rate for $K$-GT on smooth non-convex functions and prove that it reduces the communication overhead asymptotically by a linear factor $K$, where $K$ denotes the number of local steps. We illustrate the robustness and effectiveness of this heterogeneity correction on convex and non-convex benchmark problems and on a non-convex neural network training task with the MNIST dataset.
翻訳日:2023-01-05 16:16:50 公開日:2023-01-03
# 演算子理論, カーネル, フィードフォワードニューラルネットワーク

Operator theory, kernels, and Feedforward Neural Networks ( http://arxiv.org/abs/2301.01327v1 )

ライセンス: Link先を確認
Palle E. T. Jorgensen, Myung-Sin Song, and James Tian(参考訳) 本稿では,複数層フィードフォワードニューラルネットワークモデルに対する反復アルゴリズムの解析において,正定値カーネルの特定のファミリーが強力なツールであることを示す。 当社では,本質的な自己相似性を示すデータセット/特徴の学習アルゴリズムに適応可能な,特定のカーネルに注目している。

In this paper we show how specific families of positive definite kernels serve as powerful tools in analyses of iteration algorithms for multiple layer feedforward Neural Network models. Our focus is on particular kernels that adapt well to learning algorithms for data-sets/features which display intrinsic self-similarities at feedforward iterations of scaling.
翻訳日:2023-01-05 16:16:35 公開日:2023-01-03
# 深層学習による外惑星の同定 V. TESSフルフレーム画像観測のための光曲線分類の改良

Identifying Exoplanets with Deep Learning. V. Improved Light Curve Classification for TESS Full Frame Image Observations ( http://arxiv.org/abs/2301.01371v1 )

ライセンス: Link先を確認
Evan Tey, Dan Moldovan, Michelle Kunimoto, Chelsea X. Huang, Avi Shporer, Tansu Daylan, Daniel Muthukrishna, Andrew Vanderburg, Anne Dattilo, George R. Ricker, S. Seager(参考訳) TESSミッションは大量の時系列データを生成し、そのごく一部に検出可能な太陽系外惑星のトランジット信号が含まれている。 ニューラルネットワークのような深層学習技術は、恒星変動や系統的なインストゥルメンタルな効果といった他の現象から、有望な天体物理学的偏差候補を効率的で偏りなく持続可能な方法で区別するのに有効であることが証明されている。 本稿では,第1次ミッションからの光線曲線と第1次拡張ミッションフルフレーム画像と,ボックス最小2乗で検出された周期信号を含む高品質データセットを提案する(kov\'acs et al. 2002; hartman 2012)。 データセットは、完全な手作業によるレビュープロセスを使用して、Astronet-Triage-v2と呼ばれるニューラルネットワークのトレーニングに使用された。 テストセットでは、トランジット/elipsingイベントに対して、99.6%のリコール(正のラベルを持つ全データに対して真のポジティブ)を75.7%の精度で達成しました。 私たちのトレーニングデータの90%は、プライマリミッションからのものですから、第1次拡張ミッションデータを一般化する能力もテストします。 ここでは, Astronet-Triage (Yu et al. 2019) よりも4%向上した0.965の精度・リコール曲線の領域を見出した。 2022年4月までのTESS Object of Interest(TOI)カタログでは、惑星と惑星候補のショートリストであるAstronet-Triage-v2が4140TOIのうち3577を回収し、Astronet-Triageは3349の目標を同じ精度で回収する。 言い換えれば、Astronet-Triage-v2へのアップグレードは、少なくとも200の惑星候補が失われるのを防ぐのに役立つ。 この新しいモデルは、現在クイックルックパイプライン(huang et al. 2020a,b; kunimoto et al. 2021)の惑星候補トリアージに使用されている。

The TESS mission produces a large amount of time series data, only a small fraction of which contain detectable exoplanetary transit signals. Deep learning techniques such as neural networks have proved effective at differentiating promising astrophysical eclipsing candidates from other phenomena such as stellar variability and systematic instrumental effects in an efficient, unbiased and sustainable manner. This paper presents a high quality dataset containing light curves from the Primary Mission and 1st Extended Mission full frame images and periodic signals detected via Box Least Squares (Kov\'acs et al. 2002; Hartman 2012). The dataset was curated using a thorough manual review process then used to train a neural network called Astronet-Triage-v2. On our test set, for transiting/eclipsing events we achieve a 99.6% recall (true positives over all data with positive labels) at a precision of 75.7% (true positives over all predicted positives). Since 90% of our training data is from the Primary Mission, we also test our ability to generalize on held-out 1st Extended Mission data. Here, we find an area under the precision-recall curve of 0.965, a 4% improvement over Astronet-Triage (Yu et al. 2019). On the TESS Object of Interest (TOI) Catalog through April 2022, a shortlist of planets and planet candidates, Astronet-Triage-v2 is able to recover 3577 out of 4140 TOIs, while Astronet-Triage only recovers 3349 targets at an equal level of precision. In other words, upgrading to Astronet-Triage-v2 helps save at least 200 planet candidates from being lost. The new model is currently used for planet candidate triage in the Quick-Look Pipeline (Huang et al. 2020a,b; Kunimoto et al. 2021).
翻訳日:2023-01-05 16:16:29 公開日:2023-01-03
# Haystackにおける針の発見:効率的な大規模並列シミュレーションのための形式的生成モデル

Finding Needles in Haystack: Formal Generative Models for Efficient Massive Parallel Simulations ( http://arxiv.org/abs/2301.01594v1 )

ライセンス: Link先を確認
Osama Maqbool, J\"urgen Ro{\ss}mann(参考訳) 自律システムの複雑さの増加には、データ駆動開発と検証戦略の必要性が伴う。 コンピュータグラフィックスとクラウドクラスタの進歩は、多数の運用シナリオに質的に対処する巨大な並列高忠実度シミュレーションへの道を開いた。 しかしながら、すべてのシナリオの探索は依然として違法に高価であり、シナリオの結果は一般的に不明である。 この目的のために著者らはベイズ最適化に基づく手法を提案し、高い確率で望ましい結果(例えば衝突)をもたらすシナリオの生成モデルを効率的に学習する。 この方法論は、シナリオを記述するためにOpenSCENARIO標準を使用し、Virtual Test Bedクラスタ上でシナリオ参加者の高度に構成可能なディジタルツインをデプロイするエンドツーエンドフレームワークに統合されている。

The increase in complexity of autonomous systems is accompanied by a need of data-driven development and validation strategies. Advances in computer graphics and cloud clusters have opened the way to massive parallel high fidelity simulations to qualitatively address the large number of operational scenarios. However, exploration of all possible scenarios is still prohibitively expensive and outcomes of scenarios are generally unknown apriori. To this end, the authors propose a method based on bayesian optimization to efficiently learn generative models on scenarios that would deliver desired outcomes (e.g. collisions) with high probability. The methodology is integrated in an end-to-end framework, which uses the OpenSCENARIO standard to describe scenarios, and deploys highly configurable digital twins of the scenario participants on a Virtual Test Bed cluster.
翻訳日:2023-01-05 16:14:54 公開日:2023-01-03
# 高周波におけるテールリスクの測定 : 単位根予測器を用いた$l_1$-regularized extreme value regressionアプローチ

Measuring tail risk at high-frequency: An $L_1$-regularized extreme value regression approach with unit-root predictors ( http://arxiv.org/abs/2301.01362v1 )

ライセンス: Link先を確認
Julien Hambuckers, Li Sun, Luca Trapin(参考訳) 高周波金融市場のテールリスクダイナミクスと取引活動と市場の不確実性との関連について検討する。 定常および局所的な単位根予測器を併用した動的極値回帰モデルを導入し、高周波極端損失分布の時間変化挙動を適切に把握する。 取引活動と市場の不確実性を特徴付けるために, ボラティリティと流動性予測器について検討し, 最適値を選択するための2段階適応型最大値推定器を提案する。 定常および局所的な単位根予測器を選択するための推定器のオラクル特性を確立し、その優れた有限標本特性を広範囲なシミュレーション研究で示す。 42液度とボラティリティ予測器を用いて、米国株9株の高頻度の極端損失を調査した結果、流動性とボラティリティの高ボラティリティの期間における低水準の価格影響により、極端損失の深刻度が十分に予測できることがわかった。

We study tail risk dynamics in high-frequency financial markets and their connection with trading activity and market uncertainty. We introduce a dynamic extreme value regression model accommodating both stationary and local unit-root predictors to appropriately capture the time-varying behaviour of the distribution of high-frequency extreme losses. To characterize trading activity and market uncertainty, we consider several volatility and liquidity predictors, and propose a two-step adaptive $L_1$-regularized maximum likelihood estimator to select the most appropriate ones. We establish the oracle property of the proposed estimator for selecting both stationary and local unit-root predictors, and show its good finite sample properties in an extensive simulation study. Studying the high-frequency extreme losses of nine large liquid U.S. stocks using 42 liquidity and volatility predictors, we find the severity of extreme losses to be well predicted by low levels of price impact in period of high volatility of liquidity and volatility.
翻訳日:2023-01-05 16:08:23 公開日:2023-01-03
# 高次元多項テストとテキスト解析への応用

Testing High-dimensional Multinomials with Applications to Text Analysis ( http://arxiv.org/abs/2301.01381v1 )

ライセンス: Link先を確認
T. Tony Cai, Zheng Tracy Ke, Paxton Turner(参考訳) テキストマイニングと離散分布推定の応用に動機づけられ,高次元多項分布の $k$ 群の確率質量関数の等式について検討した。 ヌルの下での漸近標準正規分布を持つことを示すテスト統計法を提案する。 最適検出境界が確立され、提案試験により、興味のあるパラメータ空間全体にわたってこの最適検出境界が達成されることを示す。 提案手法はシミュレーション研究で実証され,実世界の2つのデータセットを解析し,amazon movieの消費者レビューと統計紙要約の多様性について検討した。

Motivated by applications in text mining and discrete distribution inference, we investigate the testing for equality of probability mass functions of $K$ groups of high-dimensional multinomial distributions. A test statistic, which is shown to have an asymptotic standard normal distribution under the null, is proposed. The optimal detection boundary is established, and the proposed test is shown to achieve this optimal detection boundary across the entire parameter space of interest. The proposed method is demonstrated in simulation studies and applied to analyze two real-world datasets to examine variation among consumer reviews of Amazon movies and diversity of statistical paper abstracts.
翻訳日:2023-01-05 16:08:00 公開日:2023-01-03
# 多変量時系列に対する共変量誘導ベイズ混合モデル

Covariate-guided Bayesian mixture model for multivariate time series ( http://arxiv.org/abs/2301.01373v1 )

ライセンス: Link先を確認
Haoyi Fu, Lu Tang, Ori Rosen, Alison E. Hipwell, Theodore J. Huppert, Robert T. Krafty(参考訳) 脳活動と構造を測定する技術が急速に発展し、現代の脳画像解析の統計手法が科学の発展に重要な役割を担っている。 脳機能を測定するイメージングデータは、通常、多変量時系列であり、画像ソースと被写体の両方で不均一であり、様々な統計的および計算上の課題を引き起こす。 本稿では,平滑化スプラインのベイズ混合による多変量時系列の集まりをクラスタ化するグループベース手法を提案する。 本手法では,各多変量時系列を混合重みの異なる複数の成分の混合と仮定する。 時間非依存な共変体は混合成分と関連付けられており、実験モデルのロジスティック重みによって組み込まれている。 この手法はギブズサンプリングを用いて完全ベイズ的手法で定式化し, 偏差情報基準に基づいて成分数を選択する。 提案手法はシミュレーションによる既存手法と比較し,乳児の感情反応とストレスからの回復を理解することを目的とした機能的近赤外分光(fnirs)の研究に適用した。 その結果、脳活動の異なるパターンと、これらのパターンと選択された共変量との関連が明らかとなった。

With rapid development of techniques to measure brain activity and structure, statistical methods for analyzing modern brain-imaging play an important role in the advancement of science. Imaging data that measure brain function are usually multivariate time series and are heterogeneous across both imaging sources and subjects, which lead to various statistical and computational challenges. In this paper, we propose a group-based method to cluster a collection of multivariate time series via a Bayesian mixture of smoothing splines. Our method assumes each multivariate time series is a mixture of multiple components with different mixing weights. Time-independent covariates are assumed to be associated with the mixture components and are incorporated via logistic weights of a mixture-of-experts model. We formulate this approach under a fully Bayesian framework using Gibbs sampling where the number of components is selected based on a deviance information criterion. The proposed method is compared to existing methods via simulation studies and is applied to a study on functional near-infrared spectroscopy (fNIRS), which aims to understand infant emotional reactivity and recovery from stress. The results reveal distinct patterns of brain activity, as well as associations between these patterns and selected covariates.
翻訳日:2023-01-05 16:07:31 公開日:2023-01-03
# OneDNN Graph Compiler: 高性能ディープラーニングコンパイルのためのハイブリッドアプローチ

oneDNN Graph Compiler: A Hybrid Approach for High-Performance Deep Learning Compilation ( http://arxiv.org/abs/2301.01333v1 )

ライセンス: Link先を確認
Jianhui Li, Zhennan Qin, Yijie Mei, Jingze Cui, Yunfei Song, Ciyong Chen, Yifei Zhang, Longsheng Du, Xianhang Cheng, Baihui Jin, Jason Ye, Eric Lin, Dan Lavery(参考訳) ディープラーニングモデルの急速な発展と高密度コンピューティングのハードウェアサポートにより、ディープラーニング(dl)のワークロード特性は、計算集約型オペレーションのいくつかのホットスポットから、モデル全体に散在する幅広いオペレーションへと大きく変化した。 プリミティブのエキスパートチューニングによる実装を使用して、いくつかの計算集約的な操作を加速することは、aiハードウェアのパフォーマンスポテンシャルを完全には活用しない。 完全なディープニューラルネットワーク(DNN)グラフをコンパイルするために、さまざまな取り組みが行われている。 最大の課題の1つは、密集した計算集約操作のためのエキスパートレベルのパフォーマンスコードを生成し、複数の計算集約操作にまたがるdnn計算グラフの範囲でコンパイル最適化を適用することで、エンドツーエンドのコンパイルを実現することである。 我々は,ディープニューラルネットワークグラフの高パフォーマンスコード生成のために,コンパイラ最適化とエキスパートチューニングカーネルからのテクニックを併用した,ハイブリッドアプローチを用いたテンソルコンパイラであるonednn graph compilerを提案する。 onednnグラフコンパイラは、低精度計算、積極的な融合、静的テンソル形状とメモリレイアウトの最適化、定数重みの最適化、メモリバッファの再利用など、ディープラーニング領域におけるユニークな最適化課題に対処する。 実験の結果,Intel Xeon Scalable Processors上のDNN計算グラフパターンのプリミティブに基づく最適化よりも最大2倍の性能向上を示す。

With the rapid development of deep learning models and hardware support for dense computing, the deep learning (DL) workload characteristics changed significantly from a few hot spots on compute-intensive operations to a broad range of operations scattered across the models. Accelerating a few compute-intensive operations using the expert-tuned implementation of primitives does not fully exploit the performance potential of AI hardware. Various efforts are made to compile a full deep neural network (DNN) graph. One of the biggest challenges is to achieve end-to-end compilation by generating expert-level performance code for the dense compute-intensive operations and applying compilation optimization at the scope of DNN computation graph across multiple compute-intensive operations. We present oneDNN Graph Compiler, a tensor compiler that employs a hybrid approach of using techniques from both compiler optimization and expert-tuned kernels for high-performance code generation of the deep neural network graph. oneDNN Graph Compiler addresses unique optimization challenges in the deep learning domain, such as low-precision computation, aggressive fusion, optimization for static tensor shapes and memory layout, constant weight optimization, and memory buffer reuse. Experimental results demonstrate up to 2x performance gains over primitives-based optimization for performance-critical DNN computation graph patterns on Intel Xeon Scalable Processors.
翻訳日:2023-01-05 16:07:12 公開日:2023-01-03
# Twinned Regression Methodsを最大限に活用する方法

How to get the most out of Twinned Regression Methods ( http://arxiv.org/abs/2301.01383v1 )

ライセンス: Link先を確認
Sebastian J. Wetzel(参考訳) 双対回帰法は、元の回帰問題に対する双対問題を解くために設計され、回帰対象間の差を予測する。 未知のデータポイントのターゲットと既知の複数のアンカーデータポイントとの予測差をアンカーに組み込むことで、元の回帰問題の解を得ることができる。 双対回帰法について,(1)双対回帰アルゴリズムの異なるステップを分解し,その最終性能への寄与を検討する,(2)本質的アンサンブル品質を検討する,(3)双対ニューラルネットワーク回帰とk-ネアレスト近傍回帰を組み合わせることにより,より高精度で効率的な回帰法を設計する,(4)単純半教師付き回帰スキームを開発する。

Twinned regression methods are designed to solve the dual problem to the original regression problem, predicting differences between regression targets rather then the targets themselves. A solution to the original regression problem can be obtained by ensembling predicted differences between the targets of an unknown data point and multiple known anchor data points. We explore different aspects of twinned regression methods: (1) We decompose different steps in twinned regression algorithms and examine their contributions to the final performance, (2) We examine the intrinsic ensemble quality, (3) We combine twin neural network regression with k-nearest neighbor regression to design a more accurate and efficient regression method, and (4) we develop a simplified semi-supervised regression scheme.
翻訳日:2023-01-05 16:06:48 公開日:2023-01-03
# 動的同時マルチスライスMRI再構成のためのホロスティック・マルチスライス・フレームワーク

Holistic Multi-Slice Framework for Dynamic Simultaneous Multi-Slice MRI Reconstruction ( http://arxiv.org/abs/2301.01355v1 )

ライセンス: Link先を確認
Daniel H. Pak and Xiao Chen and Eric Z. Chen and Yikang Liu and Terrence Chen and Shanhui Sun(参考訳) ダイナミックMRI(Dynamic Magnetic Resonance Imaging)は、心臓運動や血流などの様々な心臓状態を評価するために広く用いられている。 MR取得を加速するために、アンダーサンプリングや同時マルチスライス(SMS)などの技術がよく用いられる。 絡み合った情報から複数のSMS画像スライスを再構成するために、特別な再構成アルゴリズムが必要である。 ディープラーニング(dl)ベースの手法は,単一スライスmr再構成に有望な結果を示しているが,複合k空間信号と強いスライス間アーティファクトを有する画像により,smsアクセラレーションの付加は独特の課題を生じさせている。 さらに、多くのdMRIアプリケーションは、再構成ニューラルネットワークのトレーニングに十分なデータを持っていない。 本研究では,動的sms再構成のためのdlベースフレームワークを提案する。 私たちの主な貢献は 1)アンサンプリングされた動的smsデータのユニークな特性を効果的に活用するデータ変換ステップとネットワーク設計の組み合わせ 2)データ不足問題に対処するMR物理誘導型転送学習戦略。 複数のベースライン法との比較は,提案手法の強みを示す。

Dynamic Magnetic Resonance Imaging (dMRI) is widely used to assess various cardiac conditions such as cardiac motion and blood flow. To accelerate MR acquisition, techniques such as undersampling and Simultaneous Multi-Slice (SMS) are often used. Special reconstruction algorithms are needed to reconstruct multiple SMS image slices from the entangled information. Deep learning (DL)-based methods have shown promising results for single-slice MR reconstruction, but the addition of SMS acceleration raises unique challenges due to the composite k-space signals and the resulting images with strong inter-slice artifacts. Furthermore, many dMRI applications lack sufficient data for training reconstruction neural networks. In this study, we propose a novel DL-based framework for dynamic SMS reconstruction. Our main contributions are 1) a combination of data transformation steps and network design that effectively leverages the unique characteristics of undersampled dynamic SMS data, and 2) an MR physics-guided transfer learning strategy that addresses the data scarcity issue. Thorough comparisons with multiple baseline methods illustrate the strengths of our proposed methods.
翻訳日:2023-01-05 15:59:26 公開日:2023-01-03
# aiの運命:アルゴリズムによる排他性とアクセシビリティを目指して

FATE in AI: Towards Algorithmic Inclusivity and Accessibility ( http://arxiv.org/abs/2301.01590v1 )

ライセンス: Link先を確認
Isa Inuwa-Dutse(参考訳) この時代の決定的な現象の1つは、人工知能(AI)技術を利用したシステムの普及である。 AIが中心となる中で、社会の多くの部分はアルゴリズムによる決定によって直接的または間接的に影響を受けている。 アルゴリズム決定は、アルゴリズムの格差に対処するためのaiにおける公平性、説明責任、透明性、倫理(fate)の問題をもたらす、経済的および個人的影響の両方をもたらす。 倫理的AIは、AIの決定におけるバイアスのエンコーディングを避けるために道徳的行動を統合する。 しかし、このような批判的な問題についての現在の言説は、地域知識、文化多元主義、グローバルフェアネスを無視する懸念を提起する経済発展途上国(MEDC)によって形成されている。 この研究は、責任あるAIに関する既存の研究に基づいており、グローバル・サウス(Global South)の領域に重点を置いている。 本研究の目的は,(1)運命に関わる課題と透明性手法の有効性を評価すること,(2)aiのアクセシビリティと排他性ギャップを橋渡しするための有用な洞察と行動の促進である。 オンラインソーシャルネットワークからの広告データを用いて,上記の目的を達成するためのユーザスタディ(n=43)を考案した。 AIシステムによって達成された決定に関する説明は曖昧で、情報的でない傾向があります。 アクセシビリティとアクセシビリティのギャップを埋めるためには、公正性、説明責任、透明性、倫理をAIに統合するための最良の方法として、コミュニティと関与する必要がある。 これにより、影響を受けるコミュニティや個人がAIシステムの利用拡大を効果的に調査し、監視できるようにする。

One of the defining phenomena in this age is the widespread deployment of systems powered by artificial intelligence (AI) technology. With AI taking the center stage, many sections of society are being affected directly or indirectly by algorithmic decisions. Algorithmic decisions carry both economical and personal implications which have brought about the issues of fairness, accountability, transparency and ethics (FATE) in AI geared towards addressing algorithmic disparities. Ethical AI deals with incorporating moral behaviour to avoid encoding bias in AI's decisions. However, the present discourse on such critical issues is being shaped by the more economically developed countries (MEDC), which raises concerns regarding neglecting local knowledge, cultural pluralism and global fairness. This study builds upon existing research on responsible AI, with a focus on areas in the Global South considered to be under-served vis-a-vis AI. Our goal is two-fold (1) to assess FATE-related issues and the effectiveness of transparency methods and (2) to proffer useful insights and stimulate action towards bridging the accessibility and inclusivity gap in AI. Using ads data from online social networks, we designed a user study (n=43) to achieve the above goals. Among the findings from the study include: explanations about decisions reached by the AI systems tend to be vague and less informative. To bridge the accessibility and inclusivity gap, there is a need to engage with the community for the best way to integrate fairness, accountability, transparency and ethics in AI. This will help in empowering the affected community or individual to effectively probe and police the growing application of AI-powered systems.
翻訳日:2023-01-05 15:57:02 公開日:2023-01-03
# 連合学習の最近の進歩:体系的調査

Recent Advances on Federated Learning: A Systematic Survey ( http://arxiv.org/abs/2301.01299v1 )

ライセンス: Link先を確認
Bingyan Liu, Nuoyan Lv, Yuanchun Guo, Yawen Li(参考訳) フェデレーション学習は,プライバシ保護によるコラボレーション学習を実現するための効果的なパラダイムとして現れてきた。 従来の集中型学習と比較すると、連合学習では、データ情報を公開することなく、局所的に訓練されたモデルや計算された勾配のみが交換される。 その結果、プライバシーをある程度保護することができる。 近年,連合学習が普及し,このホットな研究テーマでは,関連する手法を要約する調査が数多く行われている。 しかし、それらのほとんどは特定の視点にフォーカスするか、最新の研究の進歩を欠いている。 本稿では,最近の先進的なフェデレーション手法と応用を異なる側面から見直すことを目的とした,フェデレーション学習に関する体系的調査を行う。 具体的には,4つの大きな貢献について述べる。 まず,フェデレーション学習の新たな分類法として,パイプラインとフェデレーションシナリオにおける課題について述べる。 第2に,連合学習手法をいくつかのカテゴリにまとめた上で,これらのカテゴリにおける最先端の手法を簡潔に紹介する。 第3に、広く普及している連合学習フレームワークを概説し、その機能を紹介する。 最後に,現在の手法の潜在的な欠陥と今後の方向性について論じる。

Federated learning has emerged as an effective paradigm to achieve privacy-preserving collaborative learning among different parties. Compared to traditional centralized learning that requires collecting data from each party, in federated learning, only the locally trained models or computed gradients are exchanged, without exposing any data information. As a result, it is able to protect privacy to some extent. In recent years, federated learning has become more and more prevalent and there have been many surveys for summarizing related methods in this hot research topic. However, most of them focus on a specific perspective or lack the latest research progress. In this paper, we provide a systematic survey on federated learning, aiming to review the recent advanced federated methods and applications from different aspects. Specifically, this paper includes four major contributions. First, we present a new taxonomy of federated learning in terms of the pipeline and challenges in federated scenarios. Second, we summarize federated learning methods into several categories and briefly introduce the state-of-the-art methods under these categories. Third, we overview some prevalent federated learning frameworks and introduce their features. Finally, some potential deficiencies of current methods and several future directions are discussed.
翻訳日:2023-01-05 15:50:25 公開日:2023-01-03
# グラフィカルハウスアロケーション

Graphical House Allocation ( http://arxiv.org/abs/2301.01323v1 )

ライセンス: Link先を確認
Hadi Hosseini, Justin Payan, Rik Sengupta, Rohit Vaish and Vignesh Viswanathan(参考訳) 古典的な住宅割当問題は、その好みに応じて、n$ house(またはアイテム)を$n$ agentに割り当てることである。 このような問題の鍵となる基準は、うらやましい自由さのような公正な制約を満たすことである。 エージェントがグラフの頂点に沿って配置され(ソーシャルネットワークに対応する)、各エージェントが隣人に対してうらやましいだけを体験できる、この問題の一般化を考察する。 我々のゴールは、エージェント間の集合的エンビーを自然な公正目標、すなわちソーシャルグラフ内のすべてのエッジ上のすべてのペア的エンビー値の和として最小化することである。 エージェントが同一かつ等間隔のバリュエーションを持つ場合、線形配置のよく研究された問題に還元される。 同じ評価と、おそらく不均一な間隔に対して、私たちは、この古典的な問題から出発する、多くの深くて驚くべき方法を示します。 より広範に、パス、サイクル、スター、またはクリッドの解離結合に対するNP硬度結果や、パス、サイクル、スター、クリッドおよびそれらの解離結合に対する固定パラメータトラクタブルアルゴリズム(場合によっては多項式時間)など、グラフの様々なクラスに対する構造的および計算的な結果に寄与する。 さらに、我々の研究のコンセプト的貢献は、最適割り当てを見つけるための効率的なパラメータ化アルゴリズムをもたらす分離性と呼ばれる非連結グラフの構造特性の定式化である。

The classical house allocation problem involves assigning $n$ houses (or items) to $n$ agents according to their preferences. A key criterion in such problems is satisfying some fairness constraints such as envy-freeness. We consider a generalization of this problem wherein the agents are placed along the vertices of a graph (corresponding to a social network), and each agent can only experience envy towards its neighbors. Our goal is to minimize the aggregate envy among the agents as a natural fairness objective, i.e., the sum of all pairwise envy values over all edges in a social graph. When agents have identical and evenly-spaced valuations, our problem reduces to the well-studied problem of linear arrangements. For identical valuations with possibly uneven spacing, we show a number of deep and surprising ways in which our setting is a departure from this classical problem. More broadly, we contribute several structural and computational results for various classes of graphs, including NP-hardness results for disjoint unions of paths, cycles, stars, or cliques, and fixed-parameter tractable (and, in some cases, polynomial-time) algorithms for paths, cycles, stars, cliques, and their disjoint unions. Additionally, a conceptual contribution of our work is the formulation of a structural property for disconnected graphs that we call separability which results in efficient parameterized algorithms for finding optimal allocations.
翻訳日:2023-01-05 15:48:38 公開日:2023-01-03
# 教師付きコントラスト学習によるヒト生涯の脳組織分節化

Brain Tissue Segmentation Across the Human Lifespan via Supervised Contrastive Learning ( http://arxiv.org/abs/2301.01369v1 )

ライセンス: Link先を確認
Xiaoyang Chen, Jinjian Wu, Wenjiao Lyu, Yicheng Zou, Kim-Han Thung, Siyuan Liu, Ye Wu, Sahar Ahmad, Pew-Thian Yap(参考訳) 脳mr画像の白質(wm)、灰白質(gm)、脳脊髄液(csf)への自動分割は、組織体積分析および皮質表面再構成に重要である。 発達過程と加齢に伴う劇的な構造変化と外観変化のため、既存の脳組織分節法は特定の年齢層でのみ有効である。 その結果、ある年齢層で開発された方法が別の年齢層で失敗する可能性がある。 本稿では,脳組織を人間の寿命全体(0~100歳)に統一的な深層学習モデルを用いて分割する試みを初めて行った。 生物学的プロセス, 強度不均一性, 運動人工物, スキャナによる差分, および取得プロトコルによってもたらされる構造的変動にかかわる課題を克服するために, 生活空間における特徴表現の質を向上させるために, 比較学習を用いることを提案する。 2,464mr画像の大規模データセット上で,一般的なセグメンテーション手法と比較した。 実験の結果,我々のモデルは脳組織を正確に分割し,既存の方法より優れていることがわかった。

Automatic segmentation of brain MR images into white matter (WM), gray matter (GM), and cerebrospinal fluid (CSF) is critical for tissue volumetric analysis and cortical surface reconstruction. Due to dramatic structural and appearance changes associated with developmental and aging processes, existing brain tissue segmentation methods are only viable for specific age groups. Consequently, methods developed for one age group may fail for another. In this paper, we make the first attempt to segment brain tissues across the entire human lifespan (0-100 years of age) using a unified deep learning model. To overcome the challenges related to structural variability underpinned by biological processes, intensity inhomogeneity, motion artifacts, scanner-induced differences, and acquisition protocols, we propose to use contrastive learning to improve the quality of feature representations in a latent space for effective lifespan tissue segmentation. We compared our approach with commonly used segmentation methods on a large-scale dataset of 2,464 MR images. Experimental results show that our model accurately segments brain tissues across the lifespan and outperforms existing methods.
翻訳日:2023-01-05 15:33:12 公開日:2023-01-03
# 深部視覚分類モデルの説明可能性とロバスト性

Explainability and Robustness of Deep Visual Classification Models ( http://arxiv.org/abs/2301.01343v1 )

ライセンス: Link先を確認
Jindong Gu(参考訳) コンピュータビジョンコミュニティでは、1980年代に最初に提案された畳み込みニューラルネットワーク(CNN)が、標準的な視覚分類モデルとなっている。 近年,CNN の代替として Capsule Networks (CapsNets) と Vision Transformers (ViTs) が提案されている。 人間の脳の情報処理にインスパイアされたCapsNetsはCNNよりも誘導バイアスが大きいと考えられているが、ViTsはCNNよりも誘導バイアスが少ないと考えられている。 これら3つの分類モデルは、様々な下流タスクのバックボーンとして機能するため、大きな注目を集めている。 しかし、これらのモデルは完璧とは程遠い。 コミュニティが指摘しているように、標準のDeep Neural Networks(DNN)には2つの弱点がある。 DNNの制限のひとつは、説明責任の欠如だ。 画像分類タスクにおいて、人間の専門家のパフォーマンスを達成または超えることができるが、DNNに基づく決定は理解が難しい。 しかし、現実世界の多くのアプリケーションでは、個々の決定を説明する必要がある。 DNNのもう1つの制限は、敵の脆弱性である。 具体的には、入力の小さくて知覚できない摂動はDNNを誤解させる可能性がある。 ディープニューラルネットワークの脆弱性は、現在の視覚分類モデルに課題をもたらす。 その潜在的な脅威は受け入れ難い結果をもたらす可能性がある。 さらに、モデルの敵対的脆弱性の研究は、基盤となるモデルの理解を深める可能性がある。 我々の研究はDNNの2つの限界に対処することを目的としている。 具体的には,深部視覚分類モデル,特に各分類モデルのコア構築部分,例えばcapsnetsの動的ルーティングとvitsのセルフアテンションモジュールに注目した。

In the computer vision community, Convolutional Neural Networks (CNNs), first proposed in the 1980's, have become the standard visual classification model. Recently, as alternatives to CNNs, Capsule Networks (CapsNets) and Vision Transformers (ViTs) have been proposed. CapsNets, which were inspired by the information processing of the human brain, are considered to have more inductive bias than CNNs, whereas ViTs are considered to have less inductive bias than CNNs. All three classification models have received great attention since they can serve as backbones for various downstream tasks. However, these models are far from being perfect. As pointed out by the community, there are two weaknesses in standard Deep Neural Networks (DNNs). One of the limitations of DNNs is the lack of explainability. Even though they can achieve or surpass human expert performance in the image classification task, the DNN-based decisions are difficult to understand. In many real-world applications, however, individual decisions need to be explained. The other limitation of DNNs is adversarial vulnerability. Concretely, the small and imperceptible perturbations of inputs can mislead DNNs. The vulnerability of deep neural networks poses challenges to current visual classification models. The potential threats thereof can lead to unacceptable consequences. Besides, studying model adversarial vulnerability can lead to a better understanding of the underlying models. Our research aims to address the two limitations of DNNs. Specifically, we focus on deep visual classification models, especially the core building parts of each classification model, e.g. dynamic routing in CapsNets and self-attention module in ViTs.
翻訳日:2023-01-05 15:30:28 公開日:2023-01-03
# エゴオンリー:エゴセントリックな行動検出

Ego-Only: Egocentric Action Detection without Exocentric Pretraining ( http://arxiv.org/abs/2301.01380v1 )

ライセンス: Link先を確認
Huiyu Wang, Mitesh Kumar Singh, Lorenzo Torresani(参考訳) 我々は,エゴセントリック(一人称)ビデオにおける最先端の動作検出を可能にする最初のトレーニングパイプラインであるego-onlyを提案する。 以前のアプローチでは、エゴセントリックモデルがスクラッチから効果的にトレーニングできないことや、エクソセントリック表現が一人称ビデオにうまく移行できることが判明した。 本稿では、この2つの観察を再検討する。 本研究では,2つの領域を分けた大きな内容と外観ギャップを動機として,エゴセントリックモデルの効果的なトレーニングを可能にする戦略を提案する。 Ego-Onlyパイプラインはシンプルです。 テンポラリセグメンテーション用に微調整されたマスク付きオートエンコーダでビデオ表現を訓練する。 学習した特徴は、オフザシェルフの時間的行動ローカライゼーションメソッドに送られ、アクションを検出する。 ego4dとepic-kitchens-100という2つの確立されたエゴセントリックビデオデータセット上でのアプローチを評価した。 ego4dでは、私たちのegoのみは、より多くのラベルを使用するexocentric pretrainingメソッドとほぼ同等です。 EPIC-Kitchens-100では、Ego-Onlyはexocentric pretraining(動詞で2.1%、名詞で1.8%)を上回り、新しい最先端技術を確立しています。

We present Ego-Only, the first training pipeline that enables state-of-the-art action detection on egocentric (first-person) videos without any form of exocentric (third-person) pretraining. Previous approaches found that egocentric models cannot be trained effectively from scratch and that exocentric representations transfer well to first-person videos. In this paper we revisit these two observations. Motivated by the large content and appearance gap separating the two domains, we propose a strategy that enables effective training of egocentric models without exocentric pretraining. Our Ego-Only pipeline is simple. It trains the video representation with a masked autoencoder finetuned for temporal segmentation. The learned features are then fed to an off-the-shelf temporal action localization method to detect actions. We evaluate our approach on two established egocentric video datasets: Ego4D and EPIC-Kitchens-100. On Ego4D, our Ego-Only is on-par with exocentric pretraining methods that use an order of magnitude more labels. On EPIC-Kitchens-100, our Ego-Only even outperforms exocentric pretraining (by 2.1% on verbs and by 1.8% on nouns), setting a new state-of-the-art.
翻訳日:2023-01-05 15:29:54 公開日:2023-01-03
# LunarNav: 長距離自律ルナーローバーナビゲーションのためのクレーターに基づく位置決め

LunarNav: Crater-based Localization for Long-range Autonomous Lunar Rover Navigation ( http://arxiv.org/abs/2301.01350v1 )

ライセンス: Link先を確認
Shreyansh Daftry, Zhanlin Chen, Yang Cheng, Scott Tepsuporn, Brian Coltin, Ussama Naam, Lanssie Mingyue Ma, Shehryar Khattak, Matthew Deans, Larry Matthies(参考訳) アルテミス計画では、資源の探査と利用、施設の建設と維持、探査のためにロボットと有人月探査機が必要である。 これらのローバーは基地キャンプから10kmの航法を支援しなければならない。 エンデュアランス-aという月科学探査ローバーのコンセプトは、月探査計画の最高優先度の中級ミッションとして、ニュー・デカダル・サーベイによって推奨され、南極エイトキン盆地の約2000kmを横断する必要があり、個々のドライブはダウンリンクから数kmの距離にある。 これらのローバーミッションのシナリオには、オンボード、自律的、グローバルな位置知識(すなわち絶対的ローカライズ)を提供する機能が必要である。 しかし、惑星ローバーはこれまでに地球上の位置決め能力を持っておらず、各ドライブの開始位置と相対的な位置を追跡するために、ホイール・オドメトリー、ビジュアル・オドメトリー、慣性測定の組み合わせを統合することで、相対的な位置決めしか利用していない。 本研究では,LunarNavプロジェクトの最近の開発成果を要約し,月面探査機が地球の位置を推定し,5m未満の位置誤差と3度の3シグマ以下の方向誤差を目標とする月面への移動を可能にするアルゴリズムとソフトウェアを開発した。 これはローバー付近のクレーターを検出し、軌道からマッピングされた既知のクレーターのデータベースとマッチングすることで、自律的に搭載される。 全体的な技術枠組みは3つの要素から構成される。 1)クレーターの検出 2)クレーターの一致,及び 3) 状態推定。 前報では,3つの異なるセンシングモードに対するクレーター検出アルゴリズムを開発した。 その結果,5m未満の誤差によるローバーの局所化は,昼間の操作で高い可能性が示唆された。

The Artemis program requires robotic and crewed lunar rovers for resource prospecting and exploitation, construction and maintenance of facilities, and human exploration. These rovers must support navigation for 10s of kilometers (km) from base camps. A lunar science rover mission concept - Endurance-A, has been recommended by the new Decadal Survey as the highest priority medium-class mission of the Lunar Discovery and Exploration Program, and would be required to traverse approximately 2000 km in the South Pole-Aitkin (SPA) Basin, with individual drives of several kilometers between stops for downlink. These rover mission scenarios require functionality that provides onboard, autonomous, global position knowledge ( aka absolute localization). However, planetary rovers have no onboard global localization capability to date; they have only used relative localization, by integrating combinations of wheel odometry, visual odometry, and inertial measurements during each drive to track position relative to the start of each drive. In this work, we summarize recent developments from the LunarNav project, where we have developed algorithms and software to enable lunar rovers to estimate their global position and heading on the Moon with a goal performance of position error less than 5 meters (m) and heading error less than 3-degree, 3-sigma, in sunlit areas. This will be achieved autonomously onboard by detecting craters in the vicinity of the rover and matching them to a database of known craters mapped from orbit. The overall technical framework consists of three main elements: 1) crater detection, 2) crater matching, and 3) state estimation. In previous work, we developed crater detection algorithms for three different sensing modalities. Our results suggest that rover localization with an error less than 5 m is highly probable during daytime operations.
翻訳日:2023-01-05 15:25:41 公開日:2023-01-03
# オフライン強化学習のための文脈保守型Qラーニング

Contextual Conservative Q-Learning for Offline Reinforcement Learning ( http://arxiv.org/abs/2301.01298v1 )

ライセンス: Link先を確認
Ke Jiang, Jiayu Yao, Xiaoyang Tan(参考訳) オフライン強化学習は,オンラインインタラクションを伴わないオフラインデータセットの効果的なポリシを学習する。 しかし、分散シフトによって生じる外挿誤差は、オフラインポリシーの信頼性と堅牢性を低下させるout-of-distribution(ood)状態に移行するアクションに対する過大評価につながる。 本稿では,逆ダイナミクスモデルを用いて取得したコンテキスト情報を用いて,信頼性の高いポリシーを学習するためのコンテキスト保守型Q-Learning(C-CQL)を提案する。 逆ダイナミクスモデルの監督により、摂動状態がOOD状態の一般的な種類であるという事実から、摂動状態における安定な遷移を生成する政策を学ぶ傾向にある。 このようにして、学習ポリシーは、オフラインデータセットの実証的な次の状態分布、すなわち堅牢に信頼性のある遷移に運命付ける遷移をより高めることができる。 さらに,C-CQLは保守的Q-Learning(CQL)と攻撃的状態偏差補正(SDC)の一般化であることを示す。 最後に、提案したC-CQLがオフラインのMujocoスイートとノイズの多いMujoco設定のほとんどの環境で最先端のパフォーマンスを達成することを示す実験結果が発表された。

Offline reinforcement learning learns an effective policy on offline datasets without online interaction, and it attracts persistent research attention due to its potential of practical application. However, extrapolation error generated by distribution shift will still lead to the overestimation for those actions that transit to out-of-distribution(OOD) states, which degrades the reliability and robustness of the offline policy. In this paper, we propose Contextual Conservative Q-Learning(C-CQL) to learn a robustly reliable policy through the contextual information captured via an inverse dynamics model. With the supervision of the inverse dynamics model, it tends to learn a policy that generates stable transition at perturbed states, for the fact that pertuebed states are a common kind of OOD states. In this manner, we enable the learnt policy more likely to generate transition that destines to the empirical next state distributions of the offline dataset, i.e., robustly reliable transition. Besides, we theoretically reveal that C-CQL is the generalization of the Conservative Q-Learning(CQL) and aggressive State Deviation Correction(SDC). Finally, experimental results demonstrate the proposed C-CQL achieves the state-of-the-art performance in most environments of offline Mujoco suite and a noisy Mujoco setting.
翻訳日:2023-01-05 15:24:36 公開日:2023-01-03
# dadagger: 不一致を示唆するデータセットアグリゲーション

DADAgger: Disagreement-Augmented Dataset Aggregation ( http://arxiv.org/abs/2301.01348v1 )

ライセンス: Link先を確認
Akash Haridas, Karim Hamadeh, Samarendra Chandan Bindu Dash(参考訳) DAggerは、トレーニング中に遭遇したすべてのサンプルについて専門家に問い合わせることで、オリジナルのデータセットを集約する模倣アルゴリズムである。 そこで本研究では,DAgger(DADgger)と呼ばれるDAggerに対して,分散不能な状態-動作ペア(OOD)についてのみ専門家に問い合わせる修正を提案する。 OOD状態は、各状態におけるモデルのアンサンブルの動作予測のばらつきを測定し、ドロップアウトを用いてシミュレートする。 Car RacingとHalf Cheetah環境でのテストは、DAggerに匹敵するパフォーマンスを実現するが、専門的なクエリが削減され、ランダムサンプリングベースラインよりもパフォーマンスが向上した。 また、我々のアルゴリズムは、初期データなしで実行し、不確実性を解決するために専門家に問い合わせるだけで、効率的でバランスのとれたトレーニングデータセットを構築するために使われる可能性がある。

DAgger is an imitation algorithm that aggregates its original datasets by querying the expert on all samples encountered during training. In order to reduce the number of samples queried, we propose a modification to DAgger, known as DADAgger, which only queries the expert for state-action pairs that are out of distribution (OOD). OOD states are identified by measuring the variance of the action predictions of an ensemble of models on each state, which we simulate using dropout. Testing on the Car Racing and Half Cheetah environments achieves comparable performance to DAgger but with reduced expert queries, and better performance than a random sampling baseline. We also show that our algorithm may be used to build efficient, well-balanced training datasets by running with no initial data and only querying the expert to resolve uncertainty.
翻訳日:2023-01-05 15:24:13 公開日:2023-01-03
# 条件付き時系列生成のためのニューラルSDEとシグナチャ・ワッサースタイン1計量

Neural SDEs for Conditional Time Series Generation and the Signature-Wasserstein-1 metric ( http://arxiv.org/abs/2301.01315v1 )

ライセンス: Link先を確認
Pere D\'iaz Lozano, Toni Lozano Bag\'en, Josep Vives(参考訳) (コンディション) GAN(Generative Adversarial Networks)は、超高次元空間上の(条件付き)分布を近似する能力により、近年大きな成功を収めている。 しかし、それらは非常に不安定で、特に時系列設定でトレーニングするのに計算コストがかかる。 近年、(条件付き)ganフレームワークによって与えられるmin-max定式化を古典的最小化問題に変換することができる、経路のシグネチャと呼ばれるラフパス理論におけるキーオブジェクトの使用が提案されている。 しかし、この方法はメモリコストの面では非常に高価であり、時には禁止されることもある。 これを解決するために,深度関数としてのメモリコストが一定であり,従来のディープラーニングアーキテクチャよりもメモリ効率がよい「textit{Conditional Neural Stochastic Differential Equations}」を提案する。 我々は,提案モデルがメモリコストと計算時間の両方において他の古典的手法よりも効率的であり,性能的にも性能的に優れていることを実証的に検証した。

(Conditional) Generative Adversarial Networks (GANs) have found great success in recent years, due to their ability to approximate (conditional) distributions over extremely high dimensional spaces. However, they are highly unstable and computationally expensive to train, especially in the time series setting. Recently, it has been proposed the use of a key object in rough path theory, called the signature of a path, which is able to convert the min-max formulation given by the (conditional) GAN framework into a classical minimization problem. However, this method is extremely expensive in terms of memory cost, sometimes even becoming prohibitive. To overcome this, we propose the use of \textit{Conditional Neural Stochastic Differential Equations}, which have a constant memory cost as a function of depth, being more memory efficient than traditional deep learning architectures. We empirically test that this proposed model is more efficient than other classical approaches, both in terms of memory cost and computational time, and that it usually outperforms them in terms of performance.
翻訳日:2023-01-05 15:22:53 公開日:2023-01-03
# オフライン選好に基づく報酬学習のためのベンチマークとアルゴリズム

Benchmarks and Algorithms for Offline Preference-Based Reward Learning ( http://arxiv.org/abs/2301.01392v1 )

ライセンス: Link先を確認
Daniel Shin, Anca D. Dragan, Daniel S. Brown(参考訳) 人間の好みから報酬関数を学ぶことは、通常、高忠実度シミュレーターが必要か、高価な、潜在的に安全でない実際の物理的ロールアウトを使用する必要があるため、難しい。 しかし、多くのタスクでは、エージェントは同じターゲット環境で関連するタスクからオフラインデータにアクセスすることができる。 オフラインデータは、オフラインのRLを通じてポリシーの最適化を支援するためにますます使われていますが、私たちの観察では、プライオリティ学習のための驚くほど豊富な情報ソースになり得るということです。 本稿では,オフラインデータセットを用いてプールベースのアクティブラーニングによる選好クエリを作成し,報奨関数上の分布を学習し,オフラインrlを介して対応するポリシーを最適化する手法を提案する。 重要な点として,提案手法では,報酬学習や政策最適化のステップにおいて,実際の物理ロールアウトや正確なシミュレータを必要としないことが挙げられる。 提案手法をテストするため,既存のオフラインRLベンチマークをオフライン報酬学習に適したものに評価した。 驚くべきことに、多くのオフラインRLドメインでは、簡単な報酬関数を使用することでポリシーのパフォーマンスが向上し、これらのドメインは学習した報酬を評価するのに不適であることがわかった。 これに対処するために,オフライン報酬学習に適した既存のオフラインrlベンチマークのサブセットを特定し,よりオープンな動作を可能にするオフライン見習い学習ベンチマークを提案する。 この実験結果から,オフラインRLと学習された人間の嗜好を組み合わせることで,オフラインデータに明示的に表示されていない新しいタスクをエージェントが学習できるようになることが示唆された。

Learning a reward function from human preferences is challenging as it typically requires having a high-fidelity simulator or using expensive and potentially unsafe actual physical rollouts in the environment. However, in many tasks the agent might have access to offline data from related tasks in the same target environment. While offline data is increasingly being used to aid policy optimization via offline RL, our observation is that it can be a surprisingly rich source of information for preference learning as well. We propose an approach that uses an offline dataset to craft preference queries via pool-based active learning, learns a distribution over reward functions, and optimizes a corresponding policy via offline RL. Crucially, our proposed approach does not require actual physical rollouts or an accurate simulator for either the reward learning or policy optimization steps. To test our approach, we first evaluate existing offline RL benchmarks for their suitability for offline reward learning. Surprisingly, for many offline RL domains, we find that simply using a trivial reward function results good policy performance, making these domains ill-suited for evaluating learned rewards. To address this, we identify a subset of existing offline RL benchmarks that are well suited for offline reward learning and also propose new offline apprenticeship learning benchmarks which allow for more open-ended behaviors. When evaluated on this curated set of domains, our empirical results suggest that combining offline RL with learned human preferences can enable an agent to learn to perform novel tasks that were not explicitly shown in the offline data.
翻訳日:2023-01-05 15:14:37 公開日:2023-01-03
# デプロイ可能なRLを目指して - RL研究の失敗と潜在的な修正

Towards Deployable RL -- What's Broken with RL Research and a Potential Fix ( http://arxiv.org/abs/2301.01320v1 )

ライセンス: Link先を確認
Shie Mannor and Aviv Tamar(参考訳) 強化学習(rl)は大きな可能性を秘めているが、現在はハイプとパイプの夢に満ちている。 我々は,現在の研究の難しさを指摘し,コミュニティの方向性に賛同している。 当社にとって、現在の方向性は、実際に機能し、実践的な状況でも機能するが、経済的に実行可能なRL: RLにつながる可能性は低い。 また,この分野の課題のいくつかに対する潜在的な修正も提案する。

Reinforcement learning (RL) has demonstrated great potential, but is currently full of overhyping and pipe dreams. We point to some difficulties with current research which we feel are endemic to the direction taken by the community. To us, the current direction is not likely to lead to "deployable" RL: RL that works in practice and can work in practical situations yet still is economically viable. We also propose a potential fix to some of the difficulties of the field.
翻訳日:2023-01-05 15:13:24 公開日:2023-01-03
# wld-reg: データ依存層内多様性調整器

WLD-Reg: A Data-dependent Within-layer Diversity Regularizer ( http://arxiv.org/abs/2301.01352v1 )

ライセンス: Link先を確認
Firas Laakom, Jenni Raitoharju, Alexandros Iosifidis and Moncef Gabbouj(参考訳) ニューラルネットワークは階層構造に配置された複数のレイヤで構成され、勾配に基づく最適化によって、エラーが最後のレイヤから最初のレイヤにバックプロパゲーションされる。 各最適化ステップにおいて、与えられた階層のニューロンは階層の上位層に属するニューロンからフィードバックを受け取る。 本稿では、この従来の「中間層」フィードバックを補足して、同一層内での活性化の多様性を促進することを提案する。 この目的のために、ニューロンの出力間の対関係の類似性を計測し、それを用いて層全体の多様性をモデル化する。 本稿では,提案手法が複数のタスクにおける最先端ニューラルネットワークモデルの性能を向上させることを実証する。 コードは \url{https://github.com/firasl/AAAI-23-WLD-Reg} で公開されている。

Neural networks are composed of multiple layers arranged in a hierarchical structure jointly trained with a gradient-based optimization, where the errors are back-propagated from the last layer back to the first one. At each optimization step, neurons at a given layer receive feedback from neurons belonging to higher layers of the hierarchy. In this paper, we propose to complement this traditional 'between-layer' feedback with additional 'within-layer' feedback to encourage the diversity of the activations within the same layer. To this end, we measure the pairwise similarity between the outputs of the neurons and use it to model the layer's overall diversity. We present an extensive empirical study confirming that the proposed approach enhances the performance of several state-of-the-art neural network models in multiple tasks. The code is publically available at \url{https://github.com/firasl/AAAI-23-WLD-Reg}
翻訳日:2023-01-05 15:12:35 公開日:2023-01-03
# アラビア語音素の誤発音検出のためのアンサンブルに基づくフレームワーク

An ensemble-based framework for mispronunciation detection of Arabic phonemes ( http://arxiv.org/abs/2301.01378v1 )

ライセンス: Link先を確認
Sukru Selim Calik, Ayhan Kucukmanisa, Zeynep Hilal Kilimci(参考訳) コンピュータ支援言語学習(call)システムによって誤用判定とユーザへのフィードバックの確保が維持される。 本研究では,アラビア語音素の誤用を定義し,アラビア語学習を効果的に支援するアンサンブルモデルを提案する。 私たちの知る限りでは、これはアンサンブル学習技術と従来の機械学習モデルを用いたアラビア語音素の誤用を包括的に判断する最初の試みです。 特徴抽出手法の効果を観察するために,メル周波数ケプストラム係数(MFCC)とメルスペクトルを各学習アルゴリズムにブレンドする。 提案モデルの成功を示すために、アラビア語音素の29文字のうち8文字がhafizであり、合計11人の異なる人物によって声がかけられる。 ノイズの追加、時間シフト、時間ストレッチ、ピッチシフトの手法を用いて、データセットの量を増加させた。 広範な実験により,メルスペクトログラム特徴抽出手法を用いたアンサンブルアルゴリズムとしての投票分類器の利用により,95.9%の精度で顕著な分類結果が得られた。

Determination of mispronunciations and ensuring feedback to users are maintained by computer-assisted language learning (CALL) systems. In this work, we introduce an ensemble model that defines the mispronunciation of Arabic phonemes and assists learning of Arabic, effectively. To the best of our knowledge, this is the very first attempt to determine the mispronunciations of Arabic phonemes employing ensemble learning techniques and conventional machine learning models, comprehensively. In order to observe the effect of feature extraction techniques, mel-frequency cepstrum coefficients (MFCC), and Mel spectrogram are blended with each learning algorithm. To show the success of proposed model, 29 letters in the Arabic phonemes, 8 of which are hafiz, are voiced by a total of 11 different person. The amount of data set has been enhanced employing the methods of adding noise, time shifting, time stretching, pitch shifting. Extensive experiment results demonstrate that the utilization of voting classifier as an ensemble algorithm with Mel spectrogram feature extraction technique exhibits remarkable classification result with 95.9% of accuracy.
翻訳日:2023-01-05 15:12:03 公開日:2023-01-03
# 強化学習の簡潔な要約

A Succinct Summary of Reinforcement Learning ( http://arxiv.org/abs/2301.01379v1 )

ライセンス: Link先を確認
Sanjeevan Ahilan(参考訳) この文書は、単エージェント強化学習(RL)における多くの重要な結果の簡潔な要約である。 対象とする聴衆は、すでにRLに慣れており、この分野で重要なアイデアをレビュー、参照、あるいは思い出させようとしている人たちです。

This document is a concise summary of many key results in single-agent reinforcement learning (RL). The intended audience are those who already have some familiarity with RL and are looking to review, reference and/or remind themselves of important ideas in the field.
翻訳日:2023-01-05 15:02:57 公開日:2023-01-03
# 深層学習と計算物理(講義ノート)

Deep Learning and Computational Physics (Lecture Notes) ( http://arxiv.org/abs/2301.00942v1 )

ライセンス: Link先を確認
Deep Ray, Orazio Pinti, Assad A. Oberai(参考訳) これらのノートは南カリフォルニア大学で開発・教育されたコースの講義ノートとしてまとめられた。 応用数学に強い背景を持つ、典型的な工学の大学院生にアクセスできるべきである。 これらのノートの主な目的は、線形代数や偏微分方程式の概念に精通した学生を紹介し、深層学習におけるトピックを選択することである。 これらの講義ノートは、深層学習アルゴリズムと従来の計算物理学の技法との強いつながりを利用して、2つの目標を達成する。 まず、計算物理学の概念を用いて深層学習アルゴリズムの理解を深める。 驚くべきことに、ディープラーニングの多くの概念は計算物理学の同様の概念と結びつくことができ、これらのアルゴリズムをよりよく理解するためにこの接続を利用することができる。 第二に、いくつかの新しいディープラーニングアルゴリズムは、計算物理学における難しい問題を解決するために使用できる。 したがって、補完的なツールセットで物理現象をモデル化することに興味のある人を提供する。

These notes were compiled as lecture notes for a course developed and taught at the University of the Southern California. They should be accessible to a typical engineering graduate student with a strong background in Applied Mathematics. The main objective of these notes is to introduce a student who is familiar with concepts in linear algebra and partial differential equations to select topics in deep learning. These lecture notes exploit the strong connections between deep learning algorithms and the more conventional techniques of computational physics to achieve two goals. First, they use concepts from computational physics to develop an understanding of deep learning algorithms. Not surprisingly, many concepts in deep learning can be connected to similar concepts in computational physics, and one can utilize this connection to better understand these algorithms. Second, several novel deep learning algorithms can be used to solve challenging problems in computational physics. Thus, they offer someone who is interested in modeling a physical phenomena with a complementary set of tools.
翻訳日:2023-01-04 15:34:00 公開日:2023-01-03
# e-inu:感情感覚で四足ロボットをシミュレートする

e-Inu: Simulating A Quadruped Robot With Emotional Sentience ( http://arxiv.org/abs/2301.00964v1 )

ライセンス: Link先を確認
Abhiruph Chakravarty, Jatin Karthik Tripathy, Sibi Chakkaravarthy S, Aswani Kumar Cherukuri, S. Anitha, Firuz Kamalov, Annapurna Jonnalagadda(参考訳) 四足ロボットは現在、いくつかのルーチンタスクを自動化する機械補助として産業用ロボットで使用されている。 しかし、現在、家庭環境におけるそのようなロボットの使用は研究の一部となっている。 本稿では,人間の感情の検出と理解,歩行の生成,画面上の音と表情による応答が可能なロボットの理解と仮想シミュレーションについて述べる。 この目的のために、強化学習とソフトウェア工学の概念を組み合わせることで、感情を理解し、様々な地形をナビゲートし、音源を検出し、音声視覚フィードバックを用いて感情に反応する四足歩行ロボットをシミュレートする。 本稿では、感情的に知性があり、主に運動や音声による視覚刺激に反応できる四足歩行ロボットのシミュレーションの枠組みを確立することを目的とする。 音声からの感情検出は、 eranns や zeta policy learning ほど高性能ではなく、63.5%の精度を維持していた。 ビデオ感情検出システムは、精度99.66%の精度で、芸術の水準にほぼ匹敵する結果を生み出した。 の学習プロセスのため、PPOアルゴリズムは非常に高速に学習でき、シミュレートされた犬は異なるケイデンスやバリエーションに対して驚くほどシームレスな歩行を見せることができた。 これにより、四足歩行ロボットは生成された刺激に反応し、予測通りに機能し、この作業の目的を満たすと結論付けることができる。

Quadruped robots are currently used in industrial robotics as mechanical aid to automate several routine tasks. However, presently, the usage of such a robot in a domestic setting is still very much a part of the research. This paper discusses the understanding and virtual simulation of such a robot capable of detecting and understanding human emotions, generating its gait, and responding via sounds and expression on a screen. To this end, we use a combination of reinforcement learning and software engineering concepts to simulate a quadruped robot that can understand emotions, navigate through various terrains and detect sound sources, and respond to emotions using audio-visual feedback. This paper aims to establish the framework of simulating a quadruped robot that is emotionally intelligent and can primarily respond to audio-visual stimuli using motor or audio response. The emotion detection from the speech was not as performant as ERANNs or Zeta Policy learning, still managing an accuracy of 63.5%. The video emotion detection system produced results that are almost at par with the state of the art, with an accuracy of 99.66%. Due to its "on-policy" learning process, the PPO algorithm was extremely rapid to learn, allowing the simulated dog to demonstrate a remarkably seamless gait across the different cadences and variations. This enabled the quadruped robot to respond to generated stimuli, allowing us to conclude that it functions as predicted and satisfies the aim of this work.
翻訳日:2023-01-04 15:33:45 公開日:2023-01-03
# 資源制約システムと艦隊の生涯モニタリング

Through-life Monitoring of Resource-constrained Systems and Fleets ( http://arxiv.org/abs/2301.01017v1 )

ライセンス: Link先を確認
Felipe Montana, Adam Hartwell, Will Jacobs, Visakan Kadirkamanathan, Andrew R Mills, Tom Clark(参考訳) デジタルツイン(Digital Twin、DT)は、経済、社会的、商業的な価値を付加する決定を行うための情報を提供する物理システムのシミュレーションである。 物理システムの振る舞いは時間とともに変化し、dtはその変化の振る舞いを反映して物理システムからのデータで継続的に更新されなければならない。 リソース制約のあるシステムでは、オンボード学習やオフボードデータ転送といった課題のため、DTの更新は簡単ではない。 本稿では,システムヘルスモニタリングを指向したデータ駆動型システムdtsを更新するためのフレームワークを提案する。 提案手法は,(1)物理系が生成したデータの優先順位と相同的な転送を可能にする軽量DTを運用するオンボードシステムと,(2)DTの堅牢な更新と異常な動作の検出とからなる。 実世界の時変物理システムのディジタル表現精度を実証するために生産ガスタービンエンジンシステムを用いた2つのケーススタディが検討されている。

A Digital Twin (DT) is a simulation of a physical system that provides information to make decisions that add economic, social or commercial value. The behaviour of a physical system changes over time, a DT must therefore be continually updated with data from the physical systems to reflect its changing behaviour. For resource-constrained systems, updating a DT is non-trivial because of challenges such as on-board learning and the off-board data transfer. This paper presents a framework for updating data-driven DTs of resource-constrained systems geared towards system health monitoring. The proposed solution consists of: (1) an on-board system running a light-weight DT allowing the prioritisation and parsimonious transfer of data generated by the physical system; and (2) off-board robust updating of the DT and detection of anomalous behaviours. Two case studies are considered using a production gas turbine engine system to demonstrate the digital representation accuracy for real-world, time-varying physical systems.
翻訳日:2023-01-04 15:33:21 公開日:2023-01-03
# 重合反応工学への機械学習アプローチ:モノマー反応性比の決定

Machine Learning Approach to Polymerization Reaction Engineering: Determining Monomers Reactivity Ratios ( http://arxiv.org/abs/2301.01231v1 )

ライセンス: Link先を確認
Tung Nguyen and Mona Bavarian(参考訳) 本稿では, 機械学習がモノマーの分子構造に基づいて, コモノマーの反応性比を予測する方法を示す。 本研究では,マルチタスク学習,マルチインプット,グラフアテンションネットワークを組み合わせることで,モノマー化学構造に基づく反応性比を予測できるモデルを構築した。

Here, we demonstrate how machine learning enables the prediction of comonomers reactivity ratios based on the molecular structure of monomers. We combined multi-task learning, multi-inputs, and Graph Attention Network to build a model capable of predicting reactivity ratios based on the monomers chemical structures.
翻訳日:2023-01-04 15:32:12 公開日:2023-01-03
# KoopmanLab:偏微分方程式を解くためのKoopman Neural operator familyのPyTorchモジュール

KoopmanLab: A PyTorch module of Koopman neural operator family for solving partial differential equations ( http://arxiv.org/abs/2301.01104v1 )

ライセンス: Link先を確認
Wei Xiong, Muyuan Ma, Pei Sun, Yang Tian(参考訳) 物理学や関連分野における偏微分方程式(PDE)の複雑さが増すにつれて、解析解を持たないPDEを計算的に解くことは、必然的に精度と効率のトレードオフに悩まされる。 メッシュに依存しないニューラルネットワークベースのPDEソルバであるニューラル演算子の最近の進歩は、この課題を克服する夜明けを示唆している。 この新たな方向において、クープマンニューラルオペレータ(KNO)は代表的なデモンストレーションであり、精度と効率の点で他の最先端の代替よりも優れている。 本稿では、偏微分方程式を解くために、koopman neural operator family の自己完結かつユーザフレンドリーなpytorchモジュールであるkoopmanlabを提案する。 KNOのオリジナルバージョン以外にも、さまざまなニューラルネットワークアーキテクチャに基づいて、モジュールの汎用性を改善するために、KNOの複数の新しいバリエーションを開発しています。 これらの変種は、代表的PDE(例えば、Navier-Stokes方程式とBateman-Burgers方程式)とERA5(すなわち、世界規模の気候分野における最大の高解像度データセットの1つ)に実装されたメッシュ非依存および長期予測実験によって検証される。 これらの実証は、KoopmanLabが偏微分方程式の様々な応用において考慮される可能性を示している。

Given the increasingly intricate forms of partial differential equations (PDEs) in physics and related fields, computationally solving PDEs without analytic solutions inevitably suffers from the trade-off between accuracy and efficiency. Recent advances in neural operators, a kind of mesh-independent neural-network-based PDE solvers, have suggested the dawn of overcoming this challenge. In this emerging direction, Koopman neural operator (KNO) is a representative demonstration and outperforms other state-of-the-art alternatives in terms of accuracy and efficiency. Here we present KoopmanLab, a self-contained and user-friendly PyTorch module of the Koopman neural operator family for solving partial differential equations. Beyond the original version of KNO, we develop multiple new variants of KNO based on different neural network architectures to improve the general applicability of our module. These variants are validated by mesh-independent and long-term prediction experiments implemented on representative PDEs (e.g., the Navier-Stokes equation and the Bateman-Burgers equation) and ERA5 (i.e., one of the largest high-resolution data sets of global-scale climate fields). These demonstrations suggest the potential of KoopmanLab to be considered in diverse applications of partial differential equations.
翻訳日:2023-01-04 15:31:44 公開日:2023-01-03
# グラフニューラルネットワークのための公正な知識蒸留

RELIANT: Fair Knowledge Distillation for Graph Neural Networks ( http://arxiv.org/abs/2301.01150v1 )

ライセンス: Link先を確認
Yushun Dong, Binchi Zhang, Yiling Yuan, Na Zou, Qi Wang, Jundong Li(参考訳) グラフニューラルネットワーク(GNN)は、様々なグラフ学習タスクのパフォーマンスを満足している。 適合性を向上するために、ほとんどのGNNは多数のパラメータを持ち、これらのGNNは計算コストがかかる。 そのため、携帯電話やウェアラブルスマートデバイスなど、計算資源の少ないエッジデバイスにデプロイすることは困難である。 知識蒸留(KD)はGNNを圧縮するための一般的な解であり、軽量モデル(学生モデル)は計算コストの高いGNN(教師GNNモデル)の振る舞いを模倣するよう奨励される。 しかしながら、既存のほとんどのGNNベースのKD手法は公平性を考慮していない。 結果として、学生モデルは通常、教師のGNNからの偏見を継承し、誇張する。 このような問題に対処するため、我々はGNNの公正な知識蒸留に向けて最初の一歩を踏み出した。 具体的には,まず,gnn を基盤とした教師教育枠組みにおける公平な知識蒸留の新たな課題を定式化する。 次に,学生モデルが提示するバイアスを軽減するために,RELIANTというフレームワークを提案する。 特に、RELIANTの設計は特定の教師や学生のモデル構造から切り離され、様々なGNNベースのKDフレームワークに容易に適応できる。 我々は,複数の実世界のデータセットについて広範な実験を行い,高い予測能力を維持しつつ,依存度の低いgnn知識蒸留を実現することを裏付ける。

Graph Neural Networks (GNNs) have shown satisfying performance on various graph learning tasks. To achieve better fitting capability, most GNNs are with a large number of parameters, which makes these GNNs computationally expensive. Therefore, it is difficult to deploy them onto edge devices with scarce computational resources, e.g., mobile phones and wearable smart devices. Knowledge Distillation (KD) is a common solution to compress GNNs, where a light-weighted model (i.e., the student model) is encouraged to mimic the behavior of a computationally expensive GNN (i.e., the teacher GNN model). Nevertheless, most existing GNN-based KD methods lack fairness consideration. As a consequence, the student model usually inherits and even exaggerates the bias from the teacher GNN. To handle such a problem, we take initial steps towards fair knowledge distillation for GNNs. Specifically, we first formulate a novel problem of fair knowledge distillation for GNN-based teacher-student frameworks. Then we propose a principled framework named RELIANT to mitigate the bias exhibited by the student model. Notably, the design of RELIANT is decoupled from any specific teacher and student model structures, and thus can be easily adapted to various GNN-based KD frameworks. We perform extensive experiments on multiple real-world datasets, which corroborates that RELIANT achieves less biased GNN knowledge distillation while maintaining high prediction utility.
翻訳日:2023-01-04 15:26:36 公開日:2023-01-03
# データセット蒸留に対するバックドア攻撃

Backdoor Attacks Against Dataset Distillation ( http://arxiv.org/abs/2301.01197v1 )

ライセンス: Link先を確認
Yugeng Liu, Zheng Li, Michael Backes, Yun Shen, Yang Zhang(参考訳) データセット蒸留(dataset distillation)は、機械学習モデルのトレーニングにおいて、データ効率を改善するための顕著な技術である。 巨大なデータセットからの知識を小さな合成データセットにカプセル化する。 この小さな蒸留データセットでトレーニングされたモデルは、元のトレーニングデータセットでトレーニングされたモデルと同等のパフォーマンスを達成できます。 しかし、既存のデータセット蒸留技術は主に、資源利用効率とモデルユーティリティの最良のトレードオフを達成することを目的としている。 それらに起因するセキュリティリスクは検討されていない。 本研究は,画像領域におけるデータセット蒸留モデルにより抽出されたデータに基づいて訓練されたモデルに対して,最初のバックドア攻撃を行う。 具体的には, 従来の全ての攻撃を行うモデル訓練段階ではなく, 蒸留工程中に合成データにトリガーを注入する。 我々は,naiveattackとdoorpingの2種類のバックドア攻撃を提案する。 NAIVEATTACKは、最初の蒸留段階で生データにトリガーを単に追加し、DOORPINGは蒸留プロセス全体を通してトリガーを反復的に更新する。 複数のデータセット、アーキテクチャ、およびデータセット蒸留技術について広範な評価を行う。 実験的な評価では、NAIVEATTACKは攻撃成功率(ASR)をある程度達成し、DOORPINGは全てのケースでより高いASRスコア(1.0に近かった)に達する。 さらに,攻撃性能に影響を与える要因を分析するため,包括的アブレーション研究を行った。 最後に,バックドア攻撃に対する複数の防御機構を評価し,その防御機構を効果的に回避できることを示す。

Dataset distillation has emerged as a prominent technique to improve data efficiency when training machine learning models. It encapsulates the knowledge from a large dataset into a smaller synthetic dataset. A model trained on this smaller distilled dataset can attain comparable performance to a model trained on the original training dataset. However, the existing dataset distillation techniques mainly aim at achieving the best trade-off between resource usage efficiency and model utility. The security risks stemming from them have not been explored. This study performs the first backdoor attack against the models trained on the data distilled by dataset distillation models in the image domain. Concretely, we inject triggers into the synthetic data during the distillation procedure rather than during the model training stage, where all previous attacks are performed. We propose two types of backdoor attacks, namely NAIVEATTACK and DOORPING. NAIVEATTACK simply adds triggers to the raw data at the initial distillation phase, while DOORPING iteratively updates the triggers during the entire distillation procedure. We conduct extensive evaluations on multiple datasets, architectures, and dataset distillation techniques. Empirical evaluation shows that NAIVEATTACK achieves decent attack success rate (ASR) scores in some cases, while DOORPING reaches higher ASR scores (close to 1.0) in all cases. Furthermore, we conduct a comprehensive ablation study to analyze the factors that may affect the attack performance. Finally, we evaluate multiple defense mechanisms against our backdoor attacks and show that our attacks can practically circumvent these defense mechanisms.
翻訳日:2023-01-04 15:26:13 公開日:2023-01-03
# 圧縮映像品質評価のための時空間アーチファクト検出

Saliency-Aware Spatio-Temporal Artifact Detection for Compressed Video Quality Assessment ( http://arxiv.org/abs/2301.01069v1 )

ライセンス: Link先を確認
Liqun Lin, Yang Zheng, Weiling Chen, Chengdong Lan, Tiesong Zhao(参考訳) 圧縮されたビデオは、Perceivable Encoding Artifacts (PEA)として知られる視覚的に厄介なアーティファクトを表示する。 様々な種類のPEAを識別・定量化できる主観的・客観的尺度は、視覚的品質向上に不可欠である。 本稿では,4つの空間的PEA(ブラーリング,ブロッキング,出血,リング)と2つの時間的PEA(フリックリング,フローティング)が映像品質に与える影響について検討する。 空間的アーティファクトに対しては,計算コストが低く,人間の視覚知覚との一貫性が高まる視覚塩分モデルを提案する。 時間的アーティファクトの観点では、自己アテンションベースのTimeSFormerが改善され、時間的アーティファクトを検出する。 6種類のPEAに基づいて,SSTAM(Saliency-Aware Spatio-Temporal Artifacts Measurement)と呼ばれる品質指標を提案する。 実験の結果,提案手法は最先端の指標よりも優れていた。 我々は,SSTAMがビデオ符号化技術の最適化に有用であると信じている。

Compressed videos often exhibit visually annoying artifacts, known as Perceivable Encoding Artifacts (PEAs), which dramatically degrade video visual quality. Subjective and objective measures capable of identifying and quantifying various types of PEAs are critical in improving visual quality. In this paper, we investigate the influence of four spatial PEAs (i.e. blurring, blocking, bleeding, and ringing) and two temporal PEAs (i.e. flickering and floating) on video quality. For spatial artifacts, we propose a visual saliency model with a low computational cost and higher consistency with human visual perception. In terms of temporal artifacts, self-attention based TimeSFormer is improved to detect temporal artifacts. Based on the six types of PEAs, a quality metric called Saliency-Aware Spatio-Temporal Artifacts Measurement (SSTAM) is proposed. Experimental results demonstrate that the proposed method outperforms state-of-the-art metrics. We believe that SSTAM will be beneficial for optimizing video coding techniques.
翻訳日:2023-01-04 15:24:20 公開日:2023-01-03
# 省エネ運転支援システムのための安全強化学習

Safe Reinforcement Learning for an Energy-Efficient Driver Assistance System ( http://arxiv.org/abs/2301.00904v1 )

ライセンス: Link先を確認
Habtamu Hailemichael, Beshah Ayalew, Lindsey Kerbel, Andrej Ivanco, Keith Loiselle(参考訳) 強化学習(rl)に基づく運転支援システムは,現場からの経験データを考慮したパワートレイン制御行動の継続的な改善を通じて,燃費の向上を目指す。 しかしながら、最適なポリシーを学ぶために多様な経験を探求する必要性は、車両制御のような安全クリティカルなシステムにおけるRL技術の適用を制限することが多い。 本稿では,RLに基づく運転支援システムによって提案される安全でない動作をフィルタするために,指数制御障壁関数(ECBF)を導出して利用する。 rlエージェントは、unsafeアクションがsafeドメインの最も近いアクションに投影される間、パフォーマンス目標を自由に探索し、最適化する。 報酬は、運転者の加速要求が燃料経済を加速し、快適さを損なわない方法で満たされるように構成されている。 この累積報酬を最大化する最適歯車及び牽引トルク制御動作は、ハイブリッド動作空間に設定された最大後続ポリシー最適化(mpo)アルゴリズムにより計算される。 提案手法は, 運転支援システムに期待される燃費改善を納入しながら, 訓練と評価の両方において衝突を効果的に回避できることが示されている。

Reinforcement learning (RL)-based driver assistance systems seek to improve fuel consumption via continual improvement of powertrain control actions considering experiential data from the field. However, the need to explore diverse experiences in order to learn optimal policies often limits the application of RL techniques in safety-critical systems like vehicle control. In this paper, an exponential control barrier function (ECBF) is derived and utilized to filter unsafe actions proposed by an RL-based driver assistance system. The RL agent freely explores and optimizes the performance objectives while unsafe actions are projected to the closest actions in the safe domain. The reward is structured so that driver's acceleration requests are met in a manner that boosts fuel economy and doesn't compromise comfort. The optimal gear and traction torque control actions that maximize the cumulative reward are computed via the Maximum a Posteriori Policy Optimization (MPO) algorithm configured for a hybrid action space. The proposed safe-RL scheme is trained and evaluated in car following scenarios where it is shown that it effectively avoids collision both during training and evaluation while delivering on the expected fuel economy improvements for the driver assistance system.
翻訳日:2023-01-04 15:23:30 公開日:2023-01-03
# 非凸最適化による複雑力学系の探索

Exploring Complex Dynamical Systems via Nonconvex Optimization ( http://arxiv.org/abs/2301.00923v1 )

ライセンス: Link先を確認
Hunter Elliott(参考訳) 力学系の複雑な振る舞いをカタログ化することは、単純な力学モデルによって十分に記述されているとしても困難である。 そのようなシステムが限定的な解析的トラクタビリティを持つ場合、ブルート力シミュレーションが唯一の方法であることが多い。 本稿では,機械学習のツールを用いた最適化駆動アプローチを提案する。 本稿では, 複雑な化学反応ネットワーク(Dense Reaction-Diffusion Network, Dense RDN)を組み込んだ, 完全最適化可能な反応拡散モデルに適用する。 これにより、パターン形成、散逸最大化非平衡状態、複製様力学構造を含む新しい状態や振る舞いを体系的に識別することができる。

Cataloging the complex behaviors of dynamical systems can be challenging, even when they are well-described by a simple mechanistic model. If such a system is of limited analytical tractability, brute force simulation is often the only resort. We present an alternative, optimization-driven approach using tools from machine learning. We apply this approach to a novel, fully-optimizable, reaction-diffusion model which incorporates complex chemical reaction networks (termed "Dense Reaction-Diffusion Network" or "Dense RDN"). This allows us to systematically identify new states and behaviors, including pattern formation, dissipation-maximizing nonequilibrium states, and replication-like dynamical structures.
翻訳日:2023-01-04 15:23:09 公開日:2023-01-03
# PMT-IQA:ブラインド画像品質評価のためのプログレッシブマルチタスク学習

PMT-IQA: Progressive Multi-task Learning for Blind Image Quality Assessment ( http://arxiv.org/abs/2301.01182v1 )

ライセンス: Link先を確認
Qingyi Pan, Ning Guo, Letu Qingge, Jingyi Zhang, Pei Yang(参考訳) ブラインド画像品質評価(BIQA)は、歪みの多様性と画像内容の変動により、異なるスケールをまたがる歪みパターンを複雑化し、BIQAの回帰問題の難しさを増すため、依然として困難である。 しかし,既存のBIQA手法では,マルチスケールの歪みパターンや画像内容の考察に失敗することが多く,回帰モデルの性能向上のための学習戦略についてはほとんど研究されていない。 本稿では,マルチスケール特徴抽出モジュール (MS) とプログレッシブマルチタスク学習モジュール (PMT) を含む簡易かつ効果的なプログレッシブ・マルチタスク画像品質評価 (PMT-IQA) モデルを提案する。 提案したPMT-IQAモデルの有効性を検証するため,広範に使用されている4つの公開データセットに対して実験を行い,実験結果から,PMT-IQAの性能は比較手法よりも優れており,MSおよびPMTモジュールがモデルの性能を向上させることが示された。

Blind image quality assessment (BIQA) remains challenging due to the diversity of distortion and image content variation, which complicate the distortion patterns crossing different scales and aggravate the difficulty of the regression problem for BIQA. However, existing BIQA methods often fail to consider multi-scale distortion patterns and image content, and little research has been done on learning strategies to make the regression model produce better performance. In this paper, we propose a simple yet effective Progressive Multi-Task Image Quality Assessment (PMT-IQA) model, which contains a multi-scale feature extraction module (MS) and a progressive multi-task learning module (PMT), to help the model learn complex distortion patterns and better optimize the regression issue to align with the law of human learning process from easy to hard. To verify the effectiveness of the proposed PMT-IQA model, we conduct experiments on four widely used public datasets, and the experimental results indicate that the performance of PMT-IQA is superior to the comparison approaches, and both MS and PMT modules improve the model's performance.
翻訳日:2023-01-04 15:18:07 公開日:2023-01-03
# 軌跡からのメタラーニング一般化力学

Meta-learning generalizable dynamics from trajectories ( http://arxiv.org/abs/2301.00957v1 )

ライセンス: Link先を確認
Qiaofeng Li, Tianyi Wang, Vwani Roychowdhury, M. Khalid Jawed(参考訳) 本稿では,メタニューラル常微分方程式(imode)を用いて,物理パラメータが異なる複数の力学系の軌跡から一般化可能な(パラメータ固有ではない)ダイナミクスを高速に学習する手法を提案する。 iMODE法は,研究された動的システムインスタンスの共通力場形状を捉える外層と,個々のシステムインスタンスに適応する内層とを用いて,物理パラメータを知らずに動的システムインスタンスの力場の機能的変動であるメタ知識を学習する。 優先的な物理的知識は、保守的な力場やユークリッド対称性のような誘導バイアスとしてニューラルネットワークアーキテクチャに便利に組み込むことができる。 学習されたメタ知識により、imodeは数秒以内に未知のシステムをモデル化し、システムの物理的パラメータに関する知識を逆に明らかにしたり、観察された軌道を持つ未知のシステムの物理的パラメータを"測定"するための神経ゲージとして使用することができる。 バイスタブル,ダブルペンデュラム,ファンデルポル,スリンキー,反応拡散系におけるimode法の有効性を検証した。

We present the interpretable meta neural ordinary differential equation (iMODE) method to rapidly learn generalizable (i.e., not parameter-specific) dynamics from trajectories of multiple dynamical systems that vary in their physical parameters. The iMODE method learns meta-knowledge, the functional variations of the force field of dynamical system instances without knowing the physical parameters, by adopting a bi-level optimization framework: an outer level capturing the common force field form among studied dynamical system instances and an inner level adapting to individual system instances. A priori physical knowledge can be conveniently embedded in the neural network architecture as inductive bias, such as conservative force field and Euclidean symmetry. With the learned meta-knowledge, iMODE can model an unseen system within seconds, and inversely reveal knowledge on the physical parameters of a system, or as a Neural Gauge to "measure" the physical parameters of an unseen system with observed trajectories. We test the validity of the iMODE method on bistable, double pendulum, Van der Pol, Slinky, and reaction-diffusion systems.
翻訳日:2023-01-04 15:17:45 公開日:2023-01-03
# 最適化バイナリを非コンパイルするニューラルネットワークの強化

Boosting Neural Networks to Decompile Optimized Binaries ( http://arxiv.org/abs/2301.00969v1 )

ライセンス: Link先を確認
Ying Cao, Ruigang Liang, Kai Chen, Peiwei Hu(参考訳) Decompilation は低レベルプログラム言語 (LPL) を機能的に等価な高レベルプログラム言語 (HPL) に変換することを目的としている(C/C++ など)。 これはソフトウェアセキュリティ、特に脆弱性発見とマルウェア分析における中核技術である。 近年、自然言語処理(NLP)におけるニューラルマシン翻訳(NMT)モデルの適用が成功し、研究者はNMTのアイデアを借用してニューラルデコンパイラの構築を試みた。 LPLとHPLの翻訳問題として,分解処理を定式化し,分解ツールの開発に必要な人的コストを削減し,一般化性を向上させる。 しかし、最先端の学習ベースのデコンパイラはコンパイラ最適化バイナリにはうまく対応しない。 現実世界のバイナリは大部分がコンパイラに最適化されているため、最適化されたバイナリを考慮しない逆コンパイラは実用的重要性が限られている。 本稿では,コンパイラ最適化バイナリを対象とするNeurDPという新しい学習手法を提案する。 NeurDPはグラフニューラルネットワーク(GNN)モデルを使用して、LPLを中間表現(IR)に変換することで、ソースコードと最適化バイナリ間のギャップを埋める。 また,関数を小さなコードフラグメントに分割するための最適化翻訳ユニット (otu) も設計した。 さまざまな種類のステートメントを含むデータセットの評価結果は、NeurDPが最適化されたバイナリを45.21%の精度で分解可能であることを示している。

Decompilation aims to transform a low-level program language (LPL) (eg., binary file) into its functionally-equivalent high-level program language (HPL) (e.g., C/C++). It is a core technology in software security, especially in vulnerability discovery and malware analysis. In recent years, with the successful application of neural machine translation (NMT) models in natural language processing (NLP), researchers have tried to build neural decompilers by borrowing the idea of NMT. They formulate the decompilation process as a translation problem between LPL and HPL, aiming to reduce the human cost required to develop decompilation tools and improve their generalizability. However, state-of-the-art learning-based decompilers do not cope well with compiler-optimized binaries. Since real-world binaries are mostly compiler-optimized, decompilers that do not consider optimized binaries have limited practical significance. In this paper, we propose a novel learning-based approach named NeurDP, that targets compiler-optimized binaries. NeurDP uses a graph neural network (GNN) model to convert LPL to an intermediate representation (IR), which bridges the gap between source code and optimized binary. We also design an Optimized Translation Unit (OTU) to split functions into smaller code fragments for better translation performance. Evaluation results on datasets containing various types of statements show that NeurDP can decompile optimized binaries with 45.21% higher accuracy than state-of-the-art neural decompilation frameworks.
翻訳日:2023-01-04 15:17:24 公開日:2023-01-03
# 累積クロスエントロピー損失を用いたシーケンスレコメンデーションの効果的かつ効率的なトレーニング

Effective and Efficient Training for Sequential Recommendation Using Cumulative Cross-Entropy Loss ( http://arxiv.org/abs/2301.00979v1 )

ライセンス: Link先を確認
Fangyu Li and Shenbao Yu and Feng Zeng and Fang Yang(参考訳) 研究関心の高まりは、動的シーケンス表現を正確にモデル化することを目的として、シーケンシャルレコメンデーションシステムに焦点を当てている。 しかし、最先端のシーケンシャルレコメンデーションモデルにおける最もよく使われる損失関数には、必須の制限がある。 To name a few, Bayesian Personalized Ranking (BPR) loss suffers the vanishing gradient problem from numerous negative sampling and predictionbiases; Binary Cross-Entropy (BCE) loss subjects to negative sampling numbers, thereby it is likely to ignore valuable negative examples and reduce the training efficiency; Cross-Entropy (CE) loss only focuses on the last timestamp of the training sequence, which causes low utilization of sequence information and results in inferior user sequence representation. 本稿では,これらの制限を回避するために,列上の累積クロスエントロピー(CCE)損失を計算することを提案する。 CCEはシンプルで直接的であり、痛みのないデプロイメント、ネガティブサンプリングなし、効果的で効率的なトレーニングを楽しむ。 CCEの有効性と効率を実証するために,5つのベンチマークデータセットについて広範な実験を行った。 その結果、3つの最先端モデルGRU4Rec、SASRec、S3-RecのCCE損失は、それぞれ125.63%、69.90%、33.24%のフルランクのNDCG@5に到達した。 CCEを用いて、テストデータ上のモデルの性能曲線は、壁時計時間とともに急速に増加し、モデルトレーニングのほぼ全過程において、他の損失関数よりも優れている。

Increasing research interests focus on sequential recommender systems, aiming to model dynamic sequence representation precisely. However, the most commonly used loss function in state-of-the-art sequential recommendation models has essential limitations. To name a few, Bayesian Personalized Ranking (BPR) loss suffers the vanishing gradient problem from numerous negative sampling and predictionbiases; Binary Cross-Entropy (BCE) loss subjects to negative sampling numbers, thereby it is likely to ignore valuable negative examples and reduce the training efficiency; Cross-Entropy (CE) loss only focuses on the last timestamp of the training sequence, which causes low utilization of sequence information and results in inferior user sequence representation. To avoid these limitations, in this paper, we propose to calculate Cumulative Cross-Entropy (CCE) loss over the sequence. CCE is simple and direct, which enjoys the virtues of painless deployment, no negative sampling, and effective and efficient training. We conduct extensive experiments on five benchmark datasets to demonstrate the effectiveness and efficiency of CCE. The results show that employing CCE loss on three state-of-the-art models GRU4Rec, SASRec, and S3-Rec can reach 125.63%, 69.90%, and 33.24% average improvement of full ranking NDCG@5, respectively. Using CCE, the performance curve of the models on the test data increases rapidly with the wall clock time, and is superior to that of other loss functions in almost the whole process of model training.
翻訳日:2023-01-04 15:16:59 公開日:2023-01-03
# 逆境下におけるリスク・アバースMDP

Risk-Averse MDPs under Reward Ambiguity ( http://arxiv.org/abs/2301.01045v1 )

ライセンス: Link先を確認
Haolin Ruan, Zhi Chen and Chin Pang Ho(参考訳) リスクと報酬の曖昧さを考慮したマルコフ決定過程(mdps)に対する分布的ロバストな回帰リスクモデルを提案する。 提案モデルでは, 平均およびパーセンタイル性能の重み付け平均を最適化し, 分散的に堅牢なMDPと, 分散的に頑健なMDP(どちらも報酬あいまいさ下で)を特殊ケースとして扱う。 未知の報酬分布がwassersteinの曖昧性集合にあることを考慮し、モデルに対する扱いやすい再構成を導出する。 特に,回帰リスクモデルは,決定論的方針のみを求める場合,不確定な遷移カーネルからのリスクも考慮でき,パーセンタイル基準の下では分布的に頑健なmdpを,その名目上のリスクレベルで再編成できることを示す。 スケーラブルな一階アルゴリズムは,大規模問題を解くために設計され,数値実験により提案するモデルとアルゴリズムの利点を実証する。

We propose a distributionally robust return-risk model for Markov decision processes (MDPs) under risk and reward ambiguity. The proposed model optimizes the weighted average of mean and percentile performances, and it covers the distributionally robust MDPs and the distributionally robust chance-constrained MDPs (both under reward ambiguity) as special cases. By considering that the unknown reward distribution lies in a Wasserstein ambiguity set, we derive the tractable reformulation for our model. In particular, we show that that the return-risk model can also account for risk from uncertain transition kernel when one only seeks deterministic policies, and that a distributionally robust MDP under the percentile criterion can be reformulated as its nominal counterpart at an adjusted risk level. A scalable first-order algorithm is designed to solve large-scale problems, and we demonstrate the advantages of our proposed model and algorithm through numerical experiments.
翻訳日:2023-01-04 15:16:31 公開日:2023-01-03
# i/o効率スパースニューラルネットワーク推論の理論

A Theory of I/O-Efficient Sparse Neural Network Inference ( http://arxiv.org/abs/2301.01048v1 )

ライセンス: Link先を確認
Niels Gleinig, Tal Ben-Nun, Torsten Hoefler(参考訳) 機械学習モデルの精度が高速に向上するにつれて、そのエネルギーと計算資源の需要も増加する。 低レベルでは、これらのリソースの大部分は、異なるメモリユニット間のデータ移動によって消費される。 現代のハードウェアアーキテクチャには、小さな高速なメモリ(キャッシュ、レジスタなど)と、より大きくてアクセスにコストがかかる遅いメモリ(dramなど)が含まれている。 2つのユニット間でのデータ移動(input/output-operations、i/os)を引き起こす高速メモリに格納されたデータのみを処理できる。 本稿では,スパースフィードフォワードニューラルネットワーク(FFNN)の推論に必要なI/Oの厳密な理論的解析を行う。 最適I/O数を最大2まで決定する境界を確立し、その範囲内で多数のI/Oを使用する方法を示す。 I/O-複素性の多くは、FFNNのいくつかの高レベルな性質(入力、出力、ニューロン、接続の数)によって決定されるが、正確な下界に近づきたい場合は、インスタンス固有の空間パターンを考慮する必要がある。 2最適計算戦略から離れ、シミュレーションアニーリングによりさらにI/O数を削減する方法を示す。 この結果を補完し,推論に最大I/O効率のネットワークを構築的に生成するアルゴリズムを提案する。 アルゴリズムをテストし、理論とアルゴリズムによる貢献を実証的に検証します。 実ハードウェアに関する実験では、推論の標準的な方法と比較して最大45$\times$のスピードアップを観測した。

As the accuracy of machine learning models increases at a fast rate, so does their demand for energy and compute resources. On a low level, the major part of these resources is consumed by data movement between different memory units. Modern hardware architectures contain a form of fast memory (e.g., cache, registers), which is small, and a slow memory (e.g., DRAM), which is larger but expensive to access. We can only process data that is stored in fast memory, which incurs data movement (input/output-operations, or I/Os) between the two units. In this paper, we provide a rigorous theoretical analysis of the I/Os needed in sparse feedforward neural network (FFNN) inference. We establish bounds that determine the optimal number of I/Os up to a factor of 2 and present a method that uses a number of I/Os within that range. Much of the I/O-complexity is determined by a few high-level properties of the FFNN (number of inputs, outputs, neurons, and connections), but if we want to get closer to the exact lower bound, the instance-specific sparsity patterns need to be considered. Departing from the 2-optimal computation strategy, we show how to reduce the number of I/Os further with simulated annealing. Complementing this result, we provide an algorithm that constructively generates networks with maximum I/O-efficiency for inference. We test the algorithms and empirically verify our theoretical and algorithmic contributions. In our experiments on real hardware we observe speedups of up to 45$\times$ relative to the standard way of performing inference.
翻訳日:2023-01-04 15:16:12 公開日:2023-01-03
# 保全ツール:次世代工学--生物学のコラボレーション

Conservation Tools: The Next Generation of Engineering--Biology Collaborations ( http://arxiv.org/abs/2301.01103v1 )

ライセンス: Link先を確認
Andrew Schulz (1 and 2), Cassie Shriver (3), Suzanne Stathatos (4), Benjamin Seleb (3), Emily Weigel (3), Young-Hui Chang (3), M. Saad Bhamla (5), David Hu (1 and 3), Joseph R. Mendelson III (3 and 6). ((1) School of Mechanical Engineering Georgia Tech, (2) Max Planck Institute for Intelligent Systems, (3) School of Biological Sciences Georgia Tech, (4) School of Computing and Mathematical Sciences California Institute of Technology, (5) School of Chemical and Biomolecular Engineering Georgia Tech, (6) Zoo Atlanta)(参考訳) 近年の生物多様性の保存に対する公共・学術的な関心の高まりは、保全技術の分野の成長につながっている。 この分野は、野生生物の保全を支援する技術を利用するツールの設計と構築を含む。 本稿では,人間と野生動物の相互作用を念頭に置いて保全ツールを設計することの重要性を実証するためにケーススタディを使用し,ツールを成功させるためのフレームワークを提供する。 これらのケーススタディには、単純なキャットカラーから機械学習やゲーム理論方法論まで、さまざまな複雑さが含まれている。 我々の目標は,保存技術分野の現在と将来の研究者を紹介し,次世代の保全技術者を教育するための参考文献を提供することである。 保全技術は生物多様性に利益をもたらすだけでなく、持続可能性や環境保護といった分野にも幅広い影響を与える。 環境保全の課題に対処するために革新的な技術を使用することで、地球資源を保護し保存するより効果的で効率的な解決策を見つけることができる。

The recent increase in public and academic interest in preserving biodiversity has led to the growth of the field of conservation technology. This field involves designing and constructing tools that utilize technology to aid in the conservation of wildlife. In this article, we will use case studies to demonstrate the importance of designing conservation tools with human-wildlife interaction in mind and provide a framework for creating successful tools. These case studies include a range of complexities, from simple cat collars to machine learning and game theory methodologies. Our goal is to introduce and inform current and future researchers in the field of conservation technology and provide references for educating the next generation of conservation technologists. Conservation technology not only has the potential to benefit biodiversity but also has broader impacts on fields such as sustainability and environmental protection. By using innovative technologies to address conservation challenges, we can find more effective and efficient solutions to protect and preserve our planet's resources.
翻訳日:2023-01-04 15:15:45 公開日:2023-01-03
# 指数的報酬を用いた実験におけるgittinsインデックスに基づく適応サンプリングアルゴリズムの性能計算

Computing the Performance of A New Adaptive Sampling Algorithm Based on The Gittins Index in Experiments with Exponential Rewards ( http://arxiv.org/abs/2301.01107v1 )

ライセンス: Link先を確認
James K. He, Sof\'ia S. Villar, and Lida Mavrogonatou(参考訳) 実験を設計するには、真の治療効果について学ぶことと、より多くのサンプルを優れた治療に割り当てることのバランスを取る必要がある。 マルチアーメッド帯域問題(MABP)の最適アルゴリズムは、学習と収入の最適なバランスをとる割当ポリシーを提供するが、計算コストが高い傾向にある。 Gittins Index(GI)は、MABPの最適性と計算効率の目標を同時に達成できるソリューションであり、Bernoulli と Gaussian rewards の実験で最近使用されている。 初めて、指数関数的に分散された報酬を持つ実験で使用できるGI規則の修正を提案する。 模擬2武装3武装実験における性能について報告する。 従来の非適応設計と比較すると、新しいGI修正設計は、学習に匹敵する動作特性(統計力など)を示すが、収入(直接利益など)は著しく優れている。 このことは、参加者を割り当てるためのGIアプローチを用いた設計が、参加者の利益を改善し、効率を向上し、指数的な報酬を持つ適応型多武装実験における実験コストを低減させる可能性を示している。

Designing experiments often requires balancing between learning about the true treatment effects and earning from allocating more samples to the superior treatment. While optimal algorithms for the Multi-Armed Bandit Problem (MABP) provide allocation policies that optimally balance learning and earning, they tend to be computationally expensive. The Gittins Index (GI) is a solution to the MABP that can simultaneously attain optimality and computationally efficiency goals, and it has been recently used in experiments with Bernoulli and Gaussian rewards. For the first time, we present a modification of the GI rule that can be used in experiments with exponentially-distributed rewards. We report its performance in simulated 2- armed and 3-armed experiments. Compared to traditional non-adaptive designs, our novel GI modified design shows operating characteristics comparable in learning (e.g. statistical power) but substantially better in earning (e.g. direct benefits). This illustrates the potential that designs using a GI approach to allocate participants have to improve participant benefits, increase efficiencies, and reduce experimental costs in adaptive multi-armed experiments with exponential rewards.
翻訳日:2023-01-04 15:15:34 公開日:2023-01-03
# 生成モデリングの因果性保存能力について

On the causality-preservation capabilities of generative modelling ( http://arxiv.org/abs/2301.01109v1 )

ライセンス: Link先を確認
Yves-C\'edric Bauwelinckx, Jan Dhaene, Tim Verdonck, Milan van den Heuvel(参考訳) モデリングは、金融業界と保険業界の両方において、様々なタスクにおいて中核にある。 機械学習とディープラーニングモデルの台頭と発展は、モデリングツールボックスを改善する多くの機会を生み出しました。 これらの分野でのブレークスルーは、しばしば大量のデータを必要とする。 このような大規模なデータセットは、主にプライバシーや倫理上の懸念から、金融や保険では公開されていないことが多い。 このデータ不足は、よりよいモデルを開発する上での最大のハードルのひとつです。 この問題を解決する一つの選択肢は生成的モデリングである。 生成モデルは、より自由に共有できるフェイクだが現実的なデータ(合成データとも呼ばれる)をシミュレートすることができる。 generative adversarial networks(gans)は、データの非常に高次元の分布に適合する能力を高めるモデルです。 GANの研究はコンピュータビジョンなどの分野において活発に行われているが、経済学や保険など、人間の科学に限られている。 これらの分野では、ほとんどの疑問は本質的に因果効果の同定に関するものであるのに対し、今日のニューラルネットワークはGANフレームワークの中心であり、主に高次元の相関に焦点をあてている。 本稿では,GANの因果保存能力と生成した合成データが因果質問に確実に答えられるかどうかを検討する。 これは、GANによって生成される合成データの因果解析を、より寛大な仮定で行うことによって行われる。 断面ケース,時系列ケース,および完全な構造モデルを用いたケースについて考察する。 相関が因果関係に等しい単純な断面積のシナリオでは、GANは因果関係を保存するが、より高度な解析にはその課題が生じる。

Modeling lies at the core of both the financial and the insurance industry for a wide variety of tasks. The rise and development of machine learning and deep learning models have created many opportunities to improve our modeling toolbox. Breakthroughs in these fields often come with the requirement of large amounts of data. Such large datasets are often not publicly available in finance and insurance, mainly due to privacy and ethics concerns. This lack of data is currently one of the main hurdles in developing better models. One possible option to alleviating this issue is generative modeling. Generative models are capable of simulating fake but realistic-looking data, also referred to as synthetic data, that can be shared more freely. Generative Adversarial Networks (GANs) is such a model that increases our capacity to fit very high-dimensional distributions of data. While research on GANs is an active topic in fields like computer vision, they have found limited adoption within the human sciences, like economics and insurance. Reason for this is that in these fields, most questions are inherently about identification of causal effects, while to this day neural networks, which are at the center of the GAN framework, focus mostly on high-dimensional correlations. In this paper we study the causal preservation capabilities of GANs and whether the produced synthetic data can reliably be used to answer causal questions. This is done by performing causal analyses on the synthetic data, produced by a GAN, with increasingly more lenient assumptions. We consider the cross-sectional case, the time series case and the case with a complete structural model. It is shown that in the simple cross-sectional scenario where correlation equals causation the GAN preserves causality, but that challenges arise for more advanced analyses.
翻訳日:2023-01-04 15:15:08 公開日:2023-01-03
# Invalidator:意味的・統語的推論による自動パッチ精度評価

Invalidator: Automated Patch Correctness Assessment via Semantic and Syntactic Reasoning ( http://arxiv.org/abs/2301.01113v1 )

ライセンス: Link先を確認
Thanh Le-Cong, Duc-Minh Luong, Xuan Bach D. Le, David Lo, Nhat-Hoa Tran, Bui Quang-Huy and Quyet-Thang Huynh(参考訳) 本稿では,意味的および構文的推論によるAPR生成パッチの正当性を自動評価する新しい手法であるINVALIDATORを提案する。 INVALIDATORはプログラム不変量によるプログラムセマンティクスの理由と、事前訓練された言語モデルを用いて学習した大規模コードコーパスから学習した言語セマンティクスを通してプログラム構文をキャプチャする。 バギープログラムと開発者パッチプログラムが与えられた場合、invalidatorは両方のプログラムの不変性を推測する。 そして、INVALIDATORは、APR生成パッチがオーバーフィットしていると判断する。(1)それが正しい仕様に違反しているか、(2)元のバギープログラムのエラー動作を維持しているか。 invariantsに基づく過剰適合パッチの判定に失敗した場合、invalidatorはラベル付きパッチからトレーニングされたモデルを使用して、プログラムの構文に基づいてパッチの正確性を評価する。 INVALIDATORの利点は3倍である。 第一に、INVALIDATORは意味論的推論と統語論的推論の両方を利用して識別能力を高めることができる。 第二に、INVALIDATORは新しいテストケースを生成する必要はないが、代わりに現在のテストスイートのみに依存し、プログラムの振る舞いを一般化するために不変推論を使用する。 第3に、INVALIDATORは完全に自動化されている。 defects4jにおける実世界のプログラムで生成された885のパッチのデータセットについて実験を行った。 実験の結果,INVALIDATORは79%のオーバーフィッティングパッチを正しく分類し,最高のベースラインで検出されたパッチを23%上回った。 INVALIDATORは、それぞれ精度とF-Measureの点で、最高のベースラインの14%と19%を大きく上回っている。

In this paper, we propose a novel technique, namely INVALIDATOR, to automatically assess the correctness of APR-generated patches via semantic and syntactic reasoning. INVALIDATOR reasons about program semantic via program invariants while it also captures program syntax via language semantic learned from large code corpus using the pre-trained language model. Given a buggy program and the developer-patched program, INVALIDATOR infers likely invariants on both programs. Then, INVALIDATOR determines that a APR-generated patch overfits if: (1) it violates correct specifications or (2) maintains errors behaviors of the original buggy program. In case our approach fails to determine an overfitting patch based on invariants, INVALIDATOR utilizes a trained model from labeled patches to assess patch correctness based on program syntax. The benefit of INVALIDATOR is three-fold. First, INVALIDATOR is able to leverage both semantic and syntactic reasoning to enhance its discriminant capability. Second, INVALIDATOR does not require new test cases to be generated but instead only relies on the current test suite and uses invariant inference to generalize the behaviors of a program. Third, INVALIDATOR is fully automated. We have conducted our experiments on a dataset of 885 patches generated on real-world programs in Defects4J. Experiment results show that INVALIDATOR correctly classified 79% overfitting patches, accounting for 23% more overfitting patches being detected by the best baseline. INVALIDATOR also substantially outperforms the best baselines by 14% and 19% in terms of Accuracy and F-Measure, respectively.
翻訳日:2023-01-04 15:14:42 公開日:2023-01-03
# 遺伝子制御ネットワーク予測のための因果発見

Causal Discovery for Gene Regulatory Network Prediction ( http://arxiv.org/abs/2301.01110v1 )

ライセンス: Link先を確認
Jacob Rast(参考訳) 生物学的システムとプロセスは、核酸、タンパク質、代謝物間の複雑な非線形制御相互作用のネットワークである。 これらの相互作用ネットワークを表現する自然な方法は、グラフを使うことである。 この製剤では、各ノードは核酸、タンパク質または代謝物を表し、エッジは分子間相互作用(阻害、制御、促進、共発現など)を表す。 本研究では,実験データを用いた潜在グラフ構造発見のための新しいアルゴリズムを提案する。

Biological systems and processes are networks of complex nonlinear regulatory interactions between nucleic acids, proteins, and metabolites. A natural way in which to represent these interaction networks is through the use of a graph. In this formulation, each node represents a nucleic acid, protein, or metabolite and edges represent intermolecular interactions (inhibition, regulation, promotion, coexpression, etc.). In this work, a novel algorithm for the discovery of latent graph structures given experimental data is presented.
翻訳日:2023-01-04 15:08:35 公開日:2023-01-03
# QDec-POMDPにおける多種多様なエージェントの効率的な処理法

Efficient method for handling diverse agents in QDec-POMDPs ( http://arxiv.org/abs/2301.01246v1 )

ライセンス: Link先を確認
Nitsan Soffair(参考訳) QDec-POMDP問題に対処するSOTAアルゴリズム、QDec-FPとQDec-FPSは、異なるタイプの検知エージェントを含む問題に効果的に対処できない。 本稿では,あるエージェントが検知アクションを取らなかった場合,エージェントが同じ計画を採用するように要求することで,この問題に対処する新しいアルゴリズムを提案する。 このような状況下で,本アルゴリズムはQDec-FPとQDec-FPSの双方よりも性能が優れている。

The SOTA algorithms for addressing QDec-POMDP issues, QDec-FP and QDec-FPS, are unable to effectively tackle problems that involve different types of sensing agents. We propose a new algorithm that addresses this issue by requiring agents to adopt the same plan if one agent is unable to take a sensing action but the other can. Our algorithm performs significantly better than both QDec-FP and QDec-FPS in these types of situations.
翻訳日:2023-01-04 15:08:29 公開日:2023-01-03
# 言語間の音響埋め込みとその伝達性

Supervised Acoustic Embeddings And Their Transferability Across Languages ( http://arxiv.org/abs/2301.01020v1 )

ライセンス: Link先を確認
Sreepratha Ram and Hanan Aldarmaki(参考訳) 音声認識では,低リソース環境では困難である話者変動や雑音など無関係な要因を排除しつつ,入力信号の音声内容のモデル化が不可欠である。 フレームレベルの特徴表現や可変長セグメントのための音響単語埋め込み(AWE)を含む,教師付き音声認識と教師なし音声認識の両方を改善する手段として,自己教師付き事前学習が提案されている。 しかし、自己監督モデルだけでは、間接的な目的を最適化するために訓練された言語内容の完全分離を学べない。 本研究では,aweモデルへの入力として,事前学習された様々な自己教師付機能を用いて実験を行い,教師付きフレームワーク内で最もうまく機能することを示す。 英語で訓練されたモデルは、適応なしで他の言語に変換することができ、ターゲット言語でのみ訓練された自己教師型モデルよりも優れる。

In speech recognition, it is essential to model the phonetic content of the input signal while discarding irrelevant factors such as speaker variations and noise, which is challenging in low-resource settings. Self-supervised pre-training has been proposed as a way to improve both supervised and unsupervised speech recognition, including frame-level feature representations and Acoustic Word Embeddings (AWE) for variable-length segments. However, self-supervised models alone cannot learn perfect separation of the linguistic content as they are trained to optimize indirect objectives. In this work, we experiment with different pre-trained self-supervised features as input to AWE models and show that they work best within a supervised framework. Models trained on English can be transferred to other languages with no adaptation and outperform self-supervised models trained solely on the target languages.
翻訳日:2023-01-04 15:07:53 公開日:2023-01-03
# 言語モデルはドラママーである:自然言語事前学習によるドラム構成

Language Models are Drummers: Drum Composition with Natural Language Pre-Training ( http://arxiv.org/abs/2301.01162v1 )

ライセンス: Link先を確認
Li Zhang and Chris Callison-Burch(参考訳) 人工知能による自動音楽生成は、通常、あまり一般的でないジャンルや楽器では入手が難しい大量のデータを必要とする。 そこで本研究では,ドラム演奏のMIDIファイル数百ファイルのみを用いて,大規模テキストコーパス上で事前学習した大規模言語モデルを微調整することにより,ディープモデルが言語から音楽へ知識を伝達する可能性について検討する。 以上の結果から, 既訓練でないモデル(Transformer)は, ナイーブ反復以上の能力は示さないが, 最先端モデル(GPT3)は合理的なドラム溝を生成できることが示唆された。 生成した音楽の評価は難しい課題であり、文献に優劣のないドラム溝の評価が重要である。 そこで本研究では,GPT3が生成するドラム溝を人手による演奏と比較し,その強度と弱点を言語間移動により明らかにする構造評価手法を提案する。 この結果から,大規模言語モデルを用いた言語間移動学習が実現可能で有望であることが示唆された。

Automatic music generation with artificial intelligence typically requires a large amount of data which is hard to obtain for many less common genres and musical instruments. To tackle this issue, we present ongoing work and preliminary findings on the possibility for deep models to transfer knowledge from language to music, by finetuning large language models pre-trained on a massive text corpus on only hundreds of MIDI files of drum performances. We show that by doing so, one of the largest, state-of-the-art models (GPT3) is capable of generating reasonable drum grooves, while models that are not pre-trained (Transformer) shows no such ability beyond naive repetition. Evaluating generated music is a challenging task, more so is evaluating drum grooves with little precedence in literature. Hence, we propose a tailored structural evaluation method and analyze drum grooves produced by GPT3 compared to those played by human professionals, exposing the strengths and weaknesses of such generation by language-to-music transfer. Our findings suggest that language-to-music transfer learning with large language models is viable and promising.
翻訳日:2023-01-04 15:07:40 公開日:2023-01-03
# OccluMix:Semantically-Guided Mixupによるデオクルージョン仮想トライオンを目指して

OccluMix: Towards De-Occlusion Virtual Try-on by Semantically-Guided Mixup ( http://arxiv.org/abs/2301.00965v1 )

ライセンス: Link先を確認
Zhijing Yang, Junyang Chen, Yukai Shi, Hao Li, Tianshui Chen, Liang Lin(参考訳) Image Virtual try-onは、パーソナルイメージ上の布を、マルチメディアやコンピュータビジョンのコミュニティから注目を集めている衣服画像(ホップ内服)に置き換えることを目的としている。 しかし,従来は衣服画像の特徴を保ちつつも,隠蔽は現実的な仮想試行に悪影響を及ぼす。 本研究では,まず咬合の包括的分析を行い,その2つの側面に分類する。 一 独創性:旧布の亡霊が現在も試着画像に残されていること。 二 取得閉塞:対象の布が不合理な身体部位に反する。 In-deepth analysis に基づいて、これらのオクルージョンを新しいセマンティック誘導混合モジュールでシミュレートできることが判明した。これにより、セマンティック特異的なオクルージョン画像を生成し、試行錯誤(DOC-VTON)フレームワークのトレーニングを容易にする。 具体的には、DOC-VTONはまず、試行錯誤者に対してシャープな意味解析を行う。 セマンティクス指導とポーズの先行により、テクスチャの様々な複雑さが、コピー&ペーストな方法で人間の部分と選択的にブレンドされる。 そして、生成モジュール(gm)を使用して、最終的なトライオン画像の合成と、共催解除の学習を行う。 最先端の手法と比較して、DOC-VTONは閉塞効果を低減して知覚品質を向上させる。

Image Virtual try-on aims at replacing the cloth on a personal image with a garment image (in-shop clothes), which has attracted increasing attention from the multimedia and computer vision communities. Prior methods successfully preserve the character of clothing images, however, occlusion remains a pernicious effect for realistic virtual try-on. In this work, we first present a comprehensive analysis of the occlusions and categorize them into two aspects: i) Inherent-Occlusion: the ghost of the former cloth still exists in the try-on image; ii) Acquired-Occlusion: the target cloth warps to the unreasonable body part. Based on the in-depth analysis, we find that the occlusions can be simulated by a novel semantically-guided mixup module, which can generate semantic-specific occluded images that work together with the try-on images to facilitate training a de-occlusion try-on (DOC-VTON) framework. Specifically, DOC-VTON first conducts a sharpened semantic parsing on the try-on person. Aided by semantics guidance and pose prior, various complexities of texture are selectively blending with human parts in a copy-and-paste manner. Then, the Generative Module (GM) is utilized to take charge of synthesizing the final try-on image and learning to de-occlusion jointly. In comparison to the state-of-the-art methods, DOC-VTON achieves better perceptual quality by reducing occlusion effects.
翻訳日:2023-01-04 15:07:21 公開日:2023-01-03
# マスク強化深層学習によるリアルタイムレンダリングのための高品質スーパーサンプリング

High-Quality Supersampling via Mask-reinforced Deep Learning for Real-time Rendering ( http://arxiv.org/abs/2301.01036v1 )

ライセンス: Link先を確認
Hongliang Yuan, Boyu Zhang, Mingyan Zhu, Ligang Liu, Jue Wang(参考訳) リアルタイムアプリケーションのために高品質なレンダリング画像を生成するために、低解像度でサンプル1ピクセル(spp)を数個だけ追跡し、高解像度にスーパーサンプリングすることが多い。 低解像度でレンダリングされたピクセルは一般的に高いエイリアス化されていることから,高解像度で1/4sppの光トレーシングに基づくニューラルスーパーサンプリング法を提案する。 我々の重要な洞察は、ターゲットの解像度で光を照射したサンプルは正確で信頼性が高く、補間問題を補間する。 本稿では,高品質な画像系列の再構成と補間を行うマスク強化ニューラルネットワークを提案する。 まず,新しい時間的蓄積ネットワークを導入し,その時間的安定性を著しく向上させるために,現在と過去の特徴の相関を計算する。 そして、所望の高解像度画像の再構成と生成のために、スキップ接続付きマルチスケールU-Netに基づく再構成ネットワークを採用する。 実験結果と比較結果から,提案手法は,現在の最先端手法に比べて,レイトレーシング試料の総数を増やすことなく,より高品質なスーパーサンプリング結果が得られることが示された。

To generate high quality rendering images for real time applications, it is often to trace only a few samples-per-pixel (spp) at a lower resolution and then supersample to the high resolution. Based on the observation that the rendered pixels at a low resolution are typically highly aliased, we present a novel method for neural supersampling based on ray tracing 1/4-spp samples at the high resolution. Our key insight is that the ray-traced samples at the target resolution are accurate and reliable, which makes the supersampling an interpolation problem. We present a mask-reinforced neural network to reconstruct and interpolate high-quality image sequences. First, a novel temporal accumulation network is introduced to compute the correlation between current and previous features to significantly improve their temporal stability. Then a reconstruct network based on a multi-scale U-Net with skip connections is adopted for reconstruction and generation of the desired high-resolution image. Experimental results and comparisons have shown that our proposed method can generate higher quality results of supersampling, without increasing the total number of ray-tracing samples, over current state-of-the-art methods.
翻訳日:2023-01-04 15:06:54 公開日:2023-01-03
# 細粒度ハードネガティブマイニング:midog 2022データセットの5分の1でmitosis検出を一般化する

Fine-Grained Hard Negative Mining: Generalizing Mitosis Detection with a Fifth of the MIDOG 2022 Dataset ( http://arxiv.org/abs/2301.01079v1 )

ライセンス: Link先を確認
Maxime W. Lafarge and Viktor H. Koelzer(参考訳) 病理画像分類器を広範囲の現実世界の変動に対して堅牢にすることは難しい課題である。 本稿では,mitosis domain generalization challenge 2022 (midog) の深層学習ソリューションとして,高変量下でのhematoxylin-eosin-stained histology slide (scanner, tissue type and species variability) 画像におけるmitosis検出の一般化問題に対処する。 提案手法は,攻撃的データ拡張を用いた回転不変深層学習モデルのトレーニングと,ハードネガティブな例を豊富に含むトレーニングセットと,チャレンジデータセットのラベルなし部分から自動的にネガティブな例を選択する。 モデルの性能を最適化するために,チャレンジデータセットのトレーニング分割の19.6%を表すイメージパッチのサブセットを使用して,最善のモデルをトレーニングするためのハードネガティブなマイニングレジーム検索手順を調査した。 候補モデルのアンサンブルは,挑戦プラットフォーム上での自動評価を行い,最終テストセットで.697のF1スコアを達成し,MIDOG 2022チャレンジで3位となった。

Making histopathology image classifiers robust to a wide range of real-world variability is a challenging task. Here, we describe a candidate deep learning solution for the Mitosis Domain Generalization Challenge 2022 (MIDOG) to address the problem of generalization for mitosis detection in images of hematoxylin-eosin-stained histology slides under high variability (scanner, tissue type and species variability). Our approach consists in training a rotation-invariant deep learning model using aggressive data augmentation with a training set enriched with hard negative examples and automatically selected negative examples from the unlabeled part of the challenge dataset. To optimize the performance of our models, we investigated a hard negative mining regime search procedure that lead us to train our best model using a subset of image patches representing 19.6% of our training partition of the challenge dataset. Our candidate model ensemble achieved a F1-score of .697 on the final test set after automated evaluation on the challenge platform, achieving the third best overall score in the MIDOG 2022 Challenge.
翻訳日:2023-01-04 15:06:34 公開日:2023-01-03
# 反射の新しい視点合成のためのニューラルポイント触媒

Neural Point Catacaustics for Novel-View Synthesis of Reflections ( http://arxiv.org/abs/2301.01087v1 )

ライセンス: Link先を確認
Georgios Kopanas, Thomas Leimk\"uhler, Gilles Rainer, Cl\'ement Jambon, George Drettakis(参考訳) リフレクションのようなビュー依存効果は、画像ベースおよびニューラルレンダリングアルゴリズムに重大な課題をもたらす。 何よりも、曲がった反射板は特に硬く、カメラが動くと高度に非線形な反射が流れる。 そこで本研究では,カーソル反射板を用いたシーンの新規な視点合成を可能にするニューラルポイント触媒計算のための新しいポイントベース表現法を提案する。 提案手法のコアとなるのは,反射の触媒軌道をモデル化する神経ワープ場である。 私たちの重要な貢献の1つは、神経ワープフィールドによって置き換えられた反射点クラウドと、シーンの残りの部分を表現するために最適化された一次点クラウドによる反射の明示的な表現です。 簡単な手動アノテーションのステップの後、我々の手法は正確な反射流を伴う新しいビューのインタラクティブな高品質なレンダリングを可能にする。 さらに、リフレクションフローの明示的な表現は、リフレクション編集、スペクショナルオブジェクトのクローニング、ビュー間のリフレクショントラッキング、快適なステレオビューなど、キャプチャされたシーンにおけるシーン操作のいくつかの形態をサポートする。 我々は、https://repo-sam.inria.fr/ fungraph/neural_catacaustics/のソースコードと補足資料を提供します。

View-dependent effects such as reflections pose a substantial challenge for image-based and neural rendering algorithms. Above all, curved reflectors are particularly hard, as they lead to highly non-linear reflection flows as the camera moves. We introduce a new point-based representation to compute Neural Point Catacaustics allowing novel-view synthesis of scenes with curved reflectors, from a set of casually-captured input photos. At the core of our method is a neural warp field that models catacaustic trajectories of reflections, so complex specular effects can be rendered using efficient point splatting in conjunction with a neural renderer. One of our key contributions is the explicit representation of reflections with a reflection point cloud which is displaced by the neural warp field, and a primary point cloud which is optimized to represent the rest of the scene. After a short manual annotation step, our approach allows interactive high-quality renderings of novel views with accurate reflection flow. Additionally, the explicit representation of reflection flow supports several forms of scene manipulation in captured scenes, such as reflection editing, cloning of specular objects, reflection tracking across views, and comfortable stereo viewing. We provide the source code and other supplemental material on https://repo-sam.inria.fr/ fungraph/neural_catacaustics/
翻訳日:2023-01-04 15:06:09 公開日:2023-01-03
# コンピュータビジョンのための手続き型人間

Procedural Humans for Computer Vision ( http://arxiv.org/abs/2301.01161v1 )

ライセンス: Link先を確認
Charlie Hewitt, Tadas Baltru\v{s}aitis, Erroll Wood, Lohit Petikam, Louis Florentin and Hanz Cuevas Velasquez(参考訳) 近年の研究では、自律運転から顔のランドマーク検出や再構築に至るまで、コンピュータビジョンで使用する合成データの利点が示されている。 プライバシー保護やバイアス除去からアノテーションの品質や実現可能性まで,合成データを使用することのメリットはいくつかある。 人間中心の合成データを生成することは、リアリズムとドメインギャップの点で特に難しいが、近年の研究では、効果的な機械学習モデルを合成顔データだけで訓練できることが示されている。 本研究は,コンピュータビジョンの応用において,人体全体の合成画像を生成するために,Wood et al. のパイプライン上に構築した全体を含むように拡張可能であることを示す。 本報告では, 顔と身体のパラメトリックなモデルを構築する方法, 人体モデルに基づくリアルな人間の画像を生成するためのレンダリングパイプライン, 体全体を覆っている密集したランドマークの集合を再現するためのDNNの訓練アプローチ, および複数の視点から予測される密集したランドマークに身体モデルを適合させる方法について述べる。

Recent work has shown the benefits of synthetic data for use in computer vision, with applications ranging from autonomous driving to face landmark detection and reconstruction. There are a number of benefits of using synthetic data from privacy preservation and bias elimination to quality and feasibility of annotation. Generating human-centered synthetic data is a particular challenge in terms of realism and domain-gap, though recent work has shown that effective machine learning models can be trained using synthetic face data alone. We show that this can be extended to include the full body by building on the pipeline of Wood et al. to generate synthetic images of humans in their entirety, with ground-truth annotations for computer vision applications. In this report we describe how we construct a parametric model of the face and body, including articulated hands; our rendering pipeline to generate realistic images of humans based on this body model; an approach for training DNNs to regress a dense set of landmarks covering the entire body; and a method for fitting our body model to dense landmarks predicted from multiple views.
翻訳日:2023-01-04 15:05:44 公開日:2023-01-03
# 不均質なドメイン適応と機器マッチング:dann-based alignment with cyclic supervisor (dbacs)

Heterogeneous Domain Adaptation and Equipment Matching: DANN-based Alignment with Cyclic Supervision (DBACS) ( http://arxiv.org/abs/2301.01038v1 )

ライセンス: Link先を確認
Natalie Gentner and Gian Antonio Susto(参考訳) プロセスの監視と制御は、高品質な標準の確保と生産性能の最適化に欠かせない。 これらの技術は製品化の長い歴史を持ち、多くのポジティブな影響を与えてきたが、Industrial 4.0や高度な機械学習、特にディープラーニングソリューションと統合すると大きな可能性を秘めている。 しかし、これらのソリューションを本番環境で実装し、広く採用できるようにするため、ディープラーニング手法のスケーラビリティと転送性が研究の焦点となっている。 転送学習は、コンピュータビジョンや均質なデータ入力において、多くのケースで成功したが、異種データに適用することは困難である。 確立されたプロセスを異なる非識別環境に移行し標準化することの必要性と、異種データ表現に適応することの課題により、この研究は、循環スーパービジョン(DBACS)アプローチによるドメイン適応ニューラルネットワークを導入している。 DBACSは、ドメイン適応、特に異種データによるモデル一般化の問題に対処し、ディープラーニングに基づく統計制御手法の一般化と拡張性を実現する。 さらに、モデルの異なる部分間の循環的相互作用により、DBACSはドメインに適応するだけでなく、それらと一致する。 我々の知る限りでは、DBACSは異種データ設定への適応とマッチングを組み合わせた最初のディープラーニングアプローチである。 比較のために、この研究にはサブスペースアライメントや、データを相関した潜在特徴空間にマッピングすることで異種表現を扱う多視点学習も含まれる。 最後に、半導体製造における異なるマシンタイプで動作するエッチングプロセスのための仮想metrologyユースケースに、適応性とマッチング能力を備えたdbacsを適用する。

Process monitoring and control are essential in modern industries for ensuring high quality standards and optimizing production performance. These technologies have a long history of application in production and have had numerous positive impacts, but also hold great potential when integrated with Industry 4.0 and advanced machine learning, particularly deep learning, solutions. However, in order to implement these solutions in production and enable widespread adoption, the scalability and transferability of deep learning methods have become a focus of research. While transfer learning has proven successful in many cases, particularly with computer vision and homogenous data inputs, it can be challenging to apply to heterogeneous data. Motivated by the need to transfer and standardize established processes to different, non-identical environments and by the challenge of adapting to heterogeneous data representations, this work introduces the Domain Adaptation Neural Network with Cyclic Supervision (DBACS) approach. DBACS addresses the issue of model generalization through domain adaptation, specifically for heterogeneous data, and enables the transfer and scalability of deep learning-based statistical control methods in a general manner. Additionally, the cyclic interactions between the different parts of the model enable DBACS to not only adapt to the domains, but also match them. To the best of our knowledge, DBACS is the first deep learning approach to combine adaptation and matching for heterogeneous data settings. For comparison, this work also includes subspace alignment and a multi-view learning that deals with heterogeneous representations by mapping data into correlated latent feature spaces. Finally, DBACS with its ability to adapt and match, is applied to a virtual metrology use case for an etching process run on different machine types in semiconductor manufacturing.
翻訳日:2023-01-04 14:59:09 公開日:2023-01-03
# 人型Few-Shot学習の理論

A Theory of Human-Like Few-Shot Learning ( http://arxiv.org/abs/2301.01047v1 )

ライセンス: Link先を確認
Zhiying Jiang, Rui Wang, Dongbo Bu, Ming Li(参考訳) 私たちは、常識に富んだ少数の人間の学習と大規模な機械学習のギャップを埋めることを目指しています。 我々はフォン・ノイマン=ランダウアーの原理から人間のような少数ショット学習の理論を導出する。 人間の学習のモデル化は、人々が学ぶ方法が異なるため困難です。 一般に受け入れられている定義の下では、すべての人間や動物による少数ショット学習と、そのような学習をチャーチ・チューリングの論文の下でモデル化する自由エネルギー原理やベイズプログラム学習を含む主要なモデルを証明する。 画像認識,低リソース言語処理,文字認識など,深層ニューラルネットワークを含むベースラインモデルに比べて,可変オートエンコーダ(vae)のような深層生成モデルの方が,理論の近似に有用であることがわかった。

We aim to bridge the gap between our common-sense few-sample human learning and large-data machine learning. We derive a theory of human-like few-shot learning from von-Neuman-Landauer's principle. modelling human learning is difficult as how people learn varies from one to another. Under commonly accepted definitions, we prove that all human or animal few-shot learning, and major models including Free Energy Principle and Bayesian Program Learning that model such learning, approximate our theory, under Church-Turing thesis. We find that deep generative model like variational autoencoder (VAE) can be used to approximate our theory and perform significantly better than baseline models including deep neural networks, for image recognition, low resource language processing, and character recognition.
翻訳日:2023-01-04 14:58:41 公開日:2023-01-03
# クラスタ誘導コントラストグラフクラスタリングネットワーク

Cluster-guided Contrastive Graph Clustering Network ( http://arxiv.org/abs/2301.01098v1 )

ライセンス: Link先を確認
Xihong Yang, Yue Liu, Sihang Zhou, Siwei Wang, Wenxuan Tu, Qun Zheng, Xinwang Liu, Liming Fang, En Zhu(参考訳) 近年の深層グラフクラスタリングの分野では,本質的な監視情報活用能力から,コントラスト学習が有望なパフォーマンスを達成している。 しかし,正と負の2つのサンプル構成機構の欠点により,既存のアルゴリズムの性能がさらに向上しないことがわかった。 1) 正試料の品質は, 精巧に設計したデータ増量に大きく依存するが, 不適切なデータ増量により, 意味的ドリフトや識別不能な正試料が容易に得られる。 2) 構築した負のサンプルは, 重要なクラスタリング情報を無視する信頼性に乏しい。 これらの問題を解決するために,クラスタ指向の深層グラフクラスタリングネットワーク (CCGC) を提案し,本質的な監視情報を高信頼クラスタリング結果にマイニングする。 具体的には、複雑なノードやエッジの摂動を行う代わりに、兄弟のサブネットワーク間で重みが共有されない特別なシームズエンコーダを設計することにより、グラフの2つのビューを構築する。 そして,高信頼クラスタリング情報から,同じ高信頼クラスタから正のサンプルを2つのビューで慎重に選択・構築する。 さらに, 意味的負のサンプル対を構築するために, 異なる高信頼度クラスタの中心を負のサンプルとみなし, 構築したサンプル対の識別能力と信頼性を改善した。 最後に,正試料と負試料の相互視コサイン類似性を最大化,最小化することにより,同一クラスタからサンプルを抽出し,他のクラスタからサンプルを押下する目的関数を設計する。 6つのデータセットに対する大規模な実験結果は、既存の最先端アルゴリズムと比較してCCGCの有効性を示している。

Benefiting from the intrinsic supervision information exploitation capability, contrastive learning has achieved promising performance in the field of deep graph clustering recently. However, we observe that two drawbacks of the positive and negative sample construction mechanisms limit the performance of existing algorithms from further improvement. 1) The quality of positive samples heavily depends on the carefully designed data augmentations, while inappropriate data augmentations would easily lead to the semantic drift and indiscriminative positive samples. 2) The constructed negative samples are not reliable for ignoring important clustering information. To solve these problems, we propose a Cluster-guided Contrastive deep Graph Clustering network (CCGC) by mining the intrinsic supervision information in the high-confidence clustering results. Specifically, instead of conducting complex node or edge perturbation, we construct two views of the graph by designing special Siamese encoders whose weights are not shared between the sibling sub-networks. Then, guided by the high-confidence clustering information, we carefully select and construct the positive samples from the same high-confidence cluster in two views. Moreover, to construct semantic meaningful negative sample pairs, we regard the centers of different high-confidence clusters as negative samples, thus improving the discriminative capability and reliability of the constructed sample pairs. Lastly, we design an objective function to pull close the samples from the same cluster while pushing away those from other clusters by maximizing and minimizing the cross-view cosine similarity between positive and negative samples. Extensive experimental results on six datasets demonstrate the effectiveness of CCGC compared with the existing state-of-the-art algorithms.
翻訳日:2023-01-04 14:58:27 公開日:2023-01-03
# 信頼できるAIによる産業向けデジタルエンジニアリングの変革 4.0:新たなパラダイムシフト

Digital Engineering Transformation with Trustworthy AI towards Industry 4.0: Emerging Paradigm Shifts ( http://arxiv.org/abs/2301.00951v1 )

ライセンス: Link先を確認
Jingwei Huang(参考訳) デジタルエンジニアリングトランスフォーメーションは、第四次産業革命(4IR)におけるエンジニアリングパラダイムシフトにとって重要なプロセスであり、人工知能(AI)はデジタルエンジニアリングトランスフォーメーションにおいて重要な技術である。 この記事では、以下の研究課題について論じる。 4irの基本的な変更点は何ですか? 具体的には、エンジニアリングの基本的な変更は何ですか? デジタルエンジニアリングとは何か? 主な不確実性は何でしょう? 信頼できるAIとは何か? なぜ今日が重要なのか? 4IRにおけるエンジニアリングパラダイムのシフトは何か? データ集約パラダイムとディジタルエンジニアリングトランスフォーメーションの関係はどのようなものか? デジタル化にはどうすればいいのか? 産業革命のパターンの調査から、ユビキタスマシンインテリジェンス(uMI)は4IRによってもたらされる決定力であると主張している。 デジタル化はユビキタスマシンインテリジェンスを活用する条件である。 産業4.0へのデジタルエンジニアリングトランスフォーメーションには、エンジニアリングのデジタル化、ユビキタスマシンインテリジェンスの利用、デジタル信頼とセキュリティの構築という、3つの重要なビルディングブロックがある。 エンジニアリングデザインコミュニティ全体は、ユビキタスマシンインテリジェンスと信頼できるAI原則、およびデジタル信頼の新たな能力を、産業4.0におけるシステムの信頼性を確保するために、さまざまなエンジニアリングシステム設計にもたらす素晴らしい機会に直面している。

Digital engineering transformation is a crucial process for the engineering paradigm shifts in the fourth industrial revolution (4IR), and artificial intelligence (AI) is a critical enabling technology in digital engineering transformation. This article discusses the following research questions: What are the fundamental changes in the 4IR? More specifically, what are the fundamental changes in engineering? What is digital engineering? What are the main uncertainties there? What is trustworthy AI? Why is it important today? What are emerging engineering paradigm shifts in the 4IR? What is the relationship between the data-intensive paradigm and digital engineering transformation? What should we do for digitalization? From investigating the pattern of industrial revolutions, this article argues that ubiquitous machine intelligence (uMI) is the defining power brought by the 4IR. Digitalization is a condition to leverage ubiquitous machine intelligence. Digital engineering transformation towards Industry 4.0 has three essential building blocks: digitalization of engineering, leveraging ubiquitous machine intelligence, and building digital trust and security. The engineering design community at large is facing an excellent opportunity to bring the new capabilities of ubiquitous machine intelligence and trustworthy AI principles, as well as digital trust, together in various engineering systems design to ensure the trustworthiness of systems in Industry 4.0.
翻訳日:2023-01-04 14:56:44 公開日:2023-01-03
# HCI設計におけるAIとユーザエクスペリエンス

AI in HCI Design and User Experience ( http://arxiv.org/abs/2301.00987v1 )

ライセンス: Link先を確認
Wei Xu(参考訳) この章では、HCI/UX作業におけるAIテクノロジの変革をレビューし、議論し、AIテクノロジがどのように作業を行うかを評価する。 まず、ユーザリサーチと設計評価の結果を高めるためにAIをどのように利用できるかについて議論する。 そして、HCI/UX設計を強化するためにAI技術をどのように使用できるかについて議論する。 最後に、ユーザがコンピュータシステム、アプリケーション、サービスと対話するとき、AI機能によってUXが向上する方法について論じる。

In this chapter, we review and discuss the transformation of AI technology in HCI/UX work and assess how AI technology will change how we do the work. We first discuss how AI can be used to enhance the result of user research and design evaluation. We then discuss how AI technology can be used to enhance HCI/UX design. Finally, we discuss how AI-enabled capabilities can improve UX when users interact with computing systems, applications, and services.
翻訳日:2023-01-04 14:56:15 公開日:2023-01-03
# 新しい情報技術、シミュレーション、自動化

New Information Technologies, Simulation and Automation ( http://arxiv.org/abs/2301.01028v1 )

ライセンス: Link先を確認
Vitalii Velychko, Svitlana Voinova, Valery Granyak, Liliia Ivanova, Sergii Kotlyk, Alona Kudriashova, Tetiana Kunup, Kyrylo Malakhov, Iryna Pikh, Nataliia Punchenko, Vsevolod Senkivskyy, Olexandra Sergeeva, Oksana Sokolova, Sergiy Fedosov, Oleksandr Khoshaba, Olexandra Tsyra, Yuri Chaplinskyy, Olexander Gurskiy, Kostiantyn Zavertailo, Diana Kotlyk(参考訳) モノグラフは、コンピュータと数理シミュレーションとモデリングの現況、管理プロセスの自動化、教育における情報技術の利用、情報システムとソフトウェア複合体の設計、コンピュータ通信ネットワークの開発、産業4.0という用語で統合されたほとんどの分野について要約し分析する。

The monograph summarizes and analyzes the current state of development of computer and mathematical simulation and modeling, the automation of management processes, the use of information technologies in education, the design of information systems and software complexes, the development of computer telecommunication networks and technologies most areas that are united by the term Industry 4.0
翻訳日:2023-01-04 14:56:01 公開日:2023-01-03
# I2F:ドメイン適応セマンティックセマンティックセグメンテーションのための統合画像-機能アプローチ

I2F: A Unified Image-to-Feature Approach for Domain Adaptive Semantic Segmentation ( http://arxiv.org/abs/2301.01149v1 )

ライセンス: Link先を確認
Haoyu Ma and Xiangru Lin and Yizhou Yu(参考訳) 意味的セグメンテーションのための教師なしドメイン適応(UDA)は、重いアノテーション作業から人々を解放する有望なタスクである。 しかし、低レベル画像統計と高レベルコンテキストにおけるドメインの差異は、対象領域に対するセグメンテーション性能を損なう。 この問題に対処する鍵となる考え方は、画像レベルと特徴レベルの両方を共同で行うことである。 残念ながら、既存の文献には、UDAタスクに対する統一的なアプローチが欠けている。 本稿では,画像レベルと特徴レベルを統一したセマンティックセグメンテーションのための新しいUDAパイプラインを提案する。 具体的には,画像レベルの領域シフトに対して,画像レベル特性の観点からソース領域とターゲット領域の画像をアライメントするグローバル測光アライメントモジュールとグローバルテクスチャアライメントモジュールを提案する。 特徴レベルドメインシフトでは、両方のドメインからソースドメインの特徴多様体に画素特徴を投影することで、グローバルな多様体アライメントを行い、さらにカテゴリ指向の3重項損失によりソースドメイン内のカテゴリ中心を正規化し、拡張対象領域画像上でターゲット領域整合性正規化を行う。 実験の結果,パイプラインが従来の方法を大きく上回ることがわかった。 一般にテストされているGTA5$\rightarrow$Cityscapesタスクでは、バックボーンとしてDeeplab V3+を用いた手法が従来のSOTAを8%上回り、mIoUで58.2%を達成した。

Unsupervised domain adaptation (UDA) for semantic segmentation is a promising task freeing people from heavy annotation work. However, domain discrepancies in low-level image statistics and high-level contexts compromise the segmentation performance over the target domain. A key idea to tackle this problem is to perform both image-level and feature-level adaptation jointly. Unfortunately, there is a lack of such unified approaches for UDA tasks in the existing literature. This paper proposes a novel UDA pipeline for semantic segmentation that unifies image-level and feature-level adaptation. Concretely, for image-level domain shifts, we propose a global photometric alignment module and a global texture alignment module that align images in the source and target domains in terms of image-level properties. For feature-level domain shifts, we perform global manifold alignment by projecting pixel features from both domains onto the feature manifold of the source domain; and we further regularize category centers in the source domain through a category-oriented triplet loss and perform target domain consistency regularization over augmented target domain images. Experimental results demonstrate that our pipeline significantly outperforms previous methods. In the commonly tested GTA5$\rightarrow$Cityscapes task, our proposed method using Deeplab V3+ as the backbone surpasses previous SOTA by 8%, achieving 58.2% in mIoU.
翻訳日:2023-01-04 14:50:31 公開日:2023-01-03
# Reference Twice: Few-Shotインスタンスセグメンテーションのためのシンプルで統一されたベースライン

Reference Twice: A Simple and Unified Baseline for Few-Shot Instance Segmentation ( http://arxiv.org/abs/2301.01156v1 )

ライセンス: Link先を確認
Yue Han, Jiangning Zhang, Zhucun Xue, Chao Xu, Xintian Shen, Yabiao Wang, Chengjie Wang, Yong Liu, Xiangtai Li(参考訳) FSIS(Few Shot Instance Segmentation)は、いくつかのサポート例を限定して、新しいクラスを検出し、セグメントするモデルを必要とする。 本稿では,FSISとインクリメンタルな変種に対するシンプルな統一されたソリューションについて検討し,Transformerライクなフレームワークに基づいたサポート/クエリ機能間の関係を深く探求するReference Twice(RefT)という新しいフレームワークを紹介する。 まず、サポートマスクの助けを借りて、クエリ機能を再重み付けするために、動的クラスセンタをより適切に生成できます。 第二に、サポート対象クエリはベーストレーニング後にすでに重要な要素をコード化している。 このように、クエリ機能は2つの側面、すなわち機能レベルとインスタンスレベルから拡張することができる。 具体的には,まず,サポート機能を強化するためにマスクベースの動的重み付けモジュールを設計,次にオブジェクトクエリをリンクして,クロスアテンションによるキャリブレーションを改善することを提案する。 上記のステップの後、新しいクラスは我々の強力なベースラインよりも大幅に改善できます。 さらに、我々の新しいフレームワークは、小さな修正で簡単にインクリメンタルFSISに拡張できます。 例えば、FSIS、gFSIS、iFSISのCOCOデータセットのベンチマーク結果のベンチマークでは、現在の10/30ショットに対する最先端のFSISメソッドよりも、強調可能な+8.2/+9.4でnAPを向上するなど、さまざまなショットにわたる既存のアプローチと比較して、競合的なパフォーマンスを実現しています。 さらに,Few Shot Object Detectionに対するアプローチの優位性を示す。 コードとモデルは利用可能だ。

Few Shot Instance Segmentation (FSIS) requires models to detect and segment novel classes with limited several support examples. In this work, we explore a simple yet unified solution for FSIS as well as its incremental variants, and introduce a new framework named Reference Twice (RefT) to fully explore the relationship between support/query features based on a Transformer-like framework. Our key insights are two folds: Firstly, with the aid of support masks, we can generate dynamic class centers more appropriately to re-weight query features. Secondly, we find that support object queries have already encoded key factors after base training. In this way, the query features can be enhanced twice from two aspects, i.e., feature-level and instance-level. In particular, we firstly design a mask-based dynamic weighting module to enhance support features and then propose to link object queries for better calibration via cross-attention. After the above steps, the novel classes can be improved significantly over our strong baseline. Additionally, our new framework can be easily extended to incremental FSIS with minor modification. When benchmarking results on the COCO dataset for FSIS, gFSIS, and iFSIS settings, our method achieves a competitive performance compared to existing approaches across different shots, e.g., we boost nAP by noticeable +8.2/+9.4 over the current state-of-the-art FSIS method for 10/30-shot. We further demonstrate the superiority of our approach on Few Shot Object Detection. Code and model will be available.
翻訳日:2023-01-04 14:50:05 公開日:2023-01-03
# 3次元オブジェクトデコーダの座標符号化によるクロスモーダルトランスフォーマ

Cross Modal Transformer via Coordinates Encoding for 3D Object Dectection ( http://arxiv.org/abs/2301.01283v1 )

ライセンス: Link先を確認
Junjie Yan, Yingfei Liu, Jianjian Sun, Fan Jia, Shuailin Li, Tiancai Wang, Xiangyu Zhang(参考訳) 本稿では,CMT (Cross Modal Transformer) と呼ばれる高機能な3次元検出器を提案する。 明示的なビュー変換がなければ、cmtはイメージとポイントクラウドトークンを入力として、正確な3dバウンディングボックスを直接出力します。 マルチモーダルトークンの空間アライメントは、3Dポイントをマルチモーダル特徴に符号化することで暗黙的に行われる。 CMTのコアデザインは非常にシンプルですが、性能は素晴らしいです。 CMT は nuScenes ベンチマークで 73.0% NDS を得る。 さらに、CMTはLiDARが欠落していても強い堅牢性を持っている。 コードはhttps://github.com/junjie18/CMTでリリースされる。

In this paper, we propose a robust 3D detector, named Cross Modal Transformer (CMT), for end-to-end 3D multi-modal detection. Without explicit view transformation, CMT takes the image and point clouds tokens as inputs and directly outputs accurate 3D bounding boxes. The spatial alignment of multi-modal tokens is performed implicitly, by encoding the 3D points into multi-modal features. The core design of CMT is quite simple while its performance is impressive. CMT obtains 73.0% NDS on nuScenes benchmark. Moreover, CMT has a strong robustness even if the LiDAR is missing. Code will be released at https://github.com/junjie18/CMT.
翻訳日:2023-01-04 14:49:19 公開日:2023-01-03
# TinyMIM: 蒸留MIM事前訓練モデルの実証的研究

TinyMIM: An Empirical Study of Distilling MIM Pre-trained Models ( http://arxiv.org/abs/2301.01296v1 )

ライセンス: Link先を確認
Sucheng Ren, Fangyun Wei, Zheng Zhang, Han Hu(参考訳) Masked Image Modeling (MIM) は、ViT (Pre-training Large Vision Transformer) において強く機能する。 しかし、現実世界のアプリケーションにとって重要な小さなモデルは、この事前学習アプローチの恩恵を受けることはできない。 本稿では,mimを用いた大規模事前学習モデルの成功を小型モデルに移す蒸留技術について検討する。 我々は, 蒸留対象, 損失, 入力, ネットワーク正規化, 逐次蒸留等を含む蒸留フレームワークの異なる選択肢を体系的に検討し, 以下の点を明らかにする。 1) 蒸留トークン関係は、clsトークン及び特徴ベースの蒸留よりも有効である。 2) 対象とする教員ネットワークの中間層は、生徒の深さが教師の深さと一致しない場合において、最終層を用いた場合よりも優れた性能を発揮する。 3) 弱規則化は望ましい。 これらの結果から,VT-Tiny,VT-Small,VT-baseの各モデルを用いて,ImageNet-1K分類のスクラッチMIMによる微調整精度を大幅に改善し,+4.2%/+2.4%/+1.4%のゲインを得た。 ベースサイズのtinymimモデルはae20kセマンティクスセグメンテーションにおいて52.2miouを達成しており、maeベースラインよりも+4.1高い。 我々のTinyMIMモデルは、ImageNet-1K画像分類において79.6%の精度を実現し、同じサイズと計算予算の小さなビジョンモデルのための新しい記録を樹立した。 この強力な性能は、以前のほとんどの作品のようにアーキテクチャに帰納的バイアスを導入するのではなく、より良いトレーニング方法を探求することで、小さなビジョントランスフォーマーモデルを開発するための代替手段を示唆している。 コードはhttps://github.com/OliverRensu/TinyMIM.comで入手できる。

Masked image modeling (MIM) performs strongly in pre-training large vision Transformers (ViTs). However, small models that are critical for real-world applications cannot or only marginally benefit from this pre-training approach. In this paper, we explore distillation techniques to transfer the success of large MIM-based pre-trained models to smaller ones. We systematically study different options in the distillation framework, including distilling targets, losses, input, network regularization, sequential distillation, etc, revealing that: 1) Distilling token relations is more effective than CLS token- and feature-based distillation; 2) An intermediate layer of the teacher network as target perform better than that using the last layer when the depth of the student mismatches that of the teacher; 3) Weak regularization is preferred; etc. With these findings, we achieve significant fine-tuning accuracy improvements over the scratch MIM pre-training on ImageNet-1K classification, using all the ViT-Tiny, ViT-Small, and ViT-base models, with +4.2%/+2.4%/+1.4% gains, respectively. Our TinyMIM model of base size achieves 52.2 mIoU in AE20K semantic segmentation, which is +4.1 higher than the MAE baseline. Our TinyMIM model of tiny size achieves 79.6% top-1 accuracy on ImageNet-1K image classification, which sets a new record for small vision models of the same size and computation budget. This strong performance suggests an alternative way for developing small vision Transformer models, that is, by exploring better training methods rather than introducing inductive biases into architectures as in most previous works. Code is available at https://github.com/OliverRensu/TinyMIM.
翻訳日:2023-01-04 14:49:07 公開日:2023-01-03
# コーポレートロビイストとしての大規模言語モデル

Large Language Models as Corporate Lobbyists ( http://arxiv.org/abs/2301.01181v1 )

ライセンス: Link先を確認
John J. Nay(参考訳) コーポレートロビー活動を行う大規模言語モデルの概念実証を実証する。 我々は、自己回帰的な大規模言語モデル(OpenAIのtext-davinci-003)を使用して、提案された米国議会法案が特定の公共企業に関連するかどうかを判断し、説明と信頼レベルを提供する。 モデルが関連するものとみなす法案について、モデルは提案された法律を変更するよう議会に説得するために、法案のスポンサーに手紙を起草する。 我々は、このモデルの性能をベンチマークするために、企業に対する法案の関連性に関する数百の地道なラベルを使用します。 しかし,従来のOpenAI GPT-3モデル(text-davinci-002)では,2022年11月28日にtext-davinci-003がリリースされるまで,多くの言語タスクの最先端であった。 テキストダヴィンチ002のパフォーマンスは、単に法案が企業と無関係であると予測するよりも悪い。 これらの結果は、大規模言語モデルがコア自然言語理解能力を改善し続けるにつれて、企業のロビー活動に関連するタスクのパフォーマンスが向上し続けることを示唆している。 そして、これが社会とAIの整合性に問題となる理由について議論する。

We demonstrate a proof-of-concept of a large language model conducting corporate lobbying related activities. We use an autoregressive large language model (OpenAI's text-davinci-003) to determine if proposed U.S. Congressional bills are relevant to specific public companies and provide explanations and confidence levels. For the bills the model deems as relevant, the model drafts a letter to the sponsor of the bill in an attempt to persuade the congressperson to make changes to the proposed legislation. We use hundreds of ground-truth labels of the relevance of a bill to a company to benchmark the performance of the model, which outperforms the baseline of predicting the most common outcome of irrelevance. However, we test the ability to determine the relevance of a bill with the previous OpenAI GPT-3 model (text-davinci-002), which was state-of-the-art on many language tasks until text-davinci-003 was released on November 28, 2022. The performance of text-davinci-002 is worse than simply always predicting that a bill is irrelevant to a company. These results suggest that, as large language models continue to improve core natural language understanding capabilities, performance on corporate lobbying related tasks will continue to improve. We then discuss why this could be problematic for societal-AI alignment.
翻訳日:2023-01-04 14:48:36 公開日:2023-01-03
# モデルの訓練を伴わないデータ評価

Data Valuation Without Training of a Model ( http://arxiv.org/abs/2301.00930v1 )

ライセンス: Link先を確認
Nohyun Ki, Hoyong Choi and Hye Won Chung(参考訳) ディープラーニングを理解するための最近の多くの研究は、トレーニング中のモデルの振る舞いを分析したり、インスタンスがデータセットから削除されたときにモデルのパフォーマンスギャップを測定することによって、個々のデータインスタンスがモデルの最適化と一般化にどの程度影響するかを定量化しようとしている。 このようなアプローチは個々のインスタンスの特徴と重要性を明らかにし、深層学習の診断や改善に有用な情報を提供する。 しかし、データアセスメントに関する既存の作業の多くは、しばしば高計算コストを必要とするモデルの実際のトレーニングを必要とします。 本稿では,2層超パラメータニューラルネットワークの一般化における個々のインスタンスの影響を定量化するためのデータ中心スコアである,複雑性ガップスコアと呼ばれるトレーニングフリーデータ評価スコアを提案する。 提案したスコアは、インスタンスの不規則性を定量化し、トレーニング中に各データインスタンスがネットワークパラメータの総移動にどの程度貢献するかを測定する。 我々は,「不規則」なデータインスタンスの発見における複雑性ギャップスコアの有効性を理論的に分析し,実証的に示すとともに,データセットの分析やトレーニングダイナミクスの診断におけるスコアの適用も提供する。

Many recent works on understanding deep learning try to quantify how much individual data instances influence the optimization and generalization of a model, either by analyzing the behavior of the model during training or by measuring the performance gap of the model when the instance is removed from the dataset. Such approaches reveal characteristics and importance of individual instances, which may provide useful information in diagnosing and improving deep learning. However, most of the existing works on data valuation require actual training of a model, which often demands high-computational cost. In this paper, we provide a training-free data valuation score, called complexity-gap score, which is a data-centric score to quantify the influence of individual instances in generalization of two-layer overparameterized neural networks. The proposed score can quantify irregularity of the instances and measure how much each data instance contributes in the total movement of the network parameters during training. We theoretically analyze and empirically demonstrate the effectiveness of the complexity-gap score in finding 'irregular or mislabeled' data instances, and also provide applications of the score in analyzing datasets and diagnosing training dynamics.
翻訳日:2023-01-04 14:47:18 公開日:2023-01-03
# more is better: フレームレートの高い自発的マイクロ表現のためのデータベース

More is Better: A Database for Spontaneous Micro-Expression with High Frame Rates ( http://arxiv.org/abs/2301.00985v1 )

ライセンス: Link先を確認
Sirui Zhao, Huaying Tang, Xinglong Mao, Shifeng Liu, Hanqing Tao, Hao Wang, Tong Xu and Enhong Chen(参考訳) 最も重要なサイキックストレス反応の1つとして、マイクロ・エクスプレッション(ME)は、人間の真の感情を明らかにする自然かつ過渡的な表情である。 このように、感情コンピューティングの分野では、自動的にME(MER)を認識することがますます重要になっている。 しかし、豊富なMEデータの不足は、最先端のデータ駆動型MERモデルの開発を著しく制限する。 この問題を緩和するためのいくつかの自発的なMEデータセットの最近の取り組みにもかかわらず、まだわずかな作業である。 DFME(Dynamic Facial Micro-Expressions)と呼ばれる,671人の参加者によって誘導され,3年間に20以上のアノテータによってアノテータによってアノテートされた7,526個の良質なMEビデオを含む,現在最大規模のMEデータスケールを持つ動的自発MEデータセットを構築した。 その後、DFMEデータセットの有効性を客観的に検証するためのMER実験を行うために、DFMEに4つの古典的時空間特徴学習モデルを適用した。 さらに,DFME上での動的MERにおけるクラス不均衡およびキーフレームシーケンスサンプリング問題に対する異なる解について検討し,今後の研究の参考となる。 総合実験の結果,dfmeデータセットは自動merの研究を容易にし,merの新しいベンチマークを提供することができた。 DFMEはhttps://mea-lab-421.github.ioで公開される。

As one of the most important psychic stress reactions, micro-expressions (MEs), are spontaneous and transient facial expressions that can reveal the genuine emotions of human beings. Thus, recognizing MEs (MER) automatically is becoming increasingly crucial in the field of affective computing, and provides essential technical support in lie detection, psychological analysis and other areas. However, the lack of abundant ME data seriously restricts the development of cutting-edge data-driven MER models. Despite the recent efforts of several spontaneous ME datasets to alleviate this problem, it is still a tiny amount of work. To solve the problem of ME data hunger, we construct a dynamic spontaneous ME dataset with the largest current ME data scale, called DFME (Dynamic Facial Micro-expressions), which includes 7,526 well-labeled ME videos induced by 671 participants and annotated by more than 20 annotators throughout three years. Afterwards, we adopt four classical spatiotemporal feature learning models on DFME to perform MER experiments to objectively verify the validity of DFME dataset. In addition, we explore different solutions to the class imbalance and key-frame sequence sampling problems in dynamic MER respectively on DFME, so as to provide a valuable reference for future research. The comprehensive experimental results show that our DFME dataset can facilitate the research of automatic MER, and provide a new benchmark for MER. DFME will be published via https://mea-lab-421.github.io.
翻訳日:2023-01-04 14:42:01 公開日:2023-01-03
# 自己教師付き幾何モデリングによるエンドツーエンド自動運転のためのポリシー事前学習

Policy Pre-training for End-to-end Autonomous Driving via Self-supervised Geometric Modeling ( http://arxiv.org/abs/2301.01006v1 )

ライセンス: Link先を確認
Penghao Wu, Li Chen, Hongyang Li, Xiaosong Jia, Junchi Yan, Yu Qiao(参考訳) コンピュータビジョンと自然言語処理の分野での大規模データに対する事前学習技術が目覚ましい成果を生かし、このアイデアをつかみ取りの精神に適応させ、視覚運動運転におけるサンプル非効率問題を緩和できるかどうか疑問視する。 インプットの非常にダイナミックで変動的な性質から、ビズモータ駆動タスクは本質的にビューと翻訳の不変性を欠いており、視覚入力には意思決定に大きく無関係な情報が含まれており、その結果、一般的な視覚からのトレーニング前のアプローチは自律運転タスクには適さない。 そこで本研究では,ビジュモータ駆動における政策事前学習のための,直感的で直接的な完全自己教師型フレームワークであるPPGeoを提案する。 3d幾何学的シーンを、ラベルなしの大規模youtube運転ビデオでモデル化することで、ポリシー表現を強力な抽象化として学習することを目指している。 提案するppgeoは,効果的な自己監督訓練を支援するために2段階で行われる。 第1段階では、2つの連続したフレームを入力として、ポーズと深さの予測を同時に生成する。 第2段階では、視覚エンコーダは、将来のエゴモーションを予測し、現在の視覚観察のみに基づいて測光誤差を最適化することにより、運転方針表現を学習する。 これにより、事前学習されたビジュアルエンコーダは、リッチな駆動ポリシー関連表現を備え、複数の振動子駆動タスクに適する。 幅広い難易度シナリオをカバーする広範な実験が提案手法の優位性を実証し、ごく限られたデータで2%から100%以上改善できることを示した。 コードとモデルはhttps://github.com/opendrivelab/ppgeoで入手できる。

Witnessing the impressive achievements of pre-training techniques on large-scale data in the field of computer vision and natural language processing, we wonder whether this idea could be adapted in a grab-and-go spirit, and mitigate the sample inefficiency problem for visuomotor driving. Given the highly dynamic and variant nature of the input, the visuomotor driving task inherently lacks view and translation invariance, and the visual input contains massive irrelevant information for decision making, resulting in predominant pre-training approaches from general vision less suitable for the autonomous driving task. To this end, we propose PPGeo (Policy Pre-training via Geometric modeling), an intuitive and straightforward fully self-supervised framework curated for the policy pretraining in visuomotor driving. We aim at learning policy representations as a powerful abstraction by modeling 3D geometric scenes on large-scale unlabeled and uncalibrated YouTube driving videos. The proposed PPGeo is performed in two stages to support effective self-supervised training. In the first stage, the geometric modeling framework generates pose and depth predictions simultaneously, with two consecutive frames as input. In the second stage, the visual encoder learns driving policy representation by predicting the future ego-motion and optimizing with the photometric error based on current visual observation only. As such, the pre-trained visual encoder is equipped with rich driving policy related representations and thereby competent for multiple visuomotor driving tasks. Extensive experiments covering a wide span of challenging scenarios have demonstrated the superiority of our proposed approach, where improvements range from 2% to even over 100% with very limited data. Code and models will be available at https://github.com/OpenDriveLab/PPGeo.
翻訳日:2023-01-04 14:41:35 公開日:2023-01-03
# 相関損失:分類と局在の相関を強制する

Correlation Loss: Enforcing Correlation between Classification and Localization ( http://arxiv.org/abs/2301.01019v1 )

ライセンス: Link先を確認
Fehmi Kahraman, Kemal Oksuz, Sinan Kalkan, Emre Akbas(参考訳) 対象検出器は従来,分類と局所化損失の重み付けによって訓練されてきた。 最近の研究(例えば、補助的な頭部を持つIoUの予測、一般化された焦点損失、ランク&ソート損失)は、これらの2つの損失項を非伝統的な方法で相互に相互作用させることが、有益な帰納バイアスを生み出し、性能を向上させることを示した。 これらの研究から着想を得て,分類と局所化の相関に着目し,次の2つの貢献を行う。 (i)物体検出装置における分類と局所化課題の相関の影響について分析する。 相関が様々なnmsベースおよびnmsフリー検出器の性能に影響を及ぼす理由を解明し,相関の効果を評価するための手法を考案し,共通検出器の解析に用いる。 (II) 相関係数を直接最適化することで、様々な物体検出器の性能を向上させる新しいプラグイン損失関数である相関損失(例えば、Sparse R-CNNにおける相関損失、NMSフリー手法、COCOにおける1.6APの利得、Cityscapesデータセットにおける1.8APの利得)を提案する。 Sparse R-CNNの最良のモデルは、COCOテストデブの試験時間増強なしで51.0 APに達し、最先端に到達します。 コードはhttps://github.com/fehmikahraman/CorrLossで入手できる。

Object detectors are conventionally trained by a weighted sum of classification and localization losses. Recent studies (e.g., predicting IoU with an auxiliary head, Generalized Focal Loss, Rank & Sort Loss) have shown that forcing these two loss terms to interact with each other in non-conventional ways creates a useful inductive bias and improves performance. Inspired by these works, we focus on the correlation between classification and localization and make two main contributions: (i) We provide an analysis about the effects of correlation between classification and localization tasks in object detectors. We identify why correlation affects the performance of various NMS-based and NMS-free detectors, and we devise measures to evaluate the effect of correlation and use them to analyze common detectors. (ii) Motivated by our observations, e.g., that NMS-free detectors can also benefit from correlation, we propose Correlation Loss, a novel plug-in loss function that improves the performance of various object detectors by directly optimizing correlation coefficients: E.g., Correlation Loss on Sparse R-CNN, an NMS-free method, yields 1.6 AP gain on COCO and 1.8 AP gain on Cityscapes dataset. Our best model on Sparse R-CNN reaches 51.0 AP without test-time augmentation on COCO test-dev, reaching state-of-the-art. Code is available at https://github.com/fehmikahraman/CorrLoss
翻訳日:2023-01-04 14:41:05 公開日:2023-01-03
# BS3D:RGB-D画像による大規模3D再構成

BS3D: Building-scale 3D Reconstruction from RGB-D Images ( http://arxiv.org/abs/2301.01057v1 )

ライセンス: Link先を確認
Janne Mustaniemi, Juho Kannala, Esa Rahtu, Li Liu and Janne Heikkil\"a(参考訳) 同時ローカライゼーションとマッピング(SLAM)と関連する問題に対して,様々なデータセットが提案されている。 既存のデータセットには、小さな環境、不完全な地上真実、奥行きや赤外線画像などの重要なセンサーデータがないことが多い。 本稿では,消費者向け深度カメラを用いた大規模3次元再構築のための使い易いフレームワークを提案する。 複雑で高価な買収設定とは異なり、当社のシステムはクラウドソーシングを可能にする。 類似のシステムと比較して, 生の深度マップをオドメトリー計算やループ閉鎖補正に利用し, より良い再構成を行う。 ビル規模の3Dデータセット(BS3D)を取得し,改良された単眼深度推定モデルをトレーニングすることにより,その価値を実証する。 ユニークな実験として、カラーとアクティブな赤外線画像の両方を用いて視覚慣性計測法をベンチマークする。

Various datasets have been proposed for simultaneous localization and mapping (SLAM) and related problems. Existing datasets often include small environments, have incomplete ground truth, or lack important sensor data, such as depth and infrared images. We propose an easy-to-use framework for acquiring building-scale 3D reconstruction using a consumer depth camera. Unlike complex and expensive acquisition setups, our system enables crowd-sourcing, which can greatly benefit data-hungry algorithms. Compared to similar systems, we utilize raw depth maps for odometry computation and loop closure refinement which results in better reconstructions. We acquire a building-scale 3D dataset (BS3D) and demonstrate its value by training an improved monocular depth estimation model. As a unique experiment, we benchmark visual-inertial odometry methods using both color and active infrared images.
翻訳日:2023-01-04 14:40:40 公開日:2023-01-03
# 因果知識蒸留による弱教師付き物体定位の改善

Further Improving Weakly-supervised Object Localization via Causal Knowledge Distillation ( http://arxiv.org/abs/2301.01060v1 )

ライセンス: Link先を確認
Feifei Shao, Yawei Luo, Shengjian Wu, Qiyi Li, Fei Gao, Yi Yang, Jun Xiao(参考訳) 弱教師付きオブジェクトローカライゼーションは、画像レベルラベルのみを付与した画像内のオブジェクトのカテゴリとスコープを示すことを目的としている。 既存の作品のほとんどは、クラスアクティベーションマッピング(cam)に基づいており、アクティベーションマップ内の識別領域を拡大してオブジェクト全体を認識しようとしているが、オブジェクトとコンテキスト(例えば魚と水)の共起者を無視しているため、モデルの検査はオブジェクトの境界を区別することが困難である。 さらに、CAMを使用すると、分類とローカライゼーションが常にパフォーマンスギャップに悩まされ、同時に最高の精度に達することができないというジレンマ問題も生じる。 本稿では,この2つの未解決問題に対処するために,kd-ci-camと呼ばれるカジュアルな知識蒸留法を提案する。 より具体的には、画像特徴、コンテキスト、カテゴリ間の因果関係を探索し、クラスアクティベーションマップにおける偏りのあるオブジェクト-コンテキストの絡みを取り除く、因果介入(CI)による共起コンテキスト共創問題に取り組む。 さらに,脱バイアスオブジェクトの特徴に基づいて,モデルの学習中に分類知識の吸収と局所化知識のバランスをとるマルチティーチャー因果蒸留フレームワークを提案する。 KD-CI-CAMは,コンテキストの相違から明確な対象境界を学習し,分類とローカライゼーション性能のジレンマ問題に対処する上で有効であることを示す。

Weakly-supervised object localization aims to indicate the category as well as the scope of an object in an image given only the image-level labels. Most of the existing works are based on Class Activation Mapping (CAM) and endeavor to enlarge the discriminative area inside the activation map to perceive the whole object, yet ignore the co-occurrence confounder of the object and context (e.g., fish and water), which makes the model inspection hard to distinguish object boundaries. Besides, the use of CAM also brings a dilemma problem that the classification and localization always suffer from a performance gap and can not reach their highest accuracy simultaneously. In this paper, we propose a casual knowledge distillation method, dubbed KD-CI-CAM, to address these two under-explored issues in one go. More specifically, we tackle the co-occurrence context confounder problem via causal intervention (CI), which explores the causalities among image features, contexts, and categories to eliminate the biased object-context entanglement in the class activation maps. Based on the de-biased object feature, we additionally propose a multi-teacher causal distillation framework to balance the absorption of classification knowledge and localization knowledge during model training. Extensive experiments on several benchmarks demonstrate the effectiveness of KD-CI-CAM in learning clear object boundaries from confounding contexts and addressing the dilemma problem between classification and localization performance.
翻訳日:2023-01-04 14:40:27 公開日:2023-01-03
# StyleTalk: 制御可能な話し方を備えたワンショットトーキングヘッドジェネレーション

StyleTalk: One-shot Talking Head Generation with Controllable Speaking Styles ( http://arxiv.org/abs/2301.01081v1 )

ライセンス: Link先を確認
Yifeng Ma, Suzhen Wang, Zhipeng Hu, Changjie Fan, Tangjie Lv, Yu Ding, Zhidong Deng and Xin Yu(参考訳) さまざまな人が多様なパーソナライズドスピーキングスタイルで話します。 既存のワンショット発声ヘッド法は, 口唇シンク, 自然な表情, 安定した頭部動作において大きな進歩を遂げているが, 最終的な発声ヘッドビデオでは, 多様な発声スタイルを生成できない。 この問題に対処するために,ワンショットスタイル制御可能な音声顔生成フレームワークを提案する。 簡単に言えば、任意の参照音声ビデオから発話スタイルを取得し、ワンショットのポートレートを駆動して、参照音声スタイルと他のオーディオと対話することを目指している。 具体的には,まず,スタイル参照ビデオの動的顔動作パターンを抽出し,それをスタイルコードにエンコードするスタイルエンコーダを開発した。 その後、音声コンテンツとスタイルコードからスタイリッシュな顔アニメーションを合成するスタイル制御可能なデコーダを導入する。 そこで本稿では,参照発話スタイルを生成映像に統合するために,符号化されたスタイルコードがフィードフォワード層の重みを調整できるように,スタイル認識適応トランスフォーマを設計した。 スタイルを意識した適応機構のおかげで、参照発話スタイルをデコード中に合成ビデオに組み込むことができる。 広汎な実験により,1つのポートレート画像と1つの音声クリップから多種多様な発話スタイルで音声ヘッドビデオを生成することができるとともに,視覚効果を実感できることがわかった。 プロジェクトページ: https://github.com/fuxivirtualhuman/styletalk.com

Different people speak with diverse personalized speaking styles. Although existing one-shot talking head methods have made significant progress in lip sync, natural facial expressions, and stable head motions, they still cannot generate diverse speaking styles in the final talking head videos. To tackle this problem, we propose a one-shot style-controllable talking face generation framework. In a nutshell, we aim to attain a speaking style from an arbitrary reference speaking video and then drive the one-shot portrait to speak with the reference speaking style and another piece of audio. Specifically, we first develop a style encoder to extract dynamic facial motion patterns of a style reference video and then encode them into a style code. Afterward, we introduce a style-controllable decoder to synthesize stylized facial animations from the speech content and style code. In order to integrate the reference speaking style into generated videos, we design a style-aware adaptive transformer, which enables the encoded style code to adjust the weights of the feed-forward layers accordingly. Thanks to the style-aware adaptation mechanism, the reference speaking style can be better embedded into synthesized videos during decoding. Extensive experiments demonstrate that our method is capable of generating talking head videos with diverse speaking styles from only one portrait image and an audio clip while achieving authentic visual effects. Project Page: https://github.com/FuxiVirtualHuman/styletalk.
翻訳日:2023-01-04 14:39:58 公開日:2023-01-03
# MGTAB:マルチリレーショナルグラフベースのTwitterアカウント検出ベンチマーク

MGTAB: A Multi-Relational Graph-Based Twitter Account Detection Benchmark ( http://arxiv.org/abs/2301.01123v1 )

ライセンス: Link先を確認
Shuhao Shi, Kai Qiao, Jian Chen, Shuai Yang, Jie Yang, Baojie Song, Linyuan Wang, Bin Yan(参考訳) ソーシャルメディアのユーザスタンス検出とボット検出手法の開発は、大規模で高品質なベンチマークに大きく依存している。 しかし、アノテーションの品質の低下に加えて、既存のベンチマークは一般的に不完全なユーザ関係を持ち、グラフベースのアカウント検出研究を抑圧している。 これらの問題に対処するため,我々はMGTAB (Multi-Relational Graph-Based Twitter Account Detection Benchmark) を提案する。 我々の知る限り、MGTABはこの分野で最大のオリジナルデータに基づいて構築され、ユーザ数は1億5500万、ツイート数は1億3000万である。 MGTABには10,199名のエキスパートアノテートユーザと7種類の関係があり、高品質なアノテーションと多様な関係を保証する。 MGTABでは,ユーザ機能として最高の情報ゲインとユーザツイート機能を備えた20のユーザプロパティ機能を抽出した。 さらに,MGTABおよび他の公開データセットの徹底的な評価を行った。 実験の結果,グラフベースのアプローチは機能ベースのアプローチよりも一般的に有効であり,複数の関係を導入する際の性能が向上することがわかった。 実験結果を解析することにより,アカウント検出に有効な手法を同定し,今後の研究の方向性を示す。 ベンチマークと標準化された評価手順は、https://github.com/GraphDetec/MGTAB.comで無料で利用可能です。

The development of social media user stance detection and bot detection methods rely heavily on large-scale and high-quality benchmarks. However, in addition to low annotation quality, existing benchmarks generally have incomplete user relationships, suppressing graph-based account detection research. To address these issues, we propose a Multi-Relational Graph-Based Twitter Account Detection Benchmark (MGTAB), the first standardized graph-based benchmark for account detection. To our knowledge, MGTAB was built based on the largest original data in the field, with over 1.55 million users and 130 million tweets. MGTAB contains 10,199 expert-annotated users and 7 types of relationships, ensuring high-quality annotation and diversified relations. In MGTAB, we extracted the 20 user property features with the greatest information gain and user tweet features as the user features. In addition, we performed a thorough evaluation of MGTAB and other public datasets. Our experiments found that graph-based approaches are generally more effective than feature-based approaches and perform better when introducing multiple relations. By analyzing experiment results, we identify effective approaches for account detection and provide potential future research directions in this field. Our benchmark and standardized evaluation procedures are freely available at: https://github.com/GraphDetec/MGTAB.
翻訳日:2023-01-04 14:39:34 公開日:2023-01-03
# 効率的なニューラルモデルのための移動ブロック再考

Rethinking Mobile Block for Efficient Neural Models ( http://arxiv.org/abs/2301.01146v1 )

ライセンス: Link先を確認
Jiangning Zhang, Xiangtai Li, Jian Li, Liang Liu, Zhucun Xue, Boshen Zhang, Zhengkai Jiang, Tianxin Huang, Yabiao Wang, and Chengjie Wang(参考訳) 本稿では,低パラメータと高密度予測のためのFLOPを用いた効率的なモデルの設計に着目する。 CNNベースの軽量手法は、長年の研究を経て素晴らしい成果を上げてきたが、トレードオフモデルの精度と制約のあるリソースは依然としてさらなる改善が必要である。 この研究は、MobileNetv2における効率的な逆Residual BlockとViTにおける効果的なTransformerの本質的な統一を再考し、Meta-Mobile Blockの一般的な概念を誘導的に抽象化し、同じフレームワークを共有しながらパフォーマンスをモデル化する上で、特定のインスタンス化が非常に重要であると論じる。 この現象に触発されて、モバイルアプリケーションのための単純で効率的な近代的 \textbf{I}nverted \textbf{R}esidual \textbf{M}obile \textbf{B}lock (iRMB) を導出する。 さらに,高密度アプリケーション用の一連の iRMB のみをベースとして,ResNet のような 4 相 \textbf{E}fficient \textbf{MO}del (EMO) を設計する。 ImageNet-1K, COCO2017, ADE20Kベンチマークによる大規模な実験では、EMOが最先端の手法よりも優れていることが示され、EMO-1M/2M/5Mは71.5, 75.1, 78.4Top-1を達成し、これは \textbf{SoTA} CNN-/Transformer-basedモデルを上回っている。

This paper focuses on designing efficient models with low parameters and FLOPs for dense predictions. Even though CNN-based lightweight methods have achieved stunning results after years of research, trading-off model accuracy and constrained resources still need further improvements. This work rethinks the essential unity of efficient Inverted Residual Block in MobileNetv2 and effective Transformer in ViT, inductively abstracting a general concept of Meta-Mobile Block, and we argue that the specific instantiation is very important to model performance though sharing the same framework. Motivated by this phenomenon, we deduce a simple yet efficient modern \textbf{I}nverted \textbf{R}esidual \textbf{M}obile \textbf{B}lock (iRMB) for mobile applications, which absorbs CNN-like efficiency to model short-distance dependency and Transformer-like dynamic modeling capability to learn long-distance interactions. Furthermore, we design a ResNet-like 4-phase \textbf{E}fficient \textbf{MO}del (EMO) based only on a series of iRMBs for dense applications. Massive experiments on ImageNet-1K, COCO2017, and ADE20K benchmarks demonstrate the superiority of our EMO over state-of-the-art methods, \eg, our EMO-1M/2M/5M achieve 71.5, 75.1, and 78.4 Top-1 that surpass \textbf{SoTA} CNN-/Transformer-based models, while trading-off the model accuracy and efficiency well.
翻訳日:2023-01-04 14:38:41 公開日:2023-01-03
# EZInterviewer: モックインタビュージェネレータによるジョブインタビューのパフォーマンス向上

EZInterviewer: To Improve Job Interview Performance with Mock Interview Generator ( http://arxiv.org/abs/2301.00972v1 )

ライセンス: Link先を確認
Mingzhe Li, Xiuying Chen, Weiheng Liao, Yang Song, Tao Zhang, Dongyan Zhao, Rui Yan(参考訳) 面接は採用の最も重要なステップの1つと見なされている。 採用者との面接を十分に準備するために、求職者は互いにモックなインタビューを実践する。 モックインタビュアーはプロであることは保証されておらず、本物のインタビュアーのように振る舞うことはない。 近年のオンライン採用の急速な増加により、採用者はオンライン面接を受ける傾向にあり、実際の面接者から実際の面接データを収集することができる。 本稿では、オンラインインタビューデータから学び、求職者にモックインタビューサービスを提供するezinterviewerという新しいアプリケーションを提案する。 1) インタビューデータは利用可能だが、まだ低リソースである。(2) 有意義で関連する面接ダイアログを生成するには、履歴書とジョブ記述の両方を徹底的に理解する必要がある。 低リソースの課題に対処するため、EZInterviewerは非常に小さなインタビューダイアログで訓練されている。 鍵となる考え方は、知識セレクタとダイアログジェネレータをアンタングルすることで、インタビューダイアログに依存するパラメータの数を減らし、ほとんどのパラメータをアングラウンドダイアログと低リソースでない履歴データでトレーニングできるようにすることである。 実世界の面接ダイアログデータセットにおける評価結果から,模擬面接を生成できる有望な結果が得られることが示された。 EZInterviewerの助けを借りて、求職者にとってモックインタビューの実践がより簡単になることを願っている。

Interview has been regarded as one of the most crucial step for recruitment. To fully prepare for the interview with the recruiters, job seekers usually practice with mock interviews between each other. However, such a mock interview with peers is generally far away from the real interview experience: the mock interviewers are not guaranteed to be professional and are not likely to behave like a real interviewer. Due to the rapid growth of online recruitment in recent years, recruiters tend to have online interviews, which makes it possible to collect real interview data from real interviewers. In this paper, we propose a novel application named EZInterviewer, which aims to learn from the online interview data and provides mock interview services to the job seekers. The task is challenging in two ways: (1) the interview data are now available but still of low-resource; (2) to generate meaningful and relevant interview dialogs requires thorough understanding of both resumes and job descriptions. To address the low-resource challenge, EZInterviewer is trained on a very small set of interview dialogs. The key idea is to reduce the number of parameters that rely on interview dialogs by disentangling the knowledge selector and dialog generator so that most parameters can be trained with ungrounded dialogs as well as the resume data that are not low-resource. Evaluation results on a real-world job interview dialog dataset indicate that we achieve promising results to generate mock interviews. With the help of EZInterviewer, we hope to make mock interview practice become easier for job seekers.
翻訳日:2023-01-04 14:31:30 公開日:2023-01-03
# 論理知識を用いた知識集約型テキストからsqlへの意味解析

Towards Knowledge-Intensive Text-to-SQL Semantic Parsing with Formulaic Knowledge ( http://arxiv.org/abs/2301.01067v1 )

ライセンス: Link先を確認
Longxu Dou, Yan Gao, Xuqi Liu, Mingyang Pan, Dingzirui Wang, Wanxiang Che, Dechen Zhan, Min-Yen Kan, Jian-Guang Lou(参考訳) 本稿では,知識集約型テキスト・トゥ・SQLの課題について考察する。ドメイン固有テーブル上での専門家による質問をSQLクエリに解析するためには,ドメイン知識が必要である。 私たちは、さまざまなドメインをカバーするドメイン固有の質問からなる新しい中国のベンチマークknowsqlを構築することで、このシナリオを形式化します。 次に、付加的なデータ例に注釈を付けるのではなく、公式知識を提示することでこの問題に対処する。 より具体的には、ドメイン知識ベースとして公式知識バンクを構築し、解析中にこの公式知識を活用するためのフレームワーク(再グループ)を提案する。 ReGrouPを使った実験では、KnowSQL全体の28.2%が大幅に改善されている。

In this paper, we study the problem of knowledge-intensive text-to-SQL, in which domain knowledge is necessary to parse expert questions into SQL queries over domain-specific tables. We formalize this scenario by building a new Chinese benchmark KnowSQL consisting of domain-specific questions covering various domains. We then address this problem by presenting formulaic knowledge, rather than by annotating additional data examples. More concretely, we construct a formulaic knowledge bank as a domain knowledge base and propose a framework (ReGrouP) to leverage this formulaic knowledge during parsing. Experiments using ReGrouP demonstrate a significant 28.2% improvement overall on KnowSQL.
翻訳日:2023-01-04 14:31:03 公開日:2023-01-03
# 平均は十分ではない:多言語評価の障壁

Average Is Not Enough: Caveats of Multilingual Evaluation ( http://arxiv.org/abs/2301.01269v1 )

ライセンス: Link先を確認
Mat\'u\v{s} Pikuliak and Mari\'an \v{S}imko(参考訳) 本稿では,多言語評価の問題について論じる。 平均的な言語性能のような単純な統計を用いて、言語バイアスを注入し、支配的な言語家族を評価方法論に注入する。 このような偏見を検出するためには,比較言語学による質的分析が必要であると論じる。 本稿では,本研究の結果が言語的に偏りがあることを示すとともに,URIEL型データベースに基づく可視化が検出可能であることを示す。

This position paper discusses the problem of multilingual evaluation. Using simple statistics, such as average language performance, might inject linguistic biases in favor of dominant language families into evaluation methodology. We argue that a qualitative analysis informed by comparative linguistics is needed for multilingual results to detect this kind of bias. We show in our case study that results in published works can indeed be linguistically biased and we demonstrate that visualization based on URIEL typological database can detect it.
翻訳日:2023-01-04 14:30:50 公開日:2023-01-03
# PanopticPartFormer++: Panoptic Part Segmentationの統一された分離ビュー

PanopticPartFormer++: A Unified and Decoupled View for Panoptic Part Segmentation ( http://arxiv.org/abs/2301.00954v1 )

ライセンス: Link先を確認
Xiangtai Li, Shilin Xu, Yibo Yang, Haobo Yuan, Guangliang Cheng, Yunhai Tong, Zhouchen Lin, Dacheng Tao(参考訳) panoptic part segmentation (pps)は、panoptic segmentationとpart segmentationを1つのタスクに統合する。 以前の作業では、分離されたアプローチを使用して、共有計算やタスク関連のないもの、もの、部分予測を扱っていた。 私たちはこれらのタスクをアーキテクチャレベルで統一し、Panoptic-PartFormerという最初のエンドツーエンド統合フレームワークを設計することを目指しています。 さらに、以前の測定値PartPQはPQに偏っている。 まず、パーツ機能と things/stuff 機能を分離するメタアーキテクチャを設計します。 私たちはオブジェクトクエリとして物、物、部品をモデル化し、マスクの予測と分類の統一的な問題として3種類の予測を最適化する直接学習します。 私たちはこのモデルをPanoptic-PartFormerと呼びます。 第2に,画素領域とパートwhole視点の両方からこれらのタスクをよりよく測定するための,新しい計量部分whole quality(pwq)を提案する。 部分セグメンテーションとpanopticセグメンテーションのエラーを分離することもできる。 第3に,mask2formerに触発され,我々のメタアーキテクチャに基づいて,panoptic-partformer++を提案し,パートセグメンテーション品質をさらに高めるための新しいパート・ヘールクロス・アテンション・スキームを設計する。 マスク付きクロスアテンションを用いた新しいパートホールインタラクション手法を設計する。 最後に,Panoptic-PartFormerとPanoptic-PartFormer++の有効性について検討した。 以前のPanoptic-PartFormerと比較して、Panoptic-PartFormer++は、Cityscapes PPSデータセットの2% PartPQと3% PWQの改善、Pascal Context PPSデータセットの5% PartPQを実現しています。 両方のデータセットにおいて、Panoptic-PartFormer++は、GFlopsで70%、パラメータで50%の大幅なコスト削減で、最先端の新たな結果を達成する。 私たちのモデルは強力なベースラインとなり、ppsにおける将来の研究を支援することができます。 コードは利用可能だ。

Panoptic Part Segmentation (PPS) unifies panoptic segmentation and part segmentation into one task. Previous works utilize separated approaches to handle thing, stuff, and part predictions without shared computation and task association. We aim to unify these tasks at the architectural level, designing the first end-to-end unified framework named Panoptic-PartFormer. Moreover, we find the previous metric PartPQ biases to PQ. To handle both issues, we make the following contributions: Firstly, we design a meta-architecture that decouples part feature and things/stuff feature, respectively. We model things, stuff, and parts as object queries and directly learn to optimize all three forms of prediction as a unified mask prediction and classification problem. We term our model as Panoptic-PartFormer. Secondly, we propose a new metric Part-Whole Quality (PWQ) to better measure such task from both pixel-region and part-whole perspectives. It can also decouple the error for part segmentation and panoptic segmentation. Thirdly, inspired by Mask2Former, based on our meta-architecture, we propose Panoptic-PartFormer++ and design a new part-whole cross attention scheme to further boost part segmentation qualities. We design a new part-whole interaction method using masked cross attention. Finally, the extensive ablation studies and analysis demonstrate the effectiveness of both Panoptic-PartFormer and Panoptic-PartFormer++. Compared with previous Panoptic-PartFormer, our Panoptic-PartFormer++ achieves 2% PartPQ and 3% PWQ improvements on the Cityscapes PPS dataset and 5% PartPQ on the Pascal Context PPS dataset. On both datasets, Panoptic-PartFormer++ achieves new state-of-the-art results with a significant cost drop of 70% on GFlops and 50% on parameters. Our models can serve as a strong baseline and aid future research in PPS. Code will be available.
翻訳日:2023-01-04 14:30:28 公開日:2023-01-03
# LiDARセマンティックセグメンテーションモデルのロバスト性ベンチマーク

Benchmarking the Robustness of LiDAR Semantic Segmentation Models ( http://arxiv.org/abs/2301.00970v1 )

ライセンス: Link先を確認
Xu Yan, Chaoda Zheng, Zhen Li, Shuguang Cui, Dengxin Dai(参考訳) 自律運転のような安全クリティカルなアプリケーションにLiDARセマンティックセグメンテーションモデルを使用する場合、広範囲なLiDARの腐敗に関して、その堅牢性を理解し改善することが不可欠である。 本稿では,LiDARセマンティックセグメンテーションモデルのロバスト性を,様々な汚職の下で包括的に解析することを目的とする。 現状のアプローチのロバスト性や一般化性を厳格に評価するために,SematicKITTI-Cと呼ばれる新しいベンチマークを提案し,悪天候,計測ノイズ,デバイス間差といった3つのグループで16のドメイン外LiDARの破損を特徴とする。 次に,11のLiDARセマンティックセグメンテーションモデル,特に異なる入力表現(点雲,ボクセル,投影画像など),ネットワークアーキテクチャ,トレーニングスキームを体系的に検討する。 この研究を通して 2つの洞察を得ました 1) 入力表現がロバスト性において重要な役割を果たすことがわかった。 特に、特定の腐敗下では、異なる表現が様々な振る舞いをする。 2)LiDARセマンティックセグメンテーションの最先端手法はクリーンなデータに対して有望な結果をもたらすが,ノイズの多いデータを扱う場合のロバスト性は低い。 最後に, 上記の観測結果に基づいて, 単純かつ効果的な修正によりロバスト性を大幅に向上させるロバストLiDARセグメンテーションモデル (RLSeg) を設計する。 当社のベンチマーク、包括的な分析、観察は、安全クリティカルなアプリケーションのための堅牢なlidarセマンティクスセグメンテーションに関する将来の研究を促進することを約束しています。

When using LiDAR semantic segmentation models for safety-critical applications such as autonomous driving, it is essential to understand and improve their robustness with respect to a large range of LiDAR corruptions. In this paper, we aim to comprehensively analyze the robustness of LiDAR semantic segmentation models under various corruptions. To rigorously evaluate the robustness and generalizability of current approaches, we propose a new benchmark called SemanticKITTI-C, which features 16 out-of-domain LiDAR corruptions in three groups, namely adverse weather, measurement noise and cross-device discrepancy. Then, we systematically investigate 11 LiDAR semantic segmentation models, especially spanning different input representations (e.g., point clouds, voxels, projected images, and etc.), network architectures and training schemes. Through this study, we obtain two insights: 1) We find out that the input representation plays a crucial role in robustness. Specifically, under specific corruptions, different representations perform variously. 2) Although state-of-the-art methods on LiDAR semantic segmentation achieve promising results on clean data, they are less robust when dealing with noisy data. Finally, based on the above observations, we design a robust LiDAR segmentation model (RLSeg) which greatly boosts the robustness with simple but effective modifications. It is promising that our benchmark, comprehensive analysis, and observations can boost future research in robust LiDAR semantic segmentation for safety-critical applications.
翻訳日:2023-01-04 14:29:54 公開日:2023-01-03
# 監視面の汚職防止

Surveillance Face Anti-spoofing ( http://arxiv.org/abs/2301.00975v1 )

ライセンス: Link先を確認
Hao Fang, Ajian Liu, Jun Wan, Sergio Escalera, Chenxu Zhao, Xu Zhang, Stan Z. Li, Zhen Lei(参考訳) face anti-spoofing (fas) は様々な物理的攻撃から顔認識システムを保護するのに不可欠である。 しかし、最近の研究は一般的に、長距離シーン(監視セキュリティチェック)を考慮せずに、短距離アプリケーション(電話のアンロック)に焦点を当てている。 関連研究の促進とコミュニティのこのギャップを埋めるために、40の監視シーンで収集された大規模な監視ハイファイダリティマスク(SuHiFiMask)データセットを収集し、232の3D攻撃(ハイファイダリティマスク)、200の2D攻撃(ポスト、ポートレート、スクリーン)、2つの敵攻撃を含む異なる年齢グループから101人の被験者を擁する。 このシーンでは、低解像度とノイズ干渉が監視FASで直面する新しい課題である。 本稿では,shifimaskデータセットと共に,画像品質に起因する性能低下を3つの側面から軽減するコントラスト的品質非分散学習(cqil)ネットワークを提案する。 2) 生成したサンプルペアを用いて品質分散分布をシミュレートし, コントラスト学習戦略が品質変動下で頑健な特徴表現を得るのを助ける。 3)分離品質ネットワーク(SQN)は,画像品質に依存しない識別的特徴を学習するように設計されている。 最後に,SuHiFiMaskデータセットの品質と提案したCQILの優位性を検証した。

Face Anti-spoofing (FAS) is essential to secure face recognition systems from various physical attacks. However, recent research generally focuses on short-distance applications (i.e., phone unlocking) while lacking consideration of long-distance scenes (i.e., surveillance security checks). In order to promote relevant research and fill this gap in the community, we collect a large-scale Surveillance High-Fidelity Mask (SuHiFiMask) dataset captured under 40 surveillance scenes, which has 101 subjects from different age groups with 232 3D attacks (high-fidelity masks), 200 2D attacks (posters, portraits, and screens), and 2 adversarial attacks. In this scene, low image resolution and noise interference are new challenges faced in surveillance FAS. Together with the SuHiFiMask dataset, we propose a Contrastive Quality-Invariance Learning (CQIL) network to alleviate the performance degradation caused by image quality from three aspects: (1) An Image Quality Variable module (IQV) is introduced to recover image information associated with discrimination by combining the super-resolution network. (2) Using generated sample pairs to simulate quality variance distributions to help contrastive learning strategies obtain robust feature representation under quality variation. (3) A Separate Quality Network (SQN) is designed to learn discriminative features independent of image quality. Finally, a large number of experiments verify the quality of the SuHiFiMask dataset and the superiority of the proposed CQIL.
翻訳日:2023-01-04 14:29:23 公開日:2023-01-03
# 深部スペクトルq-learningとモバイルヘルスへの応用

Deep Spectral Q-learning with Application to Mobile Health ( http://arxiv.org/abs/2301.00927v1 )

ライセンス: Link先を確認
Yuhe Gao, Chengchun Shi and Rui Song(参考訳) 動的治療体制は、基準情報と時間変化の共変量に基づいて、経時的にパーソナライズされた治療を患者に割り当てる。 モバイル健康アプリケーションでは、これらの共変量は通常、長い時間をかけて異なる周波数で収集される。 本稿では,主成分分析(pca)と深部q学習を統合し,混合周波数データを扱う深部スペクトルq学習アルゴリズムを提案する。 理論的には、推定された最適ポリシーの下での平均回帰が最適ポリシーの下での平均回帰に収束し、その収束率を確立する。 本提案の有用性はシミュレーションと糖尿病データセットへの適用によりさらに示される。

Dynamic treatment regimes assign personalized treatments to patients sequentially over time based on their baseline information and time-varying covariates. In mobile health applications, these covariates are typically collected at different frequencies over a long time horizon. In this paper, we propose a deep spectral Q-learning algorithm, which integrates principal component analysis (PCA) with deep Q-learning to handle the mixed frequency data. In theory, we prove that the mean return under the estimated optimal policy converges to that under the optimal one and establish its rate of convergence. The usefulness of our proposal is further illustrated via simulations and an application to a diabetes dataset.
翻訳日:2023-01-04 14:22:24 公開日:2023-01-03
# パラメトリック変分推論に関するチュートリアル

A Tutorial on Parametric Variational Inference ( http://arxiv.org/abs/2301.01236v1 )

ライセンス: Link先を確認
Jens Sj\"olund(参考訳) 変分推論は積分ではなく最適化を使い、ベイズモデルにおいて限界確率を近似し、従って後端を近似する。 過去10年間の計算スケーラビリティの進歩のおかげで、多くの高次元モデルや大規模データセットでは変分推論が好まれるようになった。 このチュートリアルでは、他の序文に見られる平均場視点とは対照的に、これらの最近の発展を左右するパラメトリックな視点から変分推論を導入する。

Variational inference uses optimization, rather than integration, to approximate the marginal likelihood, and thereby the posterior, in a Bayesian model. Thanks to advances in computational scalability made in the last decade, variational inference is now the preferred choice for many high-dimensional models and large datasets. This tutorial introduces variational inference from the parametric perspective that dominates these recent developments, in contrast to the mean-field perspective commonly found in other introductory texts.
翻訳日:2023-01-04 14:22:14 公開日:2023-01-03
# look, listen, and attack:ビデオアクション認識に対するバックドア攻撃

Look, Listen, and Attack: Backdoor Attacks Against Video Action Recognition ( http://arxiv.org/abs/2301.00986v1 )

ライセンス: Link先を確認
Hasan Abed Al Kader Hammoud, Shuming Liu, Mohammad Alkhrasi, Fahad AlBalawi, Bernard Ghanem(参考訳) ディープニューラルネットワーク(dnn)は、バックドア攻撃(backdoor attack)と呼ばれる攻撃のクラスに対して脆弱である。 バックドア付きDNNはクリーンなテストイメージでうまく機能するが、バックドアトリガが存在する場合、任意のサンプルに対してアタッカー定義ラベルを永続的に予測する。 バックドア攻撃は画像領域で広く研究されているが、ビデオ領域でそのような攻撃を探索する研究はほとんどなく、ビデオ領域では画像バックドア攻撃は効果が低いと結論付ける傾向にある。 この作業では、従来のバックドア脅威モデルを再検討し、そのモデルにビデオ関連の側面を追加する。 有毒ラベル画像のバックドア攻撃は静的かつ動的に2つの時間的拡張が可能であり,ビデオ領域で高い効果が得られた。 さらに,ビデオ領域におけるこの脆弱性の深刻さを強調するために,自然ビデオバックドアを探索する。 また,ビデオ行動認識モデルに対するマルチモーダル(オービジュアル)バックドアアタックを初めて検討したところ,単一のモダリティの攻撃は高い攻撃成功率を達成するのに十分であることがわかった。

Deep neural networks (DNNs) are vulnerable to a class of attacks called "backdoor attacks", which create an association between a backdoor trigger and a target label the attacker is interested in exploiting. A backdoored DNN performs well on clean test images, yet persistently predicts an attacker-defined label for any sample in the presence of the backdoor trigger. Although backdoor attacks have been extensively studied in the image domain, there are very few works that explore such attacks in the video domain, and they tend to conclude that image backdoor attacks are less effective in the video domain. In this work, we revisit the traditional backdoor threat model and incorporate additional video-related aspects to that model. We show that poisoned-label image backdoor attacks could be extended temporally in two ways, statically and dynamically, leading to highly effective attacks in the video domain. In addition, we explore natural video backdoors to highlight the seriousness of this vulnerability in the video domain. And, for the first time, we study multi-modal (audiovisual) backdoor attacks against video action recognition models, where we show that attacking a single modality is enough for achieving a high attack success rate.
翻訳日:2023-01-04 14:22:06 公開日:2023-01-03
# ドメインシフトとラベルノイズ下での病理像を用いた共通不確実性推定手法のベンチマーク

Benchmarking common uncertainty estimation methods with histopathological images under domain shift and label noise ( http://arxiv.org/abs/2301.01054v1 )

ライセンス: Link先を確認
Hendrik A. Mehrtens, Alexander Kurz, Tabea-Clara Bucher, Titus J. Brinker(参考訳) 近年,病理組織学的応用分野におけるディープラーニングの利用が増加している。 しかし、これらのアプローチは大きな可能性を秘めているが、高リスク環境では、ディープラーニングモデルが自身の不確実性を判断し、大きな誤分類の可能性がある場合に入力を拒否できる必要がある。 本研究では,H\&E染色Camelyon17乳がんデータセットを用いて,領域シフト下でのWhole-Slide-Imagesの分類において,最もよく用いられる不確実性と堅牢性について厳密な評価を行った。 病理学的データは強いドメインシフトとラベルノイズの影響を受けることが知られているが、我々の知る限り、これらの点において最も一般的な不確実性推定法と比較した最初の研究である。 実験では,確率的変分推論,モンテカルロ・ドロップアウト,深層アンサンブル,テスト時間データ拡張,それらの組み合わせを比較した。 提案手法のアンサンブルは一般に高い精度とより良いキャリブレーションにつながり、テスト時のデータ拡張は適切な拡張集合を選択する際に有望な代替手段となることを観察する。 方法全体では、最も不確実なタイルの拒絶は、分布内および分布外データの両方の分類精度を著しく向上させる。 さらに,これらの手法をラベルノイズの異なる条件下で比較する実験を行った。 我々は,Camelyon17データセットの境界領域がラベルノイズにさらされていることを観察し,異なるノイズレベルに対する包含された手法の堅牢性を評価する。 最後に,病理組織学的データに対する不確実性推定のさらなる研究を促進するために,コードフレームワークを公開する。

In the past years, deep learning has seen an increase of usage in the domain of histopathological applications. However, while these approaches have shown great potential, in high-risk environments deep learning models need to be able to judge their own uncertainty and be able to reject inputs when there is a significant chance of misclassification. In this work, we conduct a rigorous evaluation of the most commonly used uncertainty and robustness methods for the classification of Whole-Slide-Images under domain shift using the H\&E stained Camelyon17 breast cancer dataset. Although it is known that histopathological data can be subject to strong domain shift and label noise, to our knowledge this is the first work that compares the most common methods for uncertainty estimation under these aspects. In our experiments, we compare Stochastic Variational Inference, Monte-Carlo Dropout, Deep Ensembles, Test-Time Data Augmentation as well as combinations thereof. We observe that ensembles of methods generally lead to higher accuracies and better calibration and that Test-Time Data Augmentation can be a promising alternative when choosing an appropriate set of augmentations. Across methods, a rejection of the most uncertain tiles leads to a significant increase in classification accuracy on both in-distribution as well as out-of-distribution data. Furthermore, we conduct experiments comparing these methods under varying conditions of label noise. We observe that the border regions of the Camelyon17 dataset are subject to label noise and evaluate the robustness of the included methods against different noise levels. Lastly, we publish our code framework to facilitate further research on uncertainty estimation on histopathological data.
翻訳日:2023-01-04 14:21:44 公開日:2023-01-03
# 圧縮更新による時間差学習:Error-Feedbackによる強化学習

Temporal Difference Learning with Compressed Updates: Error-Feedback meets Reinforcement Learning ( http://arxiv.org/abs/2301.00944v1 )

ライセンス: Link先を確認
Aritra Mitra, George J. Pappas, and Hamed Hassani(参考訳) 大規模機械学習において、最近の研究は、通信ボトルネックを軽減するために確率的最適化における勾配圧縮の効果を研究している。 これらの研究は、確率勾配降下(SGD)が量子化、スパーシフィケーション、遅延などの構造的摂動に対して頑健であることを示した。 おそらく意外なことに、大規模なマルチエージェント強化学習への関心が高まっているにもかかわらず、同様の質問についてはほとんど何も知られていない。 本稿では,従来の時間差(TD)学習アルゴリズムの変種を摂動更新方向で解析し,一般的な圧縮演算子を用いて摂動をモデル化する手法を提案する。 我々の主要な技術的貢献は、圧縮されたtdアルゴリズムが、最適化に広く使われるエラーフィードバック機構と結合し、sgdアルゴリズムと同じ非漸近的理論保証を示すことを示すことである。 その結果,非線形確率近似アルゴリズムとマルチエージェント設定に大きく拡張した。 特に,マルチエージェントTD学習において,エージェント毎に$\tilde{O}(1)$ bitsを通信しながら,エージェント数の線形収束高速化を実現することができることを示す。 本研究は,線形関数近似とマルコフサンプリングを用いた一般圧縮演算子と誤差フィードバックを考慮したrlにおける有限時間結果を提供する最初の研究である。 解析は,誤りフィードバックによって導入されたメモリ変数のダイナミックスを捉える新しいリアプノフ関数のドリフトについて考察する。

In large-scale machine learning, recent works have studied the effects of compressing gradients in stochastic optimization in order to alleviate the communication bottleneck. These works have collectively revealed that stochastic gradient descent (SGD) is robust to structured perturbations such as quantization, sparsification, and delays. Perhaps surprisingly, despite the surge of interest in large-scale, multi-agent reinforcement learning, almost nothing is known about the analogous question: Are common reinforcement learning (RL) algorithms also robust to similar perturbations? In this paper, we investigate this question by studying a variant of the classical temporal difference (TD) learning algorithm with a perturbed update direction, where a general compression operator is used to model the perturbation. Our main technical contribution is to show that compressed TD algorithms, coupled with an error-feedback mechanism used widely in optimization, exhibit the same non-asymptotic theoretical guarantees as their SGD counterparts. We then extend our results significantly to nonlinear stochastic approximation algorithms and multi-agent settings. In particular, we prove that for multi-agent TD learning, one can achieve linear convergence speedups in the number of agents while communicating just $\tilde{O}(1)$ bits per agent at each time step. Our work is the first to provide finite-time results in RL that account for general compression operators and error-feedback in tandem with linear function approximation and Markovian sampling. Our analysis hinges on studying the drift of a novel Lyapunov function that captures the dynamics of a memory variable introduced by error feedback.
翻訳日:2023-01-04 14:20:53 公開日:2023-01-03
# ClusTop: 教師なしおよび統合されたテキストクラスタリングとトピック抽出フレームワーク

ClusTop: An unsupervised and integrated text clustering and topic extraction framework ( http://arxiv.org/abs/2301.00818v1 )

ライセンス: Link先を確認
Zhongtao Chen, Chenghu Mi, Siwei Duo, Jingfei He, Yatong Zhou(参考訳) テキストクラスタリングとトピック抽出は、テキストマイニングにおける2つの重要なタスクである。 通常、これら2つの作業は別々に行われる。 トピック抽出がクラスタリングを容易にするためには,まずテキストをトピック空間に投影し,クラスタリングアルゴリズムでクラスタリングを行う。 クラスタリングによるトピック抽出を促進するため,まずクラスタリングアルゴリズムを用いてクラスタを抽出し,クラスタ固有のトピックを抽出する。 しかし,このナイーブ戦略は,テキストクラスタリングとトピック抽出が強く相関し,ニワトリと卵の関係に従うという事実を無視している。 個別に行うことは、最高の全体的なパフォーマンスを達成するために互いに利益を与え合うのに失敗する。 本稿では,テキストクラスタリングとトピック抽出を統合されたフレームワークに統合し,高品質なクラスタリング結果を達成し,各クラスタからトピックを同時に抽出する,教師なしテキストクラスタリングとトピック抽出フレームワーク(ClusTop)を提案する。 フレームワークには,拡張言語モデルトレーニング,次元縮小,クラスタリング,トピック抽出の4つのコンポーネントが含まれており,拡張言語モデルをクラスタリングとトピック抽出の橋渡しと見なすことができる。 一方,本システムは,テキストクラスタリングを効果的に行うための強力なクラスタ構造を備えたテキスト埋め込みを提供する一方で,自己注意型アーキテクチャのため,トピック抽出のための話題関連単語に注意を払っている。 さらに、強化された言語モデルの訓練は監督されない。 2つのデータセットにおける実験は、このフレームワークの有効性を示し、このフレームワークで異なるモデルの組み合わせのベンチマークを提供する。

Text clustering and topic extraction are two important tasks in text mining. Usually, these two tasks are performed separately. For topic extraction to facilitate clustering, we can first project texts into a topic space and then perform a clustering algorithm to obtain clusters. To promote topic extraction by clustering, we can first obtain clusters with a clustering algorithm and then extract cluster-specific topics. However, this naive strategy ignores the fact that text clustering and topic extraction are strongly correlated and follow a chicken-and-egg relationship. Performing them separately fails to make them mutually benefit each other to achieve the best overall performance. In this paper, we propose an unsupervised text clustering and topic extraction framework (ClusTop) which integrates text clustering and topic extraction into a unified framework and can achieve high-quality clustering result and extract topics from each cluster simultaneously. Our framework includes four components: enhanced language model training, dimensionality reduction, clustering and topic extraction, where the enhanced language model can be viewed as a bridge between clustering and topic extraction. On one hand, it provides text embeddings with a strong cluster structure which facilitates effective text clustering; on the other hand, it pays high attention on the topic related words for topic extraction because of its self-attention architecture. Moreover, the training of enhanced language model is unsupervised. Experiments on two datasets demonstrate the effectiveness of our framework and provide benchmarks for different model combinations in this framework.
翻訳日:2023-01-04 14:20:07 公開日:2023-01-03
# 協調フィルタリング方式における多次元項目応答理論

Multidimensional Item Response Theory in the Style of Collaborative Filtering ( http://arxiv.org/abs/2301.00909v1 )

ライセンス: Link先を確認
Yoav Bergner, Peter F. Halpin, Jill-J\^enn Vie(参考訳) 本稿では,多次元項目応答理論(MIRT)に対する機械学習手法を提案する。 協調フィルタリングに触発されて、多くのMIRTモデルを含むモデルの一般的なクラスを定義します。 本稿では, 個人モデルとクロスバリデーションを推定し, 最高の性能モデルを選択するために, ペナルティ付き関節最大度(JML)の使用について論じる。 このモデル評価プロセスは、大規模データのスパースを効率的に分析できるように、バッチ技術を用いて最適化することができる。 シミュレーションと実データを用いて,大規模オープンオンラインコース(mooc)の例を含め,我々のアプローチを例示する。 この巨大でスパースなデータセットに適合する高次元モデルは、従来の因子解釈の方法には適していない。 推薦システムアプリケーションに類似して,本コースのオープンブック試験において紹介された項目の人気に関する補助情報を用いて,因子モデルの代替「検証」を提案する。

This paper presents a machine learning approach to multidimensional item response theory (MIRT), a class of latent factor models that can be used to model and predict student performance from observed assessment data. Inspired by collaborative filtering, we define a general class of models that includes many MIRT models. We discuss the use of penalized joint maximum likelihood (JML) to estimate individual models and cross-validation to select the best performing model. This model evaluation process can be optimized using batching techniques, such that even sparse large-scale data can be analyzed efficiently. We illustrate our approach with simulated and real data, including an example from a massive open online course (MOOC). The high-dimensional model fit to this large and sparse dataset does not lend itself well to traditional methods of factor interpretation. By analogy to recommender-system applications, we propose an alternative "validation" of the factor model, using auxiliary information about the popularity of items consulted during an open-book exam in the course.
翻訳日:2023-01-04 14:14:36 公開日:2023-01-03
# 継続的な治療効果評価 : 課題と機会

Continual Treatment Effect Estimation: Challenges and Opportunities ( http://arxiv.org/abs/2301.01026v1 )

ライセンス: Link先を確認
Zhixuan Chu and Sheng Li(参考訳) 観察データにおける原因と効果のさらなる理解は、経済学、医療、公共政策、ウェブマイニング、オンライン広告、マーケティングキャンペーンなど、多くの分野において重要である。 治療群と対照群の選択バイアスの欠如など,観測データによる因果効果推定の課題を克服するために大きな進歩があったが,既存の手法は主にソース固有および定常観測データに焦点を当てている。 このような学習戦略は、すべての観測データは、トレーニングフェーズと1つのソースで既に利用可能であると仮定する。 このアクセシビリティに関する実践的な懸念は、様々な学術的、産業的応用においてユビキタスである。 ビッグデータの時代では、観測データによる因果推論、つまり、漸進的に利用可能な観測データの拡張性、治療と制御グループの不均衡を除く余分なドメイン適応問題への適応性、膨大な量のデータに対するアクセシビリティといった、新たな課題に直面しています。 本稿では, 連続処理効果推定の問題を正式に定義し, その研究課題を解説し, この問題に対する解決策を提示する。 また,今後の研究の方向性についても論じる。

A further understanding of cause and effect within observational data is critical across many domains, such as economics, health care, public policy, web mining, online advertising, and marketing campaigns. Although significant advances have been made to overcome the challenges in causal effect estimation with observational data, such as missing counterfactual outcomes and selection bias between treatment and control groups, the existing methods mainly focus on source-specific and stationary observational data. Such learning strategies assume that all observational data are already available during the training phase and from only one source. This practical concern of accessibility is ubiquitous in various academic and industrial applications. That's what it boiled down to: in the era of big data, we face new challenges in causal inference with observational data, i.e., the extensibility for incrementally available observational data, the adaptability for extra domain adaptation problem except for the imbalance between treatment and control groups, and the accessibility for an enormous amount of data. In this position paper, we formally define the problem of continual treatment effect estimation, describe its research challenges, and then present possible solutions to this problem. Moreover, we will discuss future research directions on this topic.
翻訳日:2023-01-04 14:14:20 公開日:2023-01-03
# 線形鎖条件付きランダム場、隠れマルコフモデルおよび関連する分類器

Linear chain conditional random fields, hidden Markov models, and related classifiers ( http://arxiv.org/abs/2301.01293v1 )

ライセンス: Link先を確認
Elie Azeraf, Emmanuel Monfrini, Wojciech Pieczynski(参考訳) 実践者は60年間、異なる問題に隠れマルコフモデル(HMM)を使用する。 さらに、条件付き確率場(crfs)はhmmの代替であり、異なるモデルと幾分並行モデルとして文献に現れる。 我々は2つの貢献を提案する。 まず, LC-CRF と異なる基本線形鎖 CRF (LC-CRF) は, 各 LC-CRF に対して HMM が存在し, 後部分布が与えられた LC-CRF と同一であることを示す。 第2に,HMMで使用される生成ベイズ分類器の最大後モード (MPM) と最大後モード (MAP) を識別的に再構成可能であることを示す。 最後のポイントは、特に自然言語処理(NLP)において多くの分野において重要である。

Practitioners use Hidden Markov Models (HMMs) in different problems for about sixty years. Besides, Conditional Random Fields (CRFs) are an alternative to HMMs and appear in the literature as different and somewhat concurrent models. We propose two contributions. First, we show that basic Linear-Chain CRFs (LC-CRFs), considered as different from the HMMs, are in fact equivalent to them in the sense that for each LC-CRF there exists a HMM - that we specify - whom posterior distribution is identical to the given LC-CRF. Second, we show that it is possible to reformulate the generative Bayesian classifiers Maximum Posterior Mode (MPM) and Maximum a Posteriori (MAP) used in HMMs, as discriminative ones. The last point is of importance in many fields, especially in Natural Language Processing (NLP), as it shows that in some situations dropping HMMs in favor of CRFs was not necessary.
翻訳日:2023-01-04 14:13:58 公開日:2023-01-03
# 映像の空間的視点による高能率ロバストネス評価

Efficient Robustness Assessment via Adversarial Spatial-Temporal Focus on Videos ( http://arxiv.org/abs/2301.00896v1 )

ライセンス: Link先を確認
Wei Xingxing and Wang Songping and Yan Huanqian(参考訳) ビデオ認識モデルに対する敵対的ロバスト性評価は、安全クリティカルなタスクに対する広範囲の応用が懸念されている。 画像と比較すると、ビデオは高次元であり、逆動画を生成する際に膨大な計算コストがかかる。 これは特に、脅威モデルの勾配推定が一般的に利用され、高次元が大量のクエリに繋がるクエリベースのブラックボックス攻撃に対して深刻である。 そこで本研究では,映像内の時間的冗長性と空間的冗長性を同時に排除し,検索空間の縮小による効率的かつ効率的な勾配推定を実現することを提案する。 このアイデアを実現するために,ビデオ内のフレーム間およびフレーム内から集中したキーフレームとキー領域を同時に攻撃する,新しいアストラクショナル空間時間焦点攻撃(AstFocus)を設計する。 AstFocus攻撃はMARL(Multi-Agent Reinforcement Learning)フレームワークに基づいている。 ひとつのエージェントがキーフレームを選択し、別のエージェントがキー領域を選択する責務を負う。 これら2つのエージェントは、協調予測を行うブラックボックス脅威モデルから受け取った共通の報酬によって共同で訓練される。 連続的なクエリにより、キーフレームとキー領域からなる縮小された検索空間が正確になり、クエリ番号全体が元のビデオより小さくなっている。 4つの主流なビデオ認識モデルと3つの広く使われているアクション認識データセットに関する大規模な実験により、提案されたAstFocus攻撃は、不正率、クエリ数、時間、摂動等級を同時に上回るSOTA手法を示す。

Adversarial robustness assessment for video recognition models has raised concerns owing to their wide applications on safety-critical tasks. Compared with images, videos have much high dimension, which brings huge computational costs when generating adversarial videos. This is especially serious for the query-based black-box attacks where gradient estimation for the threat models is usually utilized, and high dimensions will lead to a large number of queries. To mitigate this issue, we propose to simultaneously eliminate the temporal and spatial redundancy within the video to achieve an effective and efficient gradient estimation on the reduced searching space, and thus query number could decrease. To implement this idea, we design the novel Adversarial spatial-temporal Focus (AstFocus) attack on videos, which performs attacks on the simultaneously focused key frames and key regions from the inter-frames and intra-frames in the video. AstFocus attack is based on the cooperative Multi-Agent Reinforcement Learning (MARL) framework. One agent is responsible for selecting key frames, and another agent is responsible for selecting key regions. These two agents are jointly trained by the common rewards received from the black-box threat models to perform a cooperative prediction. By continuously querying, the reduced searching space composed of key frames and key regions is becoming precise, and the whole query number becomes less than that on the original video. Extensive experiments on four mainstream video recognition models and three widely used action recognition datasets demonstrate that the proposed AstFocus attack outperforms the SOTA methods, which is prevenient in fooling rate, query number, time, and perturbation magnitude at the same.
翻訳日:2023-01-04 14:13:40 公開日:2023-01-03
# 語彙インフォームドゼロショットとオープンセット学習

Vocabulary-informed Zero-shot and Open-set Learning ( http://arxiv.org/abs/2301.00998v1 )

ライセンス: Link先を確認
Yanwei Fu, Xiaomei Wang, Hanze Dong, Yu-Gang Jiang, Meng Wang, Xiangyang Xue, Leonid Sigal(参考訳) オブジェクト分類の大幅な進歩にもかかわらず、近年では、ラベル付きデータから学習し、大きな、潜在的にオープンなラベルセット内でオブジェクトクラスを認識する能力など、多くの重要な課題が残っている。 ゼロショット学習はこれらの課題に対処する方法の1つであるが、限られたサイズのクラス語彙でのみ機能することが示されており、通常は教師なしクラスと教師なしクラスを分離する必要がある。 本稿では,上記の課題を軽減し,教師付き,ゼロショット,一般化されたゼロショット,オープンセット認識の問題を統一フレームワークを用いて解決するための語彙非形式学習の概念を提案する。 具体的には、(教師なしおよび教師なし)語彙原子間の距離制約を組み込んだ、意味多様体に基づく認識のための重み付き最大マージンフレームワークを提案する。 距離制約によりラベル付きサンプルは、埋め込み空間において、他のものよりも正しいプロトタイプに近い位置に投影される。 得られたモデルは、教師付き、ゼロショット、一般化されたゼロショット、および大きなオープンセット認識の改善を示し、Animal with AttributesとImageNetデータセットで最大310Kの語彙を持つ。

Despite significant progress in object categorization, in recent years, a number of important challenges remain; mainly, the ability to learn from limited labeled data and to recognize object classes within large, potentially open, set of labels. Zero-shot learning is one way of addressing these challenges, but it has only been shown to work with limited sized class vocabularies and typically requires separation between supervised and unsupervised classes, allowing former to inform the latter but not vice versa. We propose the notion of vocabulary-informed learning to alleviate the above mentioned challenges and address problems of supervised, zero-shot, generalized zero-shot and open set recognition using a unified framework. Specifically, we propose a weighted maximum margin framework for semantic manifold-based recognition that incorporates distance constraints from (both supervised and unsupervised) vocabulary atoms. Distance constraints ensure that labeled samples are projected closer to their correct prototypes, in the embedding space, than to others. We illustrate that resulting model shows improvements in supervised, zero-shot, generalized zero-shot, and large open set recognition, with up to 310K class vocabulary on Animal with Attributes and ImageNet datasets.
翻訳日:2023-01-04 14:13:11 公開日:2023-01-03
# 構造とデータ分析による連続学習の分離

Dissecting Continual Learning a Structural and Data Analysis ( http://arxiv.org/abs/2301.01033v1 )

ライセンス: Link先を確認
Francesco Pelosin(参考訳) CL(Continuous Learning)は、生涯学習が可能なアルゴリズムを考案するための分野である。 先程取得した概念の知識の破壊、ディープラーニングモデルに影響する欠点、破滅的な忘れ方という名の欠点を克服することは、難しい課題です。 現在、ディープラーニングの手法は、データモデルがその後の学習セッションでかなりの分散シフトを起こさないと印象的な結果が得られるが、このようなシステムをこのインクリメンタルな設定で公開すると、パフォーマンスは急速に低下する。 この制限を克服することは、安定性と可塑性を示す真にインテリジェントなシステムを構築する上で、基本的なことです。 第二に、新しい更新データでこれらのアーキテクチャをスクラッチから再トレーニングするという、面倒な制限を克服できるでしょう。 本論文では,複数の方向からこの問題に取り組む。 最初の研究では、リハーサルベースの手法(メモリバッファを使用するシステム)において、リハーサルバッファに格納されるデータの量は、データの品質よりも重要な要素であることが示されている。 第2に,ViTsアーキテクチャにおける漸進的学習の初期の成果の一つとして,機能的,重み付け,注目の正則化アプローチを比較し,新規な非対称損失を提案する。 最後に、プレトレーニングが継続的な学習におけるパフォーマンスに与える影響についての研究を行い、フィールドの効果的な進行についていくつかの疑問を提起する。 その後、今後の方向性と最終発言で締めくくります。

Continual Learning (CL) is a field dedicated to devise algorithms able to achieve lifelong learning. Overcoming the knowledge disruption of previously acquired concepts, a drawback affecting deep learning models and that goes by the name of catastrophic forgetting, is a hard challenge. Currently, deep learning methods can attain impressive results when the data modeled does not undergo a considerable distributional shift in subsequent learning sessions, but whenever we expose such systems to this incremental setting, performance drop very quickly. Overcoming this limitation is fundamental as it would allow us to build truly intelligent systems showing stability and plasticity. Secondly, it would allow us to overcome the onerous limitation of retraining these architectures from scratch with the new updated data. In this thesis, we tackle the problem from multiple directions. In a first study, we show that in rehearsal-based techniques (systems that use memory buffer), the quantity of data stored in the rehearsal buffer is a more important factor over the quality of the data. Secondly, we propose one of the early works of incremental learning on ViTs architectures, comparing functional, weight and attention regularization approaches and propose effective novel a novel asymmetric loss. At the end we conclude with a study on pretraining and how it affects the performance in Continual Learning, raising some questions about the effective progression of the field. We then conclude with some future directions and closing remarks.
翻訳日:2023-01-04 14:12:50 公開日:2023-01-03
# フレームによる模倣学習の解説

Explaining Imitation Learning through Frames ( http://arxiv.org/abs/2301.01088v1 )

ライセンス: Link先を確認
Boyuan Zheng, Jianlong Zhou, Chunjie Liu, Yiqiao Li and Fang Chen(参考訳) 自動化システムを実現するための一般的な方法の1つとして、Imitation Learning (IL)は幅広い領域で有望なパフォーマンスを示す。 しかし、政策性能の大幅な改善にもかかわらず、ILモデルの説明可能性に関する対応する研究はまだ限られている。 近年の人工知能手法のアプローチに触発されて,ilモデルのモデル非依存な説明フレームワークであるr2riseを提案した。 R2RISEは、デモのフレームに関する全体的なポリシーパフォーマンスを説明することを目的としている。 ランダムにマスクされたデモからブラックボックスILモデルを反復的に再トレーニングし、従来の評価結果環境を係数として返却して重要マップを構築する。 また,フレームの重要性等性,重要度マップの有効性,異なるilモデルからの重要度マップ間の接続性に関する3つの主要な質問について検討した。 その結果、R2RISEは重要なフレームとデモを区別することに成功した。

As one of the prevalent methods to achieve automation systems, Imitation Learning (IL) presents a promising performance in a wide range of domains. However, despite the considerable improvement in policy performance, the corresponding research on the explainability of IL models is still limited. Inspired by the recent approaches in explainable artificial intelligence methods, we proposed a model-agnostic explaining framework for IL models called R2RISE. R2RISE aims to explain the overall policy performance with respect to the frames in demonstrations. It iteratively retrains the black-box IL model from the randomized masked demonstrations and uses the conventional evaluation outcome environment returns as the coefficient to build an importance map. We also conducted experiments to investigate three major questions concerning frames' importance equality, the effectiveness of the importance map, and connections between importance maps from different IL models. The result shows that R2RISE successfully distinguishes important frames from the demonstrations.
翻訳日:2023-01-04 14:12:26 公開日:2023-01-03
# 神経崩壊による不均衡意味セグメンテーションの理解

Understanding Imbalanced Semantic Segmentation Through Neural Collapse ( http://arxiv.org/abs/2301.01100v1 )

ライセンス: Link先を確認
Zhisheng Zhong, Jiequan Cui, Yibo Yang, Xiaoyang Wu, Xiaojuan Qi, Xiangyu Zhang, Jiaya Jia(参考訳) 最近の研究では、分類のための訓練の終盤において、特徴のクラス内平均と分類器重みベクトルが単純等角タイトフレームの頂点に収束する、神経崩壊と呼ばれる現象が示されている。 本稿では,意味セグメンテーションにおけるラスト層特徴中心と分類器の構造について検討する。 経験的および理論的分析から,セマンティックセグメンテーションは文脈的相関とクラス間の不均衡分布を自然に引き起こし,特徴中心と分類器の両方において,等角的および最大分離された神経崩壊の構造を破ることを示した。 しかし、そのような対称構造は、マイノリティクラスに対する差別に有益である。 これらの利点を維持するため,機能中心にレギュレータを導入し,不均衡なセマンティックセグメンテーションにおける魅力構造に近い特徴の学習を促す。 実験の結果,本手法は2次元と3次元のセマンティクスセグメンテーションベンチマークにおいて有意な改善をもたらすことがわかった。 さらに,本手法は1位にランク付けし,scannet200テストリーダボードに新しい記録(+6.8%miou)を設定する。 コードはhttps://github.com/dvlab-research/imbalanced-learningで入手できる。

A recent study has shown a phenomenon called neural collapse in that the within-class means of features and the classifier weight vectors converge to the vertices of a simplex equiangular tight frame at the terminal phase of training for classification. In this paper, we explore the corresponding structures of the last-layer feature centers and classifiers in semantic segmentation. Based on our empirical and theoretical analysis, we point out that semantic segmentation naturally brings contextual correlation and imbalanced distribution among classes, which breaks the equiangular and maximally separated structure of neural collapse for both feature centers and classifiers. However, such a symmetric structure is beneficial to discrimination for the minor classes. To preserve these advantages, we introduce a regularizer on feature centers to encourage the network to learn features closer to the appealing structure in imbalanced semantic segmentation. Experimental results show that our method can bring significant improvements on both 2D and 3D semantic segmentation benchmarks. Moreover, our method ranks 1st and sets a new record (+6.8% mIoU) on the ScanNet200 test leaderboard. Code will be available at https://github.com/dvlab-research/Imbalanced-Learning.
翻訳日:2023-01-04 14:12:14 公開日:2023-01-03
# タンパク-リガンド複合発電機とタイヤテンソル変換による薬物スクリーニング

Protein-Ligand Complex Generator & Drug Screening via Tiered Tensor Transform ( http://arxiv.org/abs/2301.00984v1 )

ライセンス: Link先を確認
Jonathan P. Mailoa, Zhaofeng Ye, Jiezhong Qiu, Chang-Yu Hsieh, Shengyu Zhang(参考訳) 標的タンパク質ポケットにおける小分子候補(リガンド)結合の正確な決定は、コンピュータ支援薬物発見に重要である。 典型的な剛体ドッキング法はタンパク質のポケットの柔軟性を無視するが、分子動力学を用いたより正確なポーズ生成は低速タンパク質動力学によって妨げられる。 本研究では, 薬物スクリーニングにおける多種多様なタンパク質-リガンド複合体コンホメーションを高速に生成するタイトテンソル変換(3T)アルゴリズムを開発し, 複雑なポケットの粗い粒状配位タンパク質ダイナミクスと原子レベルの詳細を維持しながら, 機械学習トレーニングも長大な動的計算も必要としない。 我々が生成する3t配座構造は、ドッキングソフトウェアによって生成されるものよりも実験的な共結晶構造に近いため、数百の実験タンパク質配座を用いた従来のアンサンブルドッキングよりも、より重要な活性配座分類の精度が向上している。 3T構造変換はシステム物理学から切り離され、他の計算科学領域で将来利用できるようになる。

Accurate determination of a small molecule candidate (ligand) binding pose in its target protein pocket is important for computer-aided drug discovery. Typical rigid-body docking methods ignore the pocket flexibility of protein, while the more accurate pose generation using molecular dynamics is hindered by slow protein dynamics. We develop a tiered tensor transform (3T) algorithm to rapidly generate diverse protein-ligand complex conformations for both pose and affinity estimation in drug screening, requiring neither machine learning training nor lengthy dynamics computation, while maintaining both coarse-grain-like coordinated protein dynamics and atomistic-level details of the complex pocket. The 3T conformation structures we generate are closer to experimental co-crystal structures than those generated by docking software, and more importantly achieve significantly higher accuracy in active ligand classification than traditional ensemble docking using hundreds of experimental protein conformations. 3T structure transformation is decoupled from the system physics, making future usage in other computational scientific domains possible.
翻訳日:2023-01-04 14:11:51 公開日:2023-01-03
# スロー状態凍結による高速近似動的プログラミング

Faster Approximate Dynamic Programming by Freezing Slow States ( http://arxiv.org/abs/2301.00922v1 )

ライセンス: Link先を確認
Yijia Wang, Daniel R. Jiang(参考訳) 高速な構造を持つ無限地平面マルコフ決定過程(MDPs)を考えると、状態空間の特定の部分がより速く(そしてある意味ではより影響力のある)移動し、他の部分はより緩やかに遷移する。 このような構造は、高頻度でシーケンシャルな決定を行う必要がある実世界の問題では一般的であるが、より遅い時間スケールで異なる情報が最適ポリシーに影響を与える。 例えば、(1)確率的コストの低い(ゆっくりと変化する)マルチクラスキューのサービス割り当て、(2)環境状態のレスレスマルチアームバンディット、(3)日頭とリアルタイムの両方の価格が会社の収益に寄与するエネルギー需要応答などである。 これらの問題を完全に捉えたモデルは、しばしば大きな状態空間と(頻繁な決定のため)大きな有効時間水平線を持つMDPとなり、計算的に難解になる。 より単純な有限水平MDP(下層MDP)の集合を解き、より遅い時間スケール(上層MDP)で遷移する補助MDPに値反復(VI)を適用することにより、スロー状態の「凍結」という考え方に基づく近似動的プログラミングアルゴリズムフレームワークを提案する。 また,この手法を機能ベースの線形アーキテクチャを用いた関数近似設定にも拡張した。 理論的には、凍結状態アプローチの各変種によって引き起こされた後悔を分析する。 最後に、凍結状態アプローチが計算コストのごく一部を使って効果的な政策を生成するという実証的な証拠を与える一方で、決定モデルから遅い状態を単純に省略することは、しばしば実現可能なヒューリスティックではないことを示す。

We consider infinite horizon Markov decision processes (MDPs) with fast-slow structure, meaning that certain parts of the state space move "fast" (and in a sense, are more influential) while other parts transition more "slowly." Such structure is common in real-world problems where sequential decisions need to be made at high frequencies, yet information that varies at a slower timescale also influences the optimal policy. Examples include: (1) service allocation for a multi-class queue with (slowly varying) stochastic costs, (2) a restless multi-armed bandit with an environmental state, and (3) energy demand response, where both day-ahead and real-time prices play a role in the firm's revenue. Models that fully capture these problems often result in MDPs with large state spaces and large effective time horizons (due to frequent decisions), rendering them computationally intractable. We propose an approximate dynamic programming algorithmic framework based on the idea of "freezing" the slow states, solving a set of simpler finite-horizon MDPs (the lower-level MDPs), and applying value iteration (VI) to an auxiliary MDP that transitions on a slower timescale (the upper-level MDP). We also extend the technique to a function approximation setting, where a feature-based linear architecture is used. On the theoretical side, we analyze the regret incurred by each variant of our frozen-state approach. Finally, we give empirical evidence that the frozen-state approach generates effective policies using just a fraction of the computational cost, while illustrating that simply omitting slow states from the decision modeling is often not a viable heuristic.
翻訳日:2023-01-04 14:11:28 公開日:2023-01-03
# ディープニューラルネットワークにおける情報リレー検出

Detecting Information Relays in Deep Neural Networks ( http://arxiv.org/abs/2301.00911v1 )

ライセンス: Link先を確認
Arend Hintze (Dalarna University) and Christoph Adami (Michigan State University)(参考訳) ニューラルネットワーク(anns)のディープラーニングは、残念ながら、自然なものと同じくらい解釈が難しい、高度に機能的なツールを生み出している。 fMRIなどの技術を用いて、自然脳の機能的モジュールを同定することは可能であるが、我々は、人工ニューラルネットワークの同様に堅牢な方法を持っていない。 理想的には、ニューラルネットワークのどの部分がどの機能を実行するかを理解することは、破滅的な忘れや過剰なフィッティングなど、an研究における多くの厄介な問題に対処するのに役立ちます。 さらに、ネットワークのモジュール性を明らかにすることで、これらのブラックボックスをより透明にすることで、ネットワークに対する信頼を高めることができます。 ここでは,ネットワークの機能的モジュラリティの理解と解析に有用な情報理論を新たに導入する:リレー情報$I_R$。 リレー情報は、特定の機能(モジュール)に参加するニューロンの情報グループが、入力から出力へのリレー数を測定する。 欲深い検索アルゴリズムと組み合わせることで、ニューラルネットワークの計算モジュールを識別するためにリレー情報を利用することができる。 また,モジュールの機能は,保持するリレー情報の量と相関していることを示す。

Deep-learning of artificial neural networks (ANNs) is creating highly functional tools that are, unfortunately, as hard to interpret as their natural counterparts. While it is possible to identify functional modules in natural brains using technologies such as fMRI, we do not have at our disposal similarly robust methods for artificial neural networks. Ideally, understanding which parts of an artificial neural network perform what function might help us to address a number of vexing problems in ANN research, such as catastrophic forgetting and overfitting. Furthermore, revealing a network's modularity could improve our trust in them by making these black boxes more transparent. Here we introduce a new information-theoretic concept that proves useful in understanding and analyzing a network's functional modularity: the relay information $I_R$. The relay information measures how much information groups of neurons that participate in a particular function (modules) relay from inputs to outputs. Combined with a greedy search algorithm, relay information can be used to {\em identify} computational modules in neural networks. We also show that the functionality of modules correlates with the amount of relay information they carry.
翻訳日:2023-01-04 14:05:13 公開日:2023-01-03
# クラス連続条件生成ニューラル放射場

Class-Continuous Conditional Generative Neural Radiance Field ( http://arxiv.org/abs/2301.00950v1 )

ライセンス: Link先を確認
Jiwook Kim and Minhyeok Lee(参考訳) 3D対応画像合成は、細部で高解像度の画像を生成することに加えて、空間の一貫性を維持することに焦点を当てている。 近年,計算コストが低く,性能も優れた新しいビューを合成するためにNeRF(Neural Radiance Field)が導入されている。 いくつかの研究が生成性NeRFを調査し、顕著な成果を示したが、生成過程における条件付きおよび連続的な特徴操作は処理できない。 本研究では, 条件付き3次元連続画像の合成を, 条件付き特徴を生成器と識別器に投影することで行う, クラス連続条件生成型NeRF ("\text{C}^{3}$G-NeRF") という新しいモデルを提案する。 提案した$\text{C}^{3}$G-NeRFは、AFHQ、CelebA、Carsの3つの画像データセットで評価される。 その結果,条件付き特徴操作における細部とスムーズな補間による3次元整合性を示す。 例えば、$\text{C}^{3}$G-NeRFは、$\text{128}^{2}$の解像度を持つ3D認識顔画像合成において、7.64のFr\echet Inception Distance (FID)を示す。 さらに、データセットの各クラスの生成された3D対応画像のFIDを提供し、$\text{C}^{3}$G-NeRFでクラス条件画像の合成を可能にする。

The 3D-aware image synthesis focuses on conserving spatial consistency besides generating high-resolution images with fine details. Recently, Neural Radiance Field (NeRF) has been introduced for synthesizing novel views with low computational cost and superior performance. While several works investigate a generative NeRF and show remarkable achievement, they cannot handle conditional and continuous feature manipulation in the generation procedure. In this work, we introduce a novel model, called Class-Continuous Conditional Generative NeRF ($\text{C}^{3}$G-NeRF), which can synthesize conditionally manipulated photorealistic 3D-consistent images by projecting conditional features to the generator and the discriminator. The proposed $\text{C}^{3}$G-NeRF is evaluated with three image datasets, AFHQ, CelebA, and Cars. As a result, our model shows strong 3D-consistency with fine details and smooth interpolation in conditional feature manipulation. For instance, $\text{C}^{3}$G-NeRF exhibits a Fr\'echet Inception Distance (FID) of 7.64 in 3D-aware face image synthesis with a $\text{128}^{2}$ resolution. Additionally, we provide FIDs of generated 3D-aware images of each class of the datasets as it is possible to synthesize class-conditional images with $\text{C}^{3}$G-NeRF.
翻訳日:2023-01-04 14:04:55 公開日:2023-01-03
# 組換えトランスを用いた基底画像からの糖尿病網膜症の重症度検出

Detecting Severity of Diabetic Retinopathy from Fundus Images using Ensembled Transformers ( http://arxiv.org/abs/2301.00973v1 )

ライセンス: Link先を確認
Chandranath Adak, Tejas Karkera, Soumi Chattopadhyay, Muhammad Saqib(参考訳) 糖尿病網膜症(DR: Diabetic Retinopathy)は、糖尿病患者の視力低下に影響を及ぼす原因の一つと考えられている。 DRの重症度は大半が眼科医によって手作業で説明されている。 本稿では、DRの重大度ステージの自動理解を扱う。文献では、従来の機械学習ベースのアルゴリズムと畳み込みアーキテクチャを用いて、この自動化に焦点を当てている。 しかし、過去の研究は、モデル性能を改善するために網膜画像の重要な部分にはほとんど焦点を当てていなかった。 本稿では,トランスフォーマーを用いた学習モデルを用いて,網膜画像の重要な特徴を捉え,drの重症度をよりよく理解する。 画像変換器では、ViT(Vision Transformer)、BEiT(Bidirectional Encoder representation for Image Transformer)、CaiT(Class-Attention in Image Transformers)、DeiT(Data efficient Image Transformers)の4つのモデルを用いて、基礎写真からDR重大度を推定する。 実験では、利用可能なAPTOS-2019ブラインドネス検出データセットを使用しました。

Diabetic Retinopathy (DR) is considered one of the primary concerns due to its effect on vision loss among most people with diabetes globally. The severity of DR is mostly comprehended manually by ophthalmologists from fundus photography-based retina images. This paper deals with an automated understanding of the severity stages of DR. In the literature, researchers have focused on this automation using traditional machine learning-based algorithms and convolutional architectures. However, the past works hardly focused on essential parts of the retinal image to improve the model performance. In this paper, we adopt transformer-based learning models to capture the crucial features of retinal images to understand DR severity better. We work with ensembling image transformers, where we adopt four models, namely ViT (Vision Transformer), BEiT (Bidirectional Encoder representation for image Transformer), CaiT (Class-Attention in Image Transformers), and DeiT (Data efficient image Transformers), to infer the degree of DR severity from fundus photographs. For experiments, we used the publicly available APTOS-2019 blindness detection dataset, where the performances of the transformer-based models were quite encouraging.
翻訳日:2023-01-04 14:04:33 公開日:2023-01-03
# 医用画像分類のための視覚トランスフォーマーの新展開

A New Perspective to Boost Vision Transformer for Medical Image Classification ( http://arxiv.org/abs/2301.00989v1 )

ライセンス: Link先を確認
Yuexiang Li, Yawen Huang, Nanjun He, Kai Ma and Yefeng Zheng(参考訳) Transformerは様々なコンピュータビジョンタスクで素晴らしい成功を収めた。 しかし、既存の研究の多くは、医療画像では利用できない満足なパフォーマンスを達成するために、大規模なラベル付きデータセット(例えばImageNet)でTransformerのバックボーンを事前訓練する必要がある。 さらに、医用画像と自然画像のギャップにより、ImageNetの事前訓練した重量による改善は、医療用画像処理タスクに重みを移しながら著しく低下する。 本稿では,トランスフォーマーバックボーンを用いた医用画像分類のための自己教師型学習手法であるBootstrap Own Latent of Transformer (BOLT)を提案する。 我々のBOLTは、自己教師型表現学習のための2つのネットワーク、すなわちオンラインとターゲットブランチで構成されています。 具体的には、オンラインネットワークは、異なる摂動を持つ同じパッチ埋め込みトークンのターゲットネットワーク表現を予測するように訓練される。 限られた医療データからトランスフォーマーの影響を最大化するために,補助的難易度ランキングタスクを提案する。 Transformerは、どのブランチ(オンライン/ターゲット)がより難しい乱れを処理しているかを特定するために強制される。 全体として、トランスフォーマーは、摂動トークンから変換不変な特徴を蒸留し、同時に難易度の測定と自己教師付き表現の一貫性を維持する。 提案するBOLTは, 皮膚病変分類, 膝関節疲労骨折評価, 糖尿病網膜症評価の3つの医療画像処理課題について評価した。 医療画像分類におけるBOLTの優位性は,ImageNetの事前学習量や最先端の自己教師型学習手法と比較して検証した。

Transformer has achieved impressive successes for various computer vision tasks. However, most of existing studies require to pretrain the Transformer backbone on a large-scale labeled dataset (e.g., ImageNet) for achieving satisfactory performance, which is usually unavailable for medical images. Additionally, due to the gap between medical and natural images, the improvement generated by the ImageNet pretrained weights significantly degrades while transferring the weights to medical image processing tasks. In this paper, we propose Bootstrap Own Latent of Transformer (BOLT), a self-supervised learning approach specifically for medical image classification with the Transformer backbone. Our BOLT consists of two networks, namely online and target branches, for self-supervised representation learning. Concretely, the online network is trained to predict the target network representation of the same patch embedding tokens with a different perturbation. To maximally excavate the impact of Transformer from limited medical data, we propose an auxiliary difficulty ranking task. The Transformer is enforced to identify which branch (i.e., online/target) is processing the more difficult perturbed tokens. Overall, the Transformer endeavours itself to distill the transformation-invariant features from the perturbed tokens to simultaneously achieve difficulty measurement and maintain the consistency of self-supervised representations. The proposed BOLT is evaluated on three medical image processing tasks, i.e., skin lesion classification, knee fatigue fracture grading and diabetic retinopathy grading. The experimental results validate the superiority of our BOLT for medical image classification, compared to ImageNet pretrained weights and state-of-the-art self-supervised learning approaches.
翻訳日:2023-01-04 14:04:09 公開日:2023-01-03
# 連続的教師なしドメイン適応のための生成的外観再生

Generative appearance replay for continual unsupervised domain adaptation ( http://arxiv.org/abs/2301.01211v1 )

ライセンス: Link先を確認
Boqi Chen, Kevin Thandiackal, Pushpak Pati, Orcun Goksel(参考訳) ディープラーニングモデルは、大量のラベル付きデータでトレーニングすることで、高い精度を達成することができる。 トレーニングデータはインストール時に利用可能になり、複数の異なるドメインから派生し、トレーニング用のラベルを含まない可能性がある。 特定の設定、例えば医療アプリケーションには、プライバシー規制のために以前に見られたデータの保持を禁止する追加の制限がしばしば含まれている。 本研究では,ドメインシフトを伴う連続学習シナリオにおける教師なしセグメンテーションについて検討する。 そこで我々はGarDA(Generative Appearance Replay for Continual Domain Adaptation)を紹介した。 単一ステップの教師なしドメイン適応(UDA)とは対照的に、一連のドメインへの連続的な適応は複数のドメインからの情報の活用と統合を可能にする。 インクリメンタルなUDAのアプローチとは異なり、我々の手法は以前見たデータにアクセスする必要がなく、多くの実践シナリオに適用できる。 gardaを臓器と形態の異なる2つのデータセットで評価し,既存の手法を実質的に上回っている。

Deep learning models can achieve high accuracy when trained on large amounts of labeled data. However, real-world scenarios often involve several challenges: Training data may become available in installments, may originate from multiple different domains, and may not contain labels for training. Certain settings, for instance medical applications, often involve further restrictions that prohibit retention of previously seen data due to privacy regulations. In this work, to address such challenges, we study unsupervised segmentation in continual learning scenarios that involve domain shift. To that end, we introduce GarDA (Generative Appearance Replay for continual Domain Adaptation), a generative-replay based approach that can adapt a segmentation model sequentially to new domains with unlabeled data. In contrast to single-step unsupervised domain adaptation (UDA), continual adaptation to a sequence of domains enables leveraging and consolidation of information from multiple domains. Unlike previous approaches in incremental UDA, our method does not require access to previously seen data, making it applicable in many practical scenarios. We evaluate GarDA on two datasets with different organs and modalities, where it substantially outperforms existing techniques.
翻訳日:2023-01-04 14:03:40 公開日:2023-01-03
# uav swarmsのための分散機械学習:コンピューティング、センシング、セマンティクス

Distributed Machine Learning for UAV Swarms: Computing, Sensing, and Semantics ( http://arxiv.org/abs/2301.00912v1 )

ライセンス: Link先を確認
Yahao Ding, Zhaohui Yang, Quoc-Viet Pham, Zhaoyang Zhang, Mohammad Shikh-Bahaei(参考訳) 無人航空機(UAV)群は、柔軟性、移動性、低コスト、協調的かつ自律的なサービスを提供する能力により、次世代通信ネットワークにとって有望な技術であると考えられている。 分散学習(DL)により、UAVの群れは、通信サービス、多方向リモート監視、ターゲット追跡をインテリジェントに提供できる。 本稿では,フェデレーション学習(fl),マルチエージェント強化学習(marl),分散推論,分割学習など,いくつかの人気のあるdlアルゴリズムを紹介し,軌道設計,電力制御,無線リソース割り当て,ユーザ割当,知覚,衛星通信など,uavスウォームへの応用の包括的概要を紹介する。 次に,無線通信システムにおけるUAVスワムの最先端の応用として,再構成可能なインテリジェントサーフェス(RIS),仮想現実(VR),セマンティックコミュニケーションなどを紹介し,DL対応のUAVスワムがこれらのアプリケーションで解決できる問題と課題について議論する。 最後に,UAVSwarmにおけるDL使用のオープンな問題点と,DL有効UAVSwarmの今後の研究方向性について述べる。 要約すると、この調査は幅広いシナリオにおけるUAVスワムに対する様々なDLアプリケーションに関する包括的な調査を提供する。

Unmanned aerial vehicle (UAV) swarms are considered as a promising technique for next-generation communication networks due to their flexibility, mobility, low cost, and the ability to collaboratively and autonomously provide services. Distributed learning (DL) enables UAV swarms to intelligently provide communication services, multi-directional remote surveillance, and target tracking. In this survey, we first introduce several popular DL algorithms such as federated learning (FL), multi-agent Reinforcement Learning (MARL), distributed inference, and split learning, and present a comprehensive overview of their applications for UAV swarms, such as trajectory design, power control, wireless resource allocation, user assignment, perception, and satellite communications. Then, we present several state-of-the-art applications of UAV swarms in wireless communication systems, such us reconfigurable intelligent surface (RIS), virtual reality (VR), semantic communications, and discuss the problems and challenges that DL-enabled UAV swarms can solve in these applications. Finally, we describe open problems of using DL in UAV swarms and future research directions of DL enabled UAV swarms. In summary, this survey provides a comprehensive survey of various DL applications for UAV swarms in extensive scenarios.
翻訳日:2023-01-04 14:02:04 公開日:2023-01-03
# 半構造化オブジェクトシーケンスエンコーダ

Semi-Structured Object Sequence Encoders ( http://arxiv.org/abs/2301.01015v1 )

ライセンス: Link先を確認
Rudra Murthy V and Riyaz Bhat and Chulaka Gunasekara and Hui Wan and Tejas Indulal Dhamecha and Danish Contractor and Marina Danilevsky(参考訳) 本稿では,構造化オブジェクト列をモデル化(セミ)する作業について検討し,特に,そのようなシーケンスに対する構造認識型入力表現を開発することの課題に焦点をあてる。 このようなシーケンスでは、各構造化オブジェクトは、構造化オブジェクトの属性を符号化するキー値対の集合で表されると仮定する。 鍵の宇宙が与えられたとき、構造化されたオブジェクトの列は、時間とともに各キーの値の進化と見なされる。 我々は、特定のキー(時間的値モデリングtvm)の値を用いてシーケンシャル表現を符号化し構築し、構造化されたオブジェクトシーケンス(key aggregationka)の表現を作成するために、キー条件付き値シーケンスの集合に自己アタッチする。 我々は,2つのコンポーネントを個別に事前学習し,微調整し,双方のモジュールのトレーニングを共通注意頭でインターリーブする革新的なトレーニングスケジュールを提示する。 この反復的な2つのパートトレーニングは、階層的なエンコーディングを施した統一ネットワークよりもパフォーマンスが向上し、シーケンスのcite{de2021transformers4rec} や、シーケンスの単純な {\em flattened} 表現を使用する他の方法が得られた。 実世界のデータを用いて、複数のタスクにTVM-KAをインターリーブする利点を示す実験を行い、モデリング選択を動機付ける詳細なアブレーション研究を行った。 提案手法は, 配列オブジェクトの平坦化よりも性能が良く, 既存の手法よりもはるかに大きなシーケンスを操作できることがわかった。

In this paper we explore the task of modeling (semi) structured object sequences; in particular we focus our attention on the problem of developing a structure-aware input representation for such sequences. In such sequences, we assume that each structured object is represented by a set of key-value pairs which encode the attributes of the structured object. Given a universe of keys, a sequence of structured objects can then be viewed as an evolution of the values for each key, over time. We encode and construct a sequential representation using the values for a particular key (Temporal Value Modeling - TVM) and then self-attend over the set of key-conditioned value sequences to a create a representation of the structured object sequence (Key Aggregation - KA). We pre-train and fine-tune the two components independently and present an innovative training schedule that interleaves the training of both modules with shared attention heads. We find that this iterative two part-training results in better performance than a unified network with hierarchical encoding as well as over, other methods that use a {\em record-view} representation of the sequence \cite{de2021transformers4rec} or a simple {\em flattened} representation of the sequence. We conduct experiments using real-world data to demonstrate the advantage of interleaving TVM-KA on multiple tasks and detailed ablation studies motivating our modeling choices. We find that our approach performs better than flattening sequence objects and also allows us to operate on significantly larger sequences than existing methods.
翻訳日:2023-01-04 13:56:11 公開日:2023-01-03
# 構造的・常識的知識を用いたマイズショットナレッジグラフ完成に関する調査

A Survey On Few-shot Knowledge Graph Completion with Structural and Commonsense Knowledge ( http://arxiv.org/abs/2301.01172v1 )

ライセンス: Link先を確認
Haodi Ma, Daisy Zhe Wang(参考訳) 知識グラフ(KG)は、様々な自然言語処理アプリケーションの主要なコンポーネントである。 commonsense knowledge graphs (ckg) は、エンティティとリレーションがフリーフォームテキストで構成される特別なタイプの kg である。 しかし、KG完了とCKG完了の以前の研究は、訓練に3つの知識を持たない長い尾関係と新たに追加された関係に悩まされていた。 これを踏まえ、グラフ表現学習と少数ショット学習の長所を必要とする少数ショットKG補完(FKGC)が、限られた注釈付きデータの問題に挑戦するために提案されている。 本稿では,このような課題に対する以前の試みを,一連の手法や応用の形で包括的に調査する。 具体的には、まずFKGCチャレンジ、一般的に使用されるKG、CKGを紹介する。 次に、既存の作品の分類と要約を、kgの種類と方法の観点で体系的に行う。 最後に、FKGCモデルの様々な領域における予測タスクへの適用について述べ、FKGCの今後の研究方向性について考察する。

Knowledge graphs (KG) have served as the key component of various natural language processing applications. Commonsense knowledge graphs (CKG) are a special type of KG, where entities and relations are composed of free-form text. However, previous works in KG completion and CKG completion suffer from long-tail relations and newly-added relations which do not have many know triples for training. In light of this, few-shot KG completion (FKGC), which requires the strengths of graph representation learning and few-shot learning, has been proposed to challenge the problem of limited annotated data. In this paper, we comprehensively survey previous attempts on such tasks in the form of a series of methods and applications. Specifically, we first introduce FKGC challenges, commonly used KGs, and CKGs. Then we systematically categorize and summarize existing works in terms of the type of KGs and the methods. Finally, we present applications of FKGC models on prediction tasks in different areas and share our thoughts on future research directions of FKGC.
翻訳日:2023-01-04 13:55:43 公開日:2023-01-03
# xDeepInt:ベクトルとビットの相互作用をモデル化するハイブリッドアーキテクチャ

xDeepInt: a hybrid architecture for modeling the vector-wise and bit-wise feature interactions ( http://arxiv.org/abs/2301.01089v1 )

ライセンス: Link先を確認
YaChen Yan, Liubo Li(参考訳) 機能インタラクションの学習は、大規模なCTR予測とレコメンデーションの成功の鍵である。 実際には、手作りの特徴工学は通常、徹底的な探索を必要とする。 機能工学における人間の努力のコストを下げるために、研究者は、エンドツーエンドの方法で機能相互作用を学ぶためのディープニューラルネットワーク(DNN)ベースのアプローチをいくつか提案する。 しかし、既存の手法はベクトル的相互作用とビット的相互作用を同時に学習しないか、制御可能な方法でそれらを組み合わせない。 本稿では,多項式相互作用ネットワーク (PIN) と呼ばれる新しいネットワークアーキテクチャをベースとして,高次ベクトル的相互作用を逐次学習する新しいモデル xDeepInt を提案する。 部分空間交叉機構を統合することにより、xDeepIntはベクトル的およびビット的特徴相互作用の混合を有界順序でバランスさせることができる。 ネットワークアーキテクチャに基づいて、特徴選択と相互作用選択を行うための最適化戦略をカスタマイズする。 提案モデルを実装し,実世界の3つのデータセット上でモデル性能を評価する。 実験結果は,最先端モデルに対するxdeepintの有効性と有効性を示す。 私たちはxDeepIntのTensorFlow実装をオープンソースにしています。

Learning feature interactions is the key to success for the large-scale CTR prediction and recommendation. In practice, handcrafted feature engineering usually requires exhaustive searching. In order to reduce the high cost of human efforts in feature engineering, researchers propose several deep neural networks (DNN)-based approaches to learn the feature interactions in an end-to-end fashion. However, existing methods either do not learn both vector-wise interactions and bit-wise interactions simultaneously, or fail to combine them in a controllable manner. In this paper, we propose a new model, xDeepInt, based on a novel network architecture called polynomial interaction network (PIN) which learns higher-order vector-wise interactions recursively. By integrating subspace-crossing mechanism, we enable xDeepInt to balance the mixture of vector-wise and bit-wise feature interactions at a bounded order. Based on the network architecture, we customize a combined optimization strategy to conduct feature selection and interaction selection. We implement the proposed model and evaluate the model performance on three real-world datasets. Our experiment results demonstrate the efficacy and effectiveness of xDeepInt over state-of-the-art models. We open-source the TensorFlow implementation of xDeepInt: https://github.com/yanyachen/xDeepInt.
翻訳日:2023-01-04 13:55:27 公開日:2023-01-03
# 脳画像分割のための最も移動可能なタスクの探索

Finding the Most Transferable Tasks for Brain Image Segmentation ( http://arxiv.org/abs/2301.00934v1 )

ライセンス: Link先を確認
Yicong Li, Yang Tan, Jingyun Yang, Yang Li, Xiao-Ping Zhang(参考訳) 多くの研究が医療画像分割に転送学習を適用しているが、複数のソースタスクが転送可能である場合の選択戦略を調査した研究はごくわずかである。 本稿では,脳画像セグメンテーションタスクの集合の中から最適なソースタスクを選択するための事前知識誘導および転送可能性に基づくフレームワークを提案し,与えられた対象タスクの転送学習性能を向上させる。 このフレームワークは、モダリティ分析、RoI(関心領域)分析、転送可能性推定から成り、ソースタスクの選択を段階的に洗練することができる。 具体的には,医用画像のセグメンテーションタスクに最先端の分析可能性推定指標を適用し,モーダリティとRoI特性に基づいて候補音源タスクをフィルタリングすることにより,その性能を著しく向上させることができることを示す。 脳の物質、脳腫瘍、ホワイトマターの超強度セグメンテーションデータセットに関する我々の実験は、異なるタスクを同じモードで転送するよりも、同じタスクを異なるモードで転送する方が、より成功していることを示している。 さらに、同じモダリティ内では、ターゲットタスクとRoI形状がより強いソースタスクからの転送は、最終的な転送性能を大幅に向上させることができる。 このような類似性はラベル空間の構造的類似性指数を用いて捉えることができる。

Although many studies have successfully applied transfer learning to medical image segmentation, very few of them have investigated the selection strategy when multiple source tasks are available for transfer. In this paper, we propose a prior knowledge guided and transferability based framework to select the best source tasks among a collection of brain image segmentation tasks, to improve the transfer learning performance on the given target task. The framework consists of modality analysis, RoI (region of interest) analysis, and transferability estimation, such that the source task selection can be refined step by step. Specifically, we adapt the state-of-the-art analytical transferability estimation metrics to medical image segmentation tasks and further show that their performance can be significantly boosted by filtering candidate source tasks based on modality and RoI characteristics. Our experiments on brain matter, brain tumor, and white matter hyperintensities segmentation datasets reveal that transferring from different tasks under the same modality is often more successful than transferring from the same task under different modalities. Furthermore, within the same modality, transferring from the source task that has stronger RoI shape similarity with the target task can significantly improve the final transfer performance. And such similarity can be captured using the Structural Similarity index in the label space.
翻訳日:2023-01-04 13:55:07 公開日:2023-01-03
# 自動ソフトウェアドキュメンテーションにおける画像キャプションの利用に関する実証的研究

An Empirical Investigation into the Use of Image Captioning for Automated Software Documentation ( http://arxiv.org/abs/2301.01224v1 )

ライセンス: Link先を確認
Kevin Moran, Ali Yachnes, George Purnell, Junayed Mahmud, Michele Tufano, Carlos Bernal-C\'ardenas, Denys Poshyvanyk, Zach H'Doubler(参考訳) 既存のソフトウェアドキュメンテーションの自動化技術は、通常、コードと自然言語という2つの主要な情報ソースを推論しようとします。 しかし、この推論過程は、より抽象的な自然言語とより構造化されたプログラミング言語との語彙的ギャップによってしばしば複雑である。 GUIは本質的に、基礎となるプログラム機能に関する詳細な情報をリッチなピクセルベースのデータ表現にエンコードするので、このギャップの潜在的な橋渡しはGUI(Graphical User Interface)である。 本稿では,GUIとソフトウェアの機能的自然言語記述の関連性に関する総合的な実証的研究を行った。 まず、人気のあるandroidアプリケーションから10,204のスクリーンショットに対して、45,998の記述からなる機能gui記述の大規模なデータセットを収集、分析、オープンソース化します。 これらの記述は、ヒトのラベルから得られ、いくつかの品質制御機構が実行された。 guiの表現可能性に関する洞察を得るために,4つのニューラル画像キャプションモデルを用いて,スクリーンショットを入力として,様々な粒度の自然言語記述を予測できる能力について検討した。 これらのモデルを,一般的な機械翻訳指標を用いて定量的に評価し,大規模ユーザスタディを通じて質的に評価する。 最後に、学習した教訓とマルチモーダルモデルが示す可能性について議論し、自動化されたソフトウェアドキュメンテーションの将来の技術を強化する。

Existing automated techniques for software documentation typically attempt to reason between two main sources of information: code and natural language. However, this reasoning process is often complicated by the lexical gap between more abstract natural language and more structured programming languages. One potential bridge for this gap is the Graphical User Interface (GUI), as GUIs inherently encode salient information about underlying program functionality into rich, pixel-based data representations. This paper offers one of the first comprehensive empirical investigations into the connection between GUIs and functional, natural language descriptions of software. First, we collect, analyze, and open source a large dataset of functional GUI descriptions consisting of 45,998 descriptions for 10,204 screenshots from popular Android applications. The descriptions were obtained from human labelers and underwent several quality control mechanisms. To gain insight into the representational potential of GUIs, we investigate the ability of four Neural Image Captioning models to predict natural language descriptions of varying granularity when provided a screenshot as input. We evaluate these models quantitatively, using common machine translation metrics, and qualitatively through a large-scale user study. Finally, we offer learned lessons and a discussion of the potential shown by multimodal models to enhance future techniques for automated software documentation.
翻訳日:2023-01-04 13:54:43 公開日:2023-01-03
# デンドライト活性化結合によるニューラルネットワークの性能向上

Improving Performance in Neural Networks by Dendrites-Activated Connections ( http://arxiv.org/abs/2301.00924v1 )

ライセンス: Link先を確認
Carlo Metta, Marco Fantozzi, Andrea Papini, Gianluca Amato, Matteo Bergamaschi, Silvia Giulia Galfr\`e, Alessandro Marchetti, Michelangelo Vegli\`o, Maurizio Parton, Francesco Morandin(参考訳) ニューラルネットワークの計算単位は、生体ニューロンの簡易モデルに従う。 生物学的モデルでは、ニューロンの出力信号が軸索を駆け下り、その末端にある多くの分岐に従って分裂し、ネットワークのすべての下方ニューロンと同一に通過する。 下向きのニューロンは、この信号のコピーを多くの入力デンドライトの1つとして使用し、もししきい値を超えると、それらを全て統合して出力を発射する。 人工ニューラルネットワークにおいて、これは信号の非線形フィルタリングが上向きのニューロンで実行されるという事実を意味し、実際には、その信号を入力として使用するすべての下方ニューロン間で同じ活性化が共有される。 デンドライトは受動的に作用する。 本稿では, より複雑な生体ニューロンモデルを提案する。デンドライトは, 上向きニューロンの出力の活性化が任意となり, それぞれのデンドライトを通る信号は, 線形結合の前に独立な非線形フィルタリングを行う。 本稿では,この新モデルをReLU計算ユニットに実装し,その生物学的妥当性について論じる。 この新しい計算単位を標準単位と比較し,幾何学的観点から記述する。 我々は、このユニットのkeras実装を完全連結層と畳み込み層に実装し、そのフラップと重みの変化を推定する。 次に、これらのレイヤをCIFAR-10、CIFAR-100、Imagenette、ImagewoofのResNetアーキテクチャで使用し、標準ResNetのパフォーマンスを最大1.73%向上させる。 最後に、コンパクト集合上の連続函数に対する普遍表現定理を証明し、この新しい単位がその標準単位よりも多くの表現力を持つことを示す。

Computational units in artificial neural networks follow a simplified model of biological neurons. In the biological model, the output signal of a neuron runs down the axon, splits following the many branches at its end, and passes identically to all the downward neurons of the network. Each of the downward neurons will use their copy of this signal as one of many inputs dendrites, integrate them all and fire an output, if above some threshold. In the artificial neural network, this translates to the fact that the nonlinear filtering of the signal is performed in the upward neuron, meaning that in practice the same activation is shared between all the downward neurons that use that signal as their input. Dendrites thus play a passive role. We propose a slightly more complex model for the biological neuron, where dendrites play an active role: the activation in the output of the upward neuron becomes optional, and instead the signals going through each dendrite undergo independent nonlinear filterings, before the linear combination. We implement this new model into a ReLU computational unit and discuss its biological plausibility. We compare this new computational unit with the standard one and describe it from a geometrical point of view. We provide a Keras implementation of this unit into fully connected and convolutional layers and estimate their FLOPs and weights change. We then use these layers in ResNet architectures on CIFAR-10, CIFAR-100, Imagenette, and Imagewoof, obtaining performance improvements over standard ResNets up to 1.73%. Finally, we prove a universal representation theorem for continuous functions on compact sets and show that this new unit has more representational power than its standard counterpart.
翻訳日:2023-01-04 13:54:23 公開日:2023-01-03
# 類似推論による知識グラフ埋め込み

Analogical Inference Enhanced Knowledge Graph Embedding ( http://arxiv.org/abs/2301.00982v1 )

ライセンス: Link先を確認
Yao Zhen, Zhang Wen, Chen Mingyang, Huang Yufeng, Yang Yi and Chen Huajun(参考訳) 知識グラフの実体と関係を連続ベクトル空間にマッピングする知識グラフ埋め込み(KGE)は、知識グラフの欠落するリンクを予測することに成功している。 しかし、知識グラフは、しばしば、帰納的推論が難しい不完全三重項を含む。 この課題に対処するために、アナログ推論を活用し、アナログ推論機能を備えたKGEモデルを強化するために、新規で汎用的な自己組織化フレームワークAnKGEを提案する。 本稿では,エンティティレベル,関係レベル,トリプルレベルから適切な類似オブジェクトを検索する類似オブジェクト検索器を提案する。 そして、AnKGEでは、よく訓練されたKGEモデルから入力として元の要素を埋め込み、アナログオブジェクトの埋め込みを出力するアナログ推論の各レベルの類似関数を訓練する。 従来のKGEモデルからの帰納的推論能力と、AnKGEによって強化されたアナログ推論能力を組み合わせるために、類似点とベースモデルスコアを補間し、予測のためのスコア関数に適応重みを導入する。 FB15k-237とWN18RRデータセットの広範な実験を通して、AnKGEがリンク予測タスクの競合結果を実現し、アナログ推論をうまく実行していることを示す。

Knowledge graph embedding (KGE), which maps entities and relations in a knowledge graph into continuous vector spaces, has achieved great success in predicting missing links in knowledge graphs. However, knowledge graphs often contain incomplete triples that are difficult to inductively infer by KGEs. To address this challenge, we resort to analogical inference and propose a novel and general self-supervised framework AnKGE to enhance KGE models with analogical inference capability. We propose an analogical object retriever that retrieves appropriate analogical objects from entity-level, relation-level, and triple-level. And in AnKGE, we train an analogy function for each level of analogical inference with the original element embedding from a well-trained KGE model as input, which outputs the analogical object embedding. In order to combine inductive inference capability from the original KGE model and analogical inference capability enhanced by AnKGE, we interpolate the analogy score with the base model score and introduce the adaptive weights in the score function for prediction. Through extensive experiments on FB15k-237 and WN18RR datasets, we show that AnKGE achieves competitive results on link prediction task and well performs analogical inference.
翻訳日:2023-01-04 13:53:35 公開日:2023-01-03
# PIE-QG:小型コーパスからの教師なし質問生成のためのパラフレーズ情報抽出

PIE-QG: Paraphrased Information Extraction for Unsupervised Question Generation from Small Corpora ( http://arxiv.org/abs/2301.01064v1 )

ライセンス: Link先を確認
Dinesh Nagumothu, Bahadorreza Ofoghi, Guangyan Huang, Peter W. Eklund(参考訳) 監視された質問回答システム(QAシステム)は、訓練にドメイン固有の人間ラベルデータに依存している。 教師なしQAシステムは、通常、この結果を得るために二次知識ソースを使用して、独自の質問応答トレーニングペアを生成する。 提案手法 (PIE-QG) は,Open Information extract (OpenIE) を用いて,パラフレーズ付き通路から合成学習質問を生成し,質問応答ペアを,BERTに基づく最先端QAシステムのための言語モデルのトレーニングデータとして利用する。 文から<subject, predicate, object>という3つの項目を抽出し,主語(または対象)と主語(または対象)で疑問を形成し,対象(または対象)を解答とする。 抽出された5つのQAデータセットを用いて実験した結果,既存の最先端QAシステムを用いて,文書の桁数を大幅に減らし,外部参照データソースに無関係にトレーニングを行うことで,オンパー性能を実現することができた。

Supervised Question Answering systems (QA systems) rely on domain-specific human-labeled data for training. Unsupervised QA systems generate their own question-answer training pairs, typically using secondary knowledge sources to achieve this outcome. Our approach (called PIE-QG) uses Open Information Extraction (OpenIE) to generate synthetic training questions from paraphrased passages and uses the question-answer pairs as training data for a language model for a state-of-the-art QA system based on BERT. Triples in the form of <subject, predicate, object> are extracted from each passage, and questions are formed with subjects (or objects) and predicates while objects (or subjects) are considered as answers. Experimenting on five extractive QA datasets demonstrates that our technique achieves on-par performance with existing state-of-the-art QA systems with the benefit of being trained on an order of magnitude fewer documents and without any recourse to external reference data sources.
翻訳日:2023-01-04 13:53:10 公開日:2023-01-03
# Knockoffs-SPR: ノイズラベルによる学習におけるクリーンサンプル選択

Knockoffs-SPR: Clean Sample Selection in Learning with Noisy Labels ( http://arxiv.org/abs/2301.00545v2 )

ライセンス: Link先を確認
Yikai Wang, Yanwei Fu, and Xinwei Sun(参考訳) ノイズの多いトレーニングセットは通常、ニューラルネットワークの一般化と堅牢性の低下につながる。 本稿では,ノイズラベルを用いた学習のための新しいクリーンサンプル選択フレームワークを提案する。 具体的には,ネットワーク特徴量と1ホットラベルとの線形関係をモデル化するために,まずSPR(Scalable Penalized Regression)法を提案する。 SPRでは、クリーンデータは回帰モデルで解決されたゼロ平均シフトパラメータによって識別される。 理論的には、SPRはいくつかの条件下でクリーンなデータを復元できることを示す。 一般的なシナリオでは、条件はもはや満たされず、一部のノイズデータは誤ってクリーンデータとして選択される。 この問題を解決するために,選択したクリーンデータ中のFalse-Selection-Rate(FSR)を制御可能なKnockoffフィルタ(Knockoffs-SPR)を用いたスケーラブルなペナル化回帰法を提案する。 効率を改善するために、トレーニングセット全体を小さな断片に分割して、フレームワークを大規模データセットにスケーラブルにするために並列に解決できる分割アルゴリズムを提案する。 knockoffs-sprは標準教師付きトレーニングパイプラインのサンプル選択モジュールと見なすことができるが、半教師付きアルゴリズムと組み合わせることで、ノイズデータのサポートをラベルなしデータとして活用する。 いくつかのベンチマークデータセットと実世界のノイズデータセットの実験結果から、フレームワークの有効性を示し、Knockoffs-SPRの理論的結果を検証する。 私たちのコードと事前訓練されたモデルはリリースされます。

A noisy training set usually leads to the degradation of the generalization and robustness of neural networks. In this paper, we propose a novel theoretically guaranteed clean sample selection framework for learning with noisy labels. Specifically, we first present a Scalable Penalized Regression (SPR) method, to model the linear relation between network features and one-hot labels. In SPR, the clean data are identified by the zero mean-shift parameters solved in the regression model. We theoretically show that SPR can recover clean data under some conditions. Under general scenarios, the conditions may be no longer satisfied; and some noisy data are falsely selected as clean data. To solve this problem, we propose a data-adaptive method for Scalable Penalized Regression with Knockoff filters (Knockoffs-SPR), which is provable to control the False-Selection-Rate (FSR) in the selected clean data. To improve the efficiency, we further present a split algorithm that divides the whole training set into small pieces that can be solved in parallel to make the framework scalable to large datasets. While Knockoffs-SPR can be regarded as a sample selection module for a standard supervised training pipeline, we further combine it with a semi-supervised algorithm to exploit the support of noisy data as unlabeled data. Experimental results on several benchmark datasets and real-world noisy datasets show the effectiveness of our framework and validate the theoretical results of Knockoffs-SPR. Our code and pre-trained models will be released.
翻訳日:2023-01-04 11:45:50 公開日:2023-01-03
# 深層補強学習のバックボーンとしての変圧器

Transformer in Transformer as Backbone for Deep Reinforcement Learning ( http://arxiv.org/abs/2212.14538v2 )

ライセンス: Link先を確認
Hangyu Mao, Rui Zhao, Hao Chen, Jianye Hao, Yiqun Chen, Dong Li, Junge Zhang, Zhen Xiao(参考訳) ディープ・ネットワークと強化学習(RL)アルゴリズムの設計はどちらもディープ・RLにとって重要である。 この作品は前者に焦点を当てている。 以前の手法では、cnn、lstm、 attentionなどのモジュールでネットワークを構築する。 最近の手法では、Transformerとこれらのモジュールを組み合わせてパフォーマンスを改善している。 しかし、混合モジュールで構成されるネットワークをトレーニングするためには、面倒な最適化スキルが必要であるため、実際に使用するのが不便である。 本稿では,オンラインとオフラインの両方の設定に対して,既製のバックボーンを提供することを目的とした,deep rl用の \emph{pure transformer-based networks}の設計を提案する。 具体的には, 2つのトランスを非常に自然な方法でカスケードするトランスフォーマイントランス(tit)バックボーンを提案する。インナーは1つの観測を処理し,アウターは観測履歴を処理する。 実験により、TITは異なる設定で一貫して満足なパフォーマンスを達成できることが示された。

Designing better deep networks and better reinforcement learning (RL) algorithms are both important for deep RL. This work focuses on the former. Previous methods build the network with several modules like CNN, LSTM and Attention. Recent methods combine the Transformer with these modules for better performance. However, it requires tedious optimization skills to train a network composed of mixed modules, making these methods inconvenient to be used in practice. In this paper, we propose to design \emph{pure Transformer-based networks} for deep RL, aiming at providing off-the-shelf backbones for both the online and offline settings. Specifically, the Transformer in Transformer (TIT) backbone is proposed, which cascades two Transformers in a very natural way: the inner one is used to process a single observation, while the outer one is responsible for processing the observation history; combining both is expected to extract spatial-temporal representations for good decision-making. Experiments show that TIT can achieve satisfactory performance in different settings consistently.
翻訳日:2023-01-04 11:45:26 公開日:2023-01-03
# SIRL:類似性に基づく暗黙表現学習

SIRL: Similarity-based Implicit Representation Learning ( http://arxiv.org/abs/2301.00810v2 )

ライセンス: Link先を確認
Andreea Bobu, Yi Liu, Rohin Shah, Daniel S. Brown, Anca D. Dragan(参考訳) ロボットが入力として生の状態を直接取る高容量モデルを使って報酬関数を学習するときは、タスクの「機能」であるタスクの表現と、これらの機能をひとつの目的に組み合わせる方法の両方を学ぶ必要がある。 完全な報酬関数を教えるために設計された入力から、一度に両方をしようとすると、データに散発的な相関関係を含む表現にたどり着くのは簡単で、新しい設定に一般化することができない。 その代わり、私たちの究極のゴールは、人々が実際に関心を持ち、状態や行動を表すときに使用する因果的特徴をロボットが識別し、分離できるようにすることです。 私たちの考えは、ユーザに対して、同じような振る舞いを問うことで、この表現をチューニングできる、ということだ: 重要な特徴が似ていても、たとえ低レベルの振る舞いが異なるとしても、振る舞いは似ている。 これは、ロボットが表現に進む必要のあるものと、刺激的なもの、そして行動のどの側面を一緒に圧縮できるかを曖昧にすることができることを意味している。 類似性に基づく学習表現の概念は、視覚的に類似したデータポイントを類似した埋め込みにマッピングする自己教師付き表現学習技術であり、データ拡張ヒューリスティックを通じて設計者が類似性を定義する。 対照的に、人々が使用する表現を学ぶために、私たちは彼らの好みや目的を学ぶために、類似性の定義を使います。 シミュレーションやユーザスタディにおいて、このような類似性クエリによる学習は、完璧とは程遠いが、自己教師型やタスクインプット型よりもはるかに一般化可能な表現につながることを示す。

When robots learn reward functions using high capacity models that take raw state directly as input, they need to both learn a representation for what matters in the task -- the task ``features" -- as well as how to combine these features into a single objective. If they try to do both at once from input designed to teach the full reward function, it is easy to end up with a representation that contains spurious correlations in the data, which fails to generalize to new settings. Instead, our ultimate goal is to enable robots to identify and isolate the causal features that people actually care about and use when they represent states and behavior. Our idea is that we can tune into this representation by asking users what behaviors they consider similar: behaviors will be similar if the features that matter are similar, even if low-level behavior is different; conversely, behaviors will be different if even one of the features that matter differs. This, in turn, is what enables the robot to disambiguate between what needs to go into the representation versus what is spurious, as well as what aspects of behavior can be compressed together versus not. The notion of learning representations based on similarity has a nice parallel in contrastive learning, a self-supervised representation learning technique that maps visually similar data points to similar embeddings, where similarity is defined by a designer through data augmentation heuristics. By contrast, in order to learn the representations that people use, so we can learn their preferences and objectives, we use their definition of similarity. In simulation as well as in a user study, we show that learning through such similarity queries leads to representations that, while far from perfect, are indeed more generalizable than self-supervised and task-input alternatives.
翻訳日:2023-01-04 11:45:06 公開日:2023-01-03
# 一般シーブを用いた時系列非パラメトリック条件運動制限の推定

Inference on Time Series Nonparametric Conditional Moment Restrictions Using General Sieves ( http://arxiv.org/abs/2301.00092v2 )

ライセンス: Link先を確認
Xiaohong Chen, Yuan Liao, Weichen Wang(参考訳) 一般的な非線形シーブ学習は、高次元変数の非線形関数を様々な線形シーブ(または級数)よりも柔軟に近似できる非線形シーブの類である。 本稿では,時系列データの期待関数に基づく一般非線形シーブ準類似比(gn-qlr)に基づいて,条件モーメント制約を満たす非パラメトリック関数を基本とし,多層ニューラルネットワークを用いて学習する。 推定汎函数の漸近正規性は函数空間の未知のリース表現に依存するが、最適に重み付けられたGN-QLR統計量は予想汎函数が正則(root-$n$ estimable)かどうかに関わらず漸近的にChi-二乗分布であることを示す。 これはデータが弱い依存のベータ混合条件であるときに発生する。 本稿では,Bellman方程式を条件付きモーメント制約フレームワークに定式化することにより,強化学習におけるオフ政治評価に適用し,時系列データを用いたGN-QLR法による状態固有値関数の推論を行う。 また、非パラメトリックなインストゥルメンタル変数とクオンティルivモデルの平均部分平均と平均部分微分を主要な例として示す。 最後に、モンテカルロの研究では、手順の有限なサンプル性能を示す

General nonlinear sieve learnings are classes of nonlinear sieves that can approximate nonlinear functions of high dimensional variables much more flexibly than various linear sieves (or series). This paper considers general nonlinear sieve quasi-likelihood ratio (GN-QLR) based inference on expectation functionals of time series data, where the functionals of interest are based on some nonparametric function that satisfy conditional moment restrictions and are learned using multilayer neural networks. While the asymptotic normality of the estimated functionals depends on some unknown Riesz representer of the functional space, we show that the optimally weighted GN-QLR statistic is asymptotically Chi-square distributed, regardless whether the expectation functional is regular (root-$n$ estimable) or not. This holds when the data are weakly dependent beta-mixing condition. We apply our method to the off-policy evaluation in reinforcement learning, by formulating the Bellman equation into the conditional moment restriction framework, so that we can make inference about the state-specific value functional using the proposed GN-QLR method with time series data. In addition, estimating the averaged partial means and averaged partial derivatives of nonparametric instrumental variables and quantile IV models are also presented as leading examples. Finally, a Monte Carlo study shows the finite sample performance of the procedure
翻訳日:2023-01-04 11:44:33 公開日:2023-01-03
# UBIWEAR:mHealth介入を促進する知的身体活動予測のためのエンドツーエンドのデータ駆動フレームワーク

UBIWEAR: An end-to-end, data-driven framework for intelligent physical activity prediction to empower mHealth interventions ( http://arxiv.org/abs/2212.14731v2 )

ライセンス: Link先を確認
Asterios Bampakis, Sofia Yfantidou, Athena Vakali(参考訳) 身体活動は個人の健康と健康にとって不可欠であることは間違いない。 しかし、身体的不活動の世界的な流行は、大きな個人的・社会経済的影響を引き起こしている。 近年、多くの研究が、ポジティブな健康行動変化を生み出すための自己追跡技術の能力を示している。 この研究は、自己追跡を通じて身体活動を促進するパーソナライズされ適応的な目標設定技術の可能性によって動機付けられている。 この目的のために,知的身体活動予測のためのエンドツーエンドフレームワークであるUBIWEARを提案する。 これを実現するために,身体活動予測タスクのロバストなベンチマークとして,多数の機械学習とディープラーニングのパラダイムを実験した。 モデルをトレーニングするために、何千ものユーザから収集したオープンで大規模なデータセットである"myheart counts"を使っています。 また,実世界のノイズデータに対するデータラングを容易にするために,自己追跡型データプリプロセッシングのための規範的フレームワークを提案する。 我々の最善のモデルは1087ステップのmaeを達成し、絶対誤差の面では技術水準より65%低く、身体活動予測タスクの実行可能性を証明するとともに、将来の研究への道を開く。

It is indisputable that physical activity is vital for an individual's health and wellness. However, a global prevalence of physical inactivity has induced significant personal and socioeconomic implications. In recent years, a significant amount of work has showcased the capabilities of self-tracking technology to create positive health behavior change. This work is motivated by the potential of personalized and adaptive goal-setting techniques in encouraging physical activity via self-tracking. To this end, we propose UBIWEAR, an end-to-end framework for intelligent physical activity prediction, with the ultimate goal to empower data-driven goal-setting interventions. To achieve this, we experiment with numerous machine learning and deep learning paradigms as a robust benchmark for physical activity prediction tasks. To train our models, we utilize, "MyHeart Counts", an open, large-scale dataset collected in-the-wild from thousands of users. We also propose a prescriptive framework for self-tracking aggregated data preprocessing, to facilitate data wrangling of real-world, noisy data. Our best model achieves a MAE of 1087 steps, 65% lower than the state of the art in terms of absolute error, proving the feasibility of the physical activity prediction task, and paving the way for future research.
翻訳日:2023-01-04 11:43:39 公開日:2023-01-03
# BCIにおける情報伝達速度 : 高度統合共生を目指して

Information Transfer Rate in BCIs: Towards Tightly Integrated Symbiosis ( http://arxiv.org/abs/2301.00488v2 )

ライセンス: Link先を確認
Suayb S. Arslan and Pawan Sinha(参考訳) 情報伝達率 (ITR) は、特にSSVEPベースのBrain-Computer (BCI) インタフェースで広く使われている情報測定指標である。 速度と精度を単一値パラメータに組み合わせることで、このメトリックは、異なるbciコミュニティにわたる様々なターゲット識別アルゴリズムの評価と比較に役立つ。 未来的BCI設計のためのエンド・ツー・エンドの設計を正確に表現するためには、より徹底的な検討とITRの定義が必要である。 再生視覚経路によってホストされる共生通信媒体を離散的なメモリレスチャネルとしてモデル化し,改良されたキャパシティ表現を用いてITRを再定義する。 我々はグラフ理論を用いて、遷移統計学の非対称性とITRゲインの関係を新しい定義で特徴づけ、データレート性能に潜在的な限界をもたらす。 良く知られた2つのSSVEPデータセットにおいて、2つの最先端ターゲット識別法を比較した。 その結果, DMチャネルの非対称性は入力分布の変化よりも実知覚ITRに大きな影響を与えることがわかった。 さらに,新しい定義の下でのitr利得はチャネル遷移統計学における非対称性と逆相関することを示した。 さらに個々の入力のカスタマイズにより、ITRの性能改善が認められた。 本研究の成果は,高度にダイナミックなbciチャネル容量,性能閾値,bci刺激設計の改善に寄与し,人間の脳とコンピュータシステム間のより緊密な共生を実現するとともに,基礎となる通信資源の効率を向上させることを期待する。

Information Transfer Rate (ITR) is a widely used information measurement metric, particularly popularized for SSVEP-based Brain-Computer (BCI) interfaces. By combining speed and accuracy into a single-valued parameter, this metric aids in the evaluation and comparison of various target identification algorithms across different BCI communities. To accurately depict performance and inspire an end-to-end design for futuristic BCI designs, a more thorough examination and definition of ITR is therefore required. We model the symbiotic communication medium, hosted by the retinogeniculate visual pathway, as a discrete memoryless channel and use the modified capacity expressions to redefine the ITR. We use graph theory to characterize the relationship between the asymmetry of the transition statistics and the ITR gain with the new definition, leading to potential bounds on data rate performance. On two well-known SSVEP datasets, we compared two cutting-edge target identification methods. Results indicate that the induced DM channel asymmetry has a greater impact on the actual perceived ITR than the change in input distribution. Moreover, it is demonstrated that the ITR gain under the new definition is inversely correlated with the asymmetry in the channel transition statistics. Individual input customizations are further shown to yield perceived ITR performance improvements. An algorithm is proposed to find the capacity of binary classification and further discussions are given to extend such results to ensemble techniques.We anticipate that the results of our study will contribute to the characterization of the highly dynamic BCI channel capacities, performance thresholds, and improved BCI stimulus designs for a tighter symbiosis between the human brain and computer systems while enhancing the efficiency of the underlying communication resources.
翻訳日:2023-01-04 11:43:18 公開日:2023-01-03